CN105893533B - 一种文本匹配方法及装置 - Google Patents

一种文本匹配方法及装置 Download PDF

Info

Publication number
CN105893533B
CN105893533B CN201610195786.6A CN201610195786A CN105893533B CN 105893533 B CN105893533 B CN 105893533B CN 201610195786 A CN201610195786 A CN 201610195786A CN 105893533 B CN105893533 B CN 105893533B
Authority
CN
China
Prior art keywords
participle
word
search
text
search word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610195786.6A
Other languages
English (en)
Other versions
CN105893533A (zh
Inventor
胡军
陈英傑
王天畅
叶澄灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201610195786.6A priority Critical patent/CN105893533B/zh
Publication of CN105893533A publication Critical patent/CN105893533A/zh
Application granted granted Critical
Publication of CN105893533B publication Critical patent/CN105893533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种文本匹配方法及装置,应用于电子设备,所述方法包括:接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率;根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度。本发明实施例中,同时使用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。

Description

一种文本匹配方法及装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种文本匹配方法及装置。
背景技术
文本匹配方法,即衡量搜索词与文本在文本上的相关性或者匹配度的方法,是搜索系统中一项必不可少的技术。
现有技术中常用的文本匹配方法有TF-IDF(term frequency-inverse documentfrequency,词频-逆向文件频率)算法。TF-IDF是一种统计方法,可以用来评估一个搜索词与一个文本集中的其中一份文本的匹配度。其基本原理是:搜索词与一份文本的匹配度可以由该搜索词包括的各分词的词频和重要性共同决定。其中,各分词的重要性由其逆向文件频率来标识,即可以认为在文本集中包含该分词的文本数越少,该分词的辨识度越高,也就越重要。具体地,任一分词的词频指的是该分词在文本中出现的频率,可以由该分词在该文本中出现的总次数除以该文本中所有分词出现的总次数得到;逆向文件频率指的是该分词在该文本集中的普遍重要性,可以由文本集中包含的总文本数目除以该文本集中包含该分词的文本的数目,再将得到的商取对数得到。
在实际应用中,搜索词与一份文本的匹配度与该搜索词包括的各分词的词频成正比,与各分词的逆向文件频率成反比。也就是说,当搜索词包括的各分词在一份文本中的词频越大,且各分词的逆向文件频率越小时,该搜索词与该文本的匹配度越大。
但是,这种方法中,仅仅依据分词的逆向文件频率,也就是分词在文本集中的出现频率来标识分词的重要性,单纯的认为出现频率越小的词越重要,存在一定的局限性,从而,导致文本匹配结果不准确。
发明内容
本发明实施例的目的在于提供一种文本匹配方法及装置,以提高文本匹配的准确性。具体技术方案如下:
第一方面,本发明实施例提供了一种文本匹配方法,应用于电子设备,所述方法包括:
接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;
根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;
根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率;
根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度。
进一步地,确定各分词的语义属性、作为独立搜索词的概率和点击率包括:
根据预先构建的专有名词数据库,判断每个分词是否位于该专有名词数据库中,如果是,确定分词的语义属性为专有名词,否则,确定分词的语义属性为普通属性;
根据预定时间内的搜索日志,针对每个分词,获得只包含该分词的搜索词的第一搜索次数,以及包含该分词的搜索词的第二搜索次数;将所述第一搜索次数除以所述第二搜索次数,得到该分词作为独立搜索词的概率;
根据所述搜索日志,针对每个分词,获得只包含该分词的搜索词的点击次数;将所述点击次数除以所述第二搜索次数,得到该分词的点击率。
进一步地,当至少根据各分词的词性及语义属性中的至少一个及预先训练的分类模型,确定各分词的重要性权重时,所述确定各分词的重要性权重之前,所述方法还包括:
根据所述各分词的词性和/或语义属性,及预先保存的权重模板,识别是否存在与所述各分词的词性和/或语义属性匹配的权重模板;
如果是,根据所述权重模板中指定的各分词的词性和/或语义属性对应的重要性权重,确定所述各分词的重要性权重;如果否,执行至少根据各分词的词性及语义属性中的至少一个及预先训练的分类模型,确定各分词的重要性权重的步骤。
进一步地,所述分类模型的训练过程包括:
选取预定数量的样本分词,并获得预先确定的各样本分词的重要性权重;
根据各样本分词的重要性权重,将所述各样本分词分类;
根据分类结果,确定各类别中包括的各样本分词的词性、语义属性、作为独立搜索词的概率和点击率;
使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独立搜索词的概率和点击率,训练得到所述分类模型。
进一步地,所述根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度包括:
根据以下公式,计算所述搜索词与所述待匹配文本的匹配度score(q,d):
Figure BDA0000955140670000031
其中,所述q为包含各分词t的搜索词;所述d为待匹配文本;所述idf(t)为任一分词t的逆向文件频率;所述twiq(t)为所述分词t的重要性权重;所述tf(t,d)为所述分词t的词频。
第二方面,本发明实施例提供了一种文本匹配装置,应用于电子设备,所述装置包括:
接收模块,用于接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;
第一确定模块,用于根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;
第二确定模块,用于根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率;
计算模块,用于根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度。
进一步地,所述装置还包括:
第三确定模块,用于根据预先构建的专有名词数据库,判断每个分词是否位于该专有名词数据库中,如果是,确定分词的语义属性为专有名词,否则,确定分词的语义属性为普通属性;
第一获得模块,用于根据预定时间内的搜索日志,针对每个分词,获得只包含该分词的搜索词的第一搜索次数,以及包含该分词的搜索词的第二搜索次数;将所述第一搜索次数除以所述第二搜索次数,得到该分词作为独立搜索词的概率;
第二获得模块,用于根据所述搜索日志,针对每个分词,获得只包含该分词的搜索词的点击次数;将所述点击次数除以所述第二搜索次数,得到该分词的点击率。
进一步地,所述装置还包括:
识别模块,用于当所述第一确定模块用于至少根据各分词的词性及语义属性中的至少一个及预先训练的分类模型,确定各分词的重要性权重时,根据所述各分词的词性和/或语义属性,及预先保存的权重模板,识别是否存在与所述各分词的词性和/或语义属性匹配的权重模板;
第四确定模块,用于当所述识别模块识别结果为是时,根据所述权重模板中指定的各分词的词性和/或语义属性对应的重要性权重,确定所述各分词的重要性权重;当所述识别模块识别结果为否时,触发所述第一确定模块。
进一步地,所述装置还包括:
选取模块,用于选取预定数量的样本分词,并获得预先确定的各样本分词的重要性权重;
分类模块,用于根据各样本分词的重要性权重,将所述各样本分词分类;
第五确定模块,用于根据分类结果,确定各类别中包括的各样本分词的词性、语义属性、作为独立搜索词的概率和点击率;
训练模块,用于使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独立搜索词的概率和点击率,训练得到所述分类模型。
进一步地,所述计算模块具体用于根据以下公式,计算所述搜索词与所述待匹配文本的匹配度score(q,d):
Figure BDA0000955140670000051
其中,所述q为包含各分词t的搜索词;所述d为待匹配文本;所述idf(t)为任一分词t的逆向文件频率;所述twiq(t)为所述分词t的重要性权重;所述tf(t,d)为所述分词t的词频。
本发明实施例提供了一种文本匹配方法及装置,应用于电子设备,所述方法包括:接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率;根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度。本发明实施例中,能够根据各分词本身的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,确定各分词的重要性权重,在计算搜索词与待匹配文本的匹配度时,可以同时根据搜索词中包括的各分词的词频、逆向文件频率、以及各分词的重要性权重来确定搜索词与待匹配文本的匹配度,与现有技术相比,同时使用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本匹配方法的流程图;
图2为本发明实施例提供的一种文本匹配方法的另一流程图;
图3为本发明实施例提供的一种文本匹配装置的结构示意图;
图4为本发明实施例提供的一种文本匹配装置的另一结构示意图。
具体实施方式
为了提高文本匹配的准确性,本发明实施例提供了一种文本匹配方法及装置。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了提高文本匹配的准确性,本发明实施例提供了一种文本匹配方法过程,如图1所示,该过程包括以下步骤:
S101,接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词。
本发明实施例提供的方法可以应用于电子设备。具体地,该电子设备例如可以是:笔记本电脑、智能终端、台式计算机、便携式计算机等等。
在实际应用中,用户可以使用电子设备搜索其想要的文本,上述文本例如可以是字符文本、视频文本、音频文本等。具体地,用户可以通过在浏览器的搜索框中输入搜索词来获取相应的文本。例如,当用户想要观看电影“速度与激情3”时,可以在电子设备的浏览器的搜索框中输入搜索词“速度与激情3”,电子设备接收到用户输入的搜索词后,通过搜索引擎在服务器的数据库中查找与该搜索词匹配的资源的文本,并将查找到的与该搜索词匹配的文本显示在电子设备中,以供用户查看。
可以理解,一般情况下,由于数据库中保存的文本数量较多,且存在内容相近的文本,因此,电子设备通常可以查找到多个与用户输入的搜索词匹配的文本。并且,查找到的各文本与搜索词的匹配度可能不完全相同。这种情况下,为了提高用户体验,使用户快速的查看到自己想要的文本,电子设备通常可以计算各文本与搜索词的匹配度,并且可以根据各文本与搜索词的匹配度,按照匹配度从大到小的顺序将文本显示在电子设备中。
在本发明实施例中,电子设备可以首先接收用户输入的搜索词。并且,为了计算搜索词与数据库中保存的各文本的匹配度,电子设备可以将搜索词进行分词处理,得到至少一个分词。对搜索词进行分词的过程可以采用现有技术,本发明实施例对此过程不进行赘述。
例如,当电子设备接收到用户输入的搜索词为“速度与激情3”时,可以将该搜索词进行分词处理,得到两个分词“速度与激情”和“3”。
S102,根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重。
在文本匹配过程中,除了各分词的词频之外,各分词的重要程度也是影响文本匹配准确性的重要因素。因此,在本发明实施例中,为了提高文本匹配的准确性,电子设备可以计算各分词的重要性权重,并且可以基于各分词的重要性权重计算搜索词与待匹配文本的匹配度。
具体地,电子设备可以预先训练得到用于计算各分词重要性权重的分类模型。电子设备获得搜索词中包括的各分词后,可以根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重。
可以理解,分词的词性可以用来标识其重要程度。例如,通常情况下,词性为名词、动词、数词等的分词,其对计算搜索词与文本的匹配度的影响较大;而词性为介词、连词等的分词,其对计算搜索词与文本的匹配度的影响可能较小。因此,本发明实施例中,可以根据各分词的词性,确定各分词的重要性权重。
在本发明实施例中,确定各分词的词性的过程可以采用现有技术,本发明实施例对此过程不进行赘述。
一些分词可能会在文本中具有特定的意义,如一些专有名词,人名、地名剧名、机构名等,这些分词对计算搜索词与文本的匹配度的影响会比较大。因此,在本发明实施例中,还可以根据各分词的语义属性,即各分词是否具有特定的意义,来确定各分词的重要性权重。
在本发明实施例中,可以预先构建专有名词数据库。在该专有名词数据库中保存所有的专有名词。电子设备在确定各分词的语义属性时,可以判断每个分词是否位于该专有名词数据库中,如果是,确定分词的语义属性为专有名词,否则,确定分词的语义属性为普通属性。
可选地,在本发明实施例中,专有名词数据库中还可以保存各专有名词及其特定含义的对应关系,如“北京、地名”,“李冰冰、人名”等。这种情况下,电子设备在确定各分词的语义属性时,可以判断每个分词是否位于该专有名词数据库中,如果是,确定分词的语义属性为与其对应的特定含义,如,分词“北京”的语义属性为“地名”,分词“李冰冰”的语义属性为“人名”等;否则,确定分词的语义属性为普通属性。
一般情况下,当用户输入的搜索词只包含一个分词时,可以表明该分词具有较高的辨识度。因此,在本发明实施例中,还可以根据各分词作为独立搜索词的概率来确定各分词的重要性权重。
在本发明实施例中,电子设备在确定各分词作为独立搜索词的概率时,可以根据预定时间内的搜索日志,上述预定时间可以为1天、1周、15天、1月等,针对每个分词,获得只包含该分词的搜索词的第一搜索次数,以及包含该分词的搜索词的第二搜索次数,然后将该第一搜索次数除以该第二搜索次数,得到该分词的作为独立搜索词的概率。
例如,当计算分词“李冰冰”的作为独立搜索词的概率时,可以根据一个月的搜索日志,获得只包含“李冰冰”的搜索词的搜索次数,如2684,以及包含“李冰冰”如“李冰冰”、“李冰冰电影”、“李冰冰背景”等搜索词的搜索次数,如5326,然后计算分词“李冰冰”作为独立搜索词的概率为2684/5326。
各分词的点击率也能标识该分词的重要程度。因此,在本发明实施例中,还可以根据各分词的点击率来确定各分词的重要性权重。
在本发明实施例中,电子设备在确定各分词的点击率时,可以根据预定时间内的搜索日志,上述预定时间可以为1天、1周、15天、1月等,针对每个分词,获得只包含该分词的搜索词的点击次数,以及包含该分词的搜索词的第二搜索次数,然后将该点击次数除以该第二搜索次数,得到该分词的点击率。
在本发明实施例中,电子设备可以根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的一个或多个,来确定各分词的重要性权重。
具体地,电子设备确定各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个后,可以将确定的各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个输入到预先训练的分类模型中,并将该分类模型输出的结果确定为各分词的重要性权重。
S103,根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率。
在本发明实施例中,电子设备还可以根据待匹配文本以及该待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率,其中,上述待匹配文本可以是数据库中保存的任一文本。
在本发明实施例中,电子设备确定各分词的词频、以及逆向文件频率的过程可以采用现有技术,本发明实施例对此过程不进行赘述。
S104,根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度。
确定各分词的重要性权重、词频以及逆向文件频率后,电子设备可以根据各分词的重要性权重、词频以及逆向文件频率,计算搜索词与待匹配文本的匹配度。
具体地,在本发明实施例中,可以根据以下公式,计算搜索词与待匹配文本的匹配度score(q,d):
Figure BDA0000955140670000091
其中,q为包含各分词t的搜索词;d为待匹配文本;idf(t)为任一分词t的逆向文件频率;twiq(t)为分词t的重要性权重;tf(t,d)为分词t的词频。
可以理解,电子设备可以使用上述方法计算文本集中每个文本与搜索词的匹配度,并且,还可以根据计算结果,按照匹配度从大到小的顺序将各与搜索词匹配的文本显示在电子设备中,以供用户查看。
本发明实施例提供的文本匹配方法,能够根据各分词本身的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,确定各分词的重要性权重,在计算搜索词与待匹配文本的匹配度时,可以同时根据搜索词中包括的各分词的词频、逆向文件频率、以及各分词的重要性权重来确定搜索词与待匹配文本的匹配度,与现有技术相比,同时使用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
进一步地,在本发明实施例中,为了提高文本匹配效率,可以预先保存权重模板,该权重模板可以根据常用的搜索词以及搜索词中各分词的重要程度来确定,如<剧名/1.3>+<数词/0.3>,<剧名/1.3>+<人名/0.8>,<剧名/1.3>+<国语版/0.3>等。
当电子设备至少根据各分词的词性及语义属性中的至少一个及预先训练的分类模型,确定各分词的重要性权重时,电子设备可以首先根据各分词的词性和/或语义属性,及预先保存的权重模板,识别是否存在与各分词的词性和/或语义属性匹配的权重模板,如果是,根据权重模板中指定的各分词的词性和/或语义属性对应的重要性权重,确定各分词的重要性权重;如果否,电子设备仍至少根据各分词的词性及语义属性中的至少一个及预先训练的分类模型,确定各分词的重要性权重。
需要说明的是,在本发明实施例中,预先保存的权重模板可以包括匹配项和对应的重要性权重,其中,匹配项中可以只包括各分词的词性,也可以只包括各分词的语义属性,或者,还可以同时包括各分词的词性和语义属性。并且,对于包括多个分词的搜索词,在识别与各分词匹配的权重模板时,针对不同的分词,使用的匹配项可以不同。
例如,当电子设备接收到用户输入的搜索词为“速度与激情3”,分词结果为“速度与激情”和“3”时,可以确定分词“速度与激情”的词性为名词,语义属性为剧名;分词“3”的词性为数词,语义属性为普通属性。这种情况下,电子设备可以根据分词“速度与激情”的语义属性,以及分词“3”的词性,确定该搜索词中包括的各分词与电子设备预先保存的权重模板<剧名/1.3>+<数词/0.3>匹配,因此,电子设备可以直接根据该权重模板分别确定分词“速度与激情”的重要性权重为1.3,分词“3”的重要性权重为0.3。
进一步地,在本发明实施例中,可以预先训练得到用于确定各分词的重要性权重的分类模型。
具体地,如图2所示,本发明实施例提供的文本匹配方法还可以包括:
S201,选取预定数量的样本分词,并获得预先确定的各样本分词的重要性权重。
在本发明实施例中,电子设备在训练分类模型时,可以首先选取预定数量(如300、500、1000等)的样本分词。并且,可以由专业人士根据各分词在搜索词中的重要程度确定各样本分词的重要性权重。例如,为了避免样本分词在分类上的严重倾斜,可以选取重要性权重分布均匀的样本分词。
S202,根据各样本分词的重要性权重,将所述各样本分词分类。
在本发明实施例中,获得各样本分词的重要性权重后,电子设备可以根据各样本分词的重要性权重,将各样本分词分类。
例如,可以根据各样本分词的重要性权重,将样本分词分为五类,具体地,重要性权重1.0-0.8的分词可以为第一类,重要性权重0.8-0.6的分词可以为第二类,重要性权重0.6-0.4的分词可以为第三类,重要性权重0.4-0.2的分词可以为第四类,重要性权重0.2-0的分词可以为第五类。
S203,根据分类结果,确定各类别中包括的各样本分词的词性、语义属性、作为独立搜索词的概率和点击率。
将各样本分词分类后,电子设备还可以根据分类结果,确定各类别中包括的各样本分词的词性、语义属性、作为独立搜索词的概率和点击率。
在本发明实施例中,确定各样本分词的词性的过程可以采用现有技术,本发明实施例对此过程不进行赘述。
在本发明实施例中,可以预先构建专有名词数据库。在该专有名词数据库中保存所有的专有名词。电子设备在确定各样本分词的语义属性时,可以判断每个样本分词是否位于该专有名词数据库中,如果是,确定样本分词的语义属性为专有名词,否则,确定样本分词的语义属性为普通属性。
可选地,在本发明实施例中,专有名词数据库中可以保存各专有名词及其特定含义的对应关系,如“北京、地名”,“李冰冰、人名”等。这种情况下,电子设备在确定各样本分词的语义属性时,可以判断每个样本分词是否位于该专有名词数据库中,如果是,确定样本分词的语义属性为与其对应的特定含义,如,样本分词“北京”的语义属性为“地名”,样本分词“李冰冰”的语义属性为“人名”等;否则,确定样本分词的语义属性为普通属性。
在本发明实施例中,电子设备在确定各样本分词的作为独立搜索词的概率时,可以根据预定时间内的搜索日志,上述预定时间可以为1天、1周、15天、1月等,针对每个样本分词,获得只包含该样本分词的搜索词的第一搜索次数,以及包含该样本分词的搜索词的第二搜索次数,然后将该第一搜索次数除以该第二搜索次数,得到该样本分词的作为独立搜索词的概率。
电子设备在确定各样本分词的点击率时,可以根据预定时间内的搜索日志,上述预定时间可以为1天、1周、15天、1月等,针对每个样本分词,获得只包含该样本分词的搜索词的点击次数,以及包含该样本分词的搜索词的第二搜索次数,然后将该点击次数除以该第二搜索次数,得到该样本分词的点击率。
S204,使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独立搜索词的概率和点击率,训练得到所述分类模型。
得到各类别中包括的各样本分词的词性、语义属性、作为独立搜索词的概率和点击率后,电子设备可以使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独立搜索词的概率和点击率,训练得到分类模型。
例如,电子设备可以选择常见的分类器,如逻辑回归、决策树以及SVM(SupportVector Machine,支持向量机)等,使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独立搜索词的概率和点击率,训练得到分类模型。在本发明实施例中,训练分类模型的过程可以采用现有技术,本发明实施例对此过程不进行赘述。
本发明实施例提供的方案,能够训练得到确定分词重要性权重的分类模型,当电子设备计算搜索词与待匹配文本的匹配度时,可以通过该分类模型确定搜索词中包括的各分词的重要性权重,进一步地可以同时根据搜索词中包括的各分词的词频、逆向文件频率、以及各分词的重要性权重来确定搜索词与待匹配文本的匹配度,与现有技术相比,同时使用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
相应于上面的方法实施例,本发明实施例还提供了相应的装置实施例。
图3为本发明实施例提供的一种文本匹配装置,应用于电子设备,所述装置包括:
接收模块310,用于接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;
第一确定模块320,用于根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;
第二确定模块330,用于根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率;
计算模块340,用于根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度。
本发明实施例提供的文本匹配装置,能够根据各分词本身的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,确定各分词的重要性权重,在计算搜索词与待匹配文本的匹配度时,可以同时根据搜索词中包括的各分词的词频、逆向文件频率、以及各分词的重要性权重来确定搜索词与待匹配文本的匹配度,与现有技术相比,同时使用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
进一步地,所述装置还包括:
第三确定模块(图中未示出),用于根据预先构建的专有名词数据库,判断每个分词是否位于该专有名词数据库中,如果是,确定分词的语义属性为专有名词,否则,确定分词的语义属性为普通属性;
第一获得模块(图中未示出),用于根据预定时间内的搜索日志,针对每个分词,获得只包含该分词的搜索词的第一搜索次数,以及包含该分词的搜索词的第二搜索次数;将所述第一搜索次数除以所述第二搜索次数,得到该分词作为独立搜索词的概率;
第二获得模块(图中未示出),用于根据所述搜索日志,针对每个分词,获得只包含该分词的搜索词的点击次数;将所述点击次数除以所述第二搜索次数,得到该分词的点击率。
进一步地,所述装置还包括:
识别模块(图中未示出),用于当所述第一确定模块用于至少根据各分词的词性及语义属性中的至少一个及预先训练的分类模型,确定各分词的重要性权重时,根据所述各分词的词性和/或语义属性,及预先保存的权重模板,识别是否存在与所述各分词的词性和/或语义属性匹配的权重模板;
第四确定模块(图中未示出),用于当所述识别模块识别结果为是时,根据所述权重模板中指定的各分词的词性和/或语义属性对应的重要性权重,确定所述各分词的重要性权重;当所述识别模块识别结果为否时,触发所述第一确定模块。
进一步地,所述计算模块340,具体用于根据以下公式,计算所述搜索词与所述待匹配文本的匹配度score(q,d):
Figure BDA0000955140670000141
其中,所述q为包含各分词t的搜索词;所述d为待匹配文本;所述idf(t)为任一分词t的逆向文件频率;所述twiq(t)为所述分词t的重要性权重;所述tf(t,d)为所述分词t的词频。
进一步地,如图4所示,本发明实施例提供的文本匹配装置还包括:
选取模块410,用于选取预定数量的样本分词,并获得预先确定的各样本分词的重要性权重;
分类模块420,用于根据各样本分词的重要性权重,将所述各样本分词分类;
第五确定模块430,用于根据分类结果,确定各类别中包括的各样本分词的词性、语义属性、作为独立搜索词的概率和点击率;
训练模块440,用于使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独立搜索词的概率和点击率,训练得到所述分类模型。
本发明实施例提供的方案,能够训练得到确定分词重要性权重的分类模型,当电子设备计算搜索词与待匹配文本的匹配度时,可以通过该分类模型确定搜索词中包括的各分词的重要性权重,进一步地可以同时根据搜索词中包括的各分词的词频、逆向文件频率、以及各分词的重要性权重来确定搜索词与待匹配文本的匹配度,与现有技术相比,同时使用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (6)

1.一种文本匹配方法,其特征在于,应用于电子设备,所述方法包括:
接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;
根据各分词的词性、语义属性中的至少一个,及作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;或者,根据各分词的作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;所述独立搜索词表示用户输入只包含一个分词的搜索词;
根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率,所述待匹配文本为数据库中保存的任一文本;
根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度;
获得各分词作为独立搜索词的点击率包括:根据搜索日志,针对每个分词,获得只包含该分词的搜索词的点击次数;将所述点击次数除以第二搜索次数,得到该分词的点击率,所述第二搜索次数为包含该分词的搜索词的搜索次数,所述搜索词的点击次数表示针对该搜索词检索出的检索结果的点击次数;
所述分类模型的训练过程包括:选取预定数量的样本分词,并获得预先确定的各样本分词的重要性权重;根据各样本分词的重要性权重,将所述各样本分词分类;根据分类结果,确定各类别中包括的各样本分词的词性、语义属性、作为独立搜索词的概率和点击率;使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独立搜索词的概率和点击率,训练得到所述分类模型;
所述根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度包括:
根据以下公式,计算所述搜索词与所述待匹配文本的匹配度score(q,d):
Figure FDA0002983797170000021
其中,所述q为包含各分词t的搜索词;所述d为待匹配文本;所述idf(t)为任一分词t的逆向文件频率;所述twiq(t)为所述分词t的重要性权重;所述tf(t,d)为所述分词t的词频。
2.根据权利要求1所述的方法,其特征在于,确定各分词的语义属性、作为独立搜索词的概率包括:
根据预先构建的专有名词数据库,判断每个分词是否位于该专有名词数据库中,如果是,确定分词的语义属性为专有名词,否则,确定分词的语义属性为普通属性;
根据预定时间内的搜索日志,针对每个分词,获得只包含该分词的搜索词的第一搜索次数,以及包含该分词的搜索词的第二搜索次数;将所述第一搜索次数除以所述第二搜索次数,得到该分词作为独立搜索词的概率。
3.根据权利要求1所述的方法,其特征在于,当至少根据各分词的词性及语义属性中的至少一个及预先训练的分类模型,确定各分词的重要性权重时,所述确定各分词的重要性权重之前,所述方法还包括:
根据所述各分词的词性和/或语义属性,及预先保存的权重模板,识别是否存在与所述各分词的词性和/或语义属性匹配的权重模板;
如果是,根据所述权重模板中指定的各分词的词性和/或语义属性对应的重要性权重,确定所述各分词的重要性权重;如果否,执行至少根据各分词的词性及语义属性中的至少一个及预先训练的分类模型,确定各分词的重要性权重的步骤。
4.一种文本匹配装置,其特征在于,应用于电子设备,所述装置包括:
接收模块,用于接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;
第一确定模块,用于根据各分词的词性、语义属性中的至少一个,及作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;或者,根据各分词的作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;所述独立搜索词表示用户输入只包含一个分词的搜索词;
第二确定模块,用于根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率,所述待匹配文本为数据库中保存的任一文本;
计算模块,用于根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度;
第二获得模块,用于根据搜索日志,针对每个分词,获得只包含该分词的搜索词的点击次数;将所述点击次数除以第二搜索次数,得到该分词的点击率,所述第二搜索次数为包含该分词的搜索词的搜索次数,所述搜索词的点击次数表示针对该搜索词检索出的检索结果的点击次数;
选取模块,用于选取预定数量的样本分词,并获得预先确定的各样本分词的重要性权重;
分类模块,用于根据各样本分词的重要性权重,将所述各样本分词分类;
第五确定模块,用于根据分类结果,确定各类别中包括的各样本分词的词性、语义属性、作为独立搜索词的概率和点击率;
训练模块,用于使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独立搜索词的概率和点击率,训练得到所述分类模型;
所述计算模块具体用于根据以下公式,计算所述搜索词与所述待匹配文本的匹配度score(q,d):
Figure FDA0002983797170000031
其中,所述q为包含各分词t的搜索词;所述d为待匹配文本;所述idf(t)为任一分词t的逆向文件频率;所述twiq(t)为所述分词t的重要性权重;所述tf(t,d)为所述分词t的词频。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
第三确定模块,用于根据预先构建的专有名词数据库,判断每个分词是否位于该专有名词数据库中,如果是,确定分词的语义属性为专有名词,否则,确定分词的语义属性为普通属性;
第一获得模块,用于根据预定时间内的搜索日志,针对每个分词,获得只包含该分词的搜索词的第一搜索次数,以及包含该分词的搜索词的第二搜索次数;将所述第一搜索次数除以所述第二搜索次数,得到该分词作为独立搜索词的概率。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
识别模块,用于当所述第一确定模块用于至少根据各分词的词性及语义属性中的至少一个及预先训练的分类模型,确定各分词的重要性权重时,根据所述各分词的词性和/或语义属性,及预先保存的权重模板,识别是否存在与所述各分词的词性和/或语义属性匹配的权重模板;
第四确定模块,用于当所述识别模块识别结果为是时,根据所述权重模板中指定的各分词的词性和/或语义属性对应的重要性权重,确定所述各分词的重要性权重;当所述识别模块识别结果为否时,触发所述第一确定模块。
CN201610195786.6A 2016-03-31 2016-03-31 一种文本匹配方法及装置 Active CN105893533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610195786.6A CN105893533B (zh) 2016-03-31 2016-03-31 一种文本匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610195786.6A CN105893533B (zh) 2016-03-31 2016-03-31 一种文本匹配方法及装置

Publications (2)

Publication Number Publication Date
CN105893533A CN105893533A (zh) 2016-08-24
CN105893533B true CN105893533B (zh) 2021-05-07

Family

ID=57014805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610195786.6A Active CN105893533B (zh) 2016-03-31 2016-03-31 一种文本匹配方法及装置

Country Status (1)

Country Link
CN (1) CN105893533B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107784019A (zh) * 2016-08-30 2018-03-09 苏宁云商集团股份有限公司 一种搜索业务中搜索词处理方法及系统
CN106503184B (zh) * 2016-10-24 2019-09-20 海信集团有限公司 确定目标文本所属业务类别的方法及装置
CN106528694B (zh) * 2016-10-31 2019-12-06 百度在线网络技术(北京)有限公司 基于人工智能的语义判定处理方法和装置
CN106897398B (zh) * 2017-02-08 2020-07-10 北京奇艺世纪科技有限公司 一种视频展示方法及装置
CN108052503B (zh) * 2017-12-26 2021-04-27 北京奇艺世纪科技有限公司 一种置信度的计算方法及装置
CN108804511B (zh) * 2018-04-20 2022-04-22 北京奇艺世纪科技有限公司 一种搜索召回方法、装置及电子设备
CN109885688B (zh) * 2019-03-05 2021-05-28 湖北亿咖通科技有限公司 文本分类方法、装置、计算机可读存储介质和电子设备
CN111667813B (zh) * 2019-03-06 2024-04-19 北京精鸿软件科技有限公司 处理文件的方法和装置
CN109947902B (zh) * 2019-03-06 2021-03-26 腾讯科技(深圳)有限公司 一种数据查询方法、装置和可读介质
CN110110191B (zh) * 2019-03-28 2021-05-25 北京奇艺世纪科技有限公司 搜索处理方法和装置及计算机可读存储介质
CN110287396B (zh) * 2019-05-07 2021-08-03 清华大学 文本匹配方法及装置
CN110263127A (zh) * 2019-06-21 2019-09-20 北京创鑫旅程网络技术有限公司 基于用户查询词进行文本搜索方法及装置
CN110347920A (zh) * 2019-07-02 2019-10-18 北京纵横无双科技有限公司 一种健康信息的检索匹配方法及装置
CN110674289A (zh) * 2019-07-04 2020-01-10 南瑞集团有限公司 基于分词权重判断文章所属分类的方法、装置和存储介质
CN110688852B (zh) * 2019-09-27 2023-04-07 西安赢瑞电子有限公司 一种汉字词语频度存储方法
CN110909532B (zh) * 2019-10-31 2021-06-11 银联智惠信息服务(上海)有限公司 用户名称匹配方法、装置、计算机设备和存储介质
CN111128376B (zh) * 2019-11-21 2023-06-16 泰康保险集团股份有限公司 一种推荐评估表单的方法和装置
CN111104488B (zh) * 2019-12-30 2023-10-24 广州广电运通信息科技有限公司 检索和相似度分析一体化的方法、装置和存储介质
CN111444406A (zh) * 2020-03-26 2020-07-24 安徽博约信息科技股份有限公司 一种爬虫正文匹配方法
CN112507709B (zh) * 2020-12-28 2024-05-24 科大讯飞华南人工智能研究院(广州)有限公司 文档匹配方法以及电子设备、存储装置
CN113515950B (zh) * 2021-04-30 2023-06-23 贵州电网有限责任公司 一种适用于电力智能调度的自然语言处理语义分析方法
CN113505196B (zh) * 2021-06-30 2024-01-30 和美(深圳)信息技术股份有限公司 基于词性的文本检索方法、装置、电子设备及存储介质
CN114742051A (zh) * 2022-04-25 2022-07-12 京东科技信息技术有限公司 日志处理方法、装置、计算机系统及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376065A (zh) * 2014-11-05 2015-02-25 百度在线网络技术(北京)有限公司 检索词重要度的确定方法和装置
CN104899322A (zh) * 2015-06-18 2015-09-09 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9208251B2 (en) * 2007-01-19 2015-12-08 Linkedin Corporation Computer-based evaluation tool for selecting personalized content for users
US20100153366A1 (en) * 2008-12-15 2010-06-17 Motorola, Inc. Assigning an indexing weight to a search term
CN103257957B (zh) * 2012-02-15 2017-09-08 深圳市腾讯计算机系统有限公司 一种基于中文分词的文本相似性识别方法及装置
CN103823809B (zh) * 2012-11-16 2018-06-08 百度在线网络技术(北京)有限公司 一种对查询短语分类的方法、分类优化的方法及其装置
CN104050240A (zh) * 2014-05-26 2014-09-17 北京奇虎科技有限公司 一种确定搜索查询词类别属性的方法和装置
CN104298715B (zh) * 2014-09-16 2017-12-19 北京航空航天大学 一种基于tf‑idf的多索引结果合并排序方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104376065A (zh) * 2014-11-05 2015-02-25 百度在线网络技术(北京)有限公司 检索词重要度的确定方法和装置
CN104899322A (zh) * 2015-06-18 2015-09-09 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法

Also Published As

Publication number Publication date
CN105893533A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105893533B (zh) 一种文本匹配方法及装置
US8352455B2 (en) Processing a content item with regard to an event and a location
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106156204B (zh) 文本标签的提取方法和装置
WO2019091026A1 (zh) 知识库文档快速检索方法、应用服务器及计算机可读存储介质
US10042896B2 (en) Providing search recommendation
US9679001B2 (en) Consensus search device and method
US9135350B2 (en) Computer-generated sentiment-based knowledge base
US10289957B2 (en) Method and system for entity linking
WO2020140373A1 (zh) 一种意图识别方法、识别设备及计算机可读存储介质
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN109241319B (zh) 一种图片检索方法、装置、服务器和存储介质
CN109508373B (zh) 企业舆情指数的计算方法、设备及计算机可读存储介质
US20200073890A1 (en) Intelligent search platforms
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
CN107092679B (zh) 一种特征词向量获得方法、文本分类方法及装置
Verhoeven et al. Gender profiling for Slovene Twitter communication: The influence of gender marking, content and style
US20150293932A1 (en) Digital information analysis system, digital information analysis method, and digital information analysis program
CN111930949B (zh) 搜索串处理方法、装置、计算机可读介质及电子设备
CN111460177B (zh) 影视类表情搜索方法、装置、存储介质、计算机设备
US10452710B2 (en) Selecting content items based on received term using topic model
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN115630144A (zh) 一种文档搜索方法、装置及相关设备
CN112926297B (zh) 处理信息的方法、装置、设备和存储介质
CN112269852B (zh) 生成舆情专题方法、系统及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant