CN109189907A - 一种基于语义匹配的检索方法及装置 - Google Patents
一种基于语义匹配的检索方法及装置 Download PDFInfo
- Publication number
- CN109189907A CN109189907A CN201810957594.3A CN201810957594A CN109189907A CN 109189907 A CN109189907 A CN 109189907A CN 201810957594 A CN201810957594 A CN 201810957594A CN 109189907 A CN109189907 A CN 109189907A
- Authority
- CN
- China
- Prior art keywords
- word
- similarity
- retrieved
- word sequence
- tone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于语义匹配的检索方法及装置,该方法包括:对预设数据库中的至少一个数据项目进行分词,形成每一个数据项目对应的样本词序列;对待检索语句进行分词,得到待检索词序列;计算待检索词序列与每一个样本词序列之间的第一相似度;确定待检索词序列对应的第一字音,以及每一个样本词序列对应的第二字音;计算第一字音与第二字音之间的第二相似度;根据预设同义词林确定待检索词序列对应的同义词序列;计算同义词序列与每一个样本词序列之间的第三相似度;根据第一相似度、第二相似度和第三相似度,计算目标相似度;当目标相似度大于预设阈值时,输出与目标相似度相对应的数据项目。本方案能提高检索效率和准确性。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于语义匹配的检索方法及装置。
背景技术
随着计算机和互联网的发展,人工智能愈演愈烈,其中,自然语言的处理以及利用处理后的词汇进行检索是人工智能的重要组成部分。
目前,对自然语言进行处理时,一般需要进行句法分析,确定必要的句法结构,即确定主语、谓语、宾语等对应的词或词组。在检索时,则根据各个词或词组及其对应的句法结构进行检索。
由于处理过程中需要对句法结构进行分析,而自然语言中的句法结构多种多样,因此句法结构的解析较为耗时,从而使得自然语言的检索效率较低。
发明内容
本发明实施例提供了一种基于语义匹配的检索方法及装置,能提高检索效率。
第一方面,本发明实施例提供了一种基于语义匹配的检索方法,对预设的数据库中的至少一个数据项目进行分词,形成每一个所述数据项目对应的样本词序列;包括:
对获取的待检索语句进行分词,得到待检索词序列;
计算所述待检索词序列与每一个所述样本词序列之间的第一相似度;
确定所述待检索词序列对应的第一字音,以及每一个所述样本词序列对应的第二字音;
计算所述第一字音与每一个所述第二字音之间的第二相似度;
根据预设的同义词林,确定所述待检索词序列对应的至少一个同义词序列;
计算每一个所述同义词序列与每一个所述样本词序列之间的第三相似度;
根据所述待检索词序列对应的所述第一相似度、所述第二相似度和所述第三相似度,计算所述待检索词序列对应的目标相似度;
当所述目标相似度大于预设阈值时,输出与所述目标相似度相对应的样本词序列对应的数据项目。
优选地,
进一步包括:
构建领域词库,其中,所述领域词库包括:至少一个专业领域对应的至少一个领域词汇;
所述对获取的待检索语句进行分词,得到待检索词序列,包括:
根据所述领域词库对所述待检索语句进行分词,得到与所述领域词汇相匹配的至少一个待检索领域词汇以及未分词语句;
利用预设的中文分词系统对所述未分词语句进行分词,得到至少一个待检索通用词汇;
根据所述至少一个待检索领域词汇以及所述至少一个待检索通用词汇,形成所述待检索词序列。
优选地,
所述确定所述待检索词序列对应的第一字音,包括:
确定每一个所述待检索领域词汇对应的领域词汇字音;
从所述待检索词序列中确定至少一个非停用词,并确定所述至少一个非停用词对应的非停用词汇字音;
根据所述领域词汇字音和所述非停用词汇字音,形成所述第一字音。
优选地,
所述根据所述待检索词汇对应的所述第一相似度、所述第二相似度和所述第三相似度,计算所述待检索词序列对应的目标相似度,包括:
利用下述计算公式,计算所述目标相似度;
M=α·A+β·B+γ·C
其中,M表征所述目标相似度,α表征所述第一相似度对应的第一策略权重值;A表征所述第一相似度;β表征所述第二相似度对应的第二策略权重值;B表征所述第二相似度;γ表征所述第三相似度对应的第三策略权重值;C表征所述第三相似度;
优选地,
所述计算所述待检索词序列与每一个所述样本词序列之间的第一相似度,包括:
针对每一个所述样本词序列,均执行:
从所述待检索词序列中确定出至少一个当前词汇;
确定每一个所述当前词汇在所述待检索词序列中的第一词频,以及每一个所述当前词汇在所述样本词序列中的第二词频;
利用以下计算公式,计算所述待检索词序列与所述样本词序列之间的第一相似度;
其中,S1表征所述第一相似度,ai表征所述第一词频,bi表征所述第二词频。
优选地,
所述计算所述第一字音与每一个所述第二字音之间的第二相似度,包括:
分别确定所述领域词汇字音与每一个所述非停用词汇字音在所述第一字音中的第三词频,以及所述领域词汇字音与每一个所述非停用词汇字音在所述第二字音中的第四词频;
利用以下计算公式,计算所述第二相似度;
其中,S2表征所述第二相似度,ci表征所述第三词频,di表征所述第四词频。
第二方面,本发明实施例提供了一种基于语义匹配的检索装置,包括:分词模块、第一计算模块、第二计算模块、第三计算模块和处理模块;其中,
所述分词模块,用于对预设的数据库中的至少一个数据项目进行分词,形成每一个所述数据项目对应的样本词序列;对获取到的待检索语句进行分词,得到待检索词序列;
所述第一计算模块,用于计算所述待检索词序列与每一个所述样本词序列之间的第一相似度;
所述第二计算模块,用于确定所述待检索词序列对应的第一字音,以及每一个所述样本词序列对应的第二字音;计算所述第一字音与每一个所述第二字音之间的第二相似度;
所述第三计算模块,用于根据预设的同义词林,确定所述待检索词序列对应的至少一个同义词序列;计算每一个所述同义词序列与每一个所述样本词序列之间的第三相似度;
所述处理模块,用于根据所述待检索词序列对应的所述第一相似度、所述第二相似度和所述第三相似度,计算所述待检索词序列对应的目标相似度;当所述目标相似度大于预设阈值时,输出与所述目标相似度相对应的样本词序列对应的数据项目。
优选地,
进一步包括:构建模块;其中,
所述构建模块,用于构建领域词库,其中,所述领域词库包括:至少一个专业领域对应的至少一个领域词汇;
所述分词模块,用于根据所述领域词库对所述待检索语句进行分词,得到与所述领域词汇相匹配的至少一个待检索领域词汇以及未分词语句;利用预设的中文分词系统对所述未分词语句进行分词,得到至少一个待检索通用词汇;根据所述至少一个待检索领域词汇以及所述至少一个待检索通用词汇,形成所述待检索词序列。
优选地,
所述第二计算模块,用于确定每一个所述待检索领域词汇对应的领域词汇字音;从所述待检索词序列中确定至少一个非停用词,并确定所述至少一个非停用词对应的非停用词汇字音;根据所述领域词汇字音和所述非停用词汇字音,形成所述第一字音。
优选地,
所述处理模块,用于利用下述计算公式,计算所述目标相似度;
M=α·A+β·B+γ·C
其中,M表征所述目标相似度,α表征所述第一相似度对应的第一策略权重值;A表征所述第一相似度;β表征所述第二相似度对应的第二策略权重值;B表征所述第二相似度;γ表征所述第三相似度对应的第三策略权重值;C表征所述第三相似度;
优选地,
所述第一计算单元,用于针对每一个所述样本词序列,均执行:从所述待检索词序列中确定出至少一个当前词汇;确定每一个所述当前词汇在所述待检索词序列中的第一词频,以及每一个所述当前词汇在所述样本词序列中的第二词频;利用以下计算公式,计算所述检索词序列与所述样本词序列之间的第一相似度;
其中,S1表征所述第一相似度,ai表征所述第一词频,bi表征所述第二词频。
优选地,
所述第二计算单元,用于分别确定所述领域词汇字音与每一个所述非停用词汇字音在所述第一字音中的第三词频,以及所述领域词汇字音与每一个所述非停用词汇字音在所述第二字音中的第四词频;利用以下计算公式,计算所述第二相似度;
其中,S2表征所述第二相似度,ci表征所述第三词频,di表征所述第四词频。
本发明实施例提供了一种基于语义匹配的检索方法及装置,通过预先对数据库中的各个数据项目进行分词,得到每一个数据项目对应的样本词序列。在获取到待检索语句之后,对待检索语句进行分词,得到待检索词序列,然后计算待检索词序列与每一个样本词序列之间的第一相似度。然后确定待检索词序列对应的第一字音,以及样本词序列对应的第二字音,再计算第一字音与每一个第二字音之间的第二相似度。再根据预设的同义词林,对待检索词序列进行同义扩展,并计算扩展后的每个同义词序列与样本词序列之间的第三相似度。最后根据计算出的第一相似度、第二相似度和第三相似度,确定大于预设阈值的目标相似度,并输出相应的数据项目。由此,通过对用户输入的检索语句进行分词、字音转换和同义扩展等操作实现了检索语句的准确检索,而无需对检索语句中的语义进行详细分析,因此提高了检索语句的检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种基于语义匹配的检索方法的流程图;
图2是本发明另一个实施例提供的一种基于语义匹配的检索方法的流程图;
图3是本发明一个实施例提供的一种基于语义匹配的检索装置的结构示意图;
图4是本发明另一个实施例提供的一种基于语义匹配的检索装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种基于语义匹配的检索方法,该方法可以包括以下步骤:
步骤101:对预设的数据库中的至少一个数据项目进行分词,形成每一个所述数据项目对应的样本词序列;
步骤102:对获取的待检索语句进行分词,得到待检索词序列;
步骤103:计算所述待检索词序列与每一个所述样本词序列之间的第一相似度;
步骤104:确定所述待检索词序列对应的第一字音,以及每一个所述样本词序列对应的第二字音;
步骤105:计算所述第一字音与每一个所述第二字音之间的第二相似度;
步骤106:根据预设的同义词林,确定所述待检索词序列对应的至少一个同义词序列;
步骤107:计算每一个所述同义词序列与每一个所述样本词序列之间的第三相似度;
步骤108:根据所述待检索词序列对应的所述第一相似度、所述第二相似度和所述第三相似度,计算所述待检索词序列对应的目标相似度;
步骤109:当所述目标相似度大于预设阈值时,输出与所述目标相似度相对应的样本词序列对应的数据项目。
上述实施例中,通过预先对数据库中的各个数据项目进行分词,得到每一个数据项目对应的样本词序列。在获取到待检索语句之后,对待检索语句进行分词,得到待检索词序列,然后计算待检索词序列与每一个样本词序列之间的第一相似度。然后确定待检索词序列对应的第一字音,以及样本词序列对应的第二字音,再计算第一字音与每一个第二字音之间的第二相似度。再根据预设的同义词林,对待检索词序列进行同义扩展,并计算扩展后的每个同义词序列与样本词序列之间的第三相似度。最后根据计算出的第一相似度、第二相似度和第三相似度,确定大于预设阈值的目标相似度,并输出相应的数据项目。由此,通过对用户输入的检索语句进行分词、字音转换和同义扩展等操作实现了检索语句的准确检索,而无需对检索语句中的语义进行详细分析,因此提高了检索语句的检索效率,同时提高了数据库检索的准确性、关联性和模糊性。
本发明一个实施例中,该方法可以构建领域词库,其中,所述领域词库包括:至少一个专业领域对应的至少一个领域词汇;
步骤102的具体实施方式,可以包括:
根据所述领域词库对所述待检索语句进行分词,得到与所述领域词汇相匹配的至少一个待检索领域词汇以及未分词语句;
利用预设的中文分词系统对所述未分词语句进行分词,得到至少一个待检索通用词汇;
根据所述至少一个待检索领域词汇以及所述至少一个待检索通用词汇,形成所述待检索词序列。
在这里,可根据不同数据库的数据,建立适用于当前数据库的领域词库,例如,建立化学词库或者计算机词库,化学词库中包括化学领域的专业词汇,计算机词库中包括计算机领域的专业词汇。当对待检索语句进行分词时,在分词过程中加入领域词汇,以确保领域词汇等到正确的切分,从而有利于提高检索准确率。在根据领域词库从待检索语句中切分出待检索领域词汇之后,利用已有的中文分词系统对未分词语句继续进行分词,例如通过LTP、NLPIR或Jieba等分词系统对未分词语句进行分词,得到待检索通用词汇,由待检索领域词汇和待检索通用词汇即组成了待检索词序列。由此,采用领域词库和已有中分分词系统相结合的方式,对待检索语句进行分词,有利于提高分词准确性,从而提高检索准确率。
本发明一个实施例中,步骤104的具体实施方式,可以包括:
确定每一个所述待检索领域词汇对应的领域词汇字音;
从所述待检索词序列中确定至少一个非停用词,并确定所述至少一个非停用词对应的非停用词汇字音;
根据所述领域词汇字音和所述非停用词汇字音,形成所述第一字音。
为确保某些情况下音同字不同的错别字情况,将待检索词序列(中文)转换为拼音,有利于进一步提高检索准确率。在这里,将待检索词序列中的领域词汇和非停用词进行字音转换,而对检索词序列中的停用词不做字音抓换,例如,对“的”、“和”、“这”和“那”等无实意的停用词不做字音转换,则在计算第二相似度时,这些非停用词也无需纳入计算过程,这一方面提高了字音转换的效率,从而有利于提高检索效率,另一方面由于去除了停用词的干扰,也有利于提高检索准确率。
本发明一个实施例中,步骤108的具体实施方式,可以包括:
利用下述计算公式,计算所述目标相似度;
M=α·A+β·B+γ·C
其中,M表征所述目标相似度,α表征所述第一相似度对应的第一策略权重值;A表征所述第一相似度;β表征所述第二相似度对应的第二策略权重值;B表征所述第二相似度;γ表征所述第三相似度对应的第三策略权重值;C表征所述第三相似度。
采用线性加权的方法对待检索词序列和数据库中数据项目分词后的样本词序列之间的相似度,第一相似度、第二相似度和第三相似度分别对应的策略权重值可根据实际情况进行调整,一般情况下,0<α<1,0<β<1,0<γ<1,且α+β+γ=1。
若计算出的目标相似度中,有多个目标相似度大于预设阈值,则输出的数据项目也有多个,在输出这多个数据项目时,可按目标相似度的大小进行排序,即目标相似度较大的数据项目排在前,以便于用户先查看相关度较高的数据项目,有利于提高用户体验。
本发明一个实施例中,步骤103的具体实施方式,可以包括:
针对每一个所述样本词序列,均执行:
从所述待检索词序列中确定出至少一个当前词汇;
确定每一个所述当前词汇在所述待检索词序列中的第一词频,以及每一个所述当前词汇在所述样本词序列中的第二词频;
利用以下计算公式,计算所述待检索词序列与所述样本词序列之间的第一相似度;
其中,S1表征所述第一相似度,ai表征所述第一词频,bi表征所述第二词频。
在这里,利用向量空间模型对待检索词序列与样本词序列之间的第一相似度进行计算,即将每一个当前词汇看成一个维度,而当前词汇对应的第一词频和第二词频看成在该维度对应的值,即形成向量。由此,待检索词序列中的多个当前词汇及其词频就构成了多维空间图,则待检索词序列与样本词序列之间的相似度即为第一词频和第二词频分别对应的多维空间图之间的相似度。由此根据待检索词序列中的各个当前词汇的词频,可准确计算出待检索词序列与样本词序列之间的第一相似度,有利于提高检索准确率。
相应地,也可利用向量空间模型计算第二相似度,以进一步提高检索准确性,在本发明一个实施例中,步骤105的具体实施方式,可以包括:
分别确定所述领域词汇字音与每一个所述非停用词汇字音在所述第一字音中的第三词频,以及所述领域词汇字音与每一个所述非停用词汇字音在所述第二字音中的第四词频;
利用以下计算公式,计算所述第二相似度;
其中,S2表征所述第二相似度,ci表征所述第三词频,di表征所述第四词频。
如图2所示,本发明实施例提供了一种基于语义匹配的检索方法,该方法可以包括以下步骤:
步骤201:构建领域词库,并根据领域词库构建领域同义词林。
其中,领域词库包括至少一个专业领域对应的至少一个领域词汇,领域同义词林包括至少一个领域词汇对应的至少一个同义词。
步骤202:对数据库中的至少一个数据项目进行分词,形成每一个所述数据项目对应的样本词序列。
步骤203:根据所述领域词库对获取到的待检索语句进行分词,得到至少一个待检索领域词汇以及未分词语句,并利用预设的中文分词系统对所述未分词语句进行分词,得到至少一个待检索通用词汇,根据所述至少一个待检索领域词汇以及所述至少一个待检索通用词汇,形成所述待检索词序列。
可以理解的是,在对数据库中的数据项目进行分词时,也可根据领域词库进行分词,以对数据项目中的领域词汇进行准确划分。
步骤204:计算所述待检索词序列与每一个所述样本词序列之间的第一相似度。
步骤205:确定每一个所述待检索领域词汇对应的领域词汇字音,并从所述待检索词序列中确定至少一个非停用词,确定所述至少一个非停用词对应的非停用词汇字音,根据所述领域词汇字音和所述非停用词汇字音,形成第一字音。
步骤206:确定每一个所述样本词序列对应的第二字音,并计算所述第一字音与每一个第二字音之间的第二相似度。
步骤207:根据所述领域同义词林以及预设的通用同义词林,确定所述待检索词序列对应的至少一个同义词序列,并计算每一个所述同义词序列与每一个样本词序列之间的第三相似度。
为处理某些情况下,针对输入含义相似词汇不同的情况,引入了通用同义词林词典扩展匹配,为处理领域词汇输入含义相似词汇不同的情况,构建领域同义词林进行扩展。由于表达上的差异性,引入同义词林进行语义的拓展,保证了在表达差异化的同时,提高了鲁棒性。
步骤208:根据所述待检索词序列对应的所述第一相似度、所述第二相似度和所述第三相似度,计算所述待检索词序列对应的目标相似度,当所述目标相似度大于预设阈值时,输出与所述目标相似度相对应的样本词序列对应的数据项目。
上述实施例中,通过分词、错别字(字音转换)处理、领域词汇处理和同义词处理,一定程度上解决了关键词搜索的不足,加强了检索的关联性,提高了检索模糊性,由于算法复杂度不高,因此提高了检索的效率,通过领域词汇的处理,提高了检索的准确率,对于某些错别字情况,引入拼音模糊匹配,提高了检索的相关性,由于表达上的差异性,引入同义词林进行语义的拓展,保证了在表达差异化的同时,提高了鲁棒性。
上述实施例提供的方法至少可通过如下程序语言实现:
如图3、图4所示,本发明实施例提供了一种基于语义匹配的检索装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图3所示,为本发明实施例提供的基于语义匹配的检索装置所在设备的一种硬件结构图,除了图3所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图4所示,作为一个逻辑意义上的装置,是通过其所在设备的CPU将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。本实施例提供的基于语义匹配的检索装置,包括:分词模块401、第一计算模块402、第二计算模块403、第三计算模块404和处理模块405;其中,
所述分词模块401,用于对预设的数据库中的至少一个数据项目进行分词,形成每一个所述数据项目对应的样本词序列;对获取到的待检索语句进行分词,得到待检索词序列;
所述第一计算模块402,用于计算所述待检索词序列与每一个所述样本词序列之间的第一相似度;
所述第二计算模块403,用于确定所述待检索词序列对应的第一字音,以及每一个所述样本词序列对应的第二字音;计算所述第一字音与每一个所述第二字音之间的第二相似度;
所述第三计算模块404,用于根据预设的同义词林,确定所述待检索词序列对应的至少一个同义词序列;计算每一个所述同义词序列与每一个所述样本词序列之间的第三相似度;
所述处理模块405,用于根据所述待检索词序列对应的所述第一相似度、所述第二相似度和所述第三相似度,计算所述待检索词序列对应的目标相似度;当所述目标相似度大于预设阈值时,输出与所述目标相似度相对应的样本词序列对应的数据项目。
本发明一个实施例中,该装置可以进一步包括:构建模块;其中,
所述构建模块,用于构建领域词库,其中,所述领域词库包括:至少一个专业领域对应的至少一个领域词汇;
所述分词模块401,用于根据所述领域词库对所述待检索语句进行分词,得到与所述领域词汇相匹配的至少一个待检索领域词汇以及未分词语句;利用预设的中文分词系统对所述未分词语句进行分词,得到至少一个待检索通用词汇;根据所述至少一个待检索领域词汇以及所述至少一个待检索通用词汇,形成所述待检索词序列。
本发明一个实施例中,所述第二计算模块403,用于确定每一个所述待检索领域词汇对应的领域词汇字音;从所述待检索词序列中确定至少一个非停用词,并确定所述至少一个非停用词对应的非停用词汇字音;根据所述领域词汇字音和所述非停用词汇字音,形成所述第一字音。
本发明一个实施例中,所述处理模块405,用于利用下述计算公式,计算所述目标相似度;
M=α·A+β·B+γ·C
其中,M表征所述目标相似度,α表征所述第一相似度对应的第一策略权重值;A表征所述第一相似度;β表征所述第二相似度对应的第二策略权重值;B表征所述第二相似度;γ表征所述第三相似度对应的第三策略权重值;C表征所述第三相似度;
本发明一个实施例中,所述第一计算单元402,用于针对每一个所述样本词序列,均执行:从所述待检索词序列中确定出至少一个当前词汇;确定每一个所述当前词汇在所述待检索词序列中的第一词频,以及每一个所述当前词汇在所述样本词序列中的第二词频;利用以下计算公式,计算所述检索词序列与所述样本词序列之间的第一相似度;
其中,S1表征所述第一相似度,ai表征所述第一词频,bi表征所述第二词频。
本发明一个实施例中,所述第二计算单元403,用于分别确定所述领域词汇字音与每一个所述非停用词汇字音在所述第一字音中的第三词频,以及所述领域词汇字音与每一个所述非停用词汇字音在所述第二字音中的第四词频;利用以下计算公式,计算所述第二相似度;
其中,S2表征所述第二相似度,ci表征所述第三词频,di表征所述第四词频。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明上述任一实施例提供的方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明上述任一实施例提供的方法。
综上所述,本发明以上各个实施例至少具有如下有益效果:
1、在本发明实施例中,通过预先对数据库中的各个数据项目进行分词,得到每一个数据项目对应的样本词序列。在获取到待检索语句之后,对待检索语句进行分词,得到待检索词序列,然后计算待检索词序列与每一个样本词序列之间的第一相似度。然后确定待检索词序列对应的第一字音,以及样本词序列对应的第二字音,再计算第一字音与每一个第二字音之间的第二相似度。再根据预设的同义词林,对待检索词序列进行同义扩展,并计算扩展后的每个同义词序列与样本词序列之间的第三相似度。最后根据计算出的第一相似度、第二相似度和第三相似度,确定大于预设阈值的目标相似度,并输出相应的数据项目。由此,通过对用户输入的检索语句进行分词、字音转换和同义扩展等操作实现了检索语句的准确检索,而无需对检索语句中的语义进行详细分析,因此提高了检索语句的检索效率,同时提高了数据库检索的准确性、关联性和模糊性。
2、在本发明实施例中,根据不同数据库的数据,建立适用于当前数据库的领域词库,当对待检索语句进行分词时,在分词过程中加入领域词汇,以确保领域词汇等到正确的切分,通过采用领域词库和已有中分分词系统相结合的方式,对待检索语句进行分词,有利于提高分词准确性,从而提高检索准确率。
3、在本发明实施例中,将待检索词序列中的领域词汇和非停用词进行字音转换,而对检索词序列中的停用词不做字音抓换,这一方面提高了字音转换的效率,从而有利于提高检索效率,另一方面由于去除了停用词的干扰,也有利于提高检索准确率。
4、在本发明实施例中,通过分词、字音转换处理、领域词汇处理和同义词处理,一定程度上解决了关键词搜索的不足,加强了检索的关联性,提高了检索模糊性,由于算法复杂度不高,因此提高了检索的效率,通过领域词汇的处理,提高了检索的准确率,对于某些错别字情况,引入拼音模糊匹配,提高了检索的相关性,由于表达上的差异性,引入同义词林进行语义的拓展,保证了在表达差异化的同时,提高了鲁棒性。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种基于语义匹配的检索方法,其特征在于,对预设的数据库中的至少一个数据项目进行分词,形成每一个所述数据项目对应的样本词序列;包括:
对获取的待检索语句进行分词,得到待检索词序列;
计算所述待检索词序列与每一个所述样本词序列之间的第一相似度;
确定所述待检索词序列对应的第一字音,以及每一个所述样本词序列对应的第二字音;
计算所述第一字音与每一个所述第二字音之间的第二相似度;
根据预设的同义词林,确定所述待检索词序列对应的至少一个同义词序列;
计算每一个所述同义词序列与每一个所述样本词序列之间的第三相似度;
根据所述待检索词序列对应的所述第一相似度、所述第二相似度和所述第三相似度,计算所述待检索词序列对应的目标相似度;
当所述目标相似度大于预设阈值时,输出与所述目标相似度相对应的样本词序列对应的数据项目。
2.根据权利要求1所述的方法,其特征在于,
进一步包括:
构建领域词库,其中,所述领域词库包括:至少一个专业领域对应的至少一个领域词汇;
所述对获取的待检索语句进行分词,得到待检索词序列,包括:
根据所述领域词库对所述待检索语句进行分词,得到与所述领域词汇相匹配的至少一个待检索领域词汇以及未分词语句;
利用预设的中文分词系统对所述未分词语句进行分词,得到至少一个待检索通用词汇;
根据所述至少一个待检索领域词汇以及所述至少一个待检索通用词汇,形成所述待检索词序列。
3.根据权利要求2所述的方法,其特征在于,
所述确定所述待检索词序列对应的第一字音,包括:
确定每一个所述待检索领域词汇对应的领域词汇字音;
从所述待检索词序列中确定至少一个非停用词,并确定所述至少一个非停用词对应的非停用词汇字音;
根据所述领域词汇字音和所述非停用词汇字音,形成所述第一字音。
4.根据权利要求1所述的方法,其特征在于,
所述根据所述待检索词汇对应的所述第一相似度、所述第二相似度和所述第三相似度,计算所述待检索词序列对应的目标相似度,包括:
利用下述计算公式,计算所述目标相似度;
M=α·A+β·B+γ·C
其中,M表征所述目标相似度,α表征所述第一相似度对应的第一策略权重值;A表征所述第一相似度;β表征所述第二相似度对应的第二策略权重值;B表征所述第二相似度;γ表征所述第三相似度对应的第三策略权重值;C表征所述第三相似度;
和/或,
所述计算所述待检索词序列与每一个所述样本词序列之间的第一相似度,包括:
针对每一个所述样本词序列,均执行:
从所述待检索词序列中确定出至少一个当前词汇;
确定每一个所述当前词汇在所述待检索词序列中的第一词频,以及每一个所述当前词汇在所述样本词序列中的第二词频;
利用以下计算公式,计算所述待检索词序列与所述样本词序列之间的第一相似度;
其中,S1表征所述第一相似度,ai表征所述第一词频,bi表征所述第二词频。
5.根据权利要求3所述的方法,其特征在于,
所述计算所述第一字音与每一个所述第二字音之间的第二相似度,包括:
分别确定所述领域词汇字音与每一个所述非停用词汇字音在所述第一字音中的第三词频,以及所述领域词汇字音与每一个所述非停用词汇字音在所述第二字音中的第四词频;
利用以下计算公式,计算所述第二相似度;
其中,S2表征所述第二相似度,ci表征所述第三词频,di表征所述第四词频。
6.一种基于语义匹配的检索装置,其特征在于,包括:分词模块、第一计算模块、第二计算模块、第三计算模块和处理模块;其中,
所述分词模块,用于对预设的数据库中的至少一个数据项目进行分词,形成每一个所述数据项目对应的样本词序列;对获取到的待检索语句进行分词,得到待检索词序列;
所述第一计算模块,用于计算所述待检索词序列与每一个所述样本词序列之间的第一相似度;
所述第二计算模块,用于确定所述待检索词序列对应的第一字音,以及每一个所述样本词序列对应的第二字音;计算所述第一字音与每一个所述第二字音之间的第二相似度;
所述第三计算模块,用于根据预设的同义词林,确定所述待检索词序列对应的至少一个同义词序列;计算每一个所述同义词序列与每一个所述样本词序列之间的第三相似度;
所述处理模块,用于根据所述待检索词序列对应的所述第一相似度、所述第二相似度和所述第三相似度,计算所述待检索词序列对应的目标相似度;当所述目标相似度大于预设阈值时,输出与所述目标相似度相对应的样本词序列对应的数据项目。
7.根据权利要求6所述的装置,其特征在于,
进一步包括:构建模块;其中,
所述构建模块,用于构建领域词库,其中,所述领域词库包括:至少一个专业领域对应的至少一个领域词汇;
所述分词模块,用于根据所述领域词库对所述待检索语句进行分词,得到与所述领域词汇相匹配的至少一个待检索领域词汇以及未分词语句;利用预设的中文分词系统对所述未分词语句进行分词,得到至少一个待检索通用词汇;根据所述至少一个待检索领域词汇以及所述至少一个待检索通用词汇,形成所述待检索词序列。
8.根据权利要求7所述的装置,其特征在于,
所述第二计算模块,用于确定每一个所述待检索领域词汇对应的领域词汇字音;从所述待检索词序列中确定至少一个非停用词,并确定所述至少一个非停用词对应的非停用词汇字音;根据所述领域词汇字音和所述非停用词汇字音,形成所述第一字音。
9.根据权利要求6所述的装置,其特征在于,
所述处理模块,用于利用下述计算公式,计算所述目标相似度;
M=α·A+β·B+γ·C
其中,M表征所述目标相似度,α表征所述第一相似度对应的第一策略权重值;A表征所述第一相似度;β表征所述第二相似度对应的第二策略权重值;B表征所述第二相似度;γ表征所述第三相似度对应的第三策略权重值;C表征所述第三相似度;
和/或,
所述第一计算单元,用于针对每一个所述样本词序列,均执行:从所述待检索词序列中确定出至少一个当前词汇;确定每一个所述当前词汇在所述待检索词序列中的第一词频,以及每一个所述当前词汇在所述样本词序列中的第二词频;利用以下计算公式,计算所述检索词序列与所述样本词序列之间的第一相似度;
其中,S1表征所述第一相似度,ai表征所述第一词频,bi表征所述第二词频。
10.根据权利要求8所述的装置,其特征在于,
所述第二计算单元,用于分别确定所述领域词汇字音与每一个所述非停用词汇字音在所述第一字音中的第三词频,以及所述领域词汇字音与每一个所述非停用词汇字音在所述第二字音中的第四词频;利用以下计算公式,计算所述第二相似度;
其中,S2表征所述第二相似度,ci表征所述第三词频,di表征所述第四词频。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810957594.3A CN109189907A (zh) | 2018-08-22 | 2018-08-22 | 一种基于语义匹配的检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810957594.3A CN109189907A (zh) | 2018-08-22 | 2018-08-22 | 一种基于语义匹配的检索方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109189907A true CN109189907A (zh) | 2019-01-11 |
Family
ID=64918887
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810957594.3A Pending CN109189907A (zh) | 2018-08-22 | 2018-08-22 | 一种基于语义匹配的检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109189907A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325032A (zh) * | 2020-02-21 | 2020-06-23 | 中国建设银行股份有限公司 | 一种5g+智能银行机构名称的规范化方法及装置 |
CN112307184A (zh) * | 2020-10-30 | 2021-02-02 | 山东浪潮通软信息科技有限公司 | 数据查询方法、装置及计算机可读介质 |
CN113515585A (zh) * | 2020-04-10 | 2021-10-19 | 中国石油化工股份有限公司 | 危险化学品安全领域专业词库的构造方法、检索方法及系统 |
CN113641785A (zh) * | 2021-06-28 | 2021-11-12 | 北京邮电大学 | 基于多维度的科技资源相似词检索方法及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与系统 |
CN105808726A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种度量文档的相似度的方法及装置 |
CN107958039A (zh) * | 2017-11-21 | 2018-04-24 | 北京百度网讯科技有限公司 | 一种检索词纠错方法、装置及服务器 |
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN108304378A (zh) * | 2018-01-12 | 2018-07-20 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
-
2018
- 2018-08-22 CN CN201810957594.3A patent/CN109189907A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105224648A (zh) * | 2015-09-29 | 2016-01-06 | 浪潮(北京)电子信息产业有限公司 | 一种实体链接方法与系统 |
CN105808726A (zh) * | 2016-03-08 | 2016-07-27 | 浪潮软件股份有限公司 | 一种度量文档的相似度的方法及装置 |
CN107993724A (zh) * | 2017-11-09 | 2018-05-04 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN107958039A (zh) * | 2017-11-21 | 2018-04-24 | 北京百度网讯科技有限公司 | 一种检索词纠错方法、装置及服务器 |
CN108304378A (zh) * | 2018-01-12 | 2018-07-20 | 深圳壹账通智能科技有限公司 | 文本相似度计算方法、装置、计算机设备和存储介质 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111325032A (zh) * | 2020-02-21 | 2020-06-23 | 中国建设银行股份有限公司 | 一种5g+智能银行机构名称的规范化方法及装置 |
CN111325032B (zh) * | 2020-02-21 | 2023-06-16 | 中国建设银行股份有限公司 | 一种5g+智能银行机构名称的规范化方法及装置 |
CN113515585A (zh) * | 2020-04-10 | 2021-10-19 | 中国石油化工股份有限公司 | 危险化学品安全领域专业词库的构造方法、检索方法及系统 |
CN112307184A (zh) * | 2020-10-30 | 2021-02-02 | 山东浪潮通软信息科技有限公司 | 数据查询方法、装置及计算机可读介质 |
CN113641785A (zh) * | 2021-06-28 | 2021-11-12 | 北京邮电大学 | 基于多维度的科技资源相似词检索方法及电子设备 |
CN113641785B (zh) * | 2021-06-28 | 2023-08-01 | 北京邮电大学 | 基于多维度的科技资源相似词检索方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105095204B (zh) | 同义词的获取方法及装置 | |
US11531818B2 (en) | Device and method for machine reading comprehension question and answer | |
CN109189907A (zh) | 一种基于语义匹配的检索方法及装置 | |
WO2018153215A1 (zh) | 一种自动生成语义相近句子样本的方法 | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN108920599B (zh) | 一种基于知识本体库的问答系统答案精准定位和抽取方法 | |
CN112883165B (zh) | 一种基于语义理解的智能全文检索方法及系统 | |
US20200073890A1 (en) | Intelligent search platforms | |
CN111078832A (zh) | 一种智能客服的辅助应答方法及系统 | |
CN112417846A (zh) | 文本自动化生成方法、装置、电子设备及存储介质 | |
CN110263127A (zh) | 基于用户查询词进行文本搜索方法及装置 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN111159381B (zh) | 数据搜索方法及装置 | |
CN110728135B (zh) | 文本主题标引方法、装置、电子设备及计算机存储介质 | |
CN110889292B (zh) | 一种基于句义结构模型的文本数据生成观点摘要的方法及系统 | |
CN116910599A (zh) | 数据聚类方法、系统、电子设备及存储介质 | |
CN106776590A (zh) | 一种获取词条译文的方法及系统 | |
CN109977397A (zh) | 基于词性组合的新闻热点提取方法、系统及存储介质 | |
Li | Query spelling correction | |
CN114912446A (zh) | 一种关键词抽取方法、装置及储存介质 | |
CN111581960B (zh) | 一种获取医学文本语义相似度的方法 | |
CN113761104A (zh) | 知识图谱中实体关系的检测方法、装置和电子设备 | |
CN115859968B (zh) | 一种基于自然语言解析及机器学习的政策颗粒化分析系统 | |
Lin et al. | Domain Independent Key Term Extraction from Spoken Content Based on Context and Term Location Information in the Utterances |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190111 |
|
RJ01 | Rejection of invention patent application after publication |