CN114610796A - 文本相似度确定方法、装置、存储介质以及电子设备 - Google Patents

文本相似度确定方法、装置、存储介质以及电子设备 Download PDF

Info

Publication number
CN114610796A
CN114610796A CN202210292828.3A CN202210292828A CN114610796A CN 114610796 A CN114610796 A CN 114610796A CN 202210292828 A CN202210292828 A CN 202210292828A CN 114610796 A CN114610796 A CN 114610796A
Authority
CN
China
Prior art keywords
target
sample
text
score
retrieval text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210292828.3A
Other languages
English (en)
Inventor
杜芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Minglue Zhaohui Technology Co Ltd
Original Assignee
Beijing Minglue Zhaohui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Minglue Zhaohui Technology Co Ltd filed Critical Beijing Minglue Zhaohui Technology Co Ltd
Priority to CN202210292828.3A priority Critical patent/CN114610796A/zh
Publication of CN114610796A publication Critical patent/CN114610796A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本相似度确定方法、装置、存储介质以及电子设备。该方法包括:获取目标检索文本和目标文档;根据目标检索文本的内容确定目标系数;计算目标检索文本和目标文档的相关度评分和邻近度评分;将邻近度评分与目标系数相乘,所得到的结果与相关度评分相加,得到目标检索文本和目标文档的相似度评分。本发明解决了检索文本与文本文档的相似度评分不准确的技术问题。

Description

文本相似度确定方法、装置、存储介质以及电子设备
技术领域
本发明涉及信息检索领域,具体而言,涉及一种文本相似度确定方法、装置、存储介质以及电子设备。
背景技术
现有技术中,在根据用户的检索文本来检索与检索文本相似的目标文档的时候,可以计算检索文本与文档之间的相似度评分,从而确定与检索文本最相似的目标文档。相似度评分可以根据相关度评分和邻近度评分来共同确定。
然而,现有技术中,在计算相似度评分的过程中,并未考虑检索文本对邻近度评分的影响,造成确定出的相似度评分不准确。
发明内容
本发明实施例提供了一种文本相似度确定方法、装置、存储介质以及电子设备,以至少解决检索文本与文本文档的相似度评分不准确的技术问题。
根据本发明实施例的一个方面,提供了一种文本相似度确定方法,包括:获取目标检索文本和目标文档;根据上述目标检索文本的内容确定目标系数;计算上述目标检索文本和上述目标文档的相关度评分和邻近度评分;将上述邻近度评分与上述目标系数相乘,所得到的结果与上述相关度评分相加,得到上述目标检索文本和上述目标文档的相似度评分。
根据本发明实施例的另一方面,提供了一种文本相似度确定装置,包括:第一获取模块,用于获取目标检索文本和目标文档;确定模块,用于根据上述目标检索文本的内容确定目标系数;第一计算模块,用于计算上述目标检索文本和上述目标文档的相关度评分和邻近度评分;第二计算模块,用于将上述邻近度评分与上述目标系数相乘,所得到的结果与上述相关度评分相加,得到上述目标检索文本和上述目标文档的相似度评分。
作为一种可选的示例,上述确定模块包括:识别单元,用于识别上述目标检索文本;第一确定单元,用于在上述目标检索文本为多个独立的分词组成的文本的情况下,将上述目标系数确定为第一值;第二确定单元,用于在上述目标检索文本为一句话的情况下,将上述目标系数确定为第二值,其中,上述第二值大于上述第一值。
作为一种可选的示例,上述识别单元包括:识别子单元,用于识别上述目标检索文本中的标点符号的目标数量;第一确定子单元,用于在上述目标数量大于预定阈值的情况下,确定上述目标检索文本为多个独立的分词组成的文本;在上述目标数量小于或等于上述预定阈值的情况下,确定上述目标检索文本为一句话。
作为一种可选的示例,上述识别单元还包括:统计子单元,用于统计上述目标检索文本中的文字数量;第二确定子单元,用于根据上述文字数量确定上述预定阈值。
作为一种可选的示例,上述确定模块还包括:第一获取单元,用于获取样本检索文本和多个样本文档以及上述样本检索文本与每一个上述样本文档的样本相似度评分,其中,上述样本检索文本多个独立的分词;第一计算单元,用于使用样本系数计算上述样本检索文本与每一个上述样本文档的第一相似度评分;第一调整单元,用于在上述样本相似度评分与上述第一相似度评分不一致的情况下,调整上述样本系数,直到上述样本相似度评分与上述第一相似度评分一致;第三确定单元,用于将调整后的上述样本系数作为上述第一值。
作为一种可选的示例,上述确定模块还包括:第二获取单元,用于获取样本检索文本和多个样本文档以及上述样本检索文本与每一个上述样本文档的样本相似度评分,其中,上述样本检索文本为一句话;第二计算单元,用于使用样本系数计算上述样本检索文本与每一个上述样本文档的第二相似度评分;第二调整单元,用于在上述样本相似度评分与上述第二相似度评分不一致的情况下,调整上述样本系数,直到上述样本相似度评分与上述第二相似度评分一致;第四确定单元,用于将调整后的上述样本系数作为上述第二值。
作为一种可选的示例,上述装置还包括:获取模块,用于在获取到用户的搜索指令的情况下,获取上述搜索指令中的上述目标检索文本;推送模块,用于将包含上述目标文档的多个第一文档中,与上述目标检索文本的相似度评分最大的文档推送给上述用户。
根据本发明实施例的又一方面,还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述文本相似度确定方法。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的文本相似度确定方法。
本发明可以应用在信息检索技术的排序优化的过程中。在本发明实施例中,采用了获取目标检索文本和目标文档;根据上述目标检索文本的内容确定目标系数;计算上述目标检索文本和上述目标文档的相关度评分和邻近度评分;将上述邻近度评分与上述目标系数相乘,所得到的结果与上述相关度评分相加,得到上述目标检索文本和上述目标文档的相似度评分的方法,由于在上述方法中,在确定目标检索文本和目标文档的相似度的时候,可以使用目标检索文本和目标文档的相关度评分和邻近度评分来共同确定目标检索文本和上述目标文档的相似度评分,而且,根据目标检索文本的内容确定目标系数,将目标系数乘在邻近度评分上,从而实现了根据目标检索文本的内容来调节邻近度评分的系数,确定出更加准确的相似度评分的效果,进而解决了检索文本与文本文档的相似度评分不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的文本相似度确定方法的流程图;
图2是根据本发明实施例的一种可选的文本相似度确定方法的系统图;
图3是根据本发明实施例的一种可选的文本相似度确定装置的结构示意图;
图4是根据本发明实施例的一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例的第一方面,提供了一种文本相似度确定方法,可选地,如图1所示,上述方法包括:
S102,获取目标检索文本和目标文档;
S104,根据所述目标检索文本的内容确定目标系数;
S106,计算所述目标检索文本和所述目标文档的相关度评分和邻近度评分;
S108,将所述邻近度评分与所述目标系数相乘,所得到的结果与所述相关度评分相加,得到所述目标检索文本和所述目标文档的相似度评分。
可选的,本实施例中的上述文本相似度确定方法可以应用在搜索过程中,或者推荐过程中。应用在搜索过程中,可以根据用户输入的目标检索文本来确定每一个文档与目标检索文本的相似度评分,然后确定出评分最高的文档作为推荐给用户的文档。或者将评分最高的文档作为搜索结果返回给用户。
本实施例中,目标系数可以为根据目标检索文本的内容确定出的一个值,该值属于0到正无穷。通过该值来调节目标检索文本和目标文档的邻近度评分的比重,从而调节最终的相似度评分。
可选的,本实施例中,可以先确定目标检索文本和目标文档的相关度评分和邻近度评分,然后,通过根据所述目标检索文本的内容确定的目标系数来调节邻近度评分,将所述邻近度评分与所述目标系数相乘,所得到的结果与所述相关度评分相加,得到所述目标检索文本和所述目标文档的相似度评分,从而可以根据目标检索文本的不同确定出准确的相似度评分,提高确定的相似度评分的准确性。
作为一种可选的示例,所述根据所述目标检索文本的内容确定目标系数包括:
识别所述目标检索文本;
在所述目标检索文本为多个独立的分词组成的文本的情况下,将所述目标系数确定为第一值;
在所述目标检索文本为一句话的情况下,将所述目标系数确定为第二值,其中,所述第二值大于所述第一值。
可选的,本实施例中,在根据目标检索文本的内容确定目标系数时,可以识别目标检索文本,如果目标检索文本是多个独立的词,例如,用分割号分割的多个词,如用户输入多个检索关键词“姓名、性别、身份”作为目标检索文本,则可以识别得到目标检索文本是多个独立的分词,此时,可以将目标系数确定为较小的第一值。如果目标检索文本为一句话,则可以将目标系数确定为较大的第二值。
作为一种可选的示例,所述识别所述目标检索文本包括:
识别所述目标检索文本中的标点符号的目标数量;
在所述目标数量大于预定阈值的情况下,确定所述目标检索文本为多个独立的分词组成的文本;
在所述目标数量小于或等于所述预定阈值的情况下,确定所述目标检索文本为一句话。
可选的,本实施例中,在识别目标检索文本为多个独立的分词还是一句话的时候,可以识别目标检索文本中的标点符号的目标数量。如果为一句话,则标点符号的数量应小于或等于预定阈值。例如,预定阈值为2。如果超过了预定阈值,则判定为目标检索文本为多个独立的分词。
可选的,本实施例中还可以使用语义识别模型来识别目标检索文本。语义识别模型可以识别目标检索文本中的每一个词之间的关联程度,如果语义识别模型识别目标检索文本后输出的结果大于第一阈值,则将目标检索文本确定为一句话。语义识别模型是预先使用样本训练出的模型,可以识别目标检索文本中的词的语义和关联程度。
作为一种可选的示例,所述方法还包括:
统计所述目标检索文本中的文字数量;
根据所述文字数量确定所述预定阈值。
可选的,本实施例中,在根据标点符号的数量与预定阈值的关系来确定目标检索文本为多个独立分词还是一句话的时候,可以根据目标检索文本的文字数量来确定预定阈值。从而可以更加准确的确定出目标检索文本是一句话还是多个独立分词。例如,目标检索文本每增加10个字,预定阈值增加1。
作为一种可选的示例,所述方法还包括:
获取样本检索文本和多个样本文档以及所述样本检索文本与每一个所述样本文档的样本相似度评分,其中,所述样本检索文本多个独立的分词;
使用样本系数计算所述样本检索文本与每一个所述样本文档的第一相似度评分;
在所述样本相似度评分与所述第一相似度评分不一致的情况下,调整所述样本系数,直到所述样本相似度评分与所述第一相似度评分一致;
将调整后的所述样本系数作为所述第一值。
作为一种可选的示例,所述方法还包括:
获取样本检索文本和多个样本文档以及所述样本检索文本与每一个所述样本文档的样本相似度评分,其中,所述样本检索文本为一句话;
使用样本系数计算所述样本检索文本与每一个所述样本文档的第二相似度评分;
在所述样本相似度评分与所述第二相似度评分不一致的情况下,调整所述样本系数,直到所述样本相似度评分与所述第二相似度评分一致;
将调整后的所述样本系数作为所述第二值。
可选的,本实施例中,可以根据目标检索文本的内容确定目标系数,可以预设多个初始的系数,然后根据目标检索文本的内容选择最接近的系数作为目标系数。
可以获取样本检索文本和多个样本文档,样本检索文本和每一个样本文档对应一个样本相似度评分,用来评价样本检索文本和样本文档之间的相似性。样本相似度评分越高,则样本检索文本和每一个样本文档的相似性越高。
样本检索文本中的内容的关联程度有高有低。例如,有的样本检索文本为一句话,有的样本检索文本为多个独立的分词。本实施例中,预设一个样本系数作为初始系数,使用初始系数来确定样本检索文本和多个样本文档之间的相似度评分,如果使用初始系数确定出的相似度评分和样本相似度评分不一致,则认为样本系数是不准确的,可以进行调整。
经过多次调整,可以对于不同的样本检索文本,确定出不同的样本系数。样本检索文本在为多个独立分词或者一句话的情况下,对应的样本系数不同。而且,样本检索文本中文本内容的数量也会影响到样本系数,例如,样本检索文本为一句话,则样本检索文本的内容越多,样本系数越大,如果样本检索文本为多个独立分词,则分词越多,样本系数越小。
在确定多个样本系数后,在获取到目标检索文本后,可以根据目标检索文本是一句话还是独立分词,包含文本数量的多少,来确定出一个合适的目标系数。使用目标系数来计算目标检索文本和目标文档的相似度评分。提高了确定的相似度评分的准确度。
作为一种可选的示例,所述方法还包括:
在获取到用户的搜索指令的情况下,获取所述搜索指令中的所述目标检索文本;
将包含所述目标文档的多个第一文档中,与所述目标检索文本的相似度评分最大的文档推送给所述用户。
可选的,本实施例中,用户可以发起搜索请求产生搜索指令,搜索指令中包括了目标检索文本。根据目标检索文本确定目标系数,然后计算目标检索文本和每一个第一文档的相似度评分,最后将相似度评分最大的文档推送给用户。
本实施例中设计的词语解释:
Figure BDA0003560909890000081
Figure BDA0003560909890000091
本申请计算相似度评分的公式如下:
SBM25WTP(q,d)=SBM25(q,d)+tpw*STP(q,d) (1)
其中,tpw为目标系数。
其中,
Figure BDA0003560909890000092
SBM25(q,d)为BM25算法。词间距越小,STP(q,d)越大。
其中,accd(t)=∑s∈q,s≠twt*tpid(t,s),
Figure BDA0003560909890000093
其中,
Figure BDA0003560909890000101
其中,STP(q,d):文档d对于查询语句q的术语邻近度评分
t:要计算某个术语邻近度的术语
s:与t进行距离计算的术语
tpid(t,s):一个术语的一个位置的邻近度评分,计算方式:一个术语t的一个位置与其他术语s的所有位置计算距离,然后把距离平方的倒数求和accd(t):一个术语的邻近度评分,计算方式:把这个术语的所有位置的邻近度评分加权求和
dist[t,s]:两个不同termt,s在文章中所处位置的距离
o(t):query中的第t这个term可能在document可能出现多次,每一次出现用o(t)表示
其中,BM25算法公式为:
SBM25(q,d)=∑t∈qWt*Rd,t (2)
其中,
Figure BDA0003560909890000102
其中,
Figure BDA0003560909890000103
其中,q:查询语句
t:术语(term)
d:文档
fd,t:术语(term)t在doc中出现的频率
Wt:权重,用逆文本频率指数(inverse document frequency,idf)计算
avgd:平均文本长度
|d|:文本长度,其他标号均为参数。
k1:词频调节因子
b:长度惩罚因子
图2是本实施例的系统示意图。根据目标检索文本确定出目标系数,在确定出目标检索文本和目标文档的相关度评分和邻近度评分之后,由目标系数乘邻近度评分,再加上相关度评分,得到目标检索文本和目标文档的相似度评分。
本实施例中,目标系数tpw的取值范围为[0,+∞),整型浮点型均可。
实际使用的时候,tpw越大邻近度评分在相似度评分计算中比重越高,可以根据实际场景选择合适的起始值和步长,最后选取最符合实际场景的的tpw。例如,tpw起始值为0,步长为1,首先设置tpw=0,这时相当于BM25算法,邻近度没有起作用,如果发现结果不符合预期的原因是有些邻近度高的文档排序靠后,那么调整tpw=1,如果发现还是有些文档因为词频太高导致排序超过邻近度高的文档,那么就继续调整tpw=2,以此类推,直到效果达到预期。
以3篇文档为例:文档1:“汤姆有两个孩子,分别是杰瑞和凯特”,文档2:“汤姆和杰瑞是同班同学”,文档3:"汤姆推了杰瑞和凯特,杰瑞倒了",以目标检索文本为“汤姆和杰瑞”为例,三篇文档期望的得分从高到低的顺序是:文档2,文档3,文档1。因为文档2中包含了最相似的“汤姆和杰瑞”的内容。
首先设置tpw=0,三篇文档得分从高到低分别为:
文档 得分
文档3 0.45066845
文档1 0.40059417
文档2 0.40059417
由于文档3的词频最高导致它排到第一位,由于文档1和文档2词频相同所以得分一样,可见邻近度没有参与计算,这个结果不符合预期。
然后设置tpw=1,三篇文档得分从高到低分别为:
文档 得分
文档3 0.53804153
文档2 0.5258161
文档1 0.46226567
由于邻近度参与了计算所以文档2的得分超过了文档1,但由于词频的原因,文档2的得分还是小于文档3,这个结果不符合预期。
继续调整tpw,设置tpw=2,三篇文档得分从高到低分别为:
文档 得分
文档2 0.65103793
文档3 0.6254146
文档1 0.52393717
由于tpw变得更大,所以邻近度得分变得更高,因此文档2的得分超过了文档3排到了第一位,符合预期。因此对于这个场景可以认为tpw=2比较合适。
通过调节目标系数从而可以计算得到准确的相似度评分。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本申请实施例的另一方面,还提供了一种文本相似度确定装置,如图3所示,包括:
第一获取模块302,用于获取目标检索文本和目标文档;
确定模块304,用于根据所述目标检索文本的内容确定目标系数;
第一计算模块306,用于计算所述目标检索文本和所述目标文档的相关度评分和邻近度评分;
第二计算模块308,用于将所述邻近度评分与所述目标系数相乘,所得到的结果与所述相关度评分相加,得到所述目标检索文本和所述目标文档的相似度评分。
可选的,本实施例中的上述文本相似度确定方法可以应用在搜索过程中,或者推荐过程中。应用在搜索过程中,可以根据用户输入的目标检索文本来确定每一个文档与目标检索文本的相似度评分,然后确定出评分最高的文档作为推荐给用户的文档。或者将评分最高的文档作为搜索结果返回给用户。
本实施例中,目标系数可以为根据目标检索文本的内容确定出的一个值,该值属于0到正无穷。通过该值来调节目标检索文本和目标文档的邻近度评分的比重,从而调节最终的相似度评分。
可选的,本实施例中,可以先确定目标检索文本和目标文档的相关度评分和邻近度评分,然后,通过根据所述目标检索文本的内容确定的目标系数来调节邻近度评分,将所述邻近度评分与所述目标系数相乘,所得到的结果与所述相关度评分相加,得到所述目标检索文本和所述目标文档的相似度评分,从而可以根据目标检索文本的不同确定出准确的相似度评分,提高确定的相似度评分的准确性。
本实施例的其他示例请参见上述示例,在此不在赘述。
图4是根据本申请实施例的一种可选的电子设备的结构框图,如图4所示,包括处理器402、通信接口404、存储器406和通信总线408,其中,处理器402、通信接口404和存储器406通过通信总线408完成相互间的通信,其中,
存储器406,用于存储计算机程序;
处理器402,用于执行存储器406上所存放的计算机程序时,实现如下步骤:
获取目标检索文本和目标文档;
根据所述目标检索文本的内容确定目标系数;
计算所述目标检索文本和所述目标文档的相关度评分和邻近度评分;
将所述邻近度评分与所述目标系数相乘,所得到的结果与所述相关度评分相加,得到所述目标检索文本和所述目标文档的相似度评分。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,上述存储器406中可以但不限于包括上述文本相似度确定装置中的第一获取模块302、确定模块304、第一计算模块306以及第二计算模块308。此外,还可以包括但不限于上述请求的处理装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图4所示的结构仅为示意,实施上述文本相似度确定方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图4其并不对上述电子设备的结构造成限定。例如,电子设备还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图4所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本发明的实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被处理器运行时执行上述文本相似度确定方法中的步骤。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种文本相似度确定方法,其特征在于,包括:
获取目标检索文本和目标文档;
根据所述目标检索文本的内容确定目标系数;
计算所述目标检索文本和所述目标文档的相关度评分和邻近度评分;
将所述邻近度评分与所述目标系数相乘,所得到的结果与所述相关度评分相加,得到所述目标检索文本和所述目标文档的相似度评分。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标检索文本的内容确定目标系数包括:
识别所述目标检索文本;
在所述目标检索文本为多个独立的分词组成的文本的情况下,将所述目标系数确定为第一值;
在所述目标检索文本为一句话的情况下,将所述目标系数确定为第二值,其中,所述第二值大于所述第一值。
3.根据权利要求2所述的方法,其特征在于,所述识别所述目标检索文本包括:
识别所述目标检索文本中的标点符号的目标数量;
在所述目标数量大于预定阈值的情况下,确定所述目标检索文本为多个独立的分词组成的文本;
在所述目标数量小于或等于所述预定阈值的情况下,确定所述目标检索文本为一句话。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
统计所述目标检索文本中的文字数量;
根据所述文字数量确定所述预定阈值。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取样本检索文本和多个样本文档以及所述样本检索文本与每一个所述样本文档的样本相似度评分,其中,所述样本检索文本为多个独立的分词;
使用样本系数计算所述样本检索文本与每一个所述样本文档的第一相似度评分;
在所述样本相似度评分与所述第一相似度评分不一致的情况下,调整所述样本系数,直到所述样本相似度评分与所述第一相似度评分一致;
将调整后的所述样本系数作为所述第一值。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取样本检索文本和多个样本文档以及所述样本检索文本与每一个所述样本文档的样本相似度评分,其中,所述样本检索文本为一句话;
使用样本系数计算所述样本检索文本与每一个所述样本文档的第二相似度评分;
在所述样本相似度评分与所述第二相似度评分不一致的情况下,调整所述样本系数,直到所述样本相似度评分与所述第二相似度评分一致;
将调整后的所述样本系数作为所述第二值。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述方法还包括:
在获取到用户的搜索指令的情况下,获取所述搜索指令中的所述目标检索文本;
将包含所述目标文档的多个第一文档中,与所述目标检索文本的相似度评分最大的文档推送给所述用户。
8.一种文本相似度确定装置,其特征在于,包括:
第一获取模块,用于获取目标检索文本和目标文档;
确定模块,用于根据所述目标检索文本的内容确定目标系数;
第一计算模块,用于计算所述目标检索文本和所述目标文档的相关度评分和邻近度评分;
第二计算模块,用于将所述邻近度评分与所述目标系数相乘,所得到的结果与所述相关度评分相加,得到所述目标检索文本和所述目标文档的相似度评分。
9.一种计算机可读的存储介质,所述计算机可读的存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至7任一项中所述的方法。
CN202210292828.3A 2022-03-23 2022-03-23 文本相似度确定方法、装置、存储介质以及电子设备 Pending CN114610796A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210292828.3A CN114610796A (zh) 2022-03-23 2022-03-23 文本相似度确定方法、装置、存储介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210292828.3A CN114610796A (zh) 2022-03-23 2022-03-23 文本相似度确定方法、装置、存储介质以及电子设备

Publications (1)

Publication Number Publication Date
CN114610796A true CN114610796A (zh) 2022-06-10

Family

ID=81865483

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210292828.3A Pending CN114610796A (zh) 2022-03-23 2022-03-23 文本相似度确定方法、装置、存储介质以及电子设备

Country Status (1)

Country Link
CN (1) CN114610796A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186203A (zh) * 2023-03-01 2023-05-30 人民网股份有限公司 文本检索方法、装置、计算设备及计算机存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116186203A (zh) * 2023-03-01 2023-05-30 人民网股份有限公司 文本检索方法、装置、计算设备及计算机存储介质
CN116186203B (zh) * 2023-03-01 2023-10-10 人民网股份有限公司 文本检索方法、装置、计算设备及计算机存储介质

Similar Documents

Publication Publication Date Title
US11194965B2 (en) Keyword extraction method and apparatus, storage medium, and electronic apparatus
CN108491433B (zh) 聊天应答方法、电子装置及存储介质
CN110377558B (zh) 文档查询方法、装置、计算机设备和存储介质
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN109299280B (zh) 短文本聚类分析方法、装置和终端设备
US9767183B2 (en) Method and system for enhanced query term suggestion
CN110046298B (zh) 一种查询词推荐方法、装置、终端设备及计算机可读介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
WO2014169776A1 (en) Cluster method and apparatus based on user interest
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN109885813A (zh) 一种基于词语覆盖度的文本相似度的运算方法、系统、服务器及存储介质
CN113204953A (zh) 基于语义识别的文本匹配方法、设备及设备可读存储介质
CN110825977A (zh) 一种数据推荐方法及相关设备
CN110990533A (zh) 确定查询文本所对应标准文本的方法及装置
CN114880447A (zh) 信息检索方法、装置、设备及存储介质
CN111369148A (zh) 对象指标的监测方法、电子装置及存储介质
CN111708942B (zh) 多媒体资源推送方法、装置、服务器及存储介质
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
CN110245357B (zh) 主实体识别方法和装置
CN110717008B (zh) 基于语意识别的搜索结果排序方法及相关装置
CN111984867A (zh) 一种网络资源确定方法及装置
US9690797B2 (en) Digital information analysis system, digital information analysis method, and digital information analysis program
CN109462635B (zh) 一种信息推送方法、计算机可读存储介质及服务器
CN114610796A (zh) 文本相似度确定方法、装置、存储介质以及电子设备
CN104408036A (zh) 关联话题的识别方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination