CN110929498B - 一种短文本相似度的计算方法及装置、可读存储介质 - Google Patents
一种短文本相似度的计算方法及装置、可读存储介质 Download PDFInfo
- Publication number
- CN110929498B CN110929498B CN201811117561.4A CN201811117561A CN110929498B CN 110929498 B CN110929498 B CN 110929498B CN 201811117561 A CN201811117561 A CN 201811117561A CN 110929498 B CN110929498 B CN 110929498B
- Authority
- CN
- China
- Prior art keywords
- text
- matched
- similarity
- semantic
- semantics
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种短文本相似度的计算方法,该方法包括:获取待匹配文本和参考文本,并计算所述待匹配文本和所述参考文本之间的文本相似度;获取关联文档,并基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度;其中,所述关联文档用于表征所述待匹配文本和参考文本之间的逻辑关系;基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义;基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度。本发明的实施例同时公开了一种短文本相似度计算装置和计算机存储介质。
Description
技术领域
本发明涉及文字识别技术领域,尤其涉及一种短文本相似度的计算方法及装置、可读存储介质。
背景技术
为了节约人力资源并为客户提供实时优质的服务,几乎每个公司都在开发和完善智能客服系统。一般情况下,智能客服系统在接收到用户输入的问题后,从已有的问题库中匹配出最相似的问题,并将匹配出的问题对应的解决方案返回给用户。实际应用中,用户输入的问题一般是口语化、简短的文本信息;基于此,从已有问题库中匹配与用户输入的问题最相似的问题即为短文本相似度的计算过程。由于输入的文本较短,用于计算相似度的信息较少;因此,现有技术中通常引入外部的知识库来扩充文本的语义。
然而,现有技术中通常使用结构化的知识库进行语义扩充;这里,结构化知识库是将词语按照固定的格式和关系组织起来;由于现实情况的复杂性,结构化知识库难以覆盖工作和生活的所有方面;因此,在短文本相似度计算过程中容易造成词义丢失,导致短文本相似度计算错误的问题。另外,现有技术仅根据词语表面的语义计算短文本的相似度,无法获取短文本的内在的深层逻辑性,容易造成短文本相似度计算不准确的问题。
发明内容
有鉴于此,本发明实施例提供一种短文本相似度的计算方法及装置、可读存储介质,解决了现有技术中相似度计算不准确或者相似度计算错误的问题。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,提供一种短文本相似度的计算方法,所述方法包括:
获取待匹配文本和参考文本,并计算所述待匹配文本和所述参考文本之间的文本相似度;其中,所述文本相似度用于表征所述待匹配文本和所述参考文本文字上的相似程度;
获取关联文档,并基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度;其中,所述关联文档用于表征所述待匹配文本和参考文本之间的逻辑关系;所述逻辑关联度用于表征所述待匹配文本和所述参考文本逻辑上的关联程度;
基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义;
基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度。
第二方面,提供一种短文本相似度计算装置,所述装置包括:
获取单元,用于获取待匹配文本和参考文本;
计算单元,用于计算所述待匹配文本和所述参考文本之间的文本相似度;其中,所述文本相似度用于表征所述待匹配文本和所述参考文本文字上的相似程度;
所述获取单元,还用于获取关联文档;
所述计算单元,还用于基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度;其中,所述关联文档用于表征所述待匹配文本和参考文本之间的逻辑关系;所述逻辑关联度用于表征所述待匹配文本和所述参考文本逻辑上的关联程度;
处理单元,用于基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义;
所述计算单元,还用于基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度。
第三方面,提供一种短文本相似度计算装置,处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器配置为运行所述计算机程序时,执行第一方面中所述方法的步骤。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如第一方面或第二方面所述的短文本相似度计算方法的步骤。
本发明的实施例所提供的短文本相似度的计算方法及装置、可读存储介质,首先,计算待匹配文本和参考文本之间的文本相似度;接着,获取关联文档,并基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度;其中,所述关联文档用于表征所述待匹配文本和参考文本之间的逻辑关系;其次,基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义;最后,基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度;这样,可以在得到待匹配文本和参考文本字面上的相似度的同时,根据关联文档得到待匹配文本和参考文本在逻辑上的关联程度,进而基于待匹配文本和参考文本的文字相似度以及逻辑关联度计算相似度;如此,克服了现有技术中短文本相似度计算不准确和计算错误的问题,从而保证了问题匹配的准确性。
附图说明
在附图(其不一定是按比例绘制的)中,相似的附图标记可在不同的视图中描述相似的部件。附图以示例而非限制的方式大体示出了本文中所讨论的各个实施例。
图1为本发明实施例提供的一种短文本相似度的计算方法流程示意图;
图2为本发明实施例提供的另一种短文本相似度的计算方法流程示意图;
图3为本发明实施例提供的一种短文本相似度的计算方法的系统架构示意图;
图4为本发明实施例提供的又一种短文本相似度的计算方法流程示意图;
图5为本发明实施例提供的一种短文本相似度计算装置的结构组成示意图;
图6为本发明实施例提供的一种文本相似度计算装置的硬件结构组成示意图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本发明实施例。
在实际应用中,通常引入外部的知识库进行短文本相似度的计算;这里,选取的知识库的质量直接关系到语义扩充和相似度计算的效果。现阶段广为使用的知识库为结构化知识库;这里,结构化知识库是按照固定的格式,同时根据词汇语义的上下位、同义、反义等相关关系组织起来形成的词语集合。
然而,在使用结构化数据库进行短文本相似度计算时具有以下缺陷:
1、结构化知识库语义覆盖范围小:由于词汇的多义性,有些词汇无法确定其真实含义;其次,由于现实情况的复杂性,结构化知识库难以包含所有相关知识;最后,结构化知识库中只是根据广义的词语语义关系形成,无法适用于特定的专业领域。
2、计算方法简单:现有相似度计算方法对知识库内容的利用都是局部的、原始的,直接使用知识库内容计算文本的相似度,没有提取文本的深层的逻辑性特征;且现有方法中只能提取两个文本的语义中相似的部分,从而忽略了文本整体语义中不相似的部分,造成了信息流失。
3、难以扩展:区别于结构化知识库覆盖面小、难以扩展的缺点,非结构化知识库具有组织简单、易于获取的特点,能提供更多样的外部知识。但是现有方法都是针对结构化知识库开发的,难以扩展到非结构化知识库。
为解决以上问题,本发明实施例提供了一种使用非结构化文档作为知识库的文本相似度计算方法;此方法在不同领域具有良好的扩展性,能够使用非结构化知识库挖掘文本在深层逻辑上的关联度,并且能从句子整体语义上计算相似度,避免了信息流失。
本发明实施例提供的一种短文本相似度的计算方法,参照图1所示,该方法包括以下步骤:
步骤101、获取待匹配文本和参考文本,并计算所述待匹配文本和所述参考文本之间的文本相似度。
其中,所述文本相似度用于表征所述待匹配文本和所述参考文本文字上的相似程度。
这里,步骤101获取待匹配文本和参考文本,并计算所述待匹配文本和所述参考文本之间的文本相似度可以由短文本相似度计算装置来实现;短文本相似度计算装置可以是用于提供智能客服的一种服务器。待匹配文本是指用户输入的问题;参考文本可以是智能客服服务器的问题库中的任一问题。需要说明的是,问题库中可以预先存储多个问题,智能客服服务器在接收到待匹配文本之后,逐一计算待匹配文本与问题库中所有预存的问题的相似度,以获取与待匹配文本相似度最高的问题作为匹配问题,向用户输出该匹配问题对应的解决方案,完成一次智能服务。
在上述方案中,文本相似度,顾名思义就是两个文本在字面上的相似程度;可以通过汉明距离、计算共有词等方法计算得到两个文本之间的文本相似度。
在本实施例中,步骤101计算所述待匹配文本和所述参考文本之间的文本相似度,包括以下步骤:
步骤1011、对所述待匹配文本和所述参考文本进行分词操作,得到所述待匹配文本对应的待匹配词语序列,以及所述参考文本对应的参考词语序列;
步骤1012、计算所述待匹配词语序列中每个词语与参考词语序列中每个词语之间的相似程度,得到所述匹配文本和所述参考文本之间的文本相似度。
在上述方案中,可以对待匹配文本和参考文本进行分词操作,根据词语语义之间的关系,将待匹配文本和参考文本整个文本切分为至少一个词语,并滤除文本中的停用词,保留具有实际意义的词语,得到所述待匹配文本对应的待匹配词语序列,以及所述参考文本对应的参考词语序列。这里,停用词是指标点符号以及没有实际意义的语气助词、副词以及连接词等;例如,“的”、“在”等词语。进一步,计算待匹配文本每个词语与参考文本中每个词语之间的相似度,来确定待匹配文本和参考文本整体的文本相似度。
步骤102、获取关联文档,并基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度。
其中,所述关联文档用于表征所述待匹配文本和参考文本之间的逻辑关系;所述逻辑关联度用于表征所述待匹配文本和所述参考文本逻辑上的关联程度。
在本发明的其他实施例中,步骤102获取关联文档,并基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度可以由短文本相似度计算装置来实现。这里,关联文档是与待匹配文本和参考文本都具有逻辑关联关系的文本;通过关联文本可以链接待匹配文本和参考文本之间在文本上不相似的部分,挖掘待匹配文本和参考文本在逻辑上的关联度。例如,文本“30M”与文本“数据流量”在文本字面上上并没有任何的相似度,但实际上两者指的是同一个内容,具有深层的逻辑关系;因此需要借助关联文本扩充短文本的语义,实现上述两个文本逻辑上的关联。
具体地,步骤102中的获取关联文档,包括:
从文档集合中获取与所述待匹配文本和所述参考文本关联度最高的文档,作为关联文档。
在上述方案中,文档集合是指在短文本相似度计算过程中引入的外部知识库;这里,外部知识库优选为非结构化知识库,非结构化知识库通常由描述性文档构成;这里,描述性文档可以认为是解释概念的文本,可以预先将相关领域固有概念的所有释义放入同一个描述性文档中。在本实施例中,在运营商提供的智能客服系统中,可以将运营商的相关业务构建成一个个的描述文档,形成文档集合。例如,描述性文档可以为以下一个句子:“两城一家:两城一家,2元/月,可享受在漫游时接听免费,直拨归属地及漫游地的电话0.19元/分钟的优惠”。
具体地,步骤102中基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度,包括以下步骤:
步骤1021、对所述关联文档进行分词操作,获得所述关联文档对应的关联词语序列;
步骤1022、获取所述待匹配词语序列中每个词语和所述关联词语序列中所有词语的相似度的最大值;
步骤1023、获取所述参考词语序列中每个词语和关联文档中所有词语的相似度的最大值;
步骤1024、基于所述待匹配词语序列中每个词语和所述关联词语序列中所有词语的相似度的最大值,以及所述参考词语序列中每个词语和关联文档中所有词语的相似度的最大值,得到所述待匹配文本和所述参考文本之间的逻辑关联度。
这里,对关联文档进行分词操作的过程与步骤101中对待匹配文档和参考文档的分词操作相同,词语语义之间的关系,将关联文档中整个文本切分为至少一个词语,并滤除文本中的停用词,保留具有实际意义的词语,得到关联词语序列。
进一步,分别获取待匹配文本对应的每个词语与关联文档中所有词语的相似度,进而确定待匹配文本每个词语与关联文档的相似度最大值,从而确定待匹配文本与该关联文档的关联程度;分别获取参考文本对应的每个词语与关联文档中所有词语的相似度,进而确定参考文本每个词语与关联文档的相似度最大值,从而确定参考文本与该关联文档的关联程度;基于此,根据待匹配文本与关联文档的关联程度,以及参考文本与关联文档的关联程度,得到待匹配文本与参考文本之间的关联程度。
在本实施例中,短文本相似度计算装置能够分别获取关联文档与待匹配文本,以及参考文本之间的关联程度,若关联文档与两个文本之间的关联程度都比较高,则说明待匹配文本和参考文本之间都与该关联文档对应的业务相关;从而弥补了现有技术中使用结构化知识库进行相似度计算时,只能从文本的字面意思上获取相似度而不能从逻辑上计算两个文本之间的相似度。
步骤103、基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义。
其中,步骤103基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义可以由短文本相似度计算装置来实现。这里,根据步骤101中计算的待匹配文本和参考文本在文本字面上的相似度,以及步骤102中计算的待匹配文本和参考文本在逻辑上的相似度,可以确定待匹配文本和参考文本真实的语义含义。
具体地,步骤103基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义,包括以下步骤:
步骤1031、基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,对所述待匹配文本和所述参考文本进行语义分离操作,获取待匹配文本对应的语义相似文本与语义不相似文本,以及所述参考文本对应的语义相似文本和语义不相似文本;其中,所述语义分离操作用于分离所述待匹配文本和参考文本两者之间的语义相似的文本部分和语义不相似的文本部分;
步骤1032、基于所述待匹配文本对应的语义相似文本和语义不相似文本,确定所述待匹配文本的语义;
步骤1033、基于所述参考文本对应的语义相似文本和语义不相似文本,确定所述参考文本对应的语义。
在上述方案中,根据待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,将待匹配文本和参考文本中语义相似部分和语义不相似的部分分别分离出来;进而,根据待匹配文本的语义相似文本与语义不相似文本来确定该待匹配文本的真实的含义;同理,根据参考文本的语义相似文本与语义不相似文本来确定该参考文本的真实的含义,提高了语义不相似部分在相似度计算中的贡献。
步骤104、基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度。
其中,步骤104基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度可以由短文本相似度计算装置来实现。这里,经过以上步骤的处理之后,可以获知待匹配文本和参考文本对应的真实的语义,进而基于文本真实的语义计算两者的相似度。
本发明的实施例所提供的短文本相似度的计算方法,首先,计算待匹配文本和参考文本之间的文本相似度;接着,获取关联文档,并基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度;其次,基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义;最后,基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度;这样,可以在得到待匹配文本和参考文本字面上的相似度的同时,根据关联文档得到待匹配文本和参考文本在逻辑上的关联程度,进而基于待匹配文本和参考文本的文字相似度以及逻辑关联度计算相似度;如此,克服了现有技术中短文本相似度计算不准确和计算错误的问题,从而保证了问题匹配的准确性。
基于前述实施例,本发明实施例提供了一种短文本相似度的计算方法,如图2所示,该方法包括以下步骤:
步骤201、短文本相似度计算装置对所述待匹配文本和所述参考文本进行分词操作,得到所述待匹配文本对应的待匹配词语序列,以及所述参考文本对应的参考词语序列。
在本实施例中,可以对待匹配文本进行分词操作,去除停用词后得到待匹配文本对应的待匹配词语序列(Sw1,Sw2,…,Swn);其中,待匹配文本分词后的词语总个数为n;同理,将参考文本进行分词操作,去除停用词后得到参考文本对应的参考词语序列(Tw1,Tw2,…,Twm);其中,参考文本的词语个数为m。
在实际应用中,计算机无法从字面上度量同义词、近义词语义,因此,需要将词语转换为计算机能够识别的数据进行表示;在本实施例中,使用词语向量表示(WordEmbedding)来对文本中词语的语义进行表征。词语的向量表示是使用实数域的向量来代表词语的语义,并保证具有相似上下文的词语的向量表示相近。具体是将训练数据收集起来,再使用Word2Vec方法训练词语对应的向量,构成<词语,向量>对应列表。
进一步,在获取待匹配文本对应的匹配词语序列(Sw1,Sw2,…,Swn)之后,从<词语,向量>对应列表查询每个词语对应的向量Se,按照词语顺序将对应的向量拼接成待匹配矩阵S,其中S=(Se1,Se2,…,Sen);在本实施例中,使用待匹配矩阵S来表示所述待匹配文本。
同理,在获取参考文本对应的匹配词语序列(Te1,Te2,…,Tem)之后,从<词语,向量>对应列表查询每个词语对应的向量Te,按照词语顺序将对应的向量拼接成参考矩阵T,其中T=(Te1,Te2,…,Tem);在本实施例中,使用参考矩阵T来表示所述参考文本。
需要说明的是,待匹配矩阵实际上是待匹配文本的抽象化表述,能够在保留文本语义的情况下被计算机识别。同理,参考矩阵实际上位参考文本的抽象化表述。此外,每个词语对应的向量的长度都相同;即每个词语对应的向量都具有相同的维数。
步骤202、短文本相似度计算装置计算所述待匹配词语序列中每个词语与参考词语序列中每个词语之间的相似程度,得到所述匹配文本和所述参考文本之间的文本相似度。
根据步骤201中的分析,可知文本中每个词语都具有对应的向量;因此,可以通过计算待匹配文本中每个词语对应的向量Se与参考文本中每个词语对应的向量Te之间的相似度,来确定所述匹配文本和所述参考文本之间的整体的文本相似度。
具体地,计算待匹配矩阵S和参考矩阵T中每个词语表征的向量之间的相似度,得到文本相似度矩阵An,m。在本实施例中,使用文本相似度矩阵An,m来表征所述匹配文本和所述参考文本之间的文本相似度。其中,文本相似度矩阵An,m中每个元素ai,j可以通过以下公式得到:
其中,Sei表示待匹配矩阵中第i个词语对应的向量;表示待匹配矩阵中第i个词语对应的向量的转置向量;Tej表示参考文本中第j个词语对应的向量;||·||表示求取向量的模,即向量的长度。这里,i为1至n之间的整数,j为1至m之间的整数。
步骤203、短文本相似度计算装置从文档集合中获取与所述待匹配文本和所述参考文本关联度最高的文档,作为关联文档。
在本实施例中,可以通过TF-IDF信息检索技术从文档集合中获取与待匹配文本和参考文本关联度最高的文档。
具体地,将待匹配词语序列和参考词语序列组合成为一个词语集合,构成待匹配&参考文档,计算上述词语集合中每个词语在待匹配&参考文档和文档集合中的每个文档中的词频(Term Frequency,TF)参数TFkg和逆文本频率(Inverse Document Frequency,IDF)指数IDFkg;这里,TF参数可以通过以下公式得到:
TFkg=词语个数nkg/文档词语总个数ng (2-2);
其中,k表示待匹配词语序列和参考词语序列组成的词语集合中第k个词语,g代表文档集合中的第g个文档;nkg表示第k个词语在第g个文档中出现的个数;ng表示第g个文档中词语的总个数。
另外,IDFkg指数可以通过以下公式得到:
IDFkg=log(总文档个数/(包含词语w的文档个数+1)) (2-3);
其中,w为待匹配词语序列和参考词语序列组成的词语集合中出现的词语;根据公式(2-4)确定词语集合中每个词的在文档中的TF-IDF权重:
TF-IDFkg=TFkg*IDFkg (2-4);
由此得到待匹配文本和参考文本的词语集合中每个词的TF-IDF权重值,进而,根据所述TF-IDF权重值将文档集合中的每个文档表示成向量形式;计算待匹配&参考文档表征的向量与文档集合表征的向量之间的余弦相似度,获取余弦相似度最高的文档,作为关联文档。
需要说明的是,步骤203也可以在步骤201之前执行,或者与步骤201,以及步骤202同时执行,本发明在此不做限定。
步骤204、短文本相似度计算装置对所述关联文档进行分词操作,获得所述关联文档对应的关联词语序列。
具体地,获取关联文档之后,可以将关联文档进行分词操作,去除停用词后得到关联文档对应的关联词语序列(Uw1,Uw2,…,Uwl);其中,待匹配文本分词后的词语总个数为l;进一步,在<词语,向量>对应列表查询每个词语对应的向量Ue,按照词语顺序将对应的向量拼接成关联矩阵U,其中U=(Ue1,Ue2,…,Uel);在本实施例中,使用关联矩阵U来表征所述关联文档。
步骤205、短文本相似度计算装置获取所述待匹配词语序列中每个词语和所述关联词语序列中所有词语的相似度的最大值。
在发明的其他实施例中,短文本相似度计算装置可以分别获取待匹配文本对应的每个词语与关联文档中所有词语的相似度,进而确定待匹配文本每个词语与关联文档的相似度最大值,从而确定待匹配文本中每个词语与关联文档的关联程度。
具体地,可以通过以下公式分别获取待匹配文本中词语i与关联文档的关联程度:
bi=Max(Sim(Sei,Uek)),k=1,2,…,l (2-5);
其中,Sim函数是指计算余弦相似度,用于计算待匹配矩阵S中第i个词语Swi对应的向量Sei与关联矩阵U中每个词语对应的向量的相似度;另外,Max函数用于得到矩阵S和U之间最大的相似度。如此,可以得到待匹配文本中词语Swi与关联文档U的关联程度。需要说明的是,i取值范围为1至n。
步骤206、短文本相似度计算装置获取所述参考词语序列中每个词语和关联文档中所有词语的相似度的最大值。
在本发明的其他实施例中,短文本相似度计算装置可以分别获取参考文本对应的每个词语与关联文档中所有词语的相似度,进而确定参考文本每个词语与关联文档的相似度最大值,从而确定参考文本与该关联文档的关联程度。
具体地,可以通过以下公式获取参考文本中每个词语与关联文档的关联程度:
cj=Max(Sim(Tej,Uek)),k=1,2,…,l (2-6);
其中,Sim函数是指计算余弦相似度,用于计算参考矩阵T中第j个词语Twj对应的向量Tej与关联矩阵U中每个词语对应的向量的相似度。另外,Max函数用于得到矩阵T和U之间最大的相似度。如此,可以得到参考文本中词语Twj与关联文档U的关联程度;需要说明的是j取值范围为1至m。
步骤207、短文本相似度计算装置基于所述待匹配词语序列中每个词语和所述关联词语序列中所有词语的相似度的最大值,以及所述参考词语序列中每个词语和关联文档中所有词语的相似度的最大值,得到所述待匹配文本和所述参考文本之间的逻辑关联度。
具体地,根据待匹配词语序列中每个词语和关联词语序列中所有词语的相似度的最大值bi,以及参考词语序列中每个词语和关联文档中所有词语的相似度的最大值cj,得到逻辑关联度矩阵Dn,m;在本发明的其他实施例中,使用逻辑关联度矩阵Dn,m来表征待匹配文本和参考文本之间的逻辑关联度。
其中,逻辑关联度矩阵Dn,m中每个元素di,j可以通过以下公式得到:
di,j=bi*cj (2-7);
其中,i取值范围为1至n,j取值范围为1至m。
在本发明的其他实施例中,确定逻辑关联度矩阵为所述待匹配文本和所述参考文本之间的逻辑关联度
根据待匹配文本与关联文档的关联程度,以及参考文本与关联文档的关联程度,能够得到待匹配文本与参考文本之间的逻辑关联度。
在本实施例中,短文本相似度计算装置能够分别获取关联文档与待匹配文本,以及参考文本之间的关联程度,若关联文档与两个文本之间的关联程度都比较高,则说明待匹配文本和参考文本之间都与该关联文档对应的业务相关;从而弥补了现有技术中使用结构化知识库进行相似度计算时,只能从文本的字面意思上获取相似度而不能从逻辑上计算两个文本之间的相似度。
步骤208、基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,获取所述待匹配文本和所述参考文本之间匹配度。
在本发明的其他实施例中,可以将待匹配文本和参考文本之间的文字相似度和逻辑关联度进行结合,得到能够反应两者相似关系的匹配度。具体地,可以将文字相似度矩阵An,m和逻辑关联度矩阵Dn,m相加,得到待匹配矩阵和参考矩阵之间的匹配度矩阵En,m;即,En,m=An,m+Dn,m。在本实施例中,使用匹配度矩阵En,m来表征待匹配文本和参考文本之间匹配度。
步骤209、通过所述待匹配文本和所述参考文本之间匹配度和所述参考文本,对所述待匹配文本进行语义表示,获得所述待匹配文本对应的语义表示文本;通过所述待匹配文本和所述参考文本之间匹配度和所述待匹配文本,对所述参考文本进行语义表示,获得所述参考文本对应的语义表示文本。
在本发明的其他实施例中,为进一步从整体上衡量文本的语义,可以使用匹配度矩阵En,m作为权重,使用另外一个文本中所有词语来表示当前文本中词语的语义,排列起来得到对应的语义表示文本。
具体地,通过所述匹配度和所述参考词语序列中所有词语,表征所述待匹配词语序列中每个词语对应的语义,得到所述待匹配文本对应的语义表示文本。即,通过匹配度矩阵En,m和参考矩阵T中所有的词语,表征待匹配矩阵中每个词语的语义,得到待匹配矩阵S对应的语义表示矩阵S'。其中,S'中每个词语的语义表示向量S'ei可以通过以下公式得到:
其中,i取值范围为1至n,并且(S'e1,S'e2,…,S'en)构成待匹配文本对应的语义表示矩阵S';在本实施例中,使用语义表示矩阵S'来表征待匹配文本对应的语义表示文本。
同理,通过所述匹配度和所述待匹配词语序列中所有词语,表征所述参考词语序列中每个词语对应的语义,得到所述参考文本对应的语义表示文本。即,通过匹配度矩阵En,m和待匹配矩阵S中所有的词语,表征参考矩阵T中每个词语的语义,得到参考矩阵T对应的语义表示矩阵T'。其中,T'中每个词语的语义表示向量T'ej可以通过以下公式得到:
其中,j取值范围为1至m,并且(T'e1,T'e2,…,T'em)构成参考文本对应的语义表示矩阵T';在本实施例中,使用语义表示矩阵T'来表征参考文本对应的语义表示文本。
步骤210、基于所述待匹配文本和所述待匹配文本对应的语义表示文本,确定所述待匹配文本对应的语义相似文本与语义不相似文本;基于所述参考文本和所述参考文本对应的语义表示文本,确定所述参考文本对应的语义相似文本和语义不相似文本。
在本发明的其他实施例中,可以将两个文本中语义相似的部分和语义不相似的部分分离出来;能够通过寻找两个文本语义的相同点和不同点,综合判断文本的相似程度。
具体地,基于所述待匹配文本和所述待匹配文本对应的语义表示文本,确定所述待匹配文本对应的语义相似文本与语义不相似文本,包括:
计算所述待匹配文本和所述待匹配文本对应的语义表示文本之间的第一相似度指数;
基于所述第一相似度指数和所述待匹配文本,确定所述待匹配文本的对应的语义相似文本与语义不相似文本。
在本发明的其他实施例中,可以使用待匹配矩阵S和待匹配矩阵对应的语义表示矩阵S'来确定待匹配文本的对应相似文本和不相似文本。优选地,对待匹配矩阵S和语义表示矩阵S'进行相似度计算,得到第一相似度指数α。其中,第一相似度指数α中的元素αi可以通过以下公式获得:
其中,i的取值为1至n;第一相似度指数α由n个元素构成。
进一步,基于以下公式得到待匹配文本语义相似矩阵和语义不相似矩阵:
同理,基于所述参考文本和所述参考文本对应的语义表示文本,确定所述参考文本对应的语义相似文本和语义不相似文本,包括:
计算所述参考文本和所述参考文本对应的语义表示文本之间的第二相似度指数;
基于所述第二相似度指数和所述参考文本,确定所述参考文本对应的语义相似文本和语义不相似文本。
优选地,对参考矩阵T以及参考矩阵的语义表示矩阵T'进行相似度计算,得到第二相似度指数β。其中,第二相似度指数β中的元素βj可以通过以下公式获得:
其中,j的取值为1至m;第二相似度指数β由m个元素构成。
进一步,基于以下公式得到参考文本语义相似矩阵和语义不相似矩阵:
步骤211、基于所述待匹配文本对应的语义相似文本和语义不相似文本,确定所述待匹配文本的语义;基于所述参考文本对应的语义相似文本和语义不相似文本,确定所述参考文本对应的语义。
具体地,使用卷积神经网络(Convolutional Neural Network,CNN)提取待匹配文本对应的语义相似矩阵和语义不相似矩阵的特征,拼接起来,作为待匹配文本的特征向量Sf。在本实施例中,使用特征向量Sf表征待匹配文本的语义。
同理,使用卷积神经网络(Convolutional Neural Network,CNN)提取参考文本对应的语义相似矩阵和语义不相似矩阵的特征,拼接起来,作为参考文本的特征向量Tf。在本实施例中,使用特征向量Tf表征参考文本的语义。
需要说明的是,CNN是常用的特征表示与特征提取深度神经网络;一般地,CNN的基本结构包括两层,其一为特征提取层,亦叫卷积层,每个神经元的输入与前一层的局部相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来,将其使用到句子特征向量提取中,即可保留词语的顺序与上下文信息,得到更有效的文本特征向量;其二是池化层,池化操作即降采样,旨在降低数据维度,避免过拟合,实际中常用的池化操作包括最大值池化(max-pooling)与平均值池化(mean-pooling)。本发明实施例中采用最大值池化。将一个卷积层和一个池化层拼接起来组成一个卷积组,一个卷积神经网络通常由多个卷积组组成,并最后连接一个全连接层。全连接层的输出即可看作CNN输出的特征向量。
步骤212、基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度。
这里,得到待匹配文本和参考文本的特征向量Sf和Tf后,可使用多种相似度计算方法度量二者的相似性。在实际应用中,通常使用的向量相似度计算方法包括余弦相似度,双线性(Bilinear)相似度以及张量(Tensor)相似度。其中余弦相似度是直接计算两个特征向量的余弦距离,即向量夹角的余弦值。Bilinear相似度是借助矩阵W,将两个特征向量映射到同一空间,后将二者的点积运算结果作为相似度;该方法是为处理两个文本不在同一语义空间的情况,常用在问答系统中。Tensor相似度是Bilinear相似度的延伸,使用多个矩阵,度量两个特征向量的多种关系,将所述多种关系作为特征类计算相似度;但是,使用Tensor相似度计算方法需要的参数较多,过于复杂。考虑到方法整体的性能,本发明实施例采用余弦相似度进行特征向量的相似度计算。
需要说明的是,本实施例中与其他实施例中相同步骤或相关概念的解释可以参照其他实施例中的描述,此处不再赘述。
本发明的实施例所提供的短文本相似度的计算方法,可以在得到待匹配文本和参考文本字面上的相似度的同时,根据关联文档得到待匹配文本和参考文本在逻辑上的关联程度,进而基于待匹配文本和参考文本的文字相似度以及逻辑关联度计算相似度,同时本实施例能够将两个文本之间的相似部分和不相似部分分离出来,进而基于似部分和不相似部分进行相似度计算;如此,克服了现有技术中短文本相似度计算不准确和计算错误的问题,从而保证了问题匹配的准确性,避免了文本中的信息流失。
基于前述实施例,本发明实施例提供了一种短文本相似度计算方法,应用于图3所示的系统结构中;具体地,系统的输入为待匹配文本和参考文本,最终输出两个文本的语义相似程度。其中,相似度的计算过程共包括以下6个步骤:关联文档查找,文本矩阵表示,语义匹配,语义分离,特征向量提取,相似度计算。
这里,关联文档查找是在海量的非结构化知识库的文档集合中查找与两个文本最为相关的文档,作为短文本语义的扩充,从而在语义以及业务逻辑上进行句子相似度计算。
文本矩阵表示是使用一个实数域的向量表示文本中每个词语的语义,形成文本对应的矩阵,将文本转化成计算机可以直接处理的数据,便于进行语义计算。其中,待匹配文本使用矩阵S表示,参考文本使用矩阵T表示,关联文档使用U表示。
语义匹配是在文本矩阵表示的基础上计算文本中每个词与另外一个句子中每个词语的文本相似度,以及通过关联文档计算两个文本在业务上的逻辑关联度,进而得到待匹配文本对应的语义表示矩阵S'和参考文本对应的语义表示矩阵T'。
语义分离是使用文本相似度和逻辑关联度作为权重,使用另外一个文本的整体语义表示当前文本中每个词语的语义,与原语义做比对,分离出语义相似和不相似部分。
特征向量提取是针对文本中语义相似和语义不相似部分,分别提取特征向量,组合成低维向量;并用其表示文本的真实语义,用于计算相似度。
相似度计算是在得到两个文本特征向量之后,对二者进行向量相似度计算,作为两个文本最终的语义相似度。
基于以上系统结构,如图4所示,本实施例提供的方法包括以下步骤:
步骤401、关联文档查找。
具体地,系统获取的待匹配文本为“我想订5元30M”,参考文本为“开通数据流量”。
系统中使用非结构化知识库作为文档集合,如表1所示,包括以下文档:
表1
将待匹配文本、和参考文本组合成一个词语集合,将词语集合中每个词语和文档集合中的所有文档进行TF-IDF表示。表示结果如表2所示:
词语集合:<0.05,0.15,0.01,0.02,0.012,0,0,0> |
文档1:<0,0,0,0.001,0.001,0.1,0,0> |
文档2:<0.1,0.15,0,0.02,0.012,0,0,0> |
文档3:<0,0,0,0.1,0,0,0.5,0> |
文档4:<0,0,0.001,0.03,0,0,0,0.4> |
文档5:… |
表2
通过计算文档结合中各文档与词语集合的TF-IDF余弦相似度,选取相似度最高的文档2作为关联文档。
步骤402、文本矩阵表示。
具体地,将待匹配文本、参考文T以及关联文档进行分词操作,去除停用词,保留具有实际意义的词语,得到结果如表3所示:
表3
使用Word2Vec将文本中的每个词语进行向量表示,并按词语顺序拼接成矩阵,作为文本的矩阵表示。
具体地,待匹配文本对应的待匹配矩阵S表示为如表4所示的结果:
表4
参考文本对应的参考矩阵T表示为如表5所示的结果:
表5
同理,使用Word2Vec将文档2也进行矩阵表示,得到关联矩阵U,此处不再赘述。
步骤403、语义匹配。
直接计算矩阵S、和矩阵T中每个两个词语的相似度,得到文本相似度矩阵An,m。文本相似度矩阵An,m的结果如表6所示:
表6
通过关联矩阵U计算矩阵S、和矩阵T中词语之间的逻辑关联度矩阵B。以待匹配文本中的第5个词“30M”和参考文本中第3个词“流量”为例,关联文档中与“30M”相似度最大的词是第10词“30M”,相似度为1;与“流量”相似度最大的词是第2、第5和13个词“流量”,相似度为1。故通过公式(2-5)、公式(2-6)和公式(2-7)计算得到逻辑关联度为:
d5,3=Max(Sim(Se5,Uek))*Max(Sim(Te3,Uek))=1*1=1。
这里,完整的逻辑关联度矩阵B如表7所示:
表7
将文本相似度矩阵An,m和逻辑关联度矩阵Dn,m相加,得到匹配度矩阵En,m,其中,匹配度矩阵En,m如表8所示:
表8
在此,由表8所示的匹配度矩阵Dn,m可见,通过关联矩阵U,大大提高了待匹配文本中“5元30M”与参考文本中“数据流量”的匹配程度。
最后,匹配度矩阵Dn,m作为权重,使用另外一个文本中所有词语向量表示的加权和来表示当前文本中词语的语义,得到语义表示矩阵。
以待匹配文本中第5个词语“30M”为例,将参考文本T中的三个词的向量表示按照(0.036,1.013,1.021)加权求和,得到待匹配文本中第5个词语的语义表示向量S5'=(-0.86001,0.178022,0.593411,...)。
具体地,待匹配文本的语义表示矩阵S'如表9所示:
表9
参考文本的语义表示矩阵T'如表10所示:
表10
步骤404、语义分离。
具体地,以待匹配文本为例,将待匹配文本中待匹配矩阵S与其语义表示矩阵S'逐词计算相似度,得到相似比例α=(0.15,0.23,0.54,0.89,0.95),将待匹配文本按照公式(2-11)进行分离,得到语义相似矩阵以及语义不相似矩阵
0.0198 | -0.05025 | 0.12465 | … |
-0.05405 | 0.00046 | 0.06601 | … |
-0.28242 | 0.10638 | 0.33642 | … |
0.05518 | 0.43254 | 0.12282 | … |
-0.3363 | 0.5396 | -0.01805 | … |
表11
0.1122 | -0.28475 | 0.70635 | … |
-0.18095 | 0.00154 | 0.22099 | … |
-0.24058 | 0.09062 | 0.28658 | … |
0.00682 | 0.05346 | 0.01518 | … |
-0.0177 | 0.0284 | -0.00095 | … |
表12
步骤405、特征向量提取。
这里,以待匹配文本为例,使用CNN提取语义相似矩阵与语义不相似矩阵的特征;将两者提取后的特征拼接起来,得到待匹配文本的特征向量Sf=(-0.11759466,0.13574534,-0.37880537,-0.08319856,...),同理,可得参考文本的特征向量Tf=(-0.30675321,-0.09120177,-0.05028109,0.15133874,...)。
步骤406、相似度计算。
具体地,使用余弦相似度计算特征向量Sf和特征向量Tf的相似度Sim(Sf,Tf)=0.93,得到待匹配文本和参考文本的最终相似度。
需要说明的是,本实施例中与其他实施例中相同步骤或相关概念的解释可以参照其他实施例中的描述,此处不再赘述。
为实现本发明实施例的方法,本发明实施例还提供了一种短文本相似度计算装置,如图5所示,所述装置包括:
获取单元51,用于获取待匹配文本和参考文本;
计算单元52,用于计算所述待匹配文本和所述参考文本之间的文本相似度;其中,所述文本相似度用于表征所述待匹配文本和所述参考文本文字上的相似程度;
所述获取单元51,还用于获取关联文档;
所述计算单元52,还用于基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度;其中,所述关联文档用于表征所述待匹配文本和参考文本之间的逻辑关系;所述逻辑关联度用于表征所述待匹配文本和所述参考文本逻辑上的关联程度;
处理单元53,用于基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义;
所述计算单元52,还用于基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度。
在本发明的其他实施例中,所述处理单元53,具体用于基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,对所述待匹配文本和所述参考文本进行语义分离操作,获取待匹配文本对应的语义相似文本与语义不相似文本,以及所述参考文本对应的语义相似文本和语义不相似文本;其中,所述语义分离操作用于分离所述待匹配文本和参考文本两者之间的语义相似的文本部分和语义不相似的文本部分;基于所述待匹配文本对应的语义相似文本和语义不相似文本,确定所述待匹配文本的语义;基于所述参考文本对应的语义相似文本和语义不相似文本,确定所述参考文本对应的语义。
在本发明的其他实施例中,所述处理单元53,还用于基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,获取所述待匹配文本和所述参考文本之间匹配度;通过所述待匹配文本和所述参考文本之间匹配度和所述参考文本,对所述待匹配文本进行语义表示,获得所述待匹配文本对应的语义表示文本;通过所述待匹配文本和所述参考文本之间匹配度和所述待匹配文本,对所述参考文本进行语义表示,获得所述参考文本对应的语义表示文本;基于所述待匹配文本和所述待匹配文本对应的语义表示文本,确定所述待匹配文本对应的语义相似文本与语义不相似文本;基于所述参考文本和所述参考文本对应的语义表示文本,确定所述参考文本对应的语义相似文本和语义不相似文本。
在本发明的其他实施例中,所述计算单元52,还可以用于计算所述待匹配文本和所述待匹配文本对应的语义表示文本之间的第一相似度指数;计算所述参考文本和所述参考文本对应的语义表示文本之间的第二相似度指数;
所述处理单元53,用于基于所述第一相似度指数和所述待匹配文本,确定所述待匹配文本的对应的语义相似文本与语义不相似文本;基于所述第二相似度指数和所述参考文本,确定所述参考文本对应的语义相似文本和语义不相似文本。
在本发明的其他实施例中,所述处理单元53,还用于对所述待匹配文本和所述参考文本进行分词操作,得到所述待匹配文本对应的待匹配词语序列,以及所述参考文本对应的参考词语序列;
所述计算单元52,用于计算所述待匹配词语序列中每个词语与参考词语序列中每个词语之间的相似程度,得到所述匹配文本和所述参考文本之间的文本相似度。
在本发明的其他实施例中,所述处理单元53,还用于对所述关联文档进行分词操作,获得所述关联文档对应的关联词语序列;
所述获取单元51,具体用于获取所述待匹配词语序列中每个词语和所述关联词语序列中所有词语的相似度的最大值;获取所述参考词语序列中每个词语和关联文档中所有词语的相似度的最大值;
所述计算单元52,具体用于基于所述待匹配词语序列中每个词语和所述关联词语序列中所有词语的相似度的最大值,以及所述参考词语序列中每个词语和关联文档中所有词语的相似度的最大值,得到所述待匹配文本和所述参考文本之间的逻辑关联度。
在本发明的其他实施例中,所述处理单元53,还具体用于通过所述匹配度和所述参考词语序列中所有词语,表征所述待匹配词语序列中每个词语对应的语义,得到所述待匹配文本对应的语义表示文本;通过所述匹配度和所述待匹配词语序列中所有词语,表征所述参考词语序列中每个词语对应的语义,得到所述参考文本对应的语义表示文本。
在本发明的其他实施例中,所述获取单元51,具体用于从文档集合中获取与所述待匹配文本和所述参考文本关联度最高的文档,作为关联文档。
在本发明的其他实施例中,所述待匹配文本,所述参考文本,所述关联文档,所述语义表示文本,以及所述语义相似文本与语义不相似文本使用矩阵形式表示,所述待匹配文本对应的语义和所述参考文本对应的语义使用向量形式表示。
基于上述短文本相似度计算装置中各单元的硬件实现,为了实现本发明实施例提供的短文本相似度计算方法,本发明实施例还提供了一种短文本相似度计算装置,如图6所示,所述装置60包括:处理器61和配置为存储能够在处理器上运行的计算机程序的存储器62,
其中,所述处理器61配置为运行所述计算机程序时,执行图1至图3中的方法步骤。
在示例性实施例中,本发明实施例还提供了一种计算机可读存储介质,例如包括计算机程序的存储器62,上述计算机程序可由文本相似度计算装置60的处理器61执行,以完成前述方法所述步骤。计算机可读存储介质可以是磁性随机存取存储器(FRAM,ferromagnetic random access memory)、只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory)等存储器。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (12)
1.一种短文本相似度的计算方法,其特征在于,所述方法包括:
获取待匹配文本和参考文本,并计算所述待匹配文本和所述参考文本之间的文本相似度;其中,所述文本相似度用于表征所述待匹配文本和所述参考文本文字上的相似程度;
获取关联文档,并基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度;其中,所述关联文档用于表征所述待匹配文本和参考文本之间的逻辑关系;所述逻辑关联度用于表征所述待匹配文本和所述参考文本逻辑上的关联程度;
基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义;
基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度。
2.根据权利要求1所述的方法,其特征在于,所述基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义,包括:
基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,对所述待匹配文本和所述参考文本进行语义分离操作,获取待匹配文本对应的语义相似文本与语义不相似文本,以及所述参考文本对应的语义相似文本和语义不相似文本;其中,所述语义分离操作用于分离所述待匹配文本和参考文本两者之间的语义相似的文本部分和语义不相似的文本部分;
基于所述待匹配文本对应的语义相似文本和语义不相似文本,确定所述待匹配文本的语义;
基于所述参考文本对应的语义相似文本和语义不相似文本,确定所述参考文本对应的语义。
3.根据权利要求2所述的方法,其特征在于,所述基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,对所述待匹配文本和所述参考文本进行语义分离操作,获取待匹配文本对应的语义相似文本与语义不相似文本,以及所述参考文本对应的语义相似文本和语义不相似文本,包括:
基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,获取所述待匹配文本和所述参考文本之间匹配度;
通过所述待匹配文本和所述参考文本之间匹配度和所述参考文本,对所述待匹配文本进行语义表示,获得所述待匹配文本对应的语义表示文本;
通过所述待匹配文本和所述参考文本之间匹配度和所述待匹配文本,对所述参考文本进行语义表示,获得所述参考文本对应的语义表示文本;
基于所述待匹配文本和所述待匹配文本对应的语义表示文本,确定所述待匹配文本对应的语义相似文本与语义不相似文本;
基于所述参考文本和所述参考文本对应的语义表示文本,确定所述参考文本对应的语义相似文本和语义不相似文本。
4.根据权利要求3所述的方法,其特征在于,所述基于所述待匹配文本和所述待匹配文本对应的语义表示文本,确定所述待匹配文本的对应的语义相似文本与语义不相似文本,包括:
计算所述待匹配文本和所述待匹配文本对应的语义表示文本之间的第一相似度指数;
基于所述第一相似度指数和所述待匹配文本,确定所述待匹配文本的对应的语义相似文本与语义不相似文本;
相应的,所述基于所述参考文本和所述参考文本对应的语义表示文本,确定所述参考文本对应的语义相似文本和语义不相似文本,包括:
计算所述参考文本和所述参考文本对应的语义表示文本之间的第二相似度指数;
基于所述第二相似度指数和所述参考文本,确定所述参考文本对应的语义相似文本和语义不相似文本。
5.根据权利要求3或4所述的方法,其特征在于,所述获取待匹配文本和参考文本,并计算所述待匹配文本和所述参考文本之间的文本相似度,包括:
对所述待匹配文本和所述参考文本进行分词操作,得到所述待匹配文本对应的待匹配词语序列,以及所述参考文本对应的参考词语序列;
计算所述待匹配词语序列中每个词语与参考词语序列中每个词语之间的相似程度,得到所述匹配文本和所述参考文本之间的文本相似度。
6.根据权利要求5所述的方法,其特征在于,所述基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度,包括:
对所述关联文档进行分词操作,获得所述关联文档对应的关联词语序列;
获取所述待匹配词语序列中每个词语和所述关联词语序列中所有词语的相似度的最大值;
获取所述参考词语序列中每个词语和关联文档中所有词语的相似度的最大值;
基于所述待匹配词语序列中每个词语和所述关联词语序列中所有词语的相似度的最大值,以及所述参考词语序列中每个词语和关联文档中所有词语的相似度的最大值,得到所述待匹配文本和所述参考文本之间的逻辑关联度。
7.根据权利要求6所述的方法,其特征在于,所述通过所述待匹配文本和所述参考文本之间匹配度和所述参考文本,对所述待匹配文本进行语义表示,获得所述待匹配文本对应的语义表示文本,包括:
通过所述匹配度和所述参考词语序列中所有词语,表征所述待匹配词语序列中每个词语对应的语义,得到所述待匹配文本对应的语义表示文本;
对应的,所述基于所述待匹配文本和所述待匹配文本对应的语义表示文本,确定所述待匹配文本对应的语义相似文本与语义不相似文本,包括:
通过所述匹配度和所述待匹配词语序列中所有词语,表征所述参考词语序列中每个词语对应的语义,得到所述参考文本对应的语义表示文本。
8.根据权利要求1~4任一所述的方法,其特征在于,所述获取关联文档,包括:
从文档集合中获取与所述待匹配文本和所述参考文本关联度最高的文档,作为关联文档。
9.根据权利要求1~4任一所述的方法,其特征在于,所述待匹配文本,所述参考文本,所述关联文档,所述语义表示文本,以及所述语义相似文本与语义不相似文本使用矩阵形式表示,所述待匹配文本对应的语义和所述参考文本对应的语义使用向量形式表示。
10.一种短文本相似度计算装置,其特征在于,所述装置包括:
获取单元,用于获取待匹配文本和参考文本;
计算单元,用于计算所述待匹配文本和所述参考文本之间的文本相似度;其中,所述文本相似度用于表征所述待匹配文本和所述参考文本文字上的相似程度;
所述获取单元,还用于获取关联文档;
所述计算单元,还用于基于所述关联文档、所述待匹配文本和所述参考文本,计算得到所述待匹配文本和参考文本之间的逻辑关联度;其中,所述关联文档用于表征所述待匹配文本和参考文本之间的逻辑关系;所述逻辑关联度用于表征所述待匹配文本和所述参考文本逻辑上的关联程度;
处理单元,用于基于所述待匹配文本和所述参考文本之间的文本相似度和逻辑关联度,确定所述待匹配文本对应的语义和所述参考文本对应的语义;
所述计算单元,还用于基于所述待匹配文本对应的语义和所述参考文本对应的语义,计算得到所述待匹配文本和所述参考文本的相似度。
11.一种短文本相似度计算装置,所述装置包括:处理器和配置为存储能够在处理器上运行的计算机程序的存储器,
其中,所述处理器配置为运行所述计算机程序时,执行权利要求1至9任一项所述方法的步骤。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至9中任一项所述的短文本相似度计算方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811117561.4A CN110929498B (zh) | 2018-09-20 | 2018-09-20 | 一种短文本相似度的计算方法及装置、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811117561.4A CN110929498B (zh) | 2018-09-20 | 2018-09-20 | 一种短文本相似度的计算方法及装置、可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110929498A CN110929498A (zh) | 2020-03-27 |
CN110929498B true CN110929498B (zh) | 2023-05-09 |
Family
ID=69856423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811117561.4A Active CN110929498B (zh) | 2018-09-20 | 2018-09-20 | 一种短文本相似度的计算方法及装置、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110929498B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460098B (zh) * | 2020-03-27 | 2023-08-25 | 深圳价值在线信息科技股份有限公司 | 文本匹配方法、装置及终端设备 |
CN112257411B (zh) * | 2020-10-20 | 2024-05-14 | 云南电网有限责任公司迪庆供电局 | 配电网调度交接班的方法及装置 |
CN112507709B (zh) * | 2020-12-28 | 2024-05-24 | 科大讯飞华南人工智能研究院(广州)有限公司 | 文档匹配方法以及电子设备、存储装置 |
CN112765976A (zh) * | 2020-12-30 | 2021-05-07 | 北京知因智慧科技有限公司 | 文本相似度计算方法、装置、设备及存储介质 |
CN114742029B (zh) * | 2022-04-20 | 2022-12-16 | 中国传媒大学 | 一种汉语文本比对方法、存储介质及设备 |
CN115203379A (zh) * | 2022-09-15 | 2022-10-18 | 太平金融科技服务(上海)有限公司深圳分公司 | 检索方法、装置、计算机设备、存储介质和程序产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104102626A (zh) * | 2014-07-07 | 2014-10-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
CN104424279A (zh) * | 2013-08-30 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 一种文本的相关性计算方法和装置 |
US9852337B1 (en) * | 2015-09-30 | 2017-12-26 | Open Text Corporation | Method and system for assessing similarity of documents |
-
2018
- 2018-09-20 CN CN201811117561.4A patent/CN110929498B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104424279A (zh) * | 2013-08-30 | 2015-03-18 | 腾讯科技(深圳)有限公司 | 一种文本的相关性计算方法和装置 |
CN104102626A (zh) * | 2014-07-07 | 2014-10-15 | 厦门推特信息科技有限公司 | 一种用于短文本语义相似度计算的方法 |
US9852337B1 (en) * | 2015-09-30 | 2017-12-26 | Open Text Corporation | Method and system for assessing similarity of documents |
Non-Patent Citations (1)
Title |
---|
刘怀亮 ; 杜坤 ; 秦春秀 ; .基于知网语义相似度的中文文本分类研究.现代图书情报技术.2015,(02),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110929498A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110929498B (zh) | 一种短文本相似度的计算方法及装置、可读存储介质 | |
CN108829822B (zh) | 媒体内容的推荐方法和装置、存储介质、电子装置 | |
CN106997376B (zh) | 一种基于多级特征的问题和答案句子相似度计算方法 | |
CN107480143B (zh) | 基于上下文相关性的对话话题分割方法和系统 | |
CN112667794A (zh) | 一种基于孪生网络bert模型的智能问答匹配方法及系统 | |
CN110929038B (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
US20210342371A1 (en) | Method and Apparatus for Processing Knowledge Graph | |
CN109543007A (zh) | 提问数据生成方法、装置、计算机设备和存储介质 | |
CN109522397B (zh) | 信息处理方法及装置 | |
JP2011118872A (ja) | 未登録語のカテゴリを決定する方法と装置 | |
US11461613B2 (en) | Method and apparatus for multi-document question answering | |
CN111563384A (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
CN115470338B (zh) | 一种基于多路召回的多场景智能问答方法和系统 | |
CN111666764A (zh) | 一种基于XLNet的自动摘要方法与装置 | |
CN111553151A (zh) | 一种基于字段相似度计算的问题推荐方法、装置和服务器 | |
CN112434533A (zh) | 实体消歧方法、装置、电子设备及计算机可读存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN110347812A (zh) | 一种面向司法文本的搜索排序方法及系统 | |
CN117743526A (zh) | 一种基于大语言模型和自然语言处理的表格问答方法 | |
CN116860947A (zh) | 面向文本阅读理解的选择题生成方法、系统及存储介质 | |
CN110705285A (zh) | 一种政务文本主题词库构建方法、装置、服务器及可读存储介质 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 | |
CN109684357A (zh) | 信息处理方法及装置、存储介质、终端 | |
CN112650869B (zh) | 图像检索重排序方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |