CN110941951A - 文本相似度计算方法、装置、介质及电子设备 - Google Patents
文本相似度计算方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN110941951A CN110941951A CN201910979616.0A CN201910979616A CN110941951A CN 110941951 A CN110941951 A CN 110941951A CN 201910979616 A CN201910979616 A CN 201910979616A CN 110941951 A CN110941951 A CN 110941951A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- vector
- representing
- similar features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及语言处理领域,揭示了一种文本相似度计算方法、装置、介质及电子设备。该方法包括:将第一文本与第二文本分别进行分词及向量化处理;针对第一文本中的每个词与第二文本中的每个词,计算获取表示该词和非该词所在文本之间相似特征的互注意力向量;针对第一文本中的每个词与第二文本中的每个词,计算获取表示第一文本与第二文本的相似度的相似值。采用该方法,能够提高文本相似度计算的准确性。
Description
技术领域
本公开涉及语言处理技术领域,特别涉及一种文本相似度计算方法、装置、介质及电子设备。
背景技术
在大数据处理过程中,为了分析不同文字内容之间的相似度,需要采集不同的文本,并对采集到的文本进行相似度处理,将内容相似的文本归为一类,从而对内容相似的文本所呈现的状况进行统一处理,提升突发状况的处理效率。
而现有的文本相似度处理技术,由于对句子的表征能力欠缺以及采用的处理方法简单,对文本相似的处理结果通常不准确,造成对文本的后续处理失当。
发明内容
在语言处理技术领域,为了解决上述技术问题,本公开的目的在于提供一种文本相似度计算方法、装置、介质及电子设备。
根据本申请的另一方面,提供了一种文本相似度计算方法,所述方法包括:
将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量;
针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量;
针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量;
利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
根据本申请的一方面,提供了一种文本相似度计算装置,所述装置包括:
词向量获取模块,被配置为将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量;
第一计算模块,被配置为针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量;
第二计算模块,被配置为针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量;
第三计算模块,被配置为利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
根据本申请的一方面,提供的一种文本相似度计算装置的词向量处理模块包括:
分词处理子模块,被配置为对所述第一文本及所述第二文本分别进行分词处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词;
向量化处理子模块,被配置为针对所述第一文本中的每个第一词及所述第二文本中的每个第二词,利用Word2vec模型对该词进行向量化处理,获取表示每个词特征的词向量。
根据本申请的一方面,提供的一种文本相似度计算装置的向量化处理子模块包括:
词意向量处理单元,被配置为利用Word2vec模型对每个词进行向量化处理,获取表示每个词词意的词意向量;
字意向量处理单元,被配置为利用Word2vec模型对每个词中的每个字分别进行向量化处理,获得每个词中每个字的字意向量;
位置向量处理单元,被配置为利用Word2vec模型对每个词进行向量化处理,获取表示每个词在其所在文本中语序位置的位置向量;
计算单元,被配置为将每个词的词意向量、每个词中每个字的字意向量和每个词的位置向量相加,得到表示每个词特征的词向量。
根据本申请的一方面,提供的一种文本相似度计算装置的第一计算模块包括:
权重计算子模块,被配置为针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词向量,计算分别表示第一词和第二文本中每个第二词的相似特征及表示第二词和第一文本中每个第一词的相似特征的若干第一正则权重,各所述第一正则权重均表示每个词和非每个词所在文本中一个词的相似特征;
叉乘子模块,被配置为将各所述第一正则权重分别和其对应的非每个词所在文本中的词的词向量叉乘,得到表示每个词与非每个词所在文本中每一词相似特征的若干向量,各所述向量均表示每个词和非每个词所在文本中一个词的相似特征;
相加子模块,被配置为将已得到表示每个词与非每个词所在文本中每一词相似特征的所述若干向量相加,获取表示每个词和非每个词所在文本之间相似特征的互注意力向量。
根据本申请的一方面,提供的一种文本相似度计算装置的第一权重计算子模块包括:
第一叉乘单元,被配置为针对所述第一词与所述第二词,将每个词的词向量和非每个词所在文本中各词的词向量的转置向量分别进行叉乘,获取分别表示每个词和非每个词所在文本中每个词之间相似特征的若干第一正则值,各所述第一正则值均表示每个词和非每个词所在文本中一个词的相似特征;
相除单元,被配置为将每个词的所有所述第一正则值均除以一设定值,获取表示每个词与非每个词所在文本中每个词相似特征的若干第一正则权重,各所述第一正则权重均表示每个词和非每个词所在文本中一个词的相似特征,各所述第一正则权重之和为1。
根据本申请的一方面,提供的一种文本相似度计算装置的第二计算模块包括:
增强子模块,被配置为针对所述第一词与所述第二词,将每个词的互注意力向量输入LSTM网络模型,获取包含每个词与非每个词所在文本相似特征和该词特征的增强互注意力向量;
计算子模块,被配置为利用所述第一词的增强互注意力向量、所述第二词的增强互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量。
根据本申请的一方面,提供的一种文本相似度计算装置的增强子模块包括:
拼接单元,被配置为针对所述第一词与所述第二词,将每个词的词向量与每个词的互注意力向量进行拼接,获取该词的拼接向量;
降维单元,被配置为将每个词的所述拼接向量进行降维处理,得到与每个词的互注意力向量维数相同的降维向量;
第一相加单元,被配置为将每个词的所述拼接向量和计算获取的表示每个词在文本中语序位置的位置向量相加,获取每个词的增强互注意力向量。
根据本申请的一方面,提供的一种文本相似度计算装置的计算子模块包括:
权重计算单元,被配置为针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则权重,各所述第二正则权重均表示每个词、非每个词所在文本和每个词所在文本中一个词的相似特征;
第二叉乘单元,被配置为将各所述第二正则权重分别和其对应的词所在文本中的词的词向量叉乘,得到表示每个词与每个词所在文本中每一词相似特征的若干向量,各所述向量均表示每个词和每个词所在文本中一个词的相似特征;
第二相加单元,被配置为将已得到的所述若干向量相加,获取表示每个词、非每个词所在文本和每个词所在文本相似特征的自注意力向量。
根据本申请的一方面,提供的一种文本相似度计算装置的权重计算单元,还被配置为针对所述第一词与所述第二词,将每个词的互注意力向量和每个词所在文本中各词互注意力向量的转置向量分别进行叉乘,获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则值,各所述第二正则值均表示每个词、非每个词所在文本和每个词所在文本中一个词的相似特征;将各所述第二正则值均除以一设定值,获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则权重,各所述第二正则权重均表示每个词、非每个词所在文本和每个词所在文本中一个词的相似特征,各第二正则权重之和为1。
根据本申请的一方面,提供的一种文本相似度计算装置的第三计算模块包括:
相似向量计算子模块,被配置为分别取所述第一词的所述自注意力向量中的特定值和所述第二词的所述自注意力向量中的特定值,形成由所述第一文本的各所述特定值组成的第一相似向量和由所述第二文本的各所述特定值组成的第二相似向量;
相除子模块,被配置为将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,获取表示所述第一文本与所述第二文本相似度的相似值。
根据本申请的一方面,提供的一种文本相似度计算装置,还包括:
评估模块,被配置为在所述计算获取表示所述第一文本与所述第二文本的相似度的相似值之后,利用误差模型,评估所述相似值的准确性。
根据本申请的一方面,提供的一种文本相似度计算装置的评估模块中,所述误差模型为:
根据本申请的另一方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行如前所述的方法。
根据本申请的另一方面,提供了一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
本发明的实施例提供的技术方案可以包括以下有益效果:
本发明所提供的文本相似度计算方法包括如下步骤:将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量;针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量;针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量;利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
此方法下,采用该计算方法,通过计算获取每个词的互注意力向量,并利用每个词的互注意力向量计算获取该词的自注意力向量,使得每个词、每个词所在文本和非每个词所在文本的相似特征得到增强,而每个词、每个词所在文本和非每个词所在文本的不相似特征被减弱,这提高了利用自注意力向量计算获取的相似值的准确性。
从而提高计算获得的表示第一文本与第二文本相似度的相似值的准确度。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种文本相似度计算方法的系统构架示意图;
图2是根据一示例性实施例示出的一种文本相似度计算方法的流程图;
图3是根据图2对应实施例示出的一实施例的步骤210的细节流程图;
图4是根据图2对应实施例示出的一实施例的步骤220的细节流程图;
图5是根据图4对应实施例示出的一实施例的步骤221的细节流程图;
图6是根据图2对应实施例示出的一实施例的步骤230的细节流程图;
图7是根据图6对应实施例示出的一实施例的步骤231的细节流程图;
图8是根据图6对应实施例示出的一实施例的步骤232的细节流程图;
图9是根据图2对应实施例示出的一实施例的步骤240的细节流程图;
图10是根据图2对应实施例示出的一实施例的步骤240之后的步骤流程图;
图11是根据一示例性实施例示出的一种文本相似度计算装置的框图;
图12是根据一示例性实施例示出的一种文本相似度计算装置的框图;
图13是根据一示例性实施例示出的一种实现上述文本相似度计算方法的电子设备示例框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
本公开首先提供了一种文本相似度计算方法。文本指由中文或外文文字组成的能够进行意思表示的文字段。由于文字表示的方式多种多样,当文本由不同的文字内容组成时,文本中的文字或许不同,而文本要表示的意思或内容可能相似或一致。随着互联网技术的高速发展,通过计算机提取文字内容,获得文本,为文本中特征相同或相近的字或词设置大小相同或大小接近的数据,对文本中的字或词进行特征数字化提取,根据文本的字特征数据或词特征数据,计算获取表示文本特征的数据,然后将分别表示两个文本特征的数据进行计算,能够获取衡量两个文本之间的相似度的相似值。这里的特征可以是文字,如字或词,要表示的意思。通过对文本进行相似度计算,能够将相同或相似的文本归为一类,从而对相似文本所呈现的同一状况进行统一处理。
本公开的实施终端可以是任何具有运算和处理功能的设备,该设备还可以与外部设备相连,用于传输数据,其可以是便携移动设备,例如智能手机、平板电脑、笔记本电脑、PDA(Personal DigitalAssistant)等,也可以是固定式设备,例如,计算机设备、现场终端、台式电脑、服务器、工作站等,还可以是多个设备的集合,比如云计算的物理基础设施。
图1是根据一示例性实施例示出的一种文本相似度计算方法的系统构架示意图。如图1所示,包括数据库110、服务器120以及用户终端130,其中,在本实施例中服务器120是本公开的实施终端,服务器120与数据库110之间通过通信链路进行连接,从而使服务器120可以对数据库110中存储的数据进行存取操作,数据库110中存储着预先置于其中的文本及训练好的分词模型和,服务器120与用户终端130之间也存在着通信链路的连接,用户终端130可以向服务器120发送网络请求,服务器120会根据接收到的该网络请求向用户终端130返回相应的响应,具体可以为:服务器120对该网络请求进行处理,获取该网络请求所需要的文本、分词模型,然后从数据库110获取该文本、分词模型并向用户终端130返回,用户终端130上存储有程序代码,用户终端130包括处理器和存储器,存储器上存储有计算机可读指令,计算机可读指令被所述处理器执行时,能够实现步骤:将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量;针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量;针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量;利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
值得一提的是,图1仅是本公开的一个实施例,虽然在图1示出的实施例中,文本、分词模型存储于与本公开的实施终端连接的数据库之中、本公开的实施终端为服务器、并且用户终端为台式电脑,但在实际应用中,文本、分词模型存储于各种位置,比如可以是本地存储空间,同时本公开的实施终端可以是上述的各种各样的设备,而用户终端也可以是各种终端设备,比如用户终端还可以是智能手机。因此本公开对此不作任何限定,本公开的保护范围也不应因此而受到任何限制。
图2是根据一示例性实施例示出的一种文本相似度计算方法的流程图。如图2所示,包括以下步骤:
步骤210,将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量。
第一文本和第二文本均是指由中文或外文文字组成的能够进行意思表示的文字段。第一文本和第二文本均由若干句子组成,而每个句子均由若干词意不同的词组成。计算获取第一文本和第二文本的相似度,首先需要对第一文本和第二文本进行分词处理,分别获取第一文本中包含的词和第二文本中包含的词,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词。
然后,将第一文本包含的各词和第二文本中包含的各词分别进行向量化处理,针对第一文本中的每个词及第二文本中的每个词,分别获取表示该词特征的词向量。
为了计算第一文本和第二文本的相似度,需要分别将第一文本中的各词和第二文本中的各词进行向量化处理,针对第一文本中的每个词和第二文本中的每个词,获取表示该词特征的词向量。然后利用词向量进行运算,获取表示第一文本和第二文本相似度的相似值。
词特征由词意、词中每个字的字意和该词在文本中的语序位置确定。第一文本表示的含义,与第一文本中各词的词意、词中每个字的字意和各词在文本中的语序位置有关;第二文本表示的含义,与第二文本中各词的词意、词中每个字的字意和各词在文本中的语序位置有关。对第一文本与第二文本的相似度的计算,是为了确定第一文本表示的含义与第二文本表示的含义是否相同。而各文本均通过该文本中各词的词特征来进行含义的表示,因此利用表示文本中各单个词特征的词向量进行运算,能够确定各文本表示的含义是否相同,从而获取各文本的相似度。
针对第一文本中的每个第一词和第二文本中的每个第二词,获取表示每个词特征的词向量,包括:针对所述第一文本中的每个第一词及所述第二文本中的每个第二词,利用Word2vec模型对该词进行向量化处理,获取表示每个词特征的词向量。
如图3所示,针对所述第一文本中的每个第一词及所述第二文本中的每个第二词,利用Word2vec模型对该词进行向量化处理,获取表示每个词特征的词向量。,包括:
步骤211:利用Word2vec模型对每个词进行向量化处理,获取表示每个词词意的词意向量。
文本中各词的词意,能够影响文本含义的表示。针对文本中的每个词,能够根据该词的词意,利用Word2vec模型对该词进行向量训练,获取表示该词词意的词意向量,从而根据该词的词意向量,进行文本相似度计算。
步骤212:利用Word2vec模型对每个词中的每个字分别进行向量化处理,获得每个词中每个字的字意向量。
文本中各词均可能由多个字组成,词中每个字的字意,也能够影响文本含义的表示。针对文本中各词包含的每个字,能够根据该字的字意,利用Word2vec模型对该字进行向量训练,获取表示该字字意的字意向量,从而根据该字的字意向量,进行文本相似度计算。
步骤213:利用Word2vec模型对每个词进行向量化处理,获取表示每个词在其所在文本中语序位置的位置向量。
文本中每个词在该文本中的语序位置,影响文本含义的表示。针对第一文本的每个词和第二文本中的每个词,获取该词在该词所在文本中的语序位置,根据该词在该词所在文本中的语序位置,利用Word2vec模型对该词进行向量化处理,获取表示该词在该词所在文本中语序位置的位置向量,从而根据该词的位置向量,进行文本相似度计算。
步骤214:将每个词的词意向量、每个词中每个字的字意向量和每个词的位置向量相加,得到表示每个词特征的词向量。
词特征由词意、词中每个字的字意和该词在文本中的语序位置确定。针对第一文本和第二文本中的每个词,将该词的词意向量、该词中每个字的字意向量和该词的位置向量相加,能够获得表示该词特征的词向量。词向量能够表示该词的特征,针对第一文本的每个词和第二文本中的每个词,该词的词向量与该词在该词所在文本中的语序位置、该词中每个字的字意向量和该词的词意有关。
步骤220:针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量。
非该词所在文本是指第一文本和第二文本中的非该词所在文本,当一个词位于第一文本中时,非该词所在文本是指第二文本;同样,当一个词位于第二文本中时,非该词所在文本是指第一文本。计算第一文本和第二文本的相似度,需要获取第一文本和第二文本的相似特征,根据第一文本和第二文本的相似特征来计算第一文本和第二文本的相似度。第一文本和第二文本的相似特征通常很弱,在进行相似度计算,获得表示第一文本和第二文本的相似度的相似值之前,先要增强第一文本和第二文本的相似特征。
可以将第一文本和第二文本相似的特征进行增强,不相似的特征减弱,根据第一文本中每个第一词的词向量和第二文本中每个第二词的词向量,计算获得互注意力向量,互注意力向量中第一文本中一个词和第二文本的相似特征得到加强,第一文本中该词和第二文本的不相似特征被减弱,因此互注意力向量中第一文本的第一词和非第一词所在文本的不相似特征相对较弱,而第一文本的词和第二文本的相似特征相对较强,互注意力向量能够表示每个词与非每个词所在文本的相似特征。然后,根据互注意力向量,计算获取表示第一文本和第二文本相似度的相似值。如图4所示,利用下列步骤221-步骤223能够计算获取表示该词和非该词所在文本之间相似特征的互注意力向量。
步骤221:针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词向量,计算分别表示第一词和第二文本中每个第二词的相似特征及表示第二词和第一文本中每个第一词的相似特征的若干第一正则权重,各所述第一正则权重均表示每个词和非每个词所在文本中一个词的相似特征。
针对第一文本中的每个词和第二文本中的每个词,利用该词的词向量和非该词所在文本中一个词的词向量进行计算,能够计算获取表示两个词相似特征的正则权重。
如图5所示,正则权重的计算,能够通过下述步骤2211-步骤2212来完成。
步骤2211:针对所述第一词与所述第二词,将每个词的词向量和非每个词所在文本中各词的词向量的转置向量分别进行叉乘,获取分别表示每个词和非每个词所在文本中每个词之间相似特征的若干第一正则值,各所述第一正则值均表示每个词和非每个词所在文本中一个词的相似特征。
针对第一文本中每个词与第二文本中每个词,将该词的词向量与非该词所在文本中一个词的词向量的转置向量进行叉乘,在该计算过程中,两个词相似的特征被加强,而两个词不相似的特征被减弱,因此计算获取的第一正则值,能够表示两个词相似特征。
针对第一文本中每个词与第二文本中每个词,将该词的词向量与非该词所在文本中各词的词向量的转置向量分别进行叉乘,能够获取表示该词和非该词所在文本中各词之间相似特征的若干第一正则值,每一第一正则值均表示该词与非该词所在文本中一个词的相似特征。计算获取的第一正则值的数量与非该词所在文本中的词数量相同。
步骤2212:将每个词的所有所述第一正则值均除以一设定值,获取表示每个词与非每个词所在文本中每个词相似特征的若干第一正则权重,各所述第一正则权重均表示每个词和非每个词所在文本中一个词的相似特征,各所述第一正则权重之和为1。
针对第一文本中的每个词和第二文本中的每个词,该词的所有第一正则值指利用该词的词向量通过上述步骤2211,计算获取的所有表示该词与非该词所在文本中每个词相似特征的第一正则值。
计算获取的第一正则值可能大于1,为减小后续计算的数值,针对第一文本中的每个词和第二文本中的每个词,将该词的所有第一正则值均除以一设定值,获得小于1的若干正则权重,每一正则权重均表示该词和非该词所在文本中一个词的相似特征。根据该词的各第一正则值,计算获取的各第一正则权重之和为1。
步骤222:将各所述第一正则权重分别和其对应的非每个词所在文本中的词的词向量叉乘,得到表示每个词与非每个词所在文本中每一词相似特征的若干向量,各所述向量均表示每个词和非每个词所在文本中一个词的相似特征。
该词的各第一正则权重,是指通过该词的词向量由上述步骤221计算获取的表示该词与非该词所在文本中每一词相似特征的若干第一正则权重。针对该词的每一第一正则权重,将该正则权重分别和其对应的非该词所在文本中一个词的词向量叉乘,能够得到表示该词与非该词所在文本中每一词相似特征的若干向量。针对该词的各第一正则权重,将各第一正则权重分别和其对应的非该词所在文本中的词的词向量叉乘,得到表示该词和非该词所在文本中每一词相似特征的若干向量,得到的每一向量均表示该词和非该词所在文本中一个词的相似特征。
步骤223:将已得到表示每个词与非每个词所在文本中每一词相似特征的所述若干向量相加,获取表示每个词和非每个词所在文本之间相似特征的互注意力向量。
将已得到的表示该词和非该词所在文本每一词相似特征的若干向量相加,能够获得表示该词与非该词所在文本之间相似特征的互注意力向量。
该词与非该词所在文本之间的相似特征,是根据该词和非该词所在文本中每一词的相似特征获取的。因此,将表示该词和非该词所在文本中每一词相似特征的若干向量相加,能够获得表示该词和非该词所在文本之间相似特征的互注意力向量。
步骤230:针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量。
第一文本中各词的互注意力向量是指:通过上述步骤计算获得的分别表示第一文本中各词与第二文本相似特征的向量;第二文本中各词的互注意力向量是指:通过上述步骤计算获得的分别表示第二文本中各词与第一文本相似特征的向量。
由于计算获取的互注意力向量中,各词的词特征较弱,在利用第一文本中各词的互注意力向量、第二文本中各词的互注意力向量,计算获取表示该词、非该词所在文本和该词所在文本之间相似特征的自注意力向量之前,需要对已计算获得的各词的互注意力向量进行处理,使得要进行计算的向量包含较强的该词特征。
如图6所示,可通过步骤231-步骤232对各词的互注意力向量分别进行处理。
步骤231:针对所述第一词与所述第二词,将每个词的互注意力向量输入LSTM网络模型,获取包含每个词与非每个词所在文本相似特征和该词特征的增强互注意力向量。
LSTM网络(Long Stort Term Memory,长短期记忆网络)是一种循环神经网络的改进模型,其通过遗忘门决定哪些信息需要被过滤掉,输入门确定当前输入信息和当前的状态,输出门决定输出。通过门的方法学习文本的上下文信息,从而为已获得的文本信息添加时序信息。
如图7所示,针对第一文本中的每个词和第二文本中的每个词,将每个词的互注意力向量输入LSTM模型后,经过步骤2311-步骤2313后,能够获取包含每个词与非每个词所在文本相似特征和每个词特征的增强互注意力向量。
步骤2311:针对所述第一词与所述第二词,将每个词的词向量与每个词的互注意力向量进行拼接,获取该词的拼接向量。
将该词的词向量与该词的互注意力向量进行拼接,能够获得包含该词与非该词所在文本的相似特征和该词特征的拼接向量。
步骤2312:将每个词的所述拼接向量进行降维处理,得到与每个词的互注意力向量维数相同的降维向量。
将该词的词向量与该词的互注意力向量进行拼接,得到的拼接向量维数较大,为了进行后续计算,需要对已获得的拼接向量进行降维处理。
将拼接向量进行降维处理,得到与该词的互注意力向量维数相同的降维向量,以用于后续计算。
步骤2313:将每个词的所述拼接向量和计算获取的表示每个词在文本中语序位置的位置向量相加,获取每个词的增强互注意力向量。
针对第一文本中的每个词与所述第二文本中的每个词,将该词的拼接向量和计算获取的表示该词在文本中语序位置的位置向量相加,获取该词的增强互注意力向量。
文本中的词在文本中的语序位置对表示的文本含义具有重要的作用,经过计算获取的互注意力模型中,各词的语序位置特征通常较弱,需要经过该步骤增强各词的语序特征,得到的增强特征向量中包含该词特征、该词语序特征、该词与非该词所在文本相似特征。
获取该词的增强特征向量后,通过步骤232,利用所述第一词的增强互注意力向量、所述第二词的增强互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量。
利用第一文本中各词的增强互注意力向量、第二文本中各词的增强互注意力向量,能够计算表示该词、非该词所在文本和该词所在文本之间相似特征的自注意力向量。在每个词的自注意力向量中,该词、非该词所在文本和该词所在文本的相似特征被加强,该词、非该词所在文本和该词所在文本的不相似特征被减弱,因此该词的自注意力向量能够表示该词、非该词所在文本和该词所在文本之间相似特征。
如图8所示,通过步骤2321-步骤2323,能够表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量。
步骤2321:针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则权重,各所述第二正则权重均表示每个词、非每个词所在文本和每个词所在文本中一个词的相似特征。
利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则权重,包含以下步骤:
针对所述第一词与所述第二词,将每个词的互注意力向量和每个词所在文本中各词互注意力向量的转置向量分别进行叉乘,获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则值,各所述第二正则值均表示每个词、非每个词所在文本和每个词所在文本中一个词的相似特征。
针对第一文本中的每个词与第二文本中的每个词,将该词的互注意力向量与非该词所在文本中一个词的互注意力向量的转置向量叉乘,能够获得表示两个词之间相似特征的第二正则值。
针对第一文本中的每个词与第二文本中的每个词,将该词的互注意力向量与非该词所在文本中各词的互注意向量的转置向量叉乘,能够获得分别表示该词与非该词所在向量各词之间相似特征的若干第二正则值,每个第二正则向量均表示该词与非该词所在向量一个词的相似特征。
将各所述第二正则值均除以一设定值,获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则权重,各所述第二正则权重均表示每个词、非每个词所在文本和每个词所在文本中一个词的相似特征,各第二正则权重之和为1。
针对第一文本中的每个词和第二文本中的每个词,将该词与该词所在文本中各词的转置向量分别进行叉乘获取的各第二正则值均除以一设定值,能够获得表示该词与该词所在文本中每个词相似特征的若干第二正则权重,各第二正则权重之和为1。将各第二正则值均除以一设定值的目的是:针对第一文本中的每个词和第二文本中的每个词,使根据该词的增强互注意力向量与该词所在文本中各词的增强互注意力向量进行计算,获取的分别表示该词与该词所在文本每个词相似特征的若干第二正则权重之和为1。
步骤2322:将各所述第二正则权重分别和其对应的词所在文本中的词的词向量叉乘,得到表示每个词与每个词所在文本中每一词相似特征的若干向量,各所述向量均表示每个词和每个词所在文本中一个词的相似特征。
各第二正则权重均是通过将一个词的增强互注意力向量与该词所在文本一个词的增强互注意力向量的转置向量叉乘后获得的,因此每一第二正则权重都与该词所在文本中的一个词相对应。针对第一文本中的每个词和第二文本中的每个词,将根据该词的第二正则权重分别和其对应的该词所在文本中的词的增强互注意力向量叉乘,能够获得分别表示该词与该词所在文本中每一词相似特征的若干向量,各向量均表示该词和该词所在文本中一个词的相似特征。该词的第二正则权重是通过将该词的增强互注意力向量与该词所在文本中各词的增强互注意力向量的转置向量进行叉乘得到各第二正则值后,将各第二正则值除以一设定值后获得的。
步骤2323:将已得到的所述若干向量相加,获取表示每个词、非每个词所在文本和每个词所在文本相似特征的自注意力向量。
针对第一文本中的每个词和第二文本中的每个词,将利用该词的增强互注意力向量和该词所在文本中各词的增强互注意力向量,计算获得的分别表示该词和该词所在文本每一个词相似特征的各向量相加,能够得到表示该词、非该词所在文本和该词所在文本相似特征的自注意力向量。
针对第一文本中的每个词和第二文本中的每个词,由于该词的互注意力向量能够表示该词与非该词所在文本的相似特征,因此利用该词的互注意向量与该词所在文本各词的互注意力向量计算获得的该词的自注意力向量,能够表示该词、非该词所在文本、该词所在文本的相似特征。
针对第一文本中的每个词和第二文本中的每个词,在已计算获得该词的自注意力向量中,该词、非该词所在文本和该词所在文本的相似特征得到加强,该词、非该词所在文本和该词所在文本的不相似特征被减弱,因此该词的自注意力向量能够表示该词、该词所在文本和非该词所在文本的相似特征。
步骤240:利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
针对第一文本中的每个词和第二文本中的每个词,该词的自注意力向量分别表示该词、非该词所在文本和该词所在文本的相似特征,因此利用第一文本中各词的自注意力向量和第二文本中各词的自注意力向量,能够计算表示第一文本和第二文本相似度的相似值。
如图9所示,通过步骤241-步骤242,能够实现利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
步骤241:分别取所述第一词的所述自注意力向量中的特定值和所述第二词的所述自注意力向量中的特定值,形成由所述第一文本的各所述特定值组成的第一相似向量和由所述第二文本的各所述特定值组成的第二相似向量。
该特定值包括各词的自注意力向量中的最大值。针对第一文本中的每个词和第二文本中的每个词,由于计算该词的自注意力向量的目的是使该词、该词所在文本和非该词所在文本的相似特征得到增强,不相似的特征被减弱,因此该词自注意力向量中的最大值,最能够代表该词、非该词所在文本和该词所在文本的相似特征。
在一种实施例中,将各词自注意力向量中的所有数据的平均值,作为该词自注意力向量的特定值。
在一种实施例中,将各词自注意力向量中的最大值和所有数据的平均值,均作为该词自注意力向量的特定值。
分别取第一文本中各词自注意力向量中的特定值,形成由第一文本的各特定值组成的第一相似向量;分别取第二文本中各词自注意力向量中的特定值,形成由第二文本的各特定值组成的第二相似向量。
步骤242:将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,获取表示所述第一文本与所述第二文本相似度的相似值。
将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,计算公式为:
DW=||A+B||/(||A||+||B||)
公式中,A为第一相似向量,B为第二相似向量,||A+B||为第一相似向量A和第二相似向量B的欧式距离,||A||为第一相似向量A的模,||B||为第二相似向量B的模,DW为表示第一文本和第二文本相似度的相似值。
如图10所示,计算获取表示所述第一文本与第二文本的相似度的相似值之后,还包括:
步骤250:利用误差模型,评估所述相似值的准确性。
误差模型为:
其中:Y为设定值,在所述第一文本与所述第二文本相似时,Y值取1;所述第一文本与所述第二文本不相似时,Y值取0。m取1,DW为表示所述第一文本与所述第二文本相似度的相似值,为DW的平方。表示相似值与表示第一文本与第二文本真实相似度的真实值之间的差值。
相似度值DW小于1。利用误差模型,能够对计算获取的表示第一文本与第二文本相似度的相似值的准确度进行评估。
已计算获得的相似值与表示第一文本与第二文本真实相似度的真实值之间的差值较大,表示上述计算步骤获取的表示第一文本与第二文本相似度的相似值不准确,无法真实反映第一文本和第二文本的相似度。
采用梯度下降法,对分词模型和向量化处理模型进行重新训练,并采用训练后的模型进行分词和获取每个词的词向量,采用各词的词向量再次运用步骤210-步骤240计算获取表示第一文本和第二文本相似度的相似值。并利用误差模型对相似值进行评估。如此,可进行数轮模型训练和相似值计算,直到通过误差模型得到的小于设定值,该设定值是一个接近零的数值。
本公开一实施例还提供了一种文本相似度计算装置,如图11所示,包括:
词向量获取模块310,被配置为将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,分别获取表示每个词特征的词向量;
第一计算模块320,被配置为针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量;
第二计算模块330,被配置为针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量;
第三计算模块340,被配置为利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
如图12所示,在一种实施例中,词向量处理模块310包括:
分词处理子模块311,被配置为对所述第一文本及所述第二文本分别进行分词处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词;
向量化处理子模块312,被配置为针对所述第一文本中的每个第一词及所述第二文本中的每个第二词,利用Word2vec模型对该词进行向量化处理,获取表示每个词特征的词向量。
在一种实施例中,向量化处理子模块312包括:
词意向量处理单元3121,被配置为利用Word2vec模型对每个词进行向量化处理,获取表示每个词词意的词意向量;
字意向量处理单元3122,被配置为利用Word2vec模型对每个词中的每个字分别进行向量化处理,获得每个词中每个字的字意向量;
位置向量处理单元3123,被配置为利用Word2vec模型对每个词进行向量化处理,获取表示每个词在其所在文本中语序位置的位置向量;
计算单元3124,被配置为将每个词的词意向量、每个词中每个字的字意向量和每个词的位置向量相加,得到表示每个词特征的词向量。
在一种实施例中,第一计算模块320包括:
权重计算子模块321,被配置为针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词向量,计算分别表示第一词和第二文本中每个第二词的相似特征及表示第二词和第一文本中每个第一词的相似特征的若干第一正则权重,各所述第一正则权重均表示每个词和非每个词所在文本中一个词的相似特征;
叉乘子模块322,被配置为将各所述第一正则权重分别和其对应的非每个词所在文本中的词的词向量叉乘,得到表示每个词与非每个词所在文本中每一词相似特征的若干向量,各所述向量均表示每个词和非每个词所在文本中一个词的相似特征;
相加子模块323,被配置为将已得到表示每个词与非每个词所在文本中每一词相似特征的所述若干向量相加,获取表示每个词和非每个词所在文本之间相似特征的互注意力向量。
在一种实施例中,权重计算子模块321包括:
第一叉乘单元3211,被配置为针对所述第一词与所述第二词,将每个词的词向量和非每个词所在文本中各词的词向量的转置向量分别进行叉乘,获取分别表示每个词和非每个词所在文本中每个词之间相似特征的若干第一正则值,各所述第一正则值均表示每个词和非每个词所在文本中一个词的相似特征;
相除单元3212,被配置为将每个词的所有所述第一正则值均除以一设定值,获取表示每个词与非每个词所在文本中每个词相似特征的若干第一正则权重,各所述第一正则权重均表示每个词和非每个词所在文本中一个词的相似特征,各所述第一正则权重之和为1。
在一种实施例中,第二计算模块330包括:
增强子模块331,被配置为针对所述第一词与所述第二词,将每个词的互注意力向量输入LSTM网络模型,获取包含每个词与非每个词所在文本相似特征和该词特征的增强互注意力向量;
计算子模块332,被配置为利用所述第一词的增强互注意力向量、所述第二词的增强互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量。
在一种实施例中,增强子模块331包括:
拼接单元3311,被配置为针对所述第一词与所述第二词,将每个词的词向量与每个词的互注意力向量进行拼接,获取该词的拼接向量;
降维单元3312,被配置为将每个词的所述拼接向量进行降维处理,得到与每个词的互注意力向量维数相同的降维向量;
第一相加单元3313,被配置为将每个词的所述拼接向量和计算获取的表示每个词在文本中语序位置的位置向量相加,获取每个词的增强互注意力向量。
在一种实施例中,计算子模块332包括:
权重计算单元3321,被配置为针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则权重,各所述第二正则权重均表示每个词、非每个词所在文本和每个词所在文本中一个词的相似特征;
第二叉乘单元3322,被配置为将各所述第二正则权重分别和其对应的词所在文本中的词的词向量叉乘,得到表示每个词与每个词所在文本中每一词相似特征的若干向量,各所述向量均表示每个词和每个词所在文本中一个词的相似特征;
第二相加单元3323,被配置为将已得到的所述若干向量相加,获取表示每个词、非每个词所在文本和每个词所在文本相似特征的自注意力向量。
在一种实施例中,权重计算单元3321,还被配置为针对所述第一词与所述第二词,将每个词的互注意力向量和每个词所在文本中各词互注意力向量的转置向量分别进行叉乘,获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则值,各所述第二正则值均表示每个词、非每个词所在文本和每个词所在文本中一个词的相似特征;将各所述第二正则值均除以一设定值,获取分别表示第一词、第二文本和第一文本中每个第一词相似特征及表示第二词、第一文本和第二文本中每个第二词相似特征的若干第二正则权重,各所述第二正则权重均表示每个词、非每个词所在文本和每个词所在文本中一个词的相似特征,各第二正则权重之和为1。
在一种实施例中,第三计算模块340包括:
相似向量计算子模块341,被配置为分别取所述第一词的所述自注意力向量中的特定值和所述第二词的所述自注意力向量中的特定值,形成由所述第一文本的各所述特定值组成的第一相似向量和由所述第二文本的各所述特定值组成的第二相似向量;
相除子模块342,被配置为将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,获取表示所述第一文本与所述第二文本相似度的相似值。
在一种实施例中,所述文本相似度计算装置,还包括:
评估模块350,被配置为在所述计算获取表示所述第一文本与所述第二文本的相似度的相似值之后,利用误差模型,评估所述相似值的准确性。
在一种实施例中,在评估模块350中,误差模型为:
以上实施例中的各模块执行的内容,与上述实施例中的方法内容相同,这里不再赘述。
下面参照图13来描述根据本发明的这种实施方式的电子设备700。图13显示的电子设备700仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图13所示,电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于:上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元710执行,使得所述处理单元710执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。
存储单元720可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)721和/或高速缓存存储单元722,还可以进一步包括只读存储单元(ROM)723。
存储单元720还可以包括具有一组(至少一个)程序模块725的程序/实用工具724,这样的程序模块725包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线730可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备700交互的设备通信,和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且,电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器760通过总线730与电子设备700的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备700使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
根据本公开的第四方面,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
本公开一实施例提供了用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (10)
1.一种文本相似度计算方法,其特征在于,所述方法包括:
将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量;
针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量;
针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量;
利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
2.根据权利要求1所述的方法,其特征在于,所述将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量,包括:
对所述第一文本及所述第二文本分别进行分词处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词;
针对所述第一文本中的每个第一词及所述第二文本中的每个第二词,利用Word2vec模型对该词进行向量化处理,获取表示每个词特征的词向量。
3.根据权利要求1所述的方法,其特征在于,所述针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量,包括:
针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词向量,计算分别表示第一词和第二文本中每个第二词的相似特征及表示第二词和第一文本中每个第一词的相似特征的若干第一正则权重,各所述第一正则权重均表示每个词和非每个词所在文本中一个词的相似特征;
将各所述第一正则权重分别和其对应的非每个词所在文本中的词的词向量叉乘,得到表示每个词与非每个词所在文本中每一词相似特征的若干向量,各所述向量均表示每个词和非每个词所在文本中一个词的相似特征;
将已得到表示每个词与非每个词所在文本中每一词相似特征的所述若干向量相加,获取表示每个词和非每个词所在文本之间相似特征的互注意力向量。
4.根据权利要求3所述的方法,其特征在于,所述针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词向量,计算分别表示第一词和第二文本中每个第二词的相似特征及表示第二词和第一文本中每个第一词的相似特征的若干第一正则权重,各所述第一正则权重均表示每个词和非每个词所在文本中一个词的相似特征,包括:
针对所述第一词与所述第二词,将每个词的词向量和非每个词所在文本中各词的词向量的转置向量分别进行叉乘,获取分别表示每个词和非每个词所在文本中每个词之间相似特征的若干第一正则值,各所述第一正则值均表示每个词和非每个词所在文本中一个词的相似特征;
将每个词的所有所述第一正则值均除以一设定值,获取表示每个词与非每个词所在文本中每个词相似特征的若干第一正则权重,各所述第一正则权重均表示每个词和非每个词所在文本中一个词的相似特征,各所述第一正则权重之和为1。
5.根据权利要求1所述的方法,其特征在于,所述针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量,包括:
针对所述第一词与所述第二词,将每个词的互注意力向量输入LSTM网络模型,获取包含每个词与非每个词所在文本相似特征和该词特征的增强互注意力向量;
利用所述第一词的增强互注意力向量、所述第二词的增强互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量。
6.根据权利要求1所述的方法,其特征在于,所述利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值,包括:
分别取所述第一词的所述自注意力向量中的特定值和所述第二词的所述自注意力向量中的特定值,形成由所述第一文本的各所述特定值组成的第一相似向量和由所述第二文本的各所述特定值组成的第二相似向量;
将所述第一相似向量和所述第二相似向量的欧式距离与所述第一相似向量的模和所述第二相似向量的模之和相除,获取表示所述第一文本与所述第二文本相似度的相似值。
7.根据权利要求1所述的方法,其特征在于,所述计算获取表示所述第一文本与所述第二文本的相似度的相似值之后,还包括:
利用误差模型,评估所述相似值的准确性。
8.一种文本相似度计算装置,其特征在于,所述装置包括:
词向量获取模块,被配置为将第一文本与第二文本分别进行分词及向量化处理,得到所述第一文本中的每个第一词及所述第二文本中的每个第二词,以及表示每个词特征的词向量;
第一计算模块,被配置为针对所述第一词与所述第二词,利用所述第一词的词向量、所述第二词的词向量,计算表示第一词和第二文本之间相似特征的互注意力向量及表示第二词和第一文本之间相似特征的互注意力向量;
第二计算模块,被配置为针对所述第一词与所述第二词,利用所述第一词的互注意力向量、所述第二词的互注意力向量,计算表示第一词、第二文本和第一文本之间相似特征的自注意力向量及表示第二词、第一文本和第二文本之间相似特征的自注意力向量;
第三计算模块,被配置为利用所述第一词的所述自注意力向量和所述第二词的所述自注意力向量,计算表示所述第一文本与所述第二文本的相似度的相似值。
9.一种计算机可读程序介质,其特征在于,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行根据权利要求1至7中任一项所述的方法。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至7任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910979616.0A CN110941951B (zh) | 2019-10-15 | 2019-10-15 | 文本相似度计算方法、装置、介质及电子设备 |
PCT/CN2019/117668 WO2021072863A1 (zh) | 2019-10-15 | 2019-11-12 | 文本相似度计算方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910979616.0A CN110941951B (zh) | 2019-10-15 | 2019-10-15 | 文本相似度计算方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110941951A true CN110941951A (zh) | 2020-03-31 |
CN110941951B CN110941951B (zh) | 2022-02-15 |
Family
ID=69906108
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910979616.0A Active CN110941951B (zh) | 2019-10-15 | 2019-10-15 | 文本相似度计算方法、装置、介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110941951B (zh) |
WO (1) | WO2021072863A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733520A (zh) * | 2020-12-30 | 2021-04-30 | 望海康信(北京)科技股份公司 | 文本相似度计算方法、系统及相应设备和存储介质 |
CN113011172A (zh) * | 2021-03-15 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN113297835A (zh) * | 2021-06-24 | 2021-08-24 | 中国平安人寿保险股份有限公司 | 文本相似度计算方法、装置、设备及存储介质 |
CN113779987A (zh) * | 2021-08-23 | 2021-12-10 | 科大国创云网科技有限公司 | 一种基于自注意力增强语义的事件共指消岐方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678275A (zh) * | 2013-04-15 | 2014-03-26 | 南京邮电大学 | 一种基于主客观语义的双层次文本相似度计算方法 |
CN109543009A (zh) * | 2018-10-17 | 2019-03-29 | 龙马智芯(珠海横琴)科技有限公司 | 文本相似度评估系统及文本相似度评估方法 |
CN109783817A (zh) * | 2019-01-15 | 2019-05-21 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
CN109871491A (zh) * | 2019-03-20 | 2019-06-11 | 江苏满运软件科技有限公司 | 论坛帖子推荐方法、系统、设备及存储介质 |
CN109871540A (zh) * | 2019-02-21 | 2019-06-11 | 武汉斗鱼鱼乐网络科技有限公司 | 一种文本相似度的计算方法以及相关设备 |
CN109885657A (zh) * | 2019-02-18 | 2019-06-14 | 武汉瓯越网视有限公司 | 一种文本相似度的计算方法、装置及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013118435A1 (ja) * | 2012-02-09 | 2013-08-15 | 日本電気株式会社 | 意味的類似度計算方法、システム及びプログラム |
CN109145290B (zh) * | 2018-07-25 | 2020-07-07 | 东北大学 | 基于字向量与自注意力机制的语义相似度计算方法 |
CN109344399B (zh) * | 2018-09-14 | 2023-02-03 | 重庆邂智科技有限公司 | 一种基于堆叠双向lstm神经网络的文本相似度计算方法 |
CN109815484B (zh) * | 2018-12-21 | 2022-03-15 | 平安科技(深圳)有限公司 | 基于交叉注意力机制的语义相似度匹配方法及其匹配装置 |
-
2019
- 2019-10-15 CN CN201910979616.0A patent/CN110941951B/zh active Active
- 2019-11-12 WO PCT/CN2019/117668 patent/WO2021072863A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103678275A (zh) * | 2013-04-15 | 2014-03-26 | 南京邮电大学 | 一种基于主客观语义的双层次文本相似度计算方法 |
CN109543009A (zh) * | 2018-10-17 | 2019-03-29 | 龙马智芯(珠海横琴)科技有限公司 | 文本相似度评估系统及文本相似度评估方法 |
CN109783817A (zh) * | 2019-01-15 | 2019-05-21 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
CN109885657A (zh) * | 2019-02-18 | 2019-06-14 | 武汉瓯越网视有限公司 | 一种文本相似度的计算方法、装置及存储介质 |
CN109871540A (zh) * | 2019-02-21 | 2019-06-11 | 武汉斗鱼鱼乐网络科技有限公司 | 一种文本相似度的计算方法以及相关设备 |
CN109871491A (zh) * | 2019-03-20 | 2019-06-11 | 江苏满运软件科技有限公司 | 论坛帖子推荐方法、系统、设备及存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733520A (zh) * | 2020-12-30 | 2021-04-30 | 望海康信(北京)科技股份公司 | 文本相似度计算方法、系统及相应设备和存储介质 |
CN112733520B (zh) * | 2020-12-30 | 2023-07-18 | 望海康信(北京)科技股份公司 | 文本相似度计算方法、系统及相应设备和存储介质 |
CN113011172A (zh) * | 2021-03-15 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN113011172B (zh) * | 2021-03-15 | 2023-08-22 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备和存储介质 |
CN113297835A (zh) * | 2021-06-24 | 2021-08-24 | 中国平安人寿保险股份有限公司 | 文本相似度计算方法、装置、设备及存储介质 |
CN113297835B (zh) * | 2021-06-24 | 2024-03-29 | 中国平安人寿保险股份有限公司 | 文本相似度计算方法、装置、设备及存储介质 |
CN113779987A (zh) * | 2021-08-23 | 2021-12-10 | 科大国创云网科技有限公司 | 一种基于自注意力增强语义的事件共指消岐方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021072863A1 (zh) | 2021-04-22 |
CN110941951B (zh) | 2022-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107992596B (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
CN110941951B (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
CN110163478B (zh) | 一种合同条款的风险审查方法及装置 | |
US11645470B2 (en) | Automated testing of dialog systems | |
US11216618B2 (en) | Query processing method, apparatus, server and storage medium | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN113064964A (zh) | 文本分类方法、模型训练方法、装置、设备以及存储介质 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN114741468B (zh) | 文本去重方法、装置、设备及存储介质 | |
CN110929499B (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
CN114547301A (zh) | 文档处理、识别模型训练方法、装置、设备及存储介质 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 | |
CN112906368A (zh) | 行业文本增量方法、相关装置及计算机程序产品 | |
CN108733702B (zh) | 用户查询上下位关系提取的方法、装置、电子设备和介质 | |
CN115392235A (zh) | 字符匹配方法、装置、电子设备及可读存储介质 | |
CN113569578B (zh) | 一种用户意图识别方法、装置和计算机设备 | |
CN112989050B (zh) | 一种表格分类方法、装置、设备及存储介质 | |
CN115470790A (zh) | 一种识别文件中的命名实体的方法和装置 | |
CN110929749B (zh) | 文本识别方法、装置、介质及电子设备 | |
CN111444319B (zh) | 文本匹配方法、装置和电子设备 | |
CN111985217B (zh) | 一种关键词提取方法、计算设备及可读存储介质 | |
CN114444441A (zh) | 名称相似度计算方法、装置、存储介质和计算设备 | |
CN114048315A (zh) | 确定文档标签的方法、装置、电子设备和存储介质 | |
CN111753548A (zh) | 信息获取方法及装置、计算机存储介质、电子设备 | |
US11663251B2 (en) | Question answering approach to semantic parsing of mathematical formulas |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |