CN111209395B

CN111209395B - 一种短文本相似度计算系统及其训练方法

Info

Publication number: CN111209395B
Application number: CN201911375500.2A
Authority: CN
Inventors: 王丙栋; 游世学
Original assignee: Tongling Zhongkehuilian Technology Co ltd
Current assignee: Tongling Zhongkehuilian Technology Co ltd
Priority date: 2019-12-27
Filing date: 2019-12-27
Publication date: 2022-11-11
Anticipated expiration: 2039-12-27
Also published as: CN111209395A

Abstract

本申请公布了一种短文本相似度计算系统及其训练方法，所述系统包含以下模块：文本切分模块、文本编码器、文本相似度计算神经网络模块。本申请的短文本相似度计算系统，对需要计算相似度的两个短文本编码使用相同的编码器，再使用注意力机制得到第一个文本对第二个文本的注意力，归一化注意力得到相似度的值。本申请的神经网络有效利用了文本中词语在上下文的语义编码以及文本整体的语义编码，使用注意力来表征相似度，缓解了文本级语义编码的信息损失，避免了词语级语义编码孤立于上下文的问题。

Description

一种短文本相似度计算系统及其训练方法

技术领域

本申请涉及文本挖掘和深度学习技术领域，尤其涉及一种短文本相似度计算系统及其训练方法。

背景技术

短文本相似度计算广泛应用于问答系统、文本分类、文本聚类。常见的文本相似度计算方法有：以词为文本的基本单元计算Levenshtein编辑距离、把文本当作字词的集合并基于词义或词向量来计算文本的相似度、使用深度神经网络得到文本整体的编码并基于文本级编码向量来计算相似度。上述基于字词的方法忽视了字词在不同上下文的多义性，而基于文本级编码的方法存在语义信息损失的问题。

发明内容

本申请的目的是提供一种短文本相似度计算系统，对需要计算相似度的两个文本的词语序列以及文本整体进行编码，使用注意力机制计算第一文本词语序列编码对第二文本整体编码的注意力，归一化注意力得到相似度的值。

为实现上述目的，本申请采取以下技术方案：

根据本申请的第一个方面，提供了一种短文本相似度计算系统，包含以下模块：

文本切分模块；

文本编码器；

文本相似度计算神经网络模块。

以上模块的详细描述如下：

文本切分模块：将文本切分为token的序列，token既可以是字也可以是词，本申请中的token是字；在序列的开头处拼接上[BOS]标记、结尾处拼接上 [EOS]标记，其中[BOS]表示文本开头，[EOS]表示文本结尾。

文本编码器：用于将文本编码为token序列的向量表示。目前流行的文本编码器有ALBERT、ELMo、LSTM等，本申请使用ALBERT，也支持其他能对字词序列编码的序列模型。对于得到的token序列的编码，取[BOS]对应的向量为文本整体的编码向量。

文本相似度计算神经网络模块：对于给定的两个文本，将这两个文本的相似度表示为S(text1,text2),将第一文本编码对第二文本编码的注意力表示为attention(text1,text2),其中text1表示第一文本，text2表示第二文本。

相似度计算方法如下:

S(text1,text2)＝attention(text1,text2)

第一文本编码对第二文本编码的注意力为第一文本中所有token对第二文本的注意力的平均。计算方法如下：

attention(text1,text2)＝sum(sigmoid(attention(token,text2)))/leng th(text1)

其中attention(token,text2)为第一文本经编码得到与上下文语境相关的token向量对第二文本整体编码向量的注意力，length(text1)为第一文本中 token的个数。

所述文本相似度计算神经网络模块包括：

第一两层前馈网络，将第一文本token的向量矩阵变换为注意力机制的 query,其中第一层神经元使用relu作为激活函数，第二层不使用激活函数；

第二两层前馈网络，将第二文本的向量矩阵变换为注意力机制的key,所述 key与第一两层前馈网络得到的query具有相同的维度，所述第二两层前馈网络的第一层神经元使用relu作为激活函数，第二层神经元不使用激活函数。

根据本申请的第二个方面，提供了一种短文本相似度计算系统的训练方法，其特征在于，包含以下步骤：

S1、接收训练数据，包括给定的第一文本text1和第二文本text2,以及是否相似的二分类标签0或1，其中0为不相似，1为相似；

S2、以50％的概率随机交换第一文本和第二文本；

S3、使用所述文本切分模块将第一文本text1切分为token序列；并在序列的开头处拼接上[BOS]标记、结尾处拼接上[EOS]标记，其中[BOS]表示文本开头，[EOS]表示文本结尾；

S4、使用所述文本切分模块将第二文本text2切分为token序列；并在序列的开头处拼接上[BOS]标记、结尾处拼接上[EOS]标记，其中[BOS]表示文本开头，[EOS]表示文本结尾；

S5、使用文本编码器对text1编码得到第一文本每个token在上下文中的编码；

S6、使用第一两层前馈网络变换token的编码为注意力机制的query；

S7、使用文本编码器对text2编码并取[BOS]对应的编码作为第二文本的编码；

S8、使用第二两层前馈网络变换第二文本的编码为注意力机制的key；

S9、使用矩阵乘法计算第一文本每个token对第二文本的注意力，使用 sigmoid将注意力归一化；

S10、将第一文本所有token对第二文本的注意力求平均得到第一文本对每二文本的注意力作为相似度；

S11、根据真实的相似分类标签和预测的相似度计算交叉熵损失；

S12、使用adam优化器通过降低分类交叉熵损失来优化神经网络的参数。

根据本申请的第三个方面，提供了一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器运行所述计算机程序时执行以实现如第一方面所述的方法。

根据本申请的第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如第一方面所述的方法。

本申请由于采取以上技术方案，其具有以下优点：

有效利用了文本中词语在上下文的语义编码以及文本整体的语义编码，使用注意力来表征相似度，缓解了文本级语义编码的信息损失，避免了词语级语义编码孤立于上下文的问题。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本申请的神经网络系统结构图；

图2是本申请的模型训练流程图。

图3示出了本申请一实施例所提供的一种电子设备的结构示意图；

图4示出了本申请一实施例所提供的一种计算机介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请公布了一种短文本相似度计算系统及其训练方法，使用相同的编码器对需要计算相似度的两个短文本编码，再使用注意力机制得到第一个文本对第二个文本的注意力，归一化注意力得到相似度的值。

请参阅图1，如图1所示，文本相似度计算神经网络的具体说明如下：

文本编码器101将第一文本和第二文本编码为词例(token)序列的向量矩阵，将第二文本[BOS]标记对应的向量作为第二文本整体的编码。

两层前馈网络102将第一文本token的向量矩阵变换为注意力机制的查询(query),其中第一层神经元使用relu作为激活函数，第二层不使用激活函数。

两层前馈网络103将第二文本整体的编码向量变换为注意力机制的键(key),所述key与102得到的query具有相同的维度，所述前馈网络103第一层神经元使用relu作为激活函数，第二层不使用激活函数。

计算结点104对所述query和所述key的转置做矩阵乘法，得到第一文本每个token对第二文本的注意力。

计算结点105使用sigmoid将第一文本每个token对第二文本的注意力归一化。

计算结点106将第一文本所有token对第二文本归一化的注意力求平均，得到第一文本text1对第二文本text2的注意力作为相似度。

请参阅图2,如图2所示，对于单条训练数据(包括给定的第一文本text1 和第二文本text2,以及是否相似的二分类标签0或1，其中0为不相似，1为相似)，文本相似度计算神经网络模型的训练过程详细描述如下：

S1、起始过程201接收训练数据，包括给定的第一文本text1和第二文本 text2,以及是否相似的二分类标签。

S2、在过程202以50％的概率随机交换第一文本和第二文本；

S3、在过程203使用所述文本切分模块将第一文本text1切分为token序列；并在序列的开头处拼接上[BOS]标记、结尾处拼接上[EOS]标记，其中[BOS] 表示文本开头，[EOS]表示文本结尾；

S4、在过程204使用所述文本切分模块将第二文本text2切分为token序列；并在序列的开头处拼接上[BOS]标记、结尾处拼接上[EOS]标记，其中[BOS] 表示文本开头，[EOS]表示文本结尾；

S5、在过程205使用文本编码器101对text1编码得到第一文本每个token 在上下文中的编码；

S6、在过程206使用第一前馈网络102变换token的编码为注意力机制的 query；

S7、在过程207使用文本编码器101对text2编码并取[BOS]对应的编码作为第二文本的编码；

S8、在过程208使用第二前馈网络103变换第二文本的编码为注意力机制的key；

S9、在过程209使用矩阵乘法计算第一文本每个token对第二文本的注意力，使用sigmoid将注意力归一化；

S10、在过程210将第一文本所有token对第二文本的注意力求平均得到第一文本对每二文本的注意力作为相似度；

请参考图3，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图3所示，所述电子设备2包括：处理器200，存储器201，总线202 和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的短文本相似度计算系统。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述短文本相似度计算系统可以应用于处理器200中，或者由处理器200 实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器 (Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200 读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的短文本相似度计算系统出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的短文本相似度计算系统对应的计算机可读介质，请参考图4，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的短文本相似度计算系统。

需要说明的是，所述计算机可读存储介质的例子还可以包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的短文本相似度计算系统出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统) 使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种短文本相似度计算系统，其特征在于，包含以下模块：文本切分模块、文本编码器、文本相似度计算神经网络模块；

所述文本切分模块，用于将文本切分为token的序列；并在序列的开头处拼接上[BOS]标记、结尾处拼接上[EOS]标记，其中[BOS]表示文本开头，[EOS]表示文本结尾；

所述文本编码器，用于将文本编码为token序列的向量表示；

所述文本相似度计算神经网络模块，通过计算第一文本编码对第二文本编码的注意力，将注意力归一化得到两个文本的相似度；相似度的计算方法如下：

S(text1,text2)＝attention(text1,text2)

其中S(text1,text2)表示两个文本的相似度,attention(text1,text2)表示第一文本编码对第二文本编码的注意力,text1表示第一文本，text2表示第二文本；所述第一文本编码对第二文本编码的注意力为第一文本中所有token对第二文本的注意力归一化后的平均，计算方法如下：

attention(text1,text2)＝sum(sigmoid(attention(token,text2)))/length(text1)其中attention(token,text2)为第一文本经编码得到与上下文语境相关的token向量对第二文本向量的注意力，length(text1)为第一文本中token的个数。

2.根据权利要求1所述的系统，其特征在于，

所述文本相似度计算神经网络模块包括：

第一两层前馈网络，将第一文本token的向量矩阵变换为注意力机制的query,其中第一层神经元使用relu作为激活函数，第二层不使用激活函数；

第二两层前馈网络，将第二文本的向量矩阵变换为注意力机制的key,所述key与第一两层前馈网络得到的query具有相同的维度，所述第二两层前馈网络的第一层神经元使用relu作为激活函数，第二层神经元不使用激活函数。

3.一种权利要求1或2所述的短文本相似度计算系统的训练方法，其特征在于，包含以下步骤：

S2、以50％的概率随机交换第一文本和第二文本；

S9、使用矩阵乘法计算第一文本每个token对第二文本的注意力，使用sigmoid将注意力归一化；

4.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器运行所述计算机程序时执行以实现如权利要求1或2所述的系统。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1或2所述的系统。