CN115017879A

CN115017879A - 文本对比方法、计算机设备及计算机存储介质

Info

Publication number: CN115017879A
Application number: CN202210591024.3A
Authority: CN
Inventors: 黄何; 毛瑞彬; 朱菁; 雷若琦; 淮佳; 张俊; 杨建明
Original assignee: SHENZHEN SECURITIES INFORMATION CO Ltd
Current assignee: SHENZHEN SECURITIES INFORMATION CO Ltd
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2022-09-06

Abstract

本申请实施例公开了一种文本对比方法、计算机设备及计算机存储介质，用于实现多篇文档之间的语义及事件一致性核验，提高文档匹配的效率以及可靠性。本申请实施例提出了一种实现语义及事件一致性核验的文档对比方法，从段落粒度的语义对比层面出发，创新性结合NLP来处理两阶段式的文本匹配语义一致性对比和事件要素联合一致性判断，通过此文本对比方法解决文档之间内容匹配的过程，实现无监督学习以及有监督学习相互结合，共同提高匹配的效率以及可靠性。同时，本实施例从句子/短语粒度的事实对比层面出发，创新性提出一类基于事件要素抽取结合内容一致性判别方法框架，解决事件一致性核验的任务。

Description

文本对比方法、计算机设备及计算机存储介质

技术领域

本申请实施例涉及文本处理领域，具体涉及一种文本对比方法、计算机设备及计算机存储介质。

背景技术

现有的文档对比方法，大都采取无监督的方式来计算两篇文档特定文本段落的内容字面的重合度/相似性，直接确定得分最高的候选段落，实现内容对比和信息匹配的过程，从而实现对多个文本之间的差异化的提示功能。

过去的方法更多解决的是文档段落对应的关系，却无法基于事件的角度上实现更进一步的核验。金融行业普遍存在需要关注文档之间的事件一致性的场景，例如文档之间数值的一致性核验、报告文件与素材文件之间引用事件的一致性比对等等。不同的人面对同一份资料文件进行提炼、修饰到最后形成总结报告，虽然在文字组织及语言表达方法技巧上有所差异，但其所蕴含的事件依据却是不变的、客观存在的。进一步来说，当两篇文档的内容篇幅较长时，科学有效地实现语义及事件一致性核验的过程，其本身存在较大的挑战。现有论文、专利和商业软件针对这一问题并没有现成的解决方案。

发明内容

本申请实施例提供了一种文本对比方法、计算机设备及计算机存储介质，用于实现多篇文档之间的语义及事件一致性核验，提高文档匹配的效率以及可靠性。

本申请实施例第一方面提供了一种文本对比方法，所述方法包括：

获取目标文档和对比文档，获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；

根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量，根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落；

根据人工标注的目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型；

根据所述文本对语义匹配模型计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率，分别从所述目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率；

提示所述目标文档中最大匹配关系概率小于预设概率的段落与所述对比文档的任一段落不匹配。

本申请实施例第二方面提供了一种计算机设备，包括：

训练单元，用于获取目标文档和对比文档，获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；

确定单元，用于根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量，根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落；

训练单元还用于根据人工标注的目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型；

计算单元，用于根据所述文本对语义匹配模型计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率，分别从所述目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率；

提示单元，用于提示所述目标文档中最大匹配关系概率小于预设概率的段落与所述对比文档的任一段落不匹配。

本申请实施例第三方面提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现前述第一方面的方法。

本申请实施例第四方面提供了一种计算机存储介质，计算机存储介质中存储有指令，该指令在计算机上执行时，使得计算机执行前述第一方面的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本实施例中，创新性提出了一种实现语义及事件一致性核验的文档对比方法，从段落粒度的语义对比层面出发，创新性结合NLP来处理两阶段式的文本匹配语义一致性对比和事件要素联合一致性判断，通过此文本对比方法解决文档之间内容匹配的过程，实现无监督学习以及有监督学习相互结合，共同提高匹配的效率以及可靠性。同时，本实施例从句子/短语粒度的事实对比层面出发，创新性提出一类基于事件要素抽取结合内容一致性判别方法框架，解决事件一致性核验的任务。

附图说明

图1为本申请实施例中文本对比方法一个流程示意图；

图2为本申请实施例中文本对比方法另一流程示意图；

图3为本申请实施例中计算机设备一个结构示意图；

图4为本申请实施例中计算机设备另一结构示意图。

具体实施方式

下面对本申请实施例中的文本对比方法进行描述：

请参阅图1，本申请实施例中文本对比方法一个实施例包括：

101、获取目标文档和对比文档，获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；

本实施例的方法可应用于计算机设备，该计算机设备可以终端设备或者服务器设备等设备形式存在，用于为用户提供标签计算和标记的服务和功能。当计算机设备为终端时，可以是个人电脑(personal computer，PC)、台式计算机等终端设备；当计算机设备为服务器时，可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云数据库、云计算以及大数据和人工智能平台等基础云计算服务的云服务器。

本实施例中，可获取细分技术领域内的大规模文本段落数据，并基于Transformer双向编码器表示模型，如BERT、Roberta、XLNET等预训练语言模型，进行参数学习，进而构建各细分技术领域对应的预训练语言模型，记为ModelA。

给定多篇文档，包括目标文档A和对比文档B，各自经过文件内容的解析，获取所有文本段落集合，分别记为{a1，a2，…，an}和{b1，b2，…，bm}，n、m分别代表目标文档A和对比文档B的段落数目。因此，可根据目标文档和对比文档训练预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型。

具体的，对预训练语言模型进行训练得到文本表示向量模型的具体实施方式可包括以下多个步骤：

将目标文档和对比文档输入至预训练语言模型以使预训练语言模型根据自监督学习算法进行模型训练，并输出目标文档的表征向量和对比文档的表征向量；

构建InfoNCE Loss损失函数，根据目标文档的表征向量和对比文档的表征向量计算InfoNCE Loss值，当InfoNCE Loss值满足预设数值范围时确定预训练语言模型的模型训练满足收敛条件，并停止预训练语言模型的模型训练，得到文本表示向量模型。

例如，设i为目标文档A中的任一段落，j为对比文档B中的任一段落，利用对比学习的方法，对batch(假设为2)内的文本i、j各自采取不同的数据增强方法，如同义词替换、增删词语、回译、dropout等数据增强方法，基于上述ModelA提取目标文档A和对比文档B的固定维度的表征向量，得到目标文档A的表征向量vi’、vi”，以及对比文档的表征向量vj’、vj”，并构建InfoNCE Loss损失函数，根据目标文档的表征向量和对比文档的表征向量计算InfoNCE Loss值，当InfoNCE Loss值满足预设数值范围时确定预训练语言模型的模型训练满足收敛条件，并停止预训练语言模型的模型训练，得到文本表示向量模型，可记为ModelB。因此，本实施例利用了目标文档的表征向量和对比文档的表征向量来计算InfoNCELoss损失函数并根据计算得到的InfoNCE Loss值进行模型训练，可实现模型训练的自监督学习。

102、根据文本表示向量模型提取目标文档的单位化向量以及对比文档的单位化向量，根据目标文档的单位化向量以及对比文档的单位化向量从对比文档中确定对比文档的候选段落；

本实施例中，根据文本表示向量模型提取目标文档的单位化向量以及对比文档的单位化向量，其具体实施方式可以是，将目标文档的段落集合以及对比文档的段落集合输入至文本表示向量模型，以使得文本表示向量模型分别提取目标文档的各段落的语义向量以及对比文档的各段落的语义向量，分别对目标文档的各段落的语义向量以及对比文档的各段落的语义向量进行单位化，得到目标文档的各段落的单位化向量以及对比文档的各段落的单位化向量。

例如，沿用前述例子，将目标文档A的段落集合{a1，a2，…，an}和对比文档B的段落集合{b1，b2，…，bm}输入至文本表示向量模型ModelB，分别提取目标文档的各段落的语义向量，可记为{Va1，Va2，…，Van}，以及提取对比文档的各段落的语义向量，可记为{Vb1，Vb2，…，Vbm}。

而为了维持文本表示向量模型ModelB训练过程的一致性，可以考虑采取向量内积/余弦相似度等度量方法进行距离计算，距离值越大，代表向量间越靠近，语义越相似，又由于单位化后的向量i、j(其模长为1)的余弦相似度等价于向量内积，因此，为了提高候选文本段落召回的效率，可对所有的文本段落集合分别进行单位化，即分别对目标文档的各段落的语义向量{Va1，Va2，…，Van}以及对比文档的各段落的语义向量{Vb1，Vb2，…，Vbm}进行单位化，得到目标文档的各段落的单位化向量，可记为{Va1’，Va2’，…，Van’}，以及得到对比文档的各段落的单位化向量，可记为{Vb1’，Vb2’，…，Vbm’}。

在获得目标文档的单位化向量以及对比文档的单位化向量之后，可根据目标文档的单位化向量以及对比文档的单位化向量从对比文档中确定对比文档的候选段落，其具体实施方式是，分别将目标文档的每一单位化向量与对比文档的单位化向量的集合进行矩阵计算，得到目标文档的每一单位化向量对应的多个分值，分别从目标文档的每一单位化向量对应的多个分值中确定最大的K个分值，并将最大的K个分值对应的对比文档的段落确定为候选段落，其中K为正整数。

例如，沿用前述例子，对于目标文档A中的任意文本i，其对应的单位化向量为Vai’，将其与对比文档B各段落的单位化向量{Vb1’，Vb2’，…，Vbm’}进行矩阵计算，得到对应的分值，即{Vai’^T*Vb1’，Vai’^T*Vb2’，…，Vai’^T*Vbm’}，记矩阵计算结果为{si1，si2，…，sim}，同时，可设置召回个数K，取得分最大的K个矩阵计算结果，从对比文档获取矩阵计算结果的得分最大的K个分值所对应的文本段落，确定为候选段落，记为{b(1)，b(2)，…，b(k)}，假设K的值为6，则从对比文档获取矩阵计算结果的得分最大的6个分值所对应的文本段落，从而组成候选段落。以此类推，可获得目标文档A中每个段落分别对应的候选段落。

103、根据人工标注的目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练预训练语言模型，得到文本对语义匹配模型；

本实施例中，预训练语言模型可包括Transformer的双向编码器表示模型。训练预训练语言模型得到文本对语义匹配模型，其具体实施方式可包括如下多个步骤：

构建目标文档的每一段落分别对应的文本对匹配关系数据集，文本对匹配关系数据集为目标文档的任一段落与对比文档的段落集合中每个段落之间的人工标注的信息集合；

基于该文本对匹配关系数据集将目标文档的段落与对比文档的段落进行拼接，得到拼接段落，并在拼接段落添加CLS标志位和SEP标志位；

对添加CLS标志位和SEP标志位的拼接段落进行特征化并输入至Transformer双向编码器表示模型，以使得Transformer双向编码器表示模型的分类层对拼接段落的CLS标志位进行处理，得到Transformer双向编码器表示模型输出的标签的预测概率，根据预测概率计算二分类交叉熵损失函数LOSS值，当LOSS值满足收敛条件时得到文本对语义匹配模型。

其中，本步骤所训练的预训练语言模型与步骤101所训练的预训练语言模型可以是同一个预训练语言模型，也可以是不同的预训练语言模型，此处不作限定。

例如，沿用前述例子，对于目标文档A中的文本段落集合{a1，a2，…，an}，针对任意的段落ai，在对比文档B的段落集合{b1，b2，…，bm}进行人工筛选，选择语义信息最接近的段落bj，对段落bj标注为1，其余均为0，此具体方式是指，构建文本对匹配关系数据集，记为{aibj＝1ifai语义等价bj else0}，则可确定段落ai与对比文档B的段落集合中每个段落之间的的人工标注信息(即1或者0)。

接着，基于文本对匹配关系数据集，将段落ai和段落bj进行拼接，得到拼接段落，并在拼接段落添加标志位[CLS]、[SEP]，特征化后输入至Transformer双向编码器表示模型，以使得Transformer双向编码器表示模型的分类层对拼接段落的CLS标志位进行处理，得到Transformer双向编码器表示模型输出的标签的预测概率，根据预测概率计算二分类交叉熵损失函数LOSS值，当LOSS值满足收敛条件时得到文本对语义匹配模型，此具体方式是，获取文本的向量矩阵，采用self_attention的方式实现文本特征之间的交互，即对每个词的向量，得到它的Query、Key、Value向量，将每个词的Query向量与其它词的key向量分别做内积，计算词与词之间的attention系数，最后经过softmax与Value矩阵相乘，得到每个词的输出向量，而为了实现句子对的分类，取标志位[CLS]的输出向量，经过分类层的处理，得到每个标签的预测概率，基于构建的二分类交叉熵损失函数LOSS，实现文本对语义一致分类的建模，在模型建立和训练完成时获得文本对语义匹配模型，可记为ModelC。

104、根据文本对语义匹配模型计算目标文档的每一段落各自与候选段落中每一段落的匹配关系概率，分别从目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率；

105、提示目标文档中最大匹配关系概率小于预设概率的段落与对比文档的任一段落不匹配；

本实施例中，由于关系数据集中会存在大量的负样本，为了解决这个问题，一方面可以采取下采样的方法，即对于目标文档A中的任意文本i，其对应的单位化向量为Vai’，将其与对比文档B各段落的单位化向量{Vb1’，Vb2’，…，Vbm’}进行矩阵计算，得到目标文档A中每一段落对应的分值，筛选出分值低于阈值threshold的负样本，保留强负样本；另一方面，可以采取加权focal loss的方法进行目标函数的优化，降低简单样本在优化目标上的权重。

在获得目标文档A的任一段落ai对应的候选段落{b(1)，b(2)，…，b(k)}之后，建立{(ai，b(1))，(ai，b(2))，…，(ai，b(k))}输入形式，利用ModelC分别获取其各文本对(文本对即段落ai与该候选段落中的一个段落)的匹配关系概率{prob(1)，prob(2)，…，prob(k)}，筛选出得分最高的匹配段落bj’，同时，确定最小置信度alpha(0<alpha<1)，若max{prob(1)，prob(2)，…，prob(k)}<alpha，则提示段落ai与对比文档的任一段落都不匹配，此处的提示方式不限，例如可对段落ai进行高亮，或者显示具体的提示文字。

下面将在前述图1所示实施例的基础上，进一步详细地描述本申请实施例。请参阅图2，本申请实施例中文本对比方法另一实施例包括：

201、获取目标文档和对比文档，获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；

202、根据文本表示向量模型提取目标文档的单位化向量以及对比文档的单位化向量，根据目标文档的单位化向量以及对比文档的单位化向量从对比文档中确定对比文档的候选段落；

203、根据人工标注的目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练预训练语言模型，得到文本对语义匹配模型；

204、根据文本对语义匹配模型计算目标文档的每一段落各自与候选段落中每一段落的匹配关系概率，分别从目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率；

205、提示目标文档中最大匹配关系概率小于预设概率的段落与对比文档的任一段落不匹配；

步骤201至205所执行的操作与前述图1所示实施例中的步骤101至105所执行的操作类似，此处不再赘述。

206、确定目标文档与对比文档之间相匹配的段落中目标文档的段落与对比文档的段落是否符合事件一致性；

若目标文档中存在最大匹配关系概率大于预设概率的目标段落，则需要目标文档与对比文档之间相匹配的段落中目标文档的段落与对比文档的段落是否符合事件一致性，其具体方式如下：

确定对比文档中与目标段落相匹配的对比段落，分别对目标段落和对比段落进行分词，得到目标段落的输入序列以及对比段落的输入序列；

分别根据孪生网络架构对目标段落的输入序列以及对比段落的输入序列进行语义表征，得到目标段落的输入序列中每个词所对应的上下文表示，以及对比段落的输入序列中每个词所对应的上下文表示；

建立目标段落的事件要素标签类别，以及建立对比段落的事件要素标签类别；

分别对目标段落的事件要素标签类别以及对比段落的事件要素标签类别进行要素抽取建模，得到目标段落对应token位置的要素标签以及对比段落对应token位置的要素标签。

例如，假定对于目标文档A中的任意段落ai，其在对比文档B中所匹配的段落记为bj，接着可对这两个文本段落所包含的事件进行信息抽取建模，同时做出内容一致性判断。具体方式是，先将文本对{ai，bj}各自进行分词，得到段落ai的输入序列{(ai1，ai2，…，ailm)以及段落bj的输入序列(bj1，bj2，…bjlm)}，其中lm代表最长序列长度；

接着，利用孪生网络架构分别对上述两种输入序列进行语义表征，这里可选用CNN/RNN/Transformer等双向编码器，得到目标段落的输入序列中每个词所对应的上下文表示，以及对比段落的输入序列中每个词所对应的上下文表示，分别记为{Vai1，Vai2，…，Vailm}、{Vbj1，Vbj2，…，Vbjlm}，其中Vai、Vbj代表对应token位置的固定长度向量；

之后，建立目标段落的事件要素标签类别label_ent，以及建立对比段落的事件要素标签类别label_ent，再分别对段落ai的事件要素标签类别以及段落bj的事件要素标签类别进行要素抽取建模，这里可结合解码结构实现要素的抽取建模，可选Softmax/CRF/指针网络/Biaffine等进行要素的抽取建模，得到段落ai对应token位置的要素标签{le_ai1，le_ai2，…，le_ailm}，以及段落bj对应token位置的要素标签{le_bj1，le_bj2，…，le_bjlm}。

本实施例中，可基于真实标签，构建段落ai对应的LOSSner-a损失函数以及段落bj对应的LOSSner-b损失函数，代表文本段落自身的事件要素抽取的误差。

在得到目标段落对应token位置的要素标签以及对比段落对应token位置的要素标签之后，建立目标段落的事件要素标签类别的目标矩阵，以及建立对比段落的事件要素标签类别的对比矩阵，根据目标矩阵将目标段落的每个token的输出结果映射到相应的向量，得到目标段落对应token位置的要素标签向量，以及，根据对比矩阵将对比段落的每个token的输出结果映射到相应的向量，得到对比段落对应token位置的要素标签向量，融合目标段落对应token位置的上下文表示与要素标签向量，得到目标段落对应token位置的标签融合上下文向量，以及，融合对比段落对应token位置的上下文表示与要素标签向量，得到对比段落对应token位置的标签融合上下文向量，将目标段落对应token位置的标签融合上下文向量与对比段落对应token位置的标签融合上下文向量进行融合，得到目标段落对应token位置的交互注意力加权向量以及对比段落对应token位置的交互注意力加权向量。

例如，沿用前一例子，建立目标段落的事件要素标签类别的目标embedding矩阵，以及建立对比段落的事件要素标签类别的对比embedding矩阵，根据目标embedding矩阵将段落ai的每个token的输出结果映射到相应的向量，得到段落ai对应token位置的要素标签向量，记为{Emble_ai1，Emble_ai2，…，Emble_ailm}，以及，根据对比embedding矩阵将段落bj的每个token的输出结果映射到相应的向量，得到段落bj对应token位置的要素标签向量，记为{Emble_bj1，Emble_bj2，…，Emble_bjlm}。

之后，融合段落ai对应token位置的上下文表示{Vai1，Vai2，…，Vailm}与要素标签向量，融合的方式可以是相加，得到段落ai对应token位置的标签融合上下文向量{S_ai1，S_ai2，…，S_ailm}，以及，融合段落bj对应token位置的上下文表示{Vbj1，Vbj2，…，Vbjlm}与要素标签向量，得到段落bj对应token位置的标签融合上下文向量{S_bj1，S_bj2，…，S_bjlm}。

由于此过程的目标是比对两段文本间要素内容的一致性，因此可以对每个token的输出结果增加要素片段的标志元素entity_mask，若token属于任意有效实体的片段，则entity_mask的值为1，否则为0。

之后，再将段落ai对应token位置的标签融合上下文向量{S_ai1，S_ai2，…，S_ailm}与段落bj对应token位置的标签融合上下文向量{S_bj1，S_bj2，…，S_bjlm}进行融合，此处可引入self-attention机制，并结合entity_mask的信息，实现要素之间的交互，可得到段落ai对应token位置的交互注意力加权向量以及段落bj对应token位置的交互注意力加权向量，记为{O_ai1，O_ai2，…，O_ailm，O_bj1，O_bj2，…，O_bjlm}。

在得到目标段落对应token位置的交互注意力加权向量以及对比段落对应token位置的交互注意力加权向量之后，根据要素片段的标志元素获取目标段落对应token位置的交互注意力加权向量的池化向量，以及，根据要素片段的标志元素获取对比段落对应token位置的交互注意力加权向量的池化向量，将目标段落的池化向量与对比段落的池化向量进行拼接，得到拼接池化向量，在全连接交互层中根据sigmoid非线性函数将拼接池化向量映射到预设数值范围内的一个数值，得到目标拼接池化向量，构建二分类交叉熵损失函数，根据目标拼接池化向量、调节系数以及二分类交叉熵损失函数构建优化目标函数，根据梯度下降优化方法进行参数更新，得到事件匹配关系模型。

例如，沿用前一例子，将{O_ai1，O_ai2，…，O_ailm，O_bj1，O_bj2，…，O_bjlm}平均分成两部分，得到段落ai对应token位置的交互注意力加权向量{O_ai1，O_ai2，…，O_ailm}，以及段落bj对应token位置的交互注意力加权向量{O_bj1，O_bj2，…，O_bjlm}。之后，利用entity_mask值获取每个部分的池化向量，这里可采用相加的方法，得到{O_ai1，O_ai2，…，O_ailm}对应的池化向量P_ai，以及{O_bj1，O_bj2，…，O_bjlm}对应的池化向量P_bj。接着，将段落ai的池化向量P_ai与段落bj的池化向量P_bj进行拼接，得到拼接池化向量，在全连接交互层中根据sigmoid非线性函数将拼接池化向量映射到预设数值范围内的一个数值，得到目标拼接池化向量，其中预设数值范围可以是(0，1)。同时，构建二分类交叉熵损失函数LOSScls，根据目标拼接池化向量、调节系数beta(0<beta<1)以及二分类交叉熵损失函数LOSScls构建优化目标函数beta*LOSScls+(1-beta)*(LOSSner-a+LOSSner-b)，根据梯度下降优化方法进行参数更新，得到事件匹配关系模型，记为ModelD。

因此，在获得事件匹配关系模型之后，可根据该模型来确定目标文档中的任意段落与其在对比文档中匹配的段落之间是否符合事件一致性，具体方式是，将目标文档与对比文档之间相匹配的段落输入至事件匹配关系模型，以使得事件匹配关系模型处理相匹配的段落，并输出相匹配的段落中目标文档的段落的事件要素结果以及对比文档的段落的事件要素结果，以及输出相匹配的段落中目标文档的段落与对比文档的段落之间的事件相似度概率，若事件相似度概率大于预设阈值，则确定相匹配的段落中目标文档的段落与对比文档的段落符合事件一致性，若事件相似度概率小于预设阈值，则确定相匹配的段落中目标文档的段落与对比文档的段落不符合事件一致性。

例如，沿用前一例子，对于目标文档A中的任意段落ai，其在对比文档中语义匹配的段落记为bj，通过ModelD可以获取各自的事件要素结果，分别记为{le_ai1，le_ai2，…，le_ailm}和{le_bj1，le_bj2，…，le_bjlm}，同时输出段落ai和段落bj之间的事件相似度概率Prob_final，当Prob_final>分类阈值theta(0<theta<1)时，确定段落ai与段落bj符合事件一致性；若Prob_final＜theta，则段落ai与段落bj不符合事件一致性。

上面对本申请实施例中的文本对比方法进行了描述，下面对本申请实施例中的计算机设备进行描述，请参阅图3，本申请实施例中计算机设备一个实施例包括：

训练单元301，用于获取目标文档和对比文档，获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；

确定单元302，用于根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量，根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落；

训练单元301还用于根据人工标注的目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型；

计算单元303，用于根据所述文本对语义匹配模型计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率，分别从所述目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率；

提示单元304，用于提示所述目标文档中最大匹配关系概率小于预设概率的段落与所述对比文档的任一段落不匹配。

本实施例一种优选的实施方式中，确定单元302具体用于：

将所述目标文档的段落集合以及所述对比文档的段落集合输入至所述文本表示向量模型，以使得所述文本表示向量模型分别提取所述目标文档的各段落的语义向量以及所述对比文档的各段落的语义向量；

分别对所述目标文档的各段落的语义向量以及所述对比文档的各段落的语义向量进行单位化，得到所述目标文档的各段落的单位化向量以及所述对比文档的各段落的单位化向量；

所述根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落，包括：

分别将所述目标文档的每一单位化向量与所述对比文档的单位化向量的集合进行矩阵计算，得到所述目标文档的每一单位化向量对应的多个分值；

分别从所述目标文档的每一单位化向量对应的多个分值中确定最大的K个分值，并将所述最大的K个分值对应的所述对比文档的段落确定为所述候选段落，其中K为正整数。

本实施例一种优选的实施方式中，训练单元301具体用于：

将所述目标文档和所述对比文档输入至所述预训练语言模型以使所述预训练语言模型根据自监督学习算法进行模型训练，并输出所述目标文档的表征向量和所述对比文档的表征向量；

构建InfoNCE Loss损失函数，根据所述目标文档的表征向量和所述对比文档的表征向量计算InfoNCE Loss值，当InfoNCE Loss值满足预设数值范围时确定所述预训练语言模型的模型训练满足收敛条件，并停止所述预训练语言模型的模型训练，得到所述文本表示向量模型。

本实施例一种优选的实施方式中，所述预训练语言模型包括Transformer的双向编码器表示模型；

训练单元301具体用于：

构建所述目标文档的每一段落分别对应的文本对匹配关系数据集，所述文本对匹配关系数据集为所述目标文档的任一段落与所述对比文档的段落集合中每个段落之间的人工标注的信息集合；

基于所述文本对匹配关系数据集将所述目标文档的段落与所述对比文档的段落进行拼接，得到拼接段落，并在所述拼接段落添加CLS标志位和SEP标志位；

对添加CLS标志位和SEP标志位的所述拼接段落进行特征化并输入至所述Transformer双向编码器表示模型，以使得所述Transformer双向编码器表示模型的分类层对所述拼接段落的CLS标志位进行处理，得到所述Transformer双向编码器表示模型输出的标签的预测概率，根据所述预测概率计算二分类交叉熵损失函数LOSS值，当所述LOSS值满足收敛条件时得到所述文本对语义匹配模型。

本实施例一种优选的实施方式中，若所述目标文档中存在最大匹配关系概率大于所述预设概率的目标段落，则确定单元302还用于：

确定所述对比文档中与所述目标段落相匹配的对比段落，分别对所述目标段落和所述对比段落进行分词，得到所述目标段落的输入序列以及所述对比段落的输入序列；

分别根据孪生网络架构对所述目标段落的输入序列以及所述对比段落的输入序列进行语义表征，得到所述目标段落的输入序列中每个词所对应的上下文表示，以及所述对比段落的输入序列中每个词所对应的上下文表示；

建立所述目标段落的事件要素标签类别，以及建立所述对比段落的事件要素标签类别；

分别对所述目标段落的事件要素标签类别以及所述对比段落的事件要素标签类别进行要素抽取建模，得到所述目标段落对应token位置的要素标签以及所述对比段落对应token位置的要素标签。

本实施例一种优选的实施方式中，确定单元302还用于：

建立所述目标段落的事件要素标签类别的目标矩阵，以及建立所述对比段落的事件要素标签类别的对比矩阵；

根据所述目标矩阵将所述目标段落的每个token的输出结果映射到相应的向量，得到所述目标段落对应token位置的要素标签向量，以及，根据所述对比矩阵将所述对比段落的每个token的输出结果映射到相应的向量，得到所述对比段落对应token位置的要素标签向量；

融合所述目标段落对应token位置的上下文表示与要素标签向量，得到所述目标段落对应token位置的标签融合上下文向量，以及，融合所述对比段落对应token位置的上下文表示与要素标签向量，得到所述对比段落对应token位置的标签融合上下文向量；

将所述目标段落对应token位置的标签融合上下文向量与所述对比段落对应token位置的标签融合上下文向量进行融合，得到所述目标段落对应token位置的交互注意力加权向量以及所述对比段落对应token位置的交互注意力加权向量。

本实施例一种优选的实施方式中，确定单元302还用于：

根据要素片段的标志元素获取所述目标段落对应token位置的交互注意力加权向量的池化向量，以及，根据要素片段的标志元素获取所述对比段落对应token位置的交互注意力加权向量的池化向量，将所述目标段落的池化向量与所述对比段落的池化向量进行拼接，得到拼接池化向量；

在全连接交互层中根据sigmoid非线性函数将所述拼接池化向量映射到预设数值范围内的一个数值，得到目标拼接池化向量；

构建二分类交叉熵损失函数，根据所述目标拼接池化向量、调节系数以及所述二分类交叉熵损失函数构建优化目标函数，根据梯度下降优化方法进行参数更新，得到事件匹配关系模型。

本实施例一种优选的实施方式中，确定单元302还用于：

将所述目标文档与所述对比文档之间相匹配的段落输入至所述事件匹配关系模型，以使得所述事件匹配关系模型处理所述相匹配的段落，并输出所述相匹配的段落中所述目标文档的段落的事件要素结果以及所述对比文档的段落的事件要素结果，以及输出所述相匹配的段落中所述目标文档的段落与所述对比文档的段落之间的事件相似度概率；

若所述事件相似度概率大于预设阈值，则确定所述相匹配的段落中所述目标文档的段落与所述对比文档的段落符合事件一致性；

若所述事件相似度概率小于预设阈值，则确定所述相匹配的段落中所述目标文档的段落与所述对比文档的段落不符合事件一致性。

本实施例中，计算机设备中各单元所执行的操作与前述图1至图2所示实施例中描述的类似，此处不再赘述。

下面对本申请实施例中的计算机设备进行描述，请参阅图4，本申请实施例中计算机设备一个实施例包括：

该计算机设备400可以包括一个或一个以上中央处理器(central processingunits，CPU)401和存储器405，该存储器405中存储有一个或一个以上的应用程序或数据。

其中，存储器405可以是易失性存储或持久存储。存储在存储器405的程序可以包括一个或一个以上模块，每个模块可以包括对计算机设备中的一系列指令操作。更进一步地，中央处理器401可以设置为与存储器405通信，在计算机设备400上执行存储器405中的一系列指令操作。

计算机设备400还可以包括一个或一个以上电源402，一个或一个以上有线或无线网络接口403，一个或一个以上输入输出接口404，和/或，一个或一个以上操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

该中央处理器401可以执行前述图1至图2所示实施例中计算机设备所执行的操作，具体此处不再赘述。

本申请实施例还提供了一种计算机存储介质，其中一个实施例包括：该计算机存储介质中存储有指令，该指令在计算机上执行时，使得该计算机执行前述图1至图2所示实施例中计算机设备所执行的操作。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，read-onlymemory)、随机存取存储器(RAM，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文本对比方法，其特征在于，所述方法包括：

获取目标文档和对比文档，计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率；

分别从所述目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率；

2.根据权利要求1所述的方法，其特征在于，所述计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率，包括：

获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；

根据目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型；

根据所述文本对语义匹配模型计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率。

3.根据权利要求2所述的方法，其特征在于，所述根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型，包括：

5.根据权利要求2所述的方法，其特征在于，所述预训练语言模型包括Transformer的双向编码器表示模型；

所述根据人工标注的目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型，包括：

6.根据权利要求2至5任一项所述的方法，其特征在于，若所述目标文档中存在最大匹配关系概率大于所述预设概率的目标段落，则所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9中任一项所述的方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质中存储有指令，所述指令在计算机上执行时，使得所述计算机执行如权利要求1至9中任一项所述的方法。