CN111428470A

CN111428470A - 文本连贯性判定及其模型训练方法、电子设备及可读介质

Info

Publication number: CN111428470A
Application number: CN202010210041.9A
Authority: CN
Inventors: 刘天乔; 丁文彪; 刘子韬
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-07-17
Anticipated expiration: 2040-03-23
Also published as: CN111428470B

Abstract

本发明实施例公开了一种文本连贯性判定及其模型训练方法、电子设备及计算机可读介质。文本连贯性判定模型的训练方法包括：分别获取第一文本的第一词向量表示和第二文本的第二词向量表示；通过交叉多路注意力机制对第一词向量表示和第二词向量表示进行处理，获得多种不同的句序特征；根据多种不同的句序特征，生成第三词向量表示和第四词向量表示；通过结构化自注意力机制对第三词向量表示和第四词向量表示进行处理，获得对应于第三词向量表示的第一候选句序特征和对应于第四词向量表示的第二候选句序特征；根据第一候选句序特征、第二候选句序特征、预设的第一文本和第二文本的参照句序关系信息，对文本连贯性判定模型进行训练。

Description

文本连贯性判定及其模型训练方法、电子设备及可读介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种文本连贯性判定模型的训练方法、文本连贯性判定方法，及对应的电子设备和计算机可读介质。

背景技术

在当前的语言教学中，学生给出的答案存在逻辑不连贯的片段，换句话说，存在学生的答案不符合因果关系或者其他的逻辑不合理的现象。纠正学生这种逻辑上的错误具有很大的意义。多数情况下，老师充当了纠正逻辑错误的角色。

为了解决这种由人力进行纠错的问题，现有技术中提供了对篇章逻辑性进行评价的方法，该方法对于篇章的评价通常基于语法句法，还有错用字词的纠正。但是，这种方法在对文本连贯性的评价的效果较差，准确度较低。

发明内容

本发明提供了一种文本连贯性判定及其模型训练方案，以至少部分解决上述问题。

根据本发明实施例的第一方面，提供了一种文本连贯性判定模型的训练方法，包括：分别获取第一文本对应的第一词向量表示和第二文本对应的第二词向量表示；通过交叉多路注意力机制对所述第一词向量表示和所述第二词向量表示进行处理，获得对应的用于表征所述第一文本和所述第二文本之间句序关系的、多种不同的句序特征；根据所述多种不同的句序特征，生成第一文本对应的第三词向量表示和第二文本对应的第四词向量表示；通过结构化自注意力机制对所述第三词向量表示和所述第四词向量表示进行处理，获得分别对应于所述第三词向量表示的第一候选句序特征和对应于所述第四词向量表示的第二候选句序特征；根据所述第一候选句序特征、所述第二候选句序特征，预设的所述第一文本和所述第二文本的参照句序关系信息，对所述文本连贯性判定模型进行训练。

根据本发明实施例的第二方面，提供了一种文本连贯性判定方法，包括：对语句文本对进行划窗处理，获得多个文本对；以单个文本对为单位，将所述多个文本对依次输入文本连贯性判定模型，分别获得与所述多个文本对对应的句序关系概率；其中，所述文本连贯性判定模型通过如第一方面所述的文本连贯性判定模型的训练方法训练获得；根据所述多个句序关系概率，判定所述语句文本的逻辑连贯性。

根据本发明实施例的第三方面，提供了一种电子设备，所述设备包括：一个或多个处理器；计算机可读介质，配置为存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的文本连贯性判定模型的训练方法；或者，实现如第二方面所述的文本连贯性判定方法。

根据本发明实施例的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如第一方面所述的文本连贯性判定模型的训练方法；或者，实现如第二方面所述的文本连贯性判定方法。

根据本发明实施例提供的方案，通过多种注意力机制对两个文本进行处理，其中，通过交叉多路注意力机制对两个文本分别对应的词向量表示进行注意力处理，该交叉多路注意力机制能够从不同角度提取词向量的语义，进而获得各个文本对应的不同的句序特征。进而，根据各个文本对应的不同的句序特征生成相应的包含句序特征的词向量表示，即第三词向量表示和第四词向量表示。进一步地，通过结构化自注意力机制，对第三词向量表示和第四词向量表示进行自注意力处理，得到对应的第一候选句序特征和第二候选句序特征，并据此结合第一文本和第二文本的参照句序关系信息，进行文本连贯性判定模型的训练。通过多种注意力机制，能够有效提取第一文本和第二文本的各种关系信息，尤其是句序关系信息，以为后续使用模型进行文本连贯性判定提供更为准确的依据。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1A为本发明实施例一的文本连贯性判定模型的训练方法的示意性流程图。

图1B为本发明实施例一的文本连贯性判定模型的结构示意图。

图2为本发明实施例二的文本连贯性判定方法的示意性流程图。

图3为本发明实施例三中电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅配置为解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

图1A为本发明实施例一的文本连贯性判定模型的训练方法的示意性流程图，该方法包括：

步骤S110：分别获取第一文本对应的第一词向量表示和第二文本对应的第二词向量表示。

步骤S120：通过交叉多路注意力机制对第一词向量表示和第二词向量表示进行处理，获得对应的用于表征第一文本和第二文本之间句序关系的、多种不同的句序特征。

步骤S130：根据多种不同的句序特征，生成第一文本对应的第三词向量表示和第二文本对应的第四词向量表示。

步骤S140：通过结构化自注意力机制对第三词向量表示和第四词向量表示进行处理，获得分别对应于第三词向量表示的第一候选句序特征和对应于第四词向量表示的第二候选句序特征。

步骤S150：根据第一候选句序特征、第二候选句序特征、预设的第一文本和第二文本的参照句序关系信息，对所述文本连贯性判定模型进行训练。

应理解，本发明实施例的文本连贯性判定模型可用于任意的文本连贯性判定，包括但不限于句子、段落、篇章等。

本发明实施例中，第一文本和第二文本可以是具有逻辑连贯性的文本，也可以是不具有逻辑连贯性的文本。这些文本可以取自于预先准备的文本样本集合，以用于对文本连贯性判定模型进行训练。根据第一文本和第二文本之间是否具有逻辑连贯性，可为其设定参照句序关系信息，例如，若第一文本和第二文本之间不具有逻辑连贯性，则其参照句序关系信息设定为0；反之，若第一文本和第二文本之间具有逻辑连贯性，则其参照句序关系信息设定为1。

文本样本集合中的文本可以通过任意方式获得，例如，通过用户在输入设备中输入文本数据。或者，获取指示用户的语音的音频，经过自动语音识别(ASR，automaticspeech reorganization)处理而得到的文本。也可以用于从向其呈现存储的多个文本中选择的文本。综上，本发明实施例对获取文本的方式、文本的类型、文本所指示的语言等不作任何限定。

本发明实施例中，交叉多路注意力机制是注意力机制中的一种，可通过交叉多路注意力神经网络模型结构实现，其可以用于判定两个输入文本之间的句序。在通过交叉多路注意力机制对第一文本进行处理时，第一文本中的每个字或者每个词对应的向量被认为是“QUERY”，而第二文本中的每个字或每个词对应的向量被认为是“KEY-VALUE”。在通过交叉多路注意力机制对第二文本进行处理时，第二文本中的每个字或每个词对应的向量被认为是“QUERY”，而第一文本中的每个字或每个词对应的向量被认为是“KEY-VALUE”。通过交叉多路注意力机制，计算“QUERY”和“KEY-VALUE”之间的匹配度，以实现从多个角度对两个文本间的句序特征的确定和提取，获得表征第一文本和第二文本之间句序关系的、多种不同的句序特征。

结构化自注意力机制也是注意力机制的一种，通过结构化自注意力机制，可以对包含句序特征的第三词向量表示和第四词向量表示进行进一步的特征提取，并可对词向量表示进行维度压缩。由此，获得第一候选句序特征和第二候选句序特征。

进一步地，可以基于第一候选句序特征和第二候选句序特征进行预测和分类，获得第一文本和第二文本的预测句序关系信息，如两者之间具有逻辑连贯性的概率，如第一文本和第二文本为连贯的上下文语句的概率，等等。因使用第一文本和第二文本对模型进行训练时，第一文本和第二文本具有预测的参照句序关系，其通过参照句序关系信息表征，可以将其作为用于判断训练效果的标注信息。基于此，可以判断训练获得的预测句序关系信息与参照句序关系信息之间的差异，如通过损失函数计算损失值，该损失值即可表征两者之间的差异。

进而，基于所述差异对文本连贯性判定模型中的参数进行训练，直至满足训练终止条件。例如，损失值在预测范围内，或者训练次数达到预设次数等

根据上述过程，通过多种注意力机制对两个文本进行处理，其中，通过交叉多路注意力机制对两个文本分别对应的词向量表示进行注意力处理，该交叉多路注意力机制能够从不同角度提取词向量的语义，进而获得各个文本对应的不同的句序特征。进而，根据各个文本对应的不同的句序特征生成相应的包含句序特征的词向量表示，即第三词向量表示和第四词向量表示。进一步地，通过结构化自注意力机制，对第三词向量表示和第四词向量表示进行自注意力处理，得到对应的第一候选句序特征和第二候选句序特征，并据此结合第一文本和第二文本的参照句序关系信息，进行文本连贯性判定模型的训练。通过多种注意力机制，能够有效提取第一文本和第二文本的各种关系信息，尤其是句序关系信息，以为后续使用模型进行文本连贯性判定提供更为准确的依据。

应理解，在一种可行方式中，在分别获取第一文本对应的第一词向量表示和第二文本对应的第二词向量表示之前，可以通过ASR模块接收用户输入的一段录制好的音频，并通过ASR模块转换成文本。例如，在学校教学的场景中，通过ASR模块对来自学生的音频演讲段落进行处理，生成文本段落“妈妈今天带我去公园玩耍，那里有好多小鱼小虾，我们会在公园的小池塘里捕捉鱼虾，妈妈真好，谢谢妈妈。”由此，实现了通过语音生成文本以进行训练的方式，使得训练文本的生成方式更为简单和丰富。

然后，可以对生成的文本段落进行段落分割和句子划窗，得到多个文本对。其中，划窗可以以一定的窗口大小为单位，将文本段落中的多个句子进行分组。具体到本发明实施例，窗口大小为2，即通过划窗将每2个语句文本划分为一个文本对。例如，上述文本段落会首先被分割为“妈妈今天带我去公园玩耍”，“那里有好多小鱼小虾”，“我们会在公园的小池塘里捕捉鱼虾”，“妈妈真好”，“谢谢妈妈”这5句话。然后，以窗口大小为2进行划窗，获得多个文本对(每个小括号中为一个文本对)，即[(“妈妈今天带我去公园玩耍”，“那里有好多小鱼小虾”),(“那里有好多小鱼小虾”,”我们会在公园的小池塘里捕捉鱼虾”)，(”我们会在公园的小池塘里捕捉鱼虾”，“妈妈真好”)，(“妈妈真好”，“谢谢妈妈”)]。由此，生成多个可用于训练的文本对即第一文本和第二文本。以(“妈妈真好”，“谢谢妈妈”)为例，其中的“妈妈真好”可以作为第一文本，“谢谢妈妈”可以作为第二文本，反之亦然。

需要说明的是，上述文本对生成方式仅为示例性说明，在实际应用中，可以采用任意适当的方式生成文本对，如将任意具有逻辑连贯性或不具有逻辑连贯性的两个文本进行组合，即可生成相应的文本对，本发明实施例不对用于进行训练的文本对的生成和获得方式进行限定。

通常来说，文本均以向量形式输入模型，本发明实施例中，可以先将文本对中的各个文本转换为词向量序列，再输入文本连贯性判定模型。其中，将文本转换为词向量序列的方式可以由本领域技术人员根据实际需求采用任意适当的方式实现，本发明实施例对此亦不作限制。例如，采用word2vec方式实现等。

在将词向量序列输入文本连贯性判定模型后，希望能够利用该模型判断文本对中的两个文本的句间关系，即语序关系。例如，预测输入的第二文本对应的第二句话是否为第一文本对应的第一句话的下一句话。以(“妈妈今天带我去公园玩耍”，“那里有好多小鱼小虾”)为例，训练目标是模型预测为1，因为“那里有好多小鱼小虾”是“妈妈今天带我去公园玩耍”的下一句，而(“那里有好多小鱼小虾”，“妈妈今天带我去公园玩耍”)的预测结果为0，因为“妈妈今天带我去公园玩耍”并不是“那里有好多小鱼小虾”的下一句。经过文本连贯性判定模型的处理会输出一个概率，用以评价每一文本对的语序关系。

换句话说，对上述基于多种注意力机制的文本连贯性判定模型的训练，其目标是能够确定文本对的两个文本之间的语序关系，以进行更好的语义和句间关系理解。

图1B为本发明实施例一的文本连贯性判定模型的结构示意图。下文将会结合图1B所示的具体模型结构对本发明实施例提供的文本连贯性判定模型的训练方法进行说明。

在本发明的一个实现方式中，分别获取第一文本对应的第一词向量表示和第二文本对应的第二词向量表示，包括：获取第一文本对应的第一词向量序列和第二文本对应的第二词向量序列；通过自注意力机制分别对所述第一词向量序列和所述第二词向量序列进行编码，获得对应的携带有上下文信息的所述第一词向量表示和所述第二词向量表示。

如图1B所示，通过自语义提取层来实现词向量表示的提取，如图1B中的①所示。优选地，自语义提取层可以采用自注意力机制，本实施例对自注意力机制的形式和算法以及所采用的矩阵、向量、参数等不作限定。

在一种可行方式中，可以采用transformer模型所采用的编码器-解码器的自注意力结构。具体而言，本实施例中，采用了transformer模型中的编码器部分的结构。在transformer模型的编码器部分，对于输入的词向量序列X＝(x₁,x₂,...,x_Tx)，先将位置编码添加到各输入的词向量序列中，位置编码被定义如下面的公式所示，

PE_(pos,2i)＝sin(pos/10000^2i/d)

PE_(pos,2i+1)＝cos(pos/10000^2i/d)

其中，d为输入的词向量序列的大小，pos表示当前向量在输入的词向量序列中的位置，i表示维度。

然后，添加了位置编码的词向量序列通过多个编码层，每个编码层均包含多头自注意力机制(multi-head self-attention mechanism)和前馈网络。经多个编码层处理后，将生成所述第一词向量表示和第二词向量表示。

应理解，本发明实施例基于假定第一文本和第二文本的长度相同，以简化对模型的描述。但本发明实施例对文本的长度不作限定，即，能够采用任意长度的不同文本。

例如，对于第一文本P＝(p₁,...,p_n)和第二文本Q＝(q₁,...,q_n),将每个词pi、qi转化为对应的K维词向量序列e_i ^p,e_i ^q。然后，采用transformer编码器对P对应的K维词向量序列e_i ^p和Q对应的K维词向量序列e_i ^q进行编码，获得对应的融合了上下文信息的第一词向量表示

和第二词向量表示

如下面的公式所示：

对于英文而言，p代表前一句话，作为第一文本，q代表下一句话，作为第二文本。然后利用该模型来判断q是否为p的下一句，输入为p句子对应的词向量序列和q句子对应的词向量序列。其中，e_i ^p，i∈[1,n]代表p里面的一个单词(对于汉语而言表示一个字)，其中e_i ^q，i∈[1,n]代表q里面的一个单词。经过图1B中的Transformer(具体为Transformer中的编码器)来得到融合文本信息的第一词向量表示

和第二词向量表示

在获得了第一词向量表示

和第二词向量表示

后，通过交叉多路注意力机制对第一词向量表示和第二词向量表示进行处理，获得对应的用于表征第一文本和第二文本之间句序关系的、多种不同的句序特征，包括：通过多种不同的注意力函数，分别对第一词向量表示和第二词向量表示进行语义特征提取处理；根据处理结果，获得与第一词向量表示对应的多种不同的句序特征，和，与第二词向量表示对应的多种不同的句序特征。本实施例中，多种不同的注意力函数包括：加法注意力函数、减法注意力函数、乘法注意力函数、点乘注意力函数。基于此，所述通过多种不同的注意力函数，分别对第一词向量表示和第二词向量表示进行语义特征提取处理，包括：通过四路注意力函数，分别对第一词向量表示和第二词向量表示进行语义特征提取处理，其中，所述四路注意力函数包括：加法注意力函数、减法注意力函数、乘法注意力函数、点乘注意力函数；所述根据处理结果，获得与第一词向量表示对应的多种不同的句序特征，和，与第二词向量表示对应的多种不同的句序特征，包括：分别获得与第一词向量表示对应的四种句序特征，和，与第二词向量表示对应的四种句序特征。通过交叉多路注意力机制的处理，可以从不同角度获得句序特征。

图1B中，采用交互语义提取层②来实现句序特征提取。在交叉多路注意力机制中，针对第一文本的处理，第一文本中的每个字或每个词对应的向量用作“QUERY”，第二文本中的每个字或每个词对应的向量用作“KEY-VALUE”。针对对第二文本的处理，第二文本中的每个字或每个词对应的向量用作“QUERY”，第一文本中的每个字或每个词对应的向量用作“KEY-VALUE”。在图1B中，采用多种不同的注意力函数，包括加法注意力函数、减法注意力函数、乘法注意力函数、点乘注意力函数，以便从不同角度来评估“QUERY”和“KEY-VALUE”之间的相似度。

例如，可以按如下方式构造加法注意力函数：

S_ij ^(add)＝v^(add)tanh(W_p ^(add)t_i ^p+W_q ^(add)t_j ^q)

可以按如下方式构造减法注意力函数：

S_ij ^(sub)＝v^(sub)tanh(W_p ^(sub)t_i ^p-W_q ^(sub)t_j ^q)

可以按如下方式构造乘法注意力函数：

S_ij ^(mul)＝t_i ^pW^(mul)t_j ^q

可以按如下方式构造点乘注意力函数：

S_ij ^(dot)＝v^(dot)tanh(W^(dot)(t_i ^p _⊙t_j ^q))

其中，⊙表示以元素方式点乘，并且v^(*)为K维向量，W^(*)为K维方阵，W_p ^(*)为K维方阵，W_q ^(*)为K维方阵。v^(*)、W^(*)、W_p ^(*)、W_q ^(*)均为可学习参数。

在本发明的一个实现方式中，根据多种不同的句序特征，生成第一文本对应的第三词向量表示和第二文本对应的第四词向量表示，包括：对所述第一词向量表示对应的四种句序特征进行拼接和线性转换，生成第一文本对应的第三词向量表示；并且，对所述第二词向量表示对应的四种句序特征进行拼接和线性转换，生成第二文本对应的第四词向量表示。

在获得了表征第一文本和第二文本之间句序关系的、多种不同的句序特征后，对这些句序特征进行拼接，拼接后的向量在图1B中示意为

和

然后，分别将

和

输入一个线性转换层进行线性转换，获得第三词向量表示

和第四词向量表示

其中，在

侧，一种线性转换方式如下：

其中，

表示对四种句序特征的拼接结果，即

Wp∈R^K*4K是一个可学习的参数矩阵。经上述转换后，获得第三词向量表示

而对于

侧，其线性转换方式与

侧类似，其参数矩阵为Wq。经该转换获得第四词向量表示

进而，在本发明的一个实现方式中，通过结构化自注意力机制对第三词向量表示和第四词向量表示进行处理，获得分别对应于第三词向量表示的第一候选句序特征和对应于第四词向量表示的第二候选句序特征，包括：分别对第三词向量表示和第四词向量表示进行结构化自注意力处理，获得与第三词向量表示对应的句向量作为第一候选句序特征，和，获得与第四词向量表示对应的句向量作为第二候选句序特征。

例如，如图1B所示，在③中，首先将对

和

进行结构化自注意力处理，以得到两个K维向量

第一候选句序特征)和

(第二候选句序特征)。假定C_p为以c_i ^p为行向量的矩阵：

a_p＝softmax(w_pltanh(M_p2C_p ^T))

其中，W_p1为K维行参数向量，并且W_p2为K维参数方阵。

类似地，通过W_q1和W_q2，可以得到第四词向量表示

通过上述结构化自注意力机制分别获得了表示第一文本的整个句子的特征的向量和表示第二文本的整个句子的特征的向量，即为第一候选句序特征

以及第二候选句序特征

在本发明的一个实现方式中，根据第一候选句序特征、第二候选句序特征，预设的第一文本和第二文本的参照句序关系信息，对文本连贯性判定模型进行训练包括：对第一候选句序特征和第二候选句序特征进行合成处理，生成合成向量；对合成向量进行预测，获得第一词向量序列和第二词向量序列之间的预测句序关系信息；根据预测句序关系信息和参照句序关系信息之间的差异，调整文本连贯性判定模型的模型参数。

例如，如图1B所示，在④的预测层中，为了预测第一文本和第二文本的一致性，可以先合成向量：

也即，将

向量、

向量、

的结果向量、

的结果向量进行合成，生成合成向量X。

将该合成向量X馈入到多层感知机(MLP)结构中，并且将其后向连接到用于M类分类的softmax层，获得预测结果，如，(P_i,Q_i)属于类k的概率。

其中，当(P_i,Q_i)属于类k时，y_ik为1，并且其他情况下，概率为0。即，第一词向量序列和第二词向量序列之间的句序关系概率。

应理解，上述的X向量中元素的顺序不是唯一的，可以将上述四个元素进行各种排序，然后嵌入到该向量中。可选地，可以将上述四个元素中的至少一者来构建X向量。优选地，所构建的X向量中包括元素

和元素

中的至少一者。

在获得了第一文本和第二文本的预测句序关系信息之后，可根据该预测句序关系信息、预设的参照句序关系信息以及预设的损失函数，对文本连贯性判定模型进行训练，包括对其中的各个参数及参数矩阵的学习。例如，预测句序关系信息可以为句序关系概率，类似地，参照句序关系信息也可以为句序关系概率(如第一文本为第二文本的上一文本时为1，否则为0)，则可以根据获得的预测句序关系概率与预设的参照句序关系概率，计算损失函数对应的损失值，根据该损失值对文本连贯性判定模型进行训练，直至满足训练终止条件。如训练达到一定次数，或者，损失值在预设范围内等。

在一种可行方式中，所述损失函数可以采用如下交叉熵函数的形式：

其中，y_ik表示参照句序关系概率，如前所述，当第一文本和第二文本为上下文本时y_ik为1，否则为0。p_ik表示预测句序关系概率。N表示样本数量；M表示分类数量。

图2为本发明实施例二的文本连贯性判定方法的示意性流程图。在本实施例中，应用前述实施例中训练完成的文本连贯性判定模型，对一段语音转换成的文本划窗后形成的多个文本对分别进行逻辑连贯性判定，根据所有文本对的判定结果确定最终的该段语音的逻辑连贯性。

本实施例的文本连贯性判定方法包括以下步骤：

步骤S 210：对语句文本对进行划窗处理，获得多个文本对。

在一种可行方式中，可以两个语句为窗口大小单位，对语句文本中包含的多个语句依序进行相邻语句的分组处理，获得多个文本对。

例如，对一段语句文本“妈妈今天带我去公园玩耍，那里有好多小鱼小虾，我们会在公园的小池塘里捕捉鱼虾，妈妈真好，谢谢妈妈”进行划窗处理，获得四个文本对，即：[(“妈妈今天带我去公园玩耍”，“那里有好多小鱼小虾”),(“那里有好多小鱼小虾”,”我们会在公园的小池塘里捕捉鱼虾”)，(”我们会在公园的小池塘里捕捉鱼虾”，“妈妈真好”)，(“妈妈真好”，“谢谢妈妈”)]。

再例如，对“妈妈今天带我去公园玩耍，那里有好多小鱼小虾，我们会在公园的小池塘里捕捉鱼虾，妈妈真好，谢谢妈妈”中的每句话随意更换顺序后再组合，对组合的语句文本再进行划窗处理，将获得不同的文本对。

需要说明的是，在实际应用中，语句文本可能通过音频转换得来，此种情况下，先获得语句音频，并对所述语句音频进行文本转换，获得所述语句文本；再对语句文本对进行划窗处理，获得多个文本对。

步骤S 220：以单个文本对为单位，将所述多个文本对依次输入文本连贯性判定模型，分别获得与所述多个文本对对应的句序关系概率。

其中，所述文本连贯性判定模型通过前述的文本连贯性判定模型的训练方法训练获得。

例如，对于(“妈妈今天带我去公园玩耍”，“那里有好多小鱼小虾”)，模型的预期预测为[0，1]或[0.1,0.9]等(即，向量[a,1-a],其中a<0.5)，因为“那里有好多小鱼小虾”是“妈妈今天带我去公园玩耍”的下一句。而若文本对为(“那里有好多小鱼小虾”，“妈妈今天带我去公园玩耍”)，则其预期预测结果为[1,0]或者[09,0.1]等(即，向量[a,1-a],其中a>0.5)，因为“妈妈今天带我去公园玩耍”并不是“那里有好多小鱼小虾”的下一句。

步骤S 230：根据所述多个句序关系概率，判定所述语句文本的逻辑连贯性。

在一种可行方式中，可以对所述多个句序关系概率进行平均，根据获得的平均值判定所述语句文本的逻辑连贯性。

句序关系概率可以评价每一文本对中的句子的上下顺序关系，文本连贯性判定模型会对划窗的所有文本对进行计算，并使用多个文本对的得分的平均值作为最后的逻辑连贯性打分。在一种可行方式中，可以将上述句序关系概率进行二值化处理，即，如果句序关系概率小于0.5，则将句序关系概率确定为0，如果句序关系概率大于0.5，则将句序关系概率确定为1。然后将对应于多个文本对的所有句序关系概率进行平均值处理，将平均值作为逻辑连贯性打分。或者，将平均值换算成满分基准的总分值，等等。

得到的平均值或满分基准下的总分值越大，说明连贯性越好。反之，平均值或满分基准下的总分值越小，说明连贯性越差。

图3为本发明实施例四中电子设备的硬件结构；如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303、以及通信总线304。

其中：

处理器301、通信接口302、以及存储器303通过通信总线304完成相互间的通信。

通信接口302，用于与其它电子设备或服务器进行通信。

处理器301，用于执行程序305，具体可以执行上述文本连贯性判定模型的训练方法或者文本连贯性判定方法实施例中的相关步骤。

具体地，程序305可以包括程序代码，该程序代码包括计算机操作指令。

处理器301可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器303，用于存放程序305。存储器303可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

在第一种实现方式中：

程序305具体可以用于使得处理器301执行以下操作：分别获取第一文本对应的第一词向量表示和第二文本对应的第二词向量表示；通过交叉多路注意力机制对所述第一词向量表示和所述第二词向量表示进行处理，获得对应的用于表征所述第一文本和所述第二文本之间句序关系的、多种不同的句序特征；根据所述多种不同的句序特征，生成第一文本对应的第三词向量表示和第二文本对应的第四词向量表示；通过结构化自注意力机制对所述第三词向量表示和所述第四词向量表示进行处理，获得分别对应于所述第三词向量表示的第一候选句序特征和对应于所述第四词向量表示的第二候选句序特征；根据所述第一候选句序特征、所述第二候选句序特征、预设的所述第一文本和所述第二文本的参照句序关系信息，对所述文本连贯性判定模型进行训练。

在一种可选的实施方式中，程序305还用于使得处理器301在分别获取第一文本对应的第一词向量表示和第二文本对应的第二词向量表示时，获取第一文本对应的第一词向量序列和第二文本对应的第二词向量序列；通过自注意力机制分别对所述第一词向量序列和所述第二词向量序列进行编码，获得对应的携带有上下文信息的所述第一词向量表示和所述第二词向量表示。

在一种可选的实施方式中，程序305还用于使得处理器301在通过交叉多路注意力机制对所述第一词向量表示和所述第二词向量表示进行处理，获得对应的用于表征所述第一文本和所述第二文本之间句序关系的、多种不同的句序特征时，通过多种不同的注意力函数，分别对所述第一词向量表示和所述第二词向量表示进行语义特征提取处理；根据处理结果，获得与所述第一词向量表示对应的多种不同的句序特征，和，与所述第二词向量表示对应的多种不同的句序特征。

在一种可选的实施方式中，程序305还用于使得处理器301在通过多种不同的注意力函数，分别对所述第一词向量表示和所述第二词向量表示进行语义特征提取处理时，通过四路注意力函数，分别对所述第一词向量表示和所述第二词向量表示进行语义特征提取处理，其中，所述四路注意力函数包括：加法注意力函数、减法注意力函数、乘法注意力函数、点乘注意力函数；程序305还用于使得处理器301在根据处理结果，获得与所述第一词向量表示对应的多种不同的句序特征，和，与所述第二词向量表示对应的多种不同的句序特征时，分别获得与所述第一词向量表示对应的四种句序特征，和，与所述第二词向量表示对应的四种句序特征。

在一种可选的实施方式中，程序305还用于使得处理器301在根据所述多种不同的句序特征，生成第一文本对应的第三词向量表示和第二文本对应的第四词向量表示时，对所述第一词向量表示对应的四种句序特征进行拼接和线性转换，生成第一文本对应的第三词向量表示；并且，对所述第二词向量表示对应的四种句序特征进行拼接和线性转换，生成第二文本对应的第四词向量表示。

在一种可选的实施方式中，程序305还用于使得处理器301在通过结构化自注意力机制对所述第三词向量表示和所述第四词向量表示进行处理，获得分别对应于所述第三词向量表示的第一候选句序特征和对应于所述第四词向量表示的第二候选句序特征时，分别对所述第三词向量表示和所述第四词向量表示进行结构化自注意力处理，获得与所述第三词向量表示对应的句向量作为所述第一候选句序特征，和，获得与所述第四词向量表示对应的句向量作为所述第二候选句序特征。

在一种可选的实施方式中，程序305还用于使得处理器301在根据所述第一候选句序特征、所述第二候选句序特征、预设的所述第一文本和所述第二文本的参照句序关系信息，对所述文本连贯性判定模型进行训练时，对所述第一候选句序特征和所述第二候选句序特征进行合成处理，生成合成向量；对所述合成向量进行预测，获得所述第一词向量序列和所述第二词向量序列之间的预测句序关系信息；根据所述预测句序关系信息和所述参照句序关系信息之间的差异，调整所述文本连贯性判定模型的模型参数。

在第二种实现方式中：

程序305具体可以用于使得处理器301执行以下操作：对语句文本对进行划窗处理，获得多个文本对；以单个文本对为单位，将所述多个文本对依次输入文本连贯性判定模型，分别获得与所述多个文本对对应的多个句序关系概率；其中，所述文本连贯性判定模型通过如第一种实现方式中所述的文本连贯性判定模型的训练方法训练获得；根据所述多个句序关系概率，判定所述语句文本的逻辑连贯性。

在一种可选的实施方式中，程序305还用于使得处理器301在根据所述多个句序关系概率，判定所述语句文本的逻辑连贯性时，对所述多个句序关系概率进行平均，根据获得的平均值判定所述语句文本的逻辑连贯性。

在一种可选的实施方式中，程序305还用于使得处理器301在对语句文本对进行划窗处理，获得多个文本对时，以两个语句为窗口大小单位，对所述语句文本中包含的多个语句依序进行相邻语句的分组处理，获得多个文本对。

在一种可选的实施方式中，程序305还用于使得处理器301在对语句文本对进行划窗处理，获得多个文本对之前，获得语句音频，并对所述语句音频进行文本转换，获得所述语句文本。

程序405中各步骤的具体实现可以参见上述文本连贯性判定模型的训练方法实施例或文本连贯性判定方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时，执行本发明实施例中的方法中限定的上述功能。需要说明的是，本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本发明实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明实施例中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写配置为执行本发明实施例的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络：包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系，但这些先后关系只是示例性的，在具体实现的时候，这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括接入模块和发送模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

作为另一方面，本发明实施例还提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例中所描述的文本连贯性模型的训练方法或者实现如上述实施例中所描述的文本连贯性判定方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：分别获取第一文本对应的第一词向量表示和第二文本对应的第二词向量表示；通过交叉多路注意力机制对所述第一词向量表示和所述第二词向量表示进行处理，获得对应的用于表征所述第一文本和所述第二文本之间句序关系的、多种不同的句序特征；根据所述多种不同的句序特征，生成第三词向量表示和第四词向量表示；通过结构化自注意力机制对所述第三词向量表示和所述第四词向量表示进行处理，获得分别对应于所述第三词向量表示的第一候选句序特征和对应于所述第四词向量表示的第二候选句序特征；根据所述第一候选句序特征和所述第二候选句序特征，获得所述第一文本和所述第二文本的句序关系信息；根据所述句序关系信息，对所述文本连贯性判定模型进行训练。或者，当上述一个或者多个程序被该装置执行时，使得该装置：对语句文本对进行划窗，获得多个文本对；以单个文本对为单位，将所述多个文本对依次输入文本连贯性判定模型，分别获得与所述多个文本对对应的句序关系概率；根据所述多个句序关系概率，判定所述语句文本的逻辑连贯性。

在本发明的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关，但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种文本连贯性判定模型的训练方法，其特征在于，包括：

分别获取第一文本对应的第一词向量表示和第二文本对应的第二词向量表示；

通过交叉多路注意力机制对所述第一词向量表示和所述第二词向量表示进行处理，获得对应的用于表征所述第一文本和所述第二文本之间句序关系的、多种不同的句序特征；

根据所述多种不同的句序特征，生成第一文本对应的第三词向量表示和第二文本对应的第四词向量表示；

通过结构化自注意力机制对所述第三词向量表示和所述第四词向量表示进行处理，获得分别对应于所述第三词向量表示的第一候选句序特征和对应于所述第四词向量表示的第二候选句序特征；

根据所述第一候选句序特征、所述第二候选句序特征、预设的所述第一文本和所述第二文本的参照句序关系信息，对所述文本连贯性判定模型进行训练。

2.根据权利要求1所述的方法，其特征在于，所述分别获取第一文本对应的第一词向量表示和第二文本对应的第二词向量表示，包括：

获取第一文本对应的第一词向量序列和第二文本对应的第二词向量序列；

通过自注意力机制分别对所述第一词向量序列和所述第二词向量序列进行编码，获得对应的携带有上下文信息的所述第一词向量表示和所述第二词向量表示。

3.根据权利要求1所述的方法，其特征在于，所述通过交叉多路注意力机制对所述第一词向量表示和所述第二词向量表示进行处理，获得对应的用于表征所述第一文本和所述第二文本之间句序关系的、多种不同的句序特征，包括：

通过多种不同的注意力函数，分别对所述第一词向量表示和所述第二词向量表示进行语义特征提取处理；

根据处理结果，获得与所述第一词向量表示对应的多种不同的句序特征，和，与所述第二词向量表示对应的多种不同的句序特征。

4.根据权利要求3所述的方法，其特征在于，

所述通过多种不同的注意力函数，分别对所述第一词向量表示和所述第二词向量表示进行语义特征提取处理，包括：通过四路注意力函数，分别对所述第一词向量表示和所述第二词向量表示进行语义特征提取处理，其中，所述四路注意力函数包括：加法注意力函数、减法注意力函数、乘法注意力函数、点乘注意力函数；

所述根据处理结果，获得与所述第一词向量表示对应的多种不同的句序特征，和，与所述第二词向量表示对应的多种不同的句序特征，包括：分别获得与所述第一词向量表示对应的四种句序特征，和，与所述第二词向量表示对应的四种句序特征。

5.根据权利要求4所述的方法，其特征在于，所述根据所述多种不同的句序特征，生成第一文本对应的第三词向量表示和第二文本对应的第四词向量表示，包括：

对所述第一词向量表示对应的四种句序特征进行拼接和线性转换，生成第一文本对应的第三词向量表示；并且，对所述第二词向量表示对应的四种句序特征进行拼接和线性转换，生成第二文本对应的第四词向量表示。

6.根据权利要求1所述的方法，其特征在于，所述通过结构化自注意力机制对所述第三词向量表示和所述第四词向量表示进行处理，获得分别对应于所述第三词向量表示的第一候选句序特征和对应于所述第四词向量表示的第二候选句序特征，包括：

分别对所述第三词向量表示和所述第四词向量表示进行结构化自注意力处理，获得与所述第三词向量表示对应的句向量作为所述第一候选句序特征，和，获得与所述第四词向量表示对应的句向量作为所述第二候选句序特征。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一候选句序特征、所述第二候选句序特征、预设的所述第一文本和所述第二文本的参照句序关系信息，对所述文本连贯性判定模型进行训练，包括：

对所述第一候选句序特征和所述第二候选句序特征进行合成处理，生成合成向量；

对所述合成向量进行预测，获得所述第一词向量序列和所述第二词向量序列之间的预测句序关系信息；

根据所述预测句序关系信息和所述参照句序关系信息之间的差异，调整所述文本连贯性判定模型的模型参数。

8.一种文本连贯性判定方法，其特征在于，包括：

对语句文本对进行划窗处理，获得多个文本对；

以单个文本对为单位，将所述多个文本对依次输入文本连贯性判定模型，分别获得与所述多个文本对对应的多个句序关系概率；其中，所述文本连贯性判定模型通过如权利要求1-7中任一项所述的文本连贯性判定模型的训练方法训练获得；

根据所述多个句序关系概率，判定所述语句文本的逻辑连贯性。

9.根据权利要求8所述的方法，其特征在于，所述根据所述多个句序关系概率，判定所述语句文本的逻辑连贯性，包括：

对所述多个句序关系概率进行平均，根据获得的平均值判定所述语句文本的逻辑连贯性。

10.根据权利要求8所述的方法，其特征在于，所述对语句文本对进行划窗处理，获得多个文本对，包括：

以两个语句为窗口大小单位，对所述语句文本中包含的多个语句依序进行相邻语句的分组处理，获得多个文本对。

11.根据权利要求8-10任一项所述的方法，其特征在于，在所述对语句文本对进行划窗处理，获得多个文本对之前，所述方法还包括：

获得语句音频，并对所述语句音频进行文本转换，获得所述语句文本。

12.一种电子设备，其特征在于，所述设备包括：

一个或多个处理器；

计算机可读介质，配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一项所述的文本连贯性判定模型的训练方法；或者，实现如权利要求8-11中任一项所述的文本连贯性判定方法。

13.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的文本连贯性判定模型的训练方法；或者，实现如权利要求8-11中任一项所述的文本连贯性判定方法。