CN112560500A

CN112560500A - 文本处理方法、装置、设备及存储介质

Info

Publication number: CN112560500A
Application number: CN202011496984.9A
Authority: CN
Inventors: 陈致鹏; 崔一鸣; 王士进; 胡国平; 刘挺
Original assignee: Zhongke Xunfei Internet Beijing Information Technology Co ltd
Current assignee: Zhongke Xunfei Internet Beijing Information Technology Co ltd
Priority date: 2020-12-17
Filing date: 2020-12-17
Publication date: 2021-03-26

Abstract

本申请公开了一种文本处理方法、装置、设备及存储介质，本申请对于给定的包括单词及待填入候选项的空位置的目标篇章，以及目标篇章对应的若干个候选项，将目标篇章和候选项分别作为处理对象，获取每一对象的语义表示特征，该语义表示特征包括组成对象的各元素的语义表示，进而基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度，关注程度表示候选项与空位置间的匹配程度，进而可以基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项。按照本申请方案可以实现对目标篇章中各空位置与各候选项之间进行匹配的过程，也即完成阅读理解的处理任务。

Description

文本处理方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域，更具体的说，是涉及一种文本处理方法、装置、设备及存储介质。

背景技术

在自然语言处理领域，阅读理解任务属于一种比较常见的任务，其任务目标是给定一篇文章，其中部分单词或句子被隐藏并使用空位置来代替，同时给定若干个候选项，处理目标即需要根据上下文信息从多个候选项中选出正确的候选项来还原文章，也即将候选项填入文章中对应的空位置。该任务旨在测试对篇章上下文的理解，以及对多个候选项之间比较迷惑的部分的区分，充分考察了自然语言处理技术在对篇章的总体思路把握程度，以及对于候选项之间的关系的区分能力。

因此，提供一种文本处理方案，以完成上述阅读理解任务，成为本领域技术人员的研究课题。

发明内容

鉴于上述问题，提出了本申请以便提供一种文本处理方法、装置、设备及存储介质，以实现对阅读理解任务的处理。具体方案如下：

一种文本处理方法，包括：

获取每一对象的语义表示特征，所述语义表示特征包括组成对象的各元素的语义表示，所述对象包括目标篇章及对应的若干个候选项，所述目标篇章包括单词及待填入候选项的空位置；

基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度，所述关注程度表示候选项与空位置间的匹配程度；

基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项。

优选地，获取目标篇章及对应的若干个候选项的语义表示特征的过程，包括：

获取基于语料数据预训练后的语义表示模型；

将每一候选项分别与所述目标篇章进行拼接，并将拼接结果输入所述语义表示模型，得到模型输出的与拼接结果对应的拼接语义表示特征；

从所述拼接语义表示特征中，拆分出所述拼接结果包含的候选项及目标篇章各自的语义表示特征。

优选地，所述将每一候选项与所述目标篇章进行拼接，包括：

将每一候选项在词表中对应的ID，与所述目标篇章在词表中对应的ID，通过设定的分隔符拼接在一起，得到拼接结果；

所述从所述拼接语义表示特征中，拆分出所述拼接结果包含的候选项及目标篇章各自的语义表示特征，包括：

以所述分隔符为标记，将所述拼接语义表示特征划分为两部分，分别对应拼接结果包含的候选项及目标篇章各自的语义表示特征。

优选地，所述语义表示模型为基于Bert模型所训练的语义表示模型。

优选地，所述基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度，包括：

针对每一候选项，计算所述候选项与所述目标篇章的语义表示特征间的特征匹配矩阵，所述特征匹配矩阵包括目标篇章中每一元素与所述候选项中每一元素间的关注程度值；

基于所述特征匹配矩阵，确定所述目标篇章中各空位置对应的元素与所述候选项间的关注程度值。

优选地，所述基于所述特征匹配矩阵，确定所述目标篇章中各空位置对应的元素与所述候选项间的关注程度值，包括：

将所述特征匹配矩阵中，表示目标篇章中每一空位置的元素与组成所述候选项的各元素间的关注程度值求和，结果作为每一空位置与所述候选项间的初始关注程度值；

对所述目标篇章中各空位置与所述候选项间的初始关注程度值进行归一化处理，得到目标篇章中每一空位置与所述候选项间的最终关注程度值。

优选地，所述基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项，包括：

从所述目标篇章中依次选取一空位置；

在各候选项中确定与选取的空位置间的关注程度最大的目标候选项，将所述目标候选项确定为与选取的空位置匹配的候选项；

将所述目标候选项从各候选项中移除，并返回执行从目标篇章中选取空位置的步骤，直至选取完全部的空位置为止，以得到每一空位置匹配的候选项。

优选地，所述从所述目标篇章中依次选取一空位置，包括：

按照由所述目标篇章的开始至结尾的顺序，依次选取目标篇章中包含的空位置。

一种文本处理装置，包括：

对象特征获取单元，用于获取每一对象的语义表示特征，所述语义表示特征包括组成对象的各元素的语义表示，所述对象包括目标篇章及对应的若干个候选项，所述目标篇章包括单词及待填入候选项的空位置；

关注程度确定单元，用于基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度，所述关注程度表示候选项与空位置间的匹配程度；

空位置匹配单元，用于基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项。

一种文本处理设备，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如上所述的文本处理方法的各个步骤。

一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述的文本处理方法的各个步骤。

借由上述技术方案，本申请对于给定的包括单词及待填入候选项的空位置的目标篇章，以及目标篇章对应的若干个候选项，将目标篇章和候选项分别作为处理对象，获取每一对象的语义表示特征，该语义表示特征包括组成对象的各元素的语义表示，进而基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度，关注程度表示候选项与空位置间的匹配程度，进而可以基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项。按照本申请的方案可以实现对目标篇章中各空位置与给定的各候选项之间进行匹配的过程，也即完成阅读理解的处理任务。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本申请实施例提供的文本处理方法的一流程示意图；

图2示例了一种目标篇章与候选项的语义表示特征预测过程示意图；

图3为本申请实施例提供的一种文本处理装置结构示意图；

图4为本申请实施例提供的文本处理设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请提供了一种对阅读理解任务的文本处理方案，可以适用于解决各类型的阅读理解任务，示例如词级或句子级完形填空阅读理解任务等。

本申请方案可以基于具备数据处理能力的终端实现，该终端可以是手机、电脑、服务器、云端等。

接下来，结合图1所述，本申请的文本处理方法可以包括如下步骤：

步骤S100、获取每一对象的语义表示特征，所述对象包括目标篇章及对应的若干个候选项。

具体的，本申请实施例中将目标篇章以及对应的若干个候选项分别作为处理对象，进而获取每一对象的语义表示特征。

语义表示特征包括组成对象的各元素的语义表示。其中，目标篇章包括单词及待填入候选项的空位置。也即，组成目标篇章的元素包括单词以及空位置。其中，目标篇章中的空位置数量为一个以上。每一候选项可以由一个或多个单词组成，候选项可以是单词或是句子。

步骤S110、基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度。

具体的，为了建立目标篇章中各空位置与候选项之间的匹配关系，本步骤中可以基于候选项的语义表示特征，以及目标篇章的语义表示特征，确定出每一候选项与目标篇章中各个空位置间的关注程度。其中，所述关注程度表示候选项与空位置间的匹配程度。

由于对象的语义表示特征包括组成对象的各元素的语义表示，因此可以基于组成候选项的各元素的语义表示，以及组成目标篇章的各元素(包括单词及空位置)的语义表示，进行基于语义空间关系的关注点计算，通过计算，可以确定每一候选项与目标篇章中各元素间的关注程度，进而可以确定每一候选项与目标篇章中各空位置间的关注程度。

步骤S120、基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项。

具体的，在上述步骤中得到每一个候选项与目标篇章中各空位置间的关注程度后，可以基于关注程度，筛选出与各空位置最匹配的候选项。

本申请实施例提供的文本处理方法，对于给定的包括单词及待填入候选项的空位置的目标篇章，以及目标篇章对应的若干个候选项，将目标篇章和候选项分别作为处理对象，获取每一对象的语义表示特征，该语义表示特征包括组成对象的各元素的语义表示，进而基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度，关注程度表示候选项与空位置间的匹配程度，进而可以基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项。按照本申请的方案可以实现对目标篇章中各空位置与给定的各候选项之间进行匹配的过程，也即完成阅读理解的处理任务。

在本申请的一些实施例中，对上述步骤S100，获取每一对象的语义表示特征的过程进行介绍。

具体的，对象包括目标篇章及对应的若干候选项。也即，本申请需要获取目标篇章及候选项各自的语义表示特征。

在本申请的实施例中，提供了一种融合目标篇章及候选项上下文信息的语义表示特征获取方式。

本申请可以预先收集大规模的训练语料数据，并利用语料数据训练得到语义表示模型。训练好的语义表示模型可以将输入的文本映射到一个特定的向量空间，也即得到输入文本对应的向量形式的语义表示特征。

可选的，上述语义表示模型可以是基于Bert模型所训练的语义表示模型。Bert模型能够计算出基于目标篇章和候选项的上下文语义表示特征。在Bert模型中，通过自注意力方式计算输入的目标篇章与候选项之间的注意力表示，这样得到的向量可以包含目标篇章及候选项的全部上下文信息。

在确定目标篇章及每一候选项的语义表示特征时，为了融合候选项与目标篇章的上下文信息，本实施例中可以将每一候选项分别与目标篇章进行拼接，并将拼接结果输入上述训练后的语义表示模型，得到模型输出的与拼接结果对应的拼接语义表示特征。

可以理解的是，模型输出的拼接语义表示特征包含两部分，分别对应拼接结果中的候选项及目标篇章。因此，可以进一步从所述拼接语义表示特征中，拆分出所述拼接结果包含的候选项及目标篇章各自的语义表示特征。

需要说明的是，拼接结果的数量与候选项的数目一致，对于每一拼接结果，语义表示模型可以输出对应的拼接语义表示特征，且从拼接语义表示特征中可以拆分出对应的候选项与目标篇章的语义表示特征。由此可见，目标篇章的语义表示特征可以是多个，且其与候选项相关，不同候选项与目标篇章拼接后对应的目标篇章的语义表示特征可能相同或不同。

对于前述介绍的步骤S110中，在确定一目标候选项与目标篇章中空位置间的关注程度时，所参考的目标候选项与目标篇章的语义表示特征，其可以是：目标候选项与目标篇章的拼接结果经语义表示模型预测拼接语义表示特征，以及对该拼接语义表示特征进行拆分后得到的目标候选项与目标篇章各自的语义表示特征。

进一步的，上述将每一候选项与目标篇章进行拼接的过程，可以包括：

将每一候选项在词表中对应的ID，与所述目标篇章在词表中对应的ID，通过设定的分隔符拼接在一起，得到拼接结果。

对应的，从所述拼接语义表示特征中，拆分出所述拼接结果包含的候选项及目标篇章各自的语义表示特征的过程，可以包括：

可以理解的是，若拼接结果是按照目标篇章加候选项的顺序进行拼接，则在对拼接语义表示特征进行拆分时，可以将分隔符之前的部分确定为目标篇章对应的语义表示特征，同时，将分隔符之后的部分确定为候选项对应的语义表示特征。反之，若拼接结果是按照候选项加目标篇章的顺序进行拼接，则在对拼接语义表示特征进行拆分时，可以将分隔符之前的部分确定为候选项对应的语义表示特征，同时，将分隔符之后的部分确定为目标篇章对应的语义表示特征。

如图2所示，其示例了一种目标篇章与候选项的语义表示特征预测过程示意图。

图2中，使用[SEP]作为分隔符，在此基础上可以进一步使用起始符[CLS]。则目标篇章可以通过[SEP]与候选项进行拼接。拼接结果输入语义表示模型，模型输出拼接语义表示特征。

在拼接语义表示特征中，可以识别出分隔符对应的表示特征V_[SEP]，进一步还可以识别出起始符对应的表示特征V_[CLS]。将V_[SEP]和V_[CLS]之间的表示特征V_p作为目标篇章对应的语义表示特征，将V_[CLS]之后的表示特征V_c作为候选项对应的语义表示特征。

在本申请的一些实施例中，对上述步骤S110，基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度的过程进行介绍。

S1，针对每一候选项，可以计算所述候选项与所述目标篇章的语义表示特征间的特征匹配矩阵。

其中，所述特征匹配矩阵包括目标篇章中每一元素与所述候选项中每一元素间的关注程度值。特征匹配矩阵包含了目标篇章与候选项之间的高度抽象的语义匹配关系，为后续计算候选项与目标篇章中空位置间关注程度提供了丰富的参考信息。

定义目标篇章的语义表示特征用矩阵V_p表示，候选项的语义表示特征用矩阵V_c表示。

目标篇章的语义表示特征矩阵V_p的大小为P*H，其中P为目标篇章的长度(即目标篇章包含元素的个数)，H为每个元素的语义表示的大小，若采用上述语义表示模型确定语义表示特征，该H值对应语义表示模型的隐层大小。

同理，候选项的语义表示特征矩阵V_c的大小为C*H，其中C为候选项的长度(即候选项包含元素的个数)，H的定义同上。

可以通过目标篇章的语义表示特征矩阵V_p与候选项的语义表示特征矩阵V_c的点乘的方式，计算特征匹配矩阵M，M的大小为P*C。

S2，基于所述特征匹配矩阵M，确定所述目标篇章中各空位置对应的元素与所述候选项间的关注程度值。

可选的，可以将所述特征匹配矩阵M中，表示目标篇章中每一空位置的元素与组成所述候选项的各元素间的关注程度值求和，结果作为每一空位置与所述候选项间的初始关注程度值。

在此基础上，进一步对所述目标篇章中各空位置与所述候选项间的初始关注程度值进行归一化处理，得到目标篇章中每一空位置与所述候选项间的最终关注程度值。

另一种可选的实施方式中，可以将所述特征匹配矩阵M按照行求和，也即将目标篇章中每一元素与候选项中各元素间的关注程度值进行求和，作为目标篇章中每一元素与候选项间的初始关注程度值。

在此基础上，筛选出目标篇章中空位置对应的元素与候选项间的初始关注程度值，并对目标篇章中各空位置与所述候选项间的初始关注程度值进行归一化处理，得到目标篇章中每一空位置与所述候选项间的最终关注程度值。

在本申请的一些实施例中，对上述步骤S120，基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项的过程进行介绍。

阅读理解任务是通过计算出每个候选项填入目标篇章中每个空位置的概率值，来确定每个空位置匹配的候选项。通常情况下，目标篇章有多个空位置，以及对应有多个候选项，候选项的个数大于或等于空位置的个数，需要将多个候选项正确的填入每个空位置中，这样就需要按照每个候选项在每个空位置中的概率值进行排序，挑选出每个空位置中概率最大的候选项作为匹配的候选项，填入该空位置。

本实施例介绍了一种空位置与候选项匹配的可选方式，如下：

S1、从所述目标篇章中依次选取一空位置。

一种可选的方式，可以按照由所述目标篇章的开始至结尾的顺序，依次选取目标篇章中包含的空位置。

S2、在各候选项中确定与选取的空位置间的关注程度最大的目标候选项，将所述目标候选项确定为与选取的空位置匹配的候选项。

具体的，可以将各候选项与选取的空位置间的关注程度按照由大至小排序，选取排序中首个候选项作为当前选取的空位置匹配的候选项。

S3、将所述目标候选项从各候选项中移除，并返回执行从目标篇章中选取空位置的步骤，直至选取完全部的空位置为止，以得到每一空位置匹配的候选项。

可以理解的是，一个候选项一般仅能够填入一个空位置，因此在确定了目标候选项匹配的空位置之后，可以将目标候选项从各个候选项中移除，防止后续再次将其选取为其它空位置匹配的候选项。

在将目标候选项从各候选项中移除之后，返回上述S1步骤，选取下一个空位置，并重复从剩余的候选项中选取与之关注程度最大的候选项的过程，以此类推，直至目标篇章中各个空位置均选取完毕，得到每一空位置匹配的候选项。

采用本申请实施例介绍的上述文本处理方案，目前已经在CMRC2019的中文句子级完型填空阅读理解数据集上进行试验，并且获得了不错的效果，开发集上QAC准确率(空填对了就算对)达到70.59％以上。整个方案通过对训练集进行学习过后，可以自动对语文句子级完型填空阅读理解题进行自动解答。

下面对本申请实施例提供的文本处理装置进行描述，下文描述的文本处理装置与上文描述的文本处理方法可相互对应参照。

参见图3，图3为本申请实施例公开的一种文本处理装置结构示意图。

如图3所示，该装置可以包括：

对象特征获取单元11，用于获取每一对象的语义表示特征，所述语义表示特征包括组成对象的各元素的语义表示，所述对象包括目标篇章及对应的若干个候选项，所述目标篇章包括单词及待填入候选项的空位置；

关注程度确定单元12，用于基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度，所述关注程度表示候选项与空位置间的匹配程度；

空位置匹配单元13，用于基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项。

可选的，上述对象特征获取单元获取目标篇章及对应的若干个候选项的语义表示特征的过程，可以包括：

获取基于语料数据预训练后的语义表示模型；

可选的，上述对象特征获取单元将每一候选项与所述目标篇章进行拼接的过程，可以包括：

可选的，上述关注程度确定单元基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度的过程，可以包括：

可选的，上述关注程度确定单元基于所述特征匹配矩阵，确定所述目标篇章中各空位置对应的元素与所述候选项间的关注程度值的过程，可以包括：

可选的，上述空位置匹配单元基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项的过程，可以包括：

从所述目标篇章中依次选取一空位置；

可选的，上述空位置匹配单元从所述目标篇章中依次选取一空位置的过程，可以包括：

本申请实施例提供的文本处理装置可应用于文本处理设备，如终端：手机、电脑等。可选的，图4示出了文本处理设备的硬件结构框图，参照图4，文本处理设备的硬件结构可以包括：至少一个处理器1，至少一个通信接口2，至少一个存储器3和至少一个通信总线4；

在本申请实施例中，处理器1、通信接口2、存储器3、通信总线4的数量为至少一个，且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信；

处理器1可能是一个中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路等；

存储器3可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatilememory)等，例如至少一个磁盘存储器；

其中，存储器存储有程序，处理器可调用存储器存储的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质，该存储介质可存储有适于处理器执行的程序，所述程序用于：

可选的，所述程序的细化功能和扩展功能可参照上文描述。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，获取目标篇章及对应的若干个候选项的语义表示特征的过程，包括：

获取基于语料数据预训练后的语义表示模型；

3.根据权利要求2所述的方法，其特征在于，所述将每一候选项与所述目标篇章进行拼接，包括：

4.根据权利要求2所述的方法，其特征在于，所述语义表示模型为基于Bert模型所训练的语义表示模型。

5.根据权利要求1所述的方法，其特征在于，所述基于每一候选项及所述目标篇章的语义表示特征，确定每一候选项与所述目标篇章中各所述空位置间的关注程度，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述特征匹配矩阵，确定所述目标篇章中各空位置对应的元素与所述候选项间的关注程度值，包括：

7.根据权利要求1所述的方法，其特征在于，所述基于每一候选项与所述目标篇章中各空位置间的关注程度，确定所述目标篇章中每一空位置匹配的候选项，包括：

从所述目标篇章中依次选取一空位置；

8.根据权利要求7所述的方法，其特征在于，所述从所述目标篇章中依次选取一空位置，包括：

9.一种文本处理装置，其特征在于，包括：

10.一种文本处理设备，其特征在于，包括：存储器和处理器；

所述存储器，用于存储程序；

所述处理器，用于执行所述程序，实现如权利要求1～8中任一项所述的文本处理方法的各个步骤。

11.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1～8中任一项所述的文本处理方法的各个步骤。