CN113935305A

CN113935305A - 一种多阶段多任务的文本阅读理解方法及装置

Info

Publication number: CN113935305A
Application number: CN202111368581.0A
Authority: CN
Inventors: 邓礼志; 于皓; 张�杰; 吴信东; 吴明辉
Original assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Current assignee: Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date: 2021-08-10
Filing date: 2021-11-18
Publication date: 2022-01-14

Abstract

本发明是关于一种多阶段多任务的文本阅读理解方法及装置。该方法包括：采用第一训练集对文本分类模型进行预训练，第一训练集为同一业务方向的不同类型的题目；采用第二训练集对经过预训练的文本分类模型进行训练，第二训练集为相似业务方向的同类型的题目；使用文本分类模型对待预测文本进行预测，输出预测结果。本发明提供的技术方案，能够融合其他问题类型和其他业务方向的知识，增加了同业务方向的训练样本和同问题的回答范式，进一步提升模型效果；针对训练样本比较少的业务场景，可以有效利用到同业务的其他数据进行预训练，从而获取了更多的先验知识，有效提高了模型精度，降低了对特定训练数据集大小的依赖，适用于少样本的业务问题解决。

Description

一种多阶段多任务的文本阅读理解方法及装置

技术领域

本发明涉及文本处理领域，尤其涉及一种多阶段多任务的文本阅读理解方法及装置。

背景技术

在如今这样一个人工智能蓬勃发展的时代，人们对智能问答、机器阅读理解越来越感兴趣，比如IBM沃森、百度小度音箱等等，训练出一款能够具备文本智能的机器成为各个公司展现实力的一种途径。然而如何提高多项选择阅读理解的准确性和全面性成为一个亟待解决的问题。

针对这一问题，目前采用的一种现有技术是通过FAQ的方式存储所有标准问答句，然后用户输入问句时，匹配最相似的问句，并返回相似问句的结果，作为答案返回给用户。这种现有技术的缺点在于，由于相似问句不等同于相同问句，容易造成错误回答，同时，面对多项选择题目，还存在选项和FAQ的回答不匹配的形式，需要进一步做处理。

目前采用的另一种现有技术的技术方案，是通过大规模预训练模型，将问题和选项拼接进行训练，然后输出CLS得到分类结果。这种现有技术的缺点在于，模型效果依赖特定训练数据的大小，不能从其他数据或者同类型的训练数据当中习得有效经验。

发明内容

本发明目的在于实现一种多阶段多任务学习模型，能够从其他类型数据和本类型其他业务数据当中吸取到有用知识，从而提高多项选择阅读理解的智能程度。

根据本发明实施例的第一方面，提供一种多阶段多任务的文本阅读理解方法，包括：

在粗调阶段，采用第一训练集对文本分类模型进行预训练，所述第一训练集为与待预测文本属于同一业务方向的不同类型的题目；

在多任务学习阶段，采用第二训练集对经过预训练的文本分类模型进行训练，所述第二训练集为所述待预测文本的相似业务方向的同类型的题目；

使用完成训练的文本分类模型对所述待预测文本进行预测，输出预测结果。

进一步，所述文本分类模型采用bert模型。

进一步，所述第一训练集的题目类型为是非题或单选题，所述第二训练集的题目类型为单选题或多选题。

进一步，在使用完成训练的文本分类模型对所述待预测文本进行预测之前，该方法还包括：

将所述待预测文本的数据处理成所述文本分类模型的编码器的输入格式。

根据本发明实施例的第二方面，提供一种多阶段多任务的文本阅读理解装置，包括：

粗调模块，用于在粗调阶段，采用第一训练集对文本分类模型进行预训练，所述第一训练集为与待预测文本属于同一业务方向的不同类型的题目；

多任务学习模块，用于在多任务学习阶段，采用第二训练集对经过预训练的文本分类模型进行训练，所述第二训练集为所述待预测文本的相似业务方向的同类型的题目；

文本预测模块，用于使用完成训练的文本分类模型对所述待预测文本进行预测，输出预测结果。

进一步，所述文本分类模型采用bert模型。

进一步，该装置还包括：

文本数据处理模块，用于在所述文本预测模型使用完成训练的文本分类模型对所述待预测文本进行预测之前，将所述待预测文本的数据处理成所述文本分类模型的编码器的输入格式。

根据本发明实施例的第三方面，提供一种终端设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如上所述的方法。

根据本发明实施例的第四方面，提供一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如上所述的方法。

本发明的实施例提供的技术方案可以包括以下有益效果：

1、能够融合其他问题类型和其他业务方向的知识，增加了同业务方向的训练样本和同问题的回答范式，进一步提升模型效果；

2、针对训练样本比较少的业务场景，可以有效利用到同业务的其他数据进行预训练，从而获取了更多的先验知识，有效提高了模型精度，降低了对特定训练数据集大小的依赖，同样适用于少样本的业务问题解决。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

通过结合附图对本发明示例性实施方式进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显，其中，在本发明示例性实施方式中，相同的参考标号通常代表相同部件。

图1是根据本发明一示例性实施例示出的一种多阶段多任务的文本阅读理解方法的流程示意图；

图2是本发明实施例示出的一种多阶段多任务的文本阅读理解方法的流程示意图；

图3是bert模型的数据处理格式示意图；

图4是根据本发明示例性实施例示出的一种多阶段多任务的文本阅读理解装置的结构框图；

图5是根据本发明一示例性实施例示出的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的优选实施方式。虽然附图中显示了本发明的优选实施方式，然而应该理解，可以以各种形式实现本发明而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语“第一”、“第二”、“第三”等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以下结合附图详细描述本发明实施例的技术方案。

图1是根据本发明一示例性实施例示出的一种多阶段多任务的文本阅读理解方法的流程示意图。

参见图1，该方法包括：

110、在粗调阶段，采用第一训练集对文本分类模型进行预训练，所述第一训练集为与待预测文本属于同一业务方向的不同类型的题目；

具体的，如图2所示，将训练集1进行数据处理后进入粗调阶段，这里的训练集1是与待预测文本属于同一业务方向的不同类型的题目，例如，假设业务一为交规考试，待预测文本为该业务方向的题目，题目类型为单项选择题，则第一训练集中的题目则可采用交规考试的“是非题”，“是非题”类似判断题，例如：Question：驾驶人连续驾驶4小时以上，停车休息的时间不得少于20分钟？Answer：是。

另外，这里的文本分类模型可采用bert模型等现有模型实现，下文以bert模型为例进行说明。需要首先将训练集1中的题目文本数据处理成bert模型encoder能够接受的格式，这一步同bert的常见输入格式相同，处理后形成句子编码。bert模型中采用CLS和SEP作为标识符，前者表示句子编码的开始，后者表示句子的结束符，可出现在两个句子中间，也可出现在第二个句子的末尾。例如，对问题question和选项A进行处理后的格式为：[CLS]question[SEP]optionA[SEP]。

一个具体的示例如图3所示，图3中，输入题目经处理后的文本Text为：[CLS]驾驶人连续驾驶4小时以上，停车休息的时间不得少于多少[SEP]optionA[SEP]10分钟；tok1,tok2,...表示单个字符，比如“驾”；E1,E2,...表示单个字符的编码，在bert base当中一般是768维；T1,T2,...表示单个字符从bert的最终隐层输出，一般也是768维，表示该字符通过bert的高维抽象语义表示；最上层的CLS输出一般用来代表整个句子通过bert得到语义表示。

针对“单项选择题”类型的待预测文本，在粗调阶段，可以先在不同题目类型的“是非题”任务上对句子编码进行finetune，从而完成文本分类模型的模型参数在指定业务一方向的预热。

对句子编码进行finetune的过程，具体是通过构造bert的输入和输出，即训练数据，通过反向传播更新bert模型的参数(比如bert base 12层encoder当中的110M参数)

以上过程中，通过对同一个bert模型先用“是非题”的训练数据对模型参数进行finetune，然后在“单项选择题”上进行finetune，而前一个阶段便叫“预热”。当然，本实施例中也可以用其他类型的题目预热，主要满足业务相关性就可以。

120、在多任务学习阶段，采用第二训练集对经过预训练的文本分类模型进行训练，所述第二训练集为所述待预测文本的相似业务方向的同类型的题目；

具体的，如图2所示，在多任务学习阶段，通过多任务学习在指定业务一和相似业务方向的业务二的同类型题目的训练集2上同时微调模型，即finetune，并且共享encoder的所有参数，即在同一个bert模型上做参数梯度计算，多任务学习的实现过程是，用同一个bert模型训练两个任务，同时累积两个任务的损失函数，对同一个bert模型参数进行反向梯度传播，这样这个bert模型参数便能够同时回答这两个任务的题目。这样能够完成模型参数在题干结构理解上的梳理。示例如下：

业务一为交规考试的单项选择题，例如：

问题：驾驶人连续驾驶4小时以上，停车休息的时间不得少于多少？

选项：A：10分钟B：15分钟C：5分钟D：20分钟

业务二为公务员常识判断的单项选择题，例如：

问题：驾驶人连续驾驶不得超过多长时间？

选项：A：4小时B：6小时C：8小时D：10小时。

在模型解码端decoder，通过得到训练集2中各个问题和对应的不同选项CLS的结果，并通过全连接和sigmoid函数，然后取得分最高的选项为结果，并进行交叉熵损失函数的学习，其中，交叉熵损失函数能够将多个选项的打分缩放到0-1区间，且综合为1，便于梯度的反向传播，这一步同正常的分类模型，不再赘述。

上述训练bert模型的过程中，需要构造适合bert的训练数据，有几个选项，即需要几次输入bert模型，比如4个选项，bert模型的batchsize是64的话，每次bert前向计算可以算16道题(64/4)。

另外，当需要预测的题目类型为多项选择题时，需要将bert模型的输出计算从softmax更改为sigmoid计算，整体模型结构和finetune策略不需要修改。

130、使用完成训练的文本分类模型对所述待预测文本进行预测，输出预测结果。

具体的，该步骤属于预测阶段，在预测阶段，模型的参数是不计算梯度，也不进行反向传播更新参数的，只需要前向计算，得到输出结果即可。与步骤110和120的训练阶段相比，去掉了反向传播梯度更新的过程。

该步骤中，在将待预测文本输入文本分类模型进行预测之前，需要先将待预测文本的数据处理成文本分类模型的编码器的输入格式。以bert模型为例，例如：

问题Q：乡间道路上最高时速不能超过多少公里？

选项：A1：30km/h A2:60km/h

则对应的bert输入的示例为：

样本1：[CLS]Q[SEP][A1][SEP]

样本2：[CLS]Q[SEP][A2][SEP]

本发明的实施例提供的一种多阶段多任务的文本阅读理解方法，一方面，能够融合其他问题类型和其他业务方向的知识，增加了同业务方向的训练样本和同问题的回答范式，进一步提升模型效果；另一方面，针对训练样本比较少的业务场景，可以有效利用到同业务的其他数据进行预训练，从而获取了更多的先验知识，有效提高了模型精度，降低了对特定训练数据集大小的依赖，同样适用于少样本的业务问题解决。

图4是根据本发明示例性实施例示出的一种多阶段多任务的文本阅读理解装置的结构框图。

参见图4，该装置包括：

可选地，在该实施例中，所述文本分类模型采用bert模型。

可选地，在该实施例中，所述第一训练集的题目类型为是非题或单选题，所述第二训练集的题目类型为单选题或多选题。

可选地，在该实施例中，该装置还包括：

关于上述实施例中的系统，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不再做详细阐述说明。

本发明的实施例提供的一种多阶段多任务的文本阅读理解装置，一方面，能够融合其他问题类型和其他业务方向的知识，增加了同业务方向的训练样本和同问题的回答范式，进一步提升模型效果；另一方面，针对训练样本比较少的业务场景，可以有效利用到同业务的其他数据进行预训练，从而获取了更多的先验知识，有效提高了模型精度，降低了对特定训练数据集大小的依赖，同样适用于少样本的业务问题解决。

参见图5，计算设备500包括存储器510和处理器520。

处理器520可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器510可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)和永久存储装置。其中，ROM可以存储处理器520或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器510可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器510可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器510上存储有可执行代码，当可执行代码被处理器520处理时，可以使处理器520执行上文述及的方法中的部分或全部。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中部分或全部步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤的部分或全部。

上文中已经参考附图详细描述了本发明的方案。在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。本领域技术人员也应该知悉，说明书中所涉及的动作和模块并不一定是本发明所必须的。另外，可以理解，本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，本发明实施例装置中的模块可以根据实际需要进行合并、划分和删减。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种多阶段多任务的文本阅读理解方法，其特征在于，包括：

2.根据权利要求1所述的多阶段多任务的文本阅读理解方法，其特征在于，所述文本分类模型采用bert模型。

3.根据权利要求1所述的多阶段多任务的文本阅读理解方法，其特征在于，所述第一训练集的题目类型为是非题或单选题，所述第二训练集的题目类型为单选题或多选题。

4.根据权利要求1-3任一项所述的多阶段多任务的文本阅读理解方法，其特征在于，在使用完成训练的文本分类模型对所述待预测文本进行预测之前，还包括：

5.一种多阶段多任务的文本阅读理解装置，其特征在于，包括：

6.根据权利要求5所述的多阶段多任务的文本阅读理解装置，其特征在于，所述文本分类模型采用bert模型。

7.根据权利要求5所述的多阶段多任务的文本阅读理解装置，其特征在于，所述第一训练集的题目类型为是非题或单选题，所述第二训练集的题目类型为单选题或多选题。

8.根据权利要求5-7任一项所述的多阶段多任务的文本阅读理解装置，其特征在于，还包括：

9.一种终端设备，其特征在于，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1-4中任一项所述的方法。

10.一种非暂时性机器可读存储介质，其上存储有可执行代码，其特征在于，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1-4中任一项所述的方法。