CN111428021A

CN111428021A - 基于机器学习的文本处理方法、装置、计算机设备及介质

Info

Publication number: CN111428021A
Application number: CN202010502599.4A
Authority: CN
Inventors: 柳阳; 喻宁; 郑喜民; 梁关林
Original assignee: Ping An International Smart City Technology Co Ltd
Current assignee: Ping An International Smart City Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-07-17
Anticipated expiration: 2040-06-05
Also published as: CN111428021B; WO2021243828A1

Abstract

本发明公开了一种基于机器学习的文本处理方法、装置、计算机设备及介质，通过获取待处理答题数据，对待处理答题数据进行预处理，得到标准答题数据；将标准答题数据中的标准题目信息输入至预设的答题分类模型中，得到标准题目信息的题目类型；将标准素材信息、标准题目信息和对应的题目类型输入至预设的目标机器阅读理解模型中进行预测，得到初始答案信息，其中，目标机器阅读理解模型为采用卷积神经网络‑预训练语言模型训练得到的；根据解题思路信息从多个评估数据信息中确定最终评估数据，并将最终评估数据与解题思路信息以预设的整合方式记录为目标答案信息；从而提高了机器阅读得到的答案的准确性和真正意义起到辅助教学/学习的作用。

Description

基于机器学习的文本处理方法、装置、计算机设备及介质

技术领域

本发明涉及智能决策领域，尤其涉及一种基于机器学习的文本处理方法、装置、计算机设备及介质。

背景技术

目前，深度学习在图像识别、语音识别等领域取得丰硕成果，机器阅读理解(Machine Reading Comprehension，MRC)成为了人工智能研究与应用领域的新热点，其主要功能是阅读和理解给定的文章或上下文，自动给出相关的问题的答案。目前，传统的机器阅读理解的方法主要是采用基于相似或相关性来确定正确答案的方法，此类方法通过计算选项与背景材料的句子之间的最相似或相关性来确定正确答案，然而，在语义上等价的句子往往会用不同的句法结构形式来表述，基于相似度与相关性的方法只能找到背景材料中与选项语法结构或语义表述相似度较高的句子，无法理解语义的细微差别，而句子间的细微差别是语言处理第一要务。同时，此类方法都是基于背景材料做出正确答案，无法输出对应的解题过程；从而导致目前的机器阅读得到的答案的准确性低，无法真正意义起到辅助教学/学习的作用。。

发明内容

本发明实施例提供一种基于机器学习的文本处理方法、装置、计算机设备及介质，以解决机器阅读得到的答案准确性较低的问题。

一种基于机器学习的文本处理方法，包括：

获取待处理答题数据，对所述待处理答题数据进行预处理，得到标准答题数据，所述标准答题数据包括标准素材信息和标准题目信息；

将所述标准答题数据中的所述标准题目信息输入至预设的答题分类模型中，得到所述标准题目信息的题目类型；

将所述标准素材信息、所述标准题目信息和对应的所述题目类型输入至预设的目标机器阅读理解模型中进行预测，得到初始答案信息，所述初始答案信息包括多个评估数据信息以及与所述标准题目信息对应的解题思路信息，其中，所述目标机器阅读理解模型为采用卷积神经网络-预训练语言模型训练得到的；

根据所述解题思路信息从多个所述评估数据信息中确定最终评估数据，并将所述最终评估数据与所述解题思路信息以预设的整合方式记录为目标答案信息。

一种基于机器学习的文本处理装置，包括：

预处理模块，用于获取待处理答题数据，对所述待处理答题数据进行预处理，得到标准答题数据，所述标准答题数据包括标准素材信息和标准题目信息；

第一输入模块，用于将所述标准答题数据中的所述标准题目信息输入至预设的答题分类模型中，得到所述标准题目信息的题目类型；

预测模块，用于将所述标准素材信息、所述标准题目信息和对应的所述题目类型输入至预设的目标机器阅读理解模型中进行预测，得到初始答案信息，所述初始答案信息包括多个评估数据信息以及与所述标准题目信息对应的解题思路信息，其中，所述目标机器阅读理解模型为采用卷积神经网络-预训练语言模型训练得到的；

确定模块，用于根据所述解题思路信息从多个所述评估数据信息中确定最终评估数据，并将所述最终评估数据与所述解题思路信息以预设的整合方式记录为目标答案信息。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于机器学习的文本处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于机器学习的文本处理方法。

上述基于机器学习的文本处理方法、装置、计算机设备及介质，通过取待处理答题数据，对待处理答题数据进行预处理，得到标准答题数据，标准答题数据包括标准素材信息和标准题目信息；将标准答题数据中的标准题目信息输入至预设的答题分类模型中，得到标准题目信息的题目类型；将标准素材信息、标准题目信息和对应的题目类型输入至预设的目标机器阅读理解模型中进行预测，得到初始答案信息，初始答案信息包括多个评估数据信息以及与所述标准题目信息对应的解题思路信息，其中，目标机器阅读理解模型为采用卷积神经网络-预训练语言模型训练得到的；根据解题思路信息从多个所述评估数据信息中确定最终评估数据，并将最终评估数据与解题思路信息以预设的整合方式记录为目标答案信息；通过采用卷积神经网络-预训练语言模型训练得到的目标机器阅读理解模型对待处理答题数据进行答案预测，得到同时包含评估数据信息和对应的解题思路信息的目标答案信息；从而进一步提高了机器阅读得到的答案的准确性和真正意义起到辅助教学/学习的作用。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于机器学习的文本处理方法的一应用环境示意图；

图2是本发明一实施例中基于机器学习的文本处理方法的一流程图；

图3是本发明一实施例中基于机器学习的文本处理方法的另一流程图；

图4是本发明一实施例中基于机器学习的文本处理方法的另一流程图；

图5是本发明一实施例中基于机器学习的文本处理方法的另一流程图；

图6是本发明一实施例中基于机器学习的文本处理方法的另一流程图；

图7是本发明一实施例中基于机器学习的文本处理装置的一原理框图；

图8是本发明一实施例中基于机器学习的文本处理装置的另一原理框图；

图9是本发明一实施例中基于机器学习的文本处理装置的另一原理框图

图10是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于机器学习的文本处理方法，该基于机器学习的文本处理方法可应用如图1所示的应用环境中。具体地，该基于机器学习的文本处理方法应用在基于机器学习的文本处理系统中，该基于机器学习的文本处理系统包括如图1所示的客户端和服务端，客户端与服务端通过网络进行通信，用于解决机器阅读得到的答案准确性较低的问题。其中，客户端又称为用户端，是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种基于机器学习的文本处理方法，以该方法应用在图1中的服务端为例进行说明，包括如下步骤：

S10：获取待处理答题数据，对待处理答题数据进行预处理，得到标准答题数据，标准答题数据包括标准素材信息和标准题目信息。

其中，待处理答题数据是指待进行处理的阅读理解数据。每一篇阅读理解数据作为一个待处理答题数据。待处理答题数据的语种可以为中文或英文。具体地，待处理答题数据主要包括有阅读素材和题目信息。其中，题目信息主要由问题和对应的若干个候选答案组成的信息。阅读素材可以为单段落文本或者为多段落文本。待处理答题数据中一篇阅读素材可能对应一个或者多个题目信息。可选地，获取待处理答题数据可以直接从考试系统上获取任意一篇阅读理解数据，或者对纸质答卷上的任意一篇阅读理解数据进行扫描识别后获取得到。

具体地，对待处理答题数据进行预处理主要包括对待处理答题数据进行格式判断和处理，判断待处理答题数据的格式是否满足预设条件，在本实施例中，只有英文格式的待处理答题数据才能输入到机器阅读理解模型中进行答案预测，因此，若待处理答题数据的本文格式为中文，则需将中文格式的待处理答题数据转换成英文格式的的待处理答题数据。

进一步地，在确定了待处理答题的标准格式文本之后，将待处理答题数据组装成json格式的待处理答题数据，并判断待处理答题数据中的json字符串是否满足要求，比如判断待处理答题数据中的key有无空缺、value类型是否符合要求、value长度是否在范围内等，若待处理答题数据中的json字符串不满足要求，则对将该待处理答题数据返回至客户端界面并进行异常显示，提示用户该待处理答题数据为不合法数据，需重新获取待处理答题数据。

优选地，为了避免了因获取的待处理答题数据的字符数量过大，从而导致答案预测的效率降低，在本实施例中，若待处理答题数据的字符数量超过预先设定的字符阈值，则需根据实时情况对待处理答题数据进行字符分割处理，比如：可以将原本包含一篇阅读素材和多个题目信息的一个待处理答题数据分割成多个待处理答题数据，每一待处理答题数据包括一篇阅读素材和一个题目信息。

具体地，在对待处理答题数据进行预处理之后，得到合格的标准答题数据。标准答题数据包括标准素材信息和标准题目信息。其中，标准素材信息为对待处理答题数据中的素材信息进行预处理后的满足要求的素材信息。标准题目信息为对待处理答题数据中的题目信息进行预处理后的满足要求的题目信息。

S20：将标准答题数据中的标准题目信息输入至预设的答题分类模型中，得到标准题目信息的题目类型。

具体地，一个标准答题数据中可能包括一个或者多个标准题目信息，不同标准题目信息所对应的题型可能不同。比如一个标准答题数据中的包括的标准题目信息可能为全文推断题、也可能为段落推理题，或者为总结多选题等。在本实施例中，为了提高了模型预测的准确性，在将标准答题数据输入至机器阅读理解模型中进行预测之前，先确定标准答题数据中每一标准题目信息的类型。

具体地，将标准答题数据中的每一标准题目信息输入至预设的答题分类模型中，即可得到每一标准题目信息的题目类型。其中，答题分类模型为预先训练好的可对标准题目信息进行识别，从而确定标准题目信息的题目类型的模型。在本实施例中，进行分类后的标准题目信息的题目类型可以为词汇题、高亮题、全文推断题、插入题、段落推理题、总结多选题或连线题。

其中，答题分类模型优选为机器学习贝叶斯模型。具体地，预先通过对大量已进行分类标注的题目信息进行训练，从而得到机器学习贝叶斯模型。其中，贝叶斯决策论（Bayesian decision theory）是概率框架下实施决策的基本方法。它是决策论Decisiontheory + 概率论Probability theory的组合，探讨了如何在包含不确定性的环境中做出最优决策对分类任务来说，在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记（概率知识+对决策带来的损失的认识→最优决策）。

S30：将标准素材信息、标准题目信息和对应的题目类型输入至预设的目标机器阅读理解模型中进行预测，得到初始答案信息，初始答案信息包括多个评估数据信息以及与标准题目信息对应的解题思路信息，其中，目标机器阅读理解模型为采用卷积神经网络-预训练语言模型训练得到的。

其中，目标机器阅读理解模型是指预先训练好的可进行答案预测和解题思路信息分析的模型。目标机器阅读理解模型为采用卷积神经网络-预训练语言模型训练得到的。卷积神经网络-预训练语言模型是由卷积神经网络模型和预训练语言模型相结合所得到的模型。可以理解地，卷积神经网络-预训练语言模型相当于卷积神经网络与预训练语言网络模型相连接形成的模型。

具体地，目标机器阅读理解模型主要包括预测层、推理层、编码层和数据层。在本实施例中，预测层中包括若干预测单元，每一预测单元对应一种类型的标准题目信息。例如：预测层中可以包括词汇题单元、高亮题单元、全文推断题单元、插入题单元、段落推理题单元、总结多选题单元和连线题单元。具体地，在将标准题目信息输入至目标机器阅读理解模型的预测层中时，需要根据标准题目信息的题目类型，输入将标准题目信息输入至对应的预测单元中进行预测；从而得到该标准题目信息的至少一个标准备选文本。推理层主要包括RoBerta单元和XLNet单元，RoBerta单元主要通过结合标准备选文本和标准素材信息得到每一标准备选文本的选择概率值。XLNet单元主要对标准备选文本和标准素材信息进行处理，得到标准素材信息的关键信息。其中，选择概率值为用于评估标准备选文本为正确答案的概率值。标准素材信息的关键信息为对标准素材信息中的每一句话进行标注解析后的信息。例如：标注标准素材信息中哪句是中心观点句、分论点句和非观点句等。

进一步地，在得到每一标准备选文本的选择概率值和标准素材信息的关键信息之后，再采用编码层对每一标准备选文本的选择概率值和标准素材信息的关键信息进行特征编码，并将进行特征编码的每一标准备选文本的选择概率值和标准素材信息的关键信息输入到数据层，从而得到初始答案信息。初始答案信息包括多个评估数据信息以及与标准题目信息对应的解题思路信息。其中，评估数据信息为标准题目信息中的每一候选答案所对应的选择概率值。由于一个标准题目信息中至少包括两个候选答案，因此，得到的初始答案信息包括多个评估数据信息。每一候选答案对应一个评估数据信息。解题思路信息为对标准题目信息得出的正常答案进行解析的过程，即为什么选择这个答案的原因和理解过程。

S40：根据解题思路信息从多个评估数据信息中确定最终评估数据，并将最终评估数据与解题思路信息以预设的整合方式记录为目标答案信息。

具体地，由于初始答案信息中包括多个评估数据信息，而每一评估数据信息为标准题目信息中的每一候选答案所对应的概率值。因此，在确定了标准题目信息中的每一候选答案所对应的概率值之后，根据解题思路信息和标准题目信息中的题目要求对每一候选答案所对应的概率值进行筛选，从多个评估数据信息中确定最终评估数据，即确定该道标准题目所对应的正确答案，然后将该道标准题目所对应的最终评估数据与对应的解题思路信息以预设的整合方式记录为目标答案信息。其中，预设的整合方式可以为直接将最终评估数据和对应的解题思路信息进行组合。

示例性地，若得到的初始答案信息包括4个评估数据信息分别为候选答案A:0.81，候选答案B:0.92，候选答案C:0.95和候选答案D:0.01，标准题目信息中的题目要求为哪个是不可能从素材中推理出来的结论。因此，结合解题思路信息从4个评估数据信息中确定出最终评估数据为候选答案D。可以理解地，候选答案D所对应的概率值为最小概率值，即候选答案D是不太可能从素材中推理出来，所以最终评估数据为候选答案D。最后将最终评估数据和解题思路信息以预设的整合方式记录为目标答案信息。可以理解地，目标答案信息包括该道题的正确答案以及为什么选择这个答案的原因和理解过程。

在本实施例中，获取待处理答题数据，对待处理答题数据进行预处理，得到标准答题数据，标准答题数据包括标准素材信息和标准题目信息；将标准答题数据中的标准题目信息输入至预设的答题分类模型中，得到标准题目信息的题目类型；将标准素材信息、标准题目信息和对应的题目类型输入至预设的目标机器阅读理解模型中进行预测，得到初始答案信息，初始答案信息包括多个评估数据信息以及与标准题目信息对应的解题思路信息，其中，目标机器阅读理解模型为采用卷积神经网络-预训练语言模型训练得到的；根据解题思路信息从多个评估数据信息中确定最终评估数据，并将最终评估数据与解题思路信息以预设的整合方式记录为目标答案信息；通过采用卷积神经网络-预训练语言模型训练得到的目标机器阅读理解模型对待处理答题数据进行答案预测，得到同时包含评估数据信息和对应的解题思路信息的目标答案信息；从而进一步提高了机器阅读得到的答案的准确性和真正意义起到辅助教学/学习的作用。

在一实施例中，如图3所示，对待处理答题数据进行预处理，具体包括如下步骤：

S101：对待处理答题数据的文本形式进行标准化，得到初始答题数据。

具体地，由于获取的待处理答题数据的语种可能为中文格式或英文格式，而在本实施例中，只有英文格式的待处理答题数据才能输入到机器阅读理解模型中进行答案预测，因此，在本步骤中，对待处理答题数据的文本形式进行标准化，即将待处理答题数据转换成统一的英文格式，得到初始答题数据。

S102：将初始答题数据转换成json数据格式，得到候选答题数据。

具体地，在确定了初始答题数据，再将初始答题数据组装成json格式的候选答题数据。其中，json数据格式是一种轻量级的数据交换格式，它采用完全独立于编程语言的文本格式来存储和表示数据。json数据格式简洁和清晰的层次结构不但易于人阅读和编写，同时也易于机器解析和生成，并能有效地提升网络传输效率。因此，通过将初始答题数据转化成json数据格式，有利于后续快速、精确地进行数据处理。

具体地，可以预先编写将各种数据格式（map、xml或者yaml等）转化成json数据格式的类或者函数，并封装成转化脚本，以将初始答题数据分别转化成json数据格式的候选答题数据。在进行数据格式转化时，先根据初始答题数据的数据格式获取到对应的转化脚本，然后分别执行对应的转化脚本从而将初始答题数据转换成json数据格式，得到候选答题数据。

S103：判断候选答题数据中的json字符串是否满足预设要求，若候选答题数据中的json字符串满足预设要求，则将候选答题数据确定为标准答题数据。

具体地，判断候选答题数据中的json字符串是否满足预设要求主要是判断json字符串中的key有无空缺、value类型是否符合要求、value长度是否在范围内等。在一具体实施例中，已预先设定好满足要求的json字符串中的value的预设类型范围和预设长度范围。若候选答题数据中的json字符串中的key无空缺、value类型在预设类型范围内，以及value的长度在预设长度范围内，则判断该候选答题数据中的json字符串满足预设要求，将候选答题数据确定为标准答题数据。

在另一具体实施例中，若判断得到候选答题数据中的json字符串不满足预设要求，即候选答题数据中的json字符串中的key有空缺，或value类型不在预设类型范围内，或value的长度不在预设长度范围内，则将该待处理答题数据返回至客户端界面并进行异常显示，提示用户该待处理答题数据为不合法数据，需重新获取待处理答题数据。

在本实施例中，对待处理答题数据的文本形式进行标准化，得到初始答题数据；将初始答题数据转换成json数据格式，得到候选答题数据；判断候选答题数据中的json字符串是否满足预设要求，若候选答题数据中的json字符串满足预设要求，则将候选答题数据确定为标准答题数据；从而提高了获取的标准答题数据的准确性和统一性，保证了后续数据进行输入到目标机器阅读理解模型中进行预测的准确性。

在一实施例中，如图4所示，将标准素材信息、标准题目信息和对应的题目类型输入至预设的目标机器阅读理解模型中进行预测，得到初始答案信息，具体包括如下步骤：

S301：将标准素材信息、标准题目信息和对应的题目类型输入至目标机器阅读理解模型的所述预测层中，得到标准题目信息的标准备选文本集，标准备选文本集包括至少一个标准备选文本。

其中，标准备选文本集是指将标准题目信息中的问题与每个备选答案分别进行拼接后所得到的文本集。其中，标准备选文本集包含至少一个标准备选文本。

具体地，在确定了标准题目信息的题目类型之后，将标准素材信息、标准题目信息和对应的题目类型输入至目标机器阅读理解模型的预测层中。在本实施例中，不同类型的标准题目信息所对应的预测层的处理逻辑不一样。即在目标机器阅读理解模型的预测层中包括多种类型的处理单元。具体地，在本实施例中，目标机器阅读理解模型的预测层包括词汇题单元、高亮题单元、全文推断题单元、插入题单元、段落推理题单元、总结多选题单元和连线题单元。在将标准题目信息输入至目标机器阅读理解模型的预测层中时，根据标准题目信息的题目类型输入将标准题目信息输入至对应的预测单元中进行预测；从而得到该标准题目信息的至少一个标准备选文本。例如：若标准题目信息的题目类型为词汇题，则在将标准题目信息输入至目标机器阅读理解模型的所述预测层中时，会根据与该标准题目信息关联的题目类型:词汇题，将该标准题目信息自动输入至目标机器阅读理解模型的预测层的词汇题单元中，从而得到该标准题目信息的标准备选文本集。

S302：将标准备选文本集中的每一标准备选文本和标准素材信息输入至目标机器阅读理解模型的推理层中，得到每一标准备选文本的选择概率值和标准素材信息的关键信息。

其中，推理层用于判断每一个标准备选文本能不能从标准素材信息中推理出来。推理层包括RoBerta单元和XLNet单元。其中，RoBERTa是对BERT的强化和调优。RoBERTa主要在三方面对之前提出的BERT做了该进，其一是模型的具体细节层面，改进了优化函数；其二是训练策略层面，改用了动态掩码的方式训练模型，证明了NSP（Next SentencePrediction）训练策略的不足，采用了更大的batch size；其三是数据层面，一方面使用了更大的数据集，另一方面是使用BPE（Byte-Pair Encoding ）来处理文本数据。XLNet是一种通用的自回归预训练方法，通过最大化所有可能的因式分解顺序的对数似然，学习双向语境信息。

具体地，将预测层输出的标准备选文本集中的每一标准备选文本和标准素材信息输入至目标机器阅读理解模型的推理层中；采用RoBerta单元对标准备选文本和标准素材信息进行处理，从而得到每一标准备选文本的选择概率值，并采用XLNet单元对标准备选文本和标准素材信息进行处理，得到标准素材信息的关键信息。其中，选择概率值为用于评估标准备选文本为正确答案的概率值。选择概率值的范围为0-1。选择概率值越高，指示所对应的标准备选文本为正确答案的概率越大。标准素材信息的关键信息为对标准素材信息中的每一句话进行标注解析后的信息。例如：标准素材信息中哪些为中心观点句、分论点句和非观点句等。

进一步地，目标机器阅读理解模型还包括编码层和数据层。其中，编码层主要负责将输入给推理层的标准备选文本和标准素材信息进行特征编码，在本实施例中，编码层主要采用BERT encoder方法和XLNet encoder方法标准备选文本和标准素材信息进行特征编码。数据层解决的问题是Base模型的依赖，因为我们的推理模型不是从0到1，都是基于业界大规模训练模型上做一些迁移，所以我们基于的数据有RACE、SQuAD等。

S303：将每一标准备选文本的选择概率值和标准素材信息的关键信息进行组合，得到初始答案信息。

具体地，在得到每一标准备选文本的选择概率值和标准素材信息的关键信息之后，将每一所述标准备选文本的选择概率值和所述标准素材信息的关键信息进行组合，即可得到初始答案信息。

在本实施例中，将标准素材信息、标准题目信息和对应的题目类型输入至目标机器阅读理解模型的所述预测层中，得到标准题目信息的标准备选文本集，标准备选文本集包括至少一个标准备选文本；将标准备选文本集中的每一标准备选文本和标准素材信息输入至目标机器阅读理解模型的推理层中，得到每一标准备选文本的选择概率值和标准素材信息的关键信息；将每一标准备选文本的选择概率值和标准素材信息的关键信息进行组合，得到初始答案信息；从而提高了生成的初始答案信息的准确性。

在一实施例中，如图5所示，在将标准素材信息、标准题目信息和对应的题目类型输入至预设的目标机器阅读理解模型中进行预测之前，该基于机器学习的文本处理方法还具体包括如下步骤：

S11：获取预设数量的样本答题数据，每一样本答题数据包括关键段落信息、样本问题和对应的备选答案集。

其中，样本答题数据是指用于进行模型训练的阅读理解数据。可选地，获取样本答题数据可以直接从考试系统上获取若干篇阅读理解数据，或者对纸质答卷上的阅读理解数据进行扫描识别后获取得到。每一所述样本答题数据包括关键段落信息、样本问题和对应的备选答案集。其中，关键段落信息是指用于解答样本问题所对应的素材信息。样本问题是指样本答题数据中的题目的问题。样本问题和对应的备选答案集为样本问题对应的候选答案项。

例如：According to paragraph 2, Athens had all of the following beforebecoming a city-state EXCEPT为样本问题；A. a council made up of aristocrats；B.an assembly made up of men；C. a constitution that was fully democratic；D.officials who were elected yearly为样本问题对应的备选答案集。

需要说明的是，获取预设数量的样本答题数据，预设数量可以为M个，其中，M为正整数。而M的具体数值可以根据实际需要进行设定。M的数值越高，后续模型训练的准确性会越高，然而提取效率会有所下降，可以在准确度和效率上进行综合考虑进行对M的选取。

S12：分别将每一样本答题数据的样本问题与对应的备选答案集中的每个备选答案进行拼接，得到每一样本答题数据的样本备选文本集，样本备选文本集包括至少一个样本备选文本。

具体地，分别将每一样本答题数据的所述样本问题与对应的备选答案集中的每个备选答案进行拼接，得到每一样本答题数据的至少一个样本备选文本。

例如：若样本问题为According to paragraph 2, Athens had all of thefollowing before becoming a city-state EXCEPT；备选答案集为A. a council madeup of aristocrats；B. an assembly made up of men；C. a constitution that wasfully democratic；D. officials who were elected yearly；则分别将每一样本答题数据的样本问题与对应的所述备选答案集中的每个备选答案进行拼接后，可以得到4个样本备选文本分别为：“Athens had a council made up of aristocrats before becoming acity-state”；Athens had an assembly made up of men before becoming a city-state”；“Athens had a constitution that was fully democratic before becoming acity-state”；“Athens had officials who were elected yearly before becoming acity-state”。

S13：对每一样本答题数据的关键段落信息进行标注，得到关键段落信息的标注数据。

具体地，对每一样本答题数据的关键段落信息进行标注，得到关键段落信息的标注数据，其中，标注数据为用于标注关键段落信息中每一句话的关键信息的数据。例如：标注数据可以为标注关键段落信息中哪些句子是中心观点句、哪些句子是分论点句和哪些句子是非观点句等。

S14：将每一样本答题数据中的样本备选文本集、关键段落信息和对应的标注数据作为训练样本输入至卷积神经网络-预训练语言模型中进行训练，得到目标机器阅读理解模型。

具体地，将每一样本答题数据中的样本备选文本集、关键段落信息和对应的标注数据作为训练样本输入至卷积神经网络-预训练语言模型中进行训练，即可得到目标机器阅读理解模型。其中，卷积神经网络-预训练语言模型是由卷积神经网络模型和预训练语言模型相结合所得到的模型。可以理解地，卷积神经网络-预训练语言模型相当于卷积神经网络与预训练语言网络模型相连接形成的模型。

在本实施例中，获取预设数量的样本答题数据，每一样本答题数据包括关键段落信息、样本问题和对应的备选答案集；分别将每一样本答题数据的样本问题与对应的备选答案集中的每个备选答案进行拼接，得到每一样本答题数据的样本备选文本集，样本备选文本集包括至少一个样本备选文本；对每一样本答题数据的关键段落信息进行标注，得到关键段落信息的标注数据；将每一样本答题数据中的样本备选文本集、关键段落信息和对应的标注数据作为训练样本输入至卷积神经网络-预训练语言模型中进行训练，得到目标机器阅读理解模型；从而提高了生成的目标机器阅读理解模型的精确度。

在一实施例中，如图6所示，在将每一样本答题数据中的样本备选文本集、关键段落信息和对应的标注数据作为训练样本输入至卷积神经网络-预训练语言模型中进行训练，得到目标机器阅读理解模型之后，基于机器学习的文本理解处理方法还具体包括如下步骤：

S15：接收更新指令，检测目标机器阅读理解模型中的最小风险训练损失函数是否为最小化。

S16：在最小风险训练损失函数不是最小化时，对目标机器阅读理解模型的参数进行预设次数的优化调整后，利用预设评价函数和选取的验证答题数据，对调整后的目标机器阅读理解模型输出答案的准确性进行评价，得到评估结果；其中，对目标机器阅读理解模型的参数进行一次优化调整，包括对最小风险训练损失函数执行一次最小化处理流程。

S17：若评估结果满足预设评估要求，则将调整后的目标机器阅读理解模型记录为新的目标机器阅读理解模型，以便于将标准素材信息、标准题目信息和对应的题目类型重新输入至新的目标机器阅读理解模型中进行预测，得到初始答案信息。

其中，更新指令是指用于触发对目标机器阅读理解模型进行优化的指令。可选地，更新指令可以在要求目标机器阅读理解模型具有更精准的预测能力时触发生成，也可以预先设定一个触发周期进行定期生成等。具体地，接收更新指令，检测目标机器阅读理解模型中的最小风险训练损失函数是否为最小化。若目标机器阅读理解模型中的最小风险训练损失函数不为最小化，则

以最小化最小风险训练损失函数为目标，对目标机器阅读理解模型的参数进行预设次数的优化调整，然后再执行目标机器阅读理解模型的训练，以不断优化目标机器阅读理解模型的输出答案的概率分布，使预测的样本答题数据中的样本问题的答案越来越向标准答案靠近。因此，通过预设次数的迭代优化调整，即可得到一个调整后的目标机器阅读理解模型。其中，最小风险训练是指使用损失函数

来描述模型预测的答案y与标准答案

之间的差异程度，并试图寻找一组参数使得模型在训练集上损失的期望值。

具体的，最小风险训练损失函数R(θ)的计算公式为：

其中，

为样本答题数据中的样本问题；

为目标机器阅读理解模型输出的答案，

为当模型参数为θ时、目标机器阅读理解模型输出的答案概率值，

为对应

的目标机器阅读理解模型所有可能输出答案的集合，

为目标机器阅读理解模型输出的答案与标准答案

之间的差异程度(即损失)。本实例中利用rouge评价计算目标机器阅读理解模型输出的答案与标准答案

之间的损失，定义

。基于rouge-L可以自动匹配最长子序列，本实施例中的rouge评价采用rouge-L，对应的计算公式为：在上述公式中，x和y为标准答案和模型输出答案的文本序列；N为标准答案的长度；n为模型输出答案的长度；β为超参数，可以根据需要设置，本实施例中取值为1.2；LCS为最长公共子序列。当然，在具体应用中可以根据具体的任务和需求进行个性化设置。进一步地，在对目标机器阅读理解模型的参数进行预设次数的优化调整后，利用预设评价函数和选取的验证答题数据，对调整后的目标机器阅读理解模型输出答案的准确性进行评价，得到评估结果；其中，对目标机器阅读理解模型的参数进行一次优化调整，包括对最小风险训练损失函数执行一次最小化处理流程。

其中，评估结果是指对参数调整后的目标机器阅读理解模型进行效果评估后所得的结果。验证答题数据是指用来验证参数调整后的目标机器阅读理解模型的效果的数据集。每一验证答题数据包括关键段落信息、样本问题和对应的备选答案集。具体地，在对目标机器阅读理解模型完成预设次数的优化调整后，将选取的验证答题数据输入调整后的目标机器阅读理解模型中，再利用预设评价函数，如ROUGE(Recall-Oriented UnderstudyforGisting Evaluation，对提升评估的理解)评价、BLEU(BilingualEvaluationUnderstudy，双语评价)评价该调整后的目标机器阅读理解模型所输出答案的准确性，得到评估结果。

进一步地，在得到评估结果之后，判断该评估结果是否满足预设评估要求，若评估结果满足预设评估要求，则停止对目标机器阅读理解模型的优化调整，并将调整后的目标机器阅读理解模型记录为新的目标机器阅读理解模型。其中，预设评估要求为当目标机器阅读理解模型中的损失函数达到最小，直至收敛。即当评估结果指示目标机器阅读理解模型中的损失函数在反复迭代的优化调整过程中直至收敛，得到最小优化损失函数时，表示评估结果满足预设评估要求，停止对目标机器阅读理解模型的优化调整，并将调整后的目标机器阅读理解模型记录为新的目标机器阅读理解模型，以便于将标准素材信息、标准题目信息和对应的题目类型重新输入至新的目标机器阅读理解模型中进行预测，得到初始答案信息，从而进一步提高了得到的初始答案信息的精准度。

在另一具体实施例中，若得到的评估结果还未满足预设评估要求，则继续对目标机器阅读理解模型进行优化调整，以极小化该损失函数，直至收敛，直至评估结果满足预设评估要求，最后将调整后的目标机器阅读理解模型记录为新的目标机器阅读理解模型。可以理解地，在本实施例中，目标机器阅读理解模型每执行一次迭代优化调整、就会对应输出一个评估结果，这样在经过预设次数的迭代优化调整和评估后，会对应得到多个评估结果，直至评估结果满足预设评估要求，停止对目标机器阅读理解模型的迭代优化调整

在本实施例中，接收更新指令，检测目标机器阅读理解模型中的最小风险训练损失函数是否为最小化；在最小风险训练损失函数不是最小化时，对目标机器阅读理解模型的参数进行预设次数的优化调整后，利用预设评价函数和选取的验证答题数据，对调整后的目标机器阅读理解模型输出答案的准确性进行评价，得到评估结果；其中，对目标机器阅读理解模型的参数进行一次优化调整，包括对最小风险训练损失函数执行一次最小化处理流程；若评估结果满足预设评估要求，则将调整后的目标机器阅读理解模型记录为新的目标机器阅读理解模型，以便于将标准素材信息、标准题目信息和对应的题目类型重新输入至新的目标机器阅读理解模型中进行预测，得到初始答案信息，从而进一步提高了得到的初始答案信息的精准度和准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于机器学习的文本处理装置，该基于机器学习的文本处理装置与上述实施例中基于机器学习的文本处理方法一一对应。如图7所示，该基于机器学习的文本处理装置包括预处理模块、第一输入模块20、预测模块30和整合模块40。各功能模块详细说明如下：

预处理模块10，用于获取待处理答题数据，对所述待处理答题数据进行预处理，得到标准答题数据，所述标准答题数据包括标准素材信息和标准题目信息；

第一输入模块20，用于将所述标准答题数据中的所述标准题目信息输入至预设的答题分类模型中，得到所述标准题目信息的题目类型；

预测模块30，用于将所述标准素材信息、所述标准题目信息和对应的所述题目类型输入至预设的目标机器阅读理解模型中进行预测，得到初始答案信息，所述初始答案信息包括多个评估数据信息以及与所述标准题目信息对应的解题思路信息，其中，所述目标机器阅读理解模型为采用卷积神经网络-预训练语言模型训练得到的；

确定模块40，用于根据所述解题思路信息从多个所述评估数据信息中确定最终评估数据，并将所述最终评估数据与所述解题思路信息以预设的整合方式记录为目标答案信息。

优选地，如图8所示，所述预处理模块10包括：

标准化单元101，用于对所述待处理答题数据的文本形式进行标准化，得到初始答题数据；

转换单元102，用于将所述初始答题数据转换成json数据格式，得到候选答题数据；

判断单元103，用于判断所述候选答题数据中的json字符串是否满足预设要求，若所述候选答题数据中的json字符串满足预设要求，则将所述候选答题数据确定为标准答题数据。

优选地，如图9所示，所述预测模块30包括：

第一输入单元301，用于将所述标准素材信息、所述标准题目信息和对应的所述题目类型输入至所述目标机器阅读理解模型的预测层中，得到所述标准题目信息的标准备选文本集，所述标准备选文本集包括至少一个标准备选文本；

第二输入单元302，用于将所述标准备选文本集中的每一所述标准备选文本和所述标准素材信息输入至所述目标机器阅读理解模型的推理层中，得到每一所述标准备选文本的选择概率值和所述标准素材信息的关键信息；

组合单元303，用于将每一所述标准备选文本的选择概率值和所述标准素材信息的关键信息进行组合，得到初始答案信息。

优选地，所述基于机器学习的文本处理装置还包括：

获取模块，用于获取预设数量的样本答题数据，每一所述样本答题数据包括关键段落信息、样本问题和对应的备选答案集；

拼接模块，用于分别将每一所述样本答题数据的所述样本问题与对应的所述备选答案集中的每个备选答案进行拼接，得到每一所述样本答题数据的样本备选文本集，所述样本备选文本集包括至少一个样本备选文本；

标注模块，用于对每一所述样本答题数据的所述关键段落信息进行标注，得到所述关键段落信息的标注数据；

第二输入模块，用于将每一所述样本答题数据中的所述样本备选文本集、所述关键段落信息和对应的标注数据作为训练样本输入至卷积神经网络-预训练语言模型中进行训练，得到目标机器阅读理解模型。

优选地，所述基于机器学习的文本处理装置还包括：

检测模块，用于接收更新指令，检测所述目标机器阅读理解模型中的最小风险训练损失函数是否为最小化；

优化调整模块，用于在所述最小风险训练损失函数不是最小化时，对所述目标机器阅读理解模型的参数进行预设次数的优化调整后，利用预设评价函数和选取的验证答题数据，对调整后的所述目标机器阅读理解模型输出答案的准确性进行评价，得到评估结果；其中，对所述目标机器阅读理解模型的参数进行一次优化调整，包括对所述最小风险训练损失函数执行一次最小化处理流程；

记录模块，用于在所述评估结果满足预设评估要求时，将调整后的所述目标机器阅读理解模型记录为新的目标机器阅读理解模型，以便于将标准素材信息、标准题目信息和对应的题目类型重新输入至新的目标机器阅读理解模型中进行预测，得到初始答案信息。

关于基于机器学习的文本处理装置的具体限定可以参见上文中对于基于机器学习的文本处理方法的限定，在此不再赘述。上述基于机器学习的文本处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储上述实施例中基于机器学习的文本处理方法所使用到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于机器学习的文本处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中的基于机器学习的文本处理方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的基于机器学习的文本处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于机器学习的文本处理方法，其特征在于，包括：

2.如权利要求1所述的基于机器学习的文本处理方法，其特征在于，对所述待处理答题数据进行预处理，包括：

对所述待处理答题数据的文本形式进行标准化，得到初始答题数据；

将所述初始答题数据转换成json数据格式，得到候选答题数据；

判断所述候选答题数据中的json字符串是否满足预设要求，若所述候选答题数据中的json字符串满足预设要求，则将所述候选答题数据确定为标准答题数据。

3.如权利要求1所述的基于机器学习的文本处理方法，其特征在于，所述将所述标准素材信息、所述标准题目信息和对应的所述题目类型输入至预设的目标机器阅读理解模型中进行预测，得到初始答案信息，包括：

将所述标准素材信息、所述标准题目信息和对应的所述题目类型输入至所述目标机器阅读理解模型的预测层中，得到所述标准题目信息的标准备选文本集，所述标准备选文本集包括至少一个标准备选文本；

将所述标准备选文本集中的每一所述标准备选文本和所述标准素材信息输入至所述目标机器阅读理解模型的推理层中，得到每一所述标准备选文本的选择概率值和所述标准素材信息的关键信息；

将每一所述标准备选文本的选择概率值和所述标准素材信息的关键信息进行组合，得到初始答案信息。

4.如权利要求1所述的基于机器学习的文本处理方法，其特征在于，所述在将所述标准素材信息、所述标准题目信息和对应的所述题目类型输入至预设的目标机器阅读理解模型中进行预测之前，还包括：

获取预设数量的样本答题数据，每一所述样本答题数据包括关键段落信息、样本问题和对应的备选答案集；

分别将每一所述样本答题数据的所述样本问题与对应的所述备选答案集中的每个备选答案进行拼接，得到每一所述样本答题数据的样本备选文本集，所述样本备选文本集包括至少一个样本备选文本；

对每一所述样本答题数据的所述关键段落信息进行标注，得到所述关键段落信息的标注数据；

将每一所述样本答题数据中的所述样本备选文本集、所述关键段落信息和对应的标注数据作为训练样本输入至卷积神经网络-预训练语言模型中进行训练，得到目标机器阅读理解模型。

5.如权利要求4所述的基于机器学习的文本处理方法，其特征在于，所述在将每一所述样本答题数据中的所述样本备选文本集、所述关键段落信息和对应的标注数据作为训练样本输入至卷积神经网络-预训练语言模型中进行训练，得到目标机器阅读理解模型之后，所述基于机器学习的文本处理方法还包括：

接收更新指令，检测所述目标机器阅读理解模型中的最小风险训练损失函数是否为最小化；

在所述最小风险训练损失函数不是最小化时，对所述目标机器阅读理解模型的参数进行预设次数的优化调整后，利用预设评价函数和选取的验证答题数据，对调整后的所述目标机器阅读理解模型输出答案的准确性进行评价，得到评估结果；其中，对所述目标机器阅读理解模型的参数进行一次优化调整，包括对所述最小风险训练损失函数执行一次最小化处理流程；

若所述评估结果满足预设评估要求，则将调整后的所述目标机器阅读理解模型记录为新的目标机器阅读理解模型，以便于将所述标准素材信息、所述标准题目信息和对应的所述题目类型输入至所述新的目标机器阅读理解模型中进行预测，得到初始答案信息。

6.一种基于机器学习的文本处理装置，其特征在于，包括：

7.如权利要求6所述的基于机器学习的文本处理装置，其特征在于，所述预处理模块包括：

标准化单元，用于对所述待处理答题数据的文本形式进行标准化，得到初始答题数据；

转换单元，用于将所述初始答题数据转换成json数据格式，得到候选答题数据；

判断单元，用于判断所述候选答题数据中的json字符串是否满足预设要求，若所述候选答题数据中的json字符串满足预设要求，则将所述候选答题数据确定为标准答题数据。

8.如权利要求6所述的基于机器学习的文本处理装置，其特征在于，所述预测模块包括：

第一输入单元，用于将所述标准素材信息、所述标准题目信息和对应的所述题目类型输入至所述目标机器阅读理解模型的预测层中，得到所述标准题目信息的标准备选文本集，所述标准备选文本集包括至少一个标准备选文本；

第二输入单元，用于将所述标准备选文本集中的每一所述标准备选文本和所述标准素材信息输入至所述目标机器阅读理解模型的推理层中，得到每一所述标准备选文本的选择概率值和所述标准素材信息的关键信息；

组合单元，用于将每一所述标准备选文本的选择概率值和所述标准素材信息的关键信息进行组合，得到初始答案信息。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述基于机器学习的文本处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述基于机器学习的文本处理方法。