CN112035652A

CN112035652A - 一种基于机器阅读理解的智能问答交互方法及系统

Info

Publication number: CN112035652A
Application number: CN202011184803.9A
Authority: CN
Inventors: 朱宇
Original assignee: Hangzhou Yunjia Cloud Calculating Co ltd
Current assignee: Hangzhou Yunjia Cloud Calculating Co ltd
Priority date: 2020-10-30
Filing date: 2020-10-30
Publication date: 2020-12-04

Abstract

本发明公开了一种基于机器阅读理解的智能问答交互方法及系统，读理解系统包括有：第一文本分词模块，将原始文本分割为以词、字为单位的序列；统计挖掘模块、数据转译模块、数据分层模块、向量表征模块、第一模型训练模块以及统计规则挖掘模块；法条推送系统包括有：第二文本分词模块、新词发现模块以及第二模型训练模块。交互方法包括如下步骤：将原始文本和提问文本分别输入到阅读理解系统和法条推送系统；原始文本和提问文本均为默认为中文文本；对输入的原始文本和提问文本进行预处理；将预处理后的文本输入到模型训练模块中进行训练；输出预测结果。通过搭建智能问答交互系统，提高司法领域的公共服务能力，降低人工客服成本。

Description

一种基于机器阅读理解的智能问答交互方法及系统

技术领域

本发明涉及计算机自然语言处理以及自动问答技术领域，具体的，涉及一种基于机器阅读理解的智能问答交互方法及系统。

背景技术

阅读理解任务是指让机器能够阅读并理解文档中的信息，是自然能语言处理的一个重要任务，随着深度学习技术的崛起，在最近几年成为学术和工业界的热点，并在智能客服、自动问答方面有了广泛的应用。

训练机器去阅读理解，重要的是建立一种机器学习模型，通过给定的文本数据和答案进行算法训练，从而在文本片段中找出问题的答案。与一般单句处理的任务不同，机器阅读理解任务更注重于对篇章文本的理解，模型必须能从中学习到某种基于文本到结果的推理关系，而不是利用预设好的人为知识来回答多种多样的问题，因此更具挑战性。

阅读理解任务的模型对数据集要求较高，其不仅需要一段描述性文本，还需要针对该文本的问题和对应答案，这使得数据收集就具备挑战性。最早提出的SQUAD和CNN/Daily mail等数据集，提供了大量监督数据。这些数据集一般是一篇文档与一个问题成对提供，在此之上研究出了BIDAF，SAN等优秀的阅读理解模型。然而针对同个描述性文本，问法可能多种多样，因此这种数据集与现实种的场景还有不小的差距。之后SQUAD2.0数据集提供了一篇文档多个问题对应，成为新的模型提出时的效果检验标准，并在此基础上出现了基于Bert的阅读理解模型，并且已表现出学习通用信息的能力。但是这样较为通用的数据集为英语语言使用，对于中文语言的数据集和一种好的阅读理解模型却非常稀缺。

现有的阅读理解模型存在以下不足：

（1）只能处理有无问题

一般的阅读理解模型因为建立在现有公开数据集上，因此在预测时，只能预测为是否找到答案，如果找到，则会返回找到的文本片段，如果没找到，则返回为空；

（2）对数据获取成本大

因为阅读理解模型对训练数据依赖程度较高，因此有一份规模较大的数据集，训练的模型也能趋向于更为精准。但是阅读理解模型的中文数据不仅稀缺，且标注成本高；

（3）不具备统计知识发掘

在阅读理解任务中，不同的问答所表示的量化特征，可能对应的是同一答案，如果直接进行模型训练，会加深模型的混淆度；

阅读理解模型在人机交互方面以及智能问答领域应用广泛，针对司法领域的智能问答系统，可以将阅读理解系统和法条推送系统相结合，可以提高公共服务能力，减少人工交互成本，然而，传统的法条推送系统是基于人为规则知识，在法条推送系统中，一般以问题的关键词、句相似度等方式与数据库已存问题答案对进行匹配搜索，这种方式虽然简单直观，但是人为写入关键词和规则耗时较长，且效果不易直接体现。

发明内容

本发明的目的是解决解决传统阅读理解模型的识别精度低、训练数据成本高的问题。一种基于机器阅读理解的智能问答交互方法及系统，将多种最优子模型进行融合，增强识别准确度，并减少数据获取成本，将阅读理解系统与法条推送系统结合，搭建智能问答交互系统，可提高司法领域的公共服务能力，降低人工客服成本。

发明提供的一种技术方案是，一种基于机器阅读理解的智能问答交互方法，包括如下步骤：

将原始文本和提问文本分别输入到阅读理解系统和法条推送系统；原始文本和提问文本均为默认为中文文本，若含有外国语需通过转译器转换成中文；

对输入的原始文本和提问文本进行预处理；

将预处理后的文本输入到模型训练模块中进行训练；

输出预测结果。

对输入的原始文本和提问文本进行预处理包括如下步骤：

采用第一文本分词模块将原始文本分割为以词、字为单位的序列；

采用第二文本分词模块将提问文本分割为以词、字为单位的序列；

采用统计挖掘模块通过词替换、字替换、调整顺序、正则发掘的方式对序列的字输出、词输出进行调整；

采用数据转译模块对原始文本和提问文本进行数据扩充；

将扩充后的数据经过数据分层模块划分为训练集和验证集；

通过向量表征模块对文本分词后的字输出和词输出以向量方式表示；

将向量表征模块输出的向量数据导入第一模型训练模块进行训练；

第一模型训练模块输出预测结果；

通过统计规则挖掘模块筛选出预测结果错误的数据，并将错误数据反馈给数据分析师。

在第一文本分词模块将原始文本分割和第二文本分词模块将提问文本分割的过程中，介入特有名词词典用以在通用词典分割不准的情况下，强制其分割准确；介入语言模型用以进行新词发现，整和词与词的关系，将可能分割开的字符重新拼接起来。

采用数据转译模块进行数据扩充的方法包括如下步骤：

将原始文本和提问文本转译为至少一种外国语文本；

将外国语文本数据转译为中文文本；

对转换后的中文文本进行数据的标签搜寻算法，给予转换后的文本标签的位置和类型，即可获得转译文本，

通过答案的相似度判定和关键词判定方法，决定转译后文本中的答案是否应作为原转译文本的答案。

数据分层模块通过K折交叉法将扩充后的数据集划分为训练集和验证集。

第一模型训练模块进行训练的过程中采用双向指针，以头指针代表答案的起始位置，尾指针代表答案的结束位置，二者的损失函数和作为最终损失函数；

在是否问题和未找到答案回答中，使用单独的损失映射函数进行损失值表示，在训练过程中跟随训练；

最后基于反向传播进行神经网络模型的参数更新；其中对损失函数、学习率以网格搜索的方式进行最优参数搜寻。

当提问文本中涉及到法条数据时，采用法条推送系统对提问文本进行数据处理，输出对应法条，包括如下步骤：

导入法条词典，作为知识数据库；通过第二模型训练模块对输入文本信息进行训练；

对提问文本预处理生成正则语句，搜索正则语句对应的法条类，输出对应法条；

对提问文本预处理提取提问文本中的关键词对，搜索关键词对对应的法条类，输出对应法条，其中关键词以人为给定、高频词、统计发掘方式寻找并定期更新；

对输出问题进行意图分类，并提出知识库对应的意图问题集，进行相似度搜索，并对意图问题集进行排序输出，用户可以根据交互系统进行对应问题的详细咨询。

第二模型训练模块对输入文本信息进行训练包括如下步骤：

对训练数据和对应的分词结果进行TF-IDF计算并降序配列；

对每句增加句内TF-IDF值的n个词；

对所有句进行搜索，若存在具备同词同序冲突句，则继续增加下一词，直到不具备冲突，输出所有法条对应的规则。

一种基于机器阅读理解的智能问答交互系统，包括有阅读理解系统和法条推送系统，法条推送系统用于给阅读理解系统中提出的问题涉及到的法条提供法条背景；

读理解系统包括有：

第一文本分词模块，将原始文本分割为以词、字为单位的序列；

统计挖掘模块，对序列的字输出或词输出进行调整；

数据转译模块，对原始文本进行转移进而扩充数据量规模；

数据分层模块，将数据划分为训练集和验证集；

向量表征模块，对字输出和词输出以向量方式表示；

第一模型训练模块，采用神经网络模型对输出向量进行训练，进而反向指导神经网络模型进行参数更新；

统计规则挖掘模块，整理神经网络模型预测错误的数据，并对错误数据进行初步筛选；

法条推送系统包括有：

第二文本分词模块，将提问文本分割为以词、字为单位的序列；

新词发现模块，对输出的系列进行n-gram建模，对分词结果重组得到未在词典的生僻或专业化词的分词；

第二模型训练模块，对训练数据和对应的分词结果进行TF-IDF计算并降序配列，输出所有法条对应的规则。

本发明的有益效果：（1）本发明设计的阅读理解模型除了可以处理有无问题，还增加了三种额外的预测结果，包括是否以及是否可回答，其中是否可回答针对的是，对于给定的问题，其答案不能在文本中找到的情况；（2）可自动根据转译功能进行数据扩充，并在训练过程中通过模型融合进行模型增强，减小数据获取成本；（3）基于统计模型的规则检测，可以在模型测试阶段，将同意但不同词映射为同一词，进而优化模型训练；（4）在法条推送系统中，可以生成互斥的规则模式，通过对输入问题进行规则匹配，从而返回对应的答案，这种方式可完全不依靠人为给定知识，自我进行信息发掘；（5）采用新词发掘、词性匹配、模型融合、数据增强等算法来扩充识别类别，既能解决无规则模式的新增要素的数据获取问题，减少人工标注成本，又能解决直接在已有模型上增加具备规则模式的新增要素使其作为新优化模型，缩短业务实施时间。

具体实施方式

为使本发明的目的、技术方案以及优点更加清楚明白，下面结合实施例对本发明作进一步详细说明，应当理解的是，此处所描述的具体实施方式仅是本发明的一种最佳实施例，仅用以解释本发明，并不限定本发明的保护范围，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：一种基于机器阅读理解的智能问答交互方法，包括如下步骤：

将原始文本和提问文本分别输入到阅读理解系统和法条推送系统；原始文本和提问文本均为默认为中文文本，若含有外国语需通过转译器转换成中文；例如原始文本内容

对输入的原始文本和提问文本进行预处理；对输入的原始文本和提问文本进行预处理包括如下步骤：

通过分词模块，将每篇文本分割为以词、字为单位的序列，便于后序进行特征量化和统计规则发掘；在第一文本分词模块将原始文本分割和第二文本分词模块将提问文本分割的过程中，介入特有名词词典用以在通用词典分割不准的情况下，强制其分割准确；介入语言模型用以进行新词发现，整和词与词的关系，将可能分割开的字符重新拼接起来。

例如：输入：被告刘某负责汶上分公司经营管理工作

词输出：被告 / 刘某 / 负责 / 汶 / 上 / 分公司 / 经营 / 管理 / 工作；

字输出：被/告/刘/某/负/责/汶/上/分/公/司/经/营/管/理/工/作；

在词输出结果中，系统的语言模型将介入，负责新词发现，整和词与词的关系，提高分词的准确度，从而输出变为

词输出：被告 / 刘某 / 负责 / 汶上分公司 / 经营 / 管理 / 工作。

基于历史信息分析的统计挖掘模块将通过词替换、字替换、调整顺序、正则发掘的方式，对序列的字输出、词输出进行调整。如统计挖掘模型认为，将“%”换成“百分之”、将会大概率提高数据训练的准确度；

例如：输入：按 / 每月 / 2% / 支付 / 利息；

输出：按 / 每月 / 百分之二 / 支付 / 利息。

采用数据转译模块对原始文本和提问文本进行数据扩充；包括如下步骤：

将原始文本和提问文本转译为至少一种外国语文本；

将外国语文本数据转译为中文文本；

数据转译模型将原始的文本通过翻译接口转换成其他语言（一般为英语），然后再转换成中文，对转换后的文本进行数据的标签搜寻算法，给予转换后的文本标签的位置和类型，即可获得转译文本，从而扩充数据量，这个模块对源数据量小的情况下提升效果明显，也可通过用户指定是否使用；

例如：输入文本：被告刘某负责汶上分公司经营管理工作

输入问题：汶上分公司负责人是谁

输出答案：（刘某，2，4）

转译问题：汶上分公司由被告刘某负责经营管理工作

输出答案：（刘某，8，10）。

将扩充后的数据经过数据分层模块划分为训练集和验证集；数据分层将数据划分比例，一部分用于模型训练，一部分用于搜索最优参数；系统以K折交叉法对数据集进行划分。

通过上述流程，可以得到每篇文本的分词结果，包括词输出和字输出，向量表征模块对这些输出以向量方式进行表示。系统通过流（pipeline）方式进行向量的输出，即通过给定参数指定需要哪些方式进行量化，以及最后的特征将以哪种方式进行拼接。系统内置了最具代表性的集中向量输出方式，如ngram、word2vec、fasttext、bert等。如指定使用fasttext和bert，对每个词得到300维的向量、每句话得到768维向量。向量的拼接主要针对多pipeline进行向量表征的情况下，通过线性、非线性的方式，将所有的向量进行融合，并输入到后续的模型上。例如：

词输出：被告 / 刘某 / 负责 / 汶上分公司 / 经营 / 管理 / 工作；

以word2vec的词向量输出：维度为（7，300）的向量；

以embedding的字向量输出：维度为（17，300）的向量；

以bert的句向量输出：维度为（1，768）的向量；

系统默认对字词使用对齐（lattice）的算法进行拼接；

对齐输出：（ stack，ndim），其中stack、ndim为神经网络的参数，可通过用户指定，默认分别为12，200；

最后，对一篇共有N个句子的输入文本，将会到的维度为（stack，ndim）的向量表征。

将向量表征模块输出的向量数据导入第一模型训练模块进行训练；第一模型训练模块进行训练的过程中采用双向指针，以头指针代表答案的起始位置，尾指针代表答案的结束位置，二者的损失函数和作为最终损失函数；

最后基于反向传播进行神经网络模型的参数更新；其中对损失函数、学习率以网格搜索的方式进行最优参数搜寻；

设学习率为r1, r2, r3，损失函数为l1, l2, l3

模型训练将以9种方式进行完整的K折交叉验证方式训练，并选出在验证集上损失值最小、准确率最高的模型和对应参数作为输出模型；

模型输出的训练集中各问题对应的答案，其中，包括答案的开始和结束位置、以及位于文本中的开始和结束位置的概率；

对输入向量，模型接受上述的最后4个stack向量，假设维度为（batch，4，300），模型结构自底向上依次包含问题注意力层（context-to-query attention）、结果注意力层（context-to-answer attention）、以及概率输出层（query-answer）。概率输出层输出（问题-文档句-答案类型）的概率矩阵sim，并取概率最大值作为该问题的对应答案、答案类型、答案位置的结果，概率矩阵sim通过损失函数计算损失，使用bleu、rough的评价指标进行效果评测；

对训练数据达到最低损失和最高准确率的模型，将使用相同参数进行所有数据的最终训练，并作为输出模型。

第一模型训练模块输出预测结果；通过统计规则挖掘模块筛选出预测结果错误的数据，通过类型图表展示、高频词输出、问题集的唯一正则发掘等方式进行初步筛选，并将结果反馈给数据分析师进行后续处理；

例如：统计挖掘模型认为存在对问题”负责人是谁”可以采用正则“被告\w{1,3}负责”直接输出结果；

或错误样本中存在“投保人”的高频词。

当提问文本中涉及到法条数据时，采用法条推送系统对提问文本进行数据处理，输出对应法条，法条推送是针对用户在阅读理解系统中提出问题后，获得的（问题-结果）可能具备法条背景，因此可以主动推送相关法条，提升使用体验，包括如下步骤：

导入法条词典，作为知识数据库；通过第二模型训练模块对输入文本信息进行训练；第二模型训练模块对输入文本信息进行训练包括如下步骤：

对训练数据和对应的分词结果进行TF-IDF计算并降序配列；

对每句增加句内TF-IDF值的n个词；

对提问文本预处理生成正则语句，搜索正则语句对应的法条类，输出对应法条；首先以正则的方式进行搜索，知识数据库存在互斥的（问题正则句-法条）层级模块，该模块通过训练方式得到；

例如：对于问题：我在公司下班的时候受伤了要做什么鉴定；

库里存在正则语句：(公司).*(下班) .* (受伤) .* (要) .* (做) .* (什么) .*(鉴定)；

正则语句对应法条类：工伤鉴定-工伤鉴定

对应输出法条：您好,建议您做完工伤认定后,应该尽快去做劳动能力鉴定,劳动能力鉴定是对伤残等级及护理依赖等的鉴定,是确定赔偿金额的重要依据。

例如对于问题：协议离婚流程是什么。

关键词对：（协议-离婚-流程）

对应法条类：离婚流程-协议离婚

对应输出法条：协议离婚需要夫妻双方本人共同、亲自到婚姻登记机关办理离婚手续。

对输出问题进行意图分类，并提出知识库对应的意图问题集，进行相似度搜索，并对意图问题集进行排序输出，用户可以根据交互系统进行对应问题的详细咨询；

例如对于问题：我要离婚；

输出意图：离婚；

知识库意图问题集前3排序: 1) 离婚流程2)法院提起离婚 3) 离婚公开审理

输出排序结果后，用户可以进一步进行交互操作，即重复a),b)流程。

读理解系统包括有：

统计挖掘模块，对序列的字输出或词输出进行调整；

数据转译模块，对原始文本进行转移进而扩充数据量规模；

数据分层模块，将数据划分为训练集和验证集；

向量表征模块，对字输出和词输出以向量方式表示；

法条推送系统包括有：

以上所述之具体实施方式为本发明一种基于机器阅读理解的智能问答交互方法及系统的较佳实施方式，并非以此限定本发明的具体实施范围，本发明的范围包括并不限于本具体实施方式，凡依照本发明之形状、结构所作的等效变化均在本发明的保护范围内。

Claims

1.一种基于机器阅读理解的智能问答交互方法，其特征在于：包括如下步骤：

将原始文本和提问文本分别输入到阅读理解系统和法条推送系统；

对输入的原始文本和提问文本进行预处理；

将预处理后的文本输入到模型训练模块中进行训练；

输出预测结果。

2.根据权利要求1所述的一种基于机器阅读理解的智能问答交互方法，其特征在于：对输入的原始文本和提问文本进行预处理包括如下步骤：

采用数据转译模块对原始文本和提问文本进行数据扩充；

将扩充后的数据经过数据分层模块划分为训练集和验证集；

第一模型训练模块输出预测结果；

3.根据权利要求2所述的一种基于机器阅读理解的智能问答交互方法，其特征在于：

4.根据权利要求2所述的一种基于机器阅读理解的智能问答交互方法，其特征在于：

采用数据转译模块进行数据扩充的方法包括如下步骤：

将原始文本和提问文本转译为至少一种外国语文本；

将外国语文本数据转译为中文文本；

5.根据权利要求2所述的一种基于机器阅读理解的智能问答交互方法，其特征在于：数据分层模块通过K折交叉法将扩充后的数据集划分为训练集和验证集。

6.根据权利要求2所述的一种基于机器阅读理解的智能问答交互方法，其特征在于：

7.根据权利要求2或3或4或5或6所述的一种基于机器阅读理解的智能问答交互方法，其特征在于：当提问文本中涉及到法条数据时，采用法条推送系统对提问文本进行数据处理，输出对应法条，包括如下步骤：

8.根据权利要求7所述的一种基于机器阅读理解的智能问答交互方法，其特征在于：

第二模型训练模块对输入文本信息进行训练包括如下步骤：

对训练数据和对应的分词结果进行TF-IDF计算并降序配列；

对每句增加句内TF-IDF值的n个词；

9.一种基于机器阅读理解的智能问答交互系统，其特征在于，包括有阅读理解系统和法条推送系统，法条推送系统用于给阅读理解系统中提出的问题涉及到的法条提供法条背景；

读理解系统包括有：

统计挖掘模块，对序列的字输出或词输出进行调整；

数据转译模块，对原始文本进行转移进而扩充数据量规模；

数据分层模块，将数据划分为训练集和验证集；

向量表征模块，对字输出和词输出以向量方式表示；

法条推送系统包括有：