CN114020862A

CN114020862A - 一种面向煤矿安全规程的检索式智能问答系统及方法

Info

Publication number: CN114020862A
Application number: CN202111301692.XA
Authority: CN
Inventors: 刘鹏; 舒雅; 刘兵; 张国圆; 杨文嘉; 王莹; 余钱坤; 曹新晨; 程浩然
Original assignee: China University of Mining and Technology CUMT
Current assignee: China University of Mining and Technology CUMT
Priority date: 2021-11-04
Filing date: 2021-11-04
Publication date: 2022-02-08
Anticipated expiration: 2041-11-04
Also published as: CN114020862B

Abstract

本发明涉及一种面向煤矿安全规程的检索式智能问答系统及方法，适用于煤矿数据信息化领域。包括候选文档检索模块、问答对数据生成和管理模块和阅读理解式答案抽取模块，其中候选文档检索模块分别与问答对数据生成和管理模块和阅读理解式答案抽取模块连接，问答对数据生成和管理模块与阅读理解式答案抽取模块连接；其中候选文档检索模块包括文档存储和管理子模块和检索子模块。整个系统简单，使用方便，时间和空间开销低，整体实现用户与系统在字词、语义级别上的信息交互，实现面向煤矿安全规程的用户自然语言问题答案自动生成。

Description

一种面向煤矿安全规程的检索式智能问答系统及方法

技术领域

本发明涉及一种检索式智能问答系统及方法，尤其适用于煤矿数据信息化领域使用的一种面向煤矿安全规程的检索式智能问答系统及方法。

技术背景

随着互联网的飞速发展、信息化的不断深入，矿山从业人员可以在线搜集各类有关煤矿安全生产的法律法规，学习煤炭生产和煤矿建设活动规范，但这类非结构化数据具有规模较大、利用率低、准确信息检索效率低等特点，为了解决此类问题诞生了自动问答系统。相较于搜索引擎，自动问答系统能更好地理解用户提出的自然语言问题，进一步更有效地满足用户的信息需求，是可结合多种NLP技术的综合性应用，也是一种新兴的信息检索方式。

目前关于智能问答的研究主要聚焦于基于知识图谱和面向机器阅读理解两类方法。基于煤矿领域的知识图谱研究属于刚起步阶段，如在构建煤矿科学知识图谱的基础上，利用机器学习对问答进行研究，联合实体及关系链接，基本实现基于煤矿科学的KBQA系统。基于机器阅读理解的自动问答，是指针对给定的一段文本描述和对应的一个问题序列，计算机通过阅读文本描述和问题后，给出对应序列的答案，其研究在问答系统的发展历程中具有重要的意义。当前关于煤矿专业领域的问答系统更多基于结构化知识库，基于阅读理解技术的研究尚未可见。针对当前众多非结构化文本煤矿安全规程语料，搭建基于机器阅读理解的智能问答系统需要解决的关键问题是如何高效率找到问题的相关候选文档以及如何实现文档和问题序列的联合理解。

发明内容

针对现有技术的不足之处，提供一种系统简单，使用方便，时间和空间开销低，整体实现用户与系统在字词、语义级别上的信息交互的面向煤矿安全规程的检索式智能问答系统及方法。

为实现上述技术目的，本发明的一种面向煤矿安全规程的检索式智能问答系统，它包括候选文档检索模块、问答对数据生成和管理模块和阅读理解式答案抽取模块，其中候选文档检索模块分别与问答对数据生成和管理模块和阅读理解式答案抽取模块连接，问答对数据生成和管理模块与阅读理解式答案抽取模块连接；其中候选文档检索模块包括文档存储和管理子模块和检索子模块；

候选文档检索模块：用于实现煤矿安全规程文档集合的存储，然后根据用户在线提出的问题，进行问题-候选文档信息检索；

文档存储和管理子模块：使用非结构化数据库存储煤矿安全规程文档集合，文档的划分遵循问答对数据生成和管理模块的划分原则，映射创建过程包括中文分词、去停用词和建立倒排索引，后续有规程文档需要扩充时，直接在已创建的映射上导入文本数据；

检索子模块用于得到与问题匹配度最高的目标文档，使用组合查询方式在文档集合中进行全文搜索，返回相关度得分高的前N篇文档，即实现候选文档的信息检索；

问答对数据生成和管理模块：用于构建煤矿安全规程问答数据集，并将问答数据集生成阅读理解式问答模型的训练数据集；

其中问答对生成模型结合BERT和UNILM生成解码器-编码器结构，利用BERT编码预训练权重做初始化，借助预训练语言模型BERT的特征表达能力，辅助加快问答对生成模型的收敛；利用BERT在深程度上的语句甚至篇章层面的语义信息加快问答对生成模型自身的收敛；同时在BERT进行下游任务微调训练阶段，使用UNILM中序列到序列语言模型的注意力矩阵Attention Mask进行掩盖优化训练，赋予问答对生成模型文本生成能力；结合 UNILM进行掩盖优化训练，赋予问答对生成模型文本生成能力；问答对生成模型输入是输入序列的三种向量之和，三种向量分别为词向量，句段向量和位置向量，内部Transformer 结构编码器采用双向编码，直接通过全注意力机制获取高注意力分配的词汇信息作为待提问的内容，即问题答案，然后再作为信息输入解码部分，此解码器负责根据融合了全文信息的文档的特征向量用E、问题答案和已生成问题序列进行单向解码生成目标问题序列；通过该模型生成的数据的特色主要是首先保证问题答案来源于现有文档，为煤安规程中重要信息点，且呈现出问题—答案—文档一一对应关系，保障将其加入问答数据集的可行性和可靠性；

阅读理解式答案抽取模块：用于基于高层语义特征层面判断候选文档是否包含问题答案，且实现精准回答方式，在文档中抽取准确的答案，具体包括阅读理解式问答模型的设计、训练和预测；

一种使用权利要求1所述面向煤矿安全规程的检索式智能问答系统的问答方法：首先构建煤矿安全规程问答数据集，然后设计机器识别使用的阅读理解式问答模型，利用煤矿安全规程问答数据集训练阅读理解式问答模型，最后进行问题-候选文档信息检索，经过训练后的答案抽取模型获取问题答案；

具体步骤如下：

步骤一、首先构建煤矿安全规程问答数据集：

a1从网络中有针对性的收集和整理自由文本格式的煤矿安全规范资料；

a2分析收集的煤矿安全规范资料的非结构化文本数据风格以及内容特色，定义煤矿安全问题的类型，手工设计煤矿安全生产规程问答对；

a3使用预训练语言技术构建seq2seq框架的问题答案对自动生成模型，然后运用手工设计的问答对问题答案对自动生成模型训练，加以质量检测，辅助完成煤矿安全规程问答数据集的构建；

步骤二、设计阅读理解式问答模型，阅读理解式问答模型分为预训练模型适应性输入层和模型主体框架层两部分：

b1采用预训练+微调设计阅读理解式问答模型的输入层部分，使用BERT进行篇章、问题、答案的联合编码，向阅读理解式问答模型输入为篇章、问题和答案信息并进行拼接，两两中间使用特殊标记SEP隔开，用0标记篇章和问题的句段向量Segment ids,用1标记答案，用以适应预训练模型BERT对句子对的训练，挖掘篇章和问题之间的语义和结构交互信息；

b2设计阅读理解式问答模型主体框架层部分，采用seq2seq序列生成框架，与问答对数据生成和管理模块中的问答对生成模型相同，使用基于Transformer的双向编码器BERT，针对b1部分输入层的输入文本进行编码，BERT自带自注意力机制获得到上下文相关向量E，通过seq2seq序列输入部分作为解码部分，解码部分的目标是估计条件概率： p(y₁，…，y_T1|x₁，…，x_T)，其中x表示阅读理解式问答模型的篇章和问题输入，式中T表示输入序列的长度，T¹表示输出序列的长度，根据输入序列x来生成最可能的目标序列即问题序列，具体的生成过程通过束搜索beamsearch算法完成，采用单向LM的方式解码，y_i的生成基于上下文相关的向量表示以及已解码部分，即y₁，…，y_i-1的信息，具体公式为

式中的p表示概率(probability)，不用特意解释含义,其中每一个字符的预测p(y_i|E，y₁，…，y_i-1)都用词汇表中所有单词的Softmax值来表示，从而在既保证正常工作的情况下减少内存和显存的占用，降低计算的资源消耗，同时避免答案在文档中不连续的问题；

为了适应单向解码方式，候选文档检索模块根据用户问题检索返回多篇候选文档情景在使用beamsearch算法实现目标序列生成时，使用概率值平均方案选择答案；

步骤三、将步骤一构建的数据集导入阅读理解式问答模型进行训练，训练中的学习法则采用交叉熵作为损失函数，使用自适应学习率Adam优化器进行训练，采用1e-5的初始学习率，依据训练结果不断依据损失函数结果通过反向梯度下降调整阅读理解式问答模型参数值，直至阅读理解式问答模型训练完毕；

步骤四、问题-候选文档信息检索，使用非结构化数据库存储煤矿安全规程文档集合，对用户给定的自然语言提问问题，使用组合查询方式在文档集合中进行全文搜索，返回相关度得分高的文档，即实现候选文档的信息检索；

步骤五、获取问题答案部分：将用户自然语言提问问题和步骤四得到的候选文档输入训练好的阅读理解式问答模型，将判断候选文档是否包含问题答案，包含问题答案就返回精准答案，不包含则返回候选文档以作参考。

步骤一中使用人工设计煤矿安全生产规程问答对的问题是涉及时间、人物、地点、组织机构、温度、年限、行为准则和奖惩力度八大定向问题，数据存储格式为JSON格式。

问题答案对自动生成模型采用“BERT+UNILM”的方案，UNILM通过seq2seqLM训练目标的融入，即掩码方式Mask矩阵的设计，提供用单个BERT完成seq2seq任务的思路，且直接调用BERT预训练权重，充分利用BERT在较深程度上的语句甚至篇章层面的语义信息，且有利于加快收敛；序列生成过程中，先生成答案，后联合原文和答案的编码进行信息交互从而解码生成问题，将问答对生成任务形式化为：

式中，A表示答案Answer，Q表示问题Question，P表示条件概率，argmax_(A，Q)P(A,Q|Passage) 表示使概率值P(A,Q|Passage))最大时，A，Q的取值，模型后续连接Dropout层和全连接层，加Softmax计算最大概率问题序列。

阅读理解式问答模型的答案选择策略为：根据每一个候选文档与问题的交互信息，各自计算第一个字的概率分布，p(y₁|E)＝Softmax(Linear(H))，Linear表示全连接层，H为经过深层次编码后的输出特征，使用Softmax函数可以计算得到所有词表中的词作为第一个字的概率；若其第一个字预测就出现[SEP]，表示其不含答案，直接排除不含答案的相应文档；

排除不包含答案文档后，将剩下的篇章的第一个字的概率分布取平均，然后保留top-K(top-K＝1)，随后预测下一个字，每个篇章与top-K个候选值分别组合，预测各自的第二个字的概率分布，然后再按照篇章将概率平均后，再给出top-K预测值，依此类推进行逐字预测，直到出现结束符[SEP]。

煤矿安全规程文档集合的存储采用Elasticsearch数据库，其存储和查询方式具体如下：

设计Object类型的字段'statute'和'content'，'statute'包含'part-id'、'part-name'、'chapter-id'、 'chapter-name'、'section-id'、'section-name'、'article-name'七个字段存储章节信息和名称，具体条例内容部分存储在'content'字段中，所有type为'text'的字段在创建映射结构时采用 ik_max_word中文分词器，对文本进行最细粒度的拆分；

使用bool实现复合查询和过滤查询，其中包含两个子句，子句分别为：multi_match多字段匹配，该子句匹配'statute'字段下的七个字段，另一个子句采用模糊查询match，用于匹配文本内容字段'content'，匹配算法采用BM25算法。

有益效果：

1)针对煤矿安全领域缺乏规范性的面向阅读理解式问答任务的数据集这一问题，提供了初步的解决思路，构建了小规模煤矿安全规程问答数据集，其结合了预训练语言技术的问题自动生成模型可以在类似煤安规程语料中达到50％的准确率，即生成语法正确、语义健全的自然语言问题。

2)使用基于预训练BERT的中文语言模型对篇章原文进行分词、编码，取编码层的输出向量作为篇章语义表示，其中直接调用中文BERT的预训练权重，使得模型直接继承BERT 良好的语义理解，在有限的训练数据下更快收敛，故而相比较于用其他模型做seq2seq任务效果更好。

3)候选文档检索模块使用基于BM25算法的检索技术，算法复杂度低，简单易用，可满足较高的召回率，初步定位答案候选文档，有效降低后续答案抽取模块模型训练和预测的时空开销。

附图说明

图1为本发明面向煤矿安全规程的检索式智能问答系统的检索式智能问答系统流程示意图；

图2为本发明的煤矿安全规程问答数据集结构示意图；

图3为本发明的问答对数据生成模块使用UNILM做seq2seq模型示意图；

图4为本发明的候选文档检索模块的流程示意图；

图5为本发明的阅读理解式问答模型架构图。

具体实施方式

下面结合附图对本发明的具体实施例做进一步说明。

如图1所示，本发明实现一种面向煤矿安全规程的检索式智能问答系统，由问答对数据生成和管理模块，候选文档检索模块，阅读理解式答案抽取模块构成，其中，所述问答对数据生成和管理模块，构建煤矿安全规程问答数据集；所述候选文档检索模块，首先实现煤矿安全规程文档集合的存储，然后根据用户在线提出的问题，进行问题-候选文档信息检索；所述阅读理解式答案抽取模块，完成阅读理解式问答模型的设计，以及利用构建的数据集进行模型训练，最后利用训练完的模型参数预测问题的答案。

上述各模块的具体实现过程如下：

1.问答对数据生成和管理模块

问答对数据生成和管理模块是系统的基础组件之一，主要功能是构建煤矿安全规程问答数据集，包括三个阶段：

a1从网络中有针对性的收集和整理自由文本式煤矿安全规范资料，主要选取的煤矿安全规范资料为新版《煤矿安全规程》、《煤矿安全生产管理制度》和《煤矿各岗位工种岗位描述》；

数据预处理。进行一定的数据分析和文档整理，将表格转化为与上下文相似风格的文字描述，即用词规范，指代清晰明确，简洁干练，避免表格数据缺失；按照章节间文本内容关联度，进行文档数据划分；

a2分析收集的煤矿安全生产规程的非结构化文本数据风格以及内容特色，定义煤矿安全生产问题的类型，手工设计涉及时间、人物、地点、行为准则、规范要求和奖惩力度等定向问题的煤矿安全规程问答对，数据存储格式为JSON格式；

a3使用预训练语言技术构建seq2seq框架的问题答案对自动生成模型，后运用手工设计的问答对做模型训练，加以质量检测，辅助完成煤矿安全规程问答数据集的构建，数据集结构如图2所示。问题答案对自动生成模型采用“BERT+UNILM”的方案，UMILM通过seq2seq LM 训练目标的融入，即掩码方式Mask矩阵的设计，提供用单个BERT完成seq2seq任务的思路，且直接调用BERT预训练权重，充分利用BERT在较深程度上的语句甚至篇章层面的语义信息，且有利于加快收敛；序列生成过程中，先生成答案，后联合原文和答案的编码进行信息交互从而解码生成问题，将问答对生成任务形式化为：

其中，Passage是给定的一个长度为m的篇章即Passage＝{w₁,...,w_m}，此处为检索获取的与问题相关的答案候选文档，抽取实体作为答案

然后结合答案的特征向量输入，通过信息交互层，调用UNILM的Attention Mask，即输入部分的注意力Attention双向，输出部分 Attention单向，从而联合输入的全文信息和输出的前缀序列进行从左至右的单词预测，赋予模型自动生成文本的能力，此处使用UNILM做seq2seq模型示意图为图3所示。

模型预测的具体路线为：

采用全连接层和Softmax计算下一个作为预测答案输出的内容的归一化概率，从最高概率中随机采样，然后将其与原文语义编码拼接，通过全连接层和Softmax分类器，其中Softmax 接受历史信息即篇章和预测答案的向量表示，输出为词表中每个词的后验概率，其中序列顺序性生成采用启发式搜索算法beam search进行确定性解码，得到当前概率最高的序列，作为当前最优解码序列即与答案和上下文信息最相关的问题

返回。

数据集整合。针对自动生成的问题答案对进行初步筛选，与步骤a2手工设计的数据整合为问答语料，具体数据情况见下表：

2.候选文档检索模块

候选文档检索模块分为文档存储和管理子模块和检索子模块。具体流程图如图4所示：

(1)文档存储和管理子模块

使用非结构化数据库Elasticsearch存储煤矿安全规程文档集合，文档的划分遵循问答对数据生成和管理模块的划分原则，其存储方式为：

设计Object类型的字段'statute'和'content'，'statute'包含'part-id'、'part-name'、'chapter-id'、 'chapter-name'、'section-id'、'section-name'、'article-name'七个字段存储章节信息和名称，具体条例内容部分存储在'content'字段中，使用bulkAPI批量插入整理完备的煤矿安全规程文本数据，针对煤矿安全语料，所有type为'text'的字段在创建映射结构时采用ik_max_word中文分词器，会对文本进行最细粒度的拆分。

映射创建过程包括中文分词、去停用词和建立倒排索引。

后续有规程文档需要扩充时，直接在已创建的映射上导入文本数据。

(2)检索子模块

该模块旨在得到与问题匹配度最高的目标文档，使用组合查询方式在文档集合中进行全文搜索，返回相关度得分高的文档，即实现候选文档的信息检索。

使用bool实现复合查询和过滤查询，其中包含两个子句，子句分别为：multi_match多字段匹配，该子句匹配'statute'字段下的七个字段，另一个子句采用模糊查询match，用于匹配文本内容字段'content'，其中，一般章节名称富含高质量的语义信息，multi_match子句的权重 boost适当较高，匹配算法均采用BM25算法。

BM25算法是一种评价搜索词与文档之间相关性的经典算法。算法对问题进行切分，计算每个词与文档的相关度，加权后得到问题与文档相关度。词与文档的相关度主要由单词权重，单词和文档相关性两部分衡量。

复合查询后，计算综合分数，返回前三条高分的相关文档，检索问答流程结束，算法简单，问答响应快速。

3.阅读理解式答案抽取模块

阅读理解式答案抽取模块承接在候选文档检索模块之后，用于基于高层语义特征层面判断候选文档是否包含问题答案，且实现精准回答方式，在文档中抽取准确的答案，该模块包括阅读理解式问答模型的设计、训练和预测。

(1)阅读理解式问答模型的设计

模型架构如图5所示，分为预训练模型适应性输入层和模型主体框架层的设计2部分：

b1采用“预训练+微调”思路设计模型输入层部分，使用BERT进行“篇章、问题、答案”的联合编码，模型输入是输入序列的三种向量之和，词向量Token ids，句段向量Segment ids 和位置向量Position ids。在Token ids中，使用特殊标记SEP隔开，用0标记篇章和问题的 Segment ids,用1标记答案，用以适应预训练模型BERT对句子对的训练，挖掘篇章和问题之间的语义和结构交互信息。

b2模型主体框架层设计部分，选择框架为seq2seq序列生成框架，聚焦于微调部分编码层的设计，使用基于Transformer的双向编码器BERT，得到向量表示，解码部分的目标是估计条件概率，根据输入序列x来生成最可能的目标序列即问题序列，输出层单个词的预测采用Softmax计算每个词的后验概率，序列的具体生成过程通过束搜索beam search算法完成，采用单向LM的方式解码，是生成式和抽取式的折中方案，相比于BERT中原始指针网络Pointer Network设计三个分类器，能保证在更低的内存和显存占用下完成模型的训练，同时避免答案在文档中不连续的问题；

为适应解码方式和多篇候选文档情景，阅读理解式问答解码层的答案选择策略为：

首先将候选文档分别与问题拼接，各自计算第一个字的概率分布，若其第一个字预测就出现[SEP]，表示其不含答案，直接排除相应文档；

排除不包含答案文档后，将剩下的篇章的第一个字的概率分布取平均，然后保留top-K(top-K＝1)。随后预测下一个字，每个篇章与top-K个候选值分别组合，预测各自的第二个字的概率分布，然后再按照篇章将概率平均后，再给出top-K预测值。依此类推，直到出现结束符[SEP]。

(2)阅读理解式问答模型的训练

在模型搭建完毕的基础上将问答对数据生成和管理模块构建的数据集导入模型，采用交叉熵作为损失函数，使用Adam优化器进行训练，用1e-5的学习率，依据训练结果不断调整问答模型参数，直至模型训练完毕，其中调整问答模型的最优超参数，设置如下：可处理最长文本长度为512，问题最长长度为64，答案最长长度为128；Epochs为10，Batch_size为4， Dropout参数为0.1。

模型性能的测试指标为BLEU，BLEU是一种衡量模型生成序列和参考序列之间的N元词组重合度的算法，训练过程中，依据每轮模型训练的BLEU值和损失值的变化情况，观察模型训练效果，如果模型准确率维持稳定，则模型停止训练，同时多次调整超参数值以寻找模型性能最优下的超参数，上述超参数为最优超参数值。

(3)阅读理解式问答模型的预测

阅读理解式问答模型的预测：将用户自然语言问题和候选文档检索模块返回的候选文档输入训练好的问答模型，将判断候选文档是否包含问题答案，包含问题答案就返回精准答案，不包含则返回候选文档以作参考。

Claims

1.一种面向煤矿安全规程的检索式智能问答系统，其特征在于：它包括候选文档检索模块、问答对数据生成和管理模块和阅读理解式答案抽取模块，其中候选文档检索模块分别与问答对数据生成和管理模块和阅读理解式答案抽取模块连接，问答对数据生成和管理模块与阅读理解式答案抽取模块连接；其中候选文档检索模块包括文档存储和管理子模块和检索子模块；

其中问答对生成模型结合BERT和UNILM生成解码器-编码器结构，利用BERT编码预训练权重做初始化，借助预训练语言模型BERT的特征表达能力，辅助加快问答对生成模型的收敛；利用BERT在深程度上的语句甚至篇章层面的语义信息加快问答对生成模型自身的收敛；同时在BERT进行下游任务微调训练阶段，使用UNILM中序列到序列语言模型的注意力矩阵Attention Mask进行掩盖优化训练，赋予问答对生成模型文本生成能力；结合UNILM进行掩盖优化训练，赋予问答对生成模型文本生成能力；问答对生成模型输入是输入序列的三种向量之和，三种向量分别为词向量，句段向量和位置向量，内部Transformer结构编码器采用双向编码，直接通过全注意力机制获取高注意力分配的词汇信息作为待提问的内容，即问题答案，然后再作为信息输入解码部分，此解码器负责根据融合了全文信息的文档的特征向量用E、问题答案和已生成问题序列进行单向解码生成目标问题序列；通过该模型生成的数据的特色主要是首先保证问题答案来源于现有文档，为煤安规程中重要信息点，且呈现出问题—答案—文档一一对应关系，保障将其加入问答数据集的可行性和可靠性；

阅读理解式答案抽取模块：用于基于高层语义特征层面判断候选文档是否包含问题答案，且实现精准回答方式，在文档中抽取准确的答案，具体包括阅读理解式问答模型的设计、训练和预测。

2.一种使用权利要求1所述面向煤矿安全规程的检索式智能问答系统的问答方法，其特征在于：首先构建煤矿安全规程问答数据集，然后设计机器识别使用的阅读理解式问答模型，利用煤矿安全规程问答数据集训练阅读理解式问答模型，最后进行问题-候选文档信息检索，经过训练后的答案抽取模型获取问题答案；

具体步骤如下：

步骤一、首先构建煤矿安全规程问答数据集：

b2设计阅读理解式问答模型主体框架层部分，采用seq2seq序列生成框架，与问答对数据生成和管理模块中的问答对生成模型相同，使用基于Transformer的双向编码器BERT，针对b1部分输入层的输入文本进行编码，BERT自带自注意力机制获得到上下文相关向量E，通过seq2seq序列输入部分作为解码部分，解码部分的目标是估计条件概率：

其中x表示阅读理解式问答模型的篇章和问题输入，式中T表示输入序列的长度，T¹表示输出序列的长度，根据输入序列x来生成最可能的目标序列即问题序列，具体的生成过程通过束搜索beam search算法完成，采用单向LM的方式解码，y_i的生成基于上下文相关的向量表示以及已解码部分，即y₁,…,y_i-1的信息，具体公式为

式中的p表示概率(probability)，不用特意解释含义,其中每一个字符的预测p(y_i|E,y₁,…,y_i-1)都用词汇表中所有单词的Softmax值来表示，从而在既保证正常工作的情况下减少内存和显存的占用，降低计算的资源消耗，同时避免答案在文档中不连续的问题；

为了适应单向解码方式，候选文档检索模块根据用户问题检索返回多篇候选文档情景在使用beam search算法实现目标序列生成时，使用概率值平均方案选择答案；

3.根据权利要求2所述问答方法，其特征在于：步骤一中使用人工设计煤矿安全生产规程问答对的问题是涉及时间、人物、地点、组织机构、温度、年限、行为准则和奖惩力度八大定向问题，数据存储格式为JSON格式。

4.根据权利要求2所述问答方法，其特征在于：问题答案对自动生成模型采用“BERT+UNILM”的方案，UNILM通过seq2seq LM训练目标的融入，即掩码方式Mask矩阵的设计，提供用单个BERT完成seq2seq任务的思路，且直接调用BERT预训练权重，充分利用BERT在较深程度上的语句甚至篇章层面的语义信息，且有利于加快收敛；序列生成过程中，先生成答案，后联合原文和答案的编码进行信息交互从而解码生成问题，将问答对生成任务形式化为：

式中，A表示答案Answer，Q表示问题Question，P表示条件概率，argmax_(A,Q)P(A,Q|Passage)表示使概率值P(A,Q|Passage))最大时，A，Q的取值，模型后续连接Dropout层和全连接层，加Softmax计算最大概率问题序列。

5.根据权利要求2所述问答方法，其特征在于：阅读理解式问答模型的答案选择策略为：根据每一个候选文档与问题的交互信息，各自计算第一个字的概率分布，p(y₁|E)＝Softmax(Linear(H))，Linear表示全连接层，H为经过深层次编码后的输出特征，使用Softmax函数可以计算得到所有词表中的词作为第一个字的概率；若其第一个字预测就出现[SEP]，表示其不含答案，直接排除不含答案的相应文档；

6.根据权利要求1所诉的问答方法，其特征在于：煤矿安全规程文档集合的存储采用Elasticsearch数据库，其存储和查询方式具体如下：

设计Object类型的字段'statute'和'content'，'statute'包含'part-id'、'part-name'、'chapter-id'、'chapter-name'、'section-id'、'section-name'、'article-name'七个字段存储章节信息和名称，具体条例内容部分存储在'content'字段中，所有type为'text'的字段在创建映射结构时采用ik_max_word中文分词器，对文本进行最细粒度的拆分；