CN113742468B

CN113742468B - 一种基于阅读理解的智能问答方法及系统

Info

Publication number: CN113742468B
Application number: CN202111029088.6A
Authority: CN
Inventors: 郭绍辉; 汪志成; 张顺晨; 石贇
Original assignee: Shanghai Ouye Jincheng Information Service Co ltd
Current assignee: Shanghai Ouye Jincheng Information Service Co ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2024-04-12
Anticipated expiration: 2041-09-03
Also published as: CN113742468A

Abstract

本发明提供一种基于阅读理解的智能问答方法及系统，本发明提出了基于阅读理解的智能问答的方案，设计了制度问答系统。而且，通过本发明中的多步骤进行答案的抽取，不仅能够保证答案的准确率，还能够以90％的准确率在长文本的制度文件中找到员工问题的答案，同时也能以问答的方式对制定的制度进行合规查询。所以本发明可以解决以下问题：(1)该系统能够以90％的准确率在长文本的制度文件中找到员工问题的答案；(2)在制定规章制度时，可以利用该系统查询制定的相关规章是否符合集团规定。

Description

一种基于阅读理解的智能问答方法及系统

技术领域

本发明涉及自然语言技术领域，特别是涉及一种基于阅读理解的智能问答方法及系统。

背景技术

随着经济的发展，目前部分集团公司的规模不断扩大，导致一个集团公司可能拥有多家子公司。而部分集团公司可能会让子公司的规章制度依照集团母公司的制度进行制定。子公司为了能够合规制定制度文件，需要不断和集团母公司相关部门进行沟通，导致子公司在制定文件时，效率较低。同时，随着制度的更新，员工需要了解和学习相关规定和申请业务流程。但由于制度规定较为繁琐，员工很难在第一时间找到相关文件和规定。并且，现有的自然语言处理技术对于长文本文件的问答并不能解决上述问题。

发明内容

鉴于以上所述现有技术的缺点及问题，本发明的目的在于提供一种基于阅读理解的智能问答方法及系统，用于解决现有技术中存在的问题。

为实现上述目的及其他相关目的，本发明提供一种基于阅读理解的智能问答方法，包括以下步骤：

获取历年制度文件，并以电子问卷的方式，收集员工对集团母公司历年制度文件所产生的问题，以及收集集团子公司在制定制度时所产生的问题，所述集团子公司属于集团母公司；

对同类问题进行问题归一化，并将多个问法且相同的问题映射为一个标准问题，以及将所述标准问题保存至标准问题库中；

根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中；所述制度文件包括：集团子公司的制度文件和集团母公司的制度文件；

对保存在目标文件中的文本内容进行标注，且在进行标注时，首先基于所收集的问题对相应段落进行标注，并在完成段落标注后，基于语义分析对无问题的段落生成问题进行标注，以及将所有的标注结果存储至标准问题库中；

利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型，所述智能问答模型可以根据用户输入的问题反馈对应的答案。

可选地，若制度文件的文件类型为word，则根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括：

利用python-docx类库中的Document方法，获取所述制度文件中的文档对象；

根据所述文档对象以及paragraphs方法对文件类型为word的制度文件进行拆解，获取文件类型为word的制度文件中的每个段落内容；

以段落为单位将拆解后的文本内容保存至content.csv文件中。

可选地，若制度文件的文件类型为pdf，则根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括：

使用pdfplumber工具以及extract_words方法按页抽取出文件类型为pdf的制度文件中的所有文字和坐标信息，并保存到list数组中；

基于list数组中的所有文本以及对应的坐标信息获取所有文本的最右坐标，判断所获取的当前文本的坐标与上一次获取的文本的坐标是否一致；若一致，则说明是当前文本与上一次获取的文本为一个段落，并将所获取的当前文本与上一次获取的文本合并为一个段落；若不一致，则将所获取的当前文本、上一次获取的文本分别作为一个段落，直至获取到所有的自然段落；

以段落为单位将获取到所有的自然段落保存至content.csv文件中。

可选地，利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型的过程包括：

将所收集的问题以及标准问题库中的段落进行拼接，并利用词表将拼接文本映射为数字；

利用spacy类库获取问题中的词性信息，所述词性信息包括利用词表将字符转为数字；

对所述拼接文本和所述词性信息进行拼接，获取融合字符信息和词性信息的表征矩阵。

可选地，利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型的过程还包括：

将所述表征矩阵、文本对应的位置编码信息、问题和文本的类型信息都输入至基于变换器的双向编码器中，利用所述双向编码器对所述表征矩阵、文本对应的位置编码信息、问题和文本的类型信息进行加权求和；

完成加权求和后，利用自注意力机制计算信息的注意力权重；

将词汇的注意力权重与信息进行乘法计算，得到注意力矩阵；

将注意力矩阵输入到归一层中，进行池化，获取编码层矩阵。

将问题和答案所对应的文本进行相同映射，分别转为问题词向量和答案词向量；

将所述问题词向量和答案词向量输入到解码器中，并经过一层线性层；

将线性层的输出和编码器的输出输入至第二层注意力机制中，让两部分的信息进行注意力权重的计算，得到两部分的关注信息；

经过全连接层得到答案生成的概率，根据所述概率获取所生成的答案信息，完成智能问答模型的训练。

可选地，利用所述智能问答模型对用户输入的问题反馈对应的答案时，还包括：

获取用户输入的问题，并使用pkuseg工具对输入的问题进行分词，提取所述问题中的关键字和实体信息，以及利用所述关键字和实体信息匹配到分数前10个的标准问题集；

对用户输入的问题进行语素解析，生成语素q_i；

对标准问题集中的每个问题D，计算每个语素q_i与每个问题D的相关性得分，并将得分最高的问题作为标准问题，有：

式中，W_i是每个语素q_i的权重，i＝1，2，…，n，n为自然数。

可选地，得到的标准问题后，还包括：

查询问题与答案关联库，对于固定问题，直接返回相关答案信息；

如果查询没有结果，则查询问题与段落关联库，且对于固定问题，直接返回相关段落信息；

如果查询仍没有结果，则需要到整个段落库中进行问题与段落的匹配，将得分最高的段落作为匹配结果，同时利用每个词的词频乘上总文件数目，并除以包含该词语的文件数目后进行加权投票计算，选择得分较高的段落进行返回；

若直接得到答案，则直接返回最后答案；如果返回为段落，则利用训练好的智能问答模型，进行答案抽取。

可选地，所收集的问题包括：申请办公用品的流程、请办公用具的流程是什么、笔用完了怎么拿到新的。

本发明还提供一种基于阅读理解的智能问答系统，包括有：

采集模块，用于获取历年制度文件，并以电子问卷的方式，收集员工对集团母公司历年制度文件所产生的问题，以及收集集团子公司在制定制度时所产生的问题，所述集团子公司属于集团母公司；

归一化模块，用于对同类问题进行问题归一化，并将多个问法且相同的问题映射为一个标准问题，以及将所述标准问题保存至标准问题库中；

段落拆解模块，用于根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中；所述制度文件包括：集团子公司的制度文件和集团母公司的制度文件；

标注模块，用于对保存在目标文件中的文本内容进行标注，且在进行标注时，首先基于所收集的问题对相应段落进行标注，并在完成段落标注后，基于语义分析对无问题的段落生成问题进行标注，以及将所有的标注结果存储至标准问题库中；

训练模块，用于利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型，所述智能问答模型可以根据用户输入的问题反馈对应的答案。

如上所述，本发明提供一种基于阅读理解的智能问答方法及系统，具有以下有益效果：

本发明首先获取历年制度文件，并以电子问卷的方式，收集员工对集团母公司历年制度文件所产生的问题，以及收集集团子公司在制定制度时所产生的问题，所述集团子公司属于集团母公司；然后对同类问题进行问题归一化，并将多个问法且相同的问题映射为一个标准问题，以及将所述标准问题保存至标准问题库中；再根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中；所述制度文件包括：集团子公司的制度文件和集团母公司的制度文件；然后对保存在目标文件中的文本内容进行标注，且在进行标注时，首先基于所收集的问题对相应段落进行标注，并在完成段落标注后，基于语义分析对无问题的段落生成问题进行标注，以及将所有的标注结果存储至标准问题库中；最后利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型，所述智能问答模型可以根据用户输入的问题反馈对应的答案。本发明提出了基于阅读理解的智能问答的技术方案，设计了制度问答方案。而且，通过本发明中的多步骤进行答案的抽取，不仅能够保证答案的准确率，还能够以90％的准确率在长文本的制度文件中找到员工问题的答案，同时也能以问答的方式对制定的制度进行合规查询。所以本发明提出了基于阅读理解的智能问答方法，设计了制度问答系统；可以解决以下问题：(1)该系统能够以90％的准确率在长文本的制度文件中找到员工问题的答案；(2)在制定规章制度时，可以利用该系统查询制定的相关规章是否符合集团规定。

附图说明

图1为一实施例提供的基于阅读理解的智能问答方法的流程示意图；

图2为一实施例提供的基于阅读理解的智能问答系统的硬件结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

请参阅图1所示，本发明提供一种基于阅读理解的智能问答方法，包括以下步骤：

S100，获取历年制度文件，并以电子问卷的方式，收集员工对集团母公司历年制度文件所产生的问题，以及收集集团子公司在制定制度时所产生的问题，所述集团子公司属于集团母公司。作为示例，所收集的问题包括：申请办公用品的流程、请办公用具的流程是什么、笔用完了怎么拿到新的。

S200，对同类问题进行问题归一化，并将多个问法且相同的问题映射为一个标准问题，以及将所述标准问题保存至标准问题库中；

S300，根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中；所述制度文件包括：集团子公司的制度文件和集团母公司的制度文件；

S400，对保存在目标文件中的文本内容进行标注，且在进行标注时，首先基于所收集的问题对相应段落进行标注，并在完成段落标注后，基于语义分析对无问题的段落生成问题进行标注，以及将所有的标注结果存储至标准问题库中；

S500，利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型，所述智能问答模型可以根据用户输入的问题反馈对应的答案。

本方法提出了基于阅读理解的智能问答的技术方案，设计了制度问答方案。而且，通过本方法中的多步骤进行答案的抽取，不仅能够保证答案的准确率，还能够以90％的准确率在长文本的制度文件中找到员工问题的答案，同时也能以问答的方式对制定的制度进行合规查询。所以本方法提出了基于阅读理解的智能问答方法，设计了制度问答系统；可以解决以下问题：(1)该系统能够以90％的准确率在长文本的制度文件中找到员工问题的答案；(2)在制定规章制度时，可以利用该系统查询制定的相关规章是否符合集团规定。

在一示例性实施例中，若制度文件的文件类型为word，则根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括：利用python-docx类库中的Document方法，获取所述制度文件中的文档对象；根据所述文档对象以及paragraphs方法对文件类型为word的制度文件进行拆解，获取文件类型为word的制度文件中的每个段落内容；以段落为单位将拆解后的文本内容保存至content.csv文件中。

在一示例性实施例中，若制度文件的文件类型为pdf，则根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括：使用pdfplumber工具以及extract_words方法按页抽取出文件类型为pdf的制度文件中的所有文字和坐标信息，并保存到list数组中；基于list数组中的所有文本以及对应的坐标信息获取所有文本的最右坐标，判断所获取的当前文本的坐标与上一次获取的文本的坐标是否一致；若一致，则说明是当前文本与上一次获取的文本为一个段落，并将所获取的当前文本与上一次获取的文本合并为一个段落；若不一致，则将所获取的当前文本、上一次获取的文本分别作为一个段落，直至获取到所有的自然段落；以段落为单位将获取到所有的自然段落保存至content.csv文件中。

在一示例性实施例中，利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型的过程包括：将所收集的问题以及标准问题库中的段落进行拼接，并利用词表将拼接文本映射为数字；利用spacy类库获取问题中的词性信息，所述词性信息包括利用词表将字符转为数字；对所述拼接文本和所述词性信息进行拼接，获取融合字符信息和词性信息的表征矩阵。以及，将所述表征矩阵、文本对应的位置编码信息、问题和文本的类型信息都输入至基于变换器的双向编码器中，利用所述双向编码器对所述表征矩阵、文本对应的位置编码信息、问题和文本的类型信息进行加权求和；完成加权求和后，利用自注意力机制计算信息的注意力权重；将词汇的注意力权重与信息进行乘法计算，得到注意力矩阵；将注意力矩阵输入到归一层中，进行池化，获取编码层矩阵。以及，将问题和答案所对应的文本进行相同映射，分别转为问题词向量和答案词向量；将所述问题词向量和答案词向量输入到解码器中，并经过一层线性层；将线性层的输出和编码器的输出输入至第二层注意力机制中，让两部分的信息进行注意力权重的计算，得到两部分的关注信息；经过全连接层得到答案生成的概率，根据所述概率获取所生成的答案信息，完成智能问答模型的训练。

根据上述记载，利用所述智能问答模型对用户输入的问题反馈对应的答案时，还包括：获取用户输入的问题，并使用pkuseg工具对输入的问题进行分词，提取所述问题中的关键字和实体信息，以及利用所述关键字和实体信息匹配到分数前10个的标准问题集；对用户输入的问题进行语素解析，生成语素q_i；

根据上述记载，在一示例性实施例中，得到的标准问题后，还包括：查询问题与答案关联库，对于固定问题，直接返回相关答案信息；如果查询没有结果，则查询问题与段落关联库，且对于固定问题，直接返回相关段落信息；如果查询仍没有结果，则需要到整个段落库中进行问题与段落的匹配，将得分最高的段落作为匹配结果，同时利用每个词的词频乘上总文件数目，并除以包含该词语的文件数目后进行加权投票计算，选择得分较高的段落进行返回；若直接得到答案，则直接返回最后答案；如果返回为段落，则利用训练好的智能问答模型，进行答案抽取。

根据上述记载，在一具体实施例中，提供了一种基于阅读理解的智能问答方法，包括有：

步骤1：将历年制度文件进行收集，首先通过以电子问卷的方式，收集员工以及制定子公司制度对集团制度可能产生的问题，如：对“申请办公用品的流程”，我们收集到的问题可能有：“请办公用具的流程是什么？”、“笔用完了怎么拿到新的？”等等问题。

步骤2：通过步骤1收集到的问题，对大量同类问题，进行问题归一化，将多个问法相同的问题映射为一个标准的问题上，并将其保存在标准问题库中。根据统计可知，对于20％的常规问题，可以直接做答案的映射，建立问题-答案库。35％的问题可以直接映射到具体的段落中，同理建立问题-段落库。

步骤3：制度文件按照段落拆解过程：段落级别粒度是文本内容最直观的展示，因此，以段落为基本单位保存文件。具体地，对于word文件而言，由于制度文件的格式以纯文字为主，可以直接利用python-docx类库中的Document方法，获取到文档对象。从步骤1得到的word文档对象，根据其中paragraphs方法获取word文件每个段落的内容。将文本内容保存到content.csv文件中。对于pdf文件而言，使用pdfplumber工具使用extract_words方法按页抽取出pdf中的所有文字和坐标信息，并保存到list数组中。由于步骤1中的方法抽取出来的文字都是零散的，基本单位是一句一行。所以需要按自然段落进行合并。根据所获取的文本坐标，找到文本的最右坐标，如果得到坐标和上一句的坐标一致说明是一个段落，如果不一致则开始新的段落，最终获取到所有的自然段落。将文本内容保存到content.csv文件中。

步骤4：将历年的制度文件按照上述步骤2的方式进行拆分，之后进行分组标注，共分为两组，第一组基于步骤1收集到的各类问题，对相应段落进行标注。第二组对暂无问题的段落，基于语义生成相关问题进行标注，同时保存到标准问题库中。两组完成之后，进行交换并检查。最终，标注的准确率达到98％以上。

步骤5：通过步骤4得到了数据，对基于阅读理解的智能问答模型进行训练。

首先将问题和段落进行拼接，利用词表将文本映射为数字，称为词嵌入。同时，利用spacy类库获取到问题中的词性信息，词性信息也可以利用词表将字符转为数字。最后将上述两部分进行拼接操作，获取融合字符信息和词性信息的表征矩阵。

编码器部分：将表征矩阵、文本对应的位置编码信息、问题和文本的类型这三类信息都输入到基于变换器的双向编码器中，编码器会将三类信息进行加权求和。融合三类信息后，会输入利用自注意力机制进行计算信息的注意力权重。获取注意力权重后，将词汇的注意力权重与信息进行乘法计算，得到注意力矩阵。再将注意力矩阵输入到归一层中，进行池化操作获取编码层矩阵。

解码器部分：将问题和文本对应的答案也做相同的映射，转为词向量。将词向量输入到解码器中，先经过一层线性层，将线性层的输出和编码器的输出都输入第二层注意力机制中，让两部分的信息进行注意力权重的计算，得到两部分都较为关注的信息。最后经过一层全连接层得到答案生成的概率，根据获取的生成的答案信息。

步骤5：模型训练好之后，对整个智能问题系统进行设计。首先获取到用户的问题，首先使用pkuseg工具对问题进行分词，提取关键字和实体信息，利用关键字和实体信息匹配到得分前10的标准问题集。同时将原问题进行语素解析，生成语素q_i；然后对标准问题集中的每个问题D，计算每个语素q_i与每个问题D的相关性得分，有：

通过这样可以得到原文题和每一个标准问题的得分，然后将得分最高的问题作为标准问题即可。

得到的标准问题后，首先查询问题与答案关联库，对于部分固定问题，可以直接返回相关答案信息。如果查询没有结果，查询问题与段落关联库，同第一步一样，如果有相关段落则可返回，为下一步查询答案做准备。如果查询仍没有结果，则需要到整个段落库中进行问题与段落的匹配，匹配方法利用BM25算法同时利用每个词的词频乘上总文件数目除以包含该词语之文件的数目进行加权投票算法，选择得分较高的段落进行返回。如果上步骤中直接得到答案，则直接返回最后答案，如果返回为段落，则利用步骤5中训练好的智能问答模型，对答案进行抽取。

综上所述，本发明提供一种基于阅读理解的智能问答方法，首先获取历年制度文件，并以电子问卷的方式，收集员工对集团母公司历年制度文件所产生的问题，以及收集集团子公司在制定制度时所产生的问题，所述集团子公司属于集团母公司；然后对同类问题进行问题归一化，并将多个问法且相同的问题映射为一个标准问题，以及将所述标准问题保存至标准问题库中；再根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中；所述制度文件包括：集团子公司的制度文件和集团母公司的制度文件；然后对保存在目标文件中的文本内容进行标注，且在进行标注时，首先基于所收集的问题对相应段落进行标注，并在完成段落标注后，基于语义分析对无问题的段落生成问题进行标注，以及将所有的标注结果存储至标准问题库中；最后利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型，所述智能问答模型可以根据用户输入的问题反馈对应的答案。本方法提出了基于阅读理解的智能问答的技术方案，设计了制度问答方案。而且，通过本方法中的多步骤进行答案的抽取，不仅能够保证答案的准确率，还能够以90％的准确率在长文本的制度文件中找到员工问题的答案，同时也能以问答的方式对制定的制度进行合规查询。所以本方法提出了基于阅读理解的智能问答方法，设计了制度问答系统；可以解决以下问题：(1)该系统能够以90％的准确率在长文本的制度文件中找到员工问题的答案；(2)在制定规章制度时，可以利用该系统查询制定的相关规章是否符合集团规定。

如图2所示，本发明还提供一种基于阅读理解的智能问答系统，包括有：

采集模块M10，用于获取历年制度文件，并以电子问卷的方式，收集员工对集团母公司历年制度文件所产生的问题，以及收集集团子公司在制定制度时所产生的问题，所述集团子公司属于集团母公司；

归一化模块M20，用于对同类问题进行问题归一化，并将多个问法且相同的问题映射为一个标准问题，以及将所述标准问题保存至标准问题库中；

段落拆解模块M30，用于根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中；所述制度文件包括：集团子公司的制度文件和集团母公司的制度文件；

标注模块M40，用于对保存在目标文件中的文本内容进行标注，且在进行标注时，首先基于所收集的问题对相应段落进行标注，并在完成段落标注后，基于语义分析对无问题的段落生成问题进行标注，以及将所有的标注结果存储至标准问题库中；

训练模块M50，用于利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型，所述智能问答模型可以根据用户输入的问题反馈对应的答案。

本系统提出了基于阅读理解的智能问答的技术方案，设计了制度问答方案。而且，通过本系统中的多步骤进行答案的抽取，不仅能够保证答案的准确率，还能够以90％的准确率在长文本的制度文件中找到员工问题的答案，同时也能以问答的方式对制定的制度进行合规查询。所以本系统提出了基于阅读理解的智能问答系统，设计了制度问答系统；可以解决以下问题：(1)该系统能够以90％的准确率在长文本的制度文件中找到员工问题的答案；(2)在制定规章制度时，可以利用该系统查询制定的相关规章是否符合集团规定。

根据上述记载，在一具体实施例中，提供了一种基于阅读理解的智能问答系统，包括有：

步骤3：制度文件按照段落拆解过程：段落级别粒度是文本内容最直观的展示，因此，以段落为基本单位保存文件。具体地，对于word文件而言，由于制度文件的格式以纯文字为主，可以直接利用python-docx类库中的Document方法，获取到文档对象。从步骤1得到的word文档对象，根据其中paragraphs方法获取word文件每个段落的内容。将文本内容保存到content.csv文件中。对于pdf文件而言，使用pdfplumber工具使用extract_words方法按页抽取出pdf中的所有文字和坐标信息，并保存到list数组中。由于步骤1中抽取出来的文字都是零散的，基本单位是一句一行。所以需要按自然段落进行合并。根据所获取的文本坐标，找到文本的最右坐标，如果得到坐标和上一句的坐标一致说明是一个段落，如果不一致则开始新的段落，最终获取到所有的自然段落。将文本内容保存到content.csv文件中。

综上所述，本发明提供一种基于阅读理解的智能问答系统，首先获取历年制度文件，并以电子问卷的方式，收集员工对集团母公司历年制度文件所产生的问题，以及收集集团子公司在制定制度时所产生的问题，所述集团子公司属于集团母公司；然后对同类问题进行问题归一化，并将多个问法且相同的问题映射为一个标准问题，以及将所述标准问题保存至标准问题库中；再根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中；所述制度文件包括：集团子公司的制度文件和集团母公司的制度文件；然后对保存在目标文件中的文本内容进行标注，且在进行标注时，首先基于所收集的问题对相应段落进行标注，并在完成段落标注后，基于语义分析对无问题的段落生成问题进行标注，以及将所有的标注结果存储至标准问题库中；最后利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型，所述智能问答模型可以根据用户输入的问题反馈对应的答案。本系统提出了基于阅读理解的智能问答的技术方案，设计了制度问答方案。而且，通过本系统中的多步骤进行答案的抽取，不仅能够保证答案的准确率，还能够以90％的准确率在长文本的制度文件中找到员工问题的答案，同时也能以问答的方式对制定的制度进行合规查询。所以本系统提出了基于阅读理解的智能问答系统，设计了制度问答系统；可以解决以下问题：(1)该系统能够以90％的准确率在长文本的制度文件中找到员工问题的答案；(2)在制定规章制度时，可以利用该系统查询制定的相关规章是否符合集团规定。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于阅读理解的智能问答方法，其特征在于，包括以下步骤：

利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型，所述智能问答模型可以根据用户输入的问题反馈对应的答案；

利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型的过程包括：将所收集的问题以及标准问题库中的段落进行拼接，并利用词表将拼接文本映射为数字；利用spacy类库获取问题中的词性信息，所述词性信息包括利用词表将字符转为数字；对所述拼接文本和所述词性信息进行拼接，获取融合字符信息和词性信息的表征矩阵；

利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型的过程还包括：将所述表征矩阵、文本对应的位置编码信息、问题和文本的类型信息都输入至基于变换器的双向编码器中，利用所述双向编码器对所述表征矩阵、文本对应的位置编码信息、问题和文本的类型信息进行加权求和；完成加权求和后，利用自注意力机制计算信息的注意力权重；将词汇的注意力权重与信息进行乘法计算，得到注意力矩阵；将注意力矩阵输入到归一层中，进行池化，获取编码层矩阵；

利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型的过程还包括：将问题和答案所对应的文本进行相同映射，分别转为问题词向量和答案词向量；将所述问题词向量和答案词向量输入到解码器中，并经过一层线性层；将线性层的输出和编码器的输出输入至第二层注意力机制中，让两部分的信息进行注意力权重的计算，得到两部分的关注信息；经过全连接层得到答案生成的概率，根据所述概率获取所生成的答案信息，完成智能问答模型的训练。

2.根据权利要求1所述的基于阅读理解的智能问答方法，其特征在于，若制度文件的文件类型为word，则根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括：

以段落为单位将拆解后的文本内容保存至content.csv文件中。

3.根据权利要求1所述的基于阅读理解的智能问答方法，其特征在于，若制度文件的文件类型为pdf，则根据制度文件的文件类型进行段落拆解，并以段落为单位将拆解后的文本内容保存至目标文件中的过程包括：

4.根据权利要求1所述的基于阅读理解的智能问答方法，其特征在于，利用所述智能问答模型对用户输入的问题反馈对应的答案时，还包括：

对用户输入的问题进行语素解析，生成语素q_i；

5.根据权利要求4所述的基于阅读理解的智能问答方法，其特征在于，得到的标准问题后，还包括：

6.根据权利要求1所述的基于阅读理解的智能问答方法，其特征在于，所收集的问题包括：申请办公用品的流程、请办公用具的流程是什么、笔用完了怎么拿到新的。

7.一种基于阅读理解的智能问答系统，其特征在于，包括有：

训练模块，用于利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型，所述智能问答模型可以根据用户输入的问题反馈对应的答案；

所述训练模块利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型的过程包括：将所收集的问题以及标准问题库中的段落进行拼接，并利用词表将拼接文本映射为数字；利用spacy类库获取问题中的词性信息，所述词性信息包括利用词表将字符转为数字；对所述拼接文本和所述词性信息进行拼接，获取融合字符信息和词性信息的表征矩阵；

所述训练模块利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型的过程还包括：将所述表征矩阵、文本对应的位置编码信息、问题和文本的类型信息都输入至基于变换器的双向编码器中，利用所述双向编码器对所述表征矩阵、文本对应的位置编码信息、问题和文本的类型信息进行加权求和；完成加权求和后，利用自注意力机制计算信息的注意力权重；将词汇的注意力权重与信息进行乘法计算，得到注意力矩阵；

将注意力矩阵输入到归一层中，进行池化，获取编码层矩阵；

所述训练模块利用标准问题库对基于阅读理解的智能问答模型进行训练，生成用于进行人机交互的智能问答模型的过程还包括：将问题和答案所对应的文本进行相同映射，分别转为问题词向量和答案词向量；将所述问题词向量和答案词向量输入到解码器中，并经过一层线性层；将线性层的输出和编码器的输出输入至第二层注意力机制中，让两部分的信息进行注意力权重的计算，得到两部分的关注信息；经过全连接层得到答案生成的概率，根据所述概率获取所生成的答案信息，完成智能问答模型的训练。