CN114020862A - 一种面向煤矿安全规程的检索式智能问答系统及方法 - Google Patents

一种面向煤矿安全规程的检索式智能问答系统及方法 Download PDF

Info

Publication number
CN114020862A
CN114020862A CN202111301692.XA CN202111301692A CN114020862A CN 114020862 A CN114020862 A CN 114020862A CN 202111301692 A CN202111301692 A CN 202111301692A CN 114020862 A CN114020862 A CN 114020862A
Authority
CN
China
Prior art keywords
question
answer
model
document
coal mine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111301692.XA
Other languages
English (en)
Other versions
CN114020862B (zh
Inventor
刘鹏
舒雅
刘兵
张国圆
杨文嘉
王莹
余钱坤
曹新晨
程浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202111301692.XA priority Critical patent/CN114020862B/zh
Publication of CN114020862A publication Critical patent/CN114020862A/zh
Application granted granted Critical
Publication of CN114020862B publication Critical patent/CN114020862B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向煤矿安全规程的检索式智能问答系统及方法,适用于煤矿数据信息化领域。包括候选文档检索模块、问答对数据生成和管理模块和阅读理解式答案抽取模块,其中候选文档检索模块分别与问答对数据生成和管理模块和阅读理解式答案抽取模块连接,问答对数据生成和管理模块与阅读理解式答案抽取模块连接;其中候选文档检索模块包括文档存储和管理子模块和检索子模块。整个系统简单,使用方便,时间和空间开销低,整体实现用户与系统在字词、语义级别上的信息交互,实现面向煤矿安全规程的用户自然语言问题答案自动生成。

Description

一种面向煤矿安全规程的检索式智能问答系统及方法
技术领域
本发明涉及一种检索式智能问答系统及方法,尤其适用于煤矿数据信息化领域使用的一种面向煤矿安全规程的检索式智能问答系统及方法。
技术背景
随着互联网的飞速发展、信息化的不断深入,矿山从业人员可以在线搜集各类有关煤矿安全生产的法律法规,学习煤炭生产和煤矿建设活动规范,但这类非结构化数据具有规模较大、利用率低、准确信息检索效率低等特点,为了解决此类问题诞生了自动问答系统。相较于搜索引擎,自动问答系统能更好地理解用户提出的自然语言问题,进一步更有效地满足用户的信息需求,是可结合多种NLP技术的综合性应用,也是一种新兴的信息检索方式。
目前关于智能问答的研究主要聚焦于基于知识图谱和面向机器阅读理解两类方法。基于煤矿领域的知识图谱研究属于刚起步阶段,如在构建煤矿科学知识图谱的基础上,利用机器学习对问答进行研究,联合实体及关系链接,基本实现基于煤矿科学的KBQA系统。基于机器阅读理解的自动问答,是指针对给定的一段文本描述和对应的一个问题序列,计算机通过阅读文本描述和问题后,给出对应序列的答案,其研究在问答系统的发展历程中具有重要的意义。当前关于煤矿专业领域的问答系统更多基于结构化知识库,基于阅读理解技术的研究尚未可见。针对当前众多非结构化文本煤矿安全规程语料,搭建基于机器阅读理解的智能问答系统需要解决的关键问题是如何高效率找到问题的相关候选文档以及如何实现文档和问题序列的联合理解。
发明内容
针对现有技术的不足之处,提供一种系统简单,使用方便,时间和空间开销低,整体实现用户与系统在字词、语义级别上的信息交互的面向煤矿安全规程的检索式智能问答系统及方法。
为实现上述技术目的,本发明的一种面向煤矿安全规程的检索式智能问答系统,它包括候选文档检索模块、问答对数据生成和管理模块和阅读理解式答案抽取模块,其中候选文档检索模块分别与问答对数据生成和管理模块和阅读理解式答案抽取模块连接,问答对数据生成和管理模块与阅读理解式答案抽取模块连接;其中候选文档检索模块包括文档存储和管理子模块和检索子模块;
候选文档检索模块:用于实现煤矿安全规程文档集合的存储,然后根据用户在线提出的问题,进行问题-候选文档信息检索;
文档存储和管理子模块:使用非结构化数据库存储煤矿安全规程文档集合,文档的划分遵循问答对数据生成和管理模块的划分原则,映射创建过程包括中文分词、去停用词和建立倒排索引,后续有规程文档需要扩充时,直接在已创建的映射上导入文本数据;
检索子模块用于得到与问题匹配度最高的目标文档,使用组合查询方式在文档集合中进行全文搜索,返回相关度得分高的前N篇文档,即实现候选文档的信息检索;
问答对数据生成和管理模块:用于构建煤矿安全规程问答数据集,并将问答数据集生成阅读理解式问答模型的训练数据集;
其中问答对生成模型结合BERT和UNILM生成解码器-编码器结构,利用BERT编码预训练权重做初始化,借助预训练语言模型BERT的特征表达能力,辅助加快问答对生成模型的收敛;利用BERT在深程度上的语句甚至篇章层面的语义信息加快问答对生成模型自身的收敛;同时在BERT进行下游任务微调训练阶段,使用UNILM中序列到序列语言模型的注意力矩阵Attention Mask进行掩盖优化训练,赋予问答对生成模型文本生成能力;结合 UNILM进行掩盖优化训练,赋予问答对生成模型文本生成能力;问答对生成模型输入是输入序列的三种向量之和,三种向量分别为词向量,句段向量和位置向量,内部Transformer 结构编码器采用双向编码,直接通过全注意力机制获取高注意力分配的词汇信息作为待提问的内容,即问题答案,然后再作为信息输入解码部分,此解码器负责根据融合了全文信息的文档的特征向量用E、问题答案和已生成问题序列进行单向解码生成目标问题序列;通过该模型生成的数据的特色主要是首先保证问题答案来源于现有文档,为煤安规程中重要信息点,且呈现出问题—答案—文档一一对应关系,保障将其加入问答数据集的可行性和可靠性;
阅读理解式答案抽取模块:用于基于高层语义特征层面判断候选文档是否包含问题答案,且实现精准回答方式,在文档中抽取准确的答案,具体包括阅读理解式问答模型的设计、训练和预测;
一种使用权利要求1所述面向煤矿安全规程的检索式智能问答系统的问答方法:首先构建煤矿安全规程问答数据集,然后设计机器识别使用的阅读理解式问答模型,利用煤矿安全规程问答数据集训练阅读理解式问答模型,最后进行问题-候选文档信息检索,经过训练后的答案抽取模型获取问题答案;
具体步骤如下:
步骤一、首先构建煤矿安全规程问答数据集:
a1从网络中有针对性的收集和整理自由文本格式的煤矿安全规范资料;
a2分析收集的煤矿安全规范资料的非结构化文本数据风格以及内容特色,定义煤矿安全问题的类型,手工设计煤矿安全生产规程问答对;
a3使用预训练语言技术构建seq2seq框架的问题答案对自动生成模型,然后运用手工设计的问答对问题答案对自动生成模型训练,加以质量检测,辅助完成煤矿安全规程问答数据集的构建;
步骤二、设计阅读理解式问答模型,阅读理解式问答模型分为预训练模型适应性输入层和模型主体框架层两部分:
b1采用预训练+微调设计阅读理解式问答模型的输入层部分,使用BERT进行篇章、问题、答案的联合编码,向阅读理解式问答模型输入为篇章、问题和答案信息并进行拼接,两两中间使用特殊标记SEP隔开,用0标记篇章和问题的句段向量Segment ids,用1标记答案,用以适应预训练模型BERT对句子对的训练,挖掘篇章和问题之间的语义和结构交互信息;
b2设计阅读理解式问答模型主体框架层部分,采用seq2seq序列生成框架,与问答对数据生成和管理模块中的问答对生成模型相同,使用基于Transformer的双向编码器BERT,针对b1部分输入层的输入文本进行编码,BERT自带自注意力机制获得到上下文相关向量E,通过seq2seq序列输入部分作为解码部分,解码部分的目标是估计条件概率: p(y1,…,yT1|x1,…,xT),其中x表示阅读理解式问答模型的篇章和问题输入,式中T表示输入序列的长度,T1表示输出序列的长度,根据输入序列x来生成最可能的目标序列即问题序列,具体的生成过程通过束搜索beamsearch算法完成,采用单向LM的方式解码,yi的生成基于上下文相关的向量表示以及已解码部分,即y1,…,yi-1的信息,具体公式为
Figure RE-GDA0003379082570000031
式中的p表示概率(probability),不用特意解释含义,其中每一个字符的预测p(yi|E,y1,…,yi-1)都用词汇表中所有单词的Softmax值来表示,从而在既保证正常工作的情况下减少内存和显存的占用,降低计算的资源消耗,同时避免答案在文档中不连续的问题;
为了适应单向解码方式,候选文档检索模块根据用户问题检索返回多篇候选文档情景在使用beamsearch算法实现目标序列生成时,使用概率值平均方案选择答案;
步骤三、将步骤一构建的数据集导入阅读理解式问答模型进行训练,训练中的学习法则采用交叉熵作为损失函数,使用自适应学习率Adam优化器进行训练,采用1e-5的初始学习率,依据训练结果不断依据损失函数结果通过反向梯度下降调整阅读理解式问答模型参数值,直至阅读理解式问答模型训练完毕;
步骤四、问题-候选文档信息检索,使用非结构化数据库存储煤矿安全规程文档集合,对用户给定的自然语言提问问题,使用组合查询方式在文档集合中进行全文搜索,返回相关度得分高的文档,即实现候选文档的信息检索;
步骤五、获取问题答案部分:将用户自然语言提问问题和步骤四得到的候选文档输入训练好的阅读理解式问答模型,将判断候选文档是否包含问题答案,包含问题答案就返回精准答案,不包含则返回候选文档以作参考。
步骤一中使用人工设计煤矿安全生产规程问答对的问题是涉及时间、人物、地点、组织机构、温度、年限、行为准则和奖惩力度八大定向问题,数据存储格式为JSON格式。
问题答案对自动生成模型采用“BERT+UNILM”的方案,UNILM通过seq2seqLM训练目标的融入,即掩码方式Mask矩阵的设计,提供用单个BERT完成seq2seq任务的思路,且直接调用BERT预训练权重,充分利用BERT在较深程度上的语句甚至篇章层面的语义信息,且有利于加快收敛;序列生成过程中,先生成答案,后联合原文和答案的编码进行信息交互从而解码生成问题,将问答对生成任务形式化为:
Figure RE-GDA0003379082570000041
式中,A表示答案Answer,Q表示问题Question,P表示条件概率,argmax(A,Q)P(A,Q|Passage) 表示使概率值P(A,Q|Passage))最大时,A,Q的取值,模型后续连接Dropout层和全连接层,加Softmax计算最大概率问题序列。
阅读理解式问答模型的答案选择策略为:根据每一个候选文档与问题的交互信息,各自计算第一个字的概率分布,p(y1|E)=Softmax(Linear(H)),Linear表示全连接层,H为经过深层次编码后的输出特征,使用Softmax函数可以计算得到所有词表中的词作为第一个字的概率;若其第一个字预测就出现[SEP],表示其不含答案,直接排除不含答案的相应文档;
排除不包含答案文档后,将剩下的篇章的第一个字的概率分布取平均,然后保留top-K(top-K=1),随后预测下一个字,每个篇章与top-K个候选值分别组合,预测各自的第二个字的概率分布,然后再按照篇章将概率平均后,再给出top-K预测值,依此类推进行逐字预测,直到出现结束符[SEP]。
煤矿安全规程文档集合的存储采用Elasticsearch数据库,其存储和查询方式具体如下:
设计Object类型的字段'statute'和'content','statute'包含'part-id'、'part-name'、'chapter-id'、 'chapter-name'、'section-id'、'section-name'、'article-name'七个字段存储章节信息和名称,具体条例内容部分存储在'content'字段中,所有type为'text'的字段在创建映射结构时采用 ik_max_word中文分词器,对文本进行最细粒度的拆分;
使用bool实现复合查询和过滤查询,其中包含两个子句,子句分别为:multi_match多字段匹配,该子句匹配'statute'字段下的七个字段,另一个子句采用模糊查询match,用于匹配文本内容字段'content',匹配算法采用BM25算法。
有益效果:
1)针对煤矿安全领域缺乏规范性的面向阅读理解式问答任务的数据集这一问题,提供了初步的解决思路,构建了小规模煤矿安全规程问答数据集,其结合了预训练语言技术的问题自动生成模型可以在类似煤安规程语料中达到50%的准确率,即生成语法正确、语义健全的自然语言问题。
2)使用基于预训练BERT的中文语言模型对篇章原文进行分词、编码,取编码层的输出向量作为篇章语义表示,其中直接调用中文BERT的预训练权重,使得模型直接继承BERT 良好的语义理解,在有限的训练数据下更快收敛,故而相比较于用其他模型做seq2seq任务效果更好。
3)候选文档检索模块使用基于BM25算法的检索技术,算法复杂度低,简单易用,可满足较高的召回率,初步定位答案候选文档,有效降低后续答案抽取模块模型训练和预测的时空开销。
附图说明
图1为本发明面向煤矿安全规程的检索式智能问答系统的检索式智能问答系统流程示意图;
图2为本发明的煤矿安全规程问答数据集结构示意图;
图3为本发明的问答对数据生成模块使用UNILM做seq2seq模型示意图;
图4为本发明的候选文档检索模块的流程示意图;
图5为本发明的阅读理解式问答模型架构图。
具体实施方式
下面结合附图对本发明的具体实施例做进一步说明。
如图1所示,本发明实现一种面向煤矿安全规程的检索式智能问答系统,由问答对数据生成和管理模块,候选文档检索模块,阅读理解式答案抽取模块构成,其中,所述问答对数据生成和管理模块,构建煤矿安全规程问答数据集;所述候选文档检索模块,首先实现煤矿安全规程文档集合的存储,然后根据用户在线提出的问题,进行问题-候选文档信息检索;所述阅读理解式答案抽取模块,完成阅读理解式问答模型的设计,以及利用构建的数据集进行模型训练,最后利用训练完的模型参数预测问题的答案。
上述各模块的具体实现过程如下:
1.问答对数据生成和管理模块
问答对数据生成和管理模块是系统的基础组件之一,主要功能是构建煤矿安全规程问答数据集,包括三个阶段:
a1从网络中有针对性的收集和整理自由文本式煤矿安全规范资料,主要选取的煤矿安全规范资料为新版《煤矿安全规程》、《煤矿安全生产管理制度》和《煤矿各岗位工种岗位描述》;
数据预处理。进行一定的数据分析和文档整理,将表格转化为与上下文相似风格的文字描述,即用词规范,指代清晰明确,简洁干练,避免表格数据缺失;按照章节间文本内容关联度,进行文档数据划分;
a2分析收集的煤矿安全生产规程的非结构化文本数据风格以及内容特色,定义煤矿安全生产问题的类型,手工设计涉及时间、人物、地点、行为准则、规范要求和奖惩力度等定向问题的煤矿安全规程问答对,数据存储格式为JSON格式;
a3使用预训练语言技术构建seq2seq框架的问题答案对自动生成模型,后运用手工设计的问答对做模型训练,加以质量检测,辅助完成煤矿安全规程问答数据集的构建,数据集结构如图2所示。问题答案对自动生成模型采用“BERT+UNILM”的方案,UMILM通过seq2seq LM 训练目标的融入,即掩码方式Mask矩阵的设计,提供用单个BERT完成seq2seq任务的思路,且直接调用BERT预训练权重,充分利用BERT在较深程度上的语句甚至篇章层面的语义信息,且有利于加快收敛;序列生成过程中,先生成答案,后联合原文和答案的编码进行信息交互从而解码生成问题,将问答对生成任务形式化为:
Figure RE-GDA0003379082570000061
其中,Passage是给定的一个长度为m的篇章即Passage={w1,...,wm},此处为检索获取的与问题相关的答案候选文档,抽取实体作为答案
Figure RE-GDA0003379082570000062
然后结合答案的特征向量输入,通过信息交互层,调用UNILM的Attention Mask,即输入部分的注意力Attention双向,输出部分 Attention单向,从而联合输入的全文信息和输出的前缀序列进行从左至右的单词预测,赋予模型自动生成文本的能力,此处使用UNILM做seq2seq模型示意图为图3所示。
模型预测的具体路线为:
采用全连接层和Softmax计算下一个作为预测答案输出的内容的归一化概率,从最高概率中随机采样,然后将其与原文语义编码拼接,通过全连接层和Softmax分类器,其中Softmax 接受历史信息即篇章和预测答案的向量表示,输出为词表中每个词的后验概率,其中序列顺序性生成采用启发式搜索算法beam search进行确定性解码,得到当前概率最高的序列,作为当前最优解码序列即与答案和上下文信息最相关的问题
Figure RE-GDA0003379082570000063
返回。
数据集整合。针对自动生成的问题答案对进行初步筛选,与步骤a2手工设计的数据整合为问答语料,具体数据情况见下表:
Figure RE-GDA0003379082570000071
2.候选文档检索模块
候选文档检索模块分为文档存储和管理子模块和检索子模块。具体流程图如图4所示:
(1)文档存储和管理子模块
使用非结构化数据库Elasticsearch存储煤矿安全规程文档集合,文档的划分遵循问答对数据生成和管理模块的划分原则,其存储方式为:
设计Object类型的字段'statute'和'content','statute'包含'part-id'、'part-name'、'chapter-id'、 'chapter-name'、'section-id'、'section-name'、'article-name'七个字段存储章节信息和名称,具体条例内容部分存储在'content'字段中,使用bulkAPI批量插入整理完备的煤矿安全规程文本数据,针对煤矿安全语料,所有type为'text'的字段在创建映射结构时采用ik_max_word中文分词器,会对文本进行最细粒度的拆分。
映射创建过程包括中文分词、去停用词和建立倒排索引。
后续有规程文档需要扩充时,直接在已创建的映射上导入文本数据。
(2)检索子模块
该模块旨在得到与问题匹配度最高的目标文档,使用组合查询方式在文档集合中进行全文搜索,返回相关度得分高的文档,即实现候选文档的信息检索。
使用bool实现复合查询和过滤查询,其中包含两个子句,子句分别为:multi_match多字段匹配,该子句匹配'statute'字段下的七个字段,另一个子句采用模糊查询match,用于匹配文本内容字段'content',其中,一般章节名称富含高质量的语义信息,multi_match子句的权重 boost适当较高,匹配算法均采用BM25算法。
BM25算法是一种评价搜索词与文档之间相关性的经典算法。算法对问题进行切分,计算每个词与文档的相关度,加权后得到问题与文档相关度。词与文档的相关度主要由单词权重,单词和文档相关性两部分衡量。
复合查询后,计算综合分数,返回前三条高分的相关文档,检索问答流程结束,算法简单,问答响应快速。
3.阅读理解式答案抽取模块
阅读理解式答案抽取模块承接在候选文档检索模块之后,用于基于高层语义特征层面判断候选文档是否包含问题答案,且实现精准回答方式,在文档中抽取准确的答案,该模块包括阅读理解式问答模型的设计、训练和预测。
(1)阅读理解式问答模型的设计
模型架构如图5所示,分为预训练模型适应性输入层和模型主体框架层的设计2部分:
b1采用“预训练+微调”思路设计模型输入层部分,使用BERT进行“篇章、问题、答案”的联合编码,模型输入是输入序列的三种向量之和,词向量Token ids,句段向量Segment ids 和位置向量Position ids。在Token ids中,使用特殊标记SEP隔开,用0标记篇章和问题的 Segment ids,用1标记答案,用以适应预训练模型BERT对句子对的训练,挖掘篇章和问题之间的语义和结构交互信息。
b2模型主体框架层设计部分,选择框架为seq2seq序列生成框架,聚焦于微调部分编码层的设计,使用基于Transformer的双向编码器BERT,得到向量表示,解码部分的目标是估计条件概率,根据输入序列x来生成最可能的目标序列即问题序列,输出层单个词的预测采用Softmax计算每个词的后验概率,序列的具体生成过程通过束搜索beam search算法完成,采用单向LM的方式解码,是生成式和抽取式的折中方案,相比于BERT中原始指针网络Pointer Network设计三个分类器,能保证在更低的内存和显存占用下完成模型的训练,同时避免答案在文档中不连续的问题;
为适应解码方式和多篇候选文档情景,阅读理解式问答解码层的答案选择策略为:
首先将候选文档分别与问题拼接,各自计算第一个字的概率分布,若其第一个字预测就出现[SEP],表示其不含答案,直接排除相应文档;
排除不包含答案文档后,将剩下的篇章的第一个字的概率分布取平均,然后保留top-K(top-K=1)。随后预测下一个字,每个篇章与top-K个候选值分别组合,预测各自的第二个字的概率分布,然后再按照篇章将概率平均后,再给出top-K预测值。依此类推,直到出现结束符[SEP]。
(2)阅读理解式问答模型的训练
在模型搭建完毕的基础上将问答对数据生成和管理模块构建的数据集导入模型,采用交叉熵作为损失函数,使用Adam优化器进行训练,用1e-5的学习率,依据训练结果不断调整问答模型参数,直至模型训练完毕,其中调整问答模型的最优超参数,设置如下:可处理最长文本长度为512,问题最长长度为64,答案最长长度为128;Epochs为10,Batch_size为4, Dropout参数为0.1。
模型性能的测试指标为BLEU,BLEU是一种衡量模型生成序列和参考序列之间的N元词组重合度的算法,训练过程中,依据每轮模型训练的BLEU值和损失值的变化情况,观察模型训练效果,如果模型准确率维持稳定,则模型停止训练,同时多次调整超参数值以寻找模型性能最优下的超参数,上述超参数为最优超参数值。
(3)阅读理解式问答模型的预测
阅读理解式问答模型的预测:将用户自然语言问题和候选文档检索模块返回的候选文档输入训练好的问答模型,将判断候选文档是否包含问题答案,包含问题答案就返回精准答案,不包含则返回候选文档以作参考。

Claims (6)

1.一种面向煤矿安全规程的检索式智能问答系统,其特征在于:它包括候选文档检索模块、问答对数据生成和管理模块和阅读理解式答案抽取模块,其中候选文档检索模块分别与问答对数据生成和管理模块和阅读理解式答案抽取模块连接,问答对数据生成和管理模块与阅读理解式答案抽取模块连接;其中候选文档检索模块包括文档存储和管理子模块和检索子模块;
候选文档检索模块:用于实现煤矿安全规程文档集合的存储,然后根据用户在线提出的问题,进行问题-候选文档信息检索;
文档存储和管理子模块:使用非结构化数据库存储煤矿安全规程文档集合,文档的划分遵循问答对数据生成和管理模块的划分原则,映射创建过程包括中文分词、去停用词和建立倒排索引,后续有规程文档需要扩充时,直接在已创建的映射上导入文本数据;
检索子模块用于得到与问题匹配度最高的目标文档,使用组合查询方式在文档集合中进行全文搜索,返回相关度得分高的前N篇文档,即实现候选文档的信息检索;
问答对数据生成和管理模块:用于构建煤矿安全规程问答数据集,并将问答数据集生成阅读理解式问答模型的训练数据集;
其中问答对生成模型结合BERT和UNILM生成解码器-编码器结构,利用BERT编码预训练权重做初始化,借助预训练语言模型BERT的特征表达能力,辅助加快问答对生成模型的收敛;利用BERT在深程度上的语句甚至篇章层面的语义信息加快问答对生成模型自身的收敛;同时在BERT进行下游任务微调训练阶段,使用UNILM中序列到序列语言模型的注意力矩阵Attention Mask进行掩盖优化训练,赋予问答对生成模型文本生成能力;结合UNILM进行掩盖优化训练,赋予问答对生成模型文本生成能力;问答对生成模型输入是输入序列的三种向量之和,三种向量分别为词向量,句段向量和位置向量,内部Transformer结构编码器采用双向编码,直接通过全注意力机制获取高注意力分配的词汇信息作为待提问的内容,即问题答案,然后再作为信息输入解码部分,此解码器负责根据融合了全文信息的文档的特征向量用E、问题答案和已生成问题序列进行单向解码生成目标问题序列;通过该模型生成的数据的特色主要是首先保证问题答案来源于现有文档,为煤安规程中重要信息点,且呈现出问题—答案—文档一一对应关系,保障将其加入问答数据集的可行性和可靠性;
阅读理解式答案抽取模块:用于基于高层语义特征层面判断候选文档是否包含问题答案,且实现精准回答方式,在文档中抽取准确的答案,具体包括阅读理解式问答模型的设计、训练和预测。
2.一种使用权利要求1所述面向煤矿安全规程的检索式智能问答系统的问答方法,其特征在于:首先构建煤矿安全规程问答数据集,然后设计机器识别使用的阅读理解式问答模型,利用煤矿安全规程问答数据集训练阅读理解式问答模型,最后进行问题-候选文档信息检索,经过训练后的答案抽取模型获取问题答案;
具体步骤如下:
步骤一、首先构建煤矿安全规程问答数据集:
a1从网络中有针对性的收集和整理自由文本格式的煤矿安全规范资料;
a2分析收集的煤矿安全规范资料的非结构化文本数据风格以及内容特色,定义煤矿安全问题的类型,手工设计煤矿安全生产规程问答对;
a3使用预训练语言技术构建seq2seq框架的问题答案对自动生成模型,然后运用手工设计的问答对问题答案对自动生成模型训练,加以质量检测,辅助完成煤矿安全规程问答数据集的构建;
步骤二、设计阅读理解式问答模型,阅读理解式问答模型分为预训练模型适应性输入层和模型主体框架层两部分:
b1采用预训练+微调设计阅读理解式问答模型的输入层部分,使用BERT进行篇章、问题、答案的联合编码,向阅读理解式问答模型输入为篇章、问题和答案信息并进行拼接,两两中间使用特殊标记SEP隔开,用0标记篇章和问题的句段向量Segment ids,用1标记答案,用以适应预训练模型BERT对句子对的训练,挖掘篇章和问题之间的语义和结构交互信息;
b2设计阅读理解式问答模型主体框架层部分,采用seq2seq序列生成框架,与问答对数据生成和管理模块中的问答对生成模型相同,使用基于Transformer的双向编码器BERT,针对b1部分输入层的输入文本进行编码,BERT自带自注意力机制获得到上下文相关向量E,通过seq2seq序列输入部分作为解码部分,解码部分的目标是估计条件概率:
Figure FDA0003338641560000021
其中x表示阅读理解式问答模型的篇章和问题输入,式中T表示输入序列的长度,T1表示输出序列的长度,根据输入序列x来生成最可能的目标序列即问题序列,具体的生成过程通过束搜索beam search算法完成,采用单向LM的方式解码,yi的生成基于上下文相关的向量表示以及已解码部分,即y1,…,yi-1的信息,具体公式为
Figure FDA0003338641560000022
式中的p表示概率(probability),不用特意解释含义,其中每一个字符的预测p(yi|E,y1,…,yi-1)都用词汇表中所有单词的Softmax值来表示,从而在既保证正常工作的情况下减少内存和显存的占用,降低计算的资源消耗,同时避免答案在文档中不连续的问题;
为了适应单向解码方式,候选文档检索模块根据用户问题检索返回多篇候选文档情景在使用beam search算法实现目标序列生成时,使用概率值平均方案选择答案;
步骤三、将步骤一构建的数据集导入阅读理解式问答模型进行训练,训练中的学习法则采用交叉熵作为损失函数,使用自适应学习率Adam优化器进行训练,采用1e-5的初始学习率,依据训练结果不断依据损失函数结果通过反向梯度下降调整阅读理解式问答模型参数值,直至阅读理解式问答模型训练完毕;
步骤四、问题-候选文档信息检索,使用非结构化数据库存储煤矿安全规程文档集合,对用户给定的自然语言提问问题,使用组合查询方式在文档集合中进行全文搜索,返回相关度得分高的文档,即实现候选文档的信息检索;
步骤五、获取问题答案部分:将用户自然语言提问问题和步骤四得到的候选文档输入训练好的阅读理解式问答模型,将判断候选文档是否包含问题答案,包含问题答案就返回精准答案,不包含则返回候选文档以作参考。
3.根据权利要求2所述问答方法,其特征在于:步骤一中使用人工设计煤矿安全生产规程问答对的问题是涉及时间、人物、地点、组织机构、温度、年限、行为准则和奖惩力度八大定向问题,数据存储格式为JSON格式。
4.根据权利要求2所述问答方法,其特征在于:问题答案对自动生成模型采用“BERT+UNILM”的方案,UNILM通过seq2seq LM训练目标的融入,即掩码方式Mask矩阵的设计,提供用单个BERT完成seq2seq任务的思路,且直接调用BERT预训练权重,充分利用BERT在较深程度上的语句甚至篇章层面的语义信息,且有利于加快收敛;序列生成过程中,先生成答案,后联合原文和答案的编码进行信息交互从而解码生成问题,将问答对生成任务形式化为:
Figure FDA0003338641560000031
式中,A表示答案Answer,Q表示问题Question,P表示条件概率,argmax(A,Q)P(A,Q|Passage)表示使概率值P(A,Q|Passage))最大时,A,Q的取值,模型后续连接Dropout层和全连接层,加Softmax计算最大概率问题序列。
5.根据权利要求2所述问答方法,其特征在于:阅读理解式问答模型的答案选择策略为:根据每一个候选文档与问题的交互信息,各自计算第一个字的概率分布,p(y1|E)=Softmax(Linear(H)),Linear表示全连接层,H为经过深层次编码后的输出特征,使用Softmax函数可以计算得到所有词表中的词作为第一个字的概率;若其第一个字预测就出现[SEP],表示其不含答案,直接排除不含答案的相应文档;
排除不包含答案文档后,将剩下的篇章的第一个字的概率分布取平均,然后保留top-K(top-K=1),随后预测下一个字,每个篇章与top-K个候选值分别组合,预测各自的第二个字的概率分布,然后再按照篇章将概率平均后,再给出top-K预测值,依此类推进行逐字预测,直到出现结束符[SEP]。
6.根据权利要求1所诉的问答方法,其特征在于:煤矿安全规程文档集合的存储采用Elasticsearch数据库,其存储和查询方式具体如下:
设计Object类型的字段'statute'和'content','statute'包含'part-id'、'part-name'、'chapter-id'、'chapter-name'、'section-id'、'section-name'、'article-name'七个字段存储章节信息和名称,具体条例内容部分存储在'content'字段中,所有type为'text'的字段在创建映射结构时采用ik_max_word中文分词器,对文本进行最细粒度的拆分;
使用bool实现复合查询和过滤查询,其中包含两个子句,子句分别为:multi_match多字段匹配,该子句匹配'statute'字段下的七个字段,另一个子句采用模糊查询match,用于匹配文本内容字段'content',匹配算法采用BM25算法。
CN202111301692.XA 2021-11-04 2021-11-04 一种面向煤矿安全规程的检索式智能问答系统及方法 Active CN114020862B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111301692.XA CN114020862B (zh) 2021-11-04 2021-11-04 一种面向煤矿安全规程的检索式智能问答系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111301692.XA CN114020862B (zh) 2021-11-04 2021-11-04 一种面向煤矿安全规程的检索式智能问答系统及方法

Publications (2)

Publication Number Publication Date
CN114020862A true CN114020862A (zh) 2022-02-08
CN114020862B CN114020862B (zh) 2024-06-11

Family

ID=80060905

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111301692.XA Active CN114020862B (zh) 2021-11-04 2021-11-04 一种面向煤矿安全规程的检索式智能问答系统及方法

Country Status (1)

Country Link
CN (1) CN114020862B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080717A (zh) * 2022-06-02 2022-09-20 特赞(上海)信息科技有限公司 基于文本理解推理的问答方法和系统
CN115203356A (zh) * 2022-06-15 2022-10-18 延边大学 专业领域问答库构建方法、问答方法及系统
CN115238710A (zh) * 2022-09-22 2022-10-25 北京弘玑信息技术有限公司 一种文档智能生成与管理方法及装置
CN115292469A (zh) * 2022-09-28 2022-11-04 之江实验室 一种结合段落搜索和机器阅读理解的问答方法
CN115310622A (zh) * 2022-10-12 2022-11-08 中国科学技术大学 一种基于自适应专家系统的智能问答方法
CN115934752A (zh) * 2022-12-09 2023-04-07 北京中科闻歌科技股份有限公司 一种构建检索模型的方法、电子设备和存储介质
CN116860953A (zh) * 2023-09-05 2023-10-10 联通在线信息科技有限公司 一种基于问答系统的问答匹配方法及系统
CN117093729A (zh) * 2023-10-17 2023-11-21 北方健康医疗大数据科技有限公司 一种基于医疗科研信息的检索方法、系统及检索终端
CN117131935A (zh) * 2023-10-25 2023-11-28 浙商期货有限公司 一种面向期货领域的知识图谱构建方法
CN117573839A (zh) * 2024-01-12 2024-02-20 阿里云计算有限公司 文档检索方法、人机交互方法、电子设备及存储介质
CN117972070A (zh) * 2024-04-01 2024-05-03 中国电子科技集团公司第十五研究所 一种面向大模型表格问答方法
CN118332072A (zh) * 2024-06-13 2024-07-12 山东浪潮科学研究院有限公司 一种基于rag技术的智能文档检索生成方法和系统
CN118607643A (zh) * 2024-08-07 2024-09-06 中国科学技术大学 大模型部署方法及其装置
WO2024198355A1 (zh) * 2023-03-30 2024-10-03 杨子言 一种基于llm模型的人智交互方法和系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189820A (zh) * 2018-07-30 2019-01-11 北京信息科技大学 一种煤矿安全事故本体概念抽取方法
CN110377690A (zh) * 2019-06-27 2019-10-25 北京信息科技大学 一种基于远程关系抽取的信息获取方法和系统
CN110930008A (zh) * 2019-11-15 2020-03-27 中国矿业大学 一种基于卷积神经网络的矿山灾害事件检测方法
CN111611361A (zh) * 2020-04-01 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN111930887A (zh) * 2020-07-06 2020-11-13 河海大学常州校区 基于联合训练方式的多文档多答案机器阅读理解系统
CN112445887A (zh) * 2019-08-29 2021-03-05 南京大学 基于检索的机器阅读理解系统的实现方法及装置
US20210240776A1 (en) * 2020-02-04 2021-08-05 Accenture Global Solutions Limited Responding to user queries by context-based intelligent agents

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109189820A (zh) * 2018-07-30 2019-01-11 北京信息科技大学 一种煤矿安全事故本体概念抽取方法
CN110377690A (zh) * 2019-06-27 2019-10-25 北京信息科技大学 一种基于远程关系抽取的信息获取方法和系统
CN112445887A (zh) * 2019-08-29 2021-03-05 南京大学 基于检索的机器阅读理解系统的实现方法及装置
CN110930008A (zh) * 2019-11-15 2020-03-27 中国矿业大学 一种基于卷积神经网络的矿山灾害事件检测方法
US20210240776A1 (en) * 2020-02-04 2021-08-05 Accenture Global Solutions Limited Responding to user queries by context-based intelligent agents
CN111611361A (zh) * 2020-04-01 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN111930887A (zh) * 2020-07-06 2020-11-13 河海大学常州校区 基于联合训练方式的多文档多答案机器阅读理解系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘鹏博;车海燕;陈伟;: "知识抽取技术综述", 计算机应用研究, no. 09, 15 September 2010 (2010-09-15) *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115080717A (zh) * 2022-06-02 2022-09-20 特赞(上海)信息科技有限公司 基于文本理解推理的问答方法和系统
CN115203356B (zh) * 2022-06-15 2024-06-04 延边大学 专业领域问答库构建方法、问答方法及系统
CN115203356A (zh) * 2022-06-15 2022-10-18 延边大学 专业领域问答库构建方法、问答方法及系统
CN115238710A (zh) * 2022-09-22 2022-10-25 北京弘玑信息技术有限公司 一种文档智能生成与管理方法及装置
CN115238710B (zh) * 2022-09-22 2022-11-22 北京弘玑信息技术有限公司 一种文档智能生成与管理方法及装置
CN115292469A (zh) * 2022-09-28 2022-11-04 之江实验室 一种结合段落搜索和机器阅读理解的问答方法
CN115310622B (zh) * 2022-10-12 2023-01-17 中国科学技术大学 一种基于自适应专家系统的智能问答方法
CN115310622A (zh) * 2022-10-12 2022-11-08 中国科学技术大学 一种基于自适应专家系统的智能问答方法
CN115934752A (zh) * 2022-12-09 2023-04-07 北京中科闻歌科技股份有限公司 一种构建检索模型的方法、电子设备和存储介质
WO2024198355A1 (zh) * 2023-03-30 2024-10-03 杨子言 一种基于llm模型的人智交互方法和系统
CN116860953A (zh) * 2023-09-05 2023-10-10 联通在线信息科技有限公司 一种基于问答系统的问答匹配方法及系统
CN116860953B (zh) * 2023-09-05 2024-01-26 联通在线信息科技有限公司 一种基于问答系统的问答匹配方法及系统
CN117093729A (zh) * 2023-10-17 2023-11-21 北方健康医疗大数据科技有限公司 一种基于医疗科研信息的检索方法、系统及检索终端
CN117093729B (zh) * 2023-10-17 2024-01-09 北方健康医疗大数据科技有限公司 一种基于医疗科研信息的检索方法、系统及检索终端
CN117131935A (zh) * 2023-10-25 2023-11-28 浙商期货有限公司 一种面向期货领域的知识图谱构建方法
CN117573839B (zh) * 2024-01-12 2024-04-19 阿里云计算有限公司 文档检索方法、人机交互方法、电子设备及存储介质
CN117573839A (zh) * 2024-01-12 2024-02-20 阿里云计算有限公司 文档检索方法、人机交互方法、电子设备及存储介质
CN117972070A (zh) * 2024-04-01 2024-05-03 中国电子科技集团公司第十五研究所 一种面向大模型表格问答方法
CN118332072A (zh) * 2024-06-13 2024-07-12 山东浪潮科学研究院有限公司 一种基于rag技术的智能文档检索生成方法和系统
CN118607643A (zh) * 2024-08-07 2024-09-06 中国科学技术大学 大模型部署方法及其装置

Also Published As

Publication number Publication date
CN114020862B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
CN114020862A (zh) 一种面向煤矿安全规程的检索式智能问答系统及方法
CN107748757B (zh) 一种基于知识图谱的问答方法
CN112559556B (zh) 表格模式解析和序列掩码的语言模型预训练方法及系统
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
CN112989004B (zh) 面向知识图谱问答的查询图排序方法及系统
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN111680512B (zh) 命名实体识别模型、电话总机转接分机方法及系统
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN111159345B (zh) 一种中文知识库答案获取方法及其装置
CN113157885A (zh) 一种面向人工智能领域知识的高效智能问答系统
CN114428850B (zh) 一种文本检索匹配方法和系统
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN113326367B (zh) 基于端到端文本生成的任务型对话方法和系统
CN110516145A (zh) 一种基于句向量编码的信息搜索方法
Kwon et al. Considering nested tree structure in sentence extractive summarization with pre-trained transformer
CN114239730B (zh) 一种基于近邻排序关系的跨模态检索方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114387537A (zh) 一种基于描述文本的视频问答方法
Chen et al. Image captioning with memorized knowledge
CN116483991A (zh) 一种对话摘要生成方法及系统
CN111563378A (zh) 一种联合学习的多文档阅读理解实现方法
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
CN113065324A (zh) 一种基于结构化三元组和锚定模板的文本生成方法及装置
CN117786052A (zh) 一种基于领域知识图谱的电网智能问答系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant