CN113868392A

CN113868392A - 一种用于特定领域问答系统的实现方法

Info

Publication number: CN113868392A
Application number: CN202111138292.1A
Authority: CN
Inventors: 龚波涛; 朱琦峰; 陈树藩; 李春; 王亚南
Original assignee: Shanghai Tiexin Geographic Information Co ltd; State Grid Shanghai Electric Power Co Ltd
Current assignee: Shanghai Tiexin Geographic Information Co ltd; State Grid Shanghai Electric Power Co Ltd
Priority date: 2021-09-27
Filing date: 2021-09-27
Publication date: 2021-12-31

Abstract

本发明涉及一种用于特定领域问答系统的实现方法，包括：知识库构建子方法，基于知识图谱建立关系型数据库作为知识库；自然语言理解子方法，通过构建双向Transfomer的编码器表示模型，并将其微调为序列标注模型，通过训练好的序列标注模型获取问句的标签序列，在标签序列中提取关系要素，然后通过提取到的关系要素在知识库中查询答案。与现有技术相比，本发明具有精度高、反应速度快等优点。

Description

一种用于特定领域问答系统的实现方法

技术领域

本发明涉及自然语言处理技术领域，尤其是涉及一种用于特定领域问答系统的实现方法。

背景技术

一般按知识来源分类，可将问答系统分为面向开放领域和面向特定领域的问答系统。面向开放领域的问答系统对问题内容的范围不加限制，问句句式变化大，且答案来源构建困难，实现难度自然较高。而面向特定领域的问答系统则主要关注某个特定领域，构建难度稍低，相对而言也有更多的发挥空间。

一般的基于信息检索的问答系统的工作，分为两步：问题解析和答案检索。问题解析是一项自然语言理解任务，它主要的工作从用户提出的问句中提取出有用的信息，进而指导后续的检索。答案检索则是从构建好的领域知识库中寻找答案。这向问答系统提出了两项任务：自然语言理解和知识库的构建。

问题解析的方法采用命名实体识别和词性标注这两项序列标注技术，也被称作槽位填充。序列标注是将输入的一句话视为一个输入序列，为其中的每个词标注上标签，这样可以将句子中重要的要素标注出来，如命名体、某个特定词性的词。常用的序列标注采用BIO格式，使用B、I标签来标注需要关注的词，使用O标签标注无需关注的词汇。早期的序列标注方法基于字典或规则，使用正则方法匹配，也确实比较适合特定知识领域的专有名词的标注。但是中文表达形式多样，若遇到较长的短语，需要进行大量的分支判断，实现起来比较复杂。

随着神经概率语言模型的提出，目前出现了诸多基于神经网络解决自然语言处理问题的方法。最常用的方法是基于循环神经网络和其作为其改进的长短期记忆网络，在已标记的预料数据集上有监督地学习，在这些任务上取得了比较好的效果。而且比起基于支持向量机、隐藏马尔可夫等模型的传统机器学习方法，能够更好地解决自然语言处理领域数据稀疏的挑战，有着更好的泛化性能。循环神经网络每一时刻的状态，不仅取决于网络的输入，还取决于上一时刻网络的状态，能够学习到上下文内容。而长短期网络则在其基础上提出了门机制，以解决数据在网络中传播距离过长导致的梯度爆炸和梯度消失问题。然而目前循环神经网络和长短期网络在处理自然语言处理任务中还存在并行能力差、难以同时兼顾上下文的问题，导致运行效率低、泛化能力不够高、优化困难。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种精度高、反应速度快用于特定领域问答系统的实现方法。

本发明的目的可以通过以下技术方案来实现：

一种用于特定领域问答系统的实现方法，所述的问答系统实现方法包括：

知识库构建子方法，基于知识图谱建立关系型数据库作为知识库；

自然语言理解子方法，通过构建双向Transfomer的编码器表示模型，并将其微调为序列标注模型，通过训练好的序列标注模型获取问句的标签序列，在标签序列中提取关系要素，然后通过提取到的关系要素在知识库中查询答案。

优选地，所述的知识库构建子方法包括：

步骤1-1：获取该特定领域资料中各名词性短语，将其定义为实体；

步骤1-2：基于知识图谱，使用关系描述两个实体间的关系；

步骤1-3：建立关系型数据库。

更加优选地，所述的步骤1-2中两个实体之间的关系通过关系发生时间以及关系类型这两个要素来描述。

更加优选地，所述的步骤1-3具体为：

建立的关系型数据库包括两张表，其中表1包括关系id、实体subject_id、实体predicate_id、关系发生时间time、关系类型pron和描述内容ans五个关系要素，其中主键为id；表2包括实体编号id，实体名name，主键为id。

优选地，所述的自然语言理解子方法包括：

步骤2-1：构建双向Transfomer的编码器表示模型，将其训练并微调为一个端对端序列标注模型；

步骤2-2：获取用户的问句，根据文本长度进行筛选，然后对筛选后的文本进行预处理；

步骤2-3：将预处理后的数据输入序列标注模型，获得标签序列；

步骤2-4：从标签序列中提取关系要素；

步骤2-5：将关系要素转换为数据库查询语句；

步骤2-6：在数据库中查询答案，输出查询结果。

更加优选地，所述的步骤2-1具体为：

首先，获取训练数据集和测试数据集；

其次，构建双向Transfomer的编码器表示模型，并对其进行训练；

训练方法为：将训练数据集中的数据进行分词化处理，然后转换为词嵌入，将其输入模型进行训练；

最后，对双向Transfomer的编码器表示模型进行微调；

微调方法为：对双向Transfomer的编码器表示模型的最后一个隐藏层进行softmax化，获取得到的最大概率，将其对应的序列标签作为对应的token的标签。

更加优选地，所述的双向Transfomer的编码器表示模型在进行微调时，为了获得最大化的概率值，使用梯度下降法最小化双向Transfomer的编码器表示模型的交叉熵损失函数。

更加优选地，所述的步骤2-2具体为：

获取用户的问句，根据文本长度进行筛选，文本长度小于预设阈值的直接提示问句不合规；

对筛选后的文本进行预处，首先对问句进行分词化处理，然后转化为词嵌入。

更加优选地，所述的步骤2-4中的关系要素包括关系id、实体subject_id、实体predicate_id、关系发生时间time和关系类型pron。

更加优选地，所述的步骤2-6具体为：

根据获取的关系要素关系id、实体subject_id、实体predicate_id、关系发生时间time和关系类型pron查询对应的描述内容ans，若查询到答案，则输出查询到的答案，若未查询到答案，则输出未找到答案。

与现有技术相比，本发明具有以下有益效果：

本发明中的问答系统实现方法用于特定领域，考虑该领域知识的特征，设计其领域知识库，并考虑知识库的结构，基于双向Transformer的编码器表示技术(BERT)，完成命名体识别、词性标注这两大序列标注任务，针对性地提取句子信息，完成问句的理解任务，问答系统的精度高，反应速度快。

附图说明

图1为本发明中自然语言理解子方法的流程示意图；

图2为本发明实施例中的E-R示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种用于特定领域问答系统的实现方法，包括：

知识库构建子方法包括：

步骤1-2：基于知识图谱，使用关系描述两个实体间的关系，两个实体之间的关系通过关系发生时间以及关系类型这两个要素来描述；

步骤1-3：建立关系型数据库，关系型数据库包括两张表，其中表1包括关系id、实体subject_id、实体predicate_id、关系发生时间time、关系类型pron和描述内容ans五个关系要素，其中主键为id；表2包括实体编号id，实体名name，主键为id。

自然语言理解子方法包括：

具体为：

首先，获取训练数据集和测试数据集；

最后，对双向Transfomer的编码器表示模型进行微调；

微调方法为：对双向Transfomer的编码器表示模型的最后一个隐藏层进行softmax化，获取得到的最大概率，将其对应的序列标签作为对应的token的标签；

双向Transfomer的编码器表示模型在进行微调时，为了获得最大化的概率值，使用梯度下降法最小化双向Transfomer的编码器表示模型的交叉熵损失函数；

具体为：

对筛选后的文本进行预处，首先对问句进行分词化处理，然后转化为词嵌入；

步骤2-4：从标签序列中提取关系要素，包括关系id、实体subject_id、实体predicate_id、关系发生时间time和关系类型pron；

步骤2-5：将关系要素转换为数据库查询语句；

步骤2-6：在数据库中查询答案，输出查询结果；

具体为：

下面提供一种具体的应用案例：

一、知识库构建

本实施例针对工程建设项目审批制度改革这一特定领域，收集领域知识相关资料，收集的资料包括《工程建设项目审批制度改革试点实施方案》和《企业投资工程建设项目审批制度改革试点实施细则》这两篇文件，分析其知识结构。

受知识图谱的启发，使用关系描述两个实体间的联系。对于该领域的两个实体间关系，一般需要两个要素来描述：关系发生的时间(即在工程施工审批过程中所在的阶段)，关系类型(可用“5W1H”原则来描述，即什么(Why)；做什么(What)；何人(Who)；何时(When)；何地(Where)；如何(How)，再加上一个是否(If))。

例如在原资料有这样的描述：在转入实施库后，建设单位是可以开展招标代理等的采购委托工作。因此可以说，对于“建设单位”和“开展……的采购委托工作”这两个实体，在“转入实施库”这一阶段，对于“可不可以”(If)这个关系类型，有一个关系，关系描述是“可以”。

一个关系就至多可用5个要素来描述：一个或两个实体，一个工程阶段，一个关系类型，一个关系描述。可用如图2所示的E-R图来表示。具体到关系型数据库中，数据库中含两张表：

表ConstructionReform，含有属性：关系id、实体subject_id、实体predicate_id、工程阶段time、关系类型pron、描述内容ans五个要素，其中主键为id；

表Entity，含有属性：实体编号id，实体名name，主键为id。

根据以上知识库，若描述一个完整的独一无二的关系，至多需要5个要素，那么对于提问者来说，不发生歧义的情况下获得肯定的回答需在句子中包含至多4个要素，让问答系统去搜寻第五个要素。不过这几个要素中，“关系描述”这一项往往会比较长，因此应将其列入需要问答系统查找和回答的答案。

二、标注预料数据作为训练和测试集

使用该领域的问句作为语料，包括用户提出的问句，以及仿照以上形式编写的问句。

考虑到该领域可用语料比较少，使用以下方法扩充：

(1)删节(或添加)词汇，例如语气副词和“的”、“地”、“得”等；

(2)利用汉语句子具备改变状语位置不影响其含义的特点改变语序；

(3)使用百度翻译将句子中英互译；

(4)简单数据增强，方法包括同义词替换、随机插入、随机交换、随机删除。

其中后三者可以映入一定的噪声，以免出现过拟合。

按照BIO格式标注这些句子的序列标签。句子里的问词可以确定该句子所询问关系的类型，因此在标注过程中加入了“疑问代词”这一项，如表1所示。

表1数据标注示例

三、模型微调

双向Transfomer的编码器表示模型(BERT)由若干个双向Transformer模块构成，而每个双向Transformer模块包括若干编码器和解码器的串联。

单个的解码器或编码器含有一个attention层，经过残差链接和归一化后输入一个全连接层，之后再次残差链接、归一化，输入下一个全连接层。

对于单个attention，以self-attention为代表，输入序列(以矩阵X表示)分别与权值矩阵叉乘得到Q(查询)、Key(键)和Value(值)这三个矩阵，最后对V矩阵的每一行，取Q和K内积的softmax加权平均，作为attention层的输出Z。

Q＝X×W^Q

K＝X×W^K

V＝X×W^V

Attention的计算过程中大量使用矩阵运算，能最大限度地利用计算机对矩阵运算的优化。在训练过程中，使用梯度下降法，计算各个权值矩阵和全连接层的权值。BERT基础模型是在大量语料数据上使用无监督方法预训练得到的，训练只需在基础模型上进行微调。

为了完成序列标注任务，本实施例微调出一个端对端的模型。

序列标注的本质，是对一个token在众多序列标签中进行分类。机器学习解决多分类问题常用softmax激活函数将输出转化为条件概率，学习目标即最大化这个概率值。具体到本文，则是对BERT网络最后一个隐藏层进行softmax化，取得到的最大概率，将其对应的序列标签作为对应token的标签。

为了最大化该值，需要最小化该交叉熵损失函数。其中y_ic为指示变量，在预测正确/失败的情况下分别取1和0，在本文的实际操作中使用one-hot编码序列标签，因此可直接被替换为指示变量。使用梯度下降在训练过程中逐渐减小该损失函数。

具体训练方法为：

(1)将上面标注好的语料数据训练集进行分词化，即对问句文本分成一个个分词(token)。这里将中文句子分割成一个个汉字单字即可。

(2)随后转换为词嵌入。

借助神经网络模型处理NLP任务，往往需要将词映射成一个高维稠密的空间中的向量，用各向量之间的余弦距离来表示其对应词语之间的语义联系，这个向量就是词嵌入。借助BERT预训练模型生成每个token的768维的词嵌入编码。同时考虑到attention对输入序列的顺序不敏感的特征，还需要生成一个同为768维的位置编码。

(3)最终得到一个example，将其放入网络，训练模型。

四、用序列标注完成问句理解工作

其流程如图1所示，包括：

(1)输入问句文本，简单对文本长度进行筛选，去除掉在长度上明显不是面对专业领域提出的问句。

(2)分词化、转化为词嵌入。

(3)在网络中计算，网络最后一个隐藏层进行softmax化，取得到的最大概率，将其对应的序列标签作为对应token的标签。得到句子对应的标签序列。

五、答案的检索

(1)从标注的结果中提取出问句含有的关系要素；

(2)将关系要素转换为数据库查询语句

(3)对查询到/未查询到答案的情况，分别给予对应提示。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于特定领域问答系统的实现方法，其特征在于，所述的问答系统实现方法包括：

2.根据权利要求1所述的一种用于特定领域问答系统的实现方法，其特征在于，所述的知识库构建子方法包括：

步骤1-2：基于知识图谱，使用关系描述两个实体间的关系；

步骤1-3：建立关系型数据库。

3.根据权利要求2所述的一种用于特定领域问答系统的实现方法，其特征在于，所述的步骤1-2中两个实体之间的关系通过关系发生时间以及关系类型这两个要素来描述。

4.根据权利要求2所述的一种用于特定领域问答系统的实现方法，其特征在于，所述的步骤1-3具体为：

5.根据权利要求1所述的一种用于特定领域问答系统的实现方法，其特征在于，所述的自然语言理解子方法包括：

步骤2-4：从标签序列中提取关系要素；

步骤2-5：将关系要素转换为数据库查询语句；

步骤2-6：在数据库中查询答案，输出查询结果。

6.根据权利要求5所述的一种用于特定领域问答系统的实现方法，其特征在于，所述的步骤2-1具体为：

首先，获取训练数据集和测试数据集；

最后，对双向Transfomer的编码器表示模型进行微调；

7.根据权利要求6所述的一种用于特定领域问答系统的实现方法，其特征在于，所述的双向Transfomer的编码器表示模型在进行微调时，为了获得最大化的概率值，使用梯度下降法最小化双向Transfomer的编码器表示模型的交叉熵损失函数。

8.根据权利要求5所述的一种用于特定领域问答系统的实现方法，其特征在于，所述的步骤2-2具体为：

9.根据权利要求5所述的一种用于特定领域问答系统的实现方法，其特征在于，所述的步骤2-4中的关系要素包括关系id、实体subject_id、实体predicate_id、关系发生时间time和关系类型pron。

10.根据权利要求5所述的一种用于特定领域问答系统的实现方法，其特征在于，所述的步骤2-6具体为：