CN114757184A

CN114757184A - 实现航空领域知识问答的方法和系统

Info

Publication number: CN114757184A
Application number: CN202210376477.4A
Authority: CN
Inventors: 董洪飞; 高魁; 贺薇; 陶剑; 刘俊; 王孝天; 武铎; 高龙; 何柳; 安然
Original assignee: China Aero Polytechnology Establishment
Current assignee: China Aero Polytechnology Establishment
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-15
Anticipated expiration: 2042-04-11
Also published as: CN114757184B

Abstract

本发明提供一种实现航空领域知识问答的方法和系统，方法包括以下步骤：S1：对文本中的词语进行分类并设置权重；S2：通过改进的词典权重调整的BM25算法，得到和问题文本最相似的k篇文本段落；S3：使用Bert模型得到对应文本的字符特征向量；S4：通过特征融合获得字符最终特征向量；S5：将字符最终特征向量输入到改进的BiDAF+Bi‑LSTM模型得到带有多种特征的问题文本字符特征向量和文本段落字符特征向量；S6：通过判断答案开始的全连接层+softmax和判断答案结束的全连接层+softmax抽取出对应文本的答案句；S7：若k＝1，直接得到答案句；若k≠1，还需执行S8；S8：使用LTP工具生成多文本答案句。系统用于实现方法。本发明解决现有的智能问答系统无法满足航空领域问答的需求。

Description

实现航空领域知识问答的方法和系统

技术领域

本申请涉及人工智能领域，具体涉及一种实现航空领域知识问答的方法和系统。

背景技术

随着人工智能的快速发展，许多生活工作必备的智能产品都需要具有人工智能问答的功能，提升智能问答的准确性对于用户体验具有十分重要的意义。

智能问答系统是综合运用了自然语言处理、信息检索、语义分析和人工智能等技术的一种新型的信息服务系统。最初的问答系统是由ELIZA和ALICE设计实现的基于模式匹配的问答系统。该问答系统通过匹配用户问题与人工定义问题模板来获取问题答案，或者基于领域专家知识制定启发式规则推理获得相应的结果。但是由于这类系统的模式库和规则的构建非常困难，需要领域专家综合领域知识且受到知识理解的限制，对于新的领域知识往往缺乏相匹配的知识性能很差。目前较多商业化公司采用的智能问答系统是基于FAQ(Frequently Asked Questions)的问答系统，其侧重于将问题及相应的答案对存放在系统的知识库中通过提问相似度设置阈值找寻答案。其采用的技术主要包括CNN(Convolutional Neural Network)、LSTM(Long Short-Term Memory)和Attention机制。CNN主要依赖于空间上的卷积核来考虑序列依赖关系。LSTM引入了门控记忆单元，有效地解决了长期信息保存和短期输入跳跃的问题。而LSTM只能对输入生成固定长度的向量，不会对信息重要程度进行区分。Attention机制的核心逻辑就是从关注全部到关注重点，将有限的注意力集中在重点信息上，从而节省资源，快速获得最有效的信息。这些技术方法使得该问答系统结构框架明了、实现简单、容易理解。但基于FAQ的问答系统的缺点是知识库的构建需要大量的人员参与，比较耗时、系统灵活性较低，问题的覆盖面较低。随着BERT(Bidirectional Encoder Representation from Transformers)预训练模型的出现，语言模型对文本语义的表征提取更加丰富。随之发展出基于无结构化文本的问答技术主要包括社区问答和基于问答式搜索的问答系统。该类系统的缺点是没有专业知识库的支撑，只能对有限类型的问题进行回答，在专业度较高的领域不适用。

由上可知，现有的智能问答系统主要应用于开放领域，而限定领域(政府、医疗等)的数据难以通过互联网直接获取，系统无法很好的理解用户所提出的问题与所对应的领域相关的知识。导致开放领域的智能问答系统难以在这些领域应用，无法返回较好的结果。因此特别需要一套面向专业领域的智能问答实现方法，能够通过用户输入来准确理解用户意图，快速、准确的由用户输入的查询语句匹配出候选答案。

发明内容

为了克服现有技术的缺陷，本发明提供一种实现航空领域知识问答的方法，其包括以下步骤：

S1：根据航空知识领域的文本段落得到问题文本，再对文本段落和问题文本中的词语进行分类并设置优先级和权重，

S2：针对不同优先级的词语，通过改进的词典权重调整的BM25算法，得到和问题文本最相似的k篇文本段落；

S3：将问题文本Q和k篇文本段落中的每一个文本分别使用面向航空领域微调后的Bert模型得到对应文本的字符特征向量；

S4：利用Word2Vec模型得到字符其它特征向量，将字符特征向量和字符其它特征向量进行融合，最后获得字符最终特征向量，实现了多特征子空间的文本映射表示；字符其它特征向量包括郑码、五笔、拼音和笔画特征向量；

S5：将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi-LSTM模型，并使用面向航空领域的数据进行对抗训练，得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量，具体为：

将问题文本Q和k篇文本段落的字符最终特征向量输入到BiDAF模型使得两者特征相互交互，再输入到Bi-LSTM模型，对信息进行编码增强序列依赖，最终得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量，使用面向航空领域的数据进行对抗训练增强带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量的鲁棒性；

S6：将带有多种特征的文本段落字符特征向量中的每一个字符对应的向量分别通过判断答案开始的全连接层+softmax和判断答案结束的全连接层+softmax抽取出对应文本的答案句；

S7：判断k值是否等于1，若k＝1，则问题的答案来自单文本，直接得到该单文本答案句；若k≠1，则问题的答案来自多文本，需要对多段候选答案文本进行融合语义基于依据句法分析树的规则组合，进行语法和语义判断；

S8：判断为多文本问答，则使用LTP工具根据答案句的依存句法结构和语义角色关系，利用句法规则生成多文本答案句。

优选的，所述步骤S1中对文本段落和问题文本中的词语进行分类并设置优先级和权重，具体为：

对问题文本基于领域的依存句法树，分析提取问题中不依存于其他词语且被除本身之外所有词语依存的核心词，核心词一起组成核心词典；

对全部航空知识领域文本段落基于领域的依存句法树及领域规则提取出领域词，领域词一起构成了领域词典；

使用LTP分词工具，在文本段落中得到去除核心词、领域词和停用词之外的词，称为非相关词，非相关词一起组成了其他词汇词典；

对上述得到的三种不同类型的词赋予不同优先级和权重，对核心词设为第一优先级，设置的权重值高于其他两类词的权重，对领域词设为第二优先级，设置的权重高于非相关词的权重，对非相关词设为第三优先级，设置的权重最低。

优选的，所述步骤S2中改进的词典权重调整的BM25算法，具体为：

通过问题文本Q分词后得到的词和文本段落D使用词典权重调整的BM25算法进行匹配，得到两者之间的相似度得分加权和，也就是问题文本Q和文本段落D的相似度得分，其中词典权重调整的BM25算法具体如公式(1)-(4)：

其中P₁>P₂>(3-P₁-P₂) (4)

其中，P₁、P₂分别为问题核心词和领域词典词的权重；k₃为词q_i的权重，词的优先级别越高，权重值越大，对相似度得分加权和的影响越大；score(D,Q)为问题文本Q和文本段落D的相似度得分；n为问题文本Q分词后得到的词的数量；i为正整数；IDF(q_i)为q_i的逆向文档频率；R(q_i,D)为词q_i与文本段落D的相关性得分；N为全部文本段落数.；df_i为包含词q_i的文本段落数；f(q_i,D)为q_i在文本段落D中出现的频率；k₁为第一调节因子；|D|为文本段落D的长度，avgdl为所有文本段落的平均长度；b为第二调节因子。

优选的，所示步骤S3具体为：

通过航空领域的文本数据训练得到面向航空领域微调后的Bert模型；

本发明对Bert的输入采用了三个嵌入量相加的方式，包括：字嵌入量TokenEmbeddings，片段嵌入量Segment Embeddings，和位置嵌入量Position Embeddings三个向量；

Token Embeddings通过建立字向量表将每个字符转换成一个一维向量；

Segment Embeddings对输入的句子对进行区分，若输入的是一个句子，那么Segement embeddings对句子的各个字符赋值全部为0；若输入的超过一个句子，则第一个句子的各个字符赋值为0，后面句子的各个字符赋值为1；

Position Embeddings用于得到位置嵌入量；

X表示输入序列，X由字符x_i组成，表示输入序列中的第i个字符，将X经过TokenEmbeddings、Segment Embeddings和Position Embeddings处理后得到的三个嵌入量相加后，再输入面向航空领域微调后的Bert模型，得到字符x_i对应的特征向量

优选的，所示步骤S3中Position Embeddings用于得到位置嵌入量，的具体方式为：

每个字符的位置嵌入量PE根据式(5)或(6)确定：

其中，pos表示输入的位置；当d_model表示Bert模型处理的向量维度；i为正整数，i从0开始，当pos＝2i时，位置编码使用公式(5)，当pos＝2i+1时，位置嵌入量使用公式(6)。

优选的，所示步骤S8中使用LTP工具根据答案句的依存句法结构和语义角色关系，利用句法规则生成多文本答案句，句法规则具体为：

S8.1主语判断

对问题和M条候选答案文本进行语法分析，确定主语,若问题针对的主语确定，则仅保留一个直接主语，其他主语采用人称代词进行替换；M为大于1的正整数；

S8.2冗余词判断

对M条候选答案文本进行语义分析，判断是否有含义重复的词汇，若候选答案句中出现大量冗余词，则将重复出现的词语进行删除，通过添加代词或连接词补充语义；

S8.3句义完整性判断

对M条候选答案文本进行句子长度统计，删除句子长度低于设置阈值无法成为描述答案的候选句；

S8.4组合生成

对经过上述处理后的M条候选答案文本，进行连接词、指示代词的增添补充，使之组合生成完整的合乎语义和语法的答案句。

本发明还公开了一种实现航空领域知识问答的系统，用于实现权利要求1所述的实现航空领域知识问答的方法，其包括以下模块：数据预处理模块、段落筛选模块和问答模型模块；

数据预处理模块：该模块对文本段落和问题文本提取具有不同优先级的词；

段落筛选模块：该模块通过词典权重调整的BM25改进算法进行段落筛选，筛选出最大可能(即最大概率)包含针对航空领域标准指标问题的答案文本段落k篇，即确定答案句所在文本段落并能够确定问题答案来源于单文本或是多文本；

问答模型模块：该模块通过多特征融合辅以领域对抗训练的深度学习模型，在上述k篇可能(即最大概率)包含答案句的文本段落中，确定单文本答案句，或者依据融合语义基于依据句法分析树生成多文本答案句；

其中，数据预处理模块将结果发送到段落筛选模块，段落筛选模块将结果发送到问答模型模块。

与现有技术相比，本发明具有以下有益效果：

1、首次在航空知识领域的问答算法中采用词典权重调整的BM25改进算法进行答案文本筛选。

2、在智能问答的生成过程中，将经过航空领域微调的Bert输出的字向量与Word2Vec学习到的词的五笔、拼音、郑码、笔画的上下文特征进行融合，作为深度学习模型BiDAF的输入，同时在训练的过程中添加了面向航空领域数据的对抗训练，生成答案，提高了问答的适用范围，提升用户体验。

3、首次实现了答案来自于多段航空领域标准文本的多文本问答，通过融合语义基于依据句法分析树的规则组合多段候选答案文本生成答案句。

4、本发明针对航空领域，解决了现有的智能问答系统无法满足专业领域包含的专用名词中英文混杂的语法规范、模糊性、二义性、缩写和匹配的需求。

附图说明

图1是实现航空领域知识问答方法的步骤流程图；

图2是实现航空领域知识问答方法的详细过程流程图；

图3是实现航空领域知识问答系统的模块图；

图4是面向航空领域文本长度权重自适应调整及词典权重调整的BM25改进算法；

图5是改进的BiDAF+Bi-LSTM+面向航空领域的数据对抗训练模型图；

图6是融合语义基于依据句法分析树的规则生成多文本答案示意图。

具体实施方式

为更好的理解本发明的技术方案，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

本发明提出了一种实现航空领域知识问答的方法，实现了限定领域的智能问答功能，如图1所示，具体步骤如下：

S1：根据航空知识领域的文本段落得到问题文本，再对文本段落和问题文本中的词进行分类并设置优先级和权重，具体为：

对航空知识领域的文本段落进行问题提出与标注，得到航空领域有关标准指标的相关问题文本；

使用LTP(语言技术平台)分词工具，在文本段落中得到去除核心词、领域词和停用词之外的词，称为非相关词，非相关词一起组成了其他词汇词典。

对上述得到的三种不同类型的词赋予不同优先级和权重，对核心词设为第一优先级，设置的权重值高于其他两类词汇的权重，对领域词设为第二优先级，设置的权重高于非相关词的权重，对非相关词设为第三优先级，设置的权重最低。

核心词的提取、领域词典的构建以及通过LTP分词工具得到非相关词的具体实现方法为现有技术。

S2：针对三种不同优先级的词语，通过本发明改进的词典权重调整的BM25算法，得到和问题文本Q最相似的k篇文本段落。

通过问题文本Q分词后得到的词和文本段落D使用词典权重调整的BM25算法进行匹配，得到两者之间的相似度得分加权和，也就是问题文本Q和文本段落D的相似度得分，其中词典权重调整的BM25算法如图4所示，具体如公式(1)-(4)：

其中P₁>P₂>(3-P₁-P₂) (4)

其中，P₁、P₂分别为问题核心词和领域词典词的权重；k₃为词q_i的权重，词的优先级别越高，权重值越大，对相似度得分加权和的影响越大；score(D,Q)为问题文本Q和文本段落D的相似度得分；n为问题文本Q分词后得到的词的数量；i为正整数；IDF(q_i)为q_i的逆向文档频率；R(q_i,D)为词q_i与文本段落D的相关性得分；N为全部文本段落数.；df_i为包含词q_i的文本段落数；f(q_i,D)为q_i在文本段落D中出现的频率；k₁为第一调节因子，一般k₁＝2；|D|为文本段落D的长度，avgdl为所有文本段落的平均长度；b为第二调节因子，本发明通过在训练样本中对其不断迭代得出b＝0.6时可以得到最高准确率。

score(D,Q)计算的是问题Q中不同级别词语q与文本D的相关性得分，加权和就是问题Q与文本D的相似度得分，根据公式(1)可以看出，词的优先级别越高，权重值越大，对相似度得分加权和的影响越大。根据score(D,Q)的数值，筛选出与问题文本Q相似度得分最高的文本段落，以及与相似度最高得分的差小于阈值s_threshold的k篇文本段落。

S3：将问题文本Q和k篇文本段落中的每一个文本分别使用面向航空领域微调后的Bert模型得到对应文本的字符特征向量，具体为：

从多方面收集航空领域的文本数据，通过训练得到面向航空领域微调后的Bert模型。

将文本中的所有字符通过面向航空领域微调后的BERT预训练模型可以得到和文本中字符相对应的字符级别的特征向量。此处的文本特指问题文本Q和k篇文本段落中的文本。

S4：利用Word2Vec模型得到字符其它特征向量，将字符特征向量和字符其它特征向量进行融合，最后获得字符最终特征向量，实现了多特征子空间的文本映射表示；字符其它特征向量包括郑码、五笔、拼音和笔画特征向量。

S5：将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi-LSTM模型，并使用面向航空领域的数据进行对抗训练，得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量。

将问题文本Q和k篇文本段落的字符最终特征向量输入到BiDAF模型使得两者特征相互交互，再输入到Bi-LSTM模型，对信息进行编码增强序列依赖，最终得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量。使用面向航空领域的数据进行对抗训练增强带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量的鲁棒性。

现有的BiDAF+Bi-LSTM模型是使用Word2Vec获得词向量后使用Bi-LSTM提取特征获得词与词之间的关系，再使用BiDAF(Bi-Directional Attention Flow for MachineComprehension机器理解之双向注意力流)通过问题到文本注意力和文本到问题注意力获取文本与问题相关特征，然后再将其输出作为输入连接到Bi-LSTM模型中。传统BiDAF几乎仅应用于英文问答，但是对于航空领域中文文本，没有成熟的分词工具和方法，分词质量严重影响词嵌入向量的生成和下游模型的效果同时词的数量也远远多于组成词的字的数量。

本发明对BiDAF+Bi-LSTM模型进行改进，使用BERT模型替换Word2Vec和第一个Bi-LSTM模型，BERT模型使用字向量且有更好的上下文互信息，可以更好的提取文本特征，且效果优于传统BiDAF模型。将问题文本和文本段落使用BERT模型进行编码(步骤S3和S4)，再使用BiDAF通过问题到文本注意力和文本到问题注意力获取文本与问题相关特征，增强原文文本和问题之间的交互性，再将其输出作为输入连接到Bi-LSTM模型中，利用门控机制进一步对现有信息进行编码，增强序列依赖。最后使用面向航空领域的数据对抗训练增强模型对抗样本的鲁棒性，最终得到具备领域特色挖掘深度和融合多特征的词向量表示；

S7：判断k值是否等于1，若k＝1，则问题的答案来自单文本，直接得到该单文本问题的答案句；若k≠1，则问题的答案来自多文本，需要对多段候选答案文本进行融合语义基于依据句法分析树的规则组合，进行语法和语义判断。

S8：判断为多文本问答，则使用LTP(语言技术平台)工具根据答案句的依存句法结构和语义角色关系，利用句法规则生成多文本答案句。

使用依存句法分析关系中的主谓和动宾关系的组合，主谓、介宾和动补关系的组合关系等关系组合，抽取主谓宾三元组，若无法抽出，使用语义角色关系施事、受事关系来确定主谓宾三元组。将同主语的句子组合，仅保留一个主语，其他主语删除，并拼接成同一句话；若多个句子有共同的谓语宾语，将主语使用‘和’拼接与谓语宾语组成新句子。若问题针对的主语确定，则删除多条候选答案中重复出现的主语，仅保留一个主语，同时在多个句子之间根据语义添加必要的连接词使之成为完整的句子。

若候选答案句中出现大量冗余词，则将重复出现的词语进行删除，通过添加代词或连接词补充语义。

同时删除句子长度低于设置阈值无法成为描述答案的候选句。

通过这些句法规则，针对提出的问题，将多条答案候选句生成合乎语义和语法且简练阅读流畅的答案句。

本发明还公开了一种实现航空领域知识问答的系统，如图3所示，包括：数据预处理模块、段落筛选模块和问答模型模块，其中：数据预处理模块将结果发送到段落筛选模块，段落筛选模块将结果发送到问答模型模块。

数据预处理模块：该模块为后续能够针对航空领域标准指标问题准确筛选出包含答案的文本段落提取具有不同优先级的词，即实现步骤S1的功能。

段落筛选模块：该模块通过词典权重调整的BM25改进算法进行段落筛选，筛选出最大可能包含针对航空领域标准指标问题的答案文本段落k篇，即确定答案句所在文本段落并能够确定问题答案来源于单文本或是多文本，即实现步骤S2的功能。

问答模型模块：该模块通过多特征融合辅以领域对抗训练的深度学习模型，在上述k篇可能包含答案句的文本段落中，确定单文本答案句，并依据融合语义基于依据句法分析树生成多文本答案句，即实现步骤S3-S8的功能。

为了使本申请的目的、技术方案及优点更加清楚明白，下面使用本申请实施例中的技术方案来对本发明的步骤进行更加清楚、完整地描述，以帮助理解本发明。须知，本申请中所描述的实施例只是部分实施例，而不是全部的实施例。

一种实现航空领域知识问答的方法，具体实现过程如下：

S1：根据航空知识领域文本段落得到问题文本，再根据航空知识领域文本段落和问题文本对文本中的词进行分类并设置优先级和权重。

对航空知识领域文本段落进行问题提出与标注，得到航空领域有关标准指标的相关问题文本；

对问题文本提取核心词，如“最低速度”；

对文本段落进行领域词典构建，再在领域词典中增加指标名称和标准名称，例如“通用规范2”等，领域词典中的词称为领域词；

使用LTP(语言技术平台)分词器获取非相关词，具体为：使用LTP分词器分词后，去除核心词、领域词以及停用词后得到的词为非相关词。

S2：使用LTP分词器分词后的问题文本Q和所有文本段落使用改进的BM25算法进行匹配。

获取问题文本Q分词后得到的单词和文本段落D之间的相似度得分的加权和，三类词的权重分别为：对于问题核心词值为P₁，对于领域词典词值为P₂，非相关词值为3-P₁-P₂，BM25计算方法如公式(1)-(4)所示，计算出问题与所有文本的相关性得分。选择相关性最高的文本和与他差值在阈值s_threshold＝0.1内的所有文本作为答案来源文本共计k篇。若只有一条文本，则为单文本问答；若有多条文本则为多文本问答。

S3：将问题文本Q和k篇文本段落的每一个字符分别使用面向航空领域微调后的Bert模型得到对应文本的字符级的特征向量，具体为：

面向航空领域微调后的Bert模型是通过航空领域的文本数据训练得到，对Bert模型的微调为现有技术。

因为本发明中问答任务要预测下一句，因此输入是有关联的句子对，如文本段落由abcd四句话组成，则输入时是划分成：ab\bc\cd三个句子对来进行处理。

本发明对Bert的输入采用了三个嵌入量(Embedding)相加的方式，包括：字嵌入量(Token Embeddings)，片段嵌入量(Segment Embeddings)，和位置嵌入量(PositionEmbeddings)三个向量。

Token Embeddings即通过建立字向量表将每个字转换成一个一维向量，作为模型输入。

Segment Embeddings对输入的句子对进行区分，若输入的是一个句子，那么Segement embeddings对句子的各个字符赋值全部为0；若输入的是一对句子(以句号区分)，则第一个句子的各个字符赋值为0，后一个句子的各个字符赋值为1。因为本发明中问答任务要预测下一句，因此输入是有关联的句子对，因此需要Segment Embeddings。

为了解决注意力机制不提取时序特征问题，加入了位置嵌入量PositionEmbeddings；

每个字符的位置嵌入量根据式(5)或(6)确定：

其中，pos表示输入的位置；当d_model表示Bert模型处理的向量维度，Bert模型能处理的最大维度是512，Bert模型处理的向量维度根据需要设定，如设定Bert模型处理的向量维度为384；i为正整数，i从0开始，当pos＝2i时，位置嵌入量使用公式(5)，当pos＝2i+1时，位置嵌入量使用公式(6)。

将问题文本Q和k篇文本段落的每一个文本都分别使用BERT进行编码获取向量。

S4：利用Word2Vec模型按照字符与特征(即五笔、郑码、拼音、笔画)进行上下文的学习。

特征包括郑码、五笔、拼音和笔画特征，通过郑码、五笔挖掘出非结构化文本中的潜在语义关系，郑码和五笔都是基于汉字的象形结构获取特征向量，而读音的变化也对汉字的语义表达有着不可忽视的作用，再辅以笔画特征，

Word2Vec是文本向量化的经典模型，是轻量级的神经网络，其模型仅仅包括输入层、隐藏层和输出层，模型框架根据输入输出的不同，主要包括CBOW和Skip-gram模型。本发明主要应用了Skip-gram模型，即在已知词W_t的情况下，对W_t的上下文W_t-2，W_t-1，W_t+1，W_t+2进行预测。首先将单词表示为计算机可表示的形式(one-hot向量)，然后输入模型，隐藏层所作的事情就是降维，通过矩阵乘法将输入层输入的稀疏的one-hot向量降维成低维的稠密向量。以词语在语料库中的词频作为权值构造的一棵二叉树。叶子节点对应词汇表中的所有词语。假设叶子节点为N个，则非叶子节点为N-1个。叶子节点和非叶子节点均对应一个向量。其中叶子节点对应的向量即为词向量，而非叶子节点对应的向量是一个辅助向量。最后通过softmax分类器得到表示输出结果为对应单词的概率，将概率最大的对应词向量作为预测词的词向量表示。

S4.1郑码特征向量

郑码与五笔都是一种科学的编码,通过对汉字字形结构的深入研究得到，郑码有助于挖掘出非结构化文本中的潜在语义关系，可使神经网络通过不同汉字的字型结构组成学习到航空领域的命名内部和外部实体边界信息。利用官方发布的郑码与汉字的映射表将航空领域的文本进行转换，之后使用Word2Vec模型进行按句训练获取每个字符的上下文特征，并提供字符的郑码特征向量。郑码特征向量过程如公式10、11所示：

p1＝f_zhengma(X) (10)

其中，X表示输入序列，X由字符x_i组成，表示输入序列中的第i个字符，n为输入序列长度，i为正整数，f_zhengma表示将输入的字符序列映射为郑码序列的函数，f_zhengma使用官方发布的郑码与汉字的映射表，得到郑码序列p1，p1由郑码字符p1_i组成，p1_i表示x_i对应的郑码，e^zhengma表示使用Word2Vec对郑码字符p1_i转换为郑码特征向量，

表示与输入序列中字符x_i对应的郑码特征向量。

S4.2五笔特征向量

使用五笔特征向量和郑码特征向量二者进行互相矫正编码的缺陷。本文利用与训练郑码特征类似的方法完成五笔特征获取。五笔特征的向量化的过程如公式(12)、(13)所示。

p2＝f_wubi(X) (12)

其中，X表示输入序列，X由字符x_i组成，表示输入序列中的第i个字符，f_wubi表示将输入的字符序列映射为五笔序列的函数，f_wubi使用官方发布的五笔与汉字的映射表，得到五笔序列p2，p2由五笔字符p2_i组成，p2_i表示x_i对应的五笔，e^wubi表示使用Word2Vec对五笔p2_i转换为五笔特征向量，

表示与输入序列中字符x_i对应的五笔特征向量。

S4.3拼音特征向量

构建出输入序列和拼音特征序列的映射关系，之后利用Word2vec模型完成拼音特征的向量化。拼音特征向量化过程如公式(14)、(15)所示：

p3＝f_pinyin(X) (14)

其中，X表示输入序列，X由字符x_i组成，表示输入序列中的第i个字符，f_pinyin表示将输入的字符序列映射为拼音序列的函数，f_pinyin使用官方发布的拼音与汉字的映射表，得到拼音序列p3，p3由拼音字符p3_i组成，p3_i表示x_i对应的拼音字符，e^wubi表示使用Word2Vec对拼音字符p3_i转换为拼音特征向量，

表示与输入序列中字符x_i对应的拼音特征向量。

S4.4笔画特征向量

构建出输入序列和笔画特征序列的映射关系，之后利用Word2vec模型完成笔画特征的向量化。笔画向量化过程如公式(16)、(17)所示：

p4＝f_bihua(X) (16)

其中，X表示输入序列，X由字符x_i组成，表示输入序列中的第i个字符，f_bihua表示将输入的字符序列映射为笔画序列的函数，f_bihua使用汉字的标准笔画对字符进行转换，得到笔画序列p4，p4由笔画字符p4_i组成，p4_i表示x_i对应的笔画，e^bihua表示使用Word2Vec对笔画字符p4_i转换为笔画特征向量，

表示与输入序列中字符x_i对应的笔画特征向量。

S4.5将字符向量和特征向量进行融合得到字符最终特征向量

将字符特征向量

和字符其它特征向量进行拼接处理得到具有挖掘深度的字符最终特征向量，字符最终特征向量的获取如公式(18)所示。

其中

分别代表着字符x_i对应的BERT、郑码、五笔、拼音、笔画特征向量，表示

进行拼接处理后得到的字符最终特征向量。

S5：将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi-LSTM模型，并使用面向航空领域的数据进行对抗训练，得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量，如图5所示。

利用双向注意力流机制(BiDAF)获取问题和文本之间的注意力，双向注意力流机制包括问题到文本注意力和文本到问题注意力。

利用双向长短时记忆网络(BiLSTM)对特征进行进一步提取，BiLSTM综合考虑了正向特征提取和逆向特征提取，构建了两个方向相反的隐藏层，通过这种方式，BiLSTM可以更好的捕捉双向的语义依赖，取得更好的语义表达效果。

问题文本Q和文本段落需要成对输入到改进的BiDAF+Bi-LSTM模型，如根据步骤S2，有k篇文本段落和问题文本Q相关，那么就需要问题文本Q和每一篇文本段落一起输入到改进的BiDAF+Bi-LSTM模型，共需要输入k次。

S6：对文本段落使用全连接层和softmax获取答案句子。

对步骤S5输出的带有多种特征的文本段落字符特征向量中的每一个字符分别使用头分类器和尾分类器判断每个词作为答案头、尾的概率，选择概率最大的头和尾抽取出答案。分类器由全连接层和softmax函数组成。将概率最大的作为候选答案句。

S7：根据用户提出的问题对步骤1中得到的k值进行判断。若k＝1，则问题的答案来自单文本，直接得到该单文本问题的答案句；若k≠1，则问题的答案来自多文本，那么还需要进行步骤8；

S8：判断为多文本问答，则利用句法规则生成多文本问题的答案句。经过上述步骤，多文本问答的答案会出现在多条原文文本中。根据句法规则对多条候选答案进行语法和语义判断，如图6所示。

语言技术平台(LTP)提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术，它已经成为国内外最具影响力的中文处理基础平台。本发明利用LTP工具提取文本中各词语之间的关系后，如主谓关系动宾关系等，生成句法分析树，然后再利用句法分析树中的规则，把多个文本答案句融合成一个答案,这个答案被称为多文本问题的答案句。句法规则至少包括以下几条：

8.1主语判断

对问题和多条候选答案文本进行语法分析，确定主语。若问题针对的主语确定，则仅保留一个直接主语，其他主语采用人称代词进行替换。

8.2冗余词判断

对多条候选答案文本进行语义分析，判断是否有含义重复的词汇。若候选答案句中出现大量冗余词，则将重复出现的词语进行删除，通过添加代词或连接词补充语义。

8.3句义完整性判断

对多条候选答案文本进行句子长度统计，删除句子长度低于设置阈值无法成为描述答案的候选句。

8.4组合生成

对经过上述处理后的多条候选答案文本，进行连接词、指示代词的增添补充，使之组合生成完整的合乎语义和语法的答案句。

本发明针对现有的智能问答系统相关的技术问题和面向限定领域的智能问答的需求，提出了实现航空领域知识问答的方法和系统，并且不仅使得文本问答答案来自于单一文本的准确率较高，还保证了文本答案来自多条文本的准确率。

(1)段落筛选阶段的关键技术点和保护点：面向航空领域文本长度权重自适应调整及词典权重调整的BM25改进算法：基于领域的依存句法树提取问题中的核心词，形成核心词典；利用基于领域依存句法分析树及领域规则提取航空知识文本段落中的领域词，形成领域词典；将核心词典和领域词典融入到LTP工具中辅助分词，并形成除核心词、领域词之外的其他词汇词典，在利用BM25计算问题与文本相似度时，对三个词典辅以不同的权重，其中核心词的权重大于领域词的权重，领域词典的权重大于其他词的权重，除此之外，还针对语料中航空文本问题与答案之间的关系，通过多轮迭代实现文本长度权重的自适应调整。

(2)答案生成阶段关键的技术点和保护点：多特征融合辅以领域对抗训练的深度学习模型：通过面向航空领域微调的BERT预训练模型，利用Word2Vec模型按照字符与特征(即五笔、郑码、拼音、笔画)进行上下文的学习，获取融合不同特征子空间的各个特征的词向量表示，然后投入BiDAF+Bi-LSTM+面向航空领域的数据对抗训练，利用双向注意力流(Bi-Directional Attention Flow，BiDAF)增强问题和原文文本的相关性，提升序列依赖关系，通过对抗训练增强模型鲁棒性，最终得到具备领域特色挖掘深度的词向量表示。

(3)答案生成后处理阶段的关键技术点和保护点：融合语义基于依据句法分析树的规则组合生成：问题的答案来自多文本，需要对多段候选答案文本进行融合语义基于依据句法分析树的规则组合，进行语法和语义判断。若问题针对的主语确定，则删除多条候选答案中重复出现的主语，仅保留一个主语，同时在多个句子之间根据语义添加必要的连接词使之成为完整的句子。若候选答案句中出现大量冗余词，则将重复出现的词语进行删除，通过添加代词或连接词补充语义。同时删除句子长度低于设置阈值无法成为描述答案的候选句。通过这些句法规则，针对提出的问题，将多条答案候选句生成合乎语义和语法的答案句。

(4)将上述三个关键步骤和技术进行有机组合，首次应用到航空领域知识的智能问答中，有效地提升了智能问答的效果，亦为本发明的关键技术点和保护点。

以上所述仅用于说明本申请的技术方案和具体实施步骤，并非对该领域的解决方法进行限制。本领域的技术人员能当清晰地了解到：其仍然可以对上述记载的技术方案和实施步骤进行一定修改，或者对某些功能的技术实现进行同等的替换；而这些修改或者替换，并不会改变响应的技术方案的本质，不脱离本申请的精神内容的范围，因此仍属于本申请的保护范围之中。

Claims

1.一种实现航空领域知识问答的方法，其特征在于：其包括以下步骤：

2.根据权利要求1所述的实现航空领域知识问答的方法，其特征在于：所述步骤S1中对文本段落和问题文本中的词语进行分类并设置优先级和权重，具体为：

3.根据权利要求2所述的实现航空领域知识问答的方法，其特征在于：所述步骤S2中改进的词典权重调整的BM25算法，具体为：

4.根据权利要求1所述的实现航空领域知识问答的方法，其特征在于：所示步骤S3具体为：

Segment Embeddings对输入的句子对进行区分，若输入的是一个句子，那么Segementembeddings对句子的各个字符赋值全部为0；若输入的超过一个句子，则第一个句子的各个字符赋值为0，后面句子的各个字符赋值为1；

Position Embeddings用于得到位置嵌入量；

5.根据权利要求4所述的实现航空领域知识问答的方法，其特征在于：所示步骤S3中Position Embeddings用于得到位置嵌入量，的具体方式为：

每个字符的位置嵌入量PE根据式(5)或(6)确定：

6.根据权利要求1所述的实现航空领域知识问答的方法，其特征在于：所示步骤S8中使用LTP工具根据答案句的依存句法结构和语义角色关系，利用句法规则生成多文本答案句，句法规则具体为：

S8.1主语判断

S8.2冗余词判断

S8.3句义完整性判断

S8.4组合生成

7.一种实现航空领域知识问答的系统，用于实现权利要求1所述的实现航空领域知识问答的方法，其包括以下模块：数据预处理模块、段落筛选模块和问答模型模块；

段落筛选模块：该模块通过词典权重调整的BM25改进算法进行段落筛选，筛选出最大概率包含针对航空领域标准指标问题的答案文本段落k篇，即确定答案句所在文本段落并能够确定问题答案来源于单文本或是多文本；

问答模型模块：该模块通过多特征融合辅以领域对抗训练的深度学习模型，在上述k篇最大概率包含答案句的文本段落中，确定单文本答案句，或者依据融合语义基于依据句法分析树生成多文本答案句；