CN114757184A - 实现航空领域知识问答的方法和系统 - Google Patents

实现航空领域知识问答的方法和系统 Download PDF

Info

Publication number
CN114757184A
CN114757184A CN202210376477.4A CN202210376477A CN114757184A CN 114757184 A CN114757184 A CN 114757184A CN 202210376477 A CN202210376477 A CN 202210376477A CN 114757184 A CN114757184 A CN 114757184A
Authority
CN
China
Prior art keywords
text
question
words
answer
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210376477.4A
Other languages
English (en)
Other versions
CN114757184B (zh
Inventor
董洪飞
高魁
贺薇
陶剑
刘俊
王孝天
武铎
高龙
何柳
安然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Aero Polytechnology Establishment
Original Assignee
China Aero Polytechnology Establishment
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Aero Polytechnology Establishment filed Critical China Aero Polytechnology Establishment
Priority to CN202210376477.4A priority Critical patent/CN114757184B/zh
Publication of CN114757184A publication Critical patent/CN114757184A/zh
Application granted granted Critical
Publication of CN114757184B publication Critical patent/CN114757184B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种实现航空领域知识问答的方法和系统,方法包括以下步骤:S1:对文本中的词语进行分类并设置权重;S2:通过改进的词典权重调整的BM25算法,得到和问题文本最相似的k篇文本段落;S3:使用Bert模型得到对应文本的字符特征向量;S4:通过特征融合获得字符最终特征向量;S5:将字符最终特征向量输入到改进的BiDAF+Bi‑LSTM模型得到带有多种特征的问题文本字符特征向量和文本段落字符特征向量;S6:通过判断答案开始的全连接层+softmax和判断答案结束的全连接层+softmax抽取出对应文本的答案句;S7:若k=1,直接得到答案句;若k≠1,还需执行S8;S8:使用LTP工具生成多文本答案句。系统用于实现方法。本发明解决现有的智能问答系统无法满足航空领域问答的需求。

Description

实现航空领域知识问答的方法和系统
技术领域
本申请涉及人工智能领域,具体涉及一种实现航空领域知识问答的方法和系统。
背景技术
随着人工智能的快速发展,许多生活工作必备的智能产品都需要具有人工智能问答的功能,提升智能问答的准确性对于用户体验具有十分重要的意义。
智能问答系统是综合运用了自然语言处理、信息检索、语义分析和人工智能等技术的一种新型的信息服务系统。最初的问答系统是由ELIZA和ALICE设计实现的基于模式匹配的问答系统。该问答系统通过匹配用户问题与人工定义问题模板来获取问题答案,或者基于领域专家知识制定启发式规则推理获得相应的结果。但是由于这类系统的模式库和规则的构建非常困难,需要领域专家综合领域知识且受到知识理解的限制,对于新的领域知识往往缺乏相匹配的知识性能很差。目前较多商业化公司采用的智能问答系统是基于FAQ(Frequently Asked Questions)的问答系统,其侧重于将问题及相应的答案对存放在系统的知识库中通过提问相似度设置阈值找寻答案。其采用的技术主要包括CNN(Convolutional Neural Network)、LSTM(Long Short-Term Memory)和Attention机制。CNN主要依赖于空间上的卷积核来考虑序列依赖关系。LSTM引入了门控记忆单元,有效地解决了长期信息保存和短期输入跳跃的问题。而LSTM只能对输入生成固定长度的向量,不会对信息重要程度进行区分。Attention机制的核心逻辑就是从关注全部到关注重点,将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。这些技术方法使得该问答系统结构框架明了、实现简单、容易理解。但基于FAQ的问答系统的缺点是知识库的构建需要大量的人员参与,比较耗时、系统灵活性较低,问题的覆盖面较低。随着BERT(Bidirectional Encoder Representation from Transformers)预训练模型的出现,语言模型对文本语义的表征提取更加丰富。随之发展出基于无结构化文本的问答技术主要包括社区问答和基于问答式搜索的问答系统。该类系统的缺点是没有专业知识库的支撑,只能对有限类型的问题进行回答,在专业度较高的领域不适用。
由上可知,现有的智能问答系统主要应用于开放领域,而限定领域(政府、医疗等)的数据难以通过互联网直接获取,系统无法很好的理解用户所提出的问题与所对应的领域相关的知识。导致开放领域的智能问答系统难以在这些领域应用,无法返回较好的结果。因此特别需要一套面向专业领域的智能问答实现方法,能够通过用户输入来准确理解用户意图,快速、准确的由用户输入的查询语句匹配出候选答案。
发明内容
为了克服现有技术的缺陷,本发明提供一种实现航空领域知识问答的方法,其包括以下步骤:
S1:根据航空知识领域的文本段落得到问题文本,再对文本段落和问题文本中的词语进行分类并设置优先级和权重,
S2:针对不同优先级的词语,通过改进的词典权重调整的BM25算法,得到和问题文本最相似的k篇文本段落;
S3:将问题文本Q和k篇文本段落中的每一个文本分别使用面向航空领域微调后的Bert模型得到对应文本的字符特征向量;
S4:利用Word2Vec模型得到字符其它特征向量,将字符特征向量和字符其它特征向量进行融合,最后获得字符最终特征向量,实现了多特征子空间的文本映射表示;字符其它特征向量包括郑码、五笔、拼音和笔画特征向量;
S5:将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi-LSTM模型,并使用面向航空领域的数据进行对抗训练,得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,具体为:
将问题文本Q和k篇文本段落的字符最终特征向量输入到BiDAF模型使得两者特征相互交互,再输入到Bi-LSTM模型,对信息进行编码增强序列依赖,最终得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,使用面向航空领域的数据进行对抗训练增强带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量的鲁棒性;
S6:将带有多种特征的文本段落字符特征向量中的每一个字符对应的向量分别通过判断答案开始的全连接层+softmax和判断答案结束的全连接层+softmax抽取出对应文本的答案句;
S7:判断k值是否等于1,若k=1,则问题的答案来自单文本,直接得到该单文本答案句;若k≠1,则问题的答案来自多文本,需要对多段候选答案文本进行融合语义基于依据句法分析树的规则组合,进行语法和语义判断;
S8:判断为多文本问答,则使用LTP工具根据答案句的依存句法结构和语义角色关系,利用句法规则生成多文本答案句。
优选的,所述步骤S1中对文本段落和问题文本中的词语进行分类并设置优先级和权重,具体为:
对问题文本基于领域的依存句法树,分析提取问题中不依存于其他词语且被除本身之外所有词语依存的核心词,核心词一起组成核心词典;
对全部航空知识领域文本段落基于领域的依存句法树及领域规则提取出领域词,领域词一起构成了领域词典;
使用LTP分词工具,在文本段落中得到去除核心词、领域词和停用词之外的词,称为非相关词,非相关词一起组成了其他词汇词典;
对上述得到的三种不同类型的词赋予不同优先级和权重,对核心词设为第一优先级,设置的权重值高于其他两类词的权重,对领域词设为第二优先级,设置的权重高于非相关词的权重,对非相关词设为第三优先级,设置的权重最低。
优选的,所述步骤S2中改进的词典权重调整的BM25算法,具体为:
通过问题文本Q分词后得到的词和文本段落D使用词典权重调整的BM25算法进行匹配,得到两者之间的相似度得分加权和,也就是问题文本Q和文本段落D的相似度得分,其中词典权重调整的BM25算法具体如公式(1)-(4):
Figure BDA0003590591700000031
Figure BDA0003590591700000032
Figure BDA0003590591700000033
Figure BDA0003590591700000034
其中P1>P2>(3-P1-P2) (4)
其中,P1、P2分别为问题核心词和领域词典词的权重;k3为词qi的权重,词的优先级别越高,权重值越大,对相似度得分加权和的影响越大;score(D,Q)为问题文本Q和文本段落D的相似度得分;n为问题文本Q分词后得到的词的数量;i为正整数;IDF(qi)为qi的逆向文档频率;R(qi,D)为词qi与文本段落D的相关性得分;N为全部文本段落数.;dfi为包含词qi的文本段落数;f(qi,D)为qi在文本段落D中出现的频率;k1为第一调节因子;|D|为文本段落D的长度,avgdl为所有文本段落的平均长度;b为第二调节因子。
优选的,所示步骤S3具体为:
通过航空领域的文本数据训练得到面向航空领域微调后的Bert模型;
本发明对Bert的输入采用了三个嵌入量相加的方式,包括:字嵌入量TokenEmbeddings,片段嵌入量Segment Embeddings,和位置嵌入量Position Embeddings三个向量;
Token Embeddings通过建立字向量表将每个字符转换成一个一维向量;
Segment Embeddings对输入的句子对进行区分,若输入的是一个句子,那么Segement embeddings对句子的各个字符赋值全部为0;若输入的超过一个句子,则第一个句子的各个字符赋值为0,后面句子的各个字符赋值为1;
Position Embeddings用于得到位置嵌入量;
X表示输入序列,X由字符xi组成,表示输入序列中的第i个字符,将X经过TokenEmbeddings、Segment Embeddings和Position Embeddings处理后得到的三个嵌入量相加后,再输入面向航空领域微调后的Bert模型,得到字符xi对应的特征向量
Figure BDA0003590591700000041
优选的,所示步骤S3中Position Embeddings用于得到位置嵌入量,的具体方式为:
每个字符的位置嵌入量PE根据式(5)或(6)确定:
Figure BDA0003590591700000042
Figure BDA0003590591700000043
其中,pos表示输入的位置;当dmodel表示Bert模型处理的向量维度;i为正整数,i从0开始,当pos=2i时,位置编码使用公式(5),当pos=2i+1时,位置嵌入量使用公式(6)。
优选的,所示步骤S8中使用LTP工具根据答案句的依存句法结构和语义角色关系,利用句法规则生成多文本答案句,句法规则具体为:
S8.1主语判断
对问题和M条候选答案文本进行语法分析,确定主语,若问题针对的主语确定,则仅保留一个直接主语,其他主语采用人称代词进行替换;M为大于1的正整数;
S8.2冗余词判断
对M条候选答案文本进行语义分析,判断是否有含义重复的词汇,若候选答案句中出现大量冗余词,则将重复出现的词语进行删除,通过添加代词或连接词补充语义;
S8.3句义完整性判断
对M条候选答案文本进行句子长度统计,删除句子长度低于设置阈值无法成为描述答案的候选句;
S8.4组合生成
对经过上述处理后的M条候选答案文本,进行连接词、指示代词的增添补充,使之组合生成完整的合乎语义和语法的答案句。
本发明还公开了一种实现航空领域知识问答的系统,用于实现权利要求1所述的实现航空领域知识问答的方法,其包括以下模块:数据预处理模块、段落筛选模块和问答模型模块;
数据预处理模块:该模块对文本段落和问题文本提取具有不同优先级的词;
段落筛选模块:该模块通过词典权重调整的BM25改进算法进行段落筛选,筛选出最大可能(即最大概率)包含针对航空领域标准指标问题的答案文本段落k篇,即确定答案句所在文本段落并能够确定问题答案来源于单文本或是多文本;
问答模型模块:该模块通过多特征融合辅以领域对抗训练的深度学习模型,在上述k篇可能(即最大概率)包含答案句的文本段落中,确定单文本答案句,或者依据融合语义基于依据句法分析树生成多文本答案句;
其中,数据预处理模块将结果发送到段落筛选模块,段落筛选模块将结果发送到问答模型模块。
与现有技术相比,本发明具有以下有益效果:
1、首次在航空知识领域的问答算法中采用词典权重调整的BM25改进算法进行答案文本筛选。
2、在智能问答的生成过程中,将经过航空领域微调的Bert输出的字向量与Word2Vec学习到的词的五笔、拼音、郑码、笔画的上下文特征进行融合,作为深度学习模型BiDAF的输入,同时在训练的过程中添加了面向航空领域数据的对抗训练,生成答案,提高了问答的适用范围,提升用户体验。
3、首次实现了答案来自于多段航空领域标准文本的多文本问答,通过融合语义基于依据句法分析树的规则组合多段候选答案文本生成答案句。
4、本发明针对航空领域,解决了现有的智能问答系统无法满足专业领域包含的专用名词中英文混杂的语法规范、模糊性、二义性、缩写和匹配的需求。
附图说明
图1是实现航空领域知识问答方法的步骤流程图;
图2是实现航空领域知识问答方法的详细过程流程图;
图3是实现航空领域知识问答系统的模块图;
图4是面向航空领域文本长度权重自适应调整及词典权重调整的BM25改进算法;
图5是改进的BiDAF+Bi-LSTM+面向航空领域的数据对抗训练模型图;
图6是融合语义基于依据句法分析树的规则生成多文本答案示意图。
具体实施方式
为更好的理解本发明的技术方案,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明提出了一种实现航空领域知识问答的方法,实现了限定领域的智能问答功能,如图1所示,具体步骤如下:
S1:根据航空知识领域的文本段落得到问题文本,再对文本段落和问题文本中的词进行分类并设置优先级和权重,具体为:
对航空知识领域的文本段落进行问题提出与标注,得到航空领域有关标准指标的相关问题文本;
对问题文本基于领域的依存句法树,分析提取问题中不依存于其他词语且被除本身之外所有词语依存的核心词,核心词一起组成核心词典;
对全部航空知识领域文本段落基于领域的依存句法树及领域规则提取出领域词,领域词一起构成了领域词典;
使用LTP(语言技术平台)分词工具,在文本段落中得到去除核心词、领域词和停用词之外的词,称为非相关词,非相关词一起组成了其他词汇词典。
对上述得到的三种不同类型的词赋予不同优先级和权重,对核心词设为第一优先级,设置的权重值高于其他两类词汇的权重,对领域词设为第二优先级,设置的权重高于非相关词的权重,对非相关词设为第三优先级,设置的权重最低。
核心词的提取、领域词典的构建以及通过LTP分词工具得到非相关词的具体实现方法为现有技术。
S2:针对三种不同优先级的词语,通过本发明改进的词典权重调整的BM25算法,得到和问题文本Q最相似的k篇文本段落。
通过问题文本Q分词后得到的词和文本段落D使用词典权重调整的BM25算法进行匹配,得到两者之间的相似度得分加权和,也就是问题文本Q和文本段落D的相似度得分,其中词典权重调整的BM25算法如图4所示,具体如公式(1)-(4):
Figure BDA0003590591700000071
Figure BDA0003590591700000072
Figure BDA0003590591700000073
Figure BDA0003590591700000074
其中P1>P2>(3-P1-P2) (4)
其中,P1、P2分别为问题核心词和领域词典词的权重;k3为词qi的权重,词的优先级别越高,权重值越大,对相似度得分加权和的影响越大;score(D,Q)为问题文本Q和文本段落D的相似度得分;n为问题文本Q分词后得到的词的数量;i为正整数;IDF(qi)为qi的逆向文档频率;R(qi,D)为词qi与文本段落D的相关性得分;N为全部文本段落数.;dfi为包含词qi的文本段落数;f(qi,D)为qi在文本段落D中出现的频率;k1为第一调节因子,一般k1=2;|D|为文本段落D的长度,avgdl为所有文本段落的平均长度;b为第二调节因子,本发明通过在训练样本中对其不断迭代得出b=0.6时可以得到最高准确率。
score(D,Q)计算的是问题Q中不同级别词语q与文本D的相关性得分,加权和就是问题Q与文本D的相似度得分,根据公式(1)可以看出,词的优先级别越高,权重值越大,对相似度得分加权和的影响越大。根据score(D,Q)的数值,筛选出与问题文本Q相似度得分最高的文本段落,以及与相似度最高得分的差小于阈值s_threshold的k篇文本段落。
S3:将问题文本Q和k篇文本段落中的每一个文本分别使用面向航空领域微调后的Bert模型得到对应文本的字符特征向量,具体为:
从多方面收集航空领域的文本数据,通过训练得到面向航空领域微调后的Bert模型。
将文本中的所有字符通过面向航空领域微调后的BERT预训练模型可以得到和文本中字符相对应的字符级别的特征向量。此处的文本特指问题文本Q和k篇文本段落中的文本。
S4:利用Word2Vec模型得到字符其它特征向量,将字符特征向量和字符其它特征向量进行融合,最后获得字符最终特征向量,实现了多特征子空间的文本映射表示;字符其它特征向量包括郑码、五笔、拼音和笔画特征向量。
S5:将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi-LSTM模型,并使用面向航空领域的数据进行对抗训练,得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量。
将问题文本Q和k篇文本段落的字符最终特征向量输入到BiDAF模型使得两者特征相互交互,再输入到Bi-LSTM模型,对信息进行编码增强序列依赖,最终得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量。使用面向航空领域的数据进行对抗训练增强带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量的鲁棒性。
现有的BiDAF+Bi-LSTM模型是使用Word2Vec获得词向量后使用Bi-LSTM提取特征获得词与词之间的关系,再使用BiDAF(Bi-Directional Attention Flow for MachineComprehension机器理解之双向注意力流)通过问题到文本注意力和文本到问题注意力获取文本与问题相关特征,然后再将其输出作为输入连接到Bi-LSTM模型中。传统BiDAF几乎仅应用于英文问答,但是对于航空领域中文文本,没有成熟的分词工具和方法,分词质量严重影响词嵌入向量的生成和下游模型的效果同时词的数量也远远多于组成词的字的数量。
本发明对BiDAF+Bi-LSTM模型进行改进,使用BERT模型替换Word2Vec和第一个Bi-LSTM模型,BERT模型使用字向量且有更好的上下文互信息,可以更好的提取文本特征,且效果优于传统BiDAF模型。将问题文本和文本段落使用BERT模型进行编码(步骤S3和S4),再使用BiDAF通过问题到文本注意力和文本到问题注意力获取文本与问题相关特征,增强原文文本和问题之间的交互性,再将其输出作为输入连接到Bi-LSTM模型中,利用门控机制进一步对现有信息进行编码,增强序列依赖。最后使用面向航空领域的数据对抗训练增强模型对抗样本的鲁棒性,最终得到具备领域特色挖掘深度和融合多特征的词向量表示;
S6:将带有多种特征的文本段落字符特征向量中的每一个字符对应的向量分别通过判断答案开始的全连接层+softmax和判断答案结束的全连接层+softmax抽取出对应文本的答案句;
S7:判断k值是否等于1,若k=1,则问题的答案来自单文本,直接得到该单文本问题的答案句;若k≠1,则问题的答案来自多文本,需要对多段候选答案文本进行融合语义基于依据句法分析树的规则组合,进行语法和语义判断。
S8:判断为多文本问答,则使用LTP(语言技术平台)工具根据答案句的依存句法结构和语义角色关系,利用句法规则生成多文本答案句。
使用依存句法分析关系中的主谓和动宾关系的组合,主谓、介宾和动补关系的组合关系等关系组合,抽取主谓宾三元组,若无法抽出,使用语义角色关系施事、受事关系来确定主谓宾三元组。将同主语的句子组合,仅保留一个主语,其他主语删除,并拼接成同一句话;若多个句子有共同的谓语宾语,将主语使用‘和’拼接与谓语宾语组成新句子。若问题针对的主语确定,则删除多条候选答案中重复出现的主语,仅保留一个主语,同时在多个句子之间根据语义添加必要的连接词使之成为完整的句子。
若候选答案句中出现大量冗余词,则将重复出现的词语进行删除,通过添加代词或连接词补充语义。
同时删除句子长度低于设置阈值无法成为描述答案的候选句。
通过这些句法规则,针对提出的问题,将多条答案候选句生成合乎语义和语法且简练阅读流畅的答案句。
本发明还公开了一种实现航空领域知识问答的系统,如图3所示,包括:数据预处理模块、段落筛选模块和问答模型模块,其中:数据预处理模块将结果发送到段落筛选模块,段落筛选模块将结果发送到问答模型模块。
数据预处理模块:该模块为后续能够针对航空领域标准指标问题准确筛选出包含答案的文本段落提取具有不同优先级的词,即实现步骤S1的功能。
段落筛选模块:该模块通过词典权重调整的BM25改进算法进行段落筛选,筛选出最大可能包含针对航空领域标准指标问题的答案文本段落k篇,即确定答案句所在文本段落并能够确定问题答案来源于单文本或是多文本,即实现步骤S2的功能。
问答模型模块:该模块通过多特征融合辅以领域对抗训练的深度学习模型,在上述k篇可能包含答案句的文本段落中,确定单文本答案句,并依据融合语义基于依据句法分析树生成多文本答案句,即实现步骤S3-S8的功能。
为了使本申请的目的、技术方案及优点更加清楚明白,下面使用本申请实施例中的技术方案来对本发明的步骤进行更加清楚、完整地描述,以帮助理解本发明。须知,本申请中所描述的实施例只是部分实施例,而不是全部的实施例。
一种实现航空领域知识问答的方法,具体实现过程如下:
S1:根据航空知识领域文本段落得到问题文本,再根据航空知识领域文本段落和问题文本对文本中的词进行分类并设置优先级和权重。
对航空知识领域文本段落进行问题提出与标注,得到航空领域有关标准指标的相关问题文本;
对问题文本提取核心词,如“最低速度”;
对文本段落进行领域词典构建,再在领域词典中增加指标名称和标准名称,例如“通用规范2”等,领域词典中的词称为领域词;
使用LTP(语言技术平台)分词器获取非相关词,具体为:使用LTP分词器分词后,去除核心词、领域词以及停用词后得到的词为非相关词。
S2:使用LTP分词器分词后的问题文本Q和所有文本段落使用改进的BM25算法进行匹配。
获取问题文本Q分词后得到的单词和文本段落D之间的相似度得分的加权和,三类词的权重分别为:对于问题核心词值为P1,对于领域词典词值为P2,非相关词值为3-P1-P2,BM25计算方法如公式(1)-(4)所示,计算出问题与所有文本的相关性得分。选择相关性最高的文本和与他差值在阈值s_threshold=0.1内的所有文本作为答案来源文本共计k篇。若只有一条文本,则为单文本问答;若有多条文本则为多文本问答。
S3:将问题文本Q和k篇文本段落的每一个字符分别使用面向航空领域微调后的Bert模型得到对应文本的字符级的特征向量,具体为:
面向航空领域微调后的Bert模型是通过航空领域的文本数据训练得到,对Bert模型的微调为现有技术。
因为本发明中问答任务要预测下一句,因此输入是有关联的句子对,如文本段落由abcd四句话组成,则输入时是划分成:ab\bc\cd三个句子对来进行处理。
本发明对Bert的输入采用了三个嵌入量(Embedding)相加的方式,包括:字嵌入量(Token Embeddings),片段嵌入量(Segment Embeddings),和位置嵌入量(PositionEmbeddings)三个向量。
Token Embeddings即通过建立字向量表将每个字转换成一个一维向量,作为模型输入。
Segment Embeddings对输入的句子对进行区分,若输入的是一个句子,那么Segement embeddings对句子的各个字符赋值全部为0;若输入的是一对句子(以句号区分),则第一个句子的各个字符赋值为0,后一个句子的各个字符赋值为1。因为本发明中问答任务要预测下一句,因此输入是有关联的句子对,因此需要Segment Embeddings。
为了解决注意力机制不提取时序特征问题,加入了位置嵌入量PositionEmbeddings;
每个字符的位置嵌入量根据式(5)或(6)确定:
Figure BDA0003590591700000111
Figure BDA0003590591700000112
其中,pos表示输入的位置;当dmodel表示Bert模型处理的向量维度,Bert模型能处理的最大维度是512,Bert模型处理的向量维度根据需要设定,如设定Bert模型处理的向量维度为384;i为正整数,i从0开始,当pos=2i时,位置嵌入量使用公式(5),当pos=2i+1时,位置嵌入量使用公式(6)。
X表示输入序列,X由字符xi组成,表示输入序列中的第i个字符,将X经过TokenEmbeddings、Segment Embeddings和Position Embeddings处理后得到的三个嵌入量相加后,再输入面向航空领域微调后的Bert模型,得到字符xi对应的特征向量
Figure BDA0003590591700000113
将问题文本Q和k篇文本段落的每一个文本都分别使用BERT进行编码获取向量。
S4:利用Word2Vec模型按照字符与特征(即五笔、郑码、拼音、笔画)进行上下文的学习。
特征包括郑码、五笔、拼音和笔画特征,通过郑码、五笔挖掘出非结构化文本中的潜在语义关系,郑码和五笔都是基于汉字的象形结构获取特征向量,而读音的变化也对汉字的语义表达有着不可忽视的作用,再辅以笔画特征,
Word2Vec是文本向量化的经典模型,是轻量级的神经网络,其模型仅仅包括输入层、隐藏层和输出层,模型框架根据输入输出的不同,主要包括CBOW和Skip-gram模型。本发明主要应用了Skip-gram模型,即在已知词Wt的情况下,对Wt的上下文Wt-2,Wt-1,Wt+1,Wt+2进行预测。首先将单词表示为计算机可表示的形式(one-hot向量),然后输入模型,隐藏层所作的事情就是降维,通过矩阵乘法将输入层输入的稀疏的one-hot向量降维成低维的稠密向量。以词语在语料库中的词频作为权值构造的一棵二叉树。叶子节点对应词汇表中的所有词语。假设叶子节点为N个,则非叶子节点为N-1个。叶子节点和非叶子节点均对应一个向量。其中叶子节点对应的向量即为词向量,而非叶子节点对应的向量是一个辅助向量。最后通过softmax分类器得到表示输出结果为对应单词的概率,将概率最大的对应词向量作为预测词的词向量表示。
S4.1郑码特征向量
郑码与五笔都是一种科学的编码,通过对汉字字形结构的深入研究得到,郑码有助于挖掘出非结构化文本中的潜在语义关系,可使神经网络通过不同汉字的字型结构组成学习到航空领域的命名内部和外部实体边界信息。利用官方发布的郑码与汉字的映射表将航空领域的文本进行转换,之后使用Word2Vec模型进行按句训练获取每个字符的上下文特征,并提供字符的郑码特征向量。郑码特征向量过程如公式10、11所示:
p1=fzhengma(X) (10)
Figure BDA0003590591700000122
其中,X表示输入序列,X由字符xi组成,表示输入序列中的第i个字符,n为输入序列长度,i为正整数,fzhengma表示将输入的字符序列映射为郑码序列的函数,fzhengma使用官方发布的郑码与汉字的映射表,得到郑码序列p1,p1由郑码字符p1i组成,p1i表示xi对应的郑码,ezhengma表示使用Word2Vec对郑码字符p1i转换为郑码特征向量,
Figure BDA0003590591700000121
表示与输入序列中字符xi对应的郑码特征向量。
S4.2五笔特征向量
使用五笔特征向量和郑码特征向量二者进行互相矫正编码的缺陷。本文利用与训练郑码特征类似的方法完成五笔特征获取。五笔特征的向量化的过程如公式(12)、(13)所示。
p2=fwubi(X) (12)
Figure BDA0003590591700000136
其中,X表示输入序列,X由字符xi组成,表示输入序列中的第i个字符,fwubi表示将输入的字符序列映射为五笔序列的函数,fwubi使用官方发布的五笔与汉字的映射表,得到五笔序列p2,p2由五笔字符p2i组成,p2i表示xi对应的五笔,ewubi表示使用Word2Vec对五笔p2i转换为五笔特征向量,
Figure BDA0003590591700000131
表示与输入序列中字符xi对应的五笔特征向量。
S4.3拼音特征向量
构建出输入序列和拼音特征序列的映射关系,之后利用Word2vec模型完成拼音特征的向量化。拼音特征向量化过程如公式(14)、(15)所示:
p3=fpinyin(X) (14)
Figure BDA0003590591700000135
其中,X表示输入序列,X由字符xi组成,表示输入序列中的第i个字符,fpinyin表示将输入的字符序列映射为拼音序列的函数,fpinyin使用官方发布的拼音与汉字的映射表,得到拼音序列p3,p3由拼音字符p3i组成,p3i表示xi对应的拼音字符,ewubi表示使用Word2Vec对拼音字符p3i转换为拼音特征向量,
Figure BDA0003590591700000134
表示与输入序列中字符xi对应的拼音特征向量。
S4.4笔画特征向量
构建出输入序列和笔画特征序列的映射关系,之后利用Word2vec模型完成笔画特征的向量化。笔画向量化过程如公式(16)、(17)所示:
p4=fbihua(X) (16)
Figure BDA0003590591700000132
其中,X表示输入序列,X由字符xi组成,表示输入序列中的第i个字符,fbihua表示将输入的字符序列映射为笔画序列的函数,fbihua使用汉字的标准笔画对字符进行转换,得到笔画序列p4,p4由笔画字符p4i组成,p4i表示xi对应的笔画,ebihua表示使用Word2Vec对笔画字符p4i转换为笔画特征向量,
Figure BDA0003590591700000133
表示与输入序列中字符xi对应的笔画特征向量。
S4.5将字符向量和特征向量进行融合得到字符最终特征向量
将字符特征向量
Figure BDA0003590591700000141
和字符其它特征向量进行拼接处理得到具有挖掘深度的字符最终特征向量,字符最终特征向量的获取如公式(18)所示。
Figure BDA0003590591700000142
其中
Figure BDA0003590591700000143
分别代表着字符xi对应的BERT、郑码、五笔、拼音、笔画特征向量,表示
Figure BDA0003590591700000144
进行拼接处理后得到的字符最终特征向量。
S5:将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi-LSTM模型,并使用面向航空领域的数据进行对抗训练,得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,如图5所示。
利用双向注意力流机制(BiDAF)获取问题和文本之间的注意力,双向注意力流机制包括问题到文本注意力和文本到问题注意力。
利用双向长短时记忆网络(BiLSTM)对特征进行进一步提取,BiLSTM综合考虑了正向特征提取和逆向特征提取,构建了两个方向相反的隐藏层,通过这种方式,BiLSTM可以更好的捕捉双向的语义依赖,取得更好的语义表达效果。
问题文本Q和文本段落需要成对输入到改进的BiDAF+Bi-LSTM模型,如根据步骤S2,有k篇文本段落和问题文本Q相关,那么就需要问题文本Q和每一篇文本段落一起输入到改进的BiDAF+Bi-LSTM模型,共需要输入k次。
S6:对文本段落使用全连接层和softmax获取答案句子。
对步骤S5输出的带有多种特征的文本段落字符特征向量中的每一个字符分别使用头分类器和尾分类器判断每个词作为答案头、尾的概率,选择概率最大的头和尾抽取出答案。分类器由全连接层和softmax函数组成。将概率最大的作为候选答案句。
S7:根据用户提出的问题对步骤1中得到的k值进行判断。若k=1,则问题的答案来自单文本,直接得到该单文本问题的答案句;若k≠1,则问题的答案来自多文本,那么还需要进行步骤8;
S8:判断为多文本问答,则利用句法规则生成多文本问题的答案句。经过上述步骤,多文本问答的答案会出现在多条原文文本中。根据句法规则对多条候选答案进行语法和语义判断,如图6所示。
语言技术平台(LTP)提供包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富、高效、精准的自然语言处理技术,它已经成为国内外最具影响力的中文处理基础平台。本发明利用LTP工具提取文本中各词语之间的关系后,如主谓关系动宾关系等,生成句法分析树,然后再利用句法分析树中的规则,把多个文本答案句融合成一个答案,这个答案被称为多文本问题的答案句。句法规则至少包括以下几条:
8.1主语判断
对问题和多条候选答案文本进行语法分析,确定主语。若问题针对的主语确定,则仅保留一个直接主语,其他主语采用人称代词进行替换。
8.2冗余词判断
对多条候选答案文本进行语义分析,判断是否有含义重复的词汇。若候选答案句中出现大量冗余词,则将重复出现的词语进行删除,通过添加代词或连接词补充语义。
8.3句义完整性判断
对多条候选答案文本进行句子长度统计,删除句子长度低于设置阈值无法成为描述答案的候选句。
8.4组合生成
对经过上述处理后的多条候选答案文本,进行连接词、指示代词的增添补充,使之组合生成完整的合乎语义和语法的答案句。
本发明针对现有的智能问答系统相关的技术问题和面向限定领域的智能问答的需求,提出了实现航空领域知识问答的方法和系统,并且不仅使得文本问答答案来自于单一文本的准确率较高,还保证了文本答案来自多条文本的准确率。
(1)段落筛选阶段的关键技术点和保护点:面向航空领域文本长度权重自适应调整及词典权重调整的BM25改进算法:基于领域的依存句法树提取问题中的核心词,形成核心词典;利用基于领域依存句法分析树及领域规则提取航空知识文本段落中的领域词,形成领域词典;将核心词典和领域词典融入到LTP工具中辅助分词,并形成除核心词、领域词之外的其他词汇词典,在利用BM25计算问题与文本相似度时,对三个词典辅以不同的权重,其中核心词的权重大于领域词的权重,领域词典的权重大于其他词的权重,除此之外,还针对语料中航空文本问题与答案之间的关系,通过多轮迭代实现文本长度权重的自适应调整。
(2)答案生成阶段关键的技术点和保护点:多特征融合辅以领域对抗训练的深度学习模型:通过面向航空领域微调的BERT预训练模型,利用Word2Vec模型按照字符与特征(即五笔、郑码、拼音、笔画)进行上下文的学习,获取融合不同特征子空间的各个特征的词向量表示,然后投入BiDAF+Bi-LSTM+面向航空领域的数据对抗训练,利用双向注意力流(Bi-Directional Attention Flow,BiDAF)增强问题和原文文本的相关性,提升序列依赖关系,通过对抗训练增强模型鲁棒性,最终得到具备领域特色挖掘深度的词向量表示。
(3)答案生成后处理阶段的关键技术点和保护点:融合语义基于依据句法分析树的规则组合生成:问题的答案来自多文本,需要对多段候选答案文本进行融合语义基于依据句法分析树的规则组合,进行语法和语义判断。若问题针对的主语确定,则删除多条候选答案中重复出现的主语,仅保留一个主语,同时在多个句子之间根据语义添加必要的连接词使之成为完整的句子。若候选答案句中出现大量冗余词,则将重复出现的词语进行删除,通过添加代词或连接词补充语义。同时删除句子长度低于设置阈值无法成为描述答案的候选句。通过这些句法规则,针对提出的问题,将多条答案候选句生成合乎语义和语法的答案句。
(4)将上述三个关键步骤和技术进行有机组合,首次应用到航空领域知识的智能问答中,有效地提升了智能问答的效果,亦为本发明的关键技术点和保护点。
以上所述仅用于说明本申请的技术方案和具体实施步骤,并非对该领域的解决方法进行限制。本领域的技术人员能当清晰地了解到:其仍然可以对上述记载的技术方案和实施步骤进行一定修改,或者对某些功能的技术实现进行同等的替换;而这些修改或者替换,并不会改变响应的技术方案的本质,不脱离本申请的精神内容的范围,因此仍属于本申请的保护范围之中。

Claims (7)

1.一种实现航空领域知识问答的方法,其特征在于:其包括以下步骤:
S1:根据航空知识领域的文本段落得到问题文本,再对文本段落和问题文本中的词语进行分类并设置优先级和权重,
S2:针对不同优先级的词语,通过改进的词典权重调整的BM25算法,得到和问题文本最相似的k篇文本段落;
S3:将问题文本Q和k篇文本段落中的每一个文本分别使用面向航空领域微调后的Bert模型得到对应文本的字符特征向量;
S4:利用Word2Vec模型得到字符其它特征向量,将字符特征向量和字符其它特征向量进行融合,最后获得字符最终特征向量,实现了多特征子空间的文本映射表示;字符其它特征向量包括郑码、五笔、拼音和笔画特征向量;
S5:将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi-LSTM模型,并使用面向航空领域的数据进行对抗训练,得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,具体为:
将问题文本Q和k篇文本段落的字符最终特征向量输入到BiDAF模型使得两者特征相互交互,再输入到Bi-LSTM模型,对信息进行编码增强序列依赖,最终得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,使用面向航空领域的数据进行对抗训练增强带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量的鲁棒性;
S6:将带有多种特征的文本段落字符特征向量中的每一个字符对应的向量分别通过判断答案开始的全连接层+softmax和判断答案结束的全连接层+softmax抽取出对应文本的答案句;
S7:判断k值是否等于1,若k=1,则问题的答案来自单文本,直接得到该单文本答案句;若k≠1,则问题的答案来自多文本,需要对多段候选答案文本进行融合语义基于依据句法分析树的规则组合,进行语法和语义判断;
S8:判断为多文本问答,则使用LTP工具根据答案句的依存句法结构和语义角色关系,利用句法规则生成多文本答案句。
2.根据权利要求1所述的实现航空领域知识问答的方法,其特征在于:所述步骤S1中对文本段落和问题文本中的词语进行分类并设置优先级和权重,具体为:
对问题文本基于领域的依存句法树,分析提取问题中不依存于其他词语且被除本身之外所有词语依存的核心词,核心词一起组成核心词典;
对全部航空知识领域文本段落基于领域的依存句法树及领域规则提取出领域词,领域词一起构成了领域词典;
使用LTP分词工具,在文本段落中得到去除核心词、领域词和停用词之外的词,称为非相关词,非相关词一起组成了其他词汇词典;
对上述得到的三种不同类型的词赋予不同优先级和权重,对核心词设为第一优先级,设置的权重值高于其他两类词的权重,对领域词设为第二优先级,设置的权重高于非相关词的权重,对非相关词设为第三优先级,设置的权重最低。
3.根据权利要求2所述的实现航空领域知识问答的方法,其特征在于:所述步骤S2中改进的词典权重调整的BM25算法,具体为:
通过问题文本Q分词后得到的词和文本段落D使用词典权重调整的BM25算法进行匹配,得到两者之间的相似度得分加权和,也就是问题文本Q和文本段落D的相似度得分,其中词典权重调整的BM25算法具体如公式(1)-(4):
Figure FDA0003590591690000021
Figure FDA0003590591690000022
Figure FDA0003590591690000023
Figure FDA0003590591690000024
其中,P1、P2分别为问题核心词和领域词典词的权重;k3为词qi的权重,词的优先级别越高,权重值越大,对相似度得分加权和的影响越大;score(D,Q)为问题文本Q和文本段落D的相似度得分;n为问题文本Q分词后得到的词的数量;i为正整数;IDF(qi)为qi的逆向文档频率;R(qi,D)为词qi与文本段落D的相关性得分;N为全部文本段落数.;dfi为包含词qi的文本段落数;f(qi,D)为qi在文本段落D中出现的频率;k1为第一调节因子;|D|为文本段落D的长度,avgdl为所有文本段落的平均长度;b为第二调节因子。
4.根据权利要求1所述的实现航空领域知识问答的方法,其特征在于:所示步骤S3具体为:
通过航空领域的文本数据训练得到面向航空领域微调后的Bert模型;
本发明对Bert的输入采用了三个嵌入量相加的方式,包括:字嵌入量TokenEmbeddings,片段嵌入量Segment Embeddings,和位置嵌入量Position Embeddings三个向量;
Token Embeddings通过建立字向量表将每个字符转换成一个一维向量;
Segment Embeddings对输入的句子对进行区分,若输入的是一个句子,那么Segementembeddings对句子的各个字符赋值全部为0;若输入的超过一个句子,则第一个句子的各个字符赋值为0,后面句子的各个字符赋值为1;
Position Embeddings用于得到位置嵌入量;
X表示输入序列,X由字符xi组成,表示输入序列中的第i个字符,将X经过TokenEmbeddings、Segment Embeddings和Position Embeddings处理后得到的三个嵌入量相加后,再输入面向航空领域微调后的Bert模型,得到字符xi对应的特征向量
Figure FDA0003590591690000031
5.根据权利要求4所述的实现航空领域知识问答的方法,其特征在于:所示步骤S3中Position Embeddings用于得到位置嵌入量,的具体方式为:
每个字符的位置嵌入量PE根据式(5)或(6)确定:
Figure FDA0003590591690000032
Figure FDA0003590591690000033
其中,pos表示输入的位置;当dmodel表示Bert模型处理的向量维度;i为正整数,i从0开始,当pos=2i时,位置编码使用公式(5),当pos=2i+1时,位置嵌入量使用公式(6)。
6.根据权利要求1所述的实现航空领域知识问答的方法,其特征在于:所示步骤S8中使用LTP工具根据答案句的依存句法结构和语义角色关系,利用句法规则生成多文本答案句,句法规则具体为:
S8.1主语判断
对问题和M条候选答案文本进行语法分析,确定主语,若问题针对的主语确定,则仅保留一个直接主语,其他主语采用人称代词进行替换;M为大于1的正整数;
S8.2冗余词判断
对M条候选答案文本进行语义分析,判断是否有含义重复的词汇,若候选答案句中出现大量冗余词,则将重复出现的词语进行删除,通过添加代词或连接词补充语义;
S8.3句义完整性判断
对M条候选答案文本进行句子长度统计,删除句子长度低于设置阈值无法成为描述答案的候选句;
S8.4组合生成
对经过上述处理后的M条候选答案文本,进行连接词、指示代词的增添补充,使之组合生成完整的合乎语义和语法的答案句。
7.一种实现航空领域知识问答的系统,用于实现权利要求1所述的实现航空领域知识问答的方法,其包括以下模块:数据预处理模块、段落筛选模块和问答模型模块;
数据预处理模块:该模块对文本段落和问题文本提取具有不同优先级的词;
段落筛选模块:该模块通过词典权重调整的BM25改进算法进行段落筛选,筛选出最大概率包含针对航空领域标准指标问题的答案文本段落k篇,即确定答案句所在文本段落并能够确定问题答案来源于单文本或是多文本;
问答模型模块:该模块通过多特征融合辅以领域对抗训练的深度学习模型,在上述k篇最大概率包含答案句的文本段落中,确定单文本答案句,或者依据融合语义基于依据句法分析树生成多文本答案句;
其中,数据预处理模块将结果发送到段落筛选模块,段落筛选模块将结果发送到问答模型模块。
CN202210376477.4A 2022-04-11 2022-04-11 实现航空领域知识问答的方法和系统 Active CN114757184B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210376477.4A CN114757184B (zh) 2022-04-11 2022-04-11 实现航空领域知识问答的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210376477.4A CN114757184B (zh) 2022-04-11 2022-04-11 实现航空领域知识问答的方法和系统

Publications (2)

Publication Number Publication Date
CN114757184A true CN114757184A (zh) 2022-07-15
CN114757184B CN114757184B (zh) 2023-11-10

Family

ID=82328805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210376477.4A Active CN114757184B (zh) 2022-04-11 2022-04-11 实现航空领域知识问答的方法和系统

Country Status (1)

Country Link
CN (1) CN114757184B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195877A (zh) * 2023-11-06 2023-12-08 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质
CN117573851A (zh) * 2024-01-17 2024-02-20 浙商期货有限公司 一种期货领域的生成式自动问答方法和系统

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN110825845A (zh) * 2019-10-23 2020-02-21 中南大学 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN111611361A (zh) * 2020-04-01 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN112052326A (zh) * 2020-09-30 2020-12-08 民生科技有限责任公司 一种基于长短文本匹配的智能问答方法及系统
CN112100326A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 一种抗干扰的融合检索和机器阅读理解的知识库问答方法及系统
CN112507190A (zh) * 2020-12-17 2021-03-16 新华智云科技有限公司 一种财经快讯的关键词提取方法和系统
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法
CN112784603A (zh) * 2021-02-05 2021-05-11 北京信息科技大学 专利功效短语识别方法
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN113157885A (zh) * 2021-04-13 2021-07-23 华南理工大学 一种面向人工智能领域知识的高效智能问答系统
CN113849622A (zh) * 2021-09-30 2021-12-28 中国民航大学 一种民航文档视觉认知问答方法及系统
CN113869053A (zh) * 2021-09-30 2021-12-31 上海银江智慧智能化技术有限公司 一种面向司法文本命名实体识别的方法及系统
CN113901820A (zh) * 2021-10-11 2022-01-07 浙江省科技信息研究院 一种基于bert模型的中文三元组抽取方法
CN113919332A (zh) * 2021-10-14 2022-01-11 北京中科凡语科技有限公司 实体识别模型建立方法、装置、电子设备及存储介质
CN114298047A (zh) * 2021-12-29 2022-04-08 北京工业大学 基于笔画卷积和词向量的中文命名实体识别方法及系统

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268444A (zh) * 2018-01-10 2018-07-10 南京邮电大学 一种基于双向lstm、cnn和crf的中文分词方法
KR20190101567A (ko) * 2018-02-23 2019-09-02 주식회사 마인즈랩 기계 독해에 기초한 질의 응답 장치 및 이를 이용한 질의 응답 방법
CN110825845A (zh) * 2019-10-23 2020-02-21 中南大学 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN111611361A (zh) * 2020-04-01 2020-09-01 西南电子技术研究所(中国电子科技集团公司第十研究所) 抽取式机器智能阅读理解问答系统
CN112100326A (zh) * 2020-08-28 2020-12-18 广州探迹科技有限公司 一种抗干扰的融合检索和机器阅读理解的知识库问答方法及系统
CN112052326A (zh) * 2020-09-30 2020-12-08 民生科技有限责任公司 一种基于长短文本匹配的智能问答方法及系统
CN112632997A (zh) * 2020-12-14 2021-04-09 河北工程大学 基于BERT和Word2Vec向量融合的中文实体识别方法
CN112507190A (zh) * 2020-12-17 2021-03-16 新华智云科技有限公司 一种财经快讯的关键词提取方法和系统
CN112836046A (zh) * 2021-01-13 2021-05-25 哈尔滨工程大学 一种四险一金领域政策法规文本实体识别方法
CN112784603A (zh) * 2021-02-05 2021-05-11 北京信息科技大学 专利功效短语识别方法
CN113157885A (zh) * 2021-04-13 2021-07-23 华南理工大学 一种面向人工智能领域知识的高效智能问答系统
CN113849622A (zh) * 2021-09-30 2021-12-28 中国民航大学 一种民航文档视觉认知问答方法及系统
CN113869053A (zh) * 2021-09-30 2021-12-31 上海银江智慧智能化技术有限公司 一种面向司法文本命名实体识别的方法及系统
CN113901820A (zh) * 2021-10-11 2022-01-07 浙江省科技信息研究院 一种基于bert模型的中文三元组抽取方法
CN113919332A (zh) * 2021-10-14 2022-01-11 北京中科凡语科技有限公司 实体识别模型建立方法、装置、电子设备及存储介质
CN114298047A (zh) * 2021-12-29 2022-04-08 北京工业大学 基于笔画卷积和词向量的中文命名实体识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BINGNING WANG 等: "Document Gated Reader for Open-Domain Question Answering", 《PROCEEDINGS OF THE 42ND INTERNATIONAL ACM SIGIR CONFERENCE ON RESEARCH AND DEVELOPMENT IN INFORMATION》, pages 85 - 94 *
刘凯洋;: "结合Bert字向量和卷积神经网络的新闻文本分类方法", 电脑知识与技术, no. 01, pages 187 - 188 *
徐霄玲;郑建立;尹梓名;: "机器阅读理解的技术研究综述", 小型微型计算机系统, no. 03, pages 464 - 470 *
顾迎捷;桂小林;李德福;沈毅;廖东;: "基于神经网络的机器阅读理解综述", 软件学报, no. 07, pages 2095 - 2126 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117195877A (zh) * 2023-11-06 2023-12-08 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质
CN117195877B (zh) * 2023-11-06 2024-01-30 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质
CN117573851A (zh) * 2024-01-17 2024-02-20 浙商期货有限公司 一种期货领域的生成式自动问答方法和系统

Also Published As

Publication number Publication date
CN114757184B (zh) 2023-11-10

Similar Documents

Publication Publication Date Title
CN109271529B (zh) 西里尔蒙古文和传统蒙古文双文种知识图谱构建方法
CN110737763A (zh) 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN113642330A (zh) 基于目录主题分类的轨道交通规范实体识别方法
CN113010693A (zh) 融合指针生成网络的知识图谱智能问答方法
CN111651589B (zh) 一种针对长文档的两阶段文本摘要生成方法
CN111666758B (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN108874896B (zh) 一种基于神经网络和幽默特征的幽默识别方法
CN112765345A (zh) 一种融合预训练模型的文本摘要自动生成方法及系统
CN109992775A (zh) 一种基于高级语义的文本摘要生成方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
CN116628186B (zh) 文本摘要生成方法及系统
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN114970503A (zh) 一种基于预训练的字音字形知识增强的中文拼写纠正方法
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN114428850A (zh) 一种文本检索匹配方法和系统
CN116910086A (zh) 一种基于自注意力句法感知的数据库查询方法和系统
Ayifu et al. Multilingual named entity recognition based on the BiGRU-CNN-CRF hybrid model
CN109815497B (zh) 基于句法依存的人物属性抽取方法
Lee Natural Language Processing: A Textbook with Python Implementation
CN111813927A (zh) 一种基于主题模型和lstm的句子相似度计算方法
CN114972907A (zh) 基于强化学习和对比学习的图像语义理解及文本生成
CN114580385A (zh) 一种结合语法的文本语义相似度计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant