CN116303977A - 一种基于特征分类的问答方法及系统 - Google Patents

一种基于特征分类的问答方法及系统 Download PDF

Info

Publication number
CN116303977A
CN116303977A CN202310551556.9A CN202310551556A CN116303977A CN 116303977 A CN116303977 A CN 116303977A CN 202310551556 A CN202310551556 A CN 202310551556A CN 116303977 A CN116303977 A CN 116303977A
Authority
CN
China
Prior art keywords
question
feature
answer
original text
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310551556.9A
Other languages
English (en)
Other versions
CN116303977B (zh
Inventor
孟英谦
彭龙
李胜昌
任智颖
邵鹏志
谢志豪
张世超
李泽宇
宋彪
高圣楠
魏中锐
胡明哲
姜伟
张子烁
邬书豪
葛祥雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China North Computer Application Technology Research Institute
Original Assignee
China North Computer Application Technology Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China North Computer Application Technology Research Institute filed Critical China North Computer Application Technology Research Institute
Priority to CN202310551556.9A priority Critical patent/CN116303977B/zh
Publication of CN116303977A publication Critical patent/CN116303977A/zh
Application granted granted Critical
Publication of CN116303977B publication Critical patent/CN116303977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于特征分类的问答方法及系统,属于自然语言处理技术领域;解决现有技术中的问答模型推断速度慢,且答案预测不够准确的问题。本发明的问答方法包括以下步骤:获取待处理问题,得到待处理问题对应的类别;在文本语料库中搜索与待处理问题相同类别且相关度最高的原始文本数据;文本语料库包括多个不同类别的原始文本数据;将待处理问题和对应的相关度最大的原始文本数据分别与对应的类别标签融合得到对应的两个带有类别标签信息的特征向量,将两个特征向量输入预先训练的智能问答模型的答案预测模块,基于待处理问题对应的特征向量,在原始文本对应的特征向量中预测得到待处理问题对应的答案。

Description

一种基于特征分类的问答方法及系统
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种基于特征分类的问答方法及系统。
背景技术
近年来,端到端的问答模型的研究取得了显著的进步,也得到了广泛的应用,目前的问答模型通常会利用两个关键的组成部分:处理序列化输入的循环模型和处理长期交互的注意力组件。
而现有模型的循环性质导致训练和推断都十分缓慢,特别是对于长文本来说,高昂的训练开销不仅导致了很长的实验周期,限制了研究者进行迅速的迭代,还妨碍了模型被用于大型数据集。且缓慢的推断阻碍了机器阅读理解系统在实时应用中的部署。
因此,如何使得问答模型更加迅速地获取并理解大问答对与文本的注意关系,并更加快速且准确地预测出问题对应的答案信息,成为目前急需解决的问题。
发明内容
鉴于上述的分析,本发明旨在提供一种基于特征分类的问答方法及系统;解决现有技术中的问答模型推断速度慢,且答案预测不够准确的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明提供了一种基于特征分类的问答方法,包括以下步骤:
获取待处理问题,得到所述待处理问题对应的类别;
在文本语料库中搜索与所述待处理问题相同类别且相关度最高的原始文本数据;所述文本语料库包括多个不同类别的原始文本数据;
将所述待处理问题和对应的相关度最大的原始文本数据分别与对应的类别标签融合得到对应的两个带有类别标签信息的特征向量,将两个特征向量输入预先训练的智能问答模型的答案预测模块,基于所述待处理问题对应的特征向量,在原始文本对应的特征向量中预测得到所述待处理问题对应的答案。
进一步的,通过智能问答模型的特征分类模块得到所述待处理问题对应的类别,包括:
所述特征分类模块为基于Bert-LSTM的分类模块;
将获取的所述待处理问题输入所述特征分类模块的Bert层,进行特征提取和向量表示,得到具有文本语义信息的特征向量;
将得到的所述特征向量输入LSTM层,经过时间序列特征提取并进行分类,得到所述待处理问题的类别。
进一步的,所述答案预测模块包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层;
所述输入嵌入层用于对输入的带有类别标签信息的特征向量进行词嵌入和字符嵌入,得到输入嵌入层隐向量;
所述嵌入编码层用于基于所述输入嵌入层隐向量进行特征提取及注意力计算,得到具有全文语义信息的编码表示;
所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度;
所述模型编码器层用于基于原始文本的编码表示及所述第一关注度和第二关注度提取得到全局信息的特征
Figure SMS_1
、以及预测答案在原始文本数据中的开始位置特征/>
Figure SMS_2
和结束位置特征/>
Figure SMS_3
所述输出层用于基于全局信息的特征
Figure SMS_4
、开始位置特征/>
Figure SMS_5
和结束位置特征/>
Figure SMS_6
预测原始文本数据中每个位置的单词作为答案开始或结束的概率,并输出所述待处理问题对应的答案。
进一步的,所述智能问答模型的训练包括:
基于所述文本语料库中的原始文本数据构建标准问答对,基于所述标准问答对、原始文本和类别标签构建得到训练样本集;所述标准问答对中包括标准问题和标准答案;
基于所述训练样本集中的标准问题、标准答案和原始文本数据以及类别标签,利用损失函数对所述特征分类模块进行迭代训练,得到收敛的所述智能问答模型的特征分类模块;
将所述特征分类模块中Bert层输出的所述标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合,得到对应的带有类别信息的特征向量;
将带有类别信息的各个特征向量分别输入所述答案预测模块,基于标准问题和标准答案对应的特征向量,在原始文本特征向量中预测答案,经过损失函数迭代更新,得到收敛的所述智能问答模型的答案预测模块。
进一步的,所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的关注度和原始文本到问题的关注度,包括:
基于所述嵌入编码层输出的所述问题与原始文本的编码表示,计算得到相似矩阵;
对相似性矩阵的每一行求softmax,得到问题到原始文本的关注度矩阵,表示为:
Figure SMS_7
对相似性矩阵的每一列求softmax,得到原始文本到问题的关注度矩阵,表示为:
Figure SMS_8
其中,
Figure SMS_9
表示原始文本数据中第i个词,/>
Figure SMS_10
表示输入的问题中第j个词,Q和C分别为问题和原始文本的编码矩阵,/>
Figure SMS_11
为可训练的标量函数,实现对两个输入向量之间的相似性进行编码。
进一步的,所述相似矩阵表示为:
Figure SMS_12
Figure SMS_13
为可训练参数,q、c分别为标准问题和原始文本的编码表示,/>
Figure SMS_14
表示元素相乘。
进一步的,所述输出层通过下述公式计算得到答案的起始位置和结束位置的概率:
Figure SMS_15
Figure SMS_16
其中,
Figure SMS_17
和/>
Figure SMS_18
分别是单词作为答案开始和结束的概率;/>
Figure SMS_19
和/>
Figure SMS_20
是可训练的参数,/>
Figure SMS_21
为模型提取的原始文本的全局信息的特征,/>
Figure SMS_22
为模型提取预测答案开始位置的特征,/>
Figure SMS_23
为模型提取预测答案结束位置的特征。
进一步的,所述答案预测模型训练的损失函数的公式为:
Figure SMS_24
其中,
Figure SMS_25
和/>
Figure SMS_26
分别表示模型处理第i个样本时预测的答案的起始和结束位置概率,/>
Figure SMS_27
和/>
Figure SMS_28
为第i个样本对应的标准答案在原始文本中的开始位置和结束位置,N表示样本个数。
另一方面,还提供一种基于特征分类的问答系统,包括数据输入模块、特征分类模块、相似文本检索模块和答案预测模块;
所述数据输入模块用于获取用户输入的待处理问题;
所述特征分类模块用于基于预设的类别对所述待处理问题进行特征提取和分类,得到所述问题对应的特征向量和类别;
所述相似文本检索模块用于在预设的文本语料库中进行检索,得到与所述待处理问题相同类别且相似度最大的原始文本,并将所述待处理问题和原始文本分别于对应的类别标签进行融合;
所述答案预测模块用于基于融合了类别信息的待处理问题,在对应的原始文本中进行答案预测,输出待处理问题对应的答案。
进一步的,所述答案预测模块包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层;
所述输入嵌入层用于对输入的带有类别标签信息的特征向量进行词嵌入和字符嵌入,得到输入嵌入层隐向量;
所述嵌入编码层用于基于所述输入嵌入层隐向量进行特征提取及注意力计算,得到具有全文语义信息的编码表示;
所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度;
所述模型编码器层用于基于原始文本的编码表示及所述第一关注度和第二关注度提取得到全局信息的特征
Figure SMS_29
、以及预测答案在原始文本数据中的开始位置特征/>
Figure SMS_30
和结束位置特征/>
Figure SMS_31
所述输出层用于基于全局信息的特征
Figure SMS_32
、开始位置特征/>
Figure SMS_33
和结束位置特征/>
Figure SMS_34
预测原始文本数据中每个位置的单词作为答案开始或结束的概率,并输出所述待处理问题对应的答案。
本技术方案的有益效果:
1、本发明通过设置特征分类层,对输入的问题获取自定义的分类标签信息,通过在问题及原始文本中融入分类信息,能够准确定位问题的类别以及领域信息,基于融入了类别和领域信息特征数据进行预测,显著提高了问答模型答案预测的准确性。
2、本发明去除了编码器中的循环网络,获取到问题与文本的注意关系,大大缩短了模型的训练时间,提升预测速度,快速给出问题的答案。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例的基于特征分类的问答方法流程图;
图2为本发明实施例的智能问答模型示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本实施例中的一种基于特征分类的问答方法,如图1所示,包括以下步骤:
步骤S1:获取待处理问题,得到所述待处理问题对应的类别;
其中,待处理问题指用户输入的需获取答案的问题。
具体的,本实施例通过预先训练的智能问答模型对输入的问题进行答案预测,智能问答模型包括特征分类模块和答案预测模块。其中,特征分类模块为基于Bert-LSTM的模型,用于得到问题所对应的类别;在进行答案预测时,为了提高问答模型对答案预测的效率和准确性,首先利用特征分类模块对问题进行分类,包括:将获取的待处理问题输入特征分类模块的Bert层,进行特征提取和向量表示,得到具有文本语义信息的特征向量;将得到的特征向量输入LSTM层,经过时间序列特征提取并进行分类,得到待处理问题的类别。
步骤S2:在文本语料库中搜索与所述待处理问题相同类别且相关度最高的原始文本数据;所述文本语料库包括多个不同类别的原始文本数据;
具体的,在构建智能问答模型之前需要构建与问答领域相关的语料库,用于模型训练和答案预测。语料库中包括用于答案预测的原始文本数据和用于模型训练的标准问答对。
示例性的,本实施例可应用于军事领域,通过下述方法构建得到文本语料库和标准问答对:
基于互联网爬虫技术,获取问答相关领域新闻网站的新闻数据;
自定义类别数据库,根据获取到的互联网新闻数据和军事业务需求,将新闻数据划分为:军事装备类、军事新闻、政要人物重要言论类,基于预先定义的类别对所述新闻数据进行分类;
解析各类别的新闻数据,得到各类别的新闻标题、新闻文本、新闻图片、新闻视频和新闻链接;基于所述新闻标题和新闻文本得到所述文本语料库;并将相关联的图片、视频信息以超链接的形式保存。
通过对业务梳理及互联网军事数据分析,在每一类数据库下构造问答对语料,将文本语料库中的原始文本(即在军事互联网数据中获取的新闻标题和新闻文本)以句为单位进行拆解,针对军事互联网数据中的原始文本,构造标准问题和标准答案,形成标准问答对,在实际应用中,可以基于获取的互联网军事原始文本数据,人工进行提问并给出该问题的标准答案,形成标准问答对。
其中,原始文本和标准问答对可用于智能问答模型训练,原始文本同时用作构建模型的预设文本语料库,作为答案预测的基础文本。
在实际应用中,通过智能客服终端获取到输入的问题并进行分类后,利用相似度算法(例如余弦相似度或Jacard相似度算法)获取同类别的数据库中相似度最大的原始文本,用于后续的答案预测。
步骤S3:将所述待处理问题和对应的相关度最大的原始文本数据分别与对应的类别标签融合得到对应的两个带有类别标签信息的特征向量,将两个特征向量输入预先训练的智能问答模型的答案预测模块,基于所述待处理问题对应的特征向量,在原始文本对应的特征向量中预测得到所述待处理问题对应的答案。
本实施例,智能问答模型的答案预测模块为基于QANet的预训练模型,如图2所示,包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层;其中,输入嵌入层用于对输入的带有类别标签信息的标准问题和原始文本对应的特征向量进行词嵌入和字符嵌入,得到输入嵌入层隐向量;嵌入编码层用于基于输入嵌入层隐向量进行特征提取及注意力计算,得到具有全文语义信息的编码表示;查询问题注意层用于基于编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度;模型编码器层用于基于原始文本的编码表示及第一关注度和第二关注度提取得到全局信息的特征
Figure SMS_35
、以及预测答案在原始文本数据中的开始位置特征/>
Figure SMS_36
和结束位置特征/>
Figure SMS_37
输出层用于基于全局信息的特征
Figure SMS_38
、开始位置特征/>
Figure SMS_39
和结束位置特征/>
Figure SMS_40
预测原始文本数据中每个位置的单词作为答案开始或结束的概率,并输出待处理问题对应的答案。
预训练的智能问答模型通过下述步骤训练得到:
基于前述方法得到的标准问答对、原始文本和类别标签构建得到训练样本集;
基于所述训练样本集中的标准问题、标准答案和原始文本数据以及类别标签,利用损失函数对所述特征分类模块进行迭代训练,得到收敛的所述智能问答模型的特征分类模块;
将所述特征分类模块中Bert层输出的所述标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合,得到对应的带有类别信息的特征向量;
将带有类别信息的各个特征向量分别输入答案预测模块,基于标准问题和标准答案对应的特征向量,在原始文本特征向量中预测答案,经过损失函数迭代更新,得到收敛的智能问答模型的答案预测模块。
具体的,将训练样本集中的标准问题文本、标准答案文本和原始文本分别输入特征分类模块的Bert层,经过Bert层进行特征提取和向量表示,得到文本各个位置的字向量、文本向量和位置向量,融合各个向量得到具有全文语义信息的特征向量;将Bert层输出的特征向量输出到LSTM层中,通过LSTM层进行词向量映射,并利用全连接层提取文本信息的抽象特征,在全连接层添加Attention注意力机制,为文本重要的信息属性赋予更高的权重信息,最后通过全连接层和softmax分类器对获得的文本的深层语义特征进行分类,输出每个文本对应的预测类别标签的概率,经过迭代训练,得到收敛的特征分类模块。
进一步将特征分类模块中Bert层输出的标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合,例如将标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量相加,得到对应的带有类别信息的特征向量;
将带有类别信息的分别输入智能问答模型的答案预测模块的输入嵌入层(InputEmbedding Layer),得到输入嵌入层隐向量。将标准问题、标准答案及原始文本数据对应的嵌入层隐向量分别输入嵌入编码层,得到具有全文语义信息的编码表示;具体的,嵌入编码层包括卷积层、自注意层和前馈神经网络层;其卷积层采用深层可分卷积网络,能够实现较好的记忆功能和良好的泛化能力;对于自注意力层,采用多头注意力机制,能够关注到每一个输入的位置,计算所有位置的权重信息;前馈神经网络层能够实现一个完整的从输入到输出的路径。本发明通过将文本语义特征向量与类别标签向量相融合,得到具有类别标签信息的向量表示,此向量带有问题以及答案文本的类别信息以及领域信息,在训练过程中对标签向量进行拟合,能够更好的判断问题的领域以及特征,可以提高问答的准确性。
将嵌入编码层输出的标准问题、标准答案和原始文本对应的具有全文语义信息的编码表示输入查询问题注意层,计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度,以获取原始文本与标准问题之间的交互信息。编码后的原始文本和标准问题分别表示为c和q,通过线性函数计算原始文本与标准问题之间的相似性,得到相似矩阵S,其中相似矩阵的计算公式为:
Figure SMS_41
Figure SMS_42
为可训练参数,q、c分别为标准问题和原始文本的编码表示,/>
Figure SMS_43
表示元素相乘。
通过相似矩阵S构建原始文本到标准问题的第一关注度(context-to-query-attention)和标准问题到文本的第二关注度(query-to-context attention),分别用来确定对于标准问题中每一个单词而言,原文中的哪个词与之最匹配,以及对于原始文本中的每一个单词,标准问题中的哪个词与之最接近。
具体的,通过对相似性矩阵S的每一行求softmax,并将标准问题词向量加权求和计算得到问题到原始文本的关注度矩阵A:
Figure SMS_44
通过对相似性矩阵S的每一列求softmax,通过下式将原文词向量加权求和计算得到原始文本到问题的关注度矩阵B;
Figure SMS_45
其中,
Figure SMS_46
表示文章中的第i个词,/>
Figure SMS_47
表示问题中的第j个词,Q和C分别为问题和原始文本的编码矩阵,/>
Figure SMS_48
为可训练的标量函数。
得到问题到文本及文本到问题的关注度后,利用模型编码器层,从全局的角度来考虑原始文本和问题之间的关系。具体的,将查询问题注意层得到的A和B和原文C的编码结果按照
Figure SMS_50
的形式拼接在一起,其中/>
Figure SMS_54
表示点乘,并送入3个连续的模型编码层(其中/>
Figure SMS_57
、/>
Figure SMS_51
和/>
Figure SMS_52
分别表示A、B和C的编码结果),分别得到结果/>
Figure SMS_55
、/>
Figure SMS_58
和/>
Figure SMS_49
,其中,/>
Figure SMS_53
为模型提取的原始文本的全局信息的特征,/>
Figure SMS_56
为模型提取问题在原始文本中开始位置的特征,/>
Figure SMS_59
为模型提取的问题在原始文本中结束位置的特征。
最后通过输出层,基于标准答案的向量表示,预测原始文本中每个位置作为答案开始或结束的概率;本实施例中的标准答案源于原始文本,其在原始文本中有一个起始位置和终止位置,可用作模型训练中的一个对照(label),在训练过程中通过正确预测起止位置来降低损失,得到最终的答案预测模块。
具体的,基于模型编码层的三个输出结果
Figure SMS_60
、/>
Figure SMS_61
和/>
Figure SMS_62
,经过softmax运算,得到答案起始位置的概率,如下所示:
Figure SMS_63
答案结束位置的概率计算,如下所示:
Figure SMS_64
其中,
Figure SMS_65
和/>
Figure SMS_66
分别是单词作为答案开始和结束的概率,/>
Figure SMS_67
和/>
Figure SMS_68
是可训练的参数。
最后通过最小损失函数,逐步修正参数,得到最优的结果,损失函数如下式所示:
Figure SMS_69
其中,
Figure SMS_70
和/>
Figure SMS_71
分别表示模型处理第i个样本时预测的答案的起始和结束位置概率,/>
Figure SMS_72
和/>
Figure SMS_73
为第i个样本对应的标准答案在原始文本中的开始位置和结束位置,N表示样本个数。
经过迭代训练后,即得到收敛的包括特征分类模块和答案预测模块的智能问答模型。
特殊的,本实施例的问答可通过智能客服终端实现,在实际应用中,可以通过智能客服终端输入待处理问题,智能客服终端系统获取用户输入的问题信息后,通过客服终端中运行的智能问答模型的特征分类层对问题语句进行语义分析,获取到问题的类别信息;然后在预设的文本语料库中相同类别的语料数据集中进行搜索,获取到与问题相同类别且相关度最大的原始文本;将待处理问题和原始文本以及对应的类别标签输入智能问答模型的答案预测模块,预测得到输入的问题对应的答案,最终将答案输出给用户,并且推荐出与之关联的图片、视频信息,提高用户问答体验。
本发明的另一个实施例,还提供一种基于特征分类的问答系统,包括数据输入模块、特征分类模块、相似文本检索模块和答案预测模块;
所述数据输入模块用于获取用户输入的待处理问题;
所述特征分类模块用于基于预设的类别对所述待处理问题进行特征提取和分类,得到所述问题对应的特征向量和类别;
所述相似文本检索模块用于在预设的文本语料库中进行检索,得到与所述待处理问题相同类别且相似度最大的原始文本,并将所述待处理问题和原始文本分别于对应的类别标签进行融合;
所述答案预测模块用于基于融合了类别信息的待处理问题,在对应的原始文本中进行答案预测,输出待处理问题对应的答案。
其中,所述答案预测模块包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层;
所述输入嵌入层用于对输入的带有类别标签信息的特征向量进行词嵌入和字符嵌入,得到输入嵌入层隐向量;
所述嵌入编码层用于基于所述输入嵌入层隐向量进行特征提取及注意力计算,得到具有全文语义信息的编码表示;
所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度;
所述模型编码器层用于基于原始文本的编码表示及所述第一关注度和第二关注度提取得到全局信息的特征
Figure SMS_74
、以及预测答案在原始文本数据中的开始位置特征/>
Figure SMS_75
和结束位置特征/>
Figure SMS_76
所述输出层用于基于全局信息的特征
Figure SMS_77
、开始位置特征/>
Figure SMS_78
和结束位置特征/>
Figure SMS_79
预测原始文本数据中每个位置的单词作为答案开始或结束的概率,并输出所述待处理问题对应的答案。
综上所述,本发明的实施例提供的基于特征分类的问答方法,本发明通过设置特征分类层,对输入的问题获取自定义的分类标签信息,通过在问题及原始文本中融入分类信息,能够准确定位问题的类别以及领域信息,基于融入了类别和领域信息特征数据进行预测,显著提高了问答模型答案预测的准确性。且本发明去除了编码器中的循环网络,获取到问题与文本的注意关系,大大缩短了模型的训练时间,提升预测速度,快速给出问题的答案。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于特征分类的问答方法,其特征在于,包括以下步骤:
获取待处理问题,得到所述待处理问题对应的类别;
在文本语料库中搜索与所述待处理问题相同类别且相关度最高的原始文本数据;所述文本语料库包括多个不同类别的原始文本数据;
将所述待处理问题和对应的相关度最大的原始文本数据分别与对应的类别标签融合得到对应的两个带有类别标签信息的特征向量,将两个特征向量输入预先训练的智能问答模型的答案预测模块,基于所述待处理问题对应的特征向量,在原始文本对应的特征向量中预测得到所述待处理问题对应的答案。
2.根据权利要求1所述的基于特征分类的问答方法,其特征在于,通过智能问答模型的特征分类模块得到所述待处理问题对应的类别,包括:
所述特征分类模块为基于Bert-LSTM的分类模块;
将获取的所述待处理问题输入所述特征分类模块的Bert层,进行特征提取和向量表示,得到具有文本语义信息的特征向量;
将得到的所述特征向量输入LSTM层,经过时间序列特征提取并进行分类,得到所述待处理问题的类别。
3.根据权利要求2所述的基于特征分类的问答方法,其特征在于,所述答案预测模块包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层;
所述输入嵌入层用于对输入的带有类别标签信息的特征向量进行词嵌入和字符嵌入,得到输入嵌入层隐向量;
所述嵌入编码层用于基于所述输入嵌入层隐向量进行特征提取及注意力计算,得到具有全文语义信息的编码表示;
所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度;
所述模型编码器层用于基于原始文本的编码表示及所述第一关注度和第二关注度提取得到全局信息的特征
Figure QLYQS_1
、以及预测答案在原始文本数据中的开始位置特征/>
Figure QLYQS_2
和结束位置特征/>
Figure QLYQS_3
所述输出层用于基于全局信息的特征
Figure QLYQS_4
、开始位置特征/>
Figure QLYQS_5
和结束位置特征/>
Figure QLYQS_6
预测原始文本数据中每个位置的单词作为答案开始或结束的概率,并输出所述待处理问题对应的答案。
4.根据权利要求3所述的基于特征分类的问答方法,其特征在于,所述智能问答模型的训练包括:
基于所述文本语料库中的原始文本数据构建标准问答对,基于所述标准问答对、原始文本和类别标签构建得到训练样本集;所述标准问答对中包括标准问题和标准答案;
基于所述训练样本集中的标准问题、标准答案和原始文本数据以及类别标签,利用损失函数对所述特征分类模块进行迭代训练,得到收敛的所述智能问答模型的特征分类模块;
将所述特征分类模块中Bert层输出的所述标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合,得到对应的带有类别信息的特征向量;
将带有类别信息的各个特征向量分别输入所述答案预测模块,基于标准问题和标准答案对应的特征向量,在原始文本特征向量中预测答案,经过损失函数迭代更新,得到收敛的所述智能问答模型的答案预测模块。
5.根据权利要求3所述的基于特征分类的问答方法,其特征在于,所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的关注度和原始文本到问题的关注度,包括:
基于所述嵌入编码层输出的所述问题与原始文本的编码表示,计算得到相似矩阵;
对相似性矩阵的每一行求softmax,得到问题到原始文本的关注度矩阵,表示为:
Figure QLYQS_7
对相似性矩阵的每一列求softmax,得到原始文本到问题的关注度矩阵,表示为:
Figure QLYQS_8
其中,
Figure QLYQS_9
表示原始文本数据中第i个词,/>
Figure QLYQS_10
表示输入的问题中第j个词,Q和C分别为问题和原始文本的编码矩阵,/>
Figure QLYQS_11
为可训练的标量函数。
6.根据权利要求5所述的基于特征分类的问答方法,其特征在于,所述相似矩阵表示为:
Figure QLYQS_12
Figure QLYQS_13
为可训练参数,q、c分别为标准问题和原始文本的编码表示,/>
Figure QLYQS_14
表示元素相乘。
7.根据权利要求3所述的基于特征分类的问答方法,其特征在于,所述输出层通过下述公式计算得到答案的起始位置和结束位置的概率:
Figure QLYQS_15
Figure QLYQS_16
其中,
Figure QLYQS_17
和/>
Figure QLYQS_18
分别是单词作为答案开始和结束的概率;/>
Figure QLYQS_19
和/>
Figure QLYQS_20
是可训练的参数,/>
Figure QLYQS_21
为模型提取的原始文本的全局信息的特征,/>
Figure QLYQS_22
为模型提取预测答案开始位置的特征,/>
Figure QLYQS_23
为模型提取预测答案结束位置的特征。
8.根据权利要求4所述的基于特征分类的问答方法,其特征在于,所述答案预测模型训练的损失函数的公式为:
Figure QLYQS_24
其中,
Figure QLYQS_25
和/>
Figure QLYQS_26
分别表示模型处理第i个样本时预测的答案的起始和结束位置概率,
Figure QLYQS_27
和/>
Figure QLYQS_28
为第i个样本对应的标准答案在原始文本中的开始位置和结束位置,N表示样本个数。
9.一种基于特征分类的问答系统,其特征在于,包括数据输入模块、特征分类模块、相似文本检索模块和答案预测模块;
所述数据输入模块用于获取用户输入的待处理问题;
所述特征分类模块用于基于预设的类别对所述待处理问题进行特征提取和分类,得到所述问题对应的特征向量和类别;
所述相似文本检索模块用于在预设的文本语料库中进行检索,得到与所述待处理问题相同类别且相似度最大的原始文本,并将所述待处理问题和原始文本分别于对应的类别标签进行融合;
所述答案预测模块用于基于融合了类别信息的待处理问题,在对应的原始文本中进行答案预测,输出待处理问题对应的答案。
10.根据权利要求9所述的基于特征分类的问答系统,其特征在于,
所述答案预测模块包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层;
所述输入嵌入层用于对输入的带有类别标签信息的特征向量进行词嵌入和字符嵌入,得到输入嵌入层隐向量;
所述嵌入编码层用于基于所述输入嵌入层隐向量进行特征提取及注意力计算,得到具有全文语义信息的编码表示;
所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度;
所述模型编码器层用于基于原始文本的编码表示及所述第一关注度和第二关注度提取得到全局信息的特征
Figure QLYQS_29
、以及预测答案在原始文本数据中的开始位置特征/>
Figure QLYQS_30
和结束位置特征/>
Figure QLYQS_31
所述输出层用于基于全局信息的特征
Figure QLYQS_32
、开始位置特征/>
Figure QLYQS_33
和结束位置特征/>
Figure QLYQS_34
预测原始文本数据中每个位置的单词作为答案开始或结束的概率,并输出所述待处理问题对应的答案。
CN202310551556.9A 2023-05-17 2023-05-17 一种基于特征分类的问答方法及系统 Active CN116303977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310551556.9A CN116303977B (zh) 2023-05-17 2023-05-17 一种基于特征分类的问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310551556.9A CN116303977B (zh) 2023-05-17 2023-05-17 一种基于特征分类的问答方法及系统

Publications (2)

Publication Number Publication Date
CN116303977A true CN116303977A (zh) 2023-06-23
CN116303977B CN116303977B (zh) 2023-08-04

Family

ID=86803503

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310551556.9A Active CN116303977B (zh) 2023-05-17 2023-05-17 一种基于特征分类的问答方法及系统

Country Status (1)

Country Link
CN (1) CN116303977B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573851A (zh) * 2024-01-17 2024-02-20 浙商期货有限公司 一种期货领域的生成式自动问答方法和系统
CN117648349A (zh) * 2024-01-29 2024-03-05 河北省中医院 档案调用方法及平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414461A (zh) * 2020-01-20 2020-07-14 福州大学 一种融合知识库与用户建模的智能问答方法及系统
CN112463944A (zh) * 2020-12-22 2021-03-09 安徽商信政通信息技术股份有限公司 一种基于多模型融合的检索式智能问答方法及装置
WO2022105115A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 问答对匹配方法、装置、电子设备及存储介质
CN115048485A (zh) * 2022-05-16 2022-09-13 国网江苏省电力有限公司 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质
US20230039496A1 (en) * 2020-09-27 2023-02-09 Boe Technology Group Co., Ltd. Question-and-answer processing method, electronic device and computer readable medium

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111414461A (zh) * 2020-01-20 2020-07-14 福州大学 一种融合知识库与用户建模的智能问答方法及系统
US20230039496A1 (en) * 2020-09-27 2023-02-09 Boe Technology Group Co., Ltd. Question-and-answer processing method, electronic device and computer readable medium
WO2022105115A1 (zh) * 2020-11-17 2022-05-27 平安科技(深圳)有限公司 问答对匹配方法、装置、电子设备及存储介质
CN112463944A (zh) * 2020-12-22 2021-03-09 安徽商信政通信息技术股份有限公司 一种基于多模型融合的检索式智能问答方法及装置
CN115048485A (zh) * 2022-05-16 2022-09-13 国网江苏省电力有限公司 面向变压器检修场景的推理型自动问答方法、系统与计算机可读介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117573851A (zh) * 2024-01-17 2024-02-20 浙商期货有限公司 一种期货领域的生成式自动问答方法和系统
CN117573851B (zh) * 2024-01-17 2024-06-18 浙商期货有限公司 一种期货领域的生成式自动问答方法和系统
CN117648349A (zh) * 2024-01-29 2024-03-05 河北省中医院 档案调用方法及平台
CN117648349B (zh) * 2024-01-29 2024-04-09 河北省中医院 档案调用方法及平台

Also Published As

Publication number Publication date
CN116303977B (zh) 2023-08-04

Similar Documents

Publication Publication Date Title
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
CN109840287B (zh) 一种基于神经网络的跨模态信息检索方法和装置
CN116450796B (zh) 一种智能问答模型构建方法及设备
CN111738003B (zh) 命名实体识别模型训练方法、命名实体识别方法和介质
CN116303977B (zh) 一种基于特征分类的问答方法及系统
CN110750635B (zh) 一种基于联合深度学习模型的法条推荐方法
CN114565104A (zh) 语言模型的预训练方法、结果推荐方法及相关装置
CN115048447B (zh) 一种基于智能语义补全的数据库自然语言接口系统
CN110457585B (zh) 负面文本的推送方法、装置、系统及计算机设备
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN115495555A (zh) 一种基于深度学习的文献检索方法和系统
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN112183106A (zh) 一种基于音素联想及深度学习的语义理解方法及装置
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN113887836B (zh) 一种融合事件环境信息的叙述性事件预测方法
CN115391520A (zh) 一种文本情感分类方法、系统、装置及计算机介质
CN111145914A (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN117648429A (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN113961706A (zh) 一种基于神经网络自注意力机制的精确文本表示方法
CN116561314B (zh) 基于自适应阈值选择自注意力的文本分类方法
Pîrtoacă et al. Improving retrieval-based question answering with deep inference models
CN115860002A (zh) 一种基于事件抽取的作战任务生成方法及系统
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN114329181A (zh) 一种题目推荐方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant