CN116450796B - 一种智能问答模型构建方法及设备 - Google Patents
一种智能问答模型构建方法及设备 Download PDFInfo
- Publication number
- CN116450796B CN116450796B CN202310558113.2A CN202310558113A CN116450796B CN 116450796 B CN116450796 B CN 116450796B CN 202310558113 A CN202310558113 A CN 202310558113A CN 116450796 B CN116450796 B CN 116450796B
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- original text
- layer
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims abstract description 17
- 239000013598 vector Substances 0.000 claims description 74
- 239000011159 matrix material Substances 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 5
- 230000003993 interaction Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种智能问答模型构建方法及设备,属于自然语言处理技术领域;解决现有技术中的问答模型构建方法得到的问答模型推断速度慢,且答案预测不够准确的问题。本发明的方法包括:获取问答相关领域的多个原始文本数据,构建训练样本集;训练样本集中包括原始文本数据,以及基于原始文本数据得到的标准问题、标准答案和类别标签;构建初始智能问答模型,初始智能问答模型包括特征分类模块和答案预测模块;其中,特征分类模块用于对输入的问题进行分类;答案预测模块用于基于融合了类别信息的问题进行答案预测;基于训练样本集对初始智能问答模型进行训练,经过损失函数迭代更新,得到智能问答模型。
Description
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种智能问答模型构建方法及设备。
背景技术
随着人工智能和大数据技术的发展,人机交互系统在企业生产和日常生活中发挥着越来越重要的作用。自然语言作为人机交互的一种方式,伴随着发展起来的自然语言处理技术主要包括语音识别、语义理解两大部分。问答模型的应用也越来越广泛。
但现有模型存在的一个普遍问题是训练和推断都十分缓慢,特别是对于长文本来说,高昂的训练开销不仅导致了很长的实验周期,限制了研究者进行迅速的迭代,还妨碍了模型被用于大型数据集。且缓慢的推断阻碍了机器阅读理解系统在实时应用中的部署。
因此,如何使得问答模型更加迅速地获取并理解大问答对与文本的注意关系,并更加快速且准确地预测出问题对应的答案信息,成为目前急需解决的问题。
发明内容
鉴于上述的分析,本发明旨在提供一种智能问答模型构建方法及设备;解决现有技术中的问答模型构建方法得到的问答模型推断速度慢,且答案预测不够准确的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明提供了一种智能问答模型构建方法,包括:
获取问答相关领域的多个原始文本数据,构建训练样本集;所述训练样本集中包括原始文本数据,以及基于所述原始文本数据得到的标准问题、标准答案和类别标签;
构建初始智能问答模型,所述智能问答模型包括特征分类模块和答案预测模块;所述特征分类模块用于对输入的问题进行分类;所述答案预测模块用于基于融合了类别信息的问题进行答案预测;
基于所述训练样本集对所述初始智能问答模型进行训练,经过损失函数迭代更新,得到所述智能问答模型。
进一步的,通过下述方法构建训练样本集:
基于互联网爬虫技术,获取问答相关领域新闻网站的新闻数据;
基于预先设置的类别对所述新闻数据进行分类;
解析各类别的新闻数据,得到各类别的新闻标题、新闻文本、新闻图片、新闻视频和新闻链接;基于所述新闻标题和新闻文本得到所述原始文本;
对所述原始文本以句为单位进行拆解,构造标准问题和标准答案,形成标准问答对;
基于所述原始文本、标准问答对和对应的类别,得到所述训练样本集。
进一步的,所述基于所述训练样本集对所述智能问答模型进行训练,包括:
将所述训练样本集中的数据以及对应的类别标签输入所述特征分类模块进行特征提取,并基于所述类别标签对标准问题、标准答案和原始文本数据进行类别预测,经过损失函数迭代更新,得到收敛的所述特征分类模块;
将所述特征分类模块中提取得到的所述标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合,得到对应的带有类别信息的特征向量;
将带有类别信息的各个特征向量分别输入所述答案预测模块,基于标准问题和标准答案对应的特征向量,在原始文本特征向量中预测答案,经过损失函数迭代更新,得到收敛的所述答案预测模块。
进一步的,所述特征分类模块为基于Bert-LSTM的模型,包括Bert层和LSTM层;
所述Bert层用于对输入的文本进行特征提取和向量表示,得到融合文本各个位置的字向量、文本向量和位置向量的具有文本语义信息的特征向量;
所述LSTM层用于对所述Bert层输出的特征向量进行时间序列特征提取并进行分类,得到输入文本对应的类别。
进一步的,所述答案预测模块包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层;
所述输入嵌入层用于对输入的带有类别标签信息的特征向量进行词嵌入和字符嵌入,得到输入嵌入层隐向量;
所述嵌入编码层用于基于所述输入嵌入层隐向量进行特征提取及注意力计算,得到具有全文语义信息的编码表示;
所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度;
所述模型编码器层用于基于原始文本的编码表示及所述第一关注度和第二关注度提取得到全局信息的特征M0、以及预测答案在原始文本数据中的开始位置特征M1和结束位置特征M2;
所述输出层用于基于全局信息的特征M0、开始位置特征M1和结束位置特征M2预测原始文本数据中每个位置的单词作为答案开始或结束的概率,并输出所述待处理问题对应的答案。
进一步的,所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的关注度和原始文本到问题的关注度,包括:
基于所述嵌入编码层输出的所述问题与原始文本的编码表示,计算得到相似矩阵;
对相似性矩阵的每一行求softmax,得到问题到原始文本的关注度矩阵,表示为:
A=softmax(α(Ci,Qj))QT;
对相似性矩阵的每一列求softmax,得到原始文本到问题的关注度矩阵,表示为:
B=softmax((α(Ci,Qj))T)CT;
其中,Ci表示原始文本数据中第i个词,Qj表示输入的问题中第j个词,Q和C分别为问题和原始文本的编码矩阵,α为可训练的标量函数。
进一步的,所述相似矩阵表示为:
Wo为可训练参数,q、c分别为问题和原始文本的编码表示,表示元素相乘。
进一步的,所述输出层通过下述公式计算得到答案的起始位置和结束位置的概率:
pb=softmax(W1[M0,M1]);
pe=softmax(W2[M0,M2]);
其中,pb和pe分别是单词作为答案开始和结束的概率;W1和W2是可训练的参数,M0为模型提取的原始文本的全局信息的特征,M1为模型提取预测答案开始位置的特征,M2为模型提取预测答案结束位置的特征。
进一步的,所述答案预测模型训练的损失函数的公式为:
其中,和/>分别表示模型处理第i个样本时预测的答案的起始和结束位置概率,/>和/>为第i个样本对应的标准答案在原始文本中的开始位置和结束位置,N表示样本个数。
另一方面,还提供一种计算机设备,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现前述的智能问答模型构建方法。
本技术方案的有益效果:
1、本发明的智能问答模型构建方法通过设置特征分类层,对输入的问题获取自定义的分类标签信息,通过在问题及原始文本中融入分类信息,能够准确定位问题的类别以及领域信息,基于融入了类别和领域信息特征数据进行预测,显著提高了问答模型答案预测的准确性。
2、本发明去除了编码器中的循环网络,获取到问题与文本的注意关系,大大缩短了模型的训练时间,提升预测速度,快速给出问题的答案。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为本发明实施例的智能问答模型构建方法流程图;
图2为本发明实施例的智能问答模型示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
本实施例中的一种智能问答模型构建方法,如图1所示,包括:
步骤S1:获取问答相关领域的多个原始文本数据,构建训练样本集;训练样本集中包括原始文本数据,以及基于原始文本数据得到的标准问题、标准答案和类别标签;
具体的,在智能问答模型训练之前需要构建与问答领域相关的语料库,用于模型训练和答案预测。语料库中包括用于答案预测的原始文本数据和用于模型训练的标准问答对(即标准问题和对应的标准答案)。
示例性的,本实施例可应用于军事领域,通过下述方法构建得到文本语料库和标准问答对:
基于互联网爬虫技术,获取问答相关领域新闻网站的新闻数据;
自定义类别数据库,根据获取到的互联网新闻数据和军事业务需求,将新闻数据划分为:军事装备类、军事新闻、政要人物重要言论类,基于预先定义的类别对新闻数据进行分类;
解析各类别的新闻数据,得到各类别的新闻标题、新闻文本、新闻图片、新闻视频和新闻链接;基于新闻标题和新闻文本得到文本语料库;并将相关联的图片、视频信息以超链接的形式保存。
通过对业务梳理及互联网军事数据分析,在每一类数据库下构造问答对语料,将文本语料库中的原始文本(即在军事互联网数据中获取的新闻标题和新闻文本)以句为单位进行拆解,针对军事互联网数据中的原始文本,构造标准问题和标准答案,形成标准问答对,在实际应用中,可以基于获取的互联网军事原始文本数据,人工进行提问并给出该问题的标准答案,形成标准问答对。
其中,原始文本和标准问答对可用于智能问答模型训练,原始文本同时用作构建模型的预设文本语料库,作为答案预测的基础文本。
步骤S2:构建初始智能问答模型;
如图2所示,本实施例的智能问答模型包括特征分类模块和答案预测模块;特征分类模块用于对输入的问题进行分类;答案预测模块用于基于融合了类别信息的问题进行答案预测;
具体的,特征分类模块为基于Bert-LSTM的模型,包括Bert层和LSTM层;
Bert层用于对输入的文本进行特征提取和向量表示,得到融合了文本各个位置的字向量、文本向量和位置向量的具有文本语义信息的特征向量;
LSTM层用于对Bert层输出的特征向量进行时间序列特征提取并进行分类,得到输入文本对应的类别;
答案预测模块为基于QANet的模型,包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层;
输入嵌入层用于对输入的带有类别标签信息的特征向量进行词嵌入和字符嵌入,得到输入嵌入层隐向量;
嵌入编码层用于基于输入嵌入层隐向量进行特征提取及注意力计算,得到具有全文语义信息的编码表示;
查询问题注意层用于基于编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度;
模型编码器层用于基于原始文本的编码表示及第一关注度和第二关注度提取得到全局信息的特征M0、以及预测答案在原始文本数据中的开始位置特征M1和结束位置特征M2;
输出层用于基于全局信息的特征M0、开始位置特征M1和结束位置特征M2预测原始文本数据中每个位置的单词作为答案开始或结束的概率,并输出待处理问题对应的答案。
在实际应用中,通过智能客服终端获取到输入的问题并进行分类后,利用相似度算法(例如余弦相似度或Jacard相似度算法)获取同类别的数据库中相似度最大的原始文本,用于后续的答案预测
步骤S3:基于训练样本集对初始智能问答模型进行训练,经过损失函数迭代更新,得到智能问答模型;
具体的,通过下述方法基于训练样本集对智能问答模型进行训练:
将训练样本集中的数据以及对应的类别标签输入特征分类模块进行特征提取,并基于类别标签对标准问题、标准答案和原始文本数据进行类别预测,经过损失函数迭代更新,得到收敛的特征分类模块;
将特征分类模块中提取得到的标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合,得到对应的带有类别信息的特征向量;
将带有类别信息的各个特征向量分别输入答案预测模块,基于标准问题和标准答案对应的特征向量,在原始文本特征向量中预测答案,经过损失函数迭代更新,得到收敛的答案预测模块。
更具体的,在训练过程中,将训练样本集中的标准问题文本、标准答案文本和原始文本分别输入特征分类模块的Bert层,经过Bert层进行特征提取和向量表示,得到文本各个位置的字向量、文本向量和位置向量,融合各个向量得到具有全文语义信息的特征向量;将Bert层输出的特征向量输出到LSTM层中,通过LSTM层进行词向量映射,并利用全连接层提取文本信息的抽象特征,在全连接层添加Attention注意力机制,为文本重要的信息属性赋予更高的权重信息,最后通过全连接层和softmax分类器对获得的文本的深层语义特征进行分类,输出每个文本对应的预测类别标签的概率,经过迭代训练,得到收敛的特征分类模块。
进一步将特征分类模块中Bert层输出的标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合,例如将标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量相加,得到对应的带有类别信息的特征向量;
将带有类别信息的分别输入智能问答模型的答案预测模块的输入嵌入层(InputEmbedding Layer),得到输入嵌入层隐向量。将标准问题、标准答案及原始文本数据对应的嵌入层隐向量分别输入嵌入编码层,得到具有全文语义信息的编码表示;具体的,嵌入编码层包括卷积层、自注意层和前馈神经网络层;其卷积层采用深层可分卷积网络,能够实现较好的记忆功能和良好的泛化能力;对于自注意力层,采用多头注意力机制,能够关注到每一个输入的位置,计算所有位置的权重信息;前馈神经网络层能够实现一个完整的从输入到输出的路径。本发明通过将文本语义特征向量与类别标签向量相融合,得到具有类别标签信息的向量表示,此向量带有问题以及答案文本的类别信息以及领域信息,在训练过程中对标签向量进行拟合,能够更好的判断问题的领域以及特征,可以提高问答的准确性。
将嵌入编码层输出的标准问题、标准答案和原始文本对应的具有全文语义信息的编码表示输入查询问题注意层,计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度,以获取原始文本与标准问题之间的交互信息。编码后的原始文本和标准问题分别表示为c和q,通过线性函数计算原始文本与标准问题之间的相似性,得到相似矩阵S,其中相似矩阵的计算公式为:
其中,Wo为可训练的参数,q、c分别是标准问题和原始文本的编码表示,表示元素相乘。
通过相似矩阵S构建原始文本到标准问题的第一关注度(context-to-query-attention)和标准问题到文本的第二关注度(query-to-context attention),分别用来确定对于标准问题中每一个单词而言,原文中的哪个词与之最匹配,以及对于原始文本中的每一个单词,标准问题中的哪个词与之最接近。
具体的,通过对相似性矩阵S的每一行求softmax,并将标准问题词向量加权求和计算得到问题到原始文本的关注度矩阵A:
A=softmax(α(Ci,Qj))QT;
通过对相似性矩阵S的每一列求softmax,通过下式将原文词向量加权求和计算得到原始文本到问题的关注度矩阵B。
B=softmax((α(Ci,Qj))T)CT;
其中,Ci表示文章中的第i个词,Qj表示问题中的第j个词,Q和C分别为问题和原始文本的编码矩阵,α为可训练的标量函数。
得到问题到文本及文本到问题的关注度后,利用模型编码器层,从全局的角度来考虑原始文本和问题之间的关系。具体的,将查询问题注意层得到的A和B和原文C的编码结果按照[c,a,c,⊙a,c⊙b]的形式拼接在一起,其中⊙表示点乘,并送入3个连续的堆叠模型编码层(其中a、b、c分别表示A、B和C的编码结果),分别得到结果M0、M1和M2,其中,M0为模型提取的原始文本的全局信息的特征,M1为模型提取问题在原始文本中开始位置的特征,M2为模型提取的问题在原始文本中结束位置的特征。
最后通过输出层,基于标准答案的向量表示,预测原始文本中每个位置作为答案开始或结束的概率;本实施例中的标准答案源于原始文本,其在原始文本中有一个起始位置和终止位置,可用作模型训练中的一个对照(label),在训练过程中通过正确预测起止位置来降低损失,得到最终的答案预测模块。
具体的,基于模型编码层的三个输出结果M0,M1和M2,经过softmax运算,得到答案起始位置的概率,如下所示:
pb=softmax(W1[M0,M1]);
答案结束位置的概率计算,如下所示:
pe=softmax(W2[M0,M2]);
其中,pb和pe分别是单词作为答案开始和结束的概率,W1和W2是可训练的参数。
最后通过最小损失函数,逐步修正参数,得到最优的结果,损失函数如下式所示:
其中,和/>分别表示模型处理第i个样本时预测的答案的起始和结束位置概率,/>和/>为第i个样本对应的标准答案在原始文本中的开始位置和结束位置,N表示样本个数。
经过迭代训练后,即得到收敛的包括特征分类模块和答案预测模块的智能问答模型。
特殊的,本实施例训练得到的智能问答模型可通过智能客服终端实现,在实际应用中,可以通过智能客服终端输入待处理问题,智能客服终端系统获取用户输入的问题信息后,通过客服终端中运行的智能问答模型的特征分类层对问题语句进行语义分析,获取到问题的类别信息;然后在预设的文本语料库中相同类别的语料数据集中进行搜索,获取到与问题相同类别且相关度最大的原始文本;将待处理问题和原始文本以及对应的类别标签输入智能问答模型的答案预测模块,预测得到输入的问题对应的答案,最终将答案输出给用户,并且推荐出与之关联的图片、视频信息,提高用户问答体验。
本发明的另一个实施例,还提供一种计算机设备,包括至少一个处理器,以及至少一个与处理器通信连接的存储器;
存储器存储有可被处理器执行的指令,指令用于被处理器执行以实现前述的智能问答模型构建方法。
综上,本发明的实施例提供的智能问答模型构建方法,通过设置特征分类层,对输入的问题获取自定义的分类标签信息,通过在问题及原始文本中融入分类信息,能够准确定位问题的类别以及领域信息,基于融入了类别和领域信息特征数据进行预测,显著提高了问答模型答案预测的准确性。且本发明去除了编码器中的循环网络,获取到问题与文本的注意关系,大大缩短了模型的训练时间,提升预测速度,快速给出问题的答案。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (8)
1.一种智能问答模型构建方法,其特征在于,包括:
获取问答相关领域的多个原始文本数据,构建训练样本集;所述训练样本集中包括原始文本数据,以及基于所述原始文本数据得到的标准问题、标准答案和类别标签;
构建初始智能问答模型,所述智能问答模型包括特征分类模块和答案预测模块;所述特征分类模块用于对输入的问题进行分类;所述答案预测模块用于基于融合了类别信息的问题进行答案预测;
所述特征分类模块为基于Bert-LSTM的模型,包括Bert层和LSTM层;所述Bert层用于对输入的文本进行特征提取和向量表示,得到融合文本各个位置的字向量、文本向量和位置向量的具有文本语义信息的特征向量;所述LSTM层用于对所述Bert层输出的特征向量进行时间序列特征提取并进行分类,得到输入文本对应的类别;
所述答案预测模块包括输入嵌入层、嵌入编码层、查询问题注意层、模型编码器层和输出层;所述输入嵌入层用于对输入的带有类别标签信息的特征向量进行词嵌入和字符嵌入,得到输入嵌入层隐向量;所述嵌入编码层用于基于所述输入嵌入层隐向量进行特征提取及注意力计算,得到具有全文语义信息的编码表示;所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的第一关注度和原始文本到问题的第二关注度;所述模型编码器层用于基于原始文本的编码表示及所述第一关注度和第二关注度提取得到全局信息的特征M0、以及预测答案在原始文本数据中的开始位置特征M1和结束位置特征M2;所述输出层用于基于全局信息的特征M0、开始位置特征M1和结束位置特征M2预测原始文本数据中每个位置的单词作为答案开始或结束的概率,并输出所述待处理问题对应的答案;
基于所述训练样本集对所述初始智能问答模型进行训练,经过损失函数迭代更新,得到所述智能问答模型。
2.根据权利要求1所述的智能问答模型构建方法,其特征在于,通过下述方法构建训练样本集:
基于互联网爬虫技术,获取问答相关领域新闻网站的新闻数据;
基于预先设置的类别对所述新闻数据进行分类;
解析各类别的新闻数据,得到各类别的新闻标题、新闻文本、新闻图片、新闻视频和新闻链接;基于所述新闻标题和新闻文本得到所述原始文本;
对所述原始文本以句为单位进行拆解,构造标准问题和标准答案,形成标准问答对;
基于所述原始文本、标准问答对和对应的类别,得到所述训练样本集。
3.根据权利要求1所述的智能问答模型构建方法,其特征在于,所述基于所述训练样本集对所述智能问答模型进行训练,包括:
将所述训练样本集中的数据以及对应的类别标签输入所述特征分类模块进行特征提取,并基于所述类别标签对标准问题、标准答案和原始文本数据进行类别预测,经过损失函数迭代更新,得到收敛的所述特征分类模块;
将所述特征分类模块中提取得到的所述标准问题、标准答案及原始文本数据的特征向量分别与对应的类别标签的特征向量进行融合,得到对应的带有类别信息的特征向量;
将带有类别信息的各个特征向量分别输入所述答案预测模块,基于标准问题和标准答案对应的特征向量,在原始文本特征向量中预测答案,经过损失函数迭代更新,得到收敛的所述答案预测模块。
4.根据权利要求1所述的智能问答模型构建方法,其特征在于,所述查询问题注意层用于基于所述编码表示计算得到问题到原始文本的关注度和原始文本到问题的关注度,包括:
基于所述嵌入编码层输出的所述问题与原始文本的编码表示,计算得到相似矩阵;
对相似性矩阵的每一行求softmax,得到问题到原始文本的关注度矩阵,表示为:
A=softmax(α(Ci,Qj))QT;
对相似性矩阵的每一列求softmax,得到原始文本到问题的关注度矩阵,表示为:
B=softmax((α(Ci,Qj))T)CT;
其中,Ci表示原始文本数据中第i个词,Qj表示输入的问题中第j个词,Q和C分别为问题和原始文本的编码矩阵,α为可训练的标量函数。
5.根据权利要求4所述的智能问答模型构建方法,其特征在于,所述相似矩阵表示为:
Wo为可训练参数,q、c分别为问题和原始文本的编码表示,表示元素相乘。
6.根据权利要求1所述的智能问答模型构建方法,其特征在于,所述输出层通过下述公式计算得到答案的起始位置和结束位置的概率:
pb=softmax(W1[Mo,M1]);
pe=softmax(W2[Mo,M2]);
其中,pb和pe分别是单词作为答案开始和结束的概率;W1和W2是可训练的参数,M0为模型提取的原始文本的全局信息的特征,M1为模型提取预测答案开始位置的特征,M2为模型提取预测答案结束位置的特征。
7.根据权利要求3所述的智能问答模型构建方法,其特征在于,所述答案预测模型训练的损失函数的公式为:
其中,和/>分别表示模型处理第i个样本时预测的答案的起始和结束位置概率,和/>为第i个样本对应的标准答案在原始文本中的开始位置和结束位置,N表示样本个数。
8.一种计算机设备,其特征在于,包括至少一个处理器,以及至少一个与所述处理器通信连接的存储器;
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-7任一项所述的智能问答模型构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310558113.2A CN116450796B (zh) | 2023-05-17 | 2023-05-17 | 一种智能问答模型构建方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310558113.2A CN116450796B (zh) | 2023-05-17 | 2023-05-17 | 一种智能问答模型构建方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116450796A CN116450796A (zh) | 2023-07-18 |
CN116450796B true CN116450796B (zh) | 2023-10-17 |
Family
ID=87125756
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310558113.2A Active CN116450796B (zh) | 2023-05-17 | 2023-05-17 | 一种智能问答模型构建方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450796B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116737912B (zh) * | 2023-08-15 | 2023-10-20 | 北京中关村科金技术有限公司 | 复杂问题处理方法、装置、设备及介质 |
CN116842168B (zh) * | 2023-08-30 | 2023-11-14 | 汉王科技股份有限公司 | 跨领域问题处理方法、装置、电子设备及存储介质 |
CN117041618B (zh) * | 2023-10-10 | 2024-02-06 | 北京装库创意科技有限公司 | 一种用于电商的智能语音客服方法和系统 |
CN117235240B (zh) * | 2023-11-14 | 2024-02-20 | 神州医疗科技股份有限公司 | 一种基于异步消费队列的多模型结果融合问答方法及系统 |
CN117648349B (zh) * | 2024-01-29 | 2024-04-09 | 河北省中医院 | 档案调用方法及平台 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543557A (zh) * | 2019-09-06 | 2019-12-06 | 北京工业大学 | 一种基于注意力机制的医疗智能问答系统的构建方法 |
CN113901191A (zh) * | 2021-06-16 | 2022-01-07 | 北京金山数字娱乐科技有限公司 | 问答模型的训练方法及装置 |
CN114077655A (zh) * | 2020-08-17 | 2022-02-22 | 北京金山数字娱乐科技有限公司 | 一种答案抽取模型的训练方法及装置 |
CN115775000A (zh) * | 2022-11-30 | 2023-03-10 | 贵州财经大学 | 一种自动问答的实现方法和装置 |
CN115878794A (zh) * | 2022-10-08 | 2023-03-31 | 天道金科股份有限公司 | 基于文本分类的候选段落生成及多跳问题回答方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434517B (zh) * | 2020-11-09 | 2023-08-04 | 西安交通大学 | 一种结合主动学习的社区问答网站答案排序方法及系统 |
-
2023
- 2023-05-17 CN CN202310558113.2A patent/CN116450796B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543557A (zh) * | 2019-09-06 | 2019-12-06 | 北京工业大学 | 一种基于注意力机制的医疗智能问答系统的构建方法 |
CN114077655A (zh) * | 2020-08-17 | 2022-02-22 | 北京金山数字娱乐科技有限公司 | 一种答案抽取模型的训练方法及装置 |
CN113901191A (zh) * | 2021-06-16 | 2022-01-07 | 北京金山数字娱乐科技有限公司 | 问答模型的训练方法及装置 |
CN115878794A (zh) * | 2022-10-08 | 2023-03-31 | 天道金科股份有限公司 | 基于文本分类的候选段落生成及多跳问题回答方法 |
CN115775000A (zh) * | 2022-11-30 | 2023-03-10 | 贵州财经大学 | 一种自动问答的实现方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于答案辅助的半监督问题分类方法;张栋;李寿山;周国栋;;计算机工程与科学(12);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116450796A (zh) | 2023-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116450796B (zh) | 一种智能问答模型构建方法及设备 | |
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN116303977B (zh) | 一种基于特征分类的问答方法及系统 | |
CN113569001A (zh) | 文本处理方法、装置、计算机设备及计算机可读存储介质 | |
CN113987169A (zh) | 基于语义块的文本摘要生成方法、装置、设备及存储介质 | |
CN113672708A (zh) | 语言模型训练方法、问答对生成方法、装置及设备 | |
CN110321426B (zh) | 摘要抽取方法、装置及计算机设备 | |
CN111581368A (zh) | 一种基于卷积神经网络的面向智能专家推荐的用户画像方法 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN113535897A (zh) | 一种基于句法关系和意见词分布的细粒度情感分析方法 | |
CN112183106A (zh) | 一种基于音素联想及深度学习的语义理解方法及装置 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
CN115408603A (zh) | 一种基于多头自注意力机制的在线问答社区专家推荐方法 | |
CN114880307A (zh) | 一种开放教育领域知识的结构化建模方法 | |
CN115129807A (zh) | 基于自注意的社交媒体主题评论的细粒度分类方法及系统 | |
Hafeth et al. | Semantic representations with attention networks for boosting image captioning | |
CN113961706A (zh) | 一种基于神经网络自注意力机制的精确文本表示方法 | |
CN111666375A (zh) | 文本相似度的匹配方法、电子设备和计算机可读介质 | |
CN115860002A (zh) | 一种基于事件抽取的作战任务生成方法及系统 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |