CN112463944A - 一种基于多模型融合的检索式智能问答方法及装置 - Google Patents
一种基于多模型融合的检索式智能问答方法及装置 Download PDFInfo
- Publication number
- CN112463944A CN112463944A CN202011534782.9A CN202011534782A CN112463944A CN 112463944 A CN112463944 A CN 112463944A CN 202011534782 A CN202011534782 A CN 202011534782A CN 112463944 A CN112463944 A CN 112463944A
- Authority
- CN
- China
- Prior art keywords
- question
- rule
- standard
- user
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000004927 fusion Effects 0.000 title claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 90
- 230000011218 segmentation Effects 0.000 claims abstract description 31
- 238000007781 pre-processing Methods 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 24
- 238000007635 classification algorithm Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 5
- 210000005036 nerve Anatomy 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 16
- 244000062793 Sorghum vulgare Species 0.000 description 9
- 235000019713 millet Nutrition 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 230000006698 induction Effects 0.000 description 5
- 238000007500 overflow downdraw method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 101100493820 Caenorhabditis elegans best-1 gene Proteins 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 238000013145 classification model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/245—Classification techniques relating to the decision surface
- G06F18/2453—Classification techniques relating to the decision surface non-linear, e.g. polynomial classifier
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computing Systems (AREA)
- Library & Information Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Nonlinear Science (AREA)
- Human Computer Interaction (AREA)
- Animal Behavior & Ethology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多模型融合的检索式智能问答方法及装置,该方法包括:对用户问句进行文本预处理,进行分词和命名实体识别,得到所述问句的分词结果和所述问句的实体标记;将所述分词结果和实体标记经过规则分类器,匹配规则库中的规则,将所述规则对应的标准问和所述标准问的答案返回给用户。本发明提升了模型的效果;在规则分类器中,使用了自动化生成规则的方法,节省了大量的人力开销,同时对于知识库中的问句,能够达到几乎100%的准确率,提升了客户的使用感受度;当语料足够时,提高了模型的效果和泛化性能,提高了意图识别的准确率;优化了算法模型的运行效率,提升了算法的运行速度。
Description
技术领域
本发明属于智能问答领域,特别涉及一种基于多模型融合的检索式智能问答方法及装置。
背景技术
现有智能问答主要是基于信息检索或语义理解技术去从大量候选集中寻找答案。用户问问题时,会将问题到索引库中匹配;首先进行关键字的粗排检索,召回部分可能符合答案的问答对;然后通过语义和其它更丰富的算法进行精排计算,返回最好的一个结果。流程图如图5所示。
常用的关键字粗排检索的方法是使用Elasticsearch进行分词查询,通过问句的分词结果,查询知识库。Elasticsearch使用倒排索引的技术,具有查询速度快、支持海量数据查询等优点,缺点是无法检索同义词,为保证较高的召回率,需要查询比较多的相似问句;另外,对于一些问句的不同表述,可能无法理解其语义信息,而导致漏检索。
精排模型通过计算用户问句和粗排检索后的问句的匹配度得分,按匹配分的大小进行排序,取得分最高的相似问句作为精排结果。精排模型的准确率和算法复杂度取决于粗排检索的相似问句数量,且对训练语料的数量和质量都有很高的要求。
检索式问答通俗易懂,易于理解,但缺点也很多,如:(1)检索式问答非常依赖于事先定义的数据库,需要大量高质量的一些问答对或知识点;(2)关键字粗排检索决定了算法准确率的上限,使用Elasticsearch检索虽然速度快,但没有考虑语义信息。
传统的检索式问答需要大量高质量的语料和知识库,知识库数据较多时,存在识别准确率不高的问题。
发明内容
针对上述问题,本发明一种基于多模型融合的检索式智能问答方法,该方法包括:
对用户问句进行文本预处理,进行分词和命名实体识别,得到所述问句的分词结果和所述问句的实体标记;
将所述分词结果和实体标记经过规则分类器,匹配规则库中的规则,将所述规则对应的标准问和所述标准问的答案返回给用户。
进一步的,所述匹配规则库中的规则,将规则对应的标准问和所述标准问的答案返回给用户,包括:
若匹配到规则库中的所述规则,则将所述规则对应的所述标准问和所述标准问的答案返回给用户;
若未匹配到规则库中的所述规则,则使用算法模型进行预测,通过在知识库中匹配到与用户问比较相似的相似问或标准问,并将所述标准问和标准问的答案返回给用户。
进一步的,所述对用户问句进行文本预处理,至少包括:
使用BiLSTM+CRF模型,对所述用户问进行实体标注,找出所述用户问中的所有实体,并给出实体类型和得分;
根据所述用户问和所述实体类型和得分,生成句式。
进一步的,所述规则为采用句式生成的方法,自动化生成规则。
进一步的,所述匹配规则库中的规则前,采用Elasticsearch检索的方法,获取规则库。
进一步的,所述自动化生成规则,包括:
标识命名实体;
代替所述命名实体,生成新的问句,得到规则。
进一步的,所述匹配规则库中的规则,包括:
采用Elasticsearch检索,获取进一步精细检索需要的所述规则库;
根据所述预处理生成的句式,在所述规则库中进行规则匹配,若规则匹配所述规则,则直接返回所述规则对应的所述标准问;若未匹配到规则库中的所述规则,则使用算法模型分析。
进一步的,所述使用算法模型分析,包括:改进的小样本分类算法、改进的文本分类算法、融合的算法模型。
进一步的,所述改进的小样本分类算法,包括:
构建结构网络模型,其中,所述结构网络模型包括编码器模块、归纳模块和关系模块,将Text CNN模型作为所述编码器模块中的编码器,所述归纳模块使用动态路由归纳算法做类别映射;所述关系模块使用神经张量层和激活函数RELU计算文本的得分,使用交叉熵作为损失函数;
通过所述损失函数中最小化损失函数,训练出算法模型,使用所述编码器模块的输出作为算法模型的输出,保存所述算法模型,所述算法模型的输入为一个所述标准问,输出为所述标准问的特征向量,将知识库中的所有标准问和相似问,输入到所述算法模型中,取所述编码器模块的输出结果作为所述标准问和相似问的特征向量,计算所述标准问和相似问的特征向量的平均值作为所述标准问的类向量,保存所述类向量到文件中;
用户问句通过所述算法模型预测,得到所述用户问句的特征向量,计算所述用户问句的特征向量与所述类向量的余弦距离,排序,取至少一个距离最小的所述余弦距离作为所述用户问句的相似标准问,并返回相似度得分。
进一步的,所述改进的文本分类算法包括:结构网络模型构建、算法模型训练、算法模型预测,其中,所述算法模型训练中,使用语料增强的技术方式,增加训练语料。
进一步的,所述融合的算法模型中,采用所述算法模型对所述用户问句进行预测,并将相似度得分加权平均,排序,取至少一个最好的所述标准问。
另一方面,提供了一种基于多模型融合的检索式智能问答装置,其特征在于,包括:
预处理模块,用于对用户问句进行文本预处理,进行分词和命名实体识别,得到所述问句的分词结果和所述问句的实体标记;
获取答案模块,用于将所述分词结果和实体标记经过规则分类器,匹配规则库中的规则,将所述规则对应的标准问和所述标准问的答案返回给用户。
进一步的,所述匹配规则库中的规则,将规则对应的标准问和所述标准问的答案返回给用户,包括:
若匹配到规则库中的所述规则,则将所述规则对应的所述标准问和所述标准问的答案返回给用户;
若未匹配到规则库中的所述规则,则使用算法模型进行预测,通过在知识库中匹配到与用户问比较相似的相似问或标准问,并将所述标准问和标准问的答案返回给用户。
本发明创新性的使用了规则+算法的策略,其中算法使用了模型融合的方法,提升了模型的效果;在规则分类器中,使用了自动化生成规则的方法,节省了大量的人力开销,同时对于知识库中的问句,能够达到几乎100%的准确率,提升了客户的使用感受度;本文同时使用规则+算法,在训练语料较小时,规则的准确率较高;当语料足够时,提高了模型的效果和泛化性能,提高了意图识别的准确率;优化了算法模型的运行效率,提升了算法的运行速度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据现本发明实施例的基于多模型融合的检索式智能问答方法的流程框图;
图2示出了根据现本发明实施例的基于多模型融合的检索式智能问答装置的结构示意图;
图3示出了根据现本发明实施例的小样本模型预测的流程框图;
图4示出了根据现本发明实施例的改进分类算法模型预测的流程框图;
图5示出了根据现本发明背景技术中的现有检索式问答的流程框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于多模型融合的检索式智能问答方法,包括:
步骤S1:对用户问句进行文本预处理,进行分词和命名实体识别,得到所述问句的分词结果和所述问句的实体标记;
例如,数据预处理:使用jieba工具包对用户问进行分词和去停用词,并进行词性标注;如对于问句“我想知道小米手机的如何退换货?”,经过数据预处理后,输出为:“[知道/v,小米/n,手机/n,退换货/n]”;使用BiLSTM+CRF模型,对用户问进行实体标注,找出问句中的所有实体,并给出实体类型和得分;对于上句,实体标注为:{entity_name:“小米手机”,entity_category:“手机品牌”,entity_index:“[5,8]”};根据用户问句和实体信息,生成句式。对于上句,生成的句式为:“我想知道{@手机品牌@]的如何退换货?”。
步骤S2:将所述分词结果和实体标记经过规则分类器,匹配规则库中的规则,将所述规则对应的标准问和所述标准问的答案返回给用户。
例如,基于规则匹配的问答检索:规则主要是人为制定的一些规则或正则表达式;当用户问问题时,将用户问句与规则库中的规则进行匹配,找到匹配的规则,并将该规则维护的标准问返回给用户;规则具有速度快、准确率高等优点,尤其是数据量较少时,规则准确率明显高于算法,但当知识库很大时,需要制定较多的规则才能将所有标准问维护到规则库中,而规则太多时,可能就会出现规则间的冲突和匹配较慢等问题;其次,大量的制定规则也需要消耗较多的人力成本。
本文使用句式生成的方法,自动化生成规则,并使用Elasticsearch检索的方法,加快规则匹配的速度。
在本发明的一些实施例中,知识库中保存着标准的问答对,即一个标准问对应一个维护好的答案;为了训练算法模型,对标准问进行不同的表述,这些表述定义为该标准问的相似问,相似问和标准问具有相同的答案。
在本发明的一些实施例中,当用户问问题时,首先对问题进行文本预处理进行分词和命名实体识别(NER),然后经过规则分类器,如果匹配到规则库中的某条规则,则将该规则对应的标准问以及该标准问的答案返回给用户;若未匹配到规则库中的某条规则,则使用算法模型进行预测,通过在知识库中匹配到与该用户问比较相似的相似问或标准问,并将该标准问(相似问需先找到标准问)的答案返回给用户。
实施例一:
1)使用jieba工具包对用户问进行分词和去停用词,并进行词性标注;如对于问句“我想知道小米手机的如何退换货?”,经过数据预处理后,输出为:“[知道/v,小米/n,手机/n,退换货/n]”;
2)使用BiLSTM+CRF模型,对用户问进行实体标注,找出问句中的所有实体,并给出实体类型和得分;对于上句,实体标注为:{entity_name:“小米手机”,entity_category:“手机品牌”,entity_index:“[5,8]”};
3)根据用户问句和实体信息,生成句式。对于上句,生成的句式为:“我想知道{@手机品牌@}的如何退换货?”。
匹配规则库中的规则,将规则对应的标准问和所述标准问的答案返回给用户,包括:
步骤S21:若匹配到规则库中的所述规则,则将所述规则对应的所述标准问和所述标准问的答案返回给用户;
步骤S22:若未匹配到规则库中的所述规则,则使用算法模型进行预测,通过在知识库中匹配到与用户问比较相似的相似问或标准问,并将所述标准问和标准问的答案返回给用户。
对用户问句进行文本预处理,至少包括:
步骤S11:使用BiLSTM+CRF模型,对所述用户问进行实体标注,找出所述用户问中的所有实体,并给出实体类型和得分;
步骤S12:根据所述用户问和所述实体类型和得分,生成句式。
在本发明的一些实施例中,所述规则为采用句式生成的方法,自动化生成规则。
在本发明的一些实施例中,所述匹配规则库中的规则前,采用Elasticsearch检索的方法,获取规则库。
自动化生成规则,包括:标识命名实体;代替所述命名实体,生成新的问句,得到规则。
匹配规则库中的规则,包括:
步骤S201:采用Elasticsearch检索,获取进一步精细检索需要的所述规则库;
步骤S202:根据所述预处理生成的句式,在所述规则库中进行规则匹配,若规则匹配所述规则,则直接返回所述规则对应的所述标准问;若未匹配到规则库中的所述规则,则使用算法模型分析。
在本发明的一些实施例中,所述使用算法模型分析,包括:改进的小样本分类算法、改进的文本分类算法、融合的算法模型。
改进的小样本分类算法,包括:
构建结构网络模型,其中,所述结构网络模型包括编码器模块、归纳模块和关系模块,将Text CNN模型作为所述编码器模块中的编码器,所述归纳模块使用动态路由归纳算法做类别映射;所述关系模块使用神经张量层和激活函数RELU计算文本的得分,使用交叉熵作为损失函数;
通过所述损失函数中最小化损失函数,训练出算法模型,使用所述编码器模块的输出作为算法模型的输出,保存所述算法模型,所述算法模型的输入为一个所述标准问,输出为所述标准问的特征向量,将知识库中的所有标准问和相似问,输入到所述算法模型中,取所述编码器模块的输出结果作为所述标准问和相似问的特征向量,计算所述标准问和相似问的特征向量的平均值作为所述标准问的类向量,保存所述类向量到文件中;
如图3所示,用户问句通过所述算法模型预测,得到所述用户问句的特征向量,计算所述用户问句的特征向量与所述类向量的余弦距离,排序,取至少一个距离最小的所述余弦距离作为所述用户问句的相似标准问,并返回相似度得分。
在本发明的一些实施例中,所述改进的文本分类算法包括:结构网络模型构建、算法模型训练、算法模型预测,其中,所述算法模型训练中,使用语料增强的技术方式,增加训练语料。
本发明的一些实施例中,如图4所示,改进的文本分类算法:
构建结构网络模型:使用BiLSTM+Attention作为问句的特征提取器,并取消了最后的softmax层,且修改全连接的输出维度为100,将全连接层的输出作为问句的特征向量,网络模型同样使用交叉熵作为损失函数;
训练算法模型:由于训练数据量较小,使用了语料增强的技术手段,增加了训练语料,另外,模型在训练好后,保存算法模型,并使用该模型计算出知识库中的所有相似问和标准问的特征向量,并保存到文件中;
预测算法模型:首先,用户问句通过算法模型预测,得到问句的特征向量,然后计算该特征向量与训练算法模型中特征向量的余弦距离,排序并查询标准问,取距离最小的1个或几个作为该问句的相似标准问,并返回相似度得分。
在本发明的一些实施例中,所述融合的算法模型中,采用所述算法模型对所述用户问句进行预测,并将相似度得分加权平均,排序,取至少一个最好的所述标准问。
例如,可以使用对结果取平均的方法,即将两个模型的结果做累加,将两个算法结果得分的加权平均作为最终的相似度得分;模型的权重可根据模型在测试集的准确度决定,哪个模型在测试集有更高的准确率,则该模型有更高的权重;权重的取值区间为(0,1),且两个模型的权重和为1。
在本发明的一些实施例中,融合的算法模型:同时使用上述的两种算法模型对用户问句进行预测,并将相似度得分加权平均,然后排序,取最好的1个或多个结果,使用模型融合的方法,可以提升模型的效果和泛化性能。
如图2所示,另一方面提出了一种基于多模型融合的检索式智能问答装置,该装置包括:
预处理模块,用于对用户问句进行文本预处理,进行分词和命名实体识别,得到所述问句的分词结果和所述问句的实体标记;
获取答案模块,用于将所述分词结果和实体标记经过规则分类器,匹配规则库中的规则,将所述规则对应的标准问和所述标准问的答案返回给用户。
在本发明的一些实施例中,所述匹配规则库中的规则,将规则对应的标准问和所述标准问的答案返回给用户,包括:
若匹配到规则库中的所述规则,则将所述规则对应的所述标准问和所述标准问的答案返回给用户;
若未匹配到规则库中的所述规则,则使用算法模型进行预测,通过在知识库中匹配到与用户问比较相似的相似问或标准问,并将所述标准问和标准问的答案返回给用户。
在本发明中:
一般而言,知识库中保存着标准的问答对,即一个标准问对应一个维护好的答案;为了训练算法模型,对标准问进行不同的表述,这些表述定义为该标准问的相似问,相似问和标准问具有相同的答案。
当用户问问题时,首先对问题进行文本预处理进行分词和命名实体识别(NER),然后经过规则分类器,如匹配到规则库中的某条规则,则将该规则对应的标准问,以及该标准问的答案返回给用户;若未匹配到,则使用算法模型进行预测,通过在知识库中匹配到与该用户问比较相似的相似问或标准问,并将该标准问(相似问需先找到标准问)的答案返回给用户。
算法模块
模块一:数据预处理
(1)使用jieba工具包对用户问进行分词和去停用词,并进行词性标注;如对于问句“我想知道小米手机的如何退换货?”,经过数据预处理后,输出为:“[知道/v,小米/n,手机/n,退换货/n]”。
(2)使用BiLSTM+CRF模型,对用户问进行实体标注,找出问句中的所有实体,并给出实体类型和得分;对于上句,实体标注为:{entity_name:“小米手机”,entity_category:“手机品牌”,entity_index:“[5,8]”}。
(3)根据用户问句和实体信息,生成句式。对于上句,生成的句式为:“我想知道{@手机品牌@}的如何退换货?”。
模块二:基于规则匹配的问答检索
规则主要是人为制定的一些规则或正则表达式。当用户问问题时,将用户问句与规则库中的规则进行匹配,找到匹配的规则,并将该规则维护的标准问返回给用户。规则具有速度快、准确率高等优点,尤其是数据量较少时,规则准确率明显高于算法;但当知识库很大时,需要制定较多的规则才能将所有标准问维护到规则库中。而规则太多时,可能就会出现规则间的冲突和匹配较慢等问题;其次,大量的制定规则也需要消耗较多的人力成本。
本文使用句式生成的方法,自动化生成规则,并使用Elasticsearch检索的方法,加快规则匹配的速度,具体实现方式如下。
(1)规则的生成
①标识命名实体:知识库中的所有标准问和相似问,经过命名实体识别,标出问句中的实体;
②生成规则:使用{@实体类型@}代替实体,生成新的问句,新的问句即为规则;
③相似问处理:规则库保存时,将相似问替换为与其对应的标准问,即规则+标准问。
(2)基于规则匹配的问答检索
①先使用Elasticsearch进行检索,获取进一步精细检索需要的规则库;
②根据预处理模块生成的句式,在规则库中进行检索,如检索到,则直接返回标准问;未匹配到,需要进一步使用算法模型进行分析。
模块三:基于算法匹配的问答检索
(1)改进的小样本分类
①结构网络
小样本学习包括编码器模块、归纳模块和关系模块三个部分,其中编码器模块的作用是提取句子特征,将可变长度的文本编码为固定大小的嵌入(embedding);归纳模块的作用是设计从样本向量到类向量(类别的特征向量)的非线性映射,编码较低级别样本特征和较高级别类特征之间的重要不变语义关系;关系模块的作用是计算归纳模块生成的类向量与查询集中的每个查询文本被编码器模块编码为查询向量之间的相关性。
由于Text CNN的训练速度快,且在短文本分类上效果不错,故本文使用Text CNN作为编码器,归纳模块使用动态路由归纳算法做类别映射,关系模块使用神经张量层和激活函数RELU计算两个文本的得分,使用交叉熵作为损失函数。
②模型训练
模型网络构建好后,通过最小化损失函数,训练出算法模型。然后,使用编码器模块的输出作为模型的输出,保存算法模型,该模型的输入为一个标准问句,输出为该问句的特征向量。将知识库中的所有标准问和相似问,输入到算法模型中,取编码器模块的输出结果作为该问句的特征向量,计算标准问及其所有相似问的特征向量的平均值作为该标准问的类向量,保存该类向量到文件中。
③模型预测:首先,用户问句通过算法模型预测,得到问句的特征向量,然后计算该特征向量与②中类向量的余弦距离,排序,取距离最小的1个或几个作为该问句的相似标准问,并返回相似度得分。
(2)改进的文本分类算法
对于传统的分类模型,将每个标准问作为一个意图类别,判断用户问句属于其中的哪个类别。但在智能问答中,由于意图类别比较多,最后一层全连接的输出维度为意图类别数,全连接和softmax计算复杂度较高,计算比较差。
①结构网络
使用BiLSTM+Attention作为问句的特征提取器,并取消了最后的softmax层,且修改全连接的输出维度为100,将全连接层的输出作为问句的特征向量;模型同样使用交叉熵作为损失函数。
②模型训练
由于训练数据量较小,使用了语料增强的技术手段,增加了训练语料。另外,模型在训练好后,保存算法模型,并使用该模型计算出知识库中的所有相似问和标准问的特征向量,并保存到文件中。
③模型预测
首先,用户问句通过算法模型预测,得到问句的特征向量,然后计算该特征向量与②中特征向量的余弦距离,排序并查询标准问,取距离最小的1个或几个作为该问句的相似标准问,并返回相似度得分。
(3)模型融合
①融合方法
可以使用对结果取平均的方法,即将两个模型的结果做累加,将两个算法结果得分的加权平均作为最终的相似度得分;模型的权重可根据模型在测试集的准确度决定,哪个模型在测试集有更高的准确率,则该模型有更高的权重;权重的取值区间为(0,1),且两个模型的权重和为1。
②具体步骤
同时使用上述的两种算法模型对用户问句进行预测,并将相似度得分加权平均,然后排序,取最好的1个或多个结果。
使用模型融合的方法,可以提升模型的效果和泛化性能。
核心发明点:在意图分类中,使用了自动化构建规则模板的方法,节省了大量的人力,且对知识库中的问句,回答的准确率不低于99%,具有更好的体验感;保存知识库中问句的特征向量,通过Elasticsearch检索,加快了计算的速度和效率;同时,Elasticsearch7.0还具有向量检索的功能,保证了检索的召回率,提升了效果。
技术术语解释:
Elasticsearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,能很方便地使大量数据具有搜索、分析和探索的能力。
命名实体识别:又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。
小样本学习:小样本是Meta Learning在监督学习领域的应用,通过利用先验知识,能够快速泛化至仅包含少量具备监督信息的样本的新任务中的一种学习机制。
激活函数:所谓激活函数(Activation Function),就是在人工神经网络的神经元上运行的函数,负责将神经元的输入映射到输出端,作用是引入了非线性因素,使得神经网络可以任意逼近任何非线性函数。
全连接:神经网络中,对n-1层和n层而言,n-1层的任意一个节点,都和第n层所有节点有连接,全连接层起到将学到的“分布式特征表示”映射到样本标记空间的作用。
Softmax:对于多分类问题,将各个类别的概率进行归一化操作,从而获取实际的分类概率分布,最终最大概率项即为最终分类结果。
本发明创新性的使用了规则+算法的策略,其中算法使用了模型融合的方法,提升了模型的效果;在规则分类器中,使用了自动化生成规则的方法,节省了大量的人力开销,同时对于知识库中的问句,能够达到几乎100%的准确率,提升了客户的使用感受度;本文同时使用规则+算法,在训练语料较小时,规则的准确率较高;当语料足够时,提高了模型的效果和泛化性能,提高了意图识别的准确率;优化了算法模型的运行效率,提升了算法的运行速度。
尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (13)
1.一种基于多模型融合的检索式智能问答方法,其特征在于,包括:
对用户问句进行文本预处理,进行分词和命名实体识别,得到所述问句的分词结果和所述问句的实体标记;
将所述分词结果和实体标记经过规则分类器,匹配规则库中的规则,将所述规则对应的标准问和所述标准问的答案返回给用户。
2.根据权利要求1所述的一种基于多模型融合的检索式智能问答方法,其特征在于,所述匹配规则库中的规则,将规则对应的标准问和所述标准问的答案返回给用户,包括:
若匹配到规则库中的所述规则,则将所述规则对应的所述标准问和所述标准问的答案返回给用户;
若未匹配到规则库中的所述规则,则使用算法模型进行预测,通过在知识库中匹配到与用户问比较相似的相似问或标准问,并将所述标准问和标准问的答案返回给用户。
3.根据权利要求1所述的一种基于多模型融合的检索式智能问答方法,其特征在于,所述对用户问句进行文本预处理,至少包括:
使用BiLSTM+CRF模型,对所述用户问进行实体标注,找出所述用户问中的所有实体,并给出实体类型和得分;
根据所述用户问和所述实体类型和得分,生成句式。
4.根据权利要求2所述的一种基于多模型融合的检索式智能问答方法,其特征在于,所述规则为采用句式生成的方法,自动化生成规则。
5.根据权利要求1所述的一种基于多模型融合的检索式智能问答方法,其特征在于,所述匹配规则库中的规则前,采用Elasticsearch检索的方法,获取规则库。
6.根据权利要求4所述的一种基于多模型融合的检索式智能问答方法,其特征在于,所述自动化生成规则,包括:
标识命名实体;
代替所述命名实体,生成新的问句,得到规则。
7.根据权利要求1所述的一种基于多模型融合的检索式智能问答方法,其特征在于,所述匹配规则库中的规则,包括:
采用Elasticsearch检索,获取进一步精细检索需要的所述规则库;
根据所述预处理生成的句式,在所述规则库中进行规则匹配,若规则匹配所述规则,则直接返回所述规则对应的所述标准问;若未匹配到规则库中的所述规则,则使用算法模型分析。
8.根据权利要求7所述的一种基于多模型融合的检索式智能问答方法,其特征在于,所述使用算法模型分析,包括:改进的小样本分类算法、改进的文本分类算法、融合的算法模型。
9.根据权利要求8所述的一种基于多模型融合的检索式智能问答方法,其特征在于,所述改进的小样本分类算法,包括:
构建结构网络模型,其中,所述结构网络模型包括编码器模块、归纳模块和关系模块,将Text CNN模型作为所述编码器模块中的编码器,所述归纳模块使用动态路由归纳算法做类别映射;所述关系模块使用神经张量层和激活函数RELU计算文本的得分,使用交叉熵作为损失函数;
通过所述损失函数中最小化损失函数,训练出算法模型,使用所述编码器模块的输出作为算法模型的输出,保存所述算法模型,所述算法模型的输入为一个所述标准问,输出为所述标准问的特征向量,将知识库中的所有标准问和相似问,输入到所述算法模型中,取所述编码器模块的输出结果作为所述标准问和相似问的特征向量,计算所述标准问和相似问的特征向量的平均值作为所述标准问的类向量,保存所述类向量到文件中;
用户问句通过所述算法模型预测,得到所述用户问句的特征向量,计算所述用户问句的特征向量与所述类向量的余弦距离,排序,取至少一个距离最小的所述余弦距离作为所述用户问句的相似标准问,并返回相似度得分。
10.根据权利要求8所述的一种基于多模型融合的检索式智能问答方法,其特征在于,所述改进的文本分类算法包括:结构网络模型构建、算法模型训练、算法模型预测,其中,所述算法模型训练中,使用语料增强的技术方式,增加训练语料。
11.根据权利要求8所述的一种基于多模型融合的检索式智能问答方法,其特征在于,所述融合的算法模型中,采用所述算法模型对所述用户问句进行预测,并将相似度得分加权平均,排序,取至少一个最好的所述标准问。
12.一种基于多模型融合的检索式智能问答装置,其特征在于,包括:
预处理模块,用于对用户问句进行文本预处理,进行分词和命名实体识别,得到所述问句的分词结果和所述问句的实体标记;
获取答案模块,用于将所述分词结果和实体标记经过规则分类器,匹配规则库中的规则,将所述规则对应的标准问和所述标准问的答案返回给用户。
13.根据权利要求12所述的一种基于多模型融合的检索式智能问答装置,其特征在于,所述匹配规则库中的规则,将规则对应的标准问和所述标准问的答案返回给用户,包括:
若匹配到规则库中的所述规则,则将所述规则对应的所述标准问和所述标准问的答案返回给用户;
若未匹配到规则库中的所述规则,则使用算法模型进行预测,通过在知识库中匹配到与用户问比较相似的相似问或标准问,并将所述标准问和标准问的答案返回给用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011534782.9A CN112463944B (zh) | 2020-12-22 | 2020-12-22 | 一种基于多模型融合的检索式智能问答方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011534782.9A CN112463944B (zh) | 2020-12-22 | 2020-12-22 | 一种基于多模型融合的检索式智能问答方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112463944A true CN112463944A (zh) | 2021-03-09 |
CN112463944B CN112463944B (zh) | 2023-10-24 |
Family
ID=74803397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011534782.9A Active CN112463944B (zh) | 2020-12-22 | 2020-12-22 | 一种基于多模型融合的检索式智能问答方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463944B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707300A (zh) * | 2021-08-30 | 2021-11-26 | 康键信息技术(深圳)有限公司 | 基于人工智能的搜索意图识别方法、装置、设备及介质 |
CN113806510A (zh) * | 2021-09-22 | 2021-12-17 | 中国科学院深圳先进技术研究院 | 一种法律条文检索方法、终端设备及计算机存储介质 |
CN114884686A (zh) * | 2022-03-17 | 2022-08-09 | 新华三信息安全技术有限公司 | 一种php威胁识别方法及装置 |
CN116303977A (zh) * | 2023-05-17 | 2023-06-23 | 中国兵器工业计算机应用技术研究所 | 一种基于特征分类的问答方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN108108449A (zh) * | 2017-12-27 | 2018-06-01 | 哈尔滨福满科技有限责任公司 | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 |
CN110727779A (zh) * | 2019-10-16 | 2020-01-24 | 信雅达系统工程股份有限公司 | 基于多模型融合的问答方法及系统 |
CN111190998A (zh) * | 2019-12-10 | 2020-05-22 | 上海八斗智能技术有限公司 | 一种基于混合模型的问答机器人系统及问答机器人 |
CN111324689A (zh) * | 2020-03-03 | 2020-06-23 | 中国平安人寿保险股份有限公司 | 问答系统的索引更新方法、装置、设备及存储介质 |
CN111782786A (zh) * | 2020-07-01 | 2020-10-16 | 中关村科学城城市大脑股份有限公司 | 用于城市大脑的多模型融合问答方法及系统、介质 |
CN112100351A (zh) * | 2020-09-11 | 2020-12-18 | 陕西师范大学 | 一种通过问题生成数据集构建智能问答系统的方法及设备 |
-
2020
- 2020-12-22 CN CN202011534782.9A patent/CN112463944B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101566998A (zh) * | 2009-05-26 | 2009-10-28 | 华中师范大学 | 一种基于神经网络的中文问答系统 |
CN108108449A (zh) * | 2017-12-27 | 2018-06-01 | 哈尔滨福满科技有限责任公司 | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 |
CN110727779A (zh) * | 2019-10-16 | 2020-01-24 | 信雅达系统工程股份有限公司 | 基于多模型融合的问答方法及系统 |
CN111190998A (zh) * | 2019-12-10 | 2020-05-22 | 上海八斗智能技术有限公司 | 一种基于混合模型的问答机器人系统及问答机器人 |
CN111324689A (zh) * | 2020-03-03 | 2020-06-23 | 中国平安人寿保险股份有限公司 | 问答系统的索引更新方法、装置、设备及存储介质 |
CN111782786A (zh) * | 2020-07-01 | 2020-10-16 | 中关村科学城城市大脑股份有限公司 | 用于城市大脑的多模型融合问答方法及系统、介质 |
CN112100351A (zh) * | 2020-09-11 | 2020-12-18 | 陕西师范大学 | 一种通过问题生成数据集构建智能问答系统的方法及设备 |
Non-Patent Citations (4)
Title |
---|
IVAN SRBA 等: "A comprehensive survey and classification of approaches for community question answering", ACM TRANSACTIONS ON THE WEB * |
周蕾: "基于互联网的自动问答系统关键技术研究与实现", 中国优秀硕士学位论文全文数据库 信息科技辑 * |
张芳芳 等: "面向深度自动问答的糖尿病饮食问题分类", 医学信息学杂志 * |
黄东晋 等: "基于Bi-LSTM的动画电影智能问答系统", 现代电影技术 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113707300A (zh) * | 2021-08-30 | 2021-11-26 | 康键信息技术(深圳)有限公司 | 基于人工智能的搜索意图识别方法、装置、设备及介质 |
CN113806510A (zh) * | 2021-09-22 | 2021-12-17 | 中国科学院深圳先进技术研究院 | 一种法律条文检索方法、终端设备及计算机存储介质 |
CN113806510B (zh) * | 2021-09-22 | 2024-06-28 | 中国科学院深圳先进技术研究院 | 一种法律条文检索方法、终端设备及计算机存储介质 |
CN114884686A (zh) * | 2022-03-17 | 2022-08-09 | 新华三信息安全技术有限公司 | 一种php威胁识别方法及装置 |
CN114884686B (zh) * | 2022-03-17 | 2024-03-08 | 新华三信息安全技术有限公司 | 一种php威胁识别方法及装置 |
CN116303977A (zh) * | 2023-05-17 | 2023-06-23 | 中国兵器工业计算机应用技术研究所 | 一种基于特征分类的问答方法及系统 |
CN116303977B (zh) * | 2023-05-17 | 2023-08-04 | 中国兵器工业计算机应用技术研究所 | 一种基于特征分类的问答方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112463944B (zh) | 2023-10-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117033608B (zh) | 一种基于大语言模型的知识图谱生成式问答方法及系统 | |
CN109885672B (zh) | 一种面向在线教育的问答式智能检索系统及方法 | |
CN110175227B (zh) | 一种基于组队学习和层级推理的对话辅助系统 | |
CN112463944B (zh) | 一种基于多模型融合的检索式智能问答方法及装置 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN113342958B (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
CN113159187B (zh) | 分类模型训练方法及装置、目标文本确定方法及装置 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN113297360A (zh) | 基于弱监督学习和联合学习机制的法律问答方法及设备 | |
CN115309872B (zh) | 一种基于Kmeans召回的多模型熵加权检索方法及系统 | |
CN115146629A (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN111881264B (zh) | 一种开放领域问答任务中长文本检索的方法和电子设备 | |
CN115577080A (zh) | 一种问题回复匹配方法、系统、服务器及存储介质 | |
CN117217277A (zh) | 语言模型的预训练方法、装置、设备、存储介质及产品 | |
CN115878778A (zh) | 面向业务领域的自然语言理解方法 | |
CN118093834A (zh) | 一种基于aigc大模型的语言处理问答系统及方法 | |
CN117453897B (zh) | 一种基于大模型和遗传算法的文档问答方法及系统 | |
CN114416930A (zh) | 搜索场景下的文本匹配方法、系统、设备及存储介质 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN117828024A (zh) | 一种插件检索方法、装置、存储介质及设备 | |
CN115905187B (zh) | 一种面向云计算工程技术人员认证的智能化命题系统 | |
CN110390050B (zh) | 一种基于深度语义理解的软件开发问答信息自动获取方法 | |
CN114942981A (zh) | 问答查询方法、装置、电子设备及计算机可读存储介质 | |
CN113688633A (zh) | 一种提纲确定方法及装置 | |
CN113901203A (zh) | 一种文本分类方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |