CN115795016B - 问题匹配方法、系统、电子设备及存储介质 - Google Patents
问题匹配方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115795016B CN115795016B CN202211723444.9A CN202211723444A CN115795016B CN 115795016 B CN115795016 B CN 115795016B CN 202211723444 A CN202211723444 A CN 202211723444A CN 115795016 B CN115795016 B CN 115795016B
- Authority
- CN
- China
- Prior art keywords
- sentence
- candidate
- entity
- matching
- core
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000001914 filtration Methods 0.000 claims abstract description 45
- 238000004364 calculation method Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 77
- 238000003062 neural network model Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 238000005352 clarification Methods 0.000 claims description 6
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 238000003491 array Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 101100153581 Bacillus anthracis topX gene Proteins 0.000 description 1
- 241000157593 Milvus Species 0.000 description 1
- 101150041570 TOP1 gene Proteins 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种问题匹配方法、系统、电子设备及存储介质,该方法包括:基于输入的用户问题提取核心句;基于所述核心句获取候选问题,所述候选问题为问答库中与所述核心句相似的问题;对所述候选问题进行匹配过滤;对所述匹配过滤后的候选问题进行相似度计算。本申请提供的方法,有助于解决在用户问题和问答库中的问题作相似度匹配时,由于句子冗余造成的相似度分值低,或者由于实体不匹配、句式不匹配造成的相似度分值高,但实际不相似而造成的误召回问题。
Description
技术领域
本申请涉及人工智能领域,尤其涉及一种问题匹配方法、系统、电子设备及存储介质。
背景技术
随着人工智能的发展和普及,智能客服在社会的需求越来越大,智能客服可以快速找到与用户问题相匹配的答案并自动回答。目前由于NLG(Natural languagegeneration,自然语言生成)生成的话术存在生涩且不准确的问题,常规做法都是人工将客户问到的问题整理成一个问答库,当用户输入的问题匹配到语料库中的某条问题时,根据相似度得到语料库中最相似的问题,再将该问题的答案返回。当用户输入的问题和问答库中的问题进行匹配时,一般使用计算用户句子的语义向量的方法,同时提前计算好问答库中所有问题的语义向量,基于用户句子的语义向量和问答库中所有问题的语义向量来计算相似度或者借助向量检索库Faiss(Facebook AI Similarity Search,Facebook AI团队开源的针对聚类和相似性搜索库)等召回相似句,取相似度超过阈值的top1问句,作为用户问句的标准问法句。
但在实际应用中,用户问题存在口语化严重、逻辑混乱、语句重复、非专业名词混杂等问题,造成和问答库中的问题做相似度匹配时,相似度分值比较低。
发明内容
本申请提供了一种问题匹配方法、系统、电子设备及存储介质,有助于解决在用户问题和问答库中的问题作相似度匹配时,由于句子冗余造成的相似度分值低,或者由于实体不匹配、句式不匹配造成的相似度分值高,但实际不相似而造成的误召回问题。
第一方面,本申请提供了一种问题匹配方法,包括:
基于输入的用户问题提取核心句;
基于所述核心句获取候选问题,所述候选问题为问答库中与所述核心句相似的问题;
对所述候选问题进行匹配过滤;
对所述匹配过滤后的候选问题进行相似度计算。
其中一种可能的实现方式中,所述基于输入的用户问题提取核心句包括:
对所述输入的用户问题进行分句,生成多个分句,使用预置神经网络模型对所述分句进行判断,若所述分句为核心句,则保留所述分句;若所述分句为非核心句,则删除所述分句。
本申请中,通过对用户问题进行压缩得到核心句,去除用户问题中的冗余信息,有助于提高用户问题和问答库中的问题作相似度匹配时的准确性。
其中一种可能的实现方式中,所述基于输入的用户问题提取核心句之后,还包括:
使用预设的实体识别模型提取所述核心句的实体词,并转换为对应的实体标准词,得到第一实体标准词集合;
使用预设的分类模型对所述核心句进行句式判断。
其中一种可能的实现方式中,所述基于所述核心句获取候选问题包括:
使用所述预置神经网络模型对所述核心句进行分词,得到目标分词,所述目标分词用于表征所述核心句的词类;
对所述目标分词进行组合,得到精简核心句;
基于所述预置神经网络模型对所述精简核心句进行向量化,得到第一语义向量;
对所述第一语义向量进行字面检索和深度语义匹配检索,将检索结果进行合并,得到候选问题。
其中一种可能的实现方式中,所述方法还包括:
使用所述预设的实体识别模型提取所述候选问题的实体词,并转换为对应的实体标准词,得到第二实体标准词集合;
使用所述预设的分类模型对所述候选问题进行句式判断。
其中一种可能的实现方式中,所述对所述候选问题进行匹配过滤包括:
对所述候选问题进行实体词匹配过滤和句式匹配过滤。
本申请中,考虑到实体词、句式对句子语义的影响,分别提取核心句和候选问题的实体词和判断二者的句式,对问答库中的候选问题进行实体词匹配过滤和句式匹配过滤,筛掉不符合要求的候选问题,进一步提高相似度匹配的准确性。
其中一种可能的实现方式中,所述实体词匹配过滤包括:
若所述第二实体标准词集合为空集,则不进行所述实体词匹配过滤,直接进行所述句式匹配过滤;或
若所述第二实体标准词集合不为空集,且所述第二实体标准词集合不为所述第一实体标准词集合的子集,则将所述候选问题删除;或
若所述第二实体标准词集合不为空集,且所述第二实体标准词集合为所述第一实体标准词集合的子集,则进行所述句式匹配过滤。
其中一种可能的实现方式中,所述句式匹配过滤包括:
将所述候选问题的句式与所述核心句的句式进行匹配,若候选问题的句式与所述核心句的句式不一致,则将所述候选问题删除。
其中一种可能的实现方式中,所述对所述匹配过滤后的候选问题进行相似度计算包括:
使用预设的关键词提取算法分别提取所述精简核心句和所述候选问题的关键词,并对所述精简核心句的关键词和所述候选问题的关键词进行向量化,得到第一关键词向量和第二关键词向量,所述第一关键词向量用于表征所述精简核心句的关键词向量,所述第二关键词向量用于表征所述候选问题的关键词向量;
基于所述预置神经网络模型对所述候选问题进行向量化,得到第二语义向量;
将所述第一关键词向量和所述第一语义向量进行拼接,得到第一拼接向量;
将所述第二关键词向量和所述第二语义向量进行拼接,得到第二拼接向量;
基于所述第一拼接向量和所述第二拼接向量进行相似度计算。
本申请中,使用语义和关键词结合的方式,综合考虑关键词对语义的影响,增加了关键词权重,解决了关键词导致的语义焦点问题。
其中一种可能的实现方式中,所述方法还包括:
对所述相似度进行排序,若所述相似度的最大值小于预设值,则执行问题澄清,并作问句推荐,所述问题澄清用于让用户确认输入的问题。
第二方面,本申请提供一种问题匹配装置,包括:
提取模块,用于基于输入的用户问题提取核心句。
获取模块,用于基于所述核心句获取候选问题,所述候选问题为问答库中与所述核心句相似的问题。
匹配过滤模块,用于对所述候选问题进行匹配过滤。
计算模块,用于对所述匹配过滤后的候选问题进行相似度计算。
第三方面,本申请提供了一种电子设备,包括:处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于运行所述计算机程序,实现如第一方面所述的资源扩展方法。
第四方面,本申请提供一种问题匹配系统,包括:如第三方面所述的电子设备。
第五方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机实现如第一方面所述的问题匹配方法。
附图说明
图1为本申请实施例提供的应用场景架构图;
图2为本申请实施例提供的问题匹配方法的流程示意图;
图3为本申请实施例提供的汽车实体词匹配过滤的流程示意图;
图4为本申请实施例提供的问题匹配装置的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图。
具体实施方式
本申请实施例中,除非另有说明,字符“/”表示前后关联对象是一种或的关系。例如,A/B可以表示A或B。“和/或”描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
需要指出的是,本申请实施例中涉及的“第一”、“第二”等词汇,仅用于区分描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量,也不能理解为指示或暗示顺序。
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。此外,“以下至少一项(个)”或者其类似表达,是指的这些项中的任意组合,可以包括单项(个)或复数项(个)的任意组合。例如,A、B或C中的至少一项(个),可以表示:A,B,C,A和B,A和C,B和C,或A、B和C。其中,A、B、C中的每个本身可以是元素,也可以是包含一个或多个元素的集合。
本申请实施例中,“示例的”、“在一些实施例中”、“在另一实施例中”等用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用示例的一词旨在以具体方式呈现概念。
本申请实施例中的“的(of)”、“相应的(corresponding,relevant)”和“对应的(corresponding)”有时可以混用,应当指出的是,在不强调其区别时,所要表达的含义是一致的。本申请实施例中,通信、传输有时可以混用,应当指出的是,在不强调其区别时,其所表达的含义是一致的。例如,传输可以包括发送和/或接收,可以为名词,也可以是动词。
本申请实施例中涉及的等于可以与大于连用,适用于大于时所采用的技术方案,也可以与小于连用,适用于小于时所采用的技术方案。需要说明的是,当等于与大于连用时,不能与小于连用;当等于与小于连用时,不与大于连用。
在现有技术中,智能客服将用户问题和问答库中的问题做相似度匹配时,通常直接使用语义向量计算相似度,但该方案存在几个问题:
(1)、包含冗余信息的用户问题,在进行相似问题匹配的时候,因由于冗余信息会降低和相似问题的相似度分值,导致匹配失败。
(2)、忽略了实体词对语义的影响。例如在汽车行业中,同一个品牌下的两个车系可能只相差一个数字,如果两个句子只有相似的两个实体词的差距,相似度很高,造成问句推荐错误,而在实际情况下,汽车实体词必须是完全匹配的词。
(3)、忽略了其他关键词对语义的影响,例如关键动词不同,会导致语义不同。
(4)、忽略了句式对语义的影响,例如两个句子只相差一个否定词,相似度很高,虽然相似度很高,但是二者的语义是完全相反的,造成匹配失败。
基于上述问题,本申请实施例提出了一种问题匹配方法,综合考虑句子冗余、关键词、语义、实体词、句式对相似度匹配的影响,有助于提高相似度匹配的准确性。该方法适用于多个领域,例如汽车销售、医疗问答等智能客服运用的领域,本申请以汽车销售行业为例,对本申请实施例提供的问题匹配方法进行说明。
现结合图1-图3对本申请实施例提供的问题匹配方法进行说明。
图1为本申请实施例提供的应用场景架构图。如图1所示,上述应用场景包括电子设备1(例如终端)和电子设备2(例如智能客服端),电子设备1和电子设备2通过有线或无线方式进行连接,实现信息交互。用户向电子设备1输入问题,电子设备1将用户问题传输至电子设备2,电子设备2上装有智能客服系统,可以根据用户问题和系统中的问答库中的候选问题做相似度匹配,根据用户需求,输出候选问题的答案或者推荐问句给电子设备1。本申请实施例不对电子设备1的类型进行限制,电子设备1可以为手机、台式电脑、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer,UMPC)或者上网本等。
如图2所示为图2为本申请实施例提供的问题匹配方法的流程示意图,具体包括以下步骤:
步骤201,对输入的用户问题进行分句,提取核心句。
具体地,智能客服端收到用户输入的问题,当用户问题比较口语化且较长时,不便于程序处理,故采用压缩处理。根据标点符号对用户问题进行分句,将长句切割成短句,生成多个分句,使用预置神经网络模型对分句进行分类,对于与汽车营销无关的分句进行删除,即过滤非核心句,保留其余短句,进而形成压缩后的核心句。本申请对神经网络模型不作限定,可以是常用的神经网络模型,例如CNN(Convolutional Neural Networks,卷积神经网络),RNN(Recurrent Neural Network,循环神经网络),textCNN,FastText,BERT(Bidirectional Encoder Representations from Transformers,基于Transformer的双向编码表示模型)等本申请对用户问题进行长短句压缩,消除冗余信息对于计算问句相似度的影响。
步骤202,提取核心句中的汽车实体词,判断核心句的句式。
具体地,使用训练的实体识别模型对步骤201得到的核心句进行汽车实体词抽取,并转换为对应的实体标准词,形成第一实体标准词集合。同时对核心句之前的句子进行汽车实体词抽取,并转换为汽车实体标准词,用于补充汽车实体被分割到不同句子的情况。汽车实体识别可以使用词表匹配、拼音句法树匹配、深度学习NER(Named entityrecognition,命名实体识别)等方式。本申请中的汽车实体词包括:汽车品牌、汽车车系、汽车车型、汽车零部件类等。本申请考虑汽车实体类对相似问句的影响,对召回结果进行过滤,解决了汽车实体相似,但是语义一致,实际并不是相同问题的情况。
进一步地,使用训练的分类模型对核心句进行肯定、否定、疑问等其他句式判定。本申请考虑句式对相似问句匹配的影响,对用户问题进行句式判定,解决语义相似度高,但由于句式不同导致的非相同问题情况。
步骤203,压缩核心句,获得精简核心句,对精简核心句进行向量化。
具体地,使用预置神经网络模型对步骤201得到的核心句进行分词,使用句法分析结合汽车实体词、关键词进行长短句压缩处理,获取该分词中属于主语、谓语、宾语等目标分词,确保保留汽车实体词和关键词;将该目标分词进行组合从而获取精简核心句。分词可以使用jieba算法或其他开源工具,也可以使用KeyBert等深度学习模型进行训练提取。进一步地,基于预置神经网络模型对精简核心句进行向量化,获得第一语义向量,即精简核心句语义向量。
步骤204,对精简核心句语义向量进行字面检索和深度语义检索,将两路检索结果合并,得到候选问题。
具体地,将步骤203得到的精简核心句语义向量通过ES(ElasticSearch,弹性搜索)检索引擎进行字面检索,并通过Annoy进行深度语义匹配检索,将两路检索结果进行合并作为候选问题,该候选问题是从候选问题库中选择的,候选问题是系统预先设置的标准问题或相似问题。本申请使用ES进行字面语义召回,可以替换为其他可以进行字面相似度计算的方法,例如BM25(Best Match25,第25次算法迭代最佳匹配)算法等,本申请还使用Annoy进行深度语义召回,同样可以替换为使用Milvus、Vearch、Faiss(向量检索库)等工具进行深度语义召回,本申请对此不作限定。
本申请的候选问题在入库之前,离线使用步骤202相同的方法来提取候选问题的汽车实体词并转换为对应的实体标准词;同时对候选问题进行句式判断。
步骤205,对候选问题进行汽车实体词匹配过滤。
具体地,如图3所示,图3为本申请实施例提供的汽车实体词匹配过滤的流程示意图;
根据步骤204中得到的候选问题,从存储设备中获取其对应的汽车实体词,形成第二实体标准词集合,将第二实体标准词集合和步骤202获得的第一实体标准词集合进行匹配,如果第二实体标准词集合为空集,则跳过该步骤,直接执行步骤206句式匹配;如果第二实体标准词集合不为空集,则判断第二实体标准词集合是否是第一实体标准词集合的子集,如果不满足第二实体标准词集合是第一实体标准词集合的子集,则在候选问题中,将该候选问题进行删除,否则直接执行步骤206句式匹配。
步骤206,对候选问题进行句式匹配过滤。
具体地,将步骤204中判定的候选问题的句式和步骤202判定的核心句的句式进行匹配,若二者句式不匹配,则删除该候选问题。
步骤207,结合精简核心句和候选问题的语义向量和关键词向量进行相似度计算。
具体地,使用jieba算法提取精简核心句的关键词,形成关键词集合,并针对jieba算法容易遗漏关键词的缺陷进行词性分析,补充名词和动词作为关键词,将该关键词集合进行向量化,得到第一关键词向量。使用相同的方法提取候选问题的关键词,得到第二关键词向量,该候选问题为经过步骤205汽车实体词匹配过滤和步骤206句式匹配过滤后得到的N个候选问题。同时基于预置神经网络模型对候选问题进行向量化,获得第二语义向量。将步骤203获得的第一语义向量和第一关键词向量进行拼接形成第一拼接向量,将第二语义向量和第二关键词向量进行拼接形成N个第二拼接向量,拼接方式可以为将两个向量进行内积。将第一拼接向量和N个第二拼接向量进行相似度计算。本申请通过训练的预置神经网络模型,将第一拼接向量和N个第二拼接向量分别经过全连接和softmax层,获得预测得分(即相似度)和相似度匹配列表。本申请使用语义和关键词结合的方式,综合考虑关键词对语义的影响,增加了关键词权重,解决了关键词导致的语义焦点问题。本申请提出的问题匹配方法在汽车行业对话数据上,accuracy(准确率)指标为:82%,超过了Sentence-BERT算法作相似度匹配的指标(80%),相似度匹配效果提升了2%。
进一步地,根据步骤207得到的预测得分对相似度匹配列表进行排序,如果所有预测得分都低于预设值(即预测得分最大值小于预设值),则做问题澄清,让用户确认要问的问题,并做问句推荐;如果预测得分大于预设值,可以根据用户需求,返回预测得分最大值的候选问题所对应的答案或者向用户推荐问题。例如,当进行用户进行意图检索时,智能客服可以返回预测得分最大值的候选问题所对应的答案;当进行知识检索时,则可以返回若干个推荐问题和/或对应的答案。
图4为本申请实施例提供的问题匹配装置的结构示意图,如图4所示,问题匹配装置40可以包括:
提取模块41,用于基于输入的用户问题提取核心句;
获取模块42,用于基于所述核心句获取候选问题,所述候选问题为问答库中与所述核心句相似的问题;
匹配过滤模块43,用于对所述候选问题进行匹配过滤;
计算模块44,用于对所述匹配过滤后的候选问题进行相似度计算。
其中一种可能的实现方式中,提取模块41还可以用于:
对所述输入的用户问题进行分句,生成多个分句,使用预置神经网络模型对所述分句进行判断,若所述分句为核心句,则保留所述分句;若所述分句为非核心句,则删除所述分句。
本申请中,通过对用户问题进行压缩得到核心句,去除用户问题中的冗余信息,有助于提高用户问题和问答库中的问题作相似度匹配时的准确性。
其中一种可能的实现方式中,所述基于输入的用户问题提取核心句之后,还包括:
使用预设的实体识别模型提取所述核心句的实体词,并转换为对应的实体标准词,得到第一实体标准词集合;
使用预设的分类模型对所述核心句进行句式判断。
其中一种可能的实现方式中,获取模块42还可以用于:
使用所述预置神经网络模型对所述核心句进行分词,得到目标分词,所述目标分词用于表征所述核心句的词类;
对所述目标分词进行组合,得到精简核心句;
基于所述预置神经网络模型对所述精简核心句进行向量化,得到第一语义向量;
对所述第一语义向量进行字面检索和深度语义匹配检索,将检索结果进行合并,得到候选问题。
其中一种可能的实现方式中,所述方法还包括:
使用所述预设的实体识别模型提取所述候选问题的实体词,并转换为对应的实体标准词,得到第二实体标准词集合;
使用所述预设的分类模型对所述候选问题进行句式判断。
其中一种可能的实现方式中,匹配过滤模块43还可以用于:
对所述候选问题进行实体词匹配过滤和句式匹配过滤。
本申请中,考虑到实体词、句式对句子语义的影响,分别提取核心句和候选问题的实体词和判断二者的句式,对问答库中的候选问题进行实体词匹配过滤和句式匹配过滤,筛掉不符合要求的候选问题,进一步提高相似度匹配的准确性。
其中一种可能的实现方式中,匹配过滤模块43还可以用于:
若所述第二实体标准词集合为空集,则不进行所述实体词匹配过滤,直接进行所述句式匹配过滤;或
若所述第二实体标准词集合不为空集,且所述第二实体标准词集合不为所述第一实体标准词集合的子集,则将所述候选问题删除;或
若所述第二实体标准词集合不为空集,且所述第二实体标准词集合为所述第一实体标准词集合的子集,则进行所述句式匹配过滤。
其中一种可能的实现方式中,匹配过滤模块43还可以用于:
将所述候选问题的句式与所述核心句的句式进行匹配,若候选问题的句式与所述核心句的句式不一致,则将所述候选问题删除。
其中一种可能的实现方式中,计算模块44还可以用于:
使用预设的关键词提取算法分别提取所述精简核心句和所述候选问题的关键词,并对所述精简核心句的关键词和所述候选问题的关键词进行向量化,得到第一关键词向量和第二关键词向量,所述第一关键词向量用于表征所述精简核心句的关键词向量,所述第二关键词向量用于表征所述候选问题的关键词向量;
基于所述预置神经网络模型对所述候选问题进行向量化,得到第二语义向量;
将所述第一关键词向量和所述第一语义向量进行拼接,得到第一拼接向量;
将所述第二关键词向量和所述第二语义向量进行拼接,得到第二拼接向量;
基于所述第一拼接向量和所述第二拼接向量进行相似度计算。
本申请中,使用语义和关键词结合的方式,综合考虑关键词对语义的影响,增加了关键词权重,解决了关键词导致的语义焦点问题。
其中一种可能的实现方式中,计算模块44还可以用于:
对所述相似度进行排序,若所述相似度的最大值小于预设值,则执行问题澄清,并作问句推荐,所述问题澄清用于让用户确认输入的问题。
图4所示实施例提供的问题匹配装置40可用于执行本申请所示方法实施例的技术方案,其实现原理和技术效果可以进一步参考方法实施例中的相关描述。
应理解以上图4所示的问题匹配装置40的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块以软件通过处理元件调用的形式实现,部分模块通过硬件的形式实现。例如,检测模块可以为单独设立的处理元件,也可以集成在电子设备的某一个芯片中实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit;以下简称:ASIC),或,一个或多个微处理器(Digital Signal Processor;以下简称:DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array;以下简称:FPGA)等。再如,这些模块可以集成在一起,以片上系统(System-On-a-Chip;以下简称:SOC)的形式实现。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当其在计算机上运行时,使得计算机执行本申请所示实施例提供的方法。
本申请实施例还提供一种计算机程序产品,该计算机程序产品包括计算机程序,当其在计算机上运行时,使得计算机执行本申请所示实施例提供的问题匹配方法。
下面结合图5进一步介绍本申请实施例中提供的示例性电子设备。图5示出了电子设备5000的结构示意图。
上述电子设备5000可以包括:至少一个处理器;以及与上述处理器通信连接的至少一个存储器,其中:上述存储器存储有可被上述处理器执行的程序指令,处理器调用上述程序指令能够执行本申请所示实施例提供的问题匹配方法。
图5示出了适用于实现本申请实施方式的示例性电子设备5000的框图。图5显示的电子设备5000仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备5000以通用计算设备的形式表现。电子设备5000的组件可以包括但不限于:一个或者多个处理器5010,存储器5020,连接不同系统组件(包括存储器5020和处理器5010)的通信总线5040以及通信接口5030。
通信总线5040表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
电子设备5000典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器5020可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)和/或高速缓存存储器。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read Only Memory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read Only Memory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与通信总线5040相连。存储器5020可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块的程序/实用工具,可以存储在存储器5020中,这样的程序模块包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本申请所描述的实施例中的功能和/或方法。
电子设备5000也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过通信接口5030进行。并且,电子设备5000还可以通过网络适配器(图5中未示出)与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信,上述网络适配器可以通过通信总线5040与电子设备的其它模块通信。应当明白,尽管图5中未示出,可以结合电子设备5000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Drives;以下简称:RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器5010通过运行存储在存储器5020中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例提供的方法。
可以理解的是,本申请实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备5000的结构限定。在本申请另一些实施例中,电子设备5000也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
以上各实施例中,涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器,还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units;以下简称:NPU)和图像信号处理器(Image Signal Processing;以下简称:ISP),该处理器还可包括必要的硬件加速器或逻辑处理硬件电路,如ASIC,或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外,处理器可以具有操作一个或多个软件程序的功能,软件程序可以存储在存储介质中。
本领域普通技术人员可以意识到,本文中公开的实施例中描述的各单元及算法步骤,能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory;以下简称:ROM)、随机存取存储器(Random Access Memory;以下简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种问题匹配方法,其特征在于,所述方法包括:
基于输入的用户问题提取核心句;
基于所述核心句获取候选问题,所述候选问题为问答库中与所述核心句相似的问题;
所述基于输入的用户问题提取核心句包括:
对所述输入的用户问题进行分句,生成多个分句,使用预置神经网络模型对所述分句进行判断,若所述分句为核心句,则保留所述分句;若所述分句为非核心句,则删除所述分句;
所述基于所述核心句获取候选问题包括:
使用所述预置神经网络模型对所述核心句进行分词,得到目标分词,所述目标分词用于表征所述核心句的词类;
对所述目标分词进行组合,得到精简核心句;
基于所述预置神经网络模型对所述精简核心句进行向量化,得到第一语义向量;
对所述第一语义向量进行字面检索和深度语义匹配检索,将检索结果进行合并,得到候选问题;对所述候选问题进行匹配过滤;
对所述匹配过滤后的候选问题进行相似度计算。
2.根据权利要求1所述的方法,其特征在于,所述基于输入的用户问题提取核心句之后,还包括:
使用预设的实体识别模型提取所述核心句的实体词,并转换为对应的实体标准词,得到第一实体标准词集合;
使用预设的分类模型对所述核心句进行句式判断。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
使用所述预设的实体识别模型提取所述候选问题的实体词,并转换为对应的实体标准词,得到第二实体标准词集合;
使用所述预设的分类模型对所述候选问题进行句式判断。
4.根据权利要求3所述的方法,其特征在于,所述对所述候选问题进行匹配过滤包括:
对所述候选问题进行实体词匹配过滤和句式匹配过滤。
5.根据权利要求4所述的方法,其特征在于,所述实体词匹配过滤包括:
若所述第二实体标准词集合为空集,则不进行所述实体词匹配过滤,直接进行所述句式匹配过滤;或
若所述第二实体标准词集合不为空集,且所述第二实体标准词集合不为所述第一实体标准词集合的子集,则将所述候选问题删除;或
若所述第二实体标准词集合不为空集,且所述第二实体标准词集合为所述第一实体标准词集合的子集,则进行所述句式匹配过滤。
6.根据权利要求4所述的方法,其特征在于,所述句式匹配过滤包括:
将所述候选问题的句式与所述核心句的句式进行匹配,若候选问题的句式与所述核心句的句式不一致,则将所述候选问题删除。
7.根据权利要求1所述的方法,其特征在于,所述对所述匹配过滤后的候选问题进行相似度计算包括:
使用预设的关键词提取算法分别提取所述精简核心句和所述候选问题的关键词,并对所述精简核心句的关键词和所述候选问题的关键词进行向量化,得到第一关键词向量和第二关键词向量,所述第一关键词向量用于表征所述精简核心句的关键词向量,所述第二关键词向量用于表征所述候选问题的关键词向量;
基于所述预置神经网络模型对所述候选问题进行向量化,得到第二语义向量;
将所述第一关键词向量和所述第一语义向量进行拼接,得到第一拼接向量;
将所述第二关键词向量和所述第二语义向量进行拼接,得到第二拼接向量;
基于所述第一拼接向量和所述第二拼接向量进行相似度计算。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
对所述相似度进行排序,若所述相似度的最大值小于预设值,则执行问题澄清,并作问句推荐,所述问题澄清用于让用户确认输入的问题。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于运行所述计算机程序,实现如权利要求1-8任一项所述的问题匹配方法。
10.一种问题匹配系统,其特征在于,
包括如权利要求9所述的电子设备。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在计算机上运行时,实现如权利要求1-8任一所述的问题匹配方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211723444.9A CN115795016B (zh) | 2022-12-30 | 2022-12-30 | 问题匹配方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211723444.9A CN115795016B (zh) | 2022-12-30 | 2022-12-30 | 问题匹配方法、系统、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115795016A CN115795016A (zh) | 2023-03-14 |
CN115795016B true CN115795016B (zh) | 2024-03-22 |
Family
ID=85428346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211723444.9A Active CN115795016B (zh) | 2022-12-30 | 2022-12-30 | 问题匹配方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115795016B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273350A (zh) * | 2017-05-16 | 2017-10-20 | 广东电网有限责任公司江门供电局 | 一种实现智能问答的信息处理方法及其装置 |
CN107315766A (zh) * | 2017-05-16 | 2017-11-03 | 广东电网有限责任公司江门供电局 | 一种集合智能与人工问答的语音问答方法及其装置 |
CN111984763A (zh) * | 2020-08-28 | 2020-11-24 | 海信电子科技(武汉)有限公司 | 一种答问处理方法及智能设备 |
-
2022
- 2022-12-30 CN CN202211723444.9A patent/CN115795016B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273350A (zh) * | 2017-05-16 | 2017-10-20 | 广东电网有限责任公司江门供电局 | 一种实现智能问答的信息处理方法及其装置 |
CN107315766A (zh) * | 2017-05-16 | 2017-11-03 | 广东电网有限责任公司江门供电局 | 一种集合智能与人工问答的语音问答方法及其装置 |
CN111984763A (zh) * | 2020-08-28 | 2020-11-24 | 海信电子科技(武汉)有限公司 | 一种答问处理方法及智能设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115795016A (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110196901B (zh) | 对话系统的构建方法、装置、计算机设备和存储介质 | |
US10713571B2 (en) | Displaying quality of question being asked a question answering system | |
US10339453B2 (en) | Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation | |
US10671929B2 (en) | Question correction and evaluation mechanism for a question answering system | |
US20180341871A1 (en) | Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains | |
US9792280B2 (en) | Context based synonym filtering for natural language processing systems | |
Gupta et al. | A survey of text question answering techniques | |
US9904667B2 (en) | Entity-relation based passage scoring in a question answering computer system | |
RU2488877C2 (ru) | Идентификация семантических взаимоотношений в косвенной речи | |
US11521603B2 (en) | Automatically generating conference minutes | |
US11372942B2 (en) | Method, apparatus, computer device and storage medium for verifying community question answer data | |
US20220405484A1 (en) | Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof | |
CN106570180A (zh) | 基于人工智能的语音搜索方法及装置 | |
CN108121697B (zh) | 一种文本改写的方法、装置、设备和计算机存储介质 | |
CN113282711B (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
WO2020074017A1 (zh) | 基于深度学习的医学文献中关键词筛选方法及装置 | |
CN108268443B (zh) | 确定话题点转移以及获取回复文本的方法、装置 | |
CN115795016B (zh) | 问题匹配方法、系统、电子设备及存储介质 | |
CN116090450A (zh) | 一种文本处理方法及计算设备 | |
CN115828893A (zh) | 非结构化文档问答的方法、装置、存储介质和设备 | |
Ali et al. | Question answering system for semantic web: a review | |
Kumar et al. | Pattern-based syntactic simplification of compound and complex sentences | |
CN114548113A (zh) | 基于事件的指代消解系统、方法、终端及存储介质 | |
Lee | Natural Language Processing: A Textbook with Python Implementation | |
CN113569124A (zh) | 医疗标题匹配方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |