CN114637760A - 一种智能问答方法及系统 - Google Patents

一种智能问答方法及系统 Download PDF

Info

Publication number
CN114637760A
CN114637760A CN202011499145.2A CN202011499145A CN114637760A CN 114637760 A CN114637760 A CN 114637760A CN 202011499145 A CN202011499145 A CN 202011499145A CN 114637760 A CN114637760 A CN 114637760A
Authority
CN
China
Prior art keywords
question
answer
candidate
similarity
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011499145.2A
Other languages
English (en)
Inventor
刘劲
梁永峰
周启贤
王可泽
陈添水
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DMAI Guangzhou Co Ltd
Original Assignee
DMAI Guangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DMAI Guangzhou Co Ltd filed Critical DMAI Guangzhou Co Ltd
Priority to CN202011499145.2A priority Critical patent/CN114637760A/zh
Publication of CN114637760A publication Critical patent/CN114637760A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种智能问答方法及系统,该方法通过获取当前用户问题对应的用户问题集合;基于字面相似度和语义相似度从预设问答对数据库中检索与用户问题集合中各用户问题对应的候选问答对;基于字面相似度和语义相似度分别计算当前用户问题与各候选问答对对应候选问题的字面相似度评分和语义相似度评分;分别将各候选问答对对应候选问题的字面相似度评分和语义相似度评分输入预设问题匹配模型,得到各候选问答对的预测得分;基于各候选问答对的预测得分,确定当前用户问题对应的问答结果。通过在在候选问题检索阶段引入语义检索,提升了候选问答对的召回率,并且从不同角度综合评估用户问题与候选问题的相似性,提高了问答结果的准确性。

Description

一种智能问答方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种智能问答方法及系统。
背景技术
问答系统是自然语言处理技术的代表性应用之一,其目标在于对用户提出的问题给出准确、简洁的自然语言回答。根据答案来源的不同,现有的问答系统实现方法可分为三类:基于知识图谱的问答系统、基于阅读理解的问答系统和基于问答对的问答系统。其中,基于问答对的问答系统通过分析用户的提问,在问答对语料库中检索得到相关候选问题答案,通过匹配算法得到答案,该方法是问答系统的经典实现方法。
现有基于问答对的检索式问答系统的不足之处在于,问题检索阶段使用基于字面检索的搜索引擎进行检索,导致检索得到的候选答案集合仅包含字面匹配的结果,对于字面上不匹配而语义上匹配的问题无法召回,并且,在答案选择阶段使用基于向量表示的卷积神经网络模型进行语义相似度计算,使得用户问题与候选问题完全独立,影响问答结果的准确性。
发明内容
有鉴于此,本发明实施例提供了一种智能问答方法及系统,以克服现有技术中的基于问答对的智能问答方法问答结果准确性低的问题。
本发明实施例提供了一种智能问答方法,包括:
获取当前用户问题对应的用户问题集合;
基于字面相似度和语义相似度从预设问答对数据库中检索与所述用户问题集合中各用户问题对应的候选问答对,构建候选问答对集合;
基于字面相似度和语义相似度分别计算所述当前用户问题与各候选问答对对应候选问题的字面相似度评分和语义相似度评分;
分别将各候选问答对对应候选问题的字面相似度评分和语义相似度评分输入预设问题匹配模型,得到各候选问答对的预测得分;
基于各候选问答对的预测得分,确定所述当前用户问题对应的问答结果。
可选地,所述获取当前用户问题对应的用户问题集合,包括:
获取当前用户问题,对所述当前用户问题进行分词解析,得到问题分词列表;
基于所述问题分词列表,对所述当前用户问题进行泛化处理,生成多个用户问题,构建所述用户问题集合。
可选地,所述基于字面相似度和语义相似度从预设问答对数据库中检索与所述用户问题集合中各用户问题对应的候选问答对,构建候选问答对集合,包括:
基于字面相似度从所述预设问答对数据库中检索与所述用户问题集合中各用户问题对应的候选问答对,构建第一候选问答对集合;
基于语义相似度从所述预设问答对数据库中检索与所述用户问题集合中各用户问题对应的候选问答对,构建第二候选问答对集合;
将所述第一候选问答对集合与所述第二候选问答对集合进行合并,并去除冗余候选问答对后,得到所述候选问答对集合。
可选地,所述基于字面相似度和语义相似度分别计算所述当前用户问题与各候选问答对对应候选问题的字面相似度评分和语义相似度评分,包括:
采用多种字面相似度评价指标,分别计算所述当前用户问题与各候选问答对对应候选问题的字面相似度评分,得到各字面相似度评价指标对应的字面相似度评分;
采用多种语义相似度评价指标,分别计算所述当前用户问题与各候选问答对对应候选问题的语义相似度评分,得到各语义相似度评价指标对应的语义相似度评分。
可选地,所述分别将各候选问答对对应候选问题的字面相似度评分和语义相似度评分输入预设问题匹配模型,得到各候选问答对的预测得分,包括:
获取当前候选问答对的各字面相似度评价指标对应的字面相似度评分和各语义相似度评价指标对应的语义相似度评分;
将当前候选问答对的各字面相似度评价指标对应的字面相似度评分和各语义相似度评价指标对应的语义相似度评分输入所述预设问题匹配模型,得到所述当前候选问答对的预测得分。
可选地,所述基于各候选问答对的预测得分,确定所述当前用户问题对应的问答结果,包括:
对各候选问答对的预测得分进行从大到小的排序,根据排序结果确定最高预测得分对应的目标候选问答对;
根据所述最高预测得分与预设得分范围的关系,确定所述当前用户问题对应的问答结果。
可选地,所述根据所述最高预测得分与预设得分范围的关系,确定所述当前用户问题对应的问答结果,包括:
在所述最高预测得分超过所述预设得分范围的最大值时,将所述目标候选问答对对应的目标答案确定为所述问答结果;
在所述最高预测得分低于所述预设得分范围的最小值时,将预设无答案回复结果确定为所述问答结果;
在所述最高预测得分在所述预设得分范围内时,从所述排序结果选择预设数量的候选问答对的问题确定为所述问答结果。
本发明实施例还提供了一种智能问答系统,包括:
获取模块,用于获取当前用户问题对应的用户问题集合;
第一处理模块,用于基于字面相似度和语义相似度从预设问答对数据库中检索与所述用户问题集合中各用户问题对应的候选问答对,构建候选问答对集合;
第二处理模块,用于基于字面相似度和语义相似度分别计算所述当前用户问题与各候选问答对对应候选问题的字面相似度评分和语义相似度评分;
第三处理模块,用于分别将各候选问答对对应候选问题的字面相似度评分和语义相似度评分输入预设问题匹配模型,得到各候选问答对的预测得分;
第四处理模块,用于基于各候选问答对的预测得分,确定所述当前用户问题对应的问答结果。
本发明实施例还提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行本发明实施例提供的方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明实施例提供的方法。
本发明技术方案,具有如下优点:
本发明实施例提供了一种智能问答方法及系统,通过获取当前用户问题对应的用户问题集合;基于字面相似度和语义相似度从预设问答对数据库中检索与用户问题集合中各用户问题对应的候选问答对,构建候选问答对集合;基于字面相似度和语义相似度分别计算当前用户问题与各候选问答对对应候选问题的字面相似度评分和语义相似度评分;分别将各候选问答对对应候选问题的字面相似度评分和语义相似度评分输入预设问题匹配模型,得到各候选问答对的预测得分;基于各候选问答对的预测得分,确定当前用户问题对应的问答结果。从而通过在在候选问题检索阶段引入语义检索,提升了候选问答对的召回率,并且从不同角度综合评估用户问题与候选问题的相似性,并依据相似性评价结果确定问答结果,提高了问答结果的准确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中的智能问答方法的流程图;
图2为本发明实施例中的在线客服机器人的工作过程示意图;
图3为本发明实施例中的智能问答系统的结构示意图;
图4为本发明实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
问答系统是自然语言处理技术的代表性应用之一,其目标在于对用户提出的问题给出准确、简洁的自然语言回答。根据答案来源的不同,现有的问答系统实现方法可分为三类:基于知识图谱的问答系统、基于阅读理解的问答系统和基于问答对的问答系统。其中,基于问答对的问答系统通过分析用户的提问,在问答对语料库中检索得到相关候选问题答案,通过匹配算法得到答案,该方法是问答系统的经典实现方法。
现有基于问答对的检索式问答系统的不足之处在于,问题检索阶段使用基于字面检索的搜索引擎进行检索,导致检索得到的候选答案集合仅包含字面匹配的结果,对于字面上不匹配而语义上匹配的问题无法召回,并且,在答案选择阶段使用基于向量表示的卷积神经网络模型进行语义相似度计算,使得用户问题与候选问题完全独立,影响问答结果的准确性。
基于上述问题,本发明实施例提供了一种智能问答方法,应用于智能问答系统,如图1所示,该智能问答方法主要包括如下步骤:
步骤S101:获取当前用户问题对应的用户问题集合。具体地,当前用户问题为用户向智能问答系统输入的问题,用户问题集合为智能问答系统对当前用户问题进行解析和泛化处理,具体包括问题分词、去除标点和停用词、问题分词匹配、问题规则泛化,得到泛化的用户问题集合。
步骤S102:基于字面相似度和语义相似度从预设问答对数据库中检索与用户问题集合中各用户问题对应的候选问答对,构建候选问答对集合。具体地,该预设问答对数据库可以采用从问答社区收集的中文问答数据构建,具体包括:通过文字对问答对进行描述的数据库和通过语义向量对问答对描述的数据库,前者用于对用户问题进行字面相似度检索,后者用于对用户问题进行语义相似度检索。在实际应用中,字面检索使用倒排索引方式建立索引并检索,语义检索使用欧式距离和语义向量点积进行语义向量的比较检索。
步骤S103:基于字面相似度和语义相似度分别计算当前用户问题与各候选问答对对应候选问题的字面相似度评分和语义相似度评分。具体地,通过字面相似度评分和语义相似度评分反映候选问答对对应的问题与用户提出的当前用户问题的匹配程度。
步骤S104:分别将各候选问答对对应候选问题的字面相似度评分和语义相似度评分输入预设问题匹配模型,得到各候选问答对的预测得分。具体地,该预设问题匹配模型为事先基于深度学习思想构建的预测模型,并通过采集历史用户问题及问答结果构成的样本集训练之后得到的,在实际应用中,该预设问题匹配模型可以选择神经网络模型也可以选择其他深度学习模型,还可以是根据设置规则自定义的网络模型,本发明并不以此为限。
步骤S105:基于各候选问答对的预测得分,确定当前用户问题对应的问答结果。具体地,该问答结果可以根据候选问答对中预测得分的最高值,进进行分类回复,以为用户提供准确的问答结果,提高用户使用体验。
通过上述步骤S101至步骤S105,本发明实施例提供的智能问答方法,通过在在候选问题检索阶段引入语义检索,提升了候选问答对的召回率,并且从不同角度综合评估用户问题与候选问题的相似性,并依据相似性评价结果确定问答结果,提高了问答结果的准确性。
具体地,在一实施例中,上述的步骤S101具体包括如下步骤:
步骤S11:获取当前用户问题,对当前用户问题进行分词解析,得到问题分词列表。具体地,在本发明实施例中,通过利用百度LAC分词工具对当前用户问题进行分词操作,并根据百度常用停用词表,遍历当前用户问题的分词结果,移除标点和停用词,得到问题的分词列表。在实际应用中,也可以利用其它现有技术中的分词工具进行分词解析,例如SnowNLP,Thulac,HanLP等,本发明并不以此为限。
步骤S12:基于问题分词列表,对当前用户问题进行泛化处理,生成多个用户问题,构建用户问题集合。具体地,在本发明实施例中,根据公开的现代汉语同义词和近义词词典构建同义词和近义词表,遍历问题分词列表并在词表中进行匹配,对于匹配到的分词使用词表中的同义词和近义词进行替换,构建当前用户问题的泛化问题集合,从而通过丰富问题数量的方式,提高了后续候选问答对的筛选量,避免问题答案的遗漏,进一步提高问答结果的准确性。
具体地,在一实施例中,上述的步骤S102具体包括如下步骤:
步骤S201:基于字面相似度从预设问答对数据库中检索与用户问题集合中各用户问题对应的候选问答对,构建第一候选问答对集合。具体地,对于字面检索,本发明实施例利用了基于ElasticSearch开源搜索引擎构建了问答对数据库,其以倒排索引方式进行数据的字面检索工作。本发明实施例使用ElasticSearch导入数据时使用了IK analyzer分词插件,并设置使用细粒度模式ik_max_word建立索引,使用粗粒度模式ik_smart搜索。问答对在预设问答对库中的存储字段包括:id、问题文本和答案文本。
步骤S202:基于语义相似度从预设问答对数据库中检索与用户问题集合中各用户问题对应的候选问答对,构建第二候选问答对集合。具体地,对于语义检索,本发明实施例利用了基于向量表示的语言模型SimNet处理问题得到问题的语义向量,并使用Faiss开源向量相似度搜索库构建语义检索服务,其以欧式距离和向量点积比较语义向量相似度进行问题向量的语义检索工作,在实际应用中,也可以利用其他现有技术中的向量检索工具进行语义检索,例如Milvus,NMSLIB,Annoy等,本发明仅以此为例,并不以此为限。问答对在预设问答对库中的存储字段包括:id、问题语义向量和答案语义向量。通过在候选问题检索阶段引入语义检索,提升了候选问答对的召回率,从而提升整个问答系统的准确率。
步骤S203:将第一候选问答对集合与第二候选问答对集合进行合并,并去除冗余候选问答对后,得到候选问答对集合。具体地,假设问答系统通过字面检索和语义检索各得到40个问答对,共计80个问答对,遍历这80个问答对,去除其中id相同的问答对条目,将前剩余的问答对作为候选问答对集合。
具体地,在一实施例中,上述的步骤S103具体包括如下步骤:
步骤S301:采用多种字面相似度评价指标,分别计算当前用户问题与各候选问答对对应候选问题的字面相似度评分,得到各字面相似度评价指标对应的字面相似度评分。具体地,在本发明实施例中,采用BM25、Jaccard相似系数、余弦相似度、词移距离和编辑距离这五个字面相似度评价指标进行字面相似度计算,其中,BM25从统计角度评估每个分词在语料库中的分布情况并基于分词权重计算模型得分;Jaccard相似系数从分词重合角度综合考虑了句子对中分词交集和并集的比例;余弦相似度分析句子对的分词向量夹角;词移距离和编辑距离从句子对分词转移距离的角度衡量句子相似度。从而实现了不同维度字面相似度的评价,避免了单一字面相似度评价指标的偏见影响,使得评价更为全面,进一步提高了整个问答系统问答结果的准确性。需要说明的是,在实际应用中,也可以字面相似度评价指标的数量和类型可以根据实际需要进行增删调整,本发明并不以此为限。
步骤S302:采用多种语义相似度评价指标,分别计算当前用户问题与各候选问答对对应候选问题的语义相似度评分,得到各语义相似度评价指标对应的语义相似度评分。具体地,在本发明实施例中,采用SimNet语义向量相似度和BERT句子对相似性这两个语义相似度评价指标进行语义相似度计算,其中,SimNet语义向量相似度可以在语义检索时得到。本发明还利用了基于大量通用语料训练的BERT模型进行句子对相似性计算,BERT模型在预测相似度时接收用户问题与候选问题拼接作为输入,从而使用户问题与候选问题发生交互,最终输出[0,1]之间的小数作为相似度得分。从而实现了不同维度语义相似度的评价,避免了单一语义相似度评价指标的偏见影响,使得评价更为全面,进一步提高了整个问答系统问答结果的准确性。需要说明的是,在实际应用中,也可以语义相似度评价指标的数量和类型可以根据实际需要进行增删调整,本发明并不以此为限。相较于其他问答系统使用向量表示的神经网络模型,本发明实施例可以尽早使用户问题与候选问题交互,匹配能力更强。
具体地,在一实施例中,上述的步骤S104具体包括如下步骤:
步骤S401:获取当前候选问答对的各字面相似度评价指标对应的字面相似度评分和各语义相似度评价指标对应的语义相似度评分。在本发明实施例中,对于每一个候选问答对,都包括五个字面相似度得分和两个语义相似度得分。
步骤S402:将当前候选问答对的各字面相似度评价指标对应的字面相似度评分和各语义相似度评价指标对应的语义相似度评分输入预设问题匹配模型,得到当前候选问答对的预测得分。具体地,在本发明实施例中该预设问题匹配模型使用事先训练好的Xgboost模型接收上述计算得到的7种相似度得分,输出预测最终的排序得分即预测得分。从而通过综合语义和字母两个方面多个维度不同的相似度得分,对候选问答对进行综合评价,并给出统一的预测得分,便于根据预测得分值从候选问答对准确筛选与当前用户问题最为匹配的问答对,进一步提高问答系统问答结果的准确性,需要说明的是,在实际应用中,也可以选择其他神经网络模型进行预测,本发明并不以此为限。在实际应用中,还可以根据需要设置规则对极端情况进行过滤,例如对于分词结果全为停用词的问题,问答系统无法进行基于分词的相似度计算,在该情况下无法进行基于分词相似度计算,可以将基于分词相似度计算的得分修改为语义相似度得分等,从而提高问答系统的通用性。
具体地,在一实施例中,上述的步骤S105具体包括如下步骤:
步骤S501:对各候选问答对的预测得分进行从大到小的排序,根据排序结果确定最高预测得分对应的目标候选问答对。具体地,预测得分越高则说明该候选问答对于当前用户问题的综合匹配度越高,该候选问答对对应的候选答案越符合用户所需的问答结果。
步骤S502:根据最高预测得分与预设得分范围的关系,确定当前用户问题对应的问答结果。
具体地,问答系统可以通过设置高低两个阈值构成预设得分范围,在最高预测得分超过预设得分范围的最大值时,将目标候选问答对对应的目标答案确定为问答结果;在最高预测得分低于预设得分范围的最小值时,将预设无答案回复结果确定为问答结果;在最高预测得分在预设得分范围内时,从排序结果选择预设数量的候选问答对的问题确定为问答结果。在实际应用中,假设模型输出的预测得分范围是(0,1),该预设得分范围为(0.2,0.8),则当最高预测得分高于0.8时,表明系统有较高置信度找到正确答案,因此直接返回得分最高的问答对的答案;当最高预测得分低于0.2时,表明系统中未找到用户问题对应的答案,则采用兜底策略返回预定义的回复,如“抱歉,我暂时还不能回答这个问题”等;当最高预测得分介于0.2-0.8之间时,表明问答系统对排序结果不自信,为避免答非所问的情况,将问答对中的问题作为相似问题列表推荐给用户,除了直出答案与否定回复之外,本发明实施例基于双阈值方法对难以匹配的问题采用推荐问题列表方式返回,避免答非所问带来的不佳体验,给用户更好的使用感受。在实际应用中,还可以将排序得分最高的前3个问答对作为相似性问答对推荐给用户,或者将问答对中的答案作为相似性答案列表推荐给用户等,本发明并不以此为限。
下面将结合一具体应用示例对本发明实施例提供的智能问答方法进行详细的说明。
如图2所示,为本发明实施例提供的智能问答方法所应用的在线客服机器人的工作过程示意图,具体包括如下过程:
1)对用户输入的问题进行分词、移除标点和停用词,得到问题的核心词列表;
2)使用公开词典数据构建同义词和近义词表,在系统维护的同义词和近义词表中匹配问题核心词,使用同义词或近义词进行替换匹配到的核心词,生成泛化的问题集合;
3)使用开源搜索引擎(例如ElasticSearch)构建问答对搜索服务,同时使用预训练的语言模型(例如SimNet或者BERT)将问题转化成语义向量,构建语义向量库(例如Faiss);
4)将泛化问题集合里的问题并行输入到检索模块,在构建的搜索引擎中进行字面检索,同时在语义向量库中进行语义检索;
5)去除字面检索结果和语义检索结果中重复的问答对,得到候选问答对集合;
6)计算用户问题与候选问题的多种字面相似度(例如BM25,Jaccard相似系数和编辑距离)以及语义相似度(例如SimNet和BERT);
7)使用排序模型(例如Xgboost)对候选问题的字面相似度和语义相似度得分进行综合排序,同时设置规则处理排序的极端情况;
8)对于排序结果设置高、低两个阈值,当相似度最高的候选问题得分高于高阈值时则直接返回该候选问题对应的答案;当相似度最高的候选问题得分低于低阈值时则采用兜底策略返回预定义的回复;当相似度最高的候选问题得分介于高低阈值之间时采用推荐问题列表的方式返回相似问题。
通过执行上述步骤,本发明实施例提供的智能问答方法,通过用户问题泛化、问题字面和语义检索、多角度相似度匹配、模型和规则重排序,得到用户问题的准确答案或相似问题推荐。本发明实施例在问题分析阶段,通过问题分词的同义词和近义词规则泛化,能够有效应对同一问题的不同表述;本发明实施例在候选问题检索阶段,同时利用字面检索和语义检索获取候选问答对集合,解决现有问答系统使用单一字面检索无法得到字面不匹配而语义匹配候选问答对的问题。在问题相似度匹配方面,本发明实施例融合了多种字面相似度和语义相似度,并引入深度相似度计算模型,使用户问题与候选问题产生交互。在排序方面,本发明采用模型与规则结合的方式得到修正的排序得分,最终基于排序结果给出问题答案或问题推荐。
本发明实施例提供的智能问答方法,相对于现有技术,其优势在于:
1.累积误差低,通过在候选问题检索阶段引入语义检索,提升了候选问答对的召回率,从而提升整个问答系统的准确率;
2.通用性佳,本发明实施例在问题匹配阶段融合了多种字面相似度和语义相似度,从多角度综合评估用户问题与候选问题的相似性,减弱单一指标带来的偏见影响;
3.泛化能力强,相较于其他系统使用向量表示的神经网络模型,本发明实施例可以尽早使用户问题与候选问题交互,匹配能力更强;此外,在答案选择阶段本发明采用模型与规则结合的方式,在模型排序基础上添加规则处理极端情况,保证系统的通用性;
4.对用户友好,除了直出答案与否定回复之外,本发明实施例基于双阈值方法对难以匹配的问题采用推荐问题列表方式返回,避免答非所问带来的不佳体验,给用户更好的使用感受。
本发明实施例还提供了一种智能问答系统,如图3所示,该智能问答系统包括:
获取模块101,用于获取当前用户问题对应的用户问题集合。详细内容参见上述方法实施例中步骤S101的相关描述,在此不再进行赘述。
第一处理模块102,用于基于字面相似度和语义相似度从预设问答对数据库中检索与用户问题集合中各用户问题对应的候选问答对,构建候选问答对集合。详细内容参见上述方法实施例中步骤S102的相关描述,在此不再进行赘述。
第二处理模块103,用于基于字面相似度和语义相似度分别计算当前用户问题与各候选问答对对应候选问题的字面相似度评分和语义相似度评分。详细内容参见上述方法实施例中步骤S103的相关描述,在此不再进行赘述。
第三处理模块104,用于分别将各候选问答对对应候选问题的字面相似度评分和语义相似度评分输入预设问题匹配模型,得到各候选问答对的预测得分。详细内容参见上述方法实施例中步骤S104的相关描述,在此不再进行赘述。
第四处理模块105,用于基于各候选问答对的预测得分,确定当前用户问题对应的问答结果。详细内容参见上述方法实施例中步骤S105的相关描述,在此不再进行赘述。
通过上述各个组成部分的协同合作,本发明实施例提供的智能问答系统,通过在在候选问题检索阶段引入语义检索,提升了候选问答对的召回率,并且从不同角度综合评估用户问题与候选问题的相似性,并依据相似性评价结果确定问答结果,提高了问答结果的准确性。
根据本发明实施例还提供了一种电子设备,如图4所示,该电子设备可以包括处理器901和存储器902,其中处理器901和存储器902可以通过总线或者其他方式连接,图4中以通过总线连接为例。
处理器901可以为中央处理器(Central Processing Unit,CPU)。处理器901还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器902作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明方法实施例中的方法所对应的程序指令/模块。处理器901通过运行存储在存储器902中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器901所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至处理器901。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器902中,当被处理器901执行时,执行上述方法实施例中的方法。
上述电子设备具体细节可以对应参阅上述方法实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种智能问答方法,其特征在于,包括:
获取当前用户问题对应的用户问题集合;
基于字面相似度和语义相似度从预设问答对数据库中检索与所述用户问题集合中各用户问题对应的候选问答对,构建候选问答对集合;
基于字面相似度和语义相似度分别计算所述当前用户问题与各候选问答对对应候选问题的字面相似度评分和语义相似度评分;
分别将各候选问答对对应候选问题的字面相似度评分和语义相似度评分输入预设问题匹配模型,得到各候选问答对的预测得分;
基于各候选问答对的预测得分,确定所述当前用户问题对应的问答结果。
2.根据权利要求1所述的方法,其特征在于,所述获取当前用户问题对应的用户问题集合,包括:
获取当前用户问题,对所述当前用户问题进行分词解析,得到问题分词列表;
基于所述问题分词列表,对所述当前用户问题进行泛化处理,生成多个用户问题,构建所述用户问题集合。
3.根据权利要求1所述的方法,其特征在于,所述基于字面相似度和语义相似度从预设问答对数据库中检索与所述用户问题集合中各用户问题对应的候选问答对,构建候选问答对集合,包括:
基于字面相似度从所述预设问答对数据库中检索与所述用户问题集合中各用户问题对应的候选问答对,构建第一候选问答对集合;
基于语义相似度从所述预设问答对数据库中检索与所述用户问题集合中各用户问题对应的候选问答对,构建第二候选问答对集合;
将所述第一候选问答对集合与所述第二候选问答对集合进行合并,并去除冗余候选问答对后,得到所述候选问答对集合。
4.根据权利要求1所述的方法,其特征在于,所述基于字面相似度和语义相似度分别计算所述当前用户问题与各候选问答对对应候选问题的字面相似度评分和语义相似度评分,包括:
采用多种字面相似度评价指标,分别计算所述当前用户问题与各候选问答对对应候选问题的字面相似度评分,得到各字面相似度评价指标对应的字面相似度评分;
采用多种语义相似度评价指标,分别计算所述当前用户问题与各候选问答对对应候选问题的语义相似度评分,得到各语义相似度评价指标对应的语义相似度评分。
5.根据权利要求4所述的方法,其特征在于,所述分别将各候选问答对对应候选问题的字面相似度评分和语义相似度评分输入预设问题匹配模型,得到各候选问答对的预测得分,包括:
获取当前候选问答对的各字面相似度评价指标对应的字面相似度评分和各语义相似度评价指标对应的语义相似度评分;
将当前候选问答对的各字面相似度评价指标对应的字面相似度评分和各语义相似度评价指标对应的语义相似度评分输入所述预设问题匹配模型,得到所述当前候选问答对的预测得分。
6.根据权利要求5所述的方法,其特征在于,所述基于各候选问答对的预测得分,确定所述当前用户问题对应的问答结果,包括:
对各候选问答对的预测得分进行从大到小的排序,根据排序结果确定最高预测得分对应的目标候选问答对;
根据所述最高预测得分与预设得分范围的关系,确定所述当前用户问题对应的问答结果。
7.根据权利要求6所述的方法,其特征在于,所述根据所述最高预测得分与预设得分范围的关系,确定所述当前用户问题对应的问答结果,包括:
在所述最高预测得分超过所述预设得分范围的最大值时,将所述目标候选问答对对应的目标答案确定为所述问答结果;
在所述最高预测得分低于所述预设得分范围的最小值时,将预设无答案回复结果确定为所述问答结果;
在所述最高预测得分在所述预设得分范围内时,从所述排序结果选择预设数量的候选问答对的问题确定为所述问答结果。
8.一种智能问答系统,其特征在于,包括:
获取模块,用于获取当前用户问题对应的用户问题集合;
第一处理模块,用于基于字面相似度和语义相似度从预设问答对数据库中检索与所述用户问题集合中各用户问题对应的候选问答对,构建候选问答对集合;
第二处理模块,用于基于字面相似度和语义相似度分别计算所述当前用户问题与各候选问答对对应候选问题的字面相似度评分和语义相似度评分;
第三处理模块,用于分别将各候选问答对对应候选问题的字面相似度评分和语义相似度评分输入预设问题匹配模型,得到各候选问答对的预测得分;
第四处理模块,用于基于各候选问答对的预测得分,确定所述当前用户问题对应的问答结果。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机从而执行权利要求1-7任一项所述的方法。
CN202011499145.2A 2020-12-15 2020-12-15 一种智能问答方法及系统 Pending CN114637760A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011499145.2A CN114637760A (zh) 2020-12-15 2020-12-15 一种智能问答方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011499145.2A CN114637760A (zh) 2020-12-15 2020-12-15 一种智能问答方法及系统

Publications (1)

Publication Number Publication Date
CN114637760A true CN114637760A (zh) 2022-06-17

Family

ID=81944872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011499145.2A Pending CN114637760A (zh) 2020-12-15 2020-12-15 一种智能问答方法及系统

Country Status (1)

Country Link
CN (1) CN114637760A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470338A (zh) * 2022-10-27 2022-12-13 之江实验室 一种基于多路召回的多场景智能问答方法和系统
CN115544236A (zh) * 2022-11-16 2022-12-30 北京红棉小冰科技有限公司 一种模型评估方法、装置及电子设备
CN116737915A (zh) * 2023-08-16 2023-09-12 中移信息系统集成有限公司 基于知识图谱的语义检索方法、装置、设备及存储介质
CN117271611A (zh) * 2023-11-21 2023-12-22 中国电子科技集团公司第十五研究所 一种基于大模型的信息检索方法、装置及设备
CN117520523A (zh) * 2023-12-29 2024-02-06 中邮消费金融有限公司 数据处理方法、装置、设备及存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115470338A (zh) * 2022-10-27 2022-12-13 之江实验室 一种基于多路召回的多场景智能问答方法和系统
CN115470338B (zh) * 2022-10-27 2023-04-14 之江实验室 一种基于多路召回的多场景智能问答方法和系统
CN115544236A (zh) * 2022-11-16 2022-12-30 北京红棉小冰科技有限公司 一种模型评估方法、装置及电子设备
CN116737915A (zh) * 2023-08-16 2023-09-12 中移信息系统集成有限公司 基于知识图谱的语义检索方法、装置、设备及存储介质
CN116737915B (zh) * 2023-08-16 2023-11-21 中移信息系统集成有限公司 基于知识图谱的语义检索方法、装置、设备及存储介质
CN117271611A (zh) * 2023-11-21 2023-12-22 中国电子科技集团公司第十五研究所 一种基于大模型的信息检索方法、装置及设备
CN117271611B (zh) * 2023-11-21 2024-02-13 中国电子科技集团公司第十五研究所 一种基于大模型的信息检索方法、装置及设备
CN117520523A (zh) * 2023-12-29 2024-02-06 中邮消费金融有限公司 数据处理方法、装置、设备及存储介质
CN117520523B (zh) * 2023-12-29 2024-03-29 中邮消费金融有限公司 数据处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN114637760A (zh) 一种智能问答方法及系统
CN105893523B (zh) 利用答案相关性排序的评估度量来计算问题相似度的方法
CN110019732B (zh) 一种智能问答方法以及相关装置
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
WO2017092380A1 (zh) 用于人机对话的方法、神经网络系统和用户设备
CN111949787A (zh) 基于知识图谱的自动问答方法、装置、设备及存储介质
CN113112164A (zh) 基于知识图谱的变压器故障诊断方法、装置及电子设备
KR101508260B1 (ko) 문서 특징을 반영하는 요약문 생성 장치 및 방법
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN109359302B (zh) 一种领域化词向量的优化方法及基于其的融合排序方法
CN112270188B (zh) 一种提问式的分析路径推荐方法、系统及存储介质
CN110990533A (zh) 确定查询文本所对应标准文本的方法及装置
CN113157867A (zh) 一种问答方法、装置、电子设备及存储介质
CN110851584A (zh) 一种法律条文精准推荐系统和方法
CN115905487A (zh) 文档问答方法、系统、电子设备及存储介质
CN117573985B (zh) 一种应用于智能化在线教育系统的信息推送方法及系统
CN111382265B (zh) 搜索方法、装置、设备和介质
CN104572820B (zh) 模型的生成方法及装置、重要度获取方法及装置
CN116484021A (zh) 一种构建leetcode题库知识图谱的方法、装置、存储介质
CN114579606B (zh) 预训练模型数据处理方法、电子设备及计算机存储介质
CN111104422A (zh) 一种数据推荐模型的训练方法、装置、设备及存储介质
CN116861358A (zh) 基于bp神经网络与多源数据融合的计算思维评测方法
CN115934905A (zh) 文档问答方法、装置、系统、电子设备及存储介质
CN110543636B (zh) 一种对话系统的训练数据选择方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination