CN115858741A - 一种适用于多场景的智能问答方法、装置及存储介质 - Google Patents

一种适用于多场景的智能问答方法、装置及存储介质 Download PDF

Info

Publication number
CN115858741A
CN115858741A CN202210852270.XA CN202210852270A CN115858741A CN 115858741 A CN115858741 A CN 115858741A CN 202210852270 A CN202210852270 A CN 202210852270A CN 115858741 A CN115858741 A CN 115858741A
Authority
CN
China
Prior art keywords
intention
corpus
question
user
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210852270.XA
Other languages
English (en)
Inventor
贾敬伍
周长安
赵国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongguancun Kejin Technology Co Ltd
Original Assignee
Beijing Zhongguancun Kejin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongguancun Kejin Technology Co Ltd filed Critical Beijing Zhongguancun Kejin Technology Co Ltd
Priority to CN202210852270.XA priority Critical patent/CN115858741A/zh
Publication of CN115858741A publication Critical patent/CN115858741A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种适用于多场景的智能问答方法、装置及存储介质,其中该方法,包括:建构意图语料库、知识问答语料库和闲聊语料库;基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果;在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度;根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。

Description

一种适用于多场景的智能问答方法、装置及存储介质
技术领域
本申请涉及智能问答技术领域,特别是涉及一种适用于多场景的智能问答方法、装置及存储介质。
背景技术
在各行各业中,随着人工智能技术的成熟,对话系统、智能问答系统的应用得以逐步普及。在原有业务问答的基础上,对闲聊对话也提出了一定要求,例如:在银行大厅数字人智能对话场景下,为了提高在办理业务等待期间的用户体验,需要数字人可以与银行用户进行闲聊交互。虽然闲聊语料与业务语料具有一定差别,但是在银行场景下,用户的闲聊语句也容易被误判为非闲聊/业务语句,导致回答错误,准确率低。
针对上述的现有技术中存在的知识问答语料和闲聊语句容易被误判为意图类别,导致回答准确率低的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明的实施例提供了一种适用于多场景的智能问答方法、装置及存储介质,以至少解决现有技术中存在的知识问答语料和闲聊语句容易被误判为意图类别,导致回答准确率低的技术问题。
根据本发明实施例的一个方面,提供了一种适用于多场景的智能问答方法,包括:建构意图语料库、知识问答语料库和闲聊语料库;基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果;在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度;根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。
可选地,建构意图语料库、知识问答语料库和闲聊语料库,包括:针对业务语料进行意图标准问句、指示标准问句的梳理以及相似问句的扩写,得到意图语料库和知识问答语料库;对闲聊语料进行相似问句的扩写,得到闲聊语料库。
可选地,基于所述意图语料库,对用户问句进行意图分类之前,还包括:基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,构建意图识别模型和文本匹配模型;从所述知识问答语料库和所述闲聊语料库从抽取预定数量的文本数据,并将抽取出的文本数据作为一个新的意图类别的样本数据;将所述新的意图类别的样本数据添加至所述意图语料库,得到优化后的意图语料库;利用优化后的意图语料库进行意图识别模型的训练。
可选地,基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果,包括:利用训练后的意图识别模型,对所述用户问句进行意图预测,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。
可选地,对所述用户问句进行文本匹配之前,该方法还包括:根据所述预测结果,判定所述用户问句包含的置信度最高的意图类别的置信度是否大于预设的一级置信度阈值;在所述用户问句包含的置信度最高的意图类别的置信度大于预设的一级置信度阈值的情况下,将所述用户问句包含的置信度最高的意图类别确定为所述用户问句的意图,并将所述意图语料库中与所述置信度最高的意图类别对应的答案确定为所述用户问句的答案。
可选地,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度,包括:利用所述文本匹配模型,将所述意图语料库、所述知识问答语料库和所述闲聊语料库的所有文本数据与所述用户问句进行相似度计算,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。
可选地,根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案,包括:根据所述各个文本数据对应的相似度,判断所述各个文本数据中是否存在相似度数值达到预设的相似度阈值的候选文本数据;在判断所述各个文本数据中存在相似度数值达到预设的相似度阈值的候选文本数据的情况下,进一步判断所述候选文本数据中是否存在达到预设的二级置信度阈值的意图类别的目标文本数据,若存在则将所述目标文本数据对应的意图和答案确定为所述用户问句对应的意图和答案,若不存在则将相似度数值最高的文本数据对应的意图和答案确定为所述用户问句的意图和答案;在判断所述各个文本数据中不存在相似度数值达到预设的相似度阈值的候选文本数据的情况下,将预设的兜底答案确定为所述用户问句的答案。
根据本发明实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本发明实施例的另一个方面,还提供了一种适用于多场景的智能问答装置,包括:语料库建构模块,用于建构意图语料库、知识问答语料库和闲聊语料库;意图识别模块,用于基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果;文本匹配模块,用于在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度;答案确定模块,用于根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。
根据本发明实施例的另一个方面,还提供了一种适用于多场景的智能问答装置,包括:处理器;以及存储器,与处理器连接,用于为处理器提供处理以下处理步骤的指令:建构意图语料库、知识问答语料库和闲聊语料库;基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果;在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度;根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。
在本发明实施例中,首先建构意图语料库、知识问答语料库和闲聊语料库。然后,基于意图语料库,对用户问句进行意图分类,确定用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。其次,在根据预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于意图语料库、知识问答语料库和闲聊语料库,对用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。最后,根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。本发明将知识问答语料和闲聊语料整体作为一个类别,与高频业务的意图语料在意图识别模型的同一个尺度下进行训练,从而有效减少知识问答语料和闲聊被误判为意图类别的情况发生。本发明利用多阶段模型以及多级置信度,对用户问进行匹配和验证,提高了整体准确性。从而解决了现有技术中存在的知识问答语料和闲聊语句容易被误判为意图类别,导致回答准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是用于实现根据本发明实施例1所述的方法的计算设备的硬件结构框图;
图2是根据本发明实施例1的第一个方面所述的适用于多场景的智能问答方法的流程示意图;
图3是根据本发明实施例1所述的适用于多场景的智能问答方法的整体流程示意图;
图4是根据本发明实施例2所述的适用于多场景的智能问答装置的示意图;以及
图5是根据本发明实施例3所述的适用于多场景的智能问答装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本发明实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
意图识别:意图识别是通过分类的办法将句子或者我们常说的问句分到相应的意图种类。
文本匹配:文本匹配是自然语言处理中一个重要的基础问题,可以应用于大量的NLP任务中,如信息检索、问答系统、复述问题、对话系统、机器翻译等,这些NLP任务在很大程度上可以抽象为文本匹配问题。
机器学习:是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能,其流程上主要包括:模型构建、模型训练和模型预测。
实施例1
根据本实施例,提供了一种适用于多场景的智能问答方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在服务器或者类似的计算设备中执行。图1示出了一种用于实现适用于多场景的智能问答方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本发明实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本发明实施例中的适用于多场景的智能问答方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的适用于多场景的智能问答方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,根据本实施例的第一个方面,提供了一种适用于多场景的智能问答方法。图2示出了该方法的流程示意图,参考图2所示,该方法包括:
S202:建构意图语料库、知识问答语料库和闲聊语料库。
在本发明实施例中,智能问答场景例如但不限于为某银行数字人项目,需要在大厅屏幕上展示银行业务,同时配设大堂经理形象的虚拟数字人进行语音交互和业务讲解。行方在原有业务问答的基础上,提出了闲聊问答的需求,以便优化用户体验。
可选地,建构意图语料库、知识问答语料库和闲聊语料库,包括:针对业务语料进行意图标准问句、指示标准问句的梳理以及相似问句的扩写,得到意图语料库和知识问答语料库;对闲聊语料进行相似问句的扩写,得到闲聊语料库。
在本发明实施例中,如图3所示,首先进行数据准备:针对业务语料进行意图标准问句、知识标准问句的梳理,以及其相似问句扩写,从而初步得到高频业务的意图语料库和知识问答语料库,同时对闲聊语料进行相似问句扩写,得到闲聊语料库。
S204:基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。
可选地,基于所述意图语料库,对用户问句进行意图分类之前,还包括:基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,构建意图识别模型和文本匹配模型;从所述知识问答语料库和所述闲聊语料库从抽取预定数量的文本数据,并将抽取出的文本数据作为一个新的意图类别的样本数据;将所述新的意图类别的样本数据添加至所述意图语料库,得到优化后的意图语料库;利用优化后的意图语料库进行意图识别模型的训练。
在本发明实施例中,如图3所示,进一步进行模型构建:先结合各语料库(意图语料库、知识问答语料库和闲聊语料库),分别构建出意图识别模型(例如但不限于:机器学习的逻辑回归模型)和文本匹配模型(即文本相似度模型)。然后对意图语料库进行优化,具体为:分别从闲聊语料库和知识问答语料库中抽取若干数据,将其整体作为一个新的意图类别--“其他类”的样本数据,将新的意图类别的样本数据添加至一开始构建的意图语料库,得到优化后的意图语料库,最后利用优化后的意图语料库进行意图识别模型的训练。通过这种方式,可以将知识问答语料和闲聊语料中抽取的若干数据整体作为一个类别,与高频业务的意图语料在意图识别模型的同一个尺度下进行训练,使得训练后的意图识别模型不会将知识问答语料和用户闲聊误判为意图类别。
可选地,基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果,包括:利用训练后的意图识别模型,对所述用户问句进行意图预测,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。
在本发明实施例中,如图3所示,利用训练后的意图识别模型,对用户问句进行意图预测,确定用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。通过这种方式,可以有效减少知识问答语料和闲聊被误判为意图类别的情况发生。
S206:在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。
可选地,对所述用户问句进行文本匹配之前,该方法还包括:根据所述预测结果,判定所述用户问句包含的置信度最高的意图类别的置信度是否大于预设的一级置信度阈值;在所述用户问句包含的置信度最高的意图类别的置信度大于预设的一级置信度阈值的情况下,将所述用户问句包含的置信度最高的意图类别确定为所述用户问句的意图,并将所述意图语料库中与所述置信度最高的意图类别对应的答案确定为所述用户问句的答案。
在本发明实施例中,如图3所示,对用户问句进行文本匹配之前,还需要进行意图筛选,具体为,根据预测结果,用户问句包含的置信度最高的意图类别的置信度是否大于预设的一级置信度阈值(例如但不限于为0.45)。若置信度最高的意图类别的置信度大于0.45的情况下,则返回该意图类别及意图语料库中与其对应的答案。否则将达到二级置信度阈值(例如但不限于为:0.25--0.45)的数据进行保存,并进入下一步流程,即进入文本匹配流程。此外,若用户问句包含的置信度最高的意图类别为优化后的意图语料库中的新的意图类别--“其他类”时,直接进入下一步的文本匹配步骤。
可选地,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度,包括:利用所述文本匹配模型,将所述意图语料库、所述知识问答语料库和所述闲聊语料库的所有文本数据与所述用户问句进行相似度计算,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。
在本发明实施例中,利用训练好的文本匹配模型,将意图语料、问答料库和闲聊语料的所有文本数据与用户问句进行相似度计算,确定与用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。
S208:根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。
可选地,根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案,包括:根据所述各个文本数据对应的相似度,判断所述各个文本数据中是否存在相似度数值达到预设的相似度阈值的候选文本数据;在判断所述各个文本数据中存在相似度数值达到预设的相似度阈值的候选文本数据的情况下,进一步判断所述候选文本数据中是否存在达到预设的二级置信度阈值的意图类别的目标文本数据,若存在则将所述目标文本数据对应的意图和答案确定为所述用户问句对应的意图和答案,若不存在则将相似度数值最高的文本数据对应的意图和答案确定为所述用户问句的意图和答案;在判断所述各个文本数据中不存在相似度数值达到预设的相似度阈值的候选文本数据的情况下,将预设的兜底答案确定为所述用户问句的答案。
在本发明实施例中,可以按照相似度数值的大小对所有文本数据进行逆向排序。进一步地,如图3所示,针对排序后的结果,首先筛选出达到预设的相似度阈值(例如但不限于为:0.7)的文本数据,若其中含有达到二级置信度阈值(例如但不限于为:0.25--0.45)的意图类别的文本数据,则优先返回该文本数据对应的意图和答案,否则仅将达到相似度阈值的Top1文本数据及其对应答案进行返回若没有达到相似度阈值的文本数据,则返回兜底答案。
本发明将知识问答语料、闲聊语料整体归为一个意图类别,与高频业务意图一同用于意图识别模型训练,使得训练后的意图识别模型不会将知识问答语料和用户闲聊误判为意图类别,从而有效减少知识问答语料和闲聊被误判为意图类别的情况发生。本发明利用多阶段模型(意图识别模型和文本匹配模型),以及多级置信度(一级置信度、二级置信度、相似度阈值),对用户问进行匹配和验证,有效提高了匹配准确性。
从而,本发明提出的适用于多场景的智能问答方法,首先建构意图语料库、知识问答语料库和闲聊语料库。然后,基于意图语料库,对用户问句进行意图分类,确定用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。其次,在根据预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于意图语料库、知识问答语料库和闲聊语料库,对用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。最后,根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。本发明将知识问答语料和闲聊语料整体作为一个类别,与高频业务的意图语料在意图识别模型的同一个尺度下进行训练,从而有效减少知识问答语料和闲聊被误判为意图类别的情况发生。本发明利用多阶段模型以及多级置信度,对用户问进行匹配和验证,提高了整体准确性。从而解决了现有技术中存在的知识问答语料和闲聊语句容易被误判为意图类别,导致回答准确率低的技术问题。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图4示出了根据本实施例所述的适用于多场景的智能问答装置400,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:语料库建构模块410,用于建构意图语料库、知识问答语料库和闲聊语料库;意图识别模块420,用于基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果;文本匹配模块430,用于在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度;答案确定模块440,用于根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。
可选地,语料库建构模块410,具体用于:针对业务语料进行意图标准问句、指示标准问句的梳理以及相似问句的扩写,得到意图语料库和知识问答语料库;对闲聊语料进行相似问句的扩写,得到闲聊语料库。
可选地,装置400还包括意图识别模型训练模块,用于:基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,构建意图识别模型和文本匹配模型;从所述知识问答语料库和所述闲聊语料库从抽取预定数量的文本数据,并将抽取出的文本数据作为一个新的意图类别的样本数据;将所述新的意图类别的样本数据添加至所述意图语料库,得到优化后的意图语料库;利用优化后的意图语料库进行意图识别模型的训练。
可选地,意图识别模块420,具体用于:利用训练后的意图识别模型,对所述用户问句进行意图预测,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。
可选地,意图识别模块420,还具体用于:根据所述预测结果,判定所述用户问句包含的置信度最高的意图类别的置信度是否大于预设的一级置信度阈值;在所述用户问句包含的置信度最高的意图类别的置信度大于预设的一级置信度阈值的情况下,将所述用户问句包含的置信度最高的意图类别确定为所述用户问句的意图,并将所述意图语料库中与所述置信度最高的意图类别对应的答案确定为所述用户问句的答案。
可选地,文本匹配模块430,具体用于:利用所述文本匹配模型,将所述意图语料库、所述知识问答语料库和所述闲聊语料库的所有文本数据与所述用户问句进行相似度计算,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。
可选地,答案确定模块440,具体用于:根据所述各个文本数据对应的相似度,判断所述各个文本数据中是否存在相似度数值达到预设的相似度阈值的候选文本数据;在判断所述各个文本数据中存在相似度数值达到预设的相似度阈值的候选文本数据的情况下,进一步判断所述候选文本数据中是否存在达到预设的二级置信度阈值的意图类别的目标文本数据,若存在则将所述目标文本数据对应的意图和答案确定为所述用户问句对应的意图和答案,若不存在则将相似度数值最高的文本数据对应的意图和答案确定为所述用户问句的意图和答案;在判断所述各个文本数据中不存在相似度数值达到预设的相似度阈值的候选文本数据的情况下,将预设的兜底答案确定为所述用户问句的答案。
从而根据本实施例,首先建构意图语料库、知识问答语料库和闲聊语料库。然后,基于意图语料库,对用户问句进行意图分类,确定用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。其次,在根据预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于意图语料库、知识问答语料库和闲聊语料库,对用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。最后,根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。本发明将知识问答语料和闲聊语料整体作为一个类别,与高频业务的意图语料在意图识别模型的同一个尺度下进行训练,从而有效减少知识问答语料和闲聊被误判为意图类别的情况发生。本发明利用多阶段模型以及多级置信度,对用户问进行匹配和验证,提高了整体准确性。从而解决了现有技术中存在的知识问答语料和闲聊语句容易被误判为意图类别,导致回答准确率低的技术问题。
实施例3
图5示出了根据本实施例所述的适用于多场景的智能问答装置500,该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示,该装置500包括:处理器510;以及存储器520,与处理器510连接,用于为处理器510提供处理以下处理步骤的指令:建构意图语料库、知识问答语料库和闲聊语料库;基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果;在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度;根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。
可选地,建构意图语料库、知识问答语料库和闲聊语料库,包括:针对业务语料进行意图标准问句、指示标准问句的梳理以及相似问句的扩写,得到意图语料库和知识问答语料库;对闲聊语料进行相似问句的扩写,得到闲聊语料库。
可选地,存储器520还用于为处理器510提供处理以下处理步骤的指令:基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,构建意图识别模型和文本匹配模型;从所述知识问答语料库和所述闲聊语料库从抽取预定数量的文本数据,并将抽取出的文本数据作为一个新的意图类别的样本数据;将所述新的意图类别的样本数据添加至所述意图语料库,得到优化后的意图语料库;利用优化后的意图语料库进行意图识别模型的训练。
可选地,基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果,包括:利用训练后的意图识别模型,对所述用户问句进行意图预测,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。
可选地,存储器520还用于为处理器510提供处理以下处理步骤的指令:根据所述预测结果,判定所述用户问句包含的置信度最高的意图类别的置信度是否大于预设的一级置信度阈值;在所述用户问句包含的置信度最高的意图类别的置信度大于预设的一级置信度阈值的情况下,将所述用户问句包含的置信度最高的意图类别确定为所述用户问句的意图,并将所述意图语料库中与所述置信度最高的意图类别对应的答案确定为所述用户问句的答案。
可选地,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度,包括:利用所述文本匹配模型,将所述意图语料库、所述知识问答语料库和所述闲聊语料库的所有文本数据与所述用户问句进行相似度计算,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。
可选地,根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案,包括:根据所述各个文本数据对应的相似度,判断所述各个文本数据中是否存在相似度数值达到预设的相似度阈值的候选文本数据;在判断所述各个文本数据中存在相似度数值达到预设的相似度阈值的候选文本数据的情况下,进一步判断所述候选文本数据中是否存在达到预设的二级置信度阈值的意图类别的目标文本数据,若存在则将所述目标文本数据对应的意图和答案确定为所述用户问句对应的意图和答案,若不存在则将相似度数值最高的文本数据对应的意图和答案确定为所述用户问句的意图和答案;在判断所述各个文本数据中不存在相似度数值达到预设的相似度阈值的候选文本数据的情况下,将预设的兜底答案确定为所述用户问句的答案。
从而根据本实施例,首先建构意图语料库、知识问答语料库和闲聊语料库。然后,基于意图语料库,对用户问句进行意图分类,确定用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。其次,在根据预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于意图语料库、知识问答语料库和闲聊语料库,对用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。最后,根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。本发明将知识问答语料和闲聊语料整体作为一个类别,与高频业务的意图语料在意图识别模型的同一个尺度下进行训练,从而有效减少知识问答语料和闲聊被误判为意图类别的情况发生。本发明利用多阶段模型以及多级置信度,对用户问进行匹配和验证,提高了整体准确性。从而解决了现有技术中存在的知识问答语料和闲聊语句容易被误判为意图类别,导致回答准确率低的技术问题。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种适用于多场景的智能问答方法,其特征在于,包括:
建构意图语料库、知识问答语料库和闲聊语料库;
基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果;
在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度;
根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。
2.根据权利要求1所述的方法,其特征在于,建构意图语料库、知识问答语料库和闲聊语料库,包括:
针对业务语料进行意图标准问句、指示标准问句的梳理以及相似问句的扩写,得到意图语料库和知识问答语料库;
对闲聊语料进行相似问句的扩写,得到闲聊语料库。
3.根据权利要求1所述的方法,其特征在于,基于所述意图语料库,对用户问句进行意图分类之前,还包括:
基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,构建意图识别模型和文本匹配模型;
从所述知识问答语料库和所述闲聊语料库从抽取预定数量的文本数据,并将抽取出的文本数据作为一个新的意图类别的样本数据;
将所述新的意图类别的样本数据添加至所述意图语料库,得到优化后的意图语料库;
利用优化后的意图语料库进行意图识别模型的训练。
4.根据权利要求3所述的方法,其特征在于,基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果,包括:
利用训练后的意图识别模型,对所述用户问句进行意图预测,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果。
5.根据权利要求1所述的方法,其特征在于,对所述用户问句进行文本匹配之前,还包括:
根据所述预测结果,判定所述用户问句包含的置信度最高的意图类别的置信度是否大于预设的一级置信度阈值;
在所述用户问句包含的置信度最高的意图类别的置信度大于预设的一级置信度阈值的情况下,将所述用户问句包含的置信度最高的意图类别确定为所述用户问句的意图,并将所述意图语料库中与所述置信度最高的意图类别对应的答案确定为所述用户问句的答案。
6.根据权利要求3所述的方法,其特征在于,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度,包括:
利用所述文本匹配模型,将所述意图语料库、所述知识问答语料库和所述闲聊语料库的所有文本数据与所述用户问句进行相似度计算,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度。
7.根据权利要求6所述的方法,其特征在于,根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案,包括:
根据所述各个文本数据对应的相似度,判断所述各个文本数据中是否存在相似度数值达到预设的相似度阈值的候选文本数据;
在判断所述各个文本数据中存在相似度数值达到预设的相似度阈值的候选文本数据的情况下,进一步判断所述候选文本数据中是否存在达到预设的二级置信度阈值的意图类别的目标文本数据,若存在则将所述目标文本数据对应的意图和答案确定为所述用户问句对应的意图和答案,若不存在则将相似度数值最高的文本数据对应的意图和答案确定为所述用户问句的意图和答案;
在判断所述各个文本数据中不存在相似度数值达到预设的相似度阈值的候选文本数据的情况下,将预设的兜底答案确定为所述用户问句的答案。
8.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至7中任意一项所述的方法。
9.一种适用于多场景的智能问答装置,其特征在于,包括:
语料库建构模块,用于建构意图语料库、知识问答语料库和闲聊语料库;
意图识别模块,用于基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果;
文本匹配模块,用于在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度;
答案确定模块,用于根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。
10.一种适用于多场景的智能问答装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
建构意图语料库、知识问答语料库和闲聊语料库;
基于所述意图语料库,对用户问句进行意图分类,确定所述用户问句包含的所有意图类别以及各个意图类别的置信度的预测结果;
在根据所述预测结果判定所述用户问句包含的所有意图类别的置信度均不大于预设的一级置信度阈值的情况下,基于所述意图语料库、所述知识问答语料库和所述闲聊语料库,对所述用户问句进行文本匹配,确定与所述用户问句相匹配的所有文本数据以及各个文本数据对应的相似度;
根据所述各个文本数据对应的相似度、预设的相似度阈值以及二级置信度阈值,确定所述用户问句的答案。
CN202210852270.XA 2022-07-19 2022-07-19 一种适用于多场景的智能问答方法、装置及存储介质 Pending CN115858741A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210852270.XA CN115858741A (zh) 2022-07-19 2022-07-19 一种适用于多场景的智能问答方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210852270.XA CN115858741A (zh) 2022-07-19 2022-07-19 一种适用于多场景的智能问答方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN115858741A true CN115858741A (zh) 2023-03-28

Family

ID=85660318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210852270.XA Pending CN115858741A (zh) 2022-07-19 2022-07-19 一种适用于多场景的智能问答方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN115858741A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117059074A (zh) * 2023-10-08 2023-11-14 四川蜀天信息技术有限公司 一种基于意图识别的语音交互方法、装置及存储介质
CN117725185A (zh) * 2024-02-06 2024-03-19 河北神玥软件科技股份有限公司 智能对话生成方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117059074A (zh) * 2023-10-08 2023-11-14 四川蜀天信息技术有限公司 一种基于意图识别的语音交互方法、装置及存储介质
CN117059074B (zh) * 2023-10-08 2024-01-19 四川蜀天信息技术有限公司 一种基于意图识别的语音交互方法、装置及存储介质
CN117725185A (zh) * 2024-02-06 2024-03-19 河北神玥软件科技股份有限公司 智能对话生成方法及系统
CN117725185B (zh) * 2024-02-06 2024-05-07 河北神玥软件科技股份有限公司 智能对话生成方法及系统

Similar Documents

Publication Publication Date Title
CN115858741A (zh) 一种适用于多场景的智能问答方法、装置及存储介质
CN106649612B (zh) 一种自动问答模板匹配的方法及装置
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN112380853B (zh) 业务场景交互方法、装置、终端设备及存储介质
CN111310440A (zh) 文本的纠错方法、装置和系统
CN111552767A (zh) 搜索方法、搜索装置以及计算机设备
CN112783825B (zh) 数据归档方法、装置、计算机装置及存储介质
CN113127621A (zh) 对话模块的推送方法、装置、设备及存储介质
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
CN111027316A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN115481222A (zh) 语义向量提取模型的训练及语义向量表示方法、装置
CN110929519B (zh) 实体属性抽取方法及装置
CN110929526A (zh) 样本生成方法、装置以及电子设备
CN110598112A (zh) 一种题目推荐方法、装置、终端设备及存储介质
CN111274813A (zh) 语言序列标注方法、装置存储介质及计算机设备
CN110956034B (zh) 词语的获取方法及装置、商品搜索方法
EP4006747A1 (en) Speech information processing method and device, storage medium, and electronic device
CN111401083B (zh) 名称的识别方法及装置、存储介质和处理器
CN111694962A (zh) 数据处理方法和装置
CN113127611B (zh) 对问句语料进行处理的方法、装置以及存储介质
CN115861606B (zh) 一种针对长尾分布文档的分类方法、装置及存储介质
CN116757203B (zh) 一种自然语言匹配方法、装置、计算机设备及存储介质
CN115033701B (zh) 文本向量生成模型训练方法、文本分类方法及相关装置
CN115858722A (zh) 一种文本匹配方法、装置及存储介质
CN112818127A (zh) 一种检测知识库中的语料冲突的方法、装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination