CN116010574A - 智能对话处理的方法、云服务器及可读存储介质 - Google Patents

智能对话处理的方法、云服务器及可读存储介质 Download PDF

Info

Publication number
CN116010574A
CN116010574A CN202310038159.1A CN202310038159A CN116010574A CN 116010574 A CN116010574 A CN 116010574A CN 202310038159 A CN202310038159 A CN 202310038159A CN 116010574 A CN116010574 A CN 116010574A
Authority
CN
China
Prior art keywords
knowledge
information
question
dialogue
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310038159.1A
Other languages
English (en)
Inventor
陈高杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202310038159.1A priority Critical patent/CN116010574A/zh
Publication of CN116010574A publication Critical patent/CN116010574A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种智能对话处理的方法、云服务器及可读存储介质。本申请的方法,通过将提问对象的多种来源的知识信息进行知识结构化,形成包含问题答案信息对和问题向量的优质的对话知识,建立智能对话知识库,能更全面地解决用户问题;在知识检索阶段,根据用户输入的问题文本及问题文本的文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,根据多路检索结果,确定与问题文本相匹配的对话知识,将与问题文本相匹配的对话知识中的答案信息,作为问题文本的答案信息,输出答案信息,基于问题文本和问题向量的多路检索方式,可以快速检索到高质量的答案信息,大大提升知识检索的效率,提升智能客服的对话质量。

Description

智能对话处理的方法、云服务器及可读存储介质
技术领域
本申请涉及计算机技术,尤其涉及一种智能对话处理的方法、云服务器及可读存储介质。
背景技术
在用户与智能客服机器人的全自动对话流程中,会存在机器人无法回答问题或回复答案无法全面解决用户问题的情况。
在一些智能客服机器人实现方案中,基于商品评论、商品说明书、历史问答知识等多种来源的知识信息,在线上知识检索阶段,通过机器问答模型预测用户输入问题与每一知识信息间的相关性,来选择与用户输入问题相关性高的知识信息作为答案信息,知识检索的耗时高、效率低,并且不同来源的知识使用同一机器问答模型预测问题与知识的相关性,预测精度不准确,导致检索到的答案信息的质量较低,无法很好地解决用户问题。
发明内容
本申请提供一种智能对话处理的方法、云服务器及可读存储介质,用以解决现有的智能客服系统向用户反馈的答案信息的质量较低,无法很好地解决用户问题的问题。
一方面,本申请提供一种智能对话处理方法,包括:
获取输入的问题文本,将所述问题文本表征为文本向量;
根据所述问题文本和所述文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,其中所述多路检索结果包含至少一条对话知识,所述对话知识包括问题、问题对应的答案信息和问题向量;
根据所述多路检索结果,确定与所述问题文本相匹配的对话知识;
将与所述问题文本相匹配的对话知识中的答案信息,作为所述问题文本的答案信息,输出所述答案信息。
另一方面,本申请提供一种云服务器,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现上述所述的智能对话处理方法。
另一方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述所述的智能对话处理方法。
本申请提供的智能对话处理的方法、云服务器及可读存储介质,通过基于预先构建的智能对话知识库,该智能对话知识库中的对话知识包含问题、问题对应的答案信息和问题向量,在知识检索阶段,根据用户输入的问题文本,以及问题文本的文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,根据多路检索结果,确定与问题文本相匹配的对话知识,将与问题文本相匹配的对话知识中的答案信息,作为问题文本的答案信息,输出答案信息,基于问题文本和问题向量的多路检索方式,可以快速检索到高质量的答案信息,大大提升知识检索的效率,提升智能对话的质量。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请所适用的一种示例性的智能客服系统架构图;
图2为本申请一示例性实施例提供的智能对话处理方法流程图;
图3为本申请一示例性实施例提供的建立智能对话知识库的方法流程图;
图4为本申请另一示例性实施例提供的智能对话处理方法流程图;
图5为本申请提供的一种智能对话处理方法的框架示意图;
图6为本申请一示例性实施例提供的智能对话处理装置的结构示意图;
图7为本申请另一示例性实施例提供的智能对话处理装置的结构示意图;
图8为本申请实施例提供的一种云服务器的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
首先对本申请所涉及的名词进行解释:
知识挖掘:通过挖掘算法从大量冗杂的原始文本挖掘出高质量、有价值的知识。
知识检索:将知识基于一定的组织形式进行存储,并通过相对应的检索算法按照用户的查询问题找到相关的知识。
在用户与对话机器人(如智能客服机器人)的全自动对话流程中,会存在机器人无法回答问题或回复答案无法全面解决用户问题的情况。为了解决这一问题,在一些智能客服机器人实现方案中,基于商品评论、商品说明书、历史问答知识等多种来源的知识信息,进行用户问题与多源的知识信息的相似度匹配,以获取用户问题的答案信息。
这些方案中,虽然检索库中包含多源的知识信息,扩展了知识信息的覆盖面,但是在线上知识检索阶段,通过机器问答模型预测用户输入问题与每一知识信息间的相关性,来选择与用户输入问题相关性高的知识信息作为答案信息,知识检索的耗时高、效率低,并且不同来源的知识使用同一机器问答模型预测问题与知识的相关性,预测精度不准确,导致检索到的答案信息的质量较低,无法很好地解决用户问题。
针对在用户与智能客服的全自动对话流程中,存在机器人无法回答问题或回复答案无法全面解决用户问题的情况,本申请提供一种智能对话处理方法,通过统一的知识挖掘链路进行知识结构化,将来自提问对象(如商品)的属性信息、评论信息、历史对话信息等多种来源的知识信息进行结构统一,形成具有统一结构且包含问题答案信息对和问题向量的对话知识,构建智能对话知识库,使得智能对话知识库中包含对多种来源的知识信息进行统一挖掘得到的优质的对话知识,能够更好更全面地覆盖用户问题的答案。在线上知识检索阶段,通过将输入的问题文本表征为文本向量,根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,多路检索结果包含至少一条对话知识,进一步地根据多路检索结果,确定与问题文本相匹配的对话知识,将与问题文本相匹配的对话知识中的答案信息,作为输入的问题文本的答案信息,输出答案信息,基于文本和向量的多路检索方式,大大提升了知识检索的效率,可以快速检索到高质量的答案信息,能够更好更全面的解决用户问题,提升智能对话的质量,缓解人工客服的需求。
本申请提供的智能对话处理方法可以应用于各种具体使用场景的智能客服系统或智能客服机器人,包括但不限于应用于电子商务平台的智能客服机器人、应用于金融机构的智能客服机器人、应用于各网络运营商的智能客服机器人等,本实施例此处不再一一列举。
图1为本申请所适用的一种示例性的智能客服系统架构图,如图1所示,该系统架构具体可包括云服务器以及终端设备。
其中,云服务器具体可为设置在云端的服务器集群,云服务器与各个终端设备间具有可通信的通信链路,能够实现云服务器与各个终端设备间的通信连接。
终端设备具体可以为各个用户所使用的具有网络通信功能、运算功能以及信息显示功能的硬件设备,其包括但不限于智能手机、平板电脑、台式电脑、物联网设备等。
用户通过所使用的终端设备与云服务器进行交互,实现智能客服系统的功能。具体地,用户可通过所使用的终端设备向云服务器提交输入的问题文本。云服务器接收终端设备发送的用户输入的问题文本,将问题文本表征为文本向量,并根据问题文本和文本向量,在预先构建的智能对话知识库中进行对话知识的多路检索,通过多路检索的方式获得多路包含对话知识的检索结果。根据多路检索结果,确定与问题文本匹配度高的对话知识,作为与输入的问题文本相匹配的对话知识,并将该对话知识中的答案信息作为输入的问题文本的答案信息,输出至终端设备。终端设备将云服务器返回的答案信息进行显示,以向用户输出答案信息。
另外,云服务器还可以基于智能客服系统中已有的用户问题,以及提问对象的多种来源的知识信息,如提问对象(如物品)的属性信息、评论信息、历史对话信息等,进行知识挖掘,将多种不同来源的知识信息进行结构化,形成具有统一结构的高质量的对话知识,构建智能对话知识库,该智能对话知识库能够更好更全面地覆盖用户问题的答案。另外,云服务器还可以建立包含提问对象(如物品)、商家、问题、答案信息、问题向量等信息的索引,以提高知识检索的效率。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图2为本申请一示例性实施例提供的智能对话处理方法流程图。本实施例的执行主体为上述提及的云服务器。如图2所示,该方法具体步骤如下:
步骤S201、获取输入的问题文本,将问题文本表征为文本向量。
其中,输入的问题文本是指在智能客服系统中,用户向智能客服系统提出的问题的文本信息。输入的问题文本具体可以是用户通过终端设备提供的交换界面直接输入的问题文本,也可以是用户输入的问题语音转换得到的文本信息。
在获取到输入的问题文本之后,云服务器将问题文本表征为文本向量,以基于文本向量在智能对话知识库中进行对话知识的向量检索,得到一路检索结果。
其中,将问题文本表征为对应的文本向量,可以将输入的问题文本输入预训练的文本表征模型进行表征,得到对应的文本向量,或者可以使用现有技术中其他任意一种可以将问题文本表征为文本向量的方案实现,本实施例此处不做具体限定。
步骤S202、根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,其中多路检索结果包含至少一条对话知识,对话知识包括问题、问题对应的答案信息和问题向量。
其中,智能对话知识库是指预先建立的检索库,包括多条对话知识,每条对话知识包括问题答案信息对和问题向量,问题答案信息对包含问题及问题对应的答案信息,问题向量是对问题答案信息对中的问题进行表征得到的,与问题答案信息对相对应。智能对话知识库的具体建立流程在后续实施例中进行详细地说明。
本实施例中,基于输入的问题文本,和问题文本的文本向量,在预先建立的智能对话知识库中进行对话知识的多路检索,不同路检索对应不同的检索方式,各路检索结果包含基于不同检索方式检索到的至少一条对话知识。
示例性地,在智能对话知识库中进行的对话知识的多路检索,至少可包括基于问题文本与对话知识中问题的文本检索、基于文本向量与对话知识中问题向量的向量检索。
可选地,在智能对话知识库中进行的对话知识的多路检索,还可以包括将输入的问题文本与对话知识中的答案信息进行文本匹配,以实现基于问题文本与对话知识中答案信息的文本检索,得到一路检索结果。
可选地,智能对话知识库中的对话知识还可以包括问题对应的其他特征信息,例如意图信息。在智能对话知识库中进行的对话知识的多路检索,还可以包括基于输入的问题文本对应的特征信息,与对话知识中的对应特征信息进行匹配,得到一路检索结果。
示例性地,智能对话知识库中的对话知识还可以包括问题对应的意图信息,在智能对话知识库中进行的对话知识的多路检索,还可以包括基于输入的问题文本对应的意图信息,与对话知识中的意图信息进行匹配,实现意图检索,得到一路基于意图信息的检索结果。
步骤S203、根据多路检索结果,确定与问题文本相匹配的对话知识。
在得到多路检索结果之后,若多路检索结果包含一条对话知识,则可以直接将该对话知识作为与问题文本相匹配的对话知识。若多路检索结果包含多条对话知识,则根据各路检索结果包含的对话知识,从中选择一个与问题文本相匹配的对话知识。
需要说明的是,不一定每一路检索结果都包含对话知识,多路检索结果召回至少一条对话知识。
示例性地,可以使用精准度较高的机器问答模型,预测各路检索结果中每一对话知识与输入的问题文本间的匹配度,根据与输入的问题文本间的匹配度,选择匹配度较高的一个对话知识作为与问题文本相匹配的对话知识。其中,机器问答模型可以是预训练的能够精准预测用户问题与知识间匹配度的机器学习模型。例如,预训练的应用于问题答案(QA)匹配的BERT模型,该BERT模型的骨干网络的编码层的层数较多,可以较高精度的预测问题答案的匹配度。例如,该BERT模型的骨干网络可以包含12层编码层(Transformer层)。
可选地,在得到多路检索结果之后,还可以将各路检索结果包含的对话知识中的答案信息进行拼接,得到一个知识段落,使用抽取式的机器阅读理解模型,从知识段落中抽取输入问题文本的答案信息,该答案信息为知识段落中的文本片段。
步骤S204、将与问题文本相匹配的对话知识中的答案信息,作为问题文本的答案信息,输出答案信息。
在确定与问题文本相匹配的对话知识之后,云服务器将与问题文本相匹配的对话知识中的答案信息,作为问题文本的答案信息,将该答案信息输出至终端设备。
在一种可能场景中,智能客服系统提供可视化的交互界面,用户通过该交互界面输入问题文本,终端设备通过该交互界面输出答案信息。
在另一种可能场景中,用户与智能对话机器人进行语音交互,云服务器在得到问题文本的答案信息之后,将该答案信息转换为对应音频数据,将该音频数据发送至终端设备,终端设备通过播放该音频数据,将答案信息输出给用户。本实施例中对于答案信息的具体输出方式不做具体限定。
本实施例中,基于预先构建的智能对话知识库,该智能对话知识库中的对话知识包含问题、问题对应的答案信息和问题向量,在知识检索阶段,根据用户输入的问题文本,以及问题文本的文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,根据多路检索结果,确定与问题文本相匹配的对话知识,将与问题文本相匹配的对话知识中的答案信息,作为问题文本的答案信息,输出答案信息,基于问题文本和问题向量的多路检索方式,可以快速检索到高质量的答案信息,大大提升知识检索的效率,提升智能对话的质量。
图3为本申请一示例性实施例提供的建立智能对话知识库的方法流程图。云服务器通过获取智能客服系统中已有的用户问题,以及提问对象的多种来源的知识信息,根据已有的用户问题和提问对象的多种来源的知识信息,通过统一的知识挖掘进行知识结构化,将来自提问对象的多种来源的知识信息进行结构统一,形成具有统一结构的包含问题答案信息对和问题向量的优质的对话知识,建立包含对话知识的智能对话知识库。该智能对话知识库中的对话知识能更好更全面地覆盖用户问题的答案,基于该智能对话知识库能够全面解决用户问题,从而能够为用户提供更优质的问答服务能力。
如图3所示,建立智能对话知识库的具体步骤如下:
步骤S301、获取智能客服系统中提问对象相关的多种来源的原始数据。
本实施例中,智能客服系统中的提问对象是指系统中可以作为用户问题的对象的物体,例如,智能客服系统中作为商品的各类物品、服务、资源等。
其中,提问对象相关的多种来源的原始数据,可以包括如下至少一种:提问对象的属性信息、提问对象的评论数据、历史对话数据。
其中,提问对象的属性信息包括描述提问对象的各类属性的文本信息,例如,商品的尺码、颜色、适用人群说明、使用方法说明等。
提问对象的评论数据包括与用户对提问对象的历史评论内容,例如,已购买商品的用户对该商品的功能、效果、适用人群等的评论内容。
历史对话数据包括智能客服系统在一个历史时段内产生的历史对话数据,该历史时段可以根据实际应用场景的需要进行设置和调整,此处不做具体限定。另外,为了提高知识信息的质量,可以使用人工客服的历史对话数据,使得基于人工客服的历史对话数据挖掘得到的知识信息,可以更好地解决用户问题。
步骤S302、对多种来源的原始数据进行数据清洗,保留不包含预设无效信息的原始数据。
其中,预设无效信息可以包括如下至少一种:乱码的信息、特殊字符、链接信息、定义的话术模板。预设无效信息可以根据具体应用场景进行设置和调整,本实施例此处不做具体限定。
本实施例中,对于智能客服系统中多种来源的原始数据,通过数据清洗,去除包含预设无效信息(或噪声数据)的数据,仅保留有效的数据。
具体地,该步骤中可以将包含至少一种预设无效信息的数据清洗掉,仅保留不包含预设无效信息的原始数据。
需要说明的是,在进行数据清洗时,对于不同来源的原始数据,清洗粒度可以不同。例如,对于同一商品的多条评论数据,以每一条评论作为数据清洗对象,将该商品的包含预设无效信息的评论清洗掉,保留该商品的不包含预设无效信息的评论。对于人工客服的历史对话数据中同一次会话的多轮对话内容,以用户的每一次提问的问题、人工客服的每一条答复作为数据清洗对象,将包含预设无效信息的答复清洗掉,将包含预设无效信息的问题清洗掉。可选地,在清洗掉一个用户问题时,还可以将针对该用户问题的答复信息也清除掉。另外,对于不同来源的原始数据,可以使用不同的数据清洗规则进行数据清洗,具体数据清洗规则可以根据不同来源的数据的内容特点进行设计和设置,此处不做具体限定。
步骤S303、对于保留的不同来源的原始数据,按照对应的整合规则进行整合,得到提问对象的多种来源的知识信息。
在实际应用中,各种来源的原始数据通常为非结构化的文本,例如,商品的评论数据、历史对话数据等,没有统一的格式和结构。本实施例中,针对不同来源的原始数据,可以使用不同的整合规则进行整合,得到对应的知识信息。由于不同来源的原始数据的格式和结构不统一,可以根据不同的来源分别设置不同的整合规则,具体各种来源的整合规则可以根据实际应用场景中各来源的数据的格式和结构特点进行设计,此处不做具体限定。
示例性地,对于提问对象的属性信息,整合规则可以为:将每一提问对象的每条属性信息作为一条知识信息。
示例性地,对于提问对象的评论数据,整合规则可以为:将同一提问对象的评论数据按照预设规则拼接,生成该提问对象的至少一条知识信息;或者,还可以将每一提问对象的每条评论数据作为一条知识信息。
示例性地,对于历史对话数据,整合规则可以为:根据历史对话数据包含的用户问题和答复信息,生成至少一个问题答案信息对,每一问题答案信息对为一条知识信息。
例如,可以根据历史对话数据中的用户问题对历史对话数据进行划分,得到多个会话片段,每一个会话片段包含一个用户问题以及该用户问题后面跟随的一条或多条答复信息。根据每个用户问题及用户问题的对应的一条或多条答复信息,生成一个问题答案信息对。若一个用户问题后面跟随多条答复信息,则可以将多条答复信息拼接起来作为用户问题的答案,生成问题答案信息对。
通过上述步骤S301-S303,通过获取智能客服系统中提问对象相关的多种来源的原始数据,对多种来源的原始数据进行数据清洗和整合,得到提问对象的多种来源的优质的知识信息,这些知识信息可以较全面地覆盖提问对象的各类信息,从而可以较全面地解决用户问题。
通过上述步骤得到的多源的知识信息,有的是问题答案信息对,有的不包含用户问题。下面通过步骤S304-S305,为每条知识信息匹配对应的用户问题,从而基于每条知识信息及对应的用户问题生成问题答案信息对,从将多源的知识信息统一结构化为问题答案信息对。
步骤S304、将提问对象的多种来源的知识信息与用户问题进行匹配,确定知识信息5对应的用户问题。
该步骤中,对于包含用户问题的知识信息,例如基于历史对话数据得到的知识信息为问题答案信息对,包含用户问题,则直接将包含的用户问题作为知识信息对应的用户问题。对于不包含用户问题的知识信息,例如,基于提问对象的属性信息、评论数据得到的知识
信息,不包含用户问题,则在已知的用户问题中为不包含用户问题的知识信息匹配一个用0户问题。
具体地,对于多种来源的知识信息中的任一知识信息,若该知识信息包含用户问题,则将知识信息包含的用户问题作为与知识信息对应的用户问题。若知识信息不包含用户问题,则使用第二机器问答模型,预测知识信息与已有的用户问题的相关度信息,并根据相关度信息,确定知识信息对应的用户问题。
5其中,第二机器问答模型使用预训练的应用于问题答案(QA)匹配的BERT模型,
该BERT模型的骨干网络的编码层的层数较少,可以较准确且快速地预测问题答案的相关度信息,但是预测的精度不用很高。例如,该BERT模型的骨干网络可以包含3层编码层(Transformer层)。这样可以缩短BERT模型的推理时间,从而可以快速地为大量知识信息确定具有一定相关度(较低匹配度)的用户问题。
0步骤S305、根据知识信息对应的用户问题的答案信息,生成问题答案信息对。
在确定每条知识信息对应的用户问题之后,根据每条知识信息与知识信息对应的用户问题,生成一个问题答案信息对,得到提问对象相关的多源的问题答案信息对。
具体地,对于任意一条知识信息,若该知识信息包含用户问题,则将该知识信息是问
题答案信息对的格式,该条知识信息即为一个问题答案信息对。若该知识信息不包含用户5问题,则将该知识信息对应的用户问题与该知识信息组成一个问题答案信息对。
通过上述步骤S301-S305,通过统一的知识挖掘进行知识结构化,将来自提问对象的多种来源的知识信息进行结构统一,形成了结构化的问题答案信息对,这些问题答案信息对可以较全面地覆盖智能客服场景中绝大多数的用户问题和答案信息。
步骤S306、对问题答案信息对进行优化处理。
0该步骤为可选步骤。本实施例中,可以对得到的问题答案信息对进行优化处理,以提
升问题答案信息对的质量。
示例性地,该步骤中可以对问题答案信息对进行至少一项优化处理:精炼问题答案信息对中的答案信息、过滤掉较低匹配度的问题答案信息对、过滤掉不满足健康文明表述条件的问题答案信息对。
5具体地,在实现精炼问题答案信息对中的答案信息时,使用预训练的抽取式的机器阅读理解模型,对问题答案信息对中的答案信息进行优化。具体地,对于任一问题答案信息对,将问题答案信息对输入抽取式的机器阅读理解模型,通过该机器阅读理解模型,针对该问题答案信息对中的问题,从该问题答案信息对中的答案信息中,抽取更适合作为问题的答案的信息片段,作为该问题的优化后的答案信息,从而精炼问题答案信息对的答案信息,得到更加优质的问题答案信息对。
其中,抽取式的机器阅读理解模型可以是预训练的用于抽取式问答任务的机器阅读理解(Machine Reading Comprehension,MRC)模型,用于从给定文本中抽取给定问题的答案信息。
具体地,在实现过滤掉较低匹配度的问题答案信息对时,可以使用第三机器问答模型,确定问题答案信息对中问题与答案信息的匹配度,过滤掉匹配度小于或等于预设匹配度阈值的问题答案信息对。其中,第三机器问答模型可以是预训练的能够精准预测用户问题与知识间匹配度的机器学习模型。例如,预训练的应用于问题答案(QA)匹配的BERT模型,该BERT模型的骨干网络的编码层的层数较多,可以较高精度的预测问题答案的匹配度。例如,该BERT模型的骨干网络可以包含12层或24层编码层(Transformer层)。预设匹配度阈值可以根据实际应用场景和经验值进行设置和调整,此处不做具体限定。
具体地,在实现过滤掉不满足健康文明表述条件的问题答案信息对时,判断问题答案信息对是否满足健康文明表述条件,过滤掉不满足健康文明表述条件的问题答案信息对。
示例性地,健康文明表述条件包括如下至少一项:对应情绪类别不属于负面情绪、不包含预设的不健康信息、不包含预设的不文明信息。具体地,通过对问题答案对中的答案信息进行情绪类别识别、不文明信息识别、不健康信息识别,根据识别结果,判断问题答案信息对是否满足预设的健康文明表述条件。其中,健康文明表述条件及各个条件中的预设信息,可以根据实际应用场景中的历史数据和经验进行设置和调整,此次不做具体限定。
步骤S307、将问题答案信息对中的问题表征为问题向量,生成包含问题答案信息对和问题向量的对话知识,建立包含对话知识的智能对话知识库。
为了支持基于问题文本和问题向量的多路检索,本实施例中,将问题答案信息对中的问题表征为问题向量,并生成包含问题答案信息对和问题向量的对话知识,并构建包含所有对话知识的智能对话知识库。
示例性地,可以根据每一问题答案信息对包含的问题和答案信息,以及问题的问题向量,生成形如“问题-答案信息-问题向量”结构的对话知识,得到具有统一结构的对话知识。另外,还可以生成形如“问题向量-问题-答案信息”结构的对话知识,得到具有统一结构的对话知识。每条对话知识包含问题、问题对应的答案信息和问题的问题向量,本实施例对于对话知识的具体结构不做具体限定。
通过上述步骤S304-S307,根据已有的用户问题和提问对象的多种来源的知识信息,通过统一的知识挖掘进行知识结构化,将提问对象相关的多种来源的知识信息,结构化为包含问题答案信息对及问题向量的对话知识,并建立智能对话知识库,扩充了进行知识检索的知识信息的来源,使得智能对话知识库中的对话知识可以较全面地覆盖智能客服场景中绝大多数的用户问题和答案信息,可以为用户提供更全面、更优质、更精准的知识信息,更好更全面的解决用户问题,提升智能客服机器人对话的质量,缓解人工客服的需求,提升用户购买意愿和满意度。
步骤S308、建立智能对话知识库的索引。
本实施例中,还可以根据对话知识中的关键信息,建立智能对话知识库的索引,以提高基于智能对话知识库的知识检索的效率。
可选地,该步骤中可以基于对话知识中的问题和问题的问题向量,建立智能对话知识库的索引。
可选地,该步骤中可以基于对话知识中的问题和答案信息、问题的问题向量,建立智能对话知识库的索引。
可选地,该步骤中还可以获取问题答案信息对关联的提问对象信息、商家信息、意图信息中的至少一项;基于问题答案信息对关联的提问对象信息、商家信息、意图信息中的至少一项,以及问题答案信息对中的问题和答案信息、问题的问题向量,建立智能对话知识库的索引。
示例性地,可以根据问题答案信息对关联的提问对象信息、商家信息、意图信息,以及问题答案信息对中的问题和答案信息、问题的问题向量,构建索引。
例如,构建完的智能对话知识库,根据预设的数据结构,如“商家信息-提问对象信息-问题-答案信息-问题向量-意图信息”进行ES(Elasticsearch)索引构建,得到ES索引知识库。基于该ES索引知识库,可以针对用户输入的问题,基于问题文本和问题的文本向量,通过文本检索、向量检索(向量相似度匹配)等检索方式,进行多路检索,并根据多路检索结果确定与输入的问题向匹配的对话知识的答案信息,从而可以更快、更精准地答复用户问题,提高智能客服的对话质量。
本实施例中,云服务器根据已有的用户问题和提问对象的多种来源的知识信息,通过统一的知识挖掘进行知识结构化,将提问对象相关的多种来源的知识信息,结构化为包含问题答案信息对及问题向量的对话知识,并建立智能对话知识库,扩充了进行知识检索的知识信息的来源,使得智能对话知识库中的对话知识可以较全面地覆盖智能客服场景中绝大多数的用户问题和答案信息,可以为用户提供更全面、更优质、更精准的知识信息,更好更全面的解决用户问题;进一步地,通过建立对话知识中关键信息的索引,可以提升知识检索的速度,从而可以更快、更精准地答复用户问题,提升智能客服机器人对话的质量,缓解人工客服的需求,提升用户购买意愿和满意度。
下面对基于预先建立的智能对话知识库及索引,进行智能对话的知识检索的方法流程进行详细地说明。本实施例提供的智能对话处理方法,基于前述实施例所构建的智能对话知识库及索引,实现针对输入的问题文本的知识检索,以快速、精准地检索到问题文本对应的答案信息。
在一可选实施例中,根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,至少包括:基于问题文本的文本向量和智能对话知识库中对话知识的问题向量的向量检索、基于问题文本与智能对话知识库中的问题的文本检索。通过两种不同的检索方式进行多路检索,得到两路检索结果,其中一路检索结果包含通过一种检索方式检索得到的至少一条对话知识。
图4为本申请实施例提供的智能对话处理方法流程图,图4中以多路检索包括向量检索、文本检索这两路检索为例,对智能对话的知识检索的流程进行示例性地说明。如图4所示,该智能对话处理方法的具体步骤如下:
步骤S401、接收输入的问题文本,将问题文本表征为文本向量。
其中,输入的问题文本是指在智能客服系统中,用户向智能客服系统提出的问题的文本信息。输入的问题文本具体可以是用户通过终端设备提供的交换界面直接输入的问题文本,也可以是用户输入的问题语音转换得到的文本信息。
在获取到输入的问题文本之后,云服务器将问题文本表征为文本向量,以基于文本向量在智能对话知识库中进行对话知识的向量检索,得到一路检索结果。
其中,将问题文本表征为对应的文本向量,可以将输入的问题文本输入预训练的文本表征模型进行表征,得到对应的文本向量,或者可以使用现有技术中其他任意一种可以将问题文本表征为文本向量的方案实现,本实施例此处不做具体限定。
步骤S402、将文本向量与智能对话知识库中对话知识的问题向量进行向量相似度匹配,得到第一路检索结果。
本实施例中,根据文本向量进行的一路检索,具体通过计算输入的问题文本的文本向量与智能对话知识库中各个对话知识的问题向量间的相似度,根据计算得到的向量相似度,确定包含的问题与问题文本的文本向量的相似度较高的对话知识,得到第一路检索结果。
可选地,根据计算得到的向量相似度,召回向量相似度大于或等于预设向量相似度阈值的对话知识,得到第一路检索结果。这种实施方式中,第一路检索结果可以不包含任何对话知识,也可包含一个或者多个对话知识。其中,预设向量相似度阈值可以根据实际应用场景和经验值进行设置和调整,此处不做具体限定。
可选地,还可以根据计算得到的向量相似度,召回第一预设数量的对话知识,得到第一路检索结果。其中,第一预设数量为正整数,例如,第一预设数量可以为1、3、5等,第一预设数量的值可以根据实际应用场景和经验值进行设置和调整,此处不做具体限定。这种实施方式中,第一路检索结果可以包括至少一条对话知识。
其中,输入的问题文本的文本向量与对话知识的问题向量间的相似度,可以是两个向量的余弦相似度。另外,输入的问题文本的文本向量与对话知识的问题向量间的相似度,还可以是其他常用于衡量两个文本向量对应文本间的语义相关性的其他的向量间相似度或距离指标,如欧式距离等,本实施例此处不做具体限定。
步骤S403、将问题文本与智能对话知识库中的答案信息进行的文本相似度匹配,得到第二路检索结果。
本实施例中,根据问题文本进行的一路检索,具体通过将问题文本与智能对话知识库中对话知识中的答案信息进行文本相似度匹配,根据问题文本与对话知识中的答案信息间的文本相似度,确定答案信息与问题文本的文本相似度较高的对话知识,得到第二路检索结果。
可选地,根据问题文本与对话知识中的答案信息间的文本相似度,召回答案信息与问题文本的文本相似度大于或等于预设第一文本相似度阈值的对话知识,得到第二路检索结果。这种实施方式中,第二路检索结果可以不包含任何对话知识,也可包含一个或者多个对话知识。其中,预设第一文本相似度阈值可以根据实际应用场景和经验值进行设置和调整,此处不做具体限定。
可选地,还可以根据问题文本与对话知识中的答案信息间的文本相似度,召回第二预设数量的对话知识,得到第二路检索结果。其中,第二预设数量为正整数,第二预设数量与第一预设数量可以相等也可以不相等。例如,第二预设数量可以为1、3、5等,第一预设数量的值可以根据实际应用场景和经验值进行设置和调整,此处不做具体限定。这种实施方式中,第二路检索结果可以包括至少一条对话知识。
该步骤具体可以采用基于词频的文本匹配算法实现,例如基于TF-IDF(TermFrequency-Inverse Document Frequency,词频-逆文件频率)的文本匹配算法、或者BM25算法实现。TF-IDF算法和BM25算法是较主流的计算用户查询信息(query)与文档相似度得分的算法,本实施例用于计算用户输入的问题文本与对话知识中答案信息之间的相似度。
在一可选实施例中,还可以将输入的问题文本与智能对话知识库中对话知识的问题进行文本相似度匹配,得到另一路检索结果。具体可以使用TF-IDF算法、BM25算法、或其他类似的算法,计算输入的问题文本与对话知识中的问题间的文本相似度。
在一可选实施例中,所构建智能对话知识库中的对话知识还包括问题对应的意图信息。根据问题文本进行对话知识的多路检索,还包括:
识别问题文本对应的意图信息;将问题文本对应的意图信息与智能对话知识库中对话知识包含的意图信息进行匹配,得到第三路检索结果。
具体地,可以将输入的问题文本输入预训练的意图识别模型进行意图识别,得到问题文本对应的意图信息。其中,意图识别模型为基于大量训练预料训练得到的,用于识别输入文本对应的意图信息的机器学习模型。
进一步地,根据问题文本对应的意图信息,在智能对话知识库中检索包含相同意图信息的对话知识,得到第三路检索结果。第三路检索结果可能不包含任一对话知识,也可能包含一条或者多条对话知识。
另外,若所构建智能对话知识库中的对话知识还包括问题对应的其他特征信息,在智能对话知识库中进行的对话知识的多路检索时,还可以基于输入的问题文本对应的特征信息,与对话知识中的相应特征信息进行匹配,得到另一路检索结果。
在一可选实施例中,还可以为多路检索设置限制条件,在进行各路检索时,召回满足限制条件的对话知识,得到检索结果。
具体地,所构建的智能对话知识库中的对话知识还可以包括:问题关联的提问对象信息和商家信息。其中,部分对话知识中问题不具有关联的提问对象信息和/或商家信息,该对话知识中的提问对象信息和/或商家信息可以为空值或预设值,用该预设值表示该项信息。在实现根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果时,云服务器获取问题文本关联的目标对象信息和/或目标商家信息,根据问题文本和文本向量,以及目标对象信息和/或目标商家信息,在智能对话知识库中进行对话知识的多路检索,得到与目标对象信息和/或目标商家关联的多路检索结果。
示例性地,所构建的智能对话知识库中的对话知识包括问题关联的提问对象信息。在实现根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果时,云服务器获取问题文本关联的目标对象信息,根据问题文本和文本向量,以及目标对象信息,在智能对话知识库中进行对话知识的多路检索,召回对话知识中问题关联的提问对象信息与该目标对象信息一致的对话知识,得到与目标对象信息关联的多路检索结果。
示例性地,所构建的智能对话知识库中的对话知识包括问题关联的商家信息。在实现根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果时,云服务器获取问题文本关联的目标商家信息,根据问题文本和文本向量,以及关联的目标商家信息,在智能对话知识库中进行对话知识的多路检索,召回对话知识中问题关联的商家信息与该目标商家信息一致的对话知识,得到与目标商家信息关联的多路检索结果。
示例性地,所构建的智能对话知识库中的对话知识包括问题关联的提问对象信息和商家信息。在实现根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果时,云服务器获取问题文本关联的目标对象信息和目标商家信息,根据问题文本和文本向量,以及目标对象信息和目标商家信息,在智能对话知识库中进行对话知识的多路检索,召回对话知识中问题关联的提问对象信息与该目标对象信息一致、并且问题关联的商家信息与该目标商家信息一致的对话知识,得到与目标对象信息和目标商家信息关联的多路检索结果。
其中,问题关联的提问对象信息是指问题针对的提问对象的信息。例如,用户针对某一商品提出问题时,问题关联的提问对象是该商品,具体可以根据用户进入智能客服的交互页面时入口页面(如商品详情页)、用户发送的商品链接等信息确定。
问题关联的商家信息是指问题针对的商家的信息。在实际应用中,用户提出的问题可以针对提问对象(如商品)提出的,也可以是针对某个商家提出的。如果用户的问题是针对某个商家提出的,例如用户在该商家的页面(而非某一商品的详情页)进入智能客服的交互页面,问题关联的商家即是该商家。如果用户的问题是针对某个商品提出的,例如用户通过某一商品的详情页进入智能客服的交互页面,或者用户发送了某一商品的链接,问题关联的商家即是问题针对的商品所属的商家。具体可以根据用户进入智能客服的交互页面时入口页面(如某商家的店铺页面)、用户发送的商品链接等信息确定。
步骤S404、根据多路检索结果,使用第一机器问答模型确定各路检索结果中的对话知识与问题文本的匹配度。
在得到多路检索结果之后,根据各路检索结果包含的对话知识中的答案信息,使用第一机器问答模型预测各个对话知识中的答案信息与输入的问题文本间的匹配度。
具体地,将各路检索结果包含的每一对话知识中的答案信息与问题文本,输入第一机器问答模型进行匹配度计算,得到每一对话知识中的答案信息与问题文本的匹配度。
其中,第一机器问答模型可以是预训练的能够精准预测用户问题与知识间匹配度的机器学习模型。例如,预训练的应用于问题答案(QA)匹配的BERT模型,该BERT模型的骨干网络的编码层的层数较多,可以较高精度的预测问题答案的匹配度。例如,该BERT模型的骨干网络可以包含12层或24层的编码层(Transformer层)。
步骤S405、根据与问题文本的匹配度,从各路检索结果中的对话知识中,选择一个对话知识作为与问题文本相匹配的对话知识。
在得到多路检索结果之后,若多路检索结果包含一条对话知识,则可以直接将该对话知识作为与问题文本相匹配的对话知识。若多路检索结果包含多条对话知识,则根据各路检索结果包含的每一对话知识中的答案信息与问题文本的匹配度,从各路检索结果中的对话知识中,选择一个匹配度较高的对话知识,作为与问题文本相匹配的对话知识。
通过上述步骤S404-S405,根据多路检索结果,确定与问题文本相匹配的对话知识。
步骤S406、将与问题文本相匹配的对话知识中的答案信息,作为问题文本的答案信息,输出答案信息。
在一可选实施例中,若多路检索结果包含多个对话知识,还可以根据与问题文本的匹配度,从各路检索结果中的对话知识中,选择多个对话知识作为参考对话知识,在输出答案信息同时,输出至少一个参考对话知识中答案信息,以向用户提供更多、更全面的优质知识,从而可以更全面地解决用户的问题,缓解人工客服的需求,提升用户购买意愿和满意度。
在另一可选实施例中,还可以将各路检索结果包含的对话知识中的答案信息进行拼接,得到一个文本段落,将该文本段落和输入的问题文本输入抽取式的阅读理解模型,通过阅读理解模型从该文本段落抽取合适的文本片段,作为输入的问题文本的答案信息。
在确定与问题文本相匹配的对话知识之后,云服务器将与问题文本相匹配的对话知识中的答案信息,作为问题文本的答案信息,将该答案信息输出至终端设备。
在一种可能场景中,智能客服系统提供可视化的交互界面,用户通过该交互界面输入问题文本,终端设备通过该交互界面输出答案信息。
在另一种可能场景中,用户与智能对话机器人进行语音交互,云服务器在得到问题文本的答案信息之后,将该答案信息转换为对应音频数据,将该音频数据发送至终端设备,终端设备通过播放该音频数据,将答案信息输出给用户。本实施例中对于答案信息的具体输出方式不做具体限定。
本实施例提供的智能对话处理方法,基于前述实施例所构建的智能对话知识库及索引,通过多路检索的方式,可以快速且精准地检索到问题文本对应的答案信息,从而可以更快、更精准地答复用户问题,可以提升智能客服机器人对话的质量,缓解人工客服的需求,提升用户购买意愿和满意度。
通过结合前述建立智能对话知识库的实施例和进行知识检索的智能对话处理方法实施例,为智能客服的多源知识挖掘与检索提供了一种高效统一的方案,以实现大规模多源知识的高效知识挖掘与检索,为用户提供更优质的对话服务能力。
图5为本申请提供的一种智能对话处理方法的框架示意图。如图5所示,对于获取的多种来源的原始数据,进行数据清洗及整合,得到数据清洗及整合后的多种来源的知识信息。对于各条知识信息,判断知识信息是否包含问题。对于包含问题的知识信息,直接确定一个问题答案信息对。对于不包含问题的知识信息,为该知识信息匹配一个已有的用户问题,并生成对应问题答案信息对。对于得到的问题答案信息对,分别进行意图识别、答案信息精炼、不健康不文明信息过滤、低匹配过滤、问题向量表征等处理,并根据处理后得到对话知识进行ES入库及索引,完成智能对话知识库及索引的建立。在线上知识检索阶段,根据用户提出的问题,在智能对话知识库中进行ES文本检索、向量检索等多路检索,得到包含多个对话知识的多路检索结果,根据多路检索结果,确定问题的答案信息,并向用户输出问题的答案信息。
本实施例中,云服务器引入了提问对象的属性文本、评论数据、历史对话数据等优质的多种来源的知识信息,将多种来源的知识信息通过统一的知识挖掘链路进行知识结构化,形成具有统一结构的问题答案信息对知识,并通过文本表征模型进行问题文本的表征,得到索引向量,从构建包含“问题-答案-问题向量”的结构化的对话知识,并基于对话知识构建智能对话知识库及索引。在知识检索阶段,通过基于问题文本和问题向量的多路检索,来确定问题文本的答案信息。通过将多种来源的知识信息的挖掘与知识检索进行有机结合,将多种来源的知识信息结构化为包含问题-答案-问题向量的索引知识并进行统一检索,形成一套统一有效的挖掘与检索方案,在扩充知识检索信息来源的同时,简化了知识挖掘与检索的流程复杂度,在知识检索时均通过问题文本和问题向量进行检索,基于向量表征和向量相似度计算,相较与现有技术中基于机器学习模型的知识检索,大幅减小了线上实时检索推理的计算复杂度,向用户提供更多更优质的高精度知识,为用户问题提供非常高效的知识检索服务,可以提升机器人对话的质量,缓解人工客服的需求,更好更全面的解决用户问题,提升用户购买意愿和满意度。
图6为本申请一示例性实施例提供的智能对话处理装置的结构示意图。本申请实施例提供的智能对话处理装置可以执行智能对话处理方法实施例提供的处理流程。如图6所示,该智能对话处理装置60包括:问题文本处理模块61、多路检索模块62、对话知识确定模块63和答案信息确定模块64。
其中,问题文本处理模块61用于获取输入的问题文本,将问题文本表征为文本向量。
多路检索模块62用于根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,其中多路检索结果包含至少一条对话知识,对话知识包括问题、问题对应的答案信息和问题向量。
对话知识确定模块63用于根据多路检索结果,确定与问题文本相匹配的对话知识。
答案信息确定模块64用于将与问题文本相匹配的对话知识中的答案信息,作为问题文本的答案信息,输出答案信息。
在一可选实施例中,在实现根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果时,多路检索模块62还用于:
将文本向量与智能对话知识库中对话知识的问题向量进行向量相似度匹配,得到第一路检索结果;将问题文本与智能对话知识库中的答案信息进行的文本相似度匹配,得到第二路检索结果。
在一可选实施例中,对话知识还包括问题对应的意图信息。在实现根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果时,多路检索模块62还用于:
识别问题文本对应的意图信息;将问题文本对应的意图信息与智能对话知识库中对话知识包含的意图信息进行匹配,得到第三路检索结果。
在一可选实施例中,对话知识还包括:问题关联的提问对象信息和商家信息。在实现根据问题文本和文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果时,多路检索模块62还用于:
获取问题文本关联的目标对象信息和/或目标商家信息;根据问题文本和文本向量,以及目标对象信息和/或目标商家信息,在智能对话知识库中进行对话知识的多路检索,得到与目标对象信息和/或目标商家关联的多路检索结果。
在一可选实施例中,在实现根据多路检索结果,确定与问题文本相匹配的对话知识时,对话知识确定模块63还用于:
若多路检索结果包含多条对话知识,则根据多路检索结果,使用第一机器问答模型确定各路检索结果中的对话知识与问题文本的匹配度;根据与问题文本的匹配度,从各路检索结果中的对话知识中,选择一个对话知识作为与问题文本相匹配的对话知识。
在一可选实施例中,如图7所示,在该智能对话处理装置60还包括:
知识库建立模块65,用于:
获取智能客服系统中已有的用户问题,以及提问对象的多种来源的知识信息;根据已有的用户问题和提问对象的多种来源的知识信息,建立包含多种来源的对话知识的智能对话知识库。
在一可选实施例中,在实现根据已有的用户问题和提问对象的多种来源的知识信息,建立包含多种来源的对话知识的智能对话知识库时,知识库建立模块65还用于:
将提问对象的多种来源的知识信息与用户问题进行匹配,确定知识信息对应的用户问题;根据知识信息对应的用户问题的答案信息,生成问题答案信息对;将问题答案信息对中的问题表征为问题向量,生成包含问题答案信息对和问题向量的对话知识,建立包含对话知识的智能对话知识库。
在一可选实施例中,在实现获取提问对象的多种来源的知识信息时,知识库建立模块65还用于:
获取智能客服系统中提问对象相关的多种来源的原始数据;对多种来源的原始数据进行数据清洗,保留不包含预设无效信息的原始数据;对于保留的不同来源的原始数据,按照对应的整合规则进行整合,得到提问对象的多种来源的知识信息。
在一可选实施例中,提问对象相关的多种来源的原始数据,包括如下至少一种:
提问对象的属性信息、提问对象的评论数据、历史对话数据。
在实现对于保留的不同来源的原始数据,按照对应的整合规则进行整合,得到提问对象的多种来源的知识信息时,知识库建立模块65还用于:
将每一提问对象的每条属性信息作为一条知识信息;将同一提问对象的评论数据按照预设规则拼接,生成该提问对象的至少一条知识信息;根据历史对话数据包含的用户问题和答复信息,生成至少一个问题答案信息对,每一问题答案信息对为一条知识信息。
在一可选实施例中,在实现将提问对象的多种来源的知识信息与用户问题进行匹配,确定知识信息对应的用户问题时,知识库建立模块65还用于:
对于多种来源的知识信息中的任一知识信息,若知识信息包含用户问题,则将知识信息包含的用户问题作为与知识信息对应的用户问题;若知识信息不包含用户问题,则使用第二机器问答模型,预测知识信息与已有的用户问题的相关度信息,并根据相关度信息,确定知识信息对应的用户问题。
在一可选实施例中,在实现将知识信息作为知识信息对应的用户问题的答案信息,生成提问对象的问题答案信息对之后,知识库建立模块65还用于:
对问题答案信息对进行如下至少一项优化处理:
使用抽取式的机器阅读理解模型,对问题答案信息对中的答案信息进行优化;
使用第三机器问答模型,确定问题答案信息对中问题与答案信息的匹配度,过滤掉匹配度小于或等于预设匹配度阈值的问题答案信息对;
判断问题答案信息对是否满足健康文明表述条件,过滤掉不满足健康文明表述条件的问题答案信息对。
在一可选实施例中,在实现建立智能对话知识库之后,知识库建立模块65还用于:
获取问题答案信息对关联的提问对象信息、商家信息、意图信息中的至少一项;基于问题答案信息对关联的提问对象信息、商家信息、意图信息中的至少一项,以及问题答案信息对中的问题和答案信息、问题的问题向量,建立智能对话知识库的索引。
本申请实施例提供的装置可以具体用于执行上述任一方法实施例提供的方法,所实现具体功能和所能实现的技术效果此处不再赘述。
图8为本申请实施例提供的一种云服务器的结构示意图。如图8所示,该云服务器包括:存储器801和处理器802。存储器801,用于存储计算机执行指令,并可被配置为存储其它各种数据以支持在云服务器上的操作。处理器802,与存储器801通信连接,用于执行存储器801存储的计算机执行指令,以实现上述任一方法实施例提供的技术方案,其具体功能和所能实现的技术效果类似,此处不再赘述。
可选的,如图8所示,该云服务器还包括:防火墙803、负载均衡器804、通信组件805、电源组件806等其它组件。图8中仅示意性给出部分组件,并不意味着云服务器只包括图8所示组件。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现上述任一方法实施例提供的技术方案,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,端侧设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得端侧设备执行上述任一方法实施例提供的技术方案,具体功能和所能实现的技术效果此处不再赘述。
本申请实施例提供一种芯片,包括:处理模块与通信接口,该处理模块能执行前述方法实施例中云服务器的技术方案。可选的,该芯片还包括存储模块(如,存储器),存储模块用于存储指令,处理模块用于执行存储模块存储的指令,并且对存储模块中存储的指令的执行使得处理模块执行前述任一方法实施例提供的技术方案。
上述存储器可以是对象存储(Object Storage Service,OSS)。
上述存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
上述通信组件被配置为便于通信组件所在设备和其他设备之间有线或无线方式的通信。通信组件所在设备可以接入基于通信标准的无线网络,如WiFi,2G、3G、4G/LTE、5G等移动通信网络,或它们的组合。在一个示例性实施例中,通信组件经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
上述电源组件,为电源组件所在设备的各种组件提供电力。电源组件可以包括电源管理系统,一个或多个电源,及其他与为电源组件所在设备生成、管理和分配电力相关联的组件。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户属性信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。“多个”的含义是两个以上,除非另有明确具体的限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求书指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims (14)

1.一种智能对话处理方法,其特征在于,包括:
获取输入的问题文本,将所述问题文本表征为文本向量;
根据所述问题文本和所述文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,其中所述多路检索结果包含至少一条对话知识,所述对话知识包括问题、问题对应的答案信息和问题向量;
根据所述多路检索结果,确定与所述问题文本相匹配的对话知识;
将与所述问题文本相匹配的对话知识中的答案信息,作为所述问题文本的答案信息,输出所述答案信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述问题文本和所述文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,包括:
将所述文本向量与所述智能对话知识库中对话知识的问题向量进行向量相似度匹配,得到第一路检索结果;
将所述问题文本与所述智能对话知识库中的答案信息进行的文本相似度匹配,得到第二路检索结果。
3.根据权利要求2所述的方法,其特征在于,所述对话知识还包括问题对应的意图信息,
所述根据所述问题文本和所述文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,还包括:
识别所述问题文本对应的意图信息;
将所述问题文本对应的意图信息与所述智能对话知识库中对话知识包含的意图信息进行匹配,得到第三路检索结果。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述对话知识还包括:问题关联的提问对象信息和商家信息,
所述根据所述问题文本和所述文本向量,在智能对话知识库中进行对话知识的多路检索,得到多路检索结果,包括:
获取所述问题文本关联的目标对象信息和/或目标商家信息;
根据所述问题文本和所述文本向量,以及所述目标对象信息和/或目标商家信息,在智能对话知识库中进行对话知识的多路检索,得到与所述目标对象信息和/或目标商家关联的多路检索结果。
5.根据权利要求1所述的方法,其特征在于,所述根据所述多路检索结果,确定与所述问题文本相匹配的对话知识,包括:
若所述多路检索结果包含多条对话知识,则根据所述多路检索结果,使用第一机器问答模型确定各路检索结果中的对话知识与所述问题文本的匹配度;
根据与所述问题文本的匹配度,从各路检索结果中的对话知识中,选择一个对话知识作为与所述问题文本相匹配的对话知识。
6.根据权利要求1所述的方法,其特征在于,还包括:
获取智能客服系统中已有的用户问题,以及提问对象的多种来源的知识信息;
根据所述已有的用户问题和提问对象的多种来源的知识信息,建立包含多种来源的对5话知识的智能对话知识库。
7.根据权利要求6所述的方法,其特征在于,所述根据所述已有的用户问题和提问对象的多种来源的知识信息,建立包含多种来源的对话知识的智能对话知识库,包括:
将所述提问对象的多种来源的知识信息与所述用户问题进行匹配,确定所述知识信息对应的用户问题;
0根据所述知识信息对应的用户问题的答案信息,生成问题答案信息对;
将所述问题答案信息对中的问题表征为问题向量,生成包含所述问题答案信息对和问题向量的对话知识,建立包含所述对话知识的智能对话知识库。
8.根据权利要求6所述的方法,其特征在于,获取提问对象的多种来源的知识信息,
包括:
5获取所述智能客服系统中提问对象相关的多种来源的原始数据;
对所述多种来源的原始数据进行数据清洗,保留不包含预设无效信息的原始数据;
对于保留的不同来源的原始数据,按照对应的整合规则进行整合,得到所述提问对象的多种来源的知识信息。
9.根据权利要求8所述的方法,其特征在于,所述提问对象相关的多种来源的原始0数据,包括如下至少一种:
提问对象的属性信息、提问对象的评论数据、历史对话数据;
所述对于保留的不同来源的原始数据,按照对应的整合规则进行整合,得到所述提问对象的多种来源的知识信息,包括:
将每一所述提问对象的每条属性信息作为一条知识信息;
5将同一提问对象的评论数据按照预设规则拼接,生成该提问对象的至少一条知识信息;
根据历史对话数据包含的用户问题和答复信息,生成至少一个问题答案信息对,每一所述问题答案信息对为一条知识信息。
10.根据权利要求7所述的方法,其特征在于,所述将所述提问对象的多种来源的知识信息与所述用户问题进行匹配,确定所述知识信息对应的用户问题,包括:0对于所述多种来源的知识信息中的任一所述知识信息,若所述知识信息包含用户问题,
则将所述知识信息包含的用户问题作为与所述知识信息对应的用户问题;
若所述知识信息不包含用户问题,则使用第二机器问答模型,预测所述知识信息与已有的用户问题的相关度信息,并根据所述相关度信息,确定所述知识信息对应的用户问题。
11.根据权利要求7所述的方法,其特征在于,所述将所述知识信息作为所述知识信5息对应的用户问题的答案信息,生成所述提问对象的问题答案信息对之后,还包括:
对所述问题答案信息对进行如下至少一项优化处理:
使用抽取式的机器阅读理解模型,对所述问题答案信息对中的答案信息进行优化;
使用第三机器问答模型,确定所述问题答案信息对中问题与答案信息的匹配度,过滤掉匹配度小于或等于预设匹配度阈值的问题答案信息对;
判断所述问题答案信息对是否满足健康文明表述条件,过滤掉不满足所述健康文明表述条件的问题答案信息对。
12.根据权利要求7所述的方法,其特征在于,建立所述智能对话知识库之后,还包括:
获取所述问题答案信息对关联的提问对象信息、商家信息、意图信息中的至少一项;
基于所述问题答案信息对关联的提问对象信息、商家信息、意图信息中的至少一项,以及所述问题答案信息对中的问题和答案信息、问题的问题向量,建立所述智能对话知识库的索引。
13.一种云服务器,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1-12中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-12中任一项所述的方法。
CN202310038159.1A 2023-01-10 2023-01-10 智能对话处理的方法、云服务器及可读存储介质 Pending CN116010574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310038159.1A CN116010574A (zh) 2023-01-10 2023-01-10 智能对话处理的方法、云服务器及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310038159.1A CN116010574A (zh) 2023-01-10 2023-01-10 智能对话处理的方法、云服务器及可读存储介质

Publications (1)

Publication Number Publication Date
CN116010574A true CN116010574A (zh) 2023-04-25

Family

ID=86024704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310038159.1A Pending CN116010574A (zh) 2023-01-10 2023-01-10 智能对话处理的方法、云服务器及可读存储介质

Country Status (1)

Country Link
CN (1) CN116010574A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501851A (zh) * 2023-06-27 2023-07-28 阿里健康科技(杭州)有限公司 答案文本的发送方法、生成方法、装置、设备和介质
CN116881398A (zh) * 2023-07-04 2023-10-13 华院计算技术(上海)股份有限公司 提升大模型生成信息质量的方法及装置
CN117093698A (zh) * 2023-10-19 2023-11-21 四川蜀天信息技术有限公司 基于知识库的对话生成方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116501851A (zh) * 2023-06-27 2023-07-28 阿里健康科技(杭州)有限公司 答案文本的发送方法、生成方法、装置、设备和介质
CN116881398A (zh) * 2023-07-04 2023-10-13 华院计算技术(上海)股份有限公司 提升大模型生成信息质量的方法及装置
CN117093698A (zh) * 2023-10-19 2023-11-21 四川蜀天信息技术有限公司 基于知识库的对话生成方法、装置、电子设备及存储介质
CN117093698B (zh) * 2023-10-19 2024-01-23 四川蜀天信息技术有限公司 基于知识库的对话生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
JP6718828B2 (ja) 情報入力方法および装置
CN116010574A (zh) 智能对话处理的方法、云服务器及可读存储介质
CN110020009B (zh) 在线问答方法、装置及系统
CN111428010B (zh) 人机智能问答的方法和装置
CN111368042A (zh) 智能问答方法、装置、计算机设备及计算机存储介质
CN111625632A (zh) 一种问答对推荐方法、装置、设备及存储介质
CN107291840B (zh) 一种用户属性预测模型构建方法和装置
CN111966716A (zh) 数据处理方法以及装置
US11741094B2 (en) Method and system for identifying core product terms
CN110084658B (zh) 物品匹配的方法和装置
CN113076423A (zh) 数据处理方法及装置、数据查询方法及装置
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
CN109522399B (zh) 用于生成信息的方法和装置
CN112085087A (zh) 业务规则生成的方法、装置、计算机设备及存储介质
CN108733694B (zh) 检索推荐方法和装置
Krishnan et al. Sentiment analysis of tweets for inferring popularity of mobile phones
CN116756278A (zh) 机器问答方法以及装置
CN113221989B (zh) 基于分布式的评估模型训练方法、系统以及装置
CN113869969A (zh) 问答信息处理、商品信息展示方法、设备及存储介质
CN110377803B (zh) 信息处理方法以及装置
CN112100491A (zh) 基于用户数据的信息推荐方法、装置、设备及存储介质
CN116881462A (zh) 文本数据处理、文本表示、文本聚类的方法及设备
CN116842263A (zh) 一种智能问答式理财顾问模型的训练处理方法及装置
CN109241249B (zh) 一种确定突发问题的方法及装置
CN116957128A (zh) 业务指标预测方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination