CN114691852B

CN114691852B - 人机对话系统及方法

Info

Publication number: CN114691852B
Application number: CN202210615940.6A
Authority: CN
Inventors: 李永彬; 武玉川; 黎航宇; 马文涛; 林廷恩; 戴音培; 孙健
Original assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Current assignee: Alibaba Damo Institute Hangzhou Technology Co Ltd
Priority date: 2022-06-01
Filing date: 2022-06-01
Publication date: 2022-08-12
Anticipated expiration: 2042-06-01
Also published as: CN114691852A; US20230395075A1

Abstract

本申请实施例提供了一种人机对话系统及方法，其中，人机对话系统包括：语音交互层，用于接收来自用户的语音对话，并将语音对话转换为对话文本；预训练模型层，用于对对话文本进行语义分析，生成语义表示；对话引擎层，用于对语义表示进行意图分析，确定是否获得了对话文本的意图；若已获得，则根据所述意图，基于对话构建层预先构建的对话流程确定对话回复；若未获得，则根据语义表示确定与用户进行再次对话交互，以获得再次对话交互文本；基于再次对话交互文本和所述对话文本，确定对应的意图；根据确定的意图，基于对话构建层预先构建的对话流程确定对话回复；语音交互层，还用于将对话回复转换为语音，以通过语音与用户进行对话交互。

Description

人机对话系统及方法

技术领域

本申请实施例涉及人机交互技术领域，尤其涉及一种人机对话系统及方法。

背景技术

人机对话技术是人与机器的一种新型交互方式，其目标是使机器能够理解和运用人类的自然语言实现人机之间的通信，以使机器能代替人类的部分脑力劳动，起到延伸人类大脑的作用。

人机对话技术中，任务导向型人机对话系统是目前应用最广泛的形式。任务导向型人机对话系统旨在帮助用户完成某些特定任务（例如查找产品、预订住宿和餐馆等）。该人机对话系统首先理解人类给出的信息，将其表示为一个内部状态，然后根据策略和对话状态选择一些动作，最后把动作转化为自然语言的表达形式。目前，人机对话系统在从日常工作中的预约会议到政务、金融、教育、文娱、健康、旅游等的诸多场景中均有使用。

然而，传统的任务导向型人机对话系统仍然存在着一些局限，包括：构建成本高、采用一问一答形式导致交互效率低下等等缺陷。因此，如何以较低成本构建一个更为智能的、交互效率更高的人机对话系统成为亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供一种人机对话方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种人机对话系统，至少包括：对话构建层、对话引擎层和语音交互层；其中：对话构建层，用于预先基于对话数据样本的语义表示，对对话数据样本进行意图聚类，基于聚类结果构建对话数据样本对应的对话流程；对话引擎层，用于获取语音交互层接收的用户的语音对话对应的语义表示，对该语义表示进行意图分析，获得意图分析结果；根据意图分析结果和对话构建层预先构建的对话流程，确定对话回复并通过语音交互层与用户进行对话回复的语音交互；其中，对话回复为针对语音对话的答案回复，或者，为用于澄清语音对话的对话意图的澄清回复。

根据本申请实施例的第二方面，提供了另一种人机对话系统，包括：预训练模型层、对话构建层、对话引擎层和语音交互层；其中：语音交互层，用于将语音对话样本转换为文本形式的对话数据样本，并将对话数据样本发送给预训练模型层；预训练模型层，用于对对话数据样本进行语义分析，生成对应的语义表示；对话构建层，用于基于对话数据样本的语义表示，对对话数据样本进行意图聚类，基于聚类结果构建所述对话数据样本对应的对话流程；对话引擎层，用于基于对话数据样本的语义表示进行意图分析，根据意图分析结果和对话流程确定是否获得了对话数据样本的意图；若已获得，则根据该意图，基于对话构建层预先构建的对话流程确定答案回复样本；若未获得，则根据所述语义表示确定与用户进行再次对话交互的意图澄清回复样本；语音交互层，还用于将答案回复样本或澄清回复样本转换为对应的语音。

根据本申请实施例的第三方面，提供了一种人机对话方法，应用于人机对话系统，其中，人机对话系统包括：对话构建层、对话引擎层和语音交互层；所述方法包括：通过语音交互层接收来自用户的语音对话，并将语音对话转换为对话文本后发送给对话引擎层；通过对话引擎层获得对话文本的语义表示并对语义表示进行意图分析，根据意图分析结果和对话构建层预先构建的对话流程，确定对话回复；其中，对话流程由对话构建层预先基于对话数据样本的语义表示进行意图聚类后获得的意图聚类结果构建；对话回复为针对语音对话的答案回复，或者，为用于澄清语音对话的对话意图的澄清回复；通过语音交互层将对话回复转换为语音，以通过语音与用户进行对话交互。

根据本申请实施例的第四方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放如第一方面或第二方面所述的人机对话系统和至少一可执行指令，所述可执行指令使所述处理器按照如第三方面所述方法调用人机对话系统执行对应的人机对话操作。

根据本申请实施例的第五方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第三方面所述的方法。

根据本申请实施例提供的人机对话方案，针对各种领域和行业的人机交互，都可先通过对话构建层预先离线构建符合实际需求的人机对话的对话流程；再后续在线使用阶段，可以基于接收的用户语音对话对应的语义表示，通过对话引擎层确定其意图，并据此意图结合对话构建层构建的对话流程给出对应的对话回复，再通过语音交互层实现人机对话交互。由此可见，本申请实施例的人机对话系统可广泛用于各种场景，只需通过对话构建层的离线处理，即可构建出各种场景下的对话流程，降低了人机对话系统的构建成本、拓展了人机对话系统的适用范围。此外，与传统的一问一答的人机对话交互形式相比，本申请实施例的人机对话系统在未能基于当前对话获得用户意图的情况下，还可基于当前对话与用户进行原对话意图基础上的持续对话，即通过澄清回复继续进行对话，以根据原对话和持续对话形成的完整对话来准确判定用户意图，给出准确的对话回复。而不再需要用户重复之前的对话或者重启对话，提高了人机对话交互的效率，也提升了用户体验。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为适用本申请实施例的人机对话方案的示例性系统的示意图；

图2A为根据本申请实施例一的一种人机对话系统的结构框图；

图2B为使用图2A所示的人机对话系统进行人机对话的场景示例图；

图3A为根据本申请实施例二的一种人机对话系统的结构示意图；

图3B为图3A所示实施例中的一种预训练对话模型的示意图；

图3C为图3A所示实施例中的一种对话流程构建示意图；

图3D为图3A所示实施例中的一种对话数据扩充示意图；

图3E为图3A所示实施例中的一种第二机器学习模型的示意图；

图3F为图3A所示实施例中的一种DST模型的示意图；

图3G为图3A所示实施例中的一种策略预测模型的示意图；

图4为根据本申请实施例三的一种人机对话方法的流程图；

图5为根据本申请实施例四的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

图1示出了一种适用本申请实施例的校验码生成方法的示例性系统。如图1所示，该系统100可以包括服务器102、通信网络104和/或一个或多个用户设备106，图1中示例为多个用户设备。

服务器102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的服务器。在一些实施例中，服务器102可以执行任何适当的功能。例如，在一些实施例中，服务器102可以设置有人机对话系统。在一些实施例中，该人机对话系统包括：对话构建层、对话引擎层和语音交互层；通过对话构建层预先离线构建相应行业或服务的对话流程；通过对话引擎层在线对用户的语音转换后的文本对话进行分析，基于对话的对话意图和预先构建的对话流程确定对话回复；其中，对话回复可以是在通过对话直接获得对话意图的基础上确定的答案回复，也可以是在通过对话未能明确获得对话意图的情况下基于原对话的语义持续与用户进行后续沿袭该语义、以最终明确对话意图的澄清回复；通过语音交互层与用户进行语音对话交互，包括向用户播放对话回复。作为可选的示例，在一些实施例中，服务器102可以可以通过处理器执行相应的指令，以调用人机对话系统执行相应的人机对话方法。作为另一示例，在一些实施例中，服务器102可以将对话回复转换为语音后发送到用户设备，以及，接收用户设备发送来的用户的语音对话数据。

在一些实施例中，通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如，通信网络104能够包括以下各项中的任何一种或多种：互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。用户设备106能够通过一个或多个通信链路(例如，通信链路112)连接到通信网络104，该通信网络104能够经由一个或多个通信链路(例如，通信链路114)被链接到服务器102。通信链路可以是适合于在用户设备106和服务器102之间传送数据的任何通信链路，诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。

用户设备106可以包括适合于进行人机语音对话交互的任何一个或多个用户设备。在一些实施例中，用户设备106可以包括任何合适类型的设备。例如，在一些实施例中，用户设备106可以包括移动设备、平板计算机、膝上型计算机、台式计算机、可穿戴计算机、游戏控制台、媒体播放器、车辆娱乐系统和/或任何其他合适类型的用户设备。

尽管将服务器102图示为一个设备，但是在一些实施例中，可以使用任何适当数量的设备来执行由服务器102执行的功能。例如，在一些实施例中，可以使用多个设备来实现由服务器102执行的功能。或者，可使用云服务实现服务器102的功能。

本申请实施例的人机对话系统可广泛应用于各种人机对话场景，尤其是具有对话流程逻辑的对话场景。当应用于具有对话流程逻辑的对话场景中时，可通过对话构建层构建出相对应的对话流程，极大便利了此种场景下的对话交互实现并可使得智能机器端基于该对话流程给出准确的对话回复，完成任务导向型对话的任务。

基于上述系统，本申请实施例提供了一种人机对话方案，以下通过多个实施例进行说明。

实施例一

本实施例从人机对话系统在实际应用场景下的应用角度对本申请实施例的人机对话系统进行说明，参照图2A，其示出了根据本申请实施例一的一种人机对话系统的结构框图。

由图2A中可见，该人机对话系统包括：对话构建层202、对话引擎层204和语音交互层206。

其中：

对话构建层202，用于预先基于对话数据样本的语义表示，对对话数据样本进行意图聚类，基于聚类结果构建对话数据样本对应的对话流程。其中，对话数据样本通常根据实际应用场景的需求采集获取，例如，若为电商场景，则对话数据样本可为该场景下购买者-机器人客服之间的对话；若为在线医疗场景，则对话数据样本可为该场景下患者-机器人医生之间的对话；若为在线金融场景，则对话数据样本可为该场景下用户-机器人客服之间的对话，等等。

对话引擎层204，用于获取语音交互层206接收的用户的语音对话对应的语义表示，对该语义表示进行意图分析，获得意图分析结果；根据意图分析结果和对话构建层202预先构建的对话流程，确定对话回复并通过语音交互层206与用户进行对话回复的语音交互。其中，对话回复可以为针对上述语音对话的答案回复，或者，也可以为用于澄清上述语音对话的对话意图的澄清回复。在一些情况下，用户的语音对话具有明确的意图，可以根据用户的语音对话直接获得对应的意图；进而，根据所述意图，基于对话构建层202预先构建的对话流程确定对话回复，此种情况下为答案回复。但在某些情况下，用户的语音对话不能清楚表示用户的意图或者意图表示不完整，这时，需要根据语音对话对应的语义表示确定与用户进行再次对话交互，以澄清用户的意图，此种情况下确定的对话回复即为澄清回复。通过澄清回复，可以再次与用户交互，获得再次语音对话；再基于再次语音对话和原对话，确定用户的意图；然后，再根据确定的意图，基于对话构建层202预先构建的对话流程确定对话回复。

语音交互层206，主要用于与用户进行语音交互以及语音数据与文本数据之间的转换，例如，接收用户的语音对话并转换为对话文本；将文本形式的对话回复转换为语音，以通过所述语音与用户进行对话交互。

在人机对话场景中，用户多通过语音与智能机器端（如智能对话机器人）进行交互，而在任务导向型的人机对话中，需要通过多轮人机对话来完成某个特定任务（比如公积金提取任务、预定机票、酒店任务，等等）。此种情况下，需要具备人机对话系统的智能机器端不仅可以基于预先构建的对话流程确定并回复用户问题，而且需要智能机器端能够处理该预先构建的对话流程之外的对话情况。例如，用户说的话智能机器端不理解的时候，能够进行对话流程之外的主动交互，生成用于澄清用户对话意图的澄清回复，以引导对话的有效进行，进而最终明确用户的意图。基于此，本申请实施例中的人机对话系统可通过对话引擎层来实现相应的功能，生成可与用户进行交互的答案回复或澄清回复。

其中，对话流程由对话构建层202预先离线构建完成。在一种可行方式中，构建对话流程时，对话构建层202可以基于对话的语义表示及对话数据本身，进行包括意图聚类在内的处理，并以意图聚类结果为基础进行诸如对话流程挖掘等处理后自动构建生成。例如，对话构建层202可以预先基于对话数据样本的语义表示，对对话数据样本进行对话语义簇切分；根据切分获得的语义簇和对话数据样本对应的对话表示向量进行分层密度聚类，根据聚类结果获得至少一个开启意图及各个开启意图对应的对话数据；针对各个开启意图，基于该开启意图对应的对话数据进行对话路径挖掘，根据挖掘结果构建所述对话数据样本对应的对话流程。可选地，在根据挖掘结果构建对话数据样本对应的对话流程时：对话构建层202可以根据挖掘结果获得对话数据对应的用户和机器客服分别对应的对话语义簇；根据用户和机器客服分别对应的对话语义簇，构建关键对话转移矩阵；根据关键对话转移矩阵生成用于指示对话流程的对话路径，将生成的对话路径挂载至该开启意图上以构建对话数据样本对应的对话流程。其中，开启意图意指一段对话开启实质内容表达时的意图。示例性地，“客服：XXX，您好，我是XXX的客服；用户：您好；客服：我看到您订了XXX宾馆的标准间，但还没有支付，如果仍然需要的话，还请您尽快支付一下；用户：您说的是哪儿的宾馆呀……”，从上述对话中可见，可将“客服：我看到您订了XXX宾馆的标准间，但还没有支付，如果仍然需要的话，还请您尽快支付一下”对应的意图确定为开启意图。但本领域技术人员应当明了的是，在实际应用中，该开启意图也可能由用户方开启。该种方式下对话流程的具体生成过程将在下文进一步详细说明，在此不再赘述。在另一种可行方式中，构建对话流程时，人机对话系统可提供相应的构建界面，并在构建界面中提供可选的流程构建控件（如文本输入控件、连线控件、选项控件等），流程构建人员通过这些控件人工构建对话流程。

因语音交互层206承担着与用户交互的任务，因此，在对话引擎层204确定了对话回复后，语音交互层206会将其转换为对话回复的语音，以通过该语音来与用户进行交互。

此外，可选地，为使智能机器端的交互更自然顺畅，更接近真实人类之间的交互，提升用户的人机对话交互体验，在一种可选方案中，语音交互层206，还用于在与用户进行对话交互的过程中，进行以下操作至少之一：检测是否存在设定话语插入时机，并在检测到插入时机时插入设定话语；在与用户进行语音对话交互的过程中，检测到用户的插入语音，若判定插入语音对应的意图为打断所述对话语音，则对插入语音进行处理；对用户在对话交互过程中的停顿进行检测，若检测结果指示停顿对应的对话未完成，则插入引导语引导用户完成所述对话。

其中，设定话语可以为顺承词，例如，嗯、啊、呀……等，通过插入设定话语，可使得人机交互更为自然顺畅，使用户产生与真实人类交互的感受。

此外，在某些对话过程中，可能智能机器端的对话还未播放完，检测到用户的插入语音，这时，一方面，可以通过检测该插入语音的意图，来避免让非打断意图的插入语音影响正常交互，提升用户体验；另一方面，若确定为打断意图，则可进行及时处理，而非像传统方式中一直播放完对话回复，从而无法及时处理用户的交互需求，影响用户体验。

而在真实的对话场景中，可能因为思考或干扰等原因，使得用户在对话时产生停顿，通过停顿检测来确定用户的对话是否完成，既可提升用户体验，提高人机对话系统的智能性，又可获得完整对话，以提高后续对该对话进行处理的效率和准确度。

可见，通过上述方式，使得人机对话系统更智能化，更接近真实的人类交互，提升用户交互体验。

通过本实施例，针对各种领域和行业的人机交互，都可先通过对话构建层预先离线构建符合实际需求的人机对话的对话流程；再后续在线使用阶段，可以基于接收的用户语音对话对应的语义表示，通过对话引擎层确定其意图，并据此意图结合对话构建层构建的对话流程给出对应的对话回复，再通过语音交互层实现人机对话交互。由此可见，本实施例的人机对话系统可广泛用于各种场景，只需通过对话构建层的离线处理，即可构建出各种场景下的对话流程，降低了人机对话系统的构建成本、拓展了人机对话系统的适用范围。此外，与传统的一问一答的人机对话交互形式相比，本实施例的人机对话系统在未能基于当前对话获得用户意图的情况下，还可基于当前对话与用户进行原对话意图基础上的持续对话，即通过澄清回复继续进行对话，以根据原对话和持续对话形成的完整对话来准确判定用户意图，给出准确的对话回复。而不再需要用户重复之前的对话或者重启对话，提高了人机对话交互的效率，也提升了用户体验。

以下，以一个具体实例，对上述过程进行示例性说明，如图2B所示。

假设，在一次对话中，用户发出语音“我想订XX剧场的话剧YY的演出票”，用户端设备会将该语音发送给人机对话系统。则，人机对话系统会通过语音交互层将其转换为文本后交由对话引擎层以获得其对应的语义表示，再根据该语义表示确定是否可理解该对话的完整意图。在此对话中，用户清楚表达了其意图，对话引擎层可基于该对话中的关键信息（也可认为是槽位信息），示例如“XX剧场”、“话剧YY”、“演出票”，准确获得该对话的意图。进而，根据该意图从预先构建好的该对话对应的对话流程中，确定出对应的流程节点。继而，根据该流程节点可确定后续的流程节点，示例性地，假设该流程节点指示进行具体演出时间的收集，则人机对话系统的对话引擎层会基于该流程节点指示的信息生成相应的对话回复，例如，“好的，请问您要订哪天哪一场次的票”。语音交互层将该对话回复转换为语音后发送给用户端设备，通过用户端设备向用户播放。

若用户在听到该对话回复后，再次发出语音“订这个月20号的……呃……”,则该语音被发送至人机对话系统并转换为文本后，对话引擎层再次获得对应的语义表示，在基于该语义表示分析对话意图时，会认为对话未完成，不能准确获得对话的意图。则，为了澄清对话的意图，会生成相应的对话回复（澄清回复），如“是2022年4月20号吗，是哪一场呢”。该对话回复仍会被转换为语音后，发送至用户端设备向用户播放。

假设，用户在听到该对话回复后，发出语音“晚上7点那场吧”。与前述处理过程类似，该语音会被转换为对话文本，并生成对应的语义表示。此种情况下，对话引擎层会结合前次对话和本次对话，确定完整的信息为“订2022年4月20号晚上7点场”。进而，结合用户的开启对话，即“我想订XX剧场的话剧YY的演出票”，确定本次对话交互，用户的意图是要订XX剧场2022年4月20号晚上7点的话剧YY的演出票。基于此，将该意图的信息交由相应的下游任务进行处理，以最终帮助用户完成演出票订购。

当然，上述示例仅为简单的示例说明，在实际应用中，对话交互的情况更为复杂，各种意图表达不完整或不清楚的对话可能更多，但均可基于本申请实施例提供的人机对话系统进行处理。

通过本示例可见，本申请实施例的人机对话系统可有效应用于各种人机对话场景，尤其是任务导向型人机对话场景中，与用户进行交互，达成用户的意图，实现更好的交互效果。

实施例二

本实施例从人机对话系统投入使用前的整体训练过程的角度，对本申请实施例中的人机对话系统进行说明。

如图3A所示，为根据本申请实施例二的一种人机对话系统的结构示意图。

由图中可见，该人机对话系统具有预训练模型层、对话构建层、对话引擎层和语音交互层。在该人机对话系统的整体训练过程中：

预训练模型层以获得的对话数据样本为预训练对话模型的训练样本，对预训练对话模型进行半监督训练，以获得能够输出所述对话数据样本对应的语义表示的模型，其中，每个对话数据样本包括多轮对话数据，每轮对话数据包括词表示信息、角色表示信息、轮次表示信息和位置表示信息；对话构建层基于预训练模型层输出的语义表示，对对话数据样本进行意图聚类，并基于意图聚类结果进行对话流程挖掘，基于挖掘结果构建对话数据样本对应的对话流程；对话引擎层基于预训练模型层输出的语义表示，进行对话引擎层的第二机器学习模型的训练，以获得能够进行对话回复的模型；语音交互层用于分别对语音识别模型和语音转换模型进行训练，以获得对应的、能够进行语音识别的模型和进行从文本到语音转换的模型。需要说明的是，语音交互层训练完成的语音识别模型可对语音对话数据进行语音识别，以获得对话数据样本交由预训练模型层进行作为预训练对话模型的训练样本，但不限于此，预训练模型层使用的训练样本也可以为直接采集的对话文本。语音交互层对语音转换模型的训练，可使用对话引擎层的模型输出的对话回复，但不限于此，语音交互层也可以采集其它的对话文本对语音转换模型进行训练。此外，还需要说明的是，本申请实施例中的语音交互层可采用常规的ASR+TTS的方式实现，但为了使得人机对话交互的效果更好、更智能，本申请实施例的语音交互层在ASR+TTS的基础上，还采用了全双工交互的模式，并基于该模式对其中的机器学习模型进行训练获得。

以下，将针对上述人机对话系统的各个部分的上述训练过程分别进行说明。

（一）预训练模型层

该层中，预训练对话模型是实现预训练模型层的功能的重要部分，与传统的预训练语言模型不同，本申请实施例中，采用了半监督训练的方式对该模型进行训练。并且，模型的输入充分考虑了多轮对话情况下的对话轮次信息和角色信息。

以下，具体说明。

在任务型人机对话系统中，对话策略是其中的一个重要部分，它能够在与用户的多轮交互中决定着系统给出回复语句的质量，进而影响着用户的交互体验。对话策略一般用对话动作标签（Dialog Act, DA）来进行刻画，这是一种特定的对话标注知识，当给定双方的对话历史，对话策略需要选择出正确的对话动作用于指导对话生成。但是，高质量的有标签数据由于成本高、标注复杂，整体数量十分地有限，且存在不同数据集定义不一致的问题，这和网络上易获取的大规模无标签语料形成数据量上的巨大差异。而想要训练出可准确理解对话语义和选择对话策略的预训练对话模型，训练数据的充足性是其实现的前提条件。基于此，本申请实施例中，对预训练对话模型进行训练的对话数据样本中，部分样本为有标签数据，另一部分样本为无标签数据，以扩大样本数据量。但与此同时，传统的两大预训练范式，有监督预训练和无监督预训练，都不能满足此种训练样本情况下的模型训练。为此，本申请实施例采用了半监督训练的方式，在有标签数据上进行有监督优化，在无标签数据上进行自我推论（inference），根据预测结果进行约束优化。

在一种实现方式中，预训练模型层以获得的对话数据样本为预训练对话模型的训练样本，对所述预训练对话模型进行半监督训练可以实现为：确定对话数据样本的每轮对话数据对应的表示向量，所述表示向量包括词表示向量、角色表示向量、轮次表示向量和位置表示向量；以每个对话数据样本包括的多轮对话数据分别对应的表示向量为输入，基于预设的半监督损失函数，对预训练对话模型进行半监督训练；其中，半监督损失函数包括针对有标签数据的第一子损失函数和针对无标签数据的第二子损失函数。可选地，第一子损失函数为基于针对对话回复选择任务的损失函数、基于对话回复生成任务的损失函数、基于对话动作预测的损失函数和双向KL正则损失函数而生成；第二子损失函数为基于针对对话回复选择任务的损失函数、基于对话回复生成任务的损失函数、和基于门机制的双向KL正则损失函数生成。

示例性，一种预训练对话模型的训练示意如图3B所示。由图中可见，本示例中的预训练对话模型基于Transformer结构实现，但本领域技术人员应当明了的是，其它encoder+decoder形式的机器学习模型也同样适用于本示例方案。

图3B中虚线左侧部分示意出了对于对话数据样本（包括有标签的和无标签的，图中使用X₁、X₂……X_N示意出一个包括多轮对话数据的对话数据样本），在获得其对应的词表示向量（Token Embedding）和位置表示向量（Position Embedding）的基础上，还基于其角色信息（用于表征某轮对话对应的角色，如客服、用户等）和轮次信息（用于表征某轮对话是在其所属的对话数据样本中的轮次，如一个对话数据样本包括了三个对话，今次为ABC，则ABC对应的轮次分别为第一轮、第二轮、第三轮），分别获得对应的角色表示向量（RoleEmbedding）和轮次表示向量（TurnEmbedding）。这些表示向量被输入至包括多个Transformer Blocks（Transformer块）的预训练对话模型中，以进行训练。

预训练对话模型的训练目标既包含了传统的建模对话理解和对话生成的自监督loss，也包含了建模对话策略的半监督loss，如图3B中虚线右侧部分所示。

其中，对于对话理解部分，采用回复选择（Response Selection）作为训练目标（如图3B中虚线右侧部分的右半部分所示），即给定对话上下文（context）和候选回复（response）在 [CLS] 处进行二分类判决是否是正确的回复。其中，[CLS]意指分类classification，可以理解为用于下游的分类任务。需要说明的是，本申请实施例中，该分类任务是语句对（context,response）分类任务。对于该任务，模型除了添加[CLS]标签符号并将对应的输出作为文本的语义表示外，还对输入的两句话用一个[SEP]符号作分割，并分别对两句话附加两个不同的文本向量以作区分。例如，共同输入的对话上下文的文本向量和候选回复的文本向量，通过[CLS]符号作区分）。该部分对应的损失函数示意为

，具体表示为：

其中，

表示context，

表示response正样本，

表示response负样本，

表示分类概率。

对于对话生成部分，使用常规的回复生成（Response Generation）目标，即给定对话上下文生成正确回复语句（图3B中虚线右侧部分的左半部分所示）。该部分对应的损失函数示意为

，具体表示为：

该损失函数为一种标准负对数似然函数，其中，

表示context，

表示response，

表示

中的第

个词，

表示

中词的总数量，

。

而对于对话策略部分，本申请实施例中则采用了半监督学习中十分高效的一致性正则(Consistency Regularization)方法来建模对话动作。CR方法在满足低密度假设下（即分类边界处于低密度分布），通过对同一个样本进行扰动后分类结果仍然具备一定程度上的一致性（即分布接近或预测结果接近（扰动前的预测分类结果和扰动后的预测分类结果接近）），那么最终基于一致性正则的半监督学习可以保证找到正确的分类面。

针对对话策略部分的具体损失函数组成如下：

针对无标签对话数据，采用R-drop的思路，即，给定同样的对话输入c，经过两次带有dropout的forward（前向传播）得到了两次经过随机扰动后在对话动作空间上预测的不同分布q1(a∣c)和q2(a∣c)，然后通过双向KL正则损失函数来约束两个分布。其中，R-Drop的意思是：同一个step里面，对于同一个样本，前向传播两次，由于dropout的存在，会得到两个不同但差异很小的概率分布，通过在原来的交叉熵损失中加入这两个分布的KL散度损失，来共同进行反向传播，参数更新。其中，dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。

上述双向KL正则损失函数可表示为：之间

其中，

、

分别表示上述的q1(a∣c)和q2(a∣c)，

表示

和

之间的KL散度。

针对有标签对话数据，则直接利用基础的有监督交叉熵loss来优化对话动作预测（交叉熵（Cross Entropy），用于度量两个概率分布间的差异性信息）。该部分损失函数示意为

，具体可表示为：

其中，

表示context，

表示对有标签对话数据DA预测出的动作标签，

，N为动作标签总的分类数量，

，表示

真实标签。

最终，对于整个预训练对话模型的训练，可将整个模型的对话理解、对话策略、对话生成几个目标加在一起进行优化，总的损失函数表示为：

其中，

因在实际应用中，采集的无标签数据存在大量噪声，因此采用门机制以选择出高质量的无标签数据，表示为

，

，具体表示为：

其中，

，表示N维概率分度的最大熵，

表示

的当前熵，

。

基于上述输入和损失函数，对预训练对话模型进行训练，不仅可以保证充足的训练样本的数量，还可将标注数据中的对话策略知识融入到预训练对话模型中，以提升下游任务中对话策略选择的性能，进而使人机对话系统能够产生高质量的回复语句，提升用户与人机对话系统的交互式体验。

本申请实施例中，上述预训练对话模型的输出被统称为语义表示，而未加详细区分。

此外，为了进一步提高语义表示的准确度，本申请实施例中，还采用了多粒度理解语义的方式，以每个对话数据样本包括的多轮对话数据分别对应的表示向量为输入，分别进行短词维度的语义特征提取、句子维度的语义特征提取、和多轮对话间语义关系维度的语义特征提取；基于提取的语义特征和预设的半监督损失函数，对预训练对话模型进行半监督训练。即，从对话数据的token维度、句子维度、和多轮对话数据之间的语法关系维度来训练模型，获得多个维度的对话语义表示，以通过对多个维度的语义的全面考量，来更为准确地理解对话语义。

需要说明的是，本申请实施例中，预训练模型层可进行对话数据或对话数据样本的语义表示的提取和输出功能的训练以在后续具有输出语义表示的功能，但对于人机对话系统整体来说，该语义表示也可通过其它方式获得，例如，可以在完成预训练对话模型的训练后，可将模型的参数迁移至其它层相应的模型中对应的部分，以使该部分具有提取对话数据的语义表示的功能，如对话构建层的机器学习模型和对话引擎层的机器学习模型等；或者，也可以直接对对话构建层的机器学习模型和对话引擎层的机器学习模型进行语义表示功能的训练，来实现后续对对话数据的表示的提取和输出。但通过预训练模型层的方式，将语义表示的提取和输出功能的训练与其它部分解耦，既可达到更好的训练效果，又可降低其它部分的实现复杂度和训练成本，提高了人机对话系统的整体创建效率。

（二）对话构建层

通过对话构建层，可主要实现对话流程构建的功能。对话流程也称taskflow，是由一系列有顺序的对话节点组成，对话节点有多种类型，比如用户的触发节点（表达用户意图），机器人的回复节点等。

在一种可行方式中，对话流程的构建可以实现为：对话构建层基于预训练模型层输出的语义表示对对话数据样本进行对话语义簇切分，该语义表示用于表征对话数据样本的意图；根据切分获得的语义簇和对话数据样本对应的对话表示向量进行分层密度聚类，根据聚类结果获得至少一个开启意图及各个开启意图对应的对话数据；针对各个开启意图，基于该开启意图对应的对话数据进行对话路径挖掘，根据挖掘结果获得用户和机器客服分别对应的对话语义簇；根据用户和机器客服分别对应的对话语义簇，构建关键对话转移矩阵；根据关键对话转移矩阵生成用于指示对话流程的对话路径，将生成的对话路径挂载至该开启意图上。

在具体实现时，如图3C所示，可以先进行预处理，包括：数据清洗、对话语句编码和对话语义蔟切分。其中，数据清洗可以将低质量的语音对话数据过滤掉，还可以识别出分轨错误的语音对话数据也过滤掉。在此基础上，再进行对话语句的编码处理和对话语义簇切分。对对话语义簇的切分需以对话语句的语义为基础，则此种情况下，可直接使用预训练对话模型针对这些对话语句输出的语义表示。因语义表示是对话的意思表征，因此，也可将语义表示看作对话数据的意图。

在具体实现对话语义簇切分时，一种可行方式为采用密度聚类方式，以此，将语义相近的对话切分为一簇。

然后，基于上述预处理的结果，可进行对话数据流程的构建，该构建采用交互式分层形式。

在进行过语义簇切分后，对话数据将被切分为多个语义簇，每个语义簇可以包括至少一组对话，每个语义簇中的各组对话之间的语义相同或相近，由此实现了意图自动合并。进而，可针对每个语义簇，首先分层挖掘开启意图。因在一组对话中可能存在多个表达不同意图的对话，且这些不同意图的对话之间还具有顺序流程关系，据此，可以将不同意图的对话分为一个或多个（两个及两个以上）层次，按照层次进行密度聚类，以挖掘出相应的意图。其中，开启意图意指一段对话开启实质内容表达时的意图。示例性地，“客服：XXX，您好，我是XXX的客服；用户：您好；客服：我看到您订了XXX宾馆的标准间，但还没有支持，如果仍然需要的话，还请您尽快支付一下；用户：您说的是哪儿的宾馆呀……”，从上述对话中可见，可将“客服：我看到您订了XXX宾馆的标准间，但还没有支持，如果仍然需要的话，还请您尽快支付一下”对应的意图确定为开启意图。但本领域技术人员应当明了的是，在实际应用中，该开启意图也可能由用户方开启。

通常，每个语义簇都有对应的开启意图，基于此，可以构建各个开启意图对应的节点。在一种可行方式中，还可以设置适当的节点命名规则，比如，直接以确定的意图命名或者以意图中的关键字命名等，从而可实现对话流程节点的自动命名。此外，因每个开启意图都隶属于一段对话，需将每个开启意图与对应的对话数据关联起来，以进出后续的流程挖掘使用。

在确定了开启意图及其对应的对话数据后，即可针对各个开启意图进行对话路径挖掘。因本申请实施例中，对话数据中携带有对话轮次信息和角色信息，可基于此再次进行聚类，以获取不同角色对应的一个或多个对话语义簇，如客服对话簇和用户对话簇等。进而，将每轮对话打上其所属的对话语义簇的标签，并基于此构建出可表征对话语义转移关系的关键对话转移矩阵。基于该矩阵可采用路径搜索的方式生成相应的对话路径，进而可针对生成的对话路径进行诸如过滤环、过滤未完路径、合并节点等处理后，将生成的完整路径挂载至当前开启意图的节点上，即可形成一个完整的对话流程。

此外，在基于开启意图进行流程路径挖掘的同时，还可以从对话数据中为每个意图确定有代表性和多样性的话术，以用于后续意图模型的训练。

然而，在实际应用中，往往需要人工手动为知识点或意图编写大量的相似问题，来提高智能机器端答复的泛化性。这个过程不仅需要花费大量的人力成本，还需要投入大量的时间来编写，成本较高。

为此，在一种可行方式中，在对话构建层构建出对话流程之后，或者，在对话构建层确定各个意图节点后，还可以获得待扩充的意图节点对应的对话数据的语义表示；根据该语义表示，从离线生成的检索数据库中获得至少一个第一候选对话数据，并且通过生成模型生成至少一个第二候选对话数据；对第一候选对话数据和第二候选对话数据进行排序；根据排序结果对第一和第二候选对话数据进行质量评估，根据质量评估结果确定目标对话数据；使用目标对话数据对所述意图节点对应的对话数据进行对话数据扩充（也可称为意图配置话术扩充）。以此，解决上述问题。

在一种具体实现方式中，如图3D所示，可以先通过离线数据挖掘系统获取人人日志中的人人对话数据、人机日志中的人机对话数据，以及从外部（如网络）抓取到的对话数据，并对这些对话数据进行预处理（包括数据归档、数据归一化和数据选取等）；获得预处理后的对话数据及这些对话数据对应和语义向量；进而，分别为对话数据和语义向量构建生成索引，基于这些数据和它们对应的索引生成检索数据库。

另一方面，可以通过众包标系统获取对话日志数据，并基于预设标注规则对对话日志数据进行标注，获得标注数据；基于这些标注数据训练获得相似问题生成模型、排序模型和质量模型。

基于构建的检索数据库及上述模型，即可对待扩充的意图节点的对话数据进行对话数据扩充。如图3D中所示，待扩充的意图节点的对话数据通过查询分析模块基于算法平台进行相应的处理，包括分词、获得对应的词向量、语义表示、归一化等；进而，通过召回模块基于查询分析模块的处理结果，一方面从检索数据库中召回候选对话数据（即第一候选对话数据），另一方面通过相似问题生成模型生成新的候选对话数据（即第二候选对话数据）；这些候选对话数据都将被排序模块送入排序模型，以进行特征计算和融合排序，获得指示待扩充的意图节点的对话数据与候选对话数据之间的相似度的相似度分数。经过排序模块处理获得排序结果后的候选对话数据将被交给结果过滤与封装模块，以由该模块通过质量模型对这些候选对话数据进行相似性去重和质量控制，从中挑选出目标对话数据。则这些目标对话数据即可扩充对话数据，可将其扩充至意图节点对应的对话数据集合中。与此同时，这些目标对话数据也会被通过日志系统写入日志数据中，以供后续使用。

由此，可以有效实现意图对应的对话数据的拓展和丰富，以为对话流程构建提供更好的基础。

还需要说明的是，针对所有意图节点中的部分或全部，还可为其设置拒识节点（Unkonwed节点），由此，在后期应用时，在无法明确某一对话的意图时，可通过该拒识节点与其匹配并反馈至对话引擎层，由对话引擎层根据原对话的信息进行后续的意图澄清处理。

此外，在对话构建层中还可设置模型闭环功能，以实现日志回流标注、模型训练评测、发布、模型效果分析指导AIT进行效果优化等功能。其具体实现可参照相关技术的描述，在此不再赘述。

（三）对话引擎层

对话引擎层中设置有第二机器学习模型，

通过该对话引擎层，可实现智能机器端的主动对话能力，智能机器端可以进行对话构建层构建的对话流程之外的对话交互，更加灵活和智能。

一种第二机器学习模型的模型架构如图3E所示，其包括交互式信息收集基座部分和交互式信息收集系统部分。其中，基座部分是各种对话场景通用的资源，包括：预训练模型、对话行为体系（Dialog Act）和知识库（知识库为在数字类、汉字类和混合类各种信息收集场景通用的资源）。系统部分是各种对话场景对应的收集系统框架，可以认为其也是一个子对话系统，包含一般任务型人机对话系统的四大核心模块，即：对话理解（NLU）模块、对话状态更新（DST）模块、对话策略（Policy）模块和对话生成（NLG）模块。

示例性地，在接受到用户的对话请求时，对话理解模块基于对话历史和对话请求（query，如：“我叫无家青，口天吴”）进行用户对话行为（Act）预测，也称为对话状态预测。例如，可以基于预训练对话模型如BERT模型，预测空间为预先构建的Dialog Act体系中用户侧的11种Act，图中示例为该行为预测的结果为inform （提供信息）。状态更新模块基于对话历史、当前对话请求query和上一轮的对话状态（Act），通过DST模型生成当前的对话状态，图中示例为上一对话状态为空，生成新的当前对话状态为“吴家青”。策略预测模块基于对话历史和当前对话状态，预测交互式信息收集系统的策略，同样使用预训练模型，预测空间为预先构建的Dialog Act体系中系统的8种动作，图中示例为预测动作为对“家”进行“澄清”。回复生成模块在确定到要澄清的内容如“家”为汉字时，需要查询对应的知识，如“国家的家”，再查询对应的澄清模板，生成对应回复“家是国家的家吗”。

示例性地，预先构建的用户侧的11种Act如下表一所示：

表一

预先构建的8种动作如下表二所示：

表二

基于上述描述，在一种可行方式中，第二机器学习模型包括：用于进行对话状态预测的模型部分（即NLU模块部分）、用于进行对话状态更新的模型部分（即DST模块部分）、用于进行对话回复策略预测的模型部分（即Policy模块部分）、和用于生成对话回复的模型部分（即NLG模块部分）。

基于此，对话引擎层基于预训练模型层输出的语义表示，进行对话引擎层的第二机器学习模型的训练，以获得能够进行对话数据收集的模型可以包括：基于预训练模型层输出的语义表示及该语义表示对应的对话状态标签，对用于进行对话状态预测的模型部分进行训练，以获得能够输出当前对话状态的模型；基于当前对话数据及当前对话状态、以及多轮对话数据中的其它轮对话数据，对用于进行对话状态更新的模型部分进行训练，以获得能够输出更新的对话状态的模型；基于当前对话数据及更新的对话状态、以及多轮对话数据中的其它轮对话数据，对用于进行对话回复策略预测的模型部分进行训练，以获得能够输出对话回复策略的模型；基于对话回复策略和预设的知识库，对用于生成对话回复的模型部分进行训练，以获得能够输出对话回复的模型。

其中，对用于进行对话状态预测的模型部分进行训练可以实现为：以预训练模型层输出的语义表示及该语义表示对应的对话状态标签为输入，基于预设的对话状态分类信息，对用于进行对话状态预测的分类模型部分进行对话状态预测训练，以获得能够输出当前对话状态的模型。预设的对话状态分类可实现为表一中所示的11种分类，当然，在实际应用中，本领域技术人员也可根据实际需求，增加、或删除、或变更其中的栽些分类。

示例性地，可以标注一些用户对话数据如用户对话请求和对应动作的标签数据，使用一个预训练模型如BERT或者Roberta等进行模型的分类训练。训练完成的模型在后续使用中，若接收到用户对话请求之后，使用该模型预测用户动作（对话状态），如果预测结果为 “reject” （无关其他），则说明用户对话请求不在复杂信息收集的场景内，直接返回，交给人机对话系统中相应的其它模块进行处理。

对用于进行对话状态更新的模型部分进行训练可以实现为：以当前对话数据及当前对话状态、以及多轮对话数据中的其它轮对话数据为输入，基于预设的槽位信息的段操作分类任务和位操作生成任务，对用于进行对话状态更新的模型部分进行多任务联合训练，以获得能够输出更新的对话状态的模型。

因为在很多对话场景中，需要对复杂的槽位信息的更新过程进行建模，为提高建模效率，本实施例中，将整个复杂的槽位信息的修改分成段操作和位操作两层。其中，段操作对整个槽位信息进行整体或者分块操作，位操作对槽位信息进行按位操作。示例性地，可以将段操作抽象成5种类别，即：全部更新、全部清空、追加内容、保持不变和部分更新，使用分类建模；位操作是在段操作无法满足（预测为部分更新时），进入位操作进行按位生成，使用一种非自回归的生成来建模，具体如图3F所示。

由图3F中可见，模型输入为对话历史（History）、当前用户的对话请求（Query）和当前的对话状态（State）,输出为新的对话状态。整个模块基于预训练语言模型BERT或者Roberta等采用transformer结构的模型，将复杂的槽位信息细化成段操作和位操作来实现细粒度的对话状态更新，通过分类任务（段操作）和非自回回归的生成任务（位操作）多任务联合建模的形式来实现。

对用于进行对话回复策略预测的模型部分进行训练可以实现为：以当前对话数据及更新的对话状态、以及多轮对话数据中的其它轮对话数据为输入，基于预设的回复策略预测任务和针对更新的对话状态进行澄清预测的任务，对用于进行对话回复策略预测的模型部分进行多任务联合训练，以获得能够输出对话回复策略的模型。

其中，预设的回复策略预测任务可以为表二中所述的任务。

需要说明的是，该模型除了对话回复策略的预测，还需要对新的对话状态进行澄清位预测，预测为0的，表示通过对话历史，已经确认该部分没有问题，无需澄清；预测为1的，表示暂未确认是否有问题，需要和用户进行下一步对话交互进行意图澄清。在模型预测为无需澄清时，即表示对话数据收集结束，返回整个收集到的对话数据并退出。但在某些情况下，可以通过用户动作的类别进行直接规则干预，比如用户动作为“等待”时，系统动作可以直接设置为肯定，即回复“好的，您先忙”，从而使得整个人机对话系统具有很好的解释性和可干预性。

示例性地，如图3G所示，模型输入为对话历史（History）、当前用户的对话请求（Query）和更新后的对话状态（New State）,输出为对话回复策略和是否需要进行意图澄清的指示。图中示意为“Reqmore”，即需要用户继续对话。

对用于生成对话回复的模型部分进行训练可以实现为：基于预测的对话回复策略，查询对应的系统话术模板，进行系统回复生成。

在预测出对话回复策略后，即可查询对应的策略下的系统话术模板，进行系统回复生成。在预测动作为澄清时，需要通过澄清位，获得澄清的内容，如果澄清的内容为汉字，还需要查询知识库，得到汉字的描述内容。例如，澄清内容为“家”，查询出来描述内容为“国家的家”，对应澄清话术模板为“x是y吗”，其中x, y分别填充为“家”、“国家的家”，即可得到生成的系统回复 “家是国家的家吗”。

通过上述训练完成的模型，可以通过多轮主动对话交互来收集和维护复杂的槽位信息，提升用户的智能化对话体验。

（四）语音交互层

不仅仅是对话的内容重要，「什么时候说话」的说话时机也相当重要。传统的人机对话系统受限于传统的一问一答框架，在和用户的互动过程中存在较高的延迟性，无法做到像真人一样灵活且快速的交换信息。为此，本实施例中的语音交互层采用了基于语音语义融合的全双工对话交互方式，包括语气承接、优雅打断和长时间停顿检测三种能力。

首先，语气承接使得智能机器端能够检测合适的说话时机，并自动地插入设定话语如顺承语等，如：好的、嗯、哦，不仅能够降低对话时的智能机器端的响应延迟，也能提高对话时的流畅性。其次，优雅打断通过语音文本联合建模，能够在检测出用户打断意图的同时，正确地拒绝背景噪音和无交互意图，准确确定用户意图。最后，通过长时间停顿检测来进行智能断句，如果静音片段已经达到最大断句时长，但又发现用户当前话语还没说完，则会插入引导语来引导用户把话说完，而不是粗暴的打断用户说话。

对于语气承接功能，可通过多标签训练数据训练得到的分类模型实现。其中，多标签训练数据中至少一条样本具有对应的多个设定话语如顺承语的类别标签。多个设定话语类别标签，是指分类任务中，至少一个样本具有的多个类别标签。例如，针对用户说的某句话，可能存在多种合格的用于插入对话的设定话语(类别/标签)。以顺承语为例，例如，一个样本的顺承语是“嗯没问题谢谢啊”，对应的顺承语类别标签可以包括：“嗯好的”“好的”…等多个类别的标签。其中，分类模型可以使用TextCNN模型、LSTM或BERT模型等。

由于该模型是通过多标签训练数据训练得到的，因此，在检测到满足插入顺承语时机的对话时，将该对话输入到已训练完成的上述分类模型中，预测得到对应的一条或多条顺承语，根据预测得到的顺承语进行顺承语插入。可见，通过在模型中融入多类标签，能够很好地处理触发插入顺承语的对话与顺承语之间的多对多的关系，有效预测出合适的一条或多条顺承语，再根据预测得到的顺承语进行顺承语插入，使得人机对话系统更为智能，提升用户对话体验。

对于优雅打断功能，也可通过对相应机器学习模型的训练获得，本实施例中，该模型可以通过以下方式训练得到：将对话数据样本、对话数据样本对应的对话语音数据和噪声音频数据输入至语音交互层的第三机器学习模型，通过第三机器学习模型提取对话数据样本、对话语音数据和噪声音频数据分别对应的特征并进行融合，获得融合特征；基于融合特征和预设的语音分类，对第三机器学习模型进行训练，以获得能够输出打断对话的判定结果的模型。

具体地，可以通过第三机器学习模型对对话数据样本输入进行特征提取，获得文本特征；对噪声音频数据和对话语音数据融合后进行特征提取，得到语音特征；融合文本特征和语音特征，得到融合特征。进而，基于预设的语音分类和该融合特征，来对第三机器学习模型进行训练。其中，语音分类可以包括用于表征对话语音数据对应的用户意图为打断意图的类型，或者为非打断意图的类型。

对于长时间停顿检测功能，可以先从大量的对话数据样本中，抽取出对齐的语音语义多模态数据进行标注，通过这些数据让模型学习用户的各种长时停顿状态。为了提高模型的判断能力，还可以使用充分融合语音和语义（即融合语音特征和文本特征）的方式，利用模态间的互补性来实现更精准的模型判断。若检测出用户对话还没说完、无需断句后，则可在对话中插入引导语，引导用户继续对话，以将对话补充完整。之后，再由智能机器端进行对话回复。由此，不仅能够更精确地进行断句，也能有效避免用户被智能机器端误断句，提升人机对话的对话体验和效率。

基于上述过程构建出的人机对话系统更为智能、灵活，并且，可广泛应用于涉及人机对话交互的场景中，尤其是任务导向型人机对话场景中。

通过本实施例构建的人机对话系统，针对各种领域和行业的人机交互，都可通过预训练模型层分析其语义，进而通过对话引擎层确定其意图并据此给出对应的对话回复，再通过语音交互层实现人机对话交互。由此可见，本实施例的人机对话系统可广泛用于各种场景，无需人工参与即可实现流畅的人机对话交互，降低了人机对话系统的构建成本、拓展了人机对话系统的适用范围。此外，与传统的一问一答的人机对话交互形式相比，本实施例的人机对话系统在未能基于当前对话获得用户意图的情况下，还可基于当前对话与用户进行原对话意图基础上的持续对话，以根据原对话和持续对话形成的完整对话来准确判定用户意图，给出准确的对话回复。而不再需要用户重复之前的对话或者重启对话，提高了人机对话交互的效率。

实施例三

本实施例中，使用前述实施例一或二中的人机对话系统来实现人机对话方法，该方法如图4所示，包括以下步骤：

步骤S402：通过语音交互层接收来自用户的语音对话，并将语音对话转换为对话文本后发送给人机对话系统的对话引擎层。

步骤S404：通过人机对话系统的对话引擎层获得对话文本的语义表示并对所述语义表示进行意图分析，根据意图分析结果和对话构建层预先构建的对话流程，确定对话回复。

其中，对话流程由对话构建层预先基于对话数据样本的语义表示进行意图聚类后获得的意图聚类结果构建；对话回复为针对语音对话的答案回复，或者，为用于澄清语音对话的对话意图的澄清回复。

步骤S406：通过语音交互层将对话回复转换为语音，以通过所述语音与用户进行对话交互。

上述步骤的描述较为简要，在具体实现时，可参照前述实施例一或二中的人机对话系统的相应部分的处理来具体实现，在此不再赘述。

通过本实施例，可在不同的人机对话场景下，只需通过对话构建层的离线处理，即可构建出各种场景下的对话流程，降低了人机对话系统的构建成本、拓展了人机对话系统的适用范围。此外，在未能基于当前对话获得用户意图的情况下，本实施例人机对话系统还可基于当前对话与用户进行原对话意图基础上的持续对话，即通过澄清回复继续进行对话，以根据原对话和持续对话形成的完整对话来准确判定用户意图，给出准确的对话回复。而不再需要用户重复之前的对话或者重启对话，提高了人机对话交互的效率，也提升了用户体验。

实施例四

参照图5，示出了根据本申请实施例四的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述人机对话方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放前述实施例一或二中所描述的人机对话系统和程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行前述方法实施例中所描述的人机对话方法对应的操作。也即，使得处理器502根据前述方法实施例中所描述的人机对话方法调用存储器506中的人机对话系统以进行对应的人机对话交互操作。

程序510中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述，并具有相应的有益效果，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例还提供了一种计算机程序产品，包括计算机指令，该计算机指令指示计算设备执行上述方法实施例中的人机对话方法对应的操作。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种人机对话系统，至少包括：对话构建层、对话引擎层和语音交互层；

其中：

所述对话构建层，用于预先基于对话数据样本的语义表示，对所述对话数据样本进行对话语义簇切分；根据切分获得的语义簇和所述对话数据样本对应的对话表示向量进行分层密度聚类，根据聚类结果获得至少一个开启意图及各个开启意图对应的对话数据；针对各个开启意图，基于该开启意图对应的对话数据进行对话路径挖掘，根据挖掘结果构建所述对话数据样本对应的对话流程；

所述对话引擎层，用于获取所述语音交互层接收的用户的语音对话对应的语义表示，对所述语义表示进行意图分析，获得意图分析结果；根据所述意图分析结果和所述对话构建层预先构建的对话流程，确定对话回复并通过所述语音交互层与所述用户进行所述对话回复的语音交互；其中，所述对话回复为针对所述语音对话的答案回复，或者，为用于澄清所述语音对话的对话意图的澄清回复。

2.根据权利要求1所述的系统，其中，所述对话构建层在根据挖掘结果构建所述对话数据样本对应的对话流程时：

根据挖掘结果获得所述对话数据对应的用户和机器客服分别对应的对话语义簇；根据用户和机器客服分别对应的对话语义簇，构建关键对话转移矩阵；根据所述关键对话转移矩阵生成用于指示对话流程的对话路径，将生成的对话路径挂载至该开启意图上以构建所述对话数据样本对应的对话流程。

3.根据权利要求1或2所述的系统，其中，

所述语音交互层，还用于在与所述用户进行对话交互的过程中，进行以下操作至少之一：

检测是否存在设定话语插入时机，并在检测到插入时机时插入设定话语；

在与所述用户进行语音对话交互的过程中，检测到所述用户的插入语音，若判定所述插入语音对应的意图为打断对话语音，则对所述插入语音进行处理；

对所述用户在对话交互过程中的停顿进行检测，若检测结果指示所述停顿对应的对话未完成，则插入引导语引导所述用户完成所述对话。

4.一种人机对话系统，包括：预训练模型层、对话构建层、对话引擎层和语音交互层；

其中：

所述预训练模型层确定对话数据样本的每轮对话数据对应的表示向量，所述表示向量包括词表示向量、角色表示向量、轮次表示向量和位置表示向量；以每个所述对话数据样本包括的多轮对话数据分别对应的表示向量为输入，基于预设的半监督损失函数，对预训练对话模型进行半监督训练，以获得能够输出所述对话数据样本对应的语义表示的模型，其中，所述对话数据样本中的部分样本为有标签数据，另一部分样本为无标签数据，每个所述对话数据样本包括多轮对话数据，每轮对话数据包括角色信息、和轮次信息；所述半监督损失函数包括针对所述有标签数据的第一子损失函数和针对所述无标签数据的第二子损失函数；

所述对话构建层基于所述预训练模型层输出的语义表示，对所述对话数据样本进行意图聚类，并基于所述意图聚类结果进行对话流程挖掘，基于挖掘结果构建所述对话数据样本对应的对话流程；

所述对话引擎层基于所述预训练模型层输出的语义表示，进行所述对话引擎层的第二机器学习模型的训练，以获得能够进行对话回复的模型；

所述语音交互层用于分别对语音识别模型和语音转换模型进行训练，以获得对应的能够进行语音识别的模型和进行从文本到语音转换的模型。

5.根据权利要求4所述的系统，其中，

所述第一子损失函数基于针对对话回复选择任务的损失函数、基于对话回复生成任务的损失函数、基于对话动作预测的损失函数和双向KL正则损失函数生成；

所述第二子损失函数基于针对对话回复选择任务的损失函数、基于对话回复生成任务的损失函数、和基于门机制的双向KL正则损失函数生成。

6.根据权利要求4所述的系统，其中，所述以每个所述对话数据样本包括的多轮对话数据分别对应的表示向量为输入，基于预设的半监督损失函数，对所述预训练对话模型进行半监督训练，包括：

以每个所述对话数据样本包括的多轮对话数据分别对应的表示向量为输入，分别进行短词维度的语义特征提取、句子维度的语义特征提取、和多轮对话间语义关系维度的语义特征提取；

基于提取的语义特征和预设的半监督损失函数，对所述预训练对话模型进行半监督训练。

7.根据权利要求4所述的系统，其中，所述对话构建层基于所述预训练模型层输出的语义表示，对所述对话数据样本进行意图聚类，并基于所述意图聚类结果进行对话流程挖掘，基于挖掘结果构建所述对话数据样本对应的对话流程，包括：

所述对话构建层基于所述预训练模型层输出的语义表示对所述对话数据样本进行对话语义簇切分；

根据切分获得的语义簇和所述对话数据样本对应的对话表示向量进行分层密度聚类，根据聚类结果获得至少一个开启意图及各个开启意图对应的对话数据；

针对各个开启意图，基于该开启意图对应的对话数据进行对话路径挖掘，根据挖掘结果获得用户和机器客服分别对应的对话语义簇；根据用户和机器客服分别对应的对话语义簇，构建关键对话转移矩阵；根据所述关键对话转移矩阵生成用于指示对话流程的对话路径，将生成的对话路径挂载至该开启意图上。

8.根据权利要求4所述的系统，其中，所述第二机器学习模型包括：用于进行对话状态预测的模型部分、用于进行对话状态更新的模型部分、用于进行对话回复策略预测的模型部分、和用于生成对话回复的模型部分；

所述对话引擎层基于所述预训练模型层输出的语义表示，进行所述对话引擎层的第二机器学习模型的训练，以获得能够进行对话回复的模型，包括：

基于所述预训练模型层输出的语义表示及所述语义表示对应的对话状态标签，对用于进行对话状态预测的模型部分进行训练，以获得能够输出当前对话状态的模型；

基于当前对话数据及当前对话状态、以及所述多轮对话数据中的其它轮对话数据，对用于进行对话状态更新的模型部分进行训练，以获得能够输出更新的对话状态的模型；

基于当前对话数据及更新的对话状态、以及所述多轮对话数据中的其它轮对话数据，对用于进行对话回复策略预测的模型部分进行训练，以获得能够输出对话回复策略的模型；

基于所述对话回复策略和预设的知识库，对用于生成对话回复的模型部分进行训练，以获得能够输出对话回复的模型。

9.根据权利要求8所述的系统，其中，所述基于当前对话数据及当前对话状态、以及所述多轮对话数据中的其它轮对话数据，对用于进行对话状态更新的模型部分进行训练，以获得能够输出更新的对话状态的模型，包括：

以当前对话数据及当前对话状态、以及所述多轮对话数据中的其它轮对话数据为输入，基于预设的槽位信息的段操作分类任务和位操作生成任务，对用于进行对话状态更新的模型部分进行多任务联合训练，以获得能够输出更新的对话状态的模型。

10.根据权利要求8所述的系统，其中，所述基于当前对话数据及更新的对话状态、以及所述多轮对话数据中的其它轮对话数据，对用于进行对话回复策略预测的模型部分进行训练，以获得能够输出对话回复策略的模型，包括：

以当前对话数据及更新的对话状态、以及所述多轮对话数据中的其它轮对话数据为输入，基于预设的回复策略预测任务和针对所述更新的对话状态进行澄清预测的任务，对用于进行对话回复策略预测的模型部分进行多任务联合训练，以获得能够输出对话回复策略的模型。

11.根据权利要求4所述的系统，其中，还包括：

将所述对话数据样本、所述对话数据样本对应的对话语音数据和噪声音频数据输入至所述语音交互层的第三机器学习模型，通过所述第三机器学习模型提取所述对话数据样本、所述对话语音数据和所述噪声音频数据分别对应的特征并进行融合，获得融合特征；

基于所述融合特征和预设的语音分类，对所述第三机器学习模型进行训练，以获得能够输出打断对话的判定结果的模型。

12.一种人机对话方法，应用于人机对话系统，其中，所述人机对话系统包括：对话构建层、对话引擎层和语音交互层；

所述方法包括：

通过所述语音交互层接收来自用户的语音对话，并将所述语音对话转换为对话文本后发送给所述对话引擎层；

通过所述对话引擎层获得所述对话文本的语义表示并对所述语义表示进行意图分析，根据意图分析结果和所述对话构建层预先构建的对话流程，确定对话回复；其中，所述对话流程由所述对话构建层预先基于对话数据样本的语义表示，对所述对话数据样本进行对话语义簇切分；根据切分获得的语义簇和所述对话数据样本对应的对话表示向量进行分层密度聚类，根据聚类结果获得至少一个开启意图及各个开启意图对应的对话数据；针对各个开启意图，基于该开启意图对应的对话数据进行对话路径挖掘，根据挖掘结果构建；所述对话回复为针对所述语音对话的答案回复，或者，为用于澄清所述语音对话的对话意图的澄清回复；

通过所述语音交互层将所述对话回复转换为语音，以通过所述语音与所述用户进行对话交互。