CN112735374B

CN112735374B - 一种自动语音交互的方法及装置

Info

Publication number: CN112735374B
Application number: CN202011598315.2A
Authority: CN
Inventors: 包梦蛟
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-01-06
Anticipated expiration: 2040-12-29
Also published as: CN112735374A

Abstract

本说明书公开了一种自动语音交互的方法及装置，并具体公开了，根据接收到的用户的语音信息，结合用户的用户画像、用户的历史业务记录，以及当前的业务对话中上一句回复语音对应的对话回复策略，确定针对接收到的用户的语音信息的对话回复策略，并根据确定的对话回复策略生成针对该用户的语音信息的回复语音，完成一次语音交互。如此，本说明书中的自动语音交互的方案，不仅能够实现智能语音对话，减少了人工的参与，同时还能够参考用户画像等信息，针对不同的用户灵活地采用不同的回复语音，提高业务对话的效率，便于业务的开展。

Description

一种自动语音交互的方法及装置

技术领域

本说明书涉及互联网技术领域，尤其涉及一种自动语音交互的方法及装置。

背景技术

目前，人工客服是商家与顾客之间沟通的重要途径，在互联网快速发展的今天，在各大互联网服务平台都有着海量用户的基础上，仍然采用传统的人工电话客服的方式进行业务服务。但是，人工客服存在培训上岗周期长，人员不足，成本高等问题。且还存在由于人工服务带来的固有缺陷，如难以实现有效的监管，对话时易受到情绪变化影响发表过激的言论，易造成客户信息泄露等。

发明内容

本说明书提供一种自动语音交互的方法及装置，以部分的解决现有技术存在的上述问题。

本说明书采用下述技术方案：

本说明书提供了一种自动语音交互的方法，包括：

接收用户的语音信息，所述语音信息是所述用户针对业务对话发起的；

对所述语音信息进行识别，得到所述语音信息对应的文本信息；

根据所述文本信息、所述用户的用户画像、所述用户的历史业务记录，以及所述业务对话中上一句回复语音对应的对话回复策略，确定针对所述语音信息的对话回复策略，作为目标回复策略，其中，所述目标回复策略是通过预先训练的对话回复策略模型确定的；

根据所述目标回复策略，生成针对所述语音信息的回复语音；

将针对所述语音信息的回复语音播放给所述用户。

可选地，所述根据所述文本信息、所述用户的用户画像、所述用户的历史业务记录，以及所述业务对话中上一句回复语音对应的对话回复策略，确定目标回复策略，包括：

根据所述文本信息，确定所述文本信息对应的语义向量；

根据所述文本信息、所述用户画像以及所述历史业务记录，确定所述用户对应的用户特征信息；

将所述语义向量、所述用户特征信息以及所述业务对话中上一句回复语音对应的对话回复策略输入到预先训练的对话回复策略模型，得到目标回复策略。

可选地，所述用户特征信息包括：意图信息、业务关键词以及业务特征信息中的至少一种；

所述根据所述文本信息、所述用户画像以及所述历史业务记录，确定所述用户对应的用户特征信息，包括：

根据所述文本信息，确定所述文本信息对应的意图信息以及所述文本信息中的业务关键词，所述意图信息用于表征所述用户的业务意图；

根据所述用户的用户画像以及所述用户的历史业务记录，确定所述用户对应的业务特征信息；

将所述意图信息、所述业务关键词以及所述业务特征信息中的至少一种，作为所述用户特征信息。

可选地，所述根据所述文本信息，确定所述文本信息对应的意图信息以及所述文本信息中的业务关键词，包括：

将所述文本信息输入到预先训练的语言解析模型，得到所述意图信息以及所述业务关键词。

可选地，所述将所述语义向量、所述用户特征信息以及所述业务对话中上一句回复语音对应的对话回复策略输入到预先训练的对话回复策略模型，得到目标回复策略，包括：

将所述语义向量、所述用户特征信息以及所述业务对话中上一句回复语音对应的对话回复策略输入到预先训练的对话回复策略模型，得到针对所述语音信息的策略矩阵；

确定所述业务对话中上一句回复语音对应的对话回复策略的策略引导矩阵，所述策略引导矩阵用于表征相对于所述业务对话中上一句回复语音，下一句回复语音可以使用的对话回复策略；

通过所述策略引导矩阵，对所述策略矩阵进行处理，以得到目标回复策略。

可选地，所述根据所述目标回复策略，生成针对所述语音信息的回复语音，包括：

根据所述目标回复策略，确定所述目标回复策略所对应的动态语音变量以及语音模板；

将所述动态语音变量与所述语音模板进行语音拼接，生成针对所述语音信息的回复语音。

可选地，训练对话回复策略模型，包括：

获取各用户的历史业务对话；

针对每个历史业务对话，对该历史业务对话的语音信息进行识别，得到该历史业务对话中包含的来自用户的每句语音信息，作为样本语音；

针对每个样本语音，确定该样本语音对应的语义向量；

根据该样本语音对应的文本信息、该样本语音对应用户的用户画像以及历史业务记录，确定样本语音对应用户的用户特征信息，作为样本用户特征信息；

按照该历史业务对话中各语音信息的时间先后顺序，确定该历史业务对话中位于该样本语音之前，且与该样本语音相邻的回复语音，作为样本回复语音；

将该样本语音对应的语义向量、所述样本用户特征信息以及针对所述样本回复语音标注出的对话回复策略输入到所述对话回复策略模型中，得到针对该样本语音的对话回复策略；

根据针对该样本语音的对话回复策略以及预设的优化函数，对所述对话回复策略模型进行训练。

本说明书提供了一种自动语音交互的装置，包括：

接收模块，用于接收用户的语音信息，所述语音信息是所述用户针对业务对话发起的；

语音识别模块，用于对所述语音信息进行识别，得到所述语音信息对应的文本信息；

确定模块，用于根据所述文本信息、所述用户的用户画像、所述用户的历史业务记录，以及所述业务对话中上一句回复语音对应的对话回复策略，确定针对所述语音信息的对话回复策略，作为目标回复策略，其中，所述目标回复策略是通过预先训练的对话回复策略模型确定的；

语音生成模块，用于根据所述目标回复策略，生成针对所述语音信息的回复语音；

语音播放模块，用于将针对所述语音信息的回复语音播放给所述用户。

本说明书提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述自动语音交互的方法。

本说明书提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述自动语音交互的方法。

本说明书采用的上述至少一个技术方案能够达到以下有益效果：

在本说明书提供的自动语音交互的方法中，可以根据接收到的用户的语音信息，用户的用户画像、用户的历史业务记录，以及当前的业务对话中上一句回复语音对应的对话回复策略，确定针对接收到的用户的语音信息的对话回复策略，并根据确定的对话回复策略生成针对该用户的语音信息的回复语音，完成一次语音交互。如此，本说明书中的自动语音交互的方案，不仅能够实现智能语音交互，减少人工参与，同时还能够参考用户语音信息、用户的历史业务记录用户画像、用户的历史业务记录等信息，针对不同的用户灵活地采用不同的回复语音，提高业务对话的效率，便于业务的开展。此外，本说明书中还考虑了当前的业务对话中上一句回复语音对应的对话回复策略，使得最终确定出的回复语音在整个业务对话的逻辑上更为通顺，这样得出的回复语音不仅提高了在业务对话中的合适程度，还能够在一定程度上提高业务对话的效率。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书中一种自动语音交互的方法的流程示意图；

图2为本说明书中对话回复策略模型的训练方法的流程的示意图；

图3为本说明书提供的一种自动语音交互的装置的示意图；

图4为本说明书提供的对应于图1的电子设备示意图。

具体实施方式

目前，互联网服务平台往往都有着海量的用户，而在这一基础上继续沿用传统的人工电话客服的方式提供服务，存在培训上岗周期长，人员不足，成本高等问题。且还存在由于人工服务带来的固有缺陷，如难以实现有效的监管，易受到情绪变化影响，易造成客户信息泄露等。自动语音交互可以很好地避免上述问题的出现。然而，目前的自动语音交互多需要人工定义各对话策略以及设计各对话策略间的跳转规则，并在回复语音时按照设定的规则进行机器人对话。但是随着业务场景的不断丰富以及业务场景的精细化发展，对话策略以及对话策略间的跳转规则随之变得尤为复杂，使得人工配置和管理的难度急剧上升。此外，由于各对话策略以及各对话策略间的跳转规则是人工设定的，在面对不同的顾客时，现有的自动语音交互难以灵活地根据用户的反应进行对话策略的调整。

为解决上述问题，本说明书中提出一种自动语音交互的方法，该方法中，接收用户的语音信息，并对该语音信息进行识别，得到该语音信息对应的文本信息，然后通过预先训练的对话回复策略模型，根据该文本信息、用户的用户画像、用户的历史业务记录，以及业务对话中上一句回复语音对应的对话回复策略，确定针对该语音信息的对话回复策略，然后根据确定的针对该语音信息的对话回复策略进行回复。

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

图1为本说明书中一种自动语音交互的方法的流程示意图，具体包括以下步骤：

步骤S100，接收用户的语音信息，所述语音信息是所述用户针对业务对话发起的；

本说明书中实现自动语音交互功能的执行主体可以是电脑等终端设备，也可以是由服务器、终端等构成的业务平台，该业务平台可以向用户所需的业务。为了便于描述，下面将仅以业务平台是执行主体为例，对本说明书实施例中的自动语音交互方法进行说明。

本说明书提供的自动语音交互的方法可以应用于多种业务场景的自动语音交互中，如信贷业务中通过智能语音进行欠款催收、网上问诊业务中通过智能语音进行问诊预约等，为了便于描述，下面仅以信贷业务中通过智能语音进行欠款催收的业务场景，对本说明书提供的自动语音交互的方法进行说明，而在其他业务场景中如何使用该自动语音交互的方法，与信贷业务中欠款催收业务场景的使用方式基本相同，就不详细赘述了。

在本说明书中，业务平台可以接收用户的语音信息，这一语音信息可以是用户针对一次业务对话所发起的。该语音信息可以是一次业务对话中的任意一句语音信息。而这里提到的用户可以是在业务平台进行借贷，但未按期还款的逾期用户。相应的，业务对话可以指对针对逾期用户进行欠款催收的信贷催收业务电话。具体的，业务平台在监测到用户出现逾期未还款的情况时，可以向该用户发起进行信贷催收的业务对话，当用户基于该业务对话进行语音回复时，业务平台可以接收到该用户的语音信息。

步骤S102，对所述语音信息进行识别，得到所述语音信息对应的文本信息。

本说明书中，在接收到来自用户的语音信息后，业务平台可以将该语音信息进行识别和转化，得到相应的文本信息。其中，业务平台得到该文本信息的方式可以有多种，例如，业务平台可以将该语音信息输入到自动语音识别模型中进行识别，得到该语音信息对应的文本信息。其中，这里提到的自动语音识别模型是通过有监督训练的方式预先训练出来的。再例如，业务平台中保存有预先建立的语音信息的文本库，所以，业务平台在接收到该语音信息后，可以从文本库中查询出该语音信息对应的文本信息。其他方式在此就不详细举例说明了。

步骤S104，根据所述文本信息、所述用户的用户画像、所述用户的历史业务记录，以及所述业务对话中上一句回复语音对应的对话回复策略，确定针对所述语音信息的对话回复策略，作为目标回复策略，其中，所述目标回复策略是通过预先训练的对话回复策略模型确定的。

本说明书中，在得到用户的语音信息对应的文本信息后，业务平台还将获取用户的用户画像、用户的历史业务记录，以及当前的业务对话中上一句回复语音对应的对话回复策略，随后再基于获取的用户的用户画像、用户的历史业务记录，当前业务对话中上一句回复语音对应的对话回复策略以及用户的语音信息对应的文本信息，确定针对用户的语音信息的对话回复策略。

其中，用户的用户画像由用户的基本属性信息构成，包括用户年龄、用户性别、职业、收入等。用户的画像能够在一定程度上表征出用户的还款能力，以及可接受的回复语音的特点。用户的历史业务记录包括：C卡评分(用于评估用户的还款能力，这一评分是基于用户的历史借贷业务的催收结果评估的，评分越高，表明用于还款的能力越强)，历史借贷业务的逾期金额、历史还款金额，历史还款时间、个人征信等。这些历史业务记录也能够在一定程度上表征出用户的还款能力。

所以，结合用户的用户画像以及历史业务记录，可以在一定程度上确定出用户的还款能力以及适合该用户的回复语音的语音特点。而通过当前业务对话中上一句回复语音对应的对话回复策略，可以使得最终确定出的回复语音在整个业务对话的逻辑上更为通顺，这样得出的回复语音不仅提高了在业务对话中的合适程度，还能够在一定程度上提高业务对话的效率。

在具体实施中，业务平台需要先根据用户的语音信息对应的文本信息、用户的用户画像、用户的历史业务记录，确定该文本信息对应的语义向量以及用户对应的用户特征信息，再将该语义向量、用户对应的用户特征信息以及当前业务对话中上一句回复语音对应的对话回复策略输入到预先训练的对话回复策略模型，得到针对用户的语音信息的对话回复策略(即目标回复策略)。

其中，用户的特征信息可以包括：意图信息、业务关键词以及业务特征信息等信息。这里提到的意图信息用于表征该用户的业务意图，如该用户是否具有还款的意愿。

在本说明书中，业务平台可以根据自动语音识别模型识别出的文本信息，确定该文本信息对应的语义向量。其中，业务平台确定该语义向量的方式可以有多种，例如，业务平台可以采用word2vec(Word to Vector，文本向量化)的方式，将识别出的文本信息进行转化，得到该文本信息对应的语义向量。业务平台还可以通过中文预训练语言模型(Bert-Base-Chinese)，得到该文本信息对应的语义向量。其他方式在此就不详细举例说明了。

在确定用户对应的用户特征信息时，若预设的用户的特征信息中包含有意图信息和/或业务关键词，业务平台则将用户语音信息对应的文本信息输入到预先训练的语言解析模型，得到该文本信息对应的意图信息以及该文本信息中的业务关键词。该语言解析模型具有两种功能，一是能够根据输入的文本信息，确定出用户对应的意图信息，二是能够从输入的文本信息中提取出相应的业务关键词(如与催收业务相关性高的业务关键词)。在信贷业务的催收场景中，业务关键词可以包括：用户答复的还款时间、还款金额等关键词。

业务特征信息是通过该用户的用户画像以及历史业务记录之间的结合得到的，即，业务平台可以根据用户的用户画像以及用户的历史业务记录，确定该用户对应的业务特征信息。其中，业务特征信息能够在一定程度上表征在该用户画像下所体现出的业务特征。

基于上述用户的用户画像和用户的历史业务记录确定用户对应的业务特征信息时，需要对各特征信息进行预处理。如，对于用户画像中诸如性别等的离散形式的信息，可以采用one-hot的编码方式进行编码。而对于历史业务记录中诸如历史还款金额等连续形式的信息进行归一化处理。而后，业务平台可以将处理后的各项数据进行拼接，从而得到相应的业务特征信息。

本说明书中，业务平台使用的对话回复策略模型可以是LSTM(Long Short-TermMemory，长短期记忆网络)。在进行业务对话时，对话回复策略模型中将存在一个初始的隐藏状态向量，接收到用户语音信息后，将根据上述方法确定出的语义向量、用户对应的用户特征信息以及当前业务对话中上一句回复语音对应的对话回复策略构成输入向量X(t)，并将向量X(t)输入到对话回复策略模型(LSTM)中，该对话回复模型将基于记忆的上一句语音对应的隐藏状态向量H(t-1)，得到这一句语音对应的隐藏状态向量H(t)并记忆，再经过输出层以及softmax，得到针对这一句回复语音对应的对话回复策略。其中，隐藏状态向量H(t-1)用于表征对话回复模型记忆的上一句回复语音的对话回复策略的策略特征。相应的，隐藏状态向量H(t)则用于表征对话回复模型需要记忆的此时接收到的语音信息的对话回复策略的策略特征。隐藏状态向量H(t)用于使对话回复模型确定向量X(t+1)所对应的回复语音的对话回复策略。

本说明书中，业务平台在确定出需要输入到对话回复策略模型的输入数据(语义向量、用户特征信息以及业务对话中上一句回复语音对应的对话回复策略)后，可以将确定出的输入数据输入到预先训练的对话回复策略模型中去，得到针对用户的语音信息的策略矩阵。然后，业务平台可以确定该业务对话中上一句回复语音对应的对话回复策略的策略引导矩阵，并通过该策略引导矩阵，对确定出的策略矩阵进行处理，最终得到用户的语音信息对应的目标回复策略。其中，策略引导矩阵用于表征相对于该业务对话中上一句回复语音，下一句回复语音可以使用的对话回复策略。

例如：策略矩阵形式为(对话回复策略1，对话回复策略2，对话回复策略3，对话回复策略4，对话回复策略5)，且根据业务规则设定，在对话回复策略1后，只可以采用对话回复策略3以及对话回复策略4，则对话回复策略1对应的策略引导矩阵为(0，0，1，1，0)。

当业务对话中上一句回复语音对应的对话回复策略为对话回复策略1，当前对话回复策略模型输出的策略矩阵为(0.01，0.02，0.07，0.8，0.1)，通过该策略引导矩阵，对确定出的策略矩阵进行处理，得到优化后的策略矩阵(0，0，0.07，0.8，0)，基于该优化后的策略矩阵，可以确定当前的目标回复策略对话回复策略4。

从上述示例中可以看出，上述策略引导矩阵的一个主要作用是，能够在一定程度上将与接下来的回复语音不相匹配的对话回复策略屏蔽掉，从而有效地保证了确定出的回复语音的合理性。

步骤S106，根据所述目标回复策略，生成针对所述语音信息的回复语音。

本说明书中，业务平台在确定出上述目标回复策略后，可以直接确定出针对上述语音信息的回复语音，如，将该目标回复策略输入到预先训练的语音应答模型中，得到该回复语音。

当然，业务平台也可以根据确定出的目标回复策略，确定该目标回复策略所对应的动态语音变量以及语音模板，然后将该动态语音变量与语音模板进行语音拼接，生成针对用户的语音信息的回复语音。一个对话回复策略可以对应一个语音模板。在每个对话回复策略下，针对逾期用户的逾期借贷业务，需要根据用户个人数据生成的语音可以称之为动态语音变量。

例如：预设的对话回复策略如下表所示：

表1，对话回复策略与语音模板、动态语音变量之间的对应关系

若确定是逾期用户本人，且确定出目标回复策略为通知欠款时，业务平台查询上表，确定目标回复策略(通知欠款)对应的语音模板为“您好，这里是(XXX)，您的款项没有扣到，已经逾期(XXX)天，请问是什么情况？”，在确定出该逾期用户对应的动态语音变量为“某某金融”“三天”，则最终生成的回复语音为“您好，这里是某某金融，您的款项没有扣到，已经逾期三天了，请问是什么情况？”。

步骤S108，将针对所述语音信息的回复语音播放给所述用户。

本说明书中，通过上述步骤，可以根据接收到的用户的语音信息，用户的用户画像、用户的历史业务记录，以及当前的业务对话中上一句回复语音对应的对话回复策略，确定针对接收到的用户的语音信息的对话回复策略，并根据确定的对话回复策略生成针对该用户的语音信息的回复语音，完成一次语音交互。如此，在信贷催收业务中，通过本说明书中的自动语音交互方案，可以根据逾期用户回复的语音，以及获取的逾期用户的用户画像、逾期用户的历史业务记录、当前业务对话中上一句回复语音对应的对话回复策略，自动生成针对逾期用户的语音的对话回复策略，并根据该对话回复策略向用户发送回复语音，进而能够根据用户的反应灵活的调整催收话术，以实现智能语音催收。

本说明书中需要预先训练上述对话回复策略模型。基于此，本说明书中还提供了该对话回复策略模型的训练方法。

如图2所示，本说明书提供一种训练对话回复策略模型的方法的流程示意图，具体包括：

步骤S200，获取各用户的历史业务对话。

步骤S202，针对每个历史业务对话，对该历史业务对话的语音信息进行识别，得到该历史业务对话中包含的来自用户的每句语音信息，作为样本语音。

步骤S204，针对每个样本语音，确定该样本语音对应的语义向量。

步骤S206，根据该样本语音对应的文本信息、该样本语音对应用户的用户画像以及历史业务记录，确定样本语音对应用户的用户特征信息，作为样本用户特征信息。

本说明书中，训练对话回复策略模型时使用的样本数据可以是人工催收时的历史业务对话的音频记录。在训练对话回复策略模型之前，业务平台需要从每个历史业务对话中确定出该历史业务对话中来自用户的语音信息，并且需要对每个历史业务对话的语音信息进行识别，确定出每条来自用户的语音信息对应的文本信息。其中，从语音信息进行识别的方式可以有多种，如使用ASR(自动语音识别，Automatic Speech Recognition)系统对历史业务对话中的语音信息进行识别。

训练过程中，该样本语音对应的语义向量、所述样本用户特征信息的确定方式与上述使用过程中的确定方式相一致，故不再一一赘述。

步骤S208，按照该历史业务对话中各语音信息的时间先后顺序，确定该历史业务对话中位于该样本语音之前，且与该样本语音相邻的回复语音，作为样本回复语音。

从上述的模型使用过程中可以看出，对话回复策略模型在确定回复语音对应的对话回复策略时，需要用到上一句回复语音所对应的对话回复策略，所以，在模型训练过程中，需要按照该历史业务对话中各语音信息的时间先后顺序，确定该历史业务对话中位于该样本语音之前，且与该样本语音相邻的回复语音，作为样本回复语音。

例如，在一个历史业务对话中，有7句语音，其中，1、3、5、7为业务平台通过客户端向用户播放的回复语音，2、4、6为用户应答的语音信息。假设，4为上述样本语音，则这里提到的样本回复语音即为业务平台通过客户端向用户播放的回复语音：3。

步骤S210，将该样本语音对应的语义向量、所述样本用户特征信息以及针对所述样本回复语音标注出的对话回复策略输入到所述对话回复策略模型中，得到针对该样本语音的对话回复策略。

值得一提的是，在这一步骤中，输入到对话回复策略模型中的样本回复语音对应的对话回复策略，是人工标注出的，因为上述历史业务对话中所产生的各个回复语音，并不是基于该对话回复模型(或是训练后的对话回复模型)得到的，所以，该样本回复语音对应的实际对话回复策略可能是不合理的，因此，需通过人工的方式进行标注，以保证对话回复策略模型的训练效果。

步骤S212，根据针对该样本语音的对话回复策略以及预设的优化函数，对所述对话回复策略模型进行训练。

本说明书中的预设的优化函数可以有多种，如交叉熵损失函数等，本说明书不对具体的优化函数进行限定。而在训练对话回复策略模型时，可以采用诸如随机梯度下降方法、adam优化器等方式，对该对话回复策略模型进行训练。

上述说明书实施例中提供的自动语音交互的方法可以用于适用于智能客服语音交互的任意业务场景中，业务平台可以基于本说明书提供的方法，通过智能客服实现与用户之间的语音应答，并通过整个过程的语音应答，为用户提供业务服务。所以，本说明书提供的自动语音交互的方法除了可以应用于上述智能语音催收业务场景外，还可以应用到其他需要智能客服语音交互的业务场景中。例如，在线上医疗业务场景中，可以接收得到的用户的语音信息，并结合用户的用户画像、用户的历史就诊记录，以及业务对话中上一句回复语音对应的对话回复策略，确定针对接收到的语音信息的对话回复策略，生成相应的回复语音并播放给用户，已完成多轮就诊的对话。通过与用户之间的多轮对话确定用户需求，进而为用户提供预约挂号、科室咨询等服务。

以上为本说明书的一个或多个实施例提供的自动语音交互的方法，基于同样的思路，本说明书还提供了相应的自动语音交互的装置，如图3所示。

图3为本说明书提供的一种自动语音交互的装置示意图，具体包括：

接收模块300，用于接收用户的语音信息，所述语音信息是所述用户针对业务对话发起的；

语音识别模块301，用于对所述语音信息进行识别，得到所述语音信息对应的文本信息；

确定模块302，用于根据所述文本信息、所述用户的用户画像、所述用户的历史业务记录，以及所述业务对话中上一句回复语音对应的对话回复策略，确定针对所述语音信息的对话回复策略，作为目标回复策略，其中，所述目标回复策略是通过预先训练的对话回复策略模型确定的；

语音生成模块303，用于根据所述目标回复策略，生成针对所述语音信息的回复语音；

语音播放模块304，用于将针对所述语音信息的回复语音播放给所述用户。

可选地，所述确定模块302，具体用于在根据所述文本信息、所述用户的用户画像、所述用户的历史业务记录，以及所述业务对话中上一句回复语音对应的对话回复策略，确定目标回复策略时，根据所述文本信息，确定所述文本信息对应的语义向量；根据所述文本信息、所述用户画像以及所述历史业务记录，确定所述用户对应的用户特征信息；将所述语义向量、所述用户特征信息以及所述业务对话中上一句回复语音对应的对话回复策略输入到预先训练的对话回复策略模型，得到目标回复策略。

可选地，所述确定模块302，具体用于在根据所述文本信息、所述用户画像以及所述历史业务记录，确定所述用户对应的用户特征信息时，根据所述文本信息，确定所述文本信息对应的意图信息以及所述文本信息中的业务关键词，所述意图信息用于表征所述用户的业务意图；据所述用户的用户画像以及所述用户的历史业务记录，确定所述用户对应的业务特征信息；将所述意图信息、所述业务关键词以及所述业务特征信息中的至少一种，作为所述用户特征信息。

可选地，所述确定模块302，具体用于在根据所述文本信息，确定所述文本信息对应的意图信息以及所述文本信息中的业务关键词时，将所述文本信息输入到预先训练的语言解析模型，得到所述意图信息以及所述业务关键词。

可选地，所述确定模块302，具体用于在将所述语义向量、所述用户特征信息以及所述业务对话中上一句回复语音对应的对话回复策略输入到预先训练的对话回复策略模型，得到目标回复策略时，将所述语义向量、所述用户特征信息以及所述业务对话中上一句回复语音对应的对话回复策略输入到预先训练的对话回复策略模型，得到针对所述语音信息的策略矩阵；确定所述业务对话中上一句回复语音对应的对话回复策略的策略引导矩阵，所述策略引导矩阵用于表征相对于所述业务对话中上一句回复语音，下一句回复语音可以使用的对话回复策略；通过所述策略引导矩阵，对所述策略矩阵进行处理，以得到目标回复策略。

可选地，所述语音生成模块303，具体用于在根据所述目标回复策略，生成针对所述语音信息的回复语音时，根据所述目标回复策略，确定所述目标回复策略所对应的动态语音变量以及语音模板；将所述动态语音变量与所述语音模板进行语音拼接，生成针对所述语音信息的回复语音。

可选地，所述装置还包括：

模型训练模块305，具体用于获取各用户的历史业务对话；针对每个历史业务对话，对该历史业务对话的语音信息进行识别，得到该历史业务对话中包含的来自用户的每句语音信息，作为样本语音；针对每个样本语音，确定该样本语音对应的语义向量；根据该样本语音对应的文本信息、该样本语音对应用户的用户画像以及历史业务记录，确定样本语音对应用户的用户特征信息，作为样本用户特征信息；按照该历史业务对话中各语音信息的时间先后顺序，确定该历史业务对话中位于该样本语音之前，且与该样本语音相邻的回复语音，作为样本回复语音；将该样本语音对应的语义向量、所述样本用户特征信息以及针对所述样本回复语音标注出的对话回复策略输入到所述对话回复策略模型中，得到针对该样本语音的对话回复策略；根据针对该样本语音的对话回复策略以及预设的优化函数，对所述对话回复策略模型进行训练。

本说明书还提供了一种计算机可读存储介质，该存储介质存储有计算机程序，计算机程序可用于执行上述图1提供的自动语音交互的方法。

本说明书还提供了图4所示的电子设备的示意结构图。如图4所述，在硬件层面，该电子设备包括处理器、内部总线、网络接口、内存以及非易失性存储器，当然还可能包括其他业务所需要的硬件。处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，以实现上述图1所述的自动语音交互的方法。当然，除了软件实现方式之外，本说明书并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本说明书时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本说明书的实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种自动语音交互的方法，其特征在于，包括：

根据所述文本信息，确定所述文本信息对应的语义向量，根据所述文本信息、所述用户画像以及历史业务记录，确定所述用户对应的用户特征信息，将所述语义向量、所述用户特征信息以及所述业务对话中上一句回复语音对应的对话回复策略输入到预先训练的对话回复策略模型，得到针对所述语音信息的策略矩阵，确定所述业务对话中上一句回复语音对应的对话回复策略的策略引导矩阵，所述策略引导矩阵用于表征相对于所述业务对话中上一句回复语音，下一句回复语音可以使用的对话回复策略，通过所述策略引导矩阵，对所述策略矩阵进行处理，得到针对所述语音信息的对话回复策略，作为目标回复策略；

将针对所述语音信息的回复语音播放给所述用户。

2.如权利要求1所述的方法，其特征在于，所述用户特征信息包括：意图信息、业务关键词以及业务特征信息中的至少一种；

3.如权利要求2所述的方法，其特征在于，所述根据所述文本信息，确定所述文本信息对应的意图信息以及所述文本信息中的业务关键词，包括：

4.如权利要求1所述的方法，其特征在于，所述根据所述目标回复策略，生成针对所述语音信息的回复语音，包括：

5.如权利要求1所述的方法，其特征在于，训练对话回复策略模型，包括：

获取各用户的历史业务对话；

针对每个样本语音，确定该样本语音对应的语义向量；

6.一种自动语音交互的装置，其特征在于，包括：

确定模块，用于根据所述文本信息，确定所述文本信息对应的语义向量，根据所述文本信息、所述用户画像以及历史业务记录，确定所述用户对应的用户特征信息，将所述语义向量、所述用户特征信息以及所述业务对话中上一句回复语音对应的对话回复策略输入到预先训练的对话回复策略模型，得到针对所述语音信息的策略矩阵，确定所述业务对话中上一句回复语音对应的对话回复策略的策略引导矩阵，所述策略引导矩阵用于表征相对于所述业务对话中上一句回复语音，下一句回复语音可以使用的对话回复策略，通过所述策略引导矩阵，对所述策略矩阵进行处理，得到针对所述语音信息的对话回复策略，作为目标回复策略；

7.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～5任一项所述的方法。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述权利要求1～5任一项所述的方法。