CN111949784A

CN111949784A - 基于意图识别的外呼方法及装置

Info

Publication number: CN111949784A
Application number: CN202010820422.9A
Authority: CN
Inventors: 韩萌; 陈永录; 刘浩; 牛伯宇
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-11-17

Abstract

本发明提供了一种基于意图识别的外呼方法及装置，可用于大数据技术领域。所述方法包括：获取用户历史对话的语音数据及对话状态，将所述语音数据转换为文本数据；将所述文本数据输入至意图识别模型中，得到所述用户历史对话对应的用户意图；根据所述用户意图及所述对话状态进行外呼话术配置，利用所述外呼话术配置进行外呼语音合成，向用户发起外呼并提供合成的外呼语音。本发明基于精准的意图识别进行有价值的外呼服务，可以更好的预测一些潜在业务，并且使得外呼有针对性的为特定人群提供产品和服务，由此客户可以获得更加满意的服务，同时减低了大量的人工座席，降低人工座席雇佣、培训、质检等带来的巨大成本。

Description

基于意图识别的外呼方法及装置

技术领域

本发明涉及大数据技术领域，尤指一种基于意图识别的外呼方法及装置。

背景技术

随着经济的快速发展，银行在为客户提供更加丰富产品的同时沉淀了海量数据,客户信息量成倍的增加，巨大的客户信息数据中隐藏了无限可用的信息，如果把这些信息挖掘出来，并管理、利用和营销这些信息，使得这些隐藏的信息发挥作用，是金融行业建设的重要内容。传统的外呼服务往往是纯手工操作拨号和借助呼叫中心自动外呼拨号，在转接给合适的电话业务员。由于传统外呼以人工为主，存在通话效率低下，服务质量低下且话术不规范等问题。

发明内容

本发明实施例的主要目的在于提供一种基于意图识别的外呼方法及装置，实现追踪客户行为变化，精准定位客户需求，进而提升服务质量及有针对性的进行客户外呼服务。

为了实现上述目的，本发明实施例提供一种基于意图识别的外呼方法，所述方法包括：

获取用户历史对话的语音数据及对话状态，将所述语音数据转换为文本数据；

将所述文本数据输入至意图识别模型中，得到所述用户历史对话对应的用户意图；

根据所述用户意图及所述对话状态进行外呼话术配置，利用所述外呼话术配置进行外呼语音合成，向用户发起外呼并提供合成的外呼语音。

可选的，在本发明一实施例中，所述方法还包括：获取用户在接收到外呼语音后的语音回复，对所述语音回复进行语言识别，得到对应的文字回复；根据所述文字回复，更新对话状态并进行应答话术配置，利用所述应答话术配置进行应答语音合成，向用户提供合成的应答语音。

可选的，在本发明一实施例中，所述意图识别模型包括嵌入层、编码层及输出层。

可选的，在本发明一实施例中，所述将所述文本数据输入至意图识别模型中，得到所述用户历史对话对应的用户意图包括：将文本数据输入所述嵌入层，生成词表示；所述词表示输入至所述编码层进行编码，生成句子向量；所述句子向量输入至所述输出层进行变换及计算，得到所述用户历史对话的用户意图。

本发明实施例还提供一种基于意图识别的外呼装置，所述装置包括：

语音转换模块，用于获取用户历史对话的语音数据及对话状态，将所述语音数据转换为文本数据；

意图确定模块，用于将所述文本数据输入至意图识别模型中，得到所述用户历史对话对应的用户意图；

外呼语音模块，用于根据所述用户意图及所述对话状态进行外呼话术配置，利用所述外呼话术配置进行外呼语音合成，向用户发起外呼并提供合成的外呼语音。

可选的，在本发明一实施例中，所述装置还包括：语音识别模块，用于获取用户在接收到外呼语音后的语音回复，对所述语音回复进行语言识别，得到对应的文字回复；应答语音模块，用于根据所述文字回复，更新对话状态并进行应答话术配置，利用所述应答话术配置进行应答语音合成，向用户提供合成的应答语音。

可选的，在本发明一实施例中，所述意图确定模块包括：词表示单元，用于将文本数据输入所述嵌入层，生成词表示；句子向量单元，用于所述词表示输入至所述编码层进行编码，生成句子向量；用户意图单元，用于所述句子向量输入至所述输出层进行变换及计算，得到所述用户历史对话的用户意图。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述方法的计算机程序。

本发明基于精准的意图识别进行有价值的外呼服务，可以更好的预测一些潜在业务，并且使得外呼有针对性的为特定人群提供产品和服务，由此客户可以获得更加满意的服务，同时减低了大量的人工座席，降低人工座席雇佣、培训、质检等带来的巨大成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于意图识别的外呼方法的流程图；

图2为本发明实施例中外呼应答过程的流程图；

图3为本发明实施例中意图识别模型的结构示意图；

图4为本发明实施例中意图识别的流程图；

图5为本发明实施例一种基于意图识别的外呼装置的结构示意图；

图6为本发明实施例中外呼装置的结构示意图；

图7为本发明实施例中外呼装置的工作流程示意图；

图8为本发明实施例中意图确定模块的结构示意图；

图9为本发明一实施例所提供的电子设备的结构示意图。

具体实施方式

本发明实施例提供一种基于意图识别的外呼方法及装置，可用于大数据技术领域。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明实施例一种基于意图识别的外呼方法的流程图，图中所示方法包括：

步骤S1，获取用户历史对话的语音数据及对话状态，将所述语音数据转换为文本数据。

其中，基于大数据平台，获取过去与用户进行的通话历史语音数据，以及当时的对话状态。对话状态可以包括客户所需服务是否完成等。将用户历史语音数据通过常规语音转换技术，转换为对应的文本数据。

步骤S2，将所述文本数据输入至意图识别模型中，得到所述用户历史对话对应的用户意图。

其中，将文本数据作为输入数据，输入至预先建立好的意图识别模型中进行意图识别，意图识别模型的输出为用户历史对话的语音数据所属意图的概率。进一步的，当所属意图的概率超过预设阈值时，则认为当前的意图为用户历史对话的语音数据对应的用户意图。

步骤S3，根据所述用户意图及所述对话状态进行外呼话术配置，利用所述外呼话术配置进行外呼语音合成，向用户发起外呼并提供合成的外呼语音。

其中，用户意图可以包括例如报失、信息查询及办理业务等等。每一种用户意图都有对应类型的话术配置，再根据当前的对话状态，选择具体的话术配置，其中，话术配置为预设的，话术配置中可以包括例如用户的账户信息、咨询的业务信息、通话日期等等。例如，用户银行卡被吞，用户曾来电进行说明，通话结束后，客服人员需要进行电话回访以确定吞卡问题是否已经解决。外呼平台获取该来电的语音数据并进行转换及识别，确定了用户意图为对吞卡的求助，对话状态为等待业务人员解决。那么，首先选择与吞卡相匹配的话术配置类型，鉴于对话状态为等待业务人员解决，因此，选取外呼的话术配置为回访吞卡问题是否被解决。对选取好的话术配置进行TTS语音合成，得到外呼语音，并发起外呼，将外呼语音提供给用户。具体的，利用话术配置合成后的外呼语音播报可以为例如“尊敬的客户您好，我们于xx月xx日接到您的来电，您尾号为xxxx的银行卡被ATM机吞卡，请问业务人员是否已经为您解决该问题”。

作为本发明的一个实施例，如图2所示，方法还包括：

步骤S21，获取用户在接收到外呼语音后的语音回复，对所述语音回复进行语言识别，得到对应的文字回复。

其中，用户收到外呼语音后，做出相应的语音回复，开始进行对话流程。具体的，收到用户语音回复后通过MRCP协议调用ASR服务进行语音识别，将语音回复转换为文字回复。

步骤S22，根据所述文字回复，更新对话状态并进行应答话术配置，利用所述应答话术配置进行应答语音合成，向用户提供合成的应答语音。

具体的，将文字回复通过HTTP协议调用业务流程进行对话状态更新，根据文字回复及当前的对话状态，选取对应的应答话术配置。依据应答话术配置进行TTS语音合成，将合成的应答语音播放给用户。根据对话流程状态，重复接收用户语音回复及给出相应的应答语音的操作，直至外呼对话流程结束。

作为本发明的一个实施例，如图3所示，意图识别模型包括嵌入层、编码层及输出层。

其中，本发明参考Char-Level ConvNets、C-LSTM等经典模型，并综合了多种模型的优点，设计了基于深度学习的意图识别模型，意图识别模型输入为文本数据，输出为该文本数据所属不同意图的概率，模型主要结构图如图3所示。

在本实施例中，如图4所示，将文本数据输入至意图识别模型中，得到所述用户历史对话对应的用户意图包括：

步骤S41，将文本数据输入所述嵌入层，生成词表示；

步骤S42，所述词表示输入至所述编码层进行编码，生成句子向量；

步骤S43，所述句子向量输入至所述输出层进行变换及计算，得到所述用户历史对话的用户意图。

具体的，嵌入层主要功能为生产词表示，编码层以词表示输入，完成对句子进行编码，输出句子向量，输出层将句子向量进一步变换，计算损失函数，最终通过反向传播算法更新网络参数。

(1)嵌入层：嵌入层的输入为句子，输出为句子对应的词向量、字向量、拼音向量合并后的词表示。嵌入层首先对句子进行分词，且在分词基础上对每个词进行分字以及拼音优化，然后进行Token(词、字或向量)到id(词典中的id)的转化，将原始句子转换计算机可以识别的数字索引向量。该索引向量为网络模型的实际输入，并通过索引向量将对应Token映像到对应的嵌入向量。

最终的词表示来自词向量嵌入、字向量嵌入和拼音向量嵌入，分别记为(w₁,w₂,...w_T)、((c₁,...c_s)₁,...(c₁,...c_s)_T)、((p₁,...p_s)₁,...(p₁,...p_s)_T)。其中T为句子的最大长度，S为单个词的最大长度(包含字的人数)，w_i为词向量、c_i为字符向量、p_i为拼音向量，三种向量的维度均取200。实际句子长度不足T或实际词长度不足S，均为PAD字符填充(取0)。特别的，词向量直接使用预训练词向量，字向量和拼音向量则首先通过卷积神经网络对进行编码得到细粒度的词表示(保证编码后输入Token的数量不变)。

对于每个词的字向量Embedding(c₁,c₂,...c_s)_i其中c_j为第i个词的第j个字，维度为k,一个长度为S的词(不足S用PAD字符补充)表示为：

其中

是拼接运算符。卷积运算包括一个卷积w∈R^hk，其中h为卷积窗口，k为字向量维度，卷积核W可以从h个字中提取新的特征。例如，特征f_i可以一个大小为h的窗口中提取得到：

f_i＝δ(wx_i:i+h-1+b) (1-2)

其中δ为非线性函数(如sigmoid、relu等)，b为变换偏移。通过卷积操作，该卷积核生产一个特征映射：

f＝[f₁,...f_s-h+1] (1-3)

最终，特征映射f经过最大池化操作的到该卷积核提取的一维特征：f＝max{f}。而该特征是由一个卷积核提取得到，在实际操作中，本发明使用多个卷积核(不同窗口大小)得到多维特征向量，最后得到对应词的词表示。

与字符向量编码方式一致，拼音向量仍采用相同方式得到对应的拼音粒度的词表示。最后直接预训练的词向量核字符、拼音粒度的词表示拼接得到最终的词表示，记作(w_c1,w_c2,...w_cT),其中w_ci为第i个词汇的拼接向量。最后的词表示通过Dropout层后作为下一层的输入，进行句子级别的编码。

(2)编码层：编码层的输入是嵌入层得到的词表示(w_c1,w_c2,...w_cT)，并将词表示序列按正序和逆序分别输入到前后向LSTM中。由于自然理解所针对的句子一般为短文本，直接取双向LSTM最后状态的输出然后拼接，往往就可以捕捉到文本的语义序列信息。前向LSTM和后向LSTM在t时刻的输出分别为：

而最终的句子表示为：

(3)输出层：输出层的输入为编码层的句子表示h_T，之后经过全连接，进行非线性的特征组合，输出分数向量。分数向量最终通过一个softmax层得到最后的输出类别的归一化后的概率向量，维度和标签种数一致。

P(y＝k)＝softmax(δ(W_oh_T)+b_o)_k (1-7)

其中P(y＝k)是预测标签为K的概率，最后的损失函数E为概率分布的交叉熵。

其中Y为样本的真实标签，N为输入样本数量(一般为Batch大小)

其中，词向量具有覆盖度高、新鲜度高及准确度高的特点。具体的，训练所用的语料库包含大量特定领域的单词或语音，训练所用的语料库包含大量新词和流行词，由于使用大规模的训练数据以及该词向量可以很好的反映中文词汇或短语的语义型。基于词向量的特点，词向量的训练细节如下：

(1)数据收集：词向量训练语料包含大规模新闻数据、网页以及小说，丰富数据的来源保证了词和短语的覆盖度。此外，语料收集了最近较新的王爷以及新闻数据，保证了语料的新鲜度。

(2)词典构建：在构建词表的过程中，词典包括百度百科中的词条短语。同时，词典的构建使用了分布式与基于模式的短语挖掘方法，增强了新短语的覆盖范围。

(3)训练算法：词向量的训练使用双向SKIP-GRAM算法，该算法同时考虑了词之间的共现关系以及窗口内词的上下文出现顺序，如窗口的上下文词汇在中心词的左边或右边。

本发明解决了传统外呼以人工为主，通话效率低下，服务质量低下且话术不规范等问题。在大数据背景下，了解更多的客户信息，通过精准的意图识别，得出有价值的隐藏的客户信息，更好的预测一些潜在业务，并通过交叉销售提供更多的服务，从巨大的客户信息中自动的、智能的、精准的挖掘出充分的信息，并通过这些信息指导银行产品和业务的定制，使得外呼有针对性的为特定人群提供产品和服务，客户可以获得更加满意的服务。

如图5所示为本发明实施例一种基于意图识别的外呼装置的结构示意图，图中所示装置包括：

语音转换模块10，用于获取用户历史对话的语音数据及对话状态，将所述语音数据转换为文本数据。

意图确定模块20，用于将所述文本数据输入至意图识别模型中，得到所述用户历史对话对应的用户意图。

外呼语音模块30，用于根据所述用户意图及所述对话状态进行外呼话术配置，利用所述外呼话术配置进行外呼语音合成，向用户发起外呼并提供合成的外呼语音。

作为本发明的一个实施例，如图6所示，装置还包括：

语音识别模块40，用于获取用户在接收到外呼语音后的语音回复，对所述语音回复进行语言识别，得到对应的文字回复。

应答语音模块50，用于根据所述文字回复，更新对话状态并进行应答话术配置，利用所述应答话术配置进行应答语音合成，向用户提供合成的应答语音。

在本发明一具体实施例中，本发明外呼装置的工作流程如图7所示。首先，利用意图识别模型，结合自然语言理解(NULL)模块，对用户历史对话的语音数据进行意图识别。再经过对话管理(DM)模块对对话状态进行追踪，并根据识别出的用户意图及当前的状态做出决策响应，选取恰当的话术配置。最终通过自然语言(NLG)模型利用话术配置生成用户可以理解的自然语言。

作为本发明的一个实施例，意图识别模型包括嵌入层、编码层及输出层。

在本实施例中，如图8所示，意图确定模块20包括：

词表示单元201，用于将文本数据输入所述嵌入层，生成词表示；

句子向量单元202，用于所述词表示输入至所述编码层进行编码，生成句子向量；

用户意图单元203，用于所述句子向量输入至所述输出层进行变换及计算，得到所述用户历史对话的用户意图。

基于与上述一种基于意图识别的外呼方法相同的申请构思，本发明还提供了上述一种基于意图识别的外呼装置。由于该一种基于意图识别的外呼装置解决问题的原理与一种基于意图识别的外呼方法相似，因此该一种基于意图识别的外呼装置的实施可以参见一种基于意图识别的外呼方法的实施，重复之处不再赘述。

如图9所示，该电子设备600还可以包括：通信模块110、输入单元120、音频处理单元130、显示器160、电源170。值得注意的是，电子设备600也并不是必须要包括图9中所示的所有部件；此外，电子设备600还可以包括图9中没有示出的部件，可以参考现有技术。

如图9所示，中央处理器100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器100接收输入并控制电子设备600的各个部件的操作。

其中，存储器140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器100可执行该存储器140存储的该程序，以实现信息存储或处理等。

输入单元120向中央处理器100提供输入。该输入单元120例如为按键或触摸输入装置。电源170用于向电子设备600提供电力。显示器160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器，但并不限于此。

该存储器140可以是固态存储器，例如，只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为EPROM等。存储器140还可以是某种其它类型的装置。存储器140包括缓冲存储器141(有时被称为缓冲器)。存储器140可以包括应用/功能存储部142，该应用/功能存储部142用于存储应用程序和功能程序或用于通过中央处理器100执行电子设备600的操作的流程。

存储器140还可以包括数据存储部143，该数据存储部143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器140的驱动程序存储部144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块110即为经由天线111发送和接收信号的发送机/接收机110。通信模块(发送机/接收机)110耦合到中央处理器100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)110还经由音频处理器130耦合到扬声器131和麦克风132，以经由扬声器131提供音频输出，并接收来自麦克风132的音频输入，从而实现通常的电信功能。音频处理器130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器130还耦合到中央处理器100，从而使得可以通过麦克风132能够在本机上录音，且使得可以通过扬声器131来播放本机上存储的声音。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于意图识别的外呼方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取用户在接收到外呼语音后的语音回复，对所述语音回复进行语言识别，得到对应的文字回复；

根据所述文字回复，更新对话状态并进行应答话术配置，利用所述应答话术配置进行应答语音合成，向用户提供合成的应答语音。

3.根据权利要求1所述的方法，其特征在于，所述意图识别模型包括嵌入层、编码层及输出层。

4.根据权利要求3所述的方法，其特征在于，所述将所述文本数据输入至意图识别模型中，得到所述用户历史对话对应的用户意图包括：

将文本数据输入所述嵌入层，生成词表示；

所述词表示输入至所述编码层进行编码，生成句子向量；

所述句子向量输入至所述输出层进行变换及计算，得到所述用户历史对话的用户意图。

5.一种基于意图识别的外呼装置，其特征在于，所述装置包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

语音识别模块，用于获取用户在接收到外呼语音后的语音回复，对所述语音回复进行语言识别，得到对应的文字回复；

应答语音模块，用于根据所述文字回复，更新对话状态并进行应答话术配置，利用所述应答话术配置进行应答语音合成，向用户提供合成的应答语音。

7.根据权利要求5所述的装置，其特征在于，所述意图识别模型包括嵌入层、编码层及输出层。

8.根据权利要求7所述的装置，其特征在于，所述意图确定模块包括：

词表示单元，用于将文本数据输入所述嵌入层，生成词表示；

句子向量单元，用于所述词表示输入至所述编码层进行编码，生成句子向量；

用户意图单元，用于所述句子向量输入至所述输出层进行变换及计算，得到所述用户历史对话的用户意图。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至4任一项所述方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至4任一项所述方法的计算机程序。