CN109688281A

CN109688281A - 一种智能语音交互方法及系统

Info

Publication number: CN109688281A
Application number: CN201811467887.XA
Authority: CN
Inventors: 张玥; 张奇
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2018-12-03
Filing date: 2018-12-03
Publication date: 2019-04-26

Abstract

本发明属于视频播放技术领域，具体为一种智能语音交互方法及系统。本发明包括：接收对端电话发送的语音信息；将语音信息转化为文本信息；利用预先训练得到的智能模型生成文本信息对应的回复文本，回复文本为对所述文本信息进行对话应答的文本信息；将回复文本转化对应的应答语音，发送至对端电话；对文本信息进行情感倾向性分析，以确定出用户对所提供的业务的意向值，意向值用于表示用户对业务的意向程度；当意向值达到预设阈值时，将对端电话转接至人工坐席端的电话。本发明可避免人工坐席参与前期的无效沟通和无效电话，直接与有意向的用户进行沟通，大大提升工作人员的工作效率，降低工作人员的时间成本。

Description

一种智能语音交互方法及系统

技术领域

本发明属于视频播放技术领域，具体涉及一种智能语音交互方法及系统。

背景技术

目前，对于大部分的电话服务系统，接到或者播出的大部分电话，都属于无效电话，例如，对于用于客服服务的电话服务系统经常接收到骚扰性的投诉或者求助电话，无任何实质性内容；对于电话销售系统，则有大部分电话大部分或者打通后很快被打断。而上述这些情况，会大大降低服务的质量和效率，占用大量工作人员的时间。

发明内容

本发明的目的在于提供一种智能语音交互方法及系统，以解决现有技术中电话服务系统中存在的大量无效电话占用工作人员的时间导致服务质量和效率低的问题。

本发明提供的智能语音交互方法，具体步骤，包括：

（1）接收对端电话发送的语音信息；

（2）将所述语音信息转化为文本信息；

（3）利用预先训练得到的智能模型生成所述文本信息对应的回复文本，其中，所述回复文本为对所述文本信息进行对话应答的文本信息；

（4）将所述回复文本转化对应的应答语音，发送至所述对端电话；

本发明中，所述智能语音交互方法，还包括：

（5）对所述文本信息进行情感倾向性分析，以确定出用户对所提供的业务的意向值，所述意向值用于表示所述用户对所述业务的意向程度；当所述意向值达到预设阈值时，将所述对端电话转接至人工坐席端的电话。

可选地，所述利用预先训练得到的智能模型生成所述文本信息对应的回复文本，包括：向所述智能模型输入所述文本信息；利用所述文本信息查询出所述文本信息对应的对话实体，所述对话实体为与所述语音信息具有相同或者相近的对话主题；获取预先为所述对话实体执行的对话文本，作为所述回复文本。

可选地，其中，所述利用所述文本信息查询出所述文本信息对应的对话实体，包括：将所述文本信息按照预设规则转化为空间向量，形成向量空间中对应的点；确定所述空间向量对应的点在所述向量空间中最接近的对话实体的点，得到所述对话实体。其中：

所述将所述文本信息按照预设规则转化为空间向量，包括：通过预先设置的词袋模型将所述文本信息转化为m维的向量x1；利用训练得到的参数向量w1将所述向量x1转化为k维实数向量h1，w1为m*k维矩阵；

所述确定空间向量对应的点在所述向量空间中最接近的对话实体的点，得到所述对话实体，包括：通过所述词袋模型将数据库中的实体分别转化为n维的向量x2；利用训练得到的参数向量w2将所述向量x2转化为k维实数向量h2，w2为n*k维矩阵；计算所述实数向量h1与所述实数向量h2在向量空间的距离，将与所述实数向量h1距离最近的实数向量h2对应的实体作为所述对话实体。

可选地，对所述文本信息进行情感倾向性分析，以确定出用户对所提供的业务的意向值，包括：对所述文本信息进行分词，得到词语序列；利用预设规则对所述词语序列进行打分，得到所述意向值。

可选地，利用预设规则对所述词语序列进行打分，包括：将所述词语序列中每个词转化为对应的实数向量，得到实数向量序列；对所述实数向量序列进行编码，得到一个打分向量h；按照预设打分函数对所述打分向量h进行打分。

可选地，所述预设打分函数为：

S=sigmod（w·h+b）

其中，S为意向值，其取值范围为（0,1），w、b为预先训练得到的参数。

另一方面，本发明还提供对应于上述方法的智能语音交互系统，该系统包括：

语音网关，用于接收对端电话发送的语音信息；

语音识别模块，用于将所述语音信息转化为文本信息；

智能问答模块，用于利用预先训练得到的智能模型生成所述文本信息对应的回复文本，其中，所述回复文本为对所述文本信息进行对话应答的文本信息；

语音生成模块，用于将所述回复文本转化对应的应答语音，发送至所述对端电话；

情感倾向性分析模块，用于对所述文本信息进行情感倾向性分析，以确定出用户对所提供的业务的意向值，所述意向值用于表示所述用户对所述业务的意向程度；当所述意向值达到预设阈值时，将所述对端电话转接至人工坐席端的电话。

这五个部分对应于执行智能语音交互方法的五个步骤的内容。

本发明还涉及一种计算机设备，包括存储器、处理器，以及计算机程序；即本发明提供的智能语音交互方法，编制成计算机程序，该计算机程序存储在存储器中，并在处理器上运行，以实现智能语音交互方法的各个步骤。

所述存储器是一种计算机可读存储介质，包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。

根据本发明实施例，通过采用人工智能技术，利用预先训练得到的智能模型来与用户进行初步的沟通，然后对用户的沟通内容进行情感倾向性分析，从而确定出用户的意向程度，并在其有意向时将电话转接至人工坐席进行处理，从而避免了人工坐席参与前期的无效沟通和无效电话，直接与有意向的用户进行沟通，大大提升了工作人员的工作效率，降低了工作人员的时间成本。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中智能语音交互系统的流程图。

图2为本发明实施例中智能语音交互方法的流程图。

图3为本发明实施例中计算机设备的示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

本发明实施例提供了一种智能语音交互方法，该方法可以应用于智能语音交互系统内中，下面先对本发明实施例的语音呼叫系统进行介绍。

如图1所示，智能语音交互系统可实现接打电话的功能，其通过语音网关10连接多个坐席的电话。其中一部分坐席供销售人员使用，另一部分坐席连接人工智能坐席30。当潜在销售目标（即客户）的电话号码被输入系统后，首先由人工智能坐席30接听电话。其中，语音识别模块50负责将客户的语音信息转化为文本信息，输入到对话系统60模块。对话系统60模块根据输入的文本，自动生成回复文本。之后，由语音生成模块40将文本信息转化为应答语音，通过电话回复客户。其中，对话系统60在生成对话的过程中，将自动判定客户的意图。若客户的输入为问题咨询，则自动从智能问答模块，生成问题回复。若不是，则由对话系统60自动生成聊天回复。同时，系统与客户的对话内容，被输入情感倾向性分析模块80，以判断客户是否有意愿。如果客户的意愿超过一定的阈值，则该模块自动向语音网关10发出控制指令，将客户的电话转接到人工坐席20。

具体地，该智能语音交互系统中，语音网关10用于接收对端电话发送的语音信息；语音识别模块50用于将所述语音信息转化为文本信息；智能问答模块70，用于利用预先训练得到的智能模型生成所述文本信息对应的回复文本，其中，所述回复文本为对所述文本信息进行对话应答的文本信息；语音生成模块40用于将所述回复文本转化对应的应答语音，发送至所述对端电话；情感倾向性分析模块80用于对所述文本信息进行情感倾向性分析，以确定出用户对所提供的业务的意向值，所述意向值用于表示所述用户对所述业务的意向程度；当所述意向值达到预设阈值时，将所述对端电话转接至人工坐席端的电话。

如图2所示，本发明实施例的智能语音交互方法包括：

步骤S101，接收对端电话发送的语音信息。对端电话为用户端电话，当电话接通后，系统通过语音网关接收对端电话发送的语音信息；

步骤S102，将语音信息转化为文本信息。采用语音识别技术，将对端电话发送的语音信息转化为对应的文本信息，用于进行后续分析；

步骤S103，利用预先训练得到的智能模型生成文本信息对应的回复文本，其中，回复文本为对文本信息进行对话应答的文本信息。如上所述，这里的回复信息可以是通过人工智能的方式，以问答或者聊天的方式生成对应的应答内容；

步骤S104，将回复文本转化对应的应答语音，发送至对端电话。利用语音生成模块对所述回复文本中每个字生成对应的发音，组合成应答语音，然后通过语音网关发送至对端电话；

步骤S105，对文本信息进行情感倾向性分析，以确定出用户对所提供的业务的意向值，意向值用于表示用户对业务的意向程度；

步骤S106，当意向值达到预设阈值时，将对端电话转接至人工坐席端的电话。当未达到预设阈值时，则不转接至人工坐席。

另一方面，本发明实施例中，还对上述文本信息进行情感倾向性分析，例如分析用户对所提供的内容的购买意愿，通过对文本的分析，对于意愿进行量化，得到意向值。如果该意向值达到预设阈值，表明该用户购买意愿比较高，此时可以将其电话转接至人工坐席，由人工进行服务。

作为一种可选实施方式，上述实施例的步骤S103，利用预先训练得到的智能模型生成文本信息对应的回复文本具体可以包括：向智能模型输入文本信息；利用文本信息查询出文本信息对应的对话实体，对话实体为与语音信息具有相同或者相近的对话主题；获取预先为对话实体执行的对话文本，作为回复文本。

本发明实施例中，智能问答模块可以基于知识库来完成对客户的应答。知识库（也称知识图谱）是一个前期由人工构建的数据库。其中包含了“实体”以及“关系”等“知识”，通常使用图数据库进行保存。在实施例中，需要将工作人员所需要的知识进行人工整理，人工录入知识库。对于输入的文本信息，从知识库中查询出一个实体，每个实体预先准备好一段标准话术，也即是回复文本，用于回复客户。

进一步可选地，上述步骤，利用文本信息查询出文本信息对应的对话实体包括：将文本信息按照预设规则转化为空间向量，形成向量空间中对应的点；确定空间向量对应的点在向量空间中最接近的对话实体的点，得到对话实体。

本实施里中在知识库的查询实体的过程通过向量查询来完成。将用户输入的文本信息转化成为向量，投影到向量空间。同时将知识库中的实体也投影到向量空间。投影的过程需要保证，输入文本信息与对应的实体被投影到相邻的向量空间。此时，用户的输入文本，以及知识库中的实体都被表示成为了向量空间的点。只需要在向量空间中，输入文本对应的点的临近区域中，找出距离最近的一个代表实体的点，从而确定出用户输入文本对应的实体。并根据该实体取得对应的回复文本。

具体地，上述将文本信息按照预设规则转化为空间向量包括：通过预先设置的词袋模型将文本信息转化为m维的向量x1；利用训练得到的参数向量w1将向量x1转化为k维实数向量h1，w1为m*k维矩阵。

上述确定空间向量对应的点在向量空间中最接近的对话实体的点，得到对话实体包括：通过词袋模型将数据库中的实体分别转化为n维的向量x2；利用训练得到的参数向量w2将向量x2转化为k维实数向量h2，w2为n*k维矩阵；计算实数向量h1与实数向量h2在向量空间的距离，将与实数向量h1距离最近的实数向量h2对应的实体作为对话实体。

上述利用向量查询实体的方式需要提前监督学习的方法训练得到对应的模型以及模型中的参数w1和w2。具体地，首先需要采集足量的用户输入样本，并通过人工将这些样本对应到知识库中的某个实体。训练过程中，将输入文本通过词袋模型转化为m维的向量x1’，将知识子图的“实体”，“关系”也按照词袋模型（词为实体和关系）转化为n维的向量x2’。然后分别通过矩阵w1’、w2’，转化为k维实数向量，h1、 h2。w1为m * k维，w2为n * k维。h1’、 h2’分别为：输入文本与知识子图中实体的表示向量。通过联合训练的方式，使得h1’、h2’在向量空间中距离较近。本系统使用向量的点积来衡量它们的相似度。通过随机梯度下降（SGD）优化参数w1’，w2’，得到最终的w1，w2。

作为本发明实施例的一种可选实施方式，本发明实施例中，对于上述步骤S105，对文本信息进行情感倾向性分析，以确定出用户对所提供的业务的意向值，可以包括：对文本信息进行分词，得到词语序列；利用预设规则对词语序列进行打分，得到意向值。

由于用户的表达会附带其所蕴含的情感，例如厌恶、反感、好奇、冷漠等。当在电话沟通中，用户如果表达出“不知道”、“不喜欢”等词汇时，表示该用户有反感情绪；当用户表达出“价钱怎么样”、“有什么附加服务”等内容时，表示用户有好奇、有兴趣的情绪。

本发明实施例中，通过对用户表达的语音对应的文本信息进行分析，然后分析词语中所表达的情绪，量化成分值，得到对应意向值，以方便判断用户是否存在意愿。

进一步地，利用预设规则对词语序列进行打分包括：将词语序列中每个词转化为对应的实数向量，得到实数向量序列；对实数向量序列进行编码，得到一个打分向量h；按照预设打分函数对打分向量h进行打分。

依然是通过向量的方式来进行意向值的打分，具体地：

假设用户的对话的文本信息为w1, w2, w3…的序列（通过语音识别模块已经将语音转化为文本，并拆分长词汇序列）。首先通过Word Embedding算法将每个词转化为对应实数向量序列：x1, x2, x3…。其中x1, x2, x3… 均为n维的实数向量。接着使用LSTM（Long-ShotTerm Memory长短时记忆机）算法，对于输入的实数向量序列x1, x2, x3…进行编码，得到一个实数向量h，h为n维实数向量。再对实数向量h用情感倾向性打分函数进行打分，具体函数为：S=sigmod(w·h + b)，其中w，b为预先训练得到的n维实数向量参数，需要通过监督学习进行优化。意向值S是一个0~1的实数值，代表客户购买的意向，值越大，意向越高。当S超过一定阈值（S > threshold）时，认为客户有意向。此时情感倾向性分析模块通知语音网关，自动切换当前客户的线路至人工客服坐席。其中，LSTM的参数以及打分函数的参数w，b，需要通过监督学习的方法进行训练。同样，首先需收集足量的客户输入数据，通过人工方式阅读客户输入文本，对客户输入文本进行情感倾向性打分。训练过程中，通过对比机器与人工打分的差异，使用随机梯度下降（SGD）来优化LSTM的参数以及打分函数的参数w，b。

上述sigmod函数的数学公式可以表示为:

。

本实施例还提供一种计算机设备。本实施例的计算机设备200至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图3所示。需要指出的是，图3仅示出了具有组件21-22的计算机设备200，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21（即可读存储介质）包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备200的内部存储单元，例如该计算机设备200的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备200的外部存储设备，例如该计算机设备200上配备的插接式硬盘，智能存储卡（Smart Media Card,SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，存储器21还可以既包括计算机设备200的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备200的操作系统和各类应用软件，例如实施例智能语音交互方法的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备200的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，例如实现智能语音交互方法的程序代码。

本实施例还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于被处理器执行时实现实施例的智能语音交互方法。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本申请的保护范围之中。

Claims

1.一种智能语音交互方法，其特征在于，具体步骤，包括：

（1）接收对端电话发送的语音信息；

（2）将所述语音信息转化为文本信息；

还包括：

2.根据权利要求1所述的智能语音交互方法，其特征在于，所述利用预先训练得到的智能模型生成所述文本信息对应的回复文本，包括：

向所述智能模型输入所述文本信息；

利用所述文本信息查询出所述文本信息对应的对话实体，所述对话实体为与所述语音信息具有相同或者相近的对话主题；

获取预先为所述对话实体执行的对话文本，作为所述回复文本。

3.根据权利要求2所述的智能语音交互方法，其特征在于，所述利用文本信息查询出所述文本信息对应的对话实体，包括：

将所述文本信息按照预设规则转化为空间向量，形成向量空间中对应的点；

确定所述空间向量对应的点在所述向量空间中最接近的对话实体的点，得到所述对话实体。

4.根据权利要求3所述的智能语音交互方法，其特征在于，所述将文本信息按照预设规则转化为空间向量，包括：

通过预先设置的词袋模型将所述文本信息转化为m维的向量x1；

利用训练得到的参数向量w1将所述向量x1转化为k维实数向量h1，w1为m*k维矩阵；

所述确定空间向量对应的点在所述向量空间中最接近的对话实体的点，得到所述对话实体，包括：

通过所述词袋模型将数据库中的实体分别转化为n维的向量x2；

利用训练得到的参数向量w2将所述向量x2转化为k维实数向量h2，w2为n*k维矩阵；

计算所述实数向量h1与所述实数向量h2在向量空间的距离，将与所述实数向量h1距离最近的实数向量h2对应的实体作为所述对话实体。

5.根据权利要求1所述的智能语音交互方法，其特征在于，所述对文本信息进行情感倾向性分析，以确定出用户对所提供的业务的意向值，包括：

对所述文本信息进行分词，得到词语序列；

利用预设规则对所述词语序列进行打分，得到所述意向值。

6.根据权利要求5所述的智能语音交互方法，其特征在于，所述利用预设规则对所述词语序列进行打分，包括：

将所述词语序列中每个词转化为对应的实数向量，得到实数向量序列；

对所述实数向量序列进行编码，得到一个打分向量h；

按照预设打分函数对所述打分向量h进行打分。

7. 根据权利要求6所述的智能语音交互方法，其特征在于，所述预设打分函数为：

S=sigmod（w·h+b）

8. 根据权利要求4所述的智能语音交互方法，其特征在于，所述训练得到参数向量w1和w2的过程为：首先采集足量的用户输入样本，并通过人工将这些样本对应到知识库中的某个实体；训练过程中，将输入文本通过词袋模型转化为m维的向量x1’，将知识子图的“实体”、“关系”也按照词袋模型转化为n维的向量x2’；然后分别通过矩阵w1’、w2’，转化为k维实数向量，h1、 h2；w1为m * k维，w2为n * k维；h1’、 h2’分别为输入文本与知识子图中实体的表示向量；通过联合训练的方式，使得h1’、 h2’在向量空间中距离较近；系统使用向量的点积来衡量它们的相似度；通过随机梯度下降（SGD）优化参数w1’、w2’，得到最终的w1、w2。

9.根据权利要求6所述的智能语音交互方法，其特征在于，所述利用预设规则对所述词语序列进行打分，具体流程为：

假设用户的对话的文本信息为w1, w2, w3…序列，即已通过语音识别将语音转化为文本，并拆分长词汇序列；首先通过Word Embedding算法将每个词转化为对应实数向量序列：x1, x2, x3…；其中x1, x2, x3… 均为n维的实数向量；接着使用LSTM算法，对于输入的实数向量序列x1, x2, x3…进行编码，得到一个实数向量h，h为n维实数向量；再对实数向量h用情感倾向性打分函数进行打分，打分函数为：S=sigmod(w·h + b)，其中w，b为预先训练得到的n维实数向量参数，意向值S是一个0~1的实数值，代表客户购买的意向，值越大，意向越高；当S超过一定阈值时，认为客户有意向；此时情感倾向性分析模块通知语音网关，自动切换当前客户的线路至人工客服坐席；其中，LSTM的参数以及打分函数的参数w，b，通过监督学习的方法进行训练得到；即，首先需收集足量的客户输入数据，通过人工方式阅读客户输入文本，对客户输入文本进行情感倾向性打分；训练过程中，通过对比机器与人工打分的差异，使用随机梯度下降（SGD）优化LSTM的参数以及打分函数的参数w、b；

上述sigmod函数的数学公式为:

。

10.一种基于权利要求1-9之一所述方法的智能语音交互系统，其特征在于，包括：

语音网关，用于接收对端电话发送的语音信息；

语音识别模块，用于将所述语音信息转化为文本信息；

情感倾向性分析模块，用于对所述文本信息进行情感倾向性分析，以确定出用户对所提供的业务的意向值，所述意向值用于表示所述用户对所述业务的意向程度；当所述意向值达到预设阈值时，将所述对端电话转接至人工坐席端的电话；