CN108257600B

CN108257600B - 语音处理方法和装置

Info

Publication number: CN108257600B
Application number: CN201611251567.1A
Authority: CN
Inventors: 叶勇; 申宗杰; 方国梁
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2020-12-22
Anticipated expiration: 2036-12-29
Also published as: CN108257600A

Abstract

本发明涉及一种语音处理方法和装置，该方法包括：在接收到用户的语音信息时，将语音信息转换为文本信息；对文本信息进行语义分析，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第一概率；获取用户的当前行为信息，并将当前行为信息输入行为分析模型，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第二概率；根据每一操作请求的第一概率和第二概率，得到该操作请求的综合概率；根据各个操作请求的综合概率，对用户进行响应；本发明能反映用户实际需求，减少设备与用户之间的交互次数，提高用户体验，使得设备能够达到智能化要求。

Description

语音处理方法和装置

技术领域

本发明涉及移动通信技术领域，尤其是涉及一种语音处理方法和装置。

背景技术

随着语音识别技术的发展，大量的基于语音识别技术的应用层出不穷，基于语音导航的IVR(Interactive Voice Response，即互动式语音应答)智能交互系统逐渐广泛的应用于各种客服系统中，其作为智能化服务渠道也被大家所熟悉和接受。为提升产品易用性，语音导航需要有很高的智能化交互能力，否则将会大大影响客户的交互体验，降低系统满意度。

目前，语音导航系统保障其智能化主要依赖其语音识别能力和语义分析能力。其中，语音识别能力是指将用户输入的语音转写为文本的能力，通常通过对大量语音数据的训练得到语言模型，基于语言模型识别用户语音。语义分析能力是指当用户输入的语音为非标准语音时，根据语义分析模型确定用户实际需求的能力，通常基于大量的用户语音文本和确定的用户实际需求确认得到。训练语音或者语义模型时需要根据实际的场景需要，通过训练一部分语音、语料来得到一个专用语音和语义模型。

为保证语音导航系统的智能性，对语义模型的准确性要求很高，而现有的提升语义模型识别能力的方法主要包括通过模型算法优化，或者增大模型训练数据源，但暂时仍然难以达到智能化要求。由于现有的语音导航系统对语义模型的依赖程度高，但仅依靠语义模型往往不能反映用户实际需求，导致语音导航系统不能给用户实用的反馈，使得语音导航系统不能达到其智能化要求。

发明内容

针对以上缺陷，本发明提供一种语音处理方法和装置，能够反映用户实际需求，减少设备与用户之间的交互次数，提高用户体验，使得设备能够达到智能化要求。

第一方面，本发明提供的语音处理方法包括：

在接收到用户的语音信息时，将所述语音信息转换为文本信息；

对所述文本信息进行语义分析，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第一概率；

获取所述用户的当前行为信息，并将所述当前行为信息输入行为分析模型，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第二概率；

根据每一操作请求的第一概率和第二概率，得到该操作请求的综合概率；

根据各个操作请求的综合概率，对所述用户进行响应；

其中，所述行为分析模型为预先根据用户的历史行为信息以及用户选定的操作请求通过模型训练方法得到；行为信息包括上网行为信息、通话行为信息、业务订购行为信息和投诉行为信息中的至少一种。

可选的，在将所述语音信息转换为文本信息之前，所述方法还包括：检测出所述语音信息的静音部分，并去掉所述静音部分，得到有效语音信息；

相应的，所述将所述语音信息转换为文本信息，包括：将所述有效语音信息转换为文本信息。

可选的，在将所述语音信息转换为文本信息之前，所述方法还包括：

预先针对不同的地域信息或身份ID信息定制多个声学和语言模型；

在接收到用户的语音信息后，获取用户的身份ID信息或者地域信息，并根据所述身份ID信息或所述地域信息，选择对应的声学和语言模型；

对应的，所述将所述语音信息转换为文本信息，包括：利用选择的声学和语言模型将所述语音信息转换为文本信息。

可选的，采用下式计算所述综合概率：

P(An)＝Pv(An)*Pa(An)

式中，Pv(An)为第An个操作请求的第一概率，Pa(An)为第An个操作请求的第二概率，P(An)为第An个操作请求的综合概率。

可选的，所述根据各个操作请求的综合概率，对所述用户进行响应，包括：

对各个操作请求的综合概率进行排序；

根据排序结果，提供显示有多个操作请求对应的虚拟按键的界面，或者，将多个操作请求对应的链接发送至用户终端。

可选的，所述获取所述用户的当前行为信息，包括：

在接收到用户的语音信息时，获取所述用户的当前行为信息。

可选的，所述获取所述用户的当前行为信息，包括：

在声讯服务台、在线客服系统和客户管理系统中的至少一个中获取所述当前行为信息。

第二方面，本发明提供一种语音处理装置，包括：

转换模块，用于在接收到用户的语音信息时，将所述语音信息转换为文本信息；

语义分析模块，用于对所述文本信息进行语义分析，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第一概率；

行为分析模块，用于获取所述用户的当前行为信息，并将所述当前行为信息输入行为分析模型，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第二概率；

综合计算模块，用于根据每一操作请求的第一概率和第二概率，得到该操作请求的综合概率；

响应模块，用于根据各个操作请求的综合概率，对所述用户进行响应；

可选的，所述转换模块具体用于在接收到用户的语音信息时，检测出所述语音信息的静音部分，并去掉所述静音部分，得到有效语音信息；将所述有效语音信息转换为文本信息。

可选的，所述转换模块具体用于：预先针对不同的地域信息或身份ID信息定制多个声学和语言模型；在接收到用户的语音信息后，获取用户的身份ID信息或者地域信息，并根据所述身份ID信息或所述地域信息，选择对应的声学和语言模型；利用选择的声学和语言模型将所述语音信息转换为文本信息。

本发明提供的语音处理方法和装置，首先将语音信息转换为文本信息，然后对文本信息进行语义分析，得到用户可能提出的多个操作请求及第一概率，然后基于用户的行为信息，得到用户可能提出的多个操作请求及第二概率，然后将两概率结合，得到综合概率，而后基于综合概率对用户进行响应。这里，引入了用户行为信息，即用户的个性化信息，使得语音的处理识别不单单依赖于语义分析模型，还能反映用户实际需求，更加理解或预测用户的真实意图，使得执行上述方法的设备能够给用户实时的反馈，减少设备与用户之间的交互次数，提高用户体验，使得设备能够达到智能化要求。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1示出了本发明一实施例中语音处理方法的流程示意图；

图2示出了本发明一实施例中语音导航设备的结构框图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

第一方面，本发明提供一种语音处理方法，该方法可以应用于语音导航系统中，具体包括：

S1、在接收到用户的语音信息时，将所述语音信息转换为文本信息；

S2、对所述文本信息进行语义分析，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第一概率；

S3、获取所述用户的当前行为信息，并将所述当前行为信息输入行为分析模型，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第二概率；

举例来说，用户在某个时间段内获得的历史行为信息包括：(1)用户订购的套餐；(2)用户的余额；(3)套餐的剩余流量；(4)在该时间段内用户的停开机情况；(5)用户历史月均金额消耗；(6)用户历史月均流量消耗；(7)用户在该时间段内的金额消耗；(8)用户在该时间段内的流量消耗；(9)用户的投诉情况；(10)用户变更套餐的频率；(11)用户话费占比等，当然，历史行为信息不限于以上11种。在收集上述历史行为信息的同时，收集设备最终执行的操作，例如，(1)充值、(2)变更套餐、(3)购买加量包、(4)主动停机、(5)查询余额、(6)查询套餐、(7)查询/变更亲情号、(8)加入集团号；(9)设置彩铃、(10)投诉等，当然用户的实际操作不限于上述10中，此处仅举例说明。操作行为与用户选定的操作请求相对应。根据海量的用户行为信息-操作请求信息，基于模型训练方法即可得到用户的行为分析模型。这样，在获取所述用户的当前行为信息后，将当前行为信息输入行为分析模型，即可输出用户可能希望提出的操作请求以及各种操作请求的概率。

S4、根据每一操作请求的第一概率和第二概率，得到该操作请求的综合概率；

S5、根据各个操作请求的综合概率，对所述用户进行响应；

本发明提供的语音处理方法中，首先将语音信息转换为文本信息，然后对文本信息进行语义分析，得到用户可能提出的多个操作请求及第一概率，然后基于用户的行为信息，得到用户可能提出的多个操作请求及第二概率，然后将两概率结合，得到综合概率，而后基于综合概率对用户进行响应。这里，引入了用户行为信息，即用户的个性化信息，使得语音的处理识别不单单依赖于语义分析模型，还能反映用户实际需求，更加理解或预测用户的真实意图，使得执行上述方法的设备能够给用户实时的反馈，减少设备与用户之间的交互次数，提高用户体验，使得设备能够达到智能化要求。

可理解的是，以上各个步骤并不绝对的先后顺序。

在具体实施时，S1中在进行文本转换之前，还可以先检测出所述语音信息的静音部分，并去掉所述静音部分，得到有效语音信息，然后将有效语音信息转换为文本信息。也就是说，在进行文本转换之前，先对语音信息进行预处理，去除用户在说话前后的静音部分，仅仅把有效的部分进行文本转换，可以提高转换的效率。

在具体实施时，S1中除了去除静音部分之外，还可以过滤掉语音信息中的噪音和一些冗余信息。

在具体实施时，S1中，可以采用语音转写模块执行，该模型在执行的过程中，加载通用的声学和语言模型进行文本转换。由于地域不同，方言不同，因此可以根据用户地域，针对性的采用适合的声学和语言模型进行转换。例如，在将所述语音信息转换为文本信息之前，预先针对不同的地域信息或身份ID信息定制多个声学和语言模型。在接收到用户的语音信息后，获取用户的身份ID信息或者地域信息，并根据所述身份ID信息或所述地域信息，选择对应的声学和语言模型。这样，在进行文本转换时利用所选择的声学和语言模型将所述语音信息转换为文本信息。这种预先定制多个声学和语言模型，在执行S1时选择一个适合的声学和语言模型进行文本转换的方式，具有针对性，使得文本转换的准确率提高。

在具体实施时，S2中可以利用现有的语义分析模型得到多个操作请求及概率，具体为：将文本信息输入现有的语义分析模型，即可输出多个操作请求及相应的概率。也可以先建模，然后利用模型进行语义分析，例如可以通过基于海量样本数据训练的方式建立模型。由于用户输入的语音信息转换为文本信息后，文本信息仍然是自然语音，模型借助自然语言理解技术，将文本信息转换为业务相关的语义信息。

举例来说，用户X电话连接到执行上述方法的语音导航系统来办理业务，用户输入的语音为“我的资费为什么这么贵”，经系统把语音信息转换为文本信息之后，基于语义分析，即可得到用户可能的操作请求和概率如下表1：

表1语义分析结果

从上表1中可以看出，针对语音“我的资费为什么这么贵”，即可获取用户可能希望提出的各个操作请求的概率。

在具体实施时，在S3中，为了进一步提高准确性，语音信息的接收和用户当前行为信息的获取尽量同步进行，也就是说，在接收到用户的语音信息时，获取所述用户的当前行为信息。在接收到用户的语音信息的时候，就去获取或收集当前的行为信息，从而提高准确率。

在具体实施时，S3中，不论是当前行为信息还是历史行为信息均可以在声讯服务台、在线客服系统和客户管理系统中的至少一个中获取所述当前行为信息。

针对S3，举例来说，仍针对上述用户X，由BOSS系统(指的是业务运营支撑系统)获取到的当前行为信息包括：用户历史月均话费为40元；当月截止目前已经消费了80元，其中除套餐费26元外均为超额流量费；用户当前话费余额充足；历史记录表明用户购买流量加量包频繁。将上述当前行为信息输入行为分析模型中，得到的操作请求及概率如下表2：

表2行为分析结果

从上表2中可以看出，针对当前的行为信息，即可以得到用户可能提出的操作请求及相应的概率。

在具体实施时，S4中可以采用下式计算所述综合概率：

P(An)＝Pv(An)*Pa(An)

这里，通过上式计算综合概率，简单、易实现。基于上述表1和表2，利用上述综合概率计算公式，即可得到下表3：

表3综合概率计算结果

从上表3可以看出，针对“我的资费为什么这么贵”这一条语音信息，即可得知用户最可能提出的操作请求的顺序为：A2：购买流量加油包；A3：查询余额；A4：查询套餐情况(余额)；A1：充值；A5：投诉、报错；A6：变更套餐。基于此表3进行响应，相对于单纯利用表1进行响应，更贴近用户的需求，符合用户的实际需要。

在具体实施时，S5中，对用户的响应方式有多种，例如可以提供显示有多个操作请求对应的虚拟按键的界面，还可以将多个操作请求对应的链接发送至用户终端。在响应之前，还可以先对各个操作请求的综合概率进行排序，根据排序结果进行响应。

在具体实施时，若未能获取到用户的行为信息，可以仅以用户的语义分析结果为准进行响应。同样的，如果未能有效识别用户的语音，则可以询问用户的同时根据行为分析结果废除反馈选项，进一步减少与用户的交互过程。

本发明还提供一种语音处理装置，包括：

可以理解的是，本发明提供的语音处理装置为语音处理方法的功能架构模块，其有关内容的理解说明、可选实施方式和有益效果等内容可以参考上述方法中的相应内容，这里不再赘述。

本发明还提供一种语音导航设备，如图2所示，该设备包括：

参考图2，存储器(memory)202、通信接口(Communications Interface)203和总线204；

其中，

所述处理器201、存储器202、通信接口203通过所述总线204完成相互间的通信；

所述通信接口203用于该测试设备与显示装置的通信设备之间的信息传输；

所述处理器201用于调用所述存储器202中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：在接收到用户的语音信息时，将所述语音信息转换为文本信息；对所述文本信息进行语义分析，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第一概率；获取所述用户的当前行为信息，并将所述当前行为信息输入行为分析模型，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第二概率；根据每一操作请求的第一概率和第二概率，得到该操作请求的综合概率；根据各个操作请求的综合概率，对所述用户进行响应；其中，所述行为分析模型为预先根据用户的历史行为信息以及用户选定的操作请求通过模型训练方法得到；行为信息包括上网行为信息、通话行为信息、业务订购行为信息和投诉行为信息中的至少一种。

本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：在接收到用户的语音信息时，将所述语音信息转换为文本信息；对所述文本信息进行语义分析，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第一概率；获取所述用户的当前行为信息，并将所述当前行为信息输入行为分析模型，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第二概率；根据每一操作请求的第一概率和第二概率，得到该操作请求的综合概率；根据各个操作请求的综合概率，对所述用户进行响应；其中，所述行为分析模型为预先根据用户的历史行为信息以及用户选定的操作请求通过模型训练方法得到；行为信息包括上网行为信息、通话行为信息、业务订购行为信息和投诉行为信息中的至少一种。

本发明还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：在接收到用户的语音信息时，将所述语音信息转换为文本信息；对所述文本信息进行语义分析，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第一概率；获取所述用户的当前行为信息，并将所述当前行为信息输入行为分析模型，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第二概率；根据每一操作请求的第一概率和第二概率，得到该操作请求的综合概率；根据各个操作请求的综合概率，对所述用户进行响应；其中，所述行为分析模型为预先根据用户的历史行为信息以及用户选定的操作请求通过模型训练方法得到；行为信息包括上网行为信息、通话行为信息、业务订购行为信息和投诉行为信息中的至少一种。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种语音处理方法，其特征在于，包括：

在接收到用户的语音信息时，获取所述用户的当前行为信息，并将所述当前行为信息输入行为分析模型，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第二概率；

根据各个操作请求的综合概率，对所述用户进行响应；

其中，所述行为分析模型为预先根据用户的历史行为信息以及用户选定的操作请求通过模型训练方法得到；行为信息包括上网行为信息、通话行为信息、业务订购行为信息和投诉行为信息中的至少一种；

其中，在将所述语音信息转换为文本信息之前，所述方法还包括：检测出所述语音信息的静音部分，并去掉所述静音部分，得到有效语音信息；

相应的，所述将所述语音信息转换为文本信息，包括：将所述有效语音信息转换为文本信息；

和，预先针对不同的地域信息或身份ID信息定制多个声学和语言模型；

2.根据权利要求1所述的语音处理方法，其特征在于，采用下式计算所述综合概率：

P(An)＝Pv(An)*Pa(An)

3.根据权利要求1所述的语音处理方法，其特征在于，所述根据各个操作请求的综合概率，对所述用户进行响应，包括：

对各个操作请求的综合概率进行排序；

4.根据权利要求1～3任一所述的语音处理方法，其特征在于，所述获取所述用户的当前行为信息，包括：

在声讯服务台、线客服系统和客户管理系统中的至少一个中获取所述当前行为信息。

5.一种语音处理装置，其特征在于，包括：

行为分析模块，用于在接收到用户的语音信息时，获取所述用户的当前行为信息，并将所述当前行为信息输入行为分析模型，得到用户期望提出的多个操作请求及各个操作请求的概率，该概率记为第二概率；

其中，所述转换模块具体用于在接收到用户的语音信息时，检测出所述语音信息的静音部分，并去掉所述静音部分，得到有效语音信息；将所述有效语音信息转换为文本信息；

和，预先针对不同的地域信息或身份ID信息定制多个声学和语言模型；在接收到用户的语音信息后，获取用户的身份ID信息或者地域信息，并根据所述身份ID信息或所述地域信息，选择对应的声学和语言模型；利用选择的声学和语言模型将所述语音信息转换为文本信息。