CN107886951B

CN107886951B - 一种语音检测方法、装置及设备

Info

Publication number: CN107886951B
Application number: CN201610865051.XA
Authority: CN
Inventors: 高建忠; 雷成军; 杨琳琳; 程涛远; 陈鑫; 吴冬雪
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-09-29
Filing date: 2016-09-29
Publication date: 2021-07-23
Anticipated expiration: 2036-09-29
Also published as: CN107886951A

Abstract

本发明实施例公开了一种语音检测方法、装置及设备。该方法包括：依据语音会话样本确定设定身份用户的语音内容；将所述设定身份用户的语音内容转化成文本内容；依据预先训练得到的问题识别模型，确定所述文本内容是否包含异常问题，其中所述问题识别模型是依据问题文本内容训练得到的。本发明实施例提供的技术方案，实现了语音质量的自动检测，相比于现有的通过人工进行语音质量检测，提高了语音检测效率以及异常问题的检出率。

Description

一种语音检测方法、装置及设备

技术领域

本发明涉及语音处理技术领域，尤其涉及一种语音检测方法、装置及设备。

背景技术

公司的发展往往是靠业务拉动的，销售和客服积累了公司的众多业务信息，销售/客服和客户的沟通电话，汇集了众多的动态业务信息，对于公司来说，如果能从这些录音中挖掘有用的商业线索数据，对于公司把握市场，洞察先机，能够赢得客户，至关重要。

电话销售是企业呼叫中心(Call Center)的核心业务。规范化的服务对于呼叫质量的提升意义重大。目前，企业呼叫中心对电话销售质量的运营管理还停留在人工阶段，虽然配备质检人员进行抽检，但由于是随机抽样，且抽样比例非常低，使得问题电话的检出率极低。同时，由于需要人工测听确认，质检员的工作效率也不高。

发明内容

有鉴于此，本发明实施例提供一种语音检测方法、装置及设备，以提高语音内容中包含的异常问题的检出率以及语音检测效率。

第一方面，本发明实施例提供了一种语音检测方法，包括：

依据语音会话样本确定设定身份用户的语音内容；

将所述设定身份用户的语音内容转化成文本内容；

依据预先训练得到的问题识别模型，确定所述文本内容是否包含异常问题，其中所述问题识别模型是依据问题文本内容训练得到的。

第二方面，本发明实施例提供了一种语音检测装置，包括：

语音内容确定模块，用于依据语音会话样本确定设定身份用户的语音内容；

文本内容转化模块，用于将所述设定身份用户的语音内容转化成文本内容；

异常问题识别模块，用于依据预先训练得到的问题识别模型，确定所述文本内容是否包含异常问题，其中所述问题识别模型是依据问题文本内容训练得到的。

第三方面，本发明实施例还提供了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例所述的方法。

本发明实施例提供的技术方案，通过依据语音会话样本确定设定身份用户的语音内容，随后，将设定身份用户的语音内容转化为文本内容，并依据问题识别模型确定文本内容中是否包含异常问题，从而依据确定结果能够检测设定身份用户的语音内容中是否包含异常问题，实现了语音质量的自动检测，相比于现有的通过人工进行语音质量检测，提高了语音检测效率以及异常问题的检出率。

附图说明

图1是本发明实施例一提供的一种语音检测方法的流程图；

图2是本发明实施例二提供的一种语音检测方法的流程图；

图3是本发明实施例三提供的一种语音检测方法的流程图；

图4是本发明实施例三提供的语音检测方法的示意图；

图5是本发明实施例四提供的一种语音检测装置的结构图；

图6是本发明实施例五提供的一种设备的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种语音检测方法的流程图。本实施例的方法可以由语音检测装置来执行，该装置可通过硬件和/或软件的方式实现。本实施例的方法一般可适用于对语音内容进行质量检测的情形。参考图1，本实施例提供的语音检测方法具体可以包括如下：

S11、依据语音会话样本确定设定身份用户的语音内容。

在本实施例中，语音会话样本指的是不同身份用户之间的语音会话内容，且不同身份用户的语音会话内容混杂在一起，例如，语音会话样本可以是企业呼叫中心收集的客户与销售或客服的电话沟通内容。设定身份用户指的是待对其语音内容进行语音检测的用户，其中设定身份用户可以是客户、销售或客服等，例如，若想要对客服类用户的语音内容进行检测，则设定身份用户是客服类用户；若想要对销售类用户的语音内容进行检测，则设定身份用户是销售类用户；若想要对客户类用户的语音内容进行检测，则设定身份用户是客户类用户。

具体的，从混杂有不同身份用户的语音内容的语音会话样本中筛选出属于设定身份用户的语音内容。

S12、将所述设定身份用户的语音内容转化成文本内容。

具体的，可以采用光学字符识别(Optical Character Recognition，OCR)技术将设定身份用户的语音语句转化成文本内容。

S13、依据预先训练得到的问题识别模型，确定所述文本内容是否包含异常问题。

其中，所述问题识别模型可以是依据问题文本内容训练得到的，用于识别文本内容中是否包含异常问题。问题文本内容指的是包含异常问题的文本内容。

本实施例提供的技术方案，通过依据语音会话样本确定设定身份用户的语音内容，随后，将设定身份用户的语音内容转化为文本内容，并依据问题识别模型确定文本内容中是否包含异常问题，从而依据确定结果能够检测设定身份用户的语音内容中是否包含异常问题，实现了语音质量的自动检测，相比于现有的通过人工进行语音质量检测，提高了语音检测效率。并且，由于语音检测效率提高，能够将现有的“抽检方式”变为“全覆盖检测方式”，即能够对设定身份用户的所有语音内容进行自动检测，异常问题的检出率大大提高。

实施例二

本实施例在上述实施例一的基础上提供了一种新的语音检测方法。图2是本发明实施例二提供的一种语音检测方法的流程图。参考图2，本实施例提供的语音检测方法具体可以包括如下：

S21、依据语音会话样本确定设定身份用户的语音内容。

S22、将所述设定身份用户的语音内容转化成文本内容。

S23、依据问题识别模型中包含的问题词以及所述问题词的权重，确定所述文本内容的问题指数。

在本实施例中，问题识别模型可以通过如下方式训练得到：获取人工标注的问题文本；确定问题文本中包含的问题词以及问题词的权重，并依据确定结果得到问题识别模型。其中，问题词可以包括但不限于威胁词、辱骂词、虚假信息词和私自交易词。问题词的权重可以是依据检测需求设定的经验值。

具体的，将文本内容与问题识别模型进行匹配，依据问题识别模型中包含的问题词以及问题词的权重，确定文本内容的问题指数。例如，可以依据如下公式确定文本内容的问题指数：

λ＝k₁w₁+k₂w₂+…+k_nw_n，其中λ指的是文本内容的问题指数，w₁,w₂,…,w_n指的是文本内容中包含的问题词，k₁,k₂,…,k_n依次是问题词w₁,w₂,…,w_n1的权重。

S24、若所述文本内容的问题指数大于问题指数阈值，则确定所述文本内容包含异常问题。

其中，问题指数阈值可以是依据检测需求确定的经验值，如问题指数阈值可以是65％或70％等。具体的，若文本内容的问题指数大于问题指数阈值，则确定文本内容包含异常问题；否则，确定文本内容不包含异常问题。

本实施例提供的技术方案，通过依据语音会话样本确定设定身份用户的语音内容，将设定身份用户的语音内容转化为文本内容，随后，依据问题识别模型中包含的问题词以及问题词的权重，确定文本内容的问题指数，若文本内容的问题指数大于问题指数阈值，则确定文本内容包含异常问题，即具体提供了基于问题识别模型识别异常问题的方式。

实施例三

本实施例在上述实施例一的基础上提供了一种新的语音检测方法。图3是本发明实施例三提供的一种语音检测方法的流程图。参考图3，本实施例提供的语音检测方法具体可以包括如下：

S31、确定语音会话样本中包含的不同用户的会话语句。

示例性的，S31可以包括：依据所述语音会话样本中会话语句对应的采集设备信息，确定不同用户的会话语句。其中，采集设备信息用于唯一性地标识采集设备，且可以将由同一采集设备采集的所有语句确定为同一用户的会话语句。

示例性的，S31也可以包括：识别所述语音会话样本的声学特征，并依据识别结果，确定所述语音会话样本中包含的会话语句；依据所述语音会话样本中包含的会话语句的声学特征，对不同用户的语句进行聚类，依据聚类结果确定不同用户的会话语句。

其中，声学特征可以包括时长、基频、能量、共振峰频率、宽带、频率微扰、振幅微扰、过零率和梅尔频率倒谱参数中的至少一种。具体的，依据语音会话文本的声学特征，对语音会话文本进行静音识别，并依据静音识别结果进行语音切分，得到语音会话文本中包含的会话语句。随后，由于不同用户的语音的声学特征不同，因而依据语音会话样本中包含的会话语句的时长、基频和能量等韵律特征，共振峰频率、宽带、频率微扰和振幅微扰等声音质量特征，梅尔倒谱参数等结合支持向量机(Support Vector Machine，SVM)对不同用户的会话语句进行聚类，得到不同用户的所有会话语句。

S32、将每一用户的会话语句翻译成会话文本，并基于预先训练得到的身份分类器，确定所述每一用户的身份。

其中，身份分类器是依据不同预设身份用户的会话文本训练得到的，用于区分会话文本所属用户的身份信息。

S33、确定设定身份用户的语音内容。

具体的，确定每一用户的身份之后，依据检测需求确定设定身份用户的语音内容。

S34、将所述设定身份用户的语音内容转化成文本内容。

需要说明的是，由于S32已经将每一用户的会话语句翻译成会话文本，因而S34可以直接依据S32的翻译结果得到设定身份用户的文本内容。

S35、依据预先训练得到的问题识别模型，确定所述文本内容是否包含异常问题，其中所述问题识别模型是依据问题文本内容训练得到的。

示例性的，依据语音会话样本确定设定身份用户的语音内容之后，可以包括：依据所述设定身份用户的语音内容的声学特征的变化信息，确定所述设定身份用户的情绪是否异常。具体的，可以依据语音内容的频率和/或强度特征的变化信息，确定设定身份用户的情绪是否异常。

示例性的，依据语音会话样本确定设定身份用户的语音内容之后，可以包括：识别所述设定身份用户的语音内容的语速；依据识别的语速以及预设的标准语速，确定所述设定身份用户的语速是否异常。

示例性的，依据语音会话样本确定设定身份用户的语音内容之后，可以包括：识别所述设定身份用户的静音时长；依据识别的静音时长以及预设的标准静音时长，确定所述设定身份用户是否存在超长静音。

综上，参考图4，本实施例通过电话录音获取语音会话文本，采用文字识别技术将语音会话文本转化成文字会话文本；通过对文字会话文本进行纠错处理，如对文字会话文本中包含的错别字进行纠正，以及通过采用声纹识别和聚类分析方法，对通话双方的语音会话样本加以区分确定不同用户的会话语句，即实现话者分离；随后，基于策略模型和业务规则对设定身份用户的语音会话内容进行问题识别、情绪识别、语速识别和静音检测等处理。

本实施例提供的技术方案，不仅能够对设定身份用户的语音内容进行异常问题检测，还能够进行情绪异常、语速异常和超长静音等检测，丰富了对语音的检测维度，进一步提高了语音检测效率。

实施例四

图5是本发明实施例四提供的一种语音检测装置的结构图。该装置一般可适用于对语音内容进行质量检测的情形。参见图5，本实施例提供的语音检测装置的具体结构如下：

语音内容确定模块41，用于依据语音会话样本确定设定身份用户的语音内容；

文本内容转化模块42，用于将所述设定身份用户的语音内容转化成文本内容；

异常问题识别模块43，用于依据预先训练得到的问题识别模型，确定所述文本内容是否包含异常问题，其中所述问题识别模型是依据问题文本内容训练得到的。

示例性的，所述异常问题识别模块43可以包括：

问题指数确定单元，用于依据所述问题识别模型中包含的问题词以及所述问题词的权重，确定所述文本内容的问题指数；

异常问题确定单元，用于若所述文本内容的问题指数大于问题指数阈值，则确定所述文本内容包含异常问题。

示例性的，所述语音内容确定模块41可以包括：

会话语句确定单元，用于确定语音会话样本中包含的不同用户的会话语句；

身份确定单元，用于将每一用户的会话语句翻译成会话文本，并基于预先训练得到的身份分类器，确定所述每一用户的身份；

语音内容确定单元，用于确定所述设定身份用户的语音内容。

示例性的，所述会话语句确定单元具体可以用于：

依据语音会话样本中会话语句对应的采集设备信息，确定不同用户的会话语句；或者，

识别所述语音会话样本的声学特征，并依据识别结果，确定所述语音会话样本中包含的会话语句；

依据所述语音会话样本中包含的会话语句的声学特征，对不同用户的语句进行聚类，依据聚类结果确定不同用户的会话语句。

示例性的，上述语音检测装置可以包括：

声学特征确定模块，用于在依据语音会话样本确定设定身份用户的语音内容之后，依据所述设定身份用户的语音内容的声学特征的变化信息，确定所述设定身份用户的情绪是否异常。

示例性的，上述语音检测装置可以包括：

异常语速识别模块，用于在依据语音会话样本确定设定身份用户的语音内容之后，识别所述设定身份用户的语音内容的语速；依据识别的语速以及预设的标准语速，确定所述设定身份用户的语速是否异常。

示例性的，上述语音检测装置可以包括：

超长静音识别模块，用于在依据语音会话样本确定设定身份用户的语音内容之后，识别所述设定身份用户的静音时长；依据识别的静音时长以及预设的标准静音时长，确定所述设定身份用户是否存在超长静音。

本实施例提供的语音检测装置，与本发明任意实施例所提供的语音检测方法属于同一发明构思，可执行本发明任意实施例所提供的语音检测方法，具备执行语音检测方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的语音检测方法。

实施例五

如图6所示，为本申请实施例五提供的设备的硬件结构示意图，如图6所示，该电子设备包括：

一个或多个处理器510，图6中以一个处理器510为例；

存储器520；

所述电子设备还可以包括：输入装置530和输出装置540。

所述电子设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器520作为一种非暂态计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的数据存储方法对应的程序指令/模块(例如，附图5所示的语音内容确定模块41、文本内容转化模块42和异常问题识别模块43)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例的语音检测方法。

存储器520可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非暂态性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态性固态存储器件。在一些实施例中，存储器520可选包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至终端设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

也即：上述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现时，进行如下操作：

依据语音会话样本确定设定身份用户的语音内容；

将所述设定身份用户的语音内容转化成文本内容；

进一步的，依据预先训练得到的问题识别模型，确定所述文本内容是否包含异常问题，包括：

依据所述问题识别模型中包含的问题词以及所述问题词的权重，确定所述文本内容的问题指数；

若所述文本内容的问题指数大于问题指数阈值，则确定所述文本内容包含异常问题。

进一步的，依据语音会话样本确定设定身份用户的语音内容，包括：

确定所述语音会话样本中包含的不同用户的会话语句；

将每一用户的会话语句翻译成会话文本，并基于预先训练得到的身份分类器，确定所述每一用户的身份；

确定所述设定身份用户的语音内容。

进一步的，确定语音会话样本中包含的不同用户的会话语句，包括：

依据所述语音会话样本中会话语句对应的采集设备信息，确定不同用户的会话语句；或者，

进一步的，依据语音会话样本确定设定身份用户的语音内容之后，包括：

依据所述设定身份用户的语音内容的声学特征的变化信息，确定所述设定身份用户的情绪是否异常。

识别所述设定身份用户的语音内容的语速；

依据识别的语速以及预设的标准语速，确定所述设定身份用户的语速是否异常。

识别所述设定身份用户的静音时长；

依据识别的静音时长以及预设的标准静音时长，确定所述设定身份用户是否存在超长静音。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音检测方法，其特征在于，包括：

确定语音会话样本中包含的不同用户的会话语句；

确定设定身份用户的语音内容；

将所述设定身份用户的语音内容转化成文本内容；

依据预先训练得到的问题识别模型，确定所述文本内容是否包含异常问题，其中所述问题识别模型是依据问题文本内容训练得到的；

其中，所述设定身份用户指的是待对其语音内容进行语音检测的用户。

2.根据权利要求1所述的方法，其特征在于，依据预先训练得到的问题识别模型，确定所述文本内容是否包含异常问题，包括：

3.根据权利要求2所述的方法，其特征在于，确定语音会话样本中包含的不同用户的会话语句，包括：

4.根据权利要求1所述的方法，其特征在于，确定设定身份用户的语音内容之后，包括：

5.根据权利要求1所述的方法，其特征在于，确定设定身份用户的语音内容之后，包括：

识别所述设定身份用户的语音内容的语速；

6.根据权利要求1所述的方法，其特征在于，确定设定身份用户的语音内容之后，包括：

识别所述设定身份用户的静音时长；

7.一种语音检测装置，其特征在于，包括：

异常问题识别模块，用于依据预先训练得到的问题识别模型，确定所述文本内容是否包含异常问题，其中所述问题识别模型是依据问题文本内容训练得到的；

其中，所述设定身份用户指的是待对其语音内容进行语音检测的用户；

所述语音内容确定模块包括：

语音内容确定单元，用于确定设定身份用户的语音内容。

8.根据权利要求7所述的装置，其特征在于，所述异常问题识别模块包括：

9.根据权利要求8所述的装置，其特征在于，所述会话语句确定单元具体用于：

10.根据权利要求7所述的装置，其特征在于，包括：

声学特征确定模块，用于在确定设定身份用户的语音内容之后，依据所述设定身份用户的语音内容的声学特征的变化信息，确定所述设定身份用户的情绪是否异常。

11.根据权利要求7所述的装置，其特征在于，包括：

异常语速识别模块，用于在确定设定身份用户的语音内容之后，识别所述设定身份用户的语音内容的语速；依据识别的语速以及预设的标准语速，确定所述设定身份用户的语速是否异常。

12.根据权利要求7所述的装置，其特征在于，包括：

超长静音识别模块，用于在确定设定身份用户的语音内容之后，识别所述设定身份用户的静音时长；依据识别的静音时长以及预设的标准静音时长，确定所述设定身份用户是否存在超长静音。

13.一种语音检测设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。