CN110060665A

CN110060665A - 语速检测方法及装置、可读存储介质

Info

Publication number: CN110060665A
Application number: CN201910199049.7A
Authority: CN
Inventors: 陈逸飞; 温舒; 李铁铮
Original assignee: SHANGHAI PPDAI FINANCE INFORMATION SERVICE Co Ltd
Current assignee: SHANGHAI PPDAI FINANCE INFORMATION SERVICE Co Ltd
Priority date: 2019-03-15
Filing date: 2019-03-15
Publication date: 2019-07-26

Abstract

一种语速检测方法及装置、可读存储介质，所述语速检测方法包括：对待检测的语音数据进行语音端点判断，得到至少一个语音段；将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果；所述语速结果包括预设单位时间内的音节数量；对所有语音段对应的语速结果进行离群点检测，去除所述离群点；对去除离群点之后的所有语音段对应的语速结果进行数据处理，得到所述语音数据的语速综合结果。采用上述方案，可以方便有效地检测语速。

Description

语速检测方法及装置、可读存储介质

技术领域

本发明属于语音识别技术领域，特别涉及一种语速检测方法及装置、可读存储介质。

背景技术

语速，即文字或人类表达意义的语言符号在单位时间内所呈现的词汇速度，这一属性因人、现实场景而异。有效的自动语速检测技术具有广泛的应用场景，例如：在电话客服场景中，客服过快的语速会使客户听不清，进而影响客户体验；客服过慢的语速又会显得慵懒，导致客户对客服不满意。因此，及时有效地检测客服的语速，并在语速异常时提醒客服，能够提高客服的服务质量。

此外，语速检测还可以应用于其他音频算法的预处理阶段，例如声纹识别、语音识别等。音频算法可以针对不同的语速设定不同的参数，进而获得更好的算法效果。

现有技术大多依赖基于自动语音识别(Automatic Speech Recognition，ASR)的语音转写文本的语速检测方法。这种语速检测方法需要先对音频数据进行ASR转写，再通过转写字数和语音时长计算语速。然而，ASR技术的成本和计算开销巨大，导致相应的语速检测方案也不够便捷。

发明内容

本发明实施例解决的是如何方便有效地检测语速。

为解决上述技术问题，本发明实施例提供一种语速检测方法，包括：对待检测的语音数据进行语音端点判断，得到至少一个语音段；将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果；所述语速结果包括预设单位时间内的音节数量；对所有语音段对应的语速结果进行离群点检测，去除所述离群点；对去除离群点之后的所有语音段对应的语速结果进行数据处理，得到所述语音数据的语速综合结果。

可选的，所述预设的语速模型采用以下方式训练生成：获取训练语音以及对应的语速结果；对所述训练语音进行语音端点检测，获得至少一个训练语音段；提取所述训练语音段的梅尔频率倒谱系数，得到所述训练语音段的梅尔频率倒谱系数特征；将所述训练语音段的梅尔频率倒谱系数特征作为所述预设的语速模型的输入，将所述训练语音对应的语速结果作为所述预设的语速模型的输出，对所述预设的语速模型进行训练，得到所述语速模型。

可选的，所述离群点检测包括以下至少一种检测方法：统计学检测方法、聚类检测方法、One Class SVM算法以及孤独森林算法。

可选的，所述对去除离群点之后的所有语音段对应的语速结果进行数据处理，包括：对去除离群点之后的所有语音段对应的语速结果取均值，将所述均值作为所述语音数据的语速综合结果。

为解决上述技术问题，本发明实施例还公开了一种语速检测装置，包括：语音判断单元，用于对待检测的语音数据进行语音端点判断，得到至少一个语音段；语速判断单元，用于将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果；所述语速结果包括预设单位时间内的音节数量；检测单元，用于对所有语音段对应的语速结果进行离群点检测，去除所述离群点；处理单元，用于对去除离群点之后的所有语音段对应的语速结果进行数据处理，得到所述语音数据的语速综合结果。

可选的，所述处理单元，用于：对去除离群点之后的所有语音段对应的语速结果取均值，将所述均值作为所述语音数据的语速综合结果。

本发明实施例还公开了一种计算机可读存储介质，计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述任一种所述的语速检测方法的步骤。

本发明实施例还提供了一种语速检测装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述任一种所述的语速检测方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

对待检测的语音数据进行语音端点判断，得到至少一个语音段；将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果；所述语速结果包括预设单位时间内的音节数量；对所有语音段对应的语速结果进行离群点检测，去除所述离群点；对去除离群点之后的所有语音段对应的语速结果进行数据处理，得到所述语音数据的语速综合结果。可以直接将语音数据放入语速模型进行推断，无需经过自动语音识别技术转写，降低了语速检测的成本。同时，在得到语速结果后进行离群点检测以及数据处理，进一步提高了语速检测的准确度。

附图说明

图1是本发明实施例中的一种语速检测方法的流程图；

图2是本发明实施例中的一种语速模型的训练过程示意图；

图3是本发明实施例中的一种语速检测装置的结构示意图。

具体实施方式

现有技术中，大多依赖基于自动语音识别(Automatic Speech Recognition，ASR)的语音转写文本的语速检测方法。这种语速检测方法需要先对音频数据进行ASR转写，再通过转写字数和语音时长计算语速。然而，ASR技术的成本和计算开销巨大，导致相应的语速检测方案也不够便捷。

本发明实施例中，对待检测的语音数据进行语音端点判断，得到至少一个语音段；将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果；所述语速结果包括预设单位时间内的音节数量；对所有语音段对应的语速结果进行离群点检测，去除所述离群点；对去除离群点之后的所有语音段对应的语速结果进行数据处理，得到所述语音数据的语速综合结果。可以直接将语音数据放入语速模型进行推断，无需经过自动语音识别技术转写，降低了语速检测的成本。同时，在得到语速结果后进行离群点检测以及数据处理，进一步提高了语速检测的准确度。

为使本发明的上述目的、特征和有益效果能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

本发明实施例提供了一种语速检测方法，参照图1，以下通过具体步骤进行详细说明。

步骤S101，对待检测的语音数据进行语音端点判断，得到至少一个语音段。

在实际应用中，可以采用具有语音采集功能的设备获取待检测的语音数据。在待检测的语音数据中，往往会包含无效的声音，例如噪声、他人说话声音等非目标用户发出的声音。因此，在获取到待检测的语音数据后，需要先从待检测的语音数据中识别出语音段，再对识别出的语音段进行语速检测。

在本发明实施例中，可以采用语音端点检测(Voice Activity Detection，VAD)技术对待检测的语音数据进行语音端点判断。在实际应用中可知，VAD技术可以从带有噪声的语音中准确的定位出语音的开始和结束点，即把静音和噪声作为干扰信号从原始数据中去除。

步骤S102，将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果。

在具体实施中，语音段对应的语速结果可以包括预设单位时间内的音节数量。在实际应用中，预设单位时间可以为1s，也可以为1min或其他时间。

在具体实施中，可以分别将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果，从而可以提高语音数据的整体语速判断结果的精度。

在具体实施中，所述预设的语速模型可以采用以下方式训练生成：获取训练语音以及对应的语速结果；对所述训练语音进行语音端点检测，获得至少一个训练语音段；提取所述训练语音段的梅尔频率倒谱系数，得到所述训练语音段的梅尔频率倒谱系数特征；将所述训练语音段的梅尔频率倒谱系数特征作为所述预设的语速模型的输入，将所述训练语音对应的语速结果作为所述预设的语速模型的输出，对所述预设的语速模型进行训练，得到所述语速模型。

在实际应用中，通过提取每个语音段的梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients，MFCC)，可以把语音段中具有辨识性的成分提取出来，结合基于深度学习的语速模型来进行语速判断，可以降低判断过程的成本和计算量，并具有较好的抗干扰能力。

在具体实施中，预设的语速模型的训练过程可以采用以下公式(1)表示：

y＝f(x)；(1)

其中，x为训练语音的原始音频波形，f()为语速模型，y为语速结果，例如训练语音中每秒包含多少字数。

参照图2，给出了本发明实施例中的一种语速模型的训练过程示意图。

由图2可知，将获取到的训练语音片段1、训练语音片段2、训练语音片段3、……、训练语音片段n分别进行VAD检测，得到对应的有效语音片段1、有效语音片段2、有效语音片段3、……、有效语音片段n；再分别提取n个有效语音片段各自对应的MFCC，得到对应的梅尔频率倒谱系数1、梅尔频率倒谱系数2、梅尔频率倒谱系数3、……、梅尔频率倒谱系数n，最后将n个梅尔频率倒谱系数作为深度神经网络模型的输入X，将训练语音片段1语速、训练语音片段2语速、训练语音片段3语速、……、训练语音片段n语速共n个训练语音片段的语速作为深度神经网络模型的输出Y，以对深度神经网络模型进行训练。因此，可以将训练好的深度神经网络模型作为语速模型来进行语速判断。

步骤S103，对所有语音段对应的语速结果进行离群点检测，去除所述离群点。

在具体实施中，离群点检测可以采用统计学检测方法，还可以采用聚类检测方法，也可以采用一类支持向量机算法(One Class SVM)或孤独森林算法。可以理解的是，用户可以根据自身需求，采用一种或多种算法结合的方式来进行离群点检测，本发明在此不作赘述。

步骤S104，对去除离群点之后的所有语音段对应的语速结果进行数据处理，得到所述语音数据的语速综合结果。

在具体实施中，可以对去除离群点之后的所有语音段对应的语速结果取均值，再将所述均值作为所述语音数据的语速综合结果。可以理解的是，用户可以根据自身需求，采用取均值的数据处理方法，也可以选择其他数据处理方法，本发明在此不作赘述。

综上所述，对待检测的语音数据进行语音端点判断，得到至少一个语音段；将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果；所述语速结果包括预设单位时间内的音节数量；对所有语音段对应的语速结果进行离群点检测，去除所述离群点；对去除离群点之后的所有语音段对应的语速结果进行数据处理，得到所述语音数据的语速综合结果。可以直接将语音数据放入语速模型进行推断，无需经过自动语音识别技术转写，降低了语速检测的成本。同时，在得到语速结果后进行离群点检测以及数据处理，进一步提高了语速检测的准确度。

参照图3，本发明实施例还提供了一种语速检测装置30，包括：语音判断单元301、语速判断单元302、检测单元303以及处理单元304；

其中，所述语音判断单元301，用于对待检测的语音数据进行语音端点判断，得到至少一个语音段；

所述语速判断单元302，用于将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果；所述语速结果包括预设单位时间内的音节数量；

所述检测单元303，用于对所有语音段对应的语速结果进行离群点检测，去除所述离群点；

所述处理单元304，用于对去除离群点之后的所有语音段对应的语速结果进行数据处理，得到所述语音数据的语速综合结果。

在具体实施中，所述离群点检测可以包括以下至少一种检测方法：统计学检测方法、聚类检测方法、One Class SVM算法以及孤独森林算法。

在具体实施中，所述处理单元304，可以用于：对去除离群点之后的所有语音段对应的语速结果取均值，将所述均值作为所述语音数据的语速综合结果。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机指令，所述计算机指令运行时执行本发明上述实施例中提供的任一种所述的语速检测方法的步骤。

本发明实施例还提供了一种语速检测装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所示计算机指令时，执行本发明上述实施例中提供的任一种所述的语速检测方法的步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于任一计算机可读存储介质中，存储介质可以包括：ROM、RAM、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种语速检测方法，其特征在于，包括：

对待检测的语音数据进行语音端点判断，得到至少一个语音段；

将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果；所述语速结果包括预设单位时间内的音节数量；

对所有语音段对应的语速结果进行离群点检测，去除所述离群点；

对去除离群点之后的所有语音段对应的语速结果进行数据处理，得到所述语音数据的语速综合结果。

2.如权利要求1所述的语速检测方法，其特征在于，所述预设的语速模型采用以下方式训练生成：

获取训练语音以及对应的语速结果；

对所述训练语音进行语音端点检测，获得至少一个训练语音段；

提取所述训练语音段的梅尔频率倒谱系数，得到所述训练语音段的梅尔频率倒谱系数特征；

将所述训练语音段的梅尔频率倒谱系数特征作为所述预设的语速模型的输入，将所述训练语音对应的语速结果作为所述预设的语速模型的输出，对所述预设的语速模型进行训练，得到所述语速模型。

3.如权利要求1所述的语速检测方法，其特征在于，所述离群点检测包括以下至少一种检测方法：统计学检测方法、聚类检测方法、One Class SVM算法以及孤独森林算法。

4.如权利要求1所述的语速检测方法，其特征在于，所述对去除离群点之后的所有语音段对应的语速结果进行数据处理，包括：对去除离群点之后的所有语音段对应的语速结果取均值，将所述均值作为所述语音数据的语速综合结果。

5.一种语速检测装置，其特征在于，包括：

语音判断单元，用于对待检测的语音数据进行语音端点判断，得到至少一个语音段；

语速判断单元，用于将每个语音段输入预设的语速模型，得到每个语音段对应的语速结果；所述语速结果包括预设单位时间内的音节数量；

检测单元，用于对所有语音段对应的语速结果进行离群点检测，去除所述离群点；

处理单元，用于对去除离群点之后的所有语音段对应的语速结果进行数据处理，得到所述语音数据的语速综合结果。

6.如权利要求5所述的语速检测装置，其特征在于，所述预设的语速模型采用以下方式训练生成：

获取训练语音以及对应的语速结果；

7.如权利要求5所述的语速检测装置，其特征在于，所述离群点检测包括以下至少一种检测方法：统计学检测方法、聚类检测方法、One Class SVM算法以及孤独森林算法。

8.如权利要求5所述的语速检测装置，其特征在于，所述处理单元，用于：对去除离群点之后的所有语音段对应的语速结果取均值，将所述均值作为所述语音数据的语速综合结果。

9.一种计算机可读存储介质，计算机可读存储介质为非易失性存储介质或非瞬态存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至4中任一项所述的语速检测方法。

10.一种语速检测装置，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至4任一项所述的语速检测方法。