CN109561222A

CN109561222A - 一种语音数据的异常检测方法及装置

Info

Publication number: CN109561222A
Application number: CN201710890904.XA
Authority: CN
Inventors: 杨霖; 韩晓; 尹朝阳; 苏俊峰; 王建鹏; 高骏鹏
Original assignee: Huawei Device Dongguan Co Ltd
Current assignee: Huawei Device Co Ltd
Priority date: 2017-09-27
Filing date: 2017-09-27
Publication date: 2019-04-02
Also published as: WO2019062751A1

Abstract

本申请公开了一种语音数据的异常检测方法及装置，首先获取经上行通话通路传输的目标语音数据；由于正常语音数据中，低频能量占比多、高频能量占比少，因此，通过分析所述目标语音数据中的低频能量或高频能量的大小，能够判断出所述目标语音数据中的高频能量是否少于正常语音数据中的高频能量；当判断结果为是时，则说明所述目标语音数据中的高频能量丢失或被截断，因此可以确定所述目标语音数据异常。

Description

一种语音数据的异常检测方法及装置

技术领域

本申请涉及语音技术领域，尤其涉及一种语音数据的异常检测方法及装置。

背景技术

在手机的日常应用中，语音通话功能是手机的基本应用之一，语音通话质量的好坏直接关系着用户对手机的使用感受。在语音通话过程中，从本端手机采集的语音数据，通过音效处理后传送到对端手机，叫做上行通话通路；反之，本端手机从对端手机接收的语音数据，通过喇叭或者听筒播放出来，叫做下行通话通路。

目前，各个手机厂家和开源组织主要在开发音效处理的算法，对音效异常的检测并不太关注。虽然各个手机厂家也开发了一些语音异常的检测算法，但现有的语音检测技术，都是针对语音的时域信号进行检测，这种时域检测方法直接对采集的语音信号进行幅值、活跃度、跳变异常等内容进行分析，使得异常检测结果的准确度并不理想。

然而，本申请的发明人发现，在实际通话过程中，存在着语音数据中时域信号正常但频域信号异常的场景，这种场景将导致通话过程中出现无声或者断续等异常问题，但这种频域信号异常的语音数据，无法通过现有的时域检测方法检测出来，进而无法规避因频域信号异常导致的通话异常现象。

发明内容

本申请实施例的主要目的在于提供一种语音数据的异常检测方法及装置，能够检测出频域异常的语音数据。

第一方面，本申请提供了一种语音数据的异常检测方法，包括：

获取经上行通话通路传输的目标语音数据；

通过分析所述目标语音数据中的低频能量或高频能量的大小，判断所述目标语音数据中的高频能量是否少于正常语音数据中的高频能量；

若是，则确定所述目标语音数据异常。

在第一方面的第一种可能的实现方式中，所述通过分析所述目标语音数据中的低频能量的大小，判断所述目标语音数据中的高频能量是否少于正常语音数据中的高频能量，包括：

通过对所述目标语音数据进行低通滤波，获取所述目标语音数据中的低频数据；

计算低频能量占比，其中，所述低频能量占比为所述目标语音数据中低频数据的总能量占所述目标语音数据的总能量的比重；

若所述低频能量占比大于低频占比门限，则确定所述目标语音数据中的高频能量少于正常语音数据中的高频能量，其中，所述低频占比门限为所述正常语音数据中低频数据的总能量占所述正常语音数据的总能量的比重。

在第一方面的第二种可能的实现方式中，所述通过分析所述目标语音数据中的高频能量的大小，判断所述目标语音数据中的高频能量是否少于正常语音数据中的高频能量，包括：

通过对所述目标语音数据进行高通滤波，获取所述目标语音数据中的高频数据；

计算高频能量占比，其中，所述高频能量占比为所述目标语音数据中高频数据的总能量占所述目标语音数据的总能量的比重；

若所述高频能量占比小于高频占比门限，则确定所述目标语音数据中的高频能量少于正常语音数据中的高频能量，其中，所述高频占比门限为所述正常语音数据中高频数据的总能量占所述正常语音数据的总能量的比重。

结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述确定所述目标语音数据异常之后，还包括：

输出第一提示，其中，所述第一提示用于提示麦克话筒可能被用户堵住；

在输出所述第一提示后，间隔第一持续时长，继续所述获取经上行通话通路传输的目标语音数据；

若所述第一持续时长后获取的所述目标语音数据异常，则根据所述麦克话筒的麦克通路个数进行异常处理。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，所述获取经上行通话通路传输的目标语音数据，包括：

获取所述麦克话筒的每一麦克通路采集的目标语音数据；

则，所述根据所述麦克话筒的麦克通路个数进行异常处理，包括：

若所述麦克话筒只有一个麦克通路，则输出第二提示，其中，所述第二提示用于提示用户所述麦克通路可能故障；

若所述麦克话筒有至少两个麦克通路、且部分麦克通路采集的所述目标语音数据在频域上异常，则选择其它正常麦克通路进行语音通话；

若所述麦克话筒有至少两个麦克通路、且全部麦克通路采集的所述目标语音数据在频域上异常，则输出第三提示，其中，所述第三提示用于提示用户所述麦克通路可能全部故障。

结合第一方面的第三种可能的实现方式，在第五种可能的实现方式中，所述获取经上行通话通路传输的目标语音数据，包括：

按照预设时间间隔，获取经所述上行通话通路传输的目标语音数据；

则，所述方法还包括：

若第一持续时长内获取的所述目标语音数据在频域上均异常，则进行异常处理，其中，所述第一持续时长为当前间隔时间、或包括所述当前间隔时间在内的至少两段连续间隔时间。

第二方面，提供一种语音数据的异常检测装置，所述异常检测装置包括用于执行上述第一方面或第一方面的任一种可能实现方式所提供的方法的单元。

第三方面，提供一种语音数据的异常检测装置，所述异常检测装置包括：处理器、存储器、总线系统；所述处理器以及所述存储器通过所述系统总线相连；所述存储器用于一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述异常检测装置执行时使所述异常检测装置执行第一方面或第一方面的任一种可能实现方式所提供的方法。

第四方面，提供一种存储一个或多个程序的计算机可读存储介质，所述一个或多个程序被所述异常检测装置执行时，所述异常检测装置执行第一方面或第一方面的任一种可能实现方式所提供的方法。

第五方面，提供一种异常检测装置上的图形用户界面，所述异常检测装置包括显示器、存储器、多个应用程序；和用于执行存储在所述存储器中的一个或多个程序的一个或多个处理器，所述图形用户界面包括根据第一方面或第一方面的任一种可能实现方式所提供的方法显示的用户界面，其中，所述显示器包括触敏表面和显示屏。

本申请提供的一种语音数据的异常检测方法及装置，首先获取经上行通话通路传输的目标语音数据；由于正常语音数据中，低频能量占比多、高频能量占比少，因此，通过分析所述目标语音数据中的低频能量或高频能量的大小，能够判断出所述目标语音数据中的高频能量是否少于正常语音数据中的高频能量；当判断结果为是时，则说明所述目标语音数据中的高频能量丢失或被截断，因此可以确定所述目标语音数据在频域上异常。

附图说明

图1为本申请实施例提供的一种手机的上行通话通路示意图；

图2为本申请实施例提供的一种语音数据的异常检测方法的流程示意图；

图3为本申请实施例提供的正常语音数据的幅值/频率示意图；

图4为本申请实施例提供的语音数据异常检测方法的具体流程示意图之一；

图5为本申请实施例提供的语音数据异常检测方法的具体流程示意图之二；

图6为本申请实施例提供的一种语音数据的异常检测装置的结构示意图；

图7为本申请实施例提供的一种语音数据的异常检测装置的硬件结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

用户利用手机或者座机等通话设备进行通话时，存在着一些异常情况，比如，麦克风(microphone，简称MIC)单体故障、板级连接故障、用户使用故障等等，其中，所述MIC单体故障是指通话设备的MIC单体的振膜里进入杂质导致振膜局部粘连，所述板级连接故障是指在音频通路中出现瞬间短路的情况，所述用户使用故障是指通话过程中用户误操作导致手指堵住MIC孔的情况。通话过程中，当出现其中一种或多种故障时，可能导致语音数据中的时域信号正常但频域信号异常，而频域信号异常会导致通话过程中出现无声或者断续的通话问题。

可见，在实际通话过程中，上述故障会导致语音数据的时域信号没有发生较大变化，但频域信号发生异常，然而，现有的语音通话检测技术，都是针对语音的时域信号进行检测，还没有准确、快速、有效的检测方法来检测语音数据在频域上是否异常，继而无法根据频域异常检测结果，来消除因频域异常导致通话过程中出现无声或者断续的故障原因。

为了能够检测出语音数据在频域上是否异常，本申请实施例提供了一种语音数据的异常检测方法，可以准确、快速、有效的检测出语音数据在频域上是否异常，还可以在确定频域异常后，对导致频域异常的可能原因进行排查并进行异常处理。需要说明的是，本申请实施例提供的方法可以应用于任何一种语音通话设备，比如手机或座机等，其不对语音通话设备的类型进行限制。

现针对本申请实施例提供的方法给出一个具体应用场景，参见图1，为一种手机的上行通话通路示意图，当用户1利用手机进行语音通话时，用户1的语音数据被手机的MIC采集后，被传递到编译码器(COder-DECoder，简称Codec)芯片进行A/D转换，即将模拟语音信号转换为数字语音信号，之后，把语音数据传递到音效算法模块进行音效处理，并把音效处理后的语音数据进行协议编码后传递给调制解调器(英文名Modem)，modem最终把编码数据发送给对端用户2的手机或座机。

如图1所示，本实施例可以基于现有手机的物理结构，增加一个异常检测模块，并利用该异常检测模块进行语音数据的频域异常检测，其中，异常检测模块和音效算法模块可以采用同一个或不同的数字信号处理(Digital SignalProcessing，简称DSP)芯片来实现相关功能。由于正常语音数据中，低频能量占比多、高频能量占比少，但因上述MIC单体故障、板级连接故障、用户使用故障等可能导致语音数据中的高频能量丢失或被截断，因此，可以在音效算法处理模块进行语音效果处理的同时，通过分析被采集语音数据中的低频能量或高频能量的大小，判断被采集语音数据中的高频能量是否少于正常语音数据中的高频能量，若判断结果为是，则说明被采集语音数据中的高频能量丢失或被截断，因此可以确定被采集语音数据在频域上异常。

其中，所述被采集语音数据为经Codec芯片进行A/D转换后的数字语音信号，为便于描述，后文将所述被采集语音数据称为目标语音数据。

参见图2，为本申请实施例提供的一种语音数据的异常检测方法的流程示意图，该方法包括以下步骤S201-S202：

S201：获取经上行通话通路传输的目标语音数据。

在本实施例中，可以如图1那样，音效算法模块在接收到Codec芯片发送的语音数据后，将接收的语音数据发送至异常检测模块，当然，Codec芯片也可以直接将输出的语音数据传送至异常检测模块，以由异常检测模块检测语音数据在频域上是否异常，被检测的语音数据即为所述目标语音数据。

其中，所述目标语音数据可以是较短时间内(比如1ms)获取的语音数据，可以是较长时间内(比如1s)获取的语音数据。

S202：通过分析所述目标语音数据中的低频能量或高频能量的大小，判断所述目标语音数据中的高频能量是否少于正常语音数据中的高频能量；若是，则确定所述目标语音数据异常。

参见图3，为正常语音数据的幅值/频率示意图，其中，横坐标f代表频率，纵坐标A代表幅值。在正常语音数据中，低频能量占比多、而高频能量占比少，因此，可以通过获取所述目标语音数据中的低频数据并确定低频数据在所述目标语音数据中的能量占比，再确定该能量占比是否满足正常语音数据对低频能量的占比要求；或者，通过获取所述目标语音数据中的高频数据并确定高频数据在所述目标语音数据中的能量占比，再确定该能量占比是否满足正常语音数据对高频能量的占比要求；如果不满足，则可以说明所述目标语音数据中的高频信号丢失或被截断，从而可以确定所述目标语音数据在频域上异常。

具体地，可以采用以下两种实施方式之一实现步骤S202。

在第一种实施方式中，参见图4，S202具体可以包括：

S2021：通过对所述目标语音数据进行低通滤波，获取所述目标语音数据中的低频数据。

可以预先在图1所示的异常检测模块内设置有限脉冲响应(Finite ImpulseResponse，简称FIR)数字滤波器或者是无限脉冲响应(Infinite Impulse Response，简称为IIR)数字滤波器，并将其设置为低通滤波器且设置低通频率门限f_Lp。

当利用低通滤波器对所述目标语音数据进行低通滤波时，所述目标语音数据中频率低于门限f_Lp的数据将通过低通滤波器，通过的数据即为所述目标语音数据中的低频数据。

S2022：计算低频能量占比，其中，所述低频能量占比为所述目标语音数据中低频数据的总能量占所述目标语音数据的总能量的比重。

计算所述目标语音数据中的低频数据能量E_Lp、以及所述目标语音数据的全部能量E_ALL，再计算低频能量占比Kactucal＝E_Lp/E_ALL。

S2023：若所述低频能量占比大于低频占比门限，则确定所述目标语音数据中的高频能量少于正常语音数据中的高频能量，其中，所述低频占比门限为所述正常语音数据中低频数据的总能量占所述正常语音数据的总能量的比重。

通过S2022计算低频数据的低频能量占比Kactucal后，如果低频能量占比Kactucal超过低频占比门限Kthreshold，即Kactucal>Kthreshold，则表明所述目标语音数据中的低频能量占比偏高，从而说明所述目标语音数据中的高频信号丢失或被截断，进而说明所述目标语音数据在频域上异常。

通常情况下，正常语音数据中的低频能量占比可能并不是一个固定值，而是一个数值范围，因此，在设置低频占比门限Kthreshold时，可以将其设置为正常语音数据中低频能量占比的最大值、或最小值、或正常占比范围的均值等等。

为便于理解上述第一种实施方式的步骤S2021-S2023，现举例说明：

以某平台为例，当用户1利用手机1与手机2建立正常语音通话后，假设语音数据的采样间隔时间Tunit设置为1ms，则手机1以1ms为间隔持续采集用户1的语音数据，其中，手机1的每一个MIC通路每1ms可以采集48个语音数据，这48个语音数据即为所述目标语音数据。

利用低通滤波器，对每1ms采集的48个语音数据进行10阶(或其它阶数)FIR或IIR低通滤波处理，假设设置的低通滤波频率门限f_Lp为4KHz，则每一语音数据中低于4KHz的数据成分可以通过低通滤波器，通过低通滤波器的这些数据即为所述48个语音数据中的低频数据。

定义每1ms采集的48个语音数据为data[0]～data[47]，data[0]～data[47]中每一语音数据中的低频数据分别定义为data_Lp[0]～data_Lp[47]。

计算48个语音数据data[0]～data[47]的低频能量和全部能量，即：

低频能量全部能量

其中，data_LP[i]_A表示所述48个语音数据中的第i个低频数据data_Lp[i]的幅值，data[i]_A表示所述48个语音数据中的第i个数据的幅值。

则，低频能量占比Kactucal＝C*E_Lp/E_ALL，其中，C为常值增益。

当低频能量占比Kactucal超过低频占比门限Kthreshold时，表明单位时间Tunit内获取的目标语音数据出现了高频信号丢失或者被截取的现象。

在第二种实施方式中，参见图5，S202具体可以包括：

S2021：通过对所述目标语音数据进行高通滤波，获取所述目标语音数据中的高频数据。

可以预先在图1所示的异常检测模块内设置FIR数字滤波器或者IIR数字滤波器，并将其设置为高通滤波器且设置高通频率门限f_Hp。

当利用高通滤波器对所述目标语音数据进行高通滤波时，所述目标语音数据中频率高于门限f_Hp的数据将通过高通滤波器，通过的数据即为所述目标语音数据中的高频数据。

S2022：计算高频能量占比，其中，所述高频能量占比为所述目标语音数据中高频数据的总能量占所述目标语音数据的总能量的比重。

计算所述目标语音数据中的高频数据能量E_Hp、以及所述目标语音数据的全部能量E_ALL，再计算高频能量占比Kactucal＝E_Hp/E_ALL。

S2023：若所述高频能量占比小于高频占比门限，则确定所述目标语音数据中的高频能量少于正常语音数据中的高频能量，其中，所述高频占比门限为所述正常语音数据中高频数据的总能量占所述正常语音数据的总能量的比重。

通过S2022计算低频数据的高频能量占比Kactucal后，如果高频能量占比Kactucal低过高频占比门限Kthreshold，即Kactucal＜Kthreshold，则说明所述目标语音数据中的高频能量占比偏低，从而说明所述目标语音数据中的高频信号丢失或被截断，进而说明所述目标语音数据在频域上异常。

通常情况下，正常语音数据中的高频能量占比可能并不是一个固定值，而是一个范围，因此，在设置高频占比门限Kthreshold时，可以将其设置为正常语音数据中高频能量占比的最大值、或最小值、或正常占比范围的均值等等。

为便于理解上述第二种实施方式的S2021-S2023，现举例说明：

以某平台为例，当用户1利用手机1与手机2建立正常语音通话后，假设语音数据的采样间隔时间Tunit设置为1ms，则手机1以1ms为间隔持续采集用户1的语音数据，其中，手机1的每一个语音通路每1ms可以采集48个语音数据，这48个语音数据即为所述目标语音数据。

利用高通滤波器，对每1ms采集的48个语音数据进行10阶(或其它阶数)FIR或IIR高通滤波处理，假设设置的高通滤波频率门限f_Hp为6KHz，则每一语音数据中高于6KHz的数据成分可以通过高通滤波器，通过高通滤波器的这些数据即为48个语音数据中的高频数据。

定义每1ms采集的48个语音数据为data[0]～data[47]，data[0]～data[47]中每一语音数据中的低频数据分别定义为data_Hp[0]～data_Hp[47]。

计算48个语音数据data[0]～data[47]的高频能量和全部能量，即：

高频能量全部能量

其中，data_HP[i]_A表示所述48个语音数据中的第i个高频数据data_Hp[i]的幅值，data[i]_A表示所述48个语音数据中的第i个数据的幅值。

则，高频能量占比Kactucal＝C*E_Hp/E_ALL，其中，C为常值增益。

当高频能量占比Kactucal低于高频占比门限Kthreshold时，表明单位时间Tunit内获取的目标语音数据出现了高频信号丢失或者被截取的现象。

进一步地，由于本实施例可以在较短时间内检测出语音数据的频域信号是否异常，即检测效率较高，因此，当语音数据在频域上出现异常时，可以快速的进行问题处理和规避，从而提升用户对通话设备的体验效果。

因此，在本申请的一种实施方式中，步骤S202之后还可以进一步包括：

步骤A：输出第一提示，其中，所述第一提示用于提示麦克话筒可能被用户堵住。

用户通话过程中，当因用户使用不规范(比如堵住MIC孔)导致通话异常时，如果没有响应提示，用户会不清楚问题原因，因此，在确定语音数据在频域上异常后，首先排查用户操作是否规范，具有可以通过手机震动或者手机提示音等方式，提醒用户对异常操作进行改善，例如，可以通过语音输出第一提示，如“您的手指可能堵住MIC孔”，用户听到提示后，一般会将手指移开。

步骤B：在输出所述第一提示后，间隔第一持续时长，继续步骤S201。

在输出第一提示后，为用户预留一定的异常解除时间(即第一持续时长)，比如5秒，然后继续执行步骤S201，以继续采集语音数据并进行异常检测。

步骤C：若所述第一持续时长后获取的所述目标语音数据异常，则根据所述麦克话筒的麦克通路个数进行异常处理。

如果因用户手指堵住MIC孔导致语音数据异常，当用户手指不再堵孔时，语音数据应恢复正常，但如果语音数据仍异常，则可能是MIC话筒的某个或多个MIC单体出现故障。

关于现在的手机，如果主MIC单体出现物理损坏，将导致手机无法使用，用户必须去维修网点维修才可重新使用，而通过本实施例，当检测主MIC单体异常后，可以自动切换到副MIC单体进行通话，从而确保通话的完整性，并提示用户哪些MIC单体可能出现故障。

为了能够确定哪个或哪些MIC单体可能出现故障，在本申请的一种实施方式中，S201具体可以包括：获取所述麦克话筒的每一麦克通路采集的目标语音数据。在本实施方式中，可以预先检测MIC话筒的MIC阵列，判断该MIC话筒具有几个MIC单体，比如只有一个主MIC单体、或者有一个主MIC单体以及一个或多个副MIC单体，每个MIC单体即对应一个MIC通路，之后，针对MIC话筒的每个MIC通路采集的目标语音数据分别进行频域异常检测，即，各个MIC通路对语音数据的频域异常检测可以不相互依赖。

然而，现有的语音数据检测算法，主要依赖时域信号，只对单一MIC通路采集的时域信号进行分析，是无法准确判断语音数据是否异常的，而是需要多MIC通路采集的语音数据进行辅助综合判断，此外，通过多通路综合判断，还存在花费周期长、检测准确率低的问题。可见，与现有技术相比，本实施例在判断语音数据是否异常时，不但不需要依赖于多MIC通路采集的语音数据，而且异常检测所花费的时间较少且检测准确率低。

可见，当通话设备出现送话异常时，现有的时域检测技术是无法准确、快速的检测出语音数据是否异常的，导致通话设备的性能和特性不能充分的发挥出来。此外，现有的时域检测技术对语音数据的异常检测需要依赖于多MIC通路，因此，无法准确检测出MIC通路是否故障，从而无法规避MIC故障导致的通话异常问题。

而本实施例可以对每一MIC通路采集的语音数据进行异常检测，因而可以根据异常检测结果判断对应的MIC通路可能发生故障，具体地，上述步骤C中的“根据所述麦克话筒的麦克通路个数进行异常处理”可以包括：

C1：若所述麦克话筒只有一个麦克通路，则输出第二提示，其中，所述第二提示用于提示用户所述麦克通路可能故障。

如果通话设备只具有一个MIC通路，则通过第二提示，比如语音提示或震动提示等，提醒用户通话设备的单MIC通路可能故障。

C2：若所述麦克话筒有至少两个麦克通路、且部分麦克通路采集的所述目标语音数据在频域上异常，则选择其它正常麦克通路进行语音通话。

如果通话设备具备多MIC通路，当主MIC通路异常时，则选择其余副MIC通路中语音质量最好的MIC通路进行通话；如果通话设备具备多MIC通路，当主MIC通路和其中的副MIC通路异常时，则选择其余副MIC通路中语音质量最好的MIC通路进行通话。

此外，还可以通过语音提示或震动提示等，提醒用户通话设备的哪些MIC通路可能故障。

C3：若所述麦克话筒有至少两个麦克通路、且全部麦克通路采集的所述目标语音数据在频域上异常，则输出第三提示，其中，所述第三提示用于提示用户所述麦克通路可能全部故障。

如果通话设备具备多MIC通路，当所有MIC通路都异常时，则通过第三提示，比如语音提示或震动提示等，提醒用户通话设备的全部MIC通路可能故障。

可见，通过本实施例，当检测到某个或某些MIC通路异常后，通话设备会自动切换到其它正常MIC通路进行语音通话，这样可以确保通话的完整性，并提示用户哪些MIC通路可能出现故障，以便用户及时进行维修。

通常情况下，在正常语音通话时，当语音断续或者无声时间超过100ms时，人耳能有明显感受，因此，当通过以上步骤检测出所述目标语音数据在频域上异常时，如果所述目标语音数据对应的采样时间比较短比如1ms，可以并不马上进行异常处理，而是进行频域异常时间的连续累加，例如，将异常时间累计门限ACC设置为100ms，当频域异常检测累计超过100ms时，在利用上述步骤A-C进行异常处理。

为此，在本申请的一种实施方式中，S201具体可以包括：按照预设时间间隔，获取经所述上行通话通路传输的目标语音数据。在本实施方式中，可以按照一定的时间间隔获取经A/D转换后的数字语音数据，比如，每1ms获取一次数字语音数据，每1ms内的数据语音数据即为所述目标语音数据。

S203：若第二持续时长内获取的所述目标语音数据异常，则继续执行步骤A-C；其中，所述第二持续时长为当前间隔时间、或包括所述当前间隔时间在内的至少两段连续间隔时间。

在本实施方式中，需要预先设置异常时间累计门限ACC(即第二持续时长)，以及所述目标语音数据对应的获取时间。例如，当ACC为100ms时，可以将每100ms内采集的语音数据作为所述目标语音数据，如果当前采集的目标语音数据在频域上异常，便进行异常处理；又比如，将每1ms内采集的语音数据作为所述目标语音数据，当连续100次采集的目标语音数据均在频域上异常时，便进行异常处理。

可以理解的是，现有的异常语音检测技术主要是依赖时域信号进行检测，存在检测准确率低、检测周期长(一般2-3秒时间)等问题，而本实施例是基于频域信号进行检测，与现有技术相比，存在检测准确率高，检测周期短(一般100-300毫秒)等有益效果，因此可以迅速进行异常处理。另外，通过本实施例进行实际效果测试中发现，本实施例提供的语音异常检测方法，检测结果的准确度不受用户年龄、音调等影响，且检测结果的准确率达到80％以上。

参见图6，为本申请实施例提供的一种语音数据的异常检测装置的结构示意图，该异常检测装置600包括：

数据获取单元601，用于获取经上行通话通路传输的目标语音数据；

异常检测单元602，用于通过分析所述目标语音数据中的低频能量或高频能量的大小，判断所述目标语音数据中的高频能量是否少于正常语音数据中的高频能量；若是，则确定所述目标语音数据异常。

在本申请的一种实施方式中，所述异常检测单元602可以包括：

低通滤波子单元，用于通过对所述目标语音数据进行低通滤波，获取所述目标语音数据中的低频数据；

占比计算子单元，用于计算低频能量占比，其中，所述低频能量占比为所述目标语音数据中低频数据的总能量占所述目标语音数据的总能量的比重；

异常确定子单元，用于若所述低频能量占比大于低频占比门限，则确定所述目标语音数据中的高频能量少于正常语音数据中的高频能量，其中，所述低频占比门限为所述正常语音数据中低频数据的总能量占所述正常语音数据的总能量的比重。

高通滤波子单元，用于通过对所述目标语音数据进行高通滤波，获取所述目标语音数据中的高频数据；

占比计算子单元，用于计算高频能量占比，其中，所述高频能量占比为所述目标语音数据中高频数据的总能量占所述目标语音数据的总能量的比重；

异常确定子单元，用于若所述高频能量占比小于高频占比门限，则确定所述目标语音数据中的高频能量少于正常语音数据中的高频能量，其中，所述高频占比门限为所述正常语音数据中高频数据的总能量占所述正常语音数据的总能量的比重。

在本申请的一种实施方式中，所述装置600还可以包括：

异常提示单元，用于若所述异常检测单元602确定所述目标语音数据异常，则输出第一提示，其中，所述第一提示用于提示麦克话筒可能被用户堵住；

时钟计时单元，用于在输出所述第一提示后，间隔第一持续时长，触发所述数据获取单元601获取经上行通话通路传输的目标语音数据；

异常处理单元，用于若所述异常检测单元602确定所述第一持续时长后获取的所述目标语音数据异常，则根据所述麦克话筒的麦克通路个数进行异常处理。

在本申请的一种实施方式中，所述数据获取单元601，具体可以用于获取所述麦克话筒的每一麦克通路采集的目标语音数据；

则，所述异常处理单元，具体用于当所述异常检测单元602确定所述第一持续时长后获取的所述目标语音数据在频域上异常时，若所述麦克话筒只有一个麦克通路，则输出第二提示，其中，所述第二提示用于提示用户所述麦克通路可能故障；若所述麦克话筒有至少两个麦克通路、且部分麦克通路采集的所述目标语音数据在频域上异常，则选择其它正常麦克通路进行语音通话；若所述麦克话筒有至少两个麦克通路、且全部麦克通路采集的所述目标语音数据在频域上异常，则输出第三提示，其中，所述第三提示用于提示用户所述麦克通路可能全部故障。

在本申请的一种实施方式中，所述数据获取单元601，具体用于按照预设时间间隔，获取经所述上行通话通路传输的目标语音数据；

则，所述异常处理单元，还用于若所述异常检测单元602确定第二持续时长内获取的所述目标语音数据异常，则触发所述异常提示单元输出第一提示，其中，所述第二持续时长为当前间隔时间、或包括所述当前间隔时间在内的至少两段连续间隔时间。

图6所对应实施例中特征的说明可以参见图2所对应实施例的相关说明，这里不再一一赘述。

参见图7，为本申请实施例提供的一种语音数据的异常检测装置的硬件结构示意图，所述异常检测装置700包括存储器701和接收器702，以及分别与所述存储器701和所述接收器702连接的处理器703，所述存储器701用于存储一组程序指令，所述处理器703用于调用所述存储器701存储的程序指令执行如下操作：

获取经上行通话通路传输的目标语音数据；

若是，则确定所述目标语音数据异常。

在本发明的一种实施方式中，所述处理器703还用于调用所述存储器701存储的程序指令执行如下操作：

若所述确定所述目标语音数据异常，则输出第一提示，其中，所述第一提示用于提示麦克话筒可能被用户堵住；

获取所述麦克话筒的每一麦克通路采集的目标语音数据；

当所述第二持续时长后获取的所述目标语音数据在频域上异常时，若所述麦克话筒只有一个麦克通路，则输出第二提示，其中，所述第二提示用于提示用户所述麦克通路可能故障；

所述获取经上行通话通路传输的目标语音数据，包括：

若第二持续时长内获取的所述目标语音数据异常，则继续执行所述输出第一提示的步骤，其中，所述第二持续时长为当前间隔时间、或包括所述当前间隔时间在内的至少两段连续间隔时间。

在一些实施方式中，所述异常检测装置700包括的存储器701、接收器702和处理器703可以是移动终端的部分部件，所述移动终端可以包括手机、平板电脑、PDA(PersonalDigital Assistant，个人数字助理)、POS(Point of Sales，销售终端)、车载电脑等。

存储器701可用于存储软件程序以及模块，处理器703通过运行存储在存储器701的软件程序以及模块，从而执行移动终端的各种功能应用以及数据处理。存储器701可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图象播放功能等)等；存储数据区可存储根据移动终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器701可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

接收器702可以接收用户的语音。例如，接收器702可以包括麦克风或其他接收用户语音的结构。麦克风可将收集的声音信号转换为信号，该信号由音频电路接收后转换为音频数据，再将音频数据输出至RF电路以发送给比如另一移动终端，或者将音频数据输出至存储器701以便进一步处理。

处理器703是移动终端的控制中心，利用各种接口和线路连接整个移动终端的各个部分，通过运行或执行存储在存储器701内的软件程序和/或模块，以及调用存储在存储器701内的数据，执行移动终端的各种功能和处理数据，从而对移动终端进行整体监控。可选的，处理器703可包括一个或多个处理单元；优选的，处理器703可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器703中。

可以理解的是，异常检测装置700还可以包括射频电路，用于接收和发送用户的语音数据。例如，射频电路可接收网络设备发送过来的下行语音数据并处理，或将接收的上行语音数据发送至网络设备，以便进行正常的语音通话等业务。

异常检测装置700可以包括上述更多或更少的硬件结构，对于异常检测装置700的具体结构，本发明实施例不作具体限定。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种语音数据的异常检测方法，其特征在于，包括：

获取经上行通话通路传输的目标语音数据；

若是，则确定所述目标语音数据异常。

2.根据权利要求1所述的方法，其特征在于，所述通过分析所述目标语音数据中的低频能量的大小，判断所述目标语音数据中的高频能量是否少于正常语音数据中的高频能量，包括：

3.根据权利要求1所述的方法，其特征在于，所述通过分析所述目标语音数据中的高频能量的大小，判断所述目标语音数据中的高频能量是否少于正常语音数据中的高频能量，包括：

4.根据权利要求1至3任一项所述的方法，其特征在于，所述确定所述目标语音数据异常之后，还包括：

输出第一提示，其中，所述第一提示用于提示麦克话筒可能被用户堵住。

5.根据权利要求4所述的方法，其特征在于，所述输出所述第一提示之后，还包括：

间隔第一持续时长，获取经上行通话通路传输的目标语音数据；

若确定所述第一持续时长后获取的所述目标语音数据异常，则根据所述麦克话筒的麦克通路个数进行异常处理。

6.根据权利要求5所述的方法，其特征在于，所述获取经上行通话通路传输的目标语音数据，包括：

获取所述麦克话筒的每一麦克通路采集的目标语音数据；

7.根据权利要求5所述的方法，其特征在于，所述获取经上行通话通路传输的目标语音数据，包括：

则，所述方法还包括：

8.一种语音数据的异常检测装置，其特征在于，包括：

数据获取单元，用于获取经上行通话通路传输的目标语音数据；

异常检测单元，用于通过分析所述目标语音数据中的低频能量或高频能量的大小，判断所述目标语音数据中的高频能量是否少于正常语音数据中的高频能量；若是，则确定所述目标语音数据异常。

9.根据权利要求8所述的装置，其特征在于，所述异常检测单元包括：

10.根据权利要求8所述的装置，其特征在于，所述异常检测单元包括：

11.根据权利要求8至10任一项所述的装置，其特征在于，所述装置还包括：

异常提示单元，用于若所述异常检测单元确定所述目标语音数据异常，则输出第一提示，其中，所述第一提示用于提示麦克话筒可能被用户堵住。

12.根据权利要求11任一项所述的装置，其特征在于，所述装置还包括：

时钟计时单元，用于在输出所述第一提示后，间隔第一持续时长，触发所述数据获取单元获取经上行通话通路传输的目标语音数据；

异常处理单元，用于若所述异常检测单元确定所述第一持续时长后获取的所述目标语音数据异常，则根据所述麦克话筒的麦克通路个数进行异常处理。

13.根据权利要求11所述的装置，其特征在于，所述数据获取单元，具体用于获取所述麦克话筒的每一麦克通路采集的目标语音数据；

则，所述异常处理单元，具体用于当所述异常检测单元确定所述第一持续时长后获取的所述目标语音数据异常时，若所述麦克话筒只有一个麦克通路，则输出第二提示，其中，所述第二提示用于提示用户所述麦克通路可能故障；若所述麦克话筒有至少两个麦克通路、且部分麦克通路采集的所述目标语音数据在频域上异常，则选择其它正常麦克通路进行语音通话；若所述麦克话筒有至少两个麦克通路、且全部麦克通路采集的所述目标语音数据在频域上异常，则输出第三提示，其中，所述第三提示用于提示用户所述麦克通路可能全部故障。

14.根据权利要求11所述的装置，其特征在于，所述数据获取单元，具体用于按照预设时间间隔，获取经所述上行通话通路传输的目标语音数据；

则，所述异常处理单元，还用于若所述异常检测单元确定第二持续时长内获取的所述目标语音数据异常，则触发所述异常提示单元输出第一提示，其中，所述第二持续时长为当前间隔时间、或包括所述当前间隔时间在内的至少两段连续间隔时间。

15.一种语音数据的异常检测装置，其特征在于，包括：处理器、存储器、系统总线；

所述处理器以及所述存储器通过所述系统总线相连；

所述存储器用于存储一个或多个程序，所述一个或多个程序包括指令，所述指令当被所述异常检测装置执行时使所述异常检测装置执行如权利要求1-7中任一项所述的方法。