CN108605191B

CN108605191B - 异音检测方法和装置

Info

Publication number: CN108605191B
Application number: CN201780009940.9A
Authority: CN
Inventors: 马骅; 吴元友; 仇存收; 孙建华
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-01-20
Filing date: 2017-04-28
Publication date: 2020-12-25
Anticipated expiration: 2037-04-28
Also published as: WO2018133247A1; CN108605191A

Abstract

一种异音检测方法和装置(02)，方法包括：获取终端设备(01)的声音输出器件(03)所播放的第一语音信号，其中，第一语音信号为终端设备(01)中本地存储的，第一语音信号包括频率无规则变化的音频信息(101,301,401,501)；根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分(102,304,404)；根据残差信号，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常(103)。语音信号代表着用户真实的使用场景，在语音信号的整个播放过程会在集中在语音的实际频段内反复触发，有利于发现有问题的频点；语音信号本身就代表着需要检测的真实频点，漏掉有问题频点的可能性会小得多。检测方式便捷、检测方法的通用性较好，检测结果准确。

Description

异音检测方法和装置

相关申请交叉引用

本申请要求于2017年1月20日提交中国专利局、申请号为201710045605.6、发明名称为“一种语音激励的方法和终端”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及终端技术领域，尤其涉及一种异音检测方法和装置。

背景技术

随着终端技术的发展，各类终端已经广泛的应用到人们的生活中，终端例如有智能手机、电脑、耳机、智能手表等等。在终端中一般都会设置声音输出器件，声音输出器件例如有扬声器、受话器等等，终端需要利用声音输出器件播放音频信号。声音输出器件由于设计缺陷、组装瑕疵、异物进入等种种原因，会导致播放音频信号的时候产生异音。从而在终端进行销售之前，需要对终端上的声音输出器件进行检测，检测声音输出器件在播放音频信号的时候是否会出现异音。

现有技术中，采用待检测的声音输出器件去播放扫频信号，然后采用检测系统录下该待检测的声音输出器件所播放的扫频信号，然后计算出扫频信号上各频段的高次谐波失真能量，然后判断各频段的高次谐波失真能量是否超出了各频段的能量门限值。在确定只要有一个频段的高次谐波失真能量超出了该频段的能量门限值的时候，或者在确定多个频段的高次谐波失真能量超出了各自频段的能量门限值的时候，可以确定待检测的声音输出器件中具有异音，进而确定待检测的声音输出器件是异常的。

然而现有技术中，由于扫频信号是在某一个频段内，频率由高到低、或者频率由低到高的单调变化的过程，在扫频信号中的每一个频点持续的时间很短，进而可能会出现某一个频点还没有激发出较明显的高次谐波能量的时候，就去扫描下一个频点了，此时该频点可能出现的问题没有被检测出来。并且，在声音输出器件实际被使用的时候，不大可能只播放扫频信号这样简单的音频信号。从而现有技术中会出现不能准确的检测待检测的声音输出器件所播放的扫频信号中的异音的情况，无法准确的检测出待检测的声音输出器件是否异常，现有的检测方法不准确。

发明内容

本申请提供一种异音检测方法和装置，以解决现有技术中检测待检测的声音输出器件在播放音频信号的时候是否产生异音并不准确，无法准确的检测出待检测的声音输出器件是否异常的问题。

第一方面，本申请提供一种异音检测方法，包括：获取终端设备的声音输出器件所播放的第一语音信号，该第一语音信号为终端设备中本地存储的，且该第一语音信号中包括有频率无规则变化的音频信息；根据预先获取的语音参考信号和该第一语音信号，得到一个残差信号，在该残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分；然后再根据残差信号，确定出第一语音信号中是否具有异音，进而确定出声音输出器件是否异常。

在一种可能的设计中，根据残差信号，确定出第一语音信号中是否具有异音，包括：确定出该残差信号的能量值；根据计算出能量值，判断该第一语音信号中是否具有异音。

在一种可能的设计中，确定出该残差信号的能量值，包括：去除掉残差信号中的语音主频带能量，从而得到去除了语音主频带能量的残差信号，其中，在去除语音主频带能量的过程中会设置所去除的语音主频带能量的频率，是小于第一频率值的；然后再确定出去除了语音主频带能量的残差信号的能量值。

在一种可能的设计中，确定出去除了语音主频带能量的残差信号的能量值，包括：确定出去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，然后再计算出该部分在每一帧上的能量值。对应于此处，根据能量值，确定第一语音信号中是否具有异音，包括以下过程：

判断各每一帧上的能量值中，是否具有预设个数的能量值均小于与能量值对应的第一能量门限值；

若确定各每一帧上的能量值中，不具有预设个数的能量值均小于与能量值对应的第一能量门限值，则可以确定第一语音信号中具有异音，并确定声音输出器件异常；

若确定各每一帧上的能量值中，具有预设个数的能量值均小于与能量值对应的第一能量门限值，则可以确定第一语音信号中不具有异音，并确定声音输出器件正常。

或者，在一种可能的设计中，确定出去除了语音主频带能量的残差信号的能量值，包括：确定出去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，然后再计算出该部分在每一帧上的能量值；然后计算出能量最大值，该能量最大值为各帧的能量值中最大的值。对应于此处，根据能量值，确定第一语音信号中是否具有异音，包括以下过程：

判断能量最大值，是否大于等于第二能量门限值；

若确定能量最大值大于等于第二能量门限值，则可以确定第一语音信号中具有异音，并确定声音输出器件异常；

若确定能量最大值小于第二能量门限值，则可以确定第一语音信号中不具有异音，并确定声音输出器件正常。

在一种可能的设计中，在根据预先获取的语音参考信号、以及第一语音信号，得到一个残差信号之前，还包括有：获取至少一个其他声音输出器件所播放的第二语音信号，各该其他声音输出器件为播放声音正常的声音输出器件，第二语音信号中的语音内容与第一语音信号中的语音内容是相同的；然后再将各第二语音信号进行信号叠加处理，生成上述语音参考信号。

在一种可能的设计中，在根据预先获取的语音参考信号、以及第一语音信号，得到一个残差信号之前，还包括：在时域上将第一语音信号与语音参考信号进行时延对齐处理，生成一个对齐语音参考信号后的第一语音信号。

本公开的实施例提供的技术方案可以包括以下有益效果：通过获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，且该第一语音信号中包括有频率无规则变化的音频信息；根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，其中，残差信号为第一语音信号中与语音参考信号的信号不同的部分；根据残差信号，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。从而提供了一种检测声音输出器件播放音频的时候是否出现异音，以确定该声音输出器件是否异常的方式。由于采用的检测的待检测信号为语音信号，语音信号可以代表着用户真实的使用场景，在语音信号的整个播放过程会在集中在语音的实际频段内反复触发，进而有利于去发现有问题频点的异常；并且，本申请中语音信号本身就代表着需要检测的真实频点，因此漏掉有问题频点的可能性就会小得多，有利于检测出有异音的频点。同时，采用的待检测信号是声音输出器件所播放的终端设备中本地存储的语音信号，进而避免了语音信号在传输过程中出现了丢包现象、或者被掺杂杂音而引发出异音的问题，并且，采用的是对第一语音信号中与语音参考信号的信号不同的部分进行检测，去确定第一语音信号中是否存在着异音，第一语音信号与语音参考信号的语音内容相同，检测方式较为便捷、且检测方法的通用性较好，提高了检测结果的准确性。

第二方面，本申请提供一种异音检测装置，包括：

获取单元，用于获取终端设备的声音输出器件所播放的第一语音信号，该第一语音信号为终端设备中本地存储的，且该第一语音信号中包括有频率无规则变化的音频信息；

计算单元，用于根据预先获取的语音参考信号和该第一语音信号，得到一个残差信号，在该残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分；

确定单元，用于根据残差信号，确定出第一语音信号中是否具有异音，进而确定出声音输出器件是否异常。

在一种可能的设计中，确定单元，包括：第一确定模块，用于确定出该残差信号的能量值；第二确定模块，用于根据计算出能量值，判断该第一语音信号中是否具有异音。

在一种可能的设计中，第一确定模块，包括：

去除子模块，用于去除掉残差信号中的语音主频带能量，从而得到去除了语音主频带能量的残差信号，其中，在去除语音主频带能量的过程中会设置所去除的语音主频带能量的频率，是小于第一频率值的；

确定子模块，确定出去除了语音主频带能量的残差信号的能量值。

在一种可能的设计中，确定子模块，具体用于：确定出去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，然后再计算出该部分在每一帧上的能量值。对应于此处，第二确定模块，具体用于：

或者，在一种可能的设计中，确定子模块，具体用于：确确定出去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，然后再计算出该部分在每一帧上的能量值；然后计算出能量最大值，该能量最大值为各帧的能量值中最大的值。对应于此处，第二确定模块，具体用于：

判断能量最大值，是否大于等于第二能量门限值；

在一种可能的设计中，装置，还包括：

生成单元，用于在计算单元根据预先获取的语音参考信号、以及第一语音信号，得到一个残差信号之前，获取至少一个其他声音输出器件所播放的第二语音信号，各该其他声音输出器件为播放声音正常的声音输出器件，第二语音信号中的语音内容与第一语音信号中的语音内容是相同的；然后再将各第二语音信号进行信号叠加处理，生成上述语音参考信号。

在一种可能的设计中，装置，还包括：

对齐单元，用于在计算单元根据预先获取的语音参考信号、以及第一语音信号，得到一个残差信号之前，在时域上将第一语音信号与语音参考信号进行时延对齐处理，生成一个对齐语音参考信号后的第一语音信号。

第三方面，本申请提供一种计算机程序，该程序在被处理器执行时用于执行以上第一方面的方法。

第四方面，本申请提供一种程序产品，例如计算机可读存储介质，包括第三方面的程序。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述各方面的方法。

可见，分别在以上第三方面、第四方面、第五方面中，通过获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，且该第一语音信号中包括有频率无规则变化的音频信息；根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，其中，残差信号为第一语音信号中与语音参考信号的信号不同的部分；根据残差信号，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。从而提供了一种检测声音输出器件播放音频的时候是否出现异音，以确定该声音输出器件是否异常的方式。由于采用的检测的待检测信号为语音信号，语音信号可以代表着用户真实的使用场景，在语音信号的整个播放过程会在集中在语音的实际频段内反复触发，进而有利于去发现有问题频点的异常；并且，本申请中语音信号本身就代表着需要检测的真实频点，因此漏掉有问题频点的可能性就会小得多，有利于检测出有异音的频点。同时，采用的待检测信号是声音输出器件所播放的终端设备中本地存储的语音信号，进而避免了语音信号在传输过程中出现了丢包现象、或者被掺杂杂音而引发出异音的问题，并且，采用的是对第一语音信号中与语音参考信号的信号不同的部分进行检测，去确定第一语音信号中是否存在着异音，第一语音信号与语音参考信号的语音内容相同，检测方式较为便捷、且检测方法的通用性较好，提高了检测结果的准确性。

附图说明

图1为本申请实施例提供的一种应用场景示意图一；

图2为本申请实施例提供的一种异音检测方法的流程示意图一；

图3为本申请实施例提供的一种异音检测方法中采用的自适应滤波方法的原理图；

图4为本申请实施例提供的一种异音检测方法的流程示意图二；

图5为本申请实施例提供的又一种异音检测方法的流程示意图；

图6为本申请实施例提供的又一种异音检测方法中的能量曲线图；

图7为本申请实施例提供的另一种异音检测方法的流程示意图；

图8为本申请实施例提供的再一种异音检测方法的流程示意图；

图9为本申请实施例提供的一种异音检测装置的结构示意图；

图10为本申请实施例提供的又一种异音检测装置的结构示意图；

图11为本申请实施例提供的另一种异音检测装置的结构示意图。

具体实施方式

本申请实施例应用于或者异音检测装置中、或者音频检测系统中、或者可以执行本申请实施例的任意系统中，以下对本申请中的部分用语进行解释说明，以便于本领域技术人员理解。需要说明的是，当本申请实施例的方案应用于音频检测系统中、或者可以执行本申请实施例的任意系统中时，音频检测系统、异音检测装置的名称可能发生变化，但这并不影响本申请实施例方案的实施。

1)终端设备，又称为终端、用户设备，是一种向用户提供语音和/或数据连通性的设备，例如，具有无线连接功能的手持式设备、车载设备等。常见的终端设备例如包括：手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device，MID)、可穿戴设备，其中，可穿戴设备例如包括：智能手表、智能手环、计步器等。

2)声音输出器件，是可以播放音频信号的器件，例如，扬声器、受话器；该声音输出器件可以设置在终端设备上。

3)“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

图1为本申请实施例提供的一种应用场景示意图一。如图1所示，本申请实施例需要使用终端设备01和异音检测装置02，在终端设备01中会设置有声音输出器件03，声音输出器件03可以播放音频信号。如图1所示，终端设备01上的声音输出器件03播放音频信号，异音检测装置02获取到端设备01上的声音输出器件03所播放的播放音频信号，然后，异音检测装置02进行本申请实施例所进行的方案。

其中，本申请实施例中的终端设备可以指接入终端、用户终端、终端、无线通信设备、用户代理或用户装置等等。其中，用户终端例如有智能手机、智能手表、个人电脑等等。

本申请实施中的声音输出器件可以是扬声器、受话器等等，且本申请实施中的声音输出器件可以设置在本申请实施例中的终端设备上。

图2为本申请实施例提供的一种异音检测方法的流程示意图一。如图2所示，该方法包括：

S101、获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，且第一语音信号包括频率无规则变化的音频信息。

在本实施例中，以执行主体为异音检测装置进行说明。终端设备的声音输出器件播放第一语音信号，然后异音检测装置可以获取到该声音输出器件所播放的第一语音信号。

在本申请中，异音检测装置获取声音输出器件所播放的第一语音信号的方式为：终端设备中已经预先存储好了语音，进而终端设备的声音输出器件可以根据终端设备本地所存储的语音播放出第一语音信号；然后，异音检测装置可以录取该第一语音信号。

在本申请中，第一语音信号可以为112时女声的“急救中心请拨120”语音。例如，声音输出器件播放终端设备中本地存储的语音“急救中心请拨120”。在本申请中，可以采用女声的语音，这是因为女声语音相比男声语音而依然，基波频率更高、频段的覆盖范围更大；女声语音在时间轴上的频率能量分布更加具有多样性。

相对于现有技术而言，扫频信号与语音信号之间的信号差异性较大。具体来说，首先，现有技术中采用的待检测信号为扫频信号，扫频信号是在某一个频段内，频率由高到低、或者频率由低到高的单调变化的过程，在扫频信号中的每一个频点持续的时间很短；进而会出现某一个频点还没有激发出较明显的高次谐波能量的时候，就去扫描下一个频点了的问题，此时该频点可能出现的问题没有被检测出来；本申请中采用语音信号作为待检测信号，因为语音信号可以代表着用户真实的使用场景，本申请可以获取声音输出器件所播放的第一语音信号，该第一语音信号中具有频率无规则变化的音频信息，第一语音信号中每一个频点的持续时间是多变的，且第一语音信号中的频率变化是多变性的，在第一语音信号的整个播放过程会在集中在语音的实际频段内反复触发，进而有利于去发现有问题频点的异常。同时，出现异音失真的情况的时候，通常是在非常窄的个别共振频点上出现异音；而现有技术中采用扫频信号作为待检测信号的时候，由于扫频信号的频点是离散的阶跃式扫频，各个频点并不连续，扫描过程中从而很可能漏掉真正有问题的频点；而本申请中语音信号本身就代表着需要检测的真实频点，因此漏掉有问题频点的可能性就会小得多，有利于检测出有异音的频点。

S102、根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，其中，残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分。

在本实施例中，异音检测装置已经预先获取到了语音参考信号，其中，语音参考信号的语音内容与第一语音信号的语音内容相同。例如，第一语音信号的语音内容为“你好，请拨打00”，语音参考信号的语音内容也是“你好，请拨打00”。

异音检测装置需要采用语音参考信号，对待检测的第一语音信号进行自适应滤波处理，以去除待检测的第一语音信号中与语音参考信号的信号一致的部分，保留下待检测的第一语音信号中与语音参考信号的信号不同的部分，进而“保留下的待检测的第一语音信号中与参考信号的信号不同的部分”为残差信号。或者，异音检测装置也可以采用其他的滤波处理方法，根据语音参考信号，对待检测的第一语音信号进行滤波处理，去得到残差信号。

其中，残差信号中会包含有第一语音信号中的与语音参考信号的信号不同的部分；同时，残差信号中有可能也会包含有第一语音信号的一些信号信息，或者残差信号中有可能也会包含有语音参考信号的一些信号信息。

举例来说，在采用自适应滤波方法，得到残差信号的时候。图3为本申请实施例提供的一种异音检测方法中采用的自适应滤波方法的原理图，如图3所示，结合本申请，x为第一语音信号，d为语音参考信号，e为残差信号。自适应滤波思想就是通过某种准则不断调整e的值，使的经过滤波处理后的x值(即y值)接近于语音参考信号d的值。具体来说，x(j)表示j时刻的输入的第一语音信号的值，y(j)表示j时刻的输出的滤波处理后的第一语音信号的值，d(j)表示j时刻的语音参考信号的，残差信号e(j)为d(j)与y(j)之差；自适应滤波器的滤波参数，受到残差信号e(j)的值的控制，滤波参数根据e(j)的值而自动调整，使之适合下一时刻输出的y(j)的值更接近于所期望的语音参考信号d(j)的值。

S103、根据残差信号，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。

在本实施例中，异音检测装置去分析得到的残差信号中是否出异常的信号，进而确定出第一语音信号中是否具有异音。在确定第一语音信号具有异音的时候，确定声音输出器件异常；在确定第一语音信号不具有异音的时候，确定声音输出器件正常。

图4为本申请实施例提供的一种异音检测方法的流程示意图二。如图4所示，该流程过程包括：

S201、异音检测装置启动异音检测装置的录音功能。

在本实施例中，异音检测装置启动自身的录音功能。

S202、终端设备的声音输出器件播放第一语音信号，异音检测装置获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的。

在本实施例中，终端设备中已经预先存储好了语音，进而终端设备的声音输出器件可以根据终端设备本地所存储的语音播放出第一语音信号；然后，异音检测装置可以录取该第一语音信号。本步骤的过程可以参见图2所提供的步骤S101，原理和过程与步骤S101相同。

S203、异音检测装置保存第一语音信号。

在本实施例中，异音检测装置保存录取到的第一语音信号。

S204、异音检测装置获取语音参考信号。

在本实施例中，异音检测装置获取到一个语音参考信号，其中，语音参考信号的语音内容与第一语音信号的语音内容相同。

S205、异音检测装置运行异音检测算法。

在本实施例中，异音检测装置运行异音检测算法，该异音检测算法的过程包括了图2所示的S102、S103。进而确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。

S206、异音检测装置输出检测结果。

图4所示的过程参见行图2所示的的过程。

在图2和图4所提供实施例中，异音检测装置输出S205中得到的检测结果，在确定第一语音信号具有异音的时候，确定声音输出器件异常；在确定第一语音信号不具有异音的时候，确定声音输出器件正常。

在现有的方法中，现有的方法提供了一种方式为，声音输出器件播放扫频信号，然后获取到声音输出器件所播放的扫频信号之后，计算扫频信号的12～15次谐波能量；根据扫频信号的12～15次谐波能量，确定扫频信号中是否具有异音，以确定声音输出器件是否异常。但是这种方式中，采用的待检测信号依然还是扫频信号，与之前提到的问题一样，依然会出现不能准确的检测待检测的声音输出器件所播放的扫频信号中的异音的情况，无法准确的检测出待检测的声音输出器件是否异常。进而会出现，检测一些终端设备的听筒等声音输出器件的时候，会出现检测结果判断为无异音，但是实际中使用该终端设备播放音源的时候，用户会听到明显的异音的情况。

现有的方法还提供了一种方式为，获取通信网络传输的音频信号；获取音频信号当前帧的频域能量分布参数，获取当前帧的预设邻域范围内的帧中每一帧的频域能量分布参数；获取当前帧的音调参数，获取当前帧的预设邻域范围内的帧中每一帧的音调参数；根据当前帧的音调参数以及当前帧的预设邻域范围内的帧中每一帧的音调参数，确定当前帧是否处于语音段；若确定当前帧处于语音段，且在全部的频域能量分布参数中，位于预设的语音类杂音频域能量分布参数区间的频域能量分布参数的数量大于等于第一阈值，则确定当前帧为语音类杂音。这种现有方法中，第一点，采用的待检测音频信号，是通信网络传输过来的音频信号，该音频信号在传输的过程中，会出现音频信号的丢包现象，或者会出现其他的外部噪音进而使得该音频信号在传输过程中掺杂杂音的现象；从而这种现有方法，最终若检测出了语音类杂音，这个杂音可能是因为音频信号在传输过程中出现了丢包现象、或者被掺杂杂音而引发的，不能确定是否这个杂音就是因为声音输出器件本身的缺陷而导致的，从而现有方法并不准确。第二点，这种现有方法中，分析的是音频信号频域能量分布参数，将音频信号频域能量分布参数与预设的频域能量分布参数区间做比较，去判断该音频信号中是否存在异音；但是由于不同音频信号的频域特征可能千差万别，因此在预设频域能量分布参数区间时会比较困难，同样的会造成检测结果不准确的问题。第三点，现有的这种检测方法，针对于同一类型的音频信号，由于不同类型的终端设备的设计工艺、装配工艺、电声器件选型等方面都会存在很大的差异，进而导致不同的终端设备所播放出来的同一类型的音频信号，也会在频域特征上存在很大的不同，也会给预设频域能量分布参数区间带来很大的困难，这种检测方法的通用性较差，也会造成检测结果不准确的问题。

在本申请中，采用图2或图4的过程，由于检测的待检测信号为语音信号，语音信号可以代表着用户真实的使用场景，在语音信号的整个播放过程会在集中在语音的实际频段内反复触发，进而有利于去发现有问题频点的异常；并且，本申请中语音信号本身就代表着需要检测的真实频点，因此漏掉有问题频点的可能性就会小得多，有利于检测出有异音的频点。同时，本申请中，采用的待检测信号是声音输出器件所播放的终端设备中本地存储的语音信号，不是从通信网络上传输过来的信号，进而避免了语音信号在传输过程中出现了丢包现象、或者被掺杂杂音而引发出异音的问题，提高了检测结果的准确性。并且，本申请中，在残差信号中会包含有第一语音信号中与语音参考信号的信号不同的部分，然后对该残差信号进行检测，去确定第一语音信号中是否存在着异音，并且，第一语音信号与语音参考信号的语音内容相同，相对于采用音频信号频域能量分布参数去分析异音的方式，检测方式较为便捷、且检测方法的通用性较好，检测结果较为准确。

本实施例通过获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，第一语音信号包括频率无规则变化的音频信息；根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，其中，残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分；根据残差信号，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。从而提供了一种检测声音输出器件播放音频的时候是否出现异音，以确定该声音输出器件是否异常的方式。由于采用的检测的待检测信号为语音信号，语音信号可以代表着用户真实的使用场景，在语音信号的整个播放过程会在集中在语音的实际频段内反复触发，进而有利于去发现有问题频点的异常；并且，本申请中语音信号本身就代表着需要检测的真实频点，因此漏掉有问题频点的可能性就会小得多，有利于检测出有异音的频点。同时，采用的待检测信号是声音输出器件所播放的终端设备中本地存储的语音信号，进而避免了语音信号在传输过程中出现了丢包现象、或者被掺杂杂音而引发出异音的问题，并且，在残差信号中会包含有第一语音信号中与语音参考信号的信号不同的部分，然后对该残差信号进行检测，去确定第一语音信号中是否存在着异音，第一语音信号与语音参考信号的语音内容相同，检测方式较为便捷、且检测方法的通用性较好，提高了检测结果的准确性。

图5为本申请实施例提供的又一种异音检测方法的流程示意图。如图5所示，该方法包括：

S301、获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，且第一语音信号包括频率无规则变化的音频信息。

在本实施例中，本步骤参见图2所提供的一种异音检测方法的流程示意图一中的步骤S101，以及图4所提供的一种异音检测方法的流程示意图二的步骤S202。

S302、获取至少一个其他声音输出器件所播放的第二语音信号，其中，其他声音输出器件为播放声音正常的声音输出器件，第二语音信号中的语音内容与第一语音信号中的语音内容相同；将各第二语音信号进行信号叠加处理，生成语音参考信号。

在本实施例中，可以采用多台确认可以正常播放声音的正常的声音输出器件去播放同一段第二语音信号；正常的声音输出器件所播放的第二语音信号，也被存储在各正常的声音输出器件所对应的终端设备中的。并且，第二语音信号中的语音内容与第一语音信号中的语音内容是相同的。在正常的声音输出器件去播放同一段第二语音信号之后，异音检测装置分别的录取下各正常的声音输出器件所播放的第二语音信号。

然后，异音检测装置对各第二语音信号进行信号叠加处理，得到语音参考信号，其中，语音参考信号的语音内容与第二语音信号中的语音内容是相同的。其中，信号叠加处理的过程可以有以下几种方式。第一方式为：异音检测装置对各第二语音信号进行拼接处理，得到语音参考信号。第二方式为：异音检测装置在时域上对各第二语音信号进行叠加，得到语音参考信号。第三方式为：异音检测装置可以而在各频段上对各第二语音信号进行检测，每一个第二语音信号中的将超出预设频率范围的信号的频段进行滤除之后，对进行滤除处理之后各第二语音信号进行合成处理，得到语音参考信号。

S303、将第一语音信号在时域上与语音参考信号进行时延对齐，生成对齐语音参考信号后的第一语音信号。

在本实施例中，异音检测装置在时域上将第一语音信号与语音参考信号进行时延对齐处理，进而使得第一语音信号在时域上与语音参考信号进行对齐，得到对齐语音参考信号后的第一语音信号。

其中，时延对齐处理的过程中可以采用时延对齐算法，将第一语音信号与语音参考信号在时域上对齐，时延对齐算法例如有广义自相关算法(Generalized CrossCorrelation，GCC)、自适应最小均方算法(adaptive Least Mean Square，LMS)、基于子空间的特征值分解算法(subspace based Eigen-Value Decomposition，EVD)、基于传递函数比算法(Acoustic Transfer Functions Ration，ATF-s ration)等等。

S304、根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，其中，残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分。

在本实施例中，本步骤参见图2所提供的一种异音检测方法的流程示意图一中的步骤S102，以及图4所提供的一种异音检测方法的流程示意图二的步骤S205。

S305、确定残差信号的能量值。

其中，S305具体包括：去除残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，语音主频带能量的频率小于第一频率值；确定去除了语音主频带能量的残差信号的能量值。

其中，确定去除了语音主频带能量的残差信号的能量值，包括：确定去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值。

在本实施例中，异音检测装置首先需要计算出残差信号的能量值。由于残差信号中的语音主频带能量的信号频率是较低的，从而语音主频带能量部分的能量会比残差信号中的高频异音部分的能量大，语音主频带能量的轻微波动都会直接影响到对于残差信号中的高频异音能量的判断，所以需要将残差信号中的语音主频带能量进行滤除；此时，异音检测装置需要首先采用高通滤波方法对残差信号进行处理，将残差信号中的语音主频带能量去除掉，然后可以得到去除了语音主频带能量的残差信号；在去除的过程中，由于残差信号中的语音主频带能量的频率是小于第一频率值的，进而在去除的过程中，可以将残差信号中的语音主频带能量去除。

具体来说，高通滤波方法(High-pass Filter)是一种过滤方式，高通滤波的规则为高频信号能正常通过高通滤波器，而低于设定临界值的低频信号则被高通滤波器阻隔、减弱，进而高通滤波器可以输出高频信号。

举例来说，对一个采样语音信号进行分析，该采样语音信号的采样率为8kHz，根据奈奎斯特定理，可以计算出该采样语音信号中的语音主频带能量的频率集中在4kHz以下，语音主频带的能量比比高次谐波的能量强的多。对于语音参考信号进行语谱图的分析可以得到的结果为，语音参考信号很干净，基本看不到高次谐波的能量。

对于以上举例进行的分析，可以看出，高次谐波的能量的部分就代表了语音信号中的异音信号的部分。在本申请中，可以对一个残差信号进行分析，残差信号中的语音主频带部分的能量比高次谐波的能量强，如果不对残差信号进行高通滤波处理的话，在频域上，高次谐波的能量只占该残差信号的总能量中的很小的一分部分；进而语音主频带能量部分的轻微波动或变化，都会比高次谐波所带来的能量波动或变化更大，严重影响到对于残差信号中是否产生高次谐波的判断，进而影响到对于残差信号是否具有异音的判断。所以这里我们做了一个截止频率为小于第一频率值的信号的高通滤波器，采用该高通滤波器可以将频率为小于第一频率值的语音主频带能量滤除；然后残差信号剩下的能量主要就是高次谐波部分的能量了，即残差信号剩下的能量是异音信号部分的能量。其中，第一频率值可以设置为4kHz。

然后，异音检测装置针对于去除了语音主频带能量的残差信号，计算出其能量值。在本步骤中，异音检测装置可以计算出去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值。其中，去除了语音主频带能量的残差信号的能量值，也称作带外能量。

具体来说，在较为理想的时候，高通滤波处理之后得到的高通滤波后的残差信号中不具有频率小于第一频率值的信号了，进而可以直接从时域上计算高通滤波后的残差信号的时域能量，得到去除了语音主频带能量的残差信号的能量值。

但是在不大理想的时候，高通滤波处理之后得到的高通滤波后的残差信号中还会具有频率小于第一频率值的信号了，进而需要从频域上计算高通滤波后的残差信号的频域能量，此时可以保证频率小于第一频率值的信号的能量不被计算进来。所以，在本步骤中，异音检测装置需要针对去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，去进行计算，在这里，可以将第二频率值设置为等于第一频率值，也可以根据实际需求，设置第二频率值设置率大于第一频率值；进而，异音检测装置计算出频率小于第二频率值的部分，在每一帧上的能量值E_thr_n，即对于一个帧得到一个能量值E_thr_n；其中，针对于一个帧来说，一个帧的能量值为该帧内各点幅度值的平方和；然后，异音检测装置将各能量值E_thr_n，拟合成一条能量曲线，将该能量曲线与预设能量曲线进行比较。

S306、根据能量值，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。

其中，S306具体包括：在确定各每一帧上的能量值中，不具有预设个数的能量值均小于与能量值对应的第一能量门限值时，确定第一语音信号中具有异音，并确定声音输出器件异常；在确定各每一帧上的能量值中，具有预设个数的能量值均小于与能量值对应的第一能量门限值时，确定第一语音信号中不具有异音，并确定声音输出器件正常。

在本实施例中，异音检测装置将根据各能量值E_thr_n得到的能量曲线，与预设能量曲线进行比较。在该预设能量曲线上具有针对每一个能量值E_thr_n的每一个第一能量门限值。进而异音检测装置若确定出各能量值E_thr_n中，不具有预设个数的能量值均小于与能量值E_thr_n对应的第一能量门限值时，可以确定第一语音信号中具有异音，并确定播放该第一语音信号的声音输出器件是异常的；异音检测装置若在确定各能量值E_thr_n中，具有预设个数的能量值均小于与能量值E_thr_n对应的第一能量门限值时，可以确定第一语音信号中不具有异音，并确定播放该第一语音信号的声音输出器件是正常的。

举例来说，图6为本申请实施例提供的又一种异音检测方法中的能量曲线图。如图6所示，通过本实施例提供的方法得到了第一语音信号的实测能量曲线，该实测能量曲线为图6中的实线曲线，图6中的虚线曲线为预设能量曲线；可以将实测能量曲线与预设能量曲线进行对比分析，判断实测能量曲线上的各能量值E_thr_n，是否都小于与各能量值分别一一对应的预设能量曲线上的第一能量门限值，从图6中可以确定实测能量曲线上的各能量值E_thr_n，并不是都小于与各能量值分别一一对应的预设能量曲线上的第一能量门限值的，进而可以确定该第一语音信号中具有异音，播放该第一语音信号的声音输出器件是异常的。

本实施例通过获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，且第一语音信号包括频率无规则变化的音频信息；获取至少一个其他声音输出器件所播放的第二语音信号，其中，其他声音输出器件为播放声音正常的声音输出器件，第二语音信号中的语音内容与第一语音信号中的语音内容相同；将各第二语音信号进行信号叠加处理，生成语音参考信号；将第一语音信号在时域上与语音参考信号进行时延对齐，生成对齐语音参考信号后的第一语音信号；根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，其中，残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分；去除残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，语音主频带能量的频率小于第一频率值；确定去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值；；根据能量值，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。从而提供了一种检测声音输出器件播放音频的时候是否出现异音，以确定该声音输出器件是否异常的方式。由于采用的检测的待检测信号为语音信号，语音信号可以代表着用户真实的使用场景，在语音信号的整个播放过程会在集中在语音的实际频段内反复触发，进而有利于去发现有问题频点的异常；并且，本申请中语音信号本身就代表着需要检测的真实频点，因此漏掉有问题频点的可能性就会小得多，有利于检测出有异音的频点。同时，采用的待检测信号是声音输出器件所播放的终端设备中本地存储的语音信号，进而避免了语音信号在传输过程中出现了丢包现象、或者被掺杂杂音而引发出异音的问题；并且，在残差信号中会包含有第一语音信号中与语音参考信号的信号不同的部分，然后对该残差信号进行检测，去确定第一语音信号中是否存在着异音，第一语音信号与语音参考信号的语音内容相同，检测方式较为便捷、且检测方法的通用性较好，提高了检测结果的准确性。

图7为本申请实施例提供的另一种异音检测方法的流程示意图。如图7所示，该方法包括：

S401、获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，且第一语音信号包括频率无规则变化的音频信息。

在本实施例中，本步骤参见图2所提供的一种异音检测方法的流程示意图一中的步骤S101，以及图4所提供的一种异音检测方法的流程示意图二的步骤S202，以及图5所提供的又一种异音检测方法的流程示意图的步骤S301。

S402、获取至少一个其他声音输出器件所播放的第二语音信号，其中，其他声音输出器件为播放声音正常的声音输出器件，第二语音信号中的语音内容与第一语音信号中的语音内容相同；将各第二语音信号进行信号叠加处理，生成语音参考信号。

在本实施例中，本步骤参见图5所提供的又一种异音检测方法的流程示意图的步骤S302。

S403、将第一语音信号在时域上与语音参考信号进行时延对齐，生成对齐语音参考信号后的第一语音信号。

在本实施例中，本步骤参见图5所提供的又一种异音检测方法的流程示意图的步骤S303。

S404、根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，其中，残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分。

在本实施例中，本步骤参见图2所提供的一种异音检测方法的流程示意图一中的步骤S102，以及图4所提供的一种异音检测方法的流程示意图二的步骤S205，以及图5所提供的又一种异音检测方法的流程示意图的步骤S304。

S405、确定残差信号的能量值。

其中，S405具体包括：去除残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，语音主频带能量的频率小于第一频率值；确定去除了语音主频带能量的残差信号的能量值。

其中，确定去除了语音主频带能量的残差信号的能量值，包括：确定去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值；确定能量最大值，其中，能量最大值为各帧的能量值中最大的值。

在本实施例中，本步骤中的“去除残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，语音主频带能量的频率小于第一频率值；确定去除了语音主频带能量的残差信号的能量值；确定去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值”参见图5所提供的又一种异音检测方法的流程示意图的步骤S305。

然后，在本步骤中，异音检测装置得到了每一帧上的能量值E_thr_n之后，计算各帧上的能量值E_thr_n的最大值，得到一个能量最大值。

S406、根据能量值，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。

其中，S406具体包括：在确定能量最大值大于等于第二能量门限值时，确定第一语音信号中具有异音，并确定声音输出器件异常；在确定能量最大值小于第二能量门限值时，确定第一语音信号中不具有异音，并确定声音输出器件正常。

在本实施例中，异音检测装置将得到的能量最大值与一个第二能量门限值进行比较分析，异音检测装置若确定该能量最大值大于等于第二能量门限值，则确定该第一语音信号中具有异音，并确定播放该第一语音信号的声音输出器件是异常的；异音检测装置若确定该能量最大值小于第二能量门限值，则确定该第一语音信号中不具有异音，并确定播放该第一语音信号的声音输出器件是正常的。

或者，在S405中，也可以对各帧上的能量值E_thr_n进行均值计算，得到一个能量均值；进而此时在S406中，异音检测装置将得到的能量均值与一个第三能量门限值进行比较分析，异音检测装置若确定该能量均值大于等于第三能量门限值，则确定该第一语音信号中具有异音，并确定播放该第一语音信号的声音输出器件是异常的；异音检测装置若确定该能量均值小于第三能量门限值，则确定该第一语音信号中不具有异音，并确定播放该第一语音信号的声音输出器件是正常的。

本实施例通过获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，且第一语音信号包括频率无规则变化的音频信息；获取至少一个其他声音输出器件所播放的第二语音信号，其中，其他声音输出器件为播放声音正常的声音输出器件，第二语音信号中的语音内容与第一语音信号中的语音内容相同；将各第二语音信号进行信号叠加处理，生成语音参考信号；将第一语音信号在时域上与语音参考信号进行时延对齐，生成对齐语音参考信号后的第一语音信号；根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，其中，残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分；去除残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，语音主频带能量的频率小于第一频率值；确定去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值；确定能量最大值，其中，能量最大值为各帧的能量值中最大的值；根据能量最大值，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。从而提供了一种检测声音输出器件播放音频的时候是否出现异音，以确定该声音输出器件是否异常的方式。由于采用的检测的待检测信号为语音信号，语音信号可以代表着用户真实的使用场景，在语音信号的整个播放过程会在集中在语音的实际频段内反复触发，进而有利于去发现有问题频点的异常；并且，本申请中语音信号本身就代表着需要检测的真实频点，因此漏掉有问题频点的可能性就会小得多，有利于检测出有异音的频点。同时，采用的待检测信号是声音输出器件所播放的终端设备中本地存储的语音信号，进而避免了语音信号在传输过程中出现了丢包现象、或者被掺杂杂音而引发出异音的问题；并且，在残差信号中会包含有第一语音信号中与语音参考信号的信号不同的部分，然后对该残差信号进行检测，去确定第一语音信号中是否存在着异音，第一语音信号与语音参考信号的语音内容相同，检测方式较为便捷、且检测方法的通用性较好，提高了检测结果的准确性。

图8为本申请实施例提供的再一种异音检测方法的流程示意图。如图8所示，该方法，包括：

S501、获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，且第一语音信号包括频率无规则变化的音频信息。

S502、获取语音参考信号。

S503、将第一语音信号在时域上与语音参考信号进行时延对齐，生成对齐语音参考信号后的第一语音信号。

S504、根据预先获取的语音参考信号、以及第一语音信号进行滤波处理，得到残差信号。

S505、对残差信号进行高通滤波处理，得到去除了语音主频带能量的残差信号。

S506、确定去除了语音主频带能量的残差信号的能量值。

S507、输入一个能量阈值。

S508、判断能量值是否大于等于能量阈值，以确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。

S509、在确定能量值大于等于能量阈值时，确定声音输出器件异常。

S5010、在确定能量值小于能量阈值时，确定声音输出器件正常。

本实施例中，各步骤可以参见图5所提供的又一种异音检测方法的流程示意图的各步骤，以及图7所提供的另一种异音检测方法的流程示意图的各步骤。原理和效果如以上实施例提供的方法的原理和效果相同。

图9为本申请实施例提供的一种异音检测装置的结构示意图。如图9所示，该装置，包括：

获取单元81，用于获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，且第一语音信号包括频率无规则变化的音频信息；

计算单元82，用于根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，其中，残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分；

确定单元83，用于根据残差信号，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。

其中，获取单元81可以执行图2所示方法的步骤S101，或者第一获取单元81可以执行图4所示方法的步骤S202，或者第一获取单元81可以执行图5所示方法的步骤S301，或者第一获取单元81可以执行图7所示方法的步骤S401。计算单元82可以执行图2所示方法的步骤S102，或者计算单元82可以执行图4所示方法的步骤S205，或者计算单元82可以执行图5所示方法的步骤S304，或者计算单元82可以执行图7所示方法的步骤S404。确定单元83可以执行图2所示方法的步骤S103，或者确定单元83可以执行图4所示方法的步骤S205。

图9所示实施例的异音检测装置可用于执行上述方法中图2-图4所示实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图10为本申请实施例提供的又一种异音检测装置的结构示意图。在图9所示装置的基础上，如图10所示，该装置中，确定单元83，包括：

第一确定模块831，用于确定残差信号的能量值。其中，第一确定模块831可以执行图5所示方法的步骤S305，或者第一确定模块831可以执行图7所示方法的步骤S405。

第二确定模块832，用于根据能量值，确定第一语音信号中是否具有异音。其中，第二确定模块832可以执行图5所示方法的步骤S306，或者第二确定模块832可以执行图7所示方法的步骤S406。

第一确定模块831，包括：

去除子模块8311，用于去除残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，语音主频带能量的频率小于第一频率值。其中，去除子模块8311可以执行图5所示方法的步骤S305中的“去除残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，语音主频带能量的频率小于第一频率值”的过程，或者，去除子模块8311可以执行图7所示方法的步骤S405中的“去除残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，语音主频带能量的频率小于第一频率值”的过程。

确定子模块8312，用于确定去除了语音主频带能量的残差信号的能量值。其中，确定子模块8312可以执行图5所示方法的步骤S305中的“确定去除了语音主频带能量的残差信号的能量值”的过程，或者，确定子模块8312可以执行图7所示方法的步骤S405中的“确定去除了语音主频带能量的残差信号的能量值”的过程。

其中，确定子模块8312，具体用于：

确定去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值。此时，确定子模块8312可以执行图5所示方法的步骤8305中的“确定去除了语音主频带能量的残差信号的能量值”的过程。

相应的，第二确定模块832，具体用于：

在确定各每一帧上的能量值中，不具有预设个数的能量值均小于与能量值对应的第一能量门限值时，确定第一语音信号中具有异音，并确定声音输出器件异常；在确定各每一帧上的能量值中，具有预设个数的能量值均小于与能量值对应的第一能量门限值时，确定第一语音信号中不具有异音，并确定声音输出器件正常。此时，第二确定模块832可以执行图5所示方法的步骤S306。

或者，确定子模块8312，具体用于：

确定去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值；确定能量最大值，其中，能量最大值为各帧的能量值中最大的值。此时，确定子模块8312可以执行图7所示方法的步骤S405中的“确定去除了语音主频带能量的残差信号的能量值”的过程。

相应的，第二确定模块832，具体用于：

在确定能量最大值大于等于第二能量门限值时，确定第一语音信号中具有异音，并确定声音输出器件异常；在确定能量最大值小于第二能量门限值时，确定第一语音信号中不具有异音，并确定声音输出器件正常。此时，第二确定模块832可以执行图7所示方法的步骤S406。

在本实施例的装置中，还包括：

生成单元91，用于在计算单元82根据预先获取的语音参考信号、以及第一语音信号，得到残差信号之前，获取至少一个其他声音输出器件所播放的第二语音信号，其中，其他声音输出器件为播放声音正常的声音输出器件，第二语音信号中的语音内容与第一语音信号中的语音内容相同；将各第二语音信号进行信号叠加处理，生成语音参考信号。其中，生成单元91可以执行图5所示方法的步骤S302，或者生成单元91可以执行图7所示方法的步骤S402。

对齐单元92，用于在计算单元82根据预先获取的语音参考信号、以及第一语音信号，得到残差信号之前，将第一语音信号在时域上与语音参考信号进行时延对齐，生成对齐语音参考信号后的第一语音信号。其中，对齐单元92可以执行图5所示方法的步骤S303，或者对齐单元92可以执行图7所示方法的步骤S403。

图10所示实施例的异音检测装置可用于执行上述方法中图5-图8所示实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

并且，本实施例的实施不依赖于图9所示的实施例是否实施，本实施例可以独立实施。

图11为本申请实施例提供的另一种异音检测装置的结构示意图。如图11所示，该网络设备包括发送器261、接收器262和处理器263。其中，接收器262用于获取终端设备的声音输出器件所播放的第一语音信号，其中，第一语音信号为终端设备中本地存储的，且第一语音信号包括频率无规则变化的音频信息。处理器263用于根据预先获取的语音参考信号、以及第一语音信号，得到残差信号，其中，残差信号中包括了第一语音信号中与语音参考信号的信号不同的部分；根据残差信号，确定第一语音信号中是否具有异音，以确定声音输出器件是否异常。此时，接收器262可以实现图9所示装置中的获取单元81的功能，进而，接收器262可以执行图2所示方法的步骤S101，或者接收器262可以执行图4所示方法的步骤S202，或者接收器262可以执行图5所示方法的步骤S301，或者接收器262可以执行图7所示方法的步骤S401。处理器263可以实现图9所示装置中的计算单元82和确定单元83的功能，进而，处理器263可以执行图2所示方法的步骤S102和S103，或者处理器263可以执行图4所示方法的步骤S205。

其中，处理器263具体用于确定残差信号的能量值；根据能量值，确定第一语音信号中是否具有异音。此时，处理器263可以实现图10所示装置中的第一确定模块831和第二确定模块832的功能，进而，处理器263可以执行图5所示方法的步骤S305和S306，或者处理器263可以执行图7所示方法的步骤S405和S406。

处理器263具体用于去除残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，语音主频带能量的频率小于第一频率值；确定去除了语音主频带能量的残差信号的能量值。此时，处理器263可以实现图10所示装置中的去除子模块8311和确定子模块8312的功能，进而，处理器263可以执行图5所示方法的步骤S305，或者处理器263可以执行图7所示方法的步骤S405.

处理器263具体用于确定去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值；在确定各每一帧上的能量值中，不具有预设个数的能量值均小于与能量值对应的第一能量门限值时，确定第一语音信号中具有异音，并确定声音输出器件异常；在确定各每一帧上的能量值中，具有预设个数的能量值均小于与能量值对应的第一能量门限值时，确定第一语音信号中不具有异音，并确定声音输出器件正常。此时，处理器263可以实现图10所示装置中的确定子模块8312和第二确定模块832的功能，进而，处理器263可以执行图5所示方法的步骤S305中的“确定去除了语音主频带能量的残差信号的能量值”的过程，以及图5所示方法的步骤S306。

或者，处理器263具体用于确定去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值；确定能量最大值，其中，能量最大值为各帧的能量值中最大的值；在确定能量最大值大于等于第二能量门限值时，确定第一语音信号中具有异音，并确定声音输出器件异常；在确定能量最大值小于第二能量门限值时，确定第一语音信号中不具有异音，并确定声音输出器件正常。此时，处理器263可以实现图10所示装置中的确定子模块8312和第二确定模块832的功能，进而，处理器263可以执行图7所示方法的步骤S405中的“确定去除了语音主频带能量的残差信号的能量值”的过程，以及图7所示方法的步骤S406。

接收器262还用于获取至少一个其他声音输出器件所播放的第二语音信号，其中，其他声音输出器件为播放声音正常的声音输出器件，第二语音信号中的语音内容与第一语音信号中的语音内容相同。此时，接收器262可以实现图10所示装置中的生成单元91的部分功能，进而，接收器262可以执行图5所示方法的步骤S302中的“获取至少一个其他声音输出器件所播放的第二语音信号”的过程，或者接收器262可以执行图7所示方法的步骤S402中的“获取至少一个其他声音输出器件所播放的第二语音信号”的过程。

则处理器263还用于将各第二语音信号进行信号叠加处理，生成语音参考信号。此时，处理器263可以实现图10所示装置中的生成单元91的部分功能，进而，处理器263可以执行图5所示方法的步骤S302中的“将各第二语音信号进行信号叠加处理，生成语音参考信号”的过程，或者处理器263可以执行图7所示方法的步骤S402中的“将各第二语音信号进行信号叠加处理，生成语音参考信号”的过程。

处理器263还用于将第一语音信号在时域上与语音参考信号进行时延对齐，生成对齐语音参考信号后的第一语音信号。此时，处理器263可以实现图10所示装置中的对齐单元92的功能，进而，处理器263可以执行图5所示方法的步骤S303，或者处理器263可以执行图7所示方法的步骤S403。

图11所示实施例的异音检测装置可用于执行上述方法实施例的技术方案，或者图9、图10所示实施例各个模块的程序，处理器263调用该程序，执行以上方法实施例的操作，以实现图9、图10所示的各个模块。

其中，处理器263也可以为控制器，图11中表示为“控制器/处理器263”。发送器261和接收器262用于支持网络设备与上述实施例中的终端设备之间收发信息，以及支持终端设备与其他终端设备之间进行无线电通信。处理器263执行各种用于与终端设备通信的功能。

进一步的，网络设备还可以包括存储器264，存储器264用于存储网络设备的程序代码和数据。

处理器263例如中央处理器(Central Processing Unit，CPU)，还可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(ApplicationSpecific Integrated Circuit，ASIC)，或，一个或多个微处理器(digital singnalprocessor，DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，FPGA)等。存储器264可以是一个存储器，也可以是多个存储元件的统称。

需要说明的是，本发明实施例提供的图11的异音检测装置所包含的发送器261对应前述方法实施例中可以执行发送动作，处理器263执行处理、确定、获取等处理动作，接收器可以执行接收动作。具体可参考前述方法实施例。图11的异音检测装置所包含的接收器262，对应前述方法实施例中的获取语音信号的动作。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如，同轴电缆、光纤、数字用户线(Digital Subscriber Line，DSL))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

Claims

1.一种异音检测方法，其特征在于，包括：

获取终端设备的声音输出器件所播放的第一语音信号，其中，所述第一语音信号为所述终端设备中本地存储的，且所述第一语音信号包括频率无规则变化的音频信息；

根据预先获取的语音参考信号、以及所述第一语音信号，得到残差信号，其中，所述残差信号中包括了所述第一语音信号中与所述语音参考信号的信号不同的部分；

根据所述残差信号，确定所述第一语音信号中是否具有异音，以确定所述声音输出器件是否异常；

其中，所述根据所述残差信号，确定所述第一语音信号中是否具有异音，包括：

去除所述残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，所述语音主频带能量的频率小于第一频率值；

确定所述去除了语音主频带能量的残差信号的能量值；

根据所述能量值，确定所述第一语音信号中是否具有异音。

2.根据权利要求1所述的方法，其特征在于，所述确定所述去除了语音主频带能量的残差信号的能量值，包括：

确定所述去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值。

3.根据权利要求2所述的方法，其特征在于，所述根据所述能量值，确定所述第一语音信号中是否具有异音，包括：

在确定各所述每一帧上的能量值中，不具有预设个数的能量值均小于与能量值对应的第一能量门限值时，确定所述第一语音信号中具有异音，并确定所述声音输出器件异常；

在确定各所述每一帧上的能量值中，具有预设个数的能量值均小于与能量值对应的第一能量门限值时，确定所述第一语音信号中不具有异音，并确定所述声音输出器件正常。

4.根据权利要求1所述的方法，其特征在于，所述确定所述去除了语音主频带能量的残差信号的能量值，包括：

确定所述去除了语音主频带能量的残差信号中的频率大于第二频率值的部分，在每一帧上的能量值；

确定能量最大值，其中，所述能量最大值为各帧的能量值中最大的值。

5.根据权利要求4所述的方法，其特征在于，所述根据所述能量值，确定所述第一语音信号中是否具有异音，包括：

在确定所述能量最大值大于等于第二能量门限值时，确定所述第一语音信号中具有异音，并确定所述声音输出器件异常；

在确定所述能量最大值小于所述第二能量门限值时，确定所述第一语音信号中不具有异音，并确定所述声音输出器件正常。

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述根据预先获取的语音参考信号、以及所述第一语音信号，得到残差信号之前，还包括：

获取至少一个其他声音输出器件所播放的第二语音信号，其中，所述其他声音输出器件为播放声音正常的声音输出器件，所述第二语音信号中的语音内容与所述第一语音信号中的语音内容相同；

将各所述第二语音信号进行信号叠加处理，生成所述语音参考信号。

7.根据权利要求1-5任一项所述的方法，其特征在于，在所述根据预先获取的语音参考信号、以及所述第一语音信号，得到残差信号之前，还包括：

将所述第一语音信号在时域上与所述语音参考信号进行时延对齐，生成对齐所述语音参考信号后的第一语音信号。

8.一种异音检测装置，其特征在于，包括：

获取单元，用于获取终端设备的声音输出器件所播放的第一语音信号，其中，所述第一语音信号为所述终端设备中本地存储的，且所述第一语音信号包括频率无规则变化的音频信息；

计算单元，用于根据预先获取的语音参考信号、以及所述第一语音信号，得到残差信号，其中，所述残差信号中包括了所述第一语音信号中与所述语音参考信号的信号不同的部分；

确定单元，用于根据所述残差信号，确定所述第一语音信号中是否具有异音，以确定所述声音输出器件是否异常；

其中，所述确定单元，包括：

第一确定模块，用于确定所述残差信号的能量值；

第二确定模块，用于根据所述能量值，确定所述第一语音信号中是否具有异音；

所述第一确定模块，包括：

去除子模块，用于去除所述残差信号中的语音主频带能量，生成去除了语音主频带能量的残差信号，其中，所述语音主频带能量的频率小于第一频率值；

确定子模块，确定所述去除了语音主频带能量的残差信号的能量值。

9.根据权利要求8所述的装置，其特征在于，所述确定子模块，具体用于：

10.根据权利要求9所述的装置，其特征在于，所述第二确定模块，具体用于：

11.根据权利要求9所述的装置，其特征在于，所述确定子模块，具体用于：

12.根据权利要求11所述的装置，其特征在于，所述第二确定模块，具体用于：

13.根据权利要求8-12任一项所述的装置，其特征在于，所述装置，还包括：

生成单元，用于在所述计算单元根据预先获取的语音参考信号、以及所述第一语音信号，得到残差信号之前，获取至少一个其他声音输出器件所播放的第二语音信号，其中，所述其他声音输出器件为播放声音正常的声音输出器件，所述第二语音信号中的语音内容与所述第一语音信号中的语音内容相同；将各所述第二语音信号进行信号叠加处理，生成所述语音参考信号。

14.根据权利要求8-12任一项所述的装置，其特征在于，所述装置，还包括：

对齐单元，用于在所述计算单元根据预先获取的语音参考信号、以及所述第一语音信号，得到残差信号之前，将所述第一语音信号在时域上与所述语音参考信号进行时延对齐，生成对齐所述语音参考信号后的第一语音信号。

15.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-7任一项所述的方法。