CN110718238A

CN110718238A - 串音数据检测方法、客户端和电子设备

Info

Publication number: CN110718238A
Application number: CN201810763582.7A
Authority: CN
Inventors: 许云峰; 余涛; 刘礼
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-07-12
Filing date: 2018-07-12
Publication date: 2020-01-21
Anticipated expiration: 2038-07-12
Also published as: CN110718238B

Abstract

本说明书公开了串音数据检测方法、客户端和电子设备，其中所述方法包括：接收第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。可以规避由于通道不同的差异造成的影响，提高检测的鲁棒性。

Description

串音数据检测方法、客户端和电子设备

技术领域

本说明书涉及计算机技术领域，特别涉及串音数据检测方法、客户端和电子设备。

背景技术

在现实生活中，人们会在一起沟通、讨论事项。在一些场景中，可以使用麦克风对声源进行放大，现场多个麦克风可以采集每个角色的音频数据块，因此音频传输通道中可能出现串音，影响音频输出。

发明内容

本说明书实施方式提供一种便于检测串音数据的串音数据检测方法、客户端和电子设备。

本说明书实施方式提供一种串音数据检测方法，包括：接收第一音频数据块和第二音频数据块；其中，所述第二音频数据块与的获取时间与所述第一音频数据块的获取时间趋于相同；从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

本说明书实施方式提供一种客户端，包括：第一音频感应终端，用于向第一数据通道输入第一音频数据块；第二音频感应终端，用于向第二数据通道输入第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；处理器，用于从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

本说明书实施方式提供一种串音数据检测方法，包括：接收第一音频数据块和第二音频数据块；其中，所述第二音频数据块与所述第一音频数据块趋于相同时间获取；对所述第二音频数据块进行处理，以降低所述第二音频数据块中与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；将所述第二音频数据块和所述对比第二音频数据块发送给服务器，用于在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

本说明书实施方式提供一种客户端，包括：第一音频感应终端，用于向第一数据通道输入第一音频数据块；第二音频感应终端，用于向第二数据通道输入第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；处理器，用于从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；网络通信单元，用于将所述第二音频数据块和所述对比第二音频数据块发送给服务器，用于在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

本说明书实施方式提供一种串音数据检测方法，包括：接收客户端提供的目标音频数据块和对比音频数据块；其中，所述对比音频数据块是所述目标音频数据块去除至少一部分与基准音频数据块具有相同声源的音频数据后得到的；所述目标音频数据块的获取时间与所述基准音频数据块的获取时间趋于相同；在所述目标音频数据块与所述对比音频数据块的能量或者声压值不相同的情况下，认为所述目标音频数据块中具有串音数据。

本说明书实施方式提供一种电子设备，包括网络通信单元和处理器；所述网络通信单元用于接收客户端提供的目标音频数据块和对比音频数据块；其中，所述对比音频数据块是所述目标音频数据块去除至少一部分与基准音频数据块具有相同声源的音频数据后得到的；所述目标音频数据块的获取时间与所述基准音频数据块的获取时间趋于相同；所述处理器用于在所述目标音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述目标音频数据块中具有串音数据。

本说明书实施方式提供一种串音数据检测方法，包括：接收第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；将所述第二音频数据块和所述第一音频数据块发送给服务器；以使所述服务器对从所述第二音频数据块中去除至少一部分所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块，在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

本说明书实施方式提供一种客户端，包括：第一音频感应终端，用于向第一数据通道输入第一音频数据块；第二音频感应终端，用于向第二数据通道输入第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；网络通信单元，用于将所述第一音频数据块和所述第二音频数据块发送给服务器；以使所述服务器从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块，在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

本说明书实施方式提供一种串音数据检测方法，包括：接收客户端提供的第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

本说明书实施方式提供一种电子设备，包括网络通信单元、处理器；所述网络通信单元用于接收客户端提供的第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；所述处理器用于从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据块，得到对比第二音频数据块；在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

由以上本说明书实施方式提供的技术方案可见，通过对所述第二音频数据块进行处理，以降低所述第二音频数据块中与所述第一音频数据块具有相同声源的音频数据块，得到对比音频数据块；将所述第二音频数据块与所述对比音频数据块进行比较，在二者不同的情况下，认为所述第二音频数据块中具有串音数据。从而对所述第二音频数据块中的串音数据进行检测，可以不依赖于其他数据通道的信息，可以规避由于通道不同的差异的影响，提高检测的鲁棒性。

附图说明

为了更清楚地说明本说明书实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施方式提供的一种串音数据检测系统的构架示意图；

图2为本说明书实施方式提供的一种串音数据检测系统的模块示意图；

图3为本说明书实施方式提供的一种串音数据检测系统在辩论比赛场景下的应用场景示意图；

图4为本说明书实施方式提供的一种串音数据检测系统在会议场景下的应用场景示意图；

图5为本说明书实施方式提供的在一个会议应用场景下的构架示意图；

图6为本说明书实施方式提供的一种串音数据检测系统在KTV场景下的应用场景示意图；

图7为本说明书实施方式提供的在KTV应用场景下的构架示意图；

图8为本说明书实施方式提供的一种串音数据检测系统的交互示意图；

图9为本说明书实施方式提供的一种串音数据检测系统的交互示意图；

图10为本说明书实施方式提供的串音数据检测结果示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施方式中的附图，对本说明书实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本说明书一部分实施方式，而不是全部的实施方式。基于本说明书中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都应当属于本说明书保护的范围。

请参阅图1和图3，在一个场景示例中。在辩论比赛中，正反方各有4名辩手，分坐在两边的长桌上，每个长桌上放置两个话筒，用于感应辩手发出的声音，并由功放放大话筒所感应到的声音。

在本场景示例中，由于话筒A和话筒B之间距离较近，辩手乙对着和自己距离较近的话筒A进行讲话，说道：“我认为是英雄造时势……”和话筒A距离较近的话筒B同样可以感应到辩手乙所说的“我认为是英雄造时势……”的声音。因此，话筒A和话筒B都能够会根据感应到的“我认为是英雄造时势……”的声音生成音频数据块，在这种情况下，话筒B所感应到辩手乙所说的话生成的音频数据就形成了串音。

在本场景示例中，可以设置一个电子设备，所述电子设备可以包括接收模块，处理模块和检测模块。

在本场景示例中，在辩手乙在对这话筒A说：“我认为是英雄造时势……”的过程中，所述电子设备通过接收模块接收话筒A感应到的声音所生成的音频数据块。同时，由于话筒B同样感应到辩手乙所说的话，也通过接收模块接收话筒B感应到的声音所生成的音频数据块。接收模块可以对应话筒的数量具有多个数据通道。在本场景示例中，共有4个话筒，因此接收模块可以具有4个数据通道。所述接收模块通过蓝牙的方式接收话筒在所述数据通道内输入的音频数据块。

在本场景示例中，所述接收模块将话筒A感应到乙所说的“我认为英雄造时势……”的语音生成的音频数据块，以及话筒B感应到乙所说的“我认为是英雄造时势……”的语音生成的音频数据块提供给所述处理模块。在本场景示例中，所述处理模块包括与输入音频数据块的数据通道相对应的滤波子模块。由于声音在传播的过程中，能量发生衰减，话筒A距离辩手乙较近，话筒B距离辩手乙较远。因此，所述控制子模块计算话筒A和话筒B感应到辩手乙所说的“我认为是英雄造时势……”这句话所生成的音频数据块的能量，计算得到话筒B中的音频数据块的能量为200焦耳，话筒A中的音频数据块的能量为500焦耳。话筒A中的音频数据块能量大于话筒B中音频数据块的能量。因此所述控制子模块可以确定话筒A距离说话人距离较近，话筒B距离说话人距离较远，没有其他音频数据块输入，所述控制子模块可以确定在话筒B中存在和话筒A中的音频数据来源于相同声源的音频数据。

在本场景示例中，所述处理模块包括滤波子模块。所述控制子模块在确定话筒B中输入的音频数据块中包括有来源于辩手乙声音的音频数据的情况下，启动设置在与所述话筒B对应的数据通道上的滤波子模块。所述滤波子模块根据自适应滤波器的梯度下降算法调整滤波系数，并输出对比音频数据块，所述对比音频数据块用于表示所述话筒B输入的音频数据块中减去来源于辩手乙声音的音频数据。根据所述滤波系数乘以话筒A中所输入的音频数据块得到滤波后的音频数据块，将话筒B中的音频数据块减去滤波后的音频数据块可以得到所述对比音频数据块。

在本场景示例中，所述处理模块还包括滤波检测子模块。所述滤波检测子模块设定一个30焦耳的门限值，经过所述滤波子模块处理后，输出的所述对比音频数据块的能量值为100焦耳。将所述对比音频数据块的能量减去所述话筒B输入的音频数据块的能量，得到-100焦耳的能量差，小于所设定的门限值。所述滤波检测子模块设定，在滤波子模块输出的对比音频数据块的能量与对应输入的音频数据块的能量之差大于所设定的门限值的情况下，重置所述滤波子模块的滤波系数，直到满足所设定的条件为止。在本场景示例中，能量差值小于门限值，所以不用重置所述滤波系数。

在本场景示例中，所述检测模块根据话筒B输入的音频数据块和对比音频数据块，比较两者之间能量的大小，如果一致，则认为话筒B输入的音频数据块中没有串音数据，如果不一致，则认为话筒B输入的音频数据块中有串音数据。

在本场景示例中，所述检测模块还可以包括第一降噪子模块、第二降噪子模块和检测子模块。

在本场景示例中，所述第一降噪子模块接收所述话筒B输入的音频数据块。根据功率谱估计的方法计算出与所述话筒B输入的音频数据块相对应的第一先验信噪比和第一后验信噪比。根据所述第一先验信噪比和第一后验信噪比，根据MMSE-LSA算法对所述话筒B输入的音频数据块进行降噪处理，得到经过所述第一降噪子模块降噪处理后的所述话筒B输入的音频数据块。

在本场景示例中，所述第二降噪子模块接收所述对比音频数据块。根据功率谱估计的方法计算出与所述对比音频数据块相对应的第二先验信噪比和第二后验信噪比。将所述第一先验信噪比乘以所述第二先验信噪比除以所述第一先验信噪比和所述第二先验信噪比之和得到第三先验信噪比。将所述第一后验信噪比乘以所述第二后验信噪比除以所述第一后验信噪比和所述第二后验信噪比之和得到第三后验信噪比。根据所述第三先验信噪比和所述第三后验信噪比，基于MMSE-LSA算法对所述对比音频数据块进行降噪处理，得到处理后的所述对比音频数据块。

在本场景示例中，所述检测子模块接收经过降噪处理后的话筒B输入的音频数据块和对比音频数据块。分别计算经过降噪处理后的话筒B输入的音频数据块和对比音频数据块的平滑能量。分别是20焦耳和56焦耳，所述检测子模块设置一个30焦耳的门限值，将经过降噪处理后的对比音频数据块的平滑能量减去降噪处理后话筒B输入的音频数据块的平滑能量，得到36焦耳的能量差值，所述检测子模块设定，在所述能量差值大于30焦耳的情况下，话筒B输入的音频数据块为串音数据。

在本场景示例中，所述检测子模块去除检测出的串音数据，并输出去除检测出的串音数据，保存在指定的音频文件中，以获得较为语音较为清晰的辩论记录。

在本场景示例中，请参阅图10，图中，最上面的部分，为话筒A和话筒B对应的数据通道中的音频数据块的能量差值。中间的部分，可以为话筒B对应的数据通道中音频数据块经过串音数据检测并消除串音数据后的情况。最下面的部分，可以为话筒A对应的数据通道中音频数据的情况。对应能量差值曲线可见并没有造成对话筒B中输入的有效的音频数据块的误杀，保护了话筒B中输入的有效音频数据块。

请参阅图4和图5，在一个场景示例中，在会议现场，各参会人员身前各有一个麦克风，通过功放来输出各参会人员所说的话，由于麦克风和麦克风之间距离较近，甲说：“我认为这次采购应该去上海……”，这时和甲距离较近的麦克风都可以感应到甲所说的“我认为这次采购应该去上海的……”的语音。在这种情况下，甲正对的麦克风A能够感应到甲的语音生成音频数据块，和甲距离较近的麦克风C也能感应到甲的声音生成音频数据块。在这种情况下，只有甲在说话，麦克风C中生成的音频数据块就可能是串音。在本场景示例中，会议现场设置一个串音数据检测系统，所述串音数据检测系统包括音频处理设备和服务器。

在本场景示例中，所述音频处理设备包括接收模块、处理器。

在本场景示例中，参会人员甲对麦克风正对麦克风A说话，甲说：“我认为这次采购应该去上海……”，所述音频处理设备通过接收模块接收到麦克风A输入的音频数据块以及和麦克风A距离较近的麦克风C输入的音频数据块。所述接收模块可以对应麦克风的数量具有多个数据通道。所述接收模块通过WIFI的方式接收麦克风在所述数据通道内输入的音频数据。

在本场景示例中，所述处理器包括控制子模块，所述控制子模块可以根据接收到的音频数据块确定对应的数据通道，从而可以控制启动处于其他数据通道的滤波子模块进行音频数据块处理。由于声音在传播的过程中，声音的声压会减弱，所述控制子模块根据接收到的音频数据块的声压值确定甲说“我认为这次采购应该去上海……”时正对的麦克风输入的音频数据块。具体地，所述控制子模块计算接收到的麦克风A和麦克风C输入的音频数据块的声压值，其中，麦克风A输入的音频数据块的声压值为50dBA，麦克风C输入的音频数据块的声压值为25dBA。由于麦克风A输入的音频数据块的声压值大于麦克风C输入的音频数据块的声压值，所以所述控制子模块确定麦克风A是甲说话时正对的麦克风，麦克风C中输入的音频数据块包括其感应到甲说“我认为这次采购应该去上海”的声音而生成的音频数据块。

在本场景示例中，所述处理器包括与麦克风输入音频数据块的数据通道相对应的滤波子模块，所述控制子模块在确定麦克风C中包括其感应到甲的声音而生成的音频数据块的情况下，向与所述麦克风C输入音频数据块的数据通道相对应的滤波子模块发送启动指令。所述滤波子模块将麦克风C中输入的音频数据块作为参考，通过维纳滤波器的最小均方差算法调整滤波系数，并输出对比音频数据块，所述对比音频数据块用于表示所述麦克风C输入的音频数据块中减去来源于甲声音的音频数据块。将麦克风A中输入的音频数据块乘以调整得到的滤波系数得到滤波后的音频数据块，将麦克风C中输入的音频数据块将去所述滤波后的音频数据块得到所述对比音频数据块。

在本场景示例中，所述处理器还包括滤波检测子模块，所述滤波检测子模块设定一个5dBA的门限值，计算滤波子模块输出的对比音频数据块的声压值为31dBA。将所述滤波子模块输出的对比音频数据块的声压值减去目标音频数据块的声压值，得到6dBA的差值，大于所设定的门限值。所述滤波检测子模块设定，在滤波子模块输出的对比音频数据块的声压减去麦克风C中输入的音频数据块的声压值大于所设定的门限值的情况下，重置所述滤波子模块的滤波系数，直到满足条件为止。

在本场景示例中，声压值的差值大于门限值，所以需要重置所述滤波系数。所述滤波子模块再次调整滤波系数。所述滤波子模块经过滤波系数的调整后，输出的对比音频数据块的声压值为29dBA，其和麦克风C中输入的音频数据块的声压值的差值小于所设定的门限值。

在本场景示例中，所述处理器还包括网络通信单元，所述网络通信单元将麦克风C中输入的音频数据块和所述对比音频数据块通过蓝牙的方式发送给服务器。

在本场景示例中，所述服务器根据麦克风C输入的音频数据块和对比音频数据块，比较两者之间声压值的大小，如果一致，则认为麦克风C输入的音频数据块中没有串音数据，如果不一致，则认为麦克风C中输入的音频数据块中有串音数据。

在本场景示例中，所述服务器还可以包括第一降噪子模块、第二降噪子模块和检测子模块。

在本场景示例中，所述第一降噪子模块接收麦克风C中输入的音频数据块，根据功率谱估计方法计算麦克风C中输入的音频数据块的第一信噪比。根据所述第一信噪比，基于谱减法对麦克风C中输入的音频数据块进行降噪处理，得到降噪处理后麦克风C中输入的音频数据块。

在本场景示例中，所述第二降噪子模块接收所述对比音频数据块，根据功率谱估计方法计算对比音频数据块的第二信噪比，将所述第二信噪比和所述第一信噪比相乘并除以所述第二信噪比和所述第一信噪比之和得到第三信噪比。根据所述第三信噪比，基于谱减法对所述对比音频数据块进行降噪处理，得到降噪处理后的所述对比音频数据块。

在本场景示例中，所述检测子模块可以接收经过降噪处理后麦克风C中输入的音频数据块和经过降噪处理后的对比音频数据块，分别计算这两种音频数据块各帧的声压值。在降噪处理后的对比音频数据块的声压值大于降噪处理后麦克风C中输入的音频数据块的声压值的情况下，确定对应的帧数据为串音数据。

在本场景示例中，所述检测子模块可以去除检测出的串音数据，并输出去除串音数据后的音频数据块。可以分别将所述在麦克风A和麦克风C中输入的音频数据块存储在不同的文件中，以生成去除串音以及噪声干扰的语音较为清晰的会议记录。

请参阅图6和图7，在一个场景示例中，在KTV，设置两个麦克风，甲对着麦克风D唱《我爱你中国》，乙身边有另一个麦克风E，通过功放来输出歌声。由于KTV房间较小，麦克风和麦克风之间距离也较近，将对着麦克风D演唱《我爱你中国》时，麦克风D可以根据感应到的歌声生成音频数据块，麦克风E也可以感应到甲的歌声，并生成音频数据块。在这种情况下，除了正在唱歌的甲手持的麦克风D外，麦克风E也可以感应到甲的歌声，可以生成相应的音频数据块。

在本场景示例中，KTV设置一个串音数据检测系统，所述串音数据检测系统包括音频处理设备和服务器。

在本场景示例中，所述音频处理设备包括接收模块和发送模块。

在本场景示例中，甲对着麦克风D演唱《我爱你中国》的过程中，所述音频处理设备通过接收模块接收到麦克风D输入的音频数据块以及和麦克风E输入的音频数据块。所述音频感应终端可以对应麦克风D和麦克风E具有2个数据通道，所述音频感应终端可以通过有线传输的方式接收麦克风在数据通道内输入的音频数据块。

在本场景示例中，所述发送模块将麦克风D中输入的音频数据块和麦克风E中输入的音频数据通过WIFI的方式发送给服务器。

在本场景示例中，所述服务器包括处理器和检测装置。

在本场景示例中，所述处理器可以通过预设端口分别接收麦克风D和麦克风E输入的音频数据块。

在本场景示例中，所述处理器包括控制子模块，所述控制子模块可以确定接收到的音频数据块中哪一路音频数据块与甲演唱《我爱你中国》时正对的麦克风相对应。由于声音在传播的过程中，声音的能量会出现衰减，所述控制子模块可以根据接收到的音频数据块的能量确定甲唱歌时正对的麦克风输入的音频数据块。具体地，所述控制子模块接收到两路音频数据块，计算这两路音频数据块的能量，其中麦克风D输入的音频数据块的能量为800焦耳，麦克风E输入的音频数据块的能量为310焦耳。所以控制子模块确定麦克风D是甲演唱《我爱你中国》时正对的麦克风，在麦克风E中输入的音频数据块可能包括其感应到甲的声音而生成的音频数据块。

在本场景示例中，所述处理器包括与麦克风输入音频数据块的数据通道相对应的滤波子模块，所述控制子模块确定麦克风E中可能包括其感应到甲的声音而生成的音频数据块的情况下，向与所述麦克风E输入音频数据块的数据通道相对应的滤波子模块发送启动指令。所述滤波子模块将麦克风E中输入的音频数据块作为参考，通过自适应滤波器的递归最小二乘法调整滤波系数，并输出对比音频数据块，所述对比音频数据块用于表示所述麦克风E输入的音频数据块减去来源于甲声音的音频数据块。将麦克风D中输入的音频数据块乘以调整得到的滤波系数得到滤波后的音频数据块，将麦克风E中输入的音频数据块将去所述滤波后的音频数据块得到所述对比音频数据块。

在本场景示例中，所述处理器还包括滤波检测子模块，所述滤波检测子模块设定一个30焦耳焦耳的门限值，计算滤波子模块输出的对比音频数据块的声压值为130焦耳。将对比音频数据块的能量减去所述麦克风E中输入的音频数据块的能量得到-180焦耳的能量差，小于所设定的门限值。所述滤波检测子模块设定，在滤波子模块输出的对比音频数据块的能量与对应输入的音频数据块的能量之差大于所设定的门限值的情况下，重置所述滤波子模块的滤波系数，这道满足所设定的条件为止。在本场景示例中，能量差值小于设定的门限值，所以不用重置所述滤波系数。

在本场景示例中，所述处理器将处理得到对比音频数据块和麦克风E中输入的音频数据块提供给所述检测装置。所述检测装置根据这两个音频数据块能量，在这两个音频数据块的能量不一致的情况下，则认为麦克风E中输入的音频数据块中有串音数据，如果一致则认为麦克风E中输入的音频数据块中没有串音数据。

在本场景示例中，所述检测装置还可以包括第一降噪子模块，第二降噪子模块和检测子模块。

在本场景示例中，所述第一降噪子模块接收，麦克风E中输入的音频数据块，根据最大似然法计算麦克风E中输入的音频数据块的第一信噪比，根据所述第一信噪比，基于维纳滤波器对麦克风E中输入的音频数据块进行降噪处理，得到降噪处理后麦克风E中输入的音频数据块。

在本场景示例中，所述第二降噪子模块接收所述对比音频数据块，根据最大似然法计算所述对比音频数据块的第二信噪比，将所述第二信噪比和所述第一信噪比相乘并除以所述第二信噪比和所述第一信噪比之和得到第三信噪比。根据所述第三信噪比，基于维纳滤波器对对比音频数据块进行降噪处理，得到降噪处理后的对比音频数据块。

在本场景示例中，所述检测子模块可以接收经过降噪处理后麦克风E中输入的音频数据块和经过降噪处理后的对比音频数据块，分别计算这两种音频数据块各帧的声压值，在降噪处理后的对比音频数据块的声压值大于降噪处理后麦克风E中输入的声压值的情况下，确定对应的帧数据为麦克风E中输入的音频数据块中的串音数据。

在本场景示例中，所述检测子模块去除检测出的串音数据，并输出去除串音后的音频数据块。

在本场景示例中，分别将所述在麦克风E和麦克风D中输入的音频数据块存储在不同的文件中，以生成去除串音以及噪声干扰的音频数据块。并根据存储在不同文件的音频数据块对歌唱者的歌声进行打分。

请参阅图2，本说明书实施方式提供一种串音数据检测系统。所述串音数据检测系统可以包括接收模块、处理模块和检测模块。所述串音数据检测系统运行时可以实现串音数据检测方法，可以对照解释，不再赘述。

所述接收模块可以接收第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同。

在本实施方式中，第一音频数据块可以属于第一数据通道。第二音频数据块可以属于第二数据通道。即第一音频数据块和第二音频数据块分别对应不同的数据通道。所述接收模块可以是接收设备，也可以是具有数据交互能力的通信模块。所述接收模块可通过有线的方式接收所述第一数据通道输入的第一音频数据块和第二数据通道输入的第二音频数据块。也可以基于HTTP、TCP/IP或FTP等网络协议或通过例如，WIFI模块、ZigBee模块、蓝牙模块、Z-wave模块等，无线通信模块接收所述第一数据通道输入的第一音频数据块和第二数据通道输入的第二音频数据块。

在本实施方式中，所述接收模块可以对应声音感应装置的数量具有多个数据通道。所述声音感应装置可以包括能够感应声音生成音频数据流，并能够将音频数据流输入数据通道的设备。例如麦克风，录音笔等。在本实施方式中，所述数据通道可以包括音频数据块传输的载体。所述数据通道可以是物理通道也可以是逻辑通道。根据音频数据块的传输路径，所述数据通道可以不同。多个数据通道对应的音频感应装置可以位于同一个地点的不同位置。具体地，例如，设置位于同一个房间的两个麦克风，声源可以发出声音由这两个麦克风进行感应并生成音频数据流，每个麦克风传输所述音频数据流的通道可以称为一个数据通道。当然，数据通道也可以为逻辑上划分的，可以理解为，针对不同麦克风输入的音频数据流，分别进行处理，即将一个麦克风输入的音频数据流进行单独的处理，而不是将多个麦克风输入的音频数据流进行混杂。

在本实施方式中，所述第二音频数据块和所述第一音频数据块可以是来源于相同声源并由不同的音频感应装置感应而生成的音频数据块，使得所述第二音频数据块与所述第一音频数据块可以趋于相同时间生成。所述第二音频数据块和所述第一音频数据块可以对应不同的音频感应装置。由于所述音频感应装置所处的空间位置可以不同，所以所感应到相同声源发出的声音而生成的音频数据块也可以有所不同。

在本实施方式中，所述第二音频数据块中可以包括与所述第一音频数据块具有相同声源的音频数据。可以理解为，声源发出声音原本由第一音频感应装置感应并生成第一音频数据块，但由于第二音频感应装置和第一音频感应装置或声源在空间位置上距离较近等原因导致第二音频感应装置同样感应到声源所发出的声音并生成第二音频数据块。具体地，例如，在会议现场，第一参会人员面前有一个话筒，第二参会人员面前也有一个话筒，这时第一参会人员讲话，应当由第一参会人员面前的话筒感应第一参会人员的语音并生成第一音频数据块，但由于第二参会人员的话筒距离和第一参会人员的话筒距离较近，第二参会人员的话筒也可以感应到第一参会人员的语音，并生成第二音频数据块，在这种情况下，所述第二音频数据块中就包括了和第一音频数据块源自相同声源的音频数据块。所述第二音频数据块中，可以包括有串音数据。

在本实施方式中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同。所述获取时间可以包括：音频数据块的生成时间，或者，所述接收模块接收音频数据块的时间。获取时间上趋于相同，可以包括：第一音频数据块和第二音频数据块的获取时间相接近，或者相同。具体的，例如，第一音频感应终端和第二音频感应终端距离很近，在一个用户说话时，由于用户说话发出的声音到达第一音频感应终端和第二音频感应终端的时间很接近，使得第一音频感应终端和第二音频感应终端分别感应到该用户说话的声音，分别生成音频数据。可以假设，第一音频感应终端感应所述声音生成第一音频数据块，第二音频感应终端感应所述声音生成第二音频数据块。如此，第一音频数据块和第二音频数据块的生成时间较为接近，但因用户与第一音频感应终端和第二音频感应终端的距离不同，使得第一音频数据块和第二音频数据块的生成时间接近。

所述处理模块可以从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块。

在本实施方式中，所述对比第二音频数据块可以包括在第二音频数据块中减少了与所述第一音频数据块具有相同声源的音频数据后的音频数据。可以通过对所述第二音频数据块进行分析，找出所述第二音频数据块中可能存在的和所述第一音频数据块源于相同声源的音频数据。可以采用设置滤波器的方式对所述第二音频数据块进行滤波处理，以减少所述第二音频数据块中和所述第一音频数据块源于相同声源的音频数据。当然，所述领域技术人员在本说明书的技术精髓的启示下，还能采用其他的变更方案，但只要其实现的功能和效果，与本说明书相同或相似，均应涵盖于本申请保护范围内。

在本实施方式中，第一音频数据块的获取时间与第二音频数据块的获取时间趋于相同。使得，第一音频数据块和第二音频数据块可以分别是不同声音感应装置在趋于同一时间感应同一声源生成的。如此，第一音频数据块和第二音频数据块中可以包括至少一部分源于同一声源的音频数据。从第二音频数据块中去除至少一部分与第一音频数据块源于相同声源的音频数据，使得对比第二音频数据块可以作为判断第二音频数据块中是否具有串音数据的基准。比如，将第二音频数据块整体进行处理去除与第一音频数据块源于同一声源的音频数据，得到对比第二音频数据块。再将第二音频数据块的每个音频数据分段，分别与对应的对比第二音频数据块的音频数据分段进行对比，判断第二音频数据块的音频数据分段是否具有串音数据。

在所述第二音频数据块中去除至少一部分与所述第一音频数据块源于相同声源的音频数据，可以包括：将第二音频数据块中与所述第一音频数据块中源于相同声源的音频数据全部去除；或者，为了避免处理中误差较大，去除了较多第二音频数据块中并非与第一音频数据块具有相同声源的音频数据，在对第二音频数据块进行处理时，将第二音频数据块中与第一音频数据块中源于相同声源的音频数据进行部分去除。

在本实施方式中，可以启动设置在所述第二数据通道的滤波子模块；根据指定滤波系数去除至少一部分所述第二音频数据块中与所述第一音频数据块具有相同声源的音频数据，以得到所述对比第二音频数据块。

在本实施方式中，所述滤波子模块可以包括具有数据滤波功能的硬件设备和驱动该硬件设备工作所需要的软件。当然所述滤波子模块也可以仅为具有滤波能力的硬件设备，或者仅为运行在硬件设备中的软件。所述滤波子模块可以用于尽可能的减少与所述第一音频数据块源于相同声源的音频数据。

在本实施方式中，启动所述设置在所述第二数据通道的滤波子模块的方式可以包括设置控制子模块，由所述控制子模块向所述滤波子模块发送启动指令。所述启动指令可以是一个请求报文，例如所述控制子模块可以向所述滤波子模块发出Request报文，在该报文中可以在表示报文类型的字符串中填充“request”。这样滤波子模块在接收到该Request报文时，便可以启动所述滤波子模块；或者开启连通所述滤波子模块的电路，以使所述滤波子模块处理所述第二音频数据块。当然，所述领域技术人员在本说明书的技术精髓的启示下，还能采用其他的变更方案，但只要其实现的功能和效果，与本说明书相同或相似，均应涵盖于本申请保护范围内。

在本实施方式中，所述滤波系数可以是根据实际需要具体设定固定值，也可以是随着输入数据变化而变化的值。由于需要减少所述第二音频数据块中与所述第一音频数据块具有相同声源的音频数据块，因此可以根据所述第一音频数据块确定所述滤波系数。在本实施方式中，所述滤波系数可以是不变的，在所述第二音频数据块较为平稳的情况下，可以不改变所述滤波系数。可以设定一个恒定的滤波系数，根据所述滤波系数对所述第二音频数据块进行处理；也可以根据所述第一音频数据块设定所述滤波系数。将所述第二音频数据块减去所述第一音频数据块与所述滤波系数的乘积，可以得到所述对比第二音频数据块。当然，所述滤波系数也可以是变化的，在所述第二音频数据块为非平稳的情况下，为了获得质量较高的语音输出可以改变所述滤波系数。可以以所述第一音频数据块数据为参考，通过自适应滤波器或者维纳滤波器等滤波器的指定算法，包括梯度下降法，递归最小二乘法、最小均方差算法等指定算法迭代计算出所述滤波系数。由于输入的所述第二音频数据块变化，所述滤波系数也可以随之变化。

在本实施方式中，得到所述对比第二音频数据块的步骤中可以包括，将所述第二音频数据块输入所述滤波子模块，所述滤波子模块设定滤波系数，根据所述滤波系数对所述第二音频数据块进行滤波处理进而可以输出所述对比第二音频数据块。根据所述第一音频数据块确定对应的滤波系数，将所述第二音频数据块减去所述第一音频数据块乘以所述滤波系数可以得到所述对比第二音频数据块。

所述检测模块用于在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

在本实施方式中，所述串音数据可以包括在多个麦克风的场景下，声源发出声音后，除了其对应的麦克风以外，其他麦克风也接收到该声源发出的声音，这部分音频数据块实际上可以是串音数据。

在本实施方式中，将所述第二音频数据块与所述对比第二音频数据块进行对比，由于所述对比第二音频数据块可以包括降低所述第二音频数据块中与所述第一音频数据块具有相同声源的音频数据块，当所述第二音频数据块和所述对比第二音频数据块的能量或声压值相同的情况下，则可以所说明所述第二音频数据块中没有和所述第一音频数据块具有相同声源的音频数据块。如果不同，则可以认为所述第二音频数据块中包括和所述第一音频数据块具有相同声源的音频数据块，即串音数据。

在本实施方式中，将所述第二音频数据块与所述对比第二音频数据块进行对比，在两者不同的情况下，认为所述第二音频数据块中具有串音数据。对所述第二音频数据块和所述对比第二音频数据块进行对比的，可以比较所述第二音频数据块和对比第二音频数据块的波形，声音的频率，或者音频数据块的声压值或能量，可以是任何能够表征所述音频数据块特性的任何属性或者属性的组合。

在一个实施方式中，所述处理模块可以实现，在所述对比第二音频数据块符合设定条件的情况下，重置所述第二音频数据块对应的滤波子模块。

在本实施方式中，所述处理模块还可以设置一个滤波检测子模块，所述滤波检测子模块可以包括具有数据处理功能的硬件设备和驱动该硬件设备工作所需要的软件。当然所述滤波检测模块也可以仅为具有数据处理能力的硬件设备，或者仅为运行在硬件设备中的软件。所述滤波检测子模块用于在所述滤波子模块输出的音频数据块符合设定条件的情况下，重置所述第二音频数据块对应的滤波子模块。

在本实施方式中，通过设定条件，在处理后的所述第二音频数据块符合设定条件的情况下，重置所述第二音频数据块对应的滤波子模块，可以实现系统的滤波自检，保证所述滤波子模块输出符合条件的第二音频数据块，提高了系统的稳定性。

在一个实施方式中，所述设定条件可以包括，所述对比第二音频数据块的能量大于所述第二音频数据块的能量；或者，所述对比第二音频数据块的声压值大于所述第二音频数据块的声压值。

在本实施方式中，在所述对比第二音频数据块的能量大于所述第二音频数据块的能量，或者所述对比第二音频数据块的声压值大于所述第二音频数据块的声压值的情况下，可以确定经过所述滤波子模块处理后，所述第二音频数据块得到了增益，从而可以确定经过所述滤波子模块处理，所述第二音频数据块中和所述第一音频数据块源于同一声源的音频数据块并没有被滤除，反而可能影响到系统的音频数据输出。因此需要重新设置所述滤波系数。

在本实施方式中，为了进一步提高系统的稳定性，可以给定一个门限值，在经过所述滤波子模块处理后与处理前所述声压值或能量的差值大于所述给定的门限值的情况下重置所述滤波系数。

在一个实施方式中，所述检测模块可以实现比较所述第二音频数据块与对比第二音频数据块的能量、声压值其中至少之一。

在本实施方式中，可以将所述第二音频数据块和所述对比第二音频数据块按照一定的规则划分为音频数据分段，可以根据时长或数量大小对所述音频数据块进行划分音频数据分段。具体地，例如，可以将所述音频数据块以每10毫秒为一个音频数据分段。当然，音频数据分段可以不限于20毫秒。或者，按照数据量进行划分所述音频数据块。例如，每个音频数据分段最多5MB。或者，按照所述音频数据块的声音波形的连续情况划分数据段，例如，在相邻两个连续的波形之间存在持续一定时长的无声部分，将每个连续的声音波形划分为一个音频数据分段。可以计算每个数据段对应的能量和/或声压值。比较每个音频数据分段对应的能量或声压值，以确定每个音频数据分段内是否存在串音数据。

在本实施方式中，也可以直接比较所述第二音频数据块和所述对比第二音频数据块的能量和/或声压值，当第二音频数据块与所述对比第二音频数据块的能量和/或声压值不同，则可以认为第二音频数据块具有串音数据，当第二音频数据块与所述对比第二音频数据块的能量和/或声压值相同，则可以认为第二音频数据块没有串音数据。

在一个实施方式中，滤波子模块可以根据梯度下降法计算滤波系数。具体的，可以参阅如下公式。

W(n)＝w(n-1)+μ[γ+x(n)*x(n)^T]^-1*x(n)*(d(n)-x(n)^Tw(n-1)) 公式(1)

上述公式(1)中，n可以用于表示音频数据分段的序号，w(n)可以为第n个音频数据分段的滤波系数，μ为经验值，γ为规整化因子，x(n)可以表示第一音频数据块，d(n)可以表示第二音频数据块。

本实施方式中，可以根据该公式(1)得出滤波系数，从而可以根据所述滤波系数与第一音频数据块中相应音频数据分段的乘积作为串音数据。

在一个实施方式中，所述第二音频数据块与所述对比第二音频数据块的能量不相同的情况，可以包括：所述第二音频数据块的能量与所述对比第二音频数据块的能量之间的差值大于指定能量阈值。

在本实施方式中，指定能量阈值可以是预先设置的一个能量值，在第二音频数据块与对比第二音频数据块之间的能量差值大于该指定能量阈值，认为第二音频数据块中存在串音数据。通过设定该指定能量阈值，可以实现因设备以及声源位置轻微变化以及噪音处理等，导致的第二音频数据块与对比第二音频数据块的能量值不相等，也不必然认定第二音频数据块中存在串音数据。而在第二音频数据块与对比第二音频数据块的能量差值达到一定程度，即大于指定能量阈值的情况下，才认为第二音频数据块具有串音数据。如此，提高了串音数据的检测准确率。

在一个实施方式中，所述第二音频数据块与所述对比第二音频数据块的声压值不相同的情况，可以包括：所述第二音频数据块的声压值与所述对比第二音频数据块的声压值之间的差值大于指定声压阈值。

在本实施方式中，指定声压阈值可以是预先设置的一个声压值，在第二音频数据块与对比第二音频数据块之间的声压差值大于该指定声压阈值，认为第二音频数据块中存在串音数据。通过设定该指定声压阈值，可以实现因设备以及声源位置轻微变化以及噪音处理等，导致的第二音频数据块与对比第二音频数据块的声压值不相等，也不必然认定第二音频数据块中存在串音数据。而在第二音频数据块与对比第二音频数据块的声压差值达到一定程度，即大于指定声压阈值的情况下，才认为第二音频数据块具有串音数据。如此，提高了串音数据的检测准确率。

在一个实施方式中，所述检测模块可以实现：对所述第二音频数据块进行第一降噪处理，得到处理后的第二音频数据块；对所述对比第二音频数据块进行第二降噪处理，得到处理后的对比第二音频数据块。相应的，所述处理后的第二音频数据块和所述处理后的对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

在本实施方式中，噪声数据可以包括破坏音频信号原有声学特征和模型参数，模糊不同音频之间差别，使音频质量下降，改变音频特征参数的数据。噪声数据可以包括加性噪声数据和非加性噪声数据。所述加性噪声数据可以包括周期性噪声数据、冲激噪声数据、宽带噪声数据以及同声道音频干扰数据等。非加性噪声数据主要包括传输噪声数据。

在本实施方式中，所述检测模块可以对应所述第二音频数据块和所述对比第二音频数据块分别设置第一降噪子模块和第二降噪子模块。所述第一降噪子模块可以接收所述第二音频数据块，对所述第二音频数据块进行降噪处理。所述第二降噪子模块可以接收所述对比第二音频数据块，对所述对比第二音频数据块进行降噪处理。

在本实施方式中，所述降噪处理的方法可以包括基于谱减法进行音频增强以减弱所述噪声数据、基于小波变换进行音频增强以减弱所述噪声数据，或者通过设置硬件设备，通过改变设备电路构造以降低所述音频数据块中的噪声数据。当然，对于降噪处理，所属领域技术人员在本说明书的技术精髓的启示下，还能采用其他的变更方案，但只要其实现的功能和效果，与本说明书相同或相似，均应涵盖于本申请保护范围内。

在本实施方式中，通过对所述第二音频数据块和所述对比第二音频数据块进行降噪处理，排除噪声数据对音频数据块的影响，从而提高串音数据检测的精度。

在本实施方式中，所述第一降噪处理和所述第二降噪处理具有趋于相同的算法可以包括，在降噪处理的算法中，使用相同或者相近似的方法对所述第二音频数据块和所述对比第二音频数据块进行处理。具体地，例如，使用基于小波变换进行音频增强以减少所述第二音频数据块和所述第一音频数据块中的噪声数据。

在本实施方式中，由于所述第一降噪处理和所述第二降噪处理具有趋于相同的算法，保证处理方式的相同，使处理的结果仅和所述第二音频数据块和对比第二音频数据块有关，排除了由于算法原因导致的处理结果的差异。进一步提高了串音数据检测的精度。

在一个实施方式中，检测模块对所述对比第二音频数据块进行第二降噪处理时，对所述对比第二音频数据块进行第二降噪处理可以包括，根据所述第二音频数据块确定第一信噪比；根据所述对比第二音频数据块确定第二信噪比；根据所述第一信噪比和所述第二信噪比得到联合信噪比；根据所述联合信噪比对所述对比第二音频数据块进行处理以得到降噪处理后的所述对比第二音频数据块。

在本实施方式中，根据所述第二音频数据块可以得到第一信噪比，所述第一信噪比可以通过对所述第二音频数据块进行功率谱分析或最大似然法等方法得到，用以根据所述第一信噪比对所述第二音频数据块进行降噪处理。可以根据所述对比第二音频数据块得到第二信噪比，所述第二信噪比可以通过对所述对比第二音频数据块进行功率谱分析或最大似然法等方法得到。

在本实施方式中，根据所述第一信噪比和所述第二信噪比可以得到联合信噪比，由于所述第二音频数据块和所述对比第二音频数据块可以在相同数据通道内传输，因此，根据所述联合信噪比对所述对比第二音频数据块进行处理，得到所述联合信噪比的步骤可以包括，将所述第一信噪比与第二信噪比的乘积除以所述第一信噪比和第二信噪比之和得到所述联合信噪比。根据松鼠联合信噪比对所述对比第二音频数据块进行处理以得到降噪处理后的所述对比第二音频数据块。

在本实施方式中，通过获得所述联合信噪比对对所述对比第二音频数据块进行降噪处理，进一步降低了所述对比第二音频数据块中的噪声数据，提高了进行串音数据检测的精度。

在一个实施方式中，所述串音检测系统还可以实现：在所述对比第二音频数据块的能量大于所述第二音频数据块的能量的情况下，确定对应的音频数据块为串音数据；或者，在所述对比第二音频数据块的声压值大于所述第二音频数据块声压值的情况下，确定对应的音频数据块为串音数据。

在本实施方式中，可以比较经过降噪处理后的所述对比第二音频数据块和所述第二音频数据块的能量或者声压值。在所述处理后对比第二音频数据块的能量或者声压值大于所述处理后的第二音频数据块的能量或者声压值的情况下，可以确定该处理后对比第二音频数据块为所述第二音频数据块中的串音数据。具体地，可以计算所述处理后对比第二音频数据块每一帧的能量或者声压值，计算所述处理后的第二音频数据块每一帧的能量或者声压值，当有一帧处理后的对比第二音频数据块的能量或者声压值大于对应帧处理后的第二音频数据块的能量或者声压值的情况下，认为大于的这一帧为第二音频数据块的串音数据

在本实施方式中，可以设定一个指定的阈值，在所述处理后的对比第二音频数据块的能量或者声压值与所述第二音频数据块的能量或者声压值的差值大于指定阈值的情况下，认为对应的音频数据块为串音数据。

在本实施方式中，由于声压值或者能量能够直观的表征所述第二音频数据块和所述对比第二音频数据块，在所述处理后的对比第二音频数据块的能量或声压值大于所述处理后的第二音频数据块的能量或者声压值的情况下，确定对应的音频数据块为第二音频数据块中的串音数据。方便数据的整理和计算进而方便串音数据的检测。

请参阅图8，本说明书实施方式提供一种串音数据检测系统。所述串音数据检测系统可以包括客户端和服务器。

在本实施方式中，所述客户端可以包括具有数据接收和发送能力的电子设备。所述客户端可以包括至少两个音频感应终端和网络通信单元。

在本实施方式中，所述音频感应终端可以用于感应声源所发出的声音并生成相应的音频数据块。具体地，所述音频感应终端可以是一个传声器、或者是设置了传声器的麦克风。所述传声器用于将声波转换成电信号，得到音频数据块。所述每个音频感应终端可以对应一个数据通道，所述音频感应终端可以根据所述数据通道将音频感应终端生成的音频数据块提供给所述网络通信单元。具体地，至少两个音频感应终端可以包括第一音频感应终端和第二音频感应终端。相应地，所述第一音频感应终端可以对应第一数据通道，所述第二音频感应终端可以对应第二数据通道。所述客户端具有所述接收模块，可以接收第一数据通道和第二数据通道提供的音频数据。

在本实施方式中，所述网络通信单元包括遵循网络通信协议进行网络数据通信的装置。所述网络通信单元可以接收所述音频感应终端提供的音频数据块，也可以将所述音频数据块发送给所述服务器。所述网络通信单元可以通过所述数据通道将接收到的音频数据块发送给所述服务器。

在本实施方式中，所述客户端可以具有较弱数据处理能力，可以是类似物联网设备等电子设备。此外，所述客户端还可以设置有发送模块，用于将第一音频数据块和第二音频数据块发送给服务器。发送模块也可以由所述网络通信单元实现。

在本实施方式中，所述服务器可以包括具有一定运算处理能力的电子设备，其可以具有网络通信单元、处理器和存储器等。当然，上述服务器也可以是指运行在所述电子设备中的软体。上述服务器还可以为分布式服务器，可以是具有多个处理器、检测装置和网络通信模块等协同运作的系统，或者，服务器还可以为若干服务器形成的服务器集群。当然，所述服务器还可以运用云技术，从而以云计算的方式实现所述服务器的功能。

在本实施方式中，所述网络通信单元可以是遵循网络通信协议进行网络数据通信的装置。可以用于接收客户端提供的第一音频数据块和第二音频数据块。所述网络通信单元可以作为所述服务器的接收模块，或者，所述服务器也可以运行软件程序形成的接收模块。

在本实施方式中，前文所述处理模块和检测模块可以运行于所述服务器的处理器中，其具体的实现功能和效果，可以参照其他实施方式对照解释。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

请参阅图9。在另一个实施方式中，本说明书实施方式还提供一种串音数据检测系统。所述串音检测系统可以包括客户端和服务器。

在本实施方式中，所述客户端可以包括至少两个音频感应终端、处理器和网络通信单元。本实施方式所述至少两个音频感应终端，其实现的具体功能可以参见其他实施方式，在此不再赘述。所述客户端可以是具有一定处理能的设备，具体地，例如，所述客户端可以是笔记本电脑，或者智能终端设备等。所述客户端可以具有所述接收模块和所述处理模块。所述处理模块可以运行于所述客户端的处理器中，对所述第二音频数据块进行处理以降低所述第二音频数据块中与所述第一音频数据块具有相同声源的音频数据块，得到对比第二音频数据块。所述网络通信单元可以是遵循网络通信协议进行网络数据通信的装置。可以用于将经过处理器处理得到的所述对比第二音频数据块和所述第二音频数据块提供给服务器。

在本实施方式中，所述服务器的网络通信单元可以用于接收客户端提供的目标音频数据块即第二音频数据块，和对比音频数据块。即对比第二音频数据块可以为所述对比音频数据块。使得所述网络通信模块可以形成服务器的接收模块。前文所述检测模块可以运行于所述服务器的处理器中，将所述目标音频数据块即第二音频数据块，与所述对比第二音频数据块进行比较，在二者不同的情况下，认为所述基准音频数据块中具有串音数据。此时，可以将第一音频数据块视为基准音频数据块。

在另一个实施方式中，本说明书实施方式还提供一种串音数据检测系统。所述串音检测系统可以包括客户端。

在本实施方式中，所述客户端可以包括有至少两个音频感应终端和处理器。本实施方式中所述的至少两个音频感应终端所实现的具体功能可以参见其他实施方式，在此不再赘述。所述客户端可以具有较强的处理能力。所述客户端可以具有所述接收模块、所述处理模块和所述检测模块。在此场景下，可以无需与服务器进行交互。或者，可以将检测模块处理之后的音频数据块提供给服务器。具体地，例如所述客户端可以是具有较高性能的平板电脑、笔记本电脑、台式电脑、工作站等。

当然，上述只是示例的方式列举了一些客户端。随着科学技术进步，硬件设备的性能可能会有提升，使得目前数据处理能力较弱的电子设备，也可能具备较佳的数据处理能力。所以上述实施方式中，对软件模块运行于硬件设备中的划分，并不构成对本申请的限定。所属领域技术人员还可能对上述软件的模块进行进一步功能拆分，并相应的放置于客户端或服务器中运行。但只要其实现的功能和效果与本说明书相同或相似，均应涵盖于本申请保护范围内。

本说明书实施方式提供一种计算机存储介质。所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现，接收第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

在本实施方式中，所述计算机存储介质包括但不限于随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(HardDisk Drive,HDD)或者存储卡(Memory Card)。

在本实施方式中，所述计算机存储介质实现的具体功能，可以参照其他实施方式对照解释。

本说明书实施方式提供一种计算机存储介质。所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现，接收第一音频数据块和第二音频数据块；其中，所述第二音频数据块与所述第一音频数据块趋于相同时间获取；对所述第二音频数据块进行处理，以降低所述第二音频数据块中与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；将所述第二音频数据块和所述对比第二音频数据块发送给服务器，用于在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

本说明书实施方式提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现：接收客户端提供的目标音频数据块和对比音频数据块；其中，所述对比音频数据块是所述目标音频数据块去除至少一部分与基准音频数据块具有相同声源的音频数据后得到的；所述目标音频数据块的获取时间与所述基准音频数据块的获取时间趋于相同；在所述目标音频数据块与所述对比音频数据块的能量或者声压值不相同的情况下，认为所述目标音频数据块中具有串音数据。

本说明书实施方式提供一种计算机存储介质。所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现，接收第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；将所述第二音频数据块和所述第一音频数据块发送给服务器；以使所述服务器对从所述第二音频数据块中去除至少一部分所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块，在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

本说明书实施方式提供一种计算机存储介质。所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现，接收客户端提供的第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

上面对本说明书的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述，本说明书的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此，虽然已经具体讨论了一些实施方式，但是其它实施方式将是显而易见的，或者本领域技术人员相对容易得出。本说明书旨在包括在此已经讨论过的本发明的所有替代、修改、和变化，以及落在上述申请的精神和范围内的其它实施方式。

在说明书各实施方式中“第一”、“第二”的表述仅为了区分不同的数据通道与音频数据块，在这里并不限定数据通道和音频数据块的数量。所述数据通道和音频数据块可以包括多个而不仅限于两个。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。

本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施方式描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种串音数据检测方法，其特征在于，包括：

接收第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；

从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；

在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

2.根据权利要求1所述的方法，其特征在于，所述第一音频数据块属于第一数据通道，所述第二音频数据块属于第二数据通道；从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块的步骤中，包括：

启动设置在所述第二数据通道的滤波子模块；

根据指定滤波系数去除至少一部分所述第二音频数据块中与所述第一音频数据块具有相同声源的音频数据，以得到所述对比第二音频数据块。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

在所述对比第二音频数据块符合设定条件的情况下，重置所述第二音频数据块对应的滤波子模块。

4.根据权利要求3所述的方法，其特征在于，所述设定条件包括：所述对比第二音频数据块的能量大于所述第二音频数据块的能量；或者，

所述对比第二音频数据块的声压值大于所述第二音频数据块的声压值。

5.根据权利要求1所述的方法，其特征在于，所述第二音频数据块与所述对比第二音频数据块的能量不相同的情况包括：所述第二音频数据块的能量与所述对比第二音频数据块的能量之间的差值大于指定能量阈值。

6.根据权利要求1所述的方法，其特征在于，所述第二音频数据块与所述对比第二音频数据块的声压值不相同的情况包括：所述第二音频数据块的声压值与所述对比第二音频数据块的声压值之间的差值大于指定声压阈值。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述第二音频数据块进行第一降噪处理，得到处理后的第二音频数据块；

对所述对比第二音频数据块进行第二降噪处理，得到处理后的对比第二音频数据块；

相应的，所述处理后的第二音频数据块和所述处理后的对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

8.根据权利要求7所述的方法，其特征在于，所述第一降噪处理和所述第二降噪处理具有趋于相同的算法。

9.根据权利要求7所述的方法，其特征在于，对所述对比第二音频数据块进行第二降噪处理的步骤中包括：

根据所述第二音频数据块确定第一信噪比；

根据所述对比第二音频数据块确定第二信噪比；

根据所述第一信噪比和所述第二信噪比得到联合信噪比；

根据所述联合信噪比对所述对比第二音频数据块进行处理以得到降噪处理后的所述对比第二音频数据块。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

在所述处理后的对比第二音频数据块的能量大于所述处理后的第二音频数据块的能量的情况下，确定对应的音频数据块为串音数据；或者，

在所述处理后的对比第二音频数据块的声压值大于所述处理后的第二音频数据块声压值的情况下，确定对应的音频数据块为串音数据。

11.一种客户端，其特征在于，包括：

第一音频感应终端，用于向第一数据通道输入第一音频数据块；

第二音频感应终端，用于向第二数据通道输入第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；

处理器，用于从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

12.一种串音数据检测方法，其特征在于，包括：

接收第一音频数据块和第二音频数据块；其中，所述第二音频数据块与所述第一音频数据块趋于相同时间获取；

对所述第二音频数据块进行处理，以降低所述第二音频数据块中与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；

将所述第二音频数据块和所述对比第二音频数据块发送给服务器，用于在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

13.一种客户端，其特征在于，包括：

处理器，用于从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块；

网络通信单元，用于将所述第二音频数据块和所述对比第二音频数据块发送给服务器，用于在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

14.一种串音数据检测方法，其特征在于，包括：

接收客户端提供的目标音频数据块和对比音频数据块；其中，所述对比音频数据块是所述目标音频数据块去除至少一部分与基准音频数据块具有相同声源的音频数据后得到的；所述目标音频数据块的获取时间与所述基准音频数据块的获取时间趋于相同；

在所述目标音频数据块与所述对比音频数据块的能量或者声压值不相同的情况下，认为所述目标音频数据块中具有串音数据。

15.一种电子设备，其特征在于，包括网络通信单元和处理器；

所述网络通信单元用于接收客户端提供的目标音频数据块和对比音频数据块；其中，所述对比音频数据块是所述目标音频数据块去除至少一部分与基准音频数据块具有相同声源的音频数据后得到的；所述目标音频数据块的获取时间与所述基准音频数据块的获取时间趋于相同；

所述处理器用于在所述目标音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述目标音频数据块中具有串音数据。

16.一种串音数据检测方法，其特征在于，包括：

将所述第二音频数据块和所述第一音频数据块发送给服务器；以使所述服务器对从所述第二音频数据块中去除至少一部分所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块，在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

17.一种客户端，其特征在于，包括：

网络通信单元，用于将所述第一音频数据块和所述第二音频数据块发送给服务器；以使所述服务器从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据，得到对比第二音频数据块，在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。

18.一种串音数据检测方法，其特征在于，包括：

接收客户端提供的第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；

19.一种电子设备，其特征在于，包括网络通信单元、处理器；

所述网络通信单元用于接收客户端提供的第一音频数据块和第二音频数据块；其中，所述第二音频数据块的获取时间与所述第一音频数据块的获取时间趋于相同；

所述处理器用于从所述第二音频数据块中去除至少一部分与所述第一音频数据块具有相同声源的音频数据块，得到对比第二音频数据块；在所述第二音频数据块与所述对比第二音频数据块的能量或者声压值不相同的情况下，认为所述第二音频数据块中具有串音数据。