CN115132218A - 回声消除检测方法及装置、计算设备和存储介质 - Google Patents

回声消除检测方法及装置、计算设备和存储介质 Download PDF

Info

Publication number
CN115132218A
CN115132218A CN202210771700.5A CN202210771700A CN115132218A CN 115132218 A CN115132218 A CN 115132218A CN 202210771700 A CN202210771700 A CN 202210771700A CN 115132218 A CN115132218 A CN 115132218A
Authority
CN
China
Prior art keywords
sound information
sound
terminal
echo cancellation
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210771700.5A
Other languages
English (en)
Inventor
陈慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Feixun Digital Technology Co ltd
Original Assignee
Beijing Feixun Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Feixun Digital Technology Co ltd filed Critical Beijing Feixun Digital Technology Co ltd
Priority to CN202210771700.5A priority Critical patent/CN115132218A/zh
Publication of CN115132218A publication Critical patent/CN115132218A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • H04M9/082Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic using echo cancellers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

本申请实施例涉及媒体通讯领域,且涉及一种回声消除检测方法及装置、计算设备和存储介质。具体方案为:获取第一声音信息,所述第一声音信息用于通过第一终端发送给第二终端播放;获取第三声音信息,所述第三声音信息是通过所述第一终端接收的所述第二终端发送的声音信息,且所述第三声音信息是在播放所述第一声音信息时通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;对所述第一声音信息和所述第三声音信息进行声音特征分析;根据所述声音特征分析的结果,确定所述回声消除处理的效果。本申请实施例可精准检测回声消除的效果,避免人为判断的主观性和不准确性。

Description

回声消除检测方法及装置、计算设备和存储介质
技术领域
本发明涉及媒体通讯技术领域,尤其涉及回声消除检测方法及装置、计算设备和存储介质。
背景技术
在媒体通讯的应用场景中,经常存在不同的说话人的声音在网络传播的过程中互相干扰而产生回声。例如在视频指挥系统中,指挥员A和指挥员B分别通过指挥终端A和指挥终端B进行音视频通话时,指挥员A的声音A通过网络传到指挥员B的扬声器中。指挥员B的麦克风和扬声器距离较近,指挥员B的麦克风会采集到扬声器播放的声音A,加上指挥员B的声音B通过网络一起传给指挥员A。因此指挥员A通过扬声器播放会听到回声,也就是听到自己的声音。
现有技术中针对回声进行了消除处理。为了验证回声消除是否生效,现有的测试方法通常是在指挥终端A呼叫指挥终端B接通后,分别在指挥终端A的麦克风和指挥终端B的麦克风处讲话。然后在各自的扬声器处人为监听是否有回声,即监听是否重复听到自己的声音。若不能听到自己的声音,能清晰听到对端的声音则判定有效消除了回声。以上人为判断的方式通常带有主观性,不能精准地检测回声消除处理的效果。
发明内容
鉴于现有技术的以上问题,本申请实施例提供一种回声消除检测方法及装置、计算设备和存储介质,能够科学精准地检测回声消除处理的效果,避免人为判断带来的主观性和不准确性。
为达到上述目的,本申请第一方面提供了一种回声消除检测方法,包括:
获取第一声音信息,所述第一声音信息用于通过第一终端发送给第二终端播放;
获取第三声音信息,所述第三声音信息是通过所述第一终端接收的所述第二终端发送的声音信息,且所述第三声音信息是在播放所述第一声音信息时通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
对所述第一声音信息和所述第三声音信息进行声音特征分析;
根据所述声音特征分析的结果,确定所述回声消除处理的效果。
作为第一方面的一种可能的实现方式,所述方法还包括:
获取第二声音信息,所述第二声音信息是来自所述第二终端的检测对象的声音信息,且所述第三声音信息是在播放所述第一声音信息以及所述检测对象发声时,通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
所述进行声音特征分析时,还包括对所述第二声音信息进行声音特征分析。
作为第一方面的一种可能的实现方式,所述声音特征分析包括对声音信息进行梅尔频率倒谱系数分析。
作为第一方面的一种可能的实现方式,所述根据所述声音特征分析的结果,确定所述回声消除处理的效果,包括:
所述第三声音信息的声音特征包含的所述第一声音信息的声音特征低于阈值时,确定所述回声消除处理有效。
本申请第二方面提供了一种回声消除检测装置,包括:
第一获取单元,用于获取第一声音信息,所述第一声音信息用于通过第一终端发送给第二终端播放;
第二获取单元,用于获取第三声音信息,所述第三声音信息是通过所述第一终端接收的所述第二终端发送的声音信息,且所述第三声音信息是在播放所述第一声音信息时通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
分析单元,用于对所述第一声音信息和所述第三声音信息进行声音特征分析;
确定单元,用于根据所述声音特征分析的结果,确定所述回声消除处理的效果。
作为第二方面的一种可能的实现方式,所述装置还包括第三获取单元;
所述第三获取单元用于:获取第二声音信息,所述第二声音信息是来自所述第二终端的检测对象的声音信息,且所述第三声音信息是在播放所述第一声音信息以及所述检测对象发声时,通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
所述分析单元还用于:对所述第二声音信息进行声音特征分析。
作为第二方面的一种可能的实现方式,所述分析单元用于:对声音信息进行梅尔频率倒谱系数分析。
作为第二方面的一种可能的实现方式,所述确定单元用于:
所述第三声音信息的声音特征包含的所述第一声音信息的声音特征低于阈值时,确定所述回声消除处理有效。
本申请第三方面提供了一种计算设备,包括:
通信接口;
至少一个处理器,其与所述通信接口连接;以及
至少一个存储器,其与所述处理器连接并存储有程序指令,所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行上述第一方面任一所述的方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,所述程序指令当被计算机执行时使得所述计算机执行上述第一方面任一所述的方法。
本发明的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。
附图说明
以下参照附图来进一步说明本发明的各个特征和各个特征之间的联系。附图均为示例性的,一些特征并不以实际比例示出,并且一些附图中可能省略了本申请所涉及领域的惯常的且对于本申请非必要的特征,或是额外示出了对于本申请非必要的特征,附图所示的各个特征的组合并不用以限制本申请。另外,在本说明书全文中,相同的附图标记所指代的内容也是相同的。具体的附图说明如下:
图1为回声消除检测方法的使用场景的示意图;
图2为本申请实施例提供的回声消除检测方法的一实施例的示意图;
图3为本申请实施例提供的回声消除检测方法的一实施例的设备部署示意图;
图4为本申请实施例提供的回声消除检测装置的一实施例的示意图;
图5为本申请实施例提供的回声消除检测装置的一实施例的示意图;
图6为本申请实施例提供的计算设备的示意图。
具体实施方式
说明书和权利要求书中的词语“第一、第二、第三等”或模块A、模块B、模块C等类似用语,仅用于区别类似的对象,不代表针对对象的特定排序,可以理解地,在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
在以下的描述中,所涉及的表示步骤的标号,如S110、S120……等,并不表示一定会按此步骤执行,在允许的情况下可以互换前后步骤的顺序,或同时执行。
说明书和权利要求书中使用的术语“包括”不应解释为限制于其后列出的内容;它不排除其它的元件或步骤。因此,其应当诠释为指定所提到的所述特征、整体、步骤或部件的存在,但并不排除存在或添加一个或更多其它特征、整体、步骤或部件及其组群。因此,表述“包括装置A和B的设备”不应局限为仅由部件A和B组成的设备。
本说明书中提到的“一个实施例”或“实施例”意味着与该实施例结合描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在本说明书各处出现的用语“在一个实施例中”或“在实施例中”并不一定都指同一实施例,但可以指同一实施例。此外,在一个或多个实施例中,能够以任何适当的方式组合各特定特征、结构或特性,如从本公开对本领域的普通技术人员显而易见的那样。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。如有不一致,以本说明书中所说明的含义或者根据本说明书中记载的内容得出的含义为准。另外,本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。为了准确地对本申请中的技术内容进行叙述,以及为了准确地理解本发明,在对具体实施方式进行说明之前先对本说明书中所使用的术语给出如下的解释说明或定义:
1)回声消除技术:声学回声是指扬声器播放出来的声音被麦克风拾取后发回远端,使远端谈话者能听到自己的声音。当回声返回时间超过10ms时,人耳就可听到明显的回声了,会干扰正常通话。对于时延相对较大的IP(Internet Protocol,网际互连协议)网络环境,时延很容易就达到50ms,因此必须清除回声。可采用回波抵消方法,也就是通过自适应方法估计回波信号的大小,然后在接收信号中减去此估计值以抵消回波。回波抵消功能通常在网关上完成。
2)梅尔频率倒谱系数(MFCC,Mel Frequency Cepstrum Coefficient):Mel频率是基于人耳听觉特性提出来的,它与Hz频率成非线性对应关系。Mel频率倒谱系数则是利用它们之间的这种关系,计算得到的Hz频谱特征。MFCC已经广泛地应用在语音识别领域。
下面先对现有的方法进行介绍,然后再对本申请的技术方案进行详细介绍。
图1为回声消除检测方法的使用场景的示意图。以视频指挥系统为例,经常存在不同的说话人的声音在网络传播的过程中互相干扰而产生回声。例如,指挥员A和指挥员B分别通过指挥终端A和指挥终端B进行音视频通话时,指挥员A的声音A通过网络传到指挥员B的扬声器中。指挥员B的麦克风和扬声器距离较近,指挥员B的麦克风会采集到扬声器播放的声音A,加上指挥员B的声音B通过网络一起传给指挥员A。因此指挥员A通过扬声器播放会听到回声,也就是听到自己的声音。
现有技术中针对回声进行了消除处理。为了验证回声消除是否生效,现有的测试方法通常是在指挥终端A呼叫指挥终端B接通后,分别在指挥终端A的麦克风和指挥终端B的麦克风处讲话。然后在各自的扬声器处人为监听是否有回声,即监听是否重复听到自己的声音。若不能听到自己的声音,能清晰听到对端的声音则判定有效消除了回声。
现有技术存在着以下的缺陷:以上人为判断的方式通常带有主观性,不能精准地检测回声消除处理的效果。
基于上述现有技术所存在的技术问题,本申请提供了一种回声消除检测的方法。该方法通过对第二终端返回到第一终端的经过回声消除处理后的声音信息、以及第一终端发送给第二终端播放的声音信息进行声音特征分析,可分析前者中是否包含后者的声音特征,从而可以科学精准地检测回声消除处理的效果,可解决现有技术中提到的人为判断带来的主观性和不准确性的技术问题。
图2为本申请实施例提供的回声消除检测方法的一实施例的示意图。如图2所示,该回声消除检测方法可以包括:
步骤S110,获取第一声音信息,所述第一声音信息用于通过第一终端发送给第二终端播放;
步骤S120,获取第三声音信息,所述第三声音信息是通过所述第一终端接收的所述第二终端发送的声音信息,且所述第三声音信息是在播放所述第一声音信息时通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
步骤S130,对所述第一声音信息和所述第三声音信息进行声音特征分析;
步骤S140,根据所述声音特征分析的结果,确定所述回声消除处理的效果。
图3为本申请实施例提供的回声消除检测方法的一实施例的设备部署示意图。图3示出了用于检测视频指挥系统中回声消除效果的设备部署。在视频指挥系统中,设置检测点,分段录制声音。分析不同段声音的关键特征,对比指挥终端A发出去的声音和收到的声音的关键特征,从而判断是否有效进行了回声消除处理。
参见图3,在进行回声消除检测时,将指挥终端A称为第一终端,指挥终端B称为第二终端。第一说话人和第二说话人分别在第一终端和第二终端进行通话。所述第一声音信息可以是第一说话人的语音录音信息。在步骤S110中,陪测计算机获取第一说话人的语音录音信息,即第一声音信息。一方面,第一声音信息通过第一终端发送给第二终端,陪测计算机可以通过抓包的方式获取第一终端发送给第二终端的数据包,再从数据包中获取第一声音信息;另一方面,第一声音信息也可以以文件的形式预先保存并发送给陪测计算机。
在步骤S120中,在第一说话人和第二说话人分别在第一终端和第二终端进行通话的过程中,陪测计算机获取第三声音信息。所述第一说话人和所述第二说话人分别在第一终端和第二终端进行通话的过程中,在所述第二终端播放来自所述第一终端的所述第一说话人的声音信息,将同时采集到的所述播放的声音信息和在所述第二终端采集到的其它声音信息从所述第二终端发送给所述第一终端。所述第三声音信息是所述第一终端接收到的来自所述第二终端的经过回声消除处理后的声音信息。
其中,获取第三声音信息的过程可包括:首先,第一说话人在第一终端讲话。第一说话人的声音信息从第一终端传输到第二终端,并在第二终端通过扬声器播放。播放的同时可能第二说话人在第二终端讲话。播放的声音信息和第二说话人的声音信息同时在第二终端被麦克风采集。对采集到的声音信息进行回声消除处理,并将处理后的声音信息从第二终端发送给第一终端。参见图3,第一终端和第二终端通过可通过交换机进行网络通信。陪测计算机与交换机相连接。在第一说话人和第二说话人分别在第一终端和第二终端进行通话的过程中,陪测计算机可通过抓包的方式抓取第一终端接收到的来自第二终端的数据包;从所述数据包中获取经过回声消除处理后的声音信息,即获取第三声音信息。
参见图3,在第一终端和第二终端进行交互的过程中,陪测计算机可利用抓包工具抓取第二终端发送给第一终端的经过回声消除处理后的数据包。其中,抓包(packetcapture)是将网络传输发送与接收的数据包进行截获、重发、编辑、转存等操作,也经常被用来进行数据截取等。抓包工具是拦截查看网络数据包内容的软件。抓包工具可以对数据通信过程中的所有IP报文实施捕获并进行逐层拆包分析。通过对抓获的数据包进行分析,可以得到有用的信息。可采用的抓包工具包括:wireshark、sniffer、httpwatch、iptool等。陪测计算机可在第一终端和第二终端进行交互的整个的过程中,不断抓取第一终端接收到的数据包。然后从数据包中提取第三声音信息。
在步骤S130中,陪测计算机对步骤S110中获取的第一声音信息和第三声音信息进行频谱分析,可提取声音信息中的关键声音特征。在步骤S140中,根据所述频谱分析的结果,检测所述回声消除处理的效果。可根据提取的关键声音特征进行说话人识别,分析第三声音信息中是否包含回声的成分,以验证回声是否真正被消除。
具体地,可将所述第三声音信息的声音特征与所述第一声音信息的声音特征进行比对,确定在所述第三声音信息中是否包含所述第一声音信息的声音特征。在所述第三声音信息中不包含所述第一声音信息的声音特征的情况下,确定所述回声消除处理有效。
本申请实施例能够科学精准地检测回声消除处理的效果,避免人为判断带来的主观性和不准确性。
在以上实施例中,利用陪测计算机获取第一声音信息和第三声音信息,对第一声音信息和所述第三声音信息进行频谱分析,并根据频谱分析的结果,检测回声消除处理的效果。在另一个实施例中,也可以利用第一终端获取第一声音信息和第三声音信息,并在第一终端进行频谱分析和回声消除检测。
在一种实施方式中,所述方法还包括:
获取第二声音信息,所述第二声音信息是来自所述第二终端的检测对象的声音信息,且所述第三声音信息是在播放所述第一声音信息以及所述检测对象发声时,通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
所述进行声音特征分析时,还包括对所述第二声音信息进行声音特征分析。
其中,第二终端的检测对象可以包括第二说话人。第二声音信息可以是第二说话人的语音录音信息,可以是第二说话人在第二终端关闭扬声器的情况下录制的一段语音录音信息。然后将第二声音信息发送给陪测计算机或第一终端,以便陪测计算机或第一终端进行回声消除检测。
所述第一说话人和所述第二说话人分别在第一终端和第二终端进行通话的过程中,在所述第二终端播放来自所述第一终端的所述第一说话人的声音信息,播放的同时第二说话人在第二终端讲话。将同时采集到的所述播放的声音信息和所述第二说话人的声音信息从所述第二终端发送给所述第一终端,所述第三声音信息可以是所述第一终端接收到的来自所述第二终端的经过回声消除处理后的声音信息。
进行声音特征分析时,可对第一声音信息、第二声音信息和第三声音信息进行频谱分析。若第三声音信息中包含第二声音信息的成分,且第三声音信息中不包含第一声音信息的成分,则可以认为回声已经被消除。具体地,如果声音特征分析的结果是第三声音信息的声音特征包含第二声音信息的声音特征,且不包含第一声音信息的声音特征,则确定回声消除处理有效。
在又一种实施方式中,获取第一声音信息和第二声音信息的过程可包括:
分别从预先录制的所述第一说话人和所述第二说话人的录音文件中,获取第一声音信息和第二声音信息。
在进行回声消除检测时,第一说话人和第二说话人分别在第一终端和第二终端进行通话。对于第一说话人和第二说话人,可以预先录制两者的语音录音信息,形成录音文件。例如,第一说话人可以在检测前预先在第一终端的麦克风处讲话,录音后形成第一录音文件,然后将该录音文件通过网络发送给陪测计算机或第一终端。同样地,第二说话人也可以在检测前预先在第二终端的麦克风处讲话,录音后形第二成录音文件,然后将该录音文件通过网络发送给陪测计算机或第一终端。又如,第一说话人和第二说话人可以在其他任意场景中的任意录音设备分别录制录音文件,然后将录音文件拷贝到陪测计算机或第一终端中。
另外,在一些实施例中,录制第一说话人和第二说话人的语音录音信息,是在获取第三声音信息之前进行的。在另一些实施例中,录制第一说话人和第二说话人的语音录音信息,也可以在获取第三声音信息之后进行。也就是先在第一说话人和第二说话人分别在第一终端和第二终端进行通话的过程中,获取第三声音信息;然后第一说话人和第二说话人再录制各自的语音录音信息。陪测计算机或第一终端在获取到第一声音信息、第二声音信息和第三声音信息之后,再进行频谱分析和回声消除检测。
在一种实施方式中,所述声音特征分析包括对声音信息进行梅尔频率倒谱系数分析。
在对第一声音信息、所述第二声音信息和所述第三声音信息进行声音特征分析可包括提取所述第一声音信息、所述第二声音信息和所述第三声音信息的声音特征。特征提取方法通常为每个声音信号提取一个多维特征向量。特征提取可以是通过将声音波形以相对最小的数据速率转换为参数表示形式进行后续处理和分析来实现的。可采用的声音特征提取技术包括:梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)、线性预测倒谱系数(LPCC)、线谱频率(LSF)、离散小波变换(DWT)和感知线性预测(PLP)等。
其中,在语音识别技术中,梅尔频率倒谱系数(MFCC)的物理含义是将语音物理信息(频谱包络和细节)进行编码运算得到的一组特征向量,表示信号频谱的能量在不同频率区间的分布。MFCC可以理解为语言信号的能量在不同频率范围的分布,因此利用MFCC可进行说话人识别。
在一种实施方式中,所述根据所述声音特征分析的结果,确定所述回声消除处理的效果,包括:
所述第三声音信息的声音特征包含的所述第一声音信息的声音特征低于阈值时,确定所述回声消除处理有效。
若第三声音信息中包含第一声音信息的成分较少,低于预设的阈值时,达到人耳无法明显分辨的程度,则可以认为回声消除处理有效。
参见图3,一个示例性的回声消除检测处理流程可包括以下步骤:
1、按照图3所示的环境图在一个安静的环境下连接部署设备;
2、指挥终端A对指挥终端B发起视频呼叫,建立音视频通话;
3、指挥员A在指挥终端A的麦克风处念一段文字,用时约30s,同时开启录音,将这段话录下来,记录为语音Va;语音Va即为第一声音信息;
4、语音Va通过网络传输到指挥终端B,通过扬声器播放出来,不考虑网络传输损耗,输出的声音信号仍然为语音Va;
5、指挥员B在指挥终端B的麦克风处念一段文字,用时约30s,同时开启录音,将这段话录下来,记录为语音Vb';
6、由于指挥终端B的扬声器和麦克风距离比较近,扬声器播放的语音Va会被麦克风采集到,与语音Vb'一同通过网络传输给指挥终端A;通过网络抓包获取到传输给指挥终端A的语音,记录为语音Vc;语音Vc即为第三声音信息;
7、语音Vc通过网络传输给指挥终端A的扬声器播放,不考虑网络传输损耗,输出的声音信号仍然为语音Vc;
8、指挥员B在关闭扬声器的情况下,在指挥终端B的麦克风处念一段文字,用时约30s,同时开启录音,将这段话录下来,记录为语音Vb;语音Vb即为第二声音信息,且语音Vb与语音Vb'具有相同的声音特征;在一种可能的实施方式中,步骤8也可以在步骤2之前预先完成;
9、在陪测计算机上使用软件工具对语音Va、语音Vb、语音Vc进行频谱分析,提取语音的关键特征梅尔频率倒谱系数MFCC;
10、若语音Vc的MFCC中含语音Va的MFCC,则说明回声消除无效;若语音Vc的MFCC中不含语音Va的MFCC,只包含语音Vb的MFCC,则说明回声消除有效;
11、也可以同时结合人工监听语音Va、语音Vb、语音Vc,进一步判定回声消除是否有效。
如图4所示,本申请还提供了相应的一种回声消除检测装置的实施例,关于该装置的有益效果或解决的技术问题,可以参见与各装置分别对应的方法中的描述,或者参见发明内容中的描述,此处不再一一赘述。
在该回声消除检测装置的实施例中,该装置包括:
第一获取单元100,用于获取第一声音信息,所述第一声音信息用于通过第一终端发送给第二终端播放;
第二获取单元200,用于获取第三声音信息,所述第三声音信息是通过所述第一终端接收的所述第二终端发送的声音信息,且所述第三声音信息是在播放所述第一声音信息时通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
分析单元300,用于对所述第一声音信息和所述第三声音信息进行声音特征分析;
确定单元400,用于根据所述声音特征分析的结果,确定所述回声消除处理的效果。
如图5所示,在一种实施方式中,所述装置还包括第三获取单元500;
所述第三获取单元500用于:获取第二声音信息,所述第二声音信息是来自所述第二终端的检测对象的声音信息,且所述第三声音信息是在播放所述第一声音信息以及所述检测对象发声时,通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
所述分析单元300还用于:对所述第二声音信息进行声音特征分析。
在一种实施方式中,所述分析单元300用于:对声音信息进行梅尔频率倒谱系数分析。
在一种实施方式中,所述确定单元400用于:
所述第三声音信息的声音特征包含的所述第一声音信息的声音特征低于阈值时,确定所述回声消除处理有效。
图6是本申请实施例提供的一种计算设备900的结构性示意性图。该计算设备900包括:处理器910、存储器920、通信接口930。
应理解,图6中所示的计算设备900中的通信接口930可以用于与其他设备之间进行通信。
其中,该处理器910可以与存储器920连接。该存储器920可以用于存储该程序代码和数据。因此,该存储器920可以是处理器910内部的存储单元,也可以是与处理器910独立的外部存储单元,还可以是包括处理器910内部的存储单元和与处理器910独立的外部存储单元的部件。
可选的,计算设备900还可以包括总线。其中,存储器920、通信接口930可以通过总线与处理器910连接。总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
应理解,在本申请实施例中,该处理器910可以采用中央处理单元(centralprocessing unit,CPU)。该处理器还可以是其它通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(Application specific integrated circuit,ASIC)、现成可编程门矩阵(field programmable gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器910采用一个或多个集成电路,用于执行相关程序,以实现本申请实施例所提供的技术方案。
该存储器920可以包括只读存储器和随机存取存储器,并向处理器910提供指令和数据。处理器910的一部分还可以包括非易失性随机存取存储器。例如,处理器910还可以存储设备类型的信息。
在计算设备900运行时,所述处理器910执行所述存储器920中的计算机执行指令执行上述方法的操作步骤。
应理解,根据本申请实施例的计算设备900可以对应于执行根据本申请各实施例的方法中的相应主体,并且计算设备900中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程,为了简洁,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时用于执行一种多样化问题生成方法,该方法包括上述各个实施例所描述的方案中的至少之一。
本申请实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是,但不限于,电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括、但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本申请的较佳实施例及所运用的技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明的构思的情况下,还可以包括更多其他等效实施例,均属于本发明的保护范畴。

Claims (10)

1.一种回声消除检测方法,其特征在于,包括:
获取第一声音信息,所述第一声音信息用于通过第一终端发送给第二终端播放;
获取第三声音信息,所述第三声音信息是通过所述第一终端接收的所述第二终端发送的声音信息,且所述第三声音信息是在播放所述第一声音信息时通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
对所述第一声音信息和所述第三声音信息进行声音特征分析;
根据所述声音特征分析的结果,确定所述回声消除处理的效果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第二声音信息,所述第二声音信息是来自所述第二终端的检测对象的声音信息,且所述第三声音信息是在播放所述第一声音信息以及所述检测对象发声时,通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
所述进行声音特征分析时,还包括对所述第二声音信息进行声音特征分析。
3.根据权利要求1或2所述的方法,其特征在于,所述声音特征分析包括对声音信息进行梅尔频率倒谱系数分析。
4.根据权利要求1或2所述的方法,其特征在于,所述根据所述声音特征分析的结果,确定所述回声消除处理的效果,包括:
所述第三声音信息的声音特征包含的所述第一声音信息的声音特征低于阈值时,确定所述回声消除处理有效。
5.一种回声消除检测装置,其特征在于,包括:
第一获取单元,用于获取第一声音信息,所述第一声音信息用于通过第一终端发送给第二终端播放;
第二获取单元,用于获取第三声音信息,所述第三声音信息是通过所述第一终端接收的所述第二终端发送的声音信息,且所述第三声音信息是在播放所述第一声音信息时通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
分析单元,用于对所述第一声音信息和所述第三声音信息进行声音特征分析;
确定单元,用于根据所述声音特征分析的结果,确定所述回声消除处理的效果。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括第三获取单元;
所述第三获取单元用于:获取第二声音信息,所述第二声音信息是来自所述第二终端的检测对象的声音信息,且所述第三声音信息是在播放所述第一声音信息以及所述检测对象发声时,通过所述第二终端的麦克风进行采集再经过回声消除处理后的声音信息;
所述分析单元还用于:对所述第二声音信息进行声音特征分析。
7.根据权利要求5或6所述的装置,其特征在于,所述分析单元用于:对声音信息进行梅尔频率倒谱系数分析。
8.根据权利要求5或6所述的装置,其特征在于,所述确定单元用于:
所述第三声音信息的声音特征包含的所述第一声音信息的声音特征低于阈值时,确定所述回声消除处理有效。
9.一种计算设备,其特征在于,包括:
通信接口;
至少一个处理器,其与所述通信接口连接;以及
至少一个存储器,其与所述处理器连接并存储有程序指令,所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行权利要求1-4任一所述的方法。
10.一种计算机可读存储介质,其上存储有程序指令,其特征在于,所述程序指令当被计算机执行时使得所述计算机执行权利要求1-4任一所述的方法。
CN202210771700.5A 2022-06-30 2022-06-30 回声消除检测方法及装置、计算设备和存储介质 Pending CN115132218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210771700.5A CN115132218A (zh) 2022-06-30 2022-06-30 回声消除检测方法及装置、计算设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210771700.5A CN115132218A (zh) 2022-06-30 2022-06-30 回声消除检测方法及装置、计算设备和存储介质

Publications (1)

Publication Number Publication Date
CN115132218A true CN115132218A (zh) 2022-09-30

Family

ID=83381312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210771700.5A Pending CN115132218A (zh) 2022-06-30 2022-06-30 回声消除检测方法及装置、计算设备和存储介质

Country Status (1)

Country Link
CN (1) CN115132218A (zh)

Similar Documents

Publication Publication Date Title
CA2527461C (en) Reverberation estimation and suppression system
US6266398B1 (en) Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
EP2643981B1 (en) A device comprising a plurality of audio sensors and a method of operating the same
EP2458586A1 (en) System and method for producing an audio signal
CN101313483A (zh) 回音消除的配置
CN110956976B (zh) 一种回声消除方法、装置、设备及可读存储介质
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
US11961504B2 (en) System and method for data augmentation of feature-based voice data
CN111883182B (zh) 人声检测方法、装置、设备及存储介质
CN112601045A (zh) 视频会议的发言控制方法、装置、设备及存储介质
CN111199751B (zh) 一种麦克风的屏蔽方法、装置和电子设备
US20170287495A1 (en) Distributed suppression or enhancement of audio features
CN110364175B (zh) 语音增强方法及系统、通话设备
CN113241085B (zh) 回声消除方法、装置、设备及可读存储介质
CN113271430B (zh) 网络视频会议中防干扰方法、系统、设备及存储介质
CN110556114B (zh) 基于注意力机制的通话人识别方法及装置
CN115132218A (zh) 回声消除检测方法及装置、计算设备和存储介质
GB2516208B (en) Noise reduction in voice communications
CN112133324A (zh) 通话状态检测方法、装置、计算机系统和介质
US10147417B2 (en) Electronic speech recognition name directory prognostication system by comparing a spoken name's packetized voice to stored phonemes
CN115706875A (zh) 对讲语音质量优化方法、装置、设备及存储介质
US11924368B2 (en) Data correction apparatus, data correction method, and program
KR100565428B1 (ko) 인간 청각 모델을 이용한 부가잡음 제거장치
CN113724692B (zh) 一种基于声纹特征的电话场景音频获取与抗干扰处理方法
Jankowski et al. Improved robust ASR for social robots in public spaces

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination