CN110971769B - 通话信号的处理方法、装置、电子设备及存储介质 - Google Patents
通话信号的处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN110971769B CN110971769B CN201911132014.8A CN201911132014A CN110971769B CN 110971769 B CN110971769 B CN 110971769B CN 201911132014 A CN201911132014 A CN 201911132014A CN 110971769 B CN110971769 B CN 110971769B
- Authority
- CN
- China
- Prior art keywords
- signal
- state
- call
- threshold
- coherence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title description 10
- 238000012545 processing Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 48
- 230000003044 adaptive effect Effects 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 23
- 230000007704 transition Effects 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 20
- 238000010276 construction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 10
- 238000012805 post-processing Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 208000003028 Stuttering Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000021615 conjugation Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M9/00—Arrangements for interconnection not involving centralised switching
- H04M9/08—Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了通话信号的处理方法、装置、电子设备及存储介质,涉及语音技术领域。具体实现方案为:根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态;获取所述通话状态对应的增益因子;采用所述通话状态对应的增益因子对所述通话信号进行处理。本申请采用上述技术方案,能够对通话状态进行准确检测,并对残余信号进行有效地处理,避免处理后的语音出现不连续、卡顿的现象,能够有效地提高通话信号的处理效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及语音技术领域,特别涉及一种通话信号的处理方法、装置、电子设备及存储介质。
背景技术
随着互联网的高速发展,基于IP的语音传输(voice over internet protocol;voip)已经成为人们必不可少的需求之一,例如各种远程的电话会议都采用相关技术。
现有的voip通信中,免提通信中存在的回声问题大大降低了通信双方的体验,这里回声是由扬声器和麦克风之间的耦合产生的。例如通信方A的声音被麦克风采集后经过网络传输给通信方B,并通过通信方B的扬声器播放出来,播放出来的声音又经过空气传输被通信方B的麦克风采集到,随后通信方B的麦克风采集到的声音又通过网络传回给通信方A,此时通信方A就会听到自己的回声。因此,有必要采取措施来消除回声以获得高质量的语音通信体验。现有的回声消除方法采用自适应滤波器来抑制线性部分的回声;并进一步对当前的通话状态进行检测,确定当前的通话状态,以基于通话状态进行有针对性地抑制残余回声。
但是,由于语音的非平稳性以及通话场景的多样性,现有技术的方案都很难对通话状态进行准确有效地检测,从而残余回声的处理不够准确,进而导致处理后的语音出现不连续、卡顿等现象。
发明内容
为了解决上述技术问题,本申请提供一种通话信号的处理方法、装置、电子设备及存储介质,能够对通话状态进行准确地检测,进而对残余信号进行有效地处理,避免处理后的语音出现不连续、卡顿的现象。
一方面,本申请提供一种通话信号的处理方法,包括:
根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态;
获取所述通话状态对应的增益因子;
采用所述通话状态对应的增益因子对所述通话信号进行处理。
进一步可选地,如上所述的方法中,根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态之前,所述方法还包括:
基于残余信号和自适应滤波器估计的线性回声信号构建所述统计量;所述残余信号为所述自适应滤波器对麦克风信号中的线性回声信号滤除后剩余的信号。
进一步可选地,如上所述的方法中,基于残余信号和自适应滤波器估计的线性回声信号构建所述统计量,包括:
采用所述残余信号的能量除以所述自适应滤波器估计的线性回声信号的能量,作为所述统计量。
进一步可选地,如上所述的方法中,根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态,包括:
当所述至少两个阈值包括第一阈值和第二阈值,且所述第一阈值大于所述第二阈值时,判断所述统计量是否大于所述第一阈值;若大于,确定所述当前的通话状态为双讲状态;
判断所述统计量是否小于所述第二阈值;若是,确定所述当前的通话状态为远端人说话状态;否则,若所述统计量小于或者等于所述第一阈值,且大于或者等于所述第二阈值,确定所述当前的通话状态为过渡状态。
进一步可选地,如上所述的方法中,获取所述通话状态对应的增益因子,包括:
若所述通话状态为远端说话人状态时,设置所述增益因子为0;
若所述通话状态为双讲状态时,取第一信号相干度和第二信号相干度中的最小值作为所述增益因子;其中所述第一信号相干度为扬声器信号和所述麦克风信号之间的相干性,所述第二信号相干度为所述残余信号与所述麦克风信号之间的相干性;
若所述通话状态为过渡状态时,取所述第一信号相干度和所述第二信号相干度中的最小值的平方作为所述增益因子。
进一步可选地,如上所述的方法中,采用所述通话状态对应的增益因子对所述通话信号进行处理,包括:
采用所述通话状态对应的增益因子乘以所述残余信号。
另一方面,本申请还提供了一种通话信号的处理装置,包括:
检测模块,用于根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态;
获取模块,用于获取所述通话状态对应的增益因子;
处理模块,用于采用所述通话状态对应的增益因子对所述通话信号进行处理。
再一方面,本申请还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上任一项所述的方法。
又一方面,本申请还提供一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上任一项所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态;获取通话状态对应的增益因子;并采用增益因子对通话信号进行处理,能够对通话状态进行准确检测,并对残余信号进行有效地处理,避免处理后的语音出现不连续、卡顿的现象,能够有效地提高通话信号的处理效率。
而且,本申请的技术方案,通过设置两个阈值的方法对过渡态采用不同的处理措施,能有效改善误检和漏检的发生。
进一步地,本申请的技术方案,还可以将通话状态分为远端说话人状态,双讲状态和过渡态,能更好地处理双讲时近端语音被剪切的问题,从而能够有效地提高处理后的通话信号的质量。
进一步地,本申请的技术方案,还可以针对不同的通话状态,设置不同的增益因子,进而基于不同的增益因子,进行不同的后处理,能够更加准确地对通话信号进行处理,可以有效地提高语音质量,避免处理后的语音出现不连续、卡顿的现象。
上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请第一实施例的示意图;
图2是根据本申请第二实施例的示意图;
图3是用来实现本申请实施例的通话信号的处理方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1为本申请的通话信号的处理方法实施例的流程图。如图1所述,本实施例的通话信号的处理方法,具体可以包括如下步骤:
S101、根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态;
S102、获取通话状态对应的增益因子;
S103、采用通话状态对应的增益因子对通话信号进行处理。
本实施例的通话信号的处理方法的执行主体为通话信号的处理装置,该通话信号的处理装置可以为一个电子实体,或者也可以为采用软件集成的应用。
另外,本实施例中通话涉及到的两端分别为近端和远端。本实施例的技术方案在使用时,具体可以将通话信号的处理装置设置在通话方的近端,用于对通话信号进行处理。
下面介绍本实施例中涉及到的通话信号,可以包括如下几种:
扬声器信号:指的是扬声器播放出来的信号,也可以称之为参考信号;
回声信号:指的是扬声器信号经过房间传输又被麦克风采集到的那部分信号;
麦克风信号:指的是麦克风采集到的信号,可以包括回声信号、背景噪声和近端说话人语音等。
残余信号:指的是消除麦克风信号中的线性回声信号后所剩余的信号,包括残余回声、背景噪声和近端说话人语音等。
例如,本实施例中的步骤S101根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态之前,还可以包括:基于残余信号和自适应滤波器估计的线性回声信号构建统计量;其中残余信号同上,即为自适应滤波器对麦克风信号中的线性回声信号滤除后剩余的信号。
例如,本实施例中可以采用残余信号的能量除以自适应滤波器估计的线性回声信号的能量,作为统计量,例如,可以采用如下公式来表示:
另外,可选地,实际应用中,还可以利用扬声器信号、麦克风信号、自适应滤波器估计的回声信号以及滤波之后的残余信号中的至少一个构建一个统计量,在此不再一一举例赘述。
由上述可知,本实施例的通话信号的处理方法的应用背景为采用自适应滤波器对线性回声信号进行消除,然而自适应滤波器只能抑制线性部分的回声信号,未被自适应滤波器消除的残余回声仍然会影响通信双方的通话质量。基于此,一个完整的回声消除处理除了需要自适应滤波器之外,还需要进行双讲检测处理和后处理。其中双讲检测处理是用于判断当前的通话状态:如可以包括只有远端人说话、只有近端人说话以及通信双方同时在说话(即双讲状态)。后处理基于双讲检测处理的不同的通话状态采取不同的处理措施来抑制残余回声。
其中,检测当前的通话状态,是一个需要在误检率和漏检率之间平衡的问题。例如,双讲检测有可能将只有远端人说话的状态检测为双讲状态(误检),此时对应地,后处理便不能有效抑制残余回声;另外,双讲检测也有可能将双讲状态检测为只有远端人说话的状态(漏检),此时对应地,后处理就会抑制近端说话人的语音,造成近端说话人的语音不连续。
例如,现有的一种双讲检测方法中,可以按照如下公式构建统计量:ξ=Cohxy;其中:x表示扬声器信号;y表示麦克风信号。该统计量表示扬声器信号和麦克风信号之间的相干性。
并根据经验,设置一个阈值T,当统计量大于(或小于)阈值T,就认定通话状态为双讲;当统计量小于(或大于)阈值T就认定为远端说话人状态(具体是大于关系还是小于关系需要根据构建的统计量来确定)。该方法存在的一个主要问题就是只有一个阈值,通话状态的检测非常依赖这个阈值,如果阈值设置不当,就很容易出现漏检或误检的情况,从而影响后处理模块的性能进而影响语音通信的质量。根据语音通话的特性,为了在通话过程中不出现回声,一般都会将阈值T的值设置得相对较高,这会将部分双讲状态检测为远端说话人状态,从而导致双讲状态时近端说话人语音被剪切,进而影响通话体验。
为了克服上述问题,本申请设置有至少两个阈值来检测当前的通话状态。
例如,以设置两个阈值第一阈值Thigh和第二阈值Tlow,且第一阈值Thigh大于第二阈值Tlow为例,此时步骤S101根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态,可以包括如下步骤:
(1)判断构建的统计量ξ是否大于第一阈值Thigh;若大于,执行步骤(2);若不是;执行步骤(3);
(2)确定当前的通话状态为双讲状态;结束;
(3)判断统计量ξ是否小于第二阈值Tlow;若是,执行步骤(4);否则,若统计量小于或者等于第一阈值Thigh,且大于或者等于第二阈值Tlow,执行步骤(5);
(4)确定当前的通话状态为远端人说话状态;结束;
本实施例的远端人说话状态即为单讲状态,此时近端无人说话,麦克风仅采集到远端的回声信号。
(5)确定当前的通话状态为过渡状态,结束。
实际应用中,若设置至少两个阈值,也可以设置不同的判断条件,以判断当前的通话状态是双讲状态、远端人说话状态或者过渡状态,实现原理类似,在此不再赘述。
对应地,本实施例中,针对于获取到的不同的通话状态,还需要进一步获取各通话状态对应的增益因子,例如,可以包括如下三种情况:
第一种情况:若通话状态为远端说话人状态时,设置增益因子为0;
第二种情况:若通话状态为双讲状态时,取第一信号相干度和第二信号相干度中的最小值作为增益因子;其中第一信号相干度为扬声器信号和麦克风信号之间的相干性,第二信号相干度为残余信号与麦克风信号之间的相干性;
例如,具体可以采用如下公式得到gain=min{Cohxy,Cohey},其中,Cohxy指的是扬声器信号和麦克风信号之间的相干性,Cohey指的是残余信号和麦克风信号之间的相干性。
第三种情况:若通话状态为过渡状态时,取第一信号相干度和第二信号相干度中的最小值的平方作为增益因子。
本实施例中,求a、b两个信号的相干度Cohab,可以按照如下公式计算:
Sab(t)=λSab(t-1)+(1-λ)a(t)*conj(b(t))
其中,conj表示取共轭;λ是平滑因子,取值范围0<λ<1。
最后,根据步骤S103采用增益因子对通话信号进行处理,具体地,可以采用增益因子乘以残余信号,便得到最终处理后得到的、消除回声信号后的信号。
本实施例的通话信号的处理方法,根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态;获取通话状态对应的增益因子;并采用增益因子对通话信号进行处理,能够对通话状态进行准确检测,并对残余信号进行有效地处理,避免处理后的语音出现不连续、卡顿的现象,能够有效地提高通话信号的处理效率。
而且,本实施例的技术方案,通过设置两个阈值的方法对过渡态采用不同的处理措施,能有效改善误检和漏检的发生。
进一步地,本实施例中,可以将通话状态分为远端说话人状态,双讲状态和过渡态,能更好地处理双讲时近端语音被剪切的问题,从而能够有效地提高处理后的通话信号的质量。
进一步地,本实施例中,还可以针对不同的通话状态,设置不同的增益因子,进而基于不同的增益因子,进行不同的后处理,能够更加准确地对通话信号进行处理,可以有效地提高语音质量,避免处理后的语音出现不连续、卡顿的现象。
图2为本申请的通话信号的处理装置实施例的结构图。如图2所示,本实施例的通话信号的处理装置200,具体可以包括:
检测模块201,用于根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态;
获取模块202,用于获取通话状态对应的增益因子;
处理模块203,用于采用通话状态对应的增益因子对通话信号进行处理。
进一步可选地,本实施例的通话信号的处理装置S200中,还包括:
构建模块204,用于基于残余信号和自适应滤波器估计的线性回声信号构建统计量;其中残余信号为自适应滤波器对麦克风信号中的线性回声信号滤除后剩余的信号。
进一步可选地,本实施例的通话信号的处理装置S200中,构建模块204具体用于:采用残余信号的能量除以自适应滤波器估计的线性回声信号的能量,作为统计量。
进一步可选地,本实施例的通话信号的处理装置S200中,检测模块201,具体用于:
当至少两个阈值包括第一阈值和第二阈值,且第一阈值大于第二阈值时,判断统计量是否大于第一阈值;若大于,确定当前的通话状态为双讲状态;
判断统计量是否小于第二阈值;若是,确定当前的通话状态为远端人说话状态;否则,若统计量小于或者等于第一阈值,且大于或者等于第二阈值,确定当前的通话状态为过渡状态。
进一步可选地,本实施例的通话信号的处理装置S200中,获取模块202,具体用于:
若通话状态为远端说话人状态时,设置增益因子为0;
若通话状态为双讲状态时,取第一信号相干度和第二信号相干度中的最小值作为增益因子;其中第一信号相干度为扬声器信号和麦克风信号之间的相干性,第二信号相干度为残余信号与麦克风信号之间的相干性;
若通话状态为过渡状态时,取第一信号相干度和第二信号相干度中的最小值的平方作为增益因子。
进一步可选地,本实施例的通话信号的处理装置S200中,处理模块203,具体用于:
采用通话状态对应的增益因子乘以残余信号。
本实施例的通话信号的处理装置200,通过采用上述模块实现通话信号的处理,与上述相关方法实施例的实现原理以及技术效果相同,详细可以参考上述相关实施例的记载,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图3所示,是根据本申请实施例的通话信号的处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图3所示,该电子设备包括:一个或多个处理器301、存储器302,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图3中以一个处理器301为例。
存储器302即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的通话信号的处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的通话信号的处理方法。
存储器302作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的通话信号的处理方法对应的程序指令/模块(例如,附图2所示的相关模块)。处理器301通过运行存储在存储器302中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的通话信号的处理方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储实现通话信号的处理方法的电子设备的使用所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至实现通话信号的处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现通话信号的处理方法的电子设备还可以包括:输入装置303和输出装置304。处理器301、存储器302、输入装置303和输出装置304可以通过总线或者其他方式连接,图3中以通过总线连接为例。
输入装置303可接收输入的数字或字符信息,以及产生与实现通话信号的处理方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置304可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态;获取通话状态对应的增益因子;并采用增益因子对通话信号进行处理,能够对通话状态进行准确检测,并对残余信号进行有效地处理,避免处理后的语音出现不连续、卡顿的现象,能够有效地提高通话信号的处理效率。
而且,根据本申请实施例的技术方案,通过设置两个阈值的方法对过渡态采用不同的处理措施,能有效改善误检和漏检的发生。
进一步地,根据本申请实施例的技术方案,还可以将通话状态分为远端说话人状态,双讲状态和过渡态,能更好地处理双讲时近端语音被剪切的问题,从而能够有效地提高处理后的通话信号的质量。
进一步地,根据本申请实施例的技术方案,还可以针对不同的通话状态,设置不同的增益因子,进而基于不同的增益因子,进行不同的后处理,能够更加准确地对通话信号进行处理,可以有效地提高语音质量,避免处理后的语音出现不连续、卡顿的现象。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (14)
1.一种通话信号的处理方法,其特征在于,包括:
根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态;
获取所述通话状态对应的增益因子;
采用所述通话状态对应的增益因子对所述通话信号进行处理以消除通话信号的回声;
其中,所述通话状态包括不同于双讲状态和远端人说话状态的过渡状态;
其中,当所述至少两个阈值包括第一阈值和第二阈值,且所述第一阈值大于所述第二阈值时,在所述统计量小于或者等于所述第一阈值,且大于或者等于所述第二阈值的情况下,确定所述当前的通话状态为过渡状态。
2.根据权利要求1所述的方法,其特征在于,根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态之前,所述方法还包括:
基于残余信号和自适应滤波器估计的线性回声信号构建所述统计量;所述残余信号为所述自适应滤波器对麦克风信号中的线性回声信号滤除后剩余的信号。
3.根据权利要求2所述的方法,其特征在于,基于残余信号和自适应滤波器估计的线性回声信号构建所述统计量,包括:
采用所述残余信号的能量除以所述自适应滤波器估计的线性回声信号的能量,作为所述统计量。
4.根据权利要求2所述的方法,其特征在于,根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态,包括:
判断所述统计量是否大于所述第一阈值;若大于,确定所述当前的通话状态为双讲状态;
判断所述统计量是否小于所述第二阈值;若是,确定所述当前的通话状态为远端人说话状态;否则,若所述统计量小于或者等于所述第一阈值,且大于或者等于所述第二阈值,确定所述当前的通话状态为过渡状态。
5.根据权利要求4所述的方法,其特征在于,获取所述通话状态对应的增益因子,包括:
若所述通话状态为远端说话人状态时,设置所述增益因子为0;
若所述通话状态为双讲状态时,取第一信号相干度和第二信号相干度中的最小值作为所述增益因子;其中所述第一信号相干度为扬声器信号和所述麦克风信号之间的相干性,所述第二信号相干度为所述残余信号与所述麦克风信号之间的相干性;
若所述通话状态为过渡状态时,取所述第一信号相干度和所述第二信号相干度中的最小值的平方作为所述增益因子。
6.根据权利要求2-5任一所述的方法,其特征在于,采用所述通话状态对应的增益因子对所述通话信号进行处理,包括:
采用所述通话状态对应的增益因子乘以所述残余信号。
7.一种通话信号的处理装置,其特征在于,包括:
检测模块,用于根据预设的至少两个阈值、基于通话信号构建的统计量,检测当前的通话状态;
获取模块,用于获取所述通话状态对应的增益因子;
处理模块,用于采用所述通话状态对应的增益因子对所述通话信号进行处理以消除通话信号的回声;
其中,所述通话状态包括不同于双讲状态和远端人说话状态的过渡状态;
其中,当所述至少两个阈值包括第一阈值和第二阈值,且所述第一阈值大于所述第二阈值时,在所述统计量小于或者等于所述第一阈值,且大于或者等于所述第二阈值的情况下,确定所述当前的通话状态为过渡状态。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
构建模块,用于基于残余信号和自适应滤波器估计的线性回声信号构建所述统计量;所述残余信号为所述自适应滤波器对麦克风信号中的线性回声信号滤除后剩余的信号。
9.根据权利要求8所述的装置,其特征在于,所述构建模块,具体用于:采用所述残余信号的能量除以所述自适应滤波器估计的线性回声信号的能量,作为所述统计量。
10.根据权利要求8所述的装置,其特征在于,所述检测模块,具体用于:
判断所述统计量是否大于所述第一阈值;若大于,确定所述当前的通话状态为双讲状态;
判断所述统计量是否小于所述第二阈值;若是,确定所述当前的通话状态为远端人说话状态;否则,若所述统计量小于或者等于所述第一阈值,且大于或者等于所述第二阈值,确定所述当前的通话状态为过渡状态。
11.根据权利要求10所述的装置,其特征在于,所述获取模块,具体用于:
若所述通话状态为远端说话人状态时,设置所述增益因子为0;
若所述通话状态为双讲状态时,取第一信号相干度和第二信号相干度中的最小值作为所述增益因子;其中所述第一信号相干度为扬声器信号和所述麦克风信号之间的相干性,所述第二信号相干度为所述残余信号与所述麦克风信号之间的相干性;
若所述通话状态为过渡状态时,取所述第一信号相干度和所述第二信号相干度中的最小值的平方作为所述增益因子。
12.根据权利要求8-11任一所述的装置,其特征在于,所述处理模块,具体用于:
采用所述通话状态对应的增益因子乘以所述残余信号。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911132014.8A CN110971769B (zh) | 2019-11-19 | 2019-11-19 | 通话信号的处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911132014.8A CN110971769B (zh) | 2019-11-19 | 2019-11-19 | 通话信号的处理方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110971769A CN110971769A (zh) | 2020-04-07 |
CN110971769B true CN110971769B (zh) | 2022-05-03 |
Family
ID=70030836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911132014.8A Active CN110971769B (zh) | 2019-11-19 | 2019-11-19 | 通话信号的处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110971769B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111556210B (zh) * | 2020-04-23 | 2021-10-22 | 深圳市未艾智能有限公司 | 通话语音处理方法与装置、终端设备和存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1917386A (zh) * | 2006-09-05 | 2007-02-21 | 华为技术有限公司 | 一种回波抵消中双讲状态的检测方法 |
CN102065190A (zh) * | 2010-12-31 | 2011-05-18 | 杭州华三通信技术有限公司 | 一种回声消除方法及其装置 |
JP2013187810A (ja) * | 2012-03-09 | 2013-09-19 | Panasonic Corp | 通話信号処理装置 |
CN105791611A (zh) * | 2016-02-22 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 回声消除方法及装置 |
CN106486135A (zh) * | 2015-08-27 | 2017-03-08 | 想象技术有限公司 | 近端语音检测器 |
CN106506872A (zh) * | 2016-11-02 | 2017-03-15 | 腾讯科技(深圳)有限公司 | 通话状态检测方法及装置 |
CN106686249A (zh) * | 2017-01-17 | 2017-05-17 | 维沃移动通信有限公司 | 一种语音通话方法及移动终端 |
CN108134863A (zh) * | 2017-12-26 | 2018-06-08 | 中山大学花都产业科技研究院 | 一种基于双统计量的改进型双端检测装置及检测方法 |
CN108353107A (zh) * | 2015-11-13 | 2018-07-31 | 伯斯有限公司 | 用于声学回声消除的双端通话检测 |
CN109215672A (zh) * | 2017-07-05 | 2019-01-15 | 上海谦问万答吧云计算科技有限公司 | 一种声音信息的处理方法、装置及设备 |
CN109862200A (zh) * | 2019-02-22 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 语音处理方法、装置、电子设备及存储介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7539614B2 (en) * | 2003-11-14 | 2009-05-26 | Nxp B.V. | System and method for audio signal processing using different gain factors for voiced and unvoiced phonemes |
CN1780166A (zh) * | 2004-11-17 | 2006-05-31 | 北京三星通信技术研究有限公司 | 渐次衰减的非线性处理装置和方法 |
CN100505530C (zh) * | 2005-06-24 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种音量控制方法和系统 |
US7555117B2 (en) * | 2005-07-12 | 2009-06-30 | Acoustic Technologies, Inc. | Path change detector for echo cancellation |
CN100589183C (zh) * | 2007-01-26 | 2010-02-10 | 北京中星微电子有限公司 | 数字自动增益控制方法及装置 |
JP4456622B2 (ja) * | 2007-07-25 | 2010-04-28 | 沖電気工業株式会社 | ダブルトーク検出器、ダブルトーク検出方法及びエコーキャンセラ |
JP5036874B2 (ja) * | 2008-09-24 | 2012-09-26 | 三菱電機株式会社 | エコー消去装置 |
US8406431B2 (en) * | 2009-07-23 | 2013-03-26 | Sling Media Pvt. Ltd. | Adaptive gain control for digital audio samples in a media stream |
CN106409309A (zh) * | 2016-10-21 | 2017-02-15 | 深圳市音络科技有限公司 | 一种音质增强的方法和麦克风 |
CN107863099B (zh) * | 2017-10-10 | 2021-03-26 | 成都启英泰伦科技有限公司 | 一种新型双麦克风语音检测和增强方法 |
-
2019
- 2019-11-19 CN CN201911132014.8A patent/CN110971769B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1917386A (zh) * | 2006-09-05 | 2007-02-21 | 华为技术有限公司 | 一种回波抵消中双讲状态的检测方法 |
CN102065190A (zh) * | 2010-12-31 | 2011-05-18 | 杭州华三通信技术有限公司 | 一种回声消除方法及其装置 |
JP2013187810A (ja) * | 2012-03-09 | 2013-09-19 | Panasonic Corp | 通話信号処理装置 |
CN106486135A (zh) * | 2015-08-27 | 2017-03-08 | 想象技术有限公司 | 近端语音检测器 |
CN108353107A (zh) * | 2015-11-13 | 2018-07-31 | 伯斯有限公司 | 用于声学回声消除的双端通话检测 |
CN105791611A (zh) * | 2016-02-22 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 回声消除方法及装置 |
CN106506872A (zh) * | 2016-11-02 | 2017-03-15 | 腾讯科技(深圳)有限公司 | 通话状态检测方法及装置 |
CN106686249A (zh) * | 2017-01-17 | 2017-05-17 | 维沃移动通信有限公司 | 一种语音通话方法及移动终端 |
CN109215672A (zh) * | 2017-07-05 | 2019-01-15 | 上海谦问万答吧云计算科技有限公司 | 一种声音信息的处理方法、装置及设备 |
CN108134863A (zh) * | 2017-12-26 | 2018-06-08 | 中山大学花都产业科技研究院 | 一种基于双统计量的改进型双端检测装置及检测方法 |
CN109862200A (zh) * | 2019-02-22 | 2019-06-07 | 北京达佳互联信息技术有限公司 | 语音处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110971769A (zh) | 2020-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102227905B (zh) | 用于恶劣声学环境中的双方通话检测的系统及方法 | |
WO2021056999A1 (zh) | 语音通话方法、装置、电子设备及计算机可读存储介质 | |
CN105513596B (zh) | 一种语音控制方法和控制设备 | |
CN105308942B (zh) | 回波消除 | |
CN106713570B (zh) | 一种回声消除方法和装置 | |
US9344579B2 (en) | Variable step size echo cancellation with accounting for instantaneous interference | |
US20170103774A1 (en) | Audio Signal Processing | |
CN104902116B (zh) | 一种音频数据与参考信号的时间对齐方法及装置 | |
US10771621B2 (en) | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications | |
CN108134863B (zh) | 一种基于双统计量的改进型双端检测装置及检测方法 | |
CN103141076B (zh) | 回波控制优化 | |
CN110995951B (zh) | 基于双端发声检测的回声消除方法、装置及系统 | |
US11804235B2 (en) | Double-talk state detection method and device, and electronic device | |
EP2700161A2 (en) | Processing audio signals | |
CN106571147A (zh) | 用于网络话机声学回声抑制的方法 | |
CN103997561A (zh) | 通讯装置及其语音处理方法 | |
CN112491449B (zh) | 声回波消除方法、装置、电子设备和存储介质 | |
CN110971769B (zh) | 通话信号的处理方法、装置、电子设备及存储介质 | |
CN107786755B (zh) | 一种双端通话检测方法和装置 | |
TR201815047T4 (tr) | Bir uzak uç konuşmacı sinyali ve bir birleşik sinyal arasındaki akustik bir bağlamanın belirlenmesi. | |
CN111989934A (zh) | 回声消除装置、回声消除方法、信号处理芯片及电子设备 | |
US9858944B1 (en) | Apparatus and method for linear and nonlinear acoustic echo control using additional microphones collocated with a loudspeaker | |
JP2015039093A (ja) | エコーキャンセラおよびエコーキャンセル方法 | |
JP2009021859A (ja) | 通話状態判定装置および該通話状態判定装置を備えたエコーキャンセラ | |
KR102266780B1 (ko) | 음성 통신 환경에서 발생하는 클리핑 현상 완화 및 마이크 입력 신호, 에러 신호 및 원단 신호의 상관관계를 이용한 음성 왜곡 감소 업데이트 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |