CN114650238A - 用于检测通话状态的方法、装置、设备及可读存储介质 - Google Patents
用于检测通话状态的方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN114650238A CN114650238A CN202210203528.3A CN202210203528A CN114650238A CN 114650238 A CN114650238 A CN 114650238A CN 202210203528 A CN202210203528 A CN 202210203528A CN 114650238 A CN114650238 A CN 114650238A
- Authority
- CN
- China
- Prior art keywords
- call state
- call
- signal
- threshold
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000001514 detection method Methods 0.000 claims abstract description 71
- 230000006870 function Effects 0.000 claims description 51
- 230000004044 response Effects 0.000 claims description 44
- 238000004891 communication Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000009977 dual effect Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 229910002056 binary alloy Inorganic materials 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/16—Threshold monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N17/00—Diagnosis, testing or measuring for television systems or their details
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Quality & Reliability (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Environmental & Geological Engineering (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
本发明提供了一种用于检测通话状态的方法、装置、设备及可读存储介质,该方法包括:利用基于逻辑门的第一检测器检测通话期间的第一通话状态;利用基于信号包络的第二检测器检测所述通话期间的第二通话状态;以及根据所述第一通话状态和所述第二通话状态,确定所述通话期间的实际通话状态。通过利用本发明的方案可以实现对通话状态中双讲状态的检测,进而可以降低通话状态中双讲状态的漏检率,并且本方案计算简单,可以提高用于检测通话状态的计算速度。
Description
技术领域
本发明一般地涉及双讲检测领域。更具体地,本发明涉及一种用于检测通话状态的方法、装置、设备和计算机可读存储介质。
背景技术
回声的出现是视频会议系统面临的主要问题之一,通常可以利用声学回声消除系统来消除视频会议系统中的回声。具体地,如图1所示,为带有双讲检测器的声学回声消除系统,该系统主要包括自适应滤波器101、双讲检测器102、扬声器103以及麦克风104。在双通话状态下,自适应滤波器101会接收到远端信号x(n)和近端信号s(n),进而会导致自适应滤波器发散。双讲检测器102的任务是识别这种双通话状态,并可以用于保持双讲通话期间的自适应滤波器101的系数不更新,以防止自适应滤波器101使用误差信号e(n)进行自适应和发散,从而可以实现回声的消除。
目前常见的双讲检测器检测双讲通话的方法通常是基于远端信号、近端信号、回声信号、期望信号等中的两个信号之间的相关性来确定是否是双讲通话。然而,当存在例如噪声或其他干扰信号时,仅基于两个信号之间的相关性来判断是否为双讲通话存在较高的漏检率。鉴于此,亟需一种能够用于检测双讲通话并且能够降低漏检率的技术方案。
发明内容
为了至少解决上述背景技术中的一个或多个技术问题,本发明提出了一种用于检测通话状态的方法、装置、设备和计算机可读存储介质。通过本发明的方案,可以有效的解决回声消除中双讲状态漏检率较高的问题,进而可以提高通话状态检测速度。为此,本发明在如下的多个方面中提供解决方案。
在第一方面中,本发明公开了一种用于检测通话状态的方法,所述方法包括:利用基于逻辑门的第一检测器检测通话期间的第一通话状态;利用基于信号包络的第二检测器检测所述通话期间的第二通话状态;以及根据所述第一通话状态和所述第二通话状态,确定所述通话期间的实际通话状态。
在一个实施例中,利用基于逻辑门的第一检测器检测第一通话状态包括利用远端语音检测器对来自通话两端中的远端语音信号进行处理,以获得第一门值信号;利用近端语音检测器对来自通话两端中的近端语音信号进行处理,以获得第二门值信号;以及根据所述第一门值信号和所述第二门值信号,确定所述第一检测器的第一通话状态。
在又一个实施例中,利用远端语音检测器对远端语音信号进行处理,以获得第一门值信号包括:基于所述远端语音信号的能量值与第一预设值的比较结果,确定所述第一门值信号;利用近端语音检测器对近端语音信号进行处理,以获得第二门值信号包括:基于所述近端语音信号的能量值与第二预设值的比较结果,确定所述第二门值信号;其中所述第二预设值大于所述第一预设值。
在另一个实施例中,根据所述第一门值信号和所述第二门值信号,确定所述第一检测器的第一通话状态包括:响应于所述第一门值信号和所述第二门值信号均为1,确定所述第一通话状态为双讲状态;响应于所述第一门值信号和所述第二门值信号中的至少一个为0,确定所述第一通话状态为单讲状态。
在又一个实施例中,利用基于信号包络的第二检测器检测通话期间的第二通话状态包括:根据当前通话状态下的近端信号包络和远端信号包络之间的比值关系,确定所述近端信号包络和所述远端信号包络的检测函数值;根据当前通话状态下的远端信号包络和回声信号包络,确定当前通话状态对应的动态阈值;以及根据所述检测函数值和所述动态阈值,确定所述第二通话状态。
在另一个实施例中,根据所述检测函数值和所述动态阈值确定第二通话状态包括:设置动态阈值范围,其中所述动态阈值范围包括上限阈值和下限阈值;响应于所述动态阈值在所述动态阈值范围内,比较所述检测函数值和所述动态阈值,以确定所述第二通话状态;响应于所述动态阈值大于所述上限阈值,比较所述检测函数值和所述上限阈值,以确定所述第二通话状态;响应于所述动态阈值小于所述下限阈值,比较所述检测函数值和所述下限阈值,以确定所述第二通话状态。
在又一个实施例中,根据所述第一通话状态和所述第二通话状态确定实际通话状态包括:响应于所述第一通话状态和所述第二通话状态均为双讲状态,确定所述实际通话状态为双讲状态;或者响应于所述第一通话状态和所述第二通话状态中的至少一个为单讲状态,确定所述实际通话状态为单讲状态。
在第二方面中,本发明公开了一种用于检测通话状态的装置,包括:逻辑门检测模块,其包括基于逻辑门的第一检测器,并配置用于利用所述第一检测器检测通话期间的第一通话状态;信号包络检测模块,其包括基于信号包络的第二检测器,并配置用于利用所述第二检测器检测通话期间的第二通话状态;以及确定模块,其配置用于根据所述第一通话状态和所述第二通话状态,确定所述通话期间的实际通话状态。
在第三方面中,本发明公开了一种用于检测通话状态的设备,包括:处理器;存储器,其存储有用于检测通话状态的程序指令,当所述程序指令由所述处理器执行时,实现上述的方法步骤。
在第四方面中,本发明公开了一种计算机可读存储介质,其存储有用于检测通话状态的程序指令,当所述程序指令由处理器执行时,实现上述的方法步骤。
通过利用本发明上述及其多个实施例中所描述的方法,可以通过利用基于逻辑门的第一检测器和基于信号包络的第二检测器来分别检测通话期间的通话状态,并且可以结合第一检测器和第二检测器所检测出的通话状态来确定通话期间的实际通话状态,进而可以有效解决双讲检测器中的漏检率较高的问题,并且根据本发明实施例的方法还具有运算逻辑和运算步骤简单的特点,有利于提高检测速度和检测准确性。在一些实施例中,通过设置动态阈值的上下限,可以有效避免对于仅包含噪声的信号的检测错误。通过利用本发明实施例的方法及其相关产品可以准确地检测出通话期间的通话状态,进而可以提高回声消除器中回声消除的质量。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分其中:
图1是示出现有技术中回声消除系统的结构示意图;
图2是示出根据本发明实施例的用于检测通话状态的方法流程图;
图3是示出根据本发明另一个实施例的用于检测通话状态的方法流程图;
图4是示出根据本发明实施例的确定第一通话状态的方法流程图;
图5是示出根据本发明又一个实施例的用于检测通话状态的方法流程图;
图6是示出根据本发明实施例的确定第二通话状态的方法流程图;
图7是示出根据本发明实施例的确定实际通话状态的方法流程图;以及
图8是示出根据本发明实施例的用于检测通话状态设备的系统示意框图。
具体实施方式
现在将参考附图描述实施例。应当理解,为了说明的简单和清楚,在认为合适的情况下,可以在附图中重复附图标记以指示对应或类似的元件。另外,本发明阐述了许多具体细节以便提供对本文所述实施例的透彻理解。然而,本领域普通技术人员将理解,可以在没有这些具体细节的情况下实践本文描述的实施例。在其他情况下,没有详细描述公知的方法、过程和组件,以免模糊本文描述的实施例。另外,该描述不应被视为限制本文描述的实施例的范围。
下面将结合附图对本发明的方案进行详细的描述。
图2是示出根据本发明实施例的用于检测通话状态的方法流程图。如图2中所示,方法200可以包括:在步骤S202处,可以利用基于逻辑门的第一检测器检测通话期间的第一通话状态。可以理解,逻辑门可以用于接收电平信号,其中电平信号可以包括高电平和低电平,并且可以对输入的电平信号进行逻辑运算。在一个实施例中,逻辑门可以对输入的电平信号进行逻辑与运算、逻辑或运算和/或逻辑非运算。在本发明的实施例中,逻辑门可以对输入的电平信号进行逻辑与运算。可以理解,逻辑与运算是逻辑门中的一种逻辑运算,并且在有多个输入端,一个输出端的情况下,当所有的输入端的输入同时为高电平时,输出端的输出才为高电平,否则输出为低电平。
在一个实施例中,基于逻辑门的第一检测器可以包括远端语音检测器和近端语音检测器,其中远端语音检测器用于采集通话期间的远端语音信号,近端语音检测器可以用于采集近端语音信号。在一些应用场景中,可以通过远端语音检测器将远端语音信号转换为高电平或低电平,通过近端语音检测器将近端语音信号转换为高电平或低电平。在一个实施例中,可以通过门值信号来表示高电平或低电平,其中门值信号可以包括逻辑上的“真”与“假”信号和二进制中的1和0信号。在一个实施例中,可以利用门值信号中的1或“真”表示高电平,以及可以利用门值信号中的0或“假”表示低电平。在一个实施例中,逻辑门可以对转换为高电平或低电平的远端语音信号和近端语音信号进行逻辑与运算,进而可以实现对通话期间第一通话状态的检测。在一个实施例中,基于逻辑门的第一检测器可以由包括逻辑门的检测电路构成。
在另一个实施例中,基于逻辑门的第一检测器检测到的通话期间的第一通话状态可以是双讲状态。可以理解,双讲状态是指在通话双方或多方在利用通信设备进行通话的过程中,存在至少两个通讯设备中的麦克风同时接收到语音信号的通话状态。在另一个实施例中,基于逻辑门的第一检测器检测到的通话期间的第一通话状态可以是单讲状态。与双讲状态相对应的,单讲状态是指在通话双方或多方在利用通信设备进行通话的过程中,至多一个通讯设备中的麦克风接收语音信号的通话状态。
接着,在步骤S204处,可以利用基于信号包络的第二检测器检测通话期间的第二通话状态。可以理解,信号包络是指由频率信号的峰值点连线所形成的上下两条线。作为举例,对于等幅频率信号,其信号包络可以是两条平行线。在一个实施例中,信号包络可以包括近端信号包络和远端信号包络。
需要理解的是,图2所示的对第一通话状态和第二通话状态进行检测的步骤只是本发明的一个具体实施例,本发明并未限制步骤S202与步骤S204的执行顺序。在一个实施例中,步骤S202可以在步骤S204之前执行。在另一个实施例中,步骤S202可以在步骤S204之后执行。在又一个实施例中,步骤S202可以与步骤S204同时执行。
在一些实施例中,第二通话状态可以为双讲状态或者单讲状态。在另一些实施例中,第一检测器与第二检测器检测的通话期间为同一通话期间,即第一检测器和第二检测器可以对同一段通话进行状态检测。在一些应用场景中,检测得到的第一通话状态与第二通话状态可能相同或不同。
在执行完上述步骤S202和步骤S204之后,流程可以前进到步骤S206。在步骤S206处,可以根据第一通话状态和第二通话状态,确定通话期间的实际通话状态。在一个实施例中,根据第一通话状态和第二通话状态确定实际通话状态可以包括:响应于第一通话状态和第二通话状态均为双讲状态,确定实际通话状态为双讲状态;响应于第一通话状态和第二通话状态中的至少一个为单讲状态,确定实际通话状态为单讲状态。
图3是示出根据本发明另一个实施例的用于检测通话状态的方法流程图。通过下面的描述可知,图3中所示的方法300可以是前文中结合图2所描述的方法200的一个具体化表现形式,因此前文中关于方法200的描述也可以适用于下面对方法300的描述中。
如图3所示,方法300可以包括:在步骤S310处,可以利用基于逻辑门的第一检测器检测通话期间的第一通话状态。在一个实施例中,步骤S310可以包括:在步骤S311(虚线框示出)中,可以利用远端语音检测器对来自通话两端中的远端语音信号进行处理,以获得第一门值信号。在一些实施例中,通话两端可以包括近端和远端,其中远端可以是距离第一检测器距离较远的通话端,并且来自远端的语音信号可以称为远端语音信号。在一个实施例中,第一门值信号可以通过二进制中的1或0来进行表示。在又一个实施例中,可以基于远端语音信号的能量值与第一预设值的比较结果,确定第一门值信号。在一个实施例中,远端语音信号的能量值可以根据远端语音检测器采集的远端语音信号来获得,其中远端语音信号的能量值可以通过如下公式进行表示:
其中,Ex表示远端语音信号的能量值;x(n)表示远端语音信号;n表示时间变化量;k表示滤波器的长度。作为举例,k可以取512。在一个实施例中,基于远端语音信号的能量值与第一预设值的比较结果确定第一门值信号可以包括:响应于远端语音信号的能量值大于第一预设值,可以确定第一门值信号为二进制中的1;响应于远端语音信号的能量值小于第一预设值,可以确定第一门值信号为二进制中的0。
在另一些实施例中,响应于远端语音信号的能量值大于第一预设值,可以将远端语音信号转换为高电平,并且可以通过二进制中1来表示高电平,可以确定第一门值信号为1。在另一个实施例中,响应于远端语音信号的能量值小于第一预设值,可以将远端语音信号转换为低电平,并且可以通过二进制中0来表示低电平,可以确定第一门值为0。作为举例,第一预设值可以取0.0001。
接着,在步骤S312(虚线框示出)中,可以利用近端语音检测器对来自通话两端中的近端语音信号进行处理,以获得第二门值信号。在一些实施例中,通话两端中的近端可以是距离第一检测器距离较近的通话端,并且来自通话两端中近端的语音信号可以称为近端语音信号。在另一个实施例中,第二门值信号可以通过二进制中的1或0来进行表示。在一个实施例中,可以基于近端语音信号的能量值与第二预设值的比较结果,确定第二门值信号。在一个实施例中,近端语音信号的能量值可以根据近端语音检测器采集的近端语音信号获得。在一个实施例中,近端语音信号的能量值可以通过如下公式进行表示:
其中,Ed表示近端语音信号的能量值;d(n)表示近端语音信号;n表示时间变化量;k表示滤波器的长度。作为举例,k可以取512。在一个实施例中,近端语音信号的能量值与第二预设值的比较结果可以包括:响应于近端语音信号的能量值大于第二预设值,可以确定第一门值信号为二进制中的1;响应于近端语音信号的能量值小于第二预设值,可以确定第一门值信号为二进制中的0。在一个实施例中,响应于近端语音信号的能量值大于第二预设值,可以将近端语音信号转换为高电平,并且可以通过二进制中1来表示高电平,可以确定第二门值信号为1。在另一个实施例中,响应于近端语音信号的能量值小于第二预设值,可以将近端语音信号转换为低电平,并且可以通过二进制中0来表示低电平,可以确定第二门值信号为0。
在一些实施例中,第二预设值可以大于第一预设值。需要理解的是,近端语音信号的能量值通常大于远端语音信号的能量值,因此,通过设置第二预设值大于第一预设值可以降低对近端语音信号的能量值与第二预设值比较结果的误判,进而可以使得近端语音信号的能量值的检测更为准确。作为举例,第二预设值可以取0.005。
在执行完上述步骤S312后,流程可以前进到步骤S313(虚线框示出)。在步骤S313处,可以根据第一门值信号和第二门值信号,确定第一检测器的第一通话状态。在一个实施例中,可以将第一门值信号和第二门值信号输入逻辑门,并且可以利用逻辑门对输入的第一门值信号和第二门值信号进行逻辑与运算,进而可以确定第一检测器的第一通话状态。在另一个实施例中,步骤S313可以包括:响应于第一门值信号和第二门值信号均为1,确定第一通话状态为双讲状态;响应于第一门值信号和第二门值信号二者中的至少一个为0,确定第一通话状态为单讲状态。
进一步地,在一些实施例中,真值表可以表征在逻辑门中逻辑事件输入和输出之间的全部可能状态,进而可以通过真值表来表征第一门值信号和第二门值信号通过逻辑运算确定第一通话状态的全部运算结果。例如下表一中所示,第一门值信号和第二门值信号可以作为输入信号,第一通话状态可以作为输出结果。具体地,作为输入信号的第一门值信号和第二门值信号可以为1或0,并且当第一门值信号和第二门值信号均为1时,输出结果为1,即第一通话状态为双讲状态;当第一门值信号和第二门值信号中的至少一个为0时,输出结果为0,即第二通话状态为单讲状态。
表一:
第一门值信号 | 第二门值信号 | 第一通话状态 |
0 | 0 | 0 |
0 | 1 | 0 |
1 | 0 | 0 |
1 | 1 | 1 |
如图3中进一步示出的,在步骤S320处,可以利用基于信号包络的第二检测器检测通话期间的第二通话状态。接着,在步骤S330处,可以根据第一通话状态和第二通话状态,确定通话期间的实际通话状态。步骤S320和步骤S330可以与前文中结合图2描述的步骤S204和步骤S206相同或相似,此处不再赘述。
为了便于理解图3中所示的检测第一通话状态的方法,下文将结合图4进一步地描述。图4是示出根据本发明实施例的确定第一通话状态的方法流程图。
如图4所示,方法400可以包括:在步骤S402处,可以接收远端语音检测器输出的门值信号(即第一门值信号);在步骤S404处,可以接收近端语音检测器输出的门值信号(即第二门值信号)。接着,在步骤S406处,可以对第一门值信号和第二门值信号进行逻辑与运算。然后,流程可以前进到步骤S408处,并且可以进行判断逻辑与运算的输出结果是否为1,若输出结果为1,则可以确定第一通话状态为双讲状态;若输出结果不为1,则可以确定第一通话状态为单讲状态。
图5是示出根据本发明又一个实施例的用于检测通话状态的方法流程图。通过下面的描述可知,图5中所示的方法500可以是前文中结合图2所描述的方法200的一个具体化表现形式,因此前文中关于方法200的描述也可以适用于下面对方法500的描述中。
如图5中所示,方法500可以包括:在步骤S510处,可以利用基于逻辑门的第一检测器检测通话期间的第一通话状态。接着,在步骤S520处,可以基于信号包络的第二检测器检测通话期间的第二通话状态。在一些实施例中,步骤S520可以包括:在步骤S521(虚线框示出)中,可以根据当前通话状态下的近端信号包络和远端信号包络之间的比值关系,确定近端信号包络和远端信号包络的检测函数值。可以理解,远端信号包络是指远端语音信号峰值点连线所形成的上下两条线。类似地,近端信号包络是指近端语音信号峰值点连线所形成的上下两条线。在一个实施例中,远端信号包络可以与远端语音信号的绝对值相关,其公式可以如下所示:
vx=αvx(n-1)+(1-α)x(n)(公式三)
其中,vx表示远端信号包络;x(n)表示远端语音信号;n表示时间变化量;α是一个遗忘因子,它表示基于信号包络的第二检测器对远端语音信号振幅快速变化的反应速度,并且为了准确估计远端语音信号能量,α的值应略小于1。作为举例,本发明实施例中的α可以取0.98。类似地,近端信号包络也可以与近端语音信号的绝对值相关,其计算公式可以如下所示:
vs(n)=αvs(n-1)+(1-α)|s(n)| (公式四)
其中,vs表示近端信号包络;s(n)表示近端语音信号;n表示时间变化量;α为遗忘因子,可以取0.98。在一些实施例中,比值关系可以包括近端信号包络和远端信号包络之间的直接比值。在另一些实施例中,比值关系可以包括近端信号包络和远端信号包络之间的间接比值。例如,在一个实施例中,检测函数值可以通过如下所示的公式进行表示:
其中,ξ(n)表示根据近端信号包络和远端信号包络之间的比值关系确定的检测函数值;vx(n)表示远端信号包络;vs(n)表示近端信号包络;γ表示限制参数。在一些实施例中,当近端信号包络和远端信号包络均较低时,限制参数可以用于在仅包含噪声的信号部分限制检测函数值。在另一些实施例中,γ可以是一个很小的数。作为举例,本发明实施例中γ可以取0.05。在另一些实施例中,在不考虑噪声影响的情况下,也可以根据需要不设置γ,从而可以根据近端信号包络和远端信号包络之间的直接比值确定检测函数值。
需要理解的是,与远端语音信号的能量相比,回声信号的能量通常较低,而近端语音信号的能量显著高于回声信号的能量。根据上述公式五可知,在一个实施例中,当通话期间的双讲状态发生时,近端语音信号存在,则检测函数值ξ(n)将显著增加。在另一个实施例中,当通话期间的双讲状态结束时,近端语音信号不存在,则检测函数值ξ(n)将显著降低。因此,可以通过检测函数值的大小确定近端语音信号是否存在,进而可以检测通话期间的通话状态。
进一步,在步骤S522(虚线框示出)处,可以根据当前通话状态下的远端信号包络和回声信号包络,确定当前通话状态对应的动态阈值。在一些实施例中,回声信号包络可以由回声信号的绝对值表示,回声信号包络的计算方式可以为:
vy(n)=αvy(n-1)+(1-α)|y(n)|(公式六)
其中,vy表示回声信号包络;y(n)表示回声信号;n表示时间变化量;α为遗忘因子,可以取0.98。在一个实施例中,根据当前通话状态下的远端信号包络和回声信号包络确定的动态阈值可以通过如下所示的公式进行表示:
其中,T(n)表示动态阈值;vy(n)表示回声信号包络;n表示时间变化量;β表示余量参数,用于为检测误差留一些余量。在一些实施例中,β可以是一个小的正值。需要理解的是,在计算动态阈值时使用回声信号包络可以更精确的检测出双讲状态。
接着,在步骤S523(虚线框示出)处,可以根据检测函数值和动态阈值,确定第二通话状态。在一些实施例中,步骤S523可以包括:响应于检测函数值大于动态阈值,确定第二通话状态为双讲状态;响应于检测函数值小于或等于动态阈值,确定第二通话状态为单讲状态。
在一个实施例中,步骤S523可以包括:设置动态阈值范围,其中动态阈值范围可以包括上限阈值和下限阈值;响应于动态阈值在动态阈值范围内,比较检测函数值和动态阈值,以确定第二通话状态;响应于动态阈值大于上限阈值,比较检测函数值和上限阈值,以确定第二通话状态;响应于动态阈值小于下限阈值,比较检测函数值和下限阈值,以确定第二通话状态。根据这样的设置,有利于避免噪声信号对检测结果的影响,从而有利于保证检测结果的准确性。
具体地,在另一个实施例中,可以根据设置的动态阈值范围确定用于与检测函数值进行比较的阈值T,并且可以通过如下所示的公式进行表示:
其中,Tmin表示动态阈值的下限阈值;Tmax表示动态阈值的上限阈值;T表示用于与检测函数值ξ(n)进行比较的阈值;T(n)表示动态阈值。在一个实施例中,响应于动态阈值T(n)在动态阈值范围(Tmin和Tmax之间)内,则确定与检测函数值进行比较的阈值T为动态阈值T(n),进而确定第二通话状态可以包括:响应于检测函数值大于动态阈值,则确定第二通话状态处于双讲状态;响应于检测函数值小于或等于动态阈值,则确定第二通话状态处于单讲状态。
在另一个实施例中,响应于动态阈值大于上限阈值,则确定与检测函数值进行比较的阈值T为上限阈值,进而确定第二通话状态可以包括:响应于检测函数值大于上限阈值,则确定第二通话状态处于双讲状态;响应于检测函数值小于或等于上限阈值,则确定第二通话状态处于单讲状态。在又一个实施例中,响应于动态阈值小于下限阈值,则确定与检测函数值进行比较的阈值T为下限阈值,进而确定第二通话状态可以包括:响应于检测函数值大于下限阈值,则确定第二通话状态处于双讲状态;响应于检测函数值小于或等于下限阈值,则确定第二通话状态处于单讲状态。
如图5中进一步示出的,在步骤S530处,可以根据第一通话状态和第二通话状态,确定通话期间的实际通话状态。步骤S530已经在前文中结合图2描述的步骤S206进行了详细的描述,此处不再赘述。为了便于理解本发明实施例的确定第二通话状态的方法,下文将结合图6进行示例性的描述。
图6是示出根据本发明实施例的确定第二通话状态的方法流程图。如图6中所示,方法600可以包括:在步骤S602处,可以根据通话期间的语音信号来确定检测函数值ξ(n),其中通话期间的语音信号可以包括近端语音信号、远端语音信号和回声信号。在一个实施例中,可以通过对近端语音信号和远端语音信号进行处理,获得远端信号包络和近端信号包络,进而可以根据远端信号包络和近端信号包络来确定检测函数值ξ(n)。
接着,在步骤S604处,可以根据通话期间的语音信号来确定阈值T。在一个实施例中,可以对通话期间的语音信号中的远端语音信号和回声信号进行处理,获得远端信号包络和回声信号包络,进而可以确定动态阈值T(n)。进一步地,可以采用例如图5中所描述的设置动态阈值范围的方法,根据动态阈值T(n)来确定用于与检测函数值进行比较的阈值T。需要理解的是,步骤S604中通话期间的语音信号与步骤S602中的通话期间的语音信号表示的是同一时间段且同一段通话的语音信号,进而可以使得检测函数值与阈值T进行比较时使用同一时间段且同一段通话的语音信号,保证了比较结果的准确性。
然后,流程可以前进到步骤S606中,可以判断检测函数值ξ(n)是否大于阈值T,若检测函数值大于阈值T,则可以确定第二通话状态为双讲状态;若检测函数值小于或等于阈值T,则可以确定第二通话状态为单讲状态。
结合前文对图1-图6的详细描述可知,本发明实施例的方法可以由基于逻辑门的第一检测器确定的第一通话状态和基于信号包络的第二检测器确定的第二通话状态,来共同确定通话期间双讲检测的实际通话状态。具体地,在一个实施例中,基于逻辑门的第一检测器确定的第一通话状态和基于信号包络的第二检测器确定的第二通话状态均是双讲状态,那么该通话期间的实际通话状态是双讲状态。在另一个实施例中,基于逻辑门的第一检测器确定的第一通话状态和基于信号包络的第二检测器确定的第二通话状态中的至少一个为单讲状态,那么该通话期间的实际通话状态是单讲状态。通过利用这种用于检测通话状态的联合方法,可以降低检测器的漏检率,并且可以使得用于检测通话状态的计算复杂度更低。为了便于理解,下文将结合图7对采用联合方法进行通话状态检测的具体过程进行示例性的描述。
图7是示出根据本发明实施例的确定实际通话状态的方法流程图。如图7中所示,方法700可以包括:在步骤S702处,可以基于逻辑门的第一检测器接收通话期间的语音信号,并且可以对该语音信号进行检测,以便可以获取门值信号。在一个实施例中,通话期间的语音信号可以包括远端语音信号、近端语音信号和回声信号,门值信号可以包括第一门值信号和第二门值信号。接着,在步骤S704处,可以判断来自第一检测器的第一门值信号和第二门值信号是否同时为1。在步骤S706处,可以基于信号包络的第二检测器也接收通话期间的语音信号,并且可以对该语音信号进行处理,以确定检测函数值和阈值T。然后,在步骤S708处,可以判断检测函数值是否大于阈值T。
进一步,根据步骤S704和步骤S708的判断结果可以确定实际通话状态。在一个实施例中,响应于第一门值信号与第二门值信号不同时为1且检测函数值小于或等于阈值T,则确定实际通话状态为单讲状态。在另一个实施例中,响应于第一门值信号与第二门值信号不同时为1且检测函数值大于阈值T,则确定实际通话状态为单讲状态。在又一个实施例中,响应于第一门值信号与第二门值信号同时为1且检测函数值小于或等于阈值T,则确定实际通话状态为单讲状态。在又一个实施例中,响应于第一门值信号与第二门值信号同时为1且检测函数值大于阈值T,则确定实际通话状态为双讲状态。
在本发明的第二方面,还提供了一种用于检测通话状态的装置,该装置可以包括:逻辑门检测模块,其包括基于逻辑门的第一检测器,并配置用于利用第一检测器检测通话期间的第一通话状态;信号包络检测模块,其包括基于信号包络的第二检测器,并配置用于利用第二检测器检测通话期间的第二通话状态;以及确定模块,其配置用于根据第一通话状态和第二通话状态,确定通话期间的实际通话状态。
根据本发明实施例的装置已经在前文中结合图1-图7所示的方法进行了详细的描述,此处不再赘述。
在本发明的第三方面中,提供了一种用于检测通话状态的设备,包括:处理器;存储器,其存储有用于检测通话状态的程序指令,当程序指令由处理器执行时,实现上述的方法步骤。下面将结合图8进行示例性的描述。
图8是示出根据本发明实施例的用于检测通话状态设备的系统示意框图。系统800可以包括根据本发明实施例的用于检测通话状态设备801以及其外围设备和外部网络,以实现前述结合图1-图7所描述的根据本发明实施例的用于检测通话状态的方法。
如图8中所示,用于检测通话状态设备801可以包括CPU 8011,其可以是通用CPU、专用CPU或者其他信息处理以及程序运行的执行单元。进一步,用于检测通话状态设备801还可以包括大容量存储器8012和只读存储器ROM 8013,其中大容量存储器8012可以配置用于存储各类数据。在本发明实施例中,可以包括第一门值信号、第二门值信号、检测函数值、动态阈值和/或本发明实施例中使用到的各种公式的相关数据等。另外,ROM 8013可以配置成存储对于用于检测通话状态设备801的中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统所需的数据。
进一步,系统800还可以包括其他的硬件平台或组件,例如示出的张量处理单元(TPU)8014、图像处理单元(GPU)8015、现场可编程门阵列(FPGA)8016和机器学习单元(MLU)8017。可以理解的是,尽管在系统800中示出了多种硬件平台或组件,但这里仅仅是示例性的而非限制性的,本领域技术人员可以根据实际需要增加或移除相应的硬件。
用于检测通话状态设备801还包括通信接口8018,从而可以通过该通信接口8018连接到局域网/无线局域网(LAN/WLAN)805,进而可以通过LAN/WLAN连接到本地服务器806或连接到因特网(“Internet”)805。替代地或附加地,本发明实施例的用于检测通话状态设备801还可以通过通信接口8018基于无线通信技术直接连接到因特网或蜂窝网络,例如基于第三代(“3G”)、第四代(“4G”)或第五代(“5G”)的无线通信技术。在一些应用场景中,用于检测通话状态设备801还可以根据需要访问外部网络的服务器808以及可能的数据库809,以便获得各种已知可以例如远端信号包络、近端信号包络和/或回声信号包络的数据,并且可以远程地存储经由公式计算出的各种数据。
用于检测通话状态设备801的外围设备可以包括显示装置802、输入装置803以及数据传输接口804。在一个实施例中,显示装置802可以例如包括一个或多个扬声器和/或一个或多个视觉显示器,其配置用于对本发明测试设备的运算过程或者最终结果进行语音提示和/或图像视频显示。输入装置803可以包括例如键盘、鼠标、麦克风、姿势捕捉相机,或其他输入按钮或控件,其配置用于接收检测通话状态的输入或用户指令。数据传输接口804可以包括例如串行接口、并行接口或通用串行总线接口(“USB”)、小型计算机系统接口(“SCSI”)、串行ATA、火线(“FireWire”)、PCI Express和高清多媒体接口(“HDMI”)等,其配置用于与其他设备或系统的数据传输和交互。根据本发明的方案,该数据传输接口804可以接收来自通话两端的远端语音信号、近端语音信号和/或回声信号。本发明的用于检测通话状态设备801的上述CPU 8011、大容量存储器8012、只读存储器ROM 8013、TPU 8014、GPU8015、FPGA 8016、MLU 8017和通信接口8018可以通过总线8019相互连接,并且通过该总线与外围设备实现数据交互。在一个实施例中,通过该总线8019,CPU 8011可以控制用于检测通话状态设备801中的其他硬件组件及其外围设备。
还应当理解,本发明示例的执行指令的任何模块、单元、组件、服务器、计算机、终端或设备可以包括或以其他方式访问计算机可读介质,诸如存储介质、计算机存储介质或数据存储设备(可移除的)和/或不可移动的)例如磁盘、光盘或磁带。计算机存储介质可以包括以用于存储信息的任何方法或技术实现的易失性和非易失性,可移动和不可移动介质,例如计算机可读指令、数据结构、程序模块或其他数据。
本发明还公开了一种计算机可读存储介质,其中存储有程序指令,程序指令适于由处理器加载并执行:利用基于逻辑门的第一检测器检测通话期间的第一通话状态;利用基于信号包络的第二检测器检测通话期间的第二通话状态;以及根据第一通话状态和第二通话状态,确定通话期间的实际通话状态。基于此,当本发明的方案以软件产品(计算机可读存储介质)的形式体现时,该软件产品可以存储在存储器中,其可以包括若干指令用以使得计算机设备(例如个人计算机、服务器或者网络设备等)执行本发明实施例所述方法的部分或全部步骤。前述的存储器可以包括但不限于U盘、闪存盘、只读存储器ROM、随机存取存储器(“Random Access Memory”,简写为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
应当理解,本发明披露的权利要求、说明书及附图中的可能术语“第一”或“第二”等是用于区别不同对象,而不是用于描述特定顺序。本发明披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本发明披露。如在本发明披露说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本发明披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
虽然本发明的实施方式如上,但所述内容只是为便于理解本发明而采用的实施例,并非用以限定本发明的范围和应用场景。任何本发明所述技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种用于检测通话状态的方法,其特征在于,所述方法包括:
利用基于逻辑门的第一检测器检测通话期间的第一通话状态;
利用基于信号包络的第二检测器检测所述通话期间的第二通话状态;以及
根据所述第一通话状态和所述第二通话状态,确定所述通话期间的实际通话状态。
2.根据权利要求1所述的方法,其特征在于,利用基于逻辑门的第一检测器检测第一通话状态包括:
利用远端语音检测器对来自通话两端中的远端语音信号进行处理,以获得第一门值信号;
利用近端语音检测器对来自通话两端中的近端语音信号进行处理,以获得第二门值信号;以及
根据所述第一门值信号和所述第二门值信号,确定所述第一检测器的第一通话状态。
3.根据权利要求2所述的方法,其特征在于,利用远端语音检测器对远端语音信号进行处理,以获得第一门值信号包括:
基于所述远端语音信号的能量值与第一预设值的比较结果,确定所述第一门值信号;
利用近端语音检测器对近端语音信号进行处理,以获得第二门值信号包括:
基于所述近端语音信号的能量值与第二预设值的比较结果,确定所述第二门值信号;
其中所述第二预设值大于所述第一预设值。
4.根据权利要求2所述的方法,其特征在于,根据所述第一门值信号和所述第二门值信号,确定所述第一检测器的第一通话状态包括:
响应于所述第一门值信号和所述第二门值信号均为1,确定所述第一通话状态为双讲状态;
响应于所述第一门值信号和所述第二门值信号二者中的至少一个为0,确定所述第一通话状态为单讲状态。
5.根据权利要求1所述的方法,其特征在于,利用基于信号包络的第二检测器检测通话期间的第二通话状态包括:
根据当前通话状态下的近端信号包络和远端信号包络之间的比值关系,确定所述近端信号包络和所述远端信号包络的检测函数值;
根据当前通话状态下的远端信号包络和回声信号包络,确定当前通话状态对应的动态阈值;以及
根据所述检测函数值和所述动态阈值,确定所述第二通话状态。
6.根据权利要求5所述的方法,其特征在于,根据所述检测函数值和所述动态阈值确定第二通话状态包括:
设置动态阈值范围,其中所述动态阈值范围包括上限阈值和下限阈值;
响应于所述动态阈值在所述动态阈值范围内,比较所述检测函数值和所述动态阈值,以确定所述第二通话状态;
响应于所述动态阈值大于所述上限阈值,比较所述检测函数值和所述上限阈值,以确定所述第二通话状态;
响应于所述动态阈值小于所述下限阈值,比较所述检测函数值和所述下限阈值,以确定所述第二通话状态。
7.根据权利要求1-6任意一项所述的方法,其特征在于,根据所述第一通话状态和所述第二通话状态确定实际通话状态包括:
响应于所述第一通话状态和所述第二通话状态均为双讲状态,确定所述实际通话状态为双讲状态;或者
响应于所述第一通话状态和所述第二通话状态中的至少一个为单讲状态,确定所述实际通话状态为单讲状态。
8.一种用于检测通话状态的装置,其特征在于,包括:
逻辑门检测模块,其包括基于逻辑门的第一检测器,并配置用于利用所述第一检测器检测通话期间的第一通话状态;
信号包络检测模块,其包括基于信号包络的第二检测器,并配置用于利用所述第二检测器检测通话期间的第二通话状态;以及
确定模块,其配置用于根据所述第一通话状态和所述第二通话状态,确定所述通话期间的实际通话状态。
9.一种用于检测通话状态的设备,其特征在于,包括:
处理器;
存储器,其存储有用于检测通话状态的程序指令,当所述程序指令由所述处理器执行时,实现根据权利要求1-7的任意一项所述的方法步骤。
10.一种计算机可读存储介质,其存储有用于检测通话状态的计算机程序指令,当所述计算机程序指令由处理器执行时,以实现根据权利要求1-7的任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210203528.3A CN114650238A (zh) | 2022-03-03 | 2022-03-03 | 用于检测通话状态的方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210203528.3A CN114650238A (zh) | 2022-03-03 | 2022-03-03 | 用于检测通话状态的方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114650238A true CN114650238A (zh) | 2022-06-21 |
Family
ID=81993159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210203528.3A Pending CN114650238A (zh) | 2022-03-03 | 2022-03-03 | 用于检测通话状态的方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114650238A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050014535A1 (en) * | 2003-07-18 | 2005-01-20 | Pratik Desai | System and method for speaker-phone operation in a communications device |
CN1917386A (zh) * | 2006-09-05 | 2007-02-21 | 华为技术有限公司 | 一种回波抵消中双讲状态的检测方法 |
CN103325379A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于声学回声控制的方法与装置 |
WO2016180100A1 (zh) * | 2015-05-12 | 2016-11-17 | 腾讯科技(深圳)有限公司 | 一种音频处理的性能提升方法及装置 |
CN107786755A (zh) * | 2016-08-30 | 2018-03-09 | 合肥君正科技有限公司 | 一种双端通话检测方法和装置 |
CN108134863A (zh) * | 2017-12-26 | 2018-06-08 | 中山大学花都产业科技研究院 | 一种基于双统计量的改进型双端检测装置及检测方法 |
CN109273019A (zh) * | 2017-04-21 | 2019-01-25 | 豪威科技股份有限公司 | 用于回声抑制的双重通话检测的方法及回声抑制 |
CN109348072A (zh) * | 2018-08-30 | 2019-02-15 | 湖北工业大学 | 一种应用于回声抵消系统的双端通话检测方法 |
-
2022
- 2022-03-03 CN CN202210203528.3A patent/CN114650238A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050014535A1 (en) * | 2003-07-18 | 2005-01-20 | Pratik Desai | System and method for speaker-phone operation in a communications device |
CN1917386A (zh) * | 2006-09-05 | 2007-02-21 | 华为技术有限公司 | 一种回波抵消中双讲状态的检测方法 |
CN103325379A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于声学回声控制的方法与装置 |
WO2016180100A1 (zh) * | 2015-05-12 | 2016-11-17 | 腾讯科技(深圳)有限公司 | 一种音频处理的性能提升方法及装置 |
CN107786755A (zh) * | 2016-08-30 | 2018-03-09 | 合肥君正科技有限公司 | 一种双端通话检测方法和装置 |
CN109273019A (zh) * | 2017-04-21 | 2019-01-25 | 豪威科技股份有限公司 | 用于回声抑制的双重通话检测的方法及回声抑制 |
CN108134863A (zh) * | 2017-12-26 | 2018-06-08 | 中山大学花都产业科技研究院 | 一种基于双统计量的改进型双端检测装置及检测方法 |
CN109348072A (zh) * | 2018-08-30 | 2019-02-15 | 湖北工业大学 | 一种应用于回声抵消系统的双端通话检测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210327448A1 (en) | Speech noise reduction method and apparatus, computing device, and computer-readable storage medium | |
US8325909B2 (en) | Acoustic echo suppression | |
CN107863099B (zh) | 一种新型双麦克风语音检测和增强方法 | |
CN105847611A (zh) | 一种回声时延检测方法、回声消除芯片及终端设备 | |
CN104885438A (zh) | 监视声学回声消除的性能的系统和方法 | |
CN104050971A (zh) | 声学回声减轻装置和方法、音频处理装置和语音通信终端 | |
US11450335B2 (en) | Method and device for updating coefficient vector of finite impulse response filter | |
CN101917527A (zh) | 回声消除的方法和装置 | |
US20190132452A1 (en) | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications | |
WO2020232659A1 (zh) | 双端通话检测方法、双端通话检测装置以及回声消除系统 | |
CN112489670B (zh) | 时延估计方法、装置、终端设备和计算机可读存储介质 | |
US9742573B2 (en) | Method and apparatus for calibrating multiple microphones | |
WO2020252629A1 (zh) | 残余回声检测方法、残余回声检测装置、语音处理芯片及电子设备 | |
CN110992923B (zh) | 回声消除方法、电子设备以及存储装置 | |
CN110634496B (zh) | 一种双讲检测方法、装置、计算机设备和存储介质 | |
CN103997561A (zh) | 通讯装置及其语音处理方法 | |
CN111028855A (zh) | 回声抑制方法、装置、设备及存储介质 | |
WO2024017110A1 (zh) | 语音降噪方法、模型训练方法、装置、设备、介质及产品 | |
WO2024041512A1 (zh) | 音频降噪方法、装置、电子设备及可读存储介质 | |
CN114650238A (zh) | 用于检测通话状态的方法、装置、设备及可读存储介质 | |
CN111989934B (zh) | 回声消除装置、回声消除方法、信号处理芯片及电子设备 | |
CN112289336A (zh) | 音频信号处理方法和装置 | |
CN110992975A (zh) | 一种语音信号处理方法、装置及终端 | |
CN113241084B (zh) | 回声消除的方法、装置及设备 | |
CN115834778A (zh) | 一种回声消除方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |