CN112053700B

CN112053700B - 场景识别方法、装置、电子设备以及计算机可读存储介质

Info

Publication number: CN112053700B
Application number: CN202010898855.6A
Authority: CN
Inventors: 黄景标; 林聚财
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2023-02-07
Anticipated expiration: 2040-08-31
Also published as: CN112053700A

Abstract

本申请公开了一种场景识别方法、装置、电子设备以及计算机可读存储介质，该场景识别方法包括：获取语音通信过程中的音频信号以及参考回声信号；分别计算音频信号的功率以及参考回声信号的功率；基于音频信号的功率以及参考回声信号的功率，计算音频信号的对数似然比；将对数似然比分别与第一预设阈值和第二预设阈值进行比较，其中，第一预设阈值小于第二预设阈值；在对数似然比大于第一预设阈值，且小于第二预设阈值的情况下，确定场景为回声突变场景。上述方案，能够通过引入对数似然比提高识别回声突变场景的准确性。

Description

场景识别方法、装置、电子设备以及计算机可读存储介质

技术领域

本申请涉及音频处理应用技术领域，特别是涉及一种场景识别方法、装置、电子设备以及计算机可读存储介质。

背景技术

在现实生活中，当用户使用手机开启免提电话或者视频会议终端进行视频会议时，由于扬声器的外放会导致扬声器播放的声音再次被麦克风采集到，从而导致回声问题。

回声问题会严重影响通话质量以降低语音通话中的交流与合作，通常来说，一般会使用回声消除算法来解决回声问题。使用回声消除算法之前，需要准确检测出回声场景。然而，目前的场景识别方案只能区分双端讲话和远端单讲场景，无法准确识别出回声场景，导致无法很好地解决语音通话中的回声问题。

发明内容

本申请至少提供一种场景识别方法、装置、电子设备以及计算机可读存储介质。

本申请第一方面提供了一种场景识别方法，所述场景识别方法包括：

获取语音通信过程中的音频信号以及参考回声信号；

分别计算所述音频信号的功率以及所述参考回声信号的功率；

基于所述音频信号的功率以及所述参考回声信号的功率，计算所述音频信号的对数似然比；

将所述对数似然比分别与第一预设阈值和第二预设阈值进行比较，其中，所述第一预设阈值小于所述第二预设阈值；

在所述对数似然比大于所述第一预设阈值，且小于所述第二预设阈值的情况下，确认所述场景为回声突变场景。

其中，所述场景识别方法还包括：

在所述对数似然比小于所述第一预设阈值的情况下，确认所述场景为双讲场景；

在所述对数似然比大于所述第二预设阈值的情况下，确认所述场景为远端说话场景。

其中，所述场景识别方法还包括：

获取所述参考回声信号的幅值；

基于预设的遗忘因子以及所述参考回声信号的幅值计算每一帧参考回声信号的功率。

其中，所述音频信号至少包括背景噪声，所述场景识别方法还包括：

获取所述音频信号的幅值；

通过将不同帧所述音频信号的幅值作差，获取所述背景噪声的功率。

其中，所述音频信号还包括第一估计回声信号，所述场景识别方法还包括：

采用自适应滤波器获取所述第一估计回声信号的幅值；

通过将不同帧所述第一估计回声信号的幅值作差，获取所述第一估计回声信号的功率。

其中，所述音频信号还包括第二估计回声信号，所述场景识别方法还包括：

通过将所述音频信号的功率与所述第一估计回声信号的功率作差，获得残余回声信号的功率；

基于所述参考回声的功率、所述残余回声信号的功率以及所述音频信号的功率计算所述第二估计回声信号的功率。

其中，所述音频信号还包括近端语音信号，所述场景识别方法还包括：

通过将所述音频信号的功率与所述第二估计回声信号的功率作差，获得所述近端语音信号的功率。

其中，所述基于所述音频信号的功率以及参考回声信号的功率，计算所述音频信号的对数似然比的步骤，包括：

计算所述对数似然比的公式为：

其中，K表示音频信号的帧数，P_d表示音频信号的功率，P_n表示近端语音信号的功率，P_yest表示第一估计回声信号的功率，P_w表示背景噪声的功率。

本申请第二方面提供了一种场景识别装置，所述场景识别装置包括：

信号获取模块，用于获取语音通信过程中的音频信号以及参考回声信号；

功率计算模块，用于分别计算所述音频信号的功率以及所述参考回声信号的功率；

似然比计算模块，用于基于所述音频信号的功率以及所述参考回声信号的功率，计算所述音频信号的对数似然比；

场景识别模块，用于在所述对数似然比大于所述第一预设阈值，且小于所述第二预设阈值的情况下，确定所述场景为回声突变场景。

本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述第一方面中的场景识别方法。

本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述第一方面中的场景识别方法。

本申请中，场景识别装置获取语音通信过程中的音频信号以及参考回声信号；分别计算音频信号的功率以及参考回声信号的功率；基于音频信号的功率以及参考回声信号的功率，计算音频信号的对数似然比；将对数似然比分别与第一预设阈值和第二预设阈值进行比较，其中，第一预设阈值小于第二预设阈值；在对数似然比大于第一预设阈值，且小于第二预设阈值的情况下，确认场景为回声突变场景。上述方案，能够通过引入对数似然比提高识别回声突变场景的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本申请的实施例，并与说明书一起用于说明本申请的技术方案。

图1是本申请提供的场景识别方法一实施例的流程示意图；

图2是本申请提供的计算音频信号功率的具体流程示意图；

图3是本申请提供的场景识别装置一实施例的框架示意图；

图4是本申请提供的电子设备一实施例的框架示意图；

图5是本申请提供的计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

请参阅图1，图1是本申请提供的场景识别方法一实施例的流程示意图。

本申请的场景识别方法的执行主体可以是一种场景识别装置，例如，场景识别方法可以由终端设备或服务器或其它处理设备执行，其中，场景识别装置可以为用户设备(User Equipment，UE)、移动设备、用户终端、终端、蜂窝电话、无线电话、个人数字处理(Personal Digital Assistant，PDA)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中，该场景识别方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

具体而言，本公开实施例的场景识别方法可以包括以下步骤：

步骤S11：获取语音通信过程中的音频信号以及参考回声信号。

其中，当进行视频语音通信时，场景识别装置一方面从麦克风接收音频信号，另一方面从网络端获取参考回声信号。需要说明的是，参考回声信号为扬声器播放之前通过网络传输送达到语音终端的待处理模块中的数据信号。

步骤S12：分别计算音频信号的功率以及参考回声信号的功率。

其中，场景识别装置分析出音频信号的幅值信息和参考回声信号的幅值信息，并基于音频信号的幅值信息计算出音频信号的功率，以及基于参考回声信号的幅值信息计算出参考回声信号的功率。

在本公开实施例中，参考回声信号的功率计算公式可以表示为：

P_xx(n)＝aP_xx(n-1)+(1-a)|x|²

其中，x表示参考回声信号的幅值，P_xx(n)表示参考回声信号的功率，a表示遗忘因子，n表示参考回声信号的帧数。

对应地，音频信号的功率计算公式可以表示为：

P_d(n)＝aP_d(n-1)+(1-a)|d|²

其中，d表示音频信号的幅值，P_d(n)表示音频信号的功率。

进一步地，在本公开实施例中，音频信号主要包括背景噪声、回声信号以及近端语音信号中的一种或多种声音信号。

场景识别装置计算上述音频信号中各种声音信号的功率的具体步骤请继续参阅图2，图2是本申请提供的计算音频信号功率的具体流程示意图。具体而言，计算步骤如下：

步骤S21：获取音频信号的幅值。

其中，场景识别装置获取音频信号的幅值信息。

步骤S22：通过将不同帧音频信号的幅值作差，获取背景噪声的功率。

其中，场景识别装置将不同帧音频信号的幅值作差，获取背景噪声的功率，具体计算公式如下：

其中，K表示音频信号的长度，P_w(n)表示背景噪声的功率，d表示音频信号的幅值。

需要说明的是，本实施例的背景噪声可以被定义为当近端语音信号和远端语音信号均无语音输入时，麦克风采集到的噪声信号。

步骤S23：采用自适应滤波器获取第一估计回声信号的幅值。

其中，音频信号中的估计回声信号根据信号来源或者信号处理不同可以区分为第一估计回声信号和第二估计回声信号。场景识别装置可以运用自适应滤波器采集第一估计回声信号，并获取第一估计回声信号的幅值。

步骤S24：通过将不同帧第一估计回声信号的幅值作差，获取第一估计回声信号的功率。

其中，场景识别装置通过将不同帧第一估计回声信号的幅值作差，获取第一估计回声信号的功率，具体计算公式如下：

其中，K表示第一估计回声信号的长度，P_yest(n)表示第一估计回声信号的功率，y_est表示第一估计回声信号的幅值。

步骤S25：通过将音频信号的功率与第一估计回声信号的功率作差，获得残余回声信号的功率。

其中，场景识别装置通过将上述计算得到的音频信号的功率与第一估计回声信号的功率作差，从而获得残余回声信号的功率，具体计算公式如下：

其中，P_e表示残余回声信号的功率。

步骤S26：基于参考回声的功率、残余回声信号的功率以及音频信号的功率计算第二估计回声信号的功率。

其中，场景识别装置进一步计算第二估计回声信号的功率，具体计算公式如下：

其中，P_e1表示第二估计回声信号的功率，R_ex表示残余回声信号与参考回声信号的互相关。

步骤S27：通过将音频信号的功率与第二估计回声信号的功率作差，获得近端语音信号的功率。

其中，场景识别装置通过将音频信号的功率与第二估计回声信号的功率作差，获得近端语音信号的功率，具体计算公式如下：

P_n＝P_d-P_e1

其中，P_n表示近端语音信号的功率。

步骤S13：基于音频信号的功率以及参考回声信号的功率，计算音频信号的对数似然比。

其中，场景识别装置通过上述信号功率的计算结果计算音频信号的对数似然比，具体计算公式如下：

其中，LR_d表示音频信号的对数似然比。

步骤S14：将对数似然比分别与第一预设阈值和第二预设阈值进行比较，其中，第一预设阈值小于第二预设阈值。

其中，场景识别装置预设用于评价对数似然比的两个门限值，分别为第一预设阈值和第二预设阈值，第一预设阈值小于第二预设阈值。在本公开实施例中，第一预设阈值根据经验值可以设定为-5db，第二预设阈值根据经验值可以设定为10db。

步骤S15：在对数似然比大于第一预设阈值，且小于第二预设阈值的情况下，确定场景为回声突变场景。

其中，当音频信号的对数似然比大于第一预设阈值，且小于第二预设阈值时，场景识别装置识别当前场景为回声突变场景；当音频信号的对数似然比小于第一预设阈值时，场景识别装置识别当前场景为双讲场景；当音频信号的对数似然比大于第二预设阈值时，场景识别装置识别当前场景为远端说话场景。

在本公开实施例中，场景识别装置获取语音通信过程中的音频信号以及参考回声信号；分别计算音频信号的功率以及参考回声信号的功率；基于音频信号的功率以及参考回声信号的功率，计算音频信号的对数似然比；将对数似然比分别与第一预设阈值和第二预设阈值进行比较，其中，第一预设阈值小于第二预设阈值；在对数似然比大于第一预设阈值，且小于第二预设阈值的情况下，确定场景为回声突变场景。上述方案，能够通过引入对数似然比来检测远端说话场景、双讲场景和回声突变场景，并结合多针音频数据融合的方式来提高计算结果的有效性；进一步地，上述方案只需要使用一个自适应滤波器即可以区分场景，能够有效降低场景识别方法的成本。

请继续参阅图3，图3是本申请提供的场景识别装置一实施例的框架示意图。场景识别装置30包括：

信号获取模块31，用于获取语音通信过程中的音频信号以及参考回声信号。

功率计算模块32，用于分别计算音频信号的功率以及参考回声信号的功率。

似然比计算模块33，用于基于音频信号的功率以及参考回声信号的功率，计算音频信号的对数似然比。

场景识别模块34，用于在对数似然比大于第一预设阈值，且小于第二预设阈值的情况下，确定场景为回声突变场景。

请参阅图4，图4是本申请提供的电子设备一实施例的框架示意图。电子设备40包括相互耦接的存储器41和处理器42，处理器42用于执行存储器41中存储的程序指令，以实现上述任一场景识别方法实施例中的步骤。在一个具体的实施场景中，电子设备40可以包括但不限于：微型计算机、服务器，此外，电子设备40还可以包括笔记本电脑、平板电脑等移动设备，在此不做限定。

具体而言，处理器42用于控制其自身以及存储器41以实现上述任一场景识别方法实施例中的步骤。处理器42还可以称为CPU(Central Processing Unit，中央处理单元)。处理器42可能是一种集成电路芯片，具有信号的处理能力。处理器42还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器42可以由集成电路芯片共同实现。

请参阅图5，图5是本申请提供的计算机可读存储介质一实施例的框架示意图。计算机可读存储介质50存储有能够被处理器运行的程序指令501，程序指令501用于实现上述任一场景识别方法实施例中的步骤。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种场景识别方法，其特征在于，所述场景识别方法包括：

获取语音通信过程中的音频信号以及参考回声信号；

在所述对数似然比大于所述第一预设阈值，且小于所述第二预设阈值的情况下，确定所述场景为回声突变场景；在所述对数似然比小于所述第一预设阈值的情况下，确定所述场景为双讲场景；在所述对数似然比大于所述第二预设阈值的情况下，确定所述场景为远端说话场景。

2.根据权利要求1所述的场景识别方法，其特征在于，所述场景识别方法还包括：

获取所述参考回声信号的幅值；

3.根据权利要求1所述的场景识别方法，其特征在于，所述音频信号至少包括背景噪声，所述场景识别方法还包括：

获取所述音频信号的幅值；

4.根据权利要求3所述的场景识别方法，其特征在于，所述音频信号还包括第一估计回声信号，所述场景识别方法还包括：

采用自适应滤波器获取所述第一估计回声信号的幅值；

5.根据权利要求4所述的场景识别方法，其特征在于，所述音频信号还包括第二估计回声信号，所述场景识别方法还包括：

6.根据权利要求5所述的场景识别方法，其特征在于，所述音频信号还包括近端语音信号，所述场景识别方法还包括：

7.根据权利要求6所述的场景识别方法，其特征在于，

所述基于所述音频信号的功率以及参考回声信号的功率，计算所述音频信号的对数似然比的步骤，包括：

计算所述对数似然比的公式为：

8.一种场景识别装置，其特征在于，所述场景识别装置包括：

场景识别模块，用于在所述对数似然比大于第一预设阈值，且小于第二预设阈值的情况下，确定所述场景为回声突变场景；在所述对数似然比小于所述第一预设阈值的情况下，确定所述场景为双讲场景；在所述对数似然比大于所述第二预设阈值的情况下，确定所述场景为远端说话场景。

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至7任一项所述的场景识别方法。

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至7任一项所述的场景识别方法。