CN113808605A

CN113808605A - 一种基于楼宇对讲系统的语音增强方法和装置以及设备

Info

Publication number: CN113808605A
Application number: CN202111147687.8A
Authority: CN
Inventors: 黄志超; 苏婉琴; 刘鲤扬
Original assignee: Ringslink Xiamen Network Communication Technologies Co ltd
Current assignee: Ringslink Xiamen Network Communication Technologies Co ltd
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2021-12-17
Anticipated expiration: 2041-09-29
Also published as: CN113808605B

Abstract

本发明公开了一种基于楼宇对讲系统的语音增强方法，所述方法包括：通过麦克风采集用户输入的音频信号；将所述音频信号依次进行模拟增益处理和ADC处理，得到音频数字信号；对所述音频数字信号进行噪音估计得到噪音估计信号，并对所述音频数字信号和所述噪音估计信号进行滤波处理，得到第一目标语音信号；根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小；对所述第一目标语音信号进行数字增益处理后输出第二目标语音信号。能够提升语音信号的信噪比，从而提高通话质量。

Description

一种基于楼宇对讲系统的语音增强方法和装置以及设备

技术领域

本发明涉及音视频通信技术领域，尤其涉及一种基于楼宇对讲系统的语音增强方法和装置以及设备。

背景技术

在楼宇对讲系统的应用场景中，访客可以使用室外分机呼叫室内分机，并与主人进行实时对讲。室外分机一般工作在嘈杂的户外环境，如果不进行语音降噪和增强处理，将会严重影响通话质量和用户体验。另外，通话过程中，室外分机设备使用麦克风采集访客声音时，采集信号会受采集距离和访客声音大小的影响，加大了语音信号处理的难度。而现有处理方式通常采用麦克风阵列和复杂的语音降噪算法实现语音增强，无法获取比较好的实时性和经济性。

发明内容

有鉴于此，本发明的目的在于提出一种基于楼宇对讲系统的语音增强方法和装置以及设备，能够有效解决以上问题。

为实现上述目的，本发明提供一种基于楼宇对讲系统的语音增强方法，所述方法包括：

通过麦克风采集用户输入的音频信号；

将所述音频信号依次进行模拟增益处理和ADC处理，得到音频数字信号；

对所述音频数字信号进行噪音估计得到噪音估计信号，并对所述音频数字信号和所述噪音估计信号进行滤波处理，得到第一目标语音信号；

根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小；

对所述第一目标语音信号进行数字增益处理后输出第二目标语音信号。

优选的，在所述根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小之后还包括：

判断所述第一目标语音信号的信噪比低于第一预设值时，则提示用户靠近麦克风或提高音量进行通话。

优选的，所述判断所述第一目标语音信号的信噪比低于第一预设值时，则提示用户靠近麦克风或提高音量进行通话的步骤包括：

在预设时间内判断所述第一目标语音信号的信噪比低于第一预设值的次数大于第二预设值时，则提示用户靠近麦克风或提高音量进行通话。

优选的，所述根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小的步骤包括：

分别在预设时间内实时计算所述第一目标语音信号和所述噪音估计信号的第一能量平均值和第二能量平均值；

分别判断所述第一能量平均值和所述第二能量平均值与第一阈值和第二阈值的大小，以调整增益值的大小。

优选的，所述分别判断所述第一能量平均值和所述第二能量平均值与第一阈值和第二阈值的大小，以调整增益值的大小的步骤包括：

当所述第一能量平均值小于所述第一阈值、且所述第二能量平均值小于所述第二阈值时，增大所述增益值；

当所述第一能量平均值大于所述第一阈值、且所述第二能量平均值小于所述第二阈值时，所述增益值不变；

当所述第一能量平均值小于所述第一阈值、且所述第二能量平均值大于所述第二阈值时，所述增益值不变，并提示用户靠近麦克风或提高音量进行通话；

当所述第一能量平均值大于所述第一阈值、且所述第二能量平均值大于所述第二阈值时，减小所述增益值。

优选的，所述对所述音频数字信号进行噪音估计得到噪音估计信号的步骤包括：

通过采用最小值统计噪声估计算法或者最小值控制的递归平均算法对所述音频数字信号进行噪音估计得到噪音估计信号。

优选的，所述滤波处理包括维纳滤波或者自适应滤波处理。

为实现上述目的，本发明还提供一种基于楼宇对讲系统的语音增强装置，所述装置包括：

采集单元，用于通过麦克风采集用户输入的音频信号；

处理单元，用于将所述音频信号依次进行模拟增益处理和ADC处理，得到音频数字信号；

噪音估计单元，用于对所述音频数字信号进行噪音估计得到噪音估计信号，并对所述音频数字信号和所述噪音估计信号进行滤波处理，得到第一目标语音信号；

增益控制单元，用于根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小；

输出单元，用于对所述第一目标语音信号进行数字增益处理后输出第二目标语音信号。

优选的，所述装置还包括：

提示单元，用于判断所述第一目标语音信号的信噪比低于第一预设值时，则提示用户靠近麦克风或提高音量进行通话。

为实现上述目的，本发明还提供一种电子设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的一种基于楼宇对讲系统的语音增强方法。

有益效果：

以上方案，通过采用模拟增益和数字增益对用户输入的语音信号进行增强处理，并在模拟增益和数字增益过程中进行噪音估计和降噪处理，大大提升语音信号的信噪比，从而提高通话质量。

以上方案，当语音信号的信噪比低于预设值时，则提示用户靠近麦克风或提高音量进行通话，通过增设与用户的交互提示方式能够及时提醒用户进行合适的操作，有效提高通话质量和用户体验感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的一种基于楼宇对讲系统的语音增强方法的流程示意图。

图2为本发明一实施例提供的音频信号处理的原理示意图。

图3为本发明一实施例提供的语音增强系统的结构示意图。

图4为本发明一实施例提供的一种基于楼宇对讲系统的语音增强装置的结构示意图。

图5为本发明一实施例提供的一种电子设备的结构示意图。

发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

在本发明的描述中，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

以下结合实施例详细阐述本发明的内容。

在现有产品中其硬件选择采用麦克风阵列时，会增加硬件成本，并且采集的数据量大，需要配合复杂的降噪算法的才能正常工作，随着算法复杂度的增加，对硬件平台参数的要求更高，计算的耗时更久，严重影响系统的实时性和经济性。并且，由于现有技术通常根据降噪前的信号来计算模拟增益，或者直接预设模拟增益，导致增益调整的精度不够，容易出现噪音过高，影响通话质量。再有，现有技术通常缺少与用户交互的步骤，当出现外部原因导致语音信噪比过小，并且低于降噪算法的处理阈值时，系统无法及时提醒用户进行合适的操作，导致用户无法及时了解通话质量体验很差等问题。因此，本申请通过利用噪音估计和降噪运算所输出的信号进行一定数字运算后得到模拟增益的控制方案，可以提升模拟增益的控制精度，从而解决由用户的采集距离和声音大小引起的通话质量差的问题。并且，本申请只需要采用单MIC采集语音信号，处理的数据量比较小，降噪算法简单，硬件电路上只需要求在ARM9架构的嵌入式平台，并且内嵌音频采集、放大和AD转换等模块就可以成功运行，可以大大降低系统中降噪算法和硬件的复杂性，提升系统的实时性和经济性。另外，本申请通过设置提示模式，当采集的语音信噪比持续过低时，利用提示模式可以通知用户进行必要的操作，大大提高通话质量和体验感。

参照图1所示为本发明实施例提供的一种基于楼宇对讲系统的语音增强方法的流程示意图。

本实施例中，该方法包括：

S11，通过麦克风采集用户输入的音频信号。

S12，将所述音频信号依次进行模拟增益处理和ADC处理，得到音频数字信号。

S13，对所述音频数字信号进行噪音估计得到噪音估计信号，并对所述音频数字信号和所述噪音估计信号进行滤波处理，得到第一目标语音信号。

其中，所述对所述音频数字信号进行噪音估计得到噪音估计信号的步骤包括：

其中，所述滤波处理包括维纳滤波或者自适应滤波处理。

S14，根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小。

其中，所述根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小的步骤包括：

进一步的，所述分别判断所述第一能量平均值和所述第二能量平均值与第一阈值和第二阈值的大小，以调整增益值的大小的步骤包括：

S15，对所述第一目标语音信号进行数字增益处理后输出第二目标语音信号。

在本实施例中，如图2所示为音频信号处理的原理示意图。通话设备或对讲系统通过麦克风MIC采集到音频信号S(t)，其中，音频信号S(t)一般包含噪音信号N(t)和语音信号X(t)。音频信号S(t)经过可变增益放大器进行模拟增益处理得到采集信号S1(t)。特别的，通话设备重启后还会保存上一次的增益。通过模拟增益放大后的采集信号S1(t)经过ADC处理，得到数字采集信号S1(n)，数字采集信号S1(n)经过噪音估计可以获取到噪音估计信号N1(n)。其中，可以采用常用的最小值统计(Minimum Statistics，MS)噪声估计算法或者最小值控制的递归平均算法(Minimum Controlled Regressive Averaging，MCRA)进行噪音估计。利用噪音估计信号N1(n)对数字采集信号S1(n)进行降噪运算，获到第一目标语音信号X1(n)，其中，可以选择常用的方法有维纳滤波或者自适应滤波进行处理。将第一目标语音信号X1(n)通过数字增益放大器进行处理，该数字增益放大器会根据输入的第一目标语音信号X1(n)自动调整增益，输出音量合适的第二目标语音信号X2(n)。

进一步的，根据第一目标语音信号X1(n)和噪音估计信号N1(n)进行增益计算以控制模拟增益的大小。其中，增益计算部分通常通过预设阈值ETHRn和ETHRx，然后实时计算单位时间内的噪音估计信号N1(n)的能量平均值En和单位时间内的第一目标语音信号X1(n)的能量平均值Ex，根据En和Ex的数组大小做以下判断：

(1)当En小于阈值ETHRn，并且Ex小于阈值ETHRx时，增大可变增益放大器的增益；

(2)当En小于阈值ETHRn，并且Ex大于阈值ETHRx时，可变增益放大器的增益保持不动；

(3)当En大于阈值ETHRn，并且Ex小于阈值ETHRx时，可变增益放大器的增益保持不动，并提示用户靠近麦克风或提高音量进行通话；

(4)当En大于阈值ETHRn，并且Ex大于阈值ETHRx时，减小可变增益放大器的增益。

系统最终输出的第二目标语音信号X2(n)，具有高信噪比的特征。进一步的，当界面提示在单位时间内收到第一目标语音信号X1(n)的信噪比低于预设值的次数超过一定的阈值时，提示用户提高音量或靠近麦克风MIC进行通话，其中，可通过界面进行文字提示或语音提示。

在本实施例中主要采用可变增益放大器和数字自动增益放大器进行两次语音信号增强处理，并且在两个放大器之间增加噪音估计和降噪运算进行降噪处理，提升语音信号的信噪比。上述中通过增加利用降噪后信号进行增益计算来控制模拟增益的大小，并且当语音信号的信噪比过低时，通知界面显示提示语，让访客用户靠近麦克风或提高音量来增大语音信号的能量，从而提高通话质量和用户体验。

在另一实施例中，在所述根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小之后还包括：

S21，判断所述第一目标语音信号的信噪比低于第一预设值时，则提示用户靠近麦克风或提高音量进行通话。

其中，所述判断所述第一目标语音信号的信噪比低于第一预设值时，则提示用户靠近麦克风或提高音量进行通话的步骤包括：

参照图3所示为本发明一实施例提供的语音增强系统的结构示意图。

本实施例中，该音增强系统设置于对讲系统中。其中，该语音增强系统包括：麦克风输入模块M1、模拟放大模块M2、模拟/数字转换模块M3、噪音估计模块M4、降噪运算模块M5、数字放大模块M6、语音信号输入模块M7、增益计算模块M8以及界面提示模块M9。具体的：

麦克风输入模块M1：采用麦克风硬件电路采集到的音频信号，通常为音频模拟信号，为M2输入音频信号。

模拟放大模块M2：根据M8输出的增益倍数放大M1输出的音频信号，为M3输入音频模拟信号。

模拟/数字转换模块M3：将M2输出的音频模拟信号转换成音频数字信号，为M4和M5的输入音频数字信号。

噪音估计模块M4：根据M3输出的音频数字信号进行噪音估计得出噪音估计信号，向M5和M8输出噪音估计信号。

降噪运算模块M5：根据M3输出的音频数字信号和M4输出的噪声估计信号进行滤波运算，得到降噪后语音信号，同时输出给M6和M8。

数字放大模块M6：根据M1输出的音频信号和M5输出语音信号估算放大增益，对语音信号进行放大，输出给M7。

语音信号输入模块M7：用于缓存降噪后的语音信号，为其他软件处理提供语音信号。

增益计算模块M8：根据M4输出的噪声估计信号和M5输出的语音信号进行估算模拟放大增益输出给M2，同时当信号能量小于阈值的情况时，输出提示消息给M9。

界面提示模块M9：统计单位时间内收到的M8输出次数超过预设值时，显示相关提示信息给用户。

参照图4所示为本发明一实施例提供的基于楼宇对讲系统的语音增强装置的结构示意图。

本实施例中，该装置40包括：

采集单元41，用于通过麦克风采集用户输入的音频信号。

处理单元42，用于将所述音频信号依次进行模拟增益处理和ADC处理，得到音频数字信号。

噪音估计单元43，用于对所述音频数字信号进行噪音估计得到噪音估计信号，并对所述音频数字信号和所述噪音估计信号进行滤波处理，得到第一目标语音信号。

其中，通过采用最小值统计噪声估计算法或者最小值控制的递归平均算法对所述音频数字信号进行噪音估计得到噪音估计信号。

其中，所述滤波处理包括维纳滤波或者自适应滤波处理。

增益控制单元44，用于根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小。

其中，该增益控制单元44，进一步包括：

能量计算单元，用于分别在预设时间内实时计算所述第一目标语音信号和所述噪音估计信号的第一能量平均值和第二能量平均值；

判断单元，用于分别判断所述第一能量平均值和所述第二能量平均值与第一阈值和第二阈值的大小，以调整增益值的大小。

其中，该判断单元，进一步用于：

输出单元45，用于对所述第一目标语音信号进行数字增益处理后输出第二目标语音信号。

在另一实施例中，该装置40还包括：

提示单元51，用于判断所述第一目标语音信号的信噪比低于第一预设值时，则提示用户靠近麦克风或提高音量进行通话。

其中，该提示单元51，进一步用于：

该装置40的各个单元模块可分别执行上述方法实施例中对应步骤，故在此不对各单元模块进行赘述，详细请参见以上对应步骤的说明。

本发明实施例还提供一种电子设备，包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如上述实施例所述的基于楼宇对讲系统的语音增强方法。

如图5所示，该电子设备可包括但不仅限于处理器51、存储器52。本领域技术人员可以理解，所述示意图仅仅是电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述电子设备的各种功能。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

其中，所述电子设备集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。

需说明的是，以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本发明提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例中的实施方案可以进一步组合或者替换，且实施例仅仅是对本发明的优选实施例进行描述，并非对本发明的构思和范围进行限定，在不脱离本发明设计思想的前提下，本领域中专业技术人员对本发明的技术方案作出的各种变化和改进，均属于本发明的保护范围。

Claims

1.一种基于楼宇对讲系统的语音增强方法，其特征在于，所述方法包括：

通过麦克风采集用户输入的音频信号；

2.根据权利要求1所述的一种基于楼宇对讲系统的语音增强方法，其特征在于，在所述根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小之后还包括：

3.根据权利要求2所述的一种基于楼宇对讲系统的语音增强方法，其特征在于，所述判断所述第一目标语音信号的信噪比低于第一预设值时，则提示用户靠近麦克风或提高音量进行通话的步骤包括：

4.根据权利要求1所述的一种基于楼宇对讲系统的语音增强方法，其特征在于，所述根据所述第一目标语音信号和所述噪音估计信号进行增益计算以控制模拟增益的大小的步骤包括：

5.根据权利要求4所述的一种基于楼宇对讲系统的语音增强方法，其特征在于，所述分别判断所述第一能量平均值和所述第二能量平均值与第一阈值和第二阈值的大小，以调整增益值的大小的步骤包括：

6.根据权利要求1所述的一种基于楼宇对讲系统的语音增强方法，其特征在于，所述对所述音频数字信号进行噪音估计得到噪音估计信号的步骤包括：

7.根据权利要求1所述的一种基于楼宇对讲系统的语音增强方法，其特征在于，所述滤波处理包括维纳滤波或者自适应滤波处理。

8.一种基于楼宇对讲系统的语音增强装置，其特征在于，所述装置包括：

采集单元，用于通过麦克风采集用户输入的音频信号；

9.根据权利要求8所述的一种基于楼宇对讲系统的语音增强装置，其特征在于，所述装置还包括：

10.一种电子设备，其特征在于，所述设备包括处理器、存储器以及存储在所述存储器内的计算机程序，所述计算机程序能够被所述处理器执行以实现如权利要求1至7任意一项所述的一种基于楼宇对讲系统的语音增强方法。