CN106548783A

CN106548783A - 语音增强方法、装置及智能音箱、智能电视

Info

Publication number: CN106548783A
Application number: CN201611135608.0A
Authority: CN
Inventors: 来意哲
Original assignee: Xian TCL Software Development Co Ltd
Current assignee: Xian TCL Software Development Co Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2017-03-29
Anticipated expiration: 2036-12-09
Also published as: CN106548783B

Abstract

本发明提供一种语音增强方法、装置及智能音箱、智能电视，该语音增强方法首先由智能音箱上设置的麦克风阵列拾取音箱播放的音乐原声和人说话产生的语音人声，经ADC转换为多路数字信号，然后由FPGA将所述多路数字信号转成一路数字信号，送至CPU，由CPU从所述一路数字信号中获取回声消除的参考信号，最后基于所述参考信号利用AEC算法用所述参考信号抵消麦克风阵列拾取的音乐原声信号，输出语音人声数据。本发明直接从麦克风阵列中提取信号作为回声消除的参考信号，无需修改音箱电路，保证音箱的完整性，语音识别准确，输出音频信号强，功率大。

Description

语音增强方法、装置及智能音箱、智能电视

技术领域

本发明涉及智能电视技术领域，尤其涉及一种语音增强方法、装置及智能音箱、智能电视。

背景技术

在目前的智能音箱系统中，音箱在播放音乐的时候，麦克风会把播放出去的音乐采集回来，这个时候有人对着音箱进行说话时，就会和音乐声音混在一起，语音识别就无法识别，因此人声采集需要做AEC处理，AEC算法要求专门从音箱的喇叭电路上接出一路音频作为参考信号。作为麦克风阵列模组，若需要当前的智能音箱或设备支持远场识别，就必须要从电路上进行改造，接出喇叭输出音频作为参考信号。

发明内容

本发明的主要目的在于提供一种语音增强方法，旨在解决现有智能音箱设备支持语音识别时，必须从电路上接出一路音频作为参考信号的技术问题。

为实现上述目的，本发明提出一种语音增强方法，应用于智能音箱，所述智能音箱设有至少一对相对称的喇叭及与所述喇叭的出声口平行设置的麦克风阵列，该语音增强方法包括以下步骤：

将麦克风阵列拾取的音乐原声和语音人声经ADC转换为多路数字信号；

获取所述多路数字信号经转换阵列转换成的一路数字信号；

从所述一路数字信号中获取回声消除的参考信号；

基于所述参考信号利用AEC算法进行所述音乐原声的消除，输出语音人声数据。

进一步地，所述从所述一路数字信号中获取回声消除的参考信号的步骤包括：

在所述麦克风阵列中，设定近端信号；

依据所述近端信号，计算该麦克风阵列的参考信号。

进一步地，若所述麦克风阵列为奇数环形阵列，所述参考信号的计算公式为ref＝(a_n-1+a_n)*r，其中，ref为参考信号，设定a_near为麦克风阵列中的一近端信号，则a_n-1和a_n为麦克风阵列中近端信号a_near的两相邻的对端信号，r为能量系数，0≤r≤1.0。

进一步地，若所述麦克风阵列为偶数环形阵列，则所述参考信号的计算公式为ref＝(a_n-1+a_n)*0.5，其中，ref为参考信号，设定a_near1和a_near2为麦克风阵列中的两相邻的近端信号，则a_n-1和a_n为麦克风阵列中近端信号a_near1和a_near2的两相邻的对端信号。

本发明的另一目的在于提供一种语音增强装置，应用于智能音箱，所述智能音箱设有至少一对相对称的喇叭及与所述喇叭的出声口平行设置的麦克风阵列，该语音增强装置包括：

音频拾取模块，将麦克风阵列拾取的音乐原声和语音人声经ADC转换为多路数字信号；

数字信号获取模块，获取所述多路数字信号经转换数列转换成的一路数字信号；

参考信号获取模块，从所述一路数字信号中获取回声消除的参考信号；

回声消除模块，基于所述参考信号利用AEC算法进行所述音乐原声的消除，输出语音人声数据。

进一步地，所述参考信号获取模块包括：

设定单元，在所述麦克风阵列中，设定近端信号；

计算单元，依据所述近端信号，计算该麦克风阵列的参考信号。

本发明还提供一种智能音箱，该智能音箱包括如上所述的语音增强装置。

本发明还提供一种智能电视，该智能电视包括如上所述的智能音箱。

本发明的语音增强方法，应用于包括对称设置的若干喇叭及与所述喇叭平行设置的麦克风阵列的智能音箱，智能音箱进行语音增强时，首先由智能音箱上设置的麦克风阵列拾取音箱播放的音乐原声和人说话产生的语音人声，经ADC转换为多路数字信号，然后由转换阵列将所述多路数字信号转成一路数字信号，送至CPU，由CPU从所述一路数字信号中获取回声消除的参考信号，最后基于所述参考信号利用AEC算法用所述参考信号抵消麦克风阵列拾取的音乐原声信号，输出语音人声数据。本发明的语音增强方法，直接从麦克风阵列中提取信号作为回声消除的参考信号，无需修改音箱电路，保证音箱的完整性，语音识别准确，输出音频信号强，功率大。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明的语音增强方法一实施例的流程图；

图2为图1中步骤S30的具体流程图；

图3为本发明中麦克风阵列一实施例的示意图；

图4为本发明中麦克风阵列另一实施例的示意图；

图5为本发明的语音增强装置一实施例的功能模块图。

附图标号说明：

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种语音增强方法。

参照图1，图1为本发明的语音增强方法一实施例的流程图。

在本实施例中，该语音增强方法应用于智能音箱，所述智能音箱设有至少一对相对称的喇叭及与所述喇叭的出声口平行设置的麦克风阵列，该语音增强方法包括以下步骤：

S10：将麦克风阵列拾取的音乐原声和语音人声经ADC转换为多路数字信号；

S20：获取所述多路数字信号经转换阵列转换成的一路数字信号；

S30：从所述一路数字信号中获取回声消除的参考信号；

S40：基于所述参考信号利用AEC算法进行所述音乐原声的消除，输出语音人声数据。

在本实施例中，该语音增强方法应用的智能音箱为一圆柱体，在其他实施例中也可以是四方体或圆锥体结构，在该圆柱体智能音箱的侧面设置有两两对称的4个喇叭，在其他实施例中，也可以是6个、8个或其他复数个喇叭，只要这些喇叭在声学上的保持对称关系，在该圆柱体的顶面设置有一麦克风阵列，该麦克风阵列与所述喇叭的出声口所在的平面平行，以使得每一麦克风接收到的音乐原声信号的功率相同。

在智能音箱播放音乐并检测到语音人声时，由智能音箱上设置的麦克风阵列拾取的音箱播放的音乐原声和检测到的语音人声，经I2S协议送至ADC转换为多路数字信号，然后由转换阵列将所述多路数字信号转成一路数字信号，所述转换阵列为FPGA阵列，经I2S协议发送至CPU，以缓解CPU的处理压力，防止CPU卡顿或卡死，CPU接收到所述数字信号后，从所述一路数字信号中获取回声消除的参考信号，最后基于所述参考信号利用AEC算法用所述参考信号抵消麦克风阵列拾取的音乐原声信号，输出语音人声数据。

本实施例的语音增强方法，首先由麦克风阵列拾取的音箱播放的音乐原声和人说话产生的语音人声，经ADC转换为多路数字信号，然后由FPGA将所述多路数字信号转成一路数字信号，送至CPU，由CPU从所述一路数字信号中获取回声消除的参考信号，最后基于所述参考信号利用AEC算法用所述参考信号抵消麦克风阵列拾取的音乐原声信号，输出语音人声数据，直接从麦克风阵列中提取信号作为回声消除的参考信号，无需修改音箱电路，保证音箱的完整性，语音识别准确，输出音频信号强，功率大。

进一步地，参照图2，基于上述实施例的语音增强方法，步骤S30包括：

S31：在所述麦克风阵列中，设定近端信号；

S32：依据所述近端信号，计算该麦克风阵列的参考信号。

在本实施例中，CPU从所述数字信号中获取回声消除的参考信号时，首先需要在麦克风阵列中，设定一麦克风作为近端信号的采集点，该采集点一般为与人声声源距离最近的麦克风位置，然后依据设定的近端信号获取近端信号的对端信号计算该麦克风阵列的参考信号。

进一步地，基于上述实施例的语音增强方法，若所述麦克风阵列为奇数环形阵列，该麦克风阵列的参考信号的计算公式为ref＝(a_n-1+a_n)*r，其中，ref为参考信号，设定a_near为麦克风阵列中的一近端信号，则a_n-1和a_n为麦克风阵列中近端信号a_near的两相邻的对端信号，r为能量系数，0≤r≤1.0。

基于上述实施例的语音增强方法，参照图3，该麦克风阵列由编号为0、1、2、3、4、5、6的7个麦克风组成一环形阵列，如果设定4号麦克风为近端信号的采集点，则a₀和a₁就成为了近端信号a₄的对端信号，则该麦克风阵列的参考信号ref＝(a₀+a₁)*r，由于麦克风阵列中每一麦克风获取的音乐原声的信号功率相同，也即任意两相邻的麦克风都可以作为对端信号的采集点，也即在同一麦克风阵列中无论选择哪一麦克风作为近端信号的采集点，最后计算得出的参考信号ref都是相同的，所以在麦克风阵列中只要有一近端信号，就可以依据公式ref＝(a_n-1+a_n)*r计算得出该麦克风阵列的参考信号。

进一步地，基于上述实施例的语音增强方法，若所述麦克风阵列为偶数环形阵列，该麦克风阵列的参考信号的计算公式为ref＝(a_n-1+a_n)*0.5，其中，ref为参考信号，设定a_near1和a_near2为麦克风阵列中的两相邻的近端信号，则a_n-1和a_n为麦克风阵列中近端信号a_near1和a_near2的两相邻的对端信号。

基于上述实施例的语音增强方法，参照图4，该麦克风阵列由编号为0、1、2、3、4、5的6个麦克风组成一环形阵列，如果设定3号和4号麦克风为近端信号的采集点，则则a₀和a₁就成为了近端信号a₃和a₄的对端信号，则该麦克风阵列的参考信号ref＝(a₀+a₁)*0.5，由于麦克风阵列中每一麦克风获取的音乐原声的信号功率相同，也即任意两相邻的麦克风都可以作为对端信号的采集点，也即在同一麦克风阵列中无论选择哪两个相邻的麦克风作为近端信号的采集点，最后计算得出的参考信号ref都是相同的，所以在麦克风阵列中只要有一组近端信号，就可以依据公式ref＝(a_n-1+a_n)*0.5计算得出该麦克风阵列的参考信号。

本发明进一步提供一种语音增强装置100。

参照图5，图5为本发明的语音增强装置一实施例的功能模块图。

在本实施例中，该语音增强装置100，应用于智能音箱，所述智能音箱设有至少一对相对称的喇叭及与所述喇叭的出声口平行设置的麦克风阵列该语音增强装置100包括：

音频拾取模块10，将麦克风阵列拾取的音乐原声和语音人声经ADC转换为多路数字信号；

数字信号获取模块20，获取所述多路数字信号经转换阵列转换成的一路数字信号；

参考信号获取模块30，从所述一路数字信号中获取回声消除的参考信号；

回声消除模块40，基于所述参考信号利用AEC算法进行所述音乐原声的消除，输出语音人声数据。

在本实施例中，该语音增强装置100包括音频拾取模块10、数字信号获取模块20、参考信号获取模块30、及回声消除模块40，该语音增强装置100应用的智能音箱为一圆柱体，在其他实施例中也可以是四方体或圆锥体结构，在该圆柱体智能音箱的侧面设置有两两对称的4个喇叭，在其他实施例中，也可以是6个、8个或其他复数个喇叭，只要这些喇叭在声学上的保持对称关系，在该圆柱体的顶面设置有一麦克风阵列，该麦克风阵列与所述喇叭的出声口所在的平面平行，以使得每一麦克风接收到的音乐原声信号的功率相同。

在智能音箱播放音乐并检测到语音人声时，音频拾取模块10将麦克风阵列拾取的音箱播放的音乐原声和检测到的语音人声，经I2S协议送至ADC转换为多路数字信号，然后由数字信号获取模块20控制转换阵列将所述多路数字信号转成一路数字信号，经I2S协议发送至CPU，以缓解CPU的处理压力，防止CPU卡顿或卡死，所述转换阵列为FPGA阵列，CPU接收到所述一路数字信号后，由参考信号获取模块30从所述一路数字信号中获取回声消除的参考信号，最后由回声消除模块40基于所述参考信号利用AEC算法用所述参考信号抵消麦克风阵列拾取的音乐原声信号，输出语音人声数据。

本实施例的语音增强装置，首先由音频拾取模块10将麦克风阵列拾取音箱播放的音乐原声和人说话产生的语音人声经ADC转换为多路数字信号，然后由数字信号获取模块20控制FPGA将所述多路数字信号转成一路数字信号，送至CPU，由参考信号获取模块30从所述数字信号中获取回声消除的参考信号，最后由回声消除模块40基于所述参考信号利用AEC算法用所述参考信号抵消麦克风阵列拾取的音乐原声信号，输出语音人声数据，直接从麦克风阵列中提取信号作为回声消除的参考信号，无需修改音箱电路，保证音箱的完整性，语音识别准确，输出音频信号强，功率大。

进一步地，参照图5，基于上述实施例的语音增强装置，参考信号获取模块30包括：

设定单元31，在所述麦克风阵列中，设定近端信号；

计算单元32，依据所述近端信号，计算该麦克风阵列的参考信号。

在本实施例中，该语音增强装置100的参考信号模块30包括设定单元31和计算单元32，CPU对所述数字信号处理时，从中获取回声消除的参考信号，通过设定单元31在麦克风阵列中，设定一麦克风作为近端信号的采集点，该近端信号一般在与人声声源距离最近的麦克风位置进行采集，然后由计算单元32依据设定的近端信号获取近端信号的对端信号，再根据所述对端信号计算该麦克风阵列的参考信号。

进一步地，基于上述实施例的语音增强装置，若所述麦克风阵列为奇数环形阵列，该麦克风阵列的参考信号的计算公式为ref＝(a_n-1+a_n)*r，其中，ref为参考信号，设定a_near为麦克风阵列中的一近端信号，则a_n-1和a_n为麦克风阵列中近端信号a_near的两相邻的对端信号，r为能量系数，0≤r≤1.0。

基于上述实施例的语音增强装置，参照图3，该麦克风阵列由编号为0、1、2、3、4、5、6的7个麦克风组成一环形阵列，如果设定4号麦克风为近端信号的采集点，则a₀和a₁就成为了近端信号a₄的对端信号，则该麦克风阵列的参考信号ref＝(a₀+a₁)*r，由于麦克风阵列中每一麦克风获取的音乐原声的信号功率相同，也即任意两相邻的麦克风都可以作为对端信号的采集点，也即在同一麦克风阵列中无论选择哪一麦克风作为近端信号的采集点，最后计算得出的参考信号ref都是相同的，所以在麦克风阵列中只要有一近端信号，就可以依据公式ref＝(a_n-1+a_n)*r计算得出该麦克风阵列的参考信号。

进一步地，基于上述实施例的语音增强装置，若所述麦克风阵列为偶数环形阵列，该麦克风阵列的参考信号的计算公式为ref＝(a_n-1+a_n)*0.5，其中，ref为参考信号，设定a_near1和a_near2为麦克风阵列中的两相邻的近端信号，则a_n-1和a_n为麦克风阵列中近端信号a_near1和a_near2的两相邻的对端信号。

基于上述实施例的语音增强装置，参照图4，该麦克风阵列由编号为0、1、2、3、4、5的6个麦克风组成一环形阵列，如果设定3号和4号麦克风为近端信号的采集点，则则a₀和a₁就成为了近端信号a₃和a₄的对端信号，则该麦克风阵列的参考信号ref＝(a₀+a₁)*0.5，由于麦克风阵列中每一麦克风获取的音乐原声的信号功率相同，也即任意两相邻的麦克风都可以作为对端信号的采集点，也即在同一麦克风阵列中无论选择哪两个相邻的麦克风作为近端信号的采集点，最后计算得出的参考信号ref都是相同的，所以在麦克风阵列中只要有一组近端信号，就可以依据公式ref＝(a_n-1+a_n)*0.5计算得出该麦克风阵列的参考信号。

本发明还提供一种智能音箱，该智能音箱包括如上所述的语音增强装置100。

在本实施例中，该智能音箱为一圆柱体音箱，其侧面设置有两两对称的4个喇叭，其顶面设置有一由7个麦克风构成的麦克风阵列，该麦克风阵列与所述4个喇叭所在的平面平行，以使得每一麦克风接收到的音乐原声信号的功率相同。该智能音箱还包括CPU、ADC、及FPGA，所述麦克风阵列与FPGA电性连接，FPGA通过I2S协议与ADC连接，ADC通过I2S协议与CPU连接，在智能音箱播放音乐并检测到语音人声时，音频拾取模块10将麦克风阵列拾取的音箱播放的音乐原声和检测到的语音人声，经I2S协议送至ADC转换为多路数字信号，然后由数字信号获取模块20控制FPGA将所述多路数字信号转成一路数字信号，经I2S协议发送至CPU，以缓解CPU的处理压力，防止CPU卡顿或卡死，CPU接收到所述数字信号后，由参考信号获取模块30从所述数字信号中获取回声消除的参考信号，最后由回声消除模块40基于所述参考信号利用AEC算法用所述参考信号抵消麦克风阵列拾取的音乐原声信号，输出语音人声数据，语音识别准确，输出音频信号强，功率大。

在该实施例中，该智能电视应用了如上所述的智能音箱，该智能音箱为一圆柱体音箱，其侧面设置有两两对称的4个喇叭，其顶面设置有一由7个麦克风构成的麦克风阵列，该麦克风阵列与所述4个喇叭所在的平面平行，以使得每一麦克风接收到的音乐原声信号的功率相同。该智能音箱还包括CPU、ADC、及FPGA，所述麦克风阵列与FPGA电性连接，FPGA通过I2S协议与ADC连接，ADC通过I2S协议与CPU连接，在智能音箱播放音乐并检测到语音人声时，音频拾取模块10将麦克风阵列拾取的音箱播放的音乐原声和检测到的语音人声，经I2S协议送至ADC转换为多路数字信号，然后由数字信号获取模块20控制FPGA将所述多路数字信号转成一路数字信号，经I2S协议发送至CPU，以缓解CPU的处理压力，防止CPU卡顿或卡死，CPU接收到所述数字信号后，由参考信号获取模块30从所述数字信号中获取回声消除的参考信号，最后由回声消除模块40基于所述参考信号利用AEC算法用所述参考信号抵消麦克风阵列拾取的音乐原声信号，输出语音人声数据，在用户对着该智能电视讲话时，可以输出准确和清晰的语音人声。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音增强方法，应用于智能音箱，其特征在于，所述智能音箱设有至少一对相对称的喇叭及与所述喇叭的出声口平行设置的麦克风阵列，该语音增强方法包括以下步骤：

获取所述多路数字信号经转换阵列转换成的一路数字信号；

从所述一路数字信号中获取回声消除的参考信号；

2.如权利要求1所述的语音增强方法，其特征在于，所述从所述一路数字信号中获取回声消除的参考信号的步骤包括：

在所述麦克风阵列中，设定近端信号；

依据所述近端信号，计算该麦克风阵列的参考信号。

3.如权利要求1或2所述的语音增强方法，其特征在于，若所述麦克风阵列为奇数环形阵列，所述参考信号的计算公式为ref＝(a_n-1+a_n)*r，其中，ref为参考信号，设定a_near为麦克风阵列中的一近端信号，则a_n-1和a_n为麦克风阵列中近端信号a_near的两相邻的对端信号，r为能量系数，0≤r≤1.0。

4.如权利要求1或2所述的语音增强方法，其特征在于，若所述麦克风阵列为偶数环形阵列，则所述参考信号的计算公式为ref＝(a_n-1+a_n)*0.5，其中，ref为参考信号，设定a_near1和a_near2为麦克风阵列中的两相邻的近端信号，则a_n-1和a_n为麦克风阵列中近端信号a_near1和a_near2的两相邻的对端信号。

5.一种语音增强装置，应用于智能音箱，其特征在于，所述智能音箱设有至少一对相对称的喇叭及与所述喇叭的出声口平行设置的麦克风阵列，该语音增强装置包括：

数字信号获取模块，获取所述多路数字信号经转换阵列转换成的一路数字信号；

6.如权利要求5所述的语音增强装置，其特征在于，所述参考信号获取模块包括：

设定单元，在所述麦克风阵列中，设定近端信号；

7.如权利要求5或6所述的语音增强装置，其特征在于，若所述麦克风阵列为奇数环形阵列，所述参考信号的计算公式为ref＝(a_n-1+a_n)*r，其中，ref为参考信号，设定a_near为麦克风阵列中的一近端信号，则a_n-1和a_n为麦克风阵列中近端信号a_near的两相邻的对端信号，r为能量系数，0≤r≤1.0。

8.如权利要求5或6所述的语音增强装置，其特征在于，若所述麦克风阵列为偶数环形阵列，则所述参考信号的计算公式为ref＝(a_n-1+a_n)*0.5，其中，ref为参考信号，设定a_near1和a_near2为麦克风阵列中的两相邻的近端信号，则a_n-1和a_n为麦克风阵列中近端信号a_near1和a_near2的两相邻的对端信号。

9.一种智能音箱，其特征在于，该智能音箱包括如权利要求5-6任一项所述的语音增强装置。

10.一种智能电视，其特征在于，该智能电视包括如权利要求9所述的智能音箱。