CN103198834B

CN103198834B - 一种音频信号处理方法、装置及终端

Info

Publication number: CN103198834B
Application number: CN201210001235.3A
Authority: CN
Inventors: 刘玮哲; 刘霖; 黄健
Original assignee: China Mobile Communications Group Co Ltd
Current assignee: China Mobile Communications Group Co Ltd
Priority date: 2012-01-04
Filing date: 2012-01-04
Publication date: 2016-12-14
Anticipated expiration: 2032-01-04
Also published as: WO2013102403A1; CN103198834A

Abstract

本发明实施例提供一种音频信号处理方法、装置及终端，包括：在对音频信号进行编码时，通过接收到的视频信号确定接收到的音频信号的种类，在确定接收到的音频信号为语音信号时，利用时域编码的方式对该音频信号进行编码，在确定接收到的音频信号为非语音信号时，利用频域编码的方式对该音频信号进行编码，从而对识别出的语音信号和非语音信号分别进行编码，并实现声音的传输。

Description

一种音频信号处理方法、装置及终端

技术领域

本发明涉及终端领域，尤其涉及一种音频信号处理方法、装置及终端。

背景技术

随着第三代移动通信技术(3G，3rd-generation)的快速发展，可视电话逐步在3G网络中得到了较多的应用。在目前的可视电话技术中，低码率音频编码技术是可视电话应用中的一个关键技术。

在低码率音频编码领域，存在2个主要的技术路线，一种是时域编码，一种是频域编码。

时域编码是针对音频信号的波形，进行编码。针对时域编码比较典型的有国际电信联盟(ITU，International Telecommunication Union)G.729、G.723.1和G.728等编码标准，这些编码标准广泛采用了码激励线性预测(CELP)技术，从原理上根据人类的发生机理建模，利用人类声门、声道固有的特性，去除音频信号里面的冗余信息，从而在保持较高的音频质量的同时，大幅度的降低了音频编码所需的比特率。

在这类音频编码方法中，最致命的缺陷在于该方法主要适用于人类发声(语音信号)，对于杂乱无章(包括音乐、噪声以及其他声音)的音频信号(非语音信号)，编码效果较差。

频域编码的原理在于，利用人耳对于声音的接受原理，在频域对于音频信号进行编码。重点编码人类关注的频段，而对于被其他频段掩蔽或是人类不易感知的频段，采用粗略量化或是不量化的策略。

频域编码的优势在于根据人耳的特性，去除了一定的冗余，因此对各种音频信号的编码效果几乎相当，尤其对于音乐等信号的编码质量要高于时域编码。但是在语音信号上，其编码时并未考虑人类发声机理，无法去除发声冗余，因此编码效果要远低于基于CELP技术的时域编码。

现有的可视电话技术中，由于语音信息相对重要，因此通常采用基于CELP技术的时域编码。基于时域编码的低码率音频编码可以在很低的码率上为可视电话应用提供较高质量的语音编码质量，确保可视电话中较为清晰、易懂的语音通信能力。但是，可视电话在进行语音通信的同时，经常会伴随其他的声音(非语音)，比如通话方要让对方听音乐或是其他声音的情况，此时，采用基于时域编码的低码率音频编码导致编码质量很差，声音失真严重。

发明内容

本发明实施例提供一种音频信号处理方法、装置及终端，用于解决声音传输过程中采用单一编码导致声音传输质量较差的问题。

一种低码率音频编码方法，所述方法包括：

在接收音频信号的同时，接收视频信号；

根据接收到的视频信号，确定所述音频信号为语音信号或非语音信号；

在确定所述音频信号为语音信号时，利用基于时域编码的低码率音频编码对所述音频信号进行编码，否则，在确定所述音频信号为非语音信号时，利用基于频域编码的低码率音频编码对所述音频信号进行编码。

一种低码率音频编码装置，所述装置包括：

第一接收模块，用于接收音频信号；

第二接收模块，用于接收视频信号；

确定模块，用于根据接收到的视频信号，确定所述音频信号为语音信号或非语音信号；

第一编码模块，用于在确定模块确定所述音频信号为语音信号时，利用基于时域编码的低码率音频编码对所述音频信号进行编码；

第二编码模块，用于在确定模块确定所述音频信号为非语音信号时，利用基于频域编码的低码率音频编码对所述音频信号进行编码。

一种终端，所述终端包括上述低码率音频编码装置。

根据本发明实施例提供的方案，在对音频信号进行编码时，通过接收到的视频信号确定接收到的音频信号的种类，在确定接收到的音频信号为语音信号时，利用时域编码的方式对该音频信号进行编码，在确定接收到的音频信号为非语音信号时，利用频域编码的方式对该音频信号进行编码，从而对识别出的语音信号和非语音信号分别进行编码，并实现声音的传输。

附图说明

图1为本发明实施例一提供的音频信号处理方法的步骤流程图；

图2为本发明实施例一提供的码流示意图；

图3为本发明实施例二提供的音频信号处理装置的结构示意图；

图4为本发明实施例三提供的终端的结构示意图。

具体实施方式

本发明实施例中，在可视电话环境下，利用可视电话中的图像捕捉，根据图像的信息，判别音频是无规律音频还是语音，从而指导音频编码。实现在编码码率不变的情况下，提高音频编码质量。

下面结合说明书附图和各实施例对本发明方案进行说明。

实施例一、

本发明实施例一提供一种音频信号处理方法，该方法可以但不限于应用于可视电话音频编码领域，该方法的步骤如图1所示，包括：

步骤101、接收信号。

在本步骤中，不仅需要接收音频信号，还需要接收音频信号。因此，本步骤包括：在接收音频信号的同时，接收视频信号。所述视频信号可以是可视电话中配置的摄像头针对设定区域进行拍摄获得的。

步骤102、确定音频信号的种类。

在本步骤中，可以根据接收到的视频信号，确定所述音频信号为语音信号或非语音信号。

在本步骤中，可以确定当前接收到的视频信号(当前视频帧)中是否存在指定的图像，即确定摄像头当前拍摄的设定区域中是否包含指定的图像，具体的，可以根据像素信息，确定当前接收到的视频信号(当前视频帧)中是否存在指定的图像，若该视频信号中存在指定的图像，确定距离该视频信号时间最短的一个已接收的视频信号(上一视频帧)：

若该已接收的视频信号中存在指定的图像，在该已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移的绝对值满足设定的阈值时，确定当前接收到的音频信号为语音信号，否则，确定当前接收到的音频信号为非语音信号。

所述当前接收到的音频信号可以是指在本次确定出音频信号种类的时刻到下次确定出音频信号种类的时刻之间接收到的音频信号。此时，由于在目前技术和设备硬件能力下，采集一帧视频帧的时间非常短，如20ms，对视频信号的处理速度非常快，且在利用可视电话进行通话过程中，一段音频信号的时间一般较长，因此可以对音频信号开始的一段延迟忽略不计。当然，也可以在利用可视电话进行的一次通话过程中，在利用视频信号初次确定音频信号种类的时间内，设定该时间内接收到的音频信号的种类为语音信号或非语音信号。

为了利用视频信号确定音频信号的种类，所述指定的图像可以但不限于是嘴唇、喉咙等发声器官。并可以在当前视频帧与上一视频帧中指定的图像的相对位移的绝对值满足设定的阈值时，具体的，所述指定的图像为嘴唇时，可以根据人类发声时，嘴唇面积(上嘴唇和下嘴唇围成的区域所占的面积)会发生变化的特点，判断嘴唇面积变化的绝对值是否满足设定的阈值，如大于第一阈值，确定当前音频信号是人类发出的语音信号，否则，确定当前音频信号不是人类发出的语音信号，属于非语音信号。当然，也可以根据人类发声时，上(下)嘴唇会发生上下移动的特点，判断上(或下)嘴唇移动的位移的绝对值是否满足设定的阈值，如是否大于第二阈值，并在判断上(或下)嘴唇移动的位移的绝对值满足设定的阈值时，确定当前音频信号是人类发出的语音信号，否则，确定当前音频信号不是人类发出的语音信号，属于非语音信号。

进一步的，若确定当前接收到的视频信号中不存在指定的图像，可以确定当前接收到的音频信号为非语音信号。若确定当前接收到的视频信号中存在指定的图像，且所述已接收的视频信号中不存在指定的图像，确定当前接收到的音频信号为语音信号。

当然，除了可以结合上一视频帧和当前视频帧来确定当前接收到的音频信号的种类，也可以仅根据当前接收到的视频信号来确定当前接收到的音频信号的种类，具体的，可以确定当前接收到的视频信号中是否存在指定的图像，若不存在，确定当前接收到的音频信号为非语音信号，否则，确定当前接收到的音频信号为语音信号。

可以采用现有的图像识别方法从视频帧中识别指定的图像。例如，在识别嘴唇时，可以根据嘴唇在色彩上与通话者皮肤及其他器官存在较大差异，在采集到的视频帧中，嘴唇图像像素中的红色分量(R分量)与绿色分量(G分量)的差异与其他区块有明显的不同的特点，利用R分量与G分量的差异作为从视频帧中识别嘴唇图像的方法。

具体的，可以通过如下公式(1)实现嘴唇图像的识别：

h (x, y) = \frac{R (x, y)}{G (x, y) + R (x, y)} - - - (1)

其中，R(x，y)表示在像素点(x，y)上的R分量值，G(x，y)表示在像素点(x，y)上的G分量值。h(x，y)表示像素点(x，y)上的红、绿分量的差异。

可以利用h(x，y)分量对图像进行二值化，二值化的门限值可以根据多人训练得到(可以以不同肤色，不同性别，不同年龄的人)二值化的最佳门限值。对二值化后的像素信息进行整理，去除零散的噪声点即可以得到嘴唇的估计区域(上嘴唇和下嘴唇围成的区域)，实现对嘴唇图像的识别。

且进一步的，可以通过以下方法确定当前视频帧与上一视频帧中指定的图像的相对位移：

若在当前视频帧搜索到嘴唇区域(嘴唇图像)后，根据该区域的坐标点，裁切出该区域对应的二值化点阵，设嘴唇区域对应的二值化点阵用P表示，该点阵的面积可以用A(P)表示。对于点阵P中任意一个像素点(x，y)，在上一视频帧二值化像素值为h′(x，y)，在当前视频帧的二值化像素值为h(x，y)，可以通过如下公式(2)计算上一视频帧和当前视频帧中嘴唇区域的差别，用D表示：

D = \frac{Σ_{p} {(h (x, y) - h^{'} (x, y))}^{2}}{A (P)} - - - (2)

并可以在确定D满足设定的阈值时，确定当前音频信号是人类发出的语音信号，否则，确定当前音频信号不是人类发出的语音信号，属于非语音信号。

步骤103、对音频信号进行编码。

在确定所述音频信号为语音信号时，利用基于时域编码的低码率音频编码对所述音频信号进行编码，具体的，可以采用现有的编码方式，如根据ITUG.729/728/723.1，3GPPAMR-NB/WB或是其他基于CELP技术的编码方式进行编码，否则，在确定所述音频信号为非语音信号时，利用基于频域编码的低码率音频编码对所述音频信号进行编码，具体的，可以采用现有的编码方式，如使用感知加权，在快速傅里叶变换(FFT，Fast Fourier Transform)域进行格型矢量量化的编码方式。

步骤104、对编码后的数据量化输出。

在对音频信号进行编码后，可以对编码后获得的数据进行量化，组织码流并输出。且可以在码流头设置标识位，对采用时域编码获得的码流和对采用频域编码获得的码流进行区分，用于后续的解码操作。具体的，如图2所示为带有标识位的码流，在对语音信号采用CELP编码(基于CELP技术的编码方式)，对非语音信号采用变换域编码(基于频域编码的编码方式)时，在编码完成后，可以在码流头设置一个标识位，该标识位为0，标识该码流是CELP码流(语音码流)，该标识位为1，标识该码流是变换域编码码流(非语音码流)。

在解码端，可以根据标识位，选择使用变换域解码器还是CELP解码器，从而得到正确的解码码流。

与本发明实施例一基于同一发明构思，提供以下的装置和终端。

实施例二、

本发明实施例二提供一种音频信号处理装置，该装置可以但不限于应用于可视电话音频编码领域，该装置的结构如图3所示，包括：

第一接收模块11用于接收音频信号；第二接收模块12用于接收视频信号；确定模块13用于根据接收到的视频信号，确定所述音频信号为语音信号或非语音信号；第一编码模块14用于在确定模块确定所述音频信号为语音信号时，利用基于时域编码的低码率音频编码对所述音频信号进行编码；第二编码模块15用于在确定模块确定所述音频信号为非语音信号时，利用基于频域编码的低码率音频编码对所述音频信号进行编码。

所述确定模块13具体用于确定当前接收到的视频信号中是否存在指定的图像，若该视频信号中存在指定的图像，确定距离该视频信号时间最短的一个已接收的视频信号：若该已接收的视频信号中存在指定的图像，在该已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移的绝对值满足设定的阈值时，确定当前接收到的音频信号为语音信号，否则，确定当前接收到的音频信号为非语音信号。

所述确定模块13还用于在确定当前接收到的视频信号中不存在指定的图像时，确定当前接收到的音频信号为非语音信号；以及，在确定当前接收到的视频信号中存在指定的图像，且所述已接收的视频信号中不存在指定的图像时，确定当前接收到的音频信号为语音信号。

所述确定模块13具体用于确定当前接收到的视频信号中是否存在指定的图像，若不存在，确定当前接收到的音频信号为非语音信号，否则，确定当前接收到的音频信号为语音信号。

所述装置还包括：

码流输出模块16用于对编码后获得的数据进行量化，并组织码流输出，所述码流中包括标识位，用于标识该码流对应的数据的编码方式。如，可以将标识位设置为0，标识该码流为采用时域编码获得的码流，将标识位设置为1，标识该码流为采用频域编码获得的码流。

实施例三、

本发明实施例三提供一种终端，该终端的结构可以如图4所示，该终端中可以集成有本发明实施例二提供的装置，且所述终端中还可以包括进一步包括视频信号采集模块21和音频信号采集模块22：

视频信号采集模块21用于向所述第二接收模块提供视频信号；

音频信号采集模块22用于向所述第一接收模块提供音频信号。

所述终端还可以包括音频信号输出模块23用于输出编码后的音频信号。当然，所述终端还可以进一步包括视频信号输出模块24用于输出视频信号。即所述终端可以仅传输编码后的音频信号，也可以在传输编码后的音频信号的同时，传输视频信号。

具体的，本发明实施例二提供的装置可以集成在可视电话中，该装置可以独立于可视电话的摄像头，且该装置的第二接收模块可以利用摄像头(可以作为视频信号采集模块)采集的视频信号来确定音频信号的种类。当然，可视电话的摄像头也可以作为第二接收模块集成在该装置中，用于采集视频信号来确定音频信号的种类。

根据本发明实施例一～和实施例三提供的方案，可以通过视频信号来确定音频信号的种类，从而确定对音频信号的编码方法，提高音频编码质量，减少声音失真。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

在接收音频信号的同时，接收视频信号；

根据接收到的视频信号的像素信息确定接收到的视频信号中是否包含指定的图像以确定所述音频信号为语音信号或非语音信号，若该视频信号中存在指定的图像，确定距离该视频信号时间最短的一个已接收的视频信号；若该已接收的视频信号中存在指定的图像，在该已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移的绝对值满足设定的阈值时，确定当前接收到的音频信号为语音信号，否则，确定当前接收到的音频信号为非语音信号，其中，按照以下公式确定已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移：其中，D为已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移，P为指定的图像所在区域对应的二值化点阵，A(P)表示所述点阵的面积；(x,y)表示点阵P中任意一个像素点，h'(x,y)表示已接收的视频帧二值化像素值；h(x,y)表示当前接收到的视频帧的二值化像素值；

在确定所述音频信号为语音信号时，利用基于时域编码的低码率音频编码对所述音频信号进行编码，否则，在确定所述音频信号为非语音信号时，利用基于频域编码的低码率音频编码对所述音频信号进行编码；

对编码后获得的数据进行量化，并组织码流输出，所述码流中包括标识位，用于标识该码流对应的数据的编码方式。

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

若确定当前接收到的视频信号中不存在指定的图像，确定当前接收到的音频信号为非语音信号；

若确定当前接收到的视频信号中存在指定的图像，且所述已接收的视频信号中不存在指定的图像，确定当前接收到的音频信号为语音信号。

3.一种音频信号处理装置，其特征在于，所述装置包括：

第一接收模块，用于接收音频信号；

第二接收模块，用于接收视频信号；

确定模块，用于根据接收到的视频信号的像素信息确定接收到的视频信号中是否包含指定的图像以确定所述音频信号为语音信号或非语音信号，具体用于若该视频信号中存在指定的图像，确定距离该视频信号时间最短的一个已接收的视频信号；若该已接收的视频信号中存在指定的图像，在该已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移的绝对值满足设定的阈值时，确定当前接收到的音频信号为语音信号，否则，确定当前接收到的音频信号为非语音信号，其中，按照以下公式确定已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移：其中，D为已接收的视频信号中指定的图像与当前接收到的视频信号中指定的图像的相对位移，P为指定的图像所在区域对应的二值化点阵，A(P)表示所述点阵的面积；(x,y)表示点阵P中任意一个像素点，h'(x,y)表示已接收的视频帧二值化像素值；h(x,y)表示当前接收到的视频帧的二值化像素值；

第二编码模块，用于在确定模块确定所述音频信号为非语音信号时，利用基于频域编码的低码率音频编码对所述音频信号进行编码；

码流输出模块，用于对编码后获得的数据进行量化，并组织码流输出，所述码流中包括标识位，用于标识该码流对应的数据的编码方式。

4.如权利要求3所述的装置，其特征在于，

所述确定模块，还用于在确定当前接收到的视频信号中不存在指定的图像时，确定当前接收到的音频信号为非语音信号；以及，在确定当前接收到的视频信号中存在指定的图像，且所述已接收的视频信号中不存在指定的图像时，确定当前接收到的音频信号为语音信号。

5.一种终端，其特征在于，所述终端包括如权利要求3或4任一所述的装置。

6.如权利要求5所述的终端，其特征在于，所述终端还包括视频信号采集模块和音频信号采集模块：

视频信号采集模块，用于向所述第二接收模块提供视频信号；

音频信号采集模块，用于向所述第一接收模块提供音频信号。

7.如权利要求5所述的终端，其特征在于，所述终端还包括音频信号输出模块，用于输出编码后的音频信号。

8.如权利要求7所述的终端，其特征在于，所述终端还包括视频信号输出模块，用于输出视频信号。