CN104078051A

CN104078051A - 一种人声提取方法、系统以及人声音频播放方法及装置

Info

Publication number: CN104078051A
Application number: CN201310108032.9A
Authority: CN
Inventors: 佘海波; 王进军; 刘书昌; 张欣
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2014-10-01
Anticipated expiration: 2033-03-29
Also published as: WO2014153922A1; CN104078051B

Abstract

本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置，其中，所述方法包括：从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本；从样本中检测出主音高；以主音高为参照频率，将原声音信号除样本之外的声音部分中属于同一声源的声音的基音频率与参照频率进行比较确定该声源是否属于人声。本发明可简便地从混合音频中提取人声。

Description

一种人声提取方法、系统以及人声音频播放方法及装置

技术领域

本发明涉及混合音频分离提取领域，尤其涉及一种人声提取方法、系统以及人声音频播放方法及装置。

背景技术

为了实现从双声道立体声等音频中提取人声并对其进行增强，以达到使语音更清晰并有效降噪的目的，需要一种能够从混合音频中提取单一音频的声音分离技术。目前能够满足该要求的技术主要是基于计算听觉场景分析(CASA，Computational Auditory Scene Analysis)的音频分离技术。

听觉场景分析(Auditory Scene Analysis，ASA)技术，由听觉系统利用声音的各种特性(时域、频域、空间位置等)将一路混合声音信号分解成多个信号，且每个信号属于不同的物理声源。计算听觉场景分析(CASA)技术利用计算机技术模拟人体听觉系统，最终使计算机具备类似人耳的声音分辨能力。常规的CASA系统首先将声音分成人声和背景声同时出现的部分和只有背景声的部分；再将人声和背景声同时出现部分的信号通过多通道滤波器分解；对每个通道的信号进行分类，判断其属于人声还是背景声。

但是目前利用CASA技术在对每个通道的信号进行分类，提取人声的方法需要综合考虑音频信号的多种特征，如主音高、多次谐波、能量、幅度调制、起始音和终止音，提取算法复杂，计算量大。

发明内容

本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置，以解决如何简便地从混合音频中提取人声的技术问题。

为解决上述技术问题，本发明提供了一种人声提取方法，所述方法包括：

从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本；

从所述样本中检测出主音高；

以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。

进一步地，

以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声，包括：

将所述原声音信号除所述样本之外的声音部分分成多帧；

将每一帧声音信号经过多通道滤波器得到多个时频单元，合并相邻的属于同一声源的时频单元作为一个片段；

如果一个片段内，超过一半以上的时频单元的基音频率与所述参照频率相等，则该片段为人声片段。

进一步地，所述方法还包括：

对每一帧的全部片段进行是否为人声片段的判定之后，继续从后续相邻帧中检测出主音高，若主音高发生改变，以发生变化的主音高作为参照频率，继续判断帧中的片段是否为人声片段。

进一步地，

所述若主音高发生改变，以发生变化的主音高作为参照频率，包括：

若主音高发生改变，继续判断后续的帧的主音高是否为该改变值，若连续多个后续帧的主音高为该改变值，则以发生变化的主音高作为参照频率。

为解决上述技术问题，本发明还提供了一种人声音频播放方法，所述方法包括：

采用如上所述的方法从原声音信号中提取人声信号；

将所述人声信号与所述原声音信号线性组合后播放。

为解决上述技术问题，本发明还提供了一种人声提取系统，所述系统包括样本提取单元、主音高检测单元、人声检测单元，其中，

所述样本提取单元，用于从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本，并将所述样本发送至所述主音高检测单元；

所述主音高检测单元，用于从所述样本中检测出主音高，并将该主音高发送至所述人声检测单元；

所述人声检测单元，用于以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。

进一步地，

所述人声检测单元，用于以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声，包括：

所述人声检测单元，用于将所述原声音信号除所述样本之外的声音部分分成多帧；将每一帧声音信号经过多通道滤波器得到多个时频单元，合并相邻的属于同一声源的时频单元作为一个片段；若一个片段内，超过一半以上的时频单元的基音频率与所述参照频率相等，则判断出该片段为人声片段。

进一步地，

所述主音高检测单元，还用于人声检测单元检测完一帧后，继续从后续相邻帧中检测出主音高，若主音高发生改变，将发生变化的主音高作为参照频率发送至所述人声检测单元。

进一步地：

所述主音高检测单元，用于主音高发生改变，将发生变化的主音高作为参照频率，包括：

所述主音高检测单元，用于在主音高发生改变时，继续判断后续的帧的主音高是否为该改变值，若连续多个后续帧的主音高为该改变值，则将发生变化的主音高作为参照频率。

为解决上述技术问题，本发明还提供了一种人声音频播放装置，所述装置包括人声提取系统和播放系统，其中：

所述人声提取系统采用如上所述的系统从原声音信号中提取人声信号，并将该人声信号发送至所述播放系统；

所述播放系统，用于将所述人声信号与所述原声音信号线性组合后播放。

上述技术方案以声音信号的主音高为参照频率判断是否为人声，相对现有提取人声的技术方案，实现简单；而且上述技术方案仅需从原声音信号开始处寻找人声和背景声共同出现的声音信号，不需要将原声音信号分成人声和背景声同时出现的部分和只有背景声的部分，简化了声音的预处理数据量。

附图说明

图1为本实施例的人声提取方法流程图；

图2为本实施例的人声提取系统组成图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

图1为本实施例的人声提取方法流程图。

S101从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本；

如，可从原声音信号开始处读取约10s左右的一段声音，分离成人声与背景声共同出现的部分和只有背景声的部分；如果这10s没有找到人声与背景声共同出现的部分，可读取下一个10s，直到找到人声为止；

S102从所述样本中检测出主音高；

主音高检测也称为基音频率检测；

具体检测步骤可包括：

1)从时域上将样本分割成若干帧，如以20ms为帧长，10ms为帧移；

2)对每一个帧，

首先，进行听觉外围处理：用通道数为N＝128的Gammatone滤波器对帧信号进行滤波，Gammatone滤波器脉冲响应的时间形式为：

g (f, t) = \{\begin{matrix} t^{l - 1} \exp {- 2 πb (f) t} \cos 2 πft, t &GreaterEqual; 0 \\ 0, t < 0 \end{matrix}

其中，l为滤波器阶数，b(f)为滤波器带宽，f为滤波器中心频率；

帧经过Gammatone滤波器后得到的每个通道的数据为一个最基本的时-频(T-F)单元；根据人耳的听觉特性，每个时-频(T-F)单元属于一个声源(或属于背景声，或属于人声)；

其次，计算每个通道的自相关，得到相关图；在相关图上，利用低频通道的强度最高峰值点信息和高频通道的包络信息判断所在帧的基频；

自相关计算公式为：

A_{H} (c, m, t) = \frac{1}{N_{c}} Σ_{n = 0}^{N_{0} - 1} h (c, mT - n) h (c, mT - n - t)

N_c是帧周期(自相关窗大小)，N_O∈[0，N_c]，h()是信号输出在通道c和时刻n的值，c表征通道，m表征帧，t由窗最大时延对应的信号频率确定，t的取值为0～12.5ms，T为帧移对应的样本数；

3)在获得每一帧的基频之后，排除偏差较大的基频，取剩余基频的平均值得到主音高；

S103以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声，包括：

1)将所述原声音信号除所述样本之外的声音部分分成多帧；对于Android平台，由于其把声音看作“流”来输入输出，将声音流读入缓冲区(buffer)交给相关函数进行处理，再将处理后的声音流播放出来；从将声音流读入缓冲区到声音流被播放约等于28ms，因此可将原声音信号除所述样本之外的声音部分按照每28ms为一帧分成多帧；

2)将每一帧声音信号经过多通道滤波器得到多个时频单元，合并相邻的属于同一声源的时频单元作为一个片段；这样，通过时频单元的合并，一帧信号可包括多个片段，这个过程称为分割；

所述多通道滤波器可为Gammatone滤波器；

合并相邻的属于同一声源的时频单元时，先判断相邻时频单元的互相关性，若相邻时频单元的互相关值大于预设的门限，则该相邻时频属于同一个声源；

互相关计算公式为：

C_{H} (c, m) = Σ_{t = 0}^{L - 1} {\hat{A}}_{H} (c, m, t) {\hat{A}}_{H} (c + 1, m, t)

其中，(c，m，t)表示归一化的A_H(c，m，t)

3)如果一个片段内，超过一半以上的时频单元的基音频率与所述参照频率相等，则该片段为人声片段。

由于人声在歌唱的时候主音高不断变化，为确保作为参照频率的主音高准确反映人声，需要不断的对主音高进行修正，即，对每一帧的全部片段进行是否为人声片段的判定之后，继续从后续相邻帧中检测出主音高，若主音高发生改变，以发生变化的主音高作为参照频率，继续判断帧中的片段是否为人声片段；进一步地，为避免主音高出现短暂的突变，继续判断后续帧的主音高是否为该改变值时，若连续多个后续帧的主音高为该改变值，再以发生变化的主音高作为参照频率。如果对每一帧的全部片段进行是否为人声片段的判定之后，从后续相邻帧中检测不到主音高(如人声消失)，则从当前帧向后重新提取人声和背景声共同出现的声音信号作为样本。

这样迭代式的修正主音高，在算法复杂度不高的情况下，能够满足实时处理的需求。

基于上述人声提取方法，本实施例还给出了一种人声音频播放方法。

该方法中，首先采用如上所述的人声提取方法从原声音信号中提取人声信号，再将所述人声信号与所述原声音信号线性组合后播放。分离出的人声与原声叠加可以实现语音增强的效果。

图2为本实施例的人声提取系统组成图。

该系统包括样本提取单元、主音高检测单元、人声检测单元，其中：

所述人声检测单元，用于以所述主音高为参照频率，将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声；

该人声检测单元，用于将所述原声音信号除所述样本之外的声音部分分成多帧，如将原声音信号除所述样本之外的声音部分按照每28ms为一帧分成多帧，以适应Android平台的声音处理机制；将每一帧声音信号经过多通道滤波器得到多个时频单元，合并相邻的属于同一声源的时频单元作为一个片段；若一个片段内，超过一半以上的时频单元的基音频率与所述参照频率相等，则判断出该片段为人声片段。

由于人声在歌唱的时候主音高不断变化，为确保作为参照频率的主音高准确反映人声，上述主音高检测单元，还用于人声检测单元检测完一帧后，继续从后续相邻帧中检测出主音高，若主音高发生改变，将发生变化的主音高作为参照频率发送至所述人声检测单元；为避免主音高出现短暂的突变，主音高检测单元，在从后续相邻帧中检测出主音高发生改变时，继续判断后续的帧的主音高是否为该改变值，若连续多个后续帧的主音高为该改变值，再将发生变化的主音高作为参照频率发送至所述人声检测单元。

上述主音高检测单元，还用于从后续相邻帧中检测不到主音高(如人声消失)时，重新触发样本提取单元从当前帧向后重新提取人声和背景声共同出现的声音信号作为样本。

基于上述人声提取系统，本实施例还给出了一种人声音频播放装置。

该装置包括上述人声提取系统以及播放系统；

人声提取系统，用于从原声音信号中提取人声信号，并将该人声信号发送至所述播放系统；；

该装置将分离出的人声与原声叠加可以实现语音增强的效果。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

需要说明的是，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种人声提取方法，其特征在于，所述方法包括：

从所述样本中检测出主音高；

2.如权利要求1所述的方法，其特征在于，

将所述原声音信号除所述样本之外的声音部分分成多帧；

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

4.如权利要求3所述的方法，其特征在于，

5.一种人声音频播放方法，其特征在于，所述方法包括：

采用如权利要求1～4中任一项所述的方法从原声音信号中提取人声信号；

将所述人声信号与所述原声音信号线性组合后播放。

6.一种人声提取系统，其特征在于，所述系统包括样本提取单元、主音高检测单元、人声检测单元，其中，

7.如权利要求6所述的系统，其特征在于：

8.如权利要求7所述的系统，其特征在于，

9.如权利要求8所述的系统，其特征在于：

10.一种人声音频播放装置，其特征在于，所述装置包括人声提取系统和播放系统，其中：

所述人声提取系统采用如权利要求5～9所述的系统从原声音信号中提取人声信号，并将该人声信号发送至所述播放系统；