CN104078051A - 一种人声提取方法、系统以及人声音频播放方法及装置 - Google Patents

一种人声提取方法、系统以及人声音频播放方法及装置 Download PDF

Info

Publication number
CN104078051A
CN104078051A CN201310108032.9A CN201310108032A CN104078051A CN 104078051 A CN104078051 A CN 104078051A CN 201310108032 A CN201310108032 A CN 201310108032A CN 104078051 A CN104078051 A CN 104078051A
Authority
CN
China
Prior art keywords
keynote
voice
frequency
sound
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310108032.9A
Other languages
English (en)
Other versions
CN104078051B (zh
Inventor
佘海波
王进军
刘书昌
张欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201310108032.9A priority Critical patent/CN104078051B/zh
Priority to PCT/CN2013/082328 priority patent/WO2014153922A1/zh
Publication of CN104078051A publication Critical patent/CN104078051A/zh
Application granted granted Critical
Publication of CN104078051B publication Critical patent/CN104078051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置,其中,所述方法包括:从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;从样本中检测出主音高;以主音高为参照频率,将原声音信号除样本之外的声音部分中属于同一声源的声音的基音频率与参照频率进行比较确定该声源是否属于人声。本发明可简便地从混合音频中提取人声。

Description

一种人声提取方法、系统以及人声音频播放方法及装置
技术领域
本发明涉及混合音频分离提取领域,尤其涉及一种人声提取方法、系统以及人声音频播放方法及装置。
背景技术
为了实现从双声道立体声等音频中提取人声并对其进行增强,以达到使语音更清晰并有效降噪的目的,需要一种能够从混合音频中提取单一音频的声音分离技术。目前能够满足该要求的技术主要是基于计算听觉场景分析(CASA,Computational Auditory Scene Analysis)的音频分离技术。
听觉场景分析(Auditory Scene Analysis,ASA)技术,由听觉系统利用声音的各种特性(时域、频域、空间位置等)将一路混合声音信号分解成多个信号,且每个信号属于不同的物理声源。计算听觉场景分析(CASA)技术利用计算机技术模拟人体听觉系统,最终使计算机具备类似人耳的声音分辨能力。常规的CASA系统首先将声音分成人声和背景声同时出现的部分和只有背景声的部分;再将人声和背景声同时出现部分的信号通过多通道滤波器分解;对每个通道的信号进行分类,判断其属于人声还是背景声。
但是目前利用CASA技术在对每个通道的信号进行分类,提取人声的方法需要综合考虑音频信号的多种特征,如主音高、多次谐波、能量、幅度调制、起始音和终止音,提取算法复杂,计算量大。
发明内容
本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置,以解决如何简便地从混合音频中提取人声的技术问题。
为解决上述技术问题,本发明提供了一种人声提取方法,所述方法包括:
从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;
从所述样本中检测出主音高;
以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。
进一步地,
以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
将所述原声音信号除所述样本之外的声音部分分成多帧;
将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;
如果一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则该片段为人声片段。
进一步地,所述方法还包括:
对每一帧的全部片段进行是否为人声片段的判定之后,继续从后续相邻帧中检测出主音高,若主音高发生改变,以发生变化的主音高作为参照频率,继续判断帧中的片段是否为人声片段。
进一步地,
所述若主音高发生改变,以发生变化的主音高作为参照频率,包括:
若主音高发生改变,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则以发生变化的主音高作为参照频率。
为解决上述技术问题,本发明还提供了一种人声音频播放方法,所述方法包括:
采用如上所述的方法从原声音信号中提取人声信号;
将所述人声信号与所述原声音信号线性组合后播放。
为解决上述技术问题,本发明还提供了一种人声提取系统,所述系统包括样本提取单元、主音高检测单元、人声检测单元,其中,
所述样本提取单元,用于从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本,并将所述样本发送至所述主音高检测单元;
所述主音高检测单元,用于从所述样本中检测出主音高,并将该主音高发送至所述人声检测单元;
所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。
进一步地,
所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
所述人声检测单元,用于将所述原声音信号除所述样本之外的声音部分分成多帧;将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;若一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则判断出该片段为人声片段。
进一步地,
所述主音高检测单元,还用于人声检测单元检测完一帧后,继续从后续相邻帧中检测出主音高,若主音高发生改变,将发生变化的主音高作为参照频率发送至所述人声检测单元。
进一步地:
所述主音高检测单元,用于主音高发生改变,将发生变化的主音高作为参照频率,包括:
所述主音高检测单元,用于在主音高发生改变时,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则将发生变化的主音高作为参照频率。
为解决上述技术问题,本发明还提供了一种人声音频播放装置,所述装置包括人声提取系统和播放系统,其中:
所述人声提取系统采用如上所述的系统从原声音信号中提取人声信号,并将该人声信号发送至所述播放系统;
所述播放系统,用于将所述人声信号与所述原声音信号线性组合后播放。
上述技术方案以声音信号的主音高为参照频率判断是否为人声,相对现有提取人声的技术方案,实现简单;而且上述技术方案仅需从原声音信号开始处寻找人声和背景声共同出现的声音信号,不需要将原声音信号分成人声和背景声同时出现的部分和只有背景声的部分,简化了声音的预处理数据量。
附图说明
图1为本实施例的人声提取方法流程图;
图2为本实施例的人声提取系统组成图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1为本实施例的人声提取方法流程图。
S101从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;
如,可从原声音信号开始处读取约10s左右的一段声音,分离成人声与背景声共同出现的部分和只有背景声的部分;如果这10s没有找到人声与背景声共同出现的部分,可读取下一个10s,直到找到人声为止;
S102从所述样本中检测出主音高;
主音高检测也称为基音频率检测;
具体检测步骤可包括:
1)从时域上将样本分割成若干帧,如以20ms为帧长,10ms为帧移;
2)对每一个帧,
首先,进行听觉外围处理:用通道数为N=128的Gammatone滤波器对帧信号进行滤波,Gammatone滤波器脉冲响应的时间形式为:
g ( f , t ) = t l - 1 exp { - 2 &pi;b ( f ) t } cos 2 &pi;ft , t &GreaterEqual; 0 0 , t < 0
其中,l为滤波器阶数,b(f)为滤波器带宽,f为滤波器中心频率;
帧经过Gammatone滤波器后得到的每个通道的数据为一个最基本的时-频(T-F)单元;根据人耳的听觉特性,每个时-频(T-F)单元属于一个声源(或属于背景声,或属于人声);
其次,计算每个通道的自相关,得到相关图;在相关图上,利用低频通道的强度最高峰值点信息和高频通道的包络信息判断所在帧的基频;
自相关计算公式为:
A H ( c , m , t ) = 1 N c &Sigma; n = 0 N 0 - 1 h ( c , mT - n ) h ( c , mT - n - t )
Nc是帧周期(自相关窗大小),NO∈[0,Nc],h()是信号输出在通道c和时刻n的值,c表征通道,m表征帧,t由窗最大时延对应的信号频率确定,t的取值为0~12.5ms,T为帧移对应的样本数;
3)在获得每一帧的基频之后,排除偏差较大的基频,取剩余基频的平均值得到主音高;
S103以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
1)将所述原声音信号除所述样本之外的声音部分分成多帧;对于Android平台,由于其把声音看作“流”来输入输出,将声音流读入缓冲区(buffer)交给相关函数进行处理,再将处理后的声音流播放出来;从将声音流读入缓冲区到声音流被播放约等于28ms,因此可将原声音信号除所述样本之外的声音部分按照每28ms为一帧分成多帧;
2)将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;这样,通过时频单元的合并,一帧信号可包括多个片段,这个过程称为分割;
所述多通道滤波器可为Gammatone滤波器;
合并相邻的属于同一声源的时频单元时,先判断相邻时频单元的互相关性,若相邻时频单元的互相关值大于预设的门限,则该相邻时频属于同一个声源;
互相关计算公式为:
C H ( c , m ) = &Sigma; t = 0 L - 1 A ^ H ( c , m , t ) A ^ H ( c + 1 , m , t )
其中,(c,m,t)表示归一化的AH(c,m,t)
3)如果一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则该片段为人声片段。
由于人声在歌唱的时候主音高不断变化,为确保作为参照频率的主音高准确反映人声,需要不断的对主音高进行修正,即,对每一帧的全部片段进行是否为人声片段的判定之后,继续从后续相邻帧中检测出主音高,若主音高发生改变,以发生变化的主音高作为参照频率,继续判断帧中的片段是否为人声片段;进一步地,为避免主音高出现短暂的突变,继续判断后续帧的主音高是否为该改变值时,若连续多个后续帧的主音高为该改变值,再以发生变化的主音高作为参照频率。如果对每一帧的全部片段进行是否为人声片段的判定之后,从后续相邻帧中检测不到主音高(如人声消失),则从当前帧向后重新提取人声和背景声共同出现的声音信号作为样本。
这样迭代式的修正主音高,在算法复杂度不高的情况下,能够满足实时处理的需求。
基于上述人声提取方法,本实施例还给出了一种人声音频播放方法。
该方法中,首先采用如上所述的人声提取方法从原声音信号中提取人声信号,再将所述人声信号与所述原声音信号线性组合后播放。分离出的人声与原声叠加可以实现语音增强的效果。
图2为本实施例的人声提取系统组成图。
该系统包括样本提取单元、主音高检测单元、人声检测单元,其中:
所述样本提取单元,用于从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本,并将所述样本发送至所述主音高检测单元;
所述主音高检测单元,用于从所述样本中检测出主音高,并将该主音高发送至所述人声检测单元;
所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声;
该人声检测单元,用于将所述原声音信号除所述样本之外的声音部分分成多帧,如将原声音信号除所述样本之外的声音部分按照每28ms为一帧分成多帧,以适应Android平台的声音处理机制;将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;若一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则判断出该片段为人声片段。
由于人声在歌唱的时候主音高不断变化,为确保作为参照频率的主音高准确反映人声,上述主音高检测单元,还用于人声检测单元检测完一帧后,继续从后续相邻帧中检测出主音高,若主音高发生改变,将发生变化的主音高作为参照频率发送至所述人声检测单元;为避免主音高出现短暂的突变,主音高检测单元,在从后续相邻帧中检测出主音高发生改变时,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,再将发生变化的主音高作为参照频率发送至所述人声检测单元。
上述主音高检测单元,还用于从后续相邻帧中检测不到主音高(如人声消失)时,重新触发样本提取单元从当前帧向后重新提取人声和背景声共同出现的声音信号作为样本。
基于上述人声提取系统,本实施例还给出了一种人声音频播放装置。
该装置包括上述人声提取系统以及播放系统;
人声提取系统,用于从原声音信号中提取人声信号,并将该人声信号发送至所述播放系统;;
所述播放系统,用于将所述人声信号与所述原声音信号线性组合后播放。
该装置将分离出的人声与原声叠加可以实现语音增强的效果。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种人声提取方法,其特征在于,所述方法包括:
从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;
从所述样本中检测出主音高;
以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。
2.如权利要求1所述的方法,其特征在于,
以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
将所述原声音信号除所述样本之外的声音部分分成多帧;
将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;
如果一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则该片段为人声片段。
3.如权利要求2所述的方法,其特征在于,所述方法还包括:
对每一帧的全部片段进行是否为人声片段的判定之后,继续从后续相邻帧中检测出主音高,若主音高发生改变,以发生变化的主音高作为参照频率,继续判断帧中的片段是否为人声片段。
4.如权利要求3所述的方法,其特征在于,
所述若主音高发生改变,以发生变化的主音高作为参照频率,包括:
若主音高发生改变,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则以发生变化的主音高作为参照频率。
5.一种人声音频播放方法,其特征在于,所述方法包括:
采用如权利要求1~4中任一项所述的方法从原声音信号中提取人声信号;
将所述人声信号与所述原声音信号线性组合后播放。
6.一种人声提取系统,其特征在于,所述系统包括样本提取单元、主音高检测单元、人声检测单元,其中,
所述样本提取单元,用于从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本,并将所述样本发送至所述主音高检测单元;
所述主音高检测单元,用于从所述样本中检测出主音高,并将该主音高发送至所述人声检测单元;
所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。
7.如权利要求6所述的系统,其特征在于:
所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
所述人声检测单元,用于将所述原声音信号除所述样本之外的声音部分分成多帧;将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;若一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则判断出该片段为人声片段。
8.如权利要求7所述的系统,其特征在于,
所述主音高检测单元,还用于人声检测单元检测完一帧后,继续从后续相邻帧中检测出主音高,若主音高发生改变,将发生变化的主音高作为参照频率发送至所述人声检测单元。
9.如权利要求8所述的系统,其特征在于:
所述主音高检测单元,用于主音高发生改变,将发生变化的主音高作为参照频率,包括:
所述主音高检测单元,用于在主音高发生改变时,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则将发生变化的主音高作为参照频率。
10.一种人声音频播放装置,其特征在于,所述装置包括人声提取系统和播放系统,其中:
所述人声提取系统采用如权利要求5~9所述的系统从原声音信号中提取人声信号,并将该人声信号发送至所述播放系统;
所述播放系统,用于将所述人声信号与所述原声音信号线性组合后播放。
CN201310108032.9A 2013-03-29 2013-03-29 一种人声提取方法、系统以及人声音频播放方法及装置 Active CN104078051B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310108032.9A CN104078051B (zh) 2013-03-29 2013-03-29 一种人声提取方法、系统以及人声音频播放方法及装置
PCT/CN2013/082328 WO2014153922A1 (zh) 2013-03-29 2013-08-27 一种人声提取方法、系统以及人声音频播放方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310108032.9A CN104078051B (zh) 2013-03-29 2013-03-29 一种人声提取方法、系统以及人声音频播放方法及装置

Publications (2)

Publication Number Publication Date
CN104078051A true CN104078051A (zh) 2014-10-01
CN104078051B CN104078051B (zh) 2018-09-25

Family

ID=51599272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310108032.9A Active CN104078051B (zh) 2013-03-29 2013-03-29 一种人声提取方法、系统以及人声音频播放方法及装置

Country Status (2)

Country Link
CN (1) CN104078051B (zh)
WO (1) WO2014153922A1 (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105321526A (zh) * 2015-09-23 2016-02-10 联想(北京)有限公司 音频处理方法和电子设备
CN105632489A (zh) * 2016-01-20 2016-06-01 曾戟 一种语音播放方法和装置
CN105719657A (zh) * 2016-02-23 2016-06-29 惠州市德赛西威汽车电子股份有限公司 基于单麦克风的人声提取方法及装置
CN105810212A (zh) * 2016-03-07 2016-07-27 合肥工业大学 一种复杂噪声环境下的列车鸣笛识别方法
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN109036455A (zh) * 2018-09-17 2018-12-18 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
CN109524016A (zh) * 2018-10-16 2019-03-26 广州酷狗计算机科技有限公司 音频处理方法、装置、电子设备及存储介质
WO2020015270A1 (zh) * 2018-07-20 2020-01-23 广州酷狗计算机科技有限公司 语音信号分离方法、装置、计算机设备以及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05210397A (ja) * 1992-01-30 1993-08-20 Fujitsu Ltd 音声認識装置
JP2003058186A (ja) * 2001-08-13 2003-02-28 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
CN1622193A (zh) * 2004-12-24 2005-06-01 北京中星微电子有限公司 一种语音信号检测方法
CN1808571A (zh) * 2005-01-19 2006-07-26 松下电器产业株式会社 声音信号分离系统及方法
CN1945689A (zh) * 2006-10-24 2007-04-11 北京中星微电子有限公司 一种从歌曲中提取伴奏乐的方法及其装置
CN101193460A (zh) * 2006-11-20 2008-06-04 松下电器产业株式会社 检测声音的装置及方法
US20090202106A1 (en) * 2008-02-12 2009-08-13 Tae-Hwa Hong Method for recognizing music score image with automatic accompaniment in mobile device
CN101577117A (zh) * 2009-03-12 2009-11-11 北京中星微电子有限公司 伴奏音乐提取方法及装置
CN101601088A (zh) * 2007-09-11 2009-12-09 松下电器产业株式会社 声音判断装置、声音检测装置以及声音判断方法
CN102054480A (zh) * 2009-10-29 2011-05-11 北京理工大学 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN102402977A (zh) * 2010-09-14 2012-04-04 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
CN102945675A (zh) * 2012-11-26 2013-02-27 江苏物联网研究发展中心 检测户外呼救声音的智能传感网络系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05210397A (ja) * 1992-01-30 1993-08-20 Fujitsu Ltd 音声認識装置
JP2003058186A (ja) * 2001-08-13 2003-02-28 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
CN1622193A (zh) * 2004-12-24 2005-06-01 北京中星微电子有限公司 一种语音信号检测方法
CN1808571A (zh) * 2005-01-19 2006-07-26 松下电器产业株式会社 声音信号分离系统及方法
CN1945689A (zh) * 2006-10-24 2007-04-11 北京中星微电子有限公司 一种从歌曲中提取伴奏乐的方法及其装置
CN101193460A (zh) * 2006-11-20 2008-06-04 松下电器产业株式会社 检测声音的装置及方法
CN101601088A (zh) * 2007-09-11 2009-12-09 松下电器产业株式会社 声音判断装置、声音检测装置以及声音判断方法
US20090202106A1 (en) * 2008-02-12 2009-08-13 Tae-Hwa Hong Method for recognizing music score image with automatic accompaniment in mobile device
CN101577117A (zh) * 2009-03-12 2009-11-11 北京中星微电子有限公司 伴奏音乐提取方法及装置
CN102054480A (zh) * 2009-10-29 2011-05-11 北京理工大学 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN102402977A (zh) * 2010-09-14 2012-04-04 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置
CN102945675A (zh) * 2012-11-26 2013-02-27 江苏物联网研究发展中心 检测户外呼救声音的智能传感网络系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DECHEVEIGNE,A: ""Separation of concurrent harmonic sounds -fundamental-frequency estimation and a time-domain cancellation model of auditory processing"", 《JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA》 *
LI YIPENG ET AL: ""Separation of Singing Voice From Music Accompaniment for Monaural Recordings"", 《IEEE TRANSACTION ON AUDIO,SPEECH,AND LANGUAGE PROCESSING》 *
STUBBS,RJ ET AL: ""Evaluation of 2 voice-separation algorithm using normal-hearing and hearing-impaired listeners"", 《JOURNAL OF THE ACOUSTICAL SOCIETY OF AMERICA》 *
毛鹏 等: ""一种对混合说话人特征提取的新方法"", 《计算机系统应用》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105321526A (zh) * 2015-09-23 2016-02-10 联想(北京)有限公司 音频处理方法和电子设备
CN105321526B (zh) * 2015-09-23 2020-07-24 联想(北京)有限公司 音频处理方法和电子设备
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN105632489A (zh) * 2016-01-20 2016-06-01 曾戟 一种语音播放方法和装置
CN105719657A (zh) * 2016-02-23 2016-06-29 惠州市德赛西威汽车电子股份有限公司 基于单麦克风的人声提取方法及装置
CN105810212A (zh) * 2016-03-07 2016-07-27 合肥工业大学 一种复杂噪声环境下的列车鸣笛识别方法
CN105810212B (zh) * 2016-03-07 2019-04-23 合肥工业大学 一种复杂噪声环境下的列车鸣笛识别方法
WO2020015270A1 (zh) * 2018-07-20 2020-01-23 广州酷狗计算机科技有限公司 语音信号分离方法、装置、计算机设备以及存储介质
CN109036455A (zh) * 2018-09-17 2018-12-18 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
CN109524016A (zh) * 2018-10-16 2019-03-26 广州酷狗计算机科技有限公司 音频处理方法、装置、电子设备及存储介质
CN109524016B (zh) * 2018-10-16 2022-06-28 广州酷狗计算机科技有限公司 音频处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2014153922A1 (zh) 2014-10-02
CN104078051B (zh) 2018-09-25

Similar Documents

Publication Publication Date Title
CN104078051A (zh) 一种人声提取方法、系统以及人声音频播放方法及装置
Goehring et al. Using recurrent neural networks to improve the perception of speech in non-stationary noise by people with cochlear implants
KR101269296B1 (ko) 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기
CN101960516B (zh) 语音增强
CA2448178C (en) Method for time aligning audio signals using characterizations based on auditory events
WO2020224217A1 (zh) 语音处理方法、装置、计算机设备及存储介质
CN103456312B (zh) 一种基于计算听觉场景分析的单通道语音盲分离方法
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
CN103440872A (zh) 瞬态噪声的去噪方法
Roman et al. Pitch-based monaural segregation of reverberant speech
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
CN103985390A (zh) 一种基于伽马通相关图语音特征参数提取方法
US10665248B2 (en) Device and method for classifying an acoustic environment
Hu Monaural speech organization and segregation
Zeremdini et al. A comparison of several computational auditory scene analysis (CASA) techniques for monaural speech segregation
Seo et al. Convolutional neural networks using log mel-spectrogram separation for audio event classification with unknown devices
CN103077706B (zh) 对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法
Yu et al. Improved monaural speech segregation based on computational auditory scene analysis
Roman et al. A classification-based cocktail-party processor
Lin et al. Focus on the sound around you: Monaural target speaker extraction via distance and speaker information
Lopatka et al. Improving listeners' experience for movie playback through enhancing dialogue clarity in soundtracks
CN112259118A (zh) 单声道人声与背景音乐分离方法
CN107578784B (zh) 一种从音频中提取目标源的方法及装置
CN106328159B (zh) 一种音频流的处理方法及装置
CN113257284B (zh) 语音活动检测模型训练、语音活动检测方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180625

Address after: 210012 No. 68, Bauhinia Road, Ningnan street, Yuhuatai District, Nanjing, Jiangsu

Applicant after: Nanjing Zhongxing Software Co., Ltd.

Address before: 210012, Bauhinia Road, Yuhua District, Jiangsu, Nanjing 68, China

Applicant before: ZTE Corporation

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191108

Address after: 518057 Nanshan District science and Technology Industrial Park, Guangdong high tech Industrial Park, ZTE building

Patentee after: ZTE Communications Co., Ltd.

Address before: 210012 Nanjing, Yuhuatai District, South Street, Bauhinia Road, No. 68

Patentee before: Nanjing Zhongxing Software Co., Ltd.