CN104078051B - 一种人声提取方法、系统以及人声音频播放方法及装置 - Google Patents

一种人声提取方法、系统以及人声音频播放方法及装置 Download PDF

Info

Publication number
CN104078051B
CN104078051B CN201310108032.9A CN201310108032A CN104078051B CN 104078051 B CN104078051 B CN 104078051B CN 201310108032 A CN201310108032 A CN 201310108032A CN 104078051 B CN104078051 B CN 104078051B
Authority
CN
China
Prior art keywords
voice
sound
keynote
frequency
height
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310108032.9A
Other languages
English (en)
Other versions
CN104078051A (zh
Inventor
佘海波
王进军
刘书昌
张欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
Nanjing ZTE New Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing ZTE New Software Co Ltd filed Critical Nanjing ZTE New Software Co Ltd
Priority to CN201310108032.9A priority Critical patent/CN104078051B/zh
Priority to PCT/CN2013/082328 priority patent/WO2014153922A1/zh
Publication of CN104078051A publication Critical patent/CN104078051A/zh
Application granted granted Critical
Publication of CN104078051B publication Critical patent/CN104078051B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置,其中,所述方法包括:从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;从样本中检测出主音高;以主音高为参照频率,将原声音信号除样本之外的声音部分中属于同一声源的声音的基音频率与参照频率进行比较确定该声源是否属于人声。本发明可简便地从混合音频中提取人声。

Description

一种人声提取方法、系统以及人声音频播放方法及装置
技术领域
本发明涉及混合音频分离提取领域,尤其涉及一种人声提取方法、系统以及人声音频播放方法及装置。
背景技术
为了实现从双声道立体声等音频中提取人声并对其进行增强,以达到使语音更清晰并有效降噪的目的,需要一种能够从混合音频中提取单一音频的声音分离技术。目前能够满足该要求的技术主要是基于计算听觉场景分析(CASA,Computational AuditoryScene Analysis)的音频分离技术。
听觉场景分析(Auditory Scene Analysis,ASA)技术,由听觉系统利用声音的各种特性(时域、频域、空间位置等)将一路混合声音信号分解成多个信号,且每个信号属于不同的物理声源。计算听觉场景分析(CASA)技术利用计算机技术模拟人体听觉系统,最终使计算机具备类似人耳的声音分辨能力。常规的CASA系统首先将声音分成人声和背景声同时出现的部分和只有背景声的部分;再将人声和背景声同时出现部分的信号通过多通道滤波器分解;对每个通道的信号进行分类,判断其属于人声还是背景声。
但是目前利用CASA技术在对每个通道的信号进行分类,提取人声的方法需要综合考虑音频信号的多种特征,如主音高、多次谐波、能量、幅度调制、起始音和终止音,提取算法复杂,计算量大。
发明内容
本发明提供了一种人声提取方法、系统以及人声音频播放方法及装置,以解决如何简便地从混合音频中提取人声的技术问题。
为解决上述技术问题,本发明提供了一种人声提取方法,所述方法包括:
从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;
从所述样本中检测出主音高;
以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。
进一步地,
以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
将所述原声音信号除所述样本之外的声音部分分成多帧;
将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;
如果一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则该片段为人声片段。
进一步地,所述方法还包括:
对每一帧的全部片段进行是否为人声片段的判定之后,继续从后续相邻帧中检测出主音高,若主音高发生改变,以发生变化的主音高作为参照频率,继续判断帧中的片段是否为人声片段。
进一步地,
所述若主音高发生改变,以发生变化的主音高作为参照频率,包括:
若主音高发生改变,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则以发生变化的主音高作为参照频率。
为解决上述技术问题,本发明还提供了一种人声音频播放方法,所述方法包括:
采用如上所述的方法从原声音信号中提取人声信号;
将所述人声信号与所述原声音信号线性组合后播放。
为解决上述技术问题,本发明还提供了一种人声提取系统,所述系统包括样本提取单元、主音高检测单元、人声检测单元,其中,
所述样本提取单元,用于从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本,并将所述样本发送至所述主音高检测单元;
所述主音高检测单元,用于从所述样本中检测出主音高,并将该主音高发送至所述人声检测单元;
所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声。
进一步地,
所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
所述人声检测单元,用于将所述原声音信号除所述样本之外的声音部分分成多帧;将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;若一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则判断出该片段为人声片段。
进一步地,
所述主音高检测单元,还用于人声检测单元检测完一帧后,继续从后续相邻帧中检测出主音高,若主音高发生改变,将发生变化的主音高作为参照频率发送至所述人声检测单元。
进一步地:
所述主音高检测单元,用于主音高发生改变,将发生变化的主音高作为参照频率,包括:
所述主音高检测单元,用于在主音高发生改变时,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则将发生变化的主音高作为参照频率。
为解决上述技术问题,本发明还提供了一种人声音频播放装置,所述装置包括人声提取系统和播放系统,其中:
所述人声提取系统采用如上所述的系统从原声音信号中提取人声信号,并将该人声信号发送至所述播放系统;
所述播放系统,用于将所述人声信号与所述原声音信号线性组合后播放。
上述技术方案以声音信号的主音高为参照频率判断是否为人声,相对现有提取人声的技术方案,实现简单;而且上述技术方案仅需从原声音信号开始处寻找人声和背景声共同出现的声音信号,不需要将原声音信号分成人声和背景声同时出现的部分和只有背景声的部分,简化了声音的预处理数据量。
附图说明
图1为本实施例的人声提取方法流程图;
图2为本实施例的人声提取系统组成图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1为本实施例的人声提取方法流程图。
S101从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;
如,可从原声音信号开始处读取约10s左右的一段声音,分离成人声与背景声共同出现的部分和只有背景声的部分;如果这10s没有找到人声与背景声共同出现的部分,可读取下一个10s,直到找到人声为止;
S102从所述样本中检测出主音高;
主音高检测也称为基音频率检测;
具体检测步骤可包括:
1)从时域上将样本分割成若干帧,如以20ms为帧长,10ms为帧移;
2)对每一个帧,
首先,进行听觉外围处理:用通道数为N=128的Gammatone滤波器对帧信号进行滤波,Gammatone滤波器脉冲响应的时间形式为:
其中,l为滤波器阶数,b(f)为滤波器带宽,f为滤波器中心频率;
帧经过Gammatone滤波器后得到的每个通道的数据为一个最基本的时-频(T-F)单元;根据人耳的听觉特性,每个时-频(T-F)单元属于一个声源(或属于背景声,或属于人声);
其次,计算每个通道的自相关,得到相关图;在相关图上,利用低频通道的强度最高峰值点信息和高频通道的包络信息判断所在帧的基频;
自相关计算公式为:
Nc是帧周期(自相关窗大小),NO∈[0,Nc],h()是信号输出在通道c和时刻n的值,c表征通道,m表征帧,t由窗最大时延对应的信号频率确定,t的取值为0~12.5ms,T为帧移对应的样本数;
3)在获得每一帧的基频之后,排除偏差较大的基频,取剩余基频的平均值得到主音高;
S103以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
1)将所述原声音信号除所述样本之外的声音部分分成多帧;对于Android平台,由于其把声音看作“流”来输入输出,将声音流读入缓冲区(buffer)交给相关函数进行处理,再将处理后的声音流播放出来;从将声音流读入缓冲区到声音流被播放约等于28ms,因此可将原声音信号除所述样本之外的声音部分按照每28ms为一帧分成多帧;
2)将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;这样,通过时频单元的合并,一帧信号可包括多个片段,这个过程称为分割;
所述多通道滤波器可为Gammatone滤波器;
合并相邻的属于同一声源的时频单元时,先判断相邻时频单元的互相关性,若相邻时频单元的互相关值大于预设的门限,则该相邻时频属于同一个声源;
互相关计算公式为:
其中,(c,m,t)表示归一化的AH(c,m,t)
3)如果一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则该片段为人声片段。
由于人声在歌唱的时候主音高不断变化,为确保作为参照频率的主音高准确反映人声,需要不断的对主音高进行修正,即,对每一帧的全部片段进行是否为人声片段的判定之后,继续从后续相邻帧中检测出主音高,若主音高发生改变,以发生变化的主音高作为参照频率,继续判断帧中的片段是否为人声片段;进一步地,为避免主音高出现短暂的突变,继续判断后续帧的主音高是否为该改变值时,若连续多个后续帧的主音高为该改变值,再以发生变化的主音高作为参照频率。如果对每一帧的全部片段进行是否为人声片段的判定之后,从后续相邻帧中检测不到主音高(如人声消失),则从当前帧向后重新提取人声和背景声共同出现的声音信号作为样本。
这样迭代式的修正主音高,在算法复杂度不高的情况下,能够满足实时处理的需求。
基于上述人声提取方法,本实施例还给出了一种人声音频播放方法。
该方法中,首先采用如上所述的人声提取方法从原声音信号中提取人声信号,再将所述人声信号与所述原声音信号线性组合后播放。分离出的人声与原声叠加可以实现语音增强的效果。
图2为本实施例的人声提取系统组成图。
该系统包括样本提取单元、主音高检测单元、人声检测单元,其中:
所述样本提取单元,用于从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本,并将所述样本发送至所述主音高检测单元;
所述主音高检测单元,用于从所述样本中检测出主音高,并将该主音高发送至所述人声检测单元;
所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声;
该人声检测单元,用于将所述原声音信号除所述样本之外的声音部分分成多帧,如将原声音信号除所述样本之外的声音部分按照每28ms为一帧分成多帧,以适应Android平台的声音处理机制;将每一帧声音信号经过多通道滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;若一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则判断出该片段为人声片段。
由于人声在歌唱的时候主音高不断变化,为确保作为参照频率的主音高准确反映人声,上述主音高检测单元,还用于人声检测单元检测完一帧后,继续从后续相邻帧中检测出主音高,若主音高发生改变,将发生变化的主音高作为参照频率发送至所述人声检测单元;为避免主音高出现短暂的突变,主音高检测单元,在从后续相邻帧中检测出主音高发生改变时,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,再将发生变化的主音高作为参照频率发送至所述人声检测单元。
上述主音高检测单元,还用于从后续相邻帧中检测不到主音高(如人声消失)时,重新触发样本提取单元从当前帧向后重新提取人声和背景声共同出现的声音信号作为样本。
基于上述人声提取系统,本实施例还给出了一种人声音频播放装置。
该装置包括上述人声提取系统以及播放系统;
人声提取系统,用于从原声音信号中提取人声信号,并将该人声信号发送至所述播放系统;;
所述播放系统,用于将所述人声信号与所述原声音信号线性组合后播放。
该装置将分离出的人声与原声叠加可以实现语音增强的效果。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
需要说明的是,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (8)

1.一种人声提取方法,其特征在于,所述方法包括:
从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本;
从所述样本中检测出主音高;
以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声;
其中,以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
将所述原声音信号除所述样本之外的声音部分分成多帧;
将每一帧声音信号经过Gammatone滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;
如果一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则该片段为人声片段。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
对每一帧的全部片段进行是否为人声片段的判定之后,继续从后续相邻帧中检测出主音高,若主音高发生改变,以发生变化的主音高作为参照频率,继续判断帧中的片段是否为人声片段。
3.如权利要求2所述的方法,其特征在于,
所述若主音高发生改变,以发生变化的主音高作为参照频率,包括:
若主音高发生改变,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则以发生变化的主音高作为参照频率。
4.一种人声音频播放方法,其特征在于,所述方法包括:
采用如权利要求1~3中任一项所述的方法从原声音信号中提取人声信号;
将所述人声信号与所述原声音信号线性组合后播放。
5.一种人声提取系统,其特征在于,所述系统包括样本提取单元、主音高检测单元、人声检测单元,其中,
所述样本提取单元,用于从原声音信号开始处提取人声和背景声共同出现的声音信号作为样本,并将所述样本发送至所述主音高检测单元;
所述主音高检测单元,用于从所述样本中检测出主音高,并将该主音高发送至所述人声检测单元;
所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声;
其中,所述人声检测单元,用于以所述主音高为参照频率,将所述原声音信号除所述样本之外的声音部分中属于同一声源的声音的基音频率与所述参照频率进行比较确定该声源是否属于人声,包括:
所述人声检测单元,用于将所述原声音信号除所述样本之外的声音部分分成多帧;将每一帧声音信号经过Gammatone滤波器得到多个时频单元,合并相邻的属于同一声源的时频单元作为一个片段;若一个片段内,超过一半以上的时频单元的基音频率与所述参照频率相等,则判断出该片段为人声片段。
6.如权利要求5所述的系统,其特征在于,
所述主音高检测单元,还用于人声检测单元检测完一帧后,继续从后续相邻帧中检测出主音高,若主音高发生改变,将发生变化的主音高作为参照频率发送至所述人声检测单元。
7.如权利要求6所述的系统,其特征在于:
所述主音高检测单元,用于主音高发生改变,将发生变化的主音高作为参照频率,包括:
所述主音高检测单元,用于在主音高发生改变时,继续判断后续的帧的主音高是否为该改变值,若连续多个后续帧的主音高为该改变值,则将发生变化的主音高作为参照频率。
8.一种人声音频播放装置,其特征在于,所述装置包括人声提取系统和播放系统,其中:
所述人声提取系统采用如权利要求5~7中任一项所述的系统从原声音信号中提取人声信号,并将该人声信号发送至所述播放系统;
所述播放系统,用于将所述人声信号与所述原声音信号线性组合后播放。
CN201310108032.9A 2013-03-29 2013-03-29 一种人声提取方法、系统以及人声音频播放方法及装置 Active CN104078051B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310108032.9A CN104078051B (zh) 2013-03-29 2013-03-29 一种人声提取方法、系统以及人声音频播放方法及装置
PCT/CN2013/082328 WO2014153922A1 (zh) 2013-03-29 2013-08-27 一种人声提取方法、系统以及人声音频播放方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310108032.9A CN104078051B (zh) 2013-03-29 2013-03-29 一种人声提取方法、系统以及人声音频播放方法及装置

Publications (2)

Publication Number Publication Date
CN104078051A CN104078051A (zh) 2014-10-01
CN104078051B true CN104078051B (zh) 2018-09-25

Family

ID=51599272

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310108032.9A Active CN104078051B (zh) 2013-03-29 2013-03-29 一种人声提取方法、系统以及人声音频播放方法及装置

Country Status (2)

Country Link
CN (1) CN104078051B (zh)
WO (1) WO2014153922A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105321526B (zh) * 2015-09-23 2020-07-24 联想(北京)有限公司 音频处理方法和电子设备
CN106571150B (zh) * 2015-10-12 2021-04-16 阿里巴巴集团控股有限公司 一种识别音乐中的人声的方法和系统
CN105632489A (zh) * 2016-01-20 2016-06-01 曾戟 一种语音播放方法和装置
CN105719657A (zh) * 2016-02-23 2016-06-29 惠州市德赛西威汽车电子股份有限公司 基于单麦克风的人声提取方法及装置
CN105810212B (zh) * 2016-03-07 2019-04-23 合肥工业大学 一种复杂噪声环境下的列车鸣笛识别方法
CN108962277A (zh) * 2018-07-20 2018-12-07 广州酷狗计算机科技有限公司 语音信号分离方法、装置、计算机设备以及存储介质
CN109036455B (zh) * 2018-09-17 2020-11-06 中科上声(苏州)电子有限公司 直达声与背景声提取方法、扬声器系统及其声重放方法
CN109524016B (zh) * 2018-10-16 2022-06-28 广州酷狗计算机科技有限公司 音频处理方法、装置、电子设备及存储介质
CN113348508A (zh) * 2019-01-23 2021-09-03 索尼集团公司 电子设备、方法和计算机程序

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622193A (zh) * 2004-12-24 2005-06-01 北京中星微电子有限公司 一种语音信号检测方法
CN101193460A (zh) * 2006-11-20 2008-06-04 松下电器产业株式会社 检测声音的装置及方法
CN102945675A (zh) * 2012-11-26 2013-02-27 江苏物联网研究发展中心 检测户外呼救声音的智能传感网络系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3114757B2 (ja) * 1992-01-30 2000-12-04 富士通株式会社 音声認識装置
JP2003058186A (ja) * 2001-08-13 2003-02-28 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
CN1808571A (zh) * 2005-01-19 2006-07-26 松下电器产业株式会社 声音信号分离系统及方法
CN1945689B (zh) * 2006-10-24 2011-04-27 北京中星微电子有限公司 一种从歌曲中提取伴奏乐的方法及其装置
EP2116999B1 (en) * 2007-09-11 2015-04-08 Panasonic Corporation Sound determination device, sound determination method and program therefor
KR101459766B1 (ko) * 2008-02-12 2014-11-10 삼성전자주식회사 휴대 단말에서 자동반주 악보를 인식하는 방법
CN101577117B (zh) * 2009-03-12 2012-04-11 无锡中星微电子有限公司 伴奏音乐提取方法及装置
CN102054480B (zh) * 2009-10-29 2012-05-30 北京理工大学 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN102402977B (zh) * 2010-09-14 2015-12-09 无锡中星微电子有限公司 从立体声音乐中提取伴奏、人声的方法及其装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1622193A (zh) * 2004-12-24 2005-06-01 北京中星微电子有限公司 一种语音信号检测方法
CN101193460A (zh) * 2006-11-20 2008-06-04 松下电器产业株式会社 检测声音的装置及方法
CN102945675A (zh) * 2012-11-26 2013-02-27 江苏物联网研究发展中心 检测户外呼救声音的智能传感网络系统

Also Published As

Publication number Publication date
WO2014153922A1 (zh) 2014-10-02
CN104078051A (zh) 2014-10-01

Similar Documents

Publication Publication Date Title
CN104078051B (zh) 一种人声提取方法、系统以及人声音频播放方法及装置
Adeel et al. Contextual deep learning-based audio-visual switching for speech enhancement in real-world environments
Chen et al. Continuous speech separation: Dataset and analysis
EP3469584B1 (en) Neural decoding of attentional selection in multi-speaker environments
CN105405439B (zh) 语音播放方法及装置
US9432720B2 (en) Localized audio source extraction from video recordings
CN105405448B (zh) 一种音效处理方法及装置
WO2019246220A1 (en) Data driven audio enhancement
CN108780643A (zh) 自动配音方法和装置
CN102388416A (zh) 信号处理装置及信号处理方法
US8489404B2 (en) Method for detecting audio signal transient and time-scale modification based on same
CN104134444B (zh) 一种基于mmse的歌曲去伴奏方法和装置
CN110880329A (zh) 一种音频识别方法及设备、存储介质
Roman et al. Pitch-based monaural segregation of reverberant speech
US8571873B2 (en) Systems and methods for reconstruction of a smooth speech signal from a stuttered speech signal
Hummersone A psychoacoustic engineering approach to machine sound source separation in reverberant environments
CN111640411B (zh) 音频合成方法、装置及计算机可读存储介质
Andermann et al. Neuromagnetic correlates of voice pitch, vowel type, and speaker size in auditory cortex
US20230164509A1 (en) System and method for headphone equalization and room adjustment for binaural playback in augmented reality
WO2017045512A1 (zh) 一种语音识别的方法、装置、终端及语音识别设备
Zeremdini et al. A comparison of several computational auditory scene analysis (CASA) techniques for monaural speech segregation
Hussain et al. A novel speech intelligibility enhancement model based on canonical correlation and deep learning
JP6003083B2 (ja) 信号処理装置、信号処理方法、およびプログラム、電子機器、並びに、信号処理システムおよび信号処理システムの信号処理方法
CN104008753B (zh) 一种信息处理方法和电子设备
CN114495946A (zh) 声纹聚类方法、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180625

Address after: 210012 No. 68, Bauhinia Road, Ningnan street, Yuhuatai District, Nanjing, Jiangsu

Applicant after: Nanjing Zhongxing Software Co., Ltd.

Address before: 210012, Bauhinia Road, Yuhua District, Jiangsu, Nanjing 68, China

Applicant before: ZTE Corporation

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20191108

Address after: 518057 Nanshan District science and Technology Industrial Park, Guangdong high tech Industrial Park, ZTE building

Patentee after: ZTE Communications Co., Ltd.

Address before: 210012 Nanjing, Yuhuatai District, South Street, Bauhinia Road, No. 68

Patentee before: Nanjing Zhongxing Software Co., Ltd.