CN1758331A - 基于基音频率的快速音频分割方法 - Google Patents

基于基音频率的快速音频分割方法 Download PDF

Info

Publication number
CN1758331A
CN1758331A CNA2005100613586A CN200510061358A CN1758331A CN 1758331 A CN1758331 A CN 1758331A CN A2005100613586 A CNA2005100613586 A CN A2005100613586A CN 200510061358 A CN200510061358 A CN 200510061358A CN 1758331 A CN1758331 A CN 1758331A
Authority
CN
China
Prior art keywords
audio
frame
fundamental frequency
frequency
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100613586A
Other languages
English (en)
Other versions
CN100485780C (zh
Inventor
杨莹春
吴朝晖
杨旻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CNB2005100613586A priority Critical patent/CN100485780C/zh
Publication of CN1758331A publication Critical patent/CN1758331A/zh
Application granted granted Critical
Publication of CN100485780C publication Critical patent/CN100485780C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于基音频率的快速音频分割方法,首先用基音频率从音频中检测语音,然后用能量将非语音部分分成静音和非静音,最后在语音片段之间检测说话人改变,由说话人改变点得到最终分割结果。本发明有益的效果是:利用韵律特征基音频率实现静音、语音和非语音的分割,消除非语音对说话人分割的不利影响;而基音频率较倒谱特征更节省计算时间。

Description

基于基音频率的快速音频分割方法
技术领域
本发明涉及信号处理和模式识别,主要是一种基于基音频率的快速音频分割方法。
背景技术
说话人检索技术是指利用信号处理和模式识别方法,在大量音频文档中检索特定说话人的技术。说话人检索技术需要解决两个问题,即谁在说话,和在什么时候说话。通常的说话人检索借助声纹特征识别技术来解决谁在说话的问题,而在什么时候说话则需要用到音频分割。
常用的分割方法有基于贝叶斯信息准则的分割和基于KL2距离的分割。贝叶斯信息准则的分割方法通过计算“两段音频特征服从同一个高斯分布”和“两段音频特征分别服从两个高斯分布”两个假设的贝叶斯值来决定是否分割。但贝叶斯信息准则往往仅局限于说话人之间的分割,对于噪音等特征分布无规律的情况缺乏鲁棒性。另外贝叶斯信息准则的运算速度较慢,不利于实时处理。
基于KL2距离的分割方法比较特征的KL2距离,并与经验阈值比较来确定说话人改变。但基于KL2距离的算法用于计算距离的语音段来自于移动的固定长度的窗,使得距离值并不可靠。
现有的分割方法大多仅使用倒谱特征(MFCC)而忽略了韵律特征,但实际上基音频率等韵律特征在区分语音和噪音、不同说话人的语音之间有很大的作用。
发明内容
本发明要解决上述技术所存在的缺陷,提供一种基于基音频率的快速音频分割方法,通过用基音频率来检测语音和说话人改变,实现将音频分割成属于不同人的语音段,用于说话人检索的音频分割方法。
本发明解决其技术问题所采用的技术方案:首先用基音频率从音频中检测语音,然后用能量将非语音部分分成静音和非静音,最后在语音片段之间检测说话人改变,由说话人改变点得到最终分割结果。
本发明解决其技术问题所采用的技术方案还可以进一步完善。该方法具体包括如下步骤:
1)、对音频进行预处理:音频预处理分为采样量化,去零漂,预加重和加窗三个部分;
2)、音频特征提取:音频帧上的特征提取包括能量,过零率和基音频率的提取;将音频分帧后计算各帧基音频率,并将通过自相关效验的连续帧归为一个语音段;
3)、语音检测:将连续的基音频率不为0的帧归为语音段,连续的基音频率为0的帧归为非语音段;
4)、静音检测:通过计算自适应能量阈值将基音频率为0的帧分类为静音和非语音;
5)、说话人改变检测:说话人改变检测为将相邻语音段之间的距离与自适应阈值比较,确定说话人改变点。
本发明有益的效果是:利用韵律特征基音频率实现静音、语音和非语音的分割,消除非语音对说话人分割的不利影响;而基音频率较倒谱特征更节省计算时间。
附图说明
图1是本发明的算法流程图;
具体实施方式
下面结合附图和实施例对本发明作进一步介绍:本发明的方法共分五步。
第一步:音频预处理
音频预处理分为采样量化,去零漂,预加重和加窗三个部分。
1、采样量化
A)、用锐截止滤波器对音频信号进行滤波,使其奈奎斯特频率FN为4KHZ;
B)、设置音频采样率F=2FN
C)、对音频信号sa(t)按周期进行采样,得到数字音频信号的振幅序列 s ( n ) = s a ( n F ) ;
D)、用脉冲编码调制(PCM)对s(n)进行量化编码,得到振幅序列的量化表示s’(n)。
2、去零漂
A)、计算量化的振幅序列的平均值 s;
B)、将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n)。
3、预加重
A)、设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取比1稍小的值;
B)、s”(n)通过数字滤波器,得到音频信号的高、中、低频幅度相当的振幅序列s(n)。
4、加窗
A)、计算音频帧的帧长N(32毫秒)和帧移量T(10毫秒),分别满足:
N F = 0.032
T F = 0.010
这里F是音频采样率,单位为Hz;
B)、以帧长为N、帧移量为T,把s(n)划分成一系列的音频帧Fm,每一音频帧包含N个音频信号样本;
C)、计算哈明窗函数:
D)、对每一音频帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=0,1,…,N-1}。
第二步:特征提取
音频帧上的特征提取包括能量,过零率和基音频率(Pitch)的提取。
1、能量的提取:
E = Σ n = 1 N s 2 ( n )
2、能量阈值的计算
这里需要计算能量阈值进行随后的静音检测。用固定的能量阈值来检测静音有很大的局限性,因为各种环境下的音频能量相差很大,但语音和静音之间能量大小的相对关系是不变的,所以可以计算自适应阈值:
Threshold(E)=min(E)+0.3×[mean(E)-min(E)]
其中,Threshold(E)是自适应能量阈值,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值。
3、Pitch的提取:
A)、设置基音频率的搜索范围ffloor=50,fceiling=1250(Hz);
B)、设置语音的基音频率的取值范围fmin=50,fmax=550(Hz);
C)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k)。
D)、计算每个频率的SHR(分谐波-谐波比例)
SHR=SS/SH
其中 SS = Σ n = 1 N X ( ( n - 1 / 2 ) f ) , SH = Σ n = 1 N X ( nf ) , N=fceiling/f
E)、找出SHR最高的频率f1
F)、如果f1>fmax或者f1的SS-SH<0,那么认为是非语音或静音帧,基音频率为0,Pitch=0
G)、在[1.9375f1,2.0625f1]的区间寻找SHR的局部极大的频率f2
H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1
I)、其他情况,Pitch=f2
J)、对得到的基音频率进行自相关效验:
从帧的中点开始,前后各取1/pitch长的采样点,计算它们的自相关值C,如果C<0.2那么认为基音频率值不可靠,Pitch=0。
K)、最后对全部的Pitch值进行中值平滑滤波。
第三步、语音检测
在提取基音频率时已经进行过语音判断,所以只需要将连续的基音频率不为0的帧归为语音段,连续的基音频率为0的帧归为非语音段即可。
第四步、静音检测
1、静音预检
A)、语音段和非语音段的能量定义如下:
E=mean(E)+0.3×[max(E)-mean(E)]
其中,E是静音段的能量,mean(E)是段内各帧能量的平均值,max(E)是段内各帧能量的最大值。
B)、段能量与能量阈值比较,如果低于阈值则视为静音。
2、平滑处理
A)、将连续的静音段合并成一段;
B)、低于10帧(0.1秒)的静音段被视为连续语音间的短时停顿而舍去。
第五步、说话人改变检测
每一说话人的语音特征在特征空间中都形成了特定的分布,可以用这一分布来描述说话人的个性。不同说话人的分布也不同,所以可以用特征分布之间的相似度来检测说话人的改变。在这里我们用T2距离来计算每个语音段之间的Pitch特征距离。
1、T2距离计算
为了检测说话人改变,需要计算每两个相邻的语音段之间的T2距离。T2距离定义如下:
T 2 = ab a + b ( μ 1 - μ 2 ) T Σ - 1 ( μ 1 - μ 2 )
其中a,b是段的长度,μ1,μ2是各段内Pitch的平均值,∑是共同的协方差矩阵。
2、自适应阈值计算
通过比较T2距离与阈值,可以检测是否存在说话人改变。自适应阈值的计算公式如下:
T=μ+λσ
其中μ是全局平均距离,σ是距离方差,λ是惩罚系数,这里设成-1.5。
3、合并
如果两个语音段之间的距离小于阈值,那么这两个语音段被视为属于同一个说话人,可以将这两个语音段合并成一个。如果这两个语音段之间存在静音,那么这段静音也将被合并进来。如果两个语音段之间存在非静音,则不合并。这是为了防止噪音的干扰。
实验结果
本系统在1997 Mandarin Broadcast News Speech Corpus(Hub4-NE)新闻广播语音上进行了实验。这个语音库包括CCTV,KAZN和VOA的新闻广播,总时间40个小时左右,其中约10小时的内容是音乐或噪音。
我们同时在这个库上用基于贝叶斯信息准则的分割方法和基于KL2距离的分割方法进行了同样的实验,用于和本系统进行对比。这两种方法都是直接用说话人特征MFCC在固定的窗长(1秒)之间搜索说话人改变。
基于贝叶斯信息准则的方法比较两个假设的参数估计的似然度和参数使用数。假设1:两个窗属于同一个说话人,特征服从同一个高斯分布;假设2:两个窗属于不同的说话人,特征分别服从两个高斯分布。如果假设2的贝叶斯值(似然度减去惩罚项参数个数)较高,则认为有说话人改变。
KL2距离是用于说话人分割的方法。通过计算两段语音的说话人特征之间的KL2距离并与阈值比较,以检测存在说话人改变。
我们对分割算法的结果进行五方面的评估:
1)分割点误检率:错误的分割点占检测出分割点的比例
2)分割点漏检率:未检测出的分割点占实际分割点的比例
3)纯语音比例:检测纯语音段总长度占实际语音总长度的比例
4)语音段召回率:被检测出的实际语音段比例
5)检索等错误率:说话人检索实验中错误拒绝率与错误接收率相等时的值
纯语音段的定义是只包含一个说话人语音的语音段。包含噪音或者多个说话人语音的语音段是不纯语音段。纯语音比例是纯语音段总长度占全部语音长度的比例。语音段召回率是指被检测出有对应纯语音段的语音段比例。这两个指标可以更好的衡量分割效果对说话人检索的作用,是误检率和漏检率的补充。检索等错误率是在分割的结果基础上做说话人检索实验的等错误率。这个指标用来衡量分割算法的最终效果。
实验结果如下:
  算法   误检率   漏检率   纯语音比例   召回率   检索等错误率
  BIC   25.87%   13.37%   72.39%   85.42%   15.91%
  KL2   25.50%   14.42%   71.69%   83.72%   25.84%
  本方法   27.90%   3.62%   91.97%   99.08%   10.43%
各方法运行时间如下:
  算法   处理时间(秒)  速度(分钟音频/秒)
  BIC   2190  1.08
  KL2   1331  1.78
  本方法   545  4.35
实验用机器配置CPU为AMD Athlon(tm)XP2500+,内存为512M ddr400。
实验结果表明,与当前流行的KL2和BIC方法相比,本分割算法在检索性能和运算速度上均有绝对优势。在误检率比KL2和BIC方法低2%的情形下:本分割算法漏检率比KL2方法低9.75%、比BIC方法低10.8%;本分割算法召回率比KL2方法高20.28%、比BIC方法高19.62%;本分割算法纯语音比例比KL2方法高5.36%、比BIC方法高3.66%;本分割算法检索等错误率比KL2方法低15.41%、比BIC方法低5.48%。而且本算法运行速度最快,处理同样音频所耗时间为KL2方法的41%,为BIC方法的28%。

Claims (6)

1、一种基于基音频率的快速音频分割方法,其特征在于:首先用基音频率从音频中检测语音,然后用能量将非语音部分分成静音和非静音,最后在语音片段之间检测说话人改变,由说话人改变点得到最终分割结果。
2、根据权利要求1所述的基于基音频率的快速音频分割方法,其特征在于:包括如下步骤:
1)、对音频进行预处理:音频预处理分为采样量化,去零漂,预加重和加窗三个部分;
2)、音频特征提取:音频帧上的特征提取包括能量,过零率和基音频率的提取;将音频分帧后计算各帧基音频率,并将通过自相关效验的连续帧归为一个语音段;
3)、语音检测:将连续的基音频率不为0的帧归为语音段,连续的基音频率为0的帧归为非语音段;
4)、静音检测:通过计算自适应能量阈值将没有基音频率的帧分类为静音和非静音;
5)、说话人改变检测:说话人改变检测为将相邻语音段之间的距离与自适应阈值比较,确定说话人改变点。
3、根据权利要求2所述的基于基音频率的快速音频分割方法,其特征在于:所述的音频预处理具体步骤是:
1)、采样量化
A)、用锐截止滤波器对音频信号进行滤波,使其奈奎斯特频率FN为4KHZ;
B)、设置音频采样率F=2FN
C)、对音频信号sa(t)按周期进行采样,得到数字音频信号的振幅序列 s ( n ) = s a ( n F ) ;
D)、用脉冲编码调制对s(n)进行量化编码,得到振幅序列的量化表示s’(n);
2)、去零漂
A)、计算量化的振幅序列的平均值 s;
B)、将每个振幅值减去平均值,得到去零漂后平均值为0的振幅序列s”(n);
3)、预加重
A)、设置数字滤波器的Z传递函数H(z)=1-αz-1中的预加重系数α,α可取比1稍小的值;
B)、s”(n)通过数字滤波器,得到音频信号的高、中、低频幅度相当的振幅序列s(n);
4)、加窗
A)、计算音频帧的帧长N和帧移量T,分别满足:
N F = 0.032
T F = 0.010
这里F是音频采样率,单位为Hz;
B)、以帧长为N、帧移量为T,把s(n)划分成一系列的音频帧Fm,每一音频帧包含N个音频信号样本;
C)、计算哈明窗函数:
Figure A2005100613580003C3
D)、对每一音频帧Fm加哈明窗:
ω(n)×Fm(n){Fm′(n)|n=0,1,…,N-1}。
4、根据权利要求2所述的基于基音频率的快速音频分割方法,其特征在于:所述音频特征提取的具体步骤是:
1)、能量的提取:
E = Σ n = 1 N s 2 ( n )
2)、能量阈值的计算
计算静音检测自适应能量阈值:
Threshold(E)=min(E)+0.3×[mean(E)-min(E)]
其中,Threshold(E)是自适应能量阈值,min(E)是各帧能量的最小值,mean(E)是各帧能量的平均值;
3)、基音频率,即Pitch的提取:
A)、设置基音频率的搜索范围ffloor=50,fceiling=1250Hz;
B)、设置语音的基音频率的取值范围fmin=50,fmax=550Hz;
C)、做快速傅立叶变换FFT,将时域信号s(n)变成频域信号X(k);
D)、计算每个频率的SHR,即分谐波-谐波比例
SHR=SS/SH
其中 SS = Σ n = 1 N X ( ( n - 1 / 2 ) f ) , SH = Σ n = 1 N X ( nf ) , N = f ceiling / f
E)、找出SHR最高的频率f1
F)、如果f1>fmax或者f1的SS-SH<0,那么认为是非语音或静音帧,基音频率为0,Pitch=0
G)、在[1.9375f1,2.0625f1]的区间寻找SHR的局部极大的频率f2
H)、如果f2>fmax,或者f2的SHR>0.2,Pitch=f1
I)、其他情况,Pitch=f2
J)、对得到的基音频率进行自相关效验:
从帧的中点开始,前后各取1/pitch长的采样点,计算它们的自相关值C,如果C<0.2那么认为基音频率值不可靠,Pitch=0
K)、最后对全部的Pitch值进行中值平滑滤波。
5、根据权利要求2所述的基于基音频率的快速音频分割方法,其特征在于:所述的静音检测的具体步骤是:
1)、静音预检
A)、语音段和非语音段的能量定义如下:
E=mean(E)+0.3×[max(E)-mean(E)]
其中,E是静音段的能量,mean(E)是段内各帧能量的平均值,max(E)是段内各帧能量的最大值;
B)、段能量与能量阈值比较,如果低于阈值则视为静音;
2)、平滑处理
A)、将连续的静音段合并成一段;
B)、低于10帧的静音段被视为连续语音间的短时停顿而舍去。
6、根据权利要求2所述的基于基音频率的快速音频分割方法,其特征在于:所述的说话人改变检测具体步骤是:
1)、T2距离计算
计算每两个相邻的语音段之间的T2距离,T2距离定义如下:
T 2 = ab a + b ( μ 1 - μ 2 ) T Σ - 1 ( μ 1 - μ 2 )
其中a,b是段的长度,μ1,μ2是各段内Pitch的平均值,∑是共同的协方差矩阵;
2)、自适应阈值计算
通过比较T2距离与阈值,检测是否存在说话人改变,自适应阈值的计算公式如下:
T=μ+λσ
其中μ是全局平均距离,σ是距离方差,λ是惩罚系数;
3)、合并
如果两个语音段之间的距离小于阈值,那么这两个语音段被视为属于同一个说话人,将这两个语音段合并成一个;如果这两个语音段之间存在静音,那么这段静音也将被合并进来;如果两个语音段之间存在非静音,则不合并。
CNB2005100613586A 2005-10-31 2005-10-31 基于基音频率的快速音频分割方法 Expired - Fee Related CN100485780C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2005100613586A CN100485780C (zh) 2005-10-31 2005-10-31 基于基音频率的快速音频分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100613586A CN100485780C (zh) 2005-10-31 2005-10-31 基于基音频率的快速音频分割方法

Publications (2)

Publication Number Publication Date
CN1758331A true CN1758331A (zh) 2006-04-12
CN100485780C CN100485780C (zh) 2009-05-06

Family

ID=36703668

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100613586A Expired - Fee Related CN100485780C (zh) 2005-10-31 2005-10-31 基于基音频率的快速音频分割方法

Country Status (1)

Country Link
CN (1) CN100485780C (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101159834B (zh) * 2007-10-25 2012-01-11 中国科学院计算技术研究所 一种重复性视频音频节目片段的检测方法和系统
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN103077728A (zh) * 2012-12-31 2013-05-01 上海师范大学 一种病人虚弱语音端点检测方法
CN103165127A (zh) * 2011-12-15 2013-06-19 佳能株式会社 声音分段设备和方法以及声音检测系统
CN101821734B (zh) * 2007-08-22 2013-09-25 谷歌公司 时基媒体之间的匹配的检测和分类
CN103489454A (zh) * 2013-09-22 2014-01-01 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103778917A (zh) * 2014-01-10 2014-05-07 厦门快商通信息技术有限公司 一种在电话满意度调查中检测身份冒充的系统与方法
CN103824555A (zh) * 2012-11-19 2014-05-28 腾讯科技(深圳)有限公司 音频段提取方法及提取装置
CN103996399A (zh) * 2014-04-21 2014-08-20 深圳市北科瑞声科技有限公司 语音检测方法和系统
WO2016004757A1 (zh) * 2014-07-10 2016-01-14 华为技术有限公司 杂音检测方法和装置
CN105913849A (zh) * 2015-11-27 2016-08-31 中国人民解放军总参谋部陆航研究所 一种基于事件检测的说话人分割方法
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN108242241A (zh) * 2016-12-23 2018-07-03 中国农业大学 一种纯语音快速筛选方法及其装置
CN108877146A (zh) * 2018-09-03 2018-11-23 深圳市尼欧科技有限公司 一种基于智能语音识别的乘驾安全自动报警装置及其方法
CN110120212A (zh) * 2019-04-08 2019-08-13 华南理工大学 基于用户示范音频风格的钢琴辅助作曲系统及方法
CN111768800A (zh) * 2020-06-23 2020-10-13 中兴通讯股份有限公司 语音信号处理方法、设备及存储介质
CN113782050A (zh) * 2021-09-08 2021-12-10 浙江大华技术股份有限公司 声音变调方法、电子设备及存储介质

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101821734B (zh) * 2007-08-22 2013-09-25 谷歌公司 时基媒体之间的匹配的检测和分类
CN101159834B (zh) * 2007-10-25 2012-01-11 中国科学院计算技术研究所 一种重复性视频音频节目片段的检测方法和系统
CN102543063A (zh) * 2011-12-07 2012-07-04 华南理工大学 基于说话人分割与聚类的多说话人语速估计方法
CN103165127B (zh) * 2011-12-15 2015-07-22 佳能株式会社 声音分段设备和方法以及声音检测系统
CN103165127A (zh) * 2011-12-15 2013-06-19 佳能株式会社 声音分段设备和方法以及声音检测系统
CN103824555A (zh) * 2012-11-19 2014-05-28 腾讯科技(深圳)有限公司 音频段提取方法及提取装置
CN103824555B (zh) * 2012-11-19 2015-11-18 腾讯科技(深圳)有限公司 音频段提取方法及提取装置
CN103077728A (zh) * 2012-12-31 2013-05-01 上海师范大学 一种病人虚弱语音端点检测方法
CN103077728B (zh) * 2012-12-31 2015-08-19 上海师范大学 一种病人虚弱语音端点检测方法
CN103489454A (zh) * 2013-09-22 2014-01-01 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103489454B (zh) * 2013-09-22 2016-01-20 浙江大学 基于波形形态特征聚类的语音端点检测方法
CN103778917A (zh) * 2014-01-10 2014-05-07 厦门快商通信息技术有限公司 一种在电话满意度调查中检测身份冒充的系统与方法
CN103778917B (zh) * 2014-01-10 2017-01-04 厦门快商通信息技术有限公司 一种在电话满意度调查中检测身份冒充的系统与方法
CN103996399B (zh) * 2014-04-21 2017-07-28 深圳市北科瑞声科技股份有限公司 语音检测方法和系统
CN103996399A (zh) * 2014-04-21 2014-08-20 深圳市北科瑞声科技有限公司 语音检测方法和系统
CN105336344B (zh) * 2014-07-10 2019-08-20 华为技术有限公司 杂音检测方法和装置
WO2016004757A1 (zh) * 2014-07-10 2016-01-14 华为技术有限公司 杂音检测方法和装置
US10089999B2 (en) 2014-07-10 2018-10-02 Huawei Technologies Co., Ltd. Frequency domain noise detection of audio with tone parameter
CN105336344A (zh) * 2014-07-10 2016-02-17 华为技术有限公司 杂音检测方法和装置
CN106571150A (zh) * 2015-10-12 2017-04-19 阿里巴巴集团控股有限公司 定位音乐人声区的方法和系统
CN105913849A (zh) * 2015-11-27 2016-08-31 中国人民解放军总参谋部陆航研究所 一种基于事件检测的说话人分割方法
CN108242241A (zh) * 2016-12-23 2018-07-03 中国农业大学 一种纯语音快速筛选方法及其装置
CN108877146A (zh) * 2018-09-03 2018-11-23 深圳市尼欧科技有限公司 一种基于智能语音识别的乘驾安全自动报警装置及其方法
CN110120212A (zh) * 2019-04-08 2019-08-13 华南理工大学 基于用户示范音频风格的钢琴辅助作曲系统及方法
CN110120212B (zh) * 2019-04-08 2023-05-23 华南理工大学 基于用户示范音频风格的钢琴辅助作曲系统及方法
CN111768800A (zh) * 2020-06-23 2020-10-13 中兴通讯股份有限公司 语音信号处理方法、设备及存储介质
CN113782050A (zh) * 2021-09-08 2021-12-10 浙江大华技术股份有限公司 声音变调方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN100485780C (zh) 2009-05-06

Similar Documents

Publication Publication Date Title
CN1758331A (zh) 基于基音频率的快速音频分割方法
CN1716380A (zh) 基于决策树和说话人改变检测的音频分割方法
CN1175398C (zh) 一种从噪声环境中识别出语音和音乐的声音活动检测方法
CN102779526B (zh) 语音信号中基音提取及修正方法
WO2014153800A1 (zh) 语音识别系统
US20140067388A1 (en) Robust voice activity detection in adverse environments
CN1787076A (zh) 基于混合支持向量机的说话人识别方法
WO2003042974A1 (en) Method and system for chinese speech pitch extraction
CN1819017A (zh) 提取特征向量用于语音识别的方法
CN1773605A (zh) 一种应用于语音识别系统的语音端点检测方法
CN1787075A (zh) 基于内嵌gmm核的支持向量机模型的说话人识别方法
CN101625858A (zh) 语音端点检测中短时能频值的提取方法
CN1300049A (zh) 汉语普通话话音识别的方法和设备
Zhu et al. 1-D Local binary patterns based VAD used INHMM-based improved speech recognition
JPWO2014168022A1 (ja) 信号処理装置、信号処理方法および信号処理プログラム
CN108364637A (zh) 一种音频句子边界检测方法
Sharma et al. Automatic identification of silence, unvoiced and voiced chunks in speech
CN1588535A (zh) 嵌入式语音识别系统的自动语音识别处理方法
CN1628337A (zh) 语音识别方法及其装置
Aibinu et al. Evaluating the effect of voice activity detection in isolated Yoruba word recognition system
CN1296887C (zh) 用于嵌入式自动语音识别系统的训练方法
EP1612773A3 (en) Sound signal processing apparatus and degree of speech computation method
CN1540623A (zh) 一种门限自适应的语音检测系统
CN106486133A (zh) 一种啸叫场景识别方法及设备
CN106920558B (zh) 关键词识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20060412

Assignee: Zhejiang core flush network Touchplus information Corp.

Assignor: Zhejiang University

Contract record no.: 2013330000104

Denomination of invention: Quick audio-frequency separating method based on tonic frequency

Granted publication date: 20090506

License type: Common License

Record date: 20130425

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090506

Termination date: 20211031

CF01 Termination of patent right due to non-payment of annual fee