CN1655234A - 用于区别口声和其它声音的装置和方法 - Google Patents
用于区别口声和其它声音的装置和方法 Download PDFInfo
- Publication number
- CN1655234A CN1655234A CNA2005100082248A CN200510008224A CN1655234A CN 1655234 A CN1655234 A CN 1655234A CN A2005100082248 A CNA2005100082248 A CN A2005100082248A CN 200510008224 A CN200510008224 A CN 200510008224A CN 1655234 A CN1655234 A CN 1655234A
- Authority
- CN
- China
- Prior art keywords
- frame
- pronunciation
- pronunciation frame
- tone contour
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000001755 vocal effect Effects 0.000 title abstract description 4
- 238000001228 spectrum Methods 0.000 claims description 31
- 238000013528 artificial neural network Methods 0.000 claims description 14
- 239000000284 extract Substances 0.000 claims description 10
- 230000014509 gene expression Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 230000005484 gravity Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000001360 synchronised effect Effects 0.000 claims description 4
- 230000008676 import Effects 0.000 claims description 2
- 210000002569 neuron Anatomy 0.000 claims 1
- 238000009432 framing Methods 0.000 abstract description 2
- 230000003595 spectral effect Effects 0.000 abstract 1
- 238000012360 testing method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 210000004205 output neuron Anatomy 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000010009 beating Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 239000005357 flat glass Substances 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Auxiliary Devices For Music (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
提供了一种用于鉴别口声的装置和方法。该装置包括:成帧单元,用于将一输入信号分成多个帧,每个帧具有一预定长度;音调提取单元,用于确定每个帧是一发音帧还是一非发音帧并所述帧的音调轮廓;零交叉速率计算器,用于计算每个帧的零交叉速率;参数计算器,用于计算包括由音调提取单元确定的发音帧和非发音帧的时间长度比、所述音调轮廓的统计信息和频谱特征的参数;和分类器,用于输入零交叉速率和从参数计算器输出的参数并确定输入信号是否是一口声。
Description
技术领域
本发明涉及一种用于鉴别口声(vocal sound)的装置和方法,特别涉及一种用于区别口声和其它声音的装置和方法。
背景技术
区别口声和其它声音是声音识别领域中必须解决的一个课题并且实际上正在对此进行研究。执行声音识别以自动理解例如包括人声和环境或自然声的环境声音的起源。即执行所述声音识别以鉴别所述音源是例如人的声音还是由于地板上一片破碎的玻璃而产生的撞击声音。在识别音源的基础上,可以建立类似于人理解的语义意义,因此,音源的识别是声音识别技术的首要目标。
由于没有人能够断定在世界中存在有多少种声音,所以,声音识别涉及比语音识别更广泛的声音领域。因此,所述声音识别集中在相对接近将被开发的声音识别系统的潜在应用功能的有限音源。
有各种音源作为将被识别的目标。作为在家中可能产生的声音的例子,可能有由一硬棍敲击一片玻璃所产生的单一声音、由于爆炸所产生的复杂声音、由一在地板上跳动的硬币所产生的声音、诸如说话的口声、诸如发笑、哭泣和尖叫的非语言声音、由人的活动或运动产生的声音以及从厨房、浴室、卧室或家用电器等平常产生的声音。
由于存在无数种声音,所以,就需要一种用于将由人产生的口声与各种声音区别开来的装置和方法。
发明内容
本发明提供一种装置和方法,用于通过从一输入音频信息中提取音调轮廓信息、从所述音调轮廓信息中提取多个参数和以预定方式使用所提取的参数来区别口声和非口声。
根据本发明的一个方面,提供了一种用于区别口声和非口声的装置,该装置包括:用于将一输入信号划分成多个帧的一成帧单元,其中的每个帧都具有一个预定的长度;一音调提取单元,用于确定每个帧是一发音帧还是一非发音帧并提取用于所述帧的音调轮廓;一零交叉比计算器,用于分别计算每个帧的零交叉比;一参数计算器,用于计算由所述音调轮廓单元确定的包括所述发音帧和所述非发音帧的时间长度比、所述音调轮廓的统计信息和频谱特征;和一分类器,用于输入从所述参数计算器输出的零交叉比和参数并确定所述输入信号是否是一口声。
根据本发明的另一方面,提供了一种用于区别口声和非口声的方法,该方法包括:将一个输入信号划分成多个帧,其中的每个帧都具有一预定的长度;确定每个帧是一发音帧还是一非发音帧并提取用于所述帧的音调轮廓;计算用于每个帧的零交叉比;计算包括所确定发音帧和非发音帧的时间长度比、所述音调轮廓的统计信息和频谱特征的参数;和使用所计算的参数确定所述输入信号是否是一口声。
附图说明
通过下面结合附图对本发明范例性实施例的详细描述,本发明的上述和其它特性和优点将会变得更加明显,其中:
图1的框图示出了根据本发明一实施例用于区别一口声的装置;
图2的框图详细地示出了LPC10装置;
图3A和3B的表格示出了用于12个测试的训练和测试集;
图4的表格示出了根据图3A和3B所示表格的测试结果;
图5的曲线示出了与输入到一神经网络的9个特性相关的区别性能;和
图6示出了当发音帧和非发音帧被相互混合时更新局部V/U时间长度比的时间。
具体实施方式
下面将结合其中示出了本发明实施例的附图更加详细地描述本发明。
图1的框图示出了根据本发明一实施例用于区别口声的装置,参看图1,用于区别口声的装置包括成帧单元10、音调提取单元11、零交叉比计算器12、参数计算器13和分类器14。
参数计算器13包括频谱参数计算器131、音调(pitch)轮廓信息计算器132以及发音帧/非发音帧(voiced/unvoiced)(V/U)时间长度比计算器133。
成帧单元10将输入音频信号分成多个帧。这里,其为短期限帧的帧表示一视窗处理的数据段。所述帧的窗口长度是10ms到30ms,最好是20ms,并对应两个以上的音调周期。一成帧处理是通过将一窗口在所述帧长度的50%-100%的范围内移位一个帧步(frame step)实现的。作为本实施例所述帧步,使用了所述帧长度的50%,即10ms。
音调提取单元11提取用于每个帧的的音调。任何一种音调提取方法都可以被用于所述音调提取。本发明采用作为所述音调提取方法的传统第10阶线性预测编码方法(LPC10)的简化音调跟踪器。图2的框图详细地示出了LPC10装置。汉明窗口21被用于一信号的多个帧。带通滤波器22通过汉明窗口21的输出信号当中的60-900Hz频带信号。LPC反向滤波器23输出所述带通滤波器信号的LPC的剩余信号。自动关联器24自动关联所述LPC剩余信号并在自动关联的结果当中选择5个峰值。V/U确定器25使用所述带通信号、所述自动关联结果和与所述帧相关的剩余信号的峰值确定当前帧是一发音帧还是一非发音帧。音调跟踪单元26在V/U确定结果和5个峰值的基础上使用一动态编程方法跟踪来自3个先前帧的基本频率,即音调。最后,音调跟踪单元26通过将所述发音帧的音调跟踪结果与所述非发音帧的0音调链接在一起提取一音调轮廓。
零交叉速率计算器12针对所有的帧计算一个帧的零交叉速率。
参数计算器13基于所提取的音调轮廓输出特征值。频谱参数计算器131根据从音调提取单元11输出的音调轮廓的幅值频谱计算频谱特征。频谱参数计算器131根据所述音调轮廓的幅值频谱通过每0.3秒执行一次音调轮廓的32点FFT计算一重心(centroid)、一带宽和一转出(roll-off)频率。这里,所述转出频率是指当所述音调轮廓的幅值频谱从最大功率下降到低于所述最大功率的85%的功率时的频率。
当f(u)指出一音调轮廓的幅值频谱的32点FFT频谱时,重心(centroid)C、带宽B和转出频率SRF可用下列等式1计算:
[等式1]
音调轮廓信息计算器132计算所述音调轮廓的平均值和变量。每当输入一个新信号或每当一先前信号结束时,所述音调轮廓信息被初始化。第一帧的音调值被设置为一初始平均值,和所述第一帧的音调值的二次幂被设置为一初始变量值。
在执行初始化之后,所述音调轮廓信息计算器132每一帧步(在本实施例中是每10ms)更新在一帧单元中的所述音调轮廓的所述平均值和所述变量,如等式2所示:
[等式2]
var(Pt,t)=u2(Pt,t)-u(Pt,t)*u(Pt,t)
这里,u(Pt,t)表示在时间t处的音调轮廓的平均值,N表示被计数帧的数量,u2(Pt,t)表示所述平均值的二次幂值,vap(Pt,t)表示在时间t处所述音调轮廓的变量。音调轮廓,Pt,表示当一输入帧是发音帧时的音调值,O表示所述输入帧是一非发音帧时的音调值。
V/U时间长度比计算器133计算局部V/U时间长度比和总V/U时间长度比。局部V/U时间长度比表示一单一发音帧与一单一非发音帧的时间长度比,总V/U时间长度比表示总发音帧和总非发音帧的时间长度比。
V/U时间长度比计算器133包括一总帧计数器(未示出),用于单独地计数累积的发音和非发音帧,以便计算所述总V/U时间长度比,还包括一局部帧计数器(未示出),用于分离地计数每个帧的发音和非发音帧,以便计算所述局部V/U时间长度比。
每当输入一个新信号或每当一先前信号段结束时,通过复位所述总帧计数器初始化所述总V/U时间长度比。这里,所述信号段表示一具有大于背景声的能量而没有持续时间限制的信号。
当一发音帧结束且开始随后的非发音帧时,通过复位所述局部帧计数器初始化所述局部V/U时间长度比。当执行所述初始化时,根据所述发音帧与所述发音帧加非发音帧的比值计算所述局部V/U时间长度比。另外,每当一发音帧被转移给一非发音帧时,所述局部V/U时间长度比被更新。
图6示出了当所述发音帧和所述非发音帧被相互混合时更新局部V/U时间长度比的时间。参看图6,V表示一发音帧,U表示一非发音帧。标号60表示更新一局部V/U时间长度比的时间,即从一发音帧转移到一非发音帧的时间。标号61表示更新一非发音帧时间长度的时间,和标号62表示等待对一发音时间长度计数的时间。
利用下述等式3获得所述总V/U时间长度比V/U_GTLR。
[等式3]
NV++,如果V
NU++,如果U
这里,NV和NU分别表示发音帧的数量和非发音帧的数量。
分类器14接受从频谱参数计算器131、音调轮廓信息计算器132、V/U时间长度比计算器133和零交叉速率计算器12输出的各种参数作为输入并最后确定所输入的音频信号是否是一个口声。
这里,分类器14还可以包括一位于其输入侧的同步单元(未示出)。该同步单元使输入给所述分类器14的参数同步。由于在不同的时间处更新所述参数中的每一个,所以这种同步可能是必须的。例如,每隔10ms就要更新一次零交叉速率、音调轮廓的平均值和变量以及总V/U时间长度比,和每隔0.3秒就要更新一次所述音调轮廓的幅值频谱的频谱参数。每当一个帧被从一发音帧转移到一非发音帧时,都要随机更新所述总V/U时间长度比。因此,如果当前在分类器14的输入一侧中新的值没有被更新,那么,就要提供先前的值作为输入值,和如果输入了新的值,那么,在该新值被同步之后,提供该被同步的值作为新输入值。
最好使用一神经网络作为分类器14。在本实施例中,使用具有9个输入神经元和一个输出神经元的前馈多层感知机作为分类器14。可以选择中间层,诸如具有5个神经元的第一层和具有2个神经元的第二层。所述神经网络是预先训练的,从而,使用从一已知声音信号提取的9个参数将该已知声音信号分类成一声音信号。当这种训练完成时,所述神经网络使用从将被分类的一音频信号中提取的9个参数确定该将被分类的音频信号是否是一声音信号。所述神经网络的输出值表示当前信号是否是声音信号的后验概率(posterior probability)。例如,如果假设所述后验概率的平均判定值是0.5,那么,当所述后验概率大于或等于0.5时,当前信号被确定为是一声音信号,和当所述后验概率小于0.5时,则当前信号被确定为是除了声音信号以外的某些其它信号。
表1示出了基于从21种音效CD中收集的周围环境声音识别数据库和现实世界计算公司(RWCP)数据库获得的实验结果。数据集是一单调性,采样速率是16,和每个数据的大小是16比特。收集了超过200个相对利用包括英语、法语、西班牙语和俄语的各种语言进行从单字到数分钟的独白的会话、阅读和广播的男人声音的特征。
[表1]
内容 | 特征 | |
广播 | 50 | |
法语广播 | 10 | |
会话 | 英语 | 50 |
法语 | 20 | |
西班牙语 | 10 | |
意大利语 | 5 | |
日语 | 2 | |
德语 | 2 | |
俄语 | 2 | |
匈牙利语 | 2 | |
犹太语 | 2 | |
粤语 | 2 | |
讲话 | 60 |
这里,所述广播包括新闻、天气报告、交通现代化、商业广告和体育新闻,所述法语广播包括新闻和天气报告。所述讲话包括涉及法院、教堂、警局、医院、Casino、影剧院、托儿所和交通等场合产生的口声。
表2示出了相对女人声音所获得的特征数。
[表2]
内容 | 特征 | |
广播 | 30 | |
利用其它语言的新闻广播 | 16 | |
会话 | 英语 | 70 |
意大利语 | 10 | |
西班牙语 | 20 | |
俄语 | 7 | |
法语 | 8 | |
瑞典语 | 2 | |
德语 | 2 | |
汉语(Mandarin) | 3 | |
日语 | 2 | |
阿拉伯语 | 1 | |
语音 | 50 |
这里,用于新闻广播的其它语言包括意大利语、汉语、西班牙语和俄语,所述讲话包括从涉及警局、影剧院、交通和调度中心等场合产生的口声。
除口声以外的其它声音包括从屋中的家具、家用电器和实用物品产生的声音、各种撞击声以及由于手脚的运动而产生的声音。
表3示出了本实验的细节。
[表3]
男人的声音 | 女人的声音 | 其它声音 | |
特征 | 217 | 221 | 4000 |
帧 | 9e4 | 9e4 | 8e5 |
时间 | 1h | 1h | 8h |
该实验是使用不同训练和测试集执行的。图3A和3B是两个表,示出了用于12次测试的训练和测试集。在图3A和3B中,神经网络的规模指出输入神经元的数量、第一中间层的神经元的数量、第二中间层的神经元的数量以及输出神经元的数量。
图4的表示出了根据图3A和3B所示的表进行测试的结果。在图4中,假报警速率是指当一测试信号不是口声但却被确定为是口声时的时间百分比。
参看图4,第七测试示出了最佳性能。其中使用1000个人口声采样和2000个其它声音采样训练所述神经网络的第一测试没有示出足够的口声鉴别性能。其它使用10000到80000训练采样的测试示出了类似的口声鉴别性能。
图5的曲线示出了关于向一神经网络输入9个特性的鉴别性能。在图5中,ZCR表示一零交叉速率、PIT表示一个帧的音调、PIT_MEA表示一音调轮廓的平均值、PIT_VAR表示一音调轮廓的变量、PIT_VTR表示总的V/U时间长度比、PIT_KZB表示局部V/U时间长度比、PIT_SPE_CEN表示一音调轮廓的幅值频谱的重心、PIT_SPE_BAN表示一音调轮廓的幅值频谱的带宽、和PIT_SPE_ROF表示一音调轮廓的幅值频谱的转出频率。参看图5,PIT和PIT_VTR示出了比其它更佳的性能。
如上所述,根据本发明,通过从除一音调轮廓信息以外的所述音调轮廓信息的幅值频谱中提取一重心、一带宽和一转出频率并将其用做一分类器的输入,可以获得诸如笑声、哭声以及说话声的经改善的口声鉴别性能。因此,本发明能够被用于办公室和家庭的安全系统并能够用于声音识别系统中使用音调信息检测说话开始的处理器。本发明还能够被用于在通信环境中区别口声和其它声音的声音交换系统。
本发明可以通过运行来自于计算机可读介质的程序在通用计算机中加以实施,所述计算机可读介质包括但不限于诸如磁存储介质(ROM、RAM、软盘、磁带等)、光可读介质(CD-ROM和DVD等)和载波(经互联网转移)的存储介质。本发明还可以作为一计算机可读介质加以实施,所述计算机可读介质具有嵌入其中的使一定数量的计算机系统经一网络相互连接以执行分布式处理的计算机可读程序码单元。通过本发明所属现有技术中的一编程器可以很容易地演绎用于实施本发明的所述功能程序、代码和代码段。
在本发明最佳实施例假设输入视频数据是被可变长编码的同时,本领域的技术人员应当理解,根据本发明的精神和范围,也可以实施所述输入视频数据的定长编码。所述最佳实施例仅仅是被用于描述场合而不是被用于限制。因此,本发明的范围并不由本发明的细节描述定义,而是由所附的权利要求定义,该范围内的所有差异都将被结构在包括在本发明之中。
Claims (21)
1.一种用于鉴别口声的装置,该装置包括:
一成帧单元,用于将一输入信号分成多个具有一预定长度的帧;
一音调提取单元,用于确定每个帧是一发音帧还是一非发音帧并从所述帧中提取一音调轮廓;
一零交叉速率计算器,用于计算与每个帧相关的零交叉速率;
一参数计算器,用于计算包括与由所述音调提取单元确定的所述发音帧和非发音帧相关的时间长度比、所述音调轮廓的统计信息和频谱特征的参数;和
一分类器,用于输入从所述参数计算器输出的所述零交叉速率和所述参数并确定所述输入信号是否是一口声。
2.根据权利要求1所述的装置,其中,所述参数计算器包括:
一发音帧/非发音帧时间长度比计算器,用于获得所述发音帧的时间长度和所述非发音帧的时间长度,并通过将所述发音帧的时间长度除以所述非发音帧的时间长度计算一时间长度比;
一音调轮廓信息计算器,用于计算包括所述音调轮廓的平均值和变量的统计信息;和
一频谱参数计算器,用于计算与所述音调轮廓的幅值频谱相关的频谱特征。
3.根据权利要求2所述的装置,其中,所述发音帧/非发音帧时间长度比计算器计算一局部发音帧/非发音帧时间长度比,该局部时间长度比是一单一的发音帧对一单一的非发音帧的时间长度比,还计算一总的发音帧/非发音帧时间长度比,该总的时间长度比是总的发音帧对总的非发音帧的时间长度比。
4.根据权利要求3所述的装置,其中,所述发音帧/非发音帧时间长度比计算器包括一总帧计数器和一局部帧计数器,每当一个新的信号被输入或每当一个先前信号段结束时复位所述总帧计数器,和当所述发音帧被转移到所述非发音帧时复位所述局部帧计数器。
5.根据权利要求3所述的装置,其中,所述发音帧/非发音帧时间长度比计算器更新每帧的总发音帧/非发音帧时间长度比一次和每当一帧被从所述发音帧变化为所述非发音帧时更新所述局部发音帧/非发音帧时间长度比。
6.根据权利要求2所述的装置,其中,每当一个新的信号被输入或一个先前的信号段结束时,所述音调轮廓信息计算器初始化所述音调轮廓的平均值和变量。
7.根据权利要求6所述的装置,其中,所述音调轮廓信息计算器分别使用第一帧的音调值和所述第一帧的音调值的二次幂初始化该音调值的平均值和变量。
8.根据权利要求6所述的装置,其中,在初始化所述音调轮廓的平均值和变量之后,所述音调轮廓信息计算器使用下述等式更新所述音调轮廓的平均值和变量:
var(Pt,t)=u2(Pt,t)-u(Pt,t)*u(Pt,t)
其中,u(Pt,t)表示在时间t期间所述音调轮廓的平均值,N表示计数帧的数量,u2(Pt,t)表示所述平均值的二次幂的值,var(Pt,t)表示时间t处的音调轮廓的变量,所述音调轮廓Pt表示当一输入帧是一发音帧时的音调值和O表示当一输入帧是一非发音帧时的音调值。
9.根据权利要求3所述的装置,其中,所述频谱参数计算器计算所述音调轮廓的幅值频谱的一快速傅立叶变换并获得关于所述快速傅立叶变换的结果f(u)的重心C、带宽B以及转出频率SRF如下:
10.根据权利要求1所述的装置,其中,所述分类器是一神经网络,包括多个层,每一层具有多个神经元,并基于为鉴别所述口声而训练的结果使用从所述零交叉速率计算器和参数计算器输出的参数确定所述输入信号是否是一口声。
11.根据权利要求10所述的装置,其中,所述分类器还包括:
一同步单元,用于同步所述参数。
12.一种鉴别口声的方法,该方法包括:
将一输入信号分成多个帧,每个帧具有一预定长度;
确定每个帧是一发音帧还是一非发音帧,并提取所述帧的音调轮廓;
计算每个帧的一零交叉速率;
计算包括与所确定发音帧和非发音帧相关的时间长度比的参数、所述音调轮廓的统计信息和频谱特征;和
使用所计算的参数确定所述输入信号是否是所述发音帧。
13.根据权利要求12所述的方法,其中,计算所述时间长度比的步骤包括:
计算一局部发音帧/非发音帧时间长度比和一总发音帧/非发音帧时间长度比,所述局部时间长度比是一单一的发音帧对一单一的非发音帧的时间长度比,和所述总发音帧/非发音帧时间长度比是总的发音帧对总的非发音帧的时间长度比。
14.根据权利要求13所述的方法,其中,每当一个新的信号被输入或一个先前的信号段结束时,被累积和计数以计算所述总发音帧/非发音帧时间长度比的发音和非发音帧的数量被复位,和每当所述发音帧被转移到所述非发音帧时,被累积和计数以计算所述局部发音帧/非发音帧时间长度比的发音和非发音帧的数量被复位。
15.根据权利要求14所述的方法,其中,所述总发音帧/非发音帧时间长度比每个帧被更新一次,和每当所述发音帧被转移到所述非发音帧时所述局部发音帧/非发音帧时间长度比被更新。
16.根据权利要求12所述的方法,其中,所述音调轮廓的统计信息包括所述音调轮廓的平均值和变量,和每当一个新的信号被输入或每当一个先前信号段结束时,初始化所述音调轮廓的所述平均值和变量。
17.根据权利要求16所述的方法,其中,分别使用第一帧的音调值和所述第一帧的音调值的二次幂值执行所述音调轮廓的平均值和变量的初始化。
18.根据权利要求17所述的方法,其中,所述音调轮廓的平均值和变量被如下更新:
var(Pt,t)=u2(Pt,t)-u(Pt,t)*u(Pt,t)
其中,u(Pt,t)表示在时间t处的音调轮廓的平均值,N表示计数帧的数量,u2(Pt,t)表示所述平均值的二次幂的值,var(Pt,t)表示在时间t处音调轮廓的变量,和音调轮廓Pt表示当以输入帧是发音帧时的音调值,0表示当所述输入帧是以非发音帧时的音调值。
19.根据权利要求12所述的方法,其中,所述频谱特征包括关于所述音调轮廓的幅值频谱的一重心、一带宽和/或一转出频率,和
所述频谱特征的计算包括:
执行所述音调轮廓的幅值频谱的一快速傅立叶变换;和
获得关于所述FFT的结果f(u)的重心C、带宽B和转出频率SRF如下:
20.根据权利要求12所述的方法,其中,确定所述输入信号是发音帧的步骤包括:
从一预定声音信号中提取包括零交叉速率、关于发音帧和非发音帧的时间长度比、音调轮廓的统计信息和频谱特征的参数;
通过向该神经网络输入所提取的参数并将该神经网络的输出与一预定值进行比较训练所述神经网络,以便将具有所提取参数特征的信号分类成发音信号;
从所述输入信号中提取包括零交叉速率、关于发音帧和非发音帧的时间长度比、音调轮廓的统计信息和频谱特征的参数;
将从所述输入信号中提取的所述参数输入给所述经过训练的神经网络;和
通过将所述神经网络的输出与所述预定参考值进行比较,确定所述输入信号是否是所述口声。
21.根据权利要求12所述的方法,其中,确定所述口声的步骤还包括同步所述参数。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR8739/04 | 2004-02-10 | ||
KR8739/2004 | 2004-02-10 | ||
KR1020040008739A KR100571831B1 (ko) | 2004-02-10 | 2004-02-10 | 음성 식별 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1655234A true CN1655234A (zh) | 2005-08-17 |
CN1655234B CN1655234B (zh) | 2012-01-25 |
Family
ID=34858690
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005100082248A Expired - Fee Related CN1655234B (zh) | 2004-02-10 | 2005-02-06 | 用于区别口声和其它声音的装置和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8078455B2 (zh) |
KR (1) | KR100571831B1 (zh) |
CN (1) | CN1655234B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727904B (zh) * | 2008-10-31 | 2013-04-24 | 国际商业机器公司 | 语音翻译方法和装置 |
CN108831501B (zh) | 2012-03-21 | 2023-01-10 | 三星电子株式会社 | 用于带宽扩展的高频编码/高频解码方法和设备 |
KR102038171B1 (ko) | 2012-03-29 | 2019-10-29 | 스뮬, 인코포레이티드 | 타겟 운율 또는 리듬이 있는 노래, 랩 또는 다른 가청 표현으로의 스피치 자동 변환 |
TWI485697B (zh) * | 2012-05-30 | 2015-05-21 | Univ Nat Central | Environmental sound recognition method |
US9263059B2 (en) | 2012-09-28 | 2016-02-16 | International Business Machines Corporation | Deep tagging background noises |
US9459768B2 (en) | 2012-12-12 | 2016-10-04 | Smule, Inc. | Audiovisual capture and sharing framework with coordinated user-selectable audio and video effects filters |
CN104464746A (zh) * | 2013-09-12 | 2015-03-25 | 索尼公司 | 语音滤波方法、装置以及电子设备 |
CN104916288B (zh) * | 2014-03-14 | 2019-01-18 | 深圳Tcl新技术有限公司 | 一种音频中人声突出处理的方法及装置 |
US9805739B2 (en) | 2015-05-15 | 2017-10-31 | Google Inc. | Sound event detection |
US9965685B2 (en) * | 2015-06-12 | 2018-05-08 | Google Llc | Method and system for detecting an audio event for smart home devices |
CN111145763A (zh) * | 2019-12-17 | 2020-05-12 | 厦门快商通科技股份有限公司 | 一种基于gru的音频中的人声识别方法及系统 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4802221A (en) * | 1986-07-21 | 1989-01-31 | Ncr Corporation | Digital system and method for compressing speech signals for storage and transmission |
IT1229725B (it) * | 1989-05-15 | 1991-09-07 | Face Standard Ind | Metodo e disposizione strutturale per la differenziazione tra elementi sonori e sordi del parlato |
US5487153A (en) * | 1991-08-30 | 1996-01-23 | Adaptive Solutions, Inc. | Neural network sequencer and interface apparatus |
JP3277398B2 (ja) * | 1992-04-15 | 2002-04-22 | ソニー株式会社 | 有声音判別方法 |
AU5547794A (en) * | 1992-11-02 | 1994-05-24 | Boston University | Neural networks with subdivision |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
US6463406B1 (en) * | 1994-03-25 | 2002-10-08 | Texas Instruments Incorporated | Fractional pitch method |
US5596679A (en) * | 1994-10-26 | 1997-01-21 | Motorola, Inc. | Method and system for identifying spoken sounds in continuous speech by comparing classifier outputs |
US5751905A (en) * | 1995-03-15 | 1998-05-12 | International Business Machines Corporation | Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system |
JPH08254993A (ja) * | 1995-03-16 | 1996-10-01 | Toshiba Corp | 音声合成装置 |
US6377919B1 (en) * | 1996-02-06 | 2002-04-23 | The Regents Of The University Of California | System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech |
US6026357A (en) * | 1996-05-15 | 2000-02-15 | Advanced Micro Devices, Inc. | First formant location determination and removal from speech correlation information for pitch detection |
JP3006677B2 (ja) * | 1996-10-28 | 2000-02-07 | 日本電気株式会社 | 音声認識装置 |
US5913194A (en) * | 1997-07-14 | 1999-06-15 | Motorola, Inc. | Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system |
JPH11275205A (ja) * | 1998-01-16 | 1999-10-08 | Koninkl Philips Electronics Nv | 自動ダイヤル用音声コマンドシステム |
US6188981B1 (en) * | 1998-09-18 | 2001-02-13 | Conexant Systems, Inc. | Method and apparatus for detecting voice activity in a speech signal |
GB9902115D0 (en) * | 1999-02-01 | 1999-03-24 | Axeon Limited | Neural networks |
US6556967B1 (en) * | 1999-03-12 | 2003-04-29 | The United States Of America As Represented By The National Security Agency | Voice activity detector |
US6917912B2 (en) * | 2001-04-24 | 2005-07-12 | Microsoft Corporation | Method and apparatus for tracking pitch in audio analysis |
US20030216909A1 (en) * | 2002-05-14 | 2003-11-20 | Davis Wallace K. | Voice activity detection |
US20040030555A1 (en) * | 2002-08-12 | 2004-02-12 | Oregon Health & Science University | System and method for concatenating acoustic contours for speech synthesis |
US7933226B2 (en) * | 2003-10-22 | 2011-04-26 | Palo Alto Research Center Incorporated | System and method for providing communication channels that each comprise at least one property dynamically changeable during social interactions |
US20050091044A1 (en) * | 2003-10-23 | 2005-04-28 | Nokia Corporation | Method and system for pitch contour quantization in audio coding |
EP1531478A1 (en) * | 2003-11-12 | 2005-05-18 | Sony International (Europe) GmbH | Apparatus and method for classifying an audio signal |
-
2004
- 2004-02-10 KR KR1020040008739A patent/KR100571831B1/ko not_active IP Right Cessation
-
2005
- 2005-02-06 CN CN2005100082248A patent/CN1655234B/zh not_active Expired - Fee Related
- 2005-02-07 US US11/051,475 patent/US8078455B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20050080648A (ko) | 2005-08-17 |
CN1655234B (zh) | 2012-01-25 |
US8078455B2 (en) | 2011-12-13 |
KR100571831B1 (ko) | 2006-04-17 |
US20050187761A1 (en) | 2005-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1655234A (zh) | 用于区别口声和其它声音的装置和方法 | |
Nagrani et al. | Voxceleb: a large-scale speaker identification dataset | |
CN102227767B (zh) | 自动语音-文本转换系统和方法 | |
Srinivasan et al. | Towards robust features for classifying audio in the CueVideo system | |
Sroka et al. | Human and machine consonant recognition | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN102723078A (zh) | 基于自然言语理解的语音情感识别方法 | |
CN102129456B (zh) | 去相关稀疏映射音乐流派有监督自动分类方法 | |
CN106024010B (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN101685446A (zh) | 音频数据分析装置和方法 | |
CN106531174A (zh) | 基于小波包分解和声谱图特征的动物声音识别方法 | |
CN102073636A (zh) | 节目高潮检索方法和系统 | |
CN1300049A (zh) | 汉语普通话话音识别的方法和设备 | |
CN110534091A (zh) | 一种基于微服务器及智能语音识别的人车交互方法 | |
Li et al. | A comparative study on physical and perceptual features for deepfake audio detection | |
Almekhlafi et al. | A classification benchmark for Arabic alphabet phonemes with diacritics in deep neural networks | |
Mitra et al. | Pre-trained model representations and their robustness against noise for speech emotion analysis | |
Ravindran et al. | Improving the noise-robustness of mel-frequency cepstral coefficients for speech processing | |
Feki et al. | Audio stream analysis for environmental sound classification | |
Motlagh et al. | Using general sound descriptors for early autism detection | |
Karamanolakis et al. | Audio-Based Distributional Representations of Meaning Using a Fusion of Feature Encodings. | |
Chenchen et al. | Main melody extraction using the auditory scene analysis for the humming music retrieval | |
Lu et al. | Music recommendation system design based on Gaussian mixture model | |
Langlois et al. | Automatic music genre classification using a hierarchical clustering and a language model approach | |
Seo | Speech/music classification based on the higher-order moments of subband energy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120125 Termination date: 20160206 |
|
CF01 | Termination of patent right due to non-payment of annual fee |