CN1815550A - 可识别环境中的语音与非语音的方法及系统 - Google Patents
可识别环境中的语音与非语音的方法及系统 Download PDFInfo
- Publication number
- CN1815550A CN1815550A CN200510006463.XA CN200510006463A CN1815550A CN 1815550 A CN1815550 A CN 1815550A CN 200510006463 A CN200510006463 A CN 200510006463A CN 1815550 A CN1815550 A CN 1815550A
- Authority
- CN
- China
- Prior art keywords
- voice
- signal
- frequency
- source
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000001228 spectrum Methods 0.000 claims abstract description 38
- 230000003595 spectral effect Effects 0.000 claims description 30
- 150000001875 compounds Chemical class 0.000 claims description 17
- 238000005259 measurement Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 11
- 230000005236 sound signal Effects 0.000 abstract description 5
- 230000009466 transformation Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Stereophonic System (AREA)
Abstract
一种可识别环境中的语音与非语音的方法及系统,用于将具有多个频道的混合声音源识别成语音信号及其它非语音信号,该方法包含下列步骤:(a)利用盲信号源分离单元将混合声音源分离成多个声音信号;(b)存储每一个声音信号的频谱;(c)根据所存储的过去频谱信息及该盲信号源分离单元所送来的目前频谱信息,计算出每一个声音信号的频谱波动;及(d)将具有最大频谱波动的其中一个声音信号识别成该语音信号。
Description
技术领域
本发明涉及一种可以识别出环境中的语音与非语音的方法及系统,特别是指一种通过计算声音信号的频谱波动而识别出环境中的语音与非语音的方法及系统。
背景技术
盲信号源分离是一种在经由多个信号输入装置(例如,麦克风)所搜集的多个信号源为未知的情况下,由输出的混合信号分离出该原始信号源的技术。然而,该现有的盲信号源分离技术中无法进一步识别该多个分离出的信号源。例如,如果其中一个信号源为语音,而另一个信号源为噪声,则该盲信号源分离技术仅能从输出的混合信号中分离出两种信号,但却无法进一步分辨出何者为语音以及何者为噪声。
因此,便有了用于进一步识别出何者为语音以及何者为噪声的已知技术。例如,日本专利公开号JP2002-023776中所述,该专利公开是利用信号的″峭度(Kurtosis)″来识别信号是语音还是噪声。其重点在于,噪声是呈常态分布(Normal Distribution),而语音则是呈次高斯分布(Sub-GaussianDistribution)。信号的分布愈趋向常态分布,代表其峭度愈小。因此,就数学上而言,使用峭度来分辨信号是可行的。
然而,真实世界中的声音不仅混合了语音及随机噪声,海包括了其它如音乐之类的非语音,而这种如音乐之类的非语音并非呈正常化分布,因此无法使用信号的峭度特征来区分语音与如音乐之类的非语音。
发明内容
因此,本发明的一个目的是提供一种可识别出环境中的语音与非语音的方法,可用于将具有多个频道的混合声音源识别成一个语音信号及其它非语音信号,而仅需进行一次用于将信号自频域转换至时域的计算。
根据本发明的一个方面,提供一种可识别出环境中的语音与非语音的方法,包括下列步骤:(a)利用盲信号源分离(Blind Source Separation,BSS)单元将混合声音源分离成多个声音信号;(b)存储每一个声音信号的频谱;(c)根据所存储的过去频谱信息及该盲信号源分离单元所送来的目前频谱信息,计算出每一个声音信号的频谱波动;及(d)将具有最大频谱波动的其中一个声音信号识别成语音信号。
本发明的另一个目的是提供一种可识别出环境中的语音与非语音的系统,可用于将具有多个频道的混合声音源识别成一个语音信号及其它非语音信号,而仅需进行一次用于将信号自频域转换至时域的计算。
因此,根据本发明的另一个方面,提供一种可识别出环境中的语音与非语音的系统,包括:盲信号源分离单元、过去频谱存储单元、频谱波动特征取样单元,及信号切换单元。该盲信号源分离单元用于将混合声音源分离成多个声音信号。过去频谱存储单元用于存储每一个声音信号的频谱。该频谱波动特征取样单元用于根据该过去频谱存储单元所送来的过去频谱信息及该盲信号源分离单元所送来的目前频谱信息,计算出每一个声音信号的频谱波动。该信号切换单元用以接收该频谱波动特征取样单元所送来的频谱波动,并将具有最大频谱波动的其中一个声音信号识别成该语音信号。
附图说明
图1是一个系统方框图,说明本发明可识别出环境中的语音与非语音的系统之一的优选实施例;
图2是一个流程图,说明本发明可识别出环境中的语音与非语音的方法之一的优选实施例;及
图3是一个系统方框图,说明图1所示的本发明的可识别出环境中的语音与非语音系统之一的应用。
具体实施方式
有关本发明是前述及其它技术内容、特点与功效,在以下配合参考附图的一个优选实施例的详细说明中,将可清楚的呈现。
根据本发明的可识别出环境中的语音与非语音的方法及系统可用于将具有多个频道的混合声音源识别成一个语音信号以及其它非语音信号。此混合声音源的该多个频道例如可分别由多个话筒(麦克风)所搜集而得,也可以是存储在音频光盘(Audio Compact Disc,Audio CD)中的多个声道(例如,左、右二声道)。
参阅图1,在本发明的方法及系统1的一个优选实施例中,上述混合声音源是指根据两个麦克风8及9所搜集到的声音信号。这两个麦克风8及9从环境中所搜集到的原始声音信号包括该代表人类说话声音的语音5及代表除该语音5外且例如为音乐的非语音6。无论是语音5或非语音6,皆同时被该两个麦克风8及9所搜集,因此需借助本发明的系统1方能分离语音5与非语音6并进一步识别出何者为语音5,以供后续应用。
该系统1包含两个开窗器181、182、两个能量测量器191、192、一个盲信号源分离单元11、过去频谱存储单元12、频谱波动特征取样单元13、信号切换单元14、频率-时间转换器15及能量平滑单元16。而该盲信号源分离单元11包括两个时间-频率转换器114、115、收敛器ΔW116,及两个加法器117、118。当该两个时间-频率转换器114、115是基于快速傅立叶转换(Fast Fourier Transformation,FFT)时,该频率-时间转换器15相对地是基于反快速傅立叶转换(Inverse Fast Fourier Transformation,IFFT)。或是,当该两个时间-频率转换器114、115是基于离散余弦变换(Discrete Cosine Transformation,DCT)时,该频率-时间转换器15相对地是基于反离散余弦变换。
参阅图2,描述本发明的方法的优选实施例,首先,如步骤71所示,利用该盲信号源分离单元11将该两个麦克风8、9所搜集到的混合声音源分离成两个声音信号,但此时并无法判别这两个声音信号中何者为语音5以及何者为非语音6。
步骤71的详细说明如下。首先,麦克风8、9所搜集到的混合声音源的两个频道分别输入至该两个开窗器181、182中。接着,通过在该两个开窗器181、182内所进行的开窗(Windowing)过程,分别将该两个频道声音的每一帧(Frame)乘以一个窗口(Window),如汉明窗口(HammingWindow),之后再分别传送至两个能量测量器191、192。接下列,利用两个能量测量器191、192测量每一帧的能量并将其存储至缓存器(图中未示出)中。能量测量器191、192可提供给输出信号一个参考振幅,以调整输出能量,使得输出信号会更平滑。然后,帧的信号被传送至时间-频率转换器114、115。时间-频率转换器114、115是用以将每一帧从时域(TimeDomain)转换至频域(Frequency Domain)。接着,收敛器ΔW116利用频域信息而使每一权值W11、W12、W21、W22收敛。接着,通过与权值W11、W12、W21、W22相乘,可调整每一个信号,然后再利用加法器117、118予以相加。
本发明的特征在于,利用过去频谱存储单元12、频谱波动特征取样单元13及信号切换单元14来计算出每一个声音信号的频谱波动,并将具有最大频谱波动的其中一个声音信号识别成该语音5。
接着,如步骤72所示,利用过去频谱存储单元12来存储每一个信号的频谱。
然后,如步骤73所示,利用频谱波动特征取样单元13,根据过去频谱存储单元12中所存储的过去频谱信息、盲信号源分离单元11所送来的目前频谱信息以及由能量测量器191、192送来的过去能量信息,并根据以下方程式(1),可计算出每一个声音信号频谱波动。
通过探究语音与如音乐之类的非语音的特性,可以发现可识别出何种声音信号最有可能是语音的有用特征,亦即,频谱波动。频谱波动
的定义如以下方程式(1)所示:
其中频率
而x[n]为原始信号,且τ为帧的起始点(Begin Of Frame)。方程式(1)中的其它参数则定义为:k是持续时间,取样率/2为声音频率的可识别范围,f(τ,n-1)×f(τ,n)为相邻频带间的关系,
则是用以归一化(Normalization)频率能量。
通过上述方程式(1)分别计算语音5与诸如音乐之类的非语音6的频谱波动后,可发现语音5的频谱波动大于音乐的频谱波动。语音5中的元音会导致频谱上产生明显峰值,且语音5的摩擦音(Fricative Sound)会导致连续说话声的频谱图形的剧烈变化。在频率4kHz以上(摩擦音)而周期30ms的期间内,语音5的频谱波动会大于其它非语音6的频谱波动,因为在语音5中元音会与摩擦音相互交错。
在频谱波动特征取样单元13分别计算语音5与非语音6的频谱波动之后,如步骤74所示,本发明便可利用信号切换单元14选择并输出两个声音信号中具有较大频谱波动者,其即为语音5,但仍属于频域。
接着,如步骤75所示,利用该频率-时间转换器15将频域的语音5再转换回时域。所以,相比于已知的盲信号源分离技术需进行两次以上的用于将信号自频域转换至时域的计算,本发明中由于仅需输出已识别出的语音5,因此仅需进行一次用于将信号自频域转换至时域的计算,而语音5以外的其它非语音6由于不需要被输出,也就不需进行频率-时间转换计算。
然后,如步骤76所示,根据由能量测量器191、192送来的过去能量信息,可利用能量平滑单元16平滑该时域的语音信号。
参阅图3,如上所述,利用本发明的方法及系统1可选择并输出两个声音信号中具有较大频谱波动的语音5。然后,此语音5可依序传送至一个语音命令识别单元2及控制单元3,于是可藉此语音操控一个受控装置4。
综上所述,本发明的可识别出环境中的语音与非语音的方法及系统1利用过去频谱存储单元12、频谱波动特征取样单元13及信号切换单元14来计算出每一个声音信号的频谱波动,并将具有最大频谱波动的其中一个声音信号识别成该语音5,且仅需利用一次频率-时间转换将该语音5由频域反转换回时域。
以上所说明的仅是本发明的优选实施例,而不能以此限定本发明实施的范围,本领域技术人员在不脱离所附权利要求所限定的精神和范围的情况下对本发明内容所作的简单的等效变化与修饰,皆属于本发明涵盖的范围。
Claims (8)
1.一种可识别出环境中的语音与非语音的方法,用以将具有多个频道的混合声音源识别成语音信号及其它非语音信号,该方法包括步骤:
(a)利用盲信号源分离单元将混合声音源分离成多个声音信号;
(b)存储每一个声音信号的频谱;
(c)根据所存储的过去频谱信息及该盲信号源分离单元所送来的目前频谱信息,计算出每一个声音信号的频谱波动;及
(d)将具有最大频谱波动的其中一个声音信号识别成该语音信号。
2.根据权利要求1所述的可识别出环境中的语音与非语音的方法,其中该盲信号源分离单元包括多个时间—频率转换器,用以分别将该混合声音源的该多个频道自时域转换至频域,且该方法还包括利用频率—时间转换器将该语音信号从频域转换至时域。
3.根据权利要求2所述的可识别出环境中的语音与非语音方法,其中该多个时间—频率转换器为快速傅立叶转换器,且该多个频率—时间转换器为反快速傅立叶转换器。
4.根据权利要求2所述的可识别出环境中的语音与非语音的方法,还包括利用多个能量测量器分别测量并存储该混合声音源的该多个频道的能量,以及根据该多个能量测量器中所存储的过去能量信息而平滑该时域的语音信号。
5.一种可识别出环境中的语音与非语音的系统,用以将具有多个频道的混合声音源识别成语音信号及其它非语音信号,该系统包含:
盲信号源分离单元,用于将混合声音源分离成多个声音信号;
过去频谱存储单元,用于存储每一个声音信号的频谱;
频谱波动特征取样单元,用于根据该过去频谱存储单元所送来的过去频谱信息及该盲信号源分离单元所送来的目前频谱信息,计算出每一个声音信号的频谱波动;及
信号切换单元,用于接收该频谱波动特征取样单元所送来的频谱波动,并将具有最大频谱波动的其中一个声音信号识别成该语音信号。
6.根据权利要求5所述的可识别出环境中的语音与非语音的系统,其中该盲信号源分离单元包括多个时间—频率转换器,用于分别将该混合声音源的该多个频道从时域转换至频域,且该系统还包括频率—时间转换器,用于将该语音信号从频域转换至时域。
7.根据权利要求6所述的可识别出环境中的语音与非语音的系统,其中该多个时间—频率转换器为快速傅立叶转换器,且该多个频率—时间转换器为反快速傅立叶转换器。
8.根据权利要求6所述的可识别出环境中的语音与非语音的系统,还包括多个能量测量器以及一个能量平滑单元,其中该多个能量测量器用于分别测量并存储该混合声音源的该多个频道的能量,且该能量平滑单元用于根据该多个能量测量器中所存储的过去能量信息而平滑该时域的语音信号。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200510006463.XA CN1815550A (zh) | 2005-02-01 | 2005-02-01 | 可识别环境中的语音与非语音的方法及系统 |
PCT/JP2006/301707 WO2006082868A2 (en) | 2005-02-01 | 2006-01-26 | Method and system for identifying speech sound and non-speech sound in an environment |
US11/814,024 US7809560B2 (en) | 2005-02-01 | 2006-01-26 | Method and system for identifying speech sound and non-speech sound in an environment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200510006463.XA CN1815550A (zh) | 2005-02-01 | 2005-02-01 | 可识别环境中的语音与非语音的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1815550A true CN1815550A (zh) | 2006-08-09 |
Family
ID=36655028
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200510006463.XA Pending CN1815550A (zh) | 2005-02-01 | 2005-02-01 | 可识别环境中的语音与非语音的方法及系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US7809560B2 (zh) |
CN (1) | CN1815550A (zh) |
WO (1) | WO2006082868A2 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011044798A1 (zh) * | 2009-10-15 | 2011-04-21 | 华为技术有限公司 | 信号分类方法和装置 |
CN103839552A (zh) * | 2014-03-21 | 2014-06-04 | 浙江农林大学 | 一种基于峭度的环境噪音识别方法 |
CN104347067A (zh) * | 2013-08-06 | 2015-02-11 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN104882140A (zh) * | 2015-02-05 | 2015-09-02 | 宇龙计算机通信科技(深圳)有限公司 | 基于盲信号提取算法的语音识别方法及系统 |
CN106128472A (zh) * | 2016-07-12 | 2016-11-16 | 乐视控股(北京)有限公司 | 演唱者声音的处理方法及装置 |
CN113348508A (zh) * | 2019-01-23 | 2021-09-03 | 索尼集团公司 | 电子设备、方法和计算机程序 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8126829B2 (en) | 2007-06-28 | 2012-02-28 | Microsoft Corporation | Source segmentation using Q-clustering |
WO2009151578A2 (en) | 2008-06-09 | 2009-12-17 | The Board Of Trustees Of The University Of Illinois | Method and apparatus for blind signal recovery in noisy, reverberant environments |
JP5207479B2 (ja) * | 2009-05-19 | 2013-06-12 | 国立大学法人 奈良先端科学技術大学院大学 | 雑音抑圧装置およびプログラム |
US8737602B2 (en) * | 2012-10-02 | 2014-05-27 | Nvoq Incorporated | Passive, non-amplified audio splitter for use with computer telephony integration |
US20140276165A1 (en) * | 2013-03-14 | 2014-09-18 | Covidien Lp | Systems and methods for identifying patient talking during measurement of a physiological parameter |
US10943596B2 (en) * | 2016-02-29 | 2021-03-09 | Panasonic Intellectual Property Management Co., Ltd. | Audio processing device, image processing device, microphone array system, and audio processing method |
CN109036410A (zh) * | 2018-08-30 | 2018-12-18 | Oppo广东移动通信有限公司 | 语音识别方法、装置、存储介质及终端 |
US11100814B2 (en) * | 2019-03-14 | 2021-08-24 | Peter Stevens | Haptic and visual communication system for the hearing impaired |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4882755A (en) * | 1986-08-21 | 1989-11-21 | Oki Electric Industry Co., Ltd. | Speech recognition system which avoids ambiguity when matching frequency spectra by employing an additional verbal feature |
US4979214A (en) * | 1989-05-15 | 1990-12-18 | Dialogic Corporation | Method and apparatus for identifying speech in telephone signals |
WO1998001847A1 (en) | 1996-07-03 | 1998-01-15 | British Telecommunications Public Limited Company | Voice activity detector |
WO2001017109A1 (en) * | 1999-09-01 | 2001-03-08 | Sarnoff Corporation | Method and system for on-line blind source separation |
JP2002023776A (ja) | 2000-07-13 | 2002-01-25 | Univ Kinki | ブラインドセパレーションにおける話者音声と非音声雑音の識別方法及び話者音声チャンネルの特定方法 |
JP2002149200A (ja) * | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
JP3670217B2 (ja) * | 2000-09-06 | 2005-07-13 | 国立大学法人名古屋大学 | 雑音符号化装置、雑音復号装置、雑音符号化方法および雑音復号方法 |
FR2833103B1 (fr) * | 2001-12-05 | 2004-07-09 | France Telecom | Systeme de detection de parole dans le bruit |
JP3975153B2 (ja) | 2002-10-28 | 2007-09-12 | 日本電信電話株式会社 | ブラインド信号分離方法及び装置、ブラインド信号分離プログラム並びにそのプログラムを記録した記録媒体 |
-
2005
- 2005-02-01 CN CN200510006463.XA patent/CN1815550A/zh active Pending
-
2006
- 2006-01-26 WO PCT/JP2006/301707 patent/WO2006082868A2/en not_active Application Discontinuation
- 2006-01-26 US US11/814,024 patent/US7809560B2/en not_active Expired - Fee Related
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8050916B2 (en) | 2009-10-15 | 2011-11-01 | Huawei Technologies Co., Ltd. | Signal classifying method and apparatus |
US8438021B2 (en) | 2009-10-15 | 2013-05-07 | Huawei Technologies Co., Ltd. | Signal classifying method and apparatus |
WO2011044798A1 (zh) * | 2009-10-15 | 2011-04-21 | 华为技术有限公司 | 信号分类方法和装置 |
CN106409313B (zh) * | 2013-08-06 | 2021-04-20 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN104347067A (zh) * | 2013-08-06 | 2015-02-11 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US11756576B2 (en) | 2013-08-06 | 2023-09-12 | Huawei Technologies Co., Ltd. | Classification of audio signal as speech or music based on energy fluctuation of frequency spectrum |
US11289113B2 (en) | 2013-08-06 | 2022-03-29 | Huawei Technolgies Co. Ltd. | Linear prediction residual energy tilt-based audio signal classification method and apparatus |
CN106409313A (zh) * | 2013-08-06 | 2017-02-15 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
CN104347067B (zh) * | 2013-08-06 | 2017-04-12 | 华为技术有限公司 | 一种音频信号分类方法和装置 |
US10090003B2 (en) | 2013-08-06 | 2018-10-02 | Huawei Technologies Co., Ltd. | Method and apparatus for classifying an audio signal based on frequency spectrum fluctuation |
US10529361B2 (en) | 2013-08-06 | 2020-01-07 | Huawei Technologies Co., Ltd. | Audio signal classification method and apparatus |
CN103839552A (zh) * | 2014-03-21 | 2014-06-04 | 浙江农林大学 | 一种基于峭度的环境噪音识别方法 |
CN104882140A (zh) * | 2015-02-05 | 2015-09-02 | 宇龙计算机通信科技(深圳)有限公司 | 基于盲信号提取算法的语音识别方法及系统 |
CN106128472A (zh) * | 2016-07-12 | 2016-11-16 | 乐视控股(北京)有限公司 | 演唱者声音的处理方法及装置 |
CN113348508A (zh) * | 2019-01-23 | 2021-09-03 | 索尼集团公司 | 电子设备、方法和计算机程序 |
Also Published As
Publication number | Publication date |
---|---|
US7809560B2 (en) | 2010-10-05 |
US20090070108A1 (en) | 2009-03-12 |
WO2006082868A2 (en) | 2006-08-10 |
WO2006082868A3 (en) | 2006-12-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1815550A (zh) | 可识别环境中的语音与非语音的方法及系统 | |
US20170004838A1 (en) | Processing Audio Signals with Adaptive Time or Frequency Resolution | |
EP2224433B1 (en) | An apparatus for processing an audio signal and method thereof | |
JP4818335B2 (ja) | 信号帯域拡張装置 | |
CA2448182C (en) | Segmenting audio signals into auditory events | |
AU2006302549A1 (en) | Neural network classifier for seperating audio sources from a monophonic audio signal | |
KR20040004648A (ko) | 오디오 신호를 오디토리 이벤트로 세그먼트하는 방법 | |
Ganapathy et al. | Temporal envelope compensation for robust phoneme recognition using modulation spectrum | |
WO2011087332A2 (ko) | 오디오 신호 처리 방법 및 장치 | |
CN102214464A (zh) | 音频信号的瞬态检测方法以及基于该方法的时长调整方法 | |
Rao | Real time prosody modification | |
Alonso-Martin et al. | Multidomain voice activity detection during human-robot interaction | |
Deiv et al. | Automatic gender identification for hindi speech recognition | |
KR100766170B1 (ko) | 다중 레벨 양자화를 이용한 음악 요약 장치 및 방법 | |
EP2360680A1 (en) | Pitch period segmentation of speech signals | |
Ganapathy et al. | Temporal resolution analysis in frequency domain linear prediction | |
VH et al. | A study on speech recognition technology | |
Awais et al. | Continuous arabic speech segmentation using FFT spectrogram | |
NAMEIRAKPAM et al. | Singer identification using wavelet transform | |
Guntur | Feature extraction algorithms for speaker recognition system and fuzzy logic | |
JP3223564B2 (ja) | ピッチ抽出方法 | |
Boyer et al. | Dynamic temporal segmentation in parametric non-stationary modeling for percussive musical signals | |
Gałka et al. | WFT–Context-Sensitive Speech Signal Representation | |
KR100322704B1 (ko) | 음성신호의지속시간변경방법 | |
Bae et al. | A Study on Enhancement of Speech Signal Using Separated Bandwidth and Non-uniform Sampling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20060809 |