CN1310839A - 语音识别用的输入语音音程标准化装置 - Google Patents
语音识别用的输入语音音程标准化装置 Download PDFInfo
- Publication number
- CN1310839A CN1310839A CN00800952A CN00800952A CN1310839A CN 1310839 A CN1310839 A CN 1310839A CN 00800952 A CN00800952 A CN 00800952A CN 00800952 A CN00800952 A CN 00800952A CN 1310839 A CN1310839 A CN 1310839A
- Authority
- CN
- China
- Prior art keywords
- interval
- voice
- speech recognition
- signal
- input voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 27
- 230000008859 change Effects 0.000 claims abstract description 36
- 230000009466 transformation Effects 0.000 claims description 23
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 11
- 230000008676 import Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 238000000034 method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000010183 spectrum analysis Methods 0.000 description 3
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005039 memory span Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Electrophonic Musical Instruments (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明揭示在识别非特定讲话者发出的输入语音信号(Svc)的语音识别装置(VRAp)中所用的、把该输入语音(Svu)的音程变换成与语音识别标准数据(Psf)的音程有特定关系(CR)的音程的输入语音音程标准化装置(Tr),在该装置中,音程差判断器(3、5、7、9;#100、#200、#300、#400)判断所述输入语音(Svu)与语音识别标准数据(Psf)的音程差(CR),音程变换器(11、3;#500)根据所述音程差判断器判断的音程差(CR),变换所述输入语音(Svc)的音程,使其与所述语音识别标准数据(Psf)的音程有预定关系(CR=1)。
Description
技术领域
本发明涉及识别非特定说话者语音的语音识别装置,该装置能够对男性的低音、女性的高音及孩子的声音在大范围内进行语音识别处理,更详细地说,本发明涉及将识别对象语音的音程与语音识别装置的标准语音的音程加以对照进行标准化处理的输入语音音程标准化装置。
背景技术
近年来,语音识别技术由于数字信号处理技术的进步、处理用LSI的性能不断提高且价格日益降低,正大量引入民用装置中,从而有助于提高该装置的操作性能。语音识别装置的基本原理是将输入的语音变换成数字语音信号,再将该数字语音信号与预先准备的语音辞典中登录的标准语音数据进行对照,来识别输入的语音。由此,为了便于与标准语音数据进行比较,采用了一些方法,例如对于作为语音识别对象的特定说话者要求采用特别的发音方法,或者这些特定说话者的语音预先登录在语音识别装置中。
但是,在将语音识别装置用于民用装置中时,如果限定说话者,则方便性大大降低,其商品价值受到影响。因此,必须将非特定说话者发出的语音作为输入语音进行识别。当然,非特定说话者的发声是各种各样的。对于这样的非特定说话者产生的富有变化的发声,可将有损语音识别精度影响语音识别的主要因素大致分为发声速度及语音音程两种。
关于影响语音识别的第1个因素,即发声速度,例如说话说得快的人等,因说话者不同,说话速度就有差别。语音识别是将输入的语音与预先准备的语音辞典中登录的标准速度语音进行比较,从而来实现识别的。因此,若两者发声速度之差达到一定程度以上,就不能正确进行比较,也不能进行语音识别。
关于影响语音识别的第2个主要因素,即语音音程,例如男性低音的语音、女性或孩子发出的高音等,因说话者不同,其语音音程就有差别。这种情况下,若预先准备的语音辞典中登录的语音音程与非特定说话者发声的语音音程之差达到一定程度以上,就不能正确进行比较,也不能进行语音识别。
图5所示为解决上述问题在特开平9-325798号公报中提出的语音识别装置。如该图所示,语音识别装置VRAc包括语音输入部111、发声速度计算部112、发声速度变换率决定部113、发声速度变换部114及语音识别部115。
语音输入部111将取入的非特定说话者发出语音的模拟语音信号经过A/D变换,变换为数字信号,生成语音信号。发声速度计算部112根据语音信号计算出输入的非特定说话者的发声速度。发声速度变换决定部113将发声速度计算部112计算出的发声速度与基准速度进行比较,确定速度变换率。发声速度变换部114根据该速度变换率将发声速度加以变换。语音识别部115对发声速度变换部114进行了速度变换的输入语音信号进行语音识别。
下面说明语音识别装置VRAc的动作。由非特定说话者发出的语音经过语音输入部111的话筒及放大器取入,再利用A/D变换器,从模拟信号变换为数字信号,发声速度计算部112从变换的数字语音信号取出输入语音的一个音。然后,发声速度计算部112根据取出一个音的取出时间,计算一个音的发声速度。
设发声速度计算部112取出一个音所需要的时间(下面称为“一个音取出时间”)为Ts,非特定说话者一个音发声所需要的基准时间(下面称为“一个音发声基准时间”)为Th。在发声速度变换率决定部分113中,根据一个音取出时间Ts及一个音发声基准时间Th,将一个音发声速度1/Ts与基准一个音发声速度1/Th进行比较,确定速度变换率α。速度变换率α利用下式(1)能够算出。
α=Ts/Th …(1)
由上述式(1)可知,当一个音取出时间Ts比一个音发声基准时间Th要短,即输入语音的发声速度比声音识别装置VRAc能够正确识别的发声速度要快时,速度变换率α小于1。这种情况下,必须将输入语音的发声速度放慢。反之,当一个音取出时间Ts比一个音发声基准时间Th要长,即输入语音的发声速度比声音识别装置VRAc能够正确识别的发声速度慢时,速度变换率α大于1。这种情况下,必须将输入语音的发声速率加快。
在语音识别装置VRAc中,根据速度变换率α,发声速度变换部114对输入语音信号进行速度变换,使发声速度成为一定,从而生成速度变换输入语音信号。语音识别部115对速度变换输入语音信号进行语音识别处理,将得到的识别结果输出。
上述速度变换利用最近的数字技术很容易能够实现。例如要使输入语音的发声速度放慢时,只要在语音信号中增加若干个与输入语音的一个音有相关性的母音波形而使语音信号的发声时间延长即可。另外,要使输入语音的发声速度加快时,只要从语音信号多次抽掉输入语音中一个音的母音波形即可。
该处理是不改变输入语音的音程而改变语速的称为语速变换技术。即在语音识别中,对于发声速率因人而异的非特定说话者中,特别是对于说得快的说话者所发出的语音,利用语速变换技术能够提高对说得快的说话者发出语音的识别率。
在上述以往的语音识别装置VRAc中,对于与基准一个音发声速度1/Th相比,发声速度不一样的非特定说话者的语音能够提高识别率,即对于影响语音识别的第1个主要因素是有效的。但是,对于相对基准语音有高低差的发声语音,即影响语音识别的第2个主要因素,也就是有高低差的发声语音,不能指望提高识别率。
详细来说,语音识别装置VRAc虽然能够适应男性的低音及女性和孩子的高音等很宽的频率范围,但语音识别率不高。另外,对于说得快的说话者,只要使说话者慢慢说就可解决问题,但希望说话者改变音色来发声就比较困难。说话者基准发声频率是取决于说话者喉部形状及大小。也就是说,由于不能改变说话者的喉部形状,因此也不能改变其发声音色。
所以,语音识别装置VRAc存在的问题是,为了对非特定说话者各自发声的音色差也能够提高语音识别率,必须具有多种对男性语音、女性及小孩语音等进行语音识别所需要的不同音程的标准语音数据,再根据说话者的音色,来切换所参照的标准语音数据。
发明揭示
本发明为达到上述目的,具有下述特征。
本发明第1方面的一种输入语音音程标准化装置,用于根据语音识别标准数据,识别非特定讲话者发出的输入语音的语音识别装置,把该输入语音的音程变换成与该语音识别标准数据的音程有预定关系的音程,该输入语音标准化装置包括:
判断所述输入语音与所述语音识别标准数据的音程差的音程判断手段;
音程变换手段,根据所述音程差判断手段判断的音程差变换所述输入语音的频率,使所述输入语音的音程与所述语音识别标准数据的音程为预定关系。
如上所述,在第1方面中,输入语音音程调整成与语音识别标准数据的音程一致,从而可提高语音识别率。
本发明第2方面,在第1方面中,该装置还包括:
暂存所述输入语音的存储器;
从所述存储器读出所述输入语音串,生成识别对象语音信号的读出控制器;
所述音程差判断器包括:
频率分量分析器,分析所述识别对象语音信号的频率分量,生成频率分量信号;
音程判定器,根据所述频率分量信号,求得所述识别对象语音信号信号的基频,同时,判定所述语音识别标准数据与该基频的音程差,生成音程差信号。
如上所述,在第2方面中,输入语音可是1个音,也可是多个音组成的单词。
本发明第3方面,在第2方面中,所述音程判定器求得所述识别对象语音信号的第1共振峰作为基频,并比较该识别对象语音信号的第1共振峰与所述语音识别标准数据的第1共振峰以判定所述音程差,从而不管所述识别对象语音是一个音还是几个音构成,均可稳定判定音程差。
如上所述,在第3方面中,不管输入语音是一个音或多个音构成的单词,均可按输入语音单元,以频率特性稳定的第1共振峰与识别标准特性数据作音程比较,从而不需进行从输入语音切取一个音的处理,使处理迅速且装置构成简单。
本发明第4方面,在第3方面中,所述音程变换器包含读出时钟控制器,确定所述存储器的读出定时时钟频率,生成读出时钟信号,以便根据所述音程差信号变换所述识别对象语音信号的频率;
所述存储器根据所述读出时钟信号,输出所述识别对象语音信号,使与所述语音识别标准数据的音程有预定关系。
如上所述,在第4方面中,通过改变存储器读出定时,可不损害识别对象语音信号的波形特征而改变其音程,从而不需插补和抽取处理。
本发明第5方面是备有第4方面输入语音音程标准化装置的语音识别装置。
本发明第6方面的一种语音识别装置,根据语音识别标准数据,识别不特定讲话者发出的输入语音;它包括:
把所述输入语音的音程变换成与所述语音识别标准数据的音程有预定关系的音程的输入语音音程标准化装置;
语音分析器,比较变换所述音程的输入语音与所述语音识别标准数据,生成指示与所述输入语音一致的语音识别标准数据的识别信号。
如上所述,在第6方面,把输入语音音程调整得与语音识别标准数据的音程一致,从而可提高语音识别率。
本发明第7方面,在第6方面中,该装置还包括:
暂存所述输入语音的存储器;
从所述存储器读出所述输入语音串,生成识别对象语音信号的读出控制器;
所述音程差判断器包括:
频率分量分析器,分析所述识别对象语音信号的频率分量,生成频率分量信号;
音程判定器,根据所述频率分量信号,求得所述识别对象语音信号的基频,同时,判定所述语音识别标准数据与该基频的音程差,生成音程差信号。
如上所述,在第7方面,输入语音可是1个音,也可是多个音构成的单词。
本发明第8方面,在第7方面中,所述音程判定器求得所述识别对象语音信号的第1共振峰作为基频,并比较该识别对象语音信号的第1共振峰与所述语音识别标准数据的第1共振峰以判定所述音程差,从而不管所述识别对象语音是一个音还是几个音构成,均可稳定判定音程差。
如上所述,在第8方面,不管输入语音是一个音或多个音构成的单词,均可按输入语音单元,以频率特性稳定的第1共振峰与识别标准特性数据作音程比较,从而不需进行从输入语音切取一个音的处理,使处理迅速且装置构成简单。
本发明第9方面,在第8方面中,所述音程变换器包含读出时钟控制器,确定所述存储器的读出定时时钟频率,生成读出时钟信号,以便根据所述音程差信号变换所述识别对象语音信号的频率;
所述存储器根据所述读出时钟信号,输出所述识别对象语音信号,使与所述语音识别标准数据的音程有预定关系。
如上所述,在第9方面中,通过改变存储器读出定时,可不损害识别对象语音信号的波形特征而改变其音程,从而不需插补和抽取处理。
附图概述
图1是装有本发明实施形态的输入语音标准化装置的语音识别装置的构成框图。
图2是有不同音程的语音频谱图。
图3是语音波形随时间变化的例子及其间进行的音程变换方法的说明图。
图4是示于图1的输入语音标准化装置的动作流程图。
图5是以往的语音识别装置的构成框图。
实施发明的最佳形态
现参照附图,说明本发明的实施形态,以更详细的说明本发明。
参照图1,对内含本发明实施形态的输入语音音程标准化装置的语音识别装置加以说明。语音识别装置VRAp包含A/D变换器1、输入语音标准化装置Tr、标准语音数据存储器13、语音分析器15及控制器17。标准语音数据存储器13存储作为语音识别基准的语音频率分量模式Psf,以预定定时输出存储的语音频率模式Psf。由不特定说话者发出的语音,经话筒和放大器(未图示)作为模拟语音信号Sva输入至语音识别装置VRAp。
控制器17,根据由语音识别装置VRAp的其它构成要素1、Tr、13和15输出的表示其动作状态的动作状态信号Ss,生成对这些构成要素的动作进行控制的控制信号Sc,对整个语音识别装置VRAp的动作进行控制。另外,动作状态信号Ss、控制信号Sc及控制器17,由于是公知技术,为简化说明,只要不是特别需要就不再谈到。
A/D变换器1对输入的模拟语音信号Sva进行A/D变换处理,生成数字语音信号Svd,输入至输入语音标准化装置Tr。输入语音标准化装置Tr,根据输入的数字语音信号Svd,对照语音识别装置VRAp的标准音程,生成经过音程变换的音程标准化数字语音信号Svc,输入至语音分析器15。语音分析器15,根据从标准语音数据存储器13读出的语音频率模式Psf,对输入语音标准化装置Tr输出的音程标准化数字语音信号Svc进行分析,输出识别信号Src,指示与输入语音一致的语音识别标准数据。
如图1所示,输入语音标准化装置Tr包含存储器3、读出控制器5、频率分量分析器7、音程判定器9及读出时钟控制器11。存储器3暂存A/D变换器1输出的数字语音信号Svd。读出控制器5监测存储器3对数字语音信号Svd的存储,同时,生成读出控制信号Src,控制存储器3使保存的数字语音信号Svd中独立发声所对应的部分读出作为数字语音信号单元Svu。
频率分量分析器7,对存储器3输出的数字语音信号单元Svu施加高速傅里叶变换处理,进行频谱分析。频率分量分析器7,根据数字语音信号单元Svu的频谱分析结果,生成频率分量信号Sfc。
音程判定器9从频率分量分析器7输出的频率分量信号Sfc中抽取第1共振峰,根据音程判定器9中预存的标准语音(标准语音数据存储器13)的第1共振峰,求输入语音(Sva、Svd、Svu)的音程与该标准语音音程的差。根据求得的音程差,音程判定器9再生成音程变换率信号Scr,指示输入语音(Svd、Sva、Svu)的音程作何种程度变换才能符合标准音程。
读出时钟控制器11,根据音程判定器9输出的音程变换率信号Scr,控制对存储器3的读出时钟频率,生成读出时钟信号Scc。
存储器3以读出时钟信号Scc规定的定时,读出存储的数字语音信号Svd,从而输出数字语音信号Svd的音程调整成与标准语音的音程一致的音程标准化数字语音信号Svc。即,音程标准化数字语音Svc与基准语音频率分量模式Psf有预定的音程关系。所谓预定的音程关系不一定指相同,也可认为是语音识别装置VRAp(尤其是语音分析器15)的性能自然确定的允许范围。
语音分析器15对存储器3输入的音程标准化数字语音信号Svc进行分析,输出表示与标准语音数据存储器13读出的基准语音频率分量模式Psf一致的识别信号Src。
接着,参照图2和图3,对语音识别装置VPAp的动作基本原理进行说明。
图2中示出对频率分量析器7的数字语音信号Svd施加快速傅里叶变换得到的频谱的一个例子。图中,横轴表示频率f,纵轴表示强度A。点划线L1表示数字语音信号Svd是男性发出的语音时其典型语音频谱的一个例子,虚线L2表示数字语音信号Svd是女性或小孩发出的语音时其典型语音频谱的一个例子。
实线LS表示作为语音识别用的标准语音数据存储在标准语音数据存储器13中的语音频谱的例子。通常,即使是相同语音(词)。如点划线L1所示,男性场合与标准语音相比频谱出现在低频区域侧,又如虚线L2所示,在女性或小孩的场合,与标准语音相比,频谱出现在高频区域侧。
若设这些频率分量各自基频即第1共振峰频率为f1、f2和fs,这些基频对说话者大致是恒定的。现在简单说明这里所述的第1共振峰频率。如果把语音波形从时域变换为频域,观测通常5KHz以下对母音识别相当重要的称为共振峰的约4~5个峰。这些共振峰从低频起名命为第1共振峰、第2共振峰、第3共振峰……。由同一讲话者发出语音的第1共振峰不论是一个音还是几个音构成的句子,均大致一定。
其理由与如上所述由讲话者的喉部形状和大小决定讲话者基准发声频率的理由相同。即,上述非特定说话者发出的语音第1共振峰频率与标准语音数据的第1共振峰频谱的差,与性别、年龄差异及言词内容无关,对同一讲话者实质上是相同的。也就是说,发出的语音不论是仅1个音(一个语音单元)还是多个音构成的单词和句子这种语音串,该语音串的第1共振峰对同一讲话者是一定的。
基于该事实,在本发明中,根据频率分量信号Sfc,音程判定器9求非特定说话者发出的语音的第1共振峰频率,然后求非特定讲话者语音的基频fi(下文称为“输入语音基频fi”)。在音程判定器9中,把输入语音基频fi与标准语音数据的基频fs(下文称为“标准语音基频fs”)进行比较,按照下式(2)计算输入语音基频fi对标准语音基准fs的音程比CR。
CR=fs/fi ……(2)
如上所述,第1共振峰频率,在音响方面,由讲话者喉部形状(长度、宽度)唯一地确定。男性喉部长粗,其语音的基频fm比标准语音的基频fs低。结果,音程比CR比1大。另一方面,高音女性和小孩喉部短细,其基频fc比标准语音基频fs高。结果,音程比CR比1小。每个讲话者都具有这种通常的倾向,但其音程比CR是固有的。频率分量分析器7生成音程变换率信号Scr,表示音程比CR的值。
读出时钟控制器11,根据音程判定器9输出的音程变换率信号Scr,以数字语音信号Svd的采样定时CR倍的定时,从存储器3读出数字语音信号Svd,由此,生成音程标准化数字语音信号Svc。为此目的,存储器3通常由称为环形存储器的循环存储器构成。
音程比CR比1小,即输入语音(Svd)音程低时,以比采样时钟早的定时,从存储器3读出数字语音信号Svd,生成音程标准化数字语音信号Svc。另一方面,在音程比CR小于1,即输入语音(Svd)的音程高时,以比采样时钟延迟的定时读出数字语音信号Svd,从而生成音程标准化数字语音信号Svc。
参照图3,再说明音程判定器9的音程变换处理。该图中,横轴表示时间t,纵轴表示语音强度A。波形WS表示标准语音数据存储器13中存储的语音波形随时间变化的例子。波形WL表示与标准语音数据相比音程低的语音波形(例如男性语音),波形WH表示比标准语音数据音程高的语音波形(例如女性和孩子的语音)。该图中,波形WS、WL和WH的1个周期分别表示为PL、PS和PH。周期PL和PH相当于上述输入语音基频fi的倒数,周期PS相当于标准语音基频fs的倒数。
为了把波形WL音程变换成与波形WS一致,只要以比对语音波形进行A/D变换时的采样时钟快(PL/PS倍)的读出时钟进行读出即可实现。同样,为了把波形WH音程变换成与波形WS一致,以对输入语音波形作A/D变换时的采样时钟慢(PH/PS倍)的读出时钟读即可实现。即,根据上式(2)规定的音程比CR变换采样时钟可获得读出时钟。
这样,可获得把数字语音信号Svd的音程变换成符合标准语音音程的音程标准化数字语音信号Svc。但是,音程提高时,语音波形时间轴变短,音程降低时,语音波形时间轴变长,因而语速发生了变化。为解决该问题,在音程提高时追加母音波形,在音程降低时抽取母音波形,从而可调整语速。该技术是公知的,不是本发明目的所在,故省略其说明。读出时钟频率变换也易于用以往熟知的主时钟分频时钟产生。
接着,参照示于图4的流程图,对声音识别装置VRAp中装入的输入语音标准化装置Tr的动作加以说明。驱动语音识别装置VRAp,开始其语音识别动作。
在步骤S2,非特定说话者经话筒等装置发出语音,作为模拟语音信号Sva输入至A/D变换器1。处理进至下一步骤S4。
在步骤S4,A/D变换器1依次对输入的模拟语音信号Sva进行A/D变换,生成数字语音信号Svd,输出至存储器3。上述步骤S2和S4构成讲话者所发语音的输入受理子程序#100。
在步骤S6,读出控制器5监测存储器3的输入状态,判断讲话者语音输入(模拟语音信号Sva)是否完成。作为一个例子,可判断模拟语音信号Sva输入中断时间是否达到预定阈值。另外,也可构成为,讲话者用适当手段向语音识别装置VRAp或输入语音标准化装置Tr指示其输入结束。
在讲话者继续发声时,判定“否”,处理流程返回步骤S4,继续生成数字语音信号Svd并向存储器3输入。在进话者发出的一个音或多个语音组成的独立的语音串的模拟语音信号Sva的输入结束时刻,流程判断为“是”,处理流程进入下一步骤S8。
在步骤S8,读出控制器5,从存储器3存储的数字语音信号Svd中,读出与独立的语音串对应的数字语音信号单元Svu,向频率分量分析器7输出。数字语音信号单元Svu是语音识别装置VRAp的语音识别对象。然后,处理流程进至下一步骤S10。上述步骤S6和S8构成识别对象语音提取子程序#200,从讲话发出语音中提取作为识别对象的语音。
在步骤S10,频率分量分析器7对从存储器3输入的数字语音信号单元Svu施加快速傅里叶变换,进行数字语音信号单元Svu的频谱(图2)分析。然后,处理流程进入下一步骤S12。
在步骤S12,如参照图2已说明的,频率分量分析器7生成频率分量信号Sfc。接着,处理流程进入下一步骤S14。
在步骤S14,频率分量分析器7生成的频率分量信号Sfc向音程判定器9输出。处理流程进至步骤S16。上述步骤S10、S12和S14构成数字语音信号单元Svu的频谱分析子程序#300。
在步骤S16,音程判定器9根据从频率分量分析器7输入的频率分量信号Sfc,提取输入语音(数字语音信号单元Svu)的基频,即第1共振峰。接着,处理进入下一步骤S18。
在步骤S18,音程判定器9比较步骤S16求得的第1共振峰与标准语音数据存储器13中存储的标准语音数据的第1共振峰,按照上述式(2),计算音程比CR。然后,处理进入下一步骤S20。
在步骤S20,音程判定器9生成表示音程比CR的音程变换率信号Scr,向读出时钟控制器11输出。处理进入下一步骤S22。上述步骤S16、S18和S20,构成判断输入语音相对于标准语音音程高低的音程判定子程序#400。
在步骤S22,读出时钟控制器11根据音程判定器9输出的音程变换率信号Scr,生成决定存储器3读出定时的读出时钟Scc。处理进至下一步骤S24。
在步骤S24,根据读出时钟Scc,从存储器3读出音程标准化数字语音信号Svc。上述步骤S22和S24构成输入语音的音程标准化子程序#500。
如上所述经子程序#100、#200、#300、#400和#500处理后生成的音程标准化数字语音信号Svc,由语音分析器15,与存储在标准语音数据存储器13中的标准语音数据对照,进行识别处理。进而,语音分析器15生成表示识别结果的识别信号Src,加以输出。
虽然音程判定子程序#400(S16)中基频(第1共振峰)检测仅以一个音即能求得,他也可取全部发声单词的平均值。这是由于如上所述,不论是说话者发出的语音的一个音还是多个音构成的语音,其第1共振峰,对每个讲话者大致均是一定的。
进而,音程比CR不必严格求得,音程变换中通常用100φ(音程)(cent)单位近似,也可获得充分的音程变换效果。语音分析器15,参照如上所述进行音程变换的语音数字信号(音程标准化数字语音信号Svc),计算标准语音数据存储器13中所存的语音识别用的语音频率分量模式与输入语音频率分量模式的一致程度,进行语音识别分析。
这样,通过把非特定说话者发出的输入语音作音程变换,变换成预存的标准语音数据的音程,可不必具有许多标准语音数据,即可处理非特定说话者宽的频率范围,可提高语音识别率。也可把标准语音数据的音程变换成与输入语音(数字语音信号Svd)音程一致,来代替把输入语音(数字语音信号Svd)的音程变换成与标准语音数据的音程一致。
如上所述,本发明的语音识别装置,通过分析输入语音信号的频率分量,把输入语音作音程变换,使其变成语音识别用的标准语音数据,从而提高讲话者音色有差异的语音的识别率,且不必具有多个标准语音数据,可减少存储器容量。
产业利用可能性
如上所述,本发明可有效使用于需识别电视等非特定讲话者发出语音的用途中。
Claims (9)
1.一种输入语音音程标准化装置,用于根据语音识别标准数据,识别非特定讲话者发出的输入语音的语音识别装置,把该输入语音的音程变换成与该语音识别标准数据的音程有预定关系的音程,其特征在于,该输入语音标准化装置包括:
判断所述输入语音与所述语音识别标准数据的音程差的音程判断手段;
音程变换手段,根据所述音程差判断手段判断的音程差变换所述输入语音的频率,使所述输入语音的音程与所述语音识别标准数据的音程为预定关系。
2.如权利要求1所述的输入语音音程标准化装置,其特征在于,该装置还包括:
暂存所述输入语音的存储手段;
从所述存储手段读出所述输入语音串,生成识别对象语音信号的读出控制手段;
所述音程差判断手段包括:
频率分量分析手段,分析所述识别对象语音信号的频率分量,生成频率分量信号;
音程判定手段,根据所述频率分量信号,求得所述识别对象语音信号的基频,同时,判定所述语音识别标准数据与该基频的音程差,生成音程差信号。
3.如权利要求2所述的输入语音音程标准化装置,其特征在于,所述音程判定手段求得所述识别对象语音信号的第1共振峰作为基频,并比较该识别对象语音信号的第1共振峰与所述语音识别标准数据的第1共振峰以判定所述音程差,从而不管所述识别对象语音是一个音还是几个音构成,均可稳定判定音程差。
4.如权利要求3所述的输入语音音程标准化装置,其特征在于,所述音程变换手段包含读出时钟控制手段,确定所述存储器的读出定时时钟频率,生成读出时钟信号,以便根据所述音程差信号变换所述识别对象语音信号的频率;
所述存储器根据所述读出时钟信号,输出所述识别对象语音信号,使与所述语音识别标准数据的音程有预定关系。
5.一种语音识别装置,其特征在于,它包括权利要求4所述的输入语音音程标准化装置。
6.一种语音识别装置,根据语音识别标准数据,识别不特定讲话者发出的输入语音;其特征在于,它包括:
把所述输入语音的音程变换成与所述语音识别标准数据的音程有预定关系的音程的输入语音音程标准化装置;
语音分析手段,比较变换所述音程的输入语音与所述语音识别标准数据,生成指示与所述输入语音一致的语音识别标准数据的识别信号。
7.如权利要求6所述的语音识别装置,其特征在于,该装置还包括:
暂存所述输入语音的存储手段;
从所述存储手段读出所述输入语音串,生成识别对象语音信号的读出控制手段;
所述音程差判断手段包括:
频率分量分析手段,分析所述识别对象语音信号的频率分量,生成频率分量信号,
音程判定手段,根据所述频率分量信号,求得所述识别对象语音信号的基频,同时,判定所述语音识别标准数据与该基频的音程差,生成音程差信号。
8.如权利要求7所述的语音识别装置,其特征在于,所述音程判定手段求得所述识别对象语音信号的第1共振峰作为基频,并比较该识别对象语音信号的第1共振峰与所述语音识别标准数据的第1共振峰以判定所述音程差,从而不管所述识别对象语音是一个音还是几个音构成,均可稳定判定音程差。
9.如权利要求8所述的语音识别装置,其特征在于,所述音程变换手段包含读出时钟控制手段,确定所述存储器的读出定时时钟频率,生成读出时钟信号,以便根据所述音程差信号变换所述识别对象语音信号的频率;
所述存储器根据所述读出时钟信号,输出所述识别对象语音信号,使与所述语音识别标准数据的音程有预定关系。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP14183899 | 1999-05-21 | ||
JP141838/1999 | 1999-05-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1310839A true CN1310839A (zh) | 2001-08-29 |
CN1136538C CN1136538C (zh) | 2004-01-28 |
Family
ID=15301333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB00800952XA Expired - Fee Related CN1136538C (zh) | 1999-05-21 | 2000-05-16 | 语音识别用的输入语音音程标准化装置 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1102240A4 (zh) |
KR (1) | KR100423630B1 (zh) |
CN (1) | CN1136538C (zh) |
WO (1) | WO2000072308A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100458914C (zh) * | 2004-11-01 | 2009-02-04 | 英业达股份有限公司 | 语音识别系统以及方法 |
CN101373593B (zh) * | 2007-07-25 | 2011-12-14 | 索尼株式会社 | 语音分析设备和语音分析方法 |
CN107895579A (zh) * | 2018-01-02 | 2018-04-10 | 联想(北京)有限公司 | 一种语音识别方法及系统 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4771323B2 (ja) * | 2001-05-17 | 2011-09-14 | 新世代株式会社 | 音階認識方法、音階認識装置、及び、記録媒体 |
WO2003019527A1 (fr) | 2001-08-31 | 2003-03-06 | Kabushiki Kaisha Kenwood | Procede et appareil de generation d'un signal affecte d'un pas et procede et appareil de compression/decompression et de synthese d'un signal vocal l'utilisant |
AU2006272451B2 (en) * | 2005-07-18 | 2010-10-14 | Diego Giuseppe Tognola | A signal process and system |
US8089349B2 (en) | 2005-07-18 | 2012-01-03 | Diego Giuseppe Tognola | Signal process and system |
KR101674597B1 (ko) * | 2014-03-28 | 2016-11-22 | 세종대학교산학협력단 | 음성 인식 시스템 및 방법 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS46205B1 (zh) * | 1966-03-24 | 1971-01-06 | ||
US4916743A (en) * | 1987-04-30 | 1990-04-10 | Oki Electric Industry Co., Ltd. | Pattern matching system |
JP2853147B2 (ja) * | 1989-03-27 | 1999-02-03 | 松下電器産業株式会社 | 音程変換装置 |
JP2973201B2 (ja) * | 1989-04-18 | 1999-11-08 | 沖電気工業株式会社 | 音紋の照合方法 |
JP2973200B2 (ja) * | 1989-04-18 | 1999-11-08 | 沖電気工業株式会社 | 音紋照合方法における測定音紋変換処理方法 |
JPH04102900A (ja) * | 1990-08-22 | 1992-04-03 | Matsushita Electric Ind Co Ltd | 音程変換装置 |
JPH06214596A (ja) * | 1993-01-14 | 1994-08-05 | Ricoh Co Ltd | 音声認識装置および話者適応化方法 |
JPH09325798A (ja) * | 1996-06-06 | 1997-12-16 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
US5839099A (en) * | 1996-06-11 | 1998-11-17 | Guvolt, Inc. | Signal conditioning apparatus |
-
2000
- 2000-05-16 EP EP00925673A patent/EP1102240A4/en not_active Ceased
- 2000-05-16 WO PCT/JP2000/003113 patent/WO2000072308A1/ja not_active Application Discontinuation
- 2000-05-16 KR KR10-2001-7000649A patent/KR100423630B1/ko not_active IP Right Cessation
- 2000-05-16 CN CNB00800952XA patent/CN1136538C/zh not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100458914C (zh) * | 2004-11-01 | 2009-02-04 | 英业达股份有限公司 | 语音识别系统以及方法 |
CN101373593B (zh) * | 2007-07-25 | 2011-12-14 | 索尼株式会社 | 语音分析设备和语音分析方法 |
CN107895579A (zh) * | 2018-01-02 | 2018-04-10 | 联想(北京)有限公司 | 一种语音识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2000072308A1 (fr) | 2000-11-30 |
EP1102240A4 (en) | 2001-10-10 |
KR20010053542A (ko) | 2001-06-25 |
KR100423630B1 (ko) | 2004-03-22 |
EP1102240A1 (en) | 2001-05-23 |
CN1136538C (zh) | 2004-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8036891B2 (en) | Methods of identification using voice sound analysis | |
US7133826B2 (en) | Method and apparatus using spectral addition for speaker recognition | |
JP4351385B2 (ja) | 連続および分離音声を認識するための音声認識システム | |
CN1141698C (zh) | 对输入语音进行语音识别的音程标准化装置 | |
WO2022046526A1 (en) | Synthesized data augmentation using voice conversion and speech recognition models | |
CN1013525B (zh) | 认人与不认人实时语音识别的方法和装置 | |
JP2002014689A (ja) | デジタルに圧縮されたスピーチの了解度を向上させる方法および装置 | |
CN1461463A (zh) | 语音合成设备 | |
CN101023469A (zh) | 数字滤波方法和装置 | |
US10854182B1 (en) | Singing assisting system, singing assisting method, and non-transitory computer-readable medium comprising instructions for executing the same | |
CN1819017A (zh) | 提取特征向量用于语音识别的方法 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN108682432B (zh) | 语音情感识别装置 | |
CN1136538C (zh) | 语音识别用的输入语音音程标准化装置 | |
CN118486297B (zh) | 一种基于语音情感识别的响应方法及智能语音助手系统 | |
Lesnichaia et al. | Classification of Accented English Using CNN Model Trained on Amplitude Mel-Spectrograms. | |
CN109741761B (zh) | 声音处理方法和装置 | |
JPH07199997A (ja) | 音声信号の処理システムにおける音声信号の処理方法およびその処理における処理時間の短縮方法 | |
Vlaj et al. | Voice activity detection algorithm using nonlinear spectral weights, hangover and hangbefore criteria | |
Jung et al. | Selecting feature frames for automatic speaker recognition using mutual information | |
RU2234746C2 (ru) | Способ дикторонезависимого распознавания звуков речи | |
Nikitaras et al. | Fine-grained noise control for multispeaker speech synthesis | |
CN114913844A (zh) | 一种基音归一化重构的广播语种识别方法 | |
CN114724589A (zh) | 语音质检的方法、装置、电子设备和存储介质 | |
US20090063149A1 (en) | Speech retrieval apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20040128 Termination date: 20100516 |