CN108573713B - 语音识别装置、语音识别方法以及存储介质 - Google Patents
语音识别装置、语音识别方法以及存储介质 Download PDFInfo
- Publication number
- CN108573713B CN108573713B CN201710760251.3A CN201710760251A CN108573713B CN 108573713 B CN108573713 B CN 108573713B CN 201710760251 A CN201710760251 A CN 201710760251A CN 108573713 B CN108573713 B CN 108573713B
- Authority
- CN
- China
- Prior art keywords
- symbol
- search
- additional
- token
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 239000013598 vector Substances 0.000 claims abstract description 73
- 239000000945 filler Substances 0.000 claims abstract description 25
- 238000004364 calculation method Methods 0.000 claims abstract description 17
- 230000006870 function Effects 0.000 claims description 8
- 230000010365 information processing Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 36
- 230000007704 transition Effects 0.000 description 13
- 238000000605 extraction Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 7
- 230000001755 vocal effect Effects 0.000 description 6
- 241000345998 Calamus manan Species 0.000 description 4
- 235000012950 rattan cane Nutrition 0.000 description 4
- 238000003909 pattern recognition Methods 0.000 description 3
- 206010011224 Cough Diseases 0.000 description 2
- 206010011469 Crying Diseases 0.000 description 2
- 241001282135 Poromitra oscitans Species 0.000 description 2
- 206010048232 Yawning Diseases 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 230000029058 respiratory gaseous exchange Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 241000330755 Tylosema fassoglense Species 0.000 description 1
- 235000018907 Tylosema fassoglense Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 206010041232 sneezing Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0018—Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/086—Recognition of spelled words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语音识别装置、语音识别方法以及存储介质,能够高精度地进行识别。语音识别装置具备计算部和搜索部。搜索部通过搜索搜索模型,检测对得到得分向量列中的可能的声音得分的输入记号进行追踪的路径,输出对搜索模型中的检测出的路径分配的输出记号。记号集合包括表示识别对象的音韵的识别对象记号和表示填充词等的附加记号而作为输入记号。搜索模型包括被分配有输入记号串和输出记号的多个路径。搜索部在受理了附加记号作为得到可能的声音得分的输入记号的情况下,从包括所受理的附加记号的得分向量的下个得分向量开始搜索与新的输出记号对应的路径。
Description
技术领域
本发明的实施方式涉及语音识别装置、语音识别方法以及存储介质。
背景技术
已知有能够将填充词、非流利性以及非语言声与音韵同时评价的声音模型。使用这样的声音模型的语音识别系统能够去除填充词、非流利性以及非语言声而进行语音识别,所以能够提高识别精度。
但是,为了正确地识别填充词、非流利性以及非语言声,必须在作为识别词典发挥功能的搜索模型中将包括填充词、非流利性以及非语言声等的词片预先登记为单词。因此,现有的语音识别系统在这样的用于将词片在搜索模型中登记为单词的处理中花费非常大的成本。
发明内容
本发明想要解决的课题在于能够以小的成本高精度地识别包括音韵和填充词、非流利性以及非语言声的语音信号。
实施方式所涉及的语音识别装置输出表示在语音信号中包含的语言信息的输出记号。所述语音识别装置具备计算部和搜索部。所述计算部根据所述语音信号,计算得分向量排列的得分向量列(vector sequence),该得分向量包括作为预先确定的记号集合的要素的每个输入记号的声音得分。所述搜索部通过搜索预先登记的搜索模型,检测对得到所述得分向量列中的可能的(likely)所述声音得分的所述输入记号进行追踪的路径,输出对所述搜索模型中的检测出的路径分配的所述输出记号。所述记号集合包括表示识别对象的音韵的识别对象记号和表示填充词(filler)、非流利性(disfluency)以及非语言声(non-speech sound)中的至少一个的附加记号而作为所述输入记号。所述搜索模型包括被分配有一个以上的所述输入记号排列的输入记号串和所述输出记号的多个路径。所述搜索部在受理了所述附加记号作为得到可能的所述声音得分的所述输入记号的情况下,从包括所受理的所述附加记号的所述得分向量的下个所述得分向量开始搜索与新的所述输出记号对应的路径。
根据上述语音识别装置,能够以小的成本高精度地识别包括音韵和填充词、非流利性以及非语言声的语音信号。
附图说明
图1是实施方式所涉及的语音识别装置的结构图。
图2是示出得分计算部的结构的一个例子的图。
图3是示出搜索部的处理流程的图。
图4是示出用于识别英语的语音的搜索模型的图。
图5是示出在受理了附加记号的情况下转移到开始点的搜索模型的图。
图6是示出输出表示附加记号的记号的搜索模型的图。
图7是示出输出输入记号串的搜索模型的图。
图8是示出输出对路径分配的输出记号的搜索模型的图。
图9是示出如果确定则输出输出记号的搜索模型的图。
图10是示出在受理了附加记号的情况下转移到结束点的搜索模型的图。
图11是示出用于识别日语的语音的搜索模型的图。
图12是示出在受理了附加记号的情况下转移到开始点的搜索模型的图。
图13是示出输出表示附加记号的记号的搜索模型的图。
图14是示出输出输入记号串的搜索模型的图。
图15是示出输出对路径分配的输出记号的搜索模型的图。
图16是示出如果确定则输出输出记号的搜索模型的图。
图17是示出在受理了附加记号的情况下转移到结束点的搜索模型的图。
图18是语音识别装置的硬件框图。
(记号说明)
10:语音识别装置;22:特征抽出部;24:声音模型存储部;26:得分计算部;28:搜索模型存储部;30:搜索部;42:输入层;44:中间层;46:输出层;101:CPU;102:操作部;103:显示部;104:麦克风;105:ROM;106:RAM;107:存储部;108:通信装置;109:总线。
具体实施形式
以下,参照附图,详细说明实施方式。本实施方式所涉及的语音识别装置10以小的成本高精度地语音识别包括音韵和填充词、非流利性以及非语言声的语音信号。另外,语音识别装置10输出表示语音识别而得到的语言信息的输出记号。
(定义)
首先,说明在实施方式中使用的用语。
声音信息(acoustic information)是指在语音信号中包含的信息。在声音信息中,包括音韵、填充词、非流利性、非语言声以及无声信息。
音韵是通过说话人对语言进行发音而附加到语音信号的、表示语言的声音的单位。例如,音韵是音素、音节、以调形为单位归纳的音素、子字、字符、单词等。在日语的情况下,音韵可以是假名。另外,在英语的情况下,音韵既可以是音标,也可以是字母。如日语的促音那样的无声(soundlessness)也有包含于音韵的情况。
填充词是整理话语的音调、或者伴随思考的中断或者思考的延迟被插入到语句的中途、或者通知语句的继续的感叹词性的声音。
非流利性是在由于讲话失败等而吞吞吐吐、或者重说相同的用语或者表现、或者重复相同的用语或者表现的情况下在语音信号中包含的声音。例如,说话人有时在讲出随后出现的单词的一部分后再次重说、或者中途中断语句的一部分而重说。在重说以及重复的情况下在语音信号中包含的声音的大部分是随后出现的单词的接头的发音的一部分、其类似的声音、或者在意义上类似的单词的一部分。这样的声音表示的信息是在语法上无意义的词片(word fragment)的情形较多,在多数情况下即使从识别结果去掉也不会对意义内容造成影响。将这样的声音称为非流利性。
非语言声是咳嗽、喷嚏、哈欠、笑声、哭声、呼吸声等声音,是在说话人对语言进行发音的情况下不被产生的声音。
无声信息是表示在语音信号中不包括音韵、填充词、非流利性以及非语言声中的任意一个的状态下在语音信号中包含的音(例如无声以及杂音)的信息。
输入记号是表示声音信息的记号。记号集合是以输入记号为要素的集合。记号集合被预先确定。记号集合包括至少一个识别对象记号、至少一个附加记号以及对象外记号而作为输入记号。
识别对象记号是表示识别对象的音韵的记号。记号集合可以包括与能够包含于语音信号的所有音韵对应的字符(例如所有音标)而作为识别对象记号。另外,在语音识别装置10仅识别特定的单词的情况(例如仅识别“午安”的情况)下,也可以包括与为了识别特定的单词所需的音韵对应的字符而作为识别对象记号。在识别无声信息的情况下,也可以作为识别对象记号之一,将表示无声信息的无声记号包含于识别对象记号。
附加记号是输入记号之一,是表示填充词、非流利性和/或非语言声的记号。记号集合可以包括分别表示填充词、非流利性以及非语言声的三种附加记号。记号集合也可以包括分别表示填充词、非流利性以及非语言声中的某一个或者某两个的一种或者两种附加记号。另外,记号集合也可以包括集中表示填充词、非流利性以及非语言声中的两个或者三个的附加记号。另外,记号集合也可以包括分别表示咳嗽、喷嚏、哈欠、笑声、哭声以及呼吸声等的不同的记号而作为表示非语言声的附加记号。
对象外记号是输入记号之一,是表示未确定识别对象记号以及附加记号表示的声音信息中的某一个声音信息是否包含于语音信号的记号。即,对象外记号是表示语音识别装置10尚未识别出识别对象记号或者附加记号的记号。
输入记号串(input symbol string)是识别语音信号而得到的可能的输入记号的序列。语音识别装置10可以针对一个语音信号生成一个输入记号串。另外,语音识别装置10也可以针对一个语音信号生成M个(M是2以上的整数)输入记号串。
输出记号表示作为语音信号的识别结果的语言信息。输出记号也可以是单词、字符、子字等。根据在输入记号串中包含的识别对象记号,生成输出记号。语音识别装置10也可以根据一个输入记号串生成按时间序列排列的多个输出记号。
(语音识别装置10的说明)
图1是示出实施方式所涉及的语音识别装置10的结构的图。语音识别装置10具备特征抽出部22、声音模型存储部24、得分计算部26、搜索模型存储部28以及搜索部30。
特征抽出部22获取识别对象的语音信号。特征抽出部22例如获取利用拾音装置检测出的语音信号。
特征抽出部22针对每个帧解析语音信号,针对每个帧计算特征向量。特征向量包括表示语音的特征的多个种类的特征量。帧是用于计算一个特征向量的语音信号的区间。将帧设定为中心时刻按照预定间隔偏移。另外,多个帧例如相互是同一时间长度。各个帧也可以与其它帧重叠一部分的区间。
声音模型存储部24存储声音模型。声音模型是为了对语音信号进行模式识别而由得分计算部26使用的数据。在由语音识别装置10识别语音信号之前,通过学习装置适当地训练声音模型。声音模型存储部24例如也可以通过网络上的服务器实现。
得分计算部26根据由特征抽出部22针对每个帧计算出的特征向量,使用在声音模型存储部24中存储的声音模型,计算多个得分向量排列的得分向量列。各个得分向量包括作为预先确定的记号集合的要素的每个输入记号的声音得分。
在得分向量中包含的各个声音得分与某一个输入记号对应。声音得分表示利用对应的输入记号表示的声音信息包含于语音信号的可能性。此外,在语音信号中包含的声音信息、和输入记号表示的声音信息也可以不帧同步(时间同步)。即,输入记号表示的声音信息也可以与在语音信号中包含的声音信息相比延迟。例如,也可以在通过第15个帧的特征向量的输入由得分计算部26计算的得分向量中包含的声音得分中的、最良好的声音得分所对应的输入记号表示的声音信息包含于第1个帧~第10个帧。
例如,声音得分也可以是利用对应的输入记号表示的声音信息包含于语音信号的概率、似然度、对数似然度或者对数概率。声音得分既可以值越大则表示越良好(即可能),也可以值越小则表示越良好。例如,声音得分在是概率、似然度、对数概率或者对数似然度的情况下,值越大则表示越良好。另外,例如,声音得分在是反转符号后的对数概率或者反转符号后的对数似然度的情况下,值越小则表示越良好。另外,在将语音信号(特征向量)和声音模型的某个距离作为声音得分的情况下,声音得分的值越小则表示越良好。
得分向量列是多个得分向量排列的信息。得分计算部26将计算出的得分向量列提供给搜索部30。此外,特征抽出部22以及得分计算部26对应于根据语音信号计算得分向量列的计算部。
搜索模型存储部28存储搜索模型。搜索模型包括被分配有一个以上的输入记号排列的输入记号串和输出记号的多个路径。搜索模型是用于根据得分向量列生成输入记号串以及输出记号的数据,并由搜索部30使用。搜索模型例如是加权有限状态转换器(weightedfinite state transducer,WFST)。在由语音识别装置10识别语音信号之前,通过学习装置适当地训练搜索模型。搜索模型存储部28例如也可以通过网络上的服务器实现。
搜索部30通过搜索在搜索模型存储部28中存储的搜索模型,检测对得到声音得分的输入记号进行追踪的路径,该声音得分是由得分计算部26计算出的得分向量列中的可能的声音得分。搜索部30获取对搜索模型中的检测出的路径分配的输入记号串以及输出记号。然后,搜索部30输出对搜索模型中的检测出的路径分配的输出记号。
进而,搜索部30在搜索模型的搜索过程中受理了附加记号作为得到可能的声音得分的输入记号的情况下,从包括所受理的附加记号的得分向量的下个得分向量开始搜索与新的输出记号对应的路径。即,搜索部30在搜索模型的搜索过程中受理了附加记号作为得到可能的声音得分的输入记号的情况下,结束当前的路径的搜索,开始下个路径的搜索。
图2是示出得分计算部26的结构的一个例子的图。得分计算部26例如可以是图2所示的联结主义时间序列分类法(connectionist temporal classification,CTC)的递归型神经网络(RNN)。
例如,得分计算部26具有输入层42、至少一个中间层44以及输出层46。输入层42、中间层44以及输出层46中的各个层执行至少一个信号的获取处理、针对获取到的信号的运算处理以及至少一个信号的输出处理。
输入层42、至少一个中间层44以及输出层46被串联地连接。输入层42接受特征向量,执行运算处理。然后,输入层42将作为运算结果得到的至少一个信号输出到下一级的中间层44。另外,各个中间层44针对从前级接受到的至少一个信号执行运算处理。然后,各个中间层44将作为运算结果得到的至少一个信号输出到下一级的中间层44或者输出层46。进而,各个中间层44也可以具有使向自身的信号返回的返回路径。
输出层46对从前级的中间层44接受到的信号执行运算处理。然后,输出层46输出得分向量作为运算结果。输出层46输出输入记号的数量的信号。输出层46输出的信号与输入记号分别对应起来。例如,输出层46执行基于Softmax函数的运算。
另外,从在声音模型存储部24中存储的声音模型提供各个层在运算处理中使用的参数。预先通过学习装置训练声音模型,以便根据特征向量输出在预先确定的记号集合中包含的各个输入记号的声音得分。即,通过学习装置训练声音模型,以便输出表示识别对象的音韵的至少一个识别对象记号、表示填充词、非流利性和/或非语言声中的至少一个的附加记号、以及表示识别对象外的声音得分的对象外记号的各自的声音得分。
由此,得分计算部26能够同时输出关于在记号集合中包含的各个输入记号的声音得分。即,得分计算部26能够同时输出关于识别对象记号、附加记号以及对象外记号中的各个记号的声音得分。
此外,得分计算部26也可以不是RNN,而是将RNN扩展而得到的被称为长短期记忆(Long Short-Term Memory)的网络。另外,输出层46也可以不使用Softmax函数,而使用支持向量机(support vector machine)。
图3是示出搜索部30的处理流程的图。搜索部30例如按照图3所示的步骤执行处理。
首先,在S11中,搜索部30获取得分向量列。
接下来,在S12中,搜索部30通过搜索WFST等搜索模型,检测得到得分向量列中的可能的声音得分的输入记号的路径,生成对检测到的路径分配的输入记号串。例如,搜索部30使用WFST等搜索模型通过维特比(Viterbi)算法等搜索最良好的路径,生成输入记号串。此外,搜索部30例如也可以利用合成声音模型、单词词典以及语言模型而得到的搜索模型,使用将声音得分和语言得分合起来的得分来搜索路径,由此检测得到可能的声音得分的输入记号的路径。
此外,在S12的搜索处理中,搜索部30在输入记号串中检测多个识别对象记号连续的部分。然后,搜索部30在检测到多个识别对象记号连续的部分的情况下,将连续的多个输入记号中的某一个留下,删除其它。由此,搜索部30能够避免重复识别同一音韵。进而,在S12的搜索处理中,搜索部30在留下了连续的多个识别对象记号中的一个之后,从输入记号串删除对象外记号。
进而,在S12的搜索处理中,搜索部30在受理了附加记号作为得到可能的声音得分的输入记号的情况下,从包括所受理的附加记号的得分向量的下个得分向量开始搜索与新的输出记号对应的路径。即,搜索部30在搜索模型的搜索过程中受理了附加记号作为得到可能的声音得分的输入记号的情况下,强制性地结束当前的路径的搜索,开始下个路径的搜索。
接下来,在S13中,搜索部30每当路径的搜索结束时,生成输出记号并输出。例如,搜索部30每当路径的搜索结束时,从搜索模型获取对与生成的输入记号串对应的路径分配的输出记号。然后,搜索部30输出从搜索模型获取到的输出记号。
此外,在搜索模型是WFST的情况下,搜索部30一并地处理S12以及S13的处理。例如,搜索部30一并地执行如下处理:搜索搜索模型,检测对得到得分向量列中的可能的声音得分的输入记号进行追踪的路径,输出对检测到的路径分配的输出记号。
(搜索例)
接下来,参照图4至图10,说明在搜索模型中使用用于识别英语的WFST的情况的处理。
图中示出的一个圈表示WFST的状态。一个圈中的数字表示用于识别状态的编号。第0个状态表示开始状态。其中表示为E的两个圈表示结束状态。从状态连接到状态的箭头表示边(转移)。
对箭头附加的字符中的“:”的左侧表示对边分配的输入记号。对箭头附加的字符中的“:”的右侧表示对边分配的输出记号。
搜索部30在被提供得分向量的情况下,受理可能的某一个输入记号。然后,搜索部30例如在某个状态下受理了对从某个状态出来的边分配的输入记号的情况下,使状态依照该边转移。
进而,搜索部30例如在使状态转移的情况下,输出对边分配的输出记号。此外,ε是表示空的记号。搜索部30在ε被分配为输出记号的情况下,搜索部30不输出输出记号或者输出表示空的输出记号。
在图4至图10所示的WFST中,登记有如下述的表1所示的五个路径(#1~#5)。在该WFST中,对各个路径分配如下述的表1所示的输入记号串和输出记号。
【表1】
(表1)
图4是示出在输入记号中不包括附加记号的情况下的用于识别英语的语音的搜索模型的一个例子的图。
搜索部30例如在受理了在表1的第1路径(#1)中示出的输入记号串的情况下,使状态按照0→1→2→3→4→5转移。然后,搜索部30在之后受理了ε时,使状态按照5→E转移,输出“McKay”作为输出记号。
另外,搜索部30例如在受理了在表1的第二路径(#2)中示出的输入记号串的情况下,使状态按照0→6→7转移。然后,搜索部30在之后受理了ε时,使状态按照7→E转移,输出“A”作为输出记号。
另外,搜索部30例如在受理了在表1的第3路径(#3)中示出的输入记号串的情况下,使状态按照0→8转移。然后,搜索部30在之后受理了ε时,使状态按照8→E转移,输出“uh”作为输出记号。
另外,搜索部30例如在受理了在表1的第4路径(#4)中示出的输入记号串的情况下,使状态按照0→9→10→11→12→13转移。然后,搜索部30在之后受理了ε时,使状态按照13→E转移,输出“street”作为输出记号。
另外,搜索部30例如在受理了在表1的第5路径(#5)中示出的输入记号串的情况下,使状态按照0→9→10→14→15→16→17转移。然后,搜索部30在之后受理了ε时,使状态按照17→E转移,输出“stomach”作为输出记号。
在此,在用户读出“McKay Street”这样的字符的情况下,进行如下述的发音。此外,D表示非流利性。
【表2】
(表2)
现有的搜索装置在使用图4所示的WFST对这样的语音信号进行搜索处理的情况下,无法受理D。因此,在该情况下,现有的搜索装置使状态按照0→9→10→14→15→16→17→E→0→6→7→E→0→9→10→11→12→13→E转移。其结果,现有的搜索装置输出“stomach A street”作为输出记号而发生误识别。
图5是示出用于识别英语的语音的搜索模型、且在受理了附加记号的情况下转移到路径开始点的模型的一个例子的图。
对此,搜索部30受理表示填充词、非流利性和/或非语言声中的至少一个的附加记号而作为输入记号。然后,搜索部30在受理了附加记号的情况下,使搜索位置移动到在搜索模型中包含的路径的开始点。例如,如果搜索模型是WFST,则搜索部30在受理了附加记号的情况下,使路径的状态转移到WFST中的开始状态。由此,搜索部30在受理了附加记号的情况下,能够从包括所受理的附加记号的得分向量的下个得分向量开始搜索与新的输出记号对应的路径。
例如,在进行了如上述表2所示的发音的情况下,搜索部30能够使状态如0→9→10→0→8→0→1→2→3→4→5→E→0→9→10→11→12→13→E转移。其结果,搜索部30能够输出“McKay street”作为输出记号,能够进行正确的识别。
此外,在图5的例子中,示出了作为输入记号分配了非流利性(D)的WFST。但是,也可以是作为输入记号分配了填充词或者非语言声的WFST。图6以后也是同样的。
另外,例如,也可以在搜索模型中预先追加受理附加记号的路径。例如,在搜索模型是WFST的情况下,也可以对WFST预先附加从结束状态以外的各个状态连接到开始状态的第1边。在该情况下,对各个第1边分配附加记号作为输入记号。由此,搜索部30在受理了附加记号的情况下能够使路径的状态转移到WFST中的开始状态。
另外,也可以在搜索模型中不追加受理附加记号的路径。在该情况下,搜索部30每当推进路径的搜索时,判断是否受理了附加记号。然后,搜索部30在受理了附加记号的情况下,无论搜索模型的路径如何,都强制性地使搜索位置移动到路径开始点。例如,如果搜索模型是WFST,则搜索部30在受理了附加记号的情况下,无论WFST的边如何,都使路径的状态转移到WFST中的开始状态。由此,搜索部30在受理了附加记号的情况下能够使路径的状态转移到WFST中的开始状态。
此外,也可以对在搜索模型中包含的各个单词的始端的状态赋予表示始端的始端信息。在该情况下,搜索部30在受理了附加记号的情况下也可以使搜索位置移动到附加有始端信息的状态。另外,搜索部30也可以预先存储表示在搜索模型中包含的各个单词的始端的状态的编号,每当受理了附加记号时,使搜索位置移动到具有所存储的编号的状态。
另外,搜索部30在受理了附加记号的情况下,也可以不输出输出记号、或者输出表示空的输出记号。例如,在搜索模型中预先追加有受理附加记号的路径的情况下,也可以对该路径的输出记号分配表示空的记号(ε)。
图6是示出用于识别英语的语音的搜索模型、且在受理了附加记号的情况下输出表示附加记号的记号的模型的一个例子的图。
搜索部30在受理了附加记号的情况下,也可以输出表示附加记号的记号。例如,在搜索模型中预先追加有受理附加记号的路径的情况下,也可以对该路径分配表示附加记号的记号作为输出记号。
例如,在进行了如上述表2所示的发音的情况下,搜索部30输出“D D McKaystreet”作为输出记号。由此,搜索部30使包括了非流利性的情况包含于识别结果。
图7是示出用于识别英语的语音的搜索模型、且在受理了附加记号的情况下输出输入记号串的模型的一个例子的图。
搜索部30在受理了附加记号的情况下,也可以输出从路径的开始位置到受理附加记号为止所受理的输入记号串。例如,在搜索模型中预先追加有受理附加记号的路径的情况下,也可以对该路径分配从开始位置到受理附加记号为止所受理的输入记号串作为输出记号。
例如,在进行了如上述表2所示的发音的情况下,搜索部30输出如下述的表3所示的输出记号。由此,例如,搜索部30对于无法确定识别结果的部分能够输出词片的发音串。
【表3】
(表3)
图8是示出用于识别英语的语音的搜索模型、且在受理了附加记号的情况下输出对路径分配的输出记号的模型的一个例子的图。
搜索部30在受理了附加记号的情况下,也可以输出对受理附加记号紧跟前为止所追踪到的路径进行继续的路径的输出记号。例如,在搜索模型中预先追加有受理附加记号的路径的情况下,也可以对该路径分配对受理附加记号紧跟前为止所追踪到的路径进行继续的路径的输出记号而作为输出记号。
例如,对从1、2、3、4或者5的状态继续的路径分配的输出记号是“McKay”。因此,搜索部30在1、2、3、4或者5的状态下受理了附加记号的情况下,输出“McKay”。
例如,对从6或者7的状态继续的路径分配的输出记号是“A”。因此,搜索部30在6或者7的状态下受理了附加记号的情况下,输出“A”。
例如,对从8的状态继续的路径分配的输出记号是“uh”。因此,搜索部30在8的状态下受理了附加记号的情况下,输出“uh”。
例如,对从11、12、或者13的状态继续的路径分配的输出记号是“street”。因此,搜索部30在11、12、或者13的状态下受理了附加记号的情况下,输出“street”。
例如,对从14、15、16、或者17的状态继续的路径分配的输出记号是“stomach”。因此,搜索部30在14、15、16、或者17的状态下受理了附加记号的情况下,输出“stomach”。
例如,对从9或者10的状态继续的路径分配的输出记号是“street”以及“stomach”。因此,搜索部30在9或者10的状态下受理了附加记号的情况下,输出“street”以及“stomach”。
图9是示出用于识别英语的语音的搜索模型、且在受理了附加记号的情况下如果确定则输出输出记号的模型的一个例子的图。
另外,搜索部30在受理了附加记号的情况下,也可以检测是否确定为一个对受理附加记号紧跟前为止所追踪到的路径进行继续的路径。然后,搜索部30也可以在确定为一个路径的情况下,输出对所确定的路径分配的输出记号,在未确定为一个路径的情况下,不输出输出记号或者输出表示空的输出记号。
例如,在9或者10的状态下,对受理附加记号紧跟前为止所追踪到的路径进行继续的路径分支为两个,未确定为一个路径。即,在9或者10的状态下,未确定是输出“street”、还是输出“stomach”。因此,在9或者10的状态下受理了附加记号的情况下,搜索部30不输出输出记号或者输出表示空的输出记号。
另外,在9以及10以外的状态下,对受理附加记号紧跟前为止所追踪到的路径进行继续的路径被确定为一个。因此,在9或者10以外的状态下受理了附加记号的情况下,搜索部30输出对所确定的路径分配的输出记号。
图10是示出用于识别英语的语音的搜索模型、且在受理了附加记号的情况下转移到路径结束点的模型的一个例子的图。
搜索部30在受理了附加记号的情况下,也可以使搜索位置移动到在搜索模型中包含的路径的结束点。例如,如果搜索模型是WFST,则搜索部30在受理了附加记号的情况下,也可以使路径的状态转移到WFST中的结束状态。即使这样,搜索部30在受理了附加记号的情况下,也能够从包括所受理的附加记号的得分向量的下个得分向量开始搜索与新的输出记号对应的路径。
例如,在进行了如上述表2所示的发音的情况下,搜索部30能够使状态按照0→9→10→E→0→8→E→0→1→2→3→4→5→E→0→9→10→11→12→13→E转移。其结果,搜索部30能够输出“McKay street”作为输出记号,能够进行正确的识别。
例如,也可以在搜索模型中预先追加有受理附加记号的路径。例如,在搜索模型是WFST的情况下,也可以对WFST预先附加从结束状态以外的各个状态连接到结束状态的第二边。在该情况下,对各个第二边分配附加记号而作为输入记号。由此,搜索部30在受理了附加记号的情况下能够使路径的状态转移到WFST中的结束状态。
另外,也可以在搜索模型中不追加受理附加记号的路径。在该情况下,搜索部30每当推进路径的搜索时,判断是否受理了附加记号。然后,搜索部30在受理了附加记号的情况下,无论搜索模型的路径如何,都强制性地使搜索位置移动到路径结束点。例如,如果搜索模型是WFST,则搜索部30在受理了附加记号的情况下,无论WFST的边如何,都使路径的状态转移到WFST中的结束状态。由此,搜索部30在受理了附加记号的情况下能够使路径的状态转移到WFST中的结束状态。
此外,也可以对在搜索模型中包含的各个单词的末端的状态赋予表示末端的末端信息。在该情况下,搜索部30在受理了附加记号的情况下也可以使搜索位置移动到附加有末端信息的状态。另外,搜索部30也可以存储有表示在搜索模型中包含的各个单词的末端的状态的编号,每当受理了附加记号时,使搜索位置移动到具有所存储的编号的状态。
另外,搜索部30在使搜索位置移动到在搜索模型中包含的路径的结束点的情况下,也可以也输出与图6~图9同样的记号。
接下来,参照图11至图17,说明在搜索模型中使用用于识别日语的WFST的情况的处理。图11至图17中的WFST的表现方法与图4~图10的例子相同。
在图11至图17所示的WFST中登记有如下述的三个路径。
即,针对状态按照0→1→2→3→4转移的路径,分配“さいとお”作为输入记号串、分配“斋藤”作为输出记号。另外,针对状态按照0→1→5转移的路径,分配“ささ”作为输入记号串、分配“屉”作为输出记号。另外,针对状态如0→6→7→8转移的路径,分配“いとお”作为输入记号串,分配“伊藤”作为输出记号。
图11是示出在输入记号中不包括附加记号的情况下的、用于识别日语的语音的搜索模型的一个例子的图。
搜索部30例如在受理了输入记号串(“さいとお”)的情况下,使状态如0→1→2→3→4转移。然后,搜索部30在之后受理了ε时,使状态按照4→E转移,输出“斋藤”作为输出记号。
搜索部30例如在受理了输入记号串(“ささ”)的情况下,使状态按照0→1→5转移。然后,搜索部30在之后受理了ε时,使状态按照5→E转移,输出“屉”作为输出记号。
搜索部30例如在受理了输入记号串(“いとお”)的情况下,使状态按照0→6→7→8转移。然后,搜索部30在之后受理了ε时,使状态按照8→E转移,输出“伊藤”作为输出记号。
在此,在用户读出“斋藤”这样的字符的情况下,发音“さDさいとお”。
现有的搜索装置在使用图11所示的WFST对这样的语音信号进行搜索处理的情况下,无法受理D。因此,现有的搜索装置使状态如0→1→5→E→6→7→8→E转移。其结果,现有的搜索装置输出“屉伊藤”作为输出记号而发生误识别。
相对于此,搜索部30在受理了表示填充词、非流利性和/或非语言声中的至少一个的附加记号的情况下,使搜索位置移动到在搜索模型中包含的路径的开始点。例如,如果搜索模型是WFST,则搜索部30在受理了附加记号的情况下,使路径的状态转移到WFST中的开始状态。
图12是示出用于识别日语的语音的搜索模型、且在受理了附加记号的情况下转移到路径开始点的模型的一个例子的图。
由此,例如,在用户发音“さDさいとお”的情况下,搜索部30能够使状态按照0→1→0→1→2→3→4→E转移。其结果,搜索部30能够输出“斋藤”作为输出记号,能够进行正确的识别。
图13是示出用于识别日语的语音的搜索模型、且在受理了附加记号的情况下输出表示附加记号的记号的模型的一个例子的图。
搜索部30在受理了附加记号的情况下,也可以输出表示附加记号的记号。例如,在搜索模型中预先追加有受理附加记号的路径的情况下,也可以对该路径分配表示附加记号的记号而作为输出记号。
例如,在用户发音“さDさいとお”的情况下,搜索部30输出“D斋藤”作为输出记号。由此,搜索部30能够使包括了非流利性的情况包含于识别结果。
图14是示出用于识别日语的语音的搜索模型、且在受理了附加记号的情况下输出输入记号串的模型的一个例子的图。
搜索部30在受理了附加记号的情况下,也可以输出从路径的开始位置到附加记号为止所受理的输入记号串。例如,在用户发音“さDさいとお”的情况下,搜索部30输出“さ斋藤”作为输出记号。由此,例如,搜索部30对于无法确定识别结果的部分能够输出词片的发音串。
图15是示出用于识别日语的语音的搜索模型、且在受理了附加记号的情况下输出对路径分配的输出记号的模型的一个例子的图。
搜索部30在受理了附加记号的情况下,也可以输出对受理附加记号紧跟前为止所追踪到的路径进行继续的路径的输出记号。
例如,对从2、3或者4的状态继续的路径分配的输出记号是“斋藤”。因此,搜索部30在2、3或者4的状态下受理了附加记号的情况下,输出“斋藤”。
例如,对从5的状态继续的路径分配的输出记号是“屉”。因此,搜索部30在5的状态下受理了附加记号的情况下,输出“屉”。
例如,对从6、7或者8的状态继续的路径分配的输出记号是“伊藤”。因此,搜索部30在6、7或者8的状态下受理了附加记号的情况下,输出“伊藤”。
例如,对从1的状态继续的路径分配的输出记号是“斋藤”以及“屉”。因此,搜索部30在1的状态下受理了附加记号的情况下,输出“斋藤”以及“屉”。
图16是示出用于识别日语的语音的搜索模型、且在受理了附加记号的情况下如果确定则输出输出记号的模型的一个例子的图。
另外,搜索部30在受理了附加记号的情况下,也可以检测是否确定为一个对受理附加记号紧跟前为止所追踪到的路径进行继续的路径。然后,搜索部30也可以在确定为一个路径的情况下,输出对所确定的路径分配的输出记号,在未确定为一个路径的情况下,不输出输出记号或者输出表示空的输出记号。
例如,在1的状态下,对受理附加记号紧跟前为止所追踪到的路径进行继续的路径分支为两个,未确定为一个路径。因此,在1的状态下受理了附加记号的情况下,搜索部30不输出输出记号或者输出表示空的输出记号。
另外,在1以外的状态下,对受理附加记号紧跟前为止所追踪到的路径进行继续的路径被确定为一个。因此,在1以外的状态下受理了附加记号的情况下,搜索部30输出分配给对受理附加记号紧跟前为止所追踪到的路径进行继续的路径的输出记号。
图17是示出用于识别日语的语音的搜索模型、且在受理了附加记号的情况下转移到路径结束点的模型的一个例子的图。
搜索部30在受理了附加记号的情况下,也可以使搜索位置移动到在搜索模型中包含的路径的结束点。例如,如果搜索模型是WFST,则搜索部30在受理了附加记号的情况下,也可以使路径的状态转移到WFST中的结束状态。
由此,例如,在用户发音“さDさいとお”的情况下,搜索部30能够使状态按照0→1→E→0→1→2→3→4→E转移。其结果,搜索部30能够输出“斋藤”作为输出记号,能够进行正确的识别。
另外,搜索部30在使搜索位置移动到在搜索模型中包含的路径的结束点的情况下,也可以也输出与图13~图16同样的记号。
如以上所述,本实施方式所涉及的语音识别装置10在受理了表示填充词、非流利性及非语言声中的至少一个的附加记号而作为得到可能的声音得分的输入记号的情况下,从包括所受理的附加记号的得分向量的下个得分向量开始搜索与新的输出记号对应的路径。由此,本实施方式所涉及的语音识别装置10无需大幅变更现有的搜索模型,就能够以非常简单的处理高精度地识别包括音韵和填充词、非流利性以及非语言声的语音信号。
图18是语音识别装置10的硬件框图。作为一个例子,语音识别装置10通过与一般的计算机(信息处理装置)同样的硬件结构实现。语音识别装置10具备CPU(CentralProcessing Unit,中央处理单元)101、操作部102、显示部103、麦克风104、ROM(Read OnlyMemory,只读存储器)105、RAM(Random Access Memory,随机存取存储器)106、存储部107、通信装置108以及总线109。各部分通过总线109连接。
CPU101将RAM106的预定区域作为工作区,通过与在ROM105或者存储部107中预先存储的各种程序的协作来执行各种处理,总体地控制构成语音识别装置10(特征抽出部22、得分计算部26以及搜索部30)的各部分的动作。另外,CPU101通过与在ROM105或者存储部107中预先存储的程序的协作,实现操作部102、显示部103、麦克风104以及通信装置108等。
操作部102是鼠标、键盘等输入设备,受理从用户操作输入的信息而作为指示信号,将该指示信号输出到CPU101。
显示部103是LCD(Liquid Crystal Display,液晶显示器)等显示装置。显示部103根据来自CPU101的显示信号,显示各种信息。例如,显示部103显示输出记号等。此外,在对通信装置108或者存储部107等输出输出记号等的情况下,语音识别装置10也可以不具备显示部103。
麦克风104是输入语音信号的设备。在进行预先记录的语音信号或者从通信装置108输入的语音信号的模式识别的情况下,语音识别装置10也可以不具备麦克风104。
ROM105不可改写地存储在语音识别装置10的控制中使用的程序以及各种设定信息等。RAM106是SDRAM(Synchronous Dynamic Random Access Memory,同步动态随机存取存储器)等易失性的存储介质。RAM106作为CPU101的工作区发挥功能。具体而言,作为临时存储语音识别装置10使用的各种变量以及参数等的缓冲器等发挥功能。
存储部107是闪存存储器等基于半导体的存储介质、能够磁性地或者光学性地进行记录的存储介质等可改写的记录装置。存储部107存储在语音识别装置10的控制中使用的程序以及各种设定信息等。另外,存储部107存储声音模型存储部24以及搜索模型存储部28等存储的信息。
通信装置108与外部的机器通信,用于输出记号以及附加记号等的输出等。在进行预先记录的语音信号或者从麦克风104输入的语音信号的模式识别、且将输出记号以及附加记号等输出到显示部103或者存储部107的情况下,语音识别装置10也可以不具备通信装置108。
在本实施方式的语音识别装置10中执行的程序以可安装的形式或者可执行的形式的文件被记录到CD-ROM、软盘(FD),CD-R、DVD(Digital Versatile Disk,数字通用盘)等计算机可读取的记录介质而提供。
另外,也可以构成为将在本实施方式的语音识别装置10中执行的程序储存到与因特网等网络连接的计算机上,通过经由网络下载来提供。另外,也可以构成为将在本实施方式的语音识别装置10中执行的程序经由因特网等网络提供或者分发。另外,也可以构成为将在本实施方式的语音识别装置10中执行的程序预先组装到ROM等来提供。
在本实施方式的语音识别装置10中执行的程序为包括上述特征抽出模块、得分计算模块以及搜索模块的模块结构,CPU101(处理器)从存储介质等读出程序并执行,由此将上述各部分加载到主存储装置上,在主存储装置上生成特征抽出部22、得分计算部26以及搜索部30。此外,特征抽出部22、得分计算部26以及搜索部30的一部分或者全部也可以通过硬件构成。
虽然说明了本发明的几个实施方式,但这些实施方式作为示例而提示的,并不意图限定发明的范围。这些新的实施方式能够以其它各种方式实施,能够在不脱离发明的要旨的范围内进行各种省略、置换、变更。这些实施方式、其变形包含于发明的范围、要旨,并且包含于权利要求书记载的发明和其等同的范围。
此外,能够将上述实施方式总结为以下的技术方案。
技术方案1
一种语音识别装置,输出表示在语音信号中包含的语言信息的输出记号,具备:
计算部,根据所述语音信号,计算得分向量排列的得分向量列,该得分向量包括作为预先确定的记号集合的要素的每个输入记号的声音得分;以及
搜索部,通过搜索预先登记的搜索模型,检测对得到所述得分向量列中的可能的所述声音得分的所述输入记号进行追踪的路径,输出对所述搜索模型中的检测出的路径分配的所述输出记号,
所述记号集合包括表示识别对象的音韵的识别对象记号和表示填充词、非流利性及非语言声中的至少一个的附加记号而作为所述输入记号,
所述搜索模型包括被分配有一个以上的所述输入记号排列的输入记号串和所述输出记号的多个路径,
所述搜索部在受理了所述附加记号作为得到可能的所述声音得分的所述输入记号的情况下,从包括所受理的所述附加记号的所述得分向量的下个所述得分向量开始搜索与新的所述输出记号对应的路径。
技术方案2
在技术方案1记载的语音识别装置中,
所述搜索部在受理了所述附加记号的情况下,使搜索位置移动到在所述搜索模型中包含的路径的开始点。
技术方案3
在技术方案2记载的语音识别装置中,
所述搜索模型是有限状态转换器,
所述搜索部在受理了所述附加记号的情况下,使路径的状态转移到所述有限状态转换器中的开始状态。
技术方案4
在技术方案1记载的语音识别装置中,
所述搜索部在受理了所述附加记号的情况下,使搜索位置移动到在所述搜索模型中包含的路径的结束点。
技术方案5
在技术方案4记载的语音识别装置中,
所述搜索模型是有限状态转换器,
所述搜索部在受理了所述附加记号的情况下,使路径的状态转移到所述有限状态转换器中的结束状态。
技术方案6
在技术方案1至5中的任意一项记载的语音识别装置中,
所述搜索部在受理了所述附加记号的情况下,不输出所述输出记号或者输出表示空的所述输出记号。
技术方案7
在技术方案1至5中的任意一项记载的语音识别装置中,
所述搜索部在受理了所述附加记号的情况下,输出表示所述附加记号的记号。
技术方案8
在技术方案1至5中的任意一项记载的语音识别装置中,
所述搜索部在受理了所述附加记号的情况下,输出从路径的开始位置到受理所述附加记号为止所受理的所述输入记号串。
技术方案9
在技术方案1至5中的任意一项记载的语音识别装置中,
所述搜索部在受理了所述附加记号的情况下,输出对受理所述附加记号紧跟前为止所追踪到的路径进行继续的路径的所述输出记号。
技术方案10
在技术方案1至5中的任意一项记载的语音识别装置中,
所述搜索部在受理了所述附加记号的情况下,检测是否确定为一个对受理所述附加记号紧跟前为止所追踪到的路径进行继续的路径,
在确定为一个路径的情况下,输出对所确定的路径分配的所述输出记号,
在未确定为一个路径的情况下,不输出所述输出记号或者输出表示空的所述输出记号。
技术方案11
在技术方案1至10中的任意一项记载的语音识别装置中,
在所述搜索模型中预先追加有受理所述附加记号的路径。
技术方案12
在技术方案1至10中的任意一项记载的语音识别装置中,
在所述搜索模型中不追加受理所述附加记号的路径,
所述搜索部每当推进路径的搜索时,判断是否受理了所述附加记号。
技术方案13
一种语音识别方法,输出表示在语音信号中包含的语言信息的输出记号,其中,
根据所述语音信号,计算得分向量排列的得分向量列,该得分向量包括作为预先确定的记号集合的要素的每个输入记号的声音得分,
通过搜索预先登记的搜索模型,检测对得到所述得分向量列中的可能的所述声音得分的所述输入记号进行追踪的路径,输出对所述搜索模型中的检测出的路径分配的所述输出记号,
所述记号集合包括表示识别对象的音韵的识别对象记号和表示填充词、非流利性及非语言声中的至少一个的附加记号而作为所述输入记号,
所述搜索模型包括被分配有一个以上的所述输入记号排列的输入记号串和所述输出记号的多个路径,
在受理了所述附加记号作为得到可能的所述声音得分的所述输入记号的情况下,从包括所受理的所述附加记号的所述得分向量的下个所述得分向量开始搜索与新的所述输出记号对应的路径。
技术方案14
一种存储介质,存储程序,该程序用于使信息处理装置作为输出表示在语音信号中包含的语言信息的输出记号的语音识别装置发挥功能,其中,
所述程序使所述信息处理装置发挥如下功能:
计算部,根据所述语音信号,计算得分向量排列的得分向量列,该得分向量包括作为预先确定的记号集合的要素的每个输入记号的声音得分;以及
搜索部,通过搜索预先登记的搜索模型,检测对得到所述得分向量列中的可能的所述声音得分的所述输入记号进行追踪的路径,输出对所述搜索模型中的检测出的路径分配的所述输出记号,
所述记号集合包括表示识别对象的音韵的识别对象记号和表示填充词、非流利性及非语言声中的至少一个的附加记号而作为所述输入记号,
所述搜索模型包括被分配有一个以上的所述输入记号排列的输入记号串和所述输出记号的多个路径,
所述搜索部在受理了所述附加记号作为得到可能的所述声音得分的所述输入记号的情况下,从包括所受理的所述附加记号的所述得分向量的下个所述得分向量开始搜索与新的所述输出记号对应的路径。
Claims (10)
1.一种语音识别装置,输出表示在语音信号中包含的语言信息的输出记号,具备:
计算部,根据所述语音信号,计算得分向量排列的得分向量列,该得分向量包括作为预先确定的记号集合的要素的每个输入记号的声音得分;以及
搜索部,通过搜索预先登记的搜索模型,检测对得到所述得分向量列中的可能的所述声音得分的所述输入记号进行追踪的路径,输出对所述搜索模型中的检测出的路径分配的所述输出记号,
所述记号集合包括表示识别对象的音韵的识别对象记号和表示填充词、非流利性及非语言声中的至少一个的附加记号而作为所述输入记号,
所述搜索模型包括被分配有一个以上的所述输入记号排列的输入记号串和所述输出记号的多个路径,
所述搜索部在受理了所述附加记号作为得到可能的所述声音得分的所述输入记号的情况下,从包括所受理的所述附加记号的所述得分向量的下个所述得分向量开始搜索与新的所述输出记号对应的路径。
2.根据权利要求1所述的语音识别装置,其中,
所述搜索部在受理了所述附加记号的情况下,使搜索位置移动到在所述搜索模型中包含的路径的开始点。
3.根据权利要求2所述的语音识别装置,其中,
所述搜索模型是有限状态转换器,
所述搜索部在受理了所述附加记号的情况下,使路径的状态转移到所述有限状态转换器中的开始状态。
4.根据权利要求1所述的语音识别装置,其中,
所述搜索部在受理了所述附加记号的情况下,使搜索位置移动到在所述搜索模型中包含的路径的结束点。
5.根据权利要求4所述的语音识别装置,其中,
所述搜索模型是有限状态转换器,
所述搜索部在受理了所述附加记号的情况下,使路径的状态转移到所述有限状态转换器中的结束状态。
6.根据权利要求1至5中的任意一项所述的语音识别装置,其中,所述搜索部在受理了所述附加记号的情况下,不输出所述输出记号或者输出表示空的所述输出记号。
7.根据权利要求1至5中的任意一项所述的语音识别装置,其中,所述搜索部在受理了所述附加记号的情况下,输出表示所述附加记号的记号。
8.根据权利要求1至5中的任意一项所述的语音识别装置,其中,所述搜索部在受理了所述附加记号的情况下,输出从路径的开始位置到受理所述附加记号为止所受理的所述输入记号串。
9.一种语音识别方法,输出表示在语音信号中包含的语言信息的输出记号,其中,
根据所述语音信号,计算得分向量排列的得分向量列,该得分向量包括作为预先确定的记号集合的要素的每个输入记号的声音得分,通过搜索预先登记的搜索模型,检测对得到所述得分向量列中的可能的所述声音得分的所述输入记号进行追踪的路径,输出对所述搜索模型中的检测出的路径分配的所述输出记号,
所述记号集合包括表示识别对象的音韵的识别对象记号和表示填充词、非流利性及非语言声中的至少一个的附加记号而作为所述输入记号,
所述搜索模型包括被分配有一个以上的所述输入记号排列的输入记号串和所述输出记号的多个路径,
在受理了所述附加记号作为得到可能的所述声音得分的所述输入记号的情况下,从包括所受理的所述附加记号的所述得分向量的下个所述得分向量开始搜索与新的所述输出记号对应的路径。
10.一种存储介质,存储程序,该程序用于使信息处理装置作为输出表示在语音信号中包含的语言信息的输出记号的语音识别装置发挥功能,其中,
所述程序使所述信息处理装置发挥如下功能:
计算部,根据所述语音信号,计算得分向量排列的得分向量列,该得分向量包括作为预先确定的记号集合的要素的每个输入记号的声音得分;以及
搜索部,通过搜索预先登记的搜索模型,检测对得到所述得分向量列中的可能的所述声音得分的所述输入记号进行追踪的路径,输出对所述搜索模型中的检测出的路径分配的所述输出记号,
所述记号集合包括表示识别对象的音韵的识别对象记号和表示填充词、非流利性及非语言声中的至少一个的附加记号而作为所述输入记号,
所述搜索模型包括被分配有一个以上的所述输入记号排列的输入记号串和所述输出记号的多个路径,
所述搜索部在受理了所述附加记号作为得到可能的所述声音得分的所述输入记号的情况下,从包括所受理的所述附加记号的所述得分向量的下个所述得分向量开始搜索与新的所述输出记号对应的路径。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017-045210 | 2017-03-09 | ||
JP2017045210A JP6599914B2 (ja) | 2017-03-09 | 2017-03-09 | 音声認識装置、音声認識方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108573713A CN108573713A (zh) | 2018-09-25 |
CN108573713B true CN108573713B (zh) | 2022-01-11 |
Family
ID=63445563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710760251.3A Active CN108573713B (zh) | 2017-03-09 | 2017-08-30 | 语音识别装置、语音识别方法以及存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10553205B2 (zh) |
JP (1) | JP6599914B2 (zh) |
CN (1) | CN108573713B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110179466A (zh) * | 2019-06-03 | 2019-08-30 | 珠海涵辰科技有限公司 | 基于智能终端的灾后呼吸检测系统 |
CN112116908B (zh) * | 2020-11-18 | 2021-02-23 | 北京声智科技有限公司 | 唤醒音频确定方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1385147A2 (en) * | 2002-07-23 | 2004-01-28 | Microsoft Corporation | Method of speech recognition using time-dependent interpolation and hidden dynamic value classes |
CN1698097A (zh) * | 2003-02-19 | 2005-11-16 | 松下电器产业株式会社 | 语音识别装置及语音识别方法 |
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
WO2011052412A1 (ja) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 |
CN105529027A (zh) * | 2015-12-14 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN106233374A (zh) * | 2014-04-17 | 2016-12-14 | 高通股份有限公司 | 用于检测用户定义的关键字的关键字模型生成 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3698511B2 (ja) | 1996-12-11 | 2005-09-21 | 沖電気工業株式会社 | 音声認識方法 |
EP2003572B1 (en) | 2007-05-22 | 2010-08-04 | Honda Motor Co., Ltd. | Language understanding device |
JP4283333B2 (ja) * | 2008-09-29 | 2009-06-24 | 三菱電機インフォメーションシステムズ株式会社 | オペレータ業務支援システム |
TWI420510B (zh) * | 2010-05-28 | 2013-12-21 | Ind Tech Res Inst | 可調整記憶體使用空間之語音辨識系統與方法 |
KR20120066530A (ko) * | 2010-12-14 | 2012-06-22 | 한국전자통신연구원 | 언어 모델 가중치 추정 방법 및 이를 위한 장치 |
JP5739718B2 (ja) * | 2011-04-19 | 2015-06-24 | 本田技研工業株式会社 | 対話装置 |
CN104143328B (zh) | 2013-08-15 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 一种关键词检测方法和装置 |
EP2862164B1 (en) | 2013-08-23 | 2017-05-31 | Nuance Communications, Inc. | Multiple pass automatic speech recognition |
JP6315980B2 (ja) * | 2013-12-24 | 2018-04-25 | 株式会社東芝 | デコーダ、デコード方法およびプログラム |
JP2016057986A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
-
2017
- 2017-03-09 JP JP2017045210A patent/JP6599914B2/ja active Active
- 2017-08-29 US US15/689,775 patent/US10553205B2/en active Active
- 2017-08-30 CN CN201710760251.3A patent/CN108573713B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1385147A2 (en) * | 2002-07-23 | 2004-01-28 | Microsoft Corporation | Method of speech recognition using time-dependent interpolation and hidden dynamic value classes |
CN1698097A (zh) * | 2003-02-19 | 2005-11-16 | 松下电器产业株式会社 | 语音识别装置及语音识别方法 |
CN101727903A (zh) * | 2008-10-29 | 2010-06-09 | 中国科学院自动化研究所 | 基于多特征和多系统融合的发音质量评估和错误检测方法 |
WO2011052412A1 (ja) * | 2009-10-28 | 2011-05-05 | 日本電気株式会社 | 音声認識システム、音声認識要求装置、音声認識方法、音声認識用プログラムおよび記録媒体 |
CN106233374A (zh) * | 2014-04-17 | 2016-12-14 | 高通股份有限公司 | 用于检测用户定义的关键字的关键字模型生成 |
CN105529027A (zh) * | 2015-12-14 | 2016-04-27 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
Non-Patent Citations (2)
Title |
---|
"关键词识别中语音确认技术的研究";江雪峰;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120915;全文 * |
"基于联合得分的连续语音识别确认方法";严斌峰;《软件学报》;20031231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
US20180261210A1 (en) | 2018-09-13 |
US10553205B2 (en) | 2020-02-04 |
CN108573713A (zh) | 2018-09-25 |
JP2018151413A (ja) | 2018-09-27 |
JP6599914B2 (ja) | 2019-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10319373B2 (en) | Information processing device, information processing method, computer program product, and recognition system | |
CN101436403B (zh) | 声调识别方法和系统 | |
CN111369974B (zh) | 一种方言发音标注方法、语言识别方法及相关装置 | |
CN108091334B (zh) | 识别装置、识别方法以及存储介质 | |
KR101587866B1 (ko) | 음성 인식용 발음사전 확장 장치 및 방법 | |
CN108074562B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
US8566091B2 (en) | Speech recognition system | |
Serrino et al. | Contextual Recovery of Out-of-Lattice Named Entities in Automatic Speech Recognition. | |
CN108573713B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
JP2001195087A (ja) | 音声認識システム | |
KR101250897B1 (ko) | 전자사전에서 음성인식을 이용한 단어 탐색 장치 및 그 방법 | |
CN113053414B (zh) | 一种发音评测方法及装置 | |
JP7098587B2 (ja) | 情報処理装置、キーワード検出装置、情報処理方法およびプログラム | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
US6438521B1 (en) | Speech recognition method and apparatus and computer-readable memory | |
JP2004294542A (ja) | 音声認識装置及びそのプログラム | |
JP2008249761A (ja) | 統計的言語モデル生成装置及び方法、及びこれを用いた音声認識装置 | |
Lehečka et al. | Improving speech recognition by detecting foreign inclusions and generating pronunciations | |
JP2003050595A (ja) | 音声認識装置及び方法、並びにプログラム | |
Wang et al. | Handling OOVWords in Mandarin Spoken Term Detection with an Hierarchical n‐Gram Language Model | |
Kalinli et al. | Continuous speech recognition using attention shift decoding with soft decision. | |
Réveil | Optimizing the recognition lexicon for automatic speech recognition | |
CN114255758A (zh) | 口语评测方法及装置、设备以及存储介质 | |
JPH08171396A (ja) | 音声認識装置 | |
CN115148224A (zh) | 语调评分方法、语调评分系统、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |