CN107112007A - 语音识别装置及语音识别方法 - Google Patents
语音识别装置及语音识别方法 Download PDFInfo
- Publication number
- CN107112007A CN107112007A CN201480084337.3A CN201480084337A CN107112007A CN 107112007 A CN107112007 A CN 107112007A CN 201480084337 A CN201480084337 A CN 201480084337A CN 107112007 A CN107112007 A CN 107112007A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- language
- dictionary
- processing circuit
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 11
- 230000014509 gene expression Effects 0.000 claims abstract description 115
- 235000013399 edible fruits Nutrition 0.000 claims description 2
- 230000005611 electricity Effects 0.000 claims 2
- 238000005516 engineering process Methods 0.000 abstract description 5
- 238000013507 mapping Methods 0.000 description 17
- 230000009471 action Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000006073 displacement reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/187—Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Automation & Control Theory (AREA)
- General Engineering & Computer Science (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
Abstract
本发明的目的在于提供一种抑制语音识别辞典的数据大小、并能对混合存在多种语言的语音进行语音识别的技术。语音识别辞典(5)包含多个地名辞典(51A~51C)及将其他语言的音素映射到对应语言的音素的多种门牌辞典(52BA~52BC)。从多个地名辞典(51A~51C)中设定用于由设定于语音识别语言设定部(6)的语言用语音识别部利用对应语言的音素进行语音识别的地名辞典,并且从多个门牌辞典(52BA~52BC)中设定用于由该语言用语音识别部将其他语言的音素置换为对应语言的音素并并进行语音识别的门牌辞典。
Description
技术领域
本发明涉及能实现语音识别的语音识别装置及语音识别方法。
背景技术
提出了通过内置语音识别装置对来自用户的语音进行语音识别,从而能输入地址的导航系统。在将上述导航系统用于欧洲等地区时,具有设定为导航系统所使用的语言的语言(以下记载为“系统设定语言”)与表示目的地的语言不同的情况。例如,在用户是英国人而目的地是德国的地址的情况下,假设系统设定语言为英语,表示目的地的语言为德语。
用于进行地名的语音识别的地名的音素(相当于发音记号)由地图制作公司提供,通常提供该地名所表示的地区中主要使用的语言的音素。例如,对于德国地名的音素,使用德语的音素。因此,在表示目的地的语言是德语的情况下,从效率的观点来看,优选使用由地图制作公司提供的德语的音素构成的语音识别辞典,并且使用与此对应的德语的语音识别引擎。
另一方面,对于系统设定语言,通常使用用户的母语。因此,在系统设定语言是英语的情况下,优选使用英语的语音识别引擎。
因此,在系统设定语言是英语而表示目的地的语言是德语的情况下,关于表示目的地的语言所优选的语音识别辞典与关于系统设定语言所优选的语音识别辞典是不同的。
然而,具有存在于英语及德语的一种语言中的音素(发音)不存在于另一种语言中的情况,因此存在以下问题:无法利用英语及德语的一种语言的语音识别引擎来处理另一种语言的音素。
为了解决该问题,提出了如下技术:使用将某一语言A的音素a与另一语言B的音素b中与该音素a相同或最接近的音素b相对应的语音识别辞典(例如专利文献1)。若使用上述语音识别辞典,则能将语言A的音素置换为语言B的音素并利用语言B的语音识别引擎来进行语音识别。下面,在语音识别辞典中有时也将某个语言的音素与另一语言的音素相对应的情况记载为“音素的映射”。
现有技术文献
专利文献
专利文献1:日本专利特开2011-033874号公报
发明内容
发明所要解决的技术问题
然而,在现有的语音识别装置中存在如下问题:即、无法对混合存在多种语言的语音进行语音识别,此外,实施了上述音素的映射的语音识别辞典的数据大小较大。
因此,本发明是鉴于上述问题点而完成的,其目的在于,提供一种能抑制语音识别辞典的数据大小、并能对混合存在多种语言的语音进行语音识别的技术。
解决技术问题的技术方案
本发明所涉及的语音识别装置包括:语音识别辞典,该语音识别辞典规定了语音识别对象的词汇;以及语音识别处理电路,该语音识别处理电路利用语音识别辞典来进行输入语音的语音识别。语音识别处理电路包含能利用各个预先设定的语言的音素进行语音识别的多个语言用语音识别处理电路。语音识别辞典包含:多个第1辞典,该多个第1辞典用于分别由多个语言用语音识别处理电路利用与自身相对应的语言即对应语言的音素来进行第1词汇的语音识别;以及多个第2辞典,该多个第2辞典用于分别由多个语言用语音识别处理电路将不同于对应语言的语言即其他语言的音素置换为对应语言的音素并进行第2词汇的语音识别,该多个第2辞典将关于第2词汇的其他语言的音素映射到对应语言的音素。语音识别装置还包括:语音识别语言设定处理电路,该语音识别语言设定处理电路从多个语言用语音识别处理电路中设定语音识别所要使用的语言用语音识别处理电路;以及语音识别辞典设定处理电路,该语音识别辞典设定处理电路从多个第1辞典中设定用于由语音识别语言设定处理电路所设定的语言用语音识别处理电路利用对应语言的音素来进行第1词汇的语音识别的第1辞典,并且从多个第2辞典中设定用于由语音识别语言设定处理电路所设定的语言用语音识别处理电路将其他语言的音素置换为对应语言的音素并进行第2词汇的语音识别的第2辞典。
本发明所涉及的语音识别方法包括如下步骤:准备语音识别辞典的步骤,所述语音识别辞典规定了语音识别对象的词汇;以及利用语音识别辞典来进行输入语音的语音识别的步骤。进行语音识别的步骤包含准备多个语言用语音识别处理电路的步骤,所述多个语言用语音识别处理电路能利用各个预先设定的语言的音素来进行语音识别。准备语音识别辞典的步骤包含如下步骤:准备多个第1辞典及多个第2辞典,其中,所述多个第1辞典用于分别由多个语言用语音识别处理电路利用与自身相对应的语言即对应语言的音素来进行第1词汇的语音识别,所述多个第2辞典与用于分别由多个语言用语音识别处理电路将不同于对应语言的语言即其他语言的音素置换为对应语言的音素并进行第2词汇的语音识别,所述多个第2辞典将关于第2词汇的其他语言的音素映射到对应语言的音素。语音识别方法还包括如下步骤:从多个语言用语音识别处理电路中设定语音识别所要使用的语言用语音识别处理电路的步骤;以及从多个第1辞典中设定用于由设定的语言用语音识别处理电路利用对应语言的音素来进行第1词汇的语音识别的第1辞典、并从多个第2辞典中设定用于由设定的语言用语音识别处理电路将其他语言的音素置换为对应语言的音素并进行第2词汇的语音识别的第2辞典的步骤。
发明效果
根据本发明,能抑制语音识别辞典的数据大小,并能对混合存在多种语言的语音进行语音识别。
本发明的目的、特征、方式以及优点通过以下详细的说明和附图来进一步阐明。
附图说明
图1是表示实施方式1所涉及的语音识别装置的硬件结构的框图。
图2是表示实施方式1所涉及的语音识别装置的主要结构的框图。
图3是表示实施方式1所涉及的语音识别装置的结构的框图。
图4是用于说明实施方式1所涉及的音素的映射的图。
图5是表示实施方式1所涉及的语音识别装置的动作的流程图。
图6是表示实施方式2所涉及的语音识别装置的结构的框图。
图7是表示实施方式2所涉及的语音识别装置的动作的流程图。
具体实施方式
<实施方式1>
下面,以将本发明的实施方式1所涉及的语音识别装置搭载于导航系统(或导航装置)的结构为例进行说明。
图1是表示本实施方式1所涉及的语音识别装置的硬件结构的框图。图1的语音识别装置具备例如由CPU(Central Processing Unit:中央处理单元)等构成的处理器81及例如由半导体存储器等构成的存储器82。
图2是表示实施方式1所涉及的语音识别装置的主要功能结构的框图。图2的语音识别装置包括语音识别部4、语音识别辞典5、语音识别语言设定部6及语音识别辞典设定部7。此处,语音识别部4、语音识别语言设定部6及语音识别辞典设定部7通过由图1的处理器81执行存储于存储器82等存储装置的程序,从而作为该处理器81的功能来实现。另外,上述功能也可以由多个处理器81来协作实现。语音识别辞典5对应于图1的存储器82、未图示的HDD(Hard Disk Drive:硬盘驱动器)等存储装置。
图3是表示该语音识别装置的主要功能结构及附加功能结构的框图。另外,仅由图3所示的附加结构仅仅是与本发明间接相关的结构,除了以下说明的结构以外也能适用各种结构。图3的语音识别装置除了图2的结构要素以外还具备语音输入部1、语音获取部2、声响分析部3。
接着,对本实施方式1所涉及的语音识别装置的图2及图3的各结构要素进行详细说明。
语音输入部1从外部(例如用户)获取语音。语音获取部2对由语音输入部1获取的语音进行数字信号化,从而生成语音信号。声响分析部3对语音信号进行分析并转换成声响特征的矢量序列或声响特征的时间序列。
语音识别部4利用规定有语音识别对象的词汇的语音识别辞典5,进行输入语音(声响特征的矢量序列或声响特征的时间序列)的语音识别。其结果是,语音识别部4从语音识别辞典5的词汇中输出最正确的词汇。
本实施方式1中,语音识别部4包含多个语言用语音识别部即语言用语音识别部4A、4B、4C(以下汇总记载为“语言用语音识别部4A~4C”)。
语言用语音识别部4A~4C分别是能利用预先设定的语言的音素进行语音识别的语音识别引擎。例如,语言用语音识别部4A具有用于识别与自身相对应的语言A的声响模型(未图示),能利用该语言A的音素进行语音识别。语言用语音识别部4B及语言用语音识别部4C也同样地构成,分别能利用与自身相对应的语言B及语言C的音素进行语音识别。
另外,以下的说明中,将与各个语言用语音识别部4A~4C相对应的语言记载为“对应语言”,将不同于对应语言的语言记载为“其他语言”。具体而言,语言A对于语言用语音识别部4A而言为对应语言A,而对于语言用语音识别部4B而言为其他语言A。
语音识别部4适当利用语言用语音识别部4A~4C中的任一个语言用语音识别部,从而能适当地进行对应语言A~C中的一个的语音识别。
语音识别辞典5规定有语音识别对象的词汇。本实施方式1中,语音识别辞典5包含多个作为第1辞典的地名辞典51A、51B、51C(以下汇总记载为“地名辞典51A~51C”),门牌辞典52AA、52BB、52CC,多个作为第2辞典的门牌辞典52BA、52CA、52AB、52CB、52AC、52BC。另外,以下的说明中,将门牌辞典52BA、52CA、52AB、52CB、52AC、52BC汇总记载为“门牌辞典52BA~52BC”。
地名辞典51A~51C是用于由语言用语音识别部4A~4C分别利用对应语言A~C的音素进行地名的词汇(第1词汇)的语音识别的辞典。例如,地名辞典51A中规定有主要使用对应语言A的地名的词汇。语言用语音识别部4A利用上述地名辞典51A,从而能根据对应语言A的音素的输入语音来进行确定对应语言A的音素的地名的语音识别。
然而,由于通常对应语言A的音素与语言B、C的音素不同,语言用语音识别部4A无法根据不同于对应语言A的其他语言B、C等的音素的输入语音来进行确定对应语言A的音素的地名的语音识别。该情况对于语言用语音识别部4B、4C而言也同样。
地名辞典52AA、52BB、52CC是用于由语言用语音识别部4A~4C分别利用对应语言A~C的音素进行门牌(house number)的词汇(第1词汇)的语音识别的辞典。例如,语言用语音识别部4A利用门牌辞典52AA,从而能根据对应语言A的音素的输入语音来进行确定对应语言A的音素的门牌的语音识别。该情况对于语言用语音识别部4B、4C而言也同样。
门牌辞典52BA、52CA是用于由语言用语音识别部4A将其他语言B、C的音素置换为对应语言A的音素并进行门牌的词汇(第2词汇、预先设定的数字的词汇)的语音识别的辞典。
图4是用于说明门牌辞典52AA、52BA、52CA的图。如图4所示,对除门牌辞典52AA以外的门牌辞典52BA、52CA实施音素的映射。
门牌辞典52BA是将关于门牌的词汇(第2词汇,预先设定的数字的词汇)的其他语言B的音素b映射到对应语言A的音素a中的与该音素b相同或最接近的音素a的语音识别辞典。门牌辞典52CA是将关于门牌的词汇(第2词汇,预先设定的数字的词汇)的其他语言C的音素c映射到对应语言A的音素a中的与该音素c相同或最接近的音素a的语音识别辞典。另外,能对音素的映射应用例如专利文献1所公开的技术等。
语言用语音识别部4A利用门牌辞典52AA,从而能根据对应语言A的音素的输入语音进行确定对应语言A的音素的门牌的语音识别。
语言用语音识别部4A利用门牌辞典52BA,从而能将其他语言B的音素的输入语音置换为对应语言A的音素中的相同或类似的音素的语音,根据置换后的输入语音进行确定对应语言A的音素的门牌的语音识别。
语言用语音识别部4A利用门牌辞典52CA,从而能将其他语言C的音素的输入语音置换为对应语言A的音素中的相同或类似的音素的语音,根据置换后的输入语音进行确定对应语言A的音素的门牌的语音识别。
如上所述,语言用语音识别部4A能利用门牌辞典52AA、52BA、52CA进行语音识别。
以上对门牌辞典52BA、52CA进行了说明,但图2、3的门牌辞典52AB、52CB、52AC、52BC也同样。也就是说,门牌辞典52AB、52CB是用于由语言用语音识别部4B将其他语言A、C的音素置换为对应语言B的音素并进行门牌的词汇的语音识别的语音识别辞典,是将关于门牌的词汇的其他语言A、C的音素映射到对应语言B的音素的语音识别辞典。门牌辞典52AC、52BC是用于由语言用语音识别部4C将其他语言A、B的音素置换为对应语言C的音素并进行门牌的词汇的语音识别的语音识别辞典,是将关于门牌的词汇的其他语言A、B的音素映射到对应语言C的音素的语音识别辞典。
语音识别语言设定部6从语言用语音识别部4A~4C中设定语音识别所要使用的一个语言用语音识别部。本实施方式1中,由用户预先设定上述导航系统中的目的地(例如经由地、最终到达地等),语音识别语言设定部6基于该目的地设定语音识别所要使用的一个语言用语音识别部。
例如,语音识别语言设定部6预先存储有将多个地区和各地区所主要使用的语言相对应的表格。然后,语音识别语言设定部6从该表格中获取与目的地的地名所属地区相对应的语言,设定对该获取到的语言进行语音识别的语言用语音识别部。
以下的说明中,将语音识别语言设定部6所设定的语言用语言识别部记载为“设定语音识别部”。
接着,对由语音识别辞典设定部7所进行的地名辞典及门牌辞典的设定进行说明。
语音识别辞典设定部7从地名辞典51A~51C中设定用于由设定语音识别部(设定于语音识别语言设定部6的语言用语音识别部)利用对应语言的音素进行地名的语音识别的地名辞典。例如,在设定语音识别部是语言用语音识别部4A的情况下,语音识别辞典设定部7设定地名辞典51A。
此外,在系统设定语言(由导航系统设定的语言)与设定语音识别部的对应语言相同的情况下,语音识别辞典设定部7从门牌辞典52AA、52BB、52CC中设定用于由设定语音识别部利用对应语言的音素进行门牌的语音识别的门牌辞典。例如,在设定语音识别部是语言用语音识别部4A,系统设定语言是语言用语音识别部4A的对应语言A的情况下,语音识别辞典设定部7设定门牌辞典52AA。
另一方面,在系统设定语言是不同于设定语音识别部的对应语言的其他语言的情况下,语音识别辞典设定部7从门牌辞典52BA~52BC中设定用于由设定语音识别部将其他语言的音素置换为对应语言的音素并进行门牌的语音识别的门牌辞典。例如,在设定语音识别部是语言用语音识别部4A、系统设定语言是语言用语音识别部4A的其他语言B的情况下,语音识别辞典设定部7设定门牌辞典52BA。也就是说,在系统设定语言是其他语言的情况下,语音识别辞典设定部7将其他语言与系统设定语言相同的门牌辞典设定作为用于由设定语音识别部将其他语言的音素置换为对应语言的音素并进行语音识别的门牌辞典。
另外,设定语音识别部构成为对于输入语音的输入顺序的预先设定的第1部分进行利用了地名辞典(地名辞典51A~51C中的任一个地名辞典)的语音识别。并且,设定语音识别部构成为对于输入语音的输入顺序的预先设定的第2部分进行利用了门牌辞典(门牌辞典52AA、52BB、52CC及门牌辞典52BA~52BC中的任一个门牌辞典)的语音识别。
此处,通常在语音输入地址的一个话语中,地名比门牌先说出的情况较多,因此,本实施方式1中,将上述第1部分应用于输入语音的输入顺序的前半部分,将上述第2部分应用于输入语音的输入顺序的后半部分。
<动作>
图5是表示本实施方式1所涉及的语音识别装置的动作的流程图。另外,以下的说明中,以如下情况为例进行说明:即、目的地为德国的地址(目的地的语言为德语),系统设定语言为英语,德语的语言用语音识别部为语言用语音识别部4A,德语的地名辞典为地名辞典51A,将英语的音素映射到德语的音素的门牌辞典为门牌辞典52BA。然而,这仅是一个示例,并不限于此。
首先,步骤S1中,语音输入部1获取(接受)来自用户的语音(话语)。步骤S2中,语音获取部2根据由语音输入部1获取的语音来生成语音信号。步骤S3中,声响分析部3对语音信号进行分析并转换成声响特征的矢量序列或声响特征的时间序列等。
步骤S4中,语音识别语言设定部6基于目的地从语言用语音识别部4A~4C中设定(选定)语言用语音识别部。上述示例中,由于目的地是德国的地名,因此语音识别语言设定部6设定德语的语言用语音识别部4A。即,设定语音识别部成为德语的言语用语音识别部4A。
步骤S5中,语音识别辞典设定部7从地名辞典51A~51C中设定(选定)用于由设定语音识别部利用对应语言的音素进行地名的语音识别的地名辞典。上述示例中,设定语音识别部为德语的语言用语音识别部4A,因此语音识别辞典设定部7设定德语的地名辞典51A。
步骤S6中,语音识别辞典设定部7从门牌辞典52AA、52BB、52CC及地名辞典52BA~52BC中设定(选定)用于由设定语音识别部利用系统设定语言的音素进行语音识别的门牌辞典。上述示例中,设定语音识别部是德语的语言用语音识别部4A,系统设定语言是英语,因此语音识别辞典设定部7设定将英语的音素映射到德语的音素的门牌辞典52BA。
步骤S7中,语音识别部4参照语音识别辞典5,对经声响分析的声响数据进行语音识别,输出最正确的识别结果。上述示例中,德语的语言用语音识别部4A对输入语音的输入顺序的前半部分进行利用了地名辞典51A的语音识别,对输入语音的输入顺序的后半部分进行利用了实施映射后的门牌辞典52BA的语音识别。步骤S7中从语音识别部4输出的识别结果从未图示的扬声器进行语音输出,或显示于未图示的显示器装置中。之后,结束图5的动作。
<实施方式1的总结>
例如,假设作为用户的英国人(系统设定语言为英语)将德国的地址作为目的地进行语音输入的情况。此时,预想在英国人以德语的发音说出德国的地名(例如“StuttgartNeckar strasse”)后,以英语的发音说出门牌(例如“one,two,three(1,2,3)”)的情况。
此处,本实施方式1所涉及的语音识别装置例如能利用第1辞典(地名辞典51A~51C)对“Stuttgart Neckar strasse”进行语音识别。然后,本实施方式1所涉及的语音识别装置能例如利用对“one,two,three”实施音素的映射后的第2辞典(门牌辞典52BA~52BC)进行语音识别。根据上述结构,能对例如混合存在有德语及英语等多个语言的一个话语进行语音识别。此外,由于对地名等不实施音素的映射,从而能降低实施了数据大小较大的音素的映射的语音识别辞典的比例。其结果是,能抑制语音识别辞典的数据大小。并且,也能期待误识别的降低。
此外,本实施方式1所涉及的语音识别装置对输入语音的输入顺序的预先设定的第1部分进行利用了地名辞典的语音识别,对输入语音的输入顺序的预先设定的第2部分进行利用了门牌辞典的语音识别。由此,能提高语音识别的精度。
<实施方式1的变形例>
实施方式1中,实施了音素的映射的各第2辞典(门牌辞典52BA~52BC)的第2词汇是门牌的词汇。然而,并不限于此,各第2辞典的第2词汇可以应用邮政编码等预先设定的数字的词汇。
此外,各第2辞典的第2词汇也可以应用导航系统中POI(point of interest:兴趣点)的预先设定的目录的词汇。并且,在系统设定语言是其他语言的情况下,语音识别辞典设定部7将其他语言与系统设定语言相同的第2辞典设定作为用于由设定语音识别部将其他语言的音素置换为对应语言的音素并进行上述目录的词汇的语音识别的第2辞典。
例如,假设在输入了“World Heritage(世界遗产)”这种英语的POI的目录的语音后输入了“Aachener Dom”这种德语的POI的语音的情况。对于该假设,可以在德语的言语用语音识别部4A对输入语音的输入顺序的前半部分进行利用了将英语的音素映射到德语的音素的第2辞典的语音识别,对输入语音的输入顺序的后半部分进行利用了德语的第1辞典的语音识别。在采用以上结构的情况下,对于目录及POI也能获得与实施方式1相同的效果。
此外,各第2辞典的第2词汇也可以应用导航系统中预先设定的命令的词汇。并且,在系统设定语言是其他语言的情况下,语音识别辞典设定部7将其他语言与系统设定语言相同的第2辞典设定作为用于由设定语音识别部将其他语言的音素置换为对应语言的音素并进行上述命令的词汇的语音识别的第2辞典。
例如,假设在输入了“Navigate to(导航去)”这种英语的命令的语音后输入“Aachener Dom”这种德语的POI的语音的情况。对于该假设,可以在德语的言语用语音识别部4A对输入语音的输入顺序的前半部分进行利用了将英语的音素映射到德语的音素的第2辞典的语音识别,对输入语音的输入顺序的后半部分进行利用了德语的第1辞典的语音识别。在采用以上结构的情况下,也能获得与实施方式1同样的效果。另外,例如在输入了“Play(播放)”这种英语的命令的语音后输入表示德语的曲名的语音的情况、及在输入了“Call(呼叫)”这种英语的命令的语音后输入表示德语的人名的语音的情况也相同。
另外,在实施方式1说明的结构中,利用未对地名实施音素的映射的第1辞典,利用对门牌实施了音素的映射的第2辞典。然而,并不限于此,也可以利用未对门牌实施了音素的映射的第1辞典,对地名实施了音素的映射的第2辞典。然而,如实施方式1所示,相比对大量存在的地名进行音素的映射的情况,对仅少量存在的门牌进行音素的映射的情况能更有效地抑制语音识别辞典的数据大小。
另外,以上说明的变形例也能应用于后述的实施方式2及之后的实施方式中。
<实施方式2>
实施方式1中,作为由用户预先设定导航系统中的目的地(例如经由地、最终到达地等)的情况,语音识别语言设定部7基于该目的地设定了语音识别所要使用的一个语言用语音识别部。然而,实际的运用中,有时在说话前并未预先设定上述目的地。因此,如以下说明的那样,本实施方式2中,即使未预先设定目的地,也能进行与实施方式1同样的动作。
图6是表示本实施方式2所涉及的语音识别装置的结构的框图。另外,本实施方式2所涉及的语音识别装置中,对与以上说明的结构要素相同或类似的部分标注相同的参照标号,并主要对不同部分进行说明。
图6的语音识别装置除了图3的结构要素以外还具备语音存储部8及一次识别结果判定部9。
此处,语音识别部8与图1的存储器82等存储装置相对应。一次识别结果判定部9通过由图1的处理器81执行存储于存储器82等存储装置中的程序,从而作为该处理器81的功能来实现。另外,上述功能也可以由多个处理器81来协作实现。
语音存储部8为了对于一个输入语音由语音识别部4进行多次语音识别而暂时存储该一个输入语音(此处为由声响分析部3转换后的声响特征的矢量序列或声响特征的时间序列)。语音存储部8在每次语音识别时都能利用即可,这样的语音存储部8能利用现有技术来实现,因此省略语音存储部8的详细说明及动作。
另外,如后文详细说明的那样,本实施方式2中,对于一个输入语音,由语音识别部4进行两次的语音识别。通过其中第一次的语音识别来获取目的地的语言。即,在进行了第一次的语音识别后,成为实质上与预先设定了目的地的状态相同的情况。然后,在第二次的语音识别中进行与实施方式1同样的语音识别。
本实施方式2中,语音识别辞典5包含多个地名辞典51A~51C、门牌及命令辞典53AA、53BB、53CC、多个作为第2辞典的门牌及命令辞典53BA、53CA、53AB、53CB、53AC、53BC。另外,以下的说明中,将门牌及命令辞典53BA、53CA、53AB、53CB、53AC、53BC汇总记载为“门牌及命令辞典53BA~53BC”。并且,语音识别辞典5还包含多个作为第3辞典的命令及垃圾辞典54A、54B、54C(以下汇总记载为“命令及垃圾辞典54A~54C”)。
语音识别辞典5中的地名辞典51A~51C与实施方式1所涉及的地名辞典51A~51C相同。
门牌及命令辞典53AA、53BB、53CC是将实施方式1所涉及的门牌辞典52AA、52BB、52CC的门牌置换为门牌及导航系统的命令后的辞典。因此,例如语言用语音识别部4A利用门牌及命令辞典53AA,从而能根据对应语言A的音素的输入语音来进行确定对应语言A的音素的地名及命令的语音识别。另外,设为导航系统的命令包含“Navigate to Germany(导航去德国)”及“Navigate to French(导航去法国)”等。
门牌及命令辞典53BA~53BC是将实施方式1所涉及的门牌辞典52BA~52BC的门牌置换为门牌及导航系统的命令后的辞典。因此,例如语言用语音识别部4A利用门牌及命令辞典53BA,从而能根据其他语言B的音素的输入语音,将该其他语言B的音素置换为对应语言A的音素,并能根据置换后的输入语音进行确定对应语言A的音素的门牌及命令的语音识别。
命令及垃圾辞典54A~54C是用于由各个语言用语音识别部4A~4C分别利用对应语言的音素进行包含垃圾识别在内的第一次的语音识别的辞典。
下面,以如下情况为例进行说明:即、命令及垃圾辞典54A的对应语言A为德语,“navigieren Deutschland”及“navigieren Frankreich”等导航系统的命令被设定于命令及垃圾辞典54A。此外,以如下情况为例进行说明:即、命令及垃圾辞典54B的对应语言B为英语,“Navigate to Germany”及“Navigate to French”等导航系统的命令被设定于命令及垃圾辞典54B。然而,这些仅是一个示例,并不限于此。
垃圾识别是利用被称为垃圾声响模型的模型来进行识别的识别方法。根据上述垃圾识别,无论对于何种话语,均能输出表示该话语与辞典内的几个词汇分别一致的程度的识别分数。
例如,英语的语言用语音识别部4B利用命令及垃圾辞典54B进行包含垃圾识别在内的语音识别。该情况下,无论输入语音是“Navigate to Germany Stuttgart Neckarstrasse”及“Navigate to Germany Aachener Dom”的哪一个,语言用语音识别部4B对“Navigate to Germany<...>”的语音识别的结果赋予比“Navigate to French<…>”等的语音识别的结果要高的识别分数。另外,<…>通常是表示垃圾识别结果的记号。
本实施方式2中,对导航系统中预先设定的多个命令进行如上所述的垃圾识别。并且,各命令设为包含表示可设定为导航系统的目的地的地名、国名、以及它们所使用的语言的至少一个的词汇(例如上述的Deutschland、Frankreich、Germany、French等)。
一次识别结果判定部9基于利用了命令及垃圾辞典54A~54C的第一次的语音识别的结果中所包含的垃圾识别的结果,来判定第二次的语音识别所要使用的语言。本实施方式2中,一次识别结果判定部9基于垃圾识别的结果从多个命令中决定一个命令,基于该一个命令中所包含的地名、国名及表示它们所使用的语言的至少一种语言的词汇,来判定第二次的语音识别所要使用的语言。
例如,作为使用了命令及垃圾辞典54A~54C的第一次的语音识别的结果中所包含的垃圾识别的结果,“Navigate to Germany<…>”的识别分数最高。该情况下,一次识别结果判定部9将多个命令中识别分数最高的“Navigate to Germany”决定作为上述一个命令,并基于该命令中所包含的“Germany”将第二次的语音识别所使用的语言判定为“德语”。
语音识别辞典设定部7在系统设定语言是其他语言的情况下,将其他语言与系统设定语言相同的门牌及命令辞典设定作为用于由设定语音识别部将其他语言的音素置换为对应语言的音素并进行门牌及命令(第2词汇)的语音识别的门牌及命令辞典53BA~53BC。
<动作>
图7是表示本实施方式2所涉及的语音识别装置的动作的流程图。另外,下面以如下情况为例进行说明:即、系统设定语言为英语,德语的语言用语音识别部是语言用语音识别部4A,英语的语言用语音识别部是语言用语音识别部4B,德语的地名辞典为地名辞典51A,将英语的音素映射到德语的音素后的门牌及命令辞典为门牌及命令辞典53BA,英语的命令及垃圾辞典为命令及垃圾辞典54B。并且,以如下情况为例进行说明:英语发音的命令“Navigate to Germany”、德语发音的地名“Stuttgart Neckar strasse”、英语发音的门牌“one,two,three”被依次输入。然而,这仅是一个示例,并不限于此。
首先,步骤S11~S13中进行与实施方式1所涉及的步骤S1~S3相同的动作。
之后,步骤S14中,语音存储部8存储由声响分析部3转换后的声响特征的矢量序列或声响特征的时间序列。
步骤S15中,语音识别语言设定部6基于系统设定语言,从语言用语音识别部4A~4C中设定第一次的语音识别中所要使用的语言用语音识别部。上述示例中,系统设定语言为英语,因此语音识别语言设定部6设定英语的语言用语音识别部4B。另外,以下的说明中,有时也将步骤S15中语音识别语言设定部6所设定的语言用语言识别部记载为“第一次的设定语音识别部”。
步骤S16中,语音识别辞典设定部7从命令及垃圾辞典54A~54C中设定用于由第一次的设定语音识别部利用对应语言的音素进行包含垃圾识别在内的语音识别的命令及垃圾辞典。上述示例中,第一次的设定语音识别部为英语的语言用语音识别部4B,因此语音识别辞典设定部7设定英语的命令及垃圾辞典54B。
步骤S17中,语音识别部4参照语音识别辞典5,对经声响分析的声响数据进行第一次的语音识别,输出最正确的识别结果。上述示例中,英语的语言用语音识别部4B对输入语音“Navigate to Germany Stuttgart Neckar strasse one,two,three”进行包含利用了命令及垃圾辞典54B的垃圾识别在内的语音识别。作为该垃圾识别的结果,对“Navigate toGermany<…>”这一命令赋予最高的识别分数。
步骤S18中,一次识别结果判定部9基于垃圾识别的结果,从多个命令中决定一个命令,基于该一个命令中所包含的地名、国名及表示它们所使用的语言的至少一种语言的词汇,来判定第二次的语音识别所要使用的语言。也就是说,一次识别结果判定部9对与实施方式1中的目的地的语言实质相同的语言进行判定。
上述示例中,一次识别结果判定部9从多个命令中决定识别分数最高的“Navigateto Germany”,并基于该命令中所包含的“Germany”将第二次的语音识别所使用的语言即目的地的语言判定为“德语”。
步骤S19中进行与实施方式1所涉及的步骤S4相同的动作。具体而言,语音识别语言设定部6基于一次识别结果判定部9判定得到的语言,从语言用语音识别部4A~4C中设定语言用语音识别部来作为第二次的语音识别所要使用的语言用语音识别部。上述示例中,由于目的地的语言是德语,因此语音识别语言设定部6设定德语的语言用语音识别部4A。另外,以下的说明中,将步骤S19中语音识别语言设定部6所设定的语言用语言识别部记载为“第二次的设定语音识别部”。
步骤S20中进行与实施方式1所涉及的步骤S5相同的动作。具体而言,语音识别辞典设定部7从地名辞典51A~51C中设定用于由第二次的设定语音识别部利用对应语言的音素进行地名(第1词汇)的语音识别的地名辞典。上述示例中,第二次的设定语音识别部为德语的语言用语音识别部4A,因此语音识别辞典设定部7设定德语的地名辞典51A。
步骤S21中进行与实施方式1所涉及的步骤S6相同的动作。具体而言,语音识别辞典设定部7从门牌及命令辞典53AA、53BB、53CC和门牌及命令辞典53BA~53BC中设定用于由第二次的设定语音识别部利用系统设定语言的音素进行门牌及命令(第2词汇)的语音识别的门牌及命令辞典。上述示例中,第二次的设定语音识别部是德语的语言用语音识别部4A,系统设定语言是英语,因此语音识别辞典设定部7设定将英语的音素映射到德语的音素后的门牌及命令辞典53BA。
步骤S22中,将存储于语音存储部8的声响特征的矢量序列或声响特征的时间序列、即与进行第一次的语音识别后的声响特征相同的声响特征的矢量序列或声响特征的时间序列输入至语音识别部4。
步骤S23中,语音识别部4参照语音识别辞典5,对输入的声响数据进行第二次的语音识别,输出最正确的识别结果。上述示例中,德语的语言用语音识别部4A对输入语音“Stuttgart Neckar strasse”进行利用了地名辞典51A的语音识别,对输入语音“Navigateto Germany”及输入语音“one,two,three”进行利用了实施映射后的门牌及命令辞典53BA的语音识别。步骤S23中从语音识别部4输出的识别结果从未图示的扬声器进行语音输出,或显示于未图示的显示器装置中。之后,结束图7的动作。
<实施方式2的总结>
在如上所述的本实施方式2所涉及的语音识别装置中,也能获得与实施方式1相同的效果。并且,本实施方式2中,对一个输入语音进行包含垃圾识别在内的第一次的语音识别,从而获取目的地的语言,并通过设定了目的地的语言的第二次的语音识别对该一个输入语音进行与实施方式1同样的语音识别。因此,能省去预先设定目的地的过程。
<实施方式2的变形例>
实施方式2中,在第二次的语音识别时,对输入语音(声响特征的矢量序列或声响特征的时间序列)的命令部分进行了语音识别,该语音识别利用了实施映射后的门牌及命令辞典。然而,并不限于此,若能从输入语音(音响特征的矢量序列或音响特征的时间序列)去除命令部分(例如“Navigate to Germany”),则可以在剩余的部分(例如“Stuttgart Neckarstrasse one,two,three”)中,对前半部分进行利用了地名辞典的语音识别,对后半部分进行利用了门牌辞典的语音识别。也就是说,在该情况下,不使用门牌及命令辞典53AA、53BB、53CC、53BA~53BC,而能与实施方式1同样地使用门牌辞典52AA、52BB、52CC、52BA~52BC。
此外,实施方式2中,对未设定目的地的语言的情况进行了说明,但并不限于此。例如,在未设定要检索的人名的语言的情况下,在依次输入了英语发音的命令“CallJapanese”、日语发音的人名“やまだたろう”时,也能与上述同样地进行语音识别。
<其他的变形例>
以上说明中,语音识别部4通过由图1的处理器81执行存储于存储器82等存储装置中的程序来实现。然而,并不限于上述作为软件来实现的语音识别部4,也可以由与该语音识别部4具有同样的功能的硬件来实现。也就是说,语音识别装置可以具备作为上位概念的语音识别处理电路,该上位概念在作为软件来实现的语音识别部4和与语音识别部4具有同样的功能的硬件两者之间是共通的。
此外,语音识别装置可以包括同样的语言用语音识别处理电路以作为语言用语音识别部4A~4C的上位概念,包括同样的语音识别语言设定处理电路以作为语音识别语言设定部6的上位概念,包括同样的语音识别辞典设定处理电路以作为语音识别辞典设定部7的上位概念。同样地,实施方式2所涉及的语音识别装置可以具备同样的一次识别结果判定处理电路以作为一次识别结果判定部9的上位概念。
此外,以上说明的语音识别装置不仅是能搭载于车辆的导航装置,也包含将便携式导航装置(Portable Navigation Device)、通信终端(例如便携式电话、智能手机、及平板电脑等移动终端)、安装于上述设备的应用程序的功能、及服务器等进行适当组合来作为系统而构成的语音识别系统。该情况下,以上说明的语音识别装置的各功能或各结构要素可以分散地配置于构建上述系统的各设备,也可以集中配置于某一个设备。
另外,本发明在其发明的范围内能够自由地对各实施方式和各变形例进行组合,或者适当地对各实施方式和各变形例进行变形、省略。
虽然对本发明进行了详细的说明,但上述的说明在所有的方式中均为例示,本发明并不限于此。未进行例示的无数的变形例可在不脱离本发明的范围的情况下设想得到。
标号说明
4 语音识别部、
4A、4B、4C 语言用语音识别部、
5 语音识别辞典、
6 语音识别语言设定部、
7 语音识别辞典设定部、
8 语音存储部、
9 一次识别结果判定部、
51A、51B、51C 地名辞典、
52AA、52BA、52CA、52AB、52BB、52CB、52AC、52BC、52CC 门牌辞典、
53AA、53BA、53CA、53AB、53BB、53CB、53AC、53BC、53CC 门牌及命令辞典、
54A、54B、54C 命令及垃圾辞典。
Claims (13)
1.一种语音识别装置,其特征在于,包括:
语音识别辞典,该语音识别辞典规定了语音识别对象的词汇;以及
语音识别处理电路,该语音识别处理电路利用所述语音识别辞典来进行输入语音的语音识别,
所述语音识别处理电路包含能利用各个预先设定的语言的音素来进行所述语音识别的多个语言用语音识别处理电路,
所述语音识别辞典包含:多个第1辞典,该多个第1辞典用于分别由所述多个语言用语音识别处理电路分别利用与自身相对应的所述语言即对应语言的音素来进行第1词汇的所述语音识别;以及多个第2辞典,该多个第2辞典用于分别由所述多个语言用语音识别处理电路分别将不同于所述对应语言的所述语言即其他语言的音素置换为所述对应语言的音素并进行第2词汇的所述语音识别,该多个第2辞典将关于所述第2词汇的所述其他语言的音素映射到所述对应语言的音素,
所述语音识别装置还包括:语音识别语言设定处理电路,该语音识别语言设定处理电路从所述多个语言用语音识别处理电路中设定所述语音识别所要使用的所述语言用语音识别处理电路;以及
语音识别辞典设定处理电路,该语音识别辞典设定处理电路从所述多个第1辞典中设定用于由所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路利用所述对应语言的音素来进行所述第1词汇的所述语音识别的所述第1辞典,并且从所述多个第2辞典中设定用于由所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典。
2.如权利要求1所述的语音识别装置,其特征在于,
所述语音识别语言设定处理电路基于导航系统中的目的地来设定所述语音识别所要使用的所述语言用语音识别处理电路。
3.如权利要求1所述的语音识别装置,其特征在于,
各所述第2辞典的所述第2词汇包含预先设定的数字的词汇。
4.如权利要求3所述的语音识别装置,其特征在于,
所述语音识别辞典设定处理电路在导航系统所设定的语言是所述其他语言的情况下,
作为用于由所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典,设定所述其他语言与所述导航系统所设定的语言相同的所述第2辞典。
5.如权利要求1所述的语音识别装置,其特征在于,
各所述第2辞典的所述第2词汇包含导航系统中的POI(point of interest:兴趣点)的预先设定的目录的词汇。
6.如权利要求5所述的语音识别装置,其特征在于,
所述语音识别辞典设定处理电路在所述导航系统所设定的语言是所述其他语言的情况下,
作为用于由所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典,设定所述其他语言与所述导航系统所设定的语言相同的所述第2辞典。
7.如权利要求1所述的语音识别装置,其特征在于,
各所述第2辞典的所述第2词汇包含导航系统中的预先设定的命令的词汇,
所述语音识别辞典设定处理电路在所述导航系统所设定的语言是所述其他语言的情况下,
作为用于由所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典,设定所述其他语言与所述导航系统所设定的语言相同的所述第2辞典。
8.如权利要求1所述的语音识别装置,其特征在于,
所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路对所述输入语音的输入顺序的预先设定的第1部分进行利用了所述第1辞典的语音识别,对所述输入语音的输入顺序的预先设定的第2部分进行利用了所述第2辞典的语音识别。
9.如权利要求1所述的语音识别装置,其特征在于,还包括:
存储装置,该存储装置为了利用所述语音识别处理电路对一个所述输入语音进行多次所述语音识别而存储该一个输入语音;以及
一次识别结果判定处理电路,
所述语音识别辞典还包含多个第3辞典,该多个第3辞典用于分别由所述多个语言用语音识别处理电路分别利用所述对应语言的音素进行包含垃圾识别在内的第一次语音识别,
所述语音识别语言设定处理电路基于导航系统所设定的语言,从所述多个语言用语音识别处理电路中设定所述第一次语音识别所要使用的所述语言用语音识别处理电路,所述语音识别辞典设定电路从所述多个第3辞典中设定用于由所述语音识别语言设定处理电路所设定的所述第一次语音识别所要使用的所述语言用语音识别处理电路利用所述对应语言的音素进行包含所述垃圾识别在内的所述第一次语音识别的所述第3辞典,
所述一次识别结果判定处理电路基于利用了所述第3辞典的所述第一次语音识别的结果所包含的所述垃圾识别的结果,来判定第二次语音识别所要使用的所述语言,
所述语音识别语言设定处理电路基于由所述一次识别结果判定处理电路判定得到的所述语言,从所述多个语言用语音识别处理电路中设定所述第二次语音识别所要使用的所述语言用语音识别处理电路,所述语音识别辞典设定处理电路从所述多个第1辞典中设定用于由所述语音识别语言设定处理电路所设定的所述第二次语音识别所要使用的所述语言用语音识别处理电路利用所述对应语言的音素进行所述第1词汇的所述语音识别的所述第1辞典,并且从所述多个第2辞典中设定用于由所述语音识别语言设定处理电路所设定的所述第二次语音识别所要使用的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典。
10.如权利要求9所述的语音识别装置,其特征在于,
对所述导航系统中的预先设定的多个命令进行所述垃圾识别,
各所述命令包含表示可设定为所述导航系统的目的地的地名和国名,以及所述地名和所述国名所使用的语言的至少一个的词汇。
11.如权利要求10所述的语音识别装置,其特征在于,
所述一次识别结果判定处理电路基于所述垃圾识别的结果,从所述多个命令中决定一个命令,基于该一个命令中所包含的表示所述地名、所述国名及所述语言的至少一个的词汇,来判定所述第二次语音识别所要使用的语言。
12.如权利要求9所述的语音识别装置,其特征在于,
各所述第2辞典的所述第2词汇包含所述导航系统中的预先设定的命令的词汇,
所述语音识别辞典设定处理电路在所述导航系统所设定的语言是所述其他语言的情况下,
作为用于由所述语音识别语言设定处理电路所设定的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典,设定所述其他语言与所述导航系统所设定的语言相同的所述第2辞典。
13.一种语音识别方法,其特征在于,包括如下步骤:
准备语音识别辞典的步骤,所述语音识别辞典规定了语音识别对象的词汇;以及
利用所述语音识别辞典来进行输入语音的语音识别的步骤,
进行所述语音识别的步骤包含准备多个语言用语音识别处理电路的步骤,所述多个语言用语音识别处理电路能利用各个预先设定的语言的音素来进行所述语音识别,
准备所述语音识别辞典的步骤包含如下步骤:准备多个第1辞典及多个第2辞典,其中,所述多个第1辞典用于分别由所述多个语言用语音识别处理电路利用与自身相对应的所述语言即对应语言的音素来进行第1词汇的所述语音识别,所述多个第2辞典与用于分别由所述多个语言用语音识别处理电路将不同于所述对应语言的所述语言即其他语言的音素置换为所述对应语言的音素并进行第2词汇的所述语音识别,所述多个第2辞典将关于所述第2词汇的所述其他语言的音素映射到所述对应语言的音素,
所述语音识别方法还包括如下步骤:
从所述多个语言用语音识别处理电路中设定所述语音识别所要使用的所述语言用语音识别处理电路的步骤;以及
从所述多个第1辞典中设定用于由设定的所述语言用语音识别处理电路利用所述对应语言的音素来进行所述第1词汇的所述语音识别的所述第1辞典、并从所述多个第2辞典中设定用于由设定的所述语言用语音识别处理电路将所述其他语言的音素置换为所述对应语言的音素并进行所述第2词汇的所述语音识别的所述第2辞典的步骤。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/084105 WO2016103358A1 (ja) | 2014-12-24 | 2014-12-24 | 音声認識装置及び音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107112007A true CN107112007A (zh) | 2017-08-29 |
CN107112007B CN107112007B (zh) | 2020-08-07 |
Family
ID=56149457
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480084337.3A Active CN107112007B (zh) | 2014-12-24 | 2014-12-24 | 语音识别装置及语音识别方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10403265B2 (zh) |
JP (1) | JP6109451B2 (zh) |
CN (1) | CN107112007B (zh) |
DE (1) | DE112014007287B4 (zh) |
WO (1) | WO2016103358A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110534115A (zh) * | 2019-10-14 | 2019-12-03 | 上海企创信息科技有限公司 | 多方言混合语音的识别方法、装置、系统和存储介质 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019049364A1 (ja) * | 2017-09-11 | 2019-03-14 | 三菱電機株式会社 | 音声認識辞書データ作成装置、音声認識装置、音声認識辞書データ作成方法 |
WO2021019775A1 (ja) * | 2019-08-01 | 2021-02-04 | 三菱電機株式会社 | 多言語音声認識装置および多言語音声認識方法 |
CN111147444B (zh) | 2019-11-20 | 2021-08-06 | 维沃移动通信有限公司 | 一种交互方法及电子设备 |
JP6879521B1 (ja) * | 2019-12-02 | 2021-06-02 | 國立成功大學National Cheng Kung University | 多言語音声認識およびテーマ−意義素解析方法および装置 |
WO2022256026A1 (en) * | 2021-06-04 | 2022-12-08 | Google Llc | Systems and methods for generating phonetic spelling variations |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020152068A1 (en) * | 2000-09-29 | 2002-10-17 | International Business Machines Corporation | New language context dependent data labeling |
US6839670B1 (en) * | 1995-09-11 | 2005-01-04 | Harman Becker Automotive Systems Gmbh | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
CN101785051A (zh) * | 2007-08-22 | 2010-07-21 | 日本电气株式会社 | 语音识别装置和语音识别方法 |
CN101958118A (zh) * | 2003-03-31 | 2011-01-26 | 索尼电子有限公司 | 有效地实施语音识别字典的系统和方法 |
JP2011033874A (ja) * | 2009-08-03 | 2011-02-17 | Alpine Electronics Inc | 多言語音声認識装置及び多言語音声認識辞書作成方法 |
Family Cites Families (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3459712B2 (ja) * | 1995-11-01 | 2003-10-27 | キヤノン株式会社 | 音声認識方法及び装置及びコンピュータ制御装置 |
US6470315B1 (en) * | 1996-09-11 | 2002-10-22 | Texas Instruments Incorporated | Enrollment and modeling method and apparatus for robust speaker dependent speech models |
JP3039399B2 (ja) * | 1996-10-31 | 2000-05-08 | 日本電気株式会社 | 非母国語音声認識装置 |
US6223155B1 (en) * | 1998-08-14 | 2001-04-24 | Conexant Systems, Inc. | Method of independently creating and using a garbage model for improved rejection in a limited-training speaker-dependent speech recognition system |
US6138095A (en) * | 1998-09-03 | 2000-10-24 | Lucent Technologies Inc. | Speech recognition |
US6292778B1 (en) * | 1998-10-30 | 2001-09-18 | Lucent Technologies Inc. | Task-independent utterance verification with subword-based minimum verification error training |
US7447635B1 (en) * | 1999-10-19 | 2008-11-04 | Sony Corporation | Natural language interface control system |
JP3378547B2 (ja) * | 1999-12-27 | 2003-02-17 | 日本電信電話株式会社 | 音声認識方法及び装置 |
US20060074664A1 (en) * | 2000-01-10 | 2006-04-06 | Lam Kwok L | System and method for utterance verification of chinese long and short keywords |
DE60028219T8 (de) * | 2000-12-13 | 2007-06-14 | Sony Deutschland Gmbh | Verfahren zur Spracherkennung |
US20030023437A1 (en) * | 2001-01-27 | 2003-01-30 | Pascale Fung | System and method for context-based spontaneous speech recognition |
JP2002358095A (ja) * | 2001-03-30 | 2002-12-13 | Sony Corp | 音声処理装置および音声処理方法、並びにプログラムおよび記録媒体 |
CN1236422C (zh) * | 2001-05-02 | 2006-01-11 | 索尼公司 | 机器人装置、字符识别方法和装置 |
JP3816779B2 (ja) | 2001-10-12 | 2006-08-30 | アルパイン株式会社 | ナビゲーション装置 |
JP2003255991A (ja) * | 2002-03-06 | 2003-09-10 | Sony Corp | 対話制御システム、対話制御方法及びロボット装置 |
JP2004053742A (ja) * | 2002-07-17 | 2004-02-19 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
JP3776391B2 (ja) | 2002-09-06 | 2006-05-17 | 日本電信電話株式会社 | 多言語音声認識方法、装置、プログラム |
WO2004075168A1 (ja) * | 2003-02-19 | 2004-09-02 | Matsushita Electric Industrial Co., Ltd. | 音声認識装置及び音声認識方法 |
US7392188B2 (en) * | 2003-07-31 | 2008-06-24 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method enabling acoustic barge-in |
US7415411B2 (en) * | 2004-03-04 | 2008-08-19 | Telefonaktiebolaget L M Ericsson (Publ) | Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers |
JP4705023B2 (ja) * | 2004-06-10 | 2011-06-22 | パナソニック株式会社 | 音声認識装置、音声認識方法、及びプログラム |
WO2006127504A2 (en) * | 2005-05-20 | 2006-11-30 | Sony Computer Entertainment Inc. | Optimisation of a grammar for speech recognition |
JP2007155833A (ja) * | 2005-11-30 | 2007-06-21 | Advanced Telecommunication Research Institute International | 音響モデル開発装置及びコンピュータプログラム |
US7865357B2 (en) * | 2006-03-14 | 2011-01-04 | Microsoft Corporation | Shareable filler model for grammar authoring |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
US8433576B2 (en) * | 2007-01-19 | 2013-04-30 | Microsoft Corporation | Automatic reading tutoring with parallel polarized language modeling |
EP1975923B1 (en) * | 2007-03-28 | 2016-04-27 | Nuance Communications, Inc. | Multilingual non-native speech recognition |
DE102007033472A1 (de) * | 2007-07-18 | 2009-01-29 | Siemens Ag | Verfahren zur Spracherkennung |
US8639507B2 (en) * | 2007-12-25 | 2014-01-28 | Nec Corporation | Voice recognition system, voice recognition method, and program for voice recognition |
JP5692493B2 (ja) * | 2009-02-05 | 2015-04-01 | セイコーエプソン株式会社 | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 |
US8788256B2 (en) * | 2009-02-17 | 2014-07-22 | Sony Computer Entertainment Inc. | Multiple language voice recognition |
US8700399B2 (en) * | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
DE112010005168B4 (de) * | 2010-01-22 | 2018-12-13 | Mitsubishi Electric Corporation | Erkennungswörterbuch-Erzeugungsvorrichtung, Spracherkennungsvorrichtung und Stimmensynthesizer |
US8990092B2 (en) * | 2010-06-28 | 2015-03-24 | Mitsubishi Electric Corporation | Voice recognition device |
JP5637131B2 (ja) * | 2011-12-26 | 2014-12-10 | 株式会社デンソー | 音声認識装置 |
GB2514943A (en) * | 2012-01-24 | 2014-12-10 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US20160372116A1 (en) * | 2012-01-24 | 2016-12-22 | Auraya Pty Ltd | Voice authentication and speech recognition system and method |
US9672815B2 (en) * | 2012-07-20 | 2017-06-06 | Interactive Intelligence Group, Inc. | Method and system for real-time keyword spotting for speech analytics |
CN104143328B (zh) * | 2013-08-15 | 2015-11-25 | 腾讯科技(深圳)有限公司 | 一种关键词检测方法和装置 |
US9666188B2 (en) * | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
JP6080978B2 (ja) * | 2013-11-20 | 2017-02-15 | 三菱電機株式会社 | 音声認識装置および音声認識方法 |
US10360904B2 (en) * | 2014-05-09 | 2019-07-23 | Nuance Communications, Inc. | Methods and apparatus for speech recognition using a garbage model |
JP6585154B2 (ja) * | 2014-07-24 | 2019-10-02 | ハーマン インターナショナル インダストリーズ インコーポレイテッド | 単一音響モデルと自動アクセント検出を用いたテキスト規則ベースの複数アクセントの音声認識 |
JP6118838B2 (ja) * | 2014-08-21 | 2017-04-19 | 本田技研工業株式会社 | 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム |
JP6052814B2 (ja) * | 2014-09-24 | 2016-12-27 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 音声認識モデルの構築方法、音声認識方法、コンピュータ・システム、音声認識装置、プログラムおよび記録媒体 |
US10672391B2 (en) * | 2014-09-26 | 2020-06-02 | Nuance Communications, Inc. | Improving automatic speech recognition of multilingual named entities |
US10229674B2 (en) * | 2015-05-15 | 2019-03-12 | Microsoft Technology Licensing, Llc | Cross-language speech recognition and translation |
US9852728B2 (en) * | 2015-06-08 | 2017-12-26 | Nuance Communications, Inc. | Process for improving pronunciation of proper nouns foreign to a target language text-to-speech system |
KR102413067B1 (ko) * | 2015-07-28 | 2022-06-24 | 삼성전자주식회사 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
US10249298B2 (en) * | 2017-01-11 | 2019-04-02 | Here Global B.V. | Method and apparatus for providing global voice-based entry of geographic information in a device |
-
2014
- 2014-12-24 CN CN201480084337.3A patent/CN107112007B/zh active Active
- 2014-12-24 WO PCT/JP2014/084105 patent/WO2016103358A1/ja active Application Filing
- 2014-12-24 US US15/525,716 patent/US10403265B2/en active Active
- 2014-12-24 DE DE112014007287.7T patent/DE112014007287B4/de active Active
- 2014-12-24 JP JP2016565721A patent/JP6109451B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6839670B1 (en) * | 1995-09-11 | 2005-01-04 | Harman Becker Automotive Systems Gmbh | Process for automatic control of one or more devices by voice commands or by real-time voice dialog and apparatus for carrying out this process |
US20020152068A1 (en) * | 2000-09-29 | 2002-10-17 | International Business Machines Corporation | New language context dependent data labeling |
CN101958118A (zh) * | 2003-03-31 | 2011-01-26 | 索尼电子有限公司 | 有效地实施语音识别字典的系统和方法 |
CN101785051A (zh) * | 2007-08-22 | 2010-07-21 | 日本电气株式会社 | 语音识别装置和语音识别方法 |
US7472061B1 (en) * | 2008-03-31 | 2008-12-30 | International Business Machines Corporation | Systems and methods for building a native language phoneme lexicon having native pronunciations of non-native words derived from non-native pronunciations |
JP2011033874A (ja) * | 2009-08-03 | 2011-02-17 | Alpine Electronics Inc | 多言語音声認識装置及び多言語音声認識辞書作成方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110534115A (zh) * | 2019-10-14 | 2019-12-03 | 上海企创信息科技有限公司 | 多方言混合语音的识别方法、装置、系统和存储介质 |
CN110534115B (zh) * | 2019-10-14 | 2021-11-26 | 上海企创信息科技有限公司 | 多方言混合语音的识别方法、装置、系统和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2016103358A1 (ja) | 2016-06-30 |
US10403265B2 (en) | 2019-09-03 |
CN107112007B (zh) | 2020-08-07 |
US20180240455A1 (en) | 2018-08-23 |
DE112014007287T5 (de) | 2017-10-12 |
DE112014007287B4 (de) | 2019-10-31 |
JP6109451B2 (ja) | 2017-04-05 |
JPWO2016103358A1 (ja) | 2017-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408526B (zh) | Sql语句生成方法、装置、计算机设备及存储介质 | |
CN107112007A (zh) | 语音识别装置及语音识别方法 | |
JP5526396B2 (ja) | 情報検索装置、情報検索システム及び情報検索方法 | |
US20230298562A1 (en) | Speech synthesis method, apparatus, readable medium, and electronic device | |
CN102374864B (zh) | 语音导航设备及语音导航方法 | |
US8819012B2 (en) | Accessing anchors in voice site content | |
TWI711967B (zh) | 播報語音的確定方法、裝置和設備 | |
CN107195296A (zh) | 一种语音识别方法、装置、终端及系统 | |
CN106663424A (zh) | 意图理解装置以及方法 | |
CN109460461A (zh) | 基于文本相似度模型的文本匹配方法及系统 | |
CN103345467A (zh) | 语音翻译系统 | |
JPWO2012073275A1 (ja) | 音声認識装置及びナビゲーション装置 | |
CN108536807B (zh) | 一种信息处理方法及装置 | |
CN111402862A (zh) | 语音识别方法、装置、存储介质及设备 | |
CN107808667A (zh) | 声音识别装置以及声音识别方法 | |
CN109686362B (zh) | 语音播报方法、装置和计算机可读存储介质 | |
JP2002099561A (ja) | データ変換方法およびデータ変換システム並びに記憶媒体 | |
CN206639220U (zh) | 一种便携式同传设备 | |
EP3550449A1 (en) | Search method and electronic device using the method | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
CN114783424A (zh) | 文本语料筛选方法、装置、设备及存储介质 | |
Gruenstein et al. | Scalable and portable web-based multimodal dialogue interaction with geographical databases | |
CN110020429A (zh) | 语义识别方法及设备 | |
CN111354349A (zh) | 一种语音识别方法及装置、电子设备 | |
CN207720194U (zh) | 一种同传手机 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |