CN106663422A - 利用单一声学模型和自动口音检测实现的基于文本规则的多口音言语识别 - Google Patents
利用单一声学模型和自动口音检测实现的基于文本规则的多口音言语识别 Download PDFInfo
- Publication number
- CN106663422A CN106663422A CN201580040890.1A CN201580040890A CN106663422A CN 106663422 A CN106663422 A CN 106663422A CN 201580040890 A CN201580040890 A CN 201580040890A CN 106663422 A CN106663422 A CN 106663422A
- Authority
- CN
- China
- Prior art keywords
- accent
- data
- speech
- word
- conversion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 7
- 238000000034 method Methods 0.000 claims abstract description 102
- 238000006243 chemical reaction Methods 0.000 claims description 102
- 238000012937 correction Methods 0.000 claims description 54
- 238000012986 modification Methods 0.000 claims description 34
- 230000004048 modification Effects 0.000 claims description 34
- 238000003860 storage Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 22
- 238000012790 confirmation Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 24
- 238000012545 processing Methods 0.000 description 11
- 230000009471 action Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 4
- 238000002485 combustion reaction Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 239000007789 gas Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241000196324 Embryophyta Species 0.000 description 2
- 241001062009 Indigofera Species 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000004378 air conditioning Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 230000018199 S phase Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 229910002056 binary alloy Inorganic materials 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000004146 energy storage Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000013529 heat transfer fluid Substances 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000003595 mist Substances 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010257 thawing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- 210000000707 wrist Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Navigation (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
公开用于在计算系统中识别言语的实施方案。一种示例性言语识别方法包括:在包括带口音子字符串的数据库的生成单元处接收元数据;通过所述生成单元生成包括在所述元数据中的单词的口音校正的语音数据,所述口音校正的语音数据基于存储在所述数据库中的所述带口音子字符串而表示包括在所述元数据中的所述单词的不同发音;在话音识别引擎处接收源自由用户输入到所述言语识别系统的话语的所提取的言语数据;以及在所述话音识别引擎处接收所述口音校正的语音数据。所述方法还包括:确定所提取的言语数据中标识所识别的话语的终端ID;生成标识在所识别的话语中检测到的口音的口音数据;基于所述一个或多个终端ID和所述口音数据来生成所识别的言语数据;以及将所识别的言语数据输出到所述言语控制装置。
Description
相关申请的交叉引用
本申请要求2014年7月24日提交的标题为“TEXT RULE BASED MULTI-ACCENTSPEECH RECOGNITION WITH SINGLE ACOUSTIC MODEL AND AUTOMATIC ACCENT DETECTION”的印度临时专利申请号3618/CHE/2014的优先权,所述申请的全部内容出于所有目的特此以引用的方式并入本文。
技术领域
本公开涉及言语识别,并且具体地涉及多口音言语识别。
背景技术
针对同一种语言的多种口音的言语识别对嵌入式装置群提出了挑战。通常,通过具有用于各种口音的不同声学模型来跨不同的、在很大程度上分开的地理区域解决这个问题。例如,北美洲、英国、澳大利亚和印度英语具有用于识别的不同声学模型。
即使具有各自的声学模型,地域口音也可能提供另外的挑战。例如,虽然英语在印度通常是继相应地域母语之后的第二最常用口语,但是在印度的不同地区存在许多地域英语口音。这些地域口音对基于单一声学模型的言语识别提出了挑战。言语识别可使用并行采用多个口音特定识别器的多口音识别系统。使具有不同声学模型的多个口音特定识别器并行运行以提高识别准确度可能是处理器密集的。这种密集型资源使用可能对具有有限处理能力的嵌入式装置尤其具有挑战性。此外,口音特定的声学模型的开发和使用可能并不是成本有效的。
用于克服多口音问题的一种技术是对最经常让人困惑的语音对进行分析并形成语音迁移对。然后将这些发音迁移对插入到原始规范词典中,并且最后构建适于口音的新字典。实际上,所述方法涉及用带口音发音的最可能的语音符号组合来替换不使用的本土口音语音。由于对声学模型或由识别引擎在内部识别的符号的访问受限或不能访问,这种分析可能是不可能的。
发明内容
实施方案公开了一种示例性言语识别系统,其包括带口音语音和变换ID生成单元,所述带口音语音和变换ID生成单元包括带口音子字符串的数据库并且接收元数据和与所述元数据相关联并且处于第一ID数据空间中的ID数据。所述带口音语音和变换ID生成单元提供各自唯一地与同某种语言相关联的多种不同口音中的相关联口音相关联的多个修改的单词,并且处理所述多个修改的单词并提供针对所述多个修改的单词的多个口音校正的语音数据。处理所述口音校正的语音数据中的每一个以提供处于第二ID数据空间中的各自唯一地与所述多个口音校正的语音数据中的相关联数据相关联的多个变换ID。言语特征提取器单元接收并处理用户输入言语并且提供与用户输入言语相关联的所提取的言语数据。话音识别逻辑单元接收所提取的言语数据、所述多个变换ID和所述多个口音校正的语音数据,并且提供对应于终端的终端标识符以及口音数据,对于所述口音数据,音标中的一个与同用户输入言语相关联的所提取的言语数据最佳地匹配。口音检测和逆向ID变换单元接收终端标识符并且提供处于第一ID数据空间中的确认ID。口音结果加权逻辑单元接收所检测到的口音数据并且与所检测到的口音数据的过去值进行比较以提供所识别的言语数据。
所述带口音语音和变换ID生成单元可包括提供所述多个口音校正的语音数据的字素到语音单元。
所述带口音语音和变换ID生成单元可包括变换ID分配器,所述变换ID分配器接收口音校正的语音数据和ID数据并且提供处于第二ID数据空间中的多个变换ID。
话音识别逻辑单元包括上下文单元,所述上下文单元包括与某种语言相关联的语法文件。文本条目可例如包括来自联系人数据库的电话簿联系人名称,或可以是与媒体播放器相关联的任何其他元数据,例如像歌曲标题、艺术家名称、流派名称、专辑名称等等。
一种在处理器中执行的示例性言语识别方法接收元数据和处于原始ID空间中的ID数据,并且提供各自唯一地与所述元数据和与某种语言相关联的多种不同口音中的相关联口音相关联的多个修改的单词,并且处理所述多个修改的单词以提供所述多个修改的单词的多个口音校正的语音数据。处理口音校正的语音数据以提供处于变换ID空间中的各自唯一地与所述多个口音校正的语音数据中的相关联数据相关联的多个变换ID。接收并处理用户输入言语数据以提供与用户输入言语数据相关联的所提取的言语数据。处理所提取的言语数据、所述多个变换ID和所述多个口音校正的语音数据以提供对应于终端的终端标识符并提供音标的与同用户输入言语数据相关联的所提取的言语数据匹配的口音数据。处理终端标识符以提供处于原始ID数据空间中的确认ID,并且将所检测到的口音数据与所检测到的口音数据的过去值进行比较以提供所识别的言语数据。
另一种由言语识别系统执行的示例性言语识别方法,所述言语识别系统包括言语控制装置、处理器和存储可由所述处理器执行的指令的存储装置,所述方法包括:在包括带口音子字符串的数据库的带口音语音和变换ID生成单元处接收元数据;通过所述带口音语音和变换ID生成单元生成包括在元数据中的单词的口音校正的语音数据,所述口音校正的语音数据基于存储在数据库中的带口音子字符串而表示包括在元数据中的单词的不同发音;以及在话音识别引擎处接收源自由用户输入到言语识别系统的话语的所提取的言语数据。所述示例性言语识别方法还包括:在话音识别引擎处接收口音校正的语音数据;在话音识别引擎处确定所提取的言语数据中标识所识别的话语的一个或多个终端ID;在话音识别引擎处生成标识在所识别的话语中检测到的口音的口音数据;基于所述一个或多个终端ID和所述口音数据来生成所识别的言语数据;以及将所识别的言语数据输出到言语控制装置。
应理解,以上提及的特征和以下将要解释的特征不仅可按所指示的各个组合来使用,而且还可按其他组合来使用或分开来使用。根据如附图中示出的本发明的实施方案的详细描述,本发明的这些和其他目标、特征和优势将变得显而易见。
附图简述
参考附图阅读以下对非限制性实施方案的描述,可更好地理解本公开,在以下附图中:
图1示出根据本公开的一个或多个实施方案的车辆车厢的示例性局部视图;
图2示出根据本公开的一个或多个实施方案的示例性车载计算系统;
图3是根据本公开的一个或多个实施方案的示例性言语识别系统的框图说明;
图4是根据本公开的一个或多个实施方案的示例性带口音语音和ID生成逻辑单元的框图说明;
图5是根据本公开的一个或多个实施方案的包括图3的示例性言语识别系统的示例性处理系统的框图说明;并且
图6是根据本公开的一个或多个实施方案的用于执行言语识别的方法的流程图。
具体实施方式
本文中公开了用于包括带口音单词生成器的多口音言语识别系统的系统和方法。所述生成器提供发声最类似于针对特定口音的输入单词的新单词。针对系统支持的所有口音都这样做。带口音单词生成的基础是基于那个特定口音的原始单词中的字母组合的字符串替换逻辑。ID生成器模块生成所替换单词的变换ID,所述变换ID可用来在识别口音时标识原始单词的ID以及口音。
图1示出用于言语识别系统的一种类型的环境、即车辆102的车厢100内部的示例性局部视图,驾驶员和/或一个或多个乘客可坐在所述车厢100中。图1的车辆102可以是包括驱动轮(未示出)和内燃机104的机动车辆。车辆102可以是前方车辆或后方车辆。内燃机104可包括一个或多个燃烧室,所述一个或多个燃烧室可通过进气通道接收进气并通过排气通道排放燃烧气体。车辆102可以是道路汽车,以及其他类型的车辆。在一些实例中,车辆102可包括混合推进系统,所述混合推进系统包括能量转换装置,所述能量转换装置可操作来吸收来自车辆运动和/或发动机的能量并将所吸收的能量转换成适合于由能量存储装置进行存储的能量形式。车辆102可包括并入有燃料电池、太阳能捕获元件和/或用于给车辆供电的其他能量存储系统的纯电动车辆。
如图所示,仪表板106可包括车辆102的驾驶员(也称为用户)可访问的各种显示器和控制件。例如,仪表板106可包括车载计算系统109(例如,信息娱乐系统)的触摸屏108、音频系统控制面板和仪表组110。虽然图1所示的示例性系统包括可在不具有单独音频系统控制面板的情况下通过车载计算系统109的用户接口(诸如触摸屏108)执行的音频系统控制件,但是在其他实施方案中,车辆可包括音频系统控制面板,所述音频系统控制面板可包括用于常规车辆音频系统(诸如无线电、光盘播放器、MP3播放器等)的控制件。音频系统控制件可包括用于通过车辆扬声器系统的扬声器112控制音频输出的一个或多个方面的特征。例如,车载计算系统或音频系统控制件可控制音频输出的音量、发声在车辆扬声器系统的独立扬声器之间的分布、音频信号的均衡和/或音频输出的任何其他方面。在另外的实例中,车载计算系统109可基于直接通过触摸屏108接收的用户输入,或基于通过外部装置150和/或移动装置128接收的与用户有关的数据(诸如用户的身体状况和/或环境)来调整无线电台选择、播放列表选择、音频输入源(例如,来自无线电或CD或MP3)等。
在一些实施方案中,车载计算系统109的一个或多个硬件元件(诸如触摸屏108、显示屏、各种控制标度盘、旋钮和按钮、存储器、处理器和任何接口元件(例如,连接器或端口))可形成安装在车辆的仪表板106中的整合主机。主机可固定地或可移除地附接在仪表板106中。在另外或替代实施方案中,车载计算系统的一个或多个硬件元件可为模块化的并可安装在车辆的多个位置中。
车厢100可包括用于监测车辆、用户和/或环境的一个或多个传感器。例如,车厢100可包括:一个或多个安装在座椅上的压力传感器,其被配置来测量施加到座椅的压力以确定用户的存在;门传感器,其被配置来监测门活动;湿度传感器,其测量车厢的湿气含量;麦克风,其用来接收呈话音命令形式的用户输入以使得用户能够进行电话呼叫,和/或测量车厢100中的周围噪声等。应理解,可将上述传感器和/或一个或多个另外或替代传感器定位在车辆的任何合适位置中。例如,可将传感器定位在车辆外表面上的发动机舱中,和/或用于提供关于车辆的操作、车辆的周围条件、车辆的用户等的信息的其他合适位置中。关于车辆周围条件、车辆状态或车辆驾驶员的信息还可从车辆外部/与车辆分开(也就是,不是车辆系统的一部分)的传感器(诸如联接到外部装置150和/或移动装置128的传感器)接收。
车厢100也可包括在行进之前、行进期间和/或行进之后存储在车辆中的一个或多个用户物品,诸如移动装置128。移动装置128可包括智能电话、平板、膝上型计算机、便携式媒体播放器和/或任何合适的移动计算装置。移动装置128可通过通信链路130连接到车载计算系统。通信链路130可以是有线的(例如,经由通用串行总线[USB]、移动高清链路[MHL]、高清多媒体接口[HDMI]、以太网等)或无线的(例如,通过蓝牙、WIFI、WIFI direct近场通信[NFC]、蜂窝式连接等),并且被配置来在移动装置与车载计算系统之间提供双向通信。移动装置128可包括用于连接到一个或多个通信链路(例如,上文所述的示例性通信链路中的一个或多个)的一个或多个无线通信接口。根据移动装置中的其他装置,所述无线通信接口可包括联接到数据线而用于载送传输数据或接收数据的一个或多个物理装置(诸如天线或端口),以及用于操作所述物理装置的一个或多个模块/驱动器。例如,通信链路130可将来自各种车辆系统(诸如车辆音频系统、气候控制系统等)和触摸屏108的传感器和/或控制信号提供给移动装置128,并且可将来自移动装置128的控制和/或显示信号提供给车载系统和触摸屏108。通信链路130还可从车载电源提供电力给移动装置128,以便给移动装置的内部电池充电。
车载计算系统109还可通信地联接到由用户操作和/或访问但位于车辆102外部的另外装置,诸如一个或多个外部装置150。在所描绘的实施方案中,外部装置位于车辆102的外部,但是应了解,在替代实施方案中,外部装置可位于车厢100内部。外部装置可包括服务器计算系统、个人计算系统、便携式电子装置、电子腕带、电子头带、便携式音乐播放器、电子活动跟踪装置、计步器、智能腕表、GPS系统等。外部装置150可通过通信链路136连接到车载计算系统,所述通信链路136可以是有线的或无线的,如参考通信链路130所论述,并且被配置来在外部装置与车载计算系统之间提供双向通信。例如,外部装置150可包括一个或多个传感器,并且通信链路136可将来自外部装置150的传感器输出传输到车载计算系统109和触摸屏108。外部装置150还可存储和/或接收与情境数据、用户行为/偏好、操作规则等有关的信息,并且可将来自外部装置150的此类信息传输到车载计算系统109和触摸屏108。
车载计算系统109可以:分析从外部装置150、移动装置128和/或其他输入源接收的输入,并且选择用于各种车载系统(诸如气候控制系统或音频系统)的设置,通过触摸屏108和/或扬声器112提供输出,与移动装置128和/或外部装置150通信,和/或基于评估执行其他动作。在一些实施方案中,评估的全部或部分可由移动装置128和/或外部装置150执行。在一些实施方案中,外部装置150可包括另一车辆的车载计算装置,同样,所述车辆可以是在车辆102前方的车辆或可以是在车辆102后方的车辆。
在一些实施方案中,外部装置150中的一个或多个可通过移动装置128和/或外部装置150中的另一个来通信地间接联接到车载计算系统109。例如,通信链路136可将外部装置150通信地联接到移动装置128,从而使得来自外部装置150的输出被中继传递给移动装置128。从外部装置150接收的数据可随后在移动装置128处与由移动装置128收集的数据聚合,聚合数据随后通过通信链路130被传输到车载计算系统109和触摸屏108。类似的数据聚合可在服务器系统处发生,并且随后通过通信链路136/130被传输到车载计算系统109和触摸屏108。
图2示出配置和/或整合在车辆201内部的车载计算系统200的框图。在一些实施方案中,车载计算系统200可以是图1的车载计算系统109的实例和/或可执行本文所述的方法中的一个或多个。在一些实例中,车载计算系统可以是车辆信息娱乐系统,所述车辆信息娱乐系统被配置来提供基于信息的媒体内容(音频和/或视觉媒体内容,包括娱乐内容、导航服务等)给车辆用户,以便增强操作者的车内体验。车辆信息娱乐系统可包括或联接到各种车辆系统、子系统、硬件部件以及软件应用程序和系统,所述软件应用程序和系统被整合在或可整合到车辆201中以便增强驾驶员和/或乘客的车内体验。
车载计算系统200可包括一个或多个处理器,所述处理器包括操作系统处理器214和接口处理器220。操作系统处理器214可在车载计算系统上执行操作系统,并且控制车载计算系统的输入/输出、显示、回放和其他操作。接口处理器220可通过车内系统通信模块222而与车辆控制系统230对接。
车内系统通信模块222可输出数据到其他车辆系统231和车辆控制元件261,而同时还(例如)通过车辆控制系统230从其他车辆部件和系统231、261接收数据输入。当输出数据时,车内系统通信模块222可通过总线提供信号,所述信号对应于车辆的任何状态、车辆周围环境或连接到车辆的任何其他信息源的输出。车辆数据输出可包括例如:模拟信号(诸如当前速度)、由单个信息源(诸如时钟、温度计、诸如全球定位系统[GPS]传感器的位置传感器等)提供的数字信号、通过车辆数据网络(诸如:发动机控制器局域网[CAN]总线,可以通过这个总线来传达发动机相关信息;气候控制CAN总线,可以通过这个总线来传达气候控制相关信息;以及多媒体数据网络,通过这个网络在车辆中的多媒体部件之间传达多媒体数据)传播的数字信号。例如,车载计算系统可从发动机CAN总线检索车轮传感器所估算的车辆当前速度、通过车辆电池和/或电力分布系统的车辆电力状态、车辆的点火状态等。此外,在不背离本公开的范围的情况下,也可使用诸如以太网的其他接口装置。
车载计算系统200中可包括非易失性存储装置208,用来以非易失性形式存储数据,诸如可由处理器214和220执行的指令。存储装置208可存储应用程序数据,用来允许车载计算系统200运行应用程序以便连接到基于云技术的服务器和/或收集信息来传输到基于云技术的服务器。所述应用程序可检索由车辆系统/传感器、输入装置(例如用户接口218)、与车载计算系统通信的装置(例如,通过蓝牙链路连接的移动装置)等收集的信息。车载计算系统200还可包括易失性存储器216。易失性存储器216可以是随机存取存储器(RAM)。诸如非易失性存储装置208的非暂时性存储装置和/或易失性存储器216可存储指令和/或代码,所述指令和/或代码在由处理器(例如,操作系统处理器214和/或接口处理器220)执行时,控制车载计算系统200执行本公开中所述的动作中的一个或多个。
麦克风202可包括在车载计算系统200中,用来从用户接收话音命令、测量车辆中的环境噪声,根据车辆的声学环境来确定是否调谐来自车辆扬声器的音频,等等。言语处理单元204可处理话音命令,诸如从麦克风202接收的话音命令。在一些实施方案中,车载计算系统200还可能够使用车辆的音频系统232中所包括的麦克风来接收话音命令和样本环境车辆噪声。
车载计算系统200的传感器子系统210中可包括一个或多个另外的传感器。例如,传感器子系统210可包括摄像头,诸如用于辅助用户停车的后视摄像头和/或用于标识用户(例如,使用面部识别和/或用户手势)的车厢摄像头。车载计算系统200的传感器子系统210可与各种车辆传感器通信且从各种车辆传感器接收输入,并且可进一步接收用户输入。例如,由传感器子系统210接收的输入可包括变速器齿轮位置、变速器离合器位置、油门踏板输入、刹车输入、变速器选择器位置、车辆速度、发动机速度、通过发动机的气流质量、环境温度、进气温度等,以及来自以下传感器的输入:气候控制系统传感器(诸如热传递流体温度、防冻剂温度、风扇速度、乘客舱温度、所期望的乘客舱温度、环境湿度等)、检测由用户发出的话音命令的音频传感器、从车辆的钥匙扣接收命令并且任选地跟踪所述钥匙扣的地理位置/接近度的钥匙扣传感器等。当某些车辆系统传感器可单独与传感器子系统210通信时,其他传感器可与传感器子系统210和车辆控制系统230两者通信,或可直接通过车辆控制系统230与传感器子系统210通信。车载计算系统200的导航子系统211可生成和/或接收诸如位置信息(例如,通过GPS传感器和/或来自传感器子系统210的其他传感器)、路线引导、交通信息、兴趣点(POI)识别的导航信息,和/或为驾驶员提供其他导航服务。
车载计算系统200的外部装置接口212可能可连接到位于车辆201外部的一个或多个外部装置240和/或与所述外部装置240通信。虽然外部装置被示出为位于车辆201外部,但应了解的是,所述外部装置可暂时置放在车辆201中,诸如当用户在操作车辆201的同时操作外部装置时。换句话说,外部装置240并不与车辆201形成整体。外部装置240可包括移动装置242(例如,通过蓝牙、NFC、WIFI direct或其他无线连接加以连接)或替代的具备蓝牙功能的装置252。移动装置242可以是移动电话、智能电话、可通过有线和/或无线通信与车载计算系统通信的穿戴式装置/传感器,或其他便携式电子装置。其他外部装置包括外部服务246。例如,外部装置可包括与车辆分开且位于车辆外部的车辆外装置。还有其他外部装置包括外部存储装置254,诸如固态驱动器、笔驱动器、USB驱动器等。在不背离本公开的范围的情况下,外部装置240可无线地或通过连接器与车载计算系统200通信。例如,外部装置240可通过网络260、通用串行总线(USB)连接、直接有线连接、直接无线连接和/或其他通信链路,通过外部装置接口212与车载计算系统200通信。
外部装置接口212可提供通信接口来允许车载计算系统与移动装置通信,这些移动装置与驾驶员的联系人相关联。例如,外部装置接口212可使得能够建立电话呼叫和/或向与驾驶员的联系人相关联的移动装置发送(例如,通过蜂窝式通信网络)文本消息(例如,SMS、MMS等)。另外或可替代地,外部装置接口212可提供无线通信接口,以便使得车载计算系统能够通过WIFI direct而与车辆中的一个或多个装置(例如,驾驶员的移动装置)同步数据,正如下文更详细描述的。
一个或多个应用程序244可在移动装置242上操作。举例来说,移动装置应用程序244可以操作来聚合关于用户与移动装置的交互的用户数据。例如,移动装置应用程序244可聚合与以下各者有关的数据:用户在移动装置上收听的音乐播放列表、电话呼叫日志(包括用户所接听的电话呼叫的频率和持续时间)、包括用户常去的位置和在每个位置所花费的时间量的位置信息等。可将所收集的数据通过网络260由应用程序244传送给外部装置接口212。另外,在移动装置242处可通过外部装置接口212从车载计算系统200接收具体用户数据请求。所述具体数据请求可包括用于确定用户的地理位置、环境噪声级和/或用户位置处的音乐流派、用户位置处的环境天气条件(温度、湿度等)等的请求。移动装置应用程序244可向移动装置242的部件(例如,麦克风等)或其他应用程序(例如,导航应用程序)发送控制指令,以使得所请求的数据能够收集在移动装置上。移动装置应用程序244随后可将所收集信息中继传递回车载计算系统200。
同样地,一个或多个应用程序248可在外部服务246上操作。举例来说,外部服务应用程序248可操作来聚合和/或分析来自多个数据源的数据。例如,外部服务应用程序248可聚合来自用户的一个或多个社交媒体账户的数据,来自车载计算系统(例如,传感器数据、日志文件、用户输入等)的数据,来自互联网查询的数据(例如,天气数据、POI数据)等。所收集的数据可被传输给另一个装置和/或由应用程序分析,以确定驾驶员、车辆和环境的情境,并且基于所述情境执行动作(例如,请求/发送数据给其他装置)。
车辆控制系统230可包括控制件,用来控制不同车载功能所涉及的各种车辆系统231的方面。这些控制可以包括(例如)控制车辆音频系统232的方面以便向车辆乘员提供音频娱乐、控制气候控制系统234的方面以便满足车辆乘员的车厢冷却或加热需要,以及控制电信系统236的方面以便使得车辆乘员能够与他人建立电信联接。
音频系统232可包括一个或多个声学再现装置,所述声学再现装置包括诸如扬声器的电磁转换器。车辆音频系统232可以是无源的或有源的(诸如通过包括功率放大器)。在一些实例中,车载计算系统200可以是用于声学再现装置的仅有音频源,或者可存在连接到音频再现系统的其他音频源(例如,诸如移动电话的外部装置)。任何此类外部装置与音频再现装置的连接可以是模拟的、数字的或模拟技术与数字技术的任何组合。
气候控制系统234可被配置来在车辆201的车厢或乘客舱内提供舒适的环境。气候控制系统234包括能够控制通风的部件,诸如通气孔、加热器、空调器、整合的加热器和空调器系统等。链接到加热和空调设置的其他部件可包括能够清洗挡风玻璃的挡风玻璃除霜除雾系统和用于清洁通过新鲜空气入口进入乘客舱的外界空气的通气过滤器。
车辆控制系统230还可包括控制件,所述控制件用来调整与发动机和/或车辆车厢内的辅助元件有关的各种车辆控制件261(或车辆系统控制元件)的设置,所述车辆控制件261诸如方向盘控制件262(例如,安装在方向盘上的音频系统控制件、巡航控制件、挡风玻璃雨刷控制件、前大灯控制件、转向信号控制件等)、仪表板控制件、麦克风、加速器/煞车/离合器踏板、换档器、位于驾驶员或乘客车门中的车门/车窗控制件、座椅控制件、车厢灯控制件、音频系统控制件、车厢温度控制件等。车辆控制件261还可包括被配置来通过车辆的CAN总线接收指令的内部发动机和车辆操作控制件(例如,发动机控制器模块、致动器、阀等),以改变发动机、排气系统、变速器和/或其他车辆系统中的一个或多个的操作。控制信号还可控制车辆音频系统232的一个或多个扬声器处的音频输出。例如,控制信号可调整音频输出特性,诸如音量、均衡化、音频图像(例如,用来产生音频输出的音频信号的配置,所述音频输出在用户看来是源自一个或多个已定义位置)、在多个扬声器之间的音频分布等。同样地,控制信号可控制通气孔、空调器和/或气候控制系统234的加热器。例如,控制信号可增加通向车厢特定区部的冷却空气输送。
定位于车辆外部的控制元件(例如,用于安全系统的控制件)也可连接到计算系统200,诸如通过通信模块222。车辆控制系统的控制元件可物理地且永久地定位于车辆上和/或车辆中,以用于接收用户输入。除了从车载计算系统200接收控制指令之外,车辆控制系统230还可以从用户所操作的一个或多个外部装置240(诸如从移动装置242)接收输入。这允许基于从外部装置240接收的用户输入来控制车辆系统231和车辆控制件261的方面。
车载计算系统200还可包括天线206。天线206被示出为单个天线,但是在一些实施方案中可包括一个或多个天线。车载计算系统可通过天线206获得宽带无线互联网接入,并且可进一步接收诸如无线电、电视、天气、交通等的广播信号。车载计算系统可通过一个或多个天线206接收诸如GPS信号的定位信号。车载计算系统还可通过RF,诸如通过天线206或通过红外或其他装置通过适当的接收装置来接收无线命令。在一些实施方案中,天线206可包括为音频系统232或电信系统236的一部分。另外,天线206可通过外部装置接口212向外部装置240(诸如向移动装置242)提供AM/FM无线电信号。
车载计算系统200的一个或多个元件可由用户通过用户接口218加以控制。用户接口218可包括呈现在触摸屏(诸如图1的触摸屏108)上的图形用户界面和/或用户致动按钮、开关、旋钮、标度盘、滑动条等。例如,用户致动元件可包括方向盘控制件、车门和/或车窗控制件、仪表板控制件、音频系统设置、气候控制系统设置等等。用户还可通过用户接口218与车载计算系统200和移动装置242的一个或多个应用程序交互。除了在用户接口218上接收用户的车辆设置偏好之外,还可以在用户接口218上向用户显示由车载控制系统选择的车辆设置。可在用户接口的显示器上向用户显示通知和其他消息(例如,所接收的消息)以及导航援助。可通过通向用户接口的用户输入来执行用户偏好/信息和/或对所呈现消息的响应。
图3是言语识别系统300的框图说明。所述系统包括接收线304上的用户输入言语(例如,数字化的)的言语特征提取器单元302。用户输入言语可由麦克风(未示出)检测并且利用模拟数字转换器(ADC)进行数字化。特征提取器单元302将数字言语信号转换成可用来对照对应于添加到上下文的适当单词(“终端”)的语音识别言语并且返回最佳匹配结果的特征。所述特征信息在线306上提供给话音识别引擎308,所述话音识别引擎308随后在线310上返回对应于“终端”的标识符(ID),对于所述标识符(ID),音标中的一个与同用户输入言语相关联的所提取的特征最佳地匹配。
言语识别可对固定词汇起作用的方式是通过定义包含将要识别的单词列表的语法。每个单词或短语(也称为“终端”)可具有使单词或短语作为基础语音符号的组合发音的一种或多种方式。为了知道终端如何发音,可将一个或多个音标与其相关联。每个终端具有与其相关联的唯一ID。语法可被离线压缩到在运行时可加载来识别用户话语的二进制上下文文件中。
言语识别系统300还接收线312上的元数据/文本条目(例如,来自智能电话或PDA的联系人/电话簿信息、来自USB存储器棒或音频CD的数据等)。线312上的文本条目可包括查询的子字符串,并且带口音语音和ID生成逻辑单元可处理所接收的数据并且在线316上提供与各种口音相关联的变换ID数据和语音数据。也就是说,将线312上的元数据/文本条目和线313上的与所述元数据/文本条目相关联的ID数据输入到带口音语音和变换ID生成逻辑单元314,所述带口音语音和变换ID生成逻辑单元314处理所接收的数据并且在线316上提供与各种口音相关联的变换ID数据和语音信息。线313上的ID数据处于原始ID空间中,而线316上的变换ID数据处于变换数据空间中。
图4是带口音语音和变换ID生成单元314的框图说明。将线312上的数据输入到口音单词生成器402,所述口音单词生成器402将字母序列转换成语音序列。针对那种特定语言(例如,与带口音语音和变换ID生成单元314相关联的语言和/或包括带口音语音和变换ID生成单元314的装置被自动地设定和/或由用户选择设定以便识别的语言)的规则由语言学家生成。带口音单词生成器402可提供发声最类似于针对特定口音的单词的新单词(例如,基于存储的单词/语音与在线312上接收的元数据的比较)。对由系统支持的所有口音都这样做,例如,带口音语音和变换ID生成单元314可支持N(例如,正整数)个数量的发音。口音单词生成器402使用存储在数据库404中的规则和数据来基于所使用的语言而生成单词的发音。可基于历史数据和由用户输入的话语中的一个或多个而自动地标识语言,和/或可基于由用户对语言的选择而手动地设定和标识语言。例如,带口音单词生成器402可将线312上的表示例如CAKE的字母字符串转换成诸如[K EY K]的音子字符串。来自口音单词生成器402的输出在线406-408上被提供为针对由带口音语音和ID生成逻辑单元314支持的N个数量的口音中的每一个的修改的单词。线406-408上的N个数量的修改单词中的每一个将与其特定口音相关联的输出提供给字素到音素(G2P)逻辑单元410。例如,可以设想,对于印度英语而言,可存在十二(12)种不同口音,因此,可将针对这十二种口音中的每一种(或来自十二种不同口音的子集,诸如包括十二种不同口音中的[12–x]种不同口音的子集,例如最受欢迎的[12–x]种不同口音,其中x是小于十二的正整数)的修改单词从带口音单词生成器402输出。
参考图3和图4,线312上的文本条目由带口音语音和变换ID生成逻辑单元314处理,所述带口音语音和变换ID生成逻辑单元314替换适当的带口音字符串以便在线406-408上提供N个数量的修改的文本条目/单词。那些条目随后用来得到音标并且被添加到上下文以供识别。例如,考虑将名称“Ananyavrata”存储为条目。用于所述名称的发音最接近于当用孟加拉语发音时的“Onanyabrota”。作为一般规则,字符串“An”可用“On”替代,并且“v”可用字母“b”替代。同一名称在泰米尔语中发音为“Ananyavratha”,意味着以“t”结尾的名称用“th”替代。新字符串随后可用来得到针对口音中的每一种的音标。
可在运行时为同一ID添加针对所有口音生成的语音。这意味着话音识别引擎308可同时收听所述口音以便提高识别准确度。
基于声学特征,G2P单元410在线413-415上提供针对N种口音中的每一种的语音数据。G2P单元410还在线412上提供与线312上的输入信号相关联的语音数据(例如,不带口音的)。基础语音发声在不同语言和区域中可不同。例如,元音在非洲英语和北美英语中发音可不同。在印度,对于这个国家的不同地区的不同口音,情况也是如此。然而,存在某些单词在不同区域中发音的已知方式或将给予重音或将添加停顿的方式。语言的这些语言学特征的知识为创建语音发音模型提供了基础。所述系统可对所选择语言(例如,印度英语)中的名称和与所述语言相关联的多种口音执行此类处理和相关联性。对于每个输入字符串,语音单元412-415返回唯一的音标。带口音语音和变换ID生成逻辑单元314既可离线使用又可在嵌入式平台上使用以生成从G2P单元410输出的语音。
G2P逻辑单元410基于语言音素的声学特征而对它们进行映射。例如,G2P单元生成不包括在用来产生G2P规则的发音字典中的单词(例如,词汇外单词)的最可能的音子列表。G2P单元410包括特定于配置图3的言语识别系统300所针对的语言的音素集合。
将来自G2P单元410的语音输出数据输入到变换ID分配器416,所述变换ID分配器416在线417a-417d上提供与线412上的不带口音的语音数据和线413-415上的N个数量的带口音语音相关联的变换ID数据。变换ID与变换ID空间相关联。带口音语音和变换ID生成单元在线412-415上提供语音数据并且在线417a-417d上提供变换ID。线412上的信号和线417a上的信号提供与线312上的输入信号相关联的输出数据对。类似地,线413上的信号和线417b上的信号提供与针对线406上的口音1的修改单词相关联的输出数据对,而线414上的信号和线417c上的信号提供与针对线407上的口音2的修改单词相关联的输出数据对,等等。
变换ID分配器416生成针对每个原始单词和带口音单词的唯一ID。例如,如果用于原始终端的ID被指配为数字1000并且存在所支持的15种口音,那么所述系统可通过从1至15的变换口音ID范围提供变换ID。在一个实施方案中,所述变换可以是:
新_ID=(旧_ID*M)+口音_ID,
其中M=大于或等于N+1的整数,其中N是所支持的最大数量的口音。
针对各种印度口音,N的值可被指配如下:
0-不带口音的
1–孟加拉语口音
2–古吉拉特语口音
……
等。
对于被指配为1000的旧_ID值的单词并且M等于20,那么针对孟加拉语带口音形式的单词的新ID可计算为:
(1000*20)+1=20001。
对于被指配为1000的旧_ID值的同一原始单词,针对古吉拉特语带口音形式的单词的新ID可计算为:
(1000*20)+2=20002。
当话音识别引擎308将变换所识别的ID传递给图3的口音检测单元318时,可通过以下变换提取原始终端ID和口音ID:
口音_ID=(所识别的_变换_ID%M),
其中%表示模(余数)运算符,并且
旧_ID=所识别的_变换_ID-口音_ID)/M。
这种ID分配技术确保变换ID与由话音识别系统使用的原始ID不存在争用。
参考图3和图4,话音识别引擎308还包括上下文单元320,所述上下文单元320接收线412-415(图4)上的指示具有对各种口音的校正的语音的数据,以及线417a-417d(图4)上的与这些语音信号相关联的ID数据。当言语识别应用程序激活时,特定的上下文被加载到话音识别引擎308中。一旦所述系统接收线304上的用户输入言语,言语特征提取器单元302就将数字化发声数据转换成特征。话音识别引擎308随后返回对应于从带口音语音和ID生成单元314输入到话音识别单元308的带口音输入数据对中的每一个的终端的ID数据。
用于上下文单元320的语法文件可通过微调由G2P单元410(图4)返回的语音,或例如通过使用语音生成器工具而离线编辑。例如,单词“read”可基于上下文而发音为“reed”或“red”。因此,为了识别所述两个发音,可将用于所述两个发音的对应音标添加到上下文单元320(图3)的语法文件。也可在运行时添加具有适当语音发音的终端。
使用离线处理,可以单词在其他语言中应该被说出的方式单独通过文本操纵来对所述单词进行建模。没有必要手工调谐音标,这否则可能是一项繁重的任务。例如,考虑固定命令“找到最近的银行”。在某些口音中,单词“bank”可发音为“byunk”(分解为bya-unk)。在为这种语言做离线语音数据准备时,出于识别的目的,可用“bya unk”来查找和替代单词bank,并且添加对应的语音作为同义词。
一种在线(例如,在嵌入式装置上)处理单词的方法对由用户加载的动态数据可为有用的。此类数据的实例是电话簿条目,所述电话簿条目可例如通过连接电话(例如,无线地(诸如通过蓝牙或其他无线连接)和/或通过有线连接)获得。为了能够通过言语识别而识别名称用于拨号,可在带口音语音和ID生成逻辑314(图4)上提供名称列表,所述带口音语音和ID生成逻辑314返回针对名称的音标。人物名称通常具有许多区域口音,这对识别所述名称来说可能提出了挑战。为了提高识别准确度,可在运行时修改所述名称以便以与带口音发音类似的方式表示所述名称。这些修改可在运行时完成并且被写入临时文件,所述临时文件随后可用来从G2P单元410(图4)取得音标。所述修改或字符串替换可通过在数据库404(图4)中查找和/或基于口音中的每一种的配置文件(例如,基于XML、基于JSON或基于YAML的格式)来完成。所述修改或字符串替换可实现可缩放的准确度,因为数据库在一段时间后可扩大和改善。
为了增加来自话音识别引擎308的所识别的ID的准确度,图3的系统300还可包括接收指示所识别的ID的数据的口音检测单元318。口音检测单元318向保持跟踪所检测到的口音并且提供指示先前检测到的口音的数据的加权结果单元322提供数据。一旦已经检测到足够的口音,就获得自信,加权结果单元322可使用线324上的指示所检测到的口音的这种历史信息来确定可能的口音。上述反馈布置可增加言语识别系统300相对于不利用此类反馈的其他言语识别系统的口音检测准确度。
可将(例如,来自加权结果单元322的具有提高的准确度的)识别结果提供给一个或多个言语控制单元或装置326。例如,言语控制单元或装置326可包括显示与所识别的言语结果匹配的文本的显示单元,和/或将所识别的言语结果应用到逻辑处理(例如,以调整用户接口、执行搜索、确定发送到另一个装置的用于控制那个装置的操作的控制命令,和/或任何其他合适处理)的处理器。另外或可替代地,言语控制单元或装置326可包括基于所识别的言语结果改变操作的装置(例如,车辆系统、移动计算装置、服务器等)和/或向另一个远程单元中继传递或传输所识别的言语结果以供进一步处理或控制的远程服务或网络接口。通常,所述一个或多个言语控制单元或装置326可基于来自加权结果单元322和/或口音检测单元318的所识别的言语结果来执行动作。所述动作可包括调整显示器、调整车辆或车辆系统(例如,音频系统、气候控制系统等)的操作、向远程装置发送所识别的言语结果、生成对应于所识别的言语结果的文本和/或任何其他合适的动作。言语控制单元或装置326可包括任何合适的硬件元件和/或包括存储装置和用于执行存储在存储装置中的指令的逻辑装置的硬件元件。
图5是例如信息娱乐系统的包括图3的言语识别系统的处理系统500的框图说明。图3所示的言语识别系统300可在一个或多个处理单元504(图5)中实现为可执行程序指令。处理系统500可从包括例如麦克风、GPS接收器、无线电接收器(例如,AM/FM/卫星/WIFI、蓝牙等)的输入装置502接收输入信号。处理系统500还可包括存储装置506(例如,包含音频和/或视频内容的硬盘驱动器),并且向多个输出装置508(例如像,显示器、扬声器、蓝牙收发器和有线连接)提供输出命令和数据。
图6是用于执行言语识别的方法600的流程图。例如,方法600可由言语识别系统(诸如图5的言语处理系统500和/或图3和图4的言语识别系统300)执行。在602处,所述方法包括在包括带口音子字符串的数据库的带口音语音和变换ID生成单元(例如,图3的单元314)处接收元数据和/或针对所述元数据的ID数据。如在604处所指示,元数据可包括对应于存储在与用户相关联的装置上的文本的单词。例如,元数据可包括存储在以下装置上的文本条目:言语识别系统的存储装置、向言语识别系统提供输入的用户的移动装置、托管与向言语识别系统提供输入的用户相关联的用户简档的外部服务(例如,社交网络服务)和/或任何其他合适的存储装置。
在606处,所述方法包括通过带口音语音和变换ID生成单元生成包括在元数据中的单词的口音校正的语音数据。如在608处所指示,所述口音校正的语音数据可基于存储在数据库中的带口音子字符串而表示包括在元数据中的单词的不同发音。带口音语音和变换ID生成单元可进一步生成所述口音校正的语音数据的变换ID。例如,所述口音校正的语音数据可包括带口音单词,每个带口音单词对应于包括在元数据中的相关联的原始单词,所述变换ID中的每一个对应于不同口音单词并且基于那个带口音单词的口音和与那个带口音单词相关联的原始单词的ID数据而生成。
在610处,所述方法包括在言语提取单元处接收由用户输入的话语并且基于所述输入生成所提取的言语数据。在612处,所述方法包括在话音识别引擎(例如,图3的话音识别引擎308)处接收。在614处,所述方法包括在话音识别引擎处接收口音校正的语音数据。
在616处,所述方法包括在话音识别引擎处确定所提取的言语数据中标识所识别的话语的一个或多个终端ID。在618处,所述方法包括在话音识别引擎处生成标识在所识别的话语中检测到的口音的口音数据。在620处,所述方法包括存储所生成的口音数据并且将所生成的口音数据与历史数据(例如,先前生成的口音数据和/或所识别的言语数据)进行比较。所生成的口音数据和历史数据可在加权结果单元(例如,图3的单元322,所述历史数据可包括在生成那些所识别的言语结果时在加权结果单元处接收和存储的所识别的言语结果)处接收。加权结果单元可将当前数据和先前的数据(例如,当前确定的口音数据和先前确定的历史数据)进行比较来确定口音数据是否与先前识别的言语结果的最近确定的口音相匹配。在622处,所述方法包括基于终端ID、口音数据和/或历史数据来生成所识别的言语数据。例如,将所识别的言语数据和所述一个或多个终端ID与元数据的单词和元数据的单词的ID数据匹配。在624处,所述方法包括将所识别的言语数据输出到言语控制装置(例如,图3的言语控制装置326)。
本文公开的系统和方法解决了通过单个声学模型支持(例如,印度英语的)多种口音的问题。通过修改用来得到用于G2P单元的语音的单词来离线或在线生成针对特定口音的语音。
以上系统和方法还提供一种示例性言语识别系统,所述示例性言语识别系统包括:带口音语音和变换ID生成单元,所述音化语音和变换ID生成单元包括带口音子字符串的数据库,并且所述音化语音和变换ID生成单元接收元数据和与所述元数据相关联并且处于第一ID数据空间中的ID数据,并且提供各自唯一地与同某种语言相关联的多种不同口音中的相关联口音相关联的多个修改的单词,并且处理所述多个修改的单词,并提供所述多个修改的单词的多个口音校正的语音数据,其中所述口音校正的语音数据中的每一个被处理以提供处于第二ID数据空间中的各自唯一地与所述多个口音校正的语音数据中的相关联数据相关联的多个变换ID;言语特征提取器单元,所述言语特征提取器单元接收并处理用户输入言语并且提供与所述用户输入言语相关联的所提取的言语数据;话音识别逻辑单元,所述话音识别逻辑单元接收所提取的言语数据、所述多个变换ID和所述多个口音校正的语音数据,并且提供对应于终端的终端标识符以及口音数据,对于所述口音数据,音标中的一个与同用户输入言语相关联的所提取的言语数据最佳地匹配;口音检测和逆向ID变换单元,所述口音检测和逆向ID变换单元接收所述终端标识符并且提供处于第一ID数据空间中的确认ID;以及口音结果加权逻辑单元,所述口音结果加权逻辑单元接收所检测到的口音数据并且与所检测到的口音数据的过去值进行比较以提供所识别的言语数据。在第一实例中,所述言语识别系统可任选地包括以下言语识别系统:其中带口音语音和变换ID生成单元包括提供所述多个口音校正的语音数据的字素到语音单元。所述言语识别系统的第二实例任选地包括所述第一实例并且还包括以下言语识别系统:其中带口音语音和变换ID生成单元包括变换ID分配器,所述变换ID分配器接收口音校正的语音数据和ID数据并且提供处于第二ID数据空间中的多个变换ID。所述言语识别系统的第三实例任选地包括第一实例和第二实例中的一个或多个,并且还包括以下言语识别系统:其中话音识别逻辑单元包括上下文单元,所述上下文单元包括与所述某种语言相关联的语法文件。
以上系统和方法还提供一种访问带口音子字符串的数据库的示例性言语识别方法,所述方法包括:接收元数据和与所述元数据相关联并且处于原始ID空间中的ID数据,并且提供各自唯一地与同某种语言相关联的多种不同口音中的相关联口音相关联的多个修改的单词,并且处理所述多个修改的单词以提供所述多个修改的单词的多个口音校正的语音数据,其中所述口音校正的语音数据中的每一个被处理以提供处于变换ID空间中的各自唯一地与所述多个口音校正的语音数据中的相关联数据相关联的多个变换ID;在言语特征提取器单元中接收用户输入言语并且处理所接收的输入言语以提供与所述用户输入言语相关联的所提取的言语数据;处理所提取的言语数据、所述多个变换ID和所述多个口音校正的语音数据,并且提供对应于终端的终端标识符以及口音数据,对于所述口音数据,音标中的一个与同用户输入言语相关联的所提取的言语数据最佳地匹配;处理终端标识符以提供处于原始ID数据空间中的确认ID,并且将所检测到的口音数据与所检测到的口音数据的过去值进行比较以提供所识别的言语数据。所述言语识别方法的第一实例包括以下方法:其中提供所述多个口音校正的语音数据的步骤包括对所述多个修改的单词进行字素到语音处理以提供所述多个口音校正的语音数据。
以上系统和方法还提供一种在访问带口音子字符串的数据库的处理器中执行的言语识别方法,所述方法包括:接收元数据和处于原始ID空间中的与所述元数据相关联的ID数据;提供各自唯一地与所述元数据和与某种语言相关联的多种不同口音中的相关联口音相关联的多个修改的单词,并且处理所述多个修改的单词以提供所述多个修改的单词的多个口音校正的语音数据;处理所述口音校正的语音数据以提供处于变换ID空间中的各自唯一地与所述多个口音校正的语音数据中的相关联数据相关联的多个变换ID;接收用户输入言语数据并且处理所接收的输入言语数据以提供与用户输入言语数据相关联的所提取的言语数据;处理所提取的言语数据、所述多个变换ID和所述多个口音校正的语音数据,并且提供对应于终端的终端标识符并提供音标的与同用户输入言语数据相关联的所提取的言语数据最佳地匹配的口音数据;处理终端标识符以提供处于原始ID数据空间中的变换ID;以及将所检测到的口音数据与所检测到的口音数据的过去值进行比较以提供所识别的言语数据。
以上系统和方法还提供一种言语识别系统,所述言语识别系统包括言语控制装置、处理器和存储指令的存储装置,所述指令可由所述处理器执行以便:在包括带口音子字符串的数据库的带口音语音和变换ID生成单元处接收元数据;通过所述带口音语音和变换ID生成单元生成包括在元数据中的单词的口音校正的语音数据,所述口音校正的语音数据基于存储在数据库中的带口音子字符串而表示包括在元数据中的单词的不同发音;在话音识别引擎处接收源自由用户输入到言语识别系统的话语的所提取的言语数据;在话音识别引擎处接收口音校正的语音数据;在话音识别引擎处确定所提取的言语数据中标识所识别的话语的一个或多个终端ID;在话音识别引擎处生成标识在所识别的话语中检测到的口音的口音数据;基于所述一个或多个终端ID和所述口音数据来生成所识别的言语数据;以及将所识别的言语数据输出到言语控制装置。所述言语识别系统的第一实例包括以下言语识别系统:其中所述指令可进一步执行来在加权结果单元处接收口音数据和包括先前生成的口音数据的历史数据,并且将所述口音数据与所述历史数据进行比较,所识别的言语数据进一步基于所述口音数据与所述历史数据的比较。所述言语识别系统的第二实例任选地包括第一实例并且还包括以下言语识别系统:其中元数据对应于存储在言语识别系统的存储装置、向言语识别系统提供输入的用户的移动装置以及托管与向言语识别系统提供输入的用户相关联的用户简档的外部服务中的一个或多个上的文本条目。所述言语识别系统的第三实例任选地包括第一实例和第二实例中的任意一个或多个,并且还包括以下言语识别系统:其中所述指令可进一步执行来在带口音语音和变换ID生成单元处接收对应于包括在元数据中的单词的ID数据,并且在带口音语音和变换ID生成单元处生成口音校正的语音数据的变换ID。所述言语识别系统的第四实例任选地包括第一实例至第三实例中的任意一个或多个,并且还包括以下言语识别系统:其中口音校正的语音数据包括带口音单词,每个带口音单词对应于包括在元数据中的相关联的原始单词,所述变换ID中的每一个对应于不同口音单词并且基于那个带口音单词的口音和与那个带口音单词相关联的原始单词的ID数据而生成。所述言语识别系统的第五实例任选地包括述第一实例至第四实例中的任意一个或多个,并且还包括以下言语识别系统:其中所识别的言语数据和所述一个或多个终端ID与元数据的单词和所述元数据的所述单词的ID数据匹配。所述言语识别系统的第六实例任选地包括第一实例至第五实例中的任意一个或多个,并且还包括以下言语识别系统:其中话音识别逻辑单元包括上下文单元,所述上下文单元包括与针对用户标识的语言相关联的语法文件。所述言语识别系统的第七实例任选地包括第一实例至第六实例中的任意一个或多个,并且还包括以下言语识别系统:其中语言基于历史数据和由用户输入的话语中的一个或多个来自动地标识。所述言语识别系统的第八实例任选地包括第一实例至第七实例中的任意一个或多个,并且还包括以下言语识别系统:其中语言基于由用户对语言的选择来标识。所述言语识别系统的第九实例任选地包括第一实例至第八实例中的任意一个或多个,并且还包括以下言语识别系统:其中言语识别系统包括车辆的车载计算系统,并且其中言语控制装置包括车载计算系统的显示器和车辆中的车辆系统中的一个或多个。
以上系统和方法还提供一种由言语识别系统执行的言语识别方法,所述言语识别系统包括言语控制装置、处理器和存储可由所述处理器执行的指令的存储装置,所述方法包括:在包括带口音子字符串的数据库的带口音语音和变换ID生成单元处接收元数据;通过带口音语音和变换ID生成单元生成包括在元数据中的单词的口音校正的语音数据,所述口音校正的语音数据基于存储在数据库中的带口音子字符串而表示包括在元数据中的单词的不同发音;在话音识别引擎处接收源自由用户输入到言语识别系统的话语的所提取的言语数据;在话音识别引擎处接收口音校正的语音数据;在话音识别引擎处确定所提取的言语数据中标识所识别的话语的一个或多个终端ID;在话音识别引擎处生成标识在所识别的话语中检测到的口音的口音数据;基于所述一个或多个终端ID和所述口音数据来生成所识别的言语数据;以及将所识别的言语数据输出到言语控制装置。所述方法的第一实例还包括:在加权结果单元处接收口音数据和包括先前生成的口音数据的历史数据,并且将所述口音数据与所述历史数据进行比较,所识别的言语数据进一步基于所述口音数据与所述历史数据的比较。所述方法的第二实例任选地包括第一实例并且还包括以下方法:其中将口音数据与历史数据进行比较包括确定由口音数据标识的口音是否与在最近识别的言语数据中标识的口音相匹配。所述方法的第三实例任选地包括第一实例和第二实例中的任意一个或多个,并且还包括以下方法:其中元数据对应于存储在言语识别系统的存储装置、向言语识别系统提供输入的用户的移动装置以及托管与向言语识别系统提供输入的用户相关联的用户简档的外部服务中的一个或多个上的文本条目。所述方法的第四实例任选地包括第一实例至第三实例中的任意一个或多个,并且还包括:在带口音语音和变换ID生成单元处接收对应于包括在元数据中的单词的ID数据,并且在带口音语音和变换ID生成单元处生成口音校正的语音数据的变换ID。所述方法的第五实例任选地包括第一实例至第四实例中的任意一个或多个,并且还包括以下方法:其中口音校正的语音数据包括带口音单词,每个带口音单词对应于包括在元数据中的相关联的原始单词,所述变换ID中的每一个对应于不同口音单词并且基于那个带口音单词的口音和与那个带口音单词相关联的原始单词的ID数据而生成。所述方法的第六实例任选地包括第一实例至第五实例中的任意一个或多个,并且还包括以下方法:其中所识别的言语数据和所述一个或多个终端ID与元数据的单词和所述元数据的所述单词的ID数据匹配。所述方法的第七实例任选地包括第一实例至第六实例中的任意一个或多个,并且还包括以下方法:其中话音识别逻辑单元包括上下文单元,所述上下文单元包括与针对用户标识的语言相关联的语法文件。所述方法的第八实例任选地包括第一实例至第七实例中的任意一个或多个,并且还包括以下方法:其中语言基于历史数据和由用户输入的话语中的一个或多个来自动地标识。所述方法的第九实例任选地包括第一实例至第八实例中的任意一个或多个,并且还包括以下方法:其中语言基于由用户对语言的选择来标识。所述方法的第十实例任选地包括第一实例至第九实例中的任意一个或多个,并且还包括以下方法:其中言语识别系统包括车辆的车载计算系统,并且其中言语控制装置包括车载计算系统的显示器和车辆中的车辆系统中的一个或多个。
已经出于说明和描述的目的呈现了实施方案的描述。对实施方案的合适修改和变更可根据以上描述来执行或者可从实践所述方法来获取。例如,除非另外指出,否则所描述方法中的一种或多种可由合适的装置和/或装置组合(诸如参考图1和图3所描述的车载计算系统109和/或言语识别系统300)来执行。所述方法可通过利用一个或多个逻辑装置(例如,处理器)与一个或多个另外硬件元件(诸如存储装置、存储器、硬件网络接口/天线、开关、致动器、中标电路等)的组合执行存储指令来执行。除了本申请中描述的次序之外,还可按各种次序、并行地和/或同时地执行所描述的方法和相关联动作。所描述的系统本质上是示例性的,并且可包括另外的元件和/或省略元件。本公开的主题包括所公开的各种系统和配置以及其他特征、功能和/或性质的全部新颖且非显而易见的组合和子组合。
如本申请中所使用的,以单数形式列举并且通过字词“一个”或“一种”引出的元件或步骤应理解为并不排除多个所述元件或步骤,除非明确指出这种排除情况。此外,对本公开的“一个实施方案”或“一个实例”的参考并非意图解释为排除也并入有所列举特征的另外实施方案的存在。术语“第一”、“第二”和“第三”等仅用作标签,而并非意图对其对象强加数值要求或具体位置顺序。以下权利要求书特别指出来自以上公开的主题,所述主题被认为是新颖且非显而易见的。
Claims (18)
1.一种言语识别系统,其包括:
带口音语音和变换ID生成单元,所述带口音语音和变换ID生成单元包括带口音子字符串的数据库,并且所述带口音语音和变换ID生成单元接收元数据和与所述元数据相关联并且处于第一ID数据空间中的ID数据,并且提供各自唯一地与同某种语言相关联的多种不同口音中的相关联口音相关联的多个修改的单词,并且处理所述多个修改的单词,并提供所述多个修改的单词的多个口音校正的语音数据,其中所述口音校正的语音数据中的每一个被处理以提供处于第二ID数据空间中的各自唯一地与所述多个口音校正的语音数据中的相关联数据相关联的多个变换ID;
言语特征提取器单元,所述言语特征提取器单元接收并处理用户输入言语并且提供与所述用户输入言语相关联的所提取的言语数据;
话音识别逻辑单元,所述话音识别逻辑单元接收所提取的言语数据、所述多个变换ID和所述多个口音校正的语音数据,并且提供对应于终端的终端标识符以及口音数据,对于所述口音数据,音标中的一个与同所述用户输入言语相关联的所提取的言语数据最佳地匹配;
口音检测和逆向ID变换单元,所述口音检测和逆向ID变换单元接收所述终端标识符并且提供处于所述第一ID数据空间中的确认ID;以及
口音结果加权逻辑单元,所述口音结果加权逻辑单元接收所检测到的口音数据并且与所检测到的口音数据的过去值进行比较以提供所识别的言语数据。
2.如权利要求1所述的言语识别系统,其中所述带口音语音和变换ID生成单元包括提供所述多个口音校正的语音数据的字素到语音单元。
3.如权利要求1或2中任一项所述的言语识别系统,其中所述带口音语音和变换ID生成单元包括变换ID分配器,所述变换ID分配器接收所述口音校正的语音数据和所述ID数据并且提供处于所述第二ID数据空间中的所述多个变换ID。
4.如权利要求3所述的言语识别系统,其中所述话音识别逻辑单元包括上下文单元,所述上下文单元包括与所述某种语言相关联的语法文件。
5.一种访问带口音子字符串的数据库的言语识别方法,其包括:
接收元数据和与所述元数据相关联并且处于原始ID空间中的ID数据,并且提供各自唯一地与同某种语言相关联的多种不同口音中的相关联口音相关联的多个修改的单词,并且处理所述多个修改的单词以提供所述多个修改的单词的多个口音校正的语音数据,其中所述口音校正的语音数据中的每一个被处理以提供处于变换ID空间中的各自唯一地与所述多个口音校正的语音数据中的相关联数据相关联的多个变换ID;
在言语特征提取器单元中接收用户输入言语并且处理所接收的输入言语以提供与所述用户输入言语相关联的所提取的言语数据;
处理所提取的言语数据、所述多个变换ID和所述多个口音校正的语音数据,并且提供对应于终端的终端标识符以及口音数据,对于所述口音数据,音标中的一个与同所述用户输入言语相关联的所提取的言语数据最佳地匹配;
处理所述终端标识符以提供处于所述原始ID数据空间中的确认ID;以及
将所检测到的口音数据与所检测到的口音数据的过去值进行比较以提供所识别的言语数据。
6.如权利要求5所述的方法,其中提供所述多个口音校正的语音数据的步骤包括对所述多个修改的单词进行字素到语音处理以提供所述多个口音校正的语音数据。
7.一种由言语识别系统执行的言语识别方法,所述言语识别系统包括言语控制装置、处理器和存储可由所述处理器执行的指令的存储装置,所述方法包括:
在包括带口音子字符串的数据库的带口音语音和变换ID生成单元处接收元数据;
通过所述带口音语音和变换ID生成单元生成包括在所述元数据中的单词的口音校正的语音数据,所述口音校正的语音数据基于存储在所述数据库中的所述带口音子字符串而表示包括在所述元数据中的所述单词的不同发音;
在话音识别引擎处接收源自由用户输入到所述言语识别系统的话语的所提取的言语数据;
在所述话音识别引擎处接收所述口音校正的语音数据;
在所述话音识别引擎处确定所提取的言语数据中标识所识别的话语的一个或多个终端ID;
在所述话音识别引擎处生成标识在所识别的话语中检测到的口音的口音数据;
基于所述一个或多个终端ID和所述口音数据来生成所识别的言语数据;以及
将所识别的言语数据输出到所述言语控制装置。
8.如权利要求7所述的方法,其还包括:在加权结果单元处接收所述口音数据和包括先前生成的口音数据的历史数据,并且将所述口音数据与所述历史数据进行比较,所识别的言语数据进一步基于所述口音数据与所述历史数据的所述比较。
9.如权利要求8所述的方法,其中将所述口音数据与所述历史数据进行比较包括确定由所述口音数据标识的口音是否与在最近识别的言语数据中标识的口音相匹配。
10.如权利要求7-9中任一项所述的方法,其中所述元数据对应于存储在以下各项中的一项或多项上的文本条目:所述言语识别系统的所述存储装置、向所述言语识别系统提供输入的用户的移动装置,以及托管与向所述言语识别系统提供输入的所述用户相关联的用户简档的外部服务。
11.如权利要求7-9中任一项所述的方法,其还包括:在所述带口音语音和变换ID生成单元处接收对应于包括在所述元数据中的所述单词的ID数据,并且在所述带口音语音和变换ID生成单元处生成所述口音校正的语音数据的变换ID。
12.如权利要求11所述的方法,其中所述口音校正的语音数据包括带口音单词,每个带口音单词对应于包括在所述元数据中的相关联的原始单词,所述变换ID中的每一个对应于不同口音单词并且基于该带口音单词的口音和与该带口音单词相关联的原始单词的ID数据而生成。
13.如权利要求12所述的方法,其中所识别的言语数据和所述一个或多个终端ID与所述元数据的单词和所述元数据的所述单词的所述ID数据匹配。
14.如权利要求7-13中任一项所述的方法,其中所述话音识别逻辑单元包括上下文单元,所述上下文单元包括与针对用户标识的语言相关联的语法文件。
15.如权利要求14所述的方法,其中所述语言基于历史数据和由所述用户输入的话语中的一个或多个来自动地标识。
16.如权利要求15所述的方法,其中基于由所述用户对所述语言的选择来标识所述语言。
17.如权利要求7-16中任一项所述的方法,其中所述言语识别系统包括车辆的车载计算系统,并且其中言语控制装置包括所述车载计算系统的显示器和所述车辆中的车辆系统中的一个或多个。
18.一种由言语识别系统执行的言语识别方法,所述言语识别系统包括言语控制装置、处理器和存储能够由所述处理器执行的指令的存储装置,所述方法包括:
接收元数据和处于原始ID空间中的与所述元数据相关联的ID数据;
提供各自唯一地与所述元数据和同某种语言相关联的多种不同口音中的相关联口音相关联的多个修改的单词,并且处理所述多个修改的单词以提供所述多个修改的单词的多个口音校正的语音数据;
处理所述口音校正的语音数据以提供处于变换ID空间中的各自唯一地与所述多个口音校正的语音数据中的相关联数据相关联的多个变换ID;
接收用户输入言语数据,并且处理所接收的输入言语数据,以提供与所述用户输入言语数据相关联的所提取的言语数据;
处理所提取的言语数据、所述多个变换ID和所述多个口音校正的语音数据,并且提供对应于终端的终端标识符,并提供与同所述用户输入言语数据相关联的所提取的言语数据最佳地匹配的音标的口音数据;
处理所述终端标识符,以提供处于所述原始ID数据空间中的变换ID;以及
将所检测到的口音数据与所检测到的口音数据的过去值进行比较,以提供所识别的言语数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
IN3618/CHE/2014 | 2014-07-24 | ||
IN3618CH2014 | 2014-07-24 | ||
PCT/US2015/042046 WO2016014970A1 (en) | 2014-07-24 | 2015-07-24 | Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106663422A true CN106663422A (zh) | 2017-05-10 |
CN106663422B CN106663422B (zh) | 2021-03-30 |
Family
ID=55163851
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580040890.1A Active CN106663422B (zh) | 2014-07-24 | 2015-07-24 | 言语识别系统及其言语识别方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US10290300B2 (zh) |
EP (1) | EP3172729B1 (zh) |
JP (1) | JP6585154B2 (zh) |
KR (1) | KR102388992B1 (zh) |
CN (1) | CN106663422B (zh) |
CA (1) | CA2952836A1 (zh) |
WO (1) | WO2016014970A1 (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107481737A (zh) * | 2017-08-28 | 2017-12-15 | 广东小天才科技有限公司 | 一种语音监控的方法、装置及终端设备 |
CN107958666A (zh) * | 2017-05-11 | 2018-04-24 | 小蚁科技(香港)有限公司 | 用于口音不变语音识别的方法 |
CN109817208A (zh) * | 2019-01-15 | 2019-05-28 | 上海交通大学 | 一种适合各地方言的驾驶员语音智能交互设备及方法 |
WO2020014890A1 (zh) * | 2018-07-18 | 2020-01-23 | 深圳魔耳智能声学科技有限公司 | 基于口音的语音识别处理方法、电子设备和存储介质 |
CN112204655A (zh) * | 2018-05-22 | 2021-01-08 | 三星电子株式会社 | 用于通过使用应用输出对语音输入的响应的电子装置及其操作方法 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9734819B2 (en) | 2013-02-21 | 2017-08-15 | Google Technology Holdings LLC | Recognizing accented speech |
WO2016014970A1 (en) * | 2014-07-24 | 2016-01-28 | Harman International Industries, Incorporated | Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection |
WO2016103358A1 (ja) * | 2014-12-24 | 2016-06-30 | 三菱電機株式会社 | 音声認識装置及び音声認識方法 |
US10056080B2 (en) | 2016-10-18 | 2018-08-21 | Ford Global Technologies, Llc | Identifying contacts using speech recognition |
US11043221B2 (en) * | 2017-04-24 | 2021-06-22 | Iheartmedia Management Services, Inc. | Transmission schedule analysis and display |
US10650844B2 (en) * | 2018-01-18 | 2020-05-12 | Wipro Limited | Method and response recommendation system for recommending a response for a voice-based user input |
KR101888059B1 (ko) | 2018-02-12 | 2018-09-10 | 주식회사 공훈 | 문맥 기반 음성 모델 관리 장치 및 그 방법 |
CN109410926A (zh) * | 2018-11-27 | 2019-03-01 | 恒大法拉第未来智能汽车(广东)有限公司 | 语音语义识别方法及系统 |
US10839788B2 (en) | 2018-12-13 | 2020-11-17 | i2x GmbH | Systems and methods for selecting accent and dialect based on context |
US11450311B2 (en) | 2018-12-13 | 2022-09-20 | i2x GmbH | System and methods for accent and dialect modification |
JP7225876B2 (ja) * | 2019-02-08 | 2023-02-21 | 富士通株式会社 | 情報処理装置、演算処理装置および情報処理装置の制御方法 |
US11308265B1 (en) * | 2019-10-11 | 2022-04-19 | Wells Fargo Bank, N.A. | Digitally aware neural dictation interface |
CN111028834B (zh) * | 2019-10-30 | 2023-01-20 | 蚂蚁财富(上海)金融信息服务有限公司 | 语音信息提醒方法、装置、服务器和语音信息提醒设备 |
KR20200007983A (ko) * | 2020-01-03 | 2020-01-22 | 엘지전자 주식회사 | 지역적 특징 기반의 음성인식 방법 및 시스템 |
CN112614485A (zh) * | 2020-12-30 | 2021-04-06 | 竹间智能科技(上海)有限公司 | 识别模型构建方法、语音识别方法、电子设备及存储介质 |
JP2022152464A (ja) * | 2021-03-29 | 2022-10-12 | トヨタ自動車株式会社 | 車両制御システム及び車両制御方法 |
Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5911129A (en) * | 1996-12-13 | 1999-06-08 | Intel Corporation | Audio font used for capture and rendering |
US20040073425A1 (en) * | 2002-10-11 | 2004-04-15 | Das Sharmistha Sarkar | Arrangement for real-time automatic recognition of accented speech |
US20060020463A1 (en) * | 2004-07-22 | 2006-01-26 | International Business Machines Corporation | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US20070094022A1 (en) * | 2005-10-20 | 2007-04-26 | Hahn Koo | Method and device for recognizing human intent |
US20070250318A1 (en) * | 2006-04-25 | 2007-10-25 | Nice Systems Ltd. | Automatic speech analysis |
CN101192404A (zh) * | 2006-11-28 | 2008-06-04 | 国际商业机器公司 | 用于识别被输入的语音的重音的系统和方法 |
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
CN101447184A (zh) * | 2007-11-28 | 2009-06-03 | 中国科学院声学研究所 | 基于音素混淆的中英文双语语音识别方法 |
US20090248419A1 (en) * | 2008-03-31 | 2009-10-01 | General Motors Corporation | Speech recognition adjustment based on manual interaction |
CN101650943A (zh) * | 2008-12-19 | 2010-02-17 | 中国科学院声学研究所 | 一种非母语语音识别系统及方法 |
CN101751919A (zh) * | 2008-12-03 | 2010-06-23 | 中国科学院自动化研究所 | 一种汉语口语重音自动检测方法 |
CN102117614A (zh) * | 2010-01-05 | 2011-07-06 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
US20120323576A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Automated adverse drug event alerts |
US20130191126A1 (en) * | 2012-01-20 | 2013-07-25 | Microsoft Corporation | Subword-Based Multi-Level Pronunciation Adaptation for Recognizing Accented Speech |
JP2013246224A (ja) * | 2012-05-24 | 2013-12-09 | Nippon Telegr & Teleph Corp <Ntt> | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム |
CN103699530A (zh) * | 2012-09-27 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 根据语音输入信息在目标应用中输入文本的方法与设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2907728B2 (ja) * | 1994-08-10 | 1999-06-21 | 富士通テン株式会社 | 音声処理装置 |
JP4296714B2 (ja) * | 2000-10-11 | 2009-07-15 | ソニー株式会社 | ロボット制御装置およびロボット制御方法、記録媒体、並びにプログラム |
US6785647B2 (en) * | 2001-04-20 | 2004-08-31 | William R. Hutchison | Speech recognition system with network accessible speech processing resources |
US7668718B2 (en) * | 2001-07-17 | 2010-02-23 | Custom Speech Usa, Inc. | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile |
US7103542B2 (en) * | 2001-12-14 | 2006-09-05 | Ben Franklin Patent Holding Llc | Automatically improving a voice recognition system |
JP2004271895A (ja) * | 2003-03-07 | 2004-09-30 | Nec Corp | 複数言語音声認識システムおよび発音学習システム |
US7412387B2 (en) * | 2005-01-18 | 2008-08-12 | International Business Machines Corporation | Automatic improvement of spoken language |
US7860722B1 (en) * | 2006-01-18 | 2010-12-28 | Securus Technologies, Inc. | System and method for keyword detection in a controlled-environment facility using a hybrid application |
JP2009251388A (ja) * | 2008-04-08 | 2009-10-29 | Denso Corp | 母国語発話装置 |
JP2011033874A (ja) * | 2009-08-03 | 2011-02-17 | Alpine Electronics Inc | 多言語音声認識装置及び多言語音声認識辞書作成方法 |
US8630860B1 (en) * | 2011-03-03 | 2014-01-14 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
US9009049B2 (en) * | 2012-06-06 | 2015-04-14 | Spansion Llc | Recognition of speech with different accents |
US9966064B2 (en) * | 2012-07-18 | 2018-05-08 | International Business Machines Corporation | Dialect-specific acoustic language modeling and speech recognition |
WO2016014970A1 (en) * | 2014-07-24 | 2016-01-28 | Harman International Industries, Incorporated | Text rule based multi-accent speech recognition with single acoustic model and automatic accent detection |
-
2015
- 2015-07-24 WO PCT/US2015/042046 patent/WO2016014970A1/en active Application Filing
- 2015-07-24 EP EP15824083.8A patent/EP3172729B1/en active Active
- 2015-07-24 CA CA2952836A patent/CA2952836A1/en not_active Abandoned
- 2015-07-24 CN CN201580040890.1A patent/CN106663422B/zh active Active
- 2015-07-24 US US15/327,002 patent/US10290300B2/en active Active
- 2015-07-24 JP JP2017503577A patent/JP6585154B2/ja active Active
- 2015-07-24 KR KR1020177001632A patent/KR102388992B1/ko active IP Right Grant
Patent Citations (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5911129A (en) * | 1996-12-13 | 1999-06-08 | Intel Corporation | Audio font used for capture and rendering |
US20080147404A1 (en) * | 2000-05-15 | 2008-06-19 | Nusuara Technologies Sdn Bhd | System and methods for accent classification and adaptation |
US20040073425A1 (en) * | 2002-10-11 | 2004-04-15 | Das Sharmistha Sarkar | Arrangement for real-time automatic recognition of accented speech |
US20060020463A1 (en) * | 2004-07-22 | 2006-01-26 | International Business Machines Corporation | Method and system for identifying and correcting accent-induced speech recognition difficulties |
US20070094022A1 (en) * | 2005-10-20 | 2007-04-26 | Hahn Koo | Method and device for recognizing human intent |
US20070250318A1 (en) * | 2006-04-25 | 2007-10-25 | Nice Systems Ltd. | Automatic speech analysis |
CN101192404A (zh) * | 2006-11-28 | 2008-06-04 | 国际商业机器公司 | 用于识别被输入的语音的重音的系统和方法 |
CN101447184A (zh) * | 2007-11-28 | 2009-06-03 | 中国科学院声学研究所 | 基于音素混淆的中英文双语语音识别方法 |
US20090248419A1 (en) * | 2008-03-31 | 2009-10-01 | General Motors Corporation | Speech recognition adjustment based on manual interaction |
CN101751919A (zh) * | 2008-12-03 | 2010-06-23 | 中国科学院自动化研究所 | 一种汉语口语重音自动检测方法 |
CN101650943A (zh) * | 2008-12-19 | 2010-02-17 | 中国科学院声学研究所 | 一种非母语语音识别系统及方法 |
CN102117614A (zh) * | 2010-01-05 | 2011-07-06 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
US20120323576A1 (en) * | 2011-06-17 | 2012-12-20 | Microsoft Corporation | Automated adverse drug event alerts |
US20130191126A1 (en) * | 2012-01-20 | 2013-07-25 | Microsoft Corporation | Subword-Based Multi-Level Pronunciation Adaptation for Recognizing Accented Speech |
JP2013246224A (ja) * | 2012-05-24 | 2013-12-09 | Nippon Telegr & Teleph Corp <Ntt> | アクセント句境界推定装置、アクセント句境界推定方法及びプログラム |
CN103699530A (zh) * | 2012-09-27 | 2014-04-02 | 百度在线网络技术(北京)有限公司 | 根据语音输入信息在目标应用中输入文本的方法与设备 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107958666A (zh) * | 2017-05-11 | 2018-04-24 | 小蚁科技(香港)有限公司 | 用于口音不变语音识别的方法 |
CN107481737A (zh) * | 2017-08-28 | 2017-12-15 | 广东小天才科技有限公司 | 一种语音监控的方法、装置及终端设备 |
CN112204655A (zh) * | 2018-05-22 | 2021-01-08 | 三星电子株式会社 | 用于通过使用应用输出对语音输入的响应的电子装置及其操作方法 |
WO2020014890A1 (zh) * | 2018-07-18 | 2020-01-23 | 深圳魔耳智能声学科技有限公司 | 基于口音的语音识别处理方法、电子设备和存储介质 |
CN109817208A (zh) * | 2019-01-15 | 2019-05-28 | 上海交通大学 | 一种适合各地方言的驾驶员语音智能交互设备及方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2017521724A (ja) | 2017-08-03 |
EP3172729A4 (en) | 2018-04-11 |
US20170169814A1 (en) | 2017-06-15 |
EP3172729A1 (en) | 2017-05-31 |
US10290300B2 (en) | 2019-05-14 |
EP3172729B1 (en) | 2022-04-20 |
CN106663422B (zh) | 2021-03-30 |
KR20170035905A (ko) | 2017-03-31 |
JP6585154B2 (ja) | 2019-10-02 |
KR102388992B1 (ko) | 2022-04-21 |
CA2952836A1 (en) | 2016-01-28 |
WO2016014970A1 (en) | 2016-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106663422A (zh) | 利用单一声学模型和自动口音检测实现的基于文本规则的多口音言语识别 | |
US10380992B2 (en) | Natural language generation based on user speech style | |
US20180350366A1 (en) | Situation-based conversation initiating apparatus, system, vehicle and method | |
CN103810995B (zh) | 用于语音系统的调节方法和系统 | |
JP6543460B2 (ja) | 音声認識問い合わせ応答システム | |
CN106816149A (zh) | 车辆自动语音识别系统的优先化内容加载 | |
CN103811002B (zh) | 用于语音系统的调节方法和系统 | |
CN102097096B (zh) | 在语音识别后处理过程中使用音调来改进识别精度 | |
EP2045140A1 (en) | Adjustment of vehicular elements by speech control | |
CN102693725A (zh) | 依赖于文本信息语境的语音识别 | |
CN103991419A (zh) | 用于选择驾驶者偏好的方法和系统 | |
CN107819929A (zh) | 优选表情符号的识别和生成 | |
US20190122661A1 (en) | System and method to detect cues in conversational speech | |
CN109671424B (zh) | 车辆特征的响应激活 | |
US9530414B2 (en) | Speech recognition using a database and dynamic gate commands | |
CN103151037A (zh) | 校正难以理解的合成语音 | |
CN110348002A (zh) | 实现语音请求的系统和方法 | |
CN109916423A (zh) | 智能导航设备及其路线规划方法、及无人驾驶车辆 | |
CN107818788A (zh) | 车辆上的远程语音识别 | |
US20180358013A1 (en) | Apparatus for selecting at least one task based on voice command, vehicle including the same, and method thereof | |
JP6295884B2 (ja) | 情報提案システム | |
US11928390B2 (en) | Systems and methods for providing a personalized virtual personal assistant | |
US20160267901A1 (en) | User-modified speech output in a vehicle | |
CN118136003A (zh) | 基于个性化语音唤醒的车辆人机交互方法、装置、电子设备和存储介质 | |
CN110430484A (zh) | 通过远程信息处理单元选择和操作移动装置的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |