CN101281745A - 一种车载语音交互系统 - Google Patents

一种车载语音交互系统 Download PDF

Info

Publication number
CN101281745A
CN101281745A CNA2008100673561A CN200810067356A CN101281745A CN 101281745 A CN101281745 A CN 101281745A CN A2008100673561 A CNA2008100673561 A CN A2008100673561A CN 200810067356 A CN200810067356 A CN 200810067356A CN 101281745 A CN101281745 A CN 101281745A
Authority
CN
China
Prior art keywords
module
voice
speech
vehicle
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100673561A
Other languages
English (en)
Other versions
CN101281745B (zh
Inventor
刘轶
杨永胜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER
SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd
Original Assignee
SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER
SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER, SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd filed Critical SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER
Priority to CN2008100673561A priority Critical patent/CN101281745B/zh
Publication of CN101281745A publication Critical patent/CN101281745A/zh
Priority to PCT/CN2009/071469 priority patent/WO2009140884A1/zh
Application granted granted Critical
Publication of CN101281745B publication Critical patent/CN101281745B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Automation & Control Theory (AREA)
  • General Physics & Mathematics (AREA)
  • Navigation (AREA)

Abstract

本发明公开了一种车载语音交互系统,包括语音采集模块、语音识别核心模块和语音反馈模块,所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法模块,以及路径搜索模块,所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表;所述上下文不相关文法模块,用于构建待识别的自然连续语音的文法和规则结构;所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。本发明实现用自然语音(包括命令短语、连接词和具有一定规则的连续语音)对车载信息系统的控制和操作,提高了驾车的安全性能并实现了车载信息系统中与汽车安全行驶和动力性能无关的智能人机交互。

Description

一种车载语音交互系统
【技术领域】
本发明涉及语音识别技术领域,尤其涉及一种车载语音交互系统。
【背景技术】
随着汽车电子技术的飞速发展,车载信息娱乐和信息通讯系统正逐渐成为汽车厂商追捧的热点。车载信息娱乐和信息通讯系统是为了给汽车提供更多的娱乐、通信及移动办公功能,它和汽车本身的安全、动力性能并无直接关系,包括车载通讯系统、电子导航系统(GPS,Global Positioning System)、智能交通系统、车载网络、汽车音响系统(车载MP3)、车载电视娱乐系统(车载DVD)等等。
语音交互技术在这些系统扮演着十分重要的角色,语音交互技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令,实现人与机器的交流。在车载信息娱乐和信息通讯系统中,采用语音交互技术利用语音代替手操作具有安全、方便等优点。
1、车载信息娱乐和信息通讯系统的语音控制和交互:对于汽车环境中的移动终端用户,基于开车时安全性和便捷性的要求,语音控制取代手操作无疑最佳的解决方案。语音控制发出各种质量开启、修改或关闭信息娱乐和信息通讯系统,语音控制检索信息娱乐和信息通讯系统的多媒体内容,如歌曲、视频、电视节目、导航指令、导航地名等等。
2、车载信息娱乐和信息通讯系统中的语音“免提”通讯:通过语音命令接通手机或其他车载通信设备,建立通信链接后,采用免提通话方式,整个过程避免手的复杂操作,同时不需要眼睛离开路面,无疑是最为安全、快捷、方便的车载通信方式。
3、GPS导航系统的自然语音输入地名查询、人机交互等功能:随着城市道路地方和人员流动性不断增加,GPS导航技术成为驾车人士的必备之物。特别是驾车到陌生的大中城市,GPS导航更成为到达目的地的必备依赖设备。采用语音输入地名,并且分层人机交互,最终确定目的地将极大的方便GPS的使用,同时可以达到在开车过程中随时确定和修改目的地。
但是,由于每个用户的口音各不相同,并且实际车载环境较为复杂,要提高车载语音交互的识别率和识别内容,提高其在实际车载环境下工作的性能,需要提高车载系统的运算能力。另一方面,基于汽车电子中微处理芯片的硬件资源是有限的,其芯片的运算能力非常有限,一般只有100MIPS,且不支持浮点运算;另外芯片的存储空间也很小,一般为128KByte的ROM和32KByte的RAM。这就导致目前的车载声控产品的功能单一,语音识别率低,识别内容少而简单,在实际车载环境工作的性能差。
【发明内容】
本发明的目的是提供一种车载语音交互系统,以达到在复杂真实的车载环境下,在硬件资源有限的嵌入式平台上实现高性能语音交互引擎,以智能人机交互为核心,实现用自然语音方便地控制与汽车安全行驶无关的车载信息系统模块。
为达到上述目的,本发明提出以下的技术方案:
一种车载语音交互系统,包括语音采集模块,用于采集模拟语音信号,并转换成数字语音信号;语音识别核心模块,用于对输入的数字语音信号进行概率计算和搜索匹配,得到语音识别结果;语音反馈模块,用于将所述语音识别结果以文本或语音的方式与用户交互;
所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法CFG模块,以及路径搜索模块,所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表;所述上下文不相关文法CFG模块,用于构建待识别的自然连续语音的文法和规则结构;所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。
其中,在所述声学模型和发音字典模块中:根据统计算法建立一套对应于口音等变化特点的映射对应表;上下文相关和上下文不相关的单元混合使用,并采用有效的自适应和平滑算法;对声学模型建立和发音字典生成采用离线生成的方式,对传统的声学单元进行分类处理;
上下文不相关文法CFG模块,用于构建待识别的自然连续语音的文法和规则结构;所述CFG模块包括规则单元和子规则单元,通过使用正则表达式语言来描述自然语言;
在所述路径搜索模块中:采用概率动态剪枝的方法进行路径搜索识别,对设计路径动态扩展算法和/或多高斯分布近似简化成单高斯计算进行近似简化;根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧以及高斯分布有选择计算的算法。
优选地,所述语音核心模块还包括:
噪声模型模块,通过相关的录音设备,在实际的车载环境下采集数据样本,对所述数据样本进行处理和参数提取,采用概率统计模型的方法构建车载环境噪声模型。
优选地,所述语音核心模块还包括口音处理模块,从训练数据和样本中,利用统计方法得出适应口音处理的模型,并结合声学模型进行重建:
基于口音和发音特点的变化,建立辅助决策树声学聚类模型,通过辅助树中参数信息描述实际语音中各种变化的特征,再通过声学模型重建,将该特征通过高斯分布和声学参数引入;
基于统计的数据驱动方法找出训练数据中的发音变异映射,并利用置信度测量对其过滤;
对语音层发音变异混淆度度量,用非对称距离度量准则对声学层发音变异混淆度度量,根据声学层和语音层混淆度高低的分类信息,在语音识别系统中建立选择性多发音字典和采用声学模型重建的发法处理多口音和混合口音中的发音变异。
优选地,还包括:
语音激活检测模块,用于判断是否为有效的语音或音频输入信号,并判断是否启动语音识别引擎。
优选地,还包括:
语音信号定点处理模块,用于对语音信号进行定点处理,大幅度降低计算消耗;
语音参数提取及降维处理模块,用于对语音参数在保证充分的语音信息的情况下,采用LDA方法对多维参数进行压缩,同时结合汉语的特点,维持声调维的信息。
优选地,还包括:实时语音端点检测模块,用于对语音、噪声、非正常语音等输入响应的动态判断;对语音信号的进行非平均分帧处理和分帧计算;动态阈值设定和调整。
优选地,还包括:抗噪声模块,与所述噪声模型模块结合,采用语音增强算法,在时域和频域对语音信号进行预处理,利用自适应算法和归一化算法对语音识别的声学模型进行噪声处理,同时采用区分性训练和混合训练相结合的方法进行抗噪声处理。
优选地,还包括:拒识别模块,用于对相关的语音控制命令或定义的词汇/短语进行识别,对无关的语音进行拒识别,所述无关语音包括音乐声、人群谈话声和环境噪声;声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比较;语音输入分帧处理技术,对每一帧语音输入进行识别/拒识别判断,并累积概率。
优选地,还包括:识别结果处理模块,用于按照需要对识别结果进行处理,结合自然语言理解技术,对不同用户不同的语音输入方法进行自动理解,自然归类及模糊匹配技术。
从以上技术方案可以看出,在本发明技术方案中,面对芯片有限的计算能力和存储空间,在嵌入式语音识别系统中,简化语音参数的维数并做压缩处理,采用动态帧间重叠方式对语音输入进行分帧处理;对声学模型建立和发音字典生成采用离线生成的方式,同时,对传统的声学单元进行分类处理,达到识别率和识别速度以及存储单元大小的一个平衡;对最关键的路径搜索识别方法采用概率动态剪枝的方法,同时对计算量最大的观察概率计算部分进行近似简化,包括设计路径动态扩展算法,多高斯分布近似简化成单高斯计算等。同时,根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧以及高斯分布有选择计算的算法,达到算法和芯片硬件条件相结合的平衡。
同时,高性能语音交互系统包括了独特的抗噪声模块和抗口音变化模块,可以在实际车载环境下,不同说话人特点和口音的情况下,仍能进行自然语音交互。
语音交互系统采用CFG文法结构的语音识别器,可以接受短语、命令、连接词、具有一定文法结构的连续语音,真正实现自然人机交互过程。在本发明的使用中,用户可以很方面的只使用语音交互系统模块完成对车载信息系统相关模块的控制和操作,不需要眼和手的参与。在汽车电子附加功能上,让用户充分感觉到以语音交互系统为核心构建的车载信息系统具有高智能、方便、安全、简单的现代高科技产品。用户可以在驾车的任何时间,在任何路况和环境的情况下,在无需眼和手操作的安全模式下,实现对车载信息系统和与安全驾驶无关的模块的高智能控制。
通过本发明摆脱了以往车载声控产品的功能单一,识别率低,识别内容少而简单,在实际车载环境工作性能差等致命缺点,实现了短语命令、连接词和自然语音输入的人机交互并具有初步的自然语言理解的能力,具有很好的抗各种车载噪声和不同用户口音的能力,可实时分层识别达到10000词字典大小的能力等。通过本发明完全摆脱了驾车时候操作控制汽车电子附件的危险性和避免了驾车时分心造成的事故危险性,降低交通事故。
【附图说明】
图1为本发明系统的基本结构框图;
图2为本发明系统优选实施例的结构框图。
【具体实施方式】
下面结合具体的实施例对本发明的技术方案进行详细描述。本发明系统主要包括离线部分和在线部分两部分,离线部分各个模块的主要功能是提供语音交互系统工作所必需的资源,保证语音交互系统在实际车载环境情况和不同的用户使用过程中能够正常工作。在线模块主要完成语音处理和识别。语音识别的结果根据不同的需要可以反馈用户或作为输出的标志控制相关的车载信息系统模块。
本发明提供一种车载语音交互系统,如图1所示,一种车载语音交互系统,包括语音采集模块,用于采集模拟语音信号,并转换成数字语音信号;语音识别核心模块,用于对输入的数字语音信号进行概率计算和搜索匹配,得到语音识别结果;语音反馈模块,用于将所述语音识别结果以文本或语音的方式与用户交互;
所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法(Context-Free-Grammar,CFG)模块,以及路径搜索模块,所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表;所述上下文不相关文法CFG模块,用于构建待识别的自然连续语音的文法和规则结构;所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。
在所述声学模型和发音字典模块中:根据统计算法建立一套对应于口音等变化特点的映射对应表;上下文相关和上下文不相关的单元混合使用,并采用有效的自适应和平滑算法以降低数据稀疏的问题;对声学模型建立和发音字典生成采用离线生成的方式,对传统的声学单元进行分类处理;
所述上下文不相关文法模块用于构建待识别的自然连续语音的文法和规则结构;所述CFG模块包括规则单元和子规则单元,通过使用正则表达式语言来描述自然语言;
在所述路径搜索模块中:采用概率动态剪枝的方法进行路径搜索识别,对设计路径动态扩展算法和/或多高斯分布近似简化成单高斯计算进行近似简化;根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧以及高斯分布有选择计算的算法。
对于声学模型模块,声学模型是具有鲁棒性的声学模型。多高斯分布的Triphone语音声学模型的调整和重建。目前最先进的基于Triphone模型和连续隐马尔可夫模型的语音识别方法,不能全部覆盖实际用户不同发音特点和口音等造成的复杂发音变化。特别是在进行数据聚类时,一方面造成Triphone模型中大量的高斯分布的效率低下甚至成为冗余参数,另外一方面,相当多的混合发音模式无法用相关的参数进行表示,声学模型的分辨率大幅度下降,从而引起识别器无法给出正确的概率分,造成识别错误。为解决此问题,建立鲁棒性的声学模型采用的方法是:
1、通过统计算法和计算语言学知识,建立一套对应于口音等变化特点的判断规则。
2、上下文相关和上下文不相关的单元混合使用,并采用有效的自适应和平滑算法以降低数据稀疏的问题。
对于发音字典模块,发音字典采用基于决策树结构的多发音概率字典。基于嵌入硬件条件,采用离线生成的方式,同时,对传统的声学单元进行分类处理,达到识别率和识别速度以及存储单元大小的一个平衡。
对于所述语音核心模块:上下文不相关文法(CFG)模块,用于构建待识别的自然连续语音的文法和规则结构;所述CFG模块包括规则单元和子规则单元,通过使用正则表达式语言来描述自然语言。
对于CFG模块:构建待识别的自然连续语音的文法和规则结构。典型的CFG文法由两部分组成:规则和子规则,一个CFG文法中可以没有子规则,但是必须存在规则的定义。规则可以引用子规划,一个子规则也可以被另外的子规则引用,但是不能出现递归引用的情况。这规则和子规则体中,通过使用类似“正则表达式”语言,描述自然语言。在实际应用中经常涉及语言的语义描述,例如:“香格里拉饭店”和“香格里拉大酒店”是一个概念,一个语音描述“一百二十六”,在计算机中,这个字符串本身不能进行数据的运算,包括大小比较等操作。通过语义操作可以把它转变为数字“126”,就可以进行相应的操作。为了方便这方面的处理,在CFG文法中包含了语义操作的功能。CFG文法构建的详细样例如下所示:
例一:
.Rule(_Sil Name:$V1_Sil{″$V1″:person})
Name([总经理 {王经文} 王经文 王总 {王经文} 刘闪 张前]))
子规则变量化处理也可以出现在子规则中,通过层次性的转递,最后返回到规则中。另外,在规则中,也可以采用下面的方法处理同一语义不同语言描述的问题,例如,在上面的例子中,“总经理”和“王总”都表示一个人“王经文”,可以在变化说法的后面直接给出代表的人名“{王经文}”。
例二:
Figure A20081006735600121
语音交互系统支持以CFG(context-free-grammar)文法为原型语音识别器,根据设定的CFG文法和模板,支持自然语音输入能力,包括连接词和具有一定文法结构的连续语音。同时采用自然语言理解技术,具有初步理解功能。如理解“南山科技园附近的湘菜馆”的真实用户命令要求(即“附近”的含义)。
语音交互系统还支持单一命令中中英文双语混合的短语和GPS地名识别及人名语音识别功能(如打开CD,Sigma大厦)。中文命令,英文命令和中英文双语混合命令可以同时存在于同一命令集合。
核心算法采用协同设计并与芯片硬件条件相结合的方法
嵌入式语音识别系统核心主要由四大部分组成,参数提取,声学模型建立,发音字典生成和路径搜索识别。在本项目中,语音识别核心算法采用目前世界上最流行最常用的基于隐马尔可夫模型统计算法,基于汽车电子中微处理芯片的有限硬件资源,如CPU运算速度,RAM和ROM的存储单元大小,采用协同设计的方法,对核心组件的四大模块进行移植和优化。由于芯片的运算能力非常有限(如只有100MIPS,PC的CPU为3GHz),芯片的运算能力不到PC的1/30,并且不支持浮点运算等;芯片的存储空间很小(如为128KByte的ROM和32KByte的RAM,PC一般为512M/1G RAM,硬盘空间相当于芯片的ROM,可高达500G)。
面对芯片有限的计算能力和存储空间,在嵌入式语音识别系统中,简化语音参数的维数并做压缩处理,采用动态帧间重叠方式对语音输入进行分帧处理;
对声学模型建立和发音字典生成采用离线生成的方式,同时,对传统的声学单元进行分类处理,达到识别率和识别速度以及存储单元大小的一个平衡;
对最关键的路径搜索识别方法采用概率动态剪枝的方法,同时对计算量最大的观察概率计算部分进行近似简化,包括设计路径动态扩展算法,多高斯分布近似简化成单高斯计算等。
同时,根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧(Frame Dropping)以及高斯分布有选择计算(Gaussian Selection)的算法,达到算法和芯片硬件条件相结合的平衡。
系统软件工程实现坚持效率优先,核心模块通用化的原则
为提高语音识别系统的效率,程序采用模块化设计,并以标准C语言书写为主,汇编语言为辅的原则。对于运算量大并会反复调用的部分,例如语音识别的参数提取模块中的频域特征计算和抽取,路径搜索识别模块中的观察概率的计算,结合芯片硬件的特点,用汇编完成,并给出通用的调用函数接口,集成到标准C程序中。在工程实现中,基于效率优先的准则,对系统的计算进行优化,同时采用存储单元复用技术实现在芯片有限存储空间上保存足够的声学信息,发音信息及其他资源信息。本着效率优先的原则,嵌入式语音识别系统采用先进的实时处理技术(基于硬件条件限制,目前很多嵌入式识别系统只能做到语音输入完后才能开始进行识别)。本系统采用语音信号分帧计算,以及采用动态丢帧(Frame Dropping)以及动态阈值调整进行端点检测的方法,对输入语音进行实时计算,大大提高了识别效率和识别速度。另外,嵌入式语音识别的核心采用模块化的设计思想和通用接口调用技术,实现通用化,以及灵活和可扩展的体系结构。
语音识别核心模块。综合以上不同流程和模块,包括离线生成的各种资源模型,如噪声模型,声学模型,CFG文法,发音字典和口音处理模型等,联合拒识别模块和输入的语音参数,对其进行概率计算,得到语音识别结果。对最关键的路径搜索识别方法采用概率动态剪枝的方法,同时对计算量最大的观察概率计算部分进行近似简化,包括设计路径动态扩展算法,多高斯分布近似简化成单高斯计算等。同时,根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧(Frame Dropping)以及高斯分布有选择计算(GaussianSelection)的算法,达到算法和芯片硬件条件相结合的平衡。
如图2所示,在较优的实施例中,本发明系统的语音识别核心模块还包括噪声模型模块,通过相关的录音设备,在实际的车载环境下采集数据样本,对所述数据样本进行处理和参数提取,采用概率统计模型的方法构建车载环境噪声模型。
对于噪声模型模块,其是适用于车载环境的噪声模型。噪声模型采用统计的方法构建。通过相关的录音设备,在实际的车载环境下采集大量的数据样本,包括各种真实的车载环境和车载信息系统使用环境,如高速公路/市区等不同时速,100公里,80公里,60公里,40公里及以下;不同路况,高速公路路况,市区路况等;车内不同情况,不同背景声音,车内只有发动机及汽车驾驶声音,音乐背景声音,不同人员等;汽车窗户不同状态等,完全封闭,一般及大部分摇下等情况。通过对数据的处理和参数提取,并采用概率统计模型的方法构建车载环境噪声模型,应用于语音识别时的抗噪声处理。
在较优的实施例中,本发明系统的语音识别核心模块还包括口音处理模块,从训练数据和样本中,利用统计方法得出适应口音处理的模型,并结合声学模型进行重建:
基于口音和发音特点的变化,建立辅助决策树声学聚类模型,通过辅助树中参数信息描述实际语音中各种变化的特征,再通过声学模型重建,将该特征通过高斯分布和声学参数引入;
基于统计的数据驱动方法找出训练数据中的发音变异映射,并利用置信度测量对其过滤;
对语音层发音变异混淆度度量,用非对称距离度量准则对声学层发音变异混淆度度量,根据声学层和语音层混淆度高低的分类信息,在语音识别系统中建立选择性多发音字典和采用声学模型重建的发法处理多口音和混合口音中的发音变异。
对于口音处理模块:口音处理采用概率统计方法,即从训练数据和样本中,利用统计方法得出适应口音处理的模型,并结合声学模型进行重建。如基于口音和发音特点的变化,建立辅助决策树声学聚类模型,通过辅助树中参数信息描述实际语音中各种变化的特征,再通过声学模型重建,将该特征通过高斯分布和声学参数引入。基于统计的数据驱动方法找出训练数据中的发音变异映射,并利用置信度测量对其过滤。采用log likelihood ratio test准则对语音层发音变异混淆度度量,用非对称距离度量准则对声学层发音变异混淆度度量。根据声学层和语音层混淆度高低的分类信息,在语音识别系统中建立选择性多发音字典和采用声学模型重建的发法处理多口音和混合口音中的发音变异。
语音交互系统具有特制的口音处理模块。采用单一识别引擎能同时接受带多种口音和普通话输入对带有口音的语音输入自动进行口音自适应,对于混合口音等,识别率无显著降低,不超过5%
离线处理部分的工作流程为:
A、训练声学模型
对收集到的大量语音先进性内容标注,然后提取隐马可夫模型(HMM)参数,为语音和噪声分别建立一个HMM数学统计模型。
B、编译CFG文法
根据CFG文法规则编写好的文法文件,可以经由的CFG文法编译器,生成一个二进制的CFG文法文件,供在线处理模块进行语音识别之用。
                                                              
工作环境:
用户人数:无限;
识别技术:基于隐马尔可夫模型的嵌入式非特定人语音识别;
识别芯片处理能力要求:200MIPS或以上
ROM:2M字节或以上
RAM:1M字节或以上
使用电压:外置电源直流5伏,内置电源3.7伏
功率:不超过600毫瓦
识别速度:1秒内;
识别效果:识别准确率95%以上
使用距离:0.5米到1米
使用环境:安静或带有车内关窗时的噪声环境
以上是离线部分的模块,下面介绍在线部分的模块。
一、语音输入和输出模块:录音模块用于采集人声和外界环境声音的模拟语音信号,并且通过AD转换器转换成数字语音信号,供语音识别引擎进行处理。放音模块用于将各种数字语音信号转换成模拟语音信号,经过放大后输出到喇叭,反馈给用户。实现驾车时,无需用手,通过自然语音控制汽车电子产品,以及通过语音播报,给出电子产品的反馈(如包括短信等)。
二、语音激活检测模块,用于判断是否为有效的语音或音频输入信号,并判断是否启动语音识别引擎。
三、语音信号定点处理模块和语音参数提取及降维处理模块。语音信号定点处理模块用于对语音信号进行定点处理,大幅度降低计算消耗:基于嵌入式平台有限的计算和处理能力,必须对语音信号进行定点处理,大幅度降低计算消耗以达到识别率和识别速度的平衡。
语音参数提取及降维处理模块,用于对语音参数在保证充分的语音信息的情况下,采用LDA方法对多维参数进行压缩,同时结合汉语的特点,维持声调维的信息:语音参数提取及嵌入式资源环境下降维处理。基于嵌入车载硬件条件的限制,对语音参数在保证充分的语音信息的情况下,采用LDA方法对多维参数进行压缩,同时结合汉语的特点,保留声调维的信息不压缩。
四、实时语音端点检测模块,用于对语音、噪声、非正常语音等输入响应的动态判断;对语音信号的进行非平均分帧处理和分帧计算;动态阈值设定和调整。实时语音端点检测和处理技术。动态语音端点检测技术,包括对语音、噪声、非正常语音等输入响应的动态判断;语音信号的非平均分帧处理和分帧计算技术,包括帧间重叠及实时计算技术;动态阈值设定和调整,避免冲击信号的误触发以及无关信号的干扰,提高系统的抗噪性能。
五、抗噪声模块,与所述噪声模型模块结合,针对实际车载噪声的特点,采用语音增强算法,在时域和频域对语音信号进行预处理,利用自适应算法和归一化算法对语音识别的声学模型进行噪声处理,同时采用区分性训练和混合训练相结合的方法进行抗噪声处理。
抗噪声处理。结合离线处理部分完成的车载环境噪声模型,针对实际车载噪声的特点,采用语音增强算法,在时域和频域对语音信号进行预处理,去除噪声利用自适应算法和归一化算法对语音识别的声学模型进行处理,增加声学模型的鲁棒性和抗噪声能力,同时采用区分性训练和混合训练相结合的方法进行抗噪声处理。实际车载环境下(如高速公路/市区等不同时速,100公里,80公里,60公里,40公里及以下;不同路况,高速公路路况,市区路况等;车内不同情况,不同背景声音,车内只有发动机及汽车驾驶声音,音乐背景声音,不同人员等;汽车窗户不同状态等,完全封闭,一般及大部分摇下;),车载环境下高性能的自适应麦克风阵列、自适应回声消除、混响抑制算法以及整合以上算法和语音识别交互系统;车载环境下的自适应回声消除:回声抑制增益达到20dB。
六、拒识别模块,用于对相关的语音控制命令或定义的词汇/短语进行识别,对无关的语音进行拒识别,所述无关语音包括音乐声、人群谈话声和环境噪声;声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比较;语音输入分帧处理技术,对每一帧语音输入进行识别/拒识别判断,并累积概率。
语音交互系统具有智能拒绝功能。对不相关的语音输入,噪声输入,无关的命令等能够拒绝,不进行识别或提示用户输入正确语音。正确拒绝率超过90%;拒识别模块。只对相关的语音控制命令或定义的词汇/短语进行识别,对无关的语音进行拒识别。无关语音包括各种垃圾声音(如音乐声,人群谈话声,环境噪声)等;声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比较;语音输入分帧处理技术,对每一帧语音输入进行识别/拒识别判断,并累积概率。
七、识别结果处理模块,用于按照需要对识别结果进行处理,结合自然语言理解技术,对不同用户不同的语音输入方法进行自动理解,自然归类及模糊匹配技术。识别结果处理模块。按照需要,对识别结果进行不同的处理。同时结合自然语言理解技术,对不同用户不同的语音输入方法(即对每一个目标命令或连续语音),进行自动理解,并自然归类。如“南山医院”,“南山区人民医院”,“南山区医院”“深圳市南山区人民医院”,“南山的医院”等是具有同一概念的地名。
八、接口模块:嵌入式语音交互系统的模块化设计以及与其他模块的有机结合。系统的模块化设计。不同模块间的通讯和互相调用方法;接口连接,中断控制,多外围接口设计和集成,控制单元和存储单元的协同工作。
在线处理部分的工作流程为:
每接收到一帧语音数据之后,就启动语音处理模块,先进行抗噪声处理,利用反相波抵消原理进行降噪处理,然后将降噪后的语音送入参数提取模块,计算得到39维语音参数,再通过LDA降维处理,将维数降低至16-20维。根据离线训练的声学模型和噪声模型的参数以及指定的CFG文法,语音识别的核心模块对16-20维的语音参数进行概率运算,得到一个候选结果列表。拒识别模块对这个候选结果列表进行评分,最后得到一个按分数从高到低排序的候选结果列表,如果拒识别模块判定该条语音为噪音或者非法命令,则返回语音被拒绝的结果,否则,语音识别引擎从其中选出分数最高的若干个结果,反馈给系统接口模块,系统接口模块使用文字或语音提示的方式将结果呈现给用户进行确认。
系统对用户确认的结果,通过硬件接口控制各种GPS、蓝牙、音视频播放模块、移动电话、移动电视等外部设备。
模块化设计与实现
软硬件部分全部采用模块化设计,硬件部分包括:
CPU控制和存储模块:CPU处理器是嵌入式系统的核心器件,用于运行控制程序和语音识别引擎。系统上电后,CPU处理器就从存储模块中读取程序指令,根据特定的流程进行运行。
录音放音模块:录音模块用于采集人声和外界环境声音的模拟语音信号,并且通过AD转换器转换成数字语音信号,供语音识别引擎进行处理。放音模块用于将各种数字语音信号转换成模拟语音信号,经过放大后输出到喇叭,反馈给用户。实现驾车时,无需用手,通过自然语音控制汽车电子产品,以及通过语音播报,给出电子产品的反馈(如包括短信等)。
通讯模块:通讯模块用于嵌入式系统和其他外部电子设备进行通讯,使多个电子设备连接成一个网络,以蓝牙模块微核心,协同工作。
外设接口模块:外设接口模块,用于控制各种外部设备,比如马达,LED发光管等,使嵌入式系统具备灵活的控制功能。
嵌入式语音识别引擎:嵌入式语音识别引擎是软件部分的核心模块,它对录音模块提供的数字语音信号进行声学特征提取,通过语音识别算法与声学模型进行比较运算,选取最优的识别结果。嵌入式语音识别引擎针对不同的CPU处理器进行算法优化,能够实时运行在各种低端低成本的芯片上。
控制程序:控制程序用于控制嵌入式系统的任务调度和命令控制。
硬件设备驱动程序:硬件设备驱动程序为各个硬件模块提供统一的驱动支持,降低开发维护成本。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1、一种车载语音交互系统,包括语音采集模块,用于采集模拟语音信号,并转换成数字语音信号;语音识别核心模块,用于对输入的数字语音信号进行概率计算和搜索匹配,得到语音识别结果;语音反馈模块,用于将所述语音识别结果以文本或语音的方式与用户交互,其特征在于:
所述语音识别核心模块包括声学模型和发音字典模块、上下文不相关文法CFG模块,以及路径搜索模块,所述声学模型和发音字典模块用于根据统计算法建立一套对应于口音等变化特点的映射对应表;所述CFG模块用于构建待识别的自然连续语音的文法和规则结构;所述路径搜索模块用于对计算量最大的观察概率计算部分进行近似简化。
2、根据权利要求1所述的一种车载语音交互系统,其特征在于:
在所述声学模型和发音字典模块中:根据统计算法建立一套对应于口音等变化特点的映射对应表;上下文相关和上下文不相关的单元混合使用,并采用有效的自适应和平滑算法;对声学模型建立和发音字典生成采用离线生成的方式,对传统的声学单元进行分类处理;
上下文不相关文法CFG模块,用于构建待识别的自然连续语音的文法和规则结构;所述CFG模块包括规则单元和子规则单元,通过使用正则表达式语言来描述自然语言;
在所述路径搜索模块中:采用概率动态剪枝的方法进行路径搜索识别,对设计路径动态扩展算法和/或多高斯分布近似简化成单高斯计算进行近似简化;根据芯片硬件条件和计算能力,在搜索识别过程中采用改进的动态丢帧以及高斯分布有选择计算的算法。
3、根据权利要求2所述的一种车载语音交互系统,其特征在于,所述语音核心模块还包括:
噪声模型模块,通过相关的录音设备,在实际的车载环境下采集数据样本,对所述数据样本进行处理和参数提取,采用概率统计模型的方法构建车载环境噪声模型。
4、根据权利要求2所述的一种车载语音交互系统,其特征在于,所述语音核心模块还包括口音处理模块,从训练数据和样本中,利用统计方法得出适应口音处理的模型,并结合声学模型进行重建:
基于口音和发音特点的变化,建立辅助决策树声学聚类模型,通过辅助树中参数信息描述实际语音中各种变化的特征,再通过声学模型重建,将该特征通过高斯分布和声学参数引入;
基于统计的数据驱动方法找出训练数据中的发音变异映射,并利用置信度测量对其过滤;
对语音层发音变异混淆度度量,用非对称距离度量准则对声学层发音变异混淆度度量,根据声学层和语音层混淆度高低的分类信息,在语音识别系统中建立选择性多发音字典和采用声学模型重建的发法处理多口音和混合口音中的发音变异。
5、根据权利要求1~4中任一项所述的一种车载语音交互系统,其特征在于,还包括:
语音激活检测模块,用于判断是否为有效的语音或音频输入信号,并判断是否启动语音识别引擎。
6、根据权利要求1~4中任一项所述的一种车载语音交互系统,其特征在于,还包括:
语音信号定点处理模块,用于对语音信号进行定点处理,大幅度降低计算消耗;
语音参数提取及降维处理模块,用于对语音参数在保证充分的语音信息的情况下,采用LDA方法对多维参数进行压缩,同时结合汉语的特点,维持声调维的信息。
7、根据权利要求1~4中任一项所述的一种车载语音交互系统,其特征在于,还包括:
实时语音端点检测模块,用于对语音、噪声、非正常语音等输入响应的动态判断;对语音信号的进行非平均分帧处理和分帧计算;动态阈值设定和调整。
8、根据权利要求7中任一项所述的一种车载语音交互系统,其特征在于,还包括:
抗噪声模块,与所述噪声模型模块结合,采用语音增强算法,在时域和频域对语音信号进行预处理,利用自适应算法和归一化算法对语音识别的声学模型进行噪声处理,同时采用区分性训练和混合训练相结合的方法进行抗噪声处理。
9、根据权利要求8中任一项所述的一种车载语音交互系统,其特征在于,还包括:
拒识别模块,用于对相关的语音控制命令或定义的词汇/短语进行识别,对无关的语音进行拒识别,所述无关语音包括音乐声、人群谈话声和环境噪声;声学模型和垃圾模型的建立、训练、区分以及在识别过程中概率比较;语音输入分帧处理技术,对每一帧语音输入进行识别/拒识别判断,并累积概率。
10、根据权利要求9中任一项所述的一种车载语音交互系统,其特征在于,还包括:
识别结果处理模块,用于按照需要对识别结果进行处理,结合自然语言理解技术,对不同用户不同的语音输入方法进行自动理解,自然归类及模糊匹配技术。
CN2008100673561A 2008-05-23 2008-05-23 一种车载语音交互系统 Expired - Fee Related CN101281745B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2008100673561A CN101281745B (zh) 2008-05-23 2008-05-23 一种车载语音交互系统
PCT/CN2009/071469 WO2009140884A1 (zh) 2008-05-23 2009-04-26 一种车载语音交互系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100673561A CN101281745B (zh) 2008-05-23 2008-05-23 一种车载语音交互系统

Publications (2)

Publication Number Publication Date
CN101281745A true CN101281745A (zh) 2008-10-08
CN101281745B CN101281745B (zh) 2011-08-10

Family

ID=40014173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100673561A Expired - Fee Related CN101281745B (zh) 2008-05-23 2008-05-23 一种车载语音交互系统

Country Status (2)

Country Link
CN (1) CN101281745B (zh)
WO (1) WO2009140884A1 (zh)

Cited By (97)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009140884A1 (zh) * 2008-05-23 2009-11-26 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN101477799B (zh) * 2009-01-19 2011-02-09 北京农业信息技术研究中心 一种使用语音对农业设备进行控制的系统及控制方法
CN102339604A (zh) * 2010-07-16 2012-02-01 西安欧博科工贸有限公司 语音智能交互系统
CN102867510A (zh) * 2011-07-07 2013-01-09 株式会社电装 语音识别系统
CN103021413A (zh) * 2013-01-07 2013-04-03 北京播思软件技术有限公司 语音控制方法及装置
CN103187051A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车载互动装置
CN103247316A (zh) * 2012-02-13 2013-08-14 深圳市北科瑞声科技有限公司 一种音频检索中构建索引的方法及系统
CN103287362A (zh) * 2013-06-25 2013-09-11 安科智慧城市技术(中国)有限公司 一种车载语音控制系统、方法和电动汽车
CN103369398A (zh) * 2013-07-01 2013-10-23 安徽广电信息网络股份有限公司 一种基于电视epg信息的语音搜索方法和系统
CN103400579A (zh) * 2013-08-04 2013-11-20 徐华 一种语音识别系统和构建方法
CN103915092A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN104123936A (zh) * 2013-04-25 2014-10-29 伊莱比特汽车公司 对话系统自动训练方法、对话系统及用于车辆的控制装置
CN104144192A (zh) * 2013-05-10 2014-11-12 北京四维图新科技股份有限公司 语音交互方法、装置及车载通讯终端
CN104679472A (zh) * 2015-02-13 2015-06-03 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
CN104835494A (zh) * 2014-02-06 2015-08-12 三星电子株式会社 显示装置和用于使用该显示装置控制电子装置的方法
CN105320726A (zh) * 2014-05-30 2016-02-10 苹果公司 降低对手动开始/结束点和触发短语的需求
CN105529026A (zh) * 2014-10-17 2016-04-27 现代自动车株式会社 语音识别装置和语音识别方法
CN105575386A (zh) * 2015-12-18 2016-05-11 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN106531155A (zh) * 2015-09-10 2017-03-22 三星电子株式会社 生成声学模型的设备和方法和用于语音识别的设备和方法
CN106595686A (zh) * 2016-12-06 2017-04-26 上海博泰悦臻电子设备制造有限公司 一种车载导航系统、方法、车载设备及车辆
CN106663446A (zh) * 2014-07-02 2017-05-10 微软技术许可有限责任公司 知晓用户环境的声学降噪
CN106653006A (zh) * 2016-11-17 2017-05-10 百度在线网络技术(北京)有限公司 基于语音交互的搜索方法和装置
CN106710591A (zh) * 2016-12-13 2017-05-24 云南电网有限责任公司电力科学研究院 用于电力终端的语音客服系统
CN106971721A (zh) * 2017-03-29 2017-07-21 沃航(武汉)科技有限公司 一种基于嵌入式移动设备的地方口音语音识别系统
WO2017173721A1 (zh) * 2016-04-06 2017-10-12 中兴通讯股份有限公司 一种语音识别方法和装置
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
CN107644643A (zh) * 2017-09-27 2018-01-30 安徽硕威智能科技有限公司 一种语音交互系统及方法
WO2018068649A1 (zh) * 2016-10-11 2018-04-19 芋头科技(杭州)有限公司 一种语音激活检测方法及装置
CN107958666A (zh) * 2017-05-11 2018-04-24 小蚁科技(香港)有限公司 用于口音不变语音识别的方法
CN108022593A (zh) * 2018-01-16 2018-05-11 成都福兰特电子技术股份有限公司 一种高灵敏度语音识别系统及其控制方法
CN108242234A (zh) * 2018-01-10 2018-07-03 腾讯科技(深圳)有限公司 语音识别模型生成方法及其设备、存储介质、电子设备
CN108271078A (zh) * 2018-03-07 2018-07-10 康佳集团股份有限公司 通过手势识别的语音唤醒方法、智能电视及存储介质
CN108346427A (zh) * 2018-02-05 2018-07-31 广东小天才科技有限公司 一种语音识别方法、装置、设备及存储介质
CN108382155A (zh) * 2018-01-25 2018-08-10 浙江吉利汽车研究院有限公司 一种带提醒功能的空调语音控制装置
CN108416096A (zh) * 2018-02-01 2018-08-17 北京百度网讯科技有限公司 基于人工智能的远场语音数据信噪比估计方法及装置
CN108665892A (zh) * 2018-03-21 2018-10-16 肇庆益晟商贸有限公司 一种新能源汽车的语音控制装置
CN108766426A (zh) * 2018-05-31 2018-11-06 中国舰船研究设计中心 一种舰艇用智能语音交互指挥系统
CN109101655A (zh) * 2018-08-30 2018-12-28 山东高速股份有限公司 一种基于自然语言处理的高速信息语音自助查询系统及方法
CN109830234A (zh) * 2019-03-19 2019-05-31 深圳市尼欧科技有限公司 一种智能车载信息交互设备及交互方法
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
WO2019161686A1 (en) * 2018-02-22 2019-08-29 Midea Group Co., Ltd. Machine generation of context-free grammar for intent deduction
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
CN110199348A (zh) * 2016-12-21 2019-09-03 亚马逊技术股份有限公司 口音转化
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
CN110217242A (zh) * 2019-04-25 2019-09-10 深圳航天科创智能科技有限公司 一种汽车导航语音识别方法及系统
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
CN110459222A (zh) * 2019-09-06 2019-11-15 Oppo广东移动通信有限公司 语音控制方法、语音控制装置及终端设备
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
CN110525450A (zh) * 2019-09-06 2019-12-03 浙江吉利汽车研究院有限公司 一种调节车载语音灵敏度的方法及系统
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
CN111081220A (zh) * 2019-12-10 2020-04-28 广州小鹏汽车科技有限公司 车载语音交互方法、全双工对话系统、服务器和存储介质
CN111161720A (zh) * 2018-11-08 2020-05-15 现代自动车株式会社 车辆及其控制方法
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
CN111508515A (zh) * 2013-12-18 2020-08-07 思睿逻辑国际半导体有限公司 话音命令触发的语音增强
CN111627445A (zh) * 2020-05-26 2020-09-04 福建省海峡智汇科技有限公司 一种用于场地或人员的匹配方法和系统
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
CN111901704A (zh) * 2020-06-16 2020-11-06 深圳市麦驰安防技术有限公司 音频数据处理方法、装置、设备及计算机可读存储介质
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
CN112712802A (zh) * 2020-12-23 2021-04-27 江西远洋保险设备实业集团有限公司 密集架智能信息处理语音识别操作控制系统
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
CN113205805A (zh) * 2021-03-18 2021-08-03 福建马恒达信息科技有限公司 一种语音插件辅助的表格便捷操作方法
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
CN113838477A (zh) * 2021-09-13 2021-12-24 阿波罗智联(北京)科技有限公司 音频数据包的丢包恢复方法、装置、电子设备及存储介质
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108731699A (zh) * 2018-05-09 2018-11-02 上海博泰悦臻网络技术服务有限公司 智能终端及其基于语音的导航路线重新规划方法、及车辆
CN111833878A (zh) * 2020-07-20 2020-10-27 中国人民武装警察部队工程大学 基于树莓派边缘计算的中文语音交互无感控制系统和方法
CN111883113B (zh) * 2020-07-30 2024-01-30 云知声智能科技股份有限公司 一种语音识别的方法及装置
CN114360500A (zh) * 2021-09-14 2022-04-15 腾讯科技(深圳)有限公司 语音识别方法和装置、电子设备及存储介质
CN117672200B (zh) * 2024-02-02 2024-04-16 天津市爱德科技发展有限公司 一种物联网设备的控制方法、设备及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1144173C (zh) * 2000-08-16 2004-03-31 财团法人工业技术研究院 概率导向的容错式自然语言理解方法
CN1177313C (zh) * 2002-12-13 2004-11-24 郑方 带方言背景的汉语语音识别方法
JP2006171305A (ja) * 2004-12-15 2006-06-29 Nissan Motor Co Ltd ナビゲーション装置およびナビゲーション装置における音声認識による情報の検索方法
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
JP2007205894A (ja) * 2006-02-02 2007-08-16 Alpine Electronics Inc 車載用ナビゲーション装置及び検索施設表示方法
CN101162153A (zh) * 2006-10-11 2008-04-16 丁玉国 一种语音控制的车载gps导航系统及其实现方法
CN101281745B (zh) * 2008-05-23 2011-08-10 深圳市北科瑞声科技有限公司 一种车载语音交互系统

Cited By (130)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009140884A1 (zh) * 2008-05-23 2009-11-26 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN101477799B (zh) * 2009-01-19 2011-02-09 北京农业信息技术研究中心 一种使用语音对农业设备进行控制的系统及控制方法
US10692504B2 (en) 2010-02-25 2020-06-23 Apple Inc. User profiling for voice input processing
CN102339604A (zh) * 2010-07-16 2012-02-01 西安欧博科工贸有限公司 语音智能交互系统
US10417405B2 (en) 2011-03-21 2019-09-17 Apple Inc. Device access using voice authentication
US11350253B2 (en) 2011-06-03 2022-05-31 Apple Inc. Active transport based notifications
CN102867510A (zh) * 2011-07-07 2013-01-09 株式会社电装 语音识别系统
CN103187051A (zh) * 2011-12-28 2013-07-03 上海博泰悦臻电子设备制造有限公司 车载互动装置
CN103247316A (zh) * 2012-02-13 2013-08-14 深圳市北科瑞声科技有限公司 一种音频检索中构建索引的方法及系统
CN103247316B (zh) * 2012-02-13 2016-03-16 深圳市北科瑞声科技有限公司 一种音频检索中构建索引的方法及系统
US11069336B2 (en) 2012-03-02 2021-07-20 Apple Inc. Systems and methods for name pronunciation
CN103021413A (zh) * 2013-01-07 2013-04-03 北京播思软件技术有限公司 语音控制方法及装置
CN104123936B (zh) * 2013-04-25 2017-10-20 伊莱比特汽车公司 对话系统自动训练方法、对话系统及用于车辆的控制装置
CN104123936A (zh) * 2013-04-25 2014-10-29 伊莱比特汽车公司 对话系统自动训练方法、对话系统及用于车辆的控制装置
CN104144192A (zh) * 2013-05-10 2014-11-12 北京四维图新科技股份有限公司 语音交互方法、装置及车载通讯终端
US10657961B2 (en) 2013-06-08 2020-05-19 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US11048473B2 (en) 2013-06-09 2021-06-29 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10769385B2 (en) 2013-06-09 2020-09-08 Apple Inc. System and method for inferring user intent from speech inputs
CN103287362A (zh) * 2013-06-25 2013-09-11 安科智慧城市技术(中国)有限公司 一种车载语音控制系统、方法和电动汽车
CN103287362B (zh) * 2013-06-25 2015-11-25 安科智慧城市技术(中国)有限公司 一种车载语音控制系统、方法和电动汽车
CN103369398A (zh) * 2013-07-01 2013-10-23 安徽广电信息网络股份有限公司 一种基于电视epg信息的语音搜索方法和系统
CN103400579B (zh) * 2013-08-04 2015-11-18 徐华 一种语音识别系统和构建方法
CN103400579A (zh) * 2013-08-04 2013-11-20 徐华 一种语音识别系统和构建方法
US11314370B2 (en) 2013-12-06 2022-04-26 Apple Inc. Method for extracting salient dialog usage from live data
CN111508515A (zh) * 2013-12-18 2020-08-07 思睿逻辑国际半导体有限公司 话音命令触发的语音增强
CN104835494A (zh) * 2014-02-06 2015-08-12 三星电子株式会社 显示装置和用于使用该显示装置控制电子装置的方法
CN103915092B (zh) * 2014-04-01 2019-01-25 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN103915092A (zh) * 2014-04-01 2014-07-09 百度在线网络技术(北京)有限公司 语音识别方法和装置
US10699717B2 (en) 2014-05-30 2020-06-30 Apple Inc. Intelligent assistant for home automation
US11810562B2 (en) 2014-05-30 2023-11-07 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10657966B2 (en) 2014-05-30 2020-05-19 Apple Inc. Better resolution when referencing to concepts
US11257504B2 (en) 2014-05-30 2022-02-22 Apple Inc. Intelligent assistant for home automation
US10714095B2 (en) 2014-05-30 2020-07-14 Apple Inc. Intelligent assistant for home automation
CN105320726A (zh) * 2014-05-30 2016-02-10 苹果公司 降低对手动开始/结束点和触发短语的需求
CN105320726B (zh) * 2014-05-30 2019-08-20 苹果公司 降低对手动开始/结束点和触发短语的需求
US11133008B2 (en) 2014-05-30 2021-09-28 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10373617B2 (en) 2014-05-30 2019-08-06 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10417344B2 (en) 2014-05-30 2019-09-17 Apple Inc. Exemplar-based natural language processing
US10497365B2 (en) 2014-05-30 2019-12-03 Apple Inc. Multi-command single utterance input method
CN106663446B (zh) * 2014-07-02 2021-03-12 微软技术许可有限责任公司 知晓用户环境的声学降噪
CN106663446A (zh) * 2014-07-02 2017-05-10 微软技术许可有限责任公司 知晓用户环境的声学降噪
US10438595B2 (en) 2014-09-30 2019-10-08 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10390213B2 (en) 2014-09-30 2019-08-20 Apple Inc. Social reminders
US10453443B2 (en) 2014-09-30 2019-10-22 Apple Inc. Providing an indication of the suitability of speech recognition
CN105529026B (zh) * 2014-10-17 2021-01-01 现代自动车株式会社 语音识别装置和语音识别方法
CN105529026A (zh) * 2014-10-17 2016-04-27 现代自动车株式会社 语音识别装置和语音识别方法
CN104679472A (zh) * 2015-02-13 2015-06-03 百度在线网络技术(北京)有限公司 人机语音交互方法和装置
US11231904B2 (en) 2015-03-06 2022-01-25 Apple Inc. Reducing response latency of intelligent automated assistants
US11087759B2 (en) 2015-03-08 2021-08-10 Apple Inc. Virtual assistant activation
US10529332B2 (en) 2015-03-08 2020-01-07 Apple Inc. Virtual assistant activation
US11127397B2 (en) 2015-05-27 2021-09-21 Apple Inc. Device voice control
CN106531155A (zh) * 2015-09-10 2017-03-22 三星电子株式会社 生成声学模型的设备和方法和用于语音识别的设备和方法
CN106531155B (zh) * 2015-09-10 2022-03-15 三星电子株式会社 生成声学模型的设备和方法和用于语音识别的设备和方法
US10354652B2 (en) 2015-12-02 2019-07-16 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
CN105575386A (zh) * 2015-12-18 2016-05-11 百度在线网络技术(北京)有限公司 语音识别方法和装置
CN105575386B (zh) * 2015-12-18 2019-07-30 百度在线网络技术(北京)有限公司 语音识别方法和装置
WO2017173721A1 (zh) * 2016-04-06 2017-10-12 中兴通讯股份有限公司 一种语音识别方法和装置
US11069347B2 (en) 2016-06-08 2021-07-20 Apple Inc. Intelligent automated assistant for media exploration
US10733993B2 (en) 2016-06-10 2020-08-04 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US11152002B2 (en) 2016-06-11 2021-10-19 Apple Inc. Application integration with a digital assistant
US10942702B2 (en) 2016-06-11 2021-03-09 Apple Inc. Intelligent device arbitration and control
US10580409B2 (en) 2016-06-11 2020-03-03 Apple Inc. Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10553215B2 (en) 2016-09-23 2020-02-04 Apple Inc. Intelligent automated assistant
WO2018068649A1 (zh) * 2016-10-11 2018-04-19 芋头科技(杭州)有限公司 一种语音激活检测方法及装置
CN106653006B (zh) * 2016-11-17 2019-11-08 百度在线网络技术(北京)有限公司 基于语音交互的搜索方法和装置
CN106653006A (zh) * 2016-11-17 2017-05-10 百度在线网络技术(北京)有限公司 基于语音交互的搜索方法和装置
CN106595686A (zh) * 2016-12-06 2017-04-26 上海博泰悦臻电子设备制造有限公司 一种车载导航系统、方法、车载设备及车辆
CN106710591A (zh) * 2016-12-13 2017-05-24 云南电网有限责任公司电力科学研究院 用于电力终端的语音客服系统
CN110199348A (zh) * 2016-12-21 2019-09-03 亚马逊技术股份有限公司 口音转化
CN106971721A (zh) * 2017-03-29 2017-07-21 沃航(武汉)科技有限公司 一种基于嵌入式移动设备的地方口音语音识别系统
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10847142B2 (en) 2017-05-11 2020-11-24 Apple Inc. Maintaining privacy of personal information
CN107958666A (zh) * 2017-05-11 2018-04-24 小蚁科技(香港)有限公司 用于口音不变语音识别的方法
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
CN107316643A (zh) * 2017-07-04 2017-11-03 科大讯飞股份有限公司 语音交互方法及装置
CN107316643B (zh) * 2017-07-04 2021-08-17 科大讯飞股份有限公司 语音交互方法及装置
CN107644643A (zh) * 2017-09-27 2018-01-30 安徽硕威智能科技有限公司 一种语音交互系统及方法
CN108242234B (zh) * 2018-01-10 2020-08-25 腾讯科技(深圳)有限公司 语音识别模型生成方法及其设备、存储介质、电子设备
CN108242234A (zh) * 2018-01-10 2018-07-03 腾讯科技(深圳)有限公司 语音识别模型生成方法及其设备、存储介质、电子设备
CN108022593A (zh) * 2018-01-16 2018-05-11 成都福兰特电子技术股份有限公司 一种高灵敏度语音识别系统及其控制方法
CN108382155A (zh) * 2018-01-25 2018-08-10 浙江吉利汽车研究院有限公司 一种带提醒功能的空调语音控制装置
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
CN108416096A (zh) * 2018-02-01 2018-08-17 北京百度网讯科技有限公司 基于人工智能的远场语音数据信噪比估计方法及装置
CN108346427A (zh) * 2018-02-05 2018-07-31 广东小天才科技有限公司 一种语音识别方法、装置、设备及存储介质
US10496382B2 (en) 2018-02-22 2019-12-03 Midea Group Co., Ltd. Machine generation of context-free grammar for intent deduction
CN112074898A (zh) * 2018-02-22 2020-12-11 美的集团股份有限公司 用于意图推理的上下文无关文法的机器生成
CN112074898B (zh) * 2018-02-22 2023-12-01 美的集团股份有限公司 用于意图推理的上下文无关文法的机器生成
WO2019161686A1 (en) * 2018-02-22 2019-08-29 Midea Group Co., Ltd. Machine generation of context-free grammar for intent deduction
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
CN108271078A (zh) * 2018-03-07 2018-07-10 康佳集团股份有限公司 通过手势识别的语音唤醒方法、智能电视及存储介质
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
CN108665892A (zh) * 2018-03-21 2018-10-16 肇庆益晟商贸有限公司 一种新能源汽车的语音控制装置
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
CN108766426B (zh) * 2018-05-31 2021-09-07 中国舰船研究设计中心 一种舰艇用智能语音交互指挥系统
CN108766426A (zh) * 2018-05-31 2018-11-06 中国舰船研究设计中心 一种舰艇用智能语音交互指挥系统
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
US10684703B2 (en) 2018-06-01 2020-06-16 Apple Inc. Attention aware virtual assistant dismissal
US10403283B1 (en) 2018-06-01 2019-09-03 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11009970B2 (en) 2018-06-01 2021-05-18 Apple Inc. Attention aware virtual assistant dismissal
US10984798B2 (en) 2018-06-01 2021-04-20 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11495218B2 (en) 2018-06-01 2022-11-08 Apple Inc. Virtual assistant operation in multi-device environments
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US10944859B2 (en) 2018-06-03 2021-03-09 Apple Inc. Accelerated task performance
CN109101655A (zh) * 2018-08-30 2018-12-28 山东高速股份有限公司 一种基于自然语言处理的高速信息语音自助查询系统及方法
CN111161720A (zh) * 2018-11-08 2020-05-15 现代自动车株式会社 车辆及其控制方法
CN109830234A (zh) * 2019-03-19 2019-05-31 深圳市尼欧科技有限公司 一种智能车载信息交互设备及交互方法
CN110217242A (zh) * 2019-04-25 2019-09-10 深圳航天科创智能科技有限公司 一种汽车导航语音识别方法及系统
CN110525450A (zh) * 2019-09-06 2019-12-03 浙江吉利汽车研究院有限公司 一种调节车载语音灵敏度的方法及系统
CN110459222A (zh) * 2019-09-06 2019-11-15 Oppo广东移动通信有限公司 语音控制方法、语音控制装置及终端设备
CN111081220B (zh) * 2019-12-10 2022-08-16 广州小鹏汽车科技有限公司 车载语音交互方法、全双工对话系统、服务器和存储介质
CN111081220A (zh) * 2019-12-10 2020-04-28 广州小鹏汽车科技有限公司 车载语音交互方法、全双工对话系统、服务器和存储介质
CN111627445A (zh) * 2020-05-26 2020-09-04 福建省海峡智汇科技有限公司 一种用于场地或人员的匹配方法和系统
CN111627445B (zh) * 2020-05-26 2023-07-07 福建省海峡智汇科技有限公司 一种用于场地或人员的匹配方法和系统
CN111901704B (zh) * 2020-06-16 2022-07-22 深圳市麦驰安防技术有限公司 音频数据处理方法、装置、设备及计算机可读存储介质
CN111901704A (zh) * 2020-06-16 2020-11-06 深圳市麦驰安防技术有限公司 音频数据处理方法、装置、设备及计算机可读存储介质
CN112712802A (zh) * 2020-12-23 2021-04-27 江西远洋保险设备实业集团有限公司 密集架智能信息处理语音识别操作控制系统
CN113205805A (zh) * 2021-03-18 2021-08-03 福建马恒达信息科技有限公司 一种语音插件辅助的表格便捷操作方法
CN113205805B (zh) * 2021-03-18 2024-02-20 福建马恒达信息科技有限公司 一种语音插件辅助的表格便捷操作方法
CN113838477A (zh) * 2021-09-13 2021-12-24 阿波罗智联(北京)科技有限公司 音频数据包的丢包恢复方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
WO2009140884A1 (zh) 2009-11-26
CN101281745B (zh) 2011-08-10

Similar Documents

Publication Publication Date Title
CN101281745B (zh) 一种车载语音交互系统
CN107403619B (zh) 一种应用于自行车环境的语音控制方法及系统
CN102332265B (zh) 一种提高汽车声控系统语音识别率的方法
CN101071564B (zh) 把词表外语音与词表内语音区别开的方法
CN101354887B (zh) 用在语音识别中的环境噪声注入方法
US8639508B2 (en) User-specific confidence thresholds for speech recognition
CN105390136B (zh) 用于用户适配型服务的车辆设备控制装置及方法
CN1856820A (zh) 语音识别方法和通信设备
US20160071518A1 (en) Service Oriented Speech Recognition for In-Vehicle Automated Interaction and In-Vehicle User Interfaces Requiring Minimal Cognitive Driver Processing for Same
CN108242236A (zh) 对话处理装置及其车辆和对话处理方法
CN101286317B (zh) 语音识别装置、模型训练方法、及交通信息服务平台
CN1959628A (zh) 一种人机交互导航系统
CN101383150B (zh) 语音软开关的控制方法及其在地理信息系统中的应用
CN102693725A (zh) 依赖于文本信息语境的语音识别
WO2002054033A3 (en) Hierarchical language models for speech recognition
CN101923857A (zh) 一种人机交互的可扩展语音识别方法
CN1199488A (zh) 模式识别
CN111145721A (zh) 个性化提示语生成方法、装置和设备
CN109887511A (zh) 一种基于级联dnn的语音唤醒优化方法
CN112562681A (zh) 语音识别方法和装置、存储介质
CN102571882A (zh) 基于网络的语音提醒的方法和系统
CN101645716A (zh) 一种具有语音识别功能的车载通讯系统及其识别方法
CN204926573U (zh) 辅助练习普通话的智能机器人
Loh et al. Speech recognition interactive system for vehicle
CN102542705A (zh) 语音提醒的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110810

Termination date: 20210523

CF01 Termination of patent right due to non-payment of annual fee