CN105355202A

CN105355202A - 语音识别装置、具有语音识别装置的车辆及其控制方法

Info

Publication number: CN105355202A
Application number: CN201410844441.XA
Authority: CN
Inventors: 房圭燮
Original assignee: Hyundai Motor Co; Kia Motors Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2014-08-22
Filing date: 2014-12-30
Publication date: 2016-02-24
Anticipated expiration: 2034-12-30
Also published as: US20160057261A1; CN105355202B; US9756161B2; KR101614756B1; KR20160023424A

Abstract

本发明公开了语音识别装置、具有语音识别装置的车辆及其控制方法。该语音识别装置，包括：上下文模型，通过为识别目标上下文建模而创建上下文模型；和语音识别器，语音识别器被配置为基于声学模型和上下文模型创建对应于所接收的语音信号的候选组，并且将高可靠性权重值施加给具有对应于讲话长度的音节的长度的候选项。

Description

语音识别装置、具有语音识别装置的车辆及其控制方法

相关申请的交叉引用

本申请要求于2014年8月22日提交给韩国知识产权局的韩国专利申请第2014-0109822号的权益，通过引用将其所公开的内容结合于此。

技术领域

本公开的实施方式涉及一种语音识别装置、具有语音识别装置的车辆以及控制车辆的方法。

背景技术

通常，当驾驶员在驾驶过程中使用蜂窝电话打电话时，驾驶员应在用其手握持蜂窝电话的同时执行若干次按压按钮的操作，并且然后，将蜂窝电话放到其耳朵上以与另一方通话。

即，当驾驶员在驾驶过程中打电话时，尽管驾驶员不会同时使其双手脱离方向盘，但驾驶员必须使其一只手脱离方向盘以握持蜂窝电话。

在这种情况下，驾驶员的视野变窄并且由此不能看到车辆周围的行人，可能出现摇晃，并且踩踏制动器的反应速度也变慢，从而导致交通事故增加。

为了克服这些问题，已经开发并且广泛使用了免提设备或者蓝牙设备。免提设备或者蓝牙设备收集驾驶员的语音，以对与驾驶员的通信执行语音识别，将识别的语音传输至蜂窝电话，并且通过扬声器输出由蜂窝电话接收的另一方的语音。然而，为了拨打或者应答电话，驾驶员仍必须手动操纵蜂窝电话。

因此，用于利用语音应答电话或者利用语音进行特定电话号码的呼叫的语音识别技术经常应用于车辆。

发明内容

因此，本公开的一方面提供一种用于根据人的讲话长度施加可靠性权重值的语音识别装置、包括语音识别装置的车辆、以及控制车辆的方法。

本公开的其他方面将在下面的描述中进行部分阐述，并且部分从所述描述中是显而易见的或通过对本公开的实践获悉的。

根据本公开的一方面，一种语音识别装置包括：上下文模型，通过为识别目标上下文建模创建上下文模型；和语音识别器，语音识别器被配置为基于声学模型和上下文模型创建对应于接收的语音信号的候选组，并且将高可靠性权重值施加给具有对应于讲话长度的音节长度的候选项。

语音识别装置可进一步包括显示单元，显示单元被配置为显示其中根据可靠性程度排列一个或者多个候选项的候选组。

语音识别装置可进一步包括模型创建器，模型创建器被配置为根据音节长度对识别目标上下文进行分类，并且创建用于各个音节长度的上下文模型。

语音识别器可创建用于为音节长度创建的上下文模型的候选组，并且根据对应于讲话长度的音节长度分别将不同的权重值施加给候选组。

如果讲话长度短于或者等于阈值长度，则语音识别器可将高可靠性权重值施加给对应于短于或者等于参考音节长度的音节长度的候选项。

根据本公开的另一方面，一种车辆包括：上下文模型，通过为电话簿中包括的每个名称建模创建上下文模型；和语音识别器，语音识别器被配置为基于声学模型和上下文模型创建对应于接收的语音信号的电话号码候选组，并且将根据讲话长度确定的不同可靠性权重值分别施加给电话号码候选组中的电话号码候选项。

车辆可进一步包括显示单元，显示单元被配置为显示其中根据可靠性程度排列一个或者多个电话号码候选项的电话号码候选组。

语音识别器可施加可靠性权重值以使得电话号码候选组中具有对应于讲话长度的音节长度的电话号码候选项具有高度可靠性。

如果讲话长度短于阈值长度，则语音识别器可施加可靠性权重值使得电话号码候选组中的单音节的电话号码候选项具有高度可靠性。

如果讲话长度长于阈值长度，则语音识别器可施加可靠性权重值使得电话号码候选组中的单音节的电话号码候选项具有低度可靠性。

车辆可进一步包括模型创建器，模型创建器被配置为根据每个名称的音节长度对电话簿进行分类并且创建用于各个音节长度的上下文模型。

模型创建器可将名称分割成名和姓以创建分割的上下文模型。

模型创建器可将名称转换成音素并且将名称建模成语音网格形式。

语音识别器可从各个上下文模型创建对应于语音信号的电话号码候选组，并且将高权重值施加给具有对应于讲话长度的音节长度的电话号码候选组。

语音识别器可基于声学模型识别语音信号的音素串，并且在上下文模型中搜索对应于识别的音素串的一个或者多个电话号码候选项，以创建电话号码候选组。

车辆可进一步包括讲话长度测量单元，讲话长度测量单元被配置为从语音信号中检测讲话开始(BoS)和讲话结束(EoS)，并且基于BoS和EoS测量讲话长度。

根据本公开的另一方面，一种车辆的控制方法包括：从通过为电话簿中包括的每个名称建模而创建的上下文模型创建对应于接收的语音信号的电话号码候选项；并且根据用户的讲话长度确定可靠性权重值；并且根据电话号码候选项的音节长度施加可靠性权重值。

确定可靠性权重值可包括基于讲话开始(BoS)与讲话结束(EoS)之间的差测量讲话长度。

确定可靠性权重值可包括确定可靠性权重值以使得具有对应于讲话长度的音节长度的电话号码候选项具有高度可靠性。

确定可靠性权重值可包括确定可靠性权重值以使得如果讲话长度短于或者等于阈值长度则单音节的电话号码候选项具有高度可靠性。

确定可靠性权重值可包括确定可靠性权重值以使得如果讲话长度长于或者等于阈值长度则单音节的电话号码候选项具有低度可靠性。

创建电话号码候选组可包括：从语音信号检测特征向量；并且根据特征向量从声学模型识别语音信号的音素串。

创建电话号码候选组可包括：基于关于音素串的可靠性长度创建电话号码候选组。

电话号码候选组可具有高于或者等于关于音素串的预定标准的可靠性程度。

施加可靠性权重值可包括：根据可靠性程度排列电话号码候选组中的一个或者多个电话号码候选项；并且显示具有根据可靠性程度排列的电话号码候选项的电话号码候选组。

控制方法可进一步包括：接收对应于用户讲话的语音信号；并且对语音信号进行预处理。

控制方法可进一步包括：根据名称长度对电话簿进行分类；并且创建用于各个名称长度的上下文模型。

创建上下文模型可包括：将每个名称转换成音素串；并且基于音素串创建语音网格。

根据本公开的另一方面，车辆包括：多个上下文模型，通过根据名称长度对电话簿进行分类而创建多个上下文模型；候选组搜索单元，候选组搜索单元被配置为从相应上下文模型创建对应接收的语音信号的上下文候选组；权重施加单元，权重施加单元被配置为将不同的可靠性权重值分别施加给上下文候选组，以使得从对应于用户讲话长度的上下文模型所创建的上下文候选组具有高度可靠性；以及显示单元，显示单元被配置为根据可靠性程度排列并且显示施加了可靠性权重值的上下文候选组。

附图说明

从结合附图对实施方式进行的以下描述中，本公开的这些方面和/或其他方面将变得更加显而易见并且更易于理解，附图中：

图1是根据本公开的实施方式的语音识别装置的控制框图；

图2是根据本公开的实施方式的语音识别装置的语音识别器的控制框图；

图3是根据本公开的实施方式的包括模型创建器的语音识别装置的控制框图；

图4是示意性示出了根据本公开的实施方式的车辆的外观的立体图；

图5示意性示出了根据本公开的实施方式的车辆的内部；

图6是根据本公开的实施方式的包括语音识别装置的车辆的控制框图；

图7是用于描述根据本公开的实施方式的车辆的语音活动检测(VAD)装置的操作的流程图；

图8示出了用于认证用户终端的画面的实施例；

图9是描述通过根据本公开的实施方式的语音识别装置进行的呼叫连接的流程图；

图10是用于描述创建电话簿上下文模型的方法的实例的流程图；

图11是用于描述对电话簿中包括的电话号码进行分类的方法的实例的示图；

图12示出了用于语音识别的导向画面的实施例；

图13是用于描述创建电话号码候选组的方法的实例的流程图；

图14是用于描述施加可靠性权重值的方法的实例的流程图；

图15示出了列出可靠性权重值的实例的表格；

图16示出了显示语音识别的结果的画面的实例；并且

图17是用于描述根据本公开的实施方式的在根据讲话者的语音讲话长度施加可靠性权重值来搜索电话号码时改进识别速率的示图。

具体实施方式

通过参考下面结合附图所描述的实施方式，本公开的优点和特征以及实现各种优点和特征的方法将变得显而易见。然而，本公开并不受这些实施方式限制，而是可被实施为多种不同的形式。提供这些实施方式以使得本发明的公开内容变得完整并且允许本领域普通技术人员理解本发明的范围。由权利要求的范畴限定本发明。

将简要描述本说明书中所使用的术语，并且将详细描述本公开。

尽管在考虑本公开的功能的同时，选择本公开中广泛使用的通用术语作为本公开中所使用的术语，然而，这些术语可根据本领域普通技术人员的意图、司法先例以及新技术的引进等而变化。在特殊情况下，还可使用由本发明的申请人所任意选择的术语。在这种情况下，需要在对本发明的详细描述中给出其含义。因此，必须基于术语的含义以及整篇说明书的内容定义术语，而不是简单地阐述术语本身。

应当理解，当本说明书中使用术语“包括(includes)、“包含(comprises)”、“含有(including)”、和/或“具有(comprising)”时，指定了存在所述元件和/或部件，但并不排除存在或者添加一个或者多个元件和/或其组合。如此处使用的，术语“部分”、“模块”、或者“单元”指可执行至少一种功能或者操作，并且可被实施为软件、或者硬件部件(诸如，场可编程门阵列(FPGA)或者专用集成电路(ASIC))或者软件和硬件的组合的单元。然而，术语“部分”、“模块”、或者“单元”不局限于软件或者硬件。“部分”、“模块”、或者“单元”可被配置在可寻址存储介质中或者可被配置成在至少一个处理器上运行。因此，例如，“部分”、“模块”、或者“单元”包括：诸如软件部件、面向对象软件部件、类部件、以及任务部件等各种部件、处理器、功能、属性、程序、子例程、程序代码段、驱动器、固件、微代码、电路、数据、数据库、数据结构、表格、阵列以及变量。

在下文中，将参考附图详细描述本公开的实施方式，使得本领域技术人员能够容易实施本公开。在附图中，为简要描述，省去了与本说明书无关的部分。

应当理解的是，尽管本公开中使用术语“第一”、“第二”等描述各种部件，然而，这些部件不应受这些术语限制。这些术语仅用于区分一个部件与另一个。例如，在不背离本公开的范围的前提下，第一部件可被称为第二部件，并且类似地，第二部件可被称为第一部件。如此处所使用的，术语“和/或”包括一个或者多个相关所列项的任一个及所有组合。

对于用于识别语音的单位，可以使用词汇、音节、半音节、音素或者连音、双连音等。然而，在下列描述中，为便于描述，假定了以音素单位识别语音。

图1是根据本公开的实施方式的语音识别装置的控制框图。

参考图1，根据本公开的实施方式的语音识别装置100可包括语音接收器110、预处理器120、语音识别器130、声学模型140以及上下文(context)模型150。

语音接收器110可接收用户的语音并且输出对应于接收语音的语音信号。语音接收器110可包括诸如扩音器等语音输入装置和放大通过语音输入装置所接收的声音的放大器。

预处理器120可对用于语音识别的语音信号进行预处理。更具体地，预处理器120可从用户的语音中检测识别目标部分。例如，预处理器120可基于高斯模型(Gaussianmodeling)从接收的语音中检测识别目标部分。

此外，预处理器120可从识别目标部分的语音信号中去除噪音成分。例如，预处理器120可使语音信号通过预定固定滤波器以去除语音信号中的噪音，或者可使语音信号通过根据外围环境中噪音的变化的可变滤波器以去除语音信号中的噪音。

语音识别器130可基于声学模型140和上下文模型150识别语音。

通过对各个音素的特征向量进行建模可创建声学模型140。声学模型140可用于确定与语音信号对应的音素。即，声学模型140可对与每个音素对应的特征向量进行建模。

例如，根据隐马尔可夫模型(HMM)，声学模型140可被配置有多种状态以及状态之间的转换概率，状态代表各自具有声学相似特征的语音部分。此外，声学模型140可根据诸如动态时间规整(DTW)等时间排列而配置或者被配置有人工神经网络。

通过对语音识别目标进行建模，更具体地，通过对作为语音识别目标的至少一个上下文信息进行建模。可创建上下文模型150。上下文模型150可限制识别空间。因此，通过限制识别空间，可以限制搜索的空间，从而使得识别时间和计算量减少并且语音识别准确度提高。

此处，上下文信息意指作为语音识别目标的至少一个字串(wordstring词语符列)。例如，上下文模型150可被建模成语音网格形式，在该语音网格形式中，按顺序连接作为语音识别目标的至少一个字串的音素。为了以语音网格形式建模上下文模型150，根据文本至音素(T2P)转换或者字素至音素(G2P)转换，上下文信息中包括的字串可以被转换成音素。上下文信息可根据语音识别装置100的目的而变化。例如，上下文信息可以是用于各种控制命令的字中的至少一个(一些)、搜索电话簿中的电话号码的名称、以及搜索多媒体的名称。

此外，语音识别器130可测量用户讲话的长度，并且基于讲话长度将权重值施加给候选组以识别用户的语音。在下文中，将参考图2详细描述语音识别器130的操作。

图2是根据本公开的实施方式的语音识别装置100的语音识别器130的控制框图。

参考图2，语音识别器130可包括特征提取器131、候选组搜索单元132、讲话长度测量单元133、权重施加单元134、以及输出单元135。

特征提取器131可从语音信号中提取信号特征。尽管每个人使用相同的语言，然而因为语音根据人的性别、年龄、发音等而有所不同，并且根据语音是否是单独发音或者是否是一个字或者一个句子而有所不同，所以必须检测能够充分代表语音的这些特征的特征。

因此，特征提取器131可从语音中提取特征向量，以去除不必要地重叠语音信号，并且在提高相同语音信号之间的一致性的同时，提高不同语音信号之间的区别度。

例如，特征提取器131可使用线性预测系数、倒谱(Cepstrum)、梅尔倒谱系数(MFCC)、滤波器组能等从预处理的语音信号中提取特征向量。

候选组搜索单元132可基于声学模型140和上下文模型150创建对应于语音信号的候选组。

更具体地，候选组搜索单元132可根据通过特征提取器131提取的特征向量从声学模型140中识别对应于语音信号的音素串。如上所述，因为通过对应于每个音素的特征向量(或者特征向量组)可建模声学模型140，所以候选组搜索单元132可比较通过特征提取器131所提取的特征向量与声学模型140，以识别对应于语音信号的音素串。

候选组搜索单元132可通过基于音素串搜索上下文模型150中的候选项，来创建候选组。更具体地，候选组搜索单元132可比较音素串与上下文模型150，以搜索在上下文模型150中具有高度可靠性的候选项，从而创建候选组。

如上所述，候选模型150可被建模成语音网格形式。因此，候选组搜索单元132可利用上下文模型150的语音网格而模式化匹配对应于输入的语音信号的音素串，以计算每个识别目标上下文的语音网格与音素串之间的可靠性程度。

即，因为语音网格与音素串更为相似，所以确定为高度可靠性，并且因为语音网格与音素串较为不相似，所以确定为低度可靠性。

更详细地，候选组搜索单元132可执行N条最佳搜索N-best以创建候选组。更具体地，候选组搜索单元132可搜索在上下文模型150中具有最高可靠性程度的N个候选项以创建候选组。例如，候选组搜索单元132可选择具有最高可靠性程度的5个候选项以创建候选组。

讲话长度测量单元133可测量用户讲话的长度。更具体地，讲话长度测量单元133可检测讲话开始(BoS)和讲话结束(EoS)，并且计算BoS与EoS之间的差以计算用户讲话的长度。

权重施加单元134可基于通过讲话长度搜索单元133测量的讲话长度确定被施加给候选组的可靠性权重值。更具体地，权重施加单元134可将可靠性权重值确定为使得包括在候选组中的候选项之中具有与讲话长度对应的音节长度的候选项具有高度可靠性。

用户讲话的长度通常与音节长度成比例。例如，单音节的讲话长度通常短于三个音节的讲话长度。因此，通过测量用户的讲话长度并且将更高可靠性权重值施加给具有更高可能性(即，对应于测量的讲话长度)的音节长度的候选项，可以提高语音识别的成功率。

此外，通过根据讲话长度施加可靠性权重值，可以改进对具有相对较短音节长度的单音节的识别性能。

可提前设置可靠性权重值。可以根据音节长度使用关于用户讲话长度的统计信息设置可靠性权重值。此外，可以基于来自使用语音识别装置100的用户的实际讲话长度设置可靠性权重值。

例如，语音识别装置100(见图1)可基于用户从通过对用户语言的识别所提供的N条最佳结果所选择的候选项的音节长度与用户的实际讲话长度之间的关系而确定可靠性权重值。

输出单元135可再配置施加了可靠性权重值的候选组并且输出最终的候选组。此时，输出单元135可输出具有最高可靠性程度的上下文候选项或者输出小于通过候选组搜索单元132所创建的N个候选项的候选项。

图3是根据本公开的实施方式的进一步包括模型创建器的语音识别装置100的控制框图。

参考图3，语音识别装置100可进一步包括模型创建器160。模型创建器160可对预定上下文信息进行建模以创建上下文模型150。上下文信息可包括作为用户讲话识别的目标的至少一个字串。

例如，上下文信息可以是通过用户语音进行控制所需的信息(诸如，用户的各种控制命令)、对应于电话簿中的各个电话号码的名称、或者包括音乐或者视频的至少一个多媒体的名称。

模型创建器160可将上下文信息转换成音素并且连接各个音素，以将上下文信息建模成语音网格形式。如上所述，通过与声学模型140所识别的音素串进行模式(pattern)匹配可搜索模型化的上下文信息。

此外，模型创建器160可根据各种方法将上下文信息转换场音素。例如，模型创建器160可根据T2P转换或者G2P转换将上下文信息中包括的字串转换成音素。

此外，模型创建器160可根据字串长度对上下文信息进行分类以创建多个上下文模型。

根据实施方式，如图3所示，模型创建器160可从一个上下文信息创建三个上下文模型(即，第一上下文模型151、第二上下文模型152、以及第三上下文模型153)。第一上下文模型151可存储比阈值长度更长的字串，并且第二上下文模型152可存储比阈值长度更短的字串。

此外，模型创建器160可将字串划分成具有更小长度的字串以创建第三上下文模型153。例如，模型创建器160可将由两个字组成的字串划分成两个字，并且对这两个字中的至少一个字进行建模以创建第三上下文模型153。

上述描述涉及一种其中模型创建器160根据字串的长度对上下文信息进行分类并且存储上下文信息的实例；然而，模型创建器160可基于其他标准对上下文信息进行分类。

例如，模型创建器160可根据字串的音节长度对上下文信息进行分类。下面将对此进行更为详细的描述。

语音识别装置100可被设置在各种电子装置中，以使得根据用户的声音驱动电子装置。更具体地，语音识别装置100可应用于便携式电子设备，诸如，智能电话、便携式媒体播放器(PMP)、个人数字助理(PDA)、或者平板个人计算机(PC)，或者语音识别装置100可应用于车辆1。

在下文中，将参考图4至图17详细描述包括语音识别装置100的车辆。

图4是示意性示出了根据本公开的实施方式的车辆的外形的立体图，并且图5示意性示出了根据本公开的实施方式的车辆的内部。

参考图4和图5，车辆1可包括构成车辆1的外形的车身以及使车辆1移动的车轮21和22。

车身可包括机罩11、前防护板12、顶盖13、车门14、后备箱15、以及后侧围板16。

此外，车身可包括前窗17，前窗17被安装在车身的前部上以提供车辆1的前方视野；侧窗18，侧窗18被安装在车门14内以提供车辆1的后方和侧方视野；以及后窗19，后窗19被安装在车身的后部上以提供车辆1的后方视野。

车轮21和22可包括设置在车辆1前部上的前车轮21和设置在车辆1的后部上的后车轮22，并且车身可通过前车轮21的转动而向前或者向后移动。

乘客乘坐的座位DS和PS、改变车辆1的方向的方向盘30、控制车辆1的操作并且显示车辆1的驾驶信息的各种仪表安装在其上的仪表板40、以及设置在仪表板40下方的齿轮箱50可被设置在车身内部。

座位DS和PS可包括驾驶员乘坐的驾驶员座位DS、同乘的乘客乘坐的乘客座位PS、以及设置在车辆1内的后部的后座(未示出)。

方向盘30可包括驾驶员紧握的轮缘31和将轮缘31连接至车辆1的转向装置的轮毂的方向盘轮辐32，其中该论毂定位在用于转向的转动轴上。驾驶员可操纵轮缘31以使轮辐32转动，以改变车轮21和22的前进方向，从而调整车辆1的驾驶方向。

此外，方向盘30可进一步包括第一输入单元211。驾驶员可通过第一输入单元211输入控制命令。第一输入单元211可被配置有滚动轮(scrollwheel)、按钮、旋钮、触摸屏、触摸板、控制杆、跟踪球、操作传感器、或者语音识别传感器。

仪表板40可包括显示车辆1的速度(每分钟转数(RPM))和燃油表的仪表盘41、其中安装用于控制音频系统的操纵单元、空调、或者加热器、通风设备、点烟器插座等的中央仪表盘42、以及使空气流入车辆1中的通风设备43。

其中安装了齿轮装置的齿轮箱50可被设置在中央仪表盘42下方。用于改变齿轮的齿轮手柄51可从齿轮箱50伸出。

此外，齿轮箱50可包括第二输入单元212，以使驾驶员能够输入用于操纵车辆1的各种功能的各种命令。第二输入单元212可包括旋钮、物理按钮、驾驶盘、控制杆、跟踪球、操纵轮、操作传感器、对象检测传感器、以及触摸传感器中的至少一种。此外，第二输入单元212可包括本领域普通技术人员可想到的各种输入装置。

扩音器111可被设置在驾驶员座位上方。可以使用能够接收语音并且将接收的语音作为电信号输出的任何其他设备替代扩音器111。

此外，扩音器111可用作语音接收器110(见图1)并且在拨打电话时可用于收集驾驶员的语音。

另一方面，扩音器111的位置并不局限于位于驾驶员座位上方。例如，扩音器111可被设置在容易收集驾驶员语音的任何位置处，诸如方向盘30。

图6是根据本公开的实施方式的包括语音识别装置100的车辆1的控制框图。

如图6所示，车辆1可包括语音识别装置100。此外，车辆1可包括输入单元210、显示单元220、声音单元230、存储单元240、语音激活拨号(VAD)装置250、以及控制车辆1的整体操作的控制器260。

语音识别装置100可识别驾驶员的语音并且将识别的语音传输至控制器260，使得驾驶员可通过语音控制车辆1的各种功能。

即，驾驶员可使用语音识别装置100控制车辆1的各种功能，例如，导航系统、音频系统以及VAD装置。

在下文中，为便于描述，将详细描述使用语音识别装置100进行的VAD装置的操作。然而，语音识别装置100可用于控制车辆1的各种设备。

输入单元210可从驾驶员接收用于控制车辆1的各种功能的命令。驾驶员可通过输入单元210开启或者关闭语音识别装置100，或者可使用VAD装置250向特定的电话号码拨打电话或者应答电话。例如，输入单元210可以是第一输入单元211、第二输入单元212、或者显示单元220的触摸板。

显示单元220可提供与车辆1有关的各种信息或者用于控制车辆1的控制画面。如图5所示，显示单元220可被设置在中央仪表盘42的中央以将各种信息提供给驾驶员。

显示单元220可被实施成液晶显示器(LCD)面板、发光二极管(LED)面板或者有机发光二极管(OLED)面板。此外，显示单元220可包括触摸板以接收用户的触摸输入。

声音单元230可将与车辆1有关的各种信息作为声音输出。例如，声音单元230可输出声音识别的结果或者输出拨打电话时的另一方的语音。

此外，声音单元230可输出从用户终端UT传输的音乐。声音单元230可以是扬声器并且可设置在车辆1内部的前部区域或者后部区域。

存储单元240可存储操作车辆1的各种功能所需的数据。例如，存储单元240可存储图1中所示的语音识别装置100的声学模型140或者上下文模型150，或者存储从用户终端UT接收的电话簿。

存储单元240可以是诸如磁盘和固态磁盘等非易失性存储器或者诸如动态随机存取存储器(D-RAM)和静态随机存取存储器(S-RAM)等易失性存储器以临时存储在控制车辆1的操作时所创建的临时数据。

VAD装置250可控制车辆1的内部设备以能够使驾驶员在无需操纵用户终端UT的情况下拨打电话。为了能够使驾驶员在无需操纵用户终端UT的情况下拨打电话，VAD装置250可连接至用户终端UT，并且根据通过语音识别装置100所识别的语音拨打电话或者应答电话。

VAD装置150可通过无线通信协议连接至用户终端UT。例如，VAD装置250可使用短程通信协议连接至用户终端UT，诸如，蓝牙、蓝牙低功耗、红外数据组织(IrDA)、Zigbee、Wi-Fi、Wi-Fi直接连接、超带宽(UWB)、或者近场通信(NFC)。在下文中，将详细描述VAD装置250的操作。

图7是用于描述根据本公开的实施方式的车辆1的VAD装置250的操作的流程图，并且图8示出了用于认证用户终端UT的画面的实例。

如图7所示，在操作S501中，VAD装置250可确定是否接收来自用户终端UT的访问请求。VAD装置250可根据短程通信协议连接至用户终端UT，然而，将VAD装置250连接至用户终端UT的方法并不局限于短程通信协议。

如果VAD装置150从用户终端UT接收访问请求(在操作S501中，“是”)，则在操作S503中，VAD装置250可认证用户终端UT。认证用户终端UT的方法不受限制。例如，VAD装置250可通过显示单元220显示预定的认证码，并且如果显示的认证码在被传输至用户终端UT之后被VAD装置250接收，则确定用户终端UT是经过认证的用户终端。

更具体地，如图8所示，控制器260可控制显示单元220，以根据来自VAD装置250的请求显示包括认证码的认证画面。同时，如果请求访问VAD装置250的用户终端UT是已经经过认证的用户终端，则可以省去认证用户终端UT的操作S503。

然后，在操作S505中，VAD装置250可确定是否存在存储在其中的电话簿。更具体地，VAD装置250可确定VAD装置250是否存储用户终端UT中所存储的电话簿。

如果VAD装置250确定不存在电话簿(在操作S505中，“否”)，则在操作S507中，VAD装置250可从用户终端UT接收电话簿，并且在操作S509中，存储所接收的电话簿。接收的电话簿可被存储在VAD装置250中或者存储单元240中(见图6)。

另一方面，如果VAD装置250确定存在电话簿(在操作S505中，“是”)，则在操作(S511)中，VAD装置250可等待呼叫连接。

如果VAD装置250连接至用户终端UT，则驾驶员可通过声音单元230(见图6)或者安装在车辆1内部的语音接收器110(见图3)拨打电话。

控制器260可控制车辆1的整体操作。更具体地，控制器160可控制语音识别装置100和VAD装置250。

例如，如果控制器260通过VAD装置250从用户终端UT接收电话，则控制器260可通过声音单元230通知接收该电话，或者可通过语音识别装置100根据语音识别的结果搜索电话簿并且将搜索结果提供给显示单元220，因此，驾驶员可向希望的电话号码拨打电话。

控制器260可对应于一个或者多个处理器。处理器可被实施为多个逻辑门的阵列或者通用微处理器和存储可在微处理器上执行的程序的存储器的组合。然而，对本领域普通技术人员显而易见的是，控制器260可被实施为不同种类的硬件。

在下文中，将参考图9详细描述使用语音识别连接电话的方法。

图9是根据本公开的实施方式的用于描述通过语音识别装置100进行呼叫连接的流程图。

如图9所示，在操作S610中，语音识别装置100可创建电话簿上下文模型150(见图3)。如上所述，语音识别装置100可基于通过为语音识别目标建模而创建的上下文模型150执行语音识别。

因此，语音识别装置100可基于电话簿创建电话簿上下文模型150。在下文中，将详细描述创建电话簿上下文模型150的方法。

图10是用于描述创建电话簿上下文模型150的方法的实例的流程图，并且图11是用于描述对电话簿中包括的电话号码进行分类的方法的实例的示图。

参考图10和图11，在操作S611中，语音识别装置100可根据名称长度对电话簿中包括的电话号码进行分类。每个名称的长度均可以是组成名称的字的数目和组成名称的音节的数目中的至少一个。

如图11所示，电话簿可包括多个名称和被映射至相应名称的多个电话号码。电话簿中包括的名称长度可以是不同的。例如，名称可由名和姓构成，诸如“DavidWillson”或者“JamesSmith”等，可由名和姓中的一个构成，诸如“John”或者“Johnson”等，或者可以是诸如“Mom”或者“Home”等简称。

语音识别装置100可根据与讲话长度匹配的名称长度对电话簿进行分类。

根据实施方式，语音识别装置100可根据名称中包括的字串的数目对电话簿进行分类。语音识别装置100可将由两个或者多个字串构成的“DavidWillson”或者“JamesSmith”分类成第一上下文模型151，并且将每个由单个字构成的“John”、“Johnson”、“Mom”、以及“Home”分类成第二上下文模型152。

此外，语音识别装置100可提取由两个或者多个字串构成的名称的每个字以配置第三上下文模型153。即，如果名称由名和姓构成，则语音识别装置100可使名与姓分开以创建第三上下文模型153。

此外，在操作S613中，语音识别装置100可将每个名称均转换成音素串。更具体地，语音识别装置100可使用T2P转换或者G2P转换将每个名称均转换成音素串。此处，音素串可以是名称的音符组。

然后，在操作S615中，语音识别装置100可基于音素串创建语音网格。

根据另一实施方式，语音识别装置100可根据每个名称的音节长度配置电话簿。

更具体地，语音识别装置100可将电话簿中包括的每个名称均转换成音素串，计算音素串的辅音数目以计算音素串的音节长度，根据音节长度对音素串进行分类，并且然后创建语音网格。

因此，通过根据与讲话长度具有高度相关性的音节长度对电话簿进行分类，可以更为有效地施加可靠性权重值。

另一方面，如果存在已经创建的上下文模型150，则可以省去创建上下文模型150的操作610。

图12示出了用于语音识别的导向画面的实例。

再次参考图9，在操作S620中，语音识别装置100可确定是否接收语音。如图12所示，当确定是否接收语音时，语音识别装置100可显示通知语音识别功能处于启用状态的画面。

更具体地，显示单元220(见图6)可在画面的上部区域显示主页按钮221和后退按钮222，并且在画面的下部区域显示列出用于执行车辆的各种功能的图标的图标列表224。此外，可以在在位于画面中心处的信息显示区域223中显示通知用户语音识别功能处于启用状态的导向信息。

如果语音识别装置100确定接收语音(在操作S620中，“是”)，则在操作S630中，语音识别装置100可对相应的语音信号执行预处理。即，语音识别装置100可从用户的语音中检测识别目标部分，或者去除识别目标部分的语音信号中的噪音成分。

然后，在操作S640中，语音识别装置100可创建电话号码候选组。在下文中，将参考图13详细描述创建电话号码候选组的方法。

图13是用于描述创建电话号码候选组的方法的实例的流程图。参考图13，在操作S641中，语音识别装置100可从接收的语音信号中提取特征向量。例如，语音识别装置100可使用线性预测系数、倒谱、MFCC、滤波器组能等提取特征向量。

在操作S642中，语音识别装置100可根据特征向量从声学模型140识别音素串。更具体地，语音识别装置100可比较从接收的语音信号中提取的特征向量与声学模型140，以识别对应于所接收的语音信号的音素串。

在操作S643中，语音识别装置100可从第一上下文模型151创建第一候选组。更具体地，语音识别装置100可使对应于所接收的语音信号的音素串与第一上下文模型151的语音网格进行模式匹配，以创建对于音素串具有预定可靠性程度的第一候选组。此处，可靠性程度代表语音网格与音素串之间的相似性程度。

可以提前设置第一候选组中所包括的候选项数目。例如，语音识别装置100可搜索具有最高可靠性程度的N个候选项以创建第一候选组。

此外，语音识别装置100可创建由具有高于参考可靠性程度的可靠性程度的候选项构成的第一候选组。

此外，在操作S644中，语音识别装置100可从第二上下文模型152创建第二候选组，并且在操作S645中，从第三上下文模型153创建第三候选组。

另一方面，在图13中，示出了其中语音识别装置100同时创建第一至第三候选组的实例；然而，语音识别装置100可顺次搜索第一至第三上下文模型150，从而顺次创建第一至第三候选组。

再次参考图9，在操作S650中，语音识别装置100可将根据讲话长度确定的可靠性权重值施加至候选组。在下文中，将参考图14详细描述施加可靠性权重值的方法。

图14是用于描述施加可靠性权重值的方法的实例的流程图，并且图15示出了列出可靠性权重值的实例的表格。参考图14，在操作S651中，语音识别装置100可测量讲话长度。即，语音识别装置100可检测BoS和EoS，并且计算BoS与EoS之间的差以测量用户的讲话长度。

然后，在操作S652中，语音识别装置100可根据讲话长度确定被施加给候选组的可靠性权重值。如上所述，用户讲话长度通常与音节长度成比例。因此，语音识别装置100可测量用户的讲话长度，并且将可靠性权重值确定为使得高可靠性权重值被施加给对应于测量的讲话长度的候选项。

另一方面，已经通过根据名称长度进行分类创建第一至第三候选组。语音识别装置100可确定被施加给第一至第三候选组的可靠性权重值。

例如，如图14所示，语音识别装置100可根据讲话长度确定候选组的可靠性权重值。更具体地，如果讲话长度短于或者等于500ms，则语音识别装置100可将对应于相对较长名称的第一候选组的第一权重值设置成较小的值，例如，0.8，并且将对应于相对较短名称的第二候选组的第二权重值设置成较大的值，例如，1.2。

此外，如果讲话长度长于或者等于例如1200ms，则语音识别装置100可将对应于相对较长名称的第一候选组的第一权重值设置成较高的值，例如，1.5，并且将与相对较短名称对应的第二候选组的第二权重值设置成较小的值，例如，0.9。通过大数据分析可获取可靠性权重值。

在操作S653至S655中，语音识别装置100可将可靠性权重值分别施加给第一至第三候选组。在图14中，示出了同时将可靠性权重值分别施加给第一至第三候选组的实例，然而，语音识别装置100可顺次将可靠性权重值施加给第一至第三候选组。

再次参考图9，在操作S656中，语音识别装置100可根据可靠性程度布置和显示第一至第三候选组。语音识别装置100可将已施加有可靠性权重值的第一至第三候选组进行组合以创建组合候选组，并且根据可靠性程度排列组合的候选组。

然后，语音识别装置100可在显示单元220上显示组合候选组中具有高度可靠性的候选项。此时，显示单元220上所显示的候选项可以是具有高于预定标准的可靠性程度的候选项；然而，候选项不局限于此。例如，如图16所示，语音识别装置100可显示通过N条最佳搜索而查找到的具有最高可靠性程度的5个候选项。

再次参考图9，在操作S670中，VAD装置250可向用户所选择的电话号码拨打电话。即，VAD装置250可向对应于用户所选择的名称的电话号码拨打电话。

图17是用于描述根据本公开的实施方式的在通过根据讲话者的讲话长度施加可靠性权重值搜索电话号码时，识别速率提高的示图。

图17示出了当平均信噪比(SNR)为11db时关于包括1000个电话号码的电话簿，对10个讲话者的语音识别的结果。

如图17所示，通过根据讲话长度施加权重值，单音节的识别速率增加11％以上，并且通过将名称分割成名和姓所创建的分割名称的识别速率增加55.4％。

因此，通过提供使用根据人的讲话长度的可靠性权重值的语音识别装置，可以改进包括语音识别装置的车辆、以及控制车辆的方法以及语音识别速率的方法。

具体地，可以改进诸如短于预定长度的单音节等语音的识别速率。

尽管已经示出并且描述了本公开的数个实施方式，然而，本领域技术人员应当认识到，在不背离本公开的原理和精神的前提下，可以对这些实施方式做出改变，权利要求及其等同物限定本公开的范围。

Claims

1.一种语音识别装置，包括：

上下文模型，通过对识别目标上下文进行建模来创建所述上下文模型；和

语音识别器，被配置为基于声学模型和所述上下文模型创建对应于所接收的语音信号的候选组，并且将高可靠性权重值施加给具有与讲话长度对应的音节长度的候选项。

2.根据权利要求1所述的语音识别装置，进一步包括显示单元，所述显示单元被配置为显示其中根据可靠性程度排列一个或者多个候选项的所述候选组。

3.根据权利要求1所述的语音识别装置，其中，如果所述讲话长度短于或者等于阈值长度，则所述语音识别器将高可靠性权重值施加给与短于或者等于参考音节长度的音节长度对应的候选项。

4.根据权利要求1所述的语音识别装置，进一步包括模型创建器，所述模型创建器被配置为根据音节长度对所述识别目标上下文进行分类并且创建针对各个音节长度的所述上下文模型。

5.根据权利要求4所述的语音识别装置，其中，所述语音识别器创建用于针对音节长度而创建的上下文模型的候选组，并且根据对应于所述讲话长度的所述音节长度分别将不同的权重值施加给所述候选组。

6.根据权利要求1所述的语音识别装置，其中，所述识别目标上下文是电话簿。

7.一种车辆，包括：

上下文模型，通过对电话簿中包括的每个名称进行建模来创建所述上下文模型；和

语音识别器，被配置为基于声学模型和所述上下文模型创建对应于所接收的语音信号的电话号码候选组，并且将根据讲话长度确定的不同可靠性权重值分别施加给所述电话号码候选组中的电话号码候选项。

8.根据权利要求7所述的车辆，进一步包括显示单元，被配置为显示其中根据可靠性程度排列一个或者多个电话号码候选项的所述电话号码候选组。

9.根据权利要求7所述的车辆，其中，所述语音识别器施加所述可靠性权重值，使得所述电话号码候选组中的具有对应于所述讲话长度的音节长度的电话号码候选项具有高度可靠性。

10.根据权利要求7所述的车辆，其中，如果所述讲话长度短于阈值长度，则所述语音识别器施加所述可靠性权重值，以使得所述电话号码候选组中的单音节的电话号码候选项具有高度可靠性。

11.根据权利要求7所述的车辆，其中，如果所述讲话长度长于阈值长度，则所述语音识别器施加所述可靠性权重值，以使得所述电话号码候选组中的单音节的电话号码候选项具有低度可靠性。

12.根据权利要求7所述的车辆，进一步包括模型创建器，被配置为根据每个名称的音节长度对所述电话簿进行分类并且创建用于各个音节长度的上下文模型。

13.根据权利要求12所述的车辆，其中，所述模型创建器将所述名称分割成名和姓以创建分割的上下文模型。

14.根据权利要求12所述的车辆，其中，所述模型创建器将所述名称转换成音素并且将所述名称建模成语音网格形式。

15.根据权利要求12所述的车辆，其中，所述语音识别器从各个上下文模型创建对应于所述语音信号的电话号码候选组，并且将高权重值施加给具有对应于所述讲话长度的音节长度的电话号码候选组。

16.根据权利要求7所述的车辆，其中，所述语音识别器基于所述声学模型识别所述语音信号的音素串，并且在所述上下文模型中搜索对应于识别的音素串的一个或者多个电话号码候选项，以创建所述电话号码候选组。

17.根据权利要求7所述的车辆，进一步包括讲话长度测量单元，被配置为从所述语音信号检测讲话开始BoS和讲话结束EoS并且基于所述BoS和所述EoS测量所述讲话长度。

18.一种车辆的控制方法，包括：

从通过对电话簿中包括的每个名称进行建模所创建的上下文模型创建与所接收的语音信号对应的电话号码候选组；

根据用户的讲话长度确定可靠性权重值；并且

根据电话号码候选项的音节长度施加所述可靠性权重值。

19.根据权利要求18所述的控制方法，其中，确定所述可靠性权重值包括基于讲话开始BoS与讲话结束EoS之间的差测量所述讲话长度。

20.根据权利要求18所述的控制方法，其中，确定所述可靠性权重值包括确定所述可靠性权重值以使得具有对应于所述讲话长度的音节长度的电话号码候选项具有高度可靠性。

21.根据权利要求18所述的控制方法，其中，确定所述可靠性权重值包括确定所述可靠性权重值，以使得如果所述讲话长度短于或者等于阈值长度，则单音节的电话号码候选项具有高度可靠性。

22.根据权利要求18所述的控制方法，其中，确定所述可靠性权重值包括确定所述可靠性权重值，以使得如果所述讲话长度长于或者等于阈值长度则单音节的电话号码候选项具有低度可靠性。

23.根据权利要求18所述的控制方法，其中，创建所述电话号码候选组包括：

从所述语音信号检测特征向量；并且

根据所述特征向量从声学模型识别所述语音信号的音素串。

24.根据权利要求23所述的控制方法，其中，创建所述电话号码候选组包括基于关于所述音素串的可靠性程度创建所述电话号码候选组。

25.根据权利要求23所述的控制方法，其中，所述电话号码候选组具有高于或者等于关于所述音素串的预定标准的可靠性程度。

26.根据权利要求18所述的控制方法，其中，施加所述可靠性权重值包括：

根据可靠性程度排列所述电话号码候选组中的一个或者多个电话号码候选项；并且

显示具有根据所述可靠性程度排列的所述电话号码候选项的所述电话号码候选组。

27.根据权利要求18所述的控制方法，进一步包括：

接收对应于用户讲话的语音信号；并且

对所述语音信号进行预处理。

28.根据权利要求18所述的控制方法，进一步包括根据名称长度对所述电话簿进行分类并且创建用于所述名称长度中的每个的上下文模型。

29.根据权利要求28所述的控制方法，其中，创建所述上下文模型包括：将每个名称转换成音素串；并且

基于所述音素串创建语音网格。

30.一种车辆，包括：

多个上下文模型，通过根据名称长度对电话簿进行分类创建所述多个上下文模型；

候选组搜索单元，被配置为从相应上下文模型创建对应于所接收的语音信号的上下文候选组；

权重施加单元，被配置为将不同的可靠性权重值分别施加给所述上下文候选组，以使得从对应于用户的讲话长度的上下文模型所创建的上下文候选组具有高度可靠性；以及

显示单元，被配置为根据可靠性程度排列和显示施加了所述可靠性权重值的所述上下文候选组。