CN1189861C

CN1189861C - 计算机实现的语音识别系统训练

Info

Publication number: CN1189861C
Application number: CNB018150381A
Authority: CN
Inventors: 唐纳德·L·瓦尔楚克; 斯蒂芬·里格斯比
Original assignee: Snap On Technologies Inc
Current assignee: Snap On Inc
Priority date: 2000-09-01
Filing date: 2001-08-03
Publication date: 2005-02-16
Anticipated expiration: 2021-08-03
Also published as: WO2002021509A1; TW571290B; JP2004508593A; EP1314151B1; CN1451152A; AU2001279172A1; EP1314151A1; US6556971B1

Abstract

计算机实现的语音系统训练，包括，显示一个代表某一概念的图标，提示用户进行包含了被用户确定要与所述图标关联的由任何声音组成的发声，确定发声和图标的关联，把发声和图标的关联保存到计算机可读的介质中。本发明特别适用于但并不局限于包括车轮定位或者车辆引擎诊断在内的车辆诊断领域。

Description

计算机实现的语音识别系统训练

技术领域

本发明涉及训练语音识别系统，更具体地说，本发明涉及用于把用户选定的发声和由图标代表的概念关联起来的计算机实现的语音识别系统训练。

背景技术

在语音识别领域，已实现多种方法来把用户说的话或者发声和一个参考发声模式关联起来。通常在使用语音识别系统之前的“训练期”在预期的环境中创建参考发声模式。在训练期间，现有的语音识别训练系统提示用户根据屏幕上显示的特定单词向麦克风发声。发声由模数转换器以及诸如滤波器、放大器之类的适当电子设备转换成要由软件处理成代表性的波形或者向量的信号，本领域的普通技术人员都知道这一点。例如，发声可用傅立叶变换转换成多维向量以生成一系列的描述特定时间单元中发声频谱特征的数值的帧。

例如，语音识别系统用在制造、修理、航空以及医疗应用中，在这些应用中它对于用户在执行其它可由计算机控制的机器或者设备执行的手工任务的同时腾出他或她的手来执行手工任务是很重要的。使用麦克风，执行第一任务的用户可控制一个或者多个指定的系统而不必转移时间和/或注意力来专门执行每个额外的任务。这种类型的系统用在自动化应用中允许用户控制连接到计算机上的诸如起重机或者千斤顶之类的设备。这种类型的系统还用在车轮定位处理中，提供反馈和传感器数据以指导用户进行必需的调整从而使得车辆符合指定的定位值。

传统的软件应用程序，包括语音识别应用程序，越来越多的把图标作为概念或者预定程序指令集合的图形化速记符。从而，用户可知道当单击或者选择某图标时将发生预定的事件或者事件序列。紧靠图标常常有一个标签或者文本框以进一步说明图标所描述概念的意思。标签或者文本框在语音识别应用程序特别重要，其中必须训练软件和计算机以把用户的口头命令和所需的图标关联起来。通常，用户要重复图标附近显示的特定单词或语句，不管是软件实际需要还是仅仅是为了避免混淆。例如，对于标签附近“save(保存)”的具有软盘外形的图标，用户将训练软件识别用户的“save”发声。从而，避免用户使用可能带来给该用户更多意义或者意思的其它发声或者语句，随着图标所描述概念的内容变得越来越抽象并且越来越难于定义，这个问题变得更加重要。

此外，这些语音识别系统对外国语言的适应也是让人担忧的问题，这需要对软件的显示以及有关的语言数据库进行修改从而增加了系统的额外花费和复杂度。如果没有某个语言数据库(例如日语)，那么对基本语言(例如英语)不完全精通的人可能就很难理解和/或读出参考单词并因此影响生产率。特别地随着相关联的短语和任务变得越来越复杂，对非母语讲话者来说参考单词也可能会对其记忆力形成挑战从而进一步影响生产率。

在极端的情况下，人们可能不精通阅读他们自己的本国语言或者有发音障碍，这对训练和实现主要基于特定单词和相应行为对应关系的语音识别控制系统设置了更多的障碍。即使没有这些困难，把所需效果或者结果和外部强加的效果或者结果的定义关联起来也并不总是很容易。换言之，软件设计者对操作或者操作序列的定义或者速记概念可能并不和用户基于自己的体验对同一操作或者操作序列产生的内在定义完全对应。因此，可能存在用户不能想起特定软件所利用关系的记忆不符的情况，从而需要用户从手头的任务转移不必要的注意力。

因此，需要训练对语言基本不敏感并适应单个用户的语音识别系统。

发明内容

在多个方面和实施例中，本发明提供把用户选定的发声和图标所代表的概念关联起来以满足上文指出的需求的计算机实现的语音识别系统训练。

在一个方面中，用于训练计算机实现的语音识别系统的方法包括显示代表一个概念的图标，并提示用户发出自己决定与该图标相关联的声音。该方法还包括确认该次发声和该图标的关联，并把该次发声和该图标的关联保存到计算机可读的介质中。

在另外一个方面中，计算机可读介质具有使计算机可把用户发出的声音和用户选定的与一个图标相关联的概念关联起来的指令，这里声音可包括用户想和图标关联的任何声音或者声音的组合。这些指令把用户的声音和与选定的图标相关联的概念或者指令集关联起来。然后，存储声音以及声音与图标的概念之间的关系。还有指令把后来的用户声音和存储的声音相比较以确定后来的声音是否和存储的声音相对应。如果相对应，就用存储的声音和图标概念之间的关系来执行和所确定的图标对应的指令集。

在又一个方面中，基于计算机的车辆诊断系统包括一个语音识别程序产品，其与计算机处理器一起处理由诸如麦克风之类的语音到信号变换器提供给处理器的信号，并把显示器上显示的图标所代表的概念和用户确定的声音相关联。

根据下面的详细介绍以及附图，本发明的这些以及其它特征和优点对本领域一般技术人员来说是很明显的。

附图说明

图1是描述要在其上实现本发明实施例的计算机系统的框图；

图2是根据本发明方法的框图；

图3所显示的代表了图2中方法的一个步骤；

图4(a)-4(e)所显示的代表了图2中其它步骤的显示；

图5描述了包含多个代表不同概念的图标；

图6示意性地表示了一个结合本发明语音识别系统训练的车轮定位系统。

具体实施方式

说话者注册到语音识别软件中并对其训练使得用户能有效地执行多项任务，不必从手头上的任务转移过多的时间或者注意力就可用语音命令输入数据、接收数据并通过计算机操作设备。例如，在操作车轮定位器时，采用本领域普通技术人员公知的方式把利用从传感器得到的测量值所计算出的定位值和根据车辆的规格所需的定位值进行比较。根据这里描述的方法和系统，一个计算机实现的语音识别系统把用户选择的发声和显示到显示器上的图标所代表的概念关联起来。

图1是描述在其上实现本发明实施例的计算机系统100的框图。计算机系统100包括总线102或者其它用来传递信息的通信机制，以及连接到总线102用来处理信息的一个或者多个处理器104。计算机系统100还包括一个连接到总线102用来存储信息和处理器104要执行指令的主存储器106，例如随机存取存储器(RAM)或者其它动态存储设备。主存储器106还可用来存储临时变量或者其它在处理器104执行指令期间的中间信息。计算机系统100还包括一个连接到总线102用来为处理器104存储静态信息和指令的只读存储器(ROM)108或者其它静态存储设备。还提供连接到总线102用来存储信息和指令的存储设备110，例如磁盘或者光盘。

计算机系统100可通过总线102连接到诸如阴极射线管(CRT)之类的显示器112上以向计算机用户显示信息。包括字母键以及其它键在内的输入设备114连接到总线102上用来向处理器104传递选择的信息和命令。另外一种类型的输入设备是诸如鼠标、轨迹球或者光标方向键之类的光标控制件116，用来向处理器104传递选择的方向信息和命令并控制光标在显示器112上移动。这种输入设备通常具有允许设备确定平面上位置的第一个轴(例如x)和第二个轴(例如y)这两个轴上的两个自由度。

计算机系统100用来训练语音识别系统将用户所选择的发声和计算机系统显示的图标所代表的概念关联起来。与之一致，计算机系统100响应执行包含在主存储器106中的一个或者多个指令的一个或者多个序列的处理器104，提供训练语音识别系统把用户所选择的发声和图标所代表的概念关联起来。可从诸如存储设备110之类的其它计算机可读的介质把这些指令读进主存储器106。

执行包含在主存储器106中的指令序列将导致处理器104执行这里描述的处理步骤。还可用多处理装置中的一个或者多个处理器来执行包含在主存储器106中的指令序列。在可选的实施例中，可用硬连线电路来代替软件指令或者和软件指令一起使用，可以理解不需要硬件电路和软件的特定组合。

这些指令可以任何形式提供，比如源代码、汇编代码、对象代码、机器语言、上述形式的压缩或者加密版本以及它们的任何及所有等价形式。“计算机可读介质”是指参与向处理器104提供要执行的指令的任何介质，“程序产品”是指含有计算机可执行程序的那些计算机可读介质。计算机可用介质也可称之为“含有”指令，它包括指令和计算机可用介质关联的所有的方式。

计算机可读介质包括，但不仅限于，稳定介质、不稳定介质以及传输介质。例如，稳定介质包括光盘或者磁盘，比如存储设备110。不稳定介质包括动态存储器，比如主存储器106。传输介质包括同轴电缆、铜线以及光纤，包括组成总线102的线在内。传输介质还可采用声波或者广播的形式，比如在射频(RF)和红外线(IR)数据通信中生成的那些。例如，计算机可读取介质的常见形式包括软盘、磁盘、硬盘、磁带以及其它磁介质，CD-ROM、DVD以及其它光介质，穿孔卡片、纸带以及其它采用穿孔形式的物理介质，RAM、PROM、EPROM、FLASH-EPROM以及其它存储芯片或者磁带，后面描述的载波或者计算机可读取的其它介质。

在向处理器104传递要执行的一个或者多个指令的一个或者多个序列中可包含计算机可读介质的多种形式。例如，起初指令可能存储在远程计算机的磁盘上。远程计算机可把指令载入它的动态存储器并用一个调制解调器通过电话线发送这些指令。计算机系统100上的调制解调器可接收电话线上的数据并用红外线发射机把数据转换成红外线信号。连接到总线102的红外线检测器可接收红外信号中携带的数据并把数据放到总线102上。总线102把数据送到主存储器106，处理器104从主存储器接收并执行指令。主存储器106接收到的这些指令可在处理器104执行之前或者之后存储在存储设备110中。

计算机系统100还可包括一个连接到总线102以向连到本地网络122的网络链路120提供双向数据通信联接的通信接口118。例如，通信接口118可以是向相应类型的电话线提供数据通信连接的综合业务数字网(ISDN)网卡或者调制解调器。作为另外一个例子，通信接口118可以是向兼容局域网(LAN)提供数据通信连接的LAN网卡。也可使用无线链路。在任何一种这类实现中，通信接口118发送和接收携带表示各种类型信息的数字数据流的电信号、电磁信号或者光信号。

网络链路120通常通过一个或者多个网络向其它数据设备提供数据通信。例如，网络链路120可通过本地网络122提供到主机124或者因特网服务提供商(ISP)126运行的数据设备的连接。反过来ISP 126通过全球分组数据通信网提供数据通信服务，现在全球分组数据通信网通常是指“因特网”128。本地网络122和因特网128都使用携带数字数据流的电信号、电磁信号或者光信号。通过各种网络的信号以及网络链路120上并通过通信接口118的信号，携带来自或者发送到计算机系统100的数字数据，是传输信息的载波的典型形式。因此在这里通过实例描述的本发明方法所需的处理可在本地计算机上使用存储设备110实现或者在LAN或互联网上实现。

计算机系统100可通过网络、网络链路120和通信接口118发送消息接收数据，其中包括程序代码。在因特网实例中，服务器130可通过因特网128、ISP 126、本地网络122和通信接口118发送一个用于应用程序的请求代码。根据本发明，这种下载的应用程序训练语音识别系统把用户所选择的发声和这里描述的图标所代表的概念关联起来。接收到的代码可由处理器104在接收到时执行，和/或存储在存储设备110或者其它稳定存储器中以便以后执行。在这种方式中，计算机系统100可以载波的形式获得应用程序代码。

在操作中，用户向声音到信号转换器或者诸如马萨诸塞伍斯特(Worchester)的David Clark公司的可穿戴“DCNC”耳机的麦克风117发声。或者，也可把一个或多个固定的麦克风117放置在靠近工作地点或者计算机100的地方。系统可包括一个用于发射和接收麦克风117和控制台100之间通信的硬连线收发器。或者，用户、实现本发明方法的计算机100以及存储在主存储器106或者存储设备110中利用本发明方法的软件之间的通信可通过本领域常见的高频无线设备实现，比如德国GNNetcom^TM生产的Ellipse^TM模型。这种设备和位于控制台的相应收发器通信。包括电信号、电磁信号或者光信号传输在内的传统数据传输手段会对信号适当编码，一个发射机一个发射机的直到和计算机100相关联的接收发射机。

为了在保持用户移动自由的同时帮助用户和计算机100之间的交互，可通过诸如和眼镜或者头盔相连的包括维吉尼亚Fairfax的Xybernaut^TM制造的“Mobile Assistant TV”^TM(移动辅助TV)在内的头罩显示器之类的便携或者可穿戴的显示器112向用户提供数据，帮助用户实现下面讨论的本发明的方法。另外一种相配的可穿戴显示器包括Redmond Washington的Virtual Vision公司的“Virtual Vision Sport”或者“eGlass”便携监视器。下面描述的语音识别训练方法还可通过传统的CRT显示器、平面显示器(例如，LED、LCD以及LCOS(硅基液晶)显示器)或者投影图来实现。所选的显示器装置显示根据用户发声从计算机100输出的数据和信息。

比利时Lernout & Hauspie^TM的自动语音识别(ASR)软件，比如L&H PCMM ASR 1500版或者1600版，可和上述系统结合使用来实现本发明的方法，如图2中所示的示例。在步骤200中，向用户显示至少一个代表某个概念的图标，其中图标代表的概念可属于计算机可执行的指令集中。

步骤200如图3所示，它描述了显示多个图标300的启始说话者注册的屏幕，每个图标图形化说明该图标所代表的概念。例如，图标350描述一个完整的车辆定位序列。如图5所示，其它图标包括但不仅限于代表向包含多个执行特定测量功能相关联的图标的屏幕转移的图标550以及代表向包含多个与执行调整功能相关联的图标的调整屏幕转移的图标560。

在图3中，可用靠近每个图标300显示的标题310对图标所代表的概念进行文字说明以向执行语音识别程序训练的用户提供额外的指导。还举例显示了戴耳机的人320和扬声器330的图标。这些图标用来发起所选图标300的注册以及允许重放分别为选定图标所记录的发声。尽管显示了多个图标320和330，但可用一个图标来提供图标320和330所提供的每个功能。

用户可通过选择图标350开始讲话者(speaker)注册过程，比如用鼠标单击该图标，然后选择图标320来启动图标的讲话者注册。或者，讲话者注册过程以及与之相关联的任何应用程序也可使用语音响应导航键或者图标375。例如，这些导航键包括“导航”、“左”、“右”、“上”、“下”以及“回车”，图3和图5显示出了他们中的几个。导航键375可与预定的文本语音命令对应，比如“左”或者“右”。或者，导航键也可使用下面描述的用于图标300注册的过程与用户所选择的发声或者声音关联。

在选择了图标300之后，在步骤210中提示用户发出一个和所选图标350相关联的发声，如图4(a)所示。用户的发声不限于任何特定的单词、声音或者语言。换言之，不限制用户只把预定的单词和选定的图标350关联，用户可关联包括任何声音或者声音组合的其它发声。例如，尽管标题310是“Run Pro32 Wizard”(运行Pro32向导)，用户可说“Start Wheel Alignment”(开始车轮定位)或者“Anfang RadAusrichtung”或者任何其它声音或者声音的组合。该发声存储在主计算机存储器106、存储设备110或者存储在LAN 122或者服务器130存储设备，利用本领域普通技术人员知道的包括但不限于脉冲编码调制和傅立叶变换操作在内的方法把其转换成一个或者多个典型的波形或者频谱特征向量(帧)。存储和转换发声的精确方法并不是这里要介绍的发明概念的中心，它只是用来存储和转换发声的方法和设备允许用户把包括任何声音或者声音组合的和显示的图标相关联所必须的。

步骤220确认发声和所选图标350的关联。优选但不是必需的，用户至少再发声两次以保证语音识别软件正确采样和分析发声波形以解决所选发声的轻微变化。可把这些发声中的每一个单独保存到数据库中并和选定的图标关联以用于单个的检索和与后面发声的比较，或者可用本领域一般技术人员公知的方法组合成典型的发声。可以多次反复发声从其中的变化生成个性误差函数，然后就可把它用于后面的发声中以解决用户语音中的自然变化。还可适应单个的发声，其中语音识别软件可应用适于处理发声波形中预定级别变化的一般化的信号处理算法。在发声重复所需的次数后，用户通过单击或者说图4(b)中显示的“OK(确定)”确定发声和图标350的关联。

步骤230把发声和图标的关联永久保存在适当的计算机可读介质中，比如把它们存储在存储发声以及把存储的发声和可执行程序指令集合和不同图标所代表的概念相关联的指针的关系数据库中。如图4(c)所示，用户有机会把发声和图标的关联永久性地添加到数据库中。

还可能包括其它步骤，比如图4(d)中显示的步骤240，提示用户重复与选定图标相关联的发声。在步骤250中用本领域普通技术人员公知的传统方法把这个重复发声和保存的发声进行比较。最后，如图3(e)所示，向用户显示所确定的图标350，确定图标350和发声之间的成功匹配。

根据上面的讨论在诸如图2-5中所显示的车轮定位应用程序之类的应用程序的使用中，用户可在显示一个或者多个图标的显示器上通过发出用户先前训练应用程序把其识别为选择那个图标的声音来选择任何图标。因此，提供了训练系统识别用户发声并把发声和特定图标所代表的特定概念相关联的新方法，如图2所示。

如果在应用程序激活图标所代表的预期概念中的发声尝试没有成功，可与可穿戴显示器、麦克风以及能进行双向交流的附属电器一起使用导航键375，用导航命令高亮显示并选择所需的图标，从而轮选图标300。例如，用户可通过说“navigate”(导航)或者其它等价的用户指定的发声来选择用于注册的图标350，于是高亮显示位于所选择开始点的图标300。然后用户就可使用适当的导航命令选择图标350。因此，用户不必返回到控制台或者计算机100手工输入数据或者重新训练软件就可避免不合时宜的错误。

实现语音识别系统训练的方法还可包括通过自动或者通过对用户的查询的来适应先前保存的发声模型以包含未识别的发声。在利用诸如导航键375之类可选装置确定正确的图标之后，就修改误差函数以解决代表未识别的发声的多维向量和先前存储的发声之间的偏差。因此，未识别的发声可转换成多维向量串或者代表发声频谱特征的帧并和先前生成的误差函数连同先前存储的发声作统计上的比较。但是，如上所述，用来存储和转换用户发声的精确方法不是这里介绍的发明概念的中心，他们可包括语音处理和计算机编程领域普通技术人员所公知的任何方法和设备，只要这些方法和设备允许用户把包括任何声音或者声音组合在内的发声和显示的图标关联起来。

还可作为计算机可读取的指令提供计算机实现的语音识别系统训练。这些指令存储在计算机可读取的介质上，比如硬盘驱动器，并把用户发出的声音和诸如图标350之类所选图标关联起来。用户发出的声音和存储的声音以及与选定图标350关联的概念之间的关系存储在计算机可读的介质上。用户可发出或者生成与选定图标350相关概念关联的声音或者声音的组合。并不把用户限制在软件或者在某些方面中建议的标题310所选择的声音中。

为了在后面使用与语音识别系统协同关联的应用程序过程中选择所选图标350代表的概念，用户重复对应该图标的所需的声音或者声音组合。利用本领域普通技术人员公知的方式把这个后来的声音和存储的声音相比较以确定后来的声音是否和存储的声音对应。如果发现匹配，就根据存储声音和后来声音之间的对应关系确定和存储声音关联的概念。在确定所需概念之后，就执行和该概念对应的指令集。指令集包括控制信号的输出。

例如，如果图标表示的概念可通过在键盘上按下“ctrl-y”执行，软件指令将向有关的处理器输出“ctrl-y”命令。或者，为了在用户视野的前部可视地显示数据，软件也可向可穿戴显示器输出和概念对应的数据，包括所选的图标或者从所选图标开始的有效相关的图标。软件还可向机器输出控制信号以根据与所确定存储的用户发声相关联的概念执行功能。例如，可向包含诸如车轮定位系统或者车辆引擎诊断系统之类的车辆诊断系统的自动服务系统输出控制信号，我们将在下面通过实例进行介绍。

很方便就可将上述计算机实现的语音识别系统的一个方面提供给一个车轮定位系统。图6显示了这种车辆诊断系统的一种可能配置，包括多个诸如车轮定位器634之类的操作组件，车轮定位器具有包含用于测量诸如后倾角(caster)、外倾角(camber)或者前束(toe-in)之类的车辆定位特征的传感器的车轮安装定位头636，并以本领域普通技术人员公知的方式生成说明定位特征或者每个车轮方位的信号。车轮定位系统还包括一个包括一个或者多个千斤顶640的车辆升降机或者支架638以及一个车轮平衡器642。定位器634、支架638和平衡器642分别通过适当的接口646、648以及650和通常用编号644来表示的控制台通信，例如它们可以是电线、无线电或者红外线收发器或者光纤。

控制台644包括系统总线652，由电源654供应电源。电源654还可向很多功能模块提供电源，包括位于系统总线652和自动服务设备之间的许多通信模块656。通信模块656在自动服务设备和系统总线656之间传输数据。语音处理器模块658位于系统总线652和诸如耳机之类的信号到声音转换器614之间用来从系统总线以预录制或者合成语音的形式向用户提供数据。在这个方面，语音处理器模块658还可放在系统总线652和诸如麦克风之类的声音到信号转换器614之间用来从用户向系统总线和计算机668提供数据。还提供诸如可穿戴Xybemaut^TM显示器之类的显示器620以可视地输出从计算机和系统总线接收到的数据，并通过视频控制模块把数据信号转换成适于显示的形式。打印机控制模块662、打印机666和磁盘驱动器672也连到系统总线上，如果需要的话连接可使用单独的数字I/O装置664。

计算机668至少包含一个处理器，比如Intel Pentium III或者AMD(Advanced Micro Devices，高级微设备)Athlon处理器，但是也可包含多个处理器。计算机668连接到系统总线652通过执行计算和管理任务为自动服务系统提供全面控制。控制台644还可包含一个键盘670和磁盘驱动器672，通过它们可把车辆数据、指令之类的数据传给计算机668。此外，系统还可通过接口674和外部系统通信。

根据上述用于训练语音识别的方法和系统，可提供语音识别程序产品来和处理器或者计算机668一起处理由用户通过麦克风614提供给处理器的信号。语音识别程序产品把计算机668显示在显示器614中的图标300所代表的概念和用户所确定的声音关联起来。如上所述，用户创建分别和多个图标300相关联的声音数据库。在操作中，把来自麦克风614的数字信号(亦即后面的发声)和在数据库中存储的数字信号(亦即存储的发声)进行比较直到找到一个匹配或者存储的所有发声都已被处理但没有找到匹配。当找到匹配时，计算机668向车轮定位系统的适当组件发送与确定图标所代表的概念对应的诸如控制信号之类的指令。例如，计算机668可向电连接到计算机的升降机638和/或支架640提供控制信号来升起或者放下升降机或者支架。或者，诸如图标550或者560之类的选定图标所代表的概念可引导用户到其它包含不同图标的屏幕。如果没有找到匹配，就由计算机668通过扬声器、显示器或者其它发光或者发声设备向用户发送错误消息。如果没有找到匹配，用户可选择使用导航键375来选择正确的概念或执行讲话者注册训练来重新训练系统。

因此，语音识别训练的上述方法和系统提供了一个对语言完全不敏感和单个用户高度一致的语音识别系统。要认识到，尽管通过其不同方面对本发明进行介绍，正如后面权利要求书中所述本发明还包括很多方面和细节的变化，它们涵盖在这里通过实例介绍的在本发明基本范围和精神之内的等价物。

Claims

1.一种用于训练计算机实现的语音识别系统的方法，包括：

(a)显示代表一个概念的图标；

(b)提示用户进行包含了被用户确定要与所述图标关联的任何声音的发声；

(c)确认所述发声和所述图标的关联；以及

(d)把发声和图标的所述关联保存到计算机可读介质中。

2.如权利要求1所述的用于训练计算机实现的语音识别系统的方法，其特征在于，所述图标代表一个与车辆诊断相关的概念。

3.如权利要求2所述的用于训练计算机实现的语音识别系统的方法，其特征在于，所述图标代表一个与车轮定位相关的概念。

4.如权利要求1所述的用于训练计算机实现的语音识别系统的方法，其特征在于，所述确认步骤还包括：

提示用户重复发声。

5.如权利要求4所述的用于训练计算机实现的语音识别系统的方法，还包括：

(e)提示用户重复与图标相关联的发声；

(f)将重复的发声与多个存储的发声相比较来确定相关联的图标；以及

(g)显示被确定的图标。

6.如权利要求1所述的用于训练计算机实现的语音识别系统的方法，其特征在于，发声是一个单词或者多个单词。

7.一种数据处理系统，用于将用户发出的声音和与选定图标相关联的概念关联起来，该数据处理系统包括：

用于将用户发出的声音和与选定图标相关联的概念关联起来的装置；以及

用于存储用户发出的声音以及存储的声音和与选定图标相关联概念之间的关系的装置，

其中用户发出的声音可包括任何声音或者声音的组合。

8.如权利要求7所述的数据处理系统，其特征在于，还包括：

用于把用户后来发出的声音和存储的声音相比较以确定后来的声音是否和存储的声音相对应的装置；以及

用于根据存储声音和后来声音之间的对应确定与存储声音相关联的概念的装置。

9.如权利要求8所述的数据处理系统，其特征在于，还包括：

用于执行与存储的用户发声相关联的概念所对应的指令集的装置。

10.如权利要求9所述的数据处理系统，其特征在于，还包括：

用于向连接的设备输出一个控制信号的装置，其中，作为控制信号的结果，设备从第一状态变到第二状态。

11.一种车辆诊断系统，包括：

至少有一个处理器的计算机；

声音到信号转换器，用于向处理器输出与输入到该声音信号转换器的声音相应的信号；

显示器，用于接收来自处理器的信号并显示与接收到的信号相应的图像；以及

语音识别程序产品，用于与处理器一起处理由声音到信号转换器提供给处理器的信号，

其中语音识别程序产品包括将显示器上图标所代表的概念与用户所确定的任何声音相关联的指令。

12.如权利要求11中的车辆诊断系统，其特征在于，所述图标代表一个与车辆诊断相关联的概念。

13.如权利要求12中的车辆诊断系统，其特征在于，声音到信号转换器包含麦克风。

14.如权利要求12中的车辆诊断系统，其特征在于，语音识别程序产品包括用于输出与所确定的图标代表的概念对应的控制信号的指令。

15.如权利要求12中的车辆诊断系统，其特征在于，图标描述和车轮定位有关的概念。

16.如权利要求12中的车辆诊断系统，其特征在于，所述图标代表一个与车辆引擎诊断有关的概念。

17.如权利要求14中的车辆诊断系统，还包括：

由计算机控制的设备，

其中语音识别程序产品输出的控制信号被处理器用于将设备从第一状态变到第二状态。

18.如权利要求13中的车辆诊断系统，还包括用于测量车辆相关参数并向处理器提供与所测量相关参数相应的信号的传感器。

19.如权利要求17中的车辆诊断系统，其特征在于，设备至少是配置成响应计算机输出信号上升或者下降的升降机或者支架之一。

20.如权利要求15中的车辆诊断系统，还包括一个可穿戴显示器。