CN1795367A - 操作声音控制导航系统的方法 - Google Patents
操作声音控制导航系统的方法 Download PDFInfo
- Publication number
- CN1795367A CN1795367A CNA2004800143866A CN200480014386A CN1795367A CN 1795367 A CN1795367 A CN 1795367A CN A2004800143866 A CNA2004800143866 A CN A2004800143866A CN 200480014386 A CN200480014386 A CN 200480014386A CN 1795367 A CN1795367 A CN 1795367A
- Authority
- CN
- China
- Prior art keywords
- user
- voice
- data
- dialogue
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000004044 response Effects 0.000 claims abstract description 61
- 238000011156 evaluation Methods 0.000 claims description 7
- 230000014509 gene expression Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 description 7
- 230000008676 import Effects 0.000 description 6
- 238000012856 packing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/26—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
- G01C21/34—Route searching; Route guidance
- G01C21/36—Input/output arrangements for on-board computers
- G01C21/3605—Destination input or retrieval
- G01C21/3608—Destination input or retrieval using speech input, e.g. using speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Automation & Control Theory (AREA)
- General Physics & Mathematics (AREA)
- Navigation (AREA)
- Machine Translation (AREA)
Abstract
本发明描述了一种在自动进行的对话中操作声音控制的导航系统(1)的方法,其中:考虑地理标准(GK),产生输入请求(P)并将其输出给用户,并且检测用户所发出的口头响应(S)。考虑该地理标准(GK),分析该口头响应(S),以使用自动声音识别方法来识别位置数据。另外,本发明描述了相应的用于导航系统的声音数据用户接口。
Description
技术领域
本发明涉及一种操作声音控制导航系统的方法。另外,本发明涉及一种用于导航系统的声音数据用户接口、一种具有这种声音数据用户接口的导航系统、以及一种计算机程序,以在导航系统的声音数据接口的处理器上执行该方法。而且,本发明涉及一种产生在所述方法中使用的地理数据库的方法,以操作声音控制导航系统。
背景技术
使用导航系统的现代机动车辆逐渐增多。这种类型的导航系统使得用户能够计算出到达特定目的地的路线,并且在行程期间沿着该路线引导用户。为了能够提供这些功能,导航系统使用其中包含关于地理区域、城镇、位置、建筑物、街道、交叉点、沿特定部分道路的偏爱行程时间、道路的速度限制等信息的地理数据。使用这种地理数据,导航系统能够找到最优路线,即从起点至特定目的地最短和/或最快的一条路线。可以由用户通过适当的用户接口输入该起点和/或目的地。可替换地,在某些导航系统中,也可以使用自动位置确定设备、例如使用GPS来确定起点,说是当前的起点。
该用户接口通常包括用于输入位置数据的键盘。这里假定“位置数据”是关于任何位置、区域、建筑物、道路等的地理数据。更加便利的导航系统可替换地或另外配备有声音数据用户接口,用户可以使用其以自然语言进行交流。由于声音数据用户接口使得能够不动手就可以对特定的设备进行操作,从安全的角度考虑,优选地需要使用这种方式来控制机动车辆中的导航系统。在行程期间,驾驶员可以操作该导航系统,而不必为此将其手从方向盘上挪开。
在使用这种声音数据用户接口的情况下,通过麦克风将用户所发出的、例如指定位置或给出命令的口头响应检测为声音信号。然后将该口头响应发送到声音识别装置,从而可以识别该位置或命令,并将其以机器可读的形式传送到该导航系统的控制装置。声音识别系统通常以这种方式工作:首先对该口头响应(下面也称之为声音信号)进行频谱分析或按照时间分析,并然后将所分析的声音信号逐部分地与具有已知声音信息的不同模型的可能信号串进行比较。因此,该声音识别系统通常配备有完整的不同可能信号串的库。使用接收到的声音信号与有效模型的比较,选择与特定部分的声音信号最匹配的模型,从而得到识别结果。由此,通常计算每一模型与相关部分的声音信号匹配的概率。在分析和计算单个模型与相关部分的声音信号匹配的概率期间,通常参考语法和/或语言规则。这样就避免有可能单个部分的长声音信号只是孤立地与特定的有效模型匹配完好,并且确保考虑了该部分声音信号所存在于其中的该内容,以全面得到有用的识别结果,从而减少错误率。然而,使用导航系统中的声音识别系统所存在的一个问题就是,位置数据、即目的地城镇、联邦州、街道、建筑物等通常包含适当的名称、拼写和发音,其可能是极其不常用的。通过使用该声音识别系统的所有可能位置数据的完整模型作为限制的活动词表,可以改进该识别结果。然而由于有大量的概率,该声音识别系统的词表对所有可能出现的所有位置数据做全局完整的限制实际上并不可行。另一方面,特别是在用于导航系统的声音数据用户接口的情况下存在的问题就是,通常必须在不理想的条件下输入口头响应,例如具有相对大量的背景噪声。因此,用于改进在声音识别期间的识别质量的附加条件将极其有用。
发明内容
本发明的目的是提供一种操作声音控制导航系统的改进方法、以及一种相应的用于导航系统的声音数据用户接口,其通过简单的方式增加声音识别的质量。
该目的通过一种操作声音控制导航系统的方法实现,其中考虑地理标准,在自动进行的对话中产生输入请求,并输出给用户,检测用户所发出的响应口语,并考虑地理标准,分析该口头响应,以使用自动声音识别方法识别位置数据。
按照配备,通过用于导航系统的声音数据用户接口实现该目的,其具有用于向用户输出输入请求的输出装置,用于检测用户所发出的口头响应的声音输入装置,用于考虑地理标准、控制与该用户的对话的对话控制装置,用于考虑地理标准、产生输入请求的提示产生单元,用于考虑地理标准、分析所检测的口头响应以识别位置数据的声音识别装置和分析单元,以及地理数据库和/或用于访问地理数据库的数据接口,其可以将地理标准和/或地理数据用于该对话控制装置和/或该提示产生单元和/或该声音识别装置和/或该分析单元。
从而使用以特定的对话写(dialog-writing)语言存储在该系统中的对话写系统,通过该对话控制装置对该对话顺序进行控制。其可以是任何对话写语言。常规语言的范例是面向方法的编程语言,诸如C或C++或所谓的混合语言,其是声明性并且面向方法的,诸如Voice XML或PSPHDDL,这种语言具有的结构类似于通常用来写互联网站的HTML。因此主要是通过向该用户输出对应的输入请求、也就是通常所熟知的提示来进行控制。
使用自动进行的对话,在多个查询步骤中反复地确定所想要的目的地。由于是考虑地理标准在该自动对话中输出各个提示,因此相应地可以在该语音识别方法中使用这些地理标准,用于识别特定提示之后的口头响应,以限制该活动词表或评估语言假设等。结果,相当大的地改善了各个对话阶段中的识别结果,这样就从整体上得到了极其可靠的正确位置识别。
例如可以通过这样一种方式来产生相应的输入请求:从已经指定的一组可能输入请求中选择一个特定的输入请求。通过这种方式,该输入请求也可以完全是作为该对话顺序中特定位置的函数新产生的。
原则上可以由该提示产生单元通过任何方式产生这种提示,并将其例如以显示器上的书写形式等输出给用户。然而优选地,以口头形式进行输出。这样的优点是,用户可以记录该提示,同时继续观察交通,这样的结果就是操作该导航装置变得更加安全。也可以同时进行口头和视觉输出。口头输出所使用的例如可以是声音合成器(文本语音转换器),以将提示输出从文本形式转换成为口头形式。因为使用预备的提示,它们也可以存储在音频数据库中。该提示产生单元也可以逐部分地根据预备的音频数据来编译提示,例如句子的特定部分,从而也通过声音合成器在可以应用的地方产生各个部分。
从属权利要求包含本发明特别有利的实施例和进一步的实施例。从而可以通过类推与该方法相关的权利要求进一步开发根据本发明的声音数据用户接口。
当识别了随后的口头响应时,根据已经产生的提示,有多种选择来使用该地理标准。
在优选实施例中,使用在产生该输入请求中所考虑的该地理标准来编译单词列表,其用作在用户随后所发出的口头响应的语音识别期间的限制活动词表。因此,例如在产生输入请求“你的目的地位于哪一个联邦州?”的时候(其中在该范例中,假定导航系统具有当前所使用的覆盖全部德国的地理数据库),在对用户随后所发出的口头响应的声音识别中将使用相对短的单词列表,其只包括该国家中所有联邦州的名称。
可替换地或除此之外,当前活动的词语列表也可以被编译为该对话内用户所发出的前一口头响应的识别结果的函数。这里有一个范例是,用户已经在前一对话阶段中输入了该目的地位于北莱茵河-威斯特伐利亚联邦州中。对于用户对随后的输入请求“你的目的地位于什么城镇?”的口头响应的声音识别,其然后足够将北莱茵河-威斯特伐利亚联邦州中的所有城镇的名称都包括在该词语列表中。
类似地,随后该对话内用户的口头响应的识别结果也可以用来限制该活动词表,用于更新对用户已经作出的口头响应的识别,以改进该识别或使其位于第一位置。这里的一个范例就是,首先输出其中提示“你的目的地位于哪一城镇?”的对话。因为该声音识别然后不能够提供可靠的识别结果,例如由于没有一个识别假设具有足够的置信级别,在该对话的下一阶段可以输出诸如“附近有什么大城市?”的提示。然后可以将具有大城市的限制词语列表用于该第二提示之后的口头响应。该查询的识别结果然后可以用于对只包括位于所识别的大城市附近的城镇的词语列表进行编译,以进一步试图识别对第一提示的口头响应。如果需要,对作为音频数据被存储的先前口头响应的这种重复识别也可以作为一种情况进行。
这种对活动词表的限制就是所知道的“硬”限制,其结果是只允许特定的识别结果。
可替换地或除此之外,使用该地理数据库,通过在产生前一提示中所考虑的地理标准,可以评估在对该用户所发出的口头响应进行声音识别期间所确定的不同识别假设。这种类型的评估也可以作为对该用户在该对话中之前和/或之后所发出的口头响应的识别结果的函数进行。
随后的评估可以以“软”形式进行,其中编译“n-best列表”,包括特定数目“n”个以顺序排列的最可能的识别假设。在评估编译该n-best列表的该假设中,关于该地理标准,需要确保该识别假设与之前和/或之后的识别结果和/或该输入请求的地理标准一致。如果前面已经限制了该活动词表,也优选地产生这种n-best列表。否则,也可以根据“硬”排除标准进行评估,从而随后对该活动词表进行准限制。
尤其是如果该用户在该对话内所请求的数据并不明确涉及所定义的事情,诸如联邦州的名称、国家等,但是涉及“软”标准,诸如城镇大小、或者如果其包含彼此不同的地理位置之间的关系,诸如与大城市附近之间的关系,那么以评估该识别假设的形式来考虑这些种类的地理标准比硬排除标准更加有用,诸如对活动词表的限制。
优选地也可以使用将一个并且相同的对话中的地理声音识别标准的组合利用方法。例如,对于第一提示的口头响应的声音识别,可以限制该活动词表,并且对于第二提示的口头响应的声音识别,可以使用该地理标准来评估该识别假设。对于特定口头响应的声音识别,可以发生关于某个标准的活动词表的限制以及根据其它各种标准来评估识别假设。
也存在选择该对话顺序本身的各种其它选项。
例如,原则上可以根据地理标准严格分层地构建对话,即在该对话顺序内根据地理标准产生分层构建的提示。这里一个典型的范例是,首先查询该目的地位于哪一国家中,然后,例如如果是可以应用的,就查询联邦州,再然后是区域,最后是城镇,接着是街道,其中在每一阶段区域逐渐缩小,并且相应地只将该区域中可能的响应编译成词语列表。
在替换的过程中,在对话中产生关于地理标准的输入请求,作为对用户所发出的前一口头响应的识别结果的函数。例如,如果在第一步骤中查询该目的地的响应的识别结果不够满意,就可以对最近的大城市进行查询。另一方面,例如如果在第一步骤中已经明确地识别了目的地所位于的城镇,那么在该对话的紧接着的下一步骤中可以查询街道。
当根据分层构建的地理标准构建对话时,也可以另外使用前一口头响应的识别结果,以确定该对话顺序内的其它步骤。一个典型的范例情况是,响应于查询该目的地位于哪一联邦州,指定联邦州“柏林”。在随后的输入请求中,不是询问该联邦州中的城镇,例如查询该目的地所位于的该城镇的行政区域将会更加有用。
使用两种方法,优选地存在一种可能性,如果用户不能回答该特定的问题,例如关于柏林城的行政区域或关于该联邦州内的特定区域的问题,该对话步骤可以通过适当的响应,诸如通过“未知”跳过,或者使用也对该区域进行缩小的不同查询对其进行替换。
优选地,根据前一输入请求和/或对某些数据项的口头响应的前一识别结果,尽可能地限制例如用于编译词语列表和/或用于评估识别假设的该对话中所使用的地理数据库。通过在前一步骤中为随后的步骤限制该数据库,可以相当快地提取适当的单词列表,因为必须查找以编译该词语列表的数据项的数目相应地更小。
进一步,特别优选地使用具有数据项的地理数据库,其分别具有分配给它们的表示一种所关心的数据项的一个或多个标记。数据项的地理类型例如可以是该数据项是否关于国家、联邦州、城镇或大城市,或者是城镇位于哪一联邦州等。该标记也可以表示地理级层。使用这些标记,可以相当快速地完成用于其它步骤的数据库的限制,和/或可以更加快速地提取或更加高效地后处理词语列表,这是由于查找被限制在具有特定标记的项,其中定义有标记的类型,例如当前的级层或当前所查询的地理类型,用于识别或评估前一提示或对话阶段所发出的特定口头响应。
对话控制装置、提示产生装置、声音识别装置和该分析单元分别可以是在适当的硬件上、例如在导航系统的声音数据用户接口的处理器上实施的软件组件。因而,声音数据用户接口其自己配备用于该目的的处理器不是绝对必要的,相反,该声音数据用户接口也可以共用用于该导航系统的其它功能的处理器。在该连接中需要特别指出的是,导航系统并非必须是结构单元,但是其也可能在与其它设备连接的各种设备上实现该系统的各种组件。这特别适用于该声音数据用户接口本身,其组件也可以在空间分离的处理器上实施。于是例如声音识别装置可以使用互联网上的特殊高容量服务器上的分析单元实施,并且可以通过数据连接与例如位于该用户的机动车辆中的该导航系统的其它组件连接。
由于该对话控制装置、提示产生装置、声音识别装置以及该分析装置分别可以采取软件模块的形式,因此有可能使用根据本发明的该声音数据用户接口对配备有适当输出装置、诸如配备有扬声器和/或显示器的现存导航系统进行改进。该系统所需要的一切是配备声音输入单元,例如简单的麦克风,并且需要存在有适当的高效处理器以及与高效处理器的适当连接。导航系统本身中存在对地理数据的访问,由于这需要用于计算路径的数据库。该数据库可以存储在位于该导航系统中的大容量存储器装置中,诸如存储在CD中。然而,其也可以通过网络,例如通过互联网进行查询。
该数据库优选地应该提前作为部分预处理阶段进行修改。例如,表示所涉及的该数据库项的类型和/或地理级层和/或其它地理特征、例如河上位置的这些标记由此可以分配给各个单独的数据项。另外,也可以分层地存储该数据库和/或可以建立各个数据库项之间的关系,并从而确定地理标准。这种类型的地理标准可以存储在该数据库中的分开位置中或直接包含在该数据库项中。例如,数据库项“Eilendorf near Aachen”同时也包含这两个城镇之间的关系。使用这种类型的数据库,根据本发明进行准备使用,那么根据本发明的导航系统将变得更加快速和高效。
附图说明
下面将参照附图中所示的实施例进一步描述本发明,然而本发明并不限与此,其中
图1所示为根据本发明的导航系统的一个示范实施例的系统结构的示意图;
图2所示的方框图解释了根据本发明在用户与该系统之间的一个可能的对话顺序。
具体实施方式
原则上,图1中所示的导航系统可以是配备有导航系统的所有组件的常规导航系统,以确保所需要的功能。出于简明的目的,该导航系统1的这些组件这里只是通过一个单独的方框13表示。为了与用户通信,该导航系统1配备有根据本发明的声音数据用户接口2,其组件在图1中详细地示出了。
该声音数据用户接口2的一个组件是输入/输出接口10,其连接在这里作为声音输入装置11的麦克风11以及在这里作为声音输出装置12的扬声器12。该声音数据用户接口2通过麦克风11可以检测用户所发出的口头响应S。该声音数据用户接口2通过扬声器12可以输出提示P,例如用于引导该用户做出口头响应S。
该用户接口2进一步的一个重要组件是对输入的口头响应S进行预处理的声音识别装置6,其对它们进行处理并在输出端提供识别假设EH。然后在分析单元7中进一步处理这些识别假设EH,从而可以理解该口头响应的内容,例如是命令或位置详情。
该声音数据用户接口2进一步配备有提示产生单元5,通过其产生输出给用户的提示P。对话控制装置3(下面也称作为对话管理器3)通过该系统输出的提示S、并考虑由该用户作为响应发出的口头响应S,负责控制该声音数据用户接口2与该用户之间的对话,其根据预定的对话程序控制该对话。因此,该对话控制装置3与该提示产生单元5、声音识别装置6、分析单元7和该输入/输出接口10连接。结果,该对话控制装置3例如可以向该提示产生装置5传输提示产生命令PB,从而引导其输出具体的提示P。只要该麦克风检测到口头响应S,就通过该输入/输出接口10通知给该对话控制装置3,并且向该声音识别装置6和分析单元7发送启动命令AS。
该声音数据用户接口2的对于本发明很重要的另一个组件是地理数据库8。该数据库8这里表示为集成到该声音数据用户接口2的组件。然而其优选地也可以是该导航系统1的普通地理数据库,其中其只可能部分是该导航系统1的声音数据用户接口2所使用的。
下面参照图2中所示的方框图解释通过这种方式构建的声音数据用户接口2的操作模式。
通常由该对话管理器3在普通激活、例如通过声音命名或通过手动操作设备之后开始对话,将提示输出命令PB输出到该提示产生器5,以将特定的提示P输出给用户。该提示P的产生考虑了在该对话程序中预定的,或者该对话管理器3可以从该地理数据库8中检索的特定地理标准GK。
位于该数据库8中的是数据项DE,例如是名称以及关于国家、区域、联邦州、城镇、街道、显著标志、完整地址等进一步的地理数据。该数据项DE由此可以通过不同的方式输入到该数据库8中。例如,该单个数据项DE可以分别包含标记M,其表示该地理类或该数据项DE所分配的类型,诸如<国家>,<联邦州>,<城镇>,<城镇的行政区域>等,或者<小城镇,<大城市,<1百万居民的城镇>等。作为替换或者除此之外,该数据库也可以被分层组织和/或划分成不同的部分。对于诸如德国的领土,可以有各个联邦州的不同部分的数据库,其中最终输入的是城镇。城镇下的分层设置是城镇的行政区域,并且然后在该城镇的各个行政区域下是街道名称等。
另外,可以在该数据库8中存储某些地理标准,诸如各个数据项DE之间的关系,例如两个城镇相互之间的接近程度。特别地,该数据库8可以具有记录从该数据库不需要努力可以确定哪一地理标准的区域,或者已经准备的数据记录可以用于哪一地理标准的区域。
与该提示输出命令PB同时地,该对话管理器3向词语列表产生器9输出列表编译命令LB,其根据当前所查找的地理标准从该地理数据库8中检索该数据项DE,并且根据这些编译词语列表WL,其包括用于对该用户随后所发出的口头响应S进行声音识别的该活动词表。另外,该对话管理器3将启动命令AS传送给该声音识别装置6和分析装置7,其在这里显示为一个方框。该词语列表产生器9可以是单独的模块。然而,其也可以是该声音识别装置6的子程序,如图1中的范例所示。
该声音识别装置6然后确定该提示P之后的该口头响应S的评估假设,其中将每一口头响应与所存储的包含在该词语列表产生器9所编译的词语列表WL中的词语的声学模型进行比较。由于这是相对限制的词语列表WL,其相比于所有地理属性名称的全部词语列表可以具有更高的识别概率。
然后再次通过可以应用的该分析装置7检查该最佳评估的识别结果EE或多个识别假设EH与该地理数据库8中的数据项DE和/或与前面的识别结果以及与前面的提示的一致性。由此,可以应用的该分析装置7从该数据库8中检索一致性校验数据KCD。如果识别结果EE是确定的,可应用的该数据库8例如如果可以被可靠地排除,根据该识别结果EE或该假设EH将其限制为进一步的对话情况,那么该数据库8中的确定数据项DE就不再出现在随后的口头响应中。因此,例如假定响应于输入请求“请输入你的目的地所位于的联邦州”的可靠识别词语为“下萨克森”,那么在下面的对话步骤中可以分配其它联邦州的所有位置数据。
将该识别结果EE也报告回给对话管理器3,并且也将其输入“位置填充模块”(slot filling module)4,其对该系统当前全部州的知识进行归档。该对话管理器3的位置填充模块4判决该信息何时足够,即何时已经阐明了所有的查询点,以便例如可以精确地确定该目的地或起点。如果信息还不足够,进行进一步的对话步骤,其中再次向该提示产生器5输出提示输出命令PB,向该词语列表产生器9输出列表编译命令LB,以及向该声音识别系统6输出启动信号AS,从而可以识别下一个口头响应。在该步骤中,然后只使用在前面限制的数据库8,从而该整个系统在下面的对话步骤中可以相当快速地进行操作。
如果位置填充模块4确定所需要的全部信息都存在,就引导该提示产生器5发出对应的确认所希望目的地的提示,并且将该目的地传送给导航系统1的其它组件(这里再次显示为方框13),用于进一步处理。
下面参照两个范例更加具体地描述该顺序:
在第一范例中,假定根据地理标准分层构建该对话顺序。在这种情况下,在第一步骤中通过该提示产生器5输出提示,例如“你的目的地在哪个国家?”。由于预期只有不同国家的名称才能为该输入请求的口头响应,通过该词语列表产生器9根据该数据库8产生具有可能国家的词语列表。该词语列表然后可以用于对随后口头响应的声音识别。这是该对话的第一级层。一旦已经正确地识别了该匹配国家,例如如果已经声明国家“德国”,然后在第二级层中产生提示“你的目的地在哪个联邦州?”。然后编译词语列表,列出德国的所有联邦州。然后在进一步的级层中,查询该城镇,或者如果可以,就在插入的级层步骤中查询特定的区域。一旦已经确定了城镇,那么在较大城镇的情况下就可以查询该行政区域,并且最终在下面的阶段之一中,查询该街道名称和门牌号码,或者特定的建筑物等。
在第二实施例的范例中,假定该数据库8中的各个数据库项设置有标记,其表示数据库项的特定类型或这些数据库项之间的特定关系。使用该变量,该对话顺序本身并不严格地以从大到小的地理单元进行分层构建,而是可以相对灵活。在某些条件下,即在良好的识别条件下,这种类型的对话顺序到达目的地的步骤比严格分层结构的对话顺序更少。在这种情况下,该对话控制单元3例如首先选择提示“你想要去哪个城镇旅游?”。然后,如果可以,就编译具有该数据库8中所有城镇项的词语列表。由于在前面没有采取进一步的限制,其当然会是相对较长的列表。换言之,该声音识别系统的活动词表极其宽广,和在前面已经通过在先查询国家、联邦州等进行限制的词语列表相比,这就使得其声音识别更加难以进行。如果该声音识别系统产生可接受的识别结果,那么就可以使用一个查询来阐明该目的地的城镇,并且然后可以在随后的对话步骤中输入进一步的地址数据,诸如街道和门牌号码。
然而,如果该系统还不能确信该结果,例如因为所计算的各种识别假设的置信度还不够,可以将这种情况作为(初步)识别结果发送回到该对话控制装置3。后者然后在随后的对话步骤中输出进一步的提示,例如输出“附近有什么大城市?”。然后编译限制为大城市的活动词语列表。从该数据库8中查找包含标记<大城市>的所有数据项DE可能会相对较简单。该词语列表要相当地小于第一对话步骤中的词语列表,从而由于该活动词表更小,在第二种查询情况下的识别结果EE比第一种更好。
使用该识别结果EE,然后可以提取该数据库8中位于所查找的该大城市附近的所有数据项DE。如果可以应用,在第一步骤中也可以对满足位于所识别的该大城市附近的条件的所有数据项DE进行标记。然后编译包含满足该条件的所有城镇的新词语列表。如果已经存储了该用户对关于所希望的城镇的前一查询的口头响应,现在就可以使用所限制的词语列表再次对该第一口头响应进行声音识别,以得到更好的识别结果。可替换地,该对话管理器3也可以再次引导该提示产生装置5输出第一提示“你想要到哪个城镇?”,并然后使用所限制的词语列表对随后的口头响应进行声音识别。
总之,需要再次要指出的是,本发明并不限于上述实施例范例,特别是该声音用户数据接口的精确结构或所说明的对话的精确顺序,而本领域的技术人员不超出本发明的范围可以很大程度地对其进行变化。
特别地,也可以需要进一步的标准用于声音识别,特别是补充的地理知识。例如,在评估识别假设和/或编译词语列表中也可以考虑距离当前位置的距离。也可以考虑特定用户至今已经达到目的地的次数,这是由于在许多情况下,用户经常旅游到某些相同的位置。也可以通过一个提示覆盖多个查询,例如“说明所想要的目的地和附近的大城镇”。在随后的声音识别中,然后可以使用各个城镇的地理关系,以更好地评估识别假设。而且例如可以将该位置填充模块设置在该分析装置中,而不是设置在该对话管理器中。
已经参照其中必须确定目的地的范例广泛地描述了本发明。然而通过相同的方式,也可以在该用户与该系统之间的对话中确定该起点或其它位置数据,诸如中间停止等。换言之,可以连续进行多个相似的对话。
为了完整,也要指出的是,不定冠词“一个”的使用并不排除所讨论的特征也可以存在多个的可能性,并且词语“包含”的使用并不排除存在进一步的元件或步骤。
Claims (11)
1.一种在自动进行的对话中操作声音控制的导航系统(1)的方法,其中:
考虑地理标准(GK),产生输入请求(P),并将其输出给用户,
检测用户所发出的口头响应(S),
考虑该地理标准(GK),分析该口头响应(S),以使用自动声音识别方法来识别位置数据。
2.如权利要求1中所要求的方法,其特征在于:使用在产生该输入请求(P)中所考虑的该地理标准(GK),和/或作为该对话中用户所发出的前一和/或随后的口头响应(S)的识别结果(EE)的函数,根据地理数据库8编译词语列表(WL),以用作在声音识别用户随后所发出的口头响应期间的活动词表。
3.如权利要求1或2中所要求的方法,其特征在于:使用地理数据库(8),通过在产生前一输入请求(P)中所考虑的该地理标准(GK),和/或作为该对话中用户所发出的前一和/或随后的口头响应(S)的识别结果(EE)的函数,评估在对该用户所发出的口头响应(S)进行声音识别期间所确定的识别假设(EH)。
4.如权利要求1至3的任一项中所要求的方法,其特征在于:在对话中产生根据地理标准分层构建的输入请求(P)。
5.如权利要求1至4的任一项中所要求的方法,其特征在于:在对话中作为用户所发出的前一口头响应的识别结果的函数产生关于地理标准的输入请求(P)。
6.如权利要求1至5的任一项中所要求的方法,其特征在于:在对话中使用地理数据库(8)来编译词语列表(WL)和/或评估识别假设,其中该数据库根据前一输入请求(P)和/或对某些数据项(DE)的口头响应的前一识别结果(EE)被已经限制。
7.如权利要求2至6的任一项中所要求的方法,其特征在于:为了编译词语列表(WL)和/或评估识别假设(EH),使用地理数据库(8),其具有的数据项(DE)分别具有分配给它们的一个或多个表示所涉及的该数据项(DE)的类型和/或地理级层和/或与其它数据项(DE)的关系和/或其它地理特征的标记(M)。
8.一种用于导航系统(1)的声音数据用户接口(2),具有:
输出装置(12),用于向用户输出输入请求(P);
声音输入装置(11),用于检测该用户所发出的口头响应(S);
对话控制装置(3),用于考虑地理标准(GK)来控制与用户的对话;
提示产生单元(5),用于考虑地理标准(GK)来产生输入请求(P);
声音识别装置(6)和分析单元(7),用于考虑地理标准(GK)来分析所检测的口头响应(S)以识别位置数据;
地理数据库(8)和/或用于访问地理数据库的数据接口,其将地理标准(GK)和/或地理数据用于该对话控制装置(3)和/或该提示产生单元(5)和/或该声音识别装置(6)和/或该分析单元(7)。
9.一种具有如权利要求8中所要求的声音数据用户接口(2)的导航系统(1)。
10.一种计算机程序,其具有程序编码装置,从而当在导航系统的声音数据用户接口的处理器上执行该程序时,执行如权利要求1至7的任一项中所要求的方法的所有步骤。
11.一种产生用于在如权利要求1至7的任一项中所要求的方法中使用的地理数据库(8)的方法,其中各个数据项(DE)分别具有分配给它们的一个或多个表示所涉及的该数据项(DE)的类型和/或与其它数据项(DE)的关系和/或地理级层和/或其它地理特征的标记(M)。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP03101523 | 2003-05-26 | ||
EP03101523.3 | 2003-05-26 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1795367A true CN1795367A (zh) | 2006-06-28 |
Family
ID=33462217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2004800143866A Pending CN1795367A (zh) | 2003-05-26 | 2004-05-14 | 操作声音控制导航系统的方法 |
Country Status (4)
Country | Link |
---|---|
EP (1) | EP1631791A1 (zh) |
JP (1) | JP2007505365A (zh) |
CN (1) | CN1795367A (zh) |
WO (1) | WO2004104520A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192406B (zh) * | 2006-11-30 | 2012-07-04 | 纽昂斯通讯公司 | 交互语音识别系统 |
CN105302082A (zh) * | 2014-06-08 | 2016-02-03 | 上海能感物联网有限公司 | 非特定人外语语音现场自动导航并驾驶汽车的控制器装置 |
CN105302079A (zh) * | 2014-06-08 | 2016-02-03 | 上海能感物联网有限公司 | 汉语语音现场控制汽车驾驶的控制器装置 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4551961B2 (ja) * | 2006-03-31 | 2010-09-29 | パイオニア株式会社 | 音声入力支援装置、その方法、そのプログラム、そのプログラムを記録した記録媒体、および、ナビゲーション装置 |
EP1860918B1 (en) * | 2006-05-23 | 2017-07-05 | Harman Becker Automotive Systems GmbH | Communication system and method for controlling the output of an audio signal |
GB2440766B (en) * | 2006-08-10 | 2011-02-16 | Denso Corp | Control system |
US8938211B2 (en) | 2008-12-22 | 2015-01-20 | Qualcomm Incorporated | Providing and utilizing maps in location determination based on RSSI and RTT data |
US8938355B2 (en) * | 2009-03-13 | 2015-01-20 | Qualcomm Incorporated | Human assisted techniques for providing local maps and location-specific annotated data |
US9080882B2 (en) | 2012-03-02 | 2015-07-14 | Qualcomm Incorporated | Visual OCR for positioning |
US9500492B2 (en) | 2014-03-03 | 2016-11-22 | Apple Inc. | Map application with improved navigation tools |
US10113879B2 (en) | 2014-03-03 | 2018-10-30 | Apple Inc. | Hierarchy of tools for navigation |
US9464913B2 (en) | 2015-02-16 | 2016-10-11 | Jaybridge Robotics, Inc. | Assistive vehicular guidance system and method |
JP6250121B1 (ja) * | 2016-09-16 | 2017-12-20 | ヤフー株式会社 | 地図検索装置、地図検索方法、および地図検索プログラム |
CN113364920B (zh) * | 2021-06-09 | 2023-01-20 | 中国银行股份有限公司 | 一种进线请求处理方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19709518C5 (de) * | 1997-03-10 | 2006-05-04 | Harman Becker Automotive Systems Gmbh | Verfahren und Vorrichtung zur Spracheingabe einer Zieladresse in ein Zielführungssystem im Echtzeitbetrieb |
DE19962048A1 (de) * | 1999-12-22 | 2001-07-12 | Detlef Zuendorf | Zielführungssystem |
US20020111810A1 (en) * | 2001-02-15 | 2002-08-15 | Khan M. Salahuddin | Spatially built word list for automatic speech recognition program and method for formation thereof |
DE10147734A1 (de) * | 2001-09-27 | 2003-04-10 | Bosch Gmbh Robert | Verfahren zum Einstellen einer Datenstruktur, insbesondere von phonetischen Transkriptionen für ein sprachbedientes Navigationssystem |
-
2004
- 2004-05-14 JP JP2006530859A patent/JP2007505365A/ja active Pending
- 2004-05-14 CN CNA2004800143866A patent/CN1795367A/zh active Pending
- 2004-05-14 WO PCT/IB2004/050706 patent/WO2004104520A1/en not_active Application Discontinuation
- 2004-05-14 EP EP04733066A patent/EP1631791A1/en not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101192406B (zh) * | 2006-11-30 | 2012-07-04 | 纽昂斯通讯公司 | 交互语音识别系统 |
CN105302082A (zh) * | 2014-06-08 | 2016-02-03 | 上海能感物联网有限公司 | 非特定人外语语音现场自动导航并驾驶汽车的控制器装置 |
CN105302079A (zh) * | 2014-06-08 | 2016-02-03 | 上海能感物联网有限公司 | 汉语语音现场控制汽车驾驶的控制器装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2004104520A1 (en) | 2004-12-02 |
JP2007505365A (ja) | 2007-03-08 |
EP1631791A1 (en) | 2006-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7184957B2 (en) | Multiple pass speech recognition method and system | |
US6598018B1 (en) | Method for natural dialog interface to car devices | |
EP2245617B1 (en) | Computer-implemented method for interacting with a user via a speech-based user interface | |
US8538759B2 (en) | Speech recognition system and data updating method | |
EP1794747B1 (en) | Interactive conversational dialogue for cognitively overloaded device users | |
EP1233407B1 (en) | Speech recognition with spatially built word list | |
US8527271B2 (en) | Method for speech recognition | |
US8219406B2 (en) | Speech-centric multimodal user interface design in mobile technology | |
US7747437B2 (en) | N-best list rescoring in speech recognition | |
US20050080632A1 (en) | Method and system for speech recognition using grammar weighted based upon location information | |
CN1795367A (zh) | 操作声音控制导航系统的方法 | |
CN103810005B (zh) | 用于语音系统的调节方法和系统 | |
US20080059199A1 (en) | In-vehicle apparatus | |
WO2003003347A1 (en) | Pattern cross-matching | |
US11508367B2 (en) | Dialogue system and dialogue processing method | |
US20120253822A1 (en) | Systems and Methods for Managing Prompts for a Connected Vehicle | |
US10741178B2 (en) | Method for providing vehicle AI service and device using the same | |
EP3384490A1 (en) | Representing results from various speech services as a unified conceptual knowledge base | |
Baca et al. | Dialog systems for automotive environments. | |
CN118190003A (zh) | 一种导航仪的导航方法 | |
Brutti et al. | Use of Multiple Speech Recognition Units in an In-car Assistance System | |
Yang et al. | Research on realizing speech-operated on-board traveler information system | |
Alessio Brutti et al. | USE OF MULTIPLE SPEECH RECOGNITION UNITS IN AN IN-CAR ASSISTANCE SYSTEM¹ |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |