CN107532914A - 车载语音目的地输入(vde)导航解决方案中的自动数据切换方法 - Google Patents

车载语音目的地输入(vde)导航解决方案中的自动数据切换方法 Download PDF

Info

Publication number
CN107532914A
CN107532914A CN201580079627.3A CN201580079627A CN107532914A CN 107532914 A CN107532914 A CN 107532914A CN 201580079627 A CN201580079627 A CN 201580079627A CN 107532914 A CN107532914 A CN 107532914A
Authority
CN
China
Prior art keywords
vde
data file
candidate
inputs
introducer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201580079627.3A
Other languages
English (en)
Inventor
韩客松
D·陈
R·徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN107532914A publication Critical patent/CN107532914A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3605Destination input or retrieval
    • G01C21/3608Destination input or retrieval using speech input, e.g. using speech recognition
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • G01C21/3679Retrieval, searching and output of POI information, e.g. hotels, restaurants, shops, filling stations, parking facilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Automation & Control Theory (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Navigation (AREA)

Abstract

描述了用于在使用语音目的地输入(VDE)特征的车载导航系统中在包含地理内容的地理数据文件之间自动切换的系统和方法。所述实施方式基于来自用户的一个或更多个VDE输入确定当前有效的地理数据文件是否应当用于搜索地理项目候选,或者是否应当使用两个或更多个地理数据文件。所述实施方式可以产生用户从其选择的VDE候选的列表。所述实施方式可以根据来自用户的VDE输入的评价从一个或更多个数据文件填充该列表。

Description

车载语音目的地输入(VDE)导航解决方案中的自动数据切换 方法
背景技术
支持语音的导航应用通常由移动通信系统使用以提供用于谈判(negotiate)到特定目的地的路径的方便免提设施。对于某些国家,地理项目(这里还被称为地理数据,例如,感兴趣点(Pol)、街道名称以及十字路口信息)的数量可能对于典型嵌入式导航系统高效处理来说太大。
为了提高性能,被设计为在这种国家操作的导航系统通常将与整个国家相关联的地理项目分成独立的地理数据文件,并且由相关地理区域组织数据文件。例如,在中国,地理数据文件可以根据省来组织,而在美国,数据文件可以根据州来组织。
数据文件的内容例如可以包括用于语音识别系统的上下文、形成语音目的地输入(VDE)验证的知识库的信息以及通常可以由导航系统使用的任意信息。如这里所用的,VDE验证指的是在数据储存库内搜索至少在一定程度上匹配VDE输入的候选 (candidate)。
基于地理区域组织数据文件使得能够进行更高效的数据访问。在已知导航系统位于特定区域内时,导航系统可以将其对地理项目的搜索限于与该区域相关联的数据文件,而不是贯穿其地理项目的完整列表来搜索。
随着导航系统接近或越界进入不同的地理区域中,导航系统可以切换导航系统搜索地理项目的数据文件。使导航系统实现从与一个地理位置相关联的地理数据文件到另一个地理数据文件的变化的一种方式是在VDE解决方案中添加对话循环(即,使用额外的表达来切换数据)。例如:
用户:“切换到浙江省”
系统:“你想要切换到浙江省吗?”
用户:“是”
系统:“切换到浙江省”。
假定自动语音识别(ASR)无法提供100%识别准确度且自然语言理解(NLU) 无法正确解释被呈现给它的所有词串,则添加对话循环(诸如,以上所呈现的一个) 意指(i)用户可能需要说出一个或更多个另外的表达来完成VDE设置;并且(ii) 存在整个VDE任务失败的风险。
发明内容
这里所描述的实施方式包括用于在使用语音目的地输入(VDE)特征的车载导航系统中在包含地理内容的信息储存库(这里还被称为地理数据文件或数据文件)之间自动切换的技术。所述实施方式基于来自用户的一个或更多个VDE输入来确定当前有效的地理数据文件是否应当用于搜索地理项目候选或是否应当使用两个或更多个地理数据文件。所述实施方式可以产生用户从其选择的、VDE候选的列表。所述实施方式可以根据来自用户的VDE输入的评价从一个或更多个数据文件填充该列表。这里提出了一种根据所述实施方式的示例嵌入式导航系统。
在一个方面,本发明是一种为语音目的地输入(VDE)验证选择地理数据文件的、由处理器实施的方法。方法包括以下步骤:确定与VDE输入相关联的VDE类型;以及确定与VDE输入相关联的切换置信因数(switching confidence factor)。方法还包括以下步骤:至少基于VDE类型和切换置信因数,从第一数据文件获取第一数量的候选,并且从第二数据文件获取第二数量的候选。
在一个实施方式中,确定VDE类型的步骤还可以包括:在(i)VDE输入包括明确标识当前地理区域的引导词;或者(ii)VDE输入不包括引导词时,确定VDE 类型为Type_1。确定VDE类型为Type_1的步骤还可以包括在确定VDE类型是Type_1 时将切换置信因数设置为零。
在另一个实施方式中,确定VDE类型的步骤还包括:在VDE输入包括描述非默认地理区域的引导词和引导词后缀时,确定VDE类型为Type_2。确定VDE类型为 Type_2的步骤还可以包括在VDE类型被确定为Type_2时,将切换置信因数设置为指示从第一数据文件到第二数据文件的切换较有可能的值。
在一个实施方式中,确定VDE类型的步骤还包括:在VDE输入包括描述非默认地理区域的引导词而没有引导词后缀时,确定VDE类型为Type_3。
在另一个实施方式中,获取第一数量的候选和第二数量的候选的步骤还基于作为切换可能性词表的成员的VDE输入。在一个实施方式中,切换可能性词表包括以下内容中的一个或更多个:(i)包含词的无切换词表,在各个词紧接其对应的引导词之后出现时,该词与从第一数据文件切换到第二数据文件的决策相关联;(ii)包含词的切换词表,在各个词紧接其对应的引导词之后出现时,该词与保持第一数据文件的决策相关联;以及(iii)动态词表,该动态词表包含与特定引导词相关联的高频词。
一个实施方式还包括显示来自第一数据文件的候选和来自第二数据文件的候选。候选的顺序可以至少部分基于作为切换可能性词表的成员的VDE输入。
在一个实施方式中,第一数据文件包含与当前地理区域相关联的地理数据,并且第二数据文件包含与除了当前地理区域之外的地理区域相关联的地理数据。
在另一个方面,本发明是一种用于为语音目的地输入(VDE)选择地理数据文件的设备,该设备包括:处理器;以及存储器,该存储器被配置为存储要由处理器执行的指令。处理器可以被配置为执行指令,从而使得设备基于VDE输入类型和切换置信因数,从第一数据文件获取第一数量的候选,并且从第二数据文件获取第二数量的候选。
在一个实施方式中,处理器还可以被配置为执行指令,从而使得设备:确定VDE 输入类型,确定与VDE输入相关联的切换置信因数,并且至少基于VDE输入类型和切换置信因数,获取来自第一数据文件的候选和来自第二数据文件的候选。
在另一个实施方式中,处理器还可以被配置为执行指令,从而使得设备:在VDE 输入包括明确标识当前地理区域的引导词;或者VDE输入不包括引导词时,指定VDE 类型为Type_1。
在另一个实施方式中,处理器还可以被配置为执行指令,从而使得设备:在VDE 输入包括引导词和引导词后缀时,指定VDE类型为Type_2。
在另一个实施方式中,处理器还可以被配置为执行指令,从而使得设备:在VDE 输入包括引导词而没有引导词后缀时,指定VDE类型为Type_3。
在另一个实施方式中,处理器还可以被配置为执行指令,从而使得设备:显示来自第一数据文件的候选和来自第二数据文件的候选,其中,候选的顺序至少部分基于作为切换可能性词表的成员的VDE输入。
在另一个方面中,本发明是一种上面存储有计算机代码指令的非暂时性计算机可读介质,计算机代码指令在由处理器执行时,使得设备基于VDE输入类型和切换置信因数,从第一数据文件获取第一数量的候选,并且从第二数据文件获取第二数量的候选。
在另一个实施方式中,计算机代码指令在由处理器执行时,还使得设备:确定 VDE输入类型;确定与VDE输入相关联的切换置信因数;并且至少基于VDE输入类型和切换置信因数,获取来自第一数据文件的候选和来自第二数据文件的候选。
在另一个实施方式中,计算机代码指令在由处理器执行时,还使得设备:显示来自第一数据文件的候选和来自第二数据文件的候选,其中,候选的顺序至少部分基于作为切换可能性词表的成员的VDE输入。
在另一个实施方式中,计算机代码指令在由处理器执行时,还使得设备:在VDE 输入包括明确标识当前地理区域的引导词;或者VDE输入不包括引导词时,确定VDE 类型为Type_1。
附图说明
前文如附图中例示的将从本发明的示例实施方式的以下更具体的描述清楚,在附图中,同样的附图标记贯穿不同的图指的是相同的部件。附图不是必须为等比例,而是把重点放在例示本发明的实施方式上。
图1A示出了完全在上海市内行进的、装配有使用VDE的车载导航系统的车辆。
图1B示出了在上海市内行进但靠近且朝向浙江省的同一车辆。
图1C示出了车辆的驾驶员连同车载导航系统。
图2例示了示例实施方式的流程图。
图3例示了可以用于实施和/或支持所述实施方式中的一个或更多个的示例嵌入式导航系统的框图。
图4例示了可以用于实施图3所描绘的子系统中的一个或更多个的示例硬件平台。
具体实施方式
接着是本发明的示例实施方式的描述。
所述实施方式包括用于在使用语音目的地输入(VDE)特征的车载导航系统中在包含地理内容的信息储存库(这里还被称为地理数据文件或数据文件)之间自动切换的技术。所述实施方式基于来自用户的一个或更多个VDE输入来确定当前有效的地理数据文件是否应当用于搜索地理项目候选或是否应当使用两个或更多个地理数据文件。所述实施方式可以产生用户从其选择的、VDE候选的列表。所述实施方式可以根据来自用户的VDE输入的评价从一个或更多个数据文件填充该列表。这里提出了一种根据所述实施方式的示例嵌入式导航系统。
这里所描述的示例实施方式涉及初始位于上海市内、从上海市正向浙江省行进的导航系统。图1A至图1C例示了可以如何使用所述实施方式的简单示例。图1A示出了完全在上海市104内行进的、装配有使用VDE的车载导航系统的车辆102。图1B 示出了在上海市104内行进但靠近且朝向浙江省106的同一车辆102’。车载导航系统在完全位于上海市内的同时可以将上海市数据用于VDE,并且随着车辆靠近浙江省而用浙江省数据来更新(如以下所描述的,代替上海市数据或除了上海市数据之外)。应理解,数据可以根据任意粒度等级来更新;比如,在美国,粒度可以由州、城市、城镇或其他地理名称来实现。
图1C示出了车辆102的驾驶员110连同车载导航系统112。在该示例中,驾驶员110表达语音目的地输入114“浙江花园饭店”。如果车辆102在图1A所示的场景中,则由VDE 114所指的实际位置更可能位于上海市的地理数据文件116中(因为车辆102在上海市内且离省边界较远)。另一方面,如果车辆102’在图1B所示的场景中,则由VDE 114所指的实际位置可能位于上海市的地理数据文件116或浙江省的地理数据文件二者之一中(因为车辆102靠近浙江省,但仍然在上海市内)。
所述实施方式可以向用户提供与所表达VDE 114对应的、用户可以从其选择的候选120的列表。候选120可以在显示器上、借助音频消息或这两者来提供。所述实施方式基于VDE 114选择122从其选择候选120的数据文件116、118(或其他)中的一个或更多个。数据文件选择122可以基于如这里所描述的VDE的上下文从位置数据文件116、118中的一个选择更多个候选。
在所述实施方式中,自动语音识别(ASR)的上下文被设计为包含所有省份和城市条目(如以下所描述的,这里被称为“引导词”)。如这里所用的,引导词是紧接 VDE主题之前使用以指定与VDE主题相关联的地理区域的词。上海、浙江以及杭州是引导词的示例。应注意,虽然示例实施方式涉及中国的地理位置,但所述实施方式可以用于世界的其他部分。例如,美国的引导词可以包括曼彻斯特、佛罗里达以及特拉华;加拿大的引导词可以包括魁北克、温哥华以及安大略。
VDE类型种类
所述实施方式可以将VDE输入分成不同的种类,并且(至少部分)基于特定VDE 输入的关联种类来处理该输入。一个实施方式包括将VDE输入分类到它们各自种类的“VDE类型”分类器。
在以下的VDE类型示例中,导航系统的当前位置是上海,因此默认地理区域是上海。
Type_1-没有引导词的VDE主题,该VDE主题暗示默认(即,当前)地理区域;或具有明确命名默认地理区域的引导词的VDE。例如:
“太平洋|百货公司”没有引导词,因此假定默认地理区域(在该示例中为上海)。
“上海|虹桥|火车站”具有是用于该示例的默认地理区域的引导词“上海”。
Type_2-具有标识非默认区域的引导词并具有关联的后缀信息的VDE主题。引导词后缀可以包括诸如“省”、“市”等等的术语。“引导词”和“引导词后缀”对的示例是“浙江|省”。在该示例中,“浙江”是引导词,并且“省”是引导词后缀。其他示例包括“杭州|市”、“西|湖”、“大同|高中”以及“福星|公园”。
Type_3-具有标识非默认区域的引导词而没有关联后缀信息的VDE主题。该VDE 地址的示例是“杭州|西|风景胜地”。在该示例中,引导词是杭州,但没有诸如市的关联后缀。
倾向切换标签
所述实施方式可以包括提供可以用于选择与给定VDE输入对应的VDE候选的信息的标签。该标签在这里被称为“倾向切换”标签(TTS_tag),并且可以在VDE输入指的是哪个地理区域不清楚时使用。TTS_tag可以呈现三种状态(TRUE、FALSE 或N/A)中的一个。如以下更详细描述的,TTS_tag用于确定可以如何从各种数据文件选择VDE候选,并且候选如何排序,如下:
TTS_tag=TRUE指示对于关联的VDE输入,导航系统应当:
(i)从非默认数据文件(即,除了默认数据文件之外的数据文件)选择多于一半的候选。换言之,导航系统应当切换数据文件(例如,从上海数据文件切换到浙江数据文件);并且
(ii)从默认数据文件选择少于一半的候选。
TTS_tag=FALSE指示对于关联的VDE输入,导航系统应当:
(i)从默认数据文件选择多于一半的候选,并且
(ii)从非默认数据文件选择少于一半的候选。
关于TTS_tag将是TRUE还是FALSE的确定可以基于切换置信因数来进行,如下所描述的。
倾向切换标签的第三可能状态为TTS_tag=N/A(不适用),该状态可以在VDE 输入指的是默认区域内的位置的高置信级存在时使用。
切换置信因数
所述实施方式还可以包括对应于与特定VDE输入相关联的置信级的因数。该因数在这里被称为“切换置信”因数(SC_factor)。SC_factor在示例实施方式中呈现在零至一之间的值(0<SC_factor<1)。值接近一的SC_factor与将以高置信级设置 TTS_tag=TRUE的VDE输入对应(即,导航系统将切换数据文件)。值接近零的 SC_factor与将以高置信级设置TTS_tag=FALSE的VDE输入对应(即,导航系统将使用默认数据文件且将不切换数据文件)。
VDE候选可以与预定的、明确的切换置信阈值(例如,在示例实施方式中为0.7) 进行比较,使得仅超过该阈值的候选将引起TTS_tag=TRUE。在没有明确阈值的情况下,可以使用0.5或附近的默认阈值。
如这里详细描述的,根据所述实施方式的导航系统可以使用SC_factor来(至少部分)确定VDE候选的分布,这些VDE候选中的一些或全部可以呈现给导航系统的用户,以便VDE候选的手动选择。如上所述的切换置信阈值可以用于确定哪些VDE 候选要被呈现给用户。SC_factor还可以用于确定如这里描述的TTS_tag的状态。
切换/无切换词表
如这里所用的,术语“切换”指的是非默认数据文件(即,除了默认数据文件之外的数据文件)的使用。换言之,导航系统在特定情况下可以“切换”数据文件(例如,从上海数据文件切换到浙江数据文件)。在一些情况下,切换可以指的是仅仅从非默认数据文件选择候选,而在其他情况下,切换可以指的是从非默认数据文件比从默认数据文件选择更多的候选。
一些实施方式可以编译用于特定引导词的两个词表:“无切换”词表和“切换”词表。“切换”词表可以包括词,在各个词紧接其对应的引导词之后出现时,该词与从默认数据文件切换到非默认数据文件的决策关联。“无切换”词表可以包括词,在各个词紧接其对应的引导词之后出现时,该词与保持默认数据文件的决策关联。无切换词表可以包括诸如“酒店”、“饭店”、“道路”、“街道”以及“小吃”的词,而切换词表可以包含诸如“办公室”、“分部”以及“子分部”以及其他的词。
切换词表和无切换词表中的各词可以与表征从一个地理数据文件切换到另一个地理数据文件是正确决策的概率的切换置信因数(SC_factor)关联。虽然还可以使用领域中已知用于确定这种概率的其他技术,但是SC_factor可以由例如如以下所描述的贝叶斯(Bayesian)决策来确定。
动态词表
一些实施方式可以对于特定引导词动态地收集高频词(即,用户经常说出的词)的列表,并且使用贝叶斯决策来计算用于各引导词/高频词对的切换置信。
比如,引导词“杭州”(或等效地为基于杭州市的中文表达“杭州市(HangzhouCity)”)下的动态词表可以包括以下词:概率对:
杭州:896
织物:336
经销商:494
叉车:210
门业:375
窗帘:41
南方:461:
专卖权:483
道路:490
饺子:1
伞:485
陶瓷:48
深圳:363
天使:314:
天堂:387
龙井:333
汇流:300
南京:458
红岩:166
社区:269
东华:470
对于以上示例,注释<叉车:210>意指需要从当前地理数据文件切换到不同地理数据文件的概率在词“叉车”本身被使用(即,不管被考虑的具体地理数据文件如何) 时为0.210。<词:概率>对可以从分段PoI数据库来访问,该数据库可以经验地或通过本领域技术人员已知的其他技术来编译。
因此,以“杭州叉车”为例,贝叶斯置信可以被计算为:
conf(杭州叉车)=conf(杭州)*conf(叉车)/
[conf(杭州)*conf(叉车)+conf'(杭州)*conf'(叉车)]
=0.896*0.210/[0.896*0.210+0.104*0.790]
=0.696,
其中,conf(X)是X为切换词的概率,而conf'(X)是1-conf(X)。
在示例实施方式中,置信阈值被预定为0.7。因为所计算的置信0.696小于0.7,所以用于“杭州叉车”的标签将被设置为“TTS_tag=FALSE”和“SC_factor=0.696”。对于该示例,因为TTS_tag=FALSE,所以所述实施方式将词“叉车”置于“无切换”表中。
处理不同的VDE类型
一些实施方式可以将针对不同的VDE类型应用不同的策略。记得前面提及的 VDE类型分类器将VDE输入分成三个种类:Type_l、Type_2以及Type_3。
对于被分类为在Type_l种类中的VDE输入,实施方式可以立即(即,在以上所描述的处理之前)将倾向切换标签设置为“TTS_tag=N/A(其中,N/A是“不适用”)”,并且将切换置信因数设置为“SC_factor=0.0”。Type_l VDE输入没有引导词或具有默认省作为引导词。在任一情况下,仅仅从默认数据库选择候选。
对于在Type_2种类中的VDE输入(即,在清楚的引导词后缀存在时),实施方式可以将倾向切换标签设置为“TTS_tag=TRUE)”,并且将切换置信因数设置为指示切换较有可能(即,设置到大于0.5的值,例如SC_factor=0.7)。清楚的引导词后缀指示VDE内容超出默认地理区域。
Type_3种类中的VDE输入(即,没有清楚引导词后缀的VDE输入)可以被分成两种情况:
(i)紧接在引导词之后的词在“无切换”词表中。在这种情况下,实施方式设置“TTS_tag=FALSE”,并且将切换置信因数设置为指示无切换较有可能(即,设置为小于0.5的值,例如,SC_factor=0.3)。
(ii)紧接在引导词之后的词在“切换”词表中。在这种情况下,实施方式设置“TTS_tag=TRUE”,并且将切换置信因数设置为指示切换交较有可能(即,设置到大于0.5的值,例如SC_factor=0.7)。
VDE候选呈现
示例实施方式的用户接口(UI)方案由TTS_tag和SC_factor确定最终的VDE 候选分布。如果“倾向切换=N/A”,则仅仅从默认数据文件选择VDE候选。
不管TTS_tag是TRUE还是FALSE,示例实施方式从两个地理数据文件(默认数据文件和非默认数据文件)选择VDE候选。如这里在别处描述的,默认数据文件包含地理信息。
如果TTS_tag=TRUE,则多于一半的VDE候选从非默认数据文件来选择,并且那些非默认候选在列表上比默认候选更高地显示(即,作为更可能的)。少于一半的 VDE候选从默认数据文件来选择,并且与非默认候选相比在列表上较低地显示。被设计为输出最大10个候选的示例实施方式可以呈现来自所切换数据文件(即,非默认数据文件)的前七个候选,并且呈现来自默认数据文件的后三个候选。
对于TTS_tag=FALSE,多于一半的VDE候选从默认数据文件来选择,并且那些默认候选在列表上比非默认候选更高地显示(即,作为更可能的)。少于一半的VDE 候选从非默认数据文件来选择,并且与默认候选相比在列表上较低地显示。
图2例示了描述这里提出的示例实施方式的操作的流程图。示例实施方式被实施为嵌入式导航系统(ENS)的一部分,尽管实施方式可以在其他硬件平台中实施。
默认数据文件202被加载204到ENS的自动语音识别(ASR)引擎206中。VDE 输入208被提交210到ASR引擎206,这产生212VDE输入208的机器可读版本。 ENS评价机器可读VDE输入212,以确定它是如这里描述的Type_l、Type_2还是 Type_3输入。
如果ENS确定214VDE输入212是Type_l输入216,则ENS基于默认数据文件202验证218VDE输入212,以产生并显示220至少在一定程度上匹配VDE输入212 的候选的列表。显示候选的列表结束222Type_l VDE输入的处理。
如果ENS确定114VDE输入212是Type_2或Type_3输入二者之一,则向默认数据文件202添加非默认数据文件232,并且ENS基于默认数据文件202和非默认数据文件232中的一个或更多个验证234VDE输入212。验证结果可以根据特定列表中的VDE类型和成员资格来不同地处理。
如果ENS确定240VDE输入212是Type_2或Type_3输入,并且VDE输入212 是这里所描述的“无切换”词表242的成员,则ENS确定243切换置信因数 (SC_factor),从默认数据文件获取244预定数量N1个候选,并且从非默认数据文件获取246预定数量M1个候选。
从默认数据文件取得的预定数量N1由(SC_factor*max_entry)给出。作为示例,使SC_factor为0.7,并且使max_entry为10个候选。因此,该示例的预定数量N1 为(SC_factor*max_entry)=(0.7*10)=7。
从非默认数据文件取得的预定数量M1由((1-SC_factor)*max_entry)给出。对于以上示例,预定数量M1是((1-SC_factor)*max_entry)=((1-0.7)*10)=(0.3*10)=3。
ENS然后显示270所获取的N1+M1个候选的列表。显示候选的列表结束272为 Type_2或Type_3输入且是“无切换”词表242的成员的VDE输入212的处理。
如果ENS确定150VDE输入212是Type_3输入,并且VDE输入212是这里所描述的“切换”词表252的成员,则ENS确定253切换置信因数(SC_factor),从非默认数据文件获取254预定数量N2个候选,并且从默认数据文件获取256预定数量 M2个候选。从非默认数据文件取得的预定数量N2由(SC_factor*max_entry)给出。作为示例,使SC_factor为0.6,并且使max_entry为20个候选。因此,该示例的预定数量N为(SC_factor*max_entry)=(0.6*20)=12。从默认数据文件取得的预定数量M由((1-SC_factor)*max_entry)给出。对于以上示例,预定数量M是 ((1-SC_factor)*max_entry)=((1-0.6)*20)=(0.4*20)=8。
ENS然后显示270所获取的N1+M1个候选的列表。显示候选的列表结束272为 Type_3输入且是“切换”词表252的成员的VDE输入212的处理。
如果ENS确定260VDE输入212是Type_3输入且VDE输入212是动态词表262 中的成员,则ENS确定264切换置信因数(SC-factor,该因数可以为贝叶斯切换置信因数),并且将SC_factor与阈值进行比较266。如果SC_factor小于阈值,则ENS 从默认数据文件获取244预定数量N1个候选,并且从非默认数据文件获取246预定数量M1个候选,如上所述。如果SC_factor大于或等于阈值,则ENS从非默认数据文件获取254预定数量N2个候选,并且从默认数据文件获取256预定数量M2个候选,如上所述。显示270候选的列表结束272为Type_3输入的VDE输入212的处理,且所述VDE输入212是动态词表262的成员。
该示例实施方式描述了评价SC_factor是大于还是等于阈值的比较266。在其他实施方式中,比较可以评价SC_factor是否大于阈值,而不是评价SC_factor是大于还是等于阈值。
图3例示了可以用于实施和/或支持所述实施方式的示例嵌入式导航系统的框图。图3示出了一起实施嵌入式导航系统的若干互连的子系统。
图3的嵌入式导航系统(ENS)300包括自动语音识别(ASR)系统302,该ASR 系统借助麦克风304接收用户语音输入,将用户语音转换成文本306,并且向在所述实施方式中呈现的自动数据切换系统308提供文本306。
自动数据切换系统308从全球定位系统(GPS)312接收与ENS 300的当前位置有关的位置信息310。自动数据切换系统308与导航系统313通信,以协调用于验证 VDE输入的适当地理数据文件的选择和使用,并且生成用于行进至所选PoI的导航指令。
ASR系统302还将文本306提供给导航系统313和文本转语音(TTS)系统314。 TTS系统314还从导航系统313接收文本输入316。TTS系统314转换它从ASR系统302和导航系统313接收的文本,将文本转换成语音信息318,并且将语音信息218 提供给扬声器220。扬声器220将语音信息318转换成可听语音。
图4例示了可以用于实施图3所示的子系统中的任意一个或全部的示例硬件平台402。平台402包括处理器404、存储器406以及支持逻辑408,它们中的每个连接到总线410。
另外连接到总线410的是用于向平台402的用户提供可听语音输出的扬声器 412、用于从用户接收可听语音输入的麦克风414、一个或更多个用户输入/输出(I/O) 装置416以及通信接口418。硬件平台402的以上提及的部件中的至少一个被配置为借助总线410与其他部件中的一个或更多个通信。
其他部件通常与硬件平台(例如,电源)相关联,虽然未示出,但其他部件也可以为硬件平台402的一部分。I/O装置416可以包括用于向用户提供输出或从用户提供输入或代表用户的任意装置。这种输入装置的示例可以包括键盘、鼠标、触针或其他符号捕捉设备、手势识别设备、触摸敏感显示器以及其他。这种输出装置的示例包括模拟或数字显示器、视频投影装置、音频扬声器以及其他。
通信接口418可以包括与媒介(诸如,以太网线缆、光缆或其他这种物理媒介) 相关联的驱动器或收发器。通信接口418可以另选地包括诸如蜂窝接口(例如,4G、 LTE以及其他)的无线接口、或其他无线接口(例如,蓝牙、IEEE 802.11、Zigbee、 WIMAX以及其他)。
将明显的是,这里所描述的一个或更多个实施方式可以以许多不同形式的软件和硬件来实施。用于实施这里所描述的实施方式的软件代码和/或专用硬件不限制这里所描述的本发明的实施方式。由此,实施方式的操作和行为在不参照具体软件代码和 /或专用硬件的情况下来描述,应理解,人将能够设计软件和/或硬件来基于这里的描述实施实施方式。
进一步地,这里所描述的示例实施方式的特定实施方式可以被实施为执行一个或更多个功能的逻辑。该逻辑可以为基于硬件的、基于软件或基于硬件和基于软件的组合。逻辑中的一些或全部可以被存储在一个或更多个有形、非暂时性计算机可读存储介质上,并且可以包括可以由控制器或处理器执行的计算机可执行指令。计算机可执行指令可以包括实施本发明的一个或更多个实施方式的指令。有形、非暂时性计算机可读存储介质可以为易失性的或非易失性的,并且可以包括例如闪存、动态存储器、可移动磁盘以及非可移动磁盘。
虽然已经参照本发明的示例实施方式具体示出并描述了本发明,但本领域技术人员将理解,可以在不偏离由所附权利要求包含的本发明的范围的情况下在本发明内进行形式和细节的各种变更。

Claims (20)

1.一种为语音目的地输入(VDE)验证选择地理数据文件的方法,该方法包括以下步骤:
由处理器:
确定与VDE输入相关联的VDE类型;
确定与所述VDE输入相关联的切换置信因数;
至少基于所述VDE类型和所述切换置信因数,从第一数据文件获取第一数量的候选,并且从第二数据文件获取第二数量的候选。
2.根据权利要求1所述的方法,其中,确定VDE类型的步骤还包括:
在所述VDE输入包括明确标识当前地理区域的引导词;或者
所述VDE输入不包括引导词时,
确定所述VDE类型为Type_1。
3.根据权利要求2所述的方法,所述方法还包括以下步骤:在所述VDE类型被确定为Type_1时,将所述切换置信因数设置为零。
4.根据权利要求1所述的方法,其中,确定VDE类型的步骤还包括:
在所述VDE输入包括(i)描述不是所述当前地理区域的地理区域的引导词;和(ii)引导词后缀时,确定所述VDE类型为Type_2。
5.根据权利要求4所述的方法,所述方法还包括以下步骤:在所述VDE类型被确定为Type_2时,将所述切换置信因数设置为指示从所述第一数据文件切换到所述第二数据文件较有可能的值。
6.根据权利要求1所述的方法,其中,确定VDE类型的步骤还包括:
在所述VDE输入包括描述不是所述当前地理区域的地理区域的引导词且不包括引导词后缀时,确定所述VDE类型为Type_3。
7.根据权利要求1所述的方法,其中,获取所述第一数量的候选和所述第二数量的候选的步骤还基于作为切换可能性词表的成员的所述VDE输入。
8.根据权利要求7所述的方法,其中,所述切换可能性词表包括以下内容中的一个或更多个:
包含词的无切换词表,当各个词紧接其对应的引导词之后出现时,该词与从所述第一数据文件切换到所述第二数据文件的决策相关联;
包含词的切换词表,当各个词紧接其对应的引导词之后出现时,该词与保持所述第一数据文件的决策相关联;
动态词表,该动态词表包含与特定引导词相关联的高频词。
9.根据权利要求8所述的方法,所述方法还包括以下步骤:显示来自所述第一数据文件的候选和来自所述第二数据文件的候选,其中,所述候选的顺序至少部分基于作为所述切换可能性词表的成员的所述VDE输入。
10.根据权利要求1所述的方法,其中,所述第一数据文件包含与当前地理区域相关联的地理数据,并且所述第二数据文件包含与除了所述当前地理区域之外的地理区域相关联的地理数据。
11.一种用于为语音目的地输入(VDE)选择地理数据文件的设备,该设备包括:
处理器;和
存储器,该存储器被配置为存储要由所述处理器执行的指令;
所述处理器被配置为执行所述指令,从而使得所述设备基于VDE输入类型和切换置信因数,从第一数据文件获取第一数量的候选,并且从第二数据文件获取第二数量的候选。
12.根据权利要求11所述的设备,所述处理器还被配置为执行所述指令,从而使得所述设备:
确定所述VDE输入类型;
确定与所述VDE输入相关联的所述切换置信因数;以及
至少基于所述VDE输入类型和所述切换置信因数,获取来自所述第一数据文件的候选和来自所述第二数据文件的候选。
13.根据权利要求11所述的设备,所述处理器还被配置为执行所述指令,从而使得所述设备:
在所述VDE输入包括明确标识当前地理区域的引导词;或者
所述VDE输入不包括引导词时,
指定所述VDE类型为Type_1。
14.根据权利要求11所述的设备,所述处理器还被配置为执行所述指令,从而使得所述设备:
在所述VDE输入包括引导词和引导词后缀时,指定所述VDE类型为Type_2。
15.根据权利要求11所述的设备,所述处理器还被配置为执行所述指令,从而使得所述设备:
在所述VDE输入包括引导词而没有引导词后缀时,将所述VDE类型指定为Type_3。
16.根据权利要求11所述的设备,所述处理器还被配置为执行所述指令,从而使得所述设备:
显示来自所述第一数据文件的候选和来自所述第二数据文件的候选,其中,所述候选的顺序至少部分基于作为所述切换可能性词表的成员的所述VDE输入。
17.一种上面存储有计算机代码指令的非暂时性计算机可读介质,所述计算机代码指令在由处理器执行时,使得设备基于VDE输入类型和切换置信因数,从第一数据文件获取第一数量的候选,并且从第二数据文件获取第二数量的候选。
18.根据权利要求17所述的非暂时性计算机可读介质,所述计算机代码指令在由处理器执行时还使得设备:
确定所述VDE输入类型;
确定与所述VDE输入相关联的所述切换置信因数;并且
至少基于所述VDE输入类型和所述切换置信因数,获取来自所述第一数据文件的候选和来自所述第二数据文件的候选。
19.根据权利要求17所述的非暂时性计算机可读介质,所述计算机代码指令在由处理器执行时还使得设备显示来自所述第一数据文件的候选和来自所述第二数据文件的候选,其中,所述候选的顺序至少部分基于作为所述切换可能性词表的成员的所述VDE输入。
20.根据权利要求17所述的非暂时性计算机可读介质,所述计算机代码指令在由处理器执行时还使得设备:
在所述VDE输入包括明确标识当前地理区域的引导词;或者
所述VDE输入不包括引导词时,
确定所述VDE类型为Type_1。
CN201580079627.3A 2015-05-05 2015-05-05 车载语音目的地输入(vde)导航解决方案中的自动数据切换方法 Pending CN107532914A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2015/078264 WO2016176820A1 (en) 2015-05-05 2015-05-05 Automatic data switching approach in onboard voice destination entry (vde) navigation solution

Publications (1)

Publication Number Publication Date
CN107532914A true CN107532914A (zh) 2018-01-02

Family

ID=57217442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580079627.3A Pending CN107532914A (zh) 2015-05-05 2015-05-05 车载语音目的地输入(vde)导航解决方案中的自动数据切换方法

Country Status (4)

Country Link
US (1) US20180356244A1 (zh)
EP (1) EP3292376B1 (zh)
CN (1) CN107532914A (zh)
WO (1) WO2016176820A1 (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1270359A (zh) * 1999-04-12 2000-10-18 松下电器产业株式会社 手持设备中使用意义提取和对话的面向目标的语言翻译方法
US20030125869A1 (en) * 2002-01-02 2003-07-03 International Business Machines Corporation Method and apparatus for creating a geographically limited vocabulary for a speech recognition system
CN1603750A (zh) * 2003-09-29 2005-04-06 爱信艾达株式会社 导航装置
US20070124057A1 (en) * 2005-11-30 2007-05-31 Volkswagen Of America Method for voice recognition
CN101079262A (zh) * 2006-05-25 2007-11-28 三星电子株式会社 导航终端的目的地设置方法及设备
CN101192406A (zh) * 2006-11-30 2008-06-04 哈曼贝克自动系统股份有限公司 交互语音识别系统
CN101276585A (zh) * 2007-03-28 2008-10-01 哈曼贝克自动系统股份有限公司 多语言非母语语音识别
CN101563687A (zh) * 2006-10-13 2009-10-21 谷歌公司 企业收录搜索
US7630900B1 (en) * 2004-12-01 2009-12-08 Tellme Networks, Inc. Method and system for selecting grammars based on geographic information associated with a caller
US20100145700A1 (en) * 2002-07-15 2010-06-10 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法
CN103383264A (zh) * 2012-05-03 2013-11-06 现代Mnsoft公司 具有语音识别的路线引导装置和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7328155B2 (en) * 2002-09-25 2008-02-05 Toyota Infotechnology Center Co., Ltd. Method and system for speech recognition using grammar weighted based upon location information
JP3991914B2 (ja) * 2003-05-08 2007-10-17 日産自動車株式会社 移動体用音声認識装置
US8825379B2 (en) * 2005-01-05 2014-09-02 Sirius Xm Connected Vehicle Services Inc. Systems and methods for off-board voice-automated vehicle navigation
JP4802522B2 (ja) * 2005-03-10 2011-10-26 日産自動車株式会社 音声入力装置および音声入力方法
JP5334178B2 (ja) * 2009-01-21 2013-11-06 クラリオン株式会社 音声認識装置およびデータ更新方法
EP2211336B1 (en) * 2009-01-23 2014-10-08 Harman Becker Automotive Systems GmbH Improved speech input using navigation information
US8949125B1 (en) * 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1270359A (zh) * 1999-04-12 2000-10-18 松下电器产业株式会社 手持设备中使用意义提取和对话的面向目标的语言翻译方法
US20030125869A1 (en) * 2002-01-02 2003-07-03 International Business Machines Corporation Method and apparatus for creating a geographically limited vocabulary for a speech recognition system
US20100145700A1 (en) * 2002-07-15 2010-06-10 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
CN1603750A (zh) * 2003-09-29 2005-04-06 爱信艾达株式会社 导航装置
US7630900B1 (en) * 2004-12-01 2009-12-08 Tellme Networks, Inc. Method and system for selecting grammars based on geographic information associated with a caller
US20070124057A1 (en) * 2005-11-30 2007-05-31 Volkswagen Of America Method for voice recognition
CN101079262A (zh) * 2006-05-25 2007-11-28 三星电子株式会社 导航终端的目的地设置方法及设备
CN101563687A (zh) * 2006-10-13 2009-10-21 谷歌公司 企业收录搜索
CN101192406A (zh) * 2006-11-30 2008-06-04 哈曼贝克自动系统股份有限公司 交互语音识别系统
CN101276585A (zh) * 2007-03-28 2008-10-01 哈曼贝克自动系统股份有限公司 多语言非母语语音识别
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法
CN103383264A (zh) * 2012-05-03 2013-11-06 现代Mnsoft公司 具有语音识别的路线引导装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张耀兰: "语音识别技术在导航设备中的应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Also Published As

Publication number Publication date
WO2016176820A1 (en) 2016-11-10
US20180356244A1 (en) 2018-12-13
EP3292376B1 (en) 2019-09-25
EP3292376A1 (en) 2018-03-14
EP3292376A4 (en) 2018-05-09

Similar Documents

Publication Publication Date Title
CN110008413B (zh) 一种交通出行问题查询方法和装置
CN103903611A (zh) 一种语音信息的识别方法和设备
WO2006109625A1 (ja) 地図情報更新装置および地図情報更新方法
CN103020098A (zh) 提供具有语音识别功能的导航业务的搜索方法
US10215580B2 (en) Route-guidance control device, route-guidance control method, and navigation system
KR20160002944A (ko) 디지털 맵에 관련된 위치들의 탐색 및 디스플레이를 용이하게 하는 방법, 기기 및 컴퓨터 소프트웨어
CN105069047A (zh) 一种地理信息的检索方法及装置
US20190056235A1 (en) Path querying method and device, an apparatus and non-volatile computer storage medium
CN115064167B (zh) 语音交互方法、服务器和存储介质
CN107203526A (zh) 一种查询串语义需求分析方法及装置
CN102426015A (zh) 一种导航系统兴趣点的搜索方法及位置服务终端
CN111931077B (zh) 数据处理方法、装置、电子设备及存储介质
CN103827867B (zh) 生成搜索树的方法和导航装置
CN101782402B (zh) 导航系统及其路径规划方法
CN117216212A (zh) 对话处理方法、对话模型训练方法、装置、设备及介质
KR102069700B1 (ko) 특화영역 교체형 음성인식 시스템, 모바일 장치 및 그 방법
CN109634692A (zh) 车载对话系统及用于其的处理方法和系统
US9791573B2 (en) Intelligent global positioning system service
JP3534228B2 (ja) 目的地案内装置
CN107532914A (zh) 车载语音目的地输入(vde)导航解决方案中的自动数据切换方法
CN113792214A (zh) 兴趣点确定方法、语音导航方法、装置、设备及存储介质
US20180364053A1 (en) Predictive intersection search
CN106767753A (zh) 基于百度地图api的校园路径导航系统
WO2019091568A1 (en) Method and apparatus for determining a travel destination from user generated content
Lo et al. Passenger route guidance system for multi‐modal transit networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20210917

AD01 Patent right deemed abandoned