CN103077707A - 提供话音接口的方法和系统 - Google Patents

提供话音接口的方法和系统 Download PDF

Info

Publication number
CN103077707A
CN103077707A CN2012105743779A CN201210574377A CN103077707A CN 103077707 A CN103077707 A CN 103077707A CN 2012105743779 A CN2012105743779 A CN 2012105743779A CN 201210574377 A CN201210574377 A CN 201210574377A CN 103077707 A CN103077707 A CN 103077707A
Authority
CN
China
Prior art keywords
territory
inquiry
user
voice interface
particular voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105743779A
Other languages
English (en)
Inventor
M·阿德勒
I·基斯
J·波利夫罗尼
邬涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN103077707A publication Critical patent/CN103077707A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)
  • Telephonic Communication Services (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

公开了提供话音接口的方法和系统。用户终端的分类器话音接口可以接收查询,可以解析查询以识别属性,并且可以基于属性处理查询以选择多个域特定话音接口的第一域特定话音接口,其中每个域特定话音接口包括处理不同类型的查询的专用信息。分类器话音接口可以进一步指示第一域特定话音接口处理查询。

Description

提供话音接口的方法和系统
本申请是申请日为2009年9月10日、申请号为200980153496.3、发明名称为“提供话音接口的方法和系统”的发明专利申请的分案申请。
技术领域
本发明的示例性实施方式通常涉及话音查询。更具体地,本发明的示例性实施方式涉及基于话音的用户接口。
背景技术
持续复杂的特征已经实现在移动设备上,例如移动电话。当前的移动设备通过web接口和图形用户接口显示来提供对各种信息的访问,但用户通常限于使用小键盘来导航通过菜单层级以便选择期望的应用。
除了图形用户接口以外,还存在多种支持话音的用户接口。短消息服务(SMS)口述、电子邮件口述、姓名拨号应用、对话驱动的日历应用以及音乐播放器可以交互式地指导用户通过任务。常规的口语对话系统以固定的顺序询问用户一系列固定的问题,以缩小可能回答的范围。例如,为了找到餐馆,系统例如在提供任何的回答前,可以提示用户来指定针对菜肴、街坊和价格范围等的偏好。这种类型的交互不能满足不具有良好定义的偏好或者可能期望探查可能性的空间的用户对信息寻求的需求。
也已经开发了常规的算法,将对话建模为马尔可夫判定过程并且经由强化学习来优化模型。然而,这些算法依赖于复杂和成本高的训练数据,这些训练数据从大量的人机交互或此类对话的仿真导出。
发明内容
下文提供对本公开的一些示例性实施方式的简化总结,以便提供对本发明的一些示例性实施方式的基本理解。该总结并不是扩展概览,并且不旨在标识关键或重要的元素或描述权利要求的范围。下面的总结仅仅以简化的形式提出一些概念和示例性的实施方式,作为下面提供的更为详细描述的序言。
本公开的一些示例性实施方式针对于用于提供分类器话音接口的设备、方法和系统。更具体地,根据本公开的一些示例性实施方式的方法、设备和系统提供接收查询,解析查询以识别属性,根据属性处理查询以选择多个域特定话音接口的第一域特定话音接口,其中每个域特定话音接口包括专用信息以处理不同类型的查询,并且指示第一域特定话音接口处理该查询。
本公开的附加示例性实施方式针对于用于提供域特定话音接口的设备、方法和系统。更具体地,根据本公开的一些示例性实施方式的方法、设备和系统提供接收属性,基于属性应用评分功能来生成针对多个查询响应模板的每个的效用得分,基于效用得分选择多个查询响应模板的至少一个,并且可听地输出从至少一个查询响应模板生成的查询响应。
附图说明
通过参考下面的描述并考虑附图,将获得本发明及其优势的更为全面的理解,其中类似的参考编号指示类似的特征,并且其中:
图1图示出根据本公开的示例性实施方式的用户终端;
图2图示出根据本公开的示例性实施方式的一系列分层的软件应用的架构;
图3图示出根据本公开的示例性实施方式的知识库;
图4图示出根据本公开的示例性实施方式的域;
图5图示出根据本公开的示例性实施方式的分类器话音接口和域特定话音接口;
图6图示出根据本公开的示例性实施方式的用于收集和对元数据编索引以生成知识库的方法;
图7图示出根据本公开的示例性实施方式的用于处理用户查询以选择用于处理查询的域特定话音接口的方法;
图8图示出根据本公开的示例性实施方式的在识别的域特定话音接口处处理查询的方法。
具体实施方式
在各种实施方式的下面描述中,将对形成其一部分的附图做出参考,在附图中通过说明示出其中本发明的一个或多个示例性实施方式可以被实践的各种实施方式。将理解可以使用其他的实施方式并且在不偏离本发明的范围下可以做出结构和功能上的改变。
图1图示出根据本公开的示例性实施方式的用户终端102。用户终端102可以可听地呈现话音接口以响应来自用户的话音命令。用户可以与话音接口进行对话以使得用户终端102执行任务。例如,话音接口可以接收来自用户的查询,可以处理查询以识别对应于查询的一个或多个适当的响应,并且可以可听地呈现一个或多个响应的动态集合或可以执行动作。因此,替代于以固定的顺序可听地呈现固定的一系列问题,话音接口可以处理查询以识别对应于查询的动态查询响应,以便可听地呈现给用户。
在示例性实施方式中,用户终端102可以是移动通信设备,移动电话,或移动计算机,如所示出的,或也可以是数字视频记录器(DVR)、机顶盒(STB)、服务器计算机、计算机、硬盘、因特网浏览器设备、游戏设备、音频/视频播放器、数字照相机/摄像机、电视机、无线广播接收机、定位设备、有线或无线通信设备、和/或其任意的组合。用户终端102可以是独立的设备、例如如图1中所绘出的,或者也可以集成进另一设备中。例如,用户终端102也可以包括在汽车中以提供话音接口,从而与正在开车的用户进行交互。用户终端102也可以例如集成进汽车的仪表板中,或者经由有线的或无线的连接通信地耦合到汽车。
在所绘出的例子中,用户终端102可以包括显示器104、处理器106、收发器108、用户接口110、音频收发器112、存储器114和元数据数据库116。用户接110可以包括小键盘、触摸屏、话音接口、四箭头按键、游戏杆、数据手套、鼠标、轨迹球、触摸屏、或其他合适的设备,用于接收来自用户的输入以控制用户终端102。
收发器108可以允许用户终端102通过有线信道或无线信道进行通信。音频收发器112可以包括扬声器以用于向用户输出音频并且包括麦克风以用于接收来自用户的音频输入。
由用户终端102内的其他组件和处理器106使用的计算机可执行指令和数据可以存储在存储器114中,以便执行这里所述描述的任意方法步骤和功能。存储器114可以以只读存储器模块或随机存取存储器模块的任意组合来实现,可选地包括易失性和非易失性存储器二者。另外,用户终端102的一些或所有的计算机可执行指令可以体现在硬件或固件(未示出)中。例如,用户终端102可以包括一个或多个模块,这些模块包括硬件、固件、由处理器106执行的软件和/或其任意的组合。
在一个示例性实施方式中,处理器106可以执行一系列分层的软件应用以提供用户终端102处的话音接口。一系列分层的应用可以包括分类器话音接口应用和一个或多个域特定话音接口应用。处理器106可以执行分类器话音接口应用以提供分类器话音接口并且可以执行一个或多个域特定话音接口应用以提供相应的域特定话音接口。一系列分层的软件应用可以以下面描述的方式来处理在用户终端102的音频收发器112处接收到的查询。
图2示出了根据本公开的示例性实施方式的一系列分层的软件应用的架构。初始地,分类器话音接口202可以接收来自用户的语音输入(例如,查询)。分类器话音接口202可以提供最高级话音接口,该话音接口用于选择多个域特定话音接口204之一来处理该查询。域特定话音接口204的每个可以具有专用的知识来对特定类型的查询执行详细分析并且实施与用户的域内对话,而分类器话音接口202可以提供不太详细的分析,并且将其对查询的处理限于确定哪个域特定话音接口204被调用以执行查询的详细分析。
为了选择域特定话音接口204,分类器话音接口202可以解析查询以识别查询的属性。属性可以是关键字或多组关键字,这些关键字可以由分类器话音接口202解译成指令。当将查询分配给特定的域特定话音接口204时,分类器话音接口202也可以考虑包括在上下文注册表208中的上下文信息以及包括在查询中的属性的属性权重210。上下文信息可以表示向查询提供上下文的信息。上下文信息可以包括当前的时间和日期、用户偏好、位置或如下进一步描述的其他信息。属性权重210可以是描述属性的重要性的信息。属性权重210可以基于用户偏好或其他信息,如下将进一步描述。在一个示例性实施方式中,分类器话音接口202可以与元数据数据库116交互以获得上下文信息和属性权重。分类器话音接口202接着可以选择域特定话音接口204之一来进一步处理查询。
一旦选择,分类器话音接口202可以向选择的域特定话音接口204传递指令206。指令可以包括选择的域特定话音接口204的标识符、属性和查询。在绘出的实施方式中,分类器话音接口204可以向域特定话音接口204_1传递指令206。图1中的虚线箭头表示当被选择时,分类器话音接口202也可以向域特定话音接口204_2到204_N传递指令。
选择的域特定话音接口204可以接收和处理指令。选择的域特定话音接口204以及其他的域特定话音接口可以与相应的一组域关联。该组域可以是对于相应的域特定话音接口204来说唯一的专用词汇或语法的信息。相应的域特定话音接口204可以使用域信息来处理用户的查询。域可以与一组一个或多个查询响应模板关联。查询响应模板可以与属性关联,并且域特定话音接口204可以处理在指令206中接收的属性,以便选择适当的查询响应模板来对查询进行响应。下面将进一步详细描述查询响应模板的选择。
查询响应模板可以包括针对查询响应的模板,响应于用户的查询,该查询响应可听地呈现给用户。域特定话音接口204可以基于信息完成查询响应模板以生成查询响应,从而响应用户的查询,并且可以指示用户终端102可听地输出查询响应。例如,查询响应模板可以是“你今天有[插入会议数目]”。如果用户询问“我今天有多少会议”?,域特定话音接口204可以完成查询响应模板以生成查询响应,并且可以指示用户终端102可听地输出查询响应以响应用户的查询。因此,分类器话音接口202可以初始地处理初始用户查询以从查询获得属性,基于属性识别适当的域特定话音接口204,并且将查询分派到该适当的域特定话音接口204以便进一步处理。
例如,用户终端102可以包括两个域特定话音接口:日历域特定话音接口和方位域特定话音接口。分类器话音接口202可以处理从用户接收到的可听查询(例如,“今天我有什么会议”),并且可以确定查询是请求找出用户今天有什么会议。分类器话音接口202可以处理查询以确定日历域话音接口将最适于执行与用户的任何进一步对话以及处理查询。分类器话音接口202接着将指令转发到日历域特定话音接口,以便基于其专用的知识来进一步处理查询。日历域特定话音接口接着将产生查询响应(例如,“你今天有两个会议”)。
在另一个示例中,分类器话音接口202可以将用户的查询引导到针对音乐的域特定话音接口204。用户的初始查询可以跟着是用户和域特定话音接口204之间的若干次对话轮回,包括过滤和总结。例如,如果用户要求忧伤的音乐,则域特定话音接口204可以针对忧伤流派内的音轨来过滤用户的音乐。即使用户不太熟悉域数据的特征,域特定话音接口204可以按照小数目的特征为用户总结特征,这些特征被选择是因为或者它们在划分数据方面极为有用,或者它们指示了数据的有用的或不寻常的特性。例如,域特定话音接口204可以处理和过滤用户的音乐,并且可听的输出“这些忧伤音轨中的十个在你最近播放的列表上”。域特定话音接口204也可以负责处理域内动作,例如但不限于,播放某些音乐、创建新的播放列表等。下面提供在分类器话音接口202处分类查询以及由域特定话音接口204处理查询的进一步细节。
域特定话音接口204的每个可以与一组一个或多个域关联。域可以表示一组特征(例如,人、方位和用户终端中的媒体子集)。域可以组织为具有分层结构的知识库。
图3图示出根据本公开的示例性实施方式的知识库。在示例性的实施方式中,知识库302可以具有带有域的一个或多个层的层级结构。例如,第一层304可以包括人域308_1,方位域308_2,以及媒体域308_3。在第一层304上的每个域可以与不同的域特定话音接口204关联。例如,人域308_1可以与人域特定话音接口204关联,而方位域308_2可以与方位域特定话音接口204关联,并且媒体域308_3可以与媒体域特定话音接口204关联。
第一层304可以包括另外的子层域,例如发生在知识库层级的第二层306处的域。例如,人域308_1可以包括第二层306上的联系人域308_4和电子邮件域308_5,以及短消息服务(SMS)域、多媒体消息收发服务(MMS)域,日历域(未示出)。方位域308_2可以包括第二层306上的GPS定位域308_6和地图域308_7,以及地图域,感兴趣域、商业路径域以及导航能力域(未示出)。媒体域308_3可以包括第二层306上的图像域308_8和视频域308_9,以及音乐域和播客域(未示出)。
人域特定话音接口204可以处理对应于人域308_1,联系人域308_4,电子邮件域308_5,以及任何另外的低层域(未示出)的查询。类似地,方位域特定话音接口可以处理对应于方位域308_2、GPS域308_6、地图域308_7,以及任何另外的低层域(未示出)的查询。知识库302的层级是个例子,也可以使用具有比图3中示出更多或更少层的分层、以及具有更多、更少或其他的域的层。下面将进一步详细描述域特定话音接口204进行的处理。
图4图示出根据本公开的示例性实施方式的域308。域308可以包括一个或多个对象404。在所绘出的例子中,域308可以包括对象404_1和404_3。通常,对象404可以是类类型的实例。例如,电子邮件域内的每个对象可以代表特定的电子邮件消息。对象404可以包括一个或多个属性值对406、一个或多个域内动作408,以及查询响应模板412,以及可选地可以包括一个或多个交叉域动作410。对象404的例子可以是联系人项目、日历条目、地图上标记的位置以及用户拍摄的图片。描述联系人项目的对象404的属性值对406的例子可以是“名:约翰,姓:史密斯”,其中“名”是属性而“约翰”是值。描述日历项目的对象404的属性值对406的例子可以是“标题:审阅会议”,“日期:2008年6月29日”,“时间:13:00-14:00,EST”。描述联系人项目的对象404的域内动作408的例子可以包括:动作1)呼叫联系人;动作2)向联系人发送短消息服务(SMS)消息;动作3)向联系人发送多媒体消息收发服务(MMS)消息;动作4)从联系人接收SMS,动作4)从联系人接收MMS。也可以定义与项目关联的其他域内动作。交叉域动作410的例子可以是:动作1)联系人域:导航至方位域中的地址;动作2)媒体域:经由电子邮件向人域中的地址发送视频剪辑;动作3)显示在方位域中拍摄图片的地理位置。也可以使用其他的交叉域动作。查询响应模板412可以包括针对查询响应的模板,响应于用户的查询,该查询响应可听地呈现给用户。分类器话音接口202和域特定话音接口204的每个可以与特定的词汇关联,该特定的词汇提供它们各自的知识,以便识别域308中的特定对象404。
图5图示出根据本公开的示例性实施方式的具有特定词汇的分类器话音接口202和域特定话音接口204。特定的词汇可以是元数据、域索引以及查询响应模板。分类器话音接口202可以包括指向元数据数据库116中的其元数据的元数据指针502_1,以及指向存储器114中的其域索引的域索引指针504_1。域特定话音接口204可以包括指向元数据数据库116中的其元数据的元数据指针502_2,以及指向存储器114中的其域索引的域索引指针504_2。域特定话音接口204也可以包括指向存储器114中的其查询响应模板412的一个或多个查询响应模板指针506。
例如,人域特定话音接口204可以与用于处理对应于关于人的信息的用户查询的元数据、域索引以及查询响应模板关联,而方位域特定话音接口204可以与用于处理对应于关于方位的信息的用户查询的元数据、域索引以及查询响应模板关联。元数据可以表示对象的描述性属性。针对音乐轨道的元数据例如可以包括轨道的名称、专辑名称、艺术家、作曲等。域索引可以是与特定的域相关的属性。对于联系人信息,姓名和电话号码可以是域索引。对于电子邮件,姓名、主题和时间戳是域索引的例子。上面指出的域索引并不是穷举性列表,并且每个域索引对于特定的域可能并不是唯一的。查询响应模板412可以是针对查询响应的一组模板,其填充有信息以回答用户的查询,并且基于完成的查询模板,用户终端102可以可听地输出查询响应。
分类器话音接口202和域特定话音接口204可以是数据可配置的。元数据、域索引和查询响应模板可以被更新以扩展或修订它们的词汇和语言模型之一或二者。词汇可以是分类器话音接口202和域特定话音接口204能够处理的单词和它们的各自发音的列表。例如,如果新的条目“约翰史密斯”出现在联系人列表中,则词汇分类器话音接口202和相应的域特定话音接口204的域特定话音接口204可以通过“约翰”和“史密斯”扩展,如果这些单词还不是词汇的一部分。语言模型可以描述在特定的语言中单词如何彼此跟随,并且为分类器话音接口202和域特定话音接口204提供一种手段,以在可能和不可能的单词序列之间进行区分,从而提高单词识别准确性。例如,单词序列“在吃了我的”有可能由单词“午饭后”、“早餐后”或“三明治后”跟着,而“帽子”、“膝上型计算机”或“股市”是不太可能跟着的。语言模型可以在统计模型中捕获单词序列可能性信息,该统计模型在大的文件集上训练。语言模型也可以适用于域特定话音接口204期望在给定的域中接收的用户的发音风格和句子的类型。
通过在知识库302中使用基于结构化对象的表示,域特定话音接口204可以至少以半自动的方式来构建,以便执行域内动作408、交叉域动作410和可重用查询响应模板412,如稍后将详细描述。分类器话音接口202和域特定话音接口204的各自词汇可以被收集和编索引以提供知识库302,如下所讨论。
图6图示出根据本公开的示例性实施方式的用于对元数据进行收集和编索引以生成知识库的方法。
在块602中,用户终端102可以在元数据数据库116中存储关于知识库302的支持的域308的元数据。元数据数据库116可以存储来自所有支持的域402的元数据。用户终端102可以收集、对搜索编索引以及在元数据数据库116中存储元数据。分类器话音接口202和域特定话音接口204可以访问元数据数据库116。分类器话音接口202和域特定话音接口204可以访问元数据数据库116以对每个进行定制,从而提供一致的可听呈现,而无论使用了哪个话音接口。在每个域内,不同的元数据可能是相关的。用户终端102可以处理用户偏好,该用户偏好或者通过用户部分上的明确动作来指定,或者随时间的了解,从而总结用户优选的类型中的数据。例如,一个用户可以优选通过专辑来管理音乐,而另一个用户可能购买各个歌曲并且通过艺术家来管理音乐。
在块604中,用户终端102可以产生代表域的项目的对象。对象可以通过描述对象308的一个或多个属性值对406、在域308中定义的一个或多个域内动作408、在域之间允许的一个或多个交叉域动作410,和/或其任意组合来定义。针对元数据数据库116中的每个域308,用户终端102可以对对象404的属性值对406编索引和进行存储。
在块606中,用户终端102可以生成上下文注册表。上下文注册表可以包含上下文信息以识别某些当前事件和用户偏好,从而向用户的查询提供上下文。上下文信息可以包括用户偏好、检测的事件、用户交互行为中的改变和/或其任意组合。上下文注册表中的上下文信息可以通过用户(例如,设置偏好)手动地、通过用户终端102基于事件的自动检测(例如,会议开始时间已过、由加速器检测到的表明用户处于运动中的高物理活动等)、或通过自动检测来自用户的交互行为中的改变(例如,响应中的更长延迟、在对话期间反复需要纠错等)来更新。
上下文注册表208可以用于针对用户定制话音接口。分类器话音接口202和域特定话音接口204可以基于概要技术向用户呈现对话。统计技术可以用于发现哪些元数据类型是最适于将数据聚集成逻辑子集,该逻辑子集可以帮助用户关注于正确的数据集。例如,将大多数的数据划分成小数目的簇的属性值,或不寻常的属性值可以是提供有用的概要的两种技术。例如,“你的大多数新的电子邮件来自于你的部门,并且三个被标记为紧急”。取决于用户偏好,对于不同的用户,相同的域特定话音接口204可以不同地表现。
在示例性实施方式中,分类器话音接口202和域特定话音接口204可以从基于对象的表示获得上下文信息并且将该上下文信息存储在上下文注册表208中。上下文信息可以是不时地监视用户终端102的状态的各种传感器和软件守护进程的结果。上下文信息的例子可以包括GPS位置、模式(静音、室外、会议)或用户活动(驾车、行走)。将上下文信息存储在上下文注册表208中允许不同的域特定话音接口204根据用户期望的呈现格式或输入偏好修改向用户呈现的音频输出。例如,如果会议安排在给定的时间并且系统检测到包括运动检测设备(例如但不限于内置加速计)的用户终端102的很小动作,相对于语音输出,域特定话音接口204可以自动地将输出表示偏好修改成图形的。域特定话音接口204可以针对用户生成代表信息的输出对象。通过检查用户偏好和上下文信息从一组多模式选项确定优选的表示,可以算法地确定输出形式。图6的流程图接着可以结束。
分类器话音接口202可以使用描述对象404的一个或多个属性值对406、在对象404属于的域308中定义的一个或多个域内动作408、对于给定对象404在域之间允许的一个或多个交叉域动作410以及上下文信息来分类从用户接收的语音查询。
图7图示出根据本公开的示例性实施方式的用于处理用户查询以选择域特定话音接口204来处理查询的方法。
在块702中,用户终端102可以接收来自用户的语音输入以激活分类器话音接口202。在一个示例性实施方式中,用户可以向分类器话音接口202分配身份(例如,用户可以分配“N95”作为身份)。用户可以说出身份以便话音激活分类器话音接口202。身份可以是用户分配给分类器话音接口202的单词或词组。如果用户未对分类器话音接口202分配身份,则分类器话音接口202可以具有默认的身份。身份允许用户通过单个的发声来调用分类器话音接口202并且不需要分类器话音接口202来提示用户提供查询,但是如果期望的话,则分类器话音接口202可以针对查询提示用户。另外,通过用户按压按键或提供其他输入,分类器话音接口202可以被激活。另外,分类器话音接口202可以连续地操作并且可以处理音频以确定是否已经从用户接收到查询。有利地,当仅某些应用是支持话音的,则分类器话音接口202也可以通知用户请求的话音激活特征并不可用。
分类器话音接口202可以激活域特定话音接口204以允许用户使用域特定话音接口204而不需要必须记住每个域特定话音接口204的身份(例如,对于相应的应用,用户将不必说出“电子邮件”或“日历”。)分类器话音接口202不需要其用户理解它是如何被实现或配置的。另外,用户可以说出其为分类器话音接口202选择的身份并且可以给出简单的命令或者请求,以便获得期望的结果。
在块704中,用户终端102的分类器话音接口202可以经由音频收发器112从用户接收查询。分类器话音接口202可以处理查询以识别出哪个域特定话音接口204(例如,电子邮件域特定话音接口、日历域特定话音接口、音乐播放器域特定话音接口、天气域特定话音接口、地图域特定话音接口、交通域特定话音接口等)最适合用于处理查询。分类器话音接口202可以使用规则或机器学习技术从用户查询识别提示,以便将查询分派到适当的域特定话音接口204。例如,通过收集覆盖所有相关域的一组示例查询,某些单词和词组可能与一个域更为紧密地关联,而非另一个域。这些特性单词和词组充当那些域的提示。通过研究统计相关(例如,机器学习)或通过依赖于知识工程师来确定哪些提示最佳地代表每个域,可以自动地确定这种对应。分类器话音接口202可以将查询的处理指派给在词汇和命令语法方面具有更为合适的域知识的域特定话音接口204,从而通过用户、分类器话音接口202以及一个或多个域特定话音接口204之间的可听对话,以显得自然的方式来提供有意义的查询响应。
在块706中,分类器话音接口202可以解析查询以识别属性。分类器话音接口202可以解析查询以识别信息(例如,查询中的单词)。取决于域,单个提示或一组提示的存在可足以确定域。在其他的情形中,更为详细的语法可以用于确定查询是否包括具有正确顺序以指示与域关联的属性和值的单词。
在块708中,分类器话音接口202可以基于属性识别域特定话音接口204。为了基于属性识别出域特定话音接口204,分类器话音接口202可以使用关键词定位方法、自然语言理解方法、混合方法、以及评分方法中的一个或多个来比较不同的域特定话音接口204。
在关键词定位方法中,分类器话音接口202可以处理用户的查询以识别一个或多个关键词。例如,每个域特定话音接口204可以与唯一的一组单词关联。如果用户说出这些单词中的一个或多个,则分类器话音接口202可以确定用户正在调用相关的域特定话音接口204。例如,在请求中,“有任何的新的电子邮件吗?”,分类器话音接口202可以将术语电子邮件识别为调用电子邮件域特定话音接口的关键词。其他关键词也可以是针对相同域的指示符。在请求中,“为我阅读来自乔的最新消息”,则分类器话音接口202可以将术语消息识别为调用电子邮件域特定话音接口的关键词。
在自然语言理解方法中,分类器话音接口202可以应用域知识、语法、统计模型、以及用户自己的数据(例如,姓名的联系人列表)来开发对查询的更为完整的解译。例如,分类器话音接口202可以基于查询生成用户目的“框”(例如,计算机模型)。分类器话音接口202可以在框中填充可能的细节,例如位置、来自联系人列表的特定姓名、时间、日期和用户请求的动作。接着框可以用于确定合适的域特定话音接口204。框可以是包括用于捕获用户的目的的属性和值的对象。框可以是从提供的语音输入所理解的净化表示。例如,分类器话音接口202可以识别语音输入(例如,“将我与乔的下次会议重新安排到下周”)中的<日历-特定动词><填充物><日历特定名词><填充物>的语法,从而识别出日历域。在使用统计模型的例子中,术语“消息”可以或者表示SMS消息或电子邮件,但对于从不发送SMS消息的特定用户来说,统计模型可以偏置对电子邮件域的选择。在处理用户数据的例子中,用户数据可以包括用户偏好(例如,在餐馆域中,用户关于食物质量、服务、价格等置入的相对重要性),以及交互历史(例如,在电子邮件域中,确定什么消息是重要的,可付诸实施的等)。
在混合方法中,分类器话音接口202可以做出对域特定话音接口204之一的初始选择,以进一步处理查询,并且分类器话音接口202可以指示识别的域特定话音接口204以其更为详细的域知识来重新解译用户的查询以确认其选择。例如,分类器话音接口202可以使用关键词定位方法或自然语言理解方法来初始地选择域特定话音接口204,并且接着可以将指令转发到选择的域特定话音接口204以处理查询。域特定话音接口204可以确认分类器话音接口202对其选择的合适度,或者可以确定选择可能并不合适,并且可以请求分类器话音接口202来选择不同的域特定话音接口204来处理查询。例如,通过使用单词定位,某些术语可能有歧义,并且请求的更为详细的解析可以指示做出了错误的选择。术语消息可能意味着SMS消息或可能意味着电子邮件消息。如果分类器话音接口202假设SMS消息并且用户针对目的地提供电子邮件风格的地址,则SMS域特定话音接口204可以认识到该失配并且请求分类器话音接口202选择不同的域特定话音接口204来处理查询。另外,SMS域特定话音接口204可以建议合适的域。
在评分方法中,分类器话音接口202可以指示所有的域特定话音接口204来处理查询,并且可以选择具有对查询最佳解译的一个域特定话音接口204(例如,在某个规一化尺度上的最高分)。对于某些域、专用的语法和词汇,域特定话音接口204可能无法解译查询并且可能返回低分数。该方法对于识别查询的语言也很有用。可以将发声呈现成说英语和普通话系统,并且仅合适的域特定话音接口204可以理解该请求。该方法也可以利用经由网络通信地耦合到服务器的远程主控的用户终端102来使用,该服务器执行相应的域特定话音接口204的处理,或者可以完全地在用户终端102处实现。使用上述方法之一,分类器话音接口202可以基于识别属性以及它们的查询的相应值来识别合适的域特定话音接口204。
在块710中,用户终端102的分类器话音接口202可以指示识别的域特定话音接口204来处理查询。在示例性实施方式中,分类器话音接口202可以转发指示识别的域特定话音接口204来处理查询的指令。指令可以包括从包括在查询中的信息解析的一个或多个属性值对406。例如,用户可以查询“我今天有什么会议?”。分类器话音接口202可以解析查询以识别时间段属性并且可以包括“今天”的值以向用户指示感兴趣的时间段。分类器话音接口202可以将指令中的属性值对{时段:今天}转发给域特定话音接口204。图7的流程图接着可以结束。
当处理查询时,选择的域特定话音接口204在每个对话轮回可以使用评分功能来到达一个或者多个最佳响应。为了执行评分,域特定话音接口204可以处理从分类器话音接口202的指令中接收的一个或多个属性值对。域特定话音接口204也可以基于用户位置、对话上下文、应用于域数据的信息理论度量,以及用户模型信息来定制处理查询。例如,位置信息可以用于调整针对日历条目的合适时区,而对话上下文可以用于“记住”来自对话中更早步骤的结果(例如,如果已经询问了周一的会议,则没有指定新的数据的会议时间将仍指星期一)。信息理论度量可以指通过对话已经缩小的一组数据的统计分析。信息理论度量可以允许数据以更有意义的方式来总结;并且用户建模可以用于学习和应用用户偏好信息于过滤数据或排列数据,以满足用户的偏好。例如,如果用户在个人邮件中倾向于了解来自其工程组的邮件,则用户偏好可以影响呈现的信息的顺序。域特定话音接口204可以使用信息理论度量来确定最佳的查询响应,以便基于查询的上下文来最为有效地缩小选择。
域特定话音接口204可以将每个可能的查询响应视为响应选项,并且可以通过使用多属性应用理论来计算加权的评分功能,可以向每个响应选项分配数值。多属性应用理论(MAUT)可以提供直截了当的方式来将排序的用户偏好的使用操作化,以对特定的用户定制信息。MAUT可以用于确定用户的整体偏好通过多个各个因素的相互作用来确定。每个域特定话音接口204可以具有一组一个或多个可能的响应选项,该一个或多个可能的响应选项具有带有对应于特定域308的一个或多个属性的查询响应模板412。例如,日历域特定话音接口204可以与指向存储在存储器114中的地图域3064的查询响应模板412的多个查询响应模板指针506关联。查询响应模板412的一个例子可以是“你与[插入会议参与者]在[插入时间]有个会议”,其中域特定话音接口204将以合适的信息来填写打括号的文本,以产生响应于用户查询的查询响应。每个查询模板412可以包括一个或多个属性。属性的例子包括时间段、姓名、位置等。
当各种响应选项之间的不同属性的相互作用可以影响哪个查询响应模板是响应于查询的最佳选项时,域特定话音接口204可以应用多属性应用理论来确定分配给每个属性的权重。通过排列属性的重要性可以确定属性的权重,如下面将进一步详细描述。域特定话音接口204可以线性地组合权重以得到对于每个查询响应模板的效用分数。这样,域特定话音接口204可以将可能的查询响应视为针对内容选择和信息呈现的优化问题,其中可以在每个对话轮回处计算最佳的查询响应。
对特定属性的排列可以从在与用户终端102的用户交互期间收集的信息导出或者可以明确地从用户请求。使用下面的公式(来自多属性应用理论),排序可以转换成权重w:
Figure BSA00000831222400171
其中K等于排序中属性的数目。来自用户模型的权重和与属性值关联的标量值使用简单的加性函数来组合,以产生针对由h所索引的实体的整体效用性U:
Figure BSA00000831222400172
具有通过该度量的最高效用分数的属性是那些最为匹配用户偏好的那些属性。
针对属性的权重可以基于用户偏好。这些权重应用的对象数据可以来自于数据库域或消费者生成的数据,其中属性和相关值从考察获得。在偏好可以使用用户模型导出或引出的情形中,域特定话音接口204可以基于那些偏好来排列属性。基于用户模型的评分可以如上所总结的那样继续。用户偏好可以例如基于用户对不同类型的音乐的密切关系,针对来自域特定话音接口204的或多或少冗长通信的用户偏好,其可以取决于用户与域特定话音接口204的熟悉度,或其他因素。权重可以经由上面总结的MAUT功能获得。
在其他情形中,域特定话音接口204可以使用基于查询的上下文的对象测量来向属性分配权重。例如,域特定话音接口204在位置是属性的情形中(即,根据用户在哪以及用户从事什么活动来向她呈现信息)可以考虑物理距离,以及在域特定话音接口204内选项具有分支的情形中可以考虑对话成本,例如擦除存储的上下文。物理距离可以用作权重。例如,域特定话音接口204可以将针对特定餐馆的分数与
Figure BSA00000831222400173
相乘,其中d是从用户到餐馆的距离。这将具有使得远离用户的餐馆具有更低分数的效果。在一些情形中,特定的响应在整个对话中具有成本,例如通过当新的对话路径跟着时,使得上下文被丢失。如果给定这样的响应,则用户将不得不重新引入所有先前指定的限制,以便返回到期望的上下文。在例如这些的情形中,成本可以与选择反映可以被遗望的属性的数目的特定响应关联,并且可以在接受此类响应前调用确认子对话。进一步,经由自动处理消费者生成的媒体所发现的新的属性可以被无缝地添加到带有默认权重的元数据数据库116,其中当用户与域特定话音接口204交互并且使用新的属性时,默认权重可以被修改。当关于用户的改变的意向偏好的更多信息被收集时,可以随时间修改默认的权重。
这样,分配给属性的权重可以在查询上下文、用户偏好和用户所有数据(例如音乐)方面定制。定制因此允许话音接口来处理相应域402的改变的数据内容(例如,用户的音乐库、电子邮件收件箱或拍摄的图片/视频)。
图8图示出用于根据本公开的示例性实施方式处理在识别的域特定话音接口204处处理查询的方法。
在块802中,用户终端102的域特定话音接口204可以从分类器话音接口202接收指令以处理语音输入。指令可以包括一个或多个属性值对406。例如,用户可以提供作为查询“我今天有多少会议”的语音输入,其中分类器话音接口202可以已经解析查询以生成包括属性值对“时段:今天”的指令。域特定话音接口204可以接收属性值对,连同在保持可应用的上下文中先前引入的任意其他属性值对。基于由用户提供的进一步语音输入,域特定话音接口204也可以识别和处理附加的属性值限制。
在块804中,域特定话音接口204可以排列每个属性值对。为了排列属性值对406,域特定话音接口204可以从元数据数据库116的上下文注册表208检索上下文信息。例如,餐馆域特定话音接口204的用户可以具有按针对食物质量(例如,好)、服务(例如,好)、价格(例如,不贵)、菜肴(例如,特定的一组菜肴)、位置(例如,特定的一组街坊),以及装饰(例如,好)顺序的偏好。MAUT公式可以返回.41(食物质量)、.24(服务)、.16(价格)、.10(菜肴)、.06(位置)、.03(装饰)的权重。针对例如食物质量的属性的值可以分配标量表示(例如,“极好”=5,“很好”=4等)。权重与针对属性的标量值相乘并且在提到的所有属性上进行求和将构成特定响应的效用分数。响应可以包括单个的餐馆,在该情形中分数反映餐馆本身的效用,或其可以提到餐馆的聚集,(“后湾区的许多餐馆具有极好的食物质量和很好的服务”),在这种情形中,响应的效用将通过属性、值以及专用提到的权重来确定。
上下文信息可以例如是针对每个属性值对406的用户偏好,该属性值对406包括在指示用户已经标识了某些属性比其他属性更为重要的指令中。域特定话音接口204可以基于上下文信息来排列每个属性。例如位置或邻近度的上下文信息可以用于对特定的响应进行评分。在粗糙级别的位置的情形中(例如,街坊),可以如上所述的对上下文进行评分。对于邻近度,可以分配相反的加权以支持距离上更近的实体。
域特定话音接口204可选地可以应用机器学习技术来发现属性之间的关联。判定树推导可以用于确定这些关联。除了轻量并且易于计算,判定树相对来说更易于转化为自然语言表示。
在块806中,域特定话音接口204可以应用评分功能来对每个属性值对406进行评分,并且在所有的属性值对406间进行求和,以获得针对每个查询响应模板412的效用分数。域特定话音接口204可以从存储器114检索其域308的查询响应模板412,该查询响应模板412具有来自分类器话音接口202的指令中标识的至少一个属性。对于每个查询响应模板412,域特定话音接口204可以对每个属性值对406进行评分并且对查询响应模板412中的所有属性值对406进行求和,以获得如上所述的对于查询响应模板412的效用分数。
对每个查询响应模板412应用评分功能可以允许域特定话音接口204基于上下文信息来计算所有可能查询响应的统计简档。使用该统计简档,域特定话音接口204可以探查一系列的查询响应类型。尽管可以确定哪些响应最为紧密地匹配特定的用户简档,域特定话音接口204可能也识别可能不具有高的评分但在特定的属性内具有感兴趣的折衷的其他响应,如下进一步描述。
基于统计简档,域特定话音接口204可以仅选择符合用户/通用偏好的一小组最佳的查询响应。用户终端102的输出设备(例如,显示器104、音频收发器112等)的大小、类型和形态可以确定向用户呈现多少选择。如果显示器104大,则用户终端102可以显示出更多的选择。地图也可以影响信息将如何被呈现。对于仅语音的接口,可以选择更少的选项,其中所有的响应必须可听地呈现给用户。
域特定话音接口204也可以选择最佳的查询响应以及感兴趣的异常值,代表用户在各种属性值间寻求中感兴趣的折衷。关注好的食物质量、好的服务、位置和价格(按该顺序)的用户可以指定一系列的限制,该一系列的限制将导致检索一组对于质量和服务排列较高,同时也相对较贵的餐馆。由于该用户的两个最高度期望的特征是食物质量和服务,价格可以对显示的一组餐馆的整体确定贡献相对较小的部分。然而,如果一组餐馆是其他间的异常值,因为所有的成员具有好的质量和服务,并且很便宜,则该组也可以选择显示给用户。
另外,域特定话音接口204可以以这样的顺序来提供全范围的响应选项(例如,在图形用户接口输出的情形中),即帮助用户了解大量的数据以使得用户探查可能的范围。响应可以通过效用分数、基于偏好等来进行排列。
在块808中,域特定话音接口204可以确定效用分数是否对应于单个对象。例如,效用分数可以与向特定的联系人发送电子邮件关联。在其中用户请求特定的动作的情形中,域特定话音接口204可以执行该动作,如果其具有足够的信息来这样做的话。在域特定话音接口204已经确定其需要更多的信息时,域特定话音接口204可以查询用户(例如,针对电子邮件消息的接收者,或主题标题)。如果识别单个的对象,则流程图可以继续到块812。如果识别多个对象或没有识别到对象,则流程图可以继续到块810。
在块810中,域特定话音接口204可以选择顶部的N个查询响应模板412以便呈现给用户,其中“N”对应于一个整数。顶部的N个查询响应模板412可以用于针对进一步的信息向用户提示。域特定话音接口204可以可听地呈现从相应的查询响应模板412生成的一个或多个查询响应,以提示用户来提供信息,从而引导用户来缩窄或放宽知识库302的层级内的域。例如,再次参考图2,第一层304中的人域308_1可以具有作为较低层(即,更为具体的)域的联系人域308_4和电子邮件域308_5。顶部的N个查询响应可以涉及域特定话音接口204,提示用户来提供更多的信息,以确定用户在联系人域308_4中期望采取的一个或多个动作。
为了确定顶部的N个查询响应,域特定话音接口204可以具有响应阈值并且可以选择具有大于响应阈值的效用分数的顶部N个查询响应。域特定话音接口204接着可以基于查询响应模板412来可听地产生顶部N个查询响应并且可以提示用户以提供进一步限制的语音输入来进行响应。例如,用户终端102可以输出更窄的或更宽的域的可听描述,并且可以要求用户来说出进一步的限制。例如,为了发送文本消息,域特定话音接口204可以提示用户直到已经标识了至少一个毫无疑义指定的接收者。如果用户已经简单地指定“约翰”并且在用户的联系人列表中有多个条目带有给定的姓名“约翰”,则域特定话音接口204可以提示用户进行澄清。流程图可以返回到块802以处理提供进一步限制的语音输入。如果识别了动作,则返回到块808,流程图可以继续到块812。
在块812中,域特定话音接口204可以执行与识别的对象404关联的域内动作408。域内动作可以在用户请求时执行。如上所讨论,对象404可以与一个或多个域内动作408关联。如果用户做出发送消息的请求,则域特定话音接口204可以调用发送消息的应用。如果从上下文可以清楚知道用户指的是SMS(相比较于电子邮件),并且接收者是清楚的,则域特定话音接口204可以接着前进到填写该消息。如果消息的类型或接收者之一是不清楚的,则域特定话音接口204可以要求澄清。
在块814中,域特定话音接口204可以确定是否存在与识别的对象404关联的任何交叉域动作410。每个域特定话音接口204可以识别其他域中的动作,从而调用另一域中的动作的用户发声可以被合适的处理。如果没有任何的交叉域动作410,当所有的域内动作408已经完成时,流程图可以继续返回到块704,以便允许分类器话音接口202处理来自用户的进一步查询,如图7中所描述。
如果存在与对象404关联的交叉域动作410,则域特定话音接口204可以以执行交叉域动作410的指令来将查询的处理移交给新的域特定话音接口204。如果检测到交叉域动作,则域特定话音接口204可以将当前发声的意义表示连同整个讲述历史移交给新的域特定话音接口204。
在处理期间,新的域特定话音接口204可以应用包含在上下文注册表208中的上下文信息来定制与用户的对话。当向另一域特定话音接口204传送对话以执行交叉域动作410时,针对唠叨和使用图形/话音形态的用户偏好可以跨不同的域特定话音接口204传播。一旦执行了交叉域动作410,新的域特定话音接口204可以向发起域特定话音接口204返回交叉域动作410的结果。
例如,发送电子邮件可以要求电子邮件域特定话音接口和日历域特定话音接口之间的交叉域动作410。用户可以口头地与日历域特定话音接口通信以识别用户的下一任务。日历域特定话音接口可以执行域内动作408(即,检索用户的任务并且计算对于当前时间最近的一个)。如果用户改变任务时间,则日历域特定话音接口可以执行域内动作408,例如针对新的时间向用户提示。对象404也可以与交叉域动作410关联,即,请求会议受邀方的电子邮件地址。
在块816中,发起域特定话音接口204可以完成对象404的任意剩余域内动作406。参考块814中的电子邮件例子,联系人域特定话音接口204可以返回电子邮件地址并且将处理移交给电子邮件域特定话音接口204。电子邮件域特定话音接口204可以接着将电子邮件地址插入到电子邮件中并且可以完成发送电子邮件的域内动作404。一旦完成了动作,流程图可以继续返回到图7的块704,以允许分类器话音接口202以如上所讨论的方式来处理进一步的用户查询。
可选地,域特定话音接口204可以保留对话历史以允许跟随的查询。例如,一旦发送电子邮件,接收者仍可以被认为由用户所关注,导致例如“他的电话号码是什么?”的跟随查询。域特定话音接口204在这点上可以要求澄清(例如,“谁的电话号码?”)或者可以查阅交叉域历史并且找到关注的对象(在此情形中为电子邮件的接收者),并且提供针对该联系人的电话号码。图8的流程图接着可以结束。
由于两级方式(即,分类器话音接口和域特定话音接口),上述的系统可以处理许多不同的功能性,同时似乎向用户提供单级的接入。由于项目的基于结构化对象的表示和全局可搜索的元数据库,该组功能性可以被轻易地扩展。通过暴露来自日历、电子邮件、联系人列表和其他应用的信息,话音接口允许用户无缝地在不同的域特定话音接口之间移动而不需要重新指定各种关注的属性。还可以组合来自多个源的信息以确定何时突出显示某些动作。例如,来自用户被安排将在不久地将来与其开会的某个人的进入的电子邮件消息将被标记为可能重要。
下面根据本公开提供了话音接口的两个例子。在第一个例子中,初始地,用户可以说出一个查询,例如“我今天有什么会议?”。分类器话音接口202可以解析查询以识别单词“会议”和“今天”。分类器话音接口202可以识别合适的域特定话音接口204,即,日历域特定话音接口,并且可以确定属性值对“时段:今天”。发类器话音接口202可以将指令传送到日历域特定话音接口,并且包括属性值对,例如{(1)类型:域特定话音接口204:日历;(2)限制{时段:今天}}。日历域特定话音接口可以接着排列属性值对,并且应用评分功能以确定针对具有{时段}属性的每个查询响应模板的效用分数。日历话音接口可以确定具有最高效用分数的查询响应模板对应于声明“你今天早晨有[插入早晨会议的数目,如果零则省略]个会议,下午有[插入下午会议的数目,如果零则省略]个会议,晚上有[插入晚上会议的数目,如果零则省略]个会议,你下一个会议在[插入直到下一个会议的时间间隔]在[插入会议位置]”。括号中的声明对应于在基于查询模板可听地向用户呈现查询响应前,日历域特定话音接口插入或省略的信息(如果可应用)。日历域特定话音接口可以将合适的信息插入进查询响应模板,并且可以指示用户终端102来生成并且可听地输出“你今天早晨有两个会议而下午有三个会议,你下一个会议将在三十四分钟后在你的办公室”。该动作完成对查询的响应,并且日历域特定话音接口可以将控制返回给分类器话音接口202以监视进一步的查询。
用户可以接着说出“我有什么新的消息吗?”。如果从上下文不清楚的消息收发服务的类型,则分类器话音接口202可以要求查询在话音邮件和电子邮件之间做出明确。如果用户说出电子邮件的进一步限制,则分类器话音接口202可以解析查询以确定{属性:未读}的属性值对并且可以将包括属性值对的指令传送到邮件域特定话音接口,例如{(1)类型:域特定话音接口204:邮件;(2)限制:{属性:未读}}。分类器话音接口202可以执行简单的自然语言处理技术,以例如确定包含在用户发声中的属性/值限制。邮件域特定话音接口接着可以对属性值对进行排列并且应用评分功能,以确定具有{时段}属性的域中的每个查询响应模板的效用分数。邮件话音接器接着可以确定具有最高效用分数的查询响应模板对应于声明“你有[插入新消息的数目,如果为零,则省略]消息,包括[插入紧急消息的数目,如果为零,则省略]从[插入发送者姓名]发送[插入紧急消息发送的时间]。邮件域特定话音接口可接着使用户终端102可听地输出“有15条新的消息,包括两条来自鲍勃昨晚发送的紧急电子邮件”。该动作完成了对查询的响应,并且邮件域特定话音接口可以将控制返回给分类器话音接口202,以监视进一步的查询。
在第二个例子中,用户可以分配分类器话音接口202身份“N95”。用户可以说出身份以话音激活分类器话音接口202。初始地,用户可以说出“N95,我今天有什么会议?”。分类器话音接口202可以解析查询以识别单词“会议”和“今天”。分类器话音接口202可以识别出合适的域特定话音接口204,即,日历域特定话音接口,并且可以确定属性值对“时段:今天”。分类器话音接口202可以传送指令,该指令标识日历域特定话音接口并且包括属性值对,例如,{(1)类型:域特定话音接口:日历;(2)限制:{时段:今天}}。日历话音接口可以确定具有最高效用分数的查询响应模板对应于声明“你有[插入会议类型,如果有的话]会议在[插入会议出席者]在[插入时间]以及[插入会议类型,如果有的话]会议在[插入会议出席者]在[插入时间]”。日历域特定话音接口可以将关于今天会议的信息插入进查询响应模板,并且使用户终端102可听地输出“你有会议在客户处XYZ公司在9:30AM,以及2:00PM在办公室有工程会议”。该动作完成对查询的响应,并且日历域特定话音接口可以将控制返回给分类器话音接口202以监视进一步的查询。
用户接着可以说出查询“我如何到达XYZ”。分类器话音接口202可以解析单词“到达”和“XYZ”。分类器话音接口202可以解析查询以确定属性值对{位置:XYZ公司}并且可以向方位域特定话音接口传送包括属性值对的指令,属性值对例如{(1)类型:域特定话音接口:方位;(2)位置:XYZ公司}}。方位域特定话音接口可以接着对属性值对进行排列并且可以应用评分功能以确定具有{位置}属性的域中的每个查询响应模板的效用分数。方位话音接口可以使用GPS或其他定位系统来确定用户终端102的当前位置,或可以针对用户的当前位置向用户提示。方位话音接口可以检索方向并且可以指示用户终端102来可听地提供方向以引导用户到XYZ公司。该动作完成对查询的响应,并且方位域特定话音接口可以将控制返回给分类器话音接口202以监视进一步的查询。
替代于通过按固定的顺序向用户呈现固定的问题序列而将用户查询简单地路由到域特定话音接口204,示例的实施方式将分类器话音接口202提供为统一的话音接口,以便智能地将用户引导到多个域特定话音接口204之一。在示例的实施方式中的话音接口提供超出当前现有技术的对话系统的灵活性,现有技术的对话系统主要被构建成当与用户交互时呈现固定的响应序列。通过当与特定的域特定话音接口204交互时使得浏览作为信息寻求策略,示例性的实施方式提供了域独立的方式来自动地配置域特定话音接口204。不同于按固定顺序向用户呈现一组固定的响应,示例性实施方式在每个对话轮回处可以确定动态的一组合适的查询响应,以缩小针对下一轮的响应选项的列表。
分类器话音接口202可以提供统一的框架,以便做出关于知识库中的多个域间的内容选择和信息呈现的判定。该统一的方法可以显著地缩短针对相同任务的用户交互。通过开发对话而不是仅依赖于单向的指令接口,用户终端102可以提供用户的查询的解译(或多个解译),并且用户可以与系统交互以改进系统的理解,而非允许系统在没有确认或精炼下响应于用户查询的可能不正确解译。
替代于简单地提示用户在知识库中选择特定的域,分类器话音接口202可以处理用户的查询以识别合适的域特定话音接口204。此外,分类器话音接口202可以在用户终端102处本地地执行,而非依赖于基于服务器的系统,尽管基于服务器的系统也可以被实现。附加地,基于用户的查询和当前的对话状态,上下文注册表可以被更新以便产生与用户的定制的对话交互。
话音接口也可以克服形式因素负担,其中用户终端102是移动电话。通过在移动电话的小的显示器上使用图形用户接口(GUI)完成任务,用户可以承受负担。当用户将其全部注意集中在观看小键盘或屏幕,例如当驾车时,这种可用性障碍变成持续的困扰。
此外,根据示例性实施方式的话音接口可以在没有在移动平台上实现大词汇通用语法模型的情况下使用,并且因此并不对移动设备的有限资源(例如,计算、存储器、电量等)造成负担。解译一些用户请求可能需要对可以被请求的数据和操作范围的深度理解。开发具有此类的多个域的“深度理解”的单个系统将导致在解译用户的请求方面的难度,因为在不同的子域中的词汇和操作中经常存在重叠。通过采用“分治法”方法,根据示例性实施方式的话音接口可以更为简单地满足用户的性能期望。
上述的处理器106可以包括一个或多个模块,其可以实现为硬件、固件、软件和/或其任意组合。例如,处理器106可以包括查询解析模块、查询处理模块、指令模块、以及其他模块以执行这里所描述的功能和特征。
这样,示例性实施方式提供了一种架构,用于针对用户终端上的众多功能性实现基于对话的话音接口,其是数据可配置的、便于定制、并且可以以高效的方式来处理用户偏好和上下文。
最后,通过有效地处理来自用户的语音输入,该架构可以提供比键入对信息的更快访问以及任务的执行。此外,这里所讨论的概要技术可以比其他技术更快地引导用户,尤其相比较于从用户接收键入的输入的接口。例如,通过利用题目和发送者对新的电子邮件进行总结,用户可以跳到重要的消息而不需要收听所有先前的消息。从语音输入处理方面,如果信息从初始查询丢失,架构可以提示用户以便有效地指导用户来提供附加的限制,从而确定用户正在找寻什么信息和/或用户期望执行什么任务。如果所需的所有信息出现在初始查询中或在针对附加的信息进一步提示用户后,则架构直接并且透明地将数据移交给特定的域特定话音接口,因此减小用户使用话音输入完成任务所需的时间。此外,如果在响应中有大量的数据,则这里所讨论的架构可以组合图形和话音接口以减小可听地呈现的信息量。
上述描述关于用户终端102上的话音接口提供。可以理解这里所描述的原理可以被扩展到不同类型的用户终端102,包括那些在有线和无线网络中的用户终端。与特定的示例实施方式关联描述的特征也可以与其他示例性实施方式关联描述的特征组合和/或替代于与其他示例性实施方式关联描述的特征而使用。
尽管以特定于结构特征和/或方法动作的语言描述了主题,将理解到在所附权利要求书中所定义的主题不必限于上述的特定特征或动作。相反,上述的特定特征和动作公开为实现实施方式的示例形式。

Claims (24)

1.一种用于提供话音接口的设备,包括:
处理器,配置成:
接收查询;
解析所述查询以识别属性;
基于所述属性处理所述查询以选择多个域特定话音接口的第一域特定话音接口,其中每个域特定话音接口包括用于处理不同类型的查询的专用信息;以及
指示所述第一域特定话音接口处理所述查询。
2.根据权利要求1所述的设备,进一步包括存储器,配置成存储计算机可读指令,并且其中所述处理器配置成执行所述计算机可读指令。
3.一种用于提供话音接口的设备,包括:
用于接收查询的装置;
用于解析所述查询以识别属性的装置;
用于基于所述属性处理所述查询以选择多个域特定话音接口的第一域特定话音接口的装置,其中每个域特定话音接口包括用于处理不同类型的查询的专用信息;以及
用于指示所述第一域特定话音接口处理所述查询的装置。
4.一种用于提供话音接口的方法,包括:
接收属性;
基于所述属性应用评分功能以便生成针对多个查询响应的每个的效用分数;
基于所述效用分数选择多个查询响应模板的至少一个查询响应模板;以及
可听地输出从所述至少一个查询响应模板生成的查询响应。
5.根据权利要求4所述的方法,其中所述属性是多个属性之一。
6.根据权利要求5所述的方法,进一步包括基于所述用户偏好排列所述多个属性,以便向所述多个属性的每个分配相应的权重。
7.根据权利要求6所述的方法,其中基于上下文信息来对所述属性进行加权。
8.根据权利要求4所述的方法,进一步包括提示用户输入后续的查询。
9.根据权利要求4所述的方法,进一步包括识别对应于第一效用分数的域内动作。
10.根据权利要求9所述的方法,进一步包括执行所述域内动作。
11.根据权利要求9所述的方法,进一步包括识别与所述域内动作关联的交叉域动作。
12.根据权利要求11所述的方法,进一步包括将处理移交给域特定话音接口以执行所述交叉域动作。
13.根据权利要求12所述的方法,进一步包括从所述域特定话音接口接收所述交叉域动作的结果。
14.一个或多个存储计算机可执行指令的计算机可读介质,当计算机可执行指令由处理器执行时,使得所述处理器执行一种方法,包括:
接收属性;
基于所述属性应用评分功能以便生成针对多个查询响应的每个的效用分数;
基于所述效用分数选择多个查询响应模板的至少一个查询响应模板;以及
可听地输出从所述至少一个查询响应模板生成的查询响应。
15.根据权利要求14所述的一个或多个计算机可读介质,存储另外的计算机可执行指令,当由所述处理器执行时,所述计算机可执行指令使得所述处理器执行一种方法,包括基于用户偏好排列相对于多个属性的属性,以便向多个属性的每个分配相应的权重。
16.根据权利要求14所述的一个或多个计算机可读介质,存储另外的计算机可执行指令,当由所述处理器执行时,所述计算机可执行指令使得所述处理器执行一种方法,包括提示用户输入后续的查询。
17.根据权利要求14所述的一个或多个计算机可读介质,存储另外的计算机可执行指令,当由所述处理器执行时,所述计算机可执行指令使得所述处理器执行一种方法,包括识别对应于第一效用分数的域内动作。
18.根据权利要求17所述的一个或多个计算机可读介质,存储另外的计算机可执行指令,当由所述处理器执行时,所述计算机可执行指令使得所述处理器执行一种方法,包括执行所述域内动作。
19.根据权利要求17所述的一个或多个计算机可读介质,存储另外的计算机可执行指令,当由所述处理器执行时,所述计算机可执行指令使得所述处理器执行一种方法,包括识别与所述域内动作关联的交叉域动作。
20.根据权利要求19所述的一个或多个计算机可读介质,存储另外的计算机可执行指令,当由所述处理器执行时,所述计算机可执行指令使得所述处理器执行一种方法,包括将处理移交给域特定话音接口以便执行交叉域动作。
21.根据权利要求20所述的一个或多个计算机可读介质,存储另外的计算机可执行指令,当由所述处理器执行时,所述计算机可执行指令使得所述处理器执行一种方法,包括从所述域特定话音接口接收交叉域动作的结果。
22.一种用于提供话音接口的设备,包括:
处理器,配置成:
接收属性;
基于所述属性应用评分功能以便生成针对多个查询响应模板的每个的效用分数;
基于所述效用分数选择多个查询响应模板的至少一个查询响应模板;以及
可听地输出从所述至少一个查询响应模板生成的查询响应。
23.根据权利要求22所述的设备,进一步包括存储器,配置成存储计算机可读指令,并且其中所述处理器配置成执行计算机可读指令。
24.一种用于提供话音接口的设备,包括:
用于接收属性的装置;
用于基于所述属性应用评分功能以便生成针对多个查询响应模板的每个的效用分数的装置;
用于基于所述效用分数选择多个查询响应模板的至少一个查询响应模板的装置;以及
用于可听地输出从所述至少一个查询响应模板生成的查询响应的装置。
CN2012105743779A 2008-10-31 2009-09-10 提供话音接口的方法和系统 Pending CN103077707A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/263,012 US9978365B2 (en) 2008-10-31 2008-10-31 Method and system for providing a voice interface
US12/263,012 2008-10-31

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN2009801534963A Division CN102272828B (zh) 2008-10-31 2009-09-10 提供话音接口的方法和系统

Publications (1)

Publication Number Publication Date
CN103077707A true CN103077707A (zh) 2013-05-01

Family

ID=42128304

Family Applications (3)

Application Number Title Priority Date Filing Date
CN2009801534963A Active CN102272828B (zh) 2008-10-31 2009-09-10 提供话音接口的方法和系统
CN2012105743779A Pending CN103077707A (zh) 2008-10-31 2009-09-10 提供话音接口的方法和系统
CN201510021388.8A Active CN104700835B (zh) 2008-10-31 2009-09-10 提供话音接口的方法和系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN2009801534963A Active CN102272828B (zh) 2008-10-31 2009-09-10 提供话音接口的方法和系统

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201510021388.8A Active CN104700835B (zh) 2008-10-31 2009-09-10 提供话音接口的方法和系统

Country Status (5)

Country Link
US (1) US9978365B2 (zh)
EP (1) EP2347409A4 (zh)
CN (3) CN102272828B (zh)
RU (1) RU2494476C2 (zh)
WO (1) WO2010049582A1 (zh)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8355913B2 (en) * 2006-11-03 2013-01-15 Nokia Corporation Speech recognition with adjustable timeout period
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US10496714B2 (en) * 2010-08-06 2019-12-03 Google Llc State-dependent query response
US9582609B2 (en) * 2010-12-27 2017-02-28 Infosys Limited System and a method for generating challenges dynamically for assurance of human interaction
US9047378B1 (en) * 2011-09-30 2015-06-02 Google Inc. Systems and methods for accessing a multi-organization collection of hosted contacts
US9201859B2 (en) * 2011-12-15 2015-12-01 Microsoft Technology Licensing, Llc Suggesting intent frame(s) for user request(s)
EP2807585A4 (en) * 2012-01-27 2015-07-15 Ericsson Telefon Ab L M METHOD AND APPARATUS FOR MANAGING DATA REQUESTS
US9111248B2 (en) * 2012-03-28 2015-08-18 Global Eprocure Procurement system
EP2839391A4 (en) 2012-04-20 2016-01-27 Maluuba Inc CONVERSATION AGENT
US20130325483A1 (en) * 2012-05-29 2013-12-05 GM Global Technology Operations LLC Dialogue models for vehicle occupants
US9424233B2 (en) 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US10276157B2 (en) 2012-10-01 2019-04-30 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
WO2014055181A1 (en) * 2012-10-01 2014-04-10 Nuance Communications, Inc. Systems and methods for providing a voice agent user interface
US9269354B2 (en) 2013-03-11 2016-02-23 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
US9361884B2 (en) 2013-03-11 2016-06-07 Nuance Communications, Inc. Communicating context across different components of multi-modal dialog applications
US9761225B2 (en) 2013-03-11 2017-09-12 Nuance Communications, Inc. Semantic re-ranking of NLU results in conversational dialogue applications
US10031953B1 (en) 2013-03-14 2018-07-24 Google Llc Generating query answers
US9116952B1 (en) 2013-05-31 2015-08-25 Google Inc. Query refinements using search data
US9336277B2 (en) * 2013-05-31 2016-05-10 Google Inc. Query suggestions based on search data
US20160035348A1 (en) * 2013-06-07 2016-02-04 Nuance Communications, Inc. Speech-Based Search Using Descriptive Features of Surrounding Objects
US10073882B1 (en) * 2013-07-15 2018-09-11 Google Llc Semantically equivalent query templates
US9558176B2 (en) * 2013-12-06 2017-01-31 Microsoft Technology Licensing, Llc Discriminating between natural language and keyword language items
JP6316447B2 (ja) * 2014-05-15 2018-04-25 華為技術有限公司Huawei Technologies Co.,Ltd. オブジェクト検索方法および装置
RU2654789C2 (ru) 2014-05-30 2018-05-22 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и электронное устройство (варианты) обработки речевого запроса пользователя
EP3161666A1 (en) * 2014-06-25 2017-05-03 Nuance Communications, Inc. Semantic re-ranking of nlu results in conversational dialogue applications
US9418663B2 (en) 2014-07-31 2016-08-16 Google Inc. Conversational agent with a particular spoken style of speech
US20160055240A1 (en) * 2014-08-22 2016-02-25 Microsoft Corporation Orphaned utterance detection system and method
US10817672B2 (en) * 2014-10-01 2020-10-27 Nuance Communications, Inc. Natural language understanding (NLU) processing based on user-specified interests
US9953644B2 (en) * 2014-12-01 2018-04-24 At&T Intellectual Property I, L.P. Targeted clarification questions in speech recognition with concept presence score and concept correctness score
US10417345B1 (en) * 2014-12-22 2019-09-17 Amazon Technologies, Inc. Providing customer service agents with customer-personalized result of spoken language intent
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9836452B2 (en) * 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discriminating ambiguous expressions to enhance user experience
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US20160293157A1 (en) * 2015-03-30 2016-10-06 Google Inc. Contextual Voice Action History
US10504509B2 (en) * 2015-05-27 2019-12-10 Google Llc Providing suggested voice-based action queries
US10162853B2 (en) * 2015-12-08 2018-12-25 Rovi Guides, Inc. Systems and methods for generating smart responses for natural language queries
US10909111B2 (en) * 2015-12-16 2021-02-02 Adobe Inc. Natural language embellishment generation and summarization for question-answering systems
US10389543B2 (en) * 2015-12-31 2019-08-20 Microsoft Technology Licensing, Llc Starting meeting using natural user input
JP6481643B2 (ja) * 2016-03-08 2019-03-13 トヨタ自動車株式会社 音声処理システムおよび音声処理方法
US10304444B2 (en) * 2016-03-23 2019-05-28 Amazon Technologies, Inc. Fine-grained natural language understanding
CN107305575B (zh) 2016-04-25 2021-01-26 北京京东尚科信息技术有限公司 人机智能问答系统的断句识别方法和装置
CN109313897B (zh) * 2016-06-21 2023-10-13 惠普发展公司,有限责任合伙企业 利用多个虚拟助理服务的通信
US10026398B2 (en) * 2016-07-08 2018-07-17 Google Llc Follow-up voice query prediction
US10650621B1 (en) 2016-09-13 2020-05-12 Iocurrents, Inc. Interfacing with a vehicular controller area network
EP3475807A4 (en) * 2016-09-27 2020-03-04 Hewlett-Packard Development Company, L.P. COMMUNICATION DEVICES
US10708313B2 (en) 2016-12-30 2020-07-07 Google Llc Multimodal transmission of packetized data
US10593329B2 (en) 2016-12-30 2020-03-17 Google Llc Multimodal transmission of packetized data
JP7070546B2 (ja) * 2017-03-24 2022-05-18 ソニーグループ株式会社 情報処理装置および情報処理方法
US10665232B2 (en) * 2017-05-24 2020-05-26 Harman International Industries, Inc. Coordination among multiple voice recognition devices
US20190096397A1 (en) * 2017-09-22 2019-03-28 GM Global Technology Operations LLC Method and apparatus for providing feedback
US10394957B2 (en) 2017-09-25 2019-08-27 Microsoft Technology Licensing, Llc Signal analysis in a conversational scheduling assistant computing system
US11451511B1 (en) * 2017-11-07 2022-09-20 Verisign, Inc. Audio-based systems, devices, and methods for domain services
US10380992B2 (en) * 2017-11-13 2019-08-13 GM Global Technology Operations LLC Natural language generation based on user speech style
JP2019109567A (ja) * 2017-12-15 2019-07-04 オンキヨー株式会社 電子機器、及び、電子機器の制御プログラム
US11487501B2 (en) * 2018-05-16 2022-11-01 Snap Inc. Device control using audio data
US20210248168A1 (en) * 2018-08-24 2021-08-12 Hewlett-Packard Development Company, L.P. Identifying digital elements
US11899714B1 (en) * 2018-09-27 2024-02-13 Amazon Technologies, Inc. Voice conversational search constraint management
US11687850B2 (en) * 2018-11-21 2023-06-27 Honda Motor Co., Ltd System and method for processing a task request to be executed and fulfilled
US11694130B2 (en) 2018-11-21 2023-07-04 Honda Motor Co., Ltd. System and method for assigning an agent to execute and fulfill a task request
CN110413756B (zh) 2019-07-29 2022-02-15 北京小米智能科技有限公司 自然语言处理的方法、装置及设备
US11256870B2 (en) * 2019-09-25 2022-02-22 Rovi Guides, Inc. Systems and methods for inserting dialogue into a query response
JP7196122B2 (ja) * 2020-02-18 2022-12-26 株式会社東芝 インタフェース提供装置、インタフェース提供方法およびプログラム
CN111488088B (zh) * 2020-04-07 2022-05-06 Oppo广东移动通信有限公司 设备状态标识方法、装置及智能终端
CN115277165B (zh) * 2022-07-22 2023-11-07 江苏智能网联汽车创新中心有限公司 一种车辆网络风险确定方法、装置、设备及存储介质

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867817A (en) 1996-08-19 1999-02-02 Virtual Vision, Inc. Speech recognition manager
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
GB9726654D0 (en) * 1997-12-17 1998-02-18 British Telecomm Data input and retrieval apparatus
US7036128B1 (en) 1999-01-05 2006-04-25 Sri International Offices Using a community of distributed electronic agents to support a highly mobile, ambient computing environment
US6418440B1 (en) * 1999-06-15 2002-07-09 Lucent Technologies, Inc. System and method for performing automated dynamic dialogue generation
US6381465B1 (en) * 1999-08-27 2002-04-30 Leap Wireless International, Inc. System and method for attaching an advertisement to an SMS message for wireless transmission
US6615172B1 (en) * 1999-11-12 2003-09-02 Phoenix Solutions, Inc. Intelligent query engine for processing voice based queries
AUPR082400A0 (en) * 2000-10-17 2000-11-09 Telstra R & D Management Pty Ltd An information retrieval system
US20020077830A1 (en) 2000-12-19 2002-06-20 Nokia Corporation Method for activating context sensitive speech recognition in a terminal
US7010490B2 (en) 2001-01-26 2006-03-07 International Business Machines Corporation Method, system, and apparatus for limiting available selections in a speech recognition system
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
BR0207642A (pt) 2001-02-28 2004-06-01 Voice Insight Sistema de consulta de linguagem natural para acessar um sistema de informação
US20030061054A1 (en) 2001-09-25 2003-03-27 Payne Michael J. Speaker independent voice recognition (SIVR) using dynamic assignment of speech contexts, dynamic biasing, and multi-pass parsing
ITTO20011035A1 (it) 2001-10-30 2003-04-30 Loquendo Spa Metodo per la gestione di dialoghi persona-macchina ad iniziativa mista basato sull'interazione vocale.
US7493259B2 (en) * 2002-01-04 2009-02-17 Siebel Systems, Inc. Method for accessing data via voice
US7016849B2 (en) 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7693720B2 (en) * 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
CN1266633C (zh) 2002-12-31 2006-07-26 中国科学院计算技术研究所 语音查询中的辨音方法
JPWO2004106009A1 (ja) * 2003-06-02 2006-07-20 松下電器産業株式会社 物品取扱いシステムおよび物品取扱いサーバ
US20050004788A1 (en) 2003-07-03 2005-01-06 Lee Hang Shun Raymond Multi-level confidence measures for task modeling and its application to task-oriented multi-modal dialog management
WO2005064592A1 (ja) 2003-12-26 2005-07-14 Kabushikikaisha Kenwood 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム
KR20070038132A (ko) 2004-08-06 2007-04-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 사용자와 대화 통신을 수행하는 시스템을 위한 방법
US7716056B2 (en) 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
US7643822B2 (en) * 2004-09-30 2010-01-05 Google Inc. Method and system for processing queries initiated by users of mobile devices
US7571157B2 (en) 2004-12-29 2009-08-04 Aol Llc Filtering search results
US7526476B2 (en) * 2005-03-14 2009-04-28 Microsoft Corporation System and method for generating attribute-based selectable search extension
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US9201923B2 (en) 2005-10-04 2015-12-01 Robert Bosch Corporation Method and apparatus for organizing and optimizing content in dialog systems
US20070112749A1 (en) 2005-11-04 2007-05-17 Minfo, Inc. Query methods and apparatuses including user profile with domain views
US7822699B2 (en) 2005-11-30 2010-10-26 Microsoft Corporation Adaptive semantic reasoning engine
RU61924U1 (ru) * 2006-03-14 2007-03-10 Михаил Николаевич Гусев Статистическая модель речи
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8650030B2 (en) * 2007-04-02 2014-02-11 Google Inc. Location based responses to telephone requests
US7987176B2 (en) * 2007-06-25 2011-07-26 Sap Ag Mixed initiative semantic search
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US20090299853A1 (en) * 2008-05-27 2009-12-03 Chacha Search, Inc. Method and system of improving selection of search results

Also Published As

Publication number Publication date
CN102272828B (zh) 2013-05-08
WO2010049582A1 (en) 2010-05-06
EP2347409A1 (en) 2011-07-27
RU2011121296A (ru) 2012-12-10
EP2347409A4 (en) 2017-03-15
CN102272828A (zh) 2011-12-07
US9978365B2 (en) 2018-05-22
CN104700835A (zh) 2015-06-10
RU2494476C2 (ru) 2013-09-27
CN104700835B (zh) 2019-07-12
US20100114944A1 (en) 2010-05-06

Similar Documents

Publication Publication Date Title
CN102272828B (zh) 提供话音接口的方法和系统
CN102792320B (zh) 数字助理的个人化词汇
CN104584010B (zh) 基于语音的媒体搜索
US8255154B2 (en) System, method, and computer program product for social networking utilizing a vehicular assembly
US9824150B2 (en) Systems and methods for providing information discovery and retrieval
US8131458B1 (en) System, method, and computer program product for instant messaging utilizing a vehicular assembly
US8073590B1 (en) System, method, and computer program product for utilizing a communication channel of a mobile device by a vehicular assembly
KR101995660B1 (ko) 지능형 자동 어시스턴트
CN112015530B (zh) 用于将第三方服务与数字助理相结合的系统和方法
KR101683083B1 (ko) 가상 비서에서 커맨드 처리를 용이하게 하기 위한 컨텍스트 정보의 이용
US8265862B1 (en) System, method, and computer program product for communicating location-related information
CN115842798A (zh) 交互内容信息的处理方法、及相关装置、和终端设备
US20110106736A1 (en) System and method for intuitive user interaction
US8190692B1 (en) Location-based messaging system, method, and computer program product
WO2014183035A1 (en) Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system
TW201426359A (zh) 特性資料庫、回報答案的方法、自然語言對話方法及其系統
CN113424175A (zh) 直观的语音搜索
TW202301080A (zh) 輔助系統的多裝置調解
CN114003625A (zh) 信息搜索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C05 Deemed withdrawal (patent law before 1993)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130501