CN111368155B - 环境感知对话策略和响应生成 - Google Patents

环境感知对话策略和响应生成 Download PDF

Info

Publication number
CN111368155B
CN111368155B CN202010129077.4A CN202010129077A CN111368155B CN 111368155 B CN111368155 B CN 111368155B CN 202010129077 A CN202010129077 A CN 202010129077A CN 111368155 B CN111368155 B CN 111368155B
Authority
CN
China
Prior art keywords
dialog
user
contact
action
environmental condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010129077.4A
Other languages
English (en)
Other versions
CN111368155A (zh
Inventor
D·博伊斯
L·赫克
T·安纳斯塔萨科斯
R·萨里卡亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN202010129077.4A priority Critical patent/CN111368155B/zh
Publication of CN111368155A publication Critical patent/CN111368155A/zh
Application granted granted Critical
Publication of CN111368155B publication Critical patent/CN111368155B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stored Programmes (AREA)
  • Digital Computer Display Output (AREA)
  • Air Conditioning Control Device (AREA)

Abstract

环境条件,连同其它信息,用于调节谈话式对话系统的响应。环境条件可以在不同时间处使用在谈话式对话系统内。例如,环境条件可以用于调节对话管理器的输出(例如机器行动)。由对话管理器使用的对话状态信息包括针对对话中的当前轮转的环境条件以及针对对话中的一个或多个过去轮转的环境条件。还可以在接收到机器行动之后使用环境条件以调节提供给用户的响应。例如,环境条件可以影响所确定的机器行动以及如何将机器行动提供给用户。谈话式对话系统中的对话管理器和响应生成器组件各自使用可用的环境条件。

Description

环境感知对话策略和响应生成
本申请是申请号为201480035401.9的中国申请“环境感知对话策略和响应生成”的分案申请。
技术领域
本发明涉及谈话式对话系统。
背景技术
谈话式对话系统用于各种不同的应用。例如,已经开发了谈话式对话系统以允许用户搜索内容、购买物品、获取指引等等。这些谈话式对话系统持续不断地改进以允许在计算机与用户之间发生更加自然的交互。
发明内容
提供本发明内容来以简化的形式引入以下在具体实施方式中进一步描述的概念的选择。本发明内容不意图标识所要求保护的主题的关键特征或必要特征,也不意图用作帮助确定所要求保护的主题的范围。
环境条件,连同其它信息,用于调节谈话式对话系统的不同操作。环境条件可以在不同时间处使用在谈话式对话系统内。谈话式对话系统中的对话管理器和响应生成组件在执行其操作时各自使用可用的环境条件连同对话系统中的其它信息(例如对话中的之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、客户端上下文……)。例如,环境条件可以用于调节对话管理器的输出(例如机器行动)。由对话管理器使用的对话状态信息包括针对对话中的当前轮转的环境条件连同其它对话信息以及针对对话中的一个或多个过去轮转的环境条件。还可以在接收到机器行动之后使用环境条件以调节提供给用户的响应。例如,响应生成器可以使用环境条件来影响如何将机器行动提供给用户(例如语音、视觉)。
附图说明
图1图示了使用环境条件来调节由谈话式对话系统执行的不同操作;
图2示出用于配置许可的对话服务和应用之间的交互;
图3图示了使用环境条件的示例性谈话式对话系统;
图4图示了用于在谈话式对话系统中使用环境条件的过程;
图5图示了在确定机器行动和如何递送对话中的响应中使用环境条件的示例性在线系统;以及
图6、7A、7B和8以及相关联的描述提供其中可以实践本发明的实施例的各种操作系统的讨论。
具体实施方式
现在参照附图,其中相同的标号表示相同的元件,将描述各种实施例。
图1图示了使用环境条件来调节由谈话式对话系统执行的不同操作。
如所图示的,系统100包括对话服务105、对话管理器26、许可和设置110、机器行动生成器120、对话策略130、响应生成器140、对话状态信息145、环境条件150、(多个)理解模型160、应用110和触摸屏输入设备115。
一般地,除使用在对话系统中典型地可用的其它信息或信号之外,谈话式对话系统100使用环境信号(例如语言理解和知识结果、语音识别结果和置信度……)以用于策略和响应生成。环境信号扩充(不取代)典型在对话系统内使用的信号。除对话状态信息145之外,对话管理器26还使用环境条件150来调节谈话式对话系统的不同操作。环境条件可以在不同时间处使用在谈话式对话系统100内。谈话式对话系统100中的对话管理器26、机器行动生成器120和响应生成器140组件可以在执行其操作时各自使用可用的环境条件150。
机器行动生成器120可以连同使用对话状态信息145一起使用环境条件150来调节所确定的机器行动。一般地,环境条件150扩充在对话系统内使用的对话状态信息145。例如,对话状态信息145包括信息,诸如但不限于:例如对话中的之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、客户端上下文等等。用户与计算设备(即机器)之间的每一次交互是轮转。当前轮转是针对其确定机器行动的用户与机器之间的当前交互。之前轮转是用户与机器之间的之前交互。根据实施例,对话状态信息145包括涉及一个或多个之前轮转的信息。例如,将含义关联到自然语言语句的语言理解结果存储在对话状态信息145中。这些之前的语言理解结果可以用于提供用于对话中的当前轮转的上下文。对话状态信息还可以包括作为从诸如数据库或数据源之类的知识源返回的结果的知识结果。例如,如果用户在对话轮转中请求电影,知识结果包括电影列表。使用环境条件确定的机器行动可能与不使用环境条件确定的机器行动不同。例如,当环境条件150指示用户当前正在驾驶时,由机器行动生成器120生成的机器行动可以指示询问驾驶员他们是否确定他们想要在驾驶的同时打电话。在不使用环境条件150来扩充机器行动的情况下,机器行动生成器120将很可能生成机器行动以在用户当前正在驾驶的同时自动发起呼叫而不是询问驾驶员他们是否确定他们想要在驾驶的同时打电话。机器行动生成器120在确定机器行动时使用对话策略130。对话策略130包括不同的规则,包括使用环境条件150和其它对话状态信息来调节所生成的机器行动的规则。
还可以在接收到机器行动之后由响应生成器140使用环境条件150以调节提供给用户的响应。环境条件150可以影响如何将机器行动提供给用户(例如语音、视觉……)。例如,当环境条件150指示用户的环境嘈杂时,由响应生成器140生成的响应可以是视觉响应。当环境条件150指示用户的环境非常明亮并且不太可能可以清楚地看到显示器时,由响应生成器140生成的响应可以是听觉响应。
环境条件150可以包括各种不同的条件,诸如但不限于:天气条件、交通条件、当前活动条件、正在使用的当前计算设备等等。当前活动条件可以包括信息,诸如但不限于:当前速度、当前位置等等。一般地,环境条件涉及与提供输入(用户对话动作)的用户相关联的任何环境条件。根据实施例,环境条件还可以与另一用户154(例如正在被呼叫的联系人)相关联。根据实施例,被收集和使用以调节谈话式对话系统的操作的环境条件由用户指定和授权。
为了促进与对话管理器26的通信,可以实现一个或多个回呼例程。根据实施例,应用程序110是被配置成接收语音输入和来自触敏输入设备115或其它输入设备的输入的多模态应用。例如,话音输入、键盘输入(例如物理键盘和/或SIP)、基于视频的输入等等。应用程序110还可以提供多模态输出(例如语音、图形、振动、声音……)。对话管理器26可以响应于用户输入(例如语音、手势)而向应用110提供信息/从应用110提供信息。例如,用户可以说出短语以标识由应用110执行的任务(例如选择电影、购买物品、标识产品……)。手势可以包括但不限于:夹捏手势;拉伸手势;选择手势(例如所显示的元素上的敲击行动);选择和保持手势(例如在所显示的元素上所接收的敲击和保持手势);划扫行动和/或拖拽行动等等。手势还可以包括光学捕获的手势,诸如:挥动手势、卷动手势、引导手势等等。例如,诸如MICROSOFT KINECT之类的设备可以用于检测手势。
如所图示的系统100包括检测何时接收到触摸输入(例如手指触摸或接近触摸触摸屏)的触摸屏输入设备115。可以利用检测用户的触摸输入的任何类型的触摸屏。
自然用户界面(NUI)和/或一些其它的界面可以用于与对话服务105交互。例如,自然语言对话和表达意图的其它非言语模式(例如诸如以上描述的手势之类的手势、触摸、凝视、图像、视频、口语韵律等)的组合可以用于与对话服务105交互。对话管理器26可以使用理解模型(例如语言理解(LU)模型或多模态理解模型)。如所图示的,对话管理器26是接收语音发音的对话服务105的部分并且被配置成与用户进行对话。
一般地,面向目标的对话系统中的自然语言理解(NLU)针对标识如以自然语言(NL)表达的用户的(多个)领域和(多个)意图,并且提取相关联的主张(argument)或时段(slot)。例如,在航空领域,用户通常请求航班信息(例如“我想要下周从纽约飞往波士顿”)。以下提供更多的细节。
图2示出用于配置许可的对话服务和应用之间的交互。
如所图示的,图2示出包括设置210和(多个)日志212的对话服务105以及包括设置用户界面222、审核用户界面226、位置用户界面228和本地设置224的应用110。
用户可以配置不同的准则,诸如许可、筛选和设置,其涉及应用110的操作和与一个或多个用户相关联的环境条件的使用和收集。例如,经授权的用户可以确定可以由对话服务105收集和使用什么环境条件。
用户可以设置指定可以收集什么环境条件的许可。例如,用户可以决定加入以允许由对话服务105收集和使用不同类型的环境条件。
用户还可以配置使用各种准则(例如一天中的时间、请求设备、请求位置等)来筛选信息的一个或多个筛选器。例如,用户可以允许在某些时间期间收集某些环境条件而不允许在其它时间期间收集环境条件。用户可以将筛选器配置成限制一个或多个环境条件的精确性。例如,与用户相关联的位置信息可以被配置成提供相比于详细位置的大体位置。用户还可以设置本地设置224,诸如应用定制设置(例如颜色方案、图标等等)以用于在与应用110交互时使用。例如,设置224可以改变用户界面(诸如UI 228)的外观。
审核用户界面226可以由经授权的用户用于查看涉及存储在日志212中的环境条件的信息并且与其交互。对日志相关数据的访问限于提供了正确安全凭证的经授权的用户。数据安全地存储在(多个)日志212内。
图3图示了使用环境条件的示例性谈话式对话系统。
如所图示的,系统300包括输入管理器310、语言理解组件320、对话引擎330、响应生成器140和环境引擎350。
输入管理器310被配置成接收用户输入(用户对话动作)。用户对话动作可以是不同类型的用户输入。例如,用户对话动作可以是语音输入(例如发音)、触摸输入、手势输入、文本输入以及其它类型的输入。输入管理器310可以包括不同的组件,诸如自动语音识别器(ASR)、手势识别器、手写识别器等等。当用户对话动作是语音时,语音由输入管理器310使用ASR来识别。输入管理器310输出递送至语言理解组件320的文本。
语言理解组件320被配置成接收和分析文本。一般地,语言理解组件320将含义关联到文本的词语。例如,语言理解组件320可以标记文本、执行文本的句法分析等等。语言理解组件320传统上是将自然语言语句转换成语义表示的基于规则的组件。
对话引擎330通过响应于用户对话动作而确定机器行动来管理对话。对话引擎330可以是基于规则的模型或统计模型,或者规则和统计模型的某种组合。对话引擎330使用对话状态计算组件332来计算可能的对话状态。当计算可能的对话状态时,除其它对话状态信息之外,对话状态计算组件332还使用从环境引擎350获取的环境条件。除一般在对话系统内使用的其它对话信息之外,由对话系统使用的环境条件诸如但不限于:之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、客户端上下文等等。环境条件可以与一个或多个用户相关联。对话管理器26确定一个或多个机器行动。由对话管理器26使用的对话状态信息包括针对对话中的当前轮转的环境条件以及针对对话中的一个或多个过去轮转的环境条件。对话引擎330向响应生成器140提供所确定的机器行动。
除其它对话信息之外,响应生成器140还使用从环境引擎获取的环境条件来确定向用户提供什么类型的响应。例如,响应生成器140可以确定向用户提供口语响应或向用户提供视觉响应。例如,当确定时,文本到语音(“TTS”)组件可以输出作为经合成的语音的响应。根据实施例,在对话管理器26确定机器行动之后并且在响应生成器140接收环境条件之前更新环境条件。
图4图示了用于在谈话式对话系统中使用环境条件的过程。当阅读本文所呈现的例程的讨论时,应当领会的是,各种实施例的逻辑操作被实现为(1)一系列计算机实现的动作或运行在计算系统上的程序模块和/或(2)计算系统内的互连的机器逻辑电路或电路模块。实现是选择的问题,其取决于实现本发明的计算系统的性能要求。因此,所图示的并且构成本文所描述的实施例的逻辑操作不同地称为操作、结构设备、动作或模块。这些操作、结构设备、动作和模块可以以软件、固件、专用数字逻辑及其任何组合来实现。
在开始操作之后,过程400移动到操作410,其中接收用户对话动作。用户对话动作可以是不同类型的用户输入,诸如但不限于:语音输入(例如发音)、触摸输入、手势输入、文本输入以及其它类型的输入。一般地,用户对话动作是与对话系统的谈话的部分。
过渡到操作420,确定环境条件。环境条件与一个或多个用户相关联。例如,环境条件可以是与做出用户对话动作的用户相关联的当前环境条件。环境条件还可以是与作为用户对话动作的部分的另一用户相关联的当前环境条件。例如,用户对话动作可以是联系另一用户的动作。环境条件可以包括各种不同的条件,诸如但不限于:天气条件(例如温度、气压……)、交通条件、当前活动条件、正在使用的当前计算设备等等。一般地,任何环境条件可以由谈话式对话系统确定和使用。当前活动条件可以包括各种不同的环境条件,诸如用户的位置、用户的速度等等。
移动到操作430,使用环境条件、其它对话状态信息和用户对话动作确定机器行动。根据实施例,在计算可能的对话状态时,除其它对话状态信息之外,谈话式对话系统还使用环境条件。例如,其它对话状态信息可以包括但不限于:之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、客户端上下文等等。对话状态信息包括针对对话中的当前轮转的环境条件以及针对对话中的一个或多个过去轮转的环境条件。
以下示例说明在对话系统中使用环境条件和其它信息来调节机器行动以确定机器行动。示例是出于说明性目的而不意图是限制性的。
以下是当用户正在驾驶时的示例对话。1)用户:“呼叫在家的Paul”;2)对话系统:“您确定您想要在驾驶的同时打电话?”如可以看到的,取代于打电话的机器行动,将机器行动被调节成请求用户是否想要打电话。
下一示例是其中用户试图在联系人可能正在睡觉的时间段内呼叫联系人的对话。1)用户:“呼叫Paul”;2)对话系统:“Paul现在可能正在睡觉。您愿意给Paul发送消息作为替代吗?”在该示例中,与联系人相关联的环境条件改变了机器行动。
下一示例是其中用户试图在用户正处于漫游模式或联系人正处于漫游模式的同时打电话的对话。1)用户:“呼叫Paul”;对话系统:“呼叫Paul将每分钟花费Paul两美金,因为他当前正在漫游。您愿意发消息给Paul作为替代吗?”在该示例中,改变机器行动的环境条件与联系人的当前活动相关联。
下一示例是其中用户试图在联系人可能正在驾驶的同时呼叫联系人的对话。1)用户:“呼叫Paul”;2)对话系统:“Paul可能正在驾驶。您愿意发送消息作为替代吗?”在该示例中,改变机器行动的环境条件与联系人的当前活动相关联。
下一示例是其中用户试图在联系人正处于嘈杂环境中的同时呼叫联系人的对话。1)用户:“呼叫Paul”;2)对话系统:“Paul可能不能够良好地听到您。您愿意发送消息作为替代吗?”在该示例中,改变机器行动的环境条件与联系人的当前噪声条件相关联。
流动到操作440,使用环境条件来确定针对机器行动的响应。可以提供许多不同类型的响应(例如视觉、听觉、触觉……)。可以向用户提供口语响应或者可以向用户提供视觉响应。例如,用户可能处于嘈杂的环境中,并且将响应调节成比正常更响亮。响应类型也可以改变。例如,响应可以从听觉响应改变成视觉响应。
移动到操作450,向用户提供响应。
过程然后流动到结束操作并且返回到处理其它行动。
图5图示了在确定机器行动和如何递送对话中的响应中使用环境条件的示例性在线系统。如所图示的,系统1000包括服务1010、数据储存库1045、环境条件150、触摸屏输入设备1050(例如平板电脑)、智能电话1030和显示设备1080。
如所图示的,服务1010是基于云的和/或基于企业的服务,其可以被配置成提供服务,诸如如本文所描述的对话服务。可以使用不同类型的输入/输出与服务交互。例如,用户可以使用语音输入、触摸输入、基于硬件的输入等等。服务1010提供的服务中的一个或多个服务的功能性还可以被配置为基于客户端/服务器的应用。
如所图示的,服务1010是多租户服务,其向任何数目的租户(例如租户1-N)提供资源1015和服务。多租户服务1010是基于云的服务,其向订阅服务的租户提供资源1015并且单独且防护于其他租户数据地维护每一个租户的数据。
如所图示的系统1000包括触摸屏输入设备1050(例如平板设备)和检测何时接收到触摸输入(例如手指触摸或几乎触摸触摸屏)的智能电话1030。可以利用检测用户的触摸输入的任何类型的触摸屏。例如,触摸屏可以包括检测触摸输入的一个或多个电容材料层。附加于或取代于电容材料,可以使用其它传感器。例如,可以使用红外(IR)传感器。根据实施例,触摸屏被配置成检测与可触摸表面接触或者在可触摸表面上方的对象。尽管在本描述中使用术语“上方”,但是应当理解的是触摸面板系统的取向是无关的。术语“上方”意图适用于所有这样的取向。触摸屏可以被配置成确定接收到触摸输入的位置(例如起始点、中间点和结束点)。可以通过任何合适的手段检测可触摸表面与对象之间的实际接触,包括例如通过耦合到触摸面板的振动传感器或麦克风。检测接触的传感器的示例的非详尽列表包括基于压力的机构、微加工的加速度计、压电器件、电容传感器、电阻传感器、电感传感器、激光振动计和LED振动计。
根据实施例,智能电话1030、触摸屏输入设备1050和显示设备1080配置有多模态输入和输出并且每一个包括与服务1010交互的应用(1031、1051、1081)。
如所图示的,触摸屏输入设备1050、智能电话1030和显示设备1080示出示例性显示1052、1032、1082,其示出应用的使用。数据可以被存储在设备(例如智能电话1030、触摸屏输入设备1050)上和/或在某个其它位置处(例如网络数据储存库1045)。数据储存库1045或某个其它储存库可以用于存储理解模型以及其它数据。由设备使用的应用可以是基于客户端的应用、基于服务器的应用、基于云的应用或某个组合。根据实施例,显示设备1080是诸如耦合到显示器的MICROSOFT XBOX之类的设备。
对话管理器26被配置成执行涉及如本文所描述的过程的操作。对话管理器26被配置成访问环境条件150。虽然将管理器26被示出在服务1010内,但是管理器的功能可以被包括在其它位置中(例如在智能电话1030和/或触摸屏输入设备1050和/或显示设备1080上)。
本文所描述的实施例和功能性可以经由众多计算系统来操作,计算系统包括但不限于台式计算机系统、有线和无线计算系统、移动计算系统(例如移动电话、上网本、平板或板式类型计算机、笔记本计算机和膝上型计算机)、手持设备、多处理器系统、基于微处理器的或可编程的消费电子产品、小型计算机和大型计算机。
此外,本文所描述的实施例和功能性可以在分布式系统(例如基于云的计算系统)上操作,其中应用功能性、存储器、数据存储和检索以及各种处理功能可以在诸如互联网或内联网之类的分布式计算网络上彼此远程地操作。可以经由板载计算设备显示器或经由与一个或多个计算设备相关联的远程显示单元来显示各种类型的用户界面和信息。例如,可以在各种类型的用户界面和信息投影到的墙表面上显示所述各种类型的用户界面和信息并且与其交互。与利用其可以实践本发明的实施例的众多计算系统的交互包括键击录入、触摸屏录入、话音或其它音频录入、手势录入,其中关联的计算设备配备有用于捕获和解释用户手势以用于控制计算设备的功能性的检测(例如相机)功能性,等等。
图6-8以及关联的描述提供其中可以实践本发明的实施例的各种操作环境的讨论。然而,关于图6-8而图示和讨论的设备和系统是用于示例和图示的目的,而非对可以用于实践本文所描述的本发明的实施例的大量计算设备配置的限制。
图6是图示了可以利用其实践本发明的实施例的计算设备1100的物理组件(即硬件)的框图。以下描述的计算设备组件可以适合于以上描述的计算设备。在基本配置中,计算设备1100可以包括至少一个处理单元1102和系统存储器1104。取决于计算设备的配置和类型,系统存储器1104可以包括,但不限于,易失性存储装置(例如,随机存取存储器)、非易失性存储装置(例如,只读存储器)、闪速存储器或这样的存储器的任何组合。系统存储器1104可以包括操作系统1105和适合于运行诸如对话管理器26之类的软件应用1120的一个或多个程序模块1106。操作系统1105例如可以适合于控制计算设备1100的操作。另外,本发明的实施例可以结合图形库、其它操作系统或任何其它应用程序来实践并且不限于任何特定应用或系统。该基本配置在图6中通过虚线1108内的那些组件来图示。计算设备1100可以具有附加特征或功能性。例如,计算设备1100还可以包括附加数据存储设备(可移除和/或不可移除),诸如例如磁盘、光盘或磁带。这样的附加存储装置在图6中由可移除存储设备1109和不可移除存储设备1110图示。
如以上陈述的,数个程序模块和数据文件可以被存储在系统存储器1104中。当在处理单元1102上执行时,程序模块1106(例如对话管理器26)可以执行包括但不限于在图中图示的方法和过程的阶段中一个或多个阶段的过程。依照本发明的实施例可以使用的其它程序模块可以包括电子邮件和联系人应用、文字处理应用、电子制表应用、数据库应用、幻灯片演示应用、绘图或计算机辅助应用程序等。
另外,本发明的实施例可以在包括分立电子元件的电路、包含逻辑门的封装或集成电子芯片、利用微处理器的电路中、或在包含电子元件或微处理器的单个芯片上实践。例如,可以经由片上系统(SOC)来实践本发明的实施例,其中,可以将图6中图示的组件中的每个或许多个集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元以及各种应用功能性,所有这些都被集成到(或“烧录到”)芯片基板上作为单个集成电路。当经由SOC操作时,本文所描述的关于对话管理器26的功能性可以经由与计算设备1100的其它组件集成在单个集成电路(芯片)上的专用逻辑来操作。本发明的实施例还可以使用能够执行诸如例如AND(与)、OR(或)和NOT(非)之类的逻辑运算的其它技术来实践,包括但不限于,机械、光学、流体和量子技术。此外,本发明的实施例可以在通用计算机内或任何其它电路或系统中实践。
计算设备1100还可以具有一个或多个输入设备1112,诸如键盘、鼠标、笔、声音输入设备、触摸输入设备等。还可以包括诸如显示器、扬声器、打印机等之类的(多个)输出设备1114。前述设备是示例并且可以使用其它设备。计算设备1100可以包括允许与其它计算设备1118通信的一个或多个通信连接1116。合适的通信连接1116的示例包括但不限于RF发射器、接收器和/或收发器电路;通用串行总线(USB)、并行和/或串行端口。
如本文所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构或程序模块之类的信息的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。系统存储器1104、可移除存储设备1109和不可移除存储设备1110都是计算机存储介质示例(即,存储器存储装置)。计算机存储介质可以包括RAM、ROM、电可擦除只读存储器(EEPROM)、闪速存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学存储装置、磁盒、磁带、磁盘存储装置或其它磁性存储设备、或者可以用于存储信息并且可以由计算设备1100访问的任何其它的制造品。任何这样的计算机存储介质可以是计算设备1100的部分。计算机存储介质不包括载波或其它传播或调制的数据信号。
通信介质可以由计算机可读指令、数据结构、程序模块或诸如载波或其它输运机制之类的调制的数据信号中的其它数据来体现,并且包括任何信息递送介质。术语“调制的数据信号”可以描述其一个或多个特性以这样的方式被设置或改变的信号:即,将信息编码在信号中。作为示例而非限制,通信介质可以包括诸如有线网络或有线直连之类的有线介质,以及诸如声学、射频(RF)、红外和其它无线介质之类的无线介质。
图7A和7B图示了可以利用其实践本发明的实施例的移动计算设备1200,,例如移动电话、智能电话、平板个人计算机、膝上型计算机等等。参照图7A,图示了用于实现实施例的移动计算设备1200的一个实施例。在基本配置中,移动计算设备1200是具有输入元件和输出元件二者的手持式计算机。移动计算设备1200典型地包括显示器1205和一个或多个输入按钮1210,其允许用户将信息录入到移动计算设备1200中。移动计算设备1200的显示器1205还可以充当输入设备(例如触摸屏显示器)。如果包括的话,可选的侧输入元件1215允许另外的用户输入。侧输入元件1215可以是旋转开关、按钮、或任何其它类型的手动输入元件。在可替换的实施例中,移动计算设备1200可以合并更多或更少的输入元件。例如,在一些实施例中,显示器1205可以不是触摸屏。在又一可替换的实施例中,移动计算设备1200是便携式电话系统,诸如蜂窝电话。移动计算设备1200还可以包括可选的小键盘1235。可选的小键盘1235可以是物理小键盘或者在触摸屏显示器上生成的“软”小键盘。在各种实施例中,输出元件包括用于示出图形用户界面(GUI)的显示器1205、视觉指示器1220(例如发光二极管)和/或音频换能器1225(例如扬声器)。在一些实施例中,移动计算设备1200合并振动换能器以用于为用户提供触觉反馈。在又一实施例中,移动计算设备1200合并输入和/或输出端口,诸如音频输入(例如麦克风插口)、音频输出(例如耳机插口)和视频输出(例如HDMI端口)以用于向外部设备发送信号或从外部设备接收信号。
图7B是图示了移动计算设备的一个实施例的架构的框图。也就是说,移动计算设备1200可以合并系统1202(即架构)以实现一些实施例。在一个实施例中,系统1202实被现为能够运行一个或多个应用(例如浏览器、电子邮件、日程表、联系人管理器、消息传递客户端、游戏和媒体客户端、播放器)的“智能电话”。在一些实施例中,系统1202被集成作为计算设备,诸如集成的个人数字助理(PDA)和无线电话。
一个或多个应用程序1266可以被加载到存储器1262中并且在操作系统1264上或与操作系统1264相关联地运行。应用程序的示例包括电话拨号器程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子制表程序、互联网浏览器程序、消息传递程序等等。系统1202还包括存储器1262内的非易失性存储区域1268。非易失性存储区域1268可以用于存储在系统1202断电情况下不应当丢失的持久信息。应用程序1266可以使用和存储在非易失性存储区域1268中的信息,诸如由电子邮件应用使用的电子邮件或其它消息等等。同步应用(未示出)也驻留在系统1202上并且被编程为与驻留在主机计算机上的对应同步应用交互以保持存储在非易失性存储区域1268中的信息与存储在主机计算机处的对应信息同步。如应当领会到的,其它应用也可以被加载到存储器1262中并且在移动计算设备1200上运行,包括如本文所描述的对话管理器26。
系统1202具有可以实现为一个或多个电池的电源1270。电源1270还可能包括外部电力源,诸如补充电池或对电池再充电的AC适配器或加电坞接托架。
系统1202还可以包括执行发射和接收射频通信的功能的无线电1272。无线电1272促进经由通信载波或服务供应商在系统1202与“外部世界”之间的无线连接性。去往和来自无线电1272的传输在操作系统1264的控制下进行。换言之,由无线电1272接收的通信可以经由操作系统1264传播到应用程序1266并且反之亦然。
视觉指示器1220可以用于提供视觉通知和/或音频接口1274可以用于经由音频换能器1225产生可听通知。在所图示的实施例中,视觉指示器1220是发光二级管(LED)并且音频换能器1225是扬声器。这些设备可以直接耦合到电源1270,使得当被激活时,它们在由通知机制规定的持续时间内保持接通,即使处理器1260和其它组件可能为了存留电池电力而关断。LED可以编程为无限地保持接通直到用户采取行动以指示设备的通电状态。音频接口1274用于向用户提供可听信号并且从用户接收可听信号。例如,除了耦合到音频换能器1225之外,音频接口1274还可以耦合到麦克风以接收可听输入,诸如以促进电话谈话。依照本发明的实施例,麦克风还可以充当音频传感器以促进通知的控制,如以下将描述的那样。系统1202还可以包括视频接口1276,其使得能够实现板载相机的操作以记录静止图像、视频流等。
实现系统1202的移动计算设备1200可以具有附加特征或功能性。例如,移动计算设备1200还可以包括附加数据存储设备(可移除的/或不可移除的),诸如磁盘、光盘或磁带。这样的附加存储装置在图7B中由非易失性存储区域1268图示。移动计算设备1200还可以包括外围设备端口1230。
由移动计算设备1200生成或捕获并且经由系统1202存储的数据/信息可以如以上所描述被本地存储在移动计算设备1200上,或者数据可以被存储在可以由设备经由无线电1272或经由移动计算设备1200和与移动计算设备1200相关联的分离的计算设备之间的有线连接访问的任何数目的存储介质上,该分离的计算设备例如是诸如互联网之类的分布式计算网络中的服务器计算机。如应当领会到的,这样的数据/信息可以经由移动计算设备1220经由无线电1272或经由分布式计算网络来被访问。类似地,这样的数据/信息可以根据公知的数据信息传送和存储手段来容易地在计算设备之间传送以供存储和使用,该手段包括电子邮件和协作数据/信息共享系统。
图8图示了如以上所描述的示例性系统的架构的实施例。与对话管理器26相关联地开发、交互或编辑的内容可以被存储在不同的通信信道或其它存储类型中。例如,可以使用目录服务1322、web门户1324、邮箱服务1326、即时消息传递储存库1328或社交联网站点1330来存储各种文档。对话管理器26可以使用这些类型的系统等中的任何一种系统来使得能够实现数据利用,如本文所描述的那样。服务器1320可以向客户端提供对话管理器26。作为一个示例,服务器1320可以是在web上提供对话管理器26的web服务器。服务器1320可以通过网络1315在web上向客户端提供对话管理器26。作为示例,客户端计算设备可以被实现为计算设备1100并且体现在个人计算机、平板计算设备1310和/或移动计算设备1200(例如智能电话)中。客户端计算设备1100、1310和1200的这些实施例中的任一个可以从储存库1316获得内容。
以上例如参照根据本发明的实施例的方法、系统和计算机程序产品的框图和/或操作说明描述了本发明的实施例。框中所指出的功能/动作可以脱离于如任何流程图所示的次序而发生。例如,取决于所涉及的功能性/动作,接连示出的两个框事实上可以基本上同时执行,或者框有时可以以相反的次序来执行。
本申请中所提供的一个或多个实施例的描述和说明不意图以任何方式限制或约束如所要求保护的发明的范围。在本申请中提供的实施例、示例和细节被视为足以传达所有权并且使得其他人能够做出和使用所要求保护的发明的最佳模式。所要求保护的发明不应当解释为限于本申请中所提供的任何实施例、示例或细节。不论是组合还是分离地示出和描述,各种特征(结构和方法学二者)都意图被选择性地包括或省略以产生具有特定特征集的实施例。在提供有本申请的描述和说明的情况下,本领域技术人员可以设想到落在本申请中所体现的一般发明概念的较宽方面的精神内的、不脱离于所要求保护的发明的较宽范围的变型、修改和可替换的实施例。

Claims (19)

1.一种用于在谈话式对话系统中使用联系人的环境条件的系统,包括:
至少一个处理器;以及
存储指令的存储器,所述指令在被所述至少一个处理器执行时执行包括以下各项的一组操作:
接收请求计算机系统执行涉及联系人的任务的用户对话动作;
访问与所述联系人相关联的环境条件,其中,所述环境条件包括以下至少一项:噪声水平、时区、或温度;
基于所述环境条件和所述用户对话动作,确定显示向所述用户发送基于文本的消息的建议的机器行动;以及
执行所述机器行动以向所述用户显示所述建议。
2.根据权利要求1所述的系统,其中,所述任务是呼叫所述联系人。
3.根据权利要求1所述的系统,其中,所述机器行动是显示除所述任务之外的经建议行动。
4.根据权利要求3所述的系统,其中,所述经建议行动是向所述联系人进行消息传递。
5.根据权利要求1所述的系统,其中,确定所述机器行动还基于对话状态信息,其中,所述对话状态信息包括以下至少一项:之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、或客户端上下文。
6.根据权利要求1所述的系统,其中,所述环境条件指示所述联系人处于以下条件中的至少一个条件中:漫游服务区域中或噪声环境中。
7.一种由至少一个处理器执行的用于在谈话式对话系统中使用联系人的环境条件的计算机实现的方法,包括:
接收请求计算机系统执行涉及所述联系人的任务的用户对话动作;
访问与所述联系人相关联的环境条件;
从所述环境条件确定所述联系人在以下条件中的至少一个条件中:漫游服务区域或时间为夜晚的时区;
基于从所述环境条件的确定来确定机器行动;以及
执行所述机器行动以向所述用户提供响应。
8.根据权利要求7所述的方法,其中,所述任务是呼叫所述联系人。
9.根据权利要求7所述的方法,其中,所述机器行动是显示除所述任务之外的经建议行动。
10.根据权利要求9所述的方法,其中,所述经建议行动是向所述联系人进行消息传递。
11.根据权利要求7所述的方法,其中,与所述联系人相关联的所述环境条件包括以下至少一项:位置;噪声水平;速度;温度;当前活动;或当前计算设备。
12.根据权利要求7所述的方法,其中,确定所述机器行动还基于对话状态信息,其中,所述对话状态信息包括以下至少一项:之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、或客户端上下文。
13.根据权利要求7所述的方法,其中,所述环境条件还指示所述联系人处于噪声环境中。
14.一种存储计算机可执行指令以用于在谈话式对话系统中使用联系人的环境条件的存储设备,所述指令包括:
从用户接收请求计算机系统呼叫所述联系人的用户对话动作;
访问与所述联系人相关联的环境条件;
基于所述环境条件和所述用户对话动作,确定除呼叫所述联系人之外的经建议行动;
向所述用户提供所述经建议行动,其中,所述经建议行动是向所述联系人发送基于文本的消息;
从所述用户接收另外输入;以及
基于所述另外输入,向所述联系人发送基于文本的消息。
15.根据权利要求14所述的存储设备,其中,与所述联系人相关联的所述环境条件至少包括噪声水平。
16.根据权利要求14所述的存储设备,其中,与所述联系人相关联的所述环境条件包括以下至少一项:位置;噪声水平;速度;温度;当前活动;或当前计算设备。
17.根据权利要求14所述的存储设备,其中,所述环境条件指示所述联系人处于以下条件中的至少一个条件中:漫游服务区域中、正在驾驶、或噪声环境中。
18.根据权利要求14所述的存储设备,其中,确定所述经建议行动还基于对话状态信息,其中,所述对话状态信息包括以下至少一项:之前轮转的语言理解结果、语音识别结果和置信度、知识结果、之前的机器行动、会话上下文、或客户端上下文。
19.根据权利要求14所述的存储设备,其中,所述指令还包括:
访问与所述用户相关联的环境条件;以及
基于与所述用户相关联的所述环境条件,确定用于向所述用户提供所述经建议行动的输出类型,其中,所述输出类型是听觉或视觉中的至少一个。
CN202010129077.4A 2013-06-21 2014-06-05 环境感知对话策略和响应生成 Active CN111368155B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010129077.4A CN111368155B (zh) 2013-06-21 2014-06-05 环境感知对话策略和响应生成

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US13/923,917 2013-06-21
US13/923,917 US9589565B2 (en) 2013-06-21 2013-06-21 Environmentally aware dialog policies and response generation
PCT/US2014/041014 WO2014204655A1 (en) 2013-06-21 2014-06-05 Environmentally aware dialog policies and response generation
CN202010129077.4A CN111368155B (zh) 2013-06-21 2014-06-05 环境感知对话策略和响应生成
CN201480035401.9A CN105378708B (zh) 2013-06-21 2014-06-05 环境感知对话策略和响应生成

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201480035401.9A Division CN105378708B (zh) 2013-06-21 2014-06-05 环境感知对话策略和响应生成

Publications (2)

Publication Number Publication Date
CN111368155A CN111368155A (zh) 2020-07-03
CN111368155B true CN111368155B (zh) 2024-03-08

Family

ID=51134327

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201480035401.9A Active CN105378708B (zh) 2013-06-21 2014-06-05 环境感知对话策略和响应生成
CN202010129077.4A Active CN111368155B (zh) 2013-06-21 2014-06-05 环境感知对话策略和响应生成

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201480035401.9A Active CN105378708B (zh) 2013-06-21 2014-06-05 环境感知对话策略和响应生成

Country Status (11)

Country Link
US (2) US9589565B2 (zh)
EP (1) EP3011471A1 (zh)
JP (1) JP6492069B2 (zh)
KR (1) KR102231733B1 (zh)
CN (2) CN105378708B (zh)
AU (2) AU2014281049B9 (zh)
BR (1) BR112015031231B1 (zh)
CA (1) CA2913735C (zh)
MX (1) MX352774B (zh)
RU (1) RU2667717C2 (zh)
WO (1) WO2014204655A1 (zh)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8181205B2 (en) 2002-09-24 2012-05-15 Russ Samuel H PVR channel and PVR IPG information
US11592723B2 (en) 2009-12-22 2023-02-28 View, Inc. Automated commissioning of controllers in a window network
US11054792B2 (en) 2012-04-13 2021-07-06 View, Inc. Monitoring sites containing switchable optical devices and controllers
US20240046928A1 (en) * 2012-04-13 2024-02-08 View, Inc. Controlling optically-switchable devices
US10964320B2 (en) * 2012-04-13 2021-03-30 View, Inc. Controlling optically-switchable devices
US10860683B2 (en) 2012-10-25 2020-12-08 The Research Foundation For The State University Of New York Pattern change discovery between high dimensional data sets
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
EP3114640B1 (en) 2014-03-05 2022-11-02 View, Inc. Monitoring sites containing switchable optical devices and controllers
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9430667B2 (en) 2014-05-12 2016-08-30 Microsoft Technology Licensing, Llc Managed wireless distribution network
US9384334B2 (en) 2014-05-12 2016-07-05 Microsoft Technology Licensing, Llc Content discovery in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
CN104360897B (zh) * 2014-10-29 2017-09-22 百度在线网络技术(北京)有限公司 对话处理方法和对话管理系统
US11574621B1 (en) 2014-12-23 2023-02-07 Amazon Technologies, Inc. Stateless third party interactions
US9792560B2 (en) * 2015-02-17 2017-10-17 Microsoft Technology Licensing, Llc Training systems and methods for sequence taggers
US10338959B2 (en) 2015-07-13 2019-07-02 Microsoft Technology Licensing, Llc Task state tracking in systems and services
US20180101762A1 (en) * 2015-12-10 2018-04-12 Pablo Gutierrez Graphical interfaced based intelligent automated assistant
US10635281B2 (en) 2016-02-12 2020-04-28 Microsoft Technology Licensing, Llc Natural language task completion platform authoring for third party experiences
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US9996531B1 (en) * 2016-03-29 2018-06-12 Facebook, Inc. Conversational understanding
EP3441889A4 (en) * 2016-04-08 2019-05-22 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US20180005629A1 (en) * 2016-06-30 2018-01-04 Microsoft Technology Licensing, Llc Policy authoring for task state tracking during dialogue
US10185840B2 (en) * 2016-08-30 2019-01-22 Google Llc Conditional disclosure of individual-controlled content in group contexts
DK3396978T3 (da) * 2017-04-26 2020-06-08 Sivantos Pte Ltd Fremgangsmåde til drift af en høreindretning og en høreindretning
CN107103903B (zh) * 2017-05-05 2020-05-29 百度在线网络技术(北京)有限公司 基于人工智能的声学模型训练方法、装置及存储介质
US10418033B1 (en) * 2017-06-01 2019-09-17 Amazon Technologies, Inc. Configurable output data formats
CN107240395B (zh) * 2017-06-16 2020-04-28 百度在线网络技术(北京)有限公司 一种声学模型训练方法和装置、计算机设备、存储介质
KR102441066B1 (ko) * 2017-10-12 2022-09-06 현대자동차주식회사 차량의 음성생성 시스템 및 방법
US10783329B2 (en) * 2017-12-07 2020-09-22 Shanghai Xiaoi Robot Technology Co., Ltd. Method, device and computer readable storage medium for presenting emotion
JP2019106054A (ja) * 2017-12-13 2019-06-27 株式会社東芝 対話システム
JP2019144790A (ja) 2018-02-20 2019-08-29 富士ゼロックス株式会社 情報処理装置及びプログラム
KR20190131741A (ko) * 2018-05-17 2019-11-27 현대자동차주식회사 대화 시스템 및 대화 처리 방법
US10770035B2 (en) 2018-08-22 2020-09-08 Google Llc Smartphone-based radar system for facilitating awareness of user presence and orientation
US10890653B2 (en) 2018-08-22 2021-01-12 Google Llc Radar-based gesture enhancement for voice interfaces
US10698603B2 (en) 2018-08-24 2020-06-30 Google Llc Smartphone-based radar system facilitating ease and accuracy of user interactions with displayed objects in an augmented-reality interface
US10788880B2 (en) 2018-10-22 2020-09-29 Google Llc Smartphone-based radar system for determining user intention in a lower-power mode
US10761611B2 (en) 2018-11-13 2020-09-01 Google Llc Radar-image shaper for radar-based applications
US11138272B2 (en) 2018-11-15 2021-10-05 International Business Machines Corporation Generating and executing an optimal dialogue strategy
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
CN109933272A (zh) * 2019-01-31 2019-06-25 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态深度融合机载座舱人机交互方法
US11531736B1 (en) 2019-03-18 2022-12-20 Amazon Technologies, Inc. User authentication as a service
WO2020242493A1 (en) * 2019-05-31 2020-12-03 Google Llc Dynamically assigning multi-modality circumstantial data to assistant action requests for correlating with subsequent requests
US11922305B2 (en) * 2020-06-04 2024-03-05 Salesforce, Inc. Systems and methods for safe policy improvement for task oriented dialogues
US11705108B1 (en) 2021-12-10 2023-07-18 Amazon Technologies, Inc. Visual responses to user inputs

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101415039A (zh) * 2007-10-17 2009-04-22 宏达国际电子股份有限公司 通话管理方法
CN101939740A (zh) * 2007-12-11 2011-01-05 声钰科技 在集成语言导航服务环境中提供自然语言语音用户界面
US20120253789A1 (en) * 2011-03-31 2012-10-04 Microsoft Corporation Conversational Dialog Learning and Correction

Family Cites Families (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2631864B2 (ja) 1988-06-13 1997-07-16 大成建設株式会社 偏平トンネルの施工方法
US5170499A (en) * 1989-03-06 1992-12-08 Motorola, Inc. Method and apparatus for adjusting the volume level of a radio
WO1993004468A1 (en) 1991-08-19 1993-03-04 Lernout & Hauspie Speechproducts A pattern recognition device using an artificial neural network for context dependent modelling
US5233681A (en) 1992-04-24 1993-08-03 International Business Machines Corporation Context-dependent speech recognizer using estimated next word context
US6405132B1 (en) * 1997-10-22 2002-06-11 Intelligent Technologies International, Inc. Accident avoidance system
JPH10312196A (ja) * 1997-03-12 1998-11-24 Seiko Epson Corp 応答音声の音量適正化方法およびその装置
US6167377A (en) 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
JP3229240B2 (ja) * 1997-06-10 2001-11-19 インターナショナル・ビジネス・マシーンズ・コーポレーション メッセージ処理方法、メッセージ処理装置及びメッセージ処理を制御するプログラムを格納する記憶媒体
KR100241901B1 (ko) 1997-08-28 2000-02-01 윤종용 핸드셋과 핸즈프리킷 공용 음성인식기의 등록 엔트리 관리방법
US6160986A (en) * 1998-04-16 2000-12-12 Creator Ltd Interactive toy
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
US20050091057A1 (en) 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US6647270B1 (en) * 1999-09-10 2003-11-11 Richard B. Himmelstein Vehicletalk
US7392185B2 (en) 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
US6263308B1 (en) 2000-03-20 2001-07-17 Microsoft Corporation Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
US7330804B2 (en) 2000-06-29 2008-02-12 Aspen Technology, Inc. Computer method and apparatus for constraining a non-linear approximator of an empirical process
JP2002091477A (ja) 2000-09-14 2002-03-27 Mitsubishi Electric Corp 音声認識システム、音声認識装置、音響モデル管理サーバ、言語モデル管理サーバ、音声認識方法及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
US6807536B2 (en) 2000-11-16 2004-10-19 Microsoft Corporation Methods and systems for computing singular value decompositions of matrices and low rank approximations of matrices
US6622136B2 (en) 2001-02-16 2003-09-16 Motorola, Inc. Interactive tool for semi-automatic creation of a domain model
US6970947B2 (en) * 2001-07-18 2005-11-29 International Business Machines Corporation Method and apparatus for providing a flexible and scalable context service
US20030149566A1 (en) 2002-01-02 2003-08-07 Esther Levin System and method for a spoken language interface to a large database of changing records
US7006972B2 (en) 2002-03-20 2006-02-28 Microsoft Corporation Generating a task-adapted acoustic model from one or more different corpora
JP2003280683A (ja) 2002-03-20 2003-10-02 Toshiba Corp 音声認識装置、音声認識装置における音声認識制御方法、音声処理に関する辞書管理装置
US7191119B2 (en) 2002-05-07 2007-03-13 International Business Machines Corporation Integrated development tool for building a natural language understanding application
US7548847B2 (en) 2002-05-10 2009-06-16 Microsoft Corporation System for automatically annotating training data for a natural language understanding system
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7756531B2 (en) * 2002-09-04 2010-07-13 Farhad John Aminzadeh Method and apparatus for avoiding call disturbances and facilitating urgent calls based on a caller's decision
US7274741B2 (en) 2002-11-01 2007-09-25 Microsoft Corporation Systems and methods for generating a comprehensive user attention model
JP2004227468A (ja) * 2003-01-27 2004-08-12 Canon Inc 情報提供装置、情報提供方法
US20040176083A1 (en) * 2003-02-25 2004-09-09 Motorola, Inc. Method and system for reducing distractions of mobile device users
US7366655B1 (en) 2003-04-02 2008-04-29 At&T Corp. Method of generating a labeling guide for spoken dialog services
US7835910B1 (en) 2003-05-29 2010-11-16 At&T Intellectual Property Ii, L.P. Exploiting unlabeled utterances for spoken language understanding
CA2473195C (en) 2003-07-29 2014-02-04 Microsoft Corporation Head mounted multi-sensory audio input system
CN1830025A (zh) * 2003-08-01 2006-09-06 皇家飞利浦电子股份有限公司 驱动对话系统的方法
US20050065789A1 (en) 2003-09-23 2005-03-24 Sherif Yacoub System and method with automated speech recognition engines
US7774196B2 (en) 2003-10-01 2010-08-10 Dictaphone Corporation System and method for modifying a language model and post-processor information
JP2005157494A (ja) * 2003-11-20 2005-06-16 Aruze Corp 会話制御装置及び会話制御方法
EP2506252B1 (en) 2003-11-21 2019-06-05 Nuance Communications, Inc. Topic specific models for text formatting and speech recognition
CN100539763C (zh) * 2003-11-27 2009-09-09 国际商业机器公司 控制来自移动车辆的无线通信的方法
KR101022159B1 (ko) * 2004-03-04 2011-03-17 엘지전자 주식회사 차량용 네비게이션 장치 및 그 동작 방법
US8412521B2 (en) 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
US7693713B2 (en) 2005-06-17 2010-04-06 Microsoft Corporation Speech models generated using competitive training, asymmetric training, and data boosting
US7640160B2 (en) 2005-08-05 2009-12-29 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US8321220B1 (en) 2005-11-30 2012-11-27 At&T Intellectual Property Ii, L.P. System and method of semi-supervised learning for spoken language understanding using semantic role labeling
US20070128979A1 (en) * 2005-12-07 2007-06-07 J. Shackelford Associates Llc. Interactive Hi-Tech doll
US7835911B2 (en) 2005-12-30 2010-11-16 Nuance Communications, Inc. Method and system for automatically building natural language understanding models
US7603330B2 (en) 2006-02-01 2009-10-13 Honda Motor Co., Ltd. Meta learning for question classification
DE102006006551B4 (de) 2006-02-13 2008-09-11 Siemens Ag Verfahren und System zum Bereitstellen von Sprachdialoganwendungen sowie mobiles Endgerät
IL174522A0 (en) 2006-03-23 2006-08-01 Jonathan Agmon Method for predictive typing
JP2007264128A (ja) 2006-03-27 2007-10-11 Toshiba Corp 音声認識装置及びその方法
US7627536B2 (en) 2006-06-13 2009-12-01 Microsoft Corporation Dynamic interaction menus from natural language representations
US7716049B2 (en) 2006-06-30 2010-05-11 Nokia Corporation Method, apparatus and computer program product for providing adaptive language model scaling
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US20080153537A1 (en) * 2006-12-21 2008-06-26 Charbel Khawand Dynamically learning a user's response via user-preferred audio settings in response to different noise environments
WO2008081543A1 (ja) * 2006-12-28 2008-07-10 Fujitsu Limited 携帯端末装置、その通話制御プログラム、その通話制御プログラムを格納した記録媒体、及びその通話制御方法
US7912700B2 (en) 2007-02-08 2011-03-22 Microsoft Corporation Context based word prediction
TW200836893A (en) * 2007-03-01 2008-09-16 Benq Corp Interactive home entertainment robot and method of controlling the same
US20090030697A1 (en) 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US20070150428A1 (en) 2007-03-20 2007-06-28 Brandyn Webb Inference engine for discovering features and making predictions using generalized incremental singular value decomposition
JP2008233678A (ja) * 2007-03-22 2008-10-02 Honda Motor Co Ltd 音声対話装置、音声対話方法、及び音声対話用プログラム
US8275615B2 (en) 2007-07-13 2012-09-25 International Business Machines Corporation Model weighting, selection and hypotheses combination for automatic speech recognition and machine translation
JP2009230068A (ja) 2008-03-25 2009-10-08 Denso Corp 音声認識装置及びナビゲーションシステム
US8229729B2 (en) 2008-03-25 2012-07-24 International Business Machines Corporation Machine translation in continuous space
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8364481B2 (en) 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US8412529B2 (en) 2008-10-29 2013-04-02 Verizon Patent And Licensing Inc. Method and system for enhancing verbal communication sessions
US20100114890A1 (en) 2008-10-31 2010-05-06 Purediscovery Corporation System and Method for Discovering Latent Relationships in Data
KR101537078B1 (ko) 2008-11-05 2015-07-15 구글 인코포레이티드 사용자 정의 언어 모델들
CN102272755A (zh) * 2008-11-07 2011-12-07 琳古佩迪亚投资责任有限公司 使用图形国际语对自然语言进行语义处理的方法
EP3576388A1 (en) * 2008-11-10 2019-12-04 Google LLC Speech detection
US20100128863A1 (en) 2008-11-21 2010-05-27 Robert Bosch Gmbh Context aware voice communication proxy
US8447608B1 (en) 2008-12-10 2013-05-21 Adobe Systems Incorporated Custom language models for audio content
WO2010092486A1 (en) 2009-02-16 2010-08-19 Comverse, Ltd. Context-aware communications
US8930179B2 (en) 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
US9177557B2 (en) 2009-07-07 2015-11-03 General Motors Llc. Singular value decomposition for improved voice recognition in presence of multi-talker background noise
US8886641B2 (en) 2009-10-15 2014-11-11 Yahoo! Inc. Incorporating recency in network search using machine learning
US8571866B2 (en) 2009-10-23 2013-10-29 At&T Intellectual Property I, L.P. System and method for improving speech recognition accuracy using textual context
KR101622111B1 (ko) 2009-12-11 2016-05-18 삼성전자 주식회사 대화 시스템 및 그의 대화 방법
US8315597B2 (en) * 2009-12-21 2012-11-20 Julia Olincy “I am driving/busy” automatic response system for mobile phones
US8249627B2 (en) * 2009-12-21 2012-08-21 Julia Olincy “I am driving/busy” automatic response system for mobile phones
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US8400332B2 (en) 2010-02-09 2013-03-19 Ford Global Technologies, Llc Emotive advisory system including time agent
JP2012038239A (ja) 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US8972253B2 (en) 2010-09-15 2015-03-03 Microsoft Technology Licensing, Llc Deep belief network for large vocabulary continuous speech recognition
FR2965377A1 (fr) 2010-09-24 2012-03-30 Univ D Avignon Et Des Pays De Vaucluse Procede de classification de donnees biometriques
JP2012075047A (ja) * 2010-09-29 2012-04-12 Toshiba Corp Ip交換システム及びip交換装置
US8812321B2 (en) 2010-09-30 2014-08-19 At&T Intellectual Property I, L.P. System and method for combining speech recognition outputs from a plurality of domain-specific speech recognizers via machine learning
US20120084248A1 (en) * 2010-09-30 2012-04-05 Microsoft Corporation Providing suggestions based on user intent
JP5704692B2 (ja) 2010-11-30 2015-04-22 独立行政法人情報通信研究機構 パターン分類装置の学習装置及びそのためのコンピュータプログラム
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US20130317822A1 (en) 2011-02-03 2013-11-28 Takafumi Koshinaka Model adaptation device, model adaptation method, and program for model adaptation
US9081760B2 (en) 2011-03-08 2015-07-14 At&T Intellectual Property I, L.P. System and method for building diverse language models
US9679561B2 (en) 2011-03-28 2017-06-13 Nuance Communications, Inc. System and method for rapid customization of speech recognition models
US9244984B2 (en) * 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US8489529B2 (en) 2011-03-31 2013-07-16 Microsoft Corporation Deep convex network with joint use of nonlinear random projection, Restricted Boltzmann Machine and batch-based parallelizable optimization
JP6105552B2 (ja) * 2011-03-31 2017-03-29 マイクロソフト テクノロジー ライセンシング,エルエルシー ロケーションベースの会話理解
US8260615B1 (en) 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
US20120290293A1 (en) 2011-05-13 2012-11-15 Microsoft Corporation Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding
US8918352B2 (en) 2011-05-23 2014-12-23 Microsoft Corporation Learning processes for single hidden layer neural networks with linear output units
KR101270074B1 (ko) * 2011-05-31 2013-05-31 삼성에스디에스 주식회사 소리 기반 공간지도를 이용한 상황인식 장치 및 방법
US20130031476A1 (en) 2011-07-25 2013-01-31 Coin Emmett Voice activated virtual assistant
KR20130022513A (ko) 2011-08-24 2013-03-07 한국전자통신연구원 결합 쌍일차 변환 공간 기반의 화자 적응 방법 및 장치
CA2791277C (en) 2011-09-30 2019-01-15 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
GB201117052D0 (en) 2011-10-04 2011-11-16 Daybees Ltd Automated diary population
US8698621B2 (en) * 2011-11-22 2014-04-15 Verizon Patent And Licensing Inc. Method and system for providing notifications of a mobile device in motion to determine call treatment
US9235799B2 (en) 2011-11-26 2016-01-12 Microsoft Technology Licensing, Llc Discriminative pretraining of deep neural networks
US9082402B2 (en) 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
KR101590332B1 (ko) * 2012-01-09 2016-02-18 삼성전자주식회사 영상장치 및 그 제어방법
US9324323B1 (en) 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US9263040B2 (en) * 2012-01-17 2016-02-16 GM Global Technology Operations LLC Method and system for using sound related vehicle information to enhance speech recognition
JP2012128440A (ja) * 2012-02-06 2012-07-05 Denso Corp 音声対話装置
CN102609264A (zh) 2012-02-14 2012-07-25 深圳市同洲视讯传媒有限公司 一种调用应用程序编程接口生成调用代码的方法及装置
US9524730B2 (en) 2012-03-30 2016-12-20 Ohio State Innovation Foundation Monaural speech filter
US8346563B1 (en) 2012-04-10 2013-01-01 Artificial Solutions Ltd. System and methods for delivering advanced natural language interaction applications
GB201208373D0 (en) 2012-05-14 2012-06-27 Touchtype Ltd Mechanism for synchronising devices,system and method
US8600525B1 (en) 2012-05-31 2013-12-03 Honeywell Asca Inc. Efficient quadratic programming (QP) solver for process control and optimization
US9053708B2 (en) 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US10026394B1 (en) 2012-08-31 2018-07-17 Amazon Technologies, Inc. Managing dialogs on a speech recognition platform
US8527276B1 (en) 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US10282419B2 (en) 2012-12-12 2019-05-07 Nuance Communications, Inc. Multi-domain natural language processing architecture
KR101559124B1 (ko) 2013-02-28 2015-10-12 한양대학교 산학협력단 리튬황전지용 양극, 이를 포함하는 리튬황전지 및 이의 제조 방법
US9177550B2 (en) 2013-03-06 2015-11-03 Microsoft Technology Licensing, Llc Conservatively adapting a deep neural network in a recognition system
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9589565B2 (en) 2013-06-21 2017-03-07 Microsoft Technology Licensing, Llc Environmentally aware dialog policies and response generation
US9311298B2 (en) 2013-06-21 2016-04-12 Microsoft Technology Licensing, Llc Building conversational understanding systems using a toolset
CN103400577B (zh) 2013-08-01 2015-09-16 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
CN103456299B (zh) 2013-08-01 2016-06-15 百度在线网络技术(北京)有限公司 一种控制语音识别的方法和装置
US9280968B2 (en) 2013-10-04 2016-03-08 At&T Intellectual Property I, L.P. System and method of using neural transforms of robust audio features for speech processing
US9721561B2 (en) 2013-12-05 2017-08-01 Nuance Communications, Inc. Method and apparatus for speech recognition using neural networks with speaker adaptation
US9373324B2 (en) 2013-12-06 2016-06-21 International Business Machines Corporation Applying speaker adaption techniques to correlated features
US9400955B2 (en) 2013-12-13 2016-07-26 Amazon Technologies, Inc. Reducing dynamic range of low-rank decomposition matrices
KR101937655B1 (ko) 2013-12-31 2019-01-11 코오롱인더스트리 주식회사 복합 중공사막 및 그 제조방법
US10339920B2 (en) 2014-03-04 2019-07-02 Amazon Technologies, Inc. Predicting pronunciation in speech recognition
US9324321B2 (en) 2014-03-07 2016-04-26 Microsoft Technology Licensing, Llc Low-footprint adaptation and personalization for a deep neural network
US9529794B2 (en) 2014-03-27 2016-12-27 Microsoft Technology Licensing, Llc Flexible schema for language model customization
US9520127B2 (en) 2014-04-29 2016-12-13 Microsoft Technology Licensing, Llc Shared hidden layer combination for speech recognition systems
US20150325236A1 (en) 2014-05-08 2015-11-12 Microsoft Corporation Context specific language model scale factors

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101415039A (zh) * 2007-10-17 2009-04-22 宏达国际电子股份有限公司 通话管理方法
CN101939740A (zh) * 2007-12-11 2011-01-05 声钰科技 在集成语言导航服务环境中提供自然语言语音用户界面
US20120253789A1 (en) * 2011-03-31 2012-10-04 Microsoft Corporation Conversational Dialog Learning and Correction

Also Published As

Publication number Publication date
AU2019208255B2 (en) 2020-11-12
MX352774B (es) 2017-12-07
BR112015031231A8 (pt) 2020-03-24
BR112015031231B1 (pt) 2022-04-26
CA2913735C (en) 2022-04-12
AU2014281049B9 (en) 2019-05-23
RU2015154501A3 (zh) 2018-05-04
AU2014281049A1 (en) 2015-12-10
KR20160021850A (ko) 2016-02-26
BR112015031231A2 (pt) 2017-07-25
RU2667717C2 (ru) 2018-09-24
AU2019208255A1 (en) 2019-08-15
CA2913735A1 (en) 2014-12-24
EP3011471A1 (en) 2016-04-27
WO2014204655A1 (en) 2014-12-24
US10304448B2 (en) 2019-05-28
JP6492069B2 (ja) 2019-03-27
US9589565B2 (en) 2017-03-07
JP2016524190A (ja) 2016-08-12
CN111368155A (zh) 2020-07-03
US20170162201A1 (en) 2017-06-08
AU2014281049B2 (en) 2019-05-02
RU2015154501A (ru) 2017-06-20
US20140379353A1 (en) 2014-12-25
CN105378708A (zh) 2016-03-02
KR102231733B1 (ko) 2021-03-23
MX2015017624A (es) 2016-04-15
CN105378708B (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
AU2019208255B2 (en) Environmentally aware dialog policies and response generation
JP7037602B2 (ja) デジタルアシスタントサービスの遠距離拡張
TWI566107B (zh) 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US9292492B2 (en) Scaling statistical language understanding systems across domains and intents
US20140201629A1 (en) Collaborative learning through user generated knowledge
CN111295685A (zh) 条件任务的自动提取和应用
US9830039B2 (en) Using human wizards in a conversational understanding system
WO2017168246A1 (en) Hierarchical attention for spoken dialogue state tracking
US20180061393A1 (en) Systems and methods for artifical intelligence voice evolution
US20140350931A1 (en) Language model trained using predicted queries from statistical machine translation
US20230004213A1 (en) Processing part of a user input to produce an early response

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant