CN109841212A

CN109841212A - 分析具有多个意图的命令的语音识别系统和语音识别方法

Info

Publication number: CN109841212A
Application number: CN201810550997.6A
Authority: CN
Inventors: 朴晟秀
Original assignee: Hyundai Motor Co; Kia Motors Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2017-11-28
Filing date: 2018-05-31
Publication date: 2019-06-04
Anticipated expiration: 2038-05-31
Also published as: CN109841212B; DE102018113034A1; US20190164540A1; KR20190061706A

Abstract

一种用于分析具有多个意图的发出命令的语音识别系统和语音识别方法，该语音识别系统可以包括：控制器，其配置为接收发出命令，从发出命令中提取多个意图数据集，从所提取的多个意图数据集中的第一意图数据集确定第二意图数据集，并基于第二意图数据集和第一意图数据集生成反馈消息；存储器，其配置为存储发出命令和提取的多个意图数据集；以及输出设备，其配置为输出反馈消息。

Description

分析具有多个意图的命令的语音识别系统和语音识别方法

相关申请的引证

本申请基于并要求2017年11月28日在韩国知识产权局提交的申请号为10-2017-0160367的韩国专利申请的优先权，其公开内容全文引入本文以供参考。

技术领域

本发明涉及一种用于分析具有多个意图的命令的语音识别系统和语音识别方法，并且更具体地涉及一种用于分析具有多个意图的命令的语音识别系统和语音识别方法，其中，具有多个意图的语音命令的含义彼此关联，以基于说话者的意图执行命令。

背景技术

随着如智能手机的移动设备广泛使用，对语音识别的兴趣增加。通常，语音识别技术涉及从语音中自动识别语言含义。具体而言，这些技术可涉及通过输入语音波形识别单词或单词串以及提取单词或单词串含义的处理过程。

语音识别通常分为五种类型：语音分析、音素识别、单词识别、句子分析和语义提取。狭义上讲，语音识别可指从语音分析到单词识别的过程。

语音识别的目的是通过自动识别由自然发声产生的语音作为待执行命令或将语音输入到文档中来实现完全的语音到文本转换。因此，已开发语音理解系统以使用语法信息、语义信息和与给定任务相关的信息或知识以及单词的简单识别来提取连续语音或句子的确切含义。这种系统的研究和开发在世界各地积极进行。

同时，典型的语音处理方法通过预测话语意图并识别实体名称来处理识别的语音。话语意图的预测是基于说话者的话语确定说话者的意图。通常，话语的预测是通过话语意图预测分类执行的。对实体名称的识别允许找到实体，该实体作为确定话语意图的因素。例如，通过多标签分类预测实体名称的识别。

然而，若通过话语意图预测分类来预测话语意图，则可以不预测包括在一个话语情况中的多个话语意图。如果使用多标签分类，预测话语意图的可靠性可能会降低。

发明内容

已提出本发明用以解决相关技术中出现的上述问题，同时现有技术所实现的优点保持不变。

本发明的一方面提供了一种语音识别系统和语音识别方法，用于分析具有多个意图的说话者说出的命令，以识别说话者的多个意图。

本发明要解决的技术问题不限于上述问题，并且本发明所属领域的技术人员从以下描述中将清楚地理解本文未提及的任何其他技术问题。

根据本发明的实施例，用于分析具有多个意图的发出命令的语音识别系统可以包括：控制器，其配置为接收发出命令，从发出命令中提取多个意图数据集，从所提取的多个意图数据集中的第一意图数据集确定第二意图数据集，并基于第二意图数据集和第一意图数据集生成反馈消息；存储器，其配置为存储发出命令和提取的多个意图数据集；以及输出设备，其配置为输出反馈消息。

另外，控制器可以确定包括在第一意图数据集中的多个实体中的第一实体的内容，并且从第一实体的内容确定包括在第二意图数据集中的多个实体中的第二实体的内容，该第二实体与第一实体相同。

另外，控制器可以检测发出命令中是否存在连接词，并且当发出命令中检测到连接词时，确定发出命令具有多个意图。

此外，控制器可以将发出命令划分为多个基于意图的句子，并且根据划分的多个基于意图的句子确定多个意图。

另外，控制器可以根据从多个基于意图的句子中确定的多个意图来提取多个意图数据集。

另外，控制器可以通过词法和语法分析而将发出命令划分为多个基于意图的句子。

此外，控制器可以将第一意图数据集与第二意图数据集相关联。

另外，当未能从第一意图数据集确定第二意图数据集时，则控制器可基于外部内容信息确定第二意图数据集。

另外，控制器可以通过文本分析来检测发出命令的含义。

此外，当检测到发出命令中没有连接时，控制器可以基于说话者的意图提取意图数据集，并且基于发出命令的含义另外提取新的意图数据集。

另外，当发出命令内容的一部分包括用于文本发送的内容时，控制器可以提取包括用于文本发送的意图数据集的多个意图数据集，并且从包括在所提取的意图数据集(该提取的意图数据集基于除用于文本发送的内容之外的发出命令的内容而提取)中的特定实体的内容来确定包括在用于文本发送的意图数据集中的特定实体的内容。

另外，控制器可以基于多个意图数据集生成动作数据集，其包括与发出命令相对应的一个或多个结果。

此外，控制器可以基于动作数据集生成反馈消息。

另外，输出设备可以以语音或图像形式输出反馈消息。

此外，根据本发明的实施例，用于分析具有多个意图的发出命令的语音识别方法可以包括：接收发出命令；从命令中提取多个意图数据集；从所提取的多个意图数据集中的第一意图数据集确定第二意图数据集；基于第一意图数据集和第二意图数据集生成反馈消息；并使用输出设备输出反馈消息。

另外，提取多个意图数据集可以包括确定发出命令是否具有多个意图。

另外，确定发出命令是否具有多个意图可以包括检测发出命令中是否存在连接词；并且当发出命令中检测到连接词时，确定发出命令具有多个意图。

另外，提取多个意图数据集可以进一步包括将发出命令划分为多个基于意图的句子；并且根据划分的多个基于意图的句子确定多个意图。

此外，划分发出命令可以包括通过词法和语法分析将发出命令划分为多个基于意图的句子。

另外，提取多个意图数据集可以进一步包括根据来自多个基于意图的句子的多个意图提取多个意图数据集。

另外，第一意图数据集和第二意图数据集可各自包括多个实体。

另外，语音识别方法可以进一步包括在提取多个意图数据集之后确定多个意图数据集是否彼此关联。

此外，确定多个意图数据集是否彼此关联可以包括，当从第一意图数据集和第二意图数据集两者提取共同实体时，确定第一意图数据集为与第二意图数据集相关联。

此外，语音识别方法可以进一步包括，在确定多个意图数据集是否彼此关联之后，从第一意图数据集确定第二意图数据集。

另外，从第一意图数据集确定第二意图数据集可以包括，从包括在第一意图数据集中的第一实体的内容确定包括在第二意图数据集中的第二实体的内容，第二实体与第一实体相同。

另外，语音识别方法可以进一步包括，当未能从第一意图数据集确定第二意图数据集时，基于外部内容信息确定第二意图数据集。

此外，语音识别方法可以进一步包括，当检测到发出命令中没有连接词时，在提取多个意图数据集之后，基于发出命令的含义另外提取新的意图数据集。

另外，语音识别方法可以进一步包括，当发出命令内容的一部分包括用于文本发送的内容时，提取包括用于文本发送的意图数据集的多个意图数据集；并且从根据除用于文本发送的内容之外发出命令的内容而提取的意图数据集确定包括在用于文本发送的意图数据集中特定实体的信息。

此外，语音识别方法可以进一步包括，在从第一意图数据集确定第二意图数据集之后，生成动作数据集，其包括与发出命令相对应的一个或多个结果。

另外，生成反馈消息可以包括基于动作数据集生成反馈消息。

另外，输出反馈消息可以包括以语音或图像形式输出反馈消息。

附图说明

本发明的上述及其他目的、特征和优点从以下结合附图的详细描述中将更加明显：

图1是示出根据本发明的包括车辆终端系统和语音识别系统的智能代理的示意图，该车辆终端系统包括在车辆内；

图2是示出用于分析具有多个意图的命令的语音识别系统的框图；

图3是示出根据本发明的语音识别系统中类似意图的聚类的视图；

图4是示出根据意图提取的实体的视图；

图5是示出根据本发明实施例的包括在意图数据集中的提取的共同实体的视图；

图6是示出根据本发明实施例的每个意图数据集中信息映射的视图；

图7是示出根据本发明实施例的每个意图数据集中信息推断的视图；

图8是示出根据本发明的用于分析具有多个意图的命令的语音识别方法的流程图；

图9是示出根据本发明实施例的语音识别方法的示意图；

图10是示出根据本发明实施例的语音识别方法的另一示意图；以及

图11是示出根据本发明实施例的执行该方法的计算系统的框图。

应该理解，以上参考的附图不必按比例绘制，其呈现了说明本发明基本原理的各种优选特征的稍微简化的表示。本发明的具体设计特征(包括例如具体尺寸、取向、位置和形状)将部分地由特定的预期应用和使用环境确定。

具体实施方式

在下文中，将参考附图详细描述本发明的实施例。在以下描述中，即使元件在不同附图中示出，相同的元件将标以相同的附图标记。另外，在以下描述中，公知特征或功能的详细描述将排除，以免不必要地模糊本发明主旨。

在以下对根据本发明实施例的元件的描述中，可使用术语“第一”、“第二”、“A”、“B”、“(a)”以及“(b)”。这些术语仅用于区分相关元件与其他元件，而相关元件的性质、顺序或序列不限于这些术语。另外，除非另有定义，否则本文使用的所有术语(包括技术或科学术语)与本发明所属领域技术人员通常理解的具有相同含义。在通常使用的字典中定义的那些术语应解释为与相关技术领域中的上下文含义具有相同的含义，并且不应解释为具有理想或过于正式的含义，除非明确定义为在本申请中具有这样的含义。

如本文所使用的，除非上下文另外清楚地说明，否则单数形式“一(a)”、“一个(an)”和“该(the)”旨在也包括复数形式。还应理解，当在本说明书中使用时，术语“包括(comprises)”和/或“包含(comprising)”确定存在所陈述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其组合。如本文所使用的，术语“和/或”包括一个或多个相关所列项目的任何和所有组合。

应该理解，本文所使用的术语“车辆”或“车辆的”或其他类似术语包括一般的机动车辆，如包括运动型多用途车辆(SUV)的乘用车、公共汽车、卡车、各种商用车辆、包括各种船舶的水运工具、飞机等，并且包括混合动力车辆、电动车辆、插电式混合动力电动车辆、氢动力车辆以及其他替代燃料车辆(例如，来自非石油资源的燃料)。如本文所提及的，混合动力车辆为具有两个或更多动力源的车辆，例如汽油动力和电动车辆。

另外，应该理解，以下方法或其方面中的一个或多个可由至少一个控制器执行。术语“控制器”可指包括存储器和处理器的硬件设备。存储器配置为存储程序指令，并且处理器具体编程为执行程序指令以进行下面进一步描述的一个或多个处理。如本文所述，控制器可控制单元、模块、部件等的操作。并且，应该理解，下面的方法可由包括控制器结合一个或多个其他组件的装置来执行，如本领域普通技术人员将理解的那样。

此外，本发明的控制器可实现为非暂时性计算机可读介质，该非暂时性计算机可读介质包含由处理器、控制器等执行的可执行程序指令。计算机可读介质的示例包括但不限于ROM、RAM、光盘(CD)-ROM、磁带、软盘、闪存驱动器、智能卡和光学数据存储设备。计算机可读记录介质还可以分布在整个计算机网络中，使得程序指令以分布方式存储和执行，例如通过远程信息处理服务器或控制器局域网络(CAN)。

图1是示出根据本发明的包括车辆终端系统和语音识别系统的智能代理的示意图，该车辆终端系统包括在车辆中。

如图1所示，车辆可包括车辆终端系统和智能代理。

根据功能，车辆终端系统分为应用(“App”)事件管理器、应用编程接口(API)、上下文感知引擎和语音识别引擎。

App事件管理器可监测应用中出现的车辆状态和事件，并且可管理和控制应用状态。API可包括用于交互终端语音识别引擎与服务器语音识别引擎的API以及用于交互上下文感知引擎与智能代理的API。上下文感知引擎可基于上下文数据推荐或建议服务，并且可将上下文分析结果应用于结果数据来处理操作步骤。另外，可将情况分析结果应用于搜索信息进行重新分类。由于语音识别引擎具有与智能代理相同的部分，所以通过参考以下智能代理的描述将理解语音识别引擎的细节。

根据功能，智能引擎可分为输入管理、输出管理、场景管理、对话管理、上下文感知分析引擎以及用于车辆环境的大数据。

输入管理可包括语音识别引擎和意图分析引擎。根据本发明的语音识别系统可包括由意图分析引擎执行的功能。

语音识别引擎可将语音转换为文本，可识别车辆终端系统内孤立单词的语音，并且可识别智能代理内的大容量语音。意图分析引擎可使用文本的自然语言处理技术提取意图数据集，该文本为语音识别处理的结果。另外，意图分析引擎可提取实体，该实体为与文本意图分类和有关意图相关联的主要信息。

输出管理可表示为动作管理并且可包括自然语言产生引擎和语音合成引擎。根据本发明的语音识别系统可包括输出管理中执行的功能。

自然语言产生引擎可分析未来预期动作并且可产生要输出的文本。另外，可通过分析产生的文本以产生与语音合成引擎相关的参数。语音合成引擎可将自然语言产生引擎产生的文本转换为语音。语音合成引擎可通过合成车辆终端系统内的固定语音来输出固定语音，并且可在智能引擎内输出基于参数的情绪和个性化语音。

场景管理即管理用于车辆服务的场景(例如目的地搜索、音乐推荐、日程管理等)，并且可链接至外部内容(例如地图、音乐、日程等)而非连同内容提供者适配器的车辆。

对话管理可包括会话管理、对话添加管理、对话状态管理、对话历史管理和服务管理，并且根据本发明的语音识别系统可包括对话历史管理中执行的功能。

会话管理即管理每个对话主题(意图数据集)的连续性，并且通过添加或删除对话主题(意图数据集)来执行附加对话管理。对话状态管理可管理对话主题(意图数据集)之间的状态。另外，对话历史管理可识别并重新配置对话主题(意图数据集)之间的关联，并且服务管理可管理与对话主题(意图数据集)相关联的服务，或者可管理场景数据库、场景状态以及CP交互。

上下文感知分析引擎可以包括大规模统计分析、短期/长期记忆分析、复杂推理、文本/语音分析以及查询响应分析的功能。根据本发明的语音识别系统可包括复杂推理中执行的功能。

大规模统计分析包括基于使用历史对使用模式的分析。短期/长期记忆分析可包括基于使用历史恢复关联信息的分析。复杂推理可通过相互不同的多条信息间的映射执行。文本/语音分析是通过分析语音信息和文本信息推断情况。查询响应分析是通过分析用户的查询内容推断响应。

车辆环境下的大数据可包括车辆客户关系管理(VCRM)、客户数据、历史数据、关系数据和知识库。

VCRM可包括车辆使用信息数据，客户数据可包括订购客户信息数据，历史数据可包括服务使用历史的信息数据，关联数据可包括数据间的关联、链接信息的数据，且知识库可包括查询和响应所需的知识信息数据。

根据本发明，可使用图1所示的一些功能分析具有说话者多个意图的命令。

图2是示出根据本发明的用于分析具有多个意图的命令的语音识别系统的框图。

如图2所示，根据本发明的用于分析具有多个意图的命令的语音识别系统可包括控制器10、存储器20和输出设备30。

控制器10可分析具有多个意图的命令。

控制器10确定说话者发出的命令中是否存在多个意图。说话者发出的命令可包括具有句子的自然语言。根据本发明的实施例，发出命令可包括连接词如“和”、“同时”以及“另外”。若发出命令中包括连接词，则控制器10可确定该命令具有多个意图。

若发出命令具有多个意图，则控制器10可根据意图划分句子。为此，可执行学习，使得具有类似含义的句子聚类，并且可另外学习具有多个意图的命令。

根据本发明的实施例，控制器10首先将发出命令转换为文本以执行学习，使得具有类似含义的句子聚类。另外，经转换的文本转化为数百维度的矢量，并代入实数空间。在实数空间中具有类似含义的命令能以相同颜色聚类，如图3所示。具有相同含义的命令可存在于以相同颜色聚类的空间中。根据本发明，控制器10可另外学习具有相同含义的命令中具有多个意图的命令。

另外，由于句子之间的重叠，控制器10可针对模糊句子区域执行词法和语法分析。例如，若说话者发出的语音中包括如“当”、“和”或“另外”的连接词或短语(“连接词”)，则控制器10可划分句子。例如，若命令为“当你到达目的地时，告诉我那里的天气”，则控制器10可确定“当”作为连接词以划分命令为两个句子“你到达目的地”和“告诉我那里的天气”。在下文中，为了便于说明，将句子“你到达目的地”称为“第一句”，将句子“告诉我那里的天气”称为“第二句”。

控制器10可在划分的句子中分析说话者的意图。例如，可分析第一句说话者的意图，因为说话者想知道目的地信息。另外，可分析第二句说话者的意图，因为从第二句中说话者想知道天气信息。

控制器10可基于分析的说话者意图提取意图数据集。意图数据集可指数据，基于分析的说话者意图，该数据包括用于执行发出命令的信息。根据项目，意图数据集可包括通过分类信息获得的多个实体，该信息用于执行发出命令。实体可包括兴趣点(POI)名称、地区、业务类型、街道、所用时间、天气、姓名、呼叫类别、电话号码、日期、时间、消息等。

例如，控制器10可基于第一句说话者的意图提取下面表1所示的第一意图数据集。第一意图数据集可包括五个实体，并且可具有五个实体的以下信息。包括在第一意图数据集中的每个实体的内容可使用第一句的信息获取。由于第一句的信息与“目的地”有关，所以每个实体的内容可使用设置在车辆内的导航系统的信息来获取。

表1

实体	内容
		POI名称	AA中心
地区	京畿道华城
		业务类型	购物中心
距离	30Km
		所用时间	58Min.

例如，控制器10可基于第二句说话者的意图提取下面表2所示的第二意图数据集。第二意图数据集可包括三个实体，并且可具有三个实体的以下信息。包括在第二意图数据集中的每个实体的内容可使用第二句的信息获取。然而，由于第二句与“那里的天气”有关，除与该地区有关的实体之外，可能无法获取“时间”和“天气”的内容。

表2

实体	内容
		地区	那里
时间	？
		天气	？

图4是示出根据意图提取的实体的视图。

如图4所示，可从共有的相互不同意图中提取特定实体。例如，“地区”可以是这种情况下提取的实体：说话者的意图与“设置目的地”、“目的地信息”和“天气信息”中的一个相关。

在特定实体从共有的相互不同意图中提取的情况下，相互不同的意图可彼此相关联。因此，从一个意图数据集获取的特定实体的内容可对应于从不同的意图数据集获取的特定实体的内容。在图4中，以纵向方向排列的项目表示实体，并且以横向方向排列的项目可以是用户意图。

例如，实体中的“地区”可以是对应于均为用户意图的“设置目的地”、“目的地信息”以及“天气信息”的实体之间的共同实体。因此，从“设置目的地”实体提取的“地区”的内容可映射到从“目的地信息”和“天气信息”实体提取的“地区”的内容。

因此，图4所示实体中实体“POI名称”、“地区”、“业务类型”、“时间”、“姓名”、“呼叫类别”、“电话号码”以及“日期&时间”的内容可映射到包括相关实体的用户的相互不同意图中。

同时，说话者的意图包括“发送文本消息”意图的情况下，对应于“文本发送”提取的实体中的“消息”信息通常与对应于“文本阅读”提取的实体中的“消息”信息一起应用。“文本发送”的详细描述可参考图10进行。

控制器10可提取对应于意图提取的实体中的共同实体，以使用图4的信息检测相互不同意图之间的关联。其细节将参考图5进行描述。

图5示出根据本发明实施例的意图数据集中提取的共同实体。如图5所示，从第一句和第二句提取的共同实体可以是“地区”和“时间”。因此，控制器10可检测第一句和第二句在“地区”和“时间”方面具有关联。因此，图5的意图数据集可检测为彼此关联的意图数据集。

另外，若控制器10确定意图数据集为彼此关联，则控制器10可从包括在关联意图数据集中的另一个中的信息来推断包括在关联意图数据集中的任何一个中的信息。

为此，从任何一个意图数据集获取的特定实体的内容可映射到从另一意图数据集获取的特定实体的内容。其细节将参考图6进行描述。

图6是示出根据本发明实施例的每个意图数据集中信息映射的视图。控制器10可将第一意图数据集的“地区”实体的内容映射到第二意图数据集的“地区”实体的内容，如图6所示。另外，控制器10可将第一意图数据集的“所用时间”实体的内容映射到第二意图数据集的“时间”实体的内容。

控制器10可从映射到第二意图数据集的实体内容的第一意图数据集的实体内容推断未从第二意图数据集获取的实体的内容。其细节将参考图7进行描述。

图7是示出根据本发明实施例的每个意图数据集中信息映射的视图。

若仅使用所识别的单词难以检测所识别单词的确切含义，则控制器10可分析文本以检测所识别单词的确切含义。控制器10仅使用“那里”可能无法检测第二句中“那里”的确切含义。因此，控制器10可通过文本分析识别单词“那里”是指“地点”的代词。在此情况下，控制器10可作出推断，从第一意图数据集提取的“地区”实体的内容对应于“那里”，如图7所示。

另外，如图7所示，控制器10可通过添加当前时间至从第一意图数据集提取的实体中的“所用时间”信息来推断从第二意图数据集提取的实体中的“时间”内容。根据本发明的实施例，参考表1，若从第一意图数据集提取的实体中的“所用时间”实体为58分钟并且当前时间为“17:00”，则控制器10可推断从第二意图数据集提取的实体中的“17:58”、“时间”。

另外，控制器10基于推断内容获取第二意图数据集中的相关实体的内容。控制器10未能推断的实体内容可从外部内容获取。外部内容可包括音乐、地图、日程、天气、搜索服务等。因此，第二意图数据集可获取下面表3所示的结果。

表3

实体	内容
		地区	京畿道华城
时间	17:58
		天气	晴

另外，控制器10可创建动作数据集。可基于发出命令的结果信息创建动作数据集。换言之，可创建动作数据集，使得动作数据集基于说话者的意图仅包括说话者期望的信息。根据本发明的实施例，可基于表3创建动作数据集，如下面表4所示。

表4

实体	内容
		到达时间	17:58
天气	晴

另外，控制器10可从创建的动作数据集确定反馈消息。根据本发明的实施例，反馈消息可确定为消息“目的地到达时间为17:58并且目的地天气当时为晴”。

再次参考图2，存储器20可存储发出命令，以及由控制器10提取的多个意图数据集和动作数据集。

输出设备30可基于创建的动作数据集确定反馈消息。根据实施例，输出设备30可以以语音或图像形式输出反馈消息。

图8是示出根据本发明的用于分析具有多个意图的命令的语音识别方法的流程图。

如图8所示，控制器10识别说话者发出的命令(步骤S100)。

控制器10确定发出命令是否具有多个意图(步骤S110)。在操作S110中，若说话者发出的命令中包括连接词如“和”、“同时”以及“另外”，则控制器10可确定发出命令具有多个意图。若命令确定为具有多个意图(Y)，则控制器10可执行操作步骤S120。若命令未确定为具有多个意图(N)，则控制器10可确定命令具有单个意图(步骤S115)。

操作步骤S115之后，控制器10可执行操作步骤S130以分析说话者的意图并且可通过执行操作步骤S140提取意图数据集。在此情况下，若包括在单个意图数据集中的实体内容不足，则控制器10可另外创建允许获取实体内容的意图数据集。

若命令确定为具有多个意图，则控制器10可将说话者的命令划分为基于意图的句子(步骤S120)。操作步骤S120可包括执行学习操作，使得具有类似含义的句子聚类，以及执行针对具有多个意图的命令的学习操作。在操作步骤S120中，若在命令中检测到连接词，则命令可划分为基于意图的句子。连接词可包括“当”、“和”或“另外”。根据本发明的实施例，在操作步骤S120中，若发出命令为“当你到达目的地时，告诉我那里的天气”，则控制器10可将发出命令划分为第一句“你到达目的地”和第二句“告诉我那里的天气”。

若发出命令划分为基于意图的句子，则控制器10可在划分的句子中分析说话者的意图(步骤S130)。在操作步骤S130中，控制器10可分析第一句，因为说话者想知道目的地信息。另外，控制器10可分析第二句，因为说话者想知道那里的天气信息。

若分析了说话者的意图，则控制器根据说话者的意图提取意图数据集(步骤S140)。根据本发明的实施例，在操作步骤S140中，控制器10可基于第一句说话者的意图提取第一意图数据集，并基于第二句说话者的意图提取第二意图数据集，如上面表1和表2所示。第一和第二意图数据集可包括与分析的说话者意图相关联的数据，可包括包含用于执行发出命令的信息的数据，并且可包括多个实体。通过参考表1和表2的描述将理解其细节。

控制器10确定提取的第一和第二意图数据集之间的关联(步骤S150)。在操作步骤S150中，若共同实体存在于从第一意图数据集提取的实体与从第二意图数据集提取的实体之间，则控制器10可确定第一意图数据集与第二意图数据集相关联。

若第一意图数据集确定为基于共同实体与第二意图数据集相关联，则控制器10可从包括在第一意图数据集中的内容推断将包括在第二意图数据集中的内容。为此，控制器10将第一和第二意图数据集之间的共同实体的内容彼此映射(步骤S160)。在操作步骤S160中，根据本发明的实施例，从第一意图数据集提取的第一实体的内容映射到从第二意图数据集提取的第一实体的内容。

映射实体的内容之后，控制器10推断第二意图数据集的内容(S170)。在操作步骤S170中，控制器10可从映射到第二意图数据集的实体内容的第一意图数据集的实体内容推断未从第二意图数据集获取的实体的内容。若未能从第一意图数据集推断第二意图数据集，则控制器10可从外部内容推断第二意图数据集的内容。

控制器10基于第二意图数据集的推断内容获取第二意图数据集的内容(步骤S180)。控制器10可基于外部内容信息获取操作步骤S170中未推断的内容。因此，控制器10可获取第二意图数据集的全部内容。

若获取了第二意图数据集的内容，则控制器10创建动作数据集(S190)。在操作步骤S190中，控制器10基于说话者首先发出的命令内容创建包括发出命令的结果信息的动作数据集。换言之，控制器10可基于说话者的意图创建动作数据集，使得动作数据集包括说话者想知道的结果信息。通过参考表4将理解其细节。

若创建了动作数据集，则控制器10确定并输出反馈消息(步骤S200)。在操作步骤S200中，控制器10可确定反馈消息“目的地到达时间为17:58并且目的地天气当时为晴”。另外，反馈消息可以是语音或图像形式的输出。

图9是示出根据本发明实施例的语音识别方法的示意图。

若发出命令为“请呼叫最近未接来电的电话号码”，则控制器10可确定发出命令具有单个意图，因为发出命令中不存在连接词。另外，控制器10可将说话者的意图分析为“呼叫”。控制器10可提取用于“呼叫”的意图数据集，在下面表5中示出。

表5

由于“呼叫”的目标是最近未接来电的电话号码，因此控制器10确定与未接来电相关的对应姓名是否存储在移动电话联系人中。若对应姓名存储在移动电话内容中，则控制器创建如下面表6中所示的动作数据集，并且输出设备30确定并输出反馈消息。控制器10可将反馈消息确定为消息“我将呼叫未接来电的电话号码”，并且可以以语音或图像形式输出反馈消息。

表6

同时，若与未接来电相关的对应姓名未存储在移动电话联系人中，则控制器10可基于第一发出命令内容中的内容提取新的意图数据集，该内容链接到另一意图。例如，控制器10可另外提取用于“检查未接来电”的意图数据集，在下面表7中示出。

表7

因此，控制器10将表7中用于“检查未接来电”的意图数据集的内容映射到表5中用于“呼叫”的意图数据集的内容。控制器10推断未从表5中用于“呼叫”的意图数据集获取的实体的内容。另外，控制器10可使用推断内容创建动作数据集，如下面表8所示。

表8

另外，控制器10可从动作数据集确定反馈消息。根据本发明的实施例，控制器10可将反馈消息确定为消息“我将呼叫Hong，Gil-Dong”。另外，输出设备30可以以语音或图像形式输出反馈消息。

图10是示出根据本发明实施例的语音识别方法的另一示意图。

若发出命令为“设置目的地为中心AA，并以文本消息发送目的地信息给James”，则控制器10可确定发出命令具有多个意图，因为发出命令中包括连接词。

另外，控制器10可将命令划分为基于意图的句子“设置目的地为中心AA”和“以文本消息发送目的地信息给James”，并且可将说话者的意图分析为设置目的地并发送文本消息。

控制器10可基于说话者的意图提取用于“设置目的地”和“发送文本消息”的意图数据集，在下面表9和表10中示出。

表9

表10

在提取用于“发送文本消息”的意图数据集的情况下，控制器10可共同映射其他实体的信息，而不限于实体信息与共同实体信息之间的映射，如以上参考图4所述。

换言之，参考以上表9和表10，用于“设置目的地”的意图数据集和用于“发送文本消息”的意图数据集之间无共同实体。然而，与用于“发送文本消息”的意图数据集中“消息”有关的实体可映射到与用于“设置目的地”的意图数据集中“目的地”有关的实体。另外，控制器10可从与“目的地”有关的实体内容中推断“消息”的内容，并且可创建动作数据集，如表11所示。

表11

控制器10可从如上面表11所示创建的动作数据集来确定反馈消息。根据实施例，反馈消息可确定为消息“发送‘中心AA’给James”。另外，输出设备30可以以语音或图像形式输出反馈消息。

如图11所示，计算系统1000可包括通过总线1200彼此连接的至少一个处理器1100、内存1300、用户接口输入设备1400、用户接口输出设备1500、存储器1600以及网络接口1700。

处理器1100可以是中央处理单元(CPU)或半导体器件，用于处理存储在内存1300和/或存储器1600中的指令。内存1300和存储器1600各自可包括各种类型的易失性或非易失性存储介质。例如，内存1300可包括只读存储器(ROM)和随机存取存储器(RAM)。

因此，结合本发明公开的实施例描述的方法或算法的操作可直接以由处理器1100执行的硬件模块、软件模块或其组合来实现。软件模块可驻留在存储介质(即内存1300和/或存储器1600)上，如RAM、闪存、ROM、可擦除可编程ROM(EPROM)、电EPROM(EEPROM)、寄存器、硬盘、可移动磁盘或光盘-ROM(CD-ROM)。示例性存储介质可耦合至处理器1100。处理器1100可从存储介质读出信息并且可在存储介质中写入信息。或者，存储介质可与处理器1100集成。处理器和存储介质可驻留在专用集成电路(ASIC)中。ASIC可驻留在用户终端中。或者，处理器和存储介质可作为用户终端的独立组件驻留。

在根据本发明的用于分析具有多个意图的命令的语音识别系统和语音识别方法中，当说话者的语音在车辆内识别时，通过连接多个意图之间的含义检测说话者的多个意图。因此，多个内容可自动彼此链接以执行多个命令。

在上文中，虽然本发明已参考某些实施例和附图进行描述，但本发明并不限于此，而是可由本发明所属领域的技术人员在不背离以下权利要求所要求保护的本发明的精神和范围下进行各种修改和改变。

因此，本发明的实施例并非旨在限制本发明的技术精神，而是仅出于说明性目的提供。本发明的保护范围应由所附权利要求解释，并且其所有等同物应解释为包括在本发明的范围内。

Claims

1.一种用于分析具有多个意图的发出命令的语音识别系统，所述语音识别系统包括：

控制器，配置为接收所述发出命令，从所述发出命令中提取多个意图数据集，从提取的所述多个意图数据集中的第一意图数据集确定第二意图数据集，并基于所述第二意图数据集和所述第一意图数据集生成反馈消息；

存储器，配置为存储所述发出命令和提取的所述多个意图数据集；以及

输出设备，配置为输出所述反馈消息。

2.根据权利要求1所述的语音识别系统，其中，所述控制器进一步配置为确定包括在所述第一意图数据集中的多个实体中的第一实体的内容，并且从所述第一实体的内容确定包括在所述第二意图数据集中的多个实体中的第二实体的内容，所述第二实体与所述第一实体相同。

3.根据权利要求1所述的语音识别系统，其中，所述控制器进一步配置为检测所述发出命令中是否存在连接词，并且当在所述发出命令中检测到所述连接词时则确定所述发出命令具有多个意图。

4.跟据权利要求3所述的语音识别系统，其中，所述控制器进一步配置为将所述发出命令划分为多个基于意图的句子，并且根据划分的所述多个基于意图的句子来确定多个意图。

5.根据权利要求4所述的语音识别系统，其中，所述控制器进一步配置为根据从所述多个基于意图的句子中确定的所述多个意图来提取所述多个意图数据集。

6.根据权利要求4所述的语音识别系统，其中，所述控制器进一步配置为通过词法和语法分析而将所述发出命令划分为所述多个基于意图的句子。

7.根据权利要求2所述的语音识别系统，其中，所述控制器进一步配置为将所述第一意图数据集与所述第二意图数据集相关联。

8.根据权利要求1所述的语音识别系统，其中，所述控制器进一步配置为当未能从所述第一意图数据集确定所述第二意图数据集时，则基于外部内容信息确定所述第二意图数据集。

9.根据权利要求1所述的语音识别系统，其中，所述控制器进一步配置为通过文本分析来检测所述发出命令的含义。

10.根据权利要求1所述的语音识别系统，其中，当检测到所述发出命令中没有连接词时，所述控制器进一步配置为基于说话者的意图来提取意图数据集，并且基于所述发出命令的含义另外提取新的意图数据集。

11.根据权利要求1所述的语音识别系统，其中，所述控制器进一步配置为：当所述发出命令的内容的一部分包括用于文本发送的内容时，则提取包括用于文本发送的意图数据集的多个意图数据集，并且从包括在所提取的意图数据集中的特定实体的内容来确定包括在用于所述文本发送的所述意图数据集中的特定实体的内容，所提取的意图数据集基于除用于所述文本发送的内容之外的所述发出命令的内容而提取。

12.根据权利要求1所述的语音识别系统，其中，所述控制器进一步配置为基于所述多个意图数据集生成动作数据集，所述动作数据集包括与所述发出命令相对应的一个或多个结果。

13.根据权利要求12所述的语音识别系统，其中，所述控制器进一步配置为基于所述动作数据集生成所述反馈消息。

14.根据权利要求1所述的语音识别系统，其中，所述输出设备进一步配置为以语音或图像的形式输出所述反馈消息。

15.一种用于分析具有多个意图的发出命令的语音识别方法，所述语音识别方法包括：

接收所述发出命令；

从所述发出命令中提取多个意图数据集；

从提取的所述多个意图数据集中的第一意图数据集确定第二意图数据集；

基于所述第一意图数据集和所述第二意图数据集生成反馈消息；以及

使用输出设备输出所述反馈消息。

16.根据权利要求15所述的语音识别方法，其中，提取所述多个意图数据集包括：

确定所述发出命令是否具有多个意图。

17.根据权利要求16所述的语音识别方法，其中，确定所述发出命令是否具有多个意图包括：

检测所述发出命令中是否存在连接词；以及

当在所述发出命令中检测到所述连接词时，则确定所述发出命令具有多个意图。

18.根据权利要求16所述的语音识别方法，其中，提取所述多个意图数据集进一步包括：

将所述发出命令划分为多个基于意图的句子；以及

根据划分的所述多个基于意图的句子来确定所述多个意图。

19.根据权利要求18所述的语音识别方法，其中，划分所述发出命令包括：

通过词法和语法分析将所述发出命令划分为所述多个基于意图的句子。

20.根据权利要求18所述的语音识别方法，其中，提取所述多个意图数据集进一步包括：

根据来自所述多个基于意图的句子的所述多个意图提取所述多个意图数据集。

21.根据权利要求20所述的语音识别方法，其中，所述第一意图数据集和所述第二意图数据集各自包括多个实体。

22.根据权利要求21所述的语音识别方法，进一步包括：

在提取所述多个意图数据集之后，确定所述多个意图数据集是否彼此关联。

23.根据权利要求22所述的语音识别方法，其中，确定所述多个意图数据集是否彼此关联包括：

当从所述第一意图数据集和所述第二意图数据集两者提取共同实体时，确定所述第一意图数据集与所述第二意图数据集相关联。

24.根据权利要求22所述的语音识别方法，进一步包括：

在确定所述多个意图数据集是否彼此关联之后，从所述第一意图数据集确定所述第二意图数据集。

25.根据权利要求24所述的语音识别方法，其中，从所述第一意图数据集确定所述第二意图数据集包括：

从包括在所述第一意图数据集中的第一实体的内容，确定包括在所述第二意图数据集中的第二实体的内容，所述第二实体与所述第一实体相同。

26.根据权利要求24所述的语音识别方法，进一步包括：

当未能从所述第一意图数据集确定所述第二意图数据集时，基于外部内容信息确定所述第二意图数据集。

27.根据权利要求16所述的语音识别方法，进一步包括：

当检测到所述发出命令中没有连接词时，在提取所述多个意图数据集之后，基于所述发出命令的含义另外提取新的意图数据集。

28.根据权利要求15所述的语音识别方法，进一步包括：

当所述发出命令内容的一部分包括用于文本发送的内容时，提取包括用于文本发送的意图数据集的多个意图数据集；以及

从根据除了用于所述文本发送的内容之外的所述发出命令的内容而提取的意图数据集，确定包括在用于所述文本发送的所述意图数据集中的特定实体的信息。

29.根据权利要求15所述的语音识别方法，进一步包括：

在从所述第一意图数据集确定所述第二意图数据集之后，生成动作数据集，所述动作数据集包括与所述发出命令相对应的一个或多个结果。

30.根据权利要求29所述的语音识别方法，其中，

生成所述反馈消息包括：

基于所述动作数据集生成所述反馈消息。

31.根据权利要求15所述的语音识别方法，其中，输出所述反馈消息包括：

以语音或图像的形式输出所述反馈消息。