CN103974109B

CN103974109B - 语音识别设备和用于提供响应信息的方法

Info

Publication number: CN103974109B
Application number: CN201410041514.1A
Authority: CN
Inventors: 朴殷相; 金倞德; 金命哉; 刘昱; 柳成瀚; 李根培
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-01-31
Filing date: 2014-01-28
Publication date: 2019-04-05
Anticipated expiration: 2034-01-28
Also published as: EP2763135A1; KR20140098525A; KR102072826B1; US9865252B2; US20140214425A1; CN103974109A

Abstract

提供一种语音识别设备和用于提供响应信息的方法。根据本公开的语音识别设备包括：提取器，被配置为从用户的发音信号中提取代表用户动作的第一表达元素和代表对象的第二表达元素；域确定器，被配置为基于分层域模型检测出与提取的第一表达元素和第二表达元素有关的扩展域，并将与检测出的多个扩展域有关的至少一个候选域确定为最终域；通信器，与外部设备执行通信；控制器，被配置为控制通信器发送关于第一表达元素和第二表达元素的信息和关于确定的最终域的信息。

Description

语音识别设备和用于提供响应信息的方法

本申请要求于2013年1月31日提交的第10-2013-0011292号韩国专利申请的优先权，其中，所述专利申请的公开通过引用合并于此。

技术领域

与示例性实施例一致的方法和设备涉及一种语音识别设备和用于提供响应信息的方法，更具体地，涉及一种用于提供与用户的发音相应的响应信息的语音识别设备以及用于提供响应信息的方法。

背景技术

当接收到用户的发音时，现有技术的语音识别设备分析接收到的用户的发音以确定用户意图的域(domain)，并基于确定的域提供关于用户的发音的响应信息。

然而，随着域在这样的现有技术的语音识别设备中应该被提供的服务和多种域（有关区域）的服务变得多样化并复杂，出现这样的问题：语音识别设备确定了并非用户意图的域，并基于确定的非意图的域来提供关于用户的发音的响应信息。

例如，当从用户接收到发音“有多少种动作片”时，关于这样的发音可确定有关域的电视（TV）节目和/或视频点播（VOD），然而传统的语音识别设备在不考虑这样多域的可能性的情况下在多个域之中只检测出一个域。例如，来自用户的发音“有多少种动作片？”可包括关于在TV节目中提供的动作片的用户意图。然而，语音识别设备可以不管用户的意图从用户的发音中任意地确定VOD有关的域，并可基于确定的VOD有关的域提供关于用户的发音的响应信息。如此，在传统的语音识别设备中，经常发生这种情况：提供并非用户意图的响应信息，因此，为了提供意图的响应信息，用户必须忍受这样的不便：不得不提供更详细的发音。

发明内容

一个或更多个示例性实施例提供用于提供与用户的发音相应的响应信息的语音识别设备及其提供响应信息的方法。更具体地，一个或更多个示例性实施例在对话型系统中的提供关于用户的发音的响应信息的语音识别设备中，在基于用户发音可能的多个域之中根据用户的意图确定域，并基于确定的域提供关于用户发音的响应信息。

根据示例性实施例的一方面，提供一种对话型语音识别设备，包括：提取器，被配置为从用户的发音信号中提取代表用户动作的第一表达元素和代表对象的第二表达元素；域确定器，被配置为基于预先确定的分层域模型检测与提取的第一表达元素和第二表达元素有关的扩展域，并将与检测出的扩展域有关的至少一个候选域确定为最终域；通信器，被配置为与外部设备执行通信；控制器，被配置为控制通信器发送与第一表达元素和第二表达元素有关的信息和关于确定的最终域的信息。

分层域模型可包括下位概念的候选域和预先确定为候选域的上位概念的虚拟扩展域，在下位概念的候选域中，与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配。

当检测出与从提取器中提取的第一表达元素相应的主动作和与从提取器中提取的第二表达元素相应的组件槽彼此匹配的扩展域时，域确定器可使用多分类器以检测与检测出的扩展域有关的从属候选域，当没有检测出所述扩展域时，检测与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配的候选域。

域确定器可使用至少一个二元分类器检测在候选域之中的至少一个域和扩展域，其中，在候选域中，与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配。

域确定器从提取的第一表达元素和第二表达元素中的至少一个和检测出的候选域可理解用户的意图，以确定是否发生语境初始化，当确定还没有发生语境初始化时，基于先前域将在检测出的多个候选域之中的至少一个候选域确定为最终域，所述先前域是在接收到用户的发音信号之前从用户的先前发音确定的域。

当在检测出的多个候选域之中的一个候选域与先前域彼此相应时，域确定器可将先前域确定为最终域。

当确定检测出的候选域与先前域彼此不同或已发生了语境初始化时，域确定器可将在与检测出的扩展域有关的至少一个候选域之中与代表用户动作的第一表达元素有关的候选域确定为最终域。

当检测出的候选域包括与代表用户动作的第一表达元素相应的主动作信息时，域确定器可将检测出的全部候选域确定为最终域。

当检测出的候选域包括与代表用户动作的第一表达元素相应的主动作信息时，域确定器可将由用户选择的候选域确定为最终域或任意选择在检测出的多个候选域之中的一个候选域作为最终域。

当存在多个先前域，所述多个先前域中的一个与所述多个候选域中的一个彼此相应并且该候选域包括与代表用户动作的第一表达元素相应的主动作信息时，域确定器可在检测出的多个候选域之中将与先前域相应的候选域确定为最终域。

根据示例性实施例的一方面，提供一种在对话型语音识别设备中提供与用户的发音相应的响应信息的方法，所述方法包括：从用户的发音信号中提取代表用户动作的第一表达元素和代表对象的第二表达元素；基于预先确定的分层域模型检测出与提取的第一表达元素和第二表达元素有关的扩展域；将与检测出的扩展域有关的至少一个候选域确定为最终域；将关于第一表达元素和第二表达元素的信息和关于确定的最终域的信息发送到外部设备。

当检测出与从提取器中提取的第一表达元素相应的主动作和与从提取器中提取的第二表达元素相应的组件槽彼此匹配的扩展域时，检测扩展域的步骤可使用多分类器以检测与检测出的扩展域有关的从属候选域，当没有检测出所述扩展域时，检测与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配的候选域。

检测扩展域的步骤可使用至少一个二元分类器检测在候选域之中的至少一个域和扩展域，其中，在候选域中，与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配。

确定最终域的步骤可从提取的第一表达元素和第二表达元素中的至少一个和检测出的候选域来理解用户的意图，以确定是否发生语境初始化，当确定还没有发生语境初始化时，基于先前域将在检测出的多个候选域之中的至少一个候选域确定为最终域，所述先前域是在接收到用户的发音信号之前从用户的先前发音确定的域。

确定最终域的步骤可包括：当在检测出的多个候选域之中的一个候选域与先前域彼此相应时，将先前域确定为最终域。

当确定检测出的候选域与先前域彼此不同或已发生了语境初始化时，确定最终域的步骤可将在与检测出的扩展域有关的至少一个候选域之中与代表用户动作的第一表达元素有关的候选域确定为最终域。

当检测出的候选域包括与代表用户动作的第一表达元素相应的主动作信息时，确定最终域的步骤可将检测出的全部候选域确定为最终域。

当检测出的候选域包括与代表用户动作的第一表达元素相应的主动作信息时，确定最终域的步骤可将由用户选择的候选域确定为最终域或任意选择在检测出的多个候选域之中的一个候选域作为最终域。

当存在多个先前域，所述多个先前域中的一个与所述多个候选域中的一个彼此相应并且该候选域包括与代表用户动作的第一表达元素相应的主动作信息时，确定最终域的步骤可在检测出的多个候选域之中将与先前域相应的候选域确定为最终域。

如前述，根据各种示例性实施例，对话型系统中的语音识别设备可考虑到关于用户的发音的各种情况确定适合用户的意图的域，并可基于确定的域来提供关于用户的发音的响应信息。

附图说明

通过参照附图描述特定示例性实施例，以上和/或其它方面将更清楚，其中：

图1是根据示例性实施例的对话型系统的示例性实施例；

图2是根据示例性实施例的语音识别设备的框图；

图3是根据示例性实施例的用于检测候选域的分层域模型的示图；

图4是示出根据示例性实施例的属于分层域模型的域中预先确定的主动作和每一个主动作的组件槽的示图；

图5是示出根据示例性实施例的属于分层域模型中的全部域中预先确定的主动作和每一个主动作的组件槽的示图；

图6是根据示例性实施例的域确定器中对属于分层域模型中的每一个分层的域分类的第一示图；

图7是根据示例性实施例的域确定器中对属于分层域模型中的每一个分层的域分类的第二示图；

图8是根据示例性实施例的用于在对话型系统的语音识别设备中响应于用户的发音提供响应信息的方法的流程图；

图9是根据示例性实施例的用于在语音识别设备中检测出的候选域之中确定最终域的方法的流程图。

具体实施方式

以下参照附图更详细地描述特定示例性实施例。

图1是根据示例性实施例的对话型系统的示图。

如图1中所示，对话型系统包括语音识别设备100和显示设备200。语音识别设备100通过显示设备200接收用户的发音信号（在下文中被称作“发音”），并确定接收到的用户的发音属于哪一个域。接下来，语音识别设备100可基于确定的域的对话模式来产生关于用户的发音的响应信息。然而，本公开不限于此，语音识别设备100和显示设备200可被实施为一个设备，并可收集用户的发音，确定收集的用户的发音属于哪一个域，并基于确定的域的对话模式来产生关于用户的发音的响应信息。

显示设备200可以是智能TV，但这仅为示例性实施例，因此显示设备可以被实施为各种电子装置（诸如，移动电话/智能电话、桌面PC、笔记本、导航系统等）。显示设备200将收集到的用户的发音发送到语音识别设备100。如上所提，语音识别设备100确定从显示设备200接收的用户的发音属于哪一个域，基于确定的从显示设备200接收的用户的发音属于的域的对话型模式来产生关于用户的发音的响应信息，并将产生的响应信息发送到显示设备200。因此，显示设备200可通过扬声器将从语音识别设备接收的响应信息输出或将所述响应信息显示在屏幕上。

例如，当从用户接收到发音“给我动作片！”，语音识别设备100分析接收到的发音并检测出关于发音的至少一个候选域。更具体地，语音识别设备100可从发音“给我动作片！”中提取代表用户动作“给我”的第一表达元素和代表对象“动作片”的第二表达元素。接下来，语音识别设备100可基于提取的第一表达元素和第二表达元素来确定用户的意图“search_program(genre)”，并基于预先确定的分层域模型来确定是否存在包括“search_program(genre)”的扩展域。在此，扩展域是预先确定为候选域的上位概念的虚拟域，其中候选域用于将扩展域确定为最终域。

当确定包括“search_program(genre)”的扩展域是视频内容时，语音识别设备100检测与“search_program(genre)”相应的扩展域的从属域。当属于视频内容扩展域的从属候选域是TV节目和VOD时，语音识别设备100可检测与TV节目和VOD相应的候选域。

当检测到这样的候选域时，语音识别设备100可基于根据先前对话内容预先确定的先前域和检测到的候选域将至少一个候选域确定为最终域。

例如，当根据先前对话内容预先确定的先前域和检测到的候选域是VOD时，语音识别设备100可将与VOD相应的候选域确定为最终域。当确定这样的最终域时，语音识别设备100将关于预先提取的第一表达元素和第二表达元素的信息以及关于预先确定的最终域的信息发送到外部设备（未示出）。外部设备（未示出）可在与VOD相应的预先确定的最终域内产生与用户的发音有关的响应信息，并将产生的响应信息发送到语音识别设备100。然后语音识别设备100可将从外部设备（未示出）接收的响应信息发送到显示设备200。然而，本公开不限于此，当与VOD相应的候选域被确定为最终域时，语音识别设备100可在确定的最终域内基于预先提取的第一表达元素和第二表达元素来产生关于用户的发音的响应信息，并将产生的响应信息发送到显示设备200。因此，然后显示设备200可通过扬声器将从语音识别设备100接收的响应信息输出或将所述响应信息显示在屏幕上。

以下是关于在根据本公开的对话型系统中提供关于用户的发音的响应信息的语音识别设备100的详细解释。

图2是根据示例性实施例的语音识别设备的框图。

如图2中所示，语音识别设备100包括通信器110、语音识别器120、提取器130、域确定器140、控制器150和存储单元160。

通信器110执行与显示设备200的数据通信，并接收由显示设备200收集的用户的发音。此外，通信器110可执行与外部设备（未示出）的通信，并可发送用于产生关于用户的发音的响应信息的关于确定的最终域的信息和关于从用户的发音提取的表达元素的信息。通信器110可包括各种通信模块（诸如，短距离无线通信模块（未示出）等）。在此，短距离无线通信模块是用于根据短距离无线通信方法（诸如，蓝牙，zigbee等）来执行与位于附近的外部装置的通信的模块。

除了以上内容，在通信器110中还可包括这样的移动通信模块：所述移动通信模块根据各种移动通信标准（诸如，3G（第三代）、3GPP(第三代合作伙伴项目)、LTE（长期演进）等）接入移动通信网络并执行通信。

此外，通信器110可通过互联网络与web服务器（未示出）执行通信，将各种搜索关键词发送到web服务器（未示出），并根据此接收web搜索结果。在此，搜索关键词可包括各种关键词（诸如，天气有关的关键词（例如，区域的名称、温度、降雨概率等）、内容有关的关键词（例如，电影片名、电影发行日期、曲名、歌手等））。各种关键词可被预存在存储单元160中。

语音识别器120识别通过通信器110从显示设备200接收的用户的发音，并将识别的发音转换为文本。根据示例性实施例，语音识别器120可使用语音转文本（STT）算法以将接收到的用户的发音转换为文本。当通过语音识别器120将用户的发音转换为文本时，提取器130从转换为文本的用户的发音中提取表达元素。更具体地，提取器130可基于预存在存储单元160中的语料表在从用户的发音转换的文本中提取表达元素。在此，表达元素是在用户的发音内用于执行用户请求的操作的关键词，并可被分类为代表用户动作的第一表达元素和代表主要特征的第二表达元素。例如，在用户的发音“给我动作片！”的情况下，提取器130可提取代表用户动作“给我！”的第一表达元素和代表对象“动作片”的第二表达元素。

当第一表达元素和第二表达元素被提取到时，域确定器140基于预先确定并存储在存储单元160中的分层域模型来检测与第一表达元素和第二表达元素有关的扩展域。接下来，域确定器140将与检测到的扩展域有关的至少一个候选域确定为最终域。在此，预先确定并存储在存储单元160中的分层域模型是分层地包括下位概念的候选域和预先确定为每一个候选域的上位概念的虚拟扩展域的域模型，在候选域中，与每一个发音中提取的第一表达元素相应的主动作和与第二表达元素相应的组件槽（component slot）彼此匹配。

因此，域确定器140可基于这样的分层域模型检测与第一表达元素和第二表达元素有关的扩展域，并当检测到这样的扩展域时，域确定器140可将与检测到的扩展域有关的至少一个候选域确定为最终域。

控制器150控制语音识别设备100的每一个配置的整体操作。主要地，控制器150可控制通信器110发送关于通过域确定器140确定的最终域中的预先提取的第一表达元素和第二表达元素的信息。因此，外部装置可在预先确定的最终域内产生与用户的发音有关的响应信息，并将产生的响应信息发送到语音识别设备100，控制器150可将从外部装置接收的响应信息通过通信器110发送到显示设备200。然而，本公开不限于此，控制器150可在由域确定器140确定的最终域内基于预先提取的第一表达元素和第二表达元素来自身产生关于用户的发音的响应信息，并将产生的响应信息发送到显示设备200。

预先确定并存储在存储单元160中的分层域模型可包括如图3中的分层结构。

图3是根据示例性实施例的用于检测候选域的分层域模型的示例性示图。

如图3中所示，用于检测候选域的分层域模型包括标准的显示用户的意图和可处理域之间关系的分层结构。分层域模型可包括具有树状的分层结构，包括：最高分层等级、中间分层等级和最低分层等级等。最高分层等级是与虚拟扩展域相应的主题节点，其中，虚拟扩展域被预先确定为与候选域相应的上位概念，候选域是产生关于用户的发音的响应信息的区域。中间分层等级是关于预先确定为上位概念的从属概念的虚拟扩展域的主题节点。此外，最低分层等级是与预先确定为中间概念的从属概念的候选域相应的主题节点。

例如，如图3中所示，在最低分层等级中，可预先确定每一个候选域（TV节目10、VOD20和TV装置30）。在这样的情况下，在中间分层等级，可预先确定：扩展域TV频道40和扩展域视频内容50，扩展域TV频道40是候选域TV节目10和TV装置30中的每一个的中间概念，扩展域视频内容50是候选域TV节目10和VOD20中的每一个的中间概念。

也就是说，在分层域模型的最低分层等级中，可预先确定用于确定用于产生关于用户的每一个发音的响应信息的区域的候选域，在中间分层等级中，可预先确定中间概念的扩展域，其中，中间概念的扩展域包括在预先确定为下位概念的候选域之中的至少两个候选域。此外，在最高分层等级中，可预先确定包括全部被预先确定为下位概念的候选域的上位概念的扩展域。如上所提，每一个分层预先确定的每一个域可被预先确定为用于确定每一个域的主动作，并且如图4中每一个主动作的每一个组件槽彼此匹配。

图4是示出根据示例性实施例的包括在分层域模型中的域中预先确定的主动作和每一个主动作的组件槽的示例性示图，图5是示出根据示例性实施例的包括在分层域模型中的所有模型中预先确定的主动作和每一个主动作的组件槽的示例性示图。

如图4中所示，例如，关于TV节目10的域可以是在如以上图3中所解释的最低分层等级中预先确定的候选域。关于TV节目10的候选域可包括与代表对象的第二表达元素相应的组件槽11。此外，关于TV节目10的候选域可包括用户动作脚本12，在用户动作脚本中，将与关于用户动作的第一表达元素相应的主动作和组件槽11彼此匹配。如附图所示，关于TV节目10的候选域可包括用户动作脚本12（诸如，“play_program(channel_name,channel_no,genre,time,title)”、"search_program(channel_name,channel_no,genre,time,title)"）。因此，包括在分层等级模型中的每一个分层中的每一个域可包括通过将不同的主动作和每一个主动作的组件槽组合而产生的用户动作脚本。

因此，域确定器140可基于这样的预先确定的分层域模型来检测包括用户动作脚本的至少一个候选域，在用户动作脚本中，将与提取器130中提取的第一表达元素和第二表达元素分别相应的主动作和组件槽彼此匹配。例如，参照图5，提取器130可从关于发音“给我（广播节目的名称）”的文本中提取第一表达元素“给我！”和第二表达元素“(广播节目的名称)”。

在这种情况下，域确定器140确定用户动作脚本是否存在于扩展域中，其中，用户动作脚本通过将与第一表达元素“给我！”相应的主动作和与第二表达元素“（广播节目的名称）”相应的组件槽结合而被产生。在前述示例中，与第一表达元素“给我！”相应的主动作可以是“play_program”，与第二表达元素“（广播节目的名称）”相应的组件槽可以是“title”。因此，与“给我（广播节目的名称）”相应的用户动作脚本可以是“play_program(title)”。因此，域确定器140确定在扩展域中是否包括用户动作脚本。当确定在中间分层的扩展域中包括关于“play_program(title)”的用户动作脚本时，域确定器140可检测出作为扩展域的域视频内容（50）域。

当没有检测出与在用户的发音中提取的第一表达元素和第二表达元素有关的扩展域时，域确定器140可检测与第一表达元素和第二表达元素有关的候选域。

例如，提取器130可从与发音“立刻为我找出空中动作片”相应的文本中提取第一表达元素“为我找出！”和第二表达元素“动作片”以及“立刻”。当提取到第一表达元素和第二表达元素时，域确定器140确定通过将与第一表达元素“为我找出！”相应的主动作和与第一表达元素相应的每一个第二表达元素“立刻”和“动作片”相应的组件槽组合而产生的用户动作脚本是否存在于扩展域中。在前述示例中，与第一表达元素相应的主动作可以是“search_program”，与每一个第二表达元素“立刻”和“动作片”分别相应的组件槽可以是“time”和“genre”。因此，与“立刻为我找出空中动作片”相应的用户动作脚本可以是“search_program(time,genre)”。

因此，域确定器140确定在扩展域中是否包括这样的用户动作脚本。当确定在扩展域中不包括关于“search_program(time,genre)”的用户动作脚本时，域确定器140可检测包括“search_program(time,genre)”、与用户动作脚本相应的、包括在属于最低等级的多个候选域中的候选域。当包括“search_program(time,genre)”的候选域是TV节目10时，域确定器140可检测出作为候选域的域TV节目10域。

当检测出候选域时，域确定器140可基于先前域确定是否将检测出的候选域确定为最终域。当基于与在用户发音中提取的第一表达元素和第二表达元素分别相应的主动作和组件槽而检测出扩展域时，如图6和图7，可通过将属于分层域模型中的每一个分层等级中的域分类来检测出扩展域。

图6是根据示例性实施例的域确定器中将属于分层域模型中的每一个分层等级中的域分类的第一示例性示图。

如图6中所示，域确定器140可包括多分类器141和扩展域解释器142。多分类器141识别属于分层域模型的每一个分层等级的用户的发音，并检测与从转换的文本中提取的第一表达元素和第二表达元素有关的至少一个候选域。此外，扩展域解释器142将从多分类器141中检测出的属于候选域的上位概念的域确定为扩展域。

如前述示例中，当从用户的发音“为我找出动作片！”中提取到第一表达元素“为我找出！”和第二表达元素“动作片”时，多分类器141可检测属于最低分层等级的候选域（TV节目10和VOD20），TV节目10和VOD20域包括通过将与第一表达元素相应的主动作和与第二表达元素相应的组件槽组合而产生的用户动作脚本。如上所提，当检测到候选域（TV节目10和VOD20）时，扩展域解释器142确定是否存在对于每一个候选域（TV节目10和VOD20）具有上位概念的扩展域。当确定每个候选域TV节目10和VOD20包括具有与域“视频内容50”共同的上位概念的分层时，扩展域解释器142可将域“视频内容50”确定为扩展域。

图7是根据另一示例性实施例的域确定器中将属于分层域模型中的每一个分层中的域分类的第二示例性示图。

如图7中所示，域确定器140可包括二元分类器143和域组合器144。可存在与属于分层域模型中的最低分层等级中的候选域一样多的二元分类器。也就是说，当属于分层域模型中的最低分层等级的候选域的数量是n时，域确定器140可包括二元分类器143-1～143-n。因此，与属于分层域模型中的最低分层等级的候选域相应的二元分类器143-1～143-n可检测出与在用户的发音中提取的第一表达元素和第二表达元素有关的候选域和与候选域相应的较高分层等级的域。因此，域组合器144可组合通过每一个二元分类器143-1～143-n检测的域，并确定候选域。

例如，当从用户的发音“为我找出动作片”中提取出第一表达元素“为我找出”和第二表达元素“动作片”时，仅与包括用户动作脚本的候选域TV节目10和VOD20相应的二元分类器143-2和143-3可检测出每一个分层等级中的域，其中，所述用户动作脚本通过将与第一表达元素“为我找出！”相应的主动作和与第二表达要素“动作片”相应的组件槽组合而被产生。

也就是说，可检查出包括用户动作脚本的关于最低分层等级的TV节目10的候选域、与具有包括上位概念的中间分层的TV频道40、视频频道50相应的扩展域以及与最高分层的根60相应的扩展域，其中，用户动作脚本通过将第一表达元素“为我找出！”相应的主动作和与第二表达元素相应的组合槽结合而被产生。此外，二元分类器143-3可检测出包括用户动作脚本的关于最低分层的VOD20的候选域、与包括上位概念的中间分层的视频频道50相应的扩展域和与最高分层的根60相应的扩展域，其中，用户动作脚本通过将与第一表达元素“为我找出！”相应的主动作和与第二表达元素相应的组合槽结合而被产生。如此，当通过二元分类器143-1、143-2…检测到每一个分层的域时，域组合器144可将检测到的域中的重复的域确定为扩展域。

因此，当检测到与在用户的发音中提取的第一表达元素和第二表达元素有关的扩展域时，域确定器140可基于先前确定的域（上文中称作域）检测出与预先检测的扩展域有关的所有从属概念的域，并将检测的的所有候选域中的至少一个候选域确定为最终域。

此外，域确定器140可从与从提取器130中提取的用户的发音相应的第一表达元素和第二表达元素中的至少一个和预先检测的候选域来理解用户的意图。例如，当从用户的发音“立刻为我找出空中动作片”中检测出第二表达元素“立刻”和“动作片”时，域确定器140可从与第二表达元素“立刻”和“动作片”相应的组件槽中理解用户的意图。

如此，当用户的意图被理解时，域确定器140从理解的用户意图中确定是否发生语境初始化。当确定没有发生语境初始化时，域确定器140可基于先前域将预先检测的多个候选域中的至少一个候选域确定为最终域，先前域是就在接收到用户的发音之前从用户的先前发音中确定的域。

更具体地，当预先检测的多个候选域中的至少一个候选域与预先存储在存储单元160中的先前域相应时，域确定器140可将先前域确定为最终域。在此，先前域是就在接收到用户的发音之前从用户的先前发音中确定的域。这样的先前域可以是TV节目10，当前检测到的候选域可以是TV节目10和VOD20。在这种情况下，域确定器140确定在与先前发音有关的类别内正在输入的当前用户的发音。因此，域确定器140没有将候选域确定为最终域，而是可维持作为先前域的TV节目10作为最终域。

然而，本公开不限于此，域确定器140可将预先检测的多个候选域中的与先前域相应的候选域确定为最终域。

当确定预先检测的多个候选域与先前域不同或发生语境初始化时，域确定器140在与预先检测的扩展域有关的至少一个候选域之中将与代表用户动作的第一表达元素有关的候选域确定为最终域。更具体地，域确定器140在检测出的多个候选域之中将包括与代表用户动作的第一表达元素相应的主动作信息的候选域确定为最终域。这里，当在检测出的多个候选域中包括与代表用户动作的第一表达元素相应的全部主动作信息时，域确定器140可将全部预先检测的域确定为最终域。

例如，当预先检测的扩展域是关于视频内容的扩展域时，针对关于视频内容的扩展域的候选域可以是关于TV节目和VOD的域。基于先前发音确定的先前域可以是TV节目和VOD。也就是说，在当前检测的候选域与先前域全部相应时，域确定器140可将与作为先前域的TV节目和VOD相应的域确定为最终域。当候选域是与TV节目和VOD相应的域并且先前域是与VOD相应的域时，域确定器可将作为先前域的VOD域确定为最终域。

候选域可以是与TV节目和VOD相应的域，先前域可以是与TV设备相应的域。也就是说，当检测到的候选域和先前域彼此不同时，域确定器140确定已经发生了域转变。因此，域确定器140可将包括与第一表达元素相应的主动作信息的候选域确定为最终域，其中，第一表达元素在从用户的发音中提取的第一表达元素和第二表达元素之中代表用户动作。

例如，当检测到的候选域是与TV节目和VOD有关的域，并且与从用户的发音中提取的第一表达元素相应的主动作信息是搜索内容“search_program”时，域确定器140确定检测到的候选域是否包括主动作信息。当在与TV节目和VOD相应的候选域中包括主动作信息“search_program”时，域确定器140可将全部预先检测的候选域（即，与TV节目和VOD有关的域）确定为最终域。

当预先检测的多个候选域包括与从用户的发音中提取的第一表达元素相应的主动作信息时，域确定器140可在检测到的多个候选域之中将由用户选择的候选域确定为最终域或任意选择在多个候选域之中的一个候选域并将选择的候选域确定为最终域。

例如，预先检测的候选域可以是与TV节目和VOD有关的域，并且与从用户的发音中提取的第一表达元素相应的主动作信息可以是特定内容“play_program”。在这种情况下，当选择与TV节目和VOD有关的域作为最终域时，关于用户的发音可产生不同的响应信息。也就是说，在与TV节目相应的候选域内响应于用户的发音产生的响应信息可以与在与VOD相应的候选域内响应于用户的发音产生的响应信息彼此不同。因此，域确定器140可将在TV节目和VOD之中用户选择的两个中的一个确定为最终域。

可存在多个先前域，并且在多个先前域之中的一个先前域可与在预先检测的多个候选域之中的一个候选域彼此相应。在这种情况下，域确定器140确定与先前域相应的候选域是否包括与第一表达元素相应的主动作信息。当确定与先前域相应的候选域包括与第一表达元素相应的主动作信息时，域确定器140可将与先前域相应的候选域确定为最终域。

当在预先检测的多个候选域之中的一个候选域被确定为最终域时，控制器150可通过通信器110将关于从用户的发音中提取的第一表达元素和第二表达元素的信息和关于预先确定的最终域的信息发送到外部设备（未示出）。因此，外部设备（未示出）在预先确定的最终域内产生与用户的发音有关的响应信息，并将产生的响应信息发送到语音识别设备100。因此，控制器150可将从外部设备接收的响应信息通过通信器110发送到显示设备200。然而，本公开不限于此，当通过域确定器140确定了最终域时，控制器150可在确定的最终域内基于预先提取的第一表达元素和第二表达元素来自身产生关于用户的发音的响应信息，并将产生的响应信息通过通信器110发送到显示设备200。

在此，响应信息包括与用户的发音相应的响应消息信息。因此，控制器150可从外部设备接收正在输出在显示设备200上、包括以文本格式的响应消息信息的响应信息，或在内部产生响应信息。当从外部设备接收了或内部产生了这样的响应信息时，控制器150通过通信器110将所述响应信息发送到显示设备200。因此，显示设备200可将包括在从语音识别设备100接收的响应信息中的响应消息信息以文本格式输出在屏幕上，或通过扬声器作为音频输出。

以上已经提供了关于根据示例性实施例的对话型系统中提供对于用户的发音的响应信息的语音识别设备100的每一个配置的详细解释。以下将提供关于根据示例性实施例的对话型语音识别设备100中提供与用户的发音相应的响应信息的方法的详细解释。

图8是根据示例性实施例的用于在对话型系统的语音识别设备中提供与用户的发音相应的响应信息的方法的流程图。

如图8中所示，语音识别设备100从显示设备200接收收集的用户的发音信号（在下文中被称作“发音”）。当从显示设备200接收到用户的发音时，接收的用户的发音被识别并被转换成文本（S810）。根据示例性实施例，语音识别设备100可使用STT（语音到电文）算法，并将接收到的用户的发音转换为文本。当用户的发音转换成文本时，语音识别设备100从转换成文本的用户的发音中提取代表用户动作的第一表达元素和代表对象的第二表达元素（S820）。例如，在用户的发音“为我找出动作片！”的情况下，语音识别设备100可提取代表用户动作“为我找到！”的第一表达元素和代表对象“动作片”的第二表达元素。

接下来，语音识别设备100基于预先确定并存储的分层域模型来检测与从用户的发音提取的第一表达元素和第二表达元素有关的扩展域（S830）。在此，分层域模式是分层地包括候选域和预先确定为每一个候选域的上位概念的虚拟扩展域的域模型，在候选域中，在每一个发音中提取的第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配。

分层域模型可包括树状分层结构，在其中包括最高分层等级、中间分层等级和最低分层等级。最高分层等级是关于预先确定为与候选域有关的上位概念的虚拟扩展域的主题节点，其中，候选域是产生关于用户的发音的响应信息的区域，中间分层等级是预先确定为上位概念的从属概念的主题节点。此外，最低分层等级是关于预先确定为中间概念的从属概念的候选域的主题节点。也就是说，属于分层域模型的最低分层等级的候选域被预先确定为与基本关键词相应的下位概念的候选域，属于中间分层等级的虚拟扩展域可被预先确定为在多个预先确定为下位概念的候选域之间包括两个或更多个候选域的中间概念的域。此外，属于最高分层等级的虚拟扩展域可被确定为包括全部预先确定为下位概念的候选域的上位概念的域。

如图4中所示，每一个分层等级预先确定的每一个域可被预先确定为用于确定每一个域的主动作和与主动作彼此匹配的组件槽。也就是说，每一个分层预先确定的每一个域可包括通过将与代表用户动作的第一表达元素相应的主动作和与代表对象的第二表达元素相应的组件槽组合而产生的用户动作脚本。如图4中所示，关于属于最低分层的TV节目10的候选域可包括用户动作脚本12（诸如，“play_program(channel_name,channel_no,genre,time,title)”、"search_program(channel_name,channel_no,genre,time,title)"）。因此，如图4中所示，每一个分层预先确定的每一个域（即，包括在分层域模型中的每一个分层的每一个域）可包括如图5中所示的通过将不同的主动作和每一个主动作的组件槽组合而产生的用户动作脚本。

因此，语音识别设备100可基于预先确定的分层域模型来检测包括用户动作脚本的至少一个候选域并从检测出的候选域中检测属于相应的候选域的上位概念的扩展域，其中，用户动作脚本通过将从用户的语音中提取的第一表达元素和第二表达元素分别相应的主动作和组件槽组合而被产生。

根据示例性实施例，语音识别设备100使用多分类器以在属于分层域模型的每一个分层中检测与从用户的发音提取的第一表达元素和第二表达元素有关的至少一个候选域。当如此检测到至少一个候选域时，语音识别设备100将属于检测出的候选域的上位概念的域确定为扩展域。例如，语音识别设备100可检测出包括作为用户动作脚本的“search_program(genre)”的候选域TV节目10和VOD20，其中，用户动作脚本通过将与来自用户的发音的第一表达元素“为我找出！”相应的主动作和与第二表达元素“动作片”相应的组件槽组合而被产生。如此，当检测出每一个候选域（TV节目10和VOD20）时，语音识别设备100确定是否存在与每一个检测到的候选域具有共同的上位概念的扩展域。当确定候选域TV节目10和VOD20的每一个包括具有域“视频内容（50）”的共同的上位概念的分层时，语音识别设备100可将域“视频内容（50）”确定为扩展域。

根据另一示例性实施例，语音识别设备100使用至少一个二元分类器以在与从用户的发音中提取的第一表达元素和第二表达元素有关的候选域之中检测至少一个域和扩展域。在此，二元分类器的数量可以与在属于分层域模型的最低分层域中候选域的数量一样多。也就是说，当在属于分层域模型的最低分层等级中存在数量n的候选域时，语音识别设备100使用数量n的二元分类器以检测与从用户的发音中提取的第一表达元素和第二表达元素有关的候选域和与相应的候选域有关的较高分层等级的扩展域。接下来，语音识别设备100可通过将经过每一个二元分类器检测出的域组合而确定候选域。例如，当从用户的发音中提取到第一表达元素“为我找出！”和第二表达元素“动作片”时，仅在与TV节目、VOD和TV装置相应的每一个二元分类器之中与包括用户动作脚本的候选域TV节目和VOD相应的二元分类器可检测出每一个分层的域，其中，用户动作脚本通过将与第一表达元素“为我找出！”相应的主动作和与第二表达元素“动作片”相应的动作槽组合而被产生。

也就是说，语音识别设备100可检测与包括通过将与第一表达元素“为我找出！”相应的主动作和与第二表达元素“动作片”相应的组件槽组合而产生的用户动作脚本的最低分层等级的TV节目10相应的候选域、与包含相应候选域的上位概念的中间分层等级中的TV频道和视频内容相应的扩展域以及与最高分层等级中的根相应的扩展域。此外，语音识别设备100可检测在包括通过将与第一表达元素“为我找出！”相应的主动作和与第二表达元素“动作片”相应的组件槽组合而产生的用户动作脚本的最低分层等级中关于VOD的候选域、在包括相应候选域的上位概念的中间分层等级中与视频频道相应的扩展域以及与最高分层等级的根相应的扩展域。如此，当通过与每一个候选域TV节目和VOD相应的二元分类器而检测出每一个分层的域时，语音识别设备100可在检测出的域之中将重复的域确定为扩展域。

当检测出与从用户的发音中提取的第一表达元素和第二表达元素有关的扩展域时，语音识别设备100可基于先前确定的域（在此以下称作先前域）检测出与预检测的候选域有关的全部从属概念的候选域，并检测多个检测出的候选域中的至少一个作为最终域（S840、S850）。接下来，语音识别设备100将关于确定的最终域的信息和关于从用户的发音提取的第一表达元素和第二表达元素的信息发送到外部设备（未示出）（S860）。因此，外部设备（未示出）可在预先确定的最终域内产生与用户的发音有关的响应信息并将产生的响应信息发送到语音识别设备100。然而，本公开不限于此，并且语音识别设备100可在预先确定的最终域内基于第一表达元素和第二表达元素来自身产生关于用户的发音的响应信息。在此，响应信息可包括与用户的发音相应的响应消息信息。因此，当从外部设备接收了或在内部产生了这样的响应信息时，语音识别设备100将相应的响应信息发送到显示设备200。因此，显示设备200可将包括在从语音识别设备100接收的响应信息中的响应消息信息以文本格式输出在屏幕上，或通过扬声器作为音频输出。

在此以下是用于在前述的语音识别设备100中在多个候选域之中将至少一个候选域确定为最终域的方法的详细解释。

图9是根据示例性实施例的用于将在语音识别设备中提取的候选域中的一个确定为最终域的方法的流程图。

如图9中所示，在操作语音识别设备100从在操作S820中提取的第一表达元素和第二表达元素和预先检测的候选域来理解用户的意图。如之前所提，当从用户的发音“立刻为我找出空中动作片”中检测出第二表达元素“立刻”和“动作片”时，语音识别设备100可从检测出的“立刻”和“动作片”相应的组件槽理解用户的意图。

当理解了用户的意图时，语音识别设备100基于理解的用户的意图来确定是否发生了语境初始化（S910）。当确定还没有发生语境初始化时，语音识别设备100基于先前域将在预先检测的多个候选域之中的一个候选域确定为最终域。更具体地，当在预先检测的多个候选域之中的一个候选域与预先存储的先前域相应时，语音识别设备100维持先前域作为最终域（S920、S930）。在此，先前域是就在接收到用户的发音之前从用户的先前发音确定的域。例如，当这样的先前域是TV节目，并且当前检测到的候选域是TV节目和VOD时，语音识别设备100确定在与先前发音有关的类别内用户的当前发音正在被输入。因此，语音识别设备100没有将预先检测的多个候选域确定为最终域，但可维持作为先前域的TV节目作为最终域。

当确定预先检测的多个候选域与先前域不同或已经发生了语境初始化时，语音识别设备100获得与代表用户意图的第一表达元素相应的主动作信息（S940）。接下来，语音识别设备100确定在预先检测的多个候选域中是否包括与第一表达元素相应的主动作信息（S950）。当确定在多个获选域中的至少一个候选域中包括与第一表达元素相应的主动作信息时，语音识别设备100将包括与第一表达元素相应的主动作信息的候选域确定为最终域（S960）。

可存在多个先前域，并且在多个先前域之中的一个先前域可与在预先检测的多个候选域之中的一个候选域彼此相应。在这种情况下，语音识别设备100确定与先前域相应的候选域是否包括与第一表达元素相应的主动作信息。当确定与先前域相应的候选域包括与第一表达元素相应的主动作信息时，语音识别设备100可将与先前域相应的候选域确定为最终域。

例如，当检测到的候选域是关于TV节目和VOD的域，并且与从用户的发音中提取的第一表达元素相应的主动作信息是搜索内容“search_program”时，语音识别设备100确定检测到的候选域是否包括主动作信息“search_program”。当关于TV节目和VOD的候选域包括主动作信息“search_program”时，语音识别设备100可将关于TV节目和VOD的候选域确定为最终域。

当确定全部预先检测的多个候选域不包括主动作信息时，语音识别设备100可在检测到的多个候选域之中将由用户选择的候选域确定为最终域（S970）,或任意选择在多个候选域之中的一个候选域并将选择的候选域确定为最终域。

例如，预先检测的候选域可以是与TV节目和VOD有关的域，并且与从用户的发音中提取的第一表达元素相应的主动作信息可以是“play_program”。在这种情况下，当选择关于TV节目和VOD的候选域作为最终域时，关于用户的发音可产生不同的响应信息。因此，语音识别设备100可在关于TV节目和VOD的候选域之中的由用户选择的一个候选域确定为最终域。

如此，当将在预先检测的多个候选域之中的至少一个候选域确定为最终域时，语音识别设备100可在预先确定的最终域内产生关于用户的发音的响应信息并将产生的响应信息输出。因此，显示设备200可通过显示从语音识别设备100接收的响应信息或通过将所述响应信息经过扬声器输出来确认关于自身的发音的响应信息。

根据各种示例性实施例的语音识别设备中提供关于用户的发音的响应信息的方法可作为程序代码被实施并可被设置在存储在非暂时性计算机可读介质中的每一个服务器或装置中。

非暂时性计算机可读介质是数据可被半永久性的存储在其中的计算机可读介质，而非在一段短时期内数据被存储在其中的介质（诸如，寄存器、缓存器、内存等）。更具体地，前述各种应用或程序可被存储在非暂时性计算机可读介质（诸如，CD、DVD、硬盘、蓝光碟、USB、内存卡、ROM等）中。

虽然已经示出并描述了一些示例性实施例，但本领域技术人员应该理解：在不脱离本发明的概念的原理和精神的情况下可在这些实施例中做出改变，其中，本发明的概念的范围由权利要求和它们的等同物限定。

Claims

1.一种对话型语音识别设备，包括：

语音识别器，被配置为将用户的发音信号转换为文本；

提取器，被配置为从转换的文本中提取代表用户动作的第一表达元素和代表对象的第二表达元素；

域确定器，被配置为：

在分层域模型中检测包括包含与第一表达元素相应的主动作信息和与第二表达元素相应的组件槽的用户动作脚本的扩展域，其中，分层域模型包括：下位概念的候选域和预先确定为候选域的上位概念的扩展域,

基于检测出所述扩展域，检测从属于所述扩展域的候选域，

基于没有检测出所述扩展域，在分层域模型中检测包括所述用户动作脚本的候选域，

将检测出的候选域中的至少一个候选域确定为最终域；

通信器，被配置为与外部设备执行通信；

控制器，被配置为控制通信器发送与第一表达元素和第二表达元素有关的信息和关于确定的最终域的信息。

2.根据权利要求1所述的对话型语音识别设备，其中，在下位概念的候选域中，与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配。

3.根据权利要求2所述的对话型语音识别设备，其中，域确定器被配置为基于检测出所述扩展域，使用多分类器以检测从属于所述扩展域的候选域，并且

域确定器被配置为基于没有检测出所述扩展域，检测与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配的候选域。

4.根据权利要求2所述的对话型语音识别设备，其中，域确定器被配置为使用至少一个二元分类器检测候选域之中的至少一个候选域和扩展域，其中，在候选域中，与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配。

5.根据权利要求3所述的对话型语音识别设备，其中，域确定器被配置为从提取的第一表达元素和第二表达元素中的至少一个和检测出的候选域来确定用户的意图，以确定是否发生语境初始化，当确定还没有发生语境初始化时，基于先前域将在检测出的候选域之中的至少一个候选域确定为最终域，所述先前域是在接收到用户的发音信号之前从用户的先前发音确定的域。

6.根据权利要求5所述的对话型语音识别设备，其中，域确定器被配置为响应于在检测出的候选域之中的一个候选域与先前域彼此相应，将先前域确定为最终域。

7.根据权利要求6所述的对话型语音识别设备，其中，域确定器被配置为响应于确定检测出的候选域与先前域彼此不同或已发生了语境初始化，将在与检测出的的候选域中的至少一个候选域之中与代表用户动作的第一表达元素有关的候选域确定为最终域。

8.根据权利要求7所述的对话型语音识别设备，其中，域确定器被配置为响应于检测出的候选域包括与代表用户动作的第一表达元素相应的主动作信息，将检测出的全部候选域确定为最终域。

9.根据权利要求8所述的对话型语音识别设备，其中，域确定器被配置为响应于检测出的候选域包括与代表用户动作的第一表达元素相应的主动作信息，将由用户选择的候选域确定为最终域或任意选择在检测出的候选域之中的一个候选域作为最终域。

10.根据权利要求9所述的对话型语音识别设备，其中，域确定器被配置为响应于存在多个先前域，所述多个先前域中的一个与检测出的候选域中的一个彼此相应并且该候选域包括与代表用户动作的第一表达元素相应的主动作信息，来将在检测出的候选域之中与先前域相应的候选域确定为最终域。

11.一种在对话型语音识别设备中提供与用户的发音相应的响应信息的方法，所述方法包括：

将用户的发音信号转换为文本；

从转换的文本中提取代表用户动作的第一表达元素和代表对象的第二表达元素；

在分层域模型中检测包括包含与第一表达元素相应的主动作信息和与第二表达元素相应的组件槽的用户动作脚本的扩展域中，其中，分层域模型包括：下位概念的候选域和预先确定为候选域的上位概念的扩展域,

基于检测出所述扩展域，检测从属于所述扩展域的候选域，

将检测出的候选域中的至少一个候选域确定为最终域；

将关于第一表达元素和第二表达元素的信息和关于确定的最终域的信息发送到外部设备。

12.根据权利要求11所述的方法，其中，在下位概念的候选域中，与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配。

13.根据权利要求12所述的方法，其中，基于检测出所述扩展域，检测从属于所述扩展域的候选域的步骤包括：基于检测出所述扩展域，使用多分类器以检测从属于所述扩展域的候选域，并且，

基于没有检测出所述扩展域，在分层域模型中检测包括所述用户动作脚本的候选域的步骤包括：使用多分类器以检测与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配的候选域。

14.根据权利要求12所述的方法，其中，检测扩展域的步骤包括：使用至少一个二元分类器检测候选域之中的至少一个候选域和扩展域，其中，在候选域中，与第一表达元素相应的主动作和与第二表达元素相应的组件槽彼此匹配。

15.根据权利要求13所述的方法，其中，确定最终域的步骤包括：从提取的第一表达元素和第二表达元素中的至少一个和检测出的候选域来确定用户的意图，以确定是否发生语境初始化，响应于确定还没有发生语境初始化，基于先前域将在检测出的候选域之中的至少一个候选域确定为最终域，所述先前域是在接收到用户的发音信号之前从用户的先前发音确定的域。