CN107146610B

CN107146610B - 一种用户意图的确定方法及装置

Info

Publication number: CN107146610B
Application number: CN201710229972.1A
Authority: CN
Inventors: 宋英双; 王雪; 夏海荣
Original assignee: Easy Star Technology Wuxi Co ltd
Current assignee: Easy Star Technology Wuxi Co., Ltd.
Priority date: 2017-04-10
Filing date: 2017-04-10
Publication date: 2021-06-15
Anticipated expiration: 2037-04-10
Also published as: CN107146610A

Abstract

本申请实施例提供了一种用户意图的确定方法及装置。所述方法包括：在获得语音识别结果后，按照预设规则，从语音识别结果中提取多段特征文字，其中，各段特征文字与预设的树形结构意图库中的各个级别一一对应；将第一级别对应的特征文字确定为当前级别的特征文字，将树形结构意图库中第一级别的所有意图确定为候选意图；将当前级别的特征文字与各个候选意图进行匹配，获得当前意图；将下一级别对应的特征文字更新为当前级别的特征文字，将当前意图对应的下一级别的所有意图更新为候选意图，重复执行匹配过程，当所有特征文字匹配完成时，将当前意图确定为用户意图。应用本申请实施例提供的方案，能够提高所确定的用户意图的准确性。

Description

一种用户意图的确定方法及装置

技术领域

本申请涉及智能信息处理技术领域，特别是涉及一种用户意图的确定方法及装置。

背景技术

目前，随着智能技术的不断发展，出现了很多智能设备，常见的有智能手机、机器人、智能音箱、智能电视等设备。

为了方便用户使用，很多智能设备设置了语音输入和语音输出的功能。这些智能设备可以根据用户输入的语音确定用户的意图，也就是理解用户语音的语义，以便为用户提供各种服务。

现有技术中，智能设备通常根据预设的意图库，确定用户语音对应的用户意图，进而为用户提供各种服务。具体的，智能设备对用户语音进行语音识别，获得语音识别结果，将该语音识别结果与意图库中的各个语句进行匹配，如果匹配成功，则将匹配成功的语句作为与用户语音对应的用户意图。其中，上述意图库中包括表示各种用户意图的语句和对应的应答结果，这些语句和应答结果通常是从问答网站上抓取的。

但是，由于用户输入的语音各种各样，千差万别，而现有的意图库中的用户意图的种类和数量都非常有限，所确定的用户意图准确性不高。例如，对用户语音的识别结果为“明天的雾霾会比今天的严重吗”，将该识别结果与意图库中的各个语句进行匹配，可能得到的最接近的匹配结果为“今天的雾霾是否严重”，进而根据该匹配结果获得今天的雾霾指数，将今天的雾霾指数提供给用户，而这个结果并不是用户需要的。因此，上述方法所确定的用户意图不够准确。

发明内容

本申请实施例的目的在于提供了一种用户意图的确定方法及装置，以提高所确定的用户意图的准确性。具体的技术方案如下。

为了达到上述目的，本申请公开了一种用户意图的确定方法，所述方法包括：

对用户输入的用户语音进行语音识别，获得语音识别结果；

按照预设规则，从所述语音识别结果中提取多段特征文字，其中，各段特征文字与预设的树形结构意图库中的各个级别一一对应；

将第一级别对应的特征文字确定为当前级别的特征文字，将所述树形结构意图库中第一级别的所有意图确定为候选意图；

将所述当前级别的特征文字与各个候选意图进行匹配，获得当前意图；

判断是否所有特征文字匹配完成；

如果是，则将当前意图确定为用户意图；

如果否，则将下一级别对应的特征文字更新为当前级别的特征文字，将所述树形结构意图库中当前意图对应的下一级别的所有意图更新为候选意图，返回执行所述将所述当前级别的特征文字与各个候选意图进行匹配，获得当前意图的步骤。

可选的，所述按照预设规则，从所述语音识别结果中提取多段特征文字的步骤，包括：

将所述语音识别结果输入预设的特征文字提取模型，其中，所述特征文字提取模型，用于对所述语音识别结果进行语义解析，获得与所述树形结构意图库中各个级别对应的特征文字；

获得所述特征文字提取模型输出的各个级别的多段特征文字。

可选的，所述将所述当前级别的特征文字与各个候选意图进行匹配，获得当前意图的步骤，包括：

确定所述当前级别的特征文字与各个候选意图之间的匹配度；

将所述匹配度大于预设匹配度阈值的候选意图确定为当前意图。

可选的，在获得语音识别结果之后，所述方法还包括：

判断所述语音识别结果是否为预设的操作指令；

如果是，则响应所述操作指令；

如果否，则执行所述按照预设规则，从所述语音识别结果中提取多段特征文字的步骤。

可选的，所述树形结构意图库还包括：每个意图对应的多个应答结果；在确定用户意图之后，所述方法还包括：

根据预设选取规则，从所述树形结构意图库中所述用户意图对应的各个应答结果中选取目标应答结果；

将所述目标应答结果确定为与所述用户语音对应的应答结果。

可选的，所述树形结构意图库还包括：各个应答结果对应的时间标签；

所述根据预设选取规则，从所述树形结构意图库中所述用户意图对应的各个应答结果中选取目标应答结果的步骤，包括：

确定与所述用户语音对应的时间标签；

从所述树形结构意图库中所述用户意图对应的各个应答结果中，将与所述时间标签对应的应答结果选取为目标应答结果。

可选的，所述确定与所述用户语音对应的时间标签的步骤，包括：

将所述语音识别结果中携带的时间信息，确定为与所述用户语音对应的时间标签；或者，

将所述用户语音的接收时刻确定为与所述用户语音对应的时间标签。

可选的，所述树形结构意图库还包括：各个应答结果对应的风格标签；

确定所述用户语音对应的用户的风格标签；

从所述树形结构意图库中所述用户意图对应的各个应答结果中，将与所述风格标签对应的应答结果选取为目标应答结果。

可选的，所述确定所述用户语音对应的用户的风格标签的步骤，包括：

根据保存的用户与设备交互的历史信息，确定所述用户语音对应的用户的风格标签。

可选的，在确定与所述用户语音对应的应答结果之后，所述方法还包括：

播放所述应答结果。

可选的，所述树形结构意图库还包括：与应答结果对应的推荐指令；在确定与所述用户语音对应的应答结果之后，所述方法还包括：

获得与所述用户语音的应答结果对应的推荐指令，获得与所述推荐指令对应的推荐资源，播放所述推荐资源。

为了达到上述目的，本申请公开了一种用户意图的确定装置，所述装置包括：

语音识别模块，用于对用户输入的用户语音进行语音识别，获得语音识别结果；

特征提取模块，用于按照预设规则，从所述语音识别结果中提取多段特征文字，其中，各段特征文字与预设的树形结构意图库中的各个级别一一对应；

信息确定模块，用于将第一级别对应的特征文字确定为当前级别的特征文字，将所述树形结构意图库中第一级别的所有意图确定为候选意图；

意图匹配模块，用于将所述当前级别的特征文字与各个候选意图进行匹配，获得当前意图；

匹配判断模块，用于判断是否所有特征文字匹配完成，；

意图确定模块，用于当所有特征文字匹配完成时，将当前意图确定为用户意图；

信息更新模块，用于当所有特征文字未匹配完成时，将下一级别对应的特征文字更新为当前级别的特征文字，将所述树形结构意图库中当前意图对应的下一级别的所有意图更新为候选意图，触发所述意图匹配模块。

可选的，所述特征提取模块，包括：

输入子模块，用于将所述语音识别结果输入预设的特征文字提取模型，其中，所述特征文字提取模型，用于对所述语音识别结果进行语义解析，获得与所述树形结构意图库中各个级别对应的特征文字；

获得子模块，用于获得所述特征文字提取模型输出的各个级别的多段特征文字。

可选的，所述意图匹配模块，包括：

匹配度确定子模块，用于确定所述当前级别的特征文字与各个候选意图之间的匹配度；

意图确定子模块，用于将所述匹配度大于预设匹配度阈值的候选意图确定为当前意图。

可选的，所述装置还包括：

第一判断模块，用于在获得语音识别结果之后，判断所述语音识别结果是否为预设的操作指令，如果否，则触发所述特征提取模块；

指令响应模块，用于当所述语音识别结果为预设的操作指令时，响应所述操作指令。

可选的，所述树形结构意图库还包括：每个意图对应的多个应答结果；所述装置还包括：

应答选取模块，用于在确定用户意图之后，根据预设选取规则，从所述树形结构意图库中所述用户意图对应的各个应答结果中选取目标应答结果；

应答确定模块，用于将所述目标应答结果确定为与所述用户语音对应的应答结果。

可选的，所述树形结构意图库还包括：各个应答结果对应的时间标签；所述应答选取模块，包括：

第一确定子模块，用于确定与所述用户语音对应的时间标签；

第一选取子模块，用于从所述树形结构意图库中所述用户意图对应的各个应答结果中，将与所述时间标签对应的应答结果选取为目标应答结果。

可选的，所述第一确定子模块，具体用于：将所述语音识别结果中携带的时间信息，确定为与所述用户语音对应的时间标签；或者，

所述第一确定子模块，具体用于：将所述用户语音的接收时刻确定为与所述用户语音对应的时间标签。

可选的，所述树形结构意图库还包括：各个应答结果对应的风格标签；所述应答选取模块，包括：

第二确定子模块，用于确定所述用户语音对应的用户的风格标签；

第二选取子模块，用于从所述树形结构意图库中所述用户意图对应的各个应答结果中，将与所述风格标签对应的应答结果选取为目标应答结果。

可选的，所述第二确定子模块，具体用于：

可选的，所述装置还包括：

应答播放模块，用于在确定与所述用户语音对应的应答结果之后，播放所述应答结果。

可选的，所述树形结构意图库还包括：与应答结果对应的推荐指令；所述装置还包括：

资源推荐模块，用于在确定与所述用户语音对应的应答结果之后，获得与所述用户语音的应答结果对应的推荐指令，获得与所述推荐指令对应的推荐资源，播放所述推荐资源。

本申请实施例提供的用户意图的确定方法及装置，可以按照预设规则，从获得的语音识别结果中提取多段特征文字，各段特征文字与预设的树形结构意图库中的各个级别一一对应，将第一级别对应的特征文字与树形结构意图库中第一级别的所有意图进行匹配，获得当前意图，再将第二级别对应的特征文字与树形结构意图库中当前意图对应的下一级别的所有意图进行匹配，按此循环逐级匹配，直至所有特征文字匹配完成，将最后获得的当前意图确定为用户意图。由于树形结构意图库中包含各个级别的意图，将各个级别的特征文字逐级匹配树形结构意图库中包含的各级意图，确定的用户意图准确性更高。因此应用本申请实施例提供的方案，能够提高所确定的用户意图的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的用户意图的确定方法的一种流程示意图；

图2为本申请实施例提供的树形结构意图库的一种结构示意图；

图3为本申请实施例提供的用户意图的确定方法的另一种流程示意图；

图4为本申请实施例中用户、智能设备和云端服务器交互的一种示意图；

图5为本申请实施例提供的用户意图的确定装置的一种结构示意图；

图6为本申请实施例提供的用户意图的确定装置的另一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供了一种用户意图的确定方法及装置，应用于智能设备，该智能设备可以包括智能手机、机器人、智能音箱、智能电视等设备。本申请实施例的方案能够提高所确定的用户意图的准确性。下面通过具体实施例，对本申请进行详细说明。

图1为本申请实施例提供的用户意图的确定方法的一种流程示意图，应用于智能设备，该方法包括如下步骤：

步骤S101：对用户输入的用户语音进行语音识别，获得语音识别结果。

具体的，用户输入的用户语音可以是采用以下方式获得的：智能设备接收语音信号，从语音信号中检测出用户语音。

在从语音信号中检测出用户语音时，可以将语音信号中目标方位的信号确定为用户语音。其中，目标方位为接收到唤醒指令的方向。

可以理解的是，智能设备在与用户进行语音交互时，首先需要判断是否接收到唤醒指令，如果接收到，则智能设备可以与用户进行其他的语音交互；如果没有接收到，则智能设备无法与用户进行其他的语音交互。其中，唤醒指令可以与预先设定的唤醒词对应，例如，当用户输入预设的唤醒词后，智能设备即接收到唤醒指令。其他的语音交互是指除唤醒时交互之外的语音交互。

对用户输入的用户语音进行语音识别时，可以采用讯飞语音、百度语音等软件进行识别。获得语音识别结果可以理解为获得语音识别结果的文字内容。

步骤S102：按照预设规则，从上述语音识别结果中提取多段特征文字。其中，各段特征文字与预设的树形结构意图库中的各个级别一一对应。

具体的，按照预设规则，从语音识别结果中提取多段特征文字的步骤，可以包括以下步骤1～步骤2：

步骤1：将该语音识别结果输入预设的特征文字提取模型。其中，特征文字提取模型，用于对所述语音识别结果进行语义解析，获得与树形结构意图库中各个级别对应的特征文字。

步骤2：获得特征文字提取模型输出的各个级别的多段特征文字。

具体的，本实施例可以是，树形结构意图库中的所有级别可以只对应一个总的特征文字提取模型。在输入时，将语音识别结果输入该总的特征文字提取模型，获得该总的特征文字提取模型输出的各个级别的多段特征文字。

也可以是，树形结构意图库中的每一个级别均可以对应一个特征文字提取模型。每一个级别的特征文字提取模型，用于对语音识别结果进行语义解析，获得与树形结构意图库中该级别对应的特征文字。在输入时，将该语音识别结果分别输入预设的各级特征文字提取模型，获得各个级别的特征文字提取模型输出的特征文字。

在训练特征文字提取模型时，可以根据预先获得的标注过的样本文本，对预设的模型进行训练，获得特征文字提取模型。其中，在对样本文本进行标注时，可以将样本文本中的每个级别的特征文字分别进行标注。例如，对于句子“你今天吃饭了吗”，各个级别的特征文字分别为：一级，吃饭；二级：吃饭了吗；三级，今天吃饭了吗；四级，你今天吃饭了吗。

具体的，在训练时，可以针对树形结构意图库的每个级别，根据预先获得的标注了该级别的特征文字的样本文本，训练该级别对应的特征文字提取模型。

本实施例中，树形结构意图库是各个级别的意图以树形结构展开的信息库，各个级别之间是递进的关系，级别越大，对应的意图越具体。第一级别的意图可以称为主意图或主题，除第一级别意图的其他级意图均可以称为子意图或子分类。

作为一个例子，图2为树形结构意图库的部分结构示意图。在该图中，第一级别的意图包括吃饭……学习、唱歌等。当第一级别的意图为吃饭时，第二级别的意图可以包括吃饭了、饭好吃、饭有营养、饭香等。在第三级别的意图中，“吃饭了”这个级别包括吃饭了吗、有没有吃饭、吃过饭了、不吃饭了等，“饭好吃”这个级别包括饭好吃吗、饭很好吃、饭不好吃等。在第四级别的意图中，以“吃饭了吗”这个意图为例进行说明，“吃饭了吗”可以包括你吃饭了吗、我吃饭了吗、他吃饭了吗、XX吃饭了吗等。以上只是举例说明了该树形结构意图库中的部分内容，并没有列举所有的内容。

步骤S103：将第一级别对应的特征文字确定为当前级别的特征文字，将所述树形结构意图库中第一级别的所有意图确定为候选意图。

在匹配时，从第一级别的特征文字与树形结构意图库中第一级别的所有意图的匹配开始执行，然后将第二级别的特征文字与树形结构意图库中匹配成功的第二级别的所有意图进行匹配，将第三级别的特征文字与树形结构意图库中匹配成功的第三级别的所有意图进行匹配，依此规律逐级执行匹配过程，直至所有级别的特征文字匹配完成。

步骤S104：将当前级别的特征文字与各个候选意图进行匹配，获得当前意图。

获得当前意图时，可以直接将匹配成功的候选意图作为当前意图。可以理解的是，当前意图为本次匹配成功的候选意图以及在本次匹配之前所有匹配成功的各级别意图共同构成的意图。

例如，一种匹配过程包含的各个匹配成功的意图按照级别关系形成的链条为：吃饭-吃饭了吗-你吃饭了吗。匹配得到的当前意图“你吃饭了吗”为在本次匹配之前所有匹配成功的各个意图共同构成的。

步骤S105：判断是否所有特征文字匹配完成，如果是，则执行步骤S106；如果否，则执行步骤S107。

步骤S106：将当前意图确定为用户意图。

可以理解的是，当所有特征文字均匹配完成时，当前意图即构成了最终确定的用户意图。

步骤S107：将下一级别对应的特征文字更新为当前级别的特征文字，将所述树形结构意图库中当前意图对应的下一级别的所有意图更新为候选意图，返回执行步骤S104。

由上述内容可知，本实施例提供的用户意图的确定方法及装置，可以按照预设规则，从获得的语音识别结果中提取多段特征文字，各段特征文字与预设的树形结构意图库中的各个级别一一对应，将第一级别对应的特征文字与树形结构意图库中第一级别的所有意图进行匹配，获得当前意图，再将第二级别对应的特征文字与树形结构意图库中当前意图对应的下一级别的所有意图进行匹配，按此循环逐级匹配，直至所有特征文字匹配完成，将最后获得的当前意图确定为用户意图。由于树形结构意图库中包含各个级别的意图，将各个级别的特征文字逐级匹配树形结构意图库中包含的各级意图，确定的用户意图准确性更高。因此应用本实施例提供的方案，能够提高所确定的用户意图的准确性。

在图1所示实施例的一种实施方式中，步骤S104，即将当前级别的特征文字与各个候选意图进行匹配，获得当前意图的步骤，具体可以包括以下步骤1～步骤2：

步骤1：确定当前级别的特征文字与各个候选意图之间的匹配度。

具体的，可以根据贝叶斯模型或者支持向量机，确定当前级别的特征文字与各个候选意图之间的匹配度。

步骤2：将匹配度大于预设匹配度阈值的候选意图确定为当前意图。

其中，匹配度可以为0～1之间的数值，当匹配度为1时，认为当前级别的特征文字与某个候选意图之间达到了精确匹配。当匹配度小于1且大于某一阈值时，认为当前级别的特征文字与某个候选意图之间为模糊匹配，匹配度越接近1，模糊匹配的过程越高。例如，你今天累了吗与你今天累吗之间的匹配度很高并且超过了某一阈值，可以认为二者之间为模糊匹配。

当匹配结果中存在匹配度为1的精确匹配结果时，可以直接将该匹配结果对应的候选意图确定为当前意图。当匹配结果中不存在匹配度为1的精确匹配结果时，可以从模糊匹配结果中选出匹配度大于阈值的候选意图作为当前意图。

另外，由于智能设备与用户的交互模式(或者领域)可以包括：唤醒、点播、查询、聊天等模式。而在唤醒、点播、查询等模式下，用户语音的变化性不大，相对来说更容易确定语音识别结果的用户意图。而对于聊天模式这样的用户语音变化非常大的模式，使用本实施例中确定用户意图的方法时，确定的用户意图更准确。

因此，在图1所示实施例的另一实施方式中，在步骤S101之后，即在获得语音识别结果之后，该方法还可以包括步骤1～步骤2：

步骤1：判断所述语音识别结果是否为预设的操作指令，如果是，则执行步骤2，如果否，则执行步骤S102，即按照预设规则，从语音识别结果中提取多段特征文字。

其中，预设的操作指令可以为唤醒后的回应指令、点播指令、信息查询指令等。举例来说，当语音识别结果为“小雅小雅”时(小雅小雅为唤醒词)，对应的操作指令为唤醒后的回应指令；当语音识别结果为“请为我播放一首《忘情水》”时，对应的操作指令为点播指令；当语音识别结果为“今天天气怎么样”或者“明天下午有会议吗”时，对应的操作指令为信息查询指令。需要说明的是，上述举例只是部分预设的操作指令，并不是全部，本领域技术人员还可以据此获得更多类型的操作指令。本申请对操作指令的具体内容不做限定。

当语音识别结果不是任何一个预设的操作指令时，该语音识别结果可以为聊天指令等指令。例如，当语音识别结果为“你今天吃饭了吗”时，对应的操作指令为聊天指令。

具体的，判断语音识别结果是否为预设的操作指令时，可以包括：判断语音识别结果中是否包含与预设的操作指令对应的关键特征，如果是，则确定语音识别结果为预设的操作指令。其中，该关键特征可以包括关键词和/或关键词的结构和/或关键词与待判断句子的关系。

关键词的结构类型可以包括：主谓短语、并列短语、偏正短语、动宾短语、后补短语、介宾短语、的字短语、复指短语、固定短语等。其中，主谓短语为后面的词陈述前面的词，前后有被陈述和陈述关系。并列短语为词与词之间有并列关系。偏正短语为前面的词修饰、限制后面的名词、动词或形容词。动宾短语为前面的动词支配或关涉后面的词。后补短语为后面的词补充说明前面的动词或形容词。介宾短语由介词和名词或代词等结合构成。的字短语由名词、动词、形容词或代词等带上结构助词“的”构成。复指短语为两个或几个词同指一个对象。固定短语为结构固定的专有名词或成语。

例如，唤醒后的回应指令对应的关键词可以包括唤醒词；点播指令对应的关键词可以包括播放、点播、听、放、来及这些词之后的宾语成分，关键词的结构为动宾短语结构；信息查询指令可以包括：主语成分包含PM2.5指数、温度、湿度、会议，谓语成为包括是多少、多少、几点、有没有等，所组成的短语，关键词的结构为主谓短语结构。

具体的，判断语音识别结果是否为预设的操作指令时，也可以包括：将语音识别结果输入预设的操作指令判断模型，获得该操作指令判断模型输出的是否为预设的操作指令的结果。其中，操作指令判断模型，用于对语音识别结果进行语义解析，确定语音识别结果是否包含该操作指令判断模型训练完成时获得的关键特征，如果是，则输出语音识别结果是预设的操作指令，如果否，则输出语音识别结果不是预设的操作指令。

在训练操作指令判断模型时，可以根据预先获得的已标注过关键特征的样本文本，对机器学习模型进行训练。

步骤2：响应该操作指令。具体的，响应该操作指令可以包括：确定该该操作指令对应的响应内容，播放该响应内容。

由于上述操作指令可以为多种类型的指令，例如唤醒后的回应指令、点播指令、信息查询指令等。对应的，针对该操作指令的响应内容也可以包括多种类型，例如唤醒后的回应类、点播回复类、信息反馈类等。

举例来说，当语音识别结果为“小雅小雅”时(小雅小雅为唤醒词)，对应的操作指令为唤醒后的回应指令，这时响应内容可以为“哎”或“我在”“here(这儿)”等；当语音识别结果为“请为我播放一首《忘情水》”时，对应的操作指令为点播指令，这时响应内容可以为“为您播放《忘情水》”语音提示以及歌曲资源；当目标用户语音为“今天天气怎么样”或者“明天下午有会议吗”时，对应的操作指令为信息查询指令，这时响应内容可以分别为“今天天气晴朗，微风”和“明天下午没有会议”。需要说明的是，上述举例只是部分操作指令，并不是全部，本领域技术人员还可以据此获得更多类型的操作指令。本申请对操作指令的具体内容不做限定。

在图1所示实施例的基础上，可以得到图3所示另一实施例。在本实施例中，树形结构意图库还包括：每个意图对应的多个应答结果。在确定用户意图之后，该方法还可以包括以下步骤S108和步骤S109：

步骤S108：根据预设选取规则，从树形结构意图库中该用户意图对应的各个应答结果中选取目标应答结果。

其中，预设的选取规则可以是随机选取，也可以根据用户的特征进行选取。

需要指出的是，由于每个意图对应多个应答结果，可以在用户每次问同一个问题时，智能设备每次的回答都不一样，从而让用户感觉很新鲜，提高用户体验。

步骤S109：将目标应答结果确定为与用户语音对应的应答结果。

需要说明的是，可以针对树形结构意图库包含的每个意图预先设置好对应的应答结果。作为一种实施方式，对于第一级别的意图或其他不能体现完整意图的级别的意图，可以对应设置预设的反问应答结果。例如，在图2中，假设确定的用户意图为“吃饭了”，这时不能明确用户问的到底是“吃饭了没有”还是“不吃饭了”，此时可以向用户反问“你是问我吃饭了没有，还是告诉我不吃饭了”，以引导用户进一步输入能够体现完整意图的用户语音。

在确定与用户语音对应的应答结果之后，还可以包括：播放该应答结果。

在本实施例中，在确定用户意图之后，可以从针对用户意图的应答结构选取应答结果，由于意图与应答结果是预先一一对应好的，因此这样确定的应答结果的准确性更高，能够使用户与设备之间的交互流畅性更好，用户也会觉得该设备能更准确地理解用户的真实意图，用户体验更好。

在图3所示实施例的一种实施方式中，树形结构意图库还可以包括：各个应答结果对应的时间标签。具体的，步骤S108，根据预设选取规则，从树形结构意图库中该用户意图对应的各个应答结果中选取目标应答结果的步骤，可以包括以下步骤1～步骤2：

步骤1：确定与上述用户语音对应的时间标签。

具体的，确定与上述用户语音对应的时间标签时，可以包括以下几种实施方式：

方式一，将语音识别结果中携带的时间信息，确定为与用户语音对应的时间标签。

当语音识别结果携带了时间信息例如今天、明天、几点钟等时，可以采用本实施方式。

方式二，将用户语音的接收时刻确定为与所述用户语音对应的时间标签。

当语音识别结果没有携带时间信息时，可以采用本实施方式确定用户语音的时间标签。

步骤2：从树形结构意图库中该用户意图对应的各个应答结果中，将与上述时间标签对应的应答结果选取为目标应答结果。

本实施例中，在选取目标应答结果时，可以根据时间标签进行选择，采用这种方式选择的应答结果准确性更高。

在图3所示实施例的一种实施方式中，所述树形结构意图库还包括：各个应答结果对应的风格标签。具体的，步骤S108，即根据预设选取规则，从树形结构意图库中上述用户意图对应的各个应答结果中选取目标应答结果的步骤，可以包括以下步骤1～步骤2：

步骤1：确定用户语音对应的用户的风格标签。

其中，用户的风格标签可以包括温暖风、文艺风、摇滚风、搞笑风等。

具体的，确定用户语音对应的用户的风格标签时，可以包括：根据保存的用户与设备交互的历史信息，确定所述用户语音对应的用户的风格标签。

其中，历史交互信息可以包括用户点播过的歌曲以及歌曲标签、用户查询过的信息以及信息种类标签，用户说过的话等。

步骤2：从所述树形结构意图库中所述用户意图对应的各个应答结果中，将与所述风格标签对应的应答结果选取为目标应答结果。

本实施例中，在选取目标应答结果时，可以根据风格标签进行选择，采用这种方式选择的应答结果更能贴近用户的喜好，用户体验更好。

在图3所示实施例的一种实施方式中，树形结构意图库还可以包括：与应答结果对应的推荐资源。在确定与用户语音对应的应答结果之后，该方法还可以包括：获得与用户语音的应答结果对应的推荐指令，获得与该推荐指令对应的推荐资源，播放该推荐资源。

其中，与应答结果对应的推荐指令可以是与该应答结果内容相关的推荐指令。

例如，用户语音为“我还没吃饭”，对应的应答结果为“这么晚了你还没吃饭呀”，对应的推荐指令可以为推荐餐厅，获得附近的餐厅信息，将获得的餐厅信息播放给用户。用户语音为“今天心情不太晴朗”，对应的应答结果为“怎么了？是朋友今天没有约你吗”，对应的推荐指令可以为推荐游玩地点或播放歌曲，将获得的游玩地点和推荐的歌曲播放给用户，并播放提示“别不高兴了，去xx地方玩一下吧”，或“别不开心了，听一首xx歌曲放松一下吧”，或“别不开心了，听一听小雅为你播放的xx节目吧”。

在获得与该推荐指令对应的推荐资源时，还可以根据用户的风格标签进行选择，这样可以使推荐的信息更有针对性，用户更喜欢，用户体验度更高。

在本实施例中，确定与用户语音对应的应答结果之后，还可以向用户推荐相关的资源，而不仅仅是回应一句话，这样能为用户做更多的事情，提高用户体验。

另外，由于智能设备的性能限制，上述用户意图的确定过程具体可以是在与智能设备通信相连的云端服务器上执行的。也就是说，在这种实施方式中，智能设备在获得语音识别结果之后，将语音识别结果发送至云端服务器，云端服务器执行步骤S102～步骤S107的过程，并将确定的用户意图发送至智能设备。或者，云端服务器也可以将应答结果发送至智能设备，智能设备播放该应答结果。另外，智能设备也可以将语音识别的过程通过云端服务器来实现。由于云端服务器可以具有更强的处理能力，因此本实施例的方案可以在智能设备性能受限时提高用户意图确定过程的效率，同时无需提高智能设备的性能。

作为一个例子，图4为用户、智能设备和云端服务器之间交互的流程示意图。其中，智能设备获得用户语音，并将用户语音发送至云端服务器，云端服务器将应答结果发送至智能设备，智能设备播放应答结果。

图5为本申请实施例提供的用户意图的确定装置的一种结构示意图，与图1所示方法实施例相对应，应用于智能设备。所述装置包括：

语音识别模块501，用于对用户输入的用户语音进行语音识别，获得语音识别结果；

特征提取模块502，用于按照预设规则，从所述语音识别结果中提取多段特征文字，其中，各段特征文字与预设的树形结构意图库中的各个级别一一对应；

信息确定模块503，用于将第一级别对应的特征文字确定为当前级别的特征文字，将所述树形结构意图库中第一级别的所有意图确定为候选意图；

意图匹配模块504，用于将所述当前级别的特征文字与各个候选意图进行匹配，获得当前意图；

匹配判断模块505，用于判断是否所有特征文字匹配完成，；

意图确定模块506，用于当所有特征文字匹配完成时，将当前意图确定为用户意图；

信息更新模块507，用于当所有特征文字未匹配完成时，将下一级别对应的特征文字更新为当前级别的特征文字，将所述树形结构意图库中当前意图对应的下一级别的所有意图更新为候选意图，触发所述意图匹配模块504。

在图5所示实施例的一种实施方式中，所述特征提取模块502可以包括：

输入子模块(图中未示出)，用于将所述语音识别结果输入预设的特征文字提取模型，其中，所述特征文字提取模型，用于对所述语音识别结果进行语义解析，获得与所述树形结构意图库中各个级别对应的特征文字；

获得子模块(图中未示出)，用于获得所述特征文字提取模型输出的各个级别的多段特征文字。

在图5所示实施例的一种实施方式中，所述意图匹配模块504可以包括：

匹配度确定子模块(图中未示出)，用于确定所述当前级别的特征文字与各个候选意图之间的匹配度；

意图确定子模块(图中未示出)，用于将所述匹配度大于预设匹配度阈值的候选意图确定为当前意图。

在图5所示实施例的一种实施方式中，所述装置还可以包括：

第一判断模块(图中未示出)，用于在获得语音识别结果之后，判断所述语音识别结果是否为预设的操作指令，如果否，则触发所述特征提取模块；

指令响应模块(图中未示出)，用于当所述语音识别结果为预设的操作指令时，响应所述操作指令。

在图5所示实施例的基础上，还可以得到图6所示实施例，该实施例与图3所示方法实施例相对应。在本实施例中，所述树形结构意图库还包括：每个意图对应的多个应答结果；所述装置还包括：

应答选取模块508，用于在确定用户意图之后，根据预设选取规则，从所述树形结构意图库中所述用户意图对应的各个应答结果中选取目标应答结果；

应答确定模块509，用于将所述目标应答结果确定为与所述用户语音对应的应答结果。

在图6所示实施例的一种实施方式中，所述树形结构意图库还包括：各个应答结果对应的时间标签；所述应答选取模块508可以包括：

第一确定子模块(图中未示出)，用于确定与所述用户语音对应的时间标签；

第一选取子模块(图中未示出)，用于从所述树形结构意图库中所述用户意图对应的各个应答结果中，将与所述时间标签对应的应答结果选取为目标应答结果。

在图6所示实施例的一种实施方式中，所述第一确定子模块，具体可以用于：将所述语音识别结果中携带的时间信息，确定为与所述用户语音对应的时间标签；或者，

所述第一确定子模块，具体可以用于：将所述用户语音的接收时刻确定为与所述用户语音对应的时间标签。

在图6所示实施例的一种实施方式中，所述树形结构意图库还可以包括：各个应答结果对应的风格标签；所述应答选取模块508可以包括：

第二确定子模块(图中未示出)，用于确定所述用户语音对应的用户的风格标签；

第二选取子模块(图中未示出)，用于从所述树形结构意图库中所述用户意图对应的各个应答结果中，将与所述风格标签对应的应答结果选取为目标应答结果。

在图6所示实施例的一种实施方式中，所述第二确定子模块具体可以用于：

在图6所示实施例的一种实施方式中，所述装置还可以包括：应答播放模块，用于在确定与所述用户语音对应的应答结果之后，播放所述应答结果。

在图6所示实施例的一种实施方式中，所述树形结构意图库还可以包括：与应答结果对应的推荐指令；所述装置还可以包括：

资源推荐模块(图中未示出)，用于在确定与所述用户语音对应的应答结果之后，获得与所述用户语音的应答结果对应的推荐指令，获得与所述推荐指令对应的推荐资源，播放所述推荐资源。

由于上述装置实施例是基于方法实施例得到的，与该方法具有相同的技术效果，因此装置实施例的技术效果在此不再赘述。对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种用户意图的确定方法，其特征在于，所述方法包括：

对用户输入的用户语音进行语音识别，获得语音识别结果；

按照预设规则，从所述语音识别结果中提取多段特征文字，其中，各段特征文字与预设的树形结构意图库中的各个级别一一对应，所述树形结构意图库是各个级别的意图以树形结构展开的信息库，各个级别之间是递进的关系，级别越大，对应的意图越具体；

判断是否所有特征文字匹配完成；

如果是，则将当前意图确定为用户意图；

2.根据权利要求1所述的方法，其特征在于，所述按照预设规则，从所述语音识别结果中提取多段特征文字的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述当前级别的特征文字与各个候选意图进行匹配，获得当前意图的步骤，包括：

4.根据权利要求1所述的方法，其特征在于，在获得语音识别结果之后，所述方法还包括：

判断所述语音识别结果是否为预设的操作指令；

如果是，则响应所述操作指令；

5.根据权利要求1所述的方法，其特征在于，所述树形结构意图库还包括：每个意图对应的多个应答结果；在确定用户意图之后，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述树形结构意图库还包括：各个应答结果对应的时间标签；

确定与所述用户语音对应的时间标签；

7.根据权利要求6所述的方法，其特征在于，所述确定与所述用户语音对应的时间标签的步骤，包括：

8.根据权利要求5所述的方法，其特征在于，所述树形结构意图库还包括：各个应答结果对应的风格标签；

确定所述用户语音对应的用户的风格标签；

9.根据权利要求8所述的方法，其特征在于，所述确定所述用户语音对应的用户的风格标签的步骤，包括：

10.根据权利要求5～9任一项所述的方法，其特征在于，在确定与所述用户语音对应的应答结果之后，所述方法还包括：

播放所述应答结果。

11.根据权利要求5～9任一项所述的方法，其特征在于，所述树形结构意图库还包括：与应答结果对应的推荐指令；在确定与所述用户语音对应的应答结果之后，所述方法还包括：

12.一种用户意图的确定装置，其特征在于，所述装置包括：

特征提取模块，用于按照预设规则，从所述语音识别结果中提取多段特征文字，其中，各段特征文字与预设的树形结构意图库中的各个级别一一对应，所述树形结构意图库是各个级别的意图以树形结构展开的信息库，各个级别之间是递进的关系，级别越大，对应的意图越具体；

匹配判断模块，用于判断是否所有特征文字匹配完成；

13.根据权利要求12所述的装置，其特征在于，所述特征提取模块，包括：

14.根据权利要求12所述的装置，其特征在于，所述意图匹配模块，包括：

15.根据权利要求12所述的装置，其特征在于，所述装置还包括：

16.根据权利要求12所述的装置，其特征在于，所述树形结构意图库还包括：每个意图对应的多个应答结果；所述装置还包括：

17.根据权利要求16所述的装置，其特征在于，所述树形结构意图库还包括：各个应答结果对应的时间标签；所述应答选取模块，包括：

18.根据权利要求17所述的装置，其特征在于，所述第一确定子模块，具体用于：将所述语音识别结果中携带的时间信息，确定为与所述用户语音对应的时间标签；或者，

19.根据权利要求16所述的装置，其特征在于，所述树形结构意图库还包括：各个应答结果对应的风格标签；所述应答选取模块，包括：

20.根据权利要求19所述的装置，其特征在于，所述第二确定子模块，具体用于：

21.根据权利要求16～20任一项所述的装置，其特征在于，所述装置还包括：

22.根据权利要求16～20任一项所述的装置，其特征在于，所述树形结构意图库还包括：与应答结果对应的推荐指令；所述装置还包括：