CN115148212A

CN115148212A - 一种语音交互方法、智能设备及系统

Info

Publication number: CN115148212A
Application number: CN202210744071.7A
Authority: CN
Inventors: 胡帆; 雷将
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-10-04

Abstract

本申请实施例提供一种语音交互方法、智能设备及系统，方法包括：获取用户输入的语音请求语句，对语音请求语句进行语义分析处理，得到语义识别信息，其中，语义识别信息包括业务类型信息、用户意图信息以及用户槽位信息。在与业务类型信息对应业务类型的流程数据库中查找预设流程；在查找到对应预设流程时，将用户槽位信息填充至预设流程；执行填充用户槽位信息后的预设流程。本申请提供的语音交互方法是基于事先配置的预设流程，一方面在语音新业务和技能的开发过程中，不需要依赖编写业务代码，从而能够缩短整体开发周期。另一方面，利用预设流程，用户也可以较容易的开发新的语音业务，不需要开发介入其中，从而节省人力成本和时间成本。

Description

一种语音交互方法、智能设备及系统

技术领域

本申请涉及语音交互技术领域，尤其涉及一种语音交互方法、智能设备及系统。

背景技术

随着智能语音交互技术的发展，语音交互功能逐渐成为智能终端产品的标准配置。用户可利用语音交互功能，实现语音控制智能终端产品，进行看视频、听音乐、查天气、电视控制等一系列操作。

语音控制智能终端产品的过程具体为，语音识别模块将用户输入的语音识别为文本。之后语义分析模块对该文本进行词法句法和语义的分析，从而理解用户的意图。最后控制端根据理解结果控制智能终端产品进行相应的操作。

语音新业务和技能的开发都依赖编写业务代码，整体开发周期比较长，同时需要开发介入其中，人力成本和时间成本都非常高。

发明内容

本申请提供了一种语音交互方法、智能设备及系统，用于解决语音新业务和技能的开发都依赖编写业务代码，整体开发周期比较长，同时需要开发介入其中，人力成本和时间成本都非常高的问题。

第一方面，本申请实施例提供一种语音交互方法方法，该方法包括：获取用户输入的语音请求语句；

对所述语音请求语句进行语义分析处理，得到语义识别信息，其中，所述语义识别信息包括业务类型信息、用户意图信息以及用户槽位信息；

在与所述业务类型信息对应业务类型的流程数据库中查找预设流程，其中，所述预设流程的预设意图信息对应于所述用户意图信息，在所述流程数据库中，所述预设流程与所述预设意图信息具备映射关系；

在查找到对应所述预设流程时，将所述用户槽位信息填充至所述预设流程；

执行填充所述用户槽位信息后的所述预设流程。

第二方面，本申请实施例提供一种语音交互系统，包括：

人机交互界面，被配置为接收用户语音请求语句；

语音识别引擎，被配置为对所述语音请求语句进行语义分析处理，得到语义识别信息，其中，所述语义识别信息包括业务类型信息、用户意图信息以及用户槽位信息；

流程数据库，被配置为存储预设意图信息，预设流程，以及所述预设意图信息和所述预设流程的映射关系；

流程配置引擎，被配置为在与所述业务类型信息对应业务类型的流程数据库中查找预设流程，所述预设流程的所述预设意图信息对应于所述用户意图信息，在查找到对应所述预设流程时，将所述用户槽位信息填充至所述预设流程；

流程执行引擎，被配置为执行填充所述用户槽位信息后的所述预设流程。

第三方面，本申请实施例提供一种用于语音交互的智能设备，该智能设备包括：

用户输入单元，被配置为获取用户输入的语音请求语句；

语义分析处理单元，被配置为对所述语音请求语句进行语义分析处理，得到语义识别信息，其中，所述语义识别信息包括业务类型信息、用户意图信息以及用户槽位信息；

流程查找单元，被配置为在与所述业务类型信息对应业务类型的流程数据库中查找预设流程，其中，所述预设流程的预设意图信息对应于所述用户意图信息，在所述流程数据库中，所述预设流程与所述预设意图信息具备映射关系，在查找到对应所述预设流程时，将所述用户槽位信息填充至所述预设流程；

第一流程执行单元，被配置为执行填充所述用户槽位信息后的所述预设流程。

本申请提供的技术方案包括以下有益效果：获取用户输入的语音请求语句，对语音请求语句进行语义分析处理，得到语义识别信息，其中，语义识别信息包括业务类型信息、用户意图信息以及用户槽位信息。在与业务类型信息对应业务类型的流程数据库中查找预设流程，其中，预设流程的预设意图信息对应于用户意图信息，在流程数据库中，预设流程与预设意图信息具备映射关系；在查找到对应预设流程时，将用户槽位信息填充至预设流程；执行填充用户槽位信息后的预设流程。本申请提供的语音交互方法是基于事先配置的预设流程，一方面在语音新业务和技能的开发过程中，不需要依赖编写业务代码，从而能够缩短整体开发周期。另一方面，利用预设流程，用户也可以较容易的开发新的语音业务，不需要开发介入其中，从而节省人力成本和时间成本。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示例性示出了根据一些实施例的语音交互原理的示意图；

图2示例性示出了根据一些实施例的的语音交互系统框架示意图；

图3示例性示出了根据一些实施例的用预设流程配置文件框架示意图；

图4示例性示出了根据一些实施例的语音交互方法流程示意图；

图5示例性示出了根据一些实施例的语音交互方法信令图；

图6示例性示出了根据一些实施例的配置协议转换流程示意图；

图7示例性示出了根据一些实施例的流程引擎执行业务逻辑示意图；

图8示例性示出了根据一些实施例的任务节点根据协议执行任务流程示意图；

图9示例性示出了根据一些实施例的用户界面示意图；

图10示例性示出了根据一些实施例的语音交互过程框架示意图；

图11示例性示出了根据一些实施例的又一种语音交互方法流程示意图；

图12示例性示出了根据一些实施例的用于语音交互的智能设备框架示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

为清楚说明本申请的实施例，下面结合图1对本申请实施例提供的一种语音识别网络架构进行描述。

参见图1，图1为本申请实施例提供的一种语音识别网络架构示意图。图1中，智能设备用于接收输入的信息以及输出对该信息的处理结果。语音识别服务设备为部署有语音识别服务的终端设备，语义服务设备为部署有语义服务的终端设备，业务服务设备为部署有业务服务的终端设备。这里的终端设备可包括服务器、计算机等，这里的语音识别服务、语义服务(也可称为语义引擎)和业务服务为可部署在终端设备上的web服务，其中，语音识别服务用于将音频识别为文本，语义服务用于对文本进行语义解析，业务服务用于提供具体的服务如天气查询服务、音乐查询服务等。在一个实施例中，图1所示架构中可存在部署有不同业务服务的多个实体服务设备，也可以一个或多个实体服务设备中集合一项或多项功能服务。

一些实施例中，下面对基于图1所示架构处理输入智能设备的信息的过程进行举例描述，以输入智能设备的信息为通过语音输入的查询语句为例，上述过程可包括如下三个过程：

语音识别：智能设备可在接收到通过语音输入的查询语句后，将该查询语句的音频上传至语音识别服务设备，以由语音识别服务设备通过语音识别服务将该音频识别为文本后返回至智能设备。在一个实施例中，将查询语句的音频上传至语音识别服务设备前，智能设备可对查询语句的音频进行去噪处理，这里的去噪处理可包括去除回声和环境噪声等步骤。

语义理解：智能设备将语音识别服务识别出的查询语句的文本上传至语义服务设备，以由语义服务设备通过语义服务对该文本进行语义解析，得到文本的业务领域、意图等。

语义响应：语义服务设备根据对查询语句的文本的语义解析结果，向相应的业务服务设备下发查询指令以获取业务服务给出的查询结果。智能设备可从语义服务设备获取该查询结果并输出。作为一个实施例，语义服务设备还可将对查询语句的语义解析结果发送至智能设备，以由智能设备输出该语义解析结果中的反馈语句。

需要说明的是，图1所示架构只是一种示例，并非对本申请保护范围的限定。本申请实施例中，也可采用其他架构来实现类似功能，例如：三个过程全部或部分可以由智能设备来完成，在此不做赘述。

在一些实施例中，图1所示的智能设备可为显示设备，如智能电视，语音识别服务设备的功能可由显示设备上设置的声音采集器和控制器配合实现，语义服务设备和业务服务设备的功能可由显示设备的控制器实现，或者由显示设备的服务器来实现。

在一些实施例中，智能终端产品支持语音交互功能，语音交互功能可作为智能终端产品的标准配置。用户可利用语音交互功能，实现语音控制智能终端产品，进行看视频、听音乐、查天气、电视控制等一系列操作。

语音控制智能终端产品的过程通常是具体为，语音识别模块将用户输入的语音识别为文本。之后语义分析模块对该文本进行词法句法和语义的分析，从而理解用户的意图。最后控制端根据理解结果控制智能终端产品进行相应的操作。意图识别即判断用户要做什么，比如用户向语音识别设备问了一个问题，语音识别设备需要判断这个用户问的是天气、是旅游还是问某部电影的信息。意图识别相当于文本分类问题。

针对上述实施例中的语音控制流程，如果要开发语音新业务和语音新技能，都需要依赖业务代码编写，整体开发周期比较长，开发效率低下。

为了解决上述问题，本申请提供一种语音交互方法，该方法在语音交互过程中，可以调用预设的语音交互流程，并直接执行该流程。因此在开发语音新业务和语音新技能时不需要依赖业务代码编写，从而缩短开发周期，提升开发效率。

图2示出了终端设备上的语音交互系统的框图。所述语音交互系统主要包括：人机交互界面101、处理模块102以及流程数据库103。用户可通过人机交互界面101输入语音请求语句。处理模块102的输入为人机交互界面101的输出。处理模块102与人机交互界面101相互连接，可以通过人机交互界面101接收用户输入的语音数据，以及通过人机交互界面向用户输出交互数据，例如，反馈给用户的对话数据、任务执行过程及结果。人机交互界面101还提供可视化的流程配置界面，用户可通过网页界面的定义或者xml(eXtensible MarkupLanguage，可扩展标记语言)配置文件实现业务流程的配置。

在一些实施例中，可以预先设置配置文件模板库，该配置文件模板库中包含多个配置项以及各个配置项的格式规范；从配置文件模板库中选择至少一个配置项，并根据所选择的配置项的格式规范为其设置对应的项目内容。该配置文件模板库可以由工具链(如应用编译软件等)提供。例如，当开发人员通过一款特定的应用编译软件创建一个应用程序时，由该应用编译软件根据预先存储的配置文件模板库自动地为该应用程序生成一个配置文件模板。其中，应用编译软件可以是Go语言编译软件、VC编译软件等各类软件。由该应用编译软件自动生成的配置文件模板中包含多个配置项，开发人员只需从中选择若干配置项，并根据所选择的配置项的格式规范为其设置对应的项目内容即可。

配置文件中包含的配置项既可以是与Hero框架相关的环境变量，也可以是与该游戏应用程序相关的环境变量。例如，与Hero框架相关的环境变量包括：服务加载路径、Go语言路径(也叫GoPass)等。与该游戏应用程序相关的环境变量包括：该游戏应用程序在运行过程中需调用的动态链接库或数据库的信息等，其中，数据库的信息又包括数据库端口、数据库的用户名和密码等。除此之外，开发人员还可以灵活配置其他多种配置项。

配置文件中的各个配置项可以通过Key-Value的形式进行存储，配置项的项目名称通过Key来表示，配置项的具体项目内容通过Value来表示。Key-Value存储方式能够节约存储空间，提高查询效率。在本实施例中，配置文件通过YAML语言进行编写，在本发明其他的实施例中，配置文件也可以通过XML、JS等其他语言进行编写。

如图3所示的配置文件示意图，在本发明实施例的配置文件中，映射的key为预设意图信息，value为预设流程。预设意图信息与预设流程建立映射关系之后，可以根据意图信息从数据库中调用预设流程。需要说明的是，本申请的预设流程包括，在语音交互过程中识别用户意图信息和槽位信息之后的所有流程。

处理模块102又包括语音识别引擎1021、流程配置引擎1022以及流程执行引擎1023。语音识别引擎1021用于将用户的语音指令识别为文本，并从文本中解析出语义识别信息；流程配置引擎1022用于储存用户通过人机交互界面101定义的流程配置文件，同时用于查询流程配置文件；流程执行引擎1023，用于控制流程的执行。流程配置引擎1022可以将流程配置文件存储在流程数据库103中。

语音识别引擎1021确定用户意图(即确定任务)，确定与该用户意图相关联的各个槽位相应的关键知识数据，并将所述关键知识数据填充到相应的槽位中，随后基于填充好的一个或多个槽位执行该任务。

在一些实施例中，所述语音助手系统为利用在普通用途的计算机系统中运行的软件来开发并执行一种交互式语音应用程序。在其它的实施例中，可以通过使用专用硬件来代替软件或者将硬件与软件集合在一起以实现所述语音交互方法。因此本发明的各实施例并不局限于任何硬件电路或软件的特定组合。

如图4所示的语音交互方法流程图，基于图2所示的语音助手系统，本申请的语音交互方法包括以下步骤：

在步骤S101中，获取用户输入的语音请求语句。

在步骤S102中，对所述语音请求语句进行语义分析处理，得到语义识别信息，其中，所述语义识别信息包括业务类型信息、用户意图信息以及用户槽位信息。

语音请求是以语音的形式发送的请求，即用户以说话等形式发出的请求。语音请求语句则为根据用户输入语音信号转换的语音文本。在具体的应用场景中，语音请求可以是包括内容“今天什么天气”的音频信号，则转换的语音请求语句为“今天什么天气”的文本内容。

具体的，用户在安装有语音助手的终端设备接收信号的距离范围内输入语音信号。终端设备可以是通过麦克风采集用户输入的语音信号，之后从语音信号中识别出语音文本。本申请实施例可由语音识别服务器识别出语音文本。由语义服务器对语音文本进行语义分析处理。需要说明的是，语义服务器对语音文本进行语义分析处理。

语义分析处理过程为：首先对语音文本进行分词处理。可以以词库为依据，使用正向最大匹配法，进行分词。例如“小明的铅笔”，分词处理后得到分词“小明，的，铅笔”。之后对分词进行词性标注，具体可以采用例如LAC(Lexical Analysis of Chinese)词法分析工具，对媒资标题进行中文分词和词性标注。LAC词法分析工具是一种联合的词法分析模型，能够整体性地完成中文分词和词性标注，还可添加自定义词典，对专有名称进行识别。LAC词法分析任务的输入是一个字符串，输出的则是媒资标题中的词边界和词性。需要说明的是，本申请所使用的分词和词性标注工具不限于LAC词法分析工具，还可以使用其他的词法分析工具。词性标注后的结果为{小明-小明[actor]},{的-的[funcwordstructaux]},铅笔-铅笔[title]}。

之后利用依存句法，根据词性标注的结果，提取语音文本中用户意图。依存句法分析采用全局搜索，生成多棵依存树，每个句子对应一棵或多棵依存树，系统输出概率最高的那棵树。最后将概率最高的依存树对应的意图，作为该语音文本中的用户意图。

自然语言语义的表示主要有三种：分布语义、框架语义以及模型论语义。本申请为智能对话相关，采用模型论语义。例如采用领域参数(业务类型信息)、意图参数(用于意图信息)以及用户槽位信息(用户槽位信息)来表示语义结构。即语义文本经过语义分析处理，至少包括领域参数、意图参数以及用户槽位信息三个参数。

语音文本“小明的铅笔”经过语义分析处理，得到三个参数：业务类型信息为音频业务，用于意图信息为播放音频，用户槽位信息为小明、的、铅笔。

在一些实施例中，在理解用户意图时，如果仅根据用户当前输入的语音进行理解，对于用户意图的理解往往会有所偏差。因此可以根据上下文细化理解用户的真实意图。

具体的，获取两个在时序上为前后关系的两个语音文本。对在前的语音文本解析得到在前的领域参数、在前的意图参数以及在前的用户槽位信息。对在后的语音文本解析得到在后的领域参数、在后的意图参数以及在后的用户槽位信息。如果在后的用户槽位信息为替换，即用户具有槽位替换意图，则将在后的用户槽位信息替换为其他用户槽位信息。最后根据替换之后的用户槽位信息确定用户真正的意图。

示例性的，在前的语音文本解析得到在前的领域参数、在前的意图参数以及在前的用户槽位信息分别为：音频业务，播放音频，小明、的、铅笔。在后的用户槽位信息为：换个、人、的。此时在后的用户槽位信息包括“人”关键词，表示需要替换在前的用户槽位信息中与人相关的用户槽位信息。在前的用户槽位信息中，“小明”为“作者”与人相关。而“铅笔”为标题，不与人相关。则表示需要替换在前用户槽位信息“小明”。例如，将与人有关的用户槽位信息“小明”替换为“小红”，最后得到用户真正的意图为播放音频“小红”的“铅笔”。

在步骤S103中，在与所述业务类型信息对应业务类型的流程数据库中查找预设流程，其中，所述预设流程的预设意图信息对应于所述用户意图信息，在所述流程数据库中，所述预设流程与所述预设意图信息具备映射关系。

本申请根据不同的业务类型配置不同的流程数据库。例如，音频业务配置有对应音频业务流程数据库，视频业务配置有对应视频业务流程数据库。不同的流程数据库储存有各自业务类型的预设流程和预设意图信息。在流程数据库中，预设流程与预设意图信息还具备映射关系。

在一些实施例中，语音助手的功能都比较单一泛化，所有的语音交互都利用通用的语音识别模块进行语音识别处理，不能针对场景进行个性化识别，识别正确率不能保障，尤其是特殊场景下，更容易出现识别错误。因此，在配置用于进行语音识别的资源时，会根据需求和语音产品可能涉及的场景，针对场景配置与各个场景关联的预设流程进行存储。这里的场景可以是不同的使用场景，例如公共场景和私人场景的区分。私人场景所使用的的语音识别模块可以根据个人使用习惯进行定制，从而精简语音识别模块。公共场景则需要扩展语音识别模块的交互范围，使得满足不同人群的使用需求。

在一些实施例中，还可以根据场景配置语音识别资源。语音识别中一般包括声学模型和语言模型，实际配置过程中，一般会提供音频用于训练声学模型，提供语料用于训练语言模型，因而在配置时，会根据场景分别配置不同场景的音频和语料，以进行训练得到针对不同场景的语音识别资源(包括训练出的声学模型和语言模型，训练方法为预先配置相应场景的音频和语料输入到训练模型进行训练即可得到所需的语音识别资源)。通过该步骤，即可针对不同流程和场景，分别定制声学模型(AM)和语言模型(LM)，即得到多场景的场景语音识别资源。

响应于接收到的用户语音请求，获取与意图场景关联的场景语音识别资源进行语音识别。在基于场景进行语音识别资源的配置时，用户的语音请求由于在语音交互中的相似性，就可以被作为一个场景进行单独配置，由于用户的语音请求一般是为了表达呼入意图，因而就可以将这个场景定义为意图场景，在语义分析处理过程中为其对应配置场景语音识别资源。这样，在接收到用户语音请求时，就可以从配置存储的与场景关联的场景语音识别资源中获取意图场景对应的场景语音识别资源进行语音识别。在对话响应过程中，根据当前用户意图确定关联场景，并根据确定的关联场景，获取对应的场景语音识别资源对监听到的用户音频进行语音识别。由于用户语音请求一般启动语音产品的第一条有效语音指令，因而在呼入时可以直接根据对语音请求的场景归类，获取意图场景的语音识别资源进行语音识别。而在启动语音产品后，会进入语音交互过程，此时语音产品和用户之间会存在交互和对话。在一些实施例中，可以采用在对话过程中进行识别资源的切换，由于对话过程中能够获取用户意图和对用户音频的响应内容(即对话内容)，因而能够很方便、精准地确定当前的场景，因而基于对话过程来确定当前的场景，从而基于确定的场景进行语音识别资源的切换，会提高所选用的语音识别资源与场景的贴合度，进一步提高准确率。

在接收到用户语音请求时，加载与该语音产品关联绑定的场景语音识别资源。在产品开发阶段对产品进行了场景资源的选择后，在接收到语音请求时，就可以先把为该产品配置的语音识别资源加载进来。

这样，在进行语音识别时，包括对用户语音请求的识别以及对话交互中对用户反馈的音频的识别，都可以直接从加载的场景语音识别资源中获取对应的场景语音识别资源对用户语音请求或监听到的用户音频进行语音识别。由于配置存储的语音识别资源容量比较大，而且针对不同产品或相同产品进行场景配置时，每个产品在具体的应用中涉及的场景可能没有那么多，因而通过预加载可以将识别的资源范围缩小，提高识别效率，而且由于进行了预加载不需要再去从分布式服务器上进行资源获取，也能有效缩短识别响应时间。

在步骤S104中，在查找到对应所述预设流程时，将所述用户槽位信息填充至所述预设流程。

在步骤S105中，执行填充所述用户槽位信息后的所述预设流程。

用户槽位信息用于指示执行预设流程的关联信息。

以下是上述实施例的示例一。首先接收到用户输入的语音请求语句“明天杭州天气怎么样”。经过语义分析处理，得到语义识别信息。该语义识别信息包括的业务类型信息为查询，用户意图信息为“查询天气”。之后从业务类型为查询的流程数据库中，根据用户意图信息“查询天气”查找预设流程。具体的，查找同样为“查询天气”的预设意图信息，之后查找到对应的查询天气预设流程。最后，根据语义识别信息执行查询天气的预设流程。

在示例一的进一步方案中，语义识别信息还包括用户槽位信息，具体的包括地点槽位信息“杭州”，时间槽位信息“明天”。将地点槽位信息“杭州”和时间槽位信息“明天”填充至预设流程中，这里的填充是指将槽位直接填充至预设流程的代码中，供代码运行。最后执行查询杭州明天天气的预设流程。

以下是上述实施例的示例二。首先接收到用户输入的语音请求语句“播放小明的铅笔”。经过语义分析处理，得到语义识别信息。该语义识别信息包括的业务类型为音视频，用户意图信息为“播放音频或视频”。之后在业务类型为音视频的流程数据库中，根据用户意图信息“播放音频或视频”查找预设流程。具体的，查找同样为“播放音频或视频”的预设意图信息，之后查找到对应的播放音频或视频预设流程。最后，根据语义识别信息执行播放音频或视频的预设流程。

在示例二的进一步方案中，语义识别信息还包括用户槽位信息，具体的包括人物槽位信息“小明”，标题槽位信息“铅笔”。将人物槽位信息“小明”和标题槽位信息“铅笔”填充至预设流程中，这里的填充是指将槽位直接填充至预设流程的代码中，供代码运行。最后执行播放“小明的铅笔”的音频或者视频的预设流程。

基于图2所示的语音助手系统，本申请的语音交互方法的信令图如图5所示。

首先用户通过人机交互界面101输入语音请求语句，人机交互界面101将该语音请求语句发送至语音识别引擎1021。语音识别引擎1021对该语音请求语句进行解析，具体的解析过程参见上述实施例。对该语音请求语句进行解析后，得到语音识别信息。该语音识别信息中包括业务类型信息、用户意图信息以及用户槽位信息。

语音识别引擎1021在解析出语音识别信息后，可以将语音识别信息发送至流程执行引擎1022。流程执行引擎1022再将语音识别信息中的用户意图信息发送至流程配置引擎1023。流程配置引擎1023根据用户意图信息从对应业务类型的流程数据库103中查找预设流程。具体的在流程数据库103中，创建有预设流程与预设意图信息的映射关系。

在流程数据库103中，首先查找用户意图信息对应的预设意图信息，之后根据预设意图信息查找具有映射关系的预设流程。流程数据库103将查找到的预设流程反馈至流程配置引擎1023。流程配置引擎1023将用户槽位信息填充至预设流程，并将填充用户槽位信息后预设流程发送至流程执行引擎1022。最后流程执行引擎1022执行填充用户槽位信息后的预设流程。另外，流程执行引擎1022也可以将执行预设流程的结果渲染在人机交互界面101上。

在一些实施例中，上述实施例中配置预设流程的具体实现过程可以是如下步骤：

流程执行引擎1022初始化，当流程执行引擎1022初始化时会从流程配置引擎1023读取所有的可用预设流程，并且把预设流程加载到全局缓存(ProcessCache)中，ProcessCache采用Map的数据结构储存数据，示例性的结构如表1所示：

key	value
		volume.up	ProcessObject
volume.set	ProcessObject
		volume.down	ProcessObject
alarm.set	ProcessObject
		weather	ProcessObject

表1全局缓存数据结构示例

同时在流程执行引擎中会把预设流程解析成对象，其中每一个预设流程都会被解析为一个Node(节点)对象。当有语音请求进入流程执行引擎时先调用语音识别引擎，语音识别引擎分析用户意图信息，返回用户意图信息和用户槽位信息。

用户意图(intentCode)表示用户想干什么，例如：“明天杭州天气怎么样”，用户意图信息编码为weather.query。

用户槽位信息表示当前用户意图中用于执行任务的关键信息，“明天杭州天气怎么样”用户槽位为：时间槽位信息time＝明天，地点槽位信息city＝杭州，流程配置引擎根据intentCode查找对应的流程信息，当查找到有匹配的预设流程，解析并且执行该流程。最后把流程执行结果返回到终端设备由终端设备进行渲染。

在一些实施例中，可以利用音形码算法对用户意图信息和预设意图信息进行编码，只有根据编码进行匹配查找。本申请可以基于现有的Metaphone算法对用户意图信息和预设意图信息进行编码。Metaphone是一种针对英文下的音形码算法，其通过英文发音规则对文本进行编码，将发音相似的文本编码成相同音形码。Metaphone算法是针对英语设计的，也可以扩展到类似的表音文字的语言(如英语、西班牙语、俄语等)。因此，本申请可以利用针对不同语言的Metaphone算法对待纠错实体进行编码。

除表音文字可以使用Metaphone算法外，也可以基于发音规则开发象形文字的语言的音形码算法，比如中文下基于拼音规则来编码，日语下通过五十音进行编码。图4为中文音形码编码的示例，对于待编码的文本，先通过PyPinyin工具将文本转换为对应的拼音，对拼音中的声母和韵母分别进行编码，编码过程中考虑到拼音发音的相似性，比如声母n和声母l，韵母“an”和“ang”可以编码成相同的编码。

本申请的数据库中事先存储有大量的预设意图信息，数据库中的预设意图信息也是经过相同的编码过程生成的，因此音形码数据库中的预设意图信息也是编码形式。该步骤将用户意图信息的编码形式与数据库中的编码形式数据进行匹配，从而查找与用户意图信息匹配的预设意图信息。需要说明的是，这里的用户意图信息与预设意图信息匹配可以是用户意图信息编码与预设意图信息的编码相同，或者用户意图信息的编码包含预设意图信息的编码。

示例性，用户意图信息为查询天气，预设意图信息也为查询天气，则两者为编码相同类型的匹配。用户意图信息为播放音乐，预设意图信息为播放音视频，则预设意图信息包含用户意图信息，此时预设意图信息也与用户意图信息匹配。

在一些实施例中，流程协议可以表示如下：

开始节点，表示流程的起始节点，协议如下所示：start(开始节点标识)；start.id(节点的唯一标识)；start.intentCode(意图编码，当用户意图信息和流程的预设意图信息相同则进入该流程)；start.childId(执行脚本)；params.param.name(执行当流程必要的意图槽位名称)；params.param.message(当意图槽位为空下发提示信息提示用户)。

网关节点，表示流程分支节点，当满足设定条件则走A分支，当不满足则走B分支。gateway.id(网关节点的id)；condition.value(布尔表达式)：当返回结果为true的时候跳转的到ifTrue.childId指向的流程节点；当返回结果为false是跳转到ifFalse.childId流程节点。

本地方法节点，表示调用应用本地内置的方法。nativeMethod.id(节点id)；nativeMethod.childId(下一个执行节点的id)；type(本地方法类型(static,springBean))；className(本地方法的全限定名，通过该名称可以调用到本地方法)；method(本地方法)；inputParam.type(本地参数的入参类型)；inputParam.value(入参值(#开头标识引用会话缓存中的值，否则为常量))。

http方法节点，表示调用外部的HTTP接口。httpMethod.id(节点id)；httpMethod.childId(下一个执行节点的id)；type(GET/POST)；url(http接口的地址)；inputParam.type(入参类型)；inputParam.value(入参值(#开头标识引用会话缓存中的值，否则为常量))。

脚本执行节点，表示在本地执行脚本语言。executeScript.id(节点id)；executeScript.childId(下一个执行节点的id)；type(脚本类型，python,javascript,lua等)；script(可执行脚本)；inputParam.type(入参类型)；inputParam.value(入参值(#开头标识引用会话缓存中的值，否则为常量))。

结束节点。end.id(当前节点id)；result.key(返回结果的key)；result.value(返回结果的值(#开头标识引用会话缓存中的值，否则为常量))。

最后结束节点输出的结果会被组装为一个json(JavaScript Object Notation，JavaScript对象表示法)数据。

以天气查询流程的完成流程协议为示例，可以将配置协议转换为如图6所示的流程。

在开始节点启动流程后，判断时间槽位是否为空，如果为空，则获取系统当前时间，并将系统当前时间补充到时间槽位，并进行下一节点的流程。如果时间槽位不为空，同样进行下一节点的流程。开始节点的下一节点为网关节点，通过网关接口节点查询天气，如果查询结果为空，则结束流程并给出失败提示信息。如果查询结果不为空，则在脚本节点组装tts(Text To Speech，文本转语音)。最后在结束节点结束流程。

基于上述流程协议，流程执行引擎设计方案可以表示如下：

会话缓存设计：

会话：当用户请求进入一个流程，流程执行引擎为该用户请求创建一个会话，直到流程执行完成表示会话完成。在一个会话期间会为当前会话创建一个会话缓存(SessionCache)，会话缓存主要保存流程执行信息，流程结束后删除会话缓存。会话中会包含但不限于如下信息：

流程执行信息，currentNode(当前执行的节点)；意图信息，intent.intenCode(意图编码)；intent.slot.[slotName](意图槽位)；请求参数，reqParams.[paramName]:(参数名称)；引擎节点执行结果，executeResult.[nodeId](nodeId为变量，标识节点Id)；lastExexuteResult(上一个节点的执行结果)。以上会话缓存在当前流程执行的任意节点都可以通过参参数名称获取到，例如在配置流程中需要获取意图编码则表示为#intent.intentCode。

具体的，流程引擎执行业务逻辑图如图7所示：

根据intentCode(用户意图信息)未查找到匹配流程则执行默认流程，提示不支持当前功能。匹配到流程则创建一个会话缓存，把用户流程、请求参数、意图编码、槽位等信息放入会话缓存。解析开始节点，判断是否缺少必要槽位，如果缺少必要槽位则提示用户缺少必要消息，并且删除会话缓存。参数校验完成获取子节点childId，查找并且加载对应节点信息，判断当时节点是否为结束节点。如果是结束节点则根据params(可变的方法参数)定义把参数组装为json格式，结束流程，删除会话缓存。如果不是结束节点，则根据协议执行任务，并且缓存节点执行信息。执行完成后跳转到获取子节点任务的步骤。

如图8所示，任务节点根据协议执行任务的具体流程如下：根据子节点childId查找并且加载节点信息。首选判断当前节点是否是网关节点。如果不是网关节点则解析节点，根据节点定义拼接请求参数。根据定义调用任务(httpMethod(超文本传输请求方式),executeScript(执行脚本),nativeMethod(java调用非java代码的接口))。把执行结果放如会话缓存。获取子节点childId，跳转到根据子节点childId查找并且加载节点信息的步骤。如果当前节点是网关节点，则执行网关表达式。根据表达式结果(true,false)判断执行的分支流程对应的子节点childId,然后跳转到根据节点定义拼接请求参数的步骤。

在一些实施例中，如果在对所述语音请求语句进行语义分析处理之后得到第一语义识别信息和第二语义识别信息，则在所述流程数据库中分别查找所述第一语义识别信息和所述第二语义识别信息对应的第一预设流程和第二预设流程。

示例性的，用户输入的语音请求语句为“我想唱歌和跳舞”，对该语音请求语句进行语义分析处理后，得到两个语义识别信息。第一语义识别信息包括业务类型信息“音频业务”、用户意图信息“播放歌曲”。第二语义识别信息包括业务类型信息“视频业务”、用户意图信息“播放舞蹈视频”。可以分别从音频业务流程数据库中查找用户意图信息“播放歌曲”对应的播放歌曲第一预设流程，从视频业务流程数据库中查找用户意图信息“播放舞蹈视频”对应的播放舞蹈视频第二预设流程。

在一些实施例中，基于上述实施例，如果第一预设流程和第二预设流程可以同时进行，例如，播放歌曲和查询天气可以同时进行，则同时执行两个预设流程。如果第一预设流程和第二预设流程不可以同时进行，则可分别执行预设流程。例如，上述实施例中的播放歌舞和播放舞蹈视频不可以同时进行。则可以在用户界面上弹出如图9所示的对话框，提示用户选择需要进行的流程。如果预设流程至少为三个，用户还可以在图9所示的对话框中，对预设流程进行排序。最终终端设备按照排序分别执行预设流程。这样用户可以仅输入一次语音请求，控制终端设备执行多个预设流程。用户还可以在图9所示的对话框中选择当前要进行的与预设流程。这样可以进一步提升用户的使用体验。还可以提前设置预设流程的优先级，首先执行优先级最高的预设流程。

在一些实施例中，流程数据库可以是设置在本地的数据库，也可以是设置在服务器上的数据库。也可以将预设流程按照类别配置在不同的数据库上。在根据预设意图信息和用户意图信息查找预设流程之前，可以判定用户意图信息的类别，之后再在对应类别的数据库中查找预设流程。例如，用户意图信息的类别为生活类，则在生活类的数据库中查找预设流程。用户意图信息的类别为娱乐类，则在娱乐类的数据库中查找预设流程。这样可以缩短查找预设流程的时间，提升语音交互效率。

在一些实施例中，如果语义识别信息中不包括用户槽位信息，则根据备用槽位信息执行预设流程。例如，用户输入的语音请求语句“查询天气”，语义分析处理后得到的语义识别信息中，包括用户意图信息查询天气。但是该语义识别信息不包括用户槽位信息，具体的不包括时间槽位信息和地点槽位信息。此时可以用备用的时间槽位信息“当前时间”和备用的地点槽位信息。

在一些实施例中，如果在当前智能设备上未查找到对应预设流程，可以返回不支持消息。该不支持消息用于提示用户，当前的用户意图信息不能得到当前智能设备的支持，即当前设备不支持当前用户意图信息对应的功能。还可以将语义识别信息发送至其他具备对应预设流程设备。例如，如图10所示的框架图，如果当前设备为智能音箱，用户意图信息为播放视频，智能音箱不支持播放视频功能。智能音箱进一步将语义识别信息发送至其他智能设备。例如发送至智能电视，并控制智能电视执行预设流程，即执行播放视频操作。

在一些实施例中，还可以构建语音处理能力列表，例如处于同一局域网的所有设备都存储有语音处理列表，用于记录其他设备的语音处理能力。如图11所示的又一种语音交互方法的流程图，该方法包括以下步骤：

在步骤S201中，获取用户输入的语音请求语句；

在步骤S202中，对所述语音请求语句进行语义分析处理，得到语义识别信息，其中，所述语义识别信息包括业务类型信息、用户意图信息以及用户槽位信息；

在步骤S203中，在与所述业务类型信息对应业务类型的流程数据库中查找预设流程，其中，所述预设流程的预设意图信息对应于所述用户意图信息，在所述流程数据库中，所述预设流程与所述预设意图信息具备映射关系；

在步骤S204中，在未查找到对应所述预设流程时，获取语音处理能力列表，其中，所述语音处理能力列表记录备选设备具备的流程信息，所述备选设备为与当前设备处于同一局域网的设备；

在步骤S205中，在所述语音处理能力列表中查找具备所述用户意图信息对应预设流程的所述备选设备；

在步骤S206中，将所述语义识别信息发送至所述备选设备，以使所述备选设备具备对应所述预设流程时，根据所述语义识别信息执行所述预设流程。

上述实施例可以提高语音交互的成功率，提升用户使用体验。

本申请实施例提供一种用于语音交互的智能设备，用于执行图2对应的实施例，如图12所示，本申请提供的智能设备至少包括：

用户输入单元1001，被配置为获取用户输入的语音请求语句；

语义分析处理单元1002，被配置为对所述语音请求语句进行语义分析处理，得到语义识别信息，其中，所述语义识别信息至少包括用户意图信息；

流程查找单元1003，被配置为根据所述用户意图信息查找对应预设流程，其中，所述预设流程的预设意图信息对应于所述用户意图信息，所述预设流程根据不同的场景设置；

第一流程执行单元1004，被配置为在查找到对应所述预设流程时，根据所述语义识别信息执行所述预设流程。

在一些实施例中，本申请实施例提供的用于语音交互的智能设备，还包括：

第二流程执行单元1005，被配置为在未查找到对应所述预设流程时，获取语音处理能力列表，其中，所述语音处理能力列表记录备选设备具备的流程信息，所述备选设备为与当前设备处于同一局域网的设备；

将所述语义识别信息发送至所述备选设备，以使所述备选设备根据所述语义识别信息执行所述预设流程。

以上已经描述的包括本发明的实现的示例。为了描述要求保护主题的目的，当然不可能描述组件或方法的每一个可设想组合，但是要意识到，本创新的许多另外组合和置换是可能的。相应地，要求保护主题打算包含全部这类改变、修改和变化，其落入所附权利要求的精神和范围之内。此外，包括“摘要”中所述的事物的本申请的所示实现的以上描述并不是要详细列举或者将所公开实现局限于所公开的精确形式。虽然本申请中为了说明目的而描述具体实现和示例，但是如相关领域的技术人员能够认识的，被认为在这类实现和示例的范围之内的各种修改是可能的。

此外，词语“示例”或“示范”在本申请中用来表示“用作示例、实例或说明”。本申请中描述为“示范”的任何方面或设计不一定被理解为相对其它方面或设计是优选或有利的。相反，词语“示例”或“示范”的使用打算以具体方式呈现概念。

Claims

1.一种语音交互方法，用于智能设备，其特征在于，包括：

获取用户输入的语音请求语句；

执行填充所述用户槽位信息后的所述预设流程。

2.根据权利要求1所述的语音交互方法，其特征在于，在对所述语音请求语句进行语义分析处理之后得到第一语义识别信息和第二语义识别信息；

在所述流程数据库中分别查找所述第一语义识别信息和所述第二语义识别信息对应的第一预设流程和第二预设流程；

在可同时执行所述第一预设流程和所述第二预设流程时，同时执行所述第一预设流程和所述第二预设流程；

在不可同时执行所述第一预设流程和所述第二预设流程时，分别执行所述第一预设流程和所述第二预设流程。

3.根据权利要求2所述的语音交互方法，其特征在于，在不可同时执行所述第一预设流程和所述第二预设流程时，根据流程执行优先级，分别执行所述第一预设流程和所述第二预设流程。

4.根据权利要求1所述的语音交互方法，其特征在于，所述用户槽位信息包括：地点槽位信息、时间槽位信息以及人物槽位信息中的至少一种。

5.根据权利要求1所述的语音交互方法，其特征在于，在所述语义识别信息不包括用户槽位信息时，

根据备用槽位信息执行所述预设流程。

6.根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：

在未查找到对应所述预设流程时，在所述智能设备的显示器上显示提示消息，所述提示消息用于提示所述用户意图信息不能得到所述智能设备支持。

7.根据权利要求1所述的语音交互方法，其特征在于，所述方法还包括：在未查找到对应所述预设流程时，获取语音处理能力列表，其中，所述语音处理能力列表记录备选设备具备的预设流程，所述备选设备为与所述智能设备处于同一局域网的设备；

将所述语义识别信息发送至所述备选设备，以使所述备选设备具备对应所述预设流程时，根据所述语义识别信息执行所述预设流程。

8.一种语音交互系统，其特征在于，包括：

人机交互界面，被配置为接收用户语音请求语句；

9.一种用于语音交互的智能设备，其特征在于，包括：

用户输入单元，被配置为获取用户输入的语音请求语句；

10.根据权利要求9所述的用于语音交互的智能设备，其特征在于，所述智能设备还包括：第二流程执行单元，被配置为在未查找到对应所述预设流程时，获取语音处理能力列表，其中，所述语音处理能力列表记录备选设备具备的预设流程，所述备选设备为与所述智能设备设备处于同一局域网的设备；