CN110021299B

CN110021299B - 语音交互方法、装置、系统及存储介质

Info

Publication number: CN110021299B
Application number: CN201810014618.1A
Authority: CN
Inventors: 龙永文
Original assignee: Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Current assignee: Foshan Shunde Midea Electrical Heating Appliances Manufacturing Co Ltd
Priority date: 2018-01-08
Filing date: 2018-01-08
Publication date: 2021-07-20
Anticipated expiration: 2038-01-08
Also published as: CN110021299A

Abstract

一种语音交互方法，包括：获取语音控制指令，将所述语音控制指令转化为数字音频信号；将所述数字音频信号发送给语音语义云平台；接收所述语音语义云平台根据所述数字音频信号返回的场景识别指令，所述场景识别指令包括根据所述数字音频信号确定的对应的场景、及根据所述场景确定的场景交互信息；将所述场景识别指令转化成模拟音频信号并进行语音播放。本申请该提供一种语音交互装置、系统及计算机存储介质。

Description

语音交互方法、装置、系统及存储介质

技术领域

本发明涉及一种家电技术领域，特别涉及一种语音交互方法、装置、系统及存储有该语音交互方法的存储介质。

背景技术

厨房小家电比如电饭煲等烹饪电器的功能控制方式，一般使用实体按键(如物理机械按键或触摸感应按键)进行控制与功能选择。例如设定电饭煲电器的时间，需要按增加按键或减少按键，按24小时计算，最多可能需要按近80次按键才能完成一次时间设定，从而操作相当繁琐不便。

目前，逐步出现采用语音识别控制家电的方案，家电通过麦克风接收用户以语音方式输入的与特定控制功能对应的预设设定的固定关键词，通过将关键词与预设的关键词词库进行匹配，当家电在用户输入的语音中解析到固定关键词后，进行相应处理。

然而，随着技术的进步和消费者多样化需求的驱动，现在的电饭煲等家电功能越来越多，通过语音输入固定关键词来实现对应功能控制的方式，需要用户首先掌握家电所能识别的固定关键词，要求用户自身需要掌握相应知识，一方面用户体验不佳，另一方面大大限制了父母辈等学习能力较弱的用户使用语音输入来控制家电，从而限制了其应用范围。

相关技术中，对于上述问题，尚无有效解决方案。

发明内容

为解决现有存在的技术问题，本发明实施例提供一种具备更强语义理解能力、适用性更广的语音交互方法、装置、系统及存储介质。

为达到上述目的，本发明实施例的技术方案是这样实现的：

一种语音交互方法，包括：获取语音控制指令，将所述语音控制指令转化为数字音频信号；将所述数字音频信号发送给语音语义云平台；接收所述语音语义云平台根据所述数字音频信号返回的场景识别指令，所述场景识别指令包括根据所述数字音频信号确定的对应的场景、及根据所述场景确定的场景交互信息；将所述场景识别指令转化成模拟音频信号并进行语音播放。

其中，所述接收所述语音语义云平台根据所述数字音频信号返回的场景识别指令之后，所述方法还包括：将所述场景识别指令转化成文本进行显示。

其中，所述接收所述语音语义云平台根据所述数字音频信号返回的场景识别指令之后，所述方法还包括：获取对应所述场景识别指令的场景交互确认指令，根据所述场景交互确认指令进行加热控制。

一种语音交互装置，包括：音频处理单元，用于获取语音控制指令，将所述语音控制指令转化为数字音频信号；网络传输单元，用于将所述数字音频信号发送给语音语义云平台；主控单元，接收所述语音语义云平台根据所述数字音频信号返回场景识别指令，所述场景识别指令包括根据所述数字音频信号确定的对应的场景、及根据所述场景确定的场景交互信息；所述音频处理单元，还用于将所述场景识别指令转化成模拟音频信号并进行语音播放。

其中，所述装置还包括显示单元，用于将所述场景识别指令转化成文本进行显示。

其中，所述装置还包括加热单元，用于获取对应所述场景识别指令的场景交互确认指令，根据所述场景交互确认指令进行加热控制。

一种语音交互方法，包括：获取终端设备发送的由语音控制指令转化的数字音频信号，将所述数字音频信号转换成文本；将所述文本基于预设匹配规则进行匹配，根据匹配的结果确定所述语音控制指令对应的场景；根据所述场景从数据库中获取相关的场景任务数据，根据所述场景任务数据确定对应的场景交互信息，并形成包含所述场景交互信息的场景识别指令；将所述场景识别指令输出至所述终端设备。

其中，所述根据所述场景从数据库中获取相关的场景任务数据，根据所述场景任务数据确定对应的场景交互信息，并形成包含所述场景交互信息的场景识别指令的步骤包括：根据所述场景获取场景数据、设备数据和用户数据；将所述场景数据、设备数据和用户数据输入规则引擎，通过所述规则引擎确定与所述场景数据、设备数据和用户数据对应的场景交互信息；根据所述场景交互信息形成场景识别指令。

一种语音交互装置，包括：文本模块，获取终端设备发送的由语音控制指令转化的数字音频信号，将所述数字音频信号转换成文本；匹配模块，用于将所述文本基于预设匹配规则进行匹配，根据匹配的结果确定所述语音控制指令对应的场景；指令模块，用于根据所述场景从数据库中获取相关的场景任务数据，根据所述场景任务数据确定对应的场景交互信息，并形成包含所述场景交互信息的场景识别指令；输出模块，用于将所述场景识别指令输出至所述终端设备。

其中，所述指令模块包括：查找单元，用于根据所述场景获取场景数据、设备数据和用户数据；调用单元，用于将所述场景数据、设备数据和用户数据输入规则引擎，通过所述规则引擎确定与所述场景数据、设备数据和用户数据对应的场景交互信息；指令形成单元，用于根据所述场景交互信息形成场景识别指令。

一种存储介质，该存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行本申请任一实施例所述的语音交互方法。

一种语音交互系统，包括通信连接的终端设备及语音语义云平台，所述终端设备用于获取语音控制指令，将所述语音控制指令转化为数字音频信号，将所述数字音频信号发送给语音语义云平台，接收所述语音语义云平台根据所述数字音频信号返回场景识别指令，所述场景识别指令包括根据所述数字音频信号确定的对应的场景、及根据所述场景确定的场景交互信息，将所述场景识别指令转化成模拟音频信号并进行语音播放。所述语音语义云平台用于获取终端设备发送的由语音控制指令转化的数字音频信号，将所述数字音频信号转换成文本，将所述文本基于预设匹配规则进行匹配，根据匹配的结果确定所述语音控制指令对应的场景，根据所述场景从数据库中获取相关的场景任务数据，根据所述场景任务数据确定对应的场景交互信息，并形成包含所述场景交互信息的场景识别指令，将所述场景识别指令输出至所述终端设备。

本发明实施例提供的语音交互方法、装置、系统及存储介质，通过将语音控制指令发送给语音语义云平台进行语音识别，利用语音语义云平台相对独立的语音识别功能，根据语音控制指令确定场景、再根据场景确定场景交互信息，通过场景的区分，可分类完善语音数据库，便于语音语义云平台更加快速、准确地识别对应的场景识别指令，且通过确定场景，对语音控制指令中包含任何能够体现出与预设场景相关的词语均能够准确有效识别，从而采用该语音交互方法的终端设备支持对语音控制指令的输入形式更加灵活，支持语音交互过程中具有更强的语义理解能力，适应性范围更广。

附图说明

图1为本申请一个实施例中语音交互系统的应用环境图；

图2为图1所示的语音交互系统的一可选的结构示意图；

图3为本发明一实施例中语音交互方法的流程图；

图4为本发明另一实施例中语音交互方法的流程图；

图5为本发明一实施例中语音交互装置的结构示意图；

图6为本发明另一实施例中语音交互装置的结构示意图；

图7为本申请一个实施例中语音交互方法的流程图；

图8为本申请又一个实施例中语音交互方法的流程图；

图9为本申请再一个实施例中语音交互装置的结构示意图。

具体实施方式

以下结合说明书附图及具体实施例对本发明技术方案做进一步的详细阐述。

图1所示为本申请一个实施例中语音交互系统的应用环境图，该语音交互系统包括终端设备200和服务器100，服务器100通过网络与终端设备200连接。其中，该终端设备200可以是一个或者多个，具体可以是电饭煲、豆浆机、电烤箱、破壁机等常用家电设备，特别是指用于实现烹饪等食物制作的常用家电设备。在另一可选的实施例中，该终端设备200还可以是安装有可以对家电设备进行远程控制，如远程进行开启、模式选择等功能的客户端程序的移动终端，如手机、掌上电脑等，因此，家电设备可通过移动终端与服务器100之间进行语音交互实现本申请实施例所提供的语音交互方法，从而家电设备通过该移动终端与服务器进行语音交互过程中具有更强的语义理解能力。

请参阅图2，为一可选的实施例中语音交互系统的结构示意图，该终端设备200包括语音采集单元11、音频处理单元12、网络传输单元13、加热单元14、主控单元15、及语音播放单元16。其中主控单元15用于实现计算功能和控制终端设备200工作的功能，该主控单元15被配置为执行一种语音交互方法。主控单元15通过网络传输单元13与服务器100连接。服务器100为通过云计算来实现语音识别的语音语义云平台。语音采集单元11采集用户输入的语音数据，发送给音频处理单元12转换成数字音频信号，并由主控单元15控制将数字音频信号通过网络传输单元13发送给服务器100进行语音识别和处理。主控单元15还通过网络传输单元13接收服务器100根据语音识别和处理后返回的对应的场景识别指令，通过语音播放单元16进行播放，以实现与用户之间的语音交互。

其中，对语音交互系统的服务器100和终端设备200分别进一步描述如下。

如图3所示，本发明一实施例提供一种运行于如图2所示终端设备200的语音交互方法，包括如下步骤。

步骤101，获取语音控制指令，将语音控制指令转化为数字音频信号。

语音控制指令是指用户通过语音方式输入的包含对终端设备进行操作或控制的任意语音数据。用户输入的语音数据形式的语音控制指令为模拟语音信号，可以通过数字信号处理技术将语音控制指令转换为数字音频信号。模拟语音信号通常是由语音采集单元11，如麦克风进行采集。

步骤103，将数字音频信号发送给语音语义云平台。

语音语义云平台是指能够通过云计算方式来执行语音识别的应用平台。本实施例中，语音语义云平台是通过语音转文本、关键字匹配、语义理解来执行语音识别功能的云服务器。具体的，终端设备200可通过网络传输单元13将数字音频信号发送给语音语义云平台，网络传输单元13可采用用于实现终端设备200与语音语义云平台之间进行网络通信的任意已知的网络传输协议，本实施例中优选采用wifi等无线传输协议。

步骤105，接收语音语义云平台根据数字音频信号返回的场景识别指令，所述场景识别指令包括根据所述数字音频信号确定的对应的场景、及根据所述场景确定的场景交互信息。

其中，根据用户对终端设备的使用需求，将对终端设备的操作和控制对应的场景区分为菜谱咨询场景、控制咨询场景和售后咨询场景三大类别。语音语义云平台通过将数字音频信号进行语音转文本、关键字匹配、语义理解后，确认与该数字音频信号所对应的场景，再根据所对应的场景进一步确定的对应的场景交互信息，根据场景交互信息形成场景识别指令。可以理解的，采用本申请实施例所提供的家电语音交互方法的终端设备，可以根据不同的需求而可选择地包括菜谱咨询场景、控制咨询场景和售后咨询场景其中之一或者其中任意两者的组合，从而通过语音语义云平台识别该终端设备所接收的语音控制指令转化与该音频数字信息，确定该语音控制指令所对应的场景，再根据场景确定场景交互信息形成对应的场景识别指令，将场景识别指令返回给终端设备。场景交互信息是指语音语义云平台与终端设备之间实现对应的场景时与需要与用户之间进行交互的信息，如针对菜谱咨询场景的菜谱咨询交互信息、针对控制咨询场景的控制咨询交互信息和针对售后咨询场景的售后咨询交互信息。在其中一个具体实施例中，菜谱咨询交互信息为菜谱制作信息、控制咨询交互信息为终端设备的控制方式信息、售后咨询交互信息为售后联系信息。

以采用本申请实施例所提供的语音交互方法的终端设备包括适用于菜谱咨询场景为例，终端设备获取用户输入的能够体现出任何与菜谱咨询需求相关的语音控制指令，并将语音控制指令转换为数字音频信号发送给语音语义云平台。语音语义云平台通过对由语音控制指令转化的数字音频信号进行解析，确定语音控制指令所对应的场景，并根据场景确定场景交互信息。终端设备将接收到的语音语义云平台返回的包含场景交互信息的场景识别指令，并通过语音播放单元进行播放。如用户输入的语音控制指令中包含食品名称、菜品名称等相关词语时，语音语义云平台通过对该语音控制指令的数字音频信号进行语音转文本、关键字匹配、语义理解后，获取该语音控制指令中的食品名称、菜品名称等相关词语，从而确认与该语音控制指令对应的场景为菜谱咨询场景，并通过菜谱咨询场景的语音数据库查找包含有与该食品名称、菜品名称对应的菜谱制作信息。终端设备接收语音语义云平台返回的包含有该菜谱制作信息的菜谱咨询场景指令。

以采用本申请实施例所提供的语音交互方法的终端设备包括适用于控制咨询场景为例，终端设备获取用户输入的能够体现出任何设备控制咨询需求相关的语音控制指令，并将语音控制指令转换为数字音频信号发送给语音语义云平台。语音语义云平台通过对由语音控制指令转化的数字音频信号进行解析，确定语音控制指令所对应的场景，并根据场景确定场景交互信息。终端设备将接收到的语音语义云平台返回的包含场景交互信息的场景识别指令，并通过语音播放单元进行播放。如用户输入的语音控制指令中包含怎么设置、如何开启等相关词语时，语音语义云平台通过对该语音控制指令的数字音频信号进行语音转文本、关键字匹配、语义理解后，获取该语音控制指令中的怎么设置、如何开启等相关词语，从而确认与该语音控制指令对应的场景为控制咨询场景，并通过控制咨询场景的语音数据库查找包含有该终端设备的流程设置、开启操作对应的控制方式信息。终端设备接收语音语义云平台返回的包含该控制方式信息的控制咨询场景指令。

以采用本申请实施例所提供的语音交互方法的终端设备还包含适用于售后咨询场景为例，终端设备获取用户输入的能够体现出任何与售后咨询需求相关的语音控制指令，并将语音控制指令转换为数字音频信号发送给语音语义云平台。语音语义云平台通过对由语音控制指令转化的数字音频信号进行解析，确定语音控制指令所对应的场景，并根据场景确定场景交互信息。终端设备将接收到的语音语义云平台返回的包含场景交互信息的场景识别指令，并通过语音播放单元进行播放。如用户输入的语音控制指令中包含售后地址、工作异常等相关词语时，语音语义云平台通过对该语音控制指令的数字音频信号进行语音转文本、关键字匹配、语义理解后，获取该语音控制指令中的售后地址、工作异常等相关词语，从而确认与该数字音频信号对应的场景为售后咨询场景，并通过售后咨询场景的语音数据库查找包含有该终端设备的售后地址信息、维修方式对应的售后相关信息。终端设备接收包含该售后相关信息的售后咨询场景指令。

步骤107，将场景识别指令转化成模拟音频信号并进行语音播放。

通过将包含场景交互信息的场景识别指令转化成模拟音频信号并进行语音播放，使得终端设备可以通过语音与用户完成交互。具体的，终端设备可以通过语音播放单元，如喇叭进行语音播放。

以上实施例所提供的语音交互方法，终端设备接收语音控制指令，通过将语音控制指令发送给语音语义云平台进行语音识别，利用语音语义云平台相对独立的语音识别功能，根据语音控制指令确定场景、再根据场景确定场景交互信息，通过场景的区分，可分类完善数据库，便于语音语义云平台快速识别获取对应的场景识别指令，对语音控制指令中包含任何能够体现出与预设场景需求相关的词语均能够准确有效识别，从而对语音控制指令的输入形式更加灵活。

请参阅图4，在另一实施例中，该语音交互方法在接收所述语音语义云平台根据所述数字音频信号返回的场景识别指令的步骤之后，还包括：

步骤108，将场景识别指令转化为文本进行显示。

通过将场景识别指令转化为文本进行显示，用户可以通过查看显示文本的方式获取该场景识别指令所包含的场景交互信息。具体的，终端设备可通过显示单元，如显示屏对文本进行显示。终端设备可获取用户输入的语音播放和/或文本显示的选取指令，根据语音播放的选取指令，而相应的将场景识别指令转化成模拟音频信号并进行语音播放，根据文本显示的选取指令，而相应将场景识别指令转化为文本进行显示。该终端设备支持用户可选择地将场景识别指令通过语音播放单元以语音方式播放、或通过显示单元以文本方式显示、或以语音方式播放和以文本方式显示同时进行，方便用户根据实际应用场景的需要或喜好设置获取该场景识别指令所包含的场景交互信息的形式，从而满足用户不同需求。

进一步的，步骤105，接收所述语音语义云平台根据所述数字音频信号返回的场景识别指令之后，该语音交互方法还包括：

步骤109，获取对应场景识别指令的场景交互确认指令，根据场景交互确认指令进行加热控制。

场景交互确认指令是指对应场景识别指令中的场景交互信息所输入的确认指令。如场景识别指令中的场景交互信息为菜谱制作信息，则对应场景识别指令的场景交互确认指令可以为对输出的特定菜谱的菜谱制作信息输入表示是或者否的确认指令，若是，则根据该菜谱制作信息进行加热控制。具体的，终端设备通过选取与场景交互信息对应的工作模式启动，以控制加热单元进行加热，以完成该特定菜谱的制作。

下面以语音控制指令为“想吃蛋糕”的具体应用场景为例，说明本申请实施例的语音交互方法的实现过程，终端设备获取用户输入的“想吃蛋糕”的语音指令并转换为数字音频信号。语音语义云平台根据“想吃蛋糕”的数字音频信号，通过将其进行语音转文本、关键字匹配、语义理解后，根据其中的食物名称关键词“蛋糕”，可以判断出属于菜谱咨询场景，从菜谱咨询场景的语音数据库中查询与制作“蛋糕”相关的烹饪器具、用户喜好数据、烹饪方法作为场景交互信息，根据场景交互信息形成场景识别指令发送终端设备，如根据用户喜好的法式风味、草莓口味以及选定电烤箱作为烹饪器具的场景交互信息，形成“法式草莓蛋糕”的菜谱详情和烹饪方法的场景识别指令，通过终端设备转换成模拟音频信号并由语音播放单元播放出来。用户可以根据语音播放的场景识别指令，对场景识别指令中所携带的烹饪器具、用户喜好数据和烹饪方法等场景交互信息进行确认，终端设备获取用户输入的场景交互确认指令，并根据确认的结果控制加热单元工作。

请参阅图5，在一实施例中，提供一种语音交互装置，包括音频处理单元12、网络传输单元13及主控单元15。音频处理单元12用于获取语音控制指令，将语音控制指令转化为数字音频信号。网络传输单元13用于将数字音频信号发送给语音语义云平台。主控单元15接收语音语义云平台根据数字音频信号返回的场景识别指令，场景识别指令包括根据所述数字音频信号确定的对应的场景、及根据所述场景确定的场景交互信息。音频处理单元12还用于将场景识别指令转化成模拟音频信号并进行语音播放。

请参阅图6，在另一实施例中，该语音交互装置还包括显示单元18，用于将所述场景识别指令转化成文本进行显示。

进一步的，该语音交互装置还包括加热单元14，用于获取对应场景识别指令的场景交互确认指令，根据场景交互确认指令进行加热控制。

需要说明的是：上述实施例提供的语音交互装置的具体实施侧可以是家电终端或者移动终端等终端设备，在实现语音交互方法时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的语音交互装置与应用于终端设备的语音交互方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在一个实施例中，提供一种运行在图1所示的服务器100中的语音交互方法。请再次参阅图2，服务器100包括通过系统总线连接的处理器、内存储器、网络接口和非易失性存储介质。其中处理器用于实现计算功能和控制服务器工作的功能，该处理器被配置为执行一种与上述终端设备进行交互的语音交互方法，非易失性存储介质存储有操作系统、数据库和用于实现与上述终端设备进行交互的语音交互装置。网络接口用于连接终端设备200。请参阅图7，该语音交互方法包括如下步骤。

步骤201，获取终端设备发送的由语音控制指令转化的数字音频信号，将数字音频信号转换成文本。

终端设备接收用户通过语音方式输入的语音控制指令，并将模拟的语音控制指令转换成数字音频信号发送给服务器，以利用服务器独立的语音识别功能对语音控制指令进行识别。服务器将数字音频信号的语音控制指令转换成文本，以便于识别指令。

步骤203，将文本基于预设匹配规则进行匹配，根据匹配的结果确定语音控制指令对应的场景。

预设匹配规则可以是关键词匹配、语法匹配、语义结构匹配、映射语义模板等语音识别领域中已知的匹配规则。根据匹配的结果可以解析语音控制指令所表达的真实意思，从而确定其对应的场景。其中，根据用户对终端设备的使用需求，将对终端设备的操作和控制对应的场景主要区分为菜谱咨询场景、控制咨询场景和售后咨询场景三大类别。

步骤205，根据场景从数据库中获取相关的场景任务数据，根据场景任务数据确定的对应的场景交互信息，并形成包含场景交互信息的场景识别指令。

场景交互信息是指语音语义云平台通过终端设备获取语音控制指令，通过对语音控制指令进行解析而确定用户当前所咨询的场景，根据该场景进一步确定的与用户对应进行交互的信息，如菜谱咨询交互信息、控制咨询交互信息和售后咨询交互信息。场景任务数据是指与确定的对应的场景交互信息所需的相关数据，如对应菜谱咨询场景的场景任务数据包含已知食材、食物名称或者菜品的不同烹饪方法、可选的烹饪器具等，对应控制咨询场景的场景任务数据包含不同型号已知烹饪器具的使用方法、烹饪流程设置、保养方法等，对应售后咨询场景的场景任务数据包含不同功能烹饪器具的维修方式、售后期限、售后地址和联系电话等。

服务器通过将由语音控制指令转化的数字音频信号进行语音转文本、关键字匹配、语义理解后，确认与该数字音频信号所对应的场景，并输出包含场景交互信息的场景识别指令。其中，场景主要包括菜谱咨询场景、控制咨询场景和售后咨询场景，根据确定场景再进一步确定场景交互信息，可以减小确定场景交互信息的计算量，便于快速准确的确定与语音控制指令对应的场景交互信息后，形成场景确认指令输出给终端设备。可以理解的，通过该语音交互方法对终端设备进行语音控制可以根据不同的场景需求，而可选择地包括菜谱咨询场景、控制咨询场景和售后咨询场景的其中之一或者其中任意两者的组合，从而通过识别与该音频数字信息对应的场景并返回对应的场景识别指令。

步骤207，将场景识别指令输出至终端设备。

通过对语音控制指令的识别，确定用户所输入的语音控制指令对应的工作场景，从而判断出用户想对终端设备进行什么操作，输出对应的场景识别指令至终端设备，以实现与用户进行语音交互。

以上实施例所提供的语音交互方法，终端设备通过与服务器与之间进行通信，服务器具有相对独立的语音识别功能，从而大大增强了终端设备的语音识别能力；服务器的语音识别能力可相对终端设备独立进行完善升级，不受限于终端设备不同产品型号所适用的应用场景，通过场景的区分，可分类完善不同场景对应的语音数据库，通过先根据语音控制指令确定场景、再根据场景进一步确定场景交互信息，便于服务器更加快速准确识别语音控制指令，对语音控制指令中包含任何能够体现出与预设场景相关的词语均能够准确有效识别，从而对语音控制指令的输入形式更加灵活，可普遍统一提高不同终端设备的语音识别能力。其中，预设场景可根据用户对终端设备的使用需求的不同主要区分为菜谱咨询场景、控制咨询场景和售后咨询场景三大类别，将用户的基本使用需求通过分类相对独立化和系统化，便于针对不同场景分别完善对应的语音数据库，提高识别能力。

在又一实施例中，请参阅图8，步骤205，根据对应的工作场景从数据库中获取相关的场景任务数据，根据场景任务数据确定对应的场景交互信息，并形成包含待所述场景交互信息的场景识别指令的步骤包括：

步骤2051，根据对应的场景获取场景数据、设备数据和用户数据。

场景数据、设备数据和用户数据组成场景任务数据。其中，场景数据是指形成场景交互信息的基本必要数据，设备数据是指针对不同场景的烹饪器具，用户数据则是指根据用户的喜好设置、历史使用记录等进行分析而获得的针对不同用户的个性化数据。如菜谱咨询场景中，菜谱咨询交互信息的场景数据通常包括食材制作方法、食材搭配方法、菜品制作方法等基本必要数据，而设备数据是指与完成食材制作方法的可选烹饪器具或最佳烹饪器具，用户数据则包括根据用户的咸、辣、甜等偏好的设置或者历史设置而形成的适用于该用户的个性化数据。用户数据的采用可进一步使得终端设备智能化。

步骤2053，将所述场景数据、设备数据和用户数据输入规则引擎，通过所述规则引擎确定与所述场景数据、设备数据和用户数据对应的场景交互信息。

规则引擎是指嵌入在应用程序中的组件，实现将业务决策从应用程序代码中分离出来，并使用预定义的语义模块编写业务决策。接收数据输入，解释业务规则，并根据业务规则做出业务决策。本实施例中，业务是指不同场景。采用规则引擎便于完善根据复杂多变的语音控制指令准确确定场景交互信息的处理逻辑，通过规则引擎提供优化的处理逻辑，根据获得的场景数据、设备数据和用户数据进行筛选和组合，确定与所接收的语音控制指令对应的场景交互信息。如通过接收“想吃蛋糕”的语音控制指令，确定相应的场景为菜谱咨询场景，根据菜谱咨询场景进一步确定场景数据，该场景数据包括多种风味蛋糕制作方法、不同风味蛋糕制作食材的配比、对应的制作步骤；确定设备数据，该设备数据包括制作不同风味蛋糕可选用的烹饪器具、与选用不同烹饪器具对应的制作步骤；确定用户数据，该用户数据包括用户在历史烹饪操作中体现的口味偏好、烹饪器具使用记录；通过规则引擎的预设处理逻辑，可综合考虑用户数据、制作难易程度、其它用户的历史数据或者推荐数据等，确定出“采用XX型号的电饭煲制作奶油蛋糕的食材配比、制作步骤”作为场景交互信息。

步骤2055，根据场景交互信息形成场景识别指令。

根据场景交互信息形成场景识别指令是指根据场景交互信息形成待用户进行确认的指令。如根据“采用XX型号的电饭煲制作奶油蛋糕的食材配比、制作步骤”的场景交互信息，形成“您咨询的是否为采用XX型号的电饭煲制作奶油蛋糕的方法，其中采用XX型号的电饭煲制作奶油蛋糕的食材配比、制作步骤如下”；在另一种可选的实施例中，根据场景交互信息形成场景识别指令还可以是根据多条场景交互信息形成场景识别指令，如根据“采用XX型号的电饭煲制作奶油蛋糕的食材配比、制作步骤”的场景交互信息、以及“采用XX型号的电饭煲制作蜂蜜蛋糕的食材配比、制作步骤”的场景交互信息，形成“您咨询的是否为A：采用XX型号的电饭煲制作奶油蛋糕的方法，其中采用XX型号的电饭煲制作奶油蛋糕的食材配比、制作步骤如下；B：采用XX型号的电饭煲制作蜂蜜蛋糕的方法，其中采用XX型号的电饭煲制作蜂蜜蛋糕的食材配比、制作步骤如下”。根据场景交互信息形成场景识别指令可以根据不同的实际需求，如根据不同场景的特性而设置不同的规则。

请参阅图9，在再一个实施例中，提供一种语音交互装置，包括文本模块21、匹配模块23、指令模块25及输出模块27。文本模块21用于获取终端设备发送的语音控制指令的数字音频信号，将语音控制指令转换成文本。匹配模块23用于将文本基于预设匹配规则进行匹配，根据匹配的结果确定语音控制指令对应的场景。指令模块25用于根据场景从数据库中获取相关的场景任务数据，根据所述场景任务数据确定对应的场景交互信息，并形成包含场景交互信息的场景识别指令。输出模块27用于将场景识别指令输出至终端设备。

进一步的，指令模块25包括查找单元251、调用单元253和指令形成单元255。查找单元251用于根据场景获取场景数据、设备数据和用户数据。调用单元253用于将场景数据、设备数据和用户数据输入规则引擎，通过规则引擎确定与场景数据、设备数据和用户数据对应的场景交互信息。指令形成单元255用于根据场景交互信息形成场景识别指令。

需要说明的是：上述实施例提供的语音交互装置在实现语音交互方法时，仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将装置的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的语音交互装置与应用于服务器的语音交互方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

以上实施例所提供的语音交互装置，服务器具有相对独立的语音识别功能，终端设备通过将接收的语音控制指令发送给服务器，通过服务器提供的云计算方式完成终端设备的语音识别，从而大大增强了终端设备的语音识别能力；服务器的语音识别能力可相对终端设备独立进行完善升级，不受限于终端设备不同产品型号所在的应用场景，通过场景的区分，可分类完善数据库，从而对语音控制指令中包含任何能够体现出与预设场景需求相关的词语均能够准确有效识别，从而终端设备可支持更加灵活的语音控制指令的输入形式，该终端设备优选为家电设备或者对家电设备进行控制的移动终端，从而可普遍提高家电设备的语音识别能力。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本发明具体实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以所述权利要求的保护范围以准。

Claims

1.一种语音交互方法，其特征在于，包括：

获取语音控制指令，将所述语音控制指令转化为数字音频信号；

将所述数字音频信号发送给语音语义云平台；

接收所述语音语义云平台根据所述数字音频信号返回的场景识别指令，所述场景识别指令包括根据所述数字音频信号确定的对应的场景、及由根据所述场景从数据库中获取的场景任务数据确定的对应的场景交互信息；所述场景任务数据为确定的对应的场景交互信息所需的相关数据，包括：场景数据、设备数据和用户数据；所述场景数据为形成所述场景交互信息的基本必要数据，所述设备数据用于表征针对不同所述场景的烹饪器具，所述用户数据为至少根据用户喜好设置和历史使用记录确定的个性化数据；

将所述场景识别指令转化成模拟音频信号并进行语音播放。

2.如权利要求1所述的语音交互方法，其特征在于：所述接收所述语音语义云平台根据所述数字音频信号返回的场景识别指令之后，所述方法还包括：将所述场景识别指令转化成文本进行显示。

3.如权利要求1或2所述的语音交互方法，其特征在于：所述接收所述语音语义云平台根据所述数字音频信号返回的场景识别指令之后，所述方法还包括：获取对应所述场景识别指令的场景交互确认指令，根据所述场景交互确认指令进行加热控制。

4.一种语音交互装置，包括：

音频处理单元，用于获取语音控制指令，将所述语音控制指令转化为数字音频信号；

网络传输单元，用于将所述数字音频信号发送给语音语义云平台；

主控单元，接收所述语音语义云平台根据所述数字音频信号返回场景识别指令，所述场景识别指令包括根据所述数字音频信号确定的对应的场景、及由根据所述场景从数据库中获取的场景任务数据确定的对应的场景交互信息；所述场景任务数据为确定的对应的场景交互信息所需的相关数据，包括：场景数据、设备数据和用户数据；所述场景数据为形成所述场景交互信息的基本必要数据，所述设备数据用于表征针对不同所述场景的烹饪器具，所述用户数据为至少根据用户喜好设置和历史使用记录确定的个性化数据；

所述音频处理单元，还用于将所述场景识别指令转化成模拟音频信号并进行语音播放。

5.如权利要求4所述的语音交互装置，其特征在于：所述装置还包括显示单元，用于将所述场景识别指令转化成文本进行显示。

6.如权利要求4或5所述的语音交互装置，其特征在于：所述装置还包括加热单元，用于获取对应所述场景识别指令的场景交互确认指令，根据所述场景交互确认指令进行加热控制。

7.一种语音交互方法，其特征在于，包括：

获取终端设备发送的由语音控制指令转化的数字音频信号，将所述数字音频信号转换成文本；

将所述文本基于预设匹配规则进行匹配，根据匹配的结果确定所述语音控制指令对应的场景；

根据所述场景从数据库中获取相关的场景任务数据，根据所述场景任务数据确定对应的场景交互信息，并形成包含所述场景交互信息的场景识别指令；所述场景任务数据为确定的对应的场景交互信息所需的相关数据，包括：场景数据、设备数据和用户数据；所述场景数据为形成所述场景交互信息的基本必要数据，所述设备数据用于表征针对不同所述场景的烹饪器具，所述用户数据为至少根据用户喜好设置和历史使用记录确定的个性化数据；

将所述场景识别指令输出至所述终端设备。

8.如权利要求7所述的语音交互方法，其特征在于，所述根据所述场景从数据库中获取相关的场景任务数据，根据所述场景任务数据确定对应的场景交互信息，并形成包含所述场景交互信息的场景识别指令的步骤包括：

根据所述场景获取所述场景数据、设备数据和用户数据；

将所述场景数据、设备数据和用户数据输入规则引擎，通过所述规则引擎确定与所述场景数据、设备数据和用户数据对应的场景交互信息；

根据所述场景交互信息形成场景识别指令。

9.一种语音交互装置，包括：

文本模块，获取终端设备发送的由语音控制指令转化的数字音频信号，将所述数字音频信号转换成文本；

匹配模块，用于将所述文本基于预设匹配规则进行匹配，根据匹配的结果确定所述语音控制指令对应的场景；

指令模块，用于根据所述场景从数据库中获取相关的场景任务数据，根据所述场景任务数据确定对应的场景交互信息，并形成包含所述场景交互信息的场景识别指令；所述场景任务数据为确定的对应的场景交互信息所需的相关数据，包括：场景数据、设备数据和用户数据；所述场景数据为形成所述场景交互信息的基本必要数据，所述设备数据用于表征针对不同所述场景的烹饪器具，所述用户数据为至少根据用户喜好设置和历史使用记录确定的个性化数据；

输出模块，用于将所述场景识别指令输出至所述终端设备。

10.如权利要求9所述的语音交互装置，其特征在于：所述指令模块包括：

查找单元，用于根据所述场景获取所述场景数据、设备数据和用户数据；

调用单元，用于将所述场景数据、设备数据和用户数据输入规则引擎，通过所述规则引擎确定与所述场景数据、设备数据和用户数据对应的场景交互信息；

指令形成单元，用于根据所述场景交互信息形成场景识别指令。

11.一种存储介质，该存储介质中存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1-3、7-8中任意一项所述的语音交互方法。

12.一种语音交互系统，其特征在于，包括通信连接的终端设备及语音语义云平台，

所述终端设备用于获取语音控制指令，将所述语音控制指令转化为数字音频信号，将所述数字音频信号发送给语音语义云平台，接收所述语音语义云平台根据所述数字音频信号返回场景识别指令，所述场景识别指令包括根据所述数字音频信号确定的对应的场景、及由根据所述场景从数据库中获取的场景任务数据确定的对应的场景交互信息，将所述场景识别指令转化成模拟音频信号并进行语音播放；所述场景任务数据为确定的对应的场景交互信息所需的相关数据，包括：场景数据、设备数据和用户数据；所述场景数据为形成所述场景交互信息的基本必要数据，所述设备数据用于表征针对不同所述场景的烹饪器具，所述用户数据为至少根据用户喜好设置和历史使用记录确定的个性化数据；

所述语音语义云平台用于获取终端设备发送的由语音控制指令转化的数字音频信号，将所述数字音频信号转换成文本，将所述文本基于预设匹配规则进行匹配，根据匹配的结果确定所述语音控制指令对应的场景，根据所述场景从数据库中获取相关的场景任务数据，根据所述场景任务数据确定对应的场景交互信息，并形成包含所述场景交互信息的场景识别指令，及将所述场景识别指令输出至所述终端设备。