CN115206306A

CN115206306A - 语音交互方法、装置、设备及系统

Info

Publication number: CN115206306A
Application number: CN202110314068.7A
Authority: CN
Inventors: 王加芳; 陈浩楠; 吴纲律; 庄博宇; 李博韧; 古鉴
Original assignee: Alibaba Singapore Holdings Pte Ltd
Current assignee: Alibaba Innovation Co
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-10-18

Abstract

公开了一种语音交互方法、装置、设备及系统。获取图像数据，图像数据包含表征设备所处场景的信息；基于图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户；当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图；当检测到所述用户发出语音或所述用户具有发音意图，则启动针对所述设备的交互服务。由此，无需用户说出唤醒词即可激活设备的交互服务，且可以降低误唤醒率。

Description

语音交互方法、装置、设备及系统

技术领域

本公开涉及语音交互领域，特别是涉及一种语音交互方法、装置、设备及系统。

背景技术

语音交互是人机交互发展到目前的一种较为前沿的交互方式。语音交互就是用户通过自然语言给机器下指令，以达成自己的目的的过程。

现有技术中，语音唤醒是实现语音交互的前提。

语音唤醒是指由用户说出特定的唤醒词，设备响应于检测到用户说出唤醒词，从休眠状态切换到工作状态。设备被唤醒后才开始为用户提供语音交互服务，如将语音上传给云端进行语音识别和语义理解，然后根据识别结果执行相应反馈。

基于唤醒词的语音唤醒方式有悖于用户的语言表达习惯。并且，在多轮对话交互场景中，往往需要用户重复说出唤醒词以唤醒设备，该过程显得冗余且繁琐，影响用户交互体验。

通过在唤醒后设置一个免唤醒时长，可以在理论上减少用户说出唤醒词的次数。然而，这并非真正意义上的免唤醒。这是因为，用户无法感知免唤醒时长具体是多久，因而也就无法知道什么时候可以直接说话。从实际操作来讲，用户还是会继续说唤醒词；并且，设备持续开麦收音会造成大量的语音上传至云端，增加云端链路传输压力，相应增加误唤醒。

因此，需要一种行之有效的免唤醒语音交互方案。

发明内容

本公开要解决的一个技术问题是提供一种行之有效的免唤醒语音交互方案。

根据本公开的第一个方面，提供了一种语音交互方法，用以与一设备交互，包括：获取图像数据，图像数据包含表征设备所处场景的信息；基于图像数据判断场景中是否存在期望与设备进行语音交互的用户；当判定场景中存在用户，则检测用户是否发出语音以及/或者用户是否具有发音意图；当检测到用户发出语音或用户具有发音意图，则启动针对设备的交互服务。

根据本公开的第二个方面，提供了一种语音交互方法，包括：接收设备上传的音频数据，音频数据是设备在基于用于表征设备所处场景的图像数据判定场景中存在期望与设备进行语音交互的用户，且检测到用户发出语音或具有发音意图的情况下上传的；对音频数据进行语音识别；基于语音识别结果判断用户是否与设备进行语音交互；当判定用户未与设备进行语音交互，则向设备发送拾音终止指令。

根据本公开的第三个方面，提供了一种语音交互方法，包括：接收第一设备上传的音频数据，音频数据是第一设备在基于用于表征第二设备所处场景的图像数据判定场景中存在期望与第二设备进行语音交互的用户，且检测到用户发出语音或用户具有发音意图的情况下发送的；对音频数据进行语音识别；基于语音识别结果判断用户是否与第二设备进行语音交互；当判定用户未与第二设备进行语音交互，则向第一设备发送拾音终止指令。

根据本公开的第四个方面，提供了一种语音交互方法，包括：基于用于表征设备所处场景的图像数据判断场景中是否存在期望与设备进行语音交互的用户；当判定场景中存在用户，则启动针对设备的交互服务。

根据本公开的第五个方面，提供了一种语音交互系统，包括：第一设备，用于对第一设备所处场景进行成像，基于得到的图像数据判断场景中是否存在期望与第一设备进行语音交互的用户，当判定场景中存在用户，则检测用户是否发出语音以及/或者用户是否具有发音意图，当检测到用户发出语音或用户具有发音意图，则将采集到的音频数据发送至服务器；服务器，用于接收第一设备发送的音频数据，对音频数据进行语音识别，基于语音识别结果判断用户是否与第一设备进行语音交互，当判定用户未与第一设备进行语音交互，则向第一设备发送拾音终止指令，第一设备还用于响应于接收到拾音终止指令，停止采集音频数据。

根据本公开的第六个方面，提供了一种语音交互系统，包括：第二设备；第一设备，与所述第二设备布置在同一场景中，所述第一设备用于对所述场景进行成像，基于得到的图像数据判断所述场景中是否存在期望与所述第二设备进行语音交互的用户，当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图，当检测到所述用户发出语音或所述用户具有发音意图，则将采集到的音频数据上传至服务器；服务器，用于接收所述第一设备发送的音频数据，对所述音频数据进行语音识别，基于语音识别结果判断所述用户是否与所述第二设备进行语音交互，当判定所述用户未与所述第二设备进行语音交互，则向所述第一设备发送拾音终止指令，所述第一设备还用于响应于接收到所述拾音终止指令，停止采集音频数据。

根据本公开的第七个方面，提供了一种智能设备，包括：通信模块；拾音模块；成像模块，用于对所述智能设备所处场景进行成像，得到图像数据；处理器，用于基于所述图像数据判断所述场景中是否存在期望与所述智能设备进行语音交互的用户，当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图，当检测到所述用户发出语音或所述用户具有发音意图，则通过所述通信模块将所述拾音模块采集到的音频数据上传至服务器，由所述服务器对所述音频数据进行语音识别。

根据本公开的第八个方面，提供了一种智能设备，适于与物联网设备布置在同一场景中，所述智能设备包括：通信模块；拾音模块；成像模块，用于对所述场景进行成像，得到图像数据；处理器，用于基于所述图像数据判断所述场景中是否存在期望与所述物联网设备进行语音交互的用户，当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图，当检测到所述用户发出语音或所述用户具有发音意图，则通过所述通信模块将所述拾音模块采集到的音频数据上传至服务器，由所述服务器对所述音频数据进行语音识别。

根据本公开的第九个方面，提供了一种语音交互装置，包括：获取模块，用于获取图像数据，图像数据包含表征设备所处场景的信息；判断模块，用于基于图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户；检测模块，用于当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图；启动模块，用于当检测到所述用户发出语音或所述用户具有发音意图，则启动针对所述设备的交互服务。

根据本公开的第十个方面，提供了一种语音交互装置，包括：接收模块，用于接收设备上传的音频数据，所述音频数据是所述设备在基于用于表征设备所处场景的图像数据判定场景中存在期望与设备进行语音交互的用户，且检测到所述用户发出语音或具有发音意图的情况下上传的；语音识别模块，用于对所述音频数据进行语音识别；判断模块，用于基于语音识别结果判断所述用户是否与所述设备进行语音交互；发送模块，用于当判定所述用户未与所述设备进行语音交互，则向所述设备发送拾音终止指令。

根据本公开的第十一个方面，提供了一种语音交互装置，包括：接收模块，用于接收第一设备上传的音频数据，所述音频数据是所述第一设备在基于用于表征第二设备所处场景的图像数据判定场景中存在期望与第二设备进行语音交互的用户，且检测到所述用户发出语音或所述用户具有发音意图的情况下发送的；语音识别模块，用于对所述音频数据进行语音识别；判断模块，用于基于语音识别结果判断所述用户是否与所述第二设备进行语音交互；发送模块，用于当判定所述用户未与所述第二设备进行语音交互，则向所述第一设备发送拾音终止指令。

根据本公开的第十二个方面，提供了一种语音交互装置，包括：判断模块，用于基于用于表征设备所处场景的图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户；启动模块，用于当判定所述场景中存在所述用户，则启动针对所述设备的交互服务。

根据本公开的第十三个方面，提供了一种计算设备，包括：处理器；以及存储器，其上存储有可执行代码，当可执行代码被处理器执行时，使处理器执行如上述第一方面至第四方面中任一方面所述的方法。

根据本公开的第十四个方面，提供了一种非暂时性机器可读存储介质，其上存储有可执行代码，当可执行代码被电子设备的处理器执行时，使处理器执行如上述第一方面至第四方面中任一方面所述的方法。

由此，根据本公开的示例性实施例，在基于图像数据判断场景中是否存在期望与设备进行语音交互的用户，且检测到该用户发出语音或该用户具有发音意图的情况下，才启动针对设备的交互服务，如此无需用户说出唤醒词即可激活设备的交互服务，且可以降低误唤醒率。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1示出了根据本公开一个实施例的语音交互方法的示意性流程图。

图2示出了根据本公开一个实施例的应用场景示意图。

图3示出了根据本公开另一个实施例的语音交互方法的示意性流程图。

图4示出了根据本公开另一个实施例的语音交互方法的示意性流程图。

图5示出了图4所示语音交互方法的一种应用场景示意图。

图6示出了根据本公开一个实施例的语音交互系统的结构示意图。

图7示出了根据本公开另一个实施例的语音交互系统的结构示意图。

图8示出了根据本公开一个实施例的智能设备的结构示意图。

图9示出了根据本公开一个实施例的语音交互装置的结构示意图。

图10示出了根据本公开另一个实施例的语音交互装置的结构示意图。

图11示出了根据本公开另一个实施例的语音交互装置的结构示意图。

图12示出了根据本公开一个实施例的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本公开提出了一种借助图像数据，优选为借助包括图像数据和音频数据的多模态数据，实现的免唤醒语音交互方案。免唤醒是指不需要用户说出唤醒词即可直接与设备进行交互。即，本公开无需用户说出唤醒词即可激活设备的语音交互流程。

需要说明的是，本公开涉及的数据(如图像数据、音频数据以及通过对图像数据/音频数据进行分析得到的其他数据)的获取及使用均是在经过授权后进行的。

图1示出了根据本公开一个实施例的语音交互方法的示意性流程图。本公开的语音交互方法用以与一设备交互，该设备可以是具备成像功能的设备(即下文述及的第一设备)，也可以是不具备成像功能的设备(即下文述及的第二设备)。

图1所示方法可以由具备成像功能(也即图像采集功能)的设备(特别是同时具备成像功能和拾音功能的多模态设备)执行。为了便于区分，该设备可以称为第一设备。第一设备可以是具有摄像头和麦克风的音视频采集设备，如带摄像头的智能音箱。

第一设备可以通过执行图1所示方法实现自身免唤醒语音交互。

第一设备也可以通过执行图1所示方法实现第二设备的免唤醒。即，可以借助第一设备的多模态数据采集功能，为一个或多个(不支持多模态数据采集功能的)第二设备实现免唤醒语音交互。

第二设备可以是指不具备成像功能的设备，如只具备拾音功能的单模态设备，或连拾音功能都不具备的设备。例如，第二设备可以包括但不限于智能插座、智能按钮、智能厨具、智能灯泡、智能电视等物联网设备。

图1所示方法也可以由不具备成像功能的设备(即第二设备)执行，第二设备可以借助第一设备的成像功能(可选地还可以借助第一设备的拾音功能)实现自身的免唤醒语音交互。

下面参考图1对本公开语音交互方法的实现原理做示例性说明。

参见图1，在步骤S110，获取图像数据，图像数据包含表征设备所处场景的信息。

此处述及的设备是指能够为用户提供语音交互服务的设备，即可以响应于用户的语音指令执行相应操作的设备。该设备可以是上文述及的具备成像功能的第一设备，也可以是上文述及的不具备成像功能的第二设备。在该设备具备成像功能时，图像数据可以由该设备拍摄得到，在该设备不具备成像功能时，图像数据可以由与该设备处于同一场景中的其他设备拍摄得到。

用于表征设备所处场景的图像数据，可以是指对设备所处场景进行成像得到的场景图像。设备所处场景可以是指设备附近的空间区域，或者在设备特定方向上(如设备前方)的空间区域。

可选地，图像数据可以是指设备所处场景中与用户活动范围对应的场景部分的图像数据。即，可以通过对设备所处场景中与用户活动范围对应的场景部分进行成像，得到图像数据。

在步骤S120，基于图像数据判断场景中是否存在期望与设备进行语音交互的用户。

通过对图像数据进行分析，可以得到场景中用户的脸部图像、神态举止、与设备间距离、与设备是否接触等多维度的特征信息，可以根据这些特征信息判断场景中出现的部分或所有用户是否期望与设备进行语音交互，进而得出场景中是否存在期望与设备进行语音交互的特定用户。

例如，肢体动作是人们表达思想的一种方式，与说话相比，肢体动作的表达方式甚至更符合人们的表达习惯。用户在与设备进行语音交互时，通常会无意识地通过肢体动作来表明用户的交互意图。例如，用户在针对智能音箱说出播放歌曲的指令时，通常眼睛会注视音箱或朝音箱所在的方向说出指令；用户在询问智能电饭煲饭菜是否烧好时，也会下意识地将头扭向或视线转向智能电饭煲。

因此，本公开可以基于图像数据识别场景中用户的肢体动作，根据场景中用户的肢体动作的识别结果，判断场景中是否存在期望与设备进行语音交互的用户。判断方式可以是肢体动作符合预设模式，如可以根据场景中用户的肢体动作的识别结果，判断场景中是否存在肢体动作指示设备的用户，肢体动作指示设备的用户即为期望与设备进行语音交互的用户。

肢体动作可以包括但不限于：用户眼睛的注视方向(即视线)、脸部朝向、头部扭转动作、用户与设备间的距离和/或距离变化信息、用户的肢体动作(如手臂/手掌/手指的指向)等诸多项中的一项或多项。

肢体动作指示设备，可以包括但不限于：用户眼睛的注视方向指向设备；用户脸部朝向设备；用户的手指/手掌/胳膊指向设备；用户朝设备方向行进，如用户与设备间的距离变小等诸多项中的一项或多项。

作为示例，在执行步骤S120之前，可以首先根据图像数据判断场景中是否存在与设备间距离小于阈值(如1m)的用户，在判定场景中存在与设备间距离小于阈值的用户的情况下，再执行步骤S120，如再判断该用户的肢体动作是否指示设备。

另外，也可以通过其他方式判断场景中是否存在期望与设备进行语音交互的用户。例如，可以通过图像数据中用户的脸部图像识别用户的身份信息，基于该身份信息判断用户是否为之前使用过设备的用户，如是否为已在设备上进行注册的用户，当判断结果为用户是之前使用过设备的用户，则判定该用户为期望与设备进行语音交互的用户。

在基于图像数据判定场景中不存在期望与设备进行语音交互的用户的情况下，可以返回步骤S120，根据实时采集到的图像数据继续判断场景中是否存在期望与设备进行语音交互的用户。

基于步骤S120判定的期望与设备进行语音交互的用户，可能并非真正期望与设备进行语音交互的用户。为此，本公开提出，当基于步骤S120判定场景中存在期望与设备进行语音交互的用户，则可以通过执行步骤S130，检测该用户(即步骤S120判定的期望与设备进行语音交互的用户)是否发出语音以及/或者该用户是否具有发音意图，来进一步判断该用户是否期望与设备进行语音交互，以降低误唤醒率。

以步骤S120通过识别用户的肢体动作判断场景中是否存在期望与设备进行语音交互的用户为例，在用户的肢体动作指示设备，且该用户发出语音或具有发音意图，那么可以大概率认定该用户期望与设备进行语音交互，如此可以降低误唤醒率。

在检测用户是否发出语音以及/或者用户是否具有发音意图时，可以仅基于图像数据进行检测，也可以仅基于对设备所处场景进行音频采集得到的音频数据进行检测，还可以同时结合图像数据和音频数据进行检测。

即，可以基于音频数据和/或图像数据，判断该用户是否发出语音以及/或者该用户是否具有发音意图。由此，本公开还可以获取音频数据。其中，在语音交互方法针对的设备具备拾音功能时，可以由该设备通过音频采集得到上述音频数据，在该设备不具备拾音功能时，也可以由与该设备处于同一场景中的其他设备通过音频采集得到上述音频数据。

作为示例，图1所示的语音交互方法可以由具备拾音功能的第一设备执行，初始情况下第一设备的拾音功能可以处于关闭状态，可以在基于步骤S120判定场景中存在期望与设备进行语音交互的用户的情况下，再开启第一设备的拾音功能，采集音频数据，以便结合音频数据判断该用户是否发出语音以及/或者该用户是否具有发音意图，同时降低设备消耗。或者，初始情况下执行图1所示语音交互方法的第一设备的图像采集功能和拾音功能也可以同时处于开启状态，其中可以仅保存判定为存在期望与设备进行语音交互的用户所利用的图像数据的采集时间附近(如与采集时间的时间差在预定阈值时间范围内)的音频数据，如此可以在满足需求的情况下降低设备端的数据存储压力。

以基于图像数据判断该用户是否发出语音以及/或者该用户是否具有发音意图为例，可以通过识别图像数据(如包括多帧图像数据的序列图像数据)中该用户的脸部动作或姿态，判断该用户是否发出语音以及/或者该用户是否具有发音意图。例如，可以通过对多帧图像数据中该用户的脸部图像进行检测，并分析该用户嘴唇运动信息，并据此判断该用户是否发出语音以及/或者该用户是否具有发音意图，如当该用户的嘴唇有运动迹象，则可以判定该用户具有唇动说话意图，并可以在基于连续多帧图像数据检测到用户的嘴唇有持续运动迹象时，判定该用户说话。可选地，用于采集音频数据的设备的拾音功能默认可以是处于关闭状态，可以在首次检测到用户的嘴唇有运动迹象(如嘴唇张开)时，判定用户具有说话意图，再开启设备拾音功能，以在降低设备功耗的同时，尽量采集用户完整的发音数据。

以基于音频数据判断该用户是否发出语音以及/或者该用户是否具有发音意图为例，可以通过检测音频数据中是否存在语音数据，判断该用户是否发出语音。例如，当未检测到语音数据可以判定该用户没有发出语音。

以基于图像数据和音频数据检测该用户是否发出语音为例，可以基于图像数据确定用以识别该用户(即步骤S120判定的期望与设备进行语音交互的用户)的身份的属性信息，并确定音频数据中语音数据的语音特征，然后判断语音特征所表征的用户身份是否与属性信息所表征的用户身份一致，当判定结果为一致，则可以判定该用户发出语音。

此处述及的语音特征可以是但不限于音色、声纹等能够在一定程度上表征用户的身份的语音特征。属性信息是指基于图像数据确定的能够在一定程度上表征用户的身份的信息，如可以是用于表征用户所属群体(如是男性还是女性、是幼儿还是青年等)的信息。可以通过判断属性信息所表征的身份与语音特征所表征的身份是否一致(或是否存在冲突)，判断用户是否发出语音以及/或者用户是否具有发音意图。例如，如果基于图像数据确定步骤S120判定的期望与设备交互的用户为儿童，但获取的音频数据的语音特征表征的是成年男性发出的语音，则可以判定该用户(即儿童)没有发出语音。

另外，属性信息也可以是在基于图像属性确定了所述用户的身份后进一步确定的该用户的语音特征，如此可以直接将该语音特征与从获取的音频数据中提取的语音特征进行比较，通过比较二者是否相近来判断该用户是否发出语音。

判断基于音频数据确定的语音特征是否与基于图像数据确定的用以识别该用户的身份的属性信息一致，可以视为对音频数据和图像数据的对齐检测，如此可以降低误唤醒率。

作为示例，可以预先存储使用过设备的用户的诸如脸部图像、音色、声纹等身份信息，在场景中存在期望与设备进行语音交互的用户时，可以根据图像数据判断该用户是否为之前使用过设备的用户。当该用户是之前使用过设备的用户，则可以提取预先存储的该用户的音色和/或声纹，并将基于当前采集到的音频数据确定的音色和/或声纹与提取的音色和/或声纹进行比对，当判定结果为一致，则可以判定该用户发出了语音。当该用户不是之前使用过设备的用户，则可以判断基于采集到的音频数据确定的音色和/或声纹等语音特征，是否与基于图像数据确定的用以识别该用户的属性信息相匹配，也即判断语音特征所表征的用户身份是否与属性信息所表征的用户身份一致，并据此判断该用户是否发出语音，当判定该用户发出语音，还可以存储该用户的诸如脸部图像、音色、声纹等身份信息，以便后续判断。

作为示例，可以对音频数据中的语音数据进行(频谱)特征提取，得到语音(频谱)特征数据；对图像数据中用户的脸部图像进行特征提取，得到脸部图像特征数据；将语音(频谱)特征数据和脸部图像特征数据输入预先训练好的机器学习模型，得到机器学习模型输出的用于表征用户是否发出语音的识别结果。机器学习模型可以是但不限于LSTM时序网络。

本公开可以采取上述一种或多种方式来检测用户是否发出语音以及/或者用户是否具有发音意图。在采取上述多种方式检测用户是否发出语音以及/或者用户是否具有发音意图时，可以为不同检测方式的检测结果设置用于表征检测结果可信度的权重值，然后对所有检测方式的相同检测结果的权重值进行累加，将数值大的检测结果作为最终的检测结果。也可以在上述多种检测方式的检测结果均为用户发出语音或者用户具有发音意图时，才判定用户发出语音或者用户具有发音意图。

当没有检测到用户发出语音或用户具有发音意图，则可以返回步骤S120，根据实时采集到的图像数据继续判断场景中是否存在期望与设备进行语音交互的用户。

在步骤S140，当检测到用户发出语音或用户具有发音意图，则启动针对设备的交互服务。启动针对设备的交互服务，也即唤醒或激活设备的交互流程，以为用户提供交互服务。

交互服务可以是单纯基于语音数据实现的交互服务，即传统的语音交互服务。交互服务也可以是基于连同语音数据在内的多模态数据实现的交互服务，即多模态交互服务。

以单纯基于语音数据实现的交互服务(即语音交互服务)为例，语音交互流程一般包括语音识别、语义解析、指令生成、指令执行等步骤。

以在设备端执行整个交互流程为例，启动针对设备的交互服务可以包括：由设备对通过拾音得到的音频数据(或语音数据)进行语音识别，对语音识别结果进行语义解析，识别用户操作意图，控制设备执行与用户操作意图对应的操作。

以由设备端和云端协作执行交互流程为例，启动针对设备的交互服务可以包括：将通过拾音得到的音频数据(或语音数据)上传给服务器，由服务器进行语音识别，对语音识别结果进行语义解析，识别用户操作意图，生成与用户操作意图对应的交互指令，并将交互指令下发给设备，由设备执行与交互指令对应的操作。

为了进一步降低误唤醒率，还可以在对语音识别结果进行语义解析之前，判断用户是否与设备进行语音交互。判断用户是否与设备进行语音交互，也即判断用户是否与设备进行对话，也即针对用户进行人机对话意图识别。其中，可以基于语音识别得到的ASR文本结果判断用户当前是否与设备进行语音交互。当判定用户未与设备进行语音交互，则可以结束交互服务，即设备可以返回至初始状态(未唤醒状态)，此时可以返回步骤S110。

以启动针对设备的多模态交互服务为例，多模态交互流程可以包括语音识别、用户属性分析、人机对话意图判断、语义解析、指令生成、指令执行等步骤。其中，当判定用户未与设备对话，则可以结束交互服务，即设备可以返回至初始状态(未唤醒状态)，此时可以返回步骤S110。

考虑到语音录制环境的噪音对人机对话意图判断存在影响，例如录制的语音数据可能包含电视剧播放的声音、打电话聊天或者噪音信号，噪音环境下的纯语音识别(ASR/NLU)会受到较大干扰，导致线上识别率下降，为了进一步降低噪音环境下的误唤醒，本公开提出，可以通过用户属性分析，获取与用户(即实际说话人)相关的多模态信息，如说话人的方位(如人脸朝向、声源方向)、说话人与设备间的距离、人脸属性、唇动特征等多模态信息，结合实际说话人的多模态信息降低噪音环境下的误唤醒，增强人机对话意图识别效果。

以在设备端执行整个交互流程为例，启动针对设备的多模态交互服务可以包括：由设备对通过拾音得到的音频数据(或语音数据)进行语音识别，并基于图像数据确定与用户的身份、动作以及姿态中的任一种相关的属性信息(如用户身份属性、眼神朝向、声源方向、用户与设备间的距离、人脸属性、唇动特征等多模态信息)；基于语音识别结果(即基于语音识别得到的ASR文本结果)和属性信息，判断用户是否与设备进行语音交互；当判定结果为用户与设备进行语音交互，则通过对语音识别结果进行语义解析，识别用户操作意图，生成与用户操作意图对应的交互指令；最后由设备执行与交互指令对应的操作。其中，设备在对音频数据进行语音识别之前，还可以基于确定的属性信息对音频数据进行处理，以增强音频数据中与用户对应的音频部分而过滤其他噪音。例如，可以根据人脸朝向和距离，增强人脸附近的语音信号而过滤其它方向的声音；也可以根据用户身份属性增强说话人对应的语音信号，即根据用户身份属性可以确定说话人的身份，如此可以将与说话人的身份对应的音频信号增强，将不属于说话人的噪音抑制，由此可以针对基于用户属性信息(即多模态信息)对音频数据进行处理后的音频数据进行语音识别，从而可以降低噪音对语音识别的影响，提高ASR文本结果的准确性。

以由设备端和云端协作执行交互流程为例，启动针对设备的多模态交互服务可以包括：设备将通过拾音得到的音频数据(或语音数据)以及基于图像数据确定的与用户相关的属性信息(如用户身份属性、眼神朝向和用户与设备间的距离等信息)上传给服务器；由服务器进行语音识别，基于语音识别结果(即基于语音识别得到的ASR文本结果)和属性信息，判断用户是否与设备进行语音交互；当判定结果为用户与设备进行语音交互，则通过对语音识别结果进行语义解析，识别用户操作意图，生成与用户操作意图对应的交互指令，并将交互指令下发给设备，由设备执行与交互指令对应的操作。其中，服务器在对音频数据进行语音识别之前，还可以基于确定的属性信息对音频数据进行处理，以增强音频数据中与用户对应的音频部分而过滤其他噪音。例如，可以根据人脸朝向和距离，增强人脸附近的语音信号而过滤其它方向的声音；也可以根据用户身份属性增强说话人对应的语音信号，即根据用户身份属性可以确定说话人的身份，如此可以将与说话人的身份对应的音频信号增强，将不属于说话人的噪音抑制，由此可以针对基于用户属性信息(即多模态信息)对音频数据进行处理后的音频数据进行语音识别，从而可以降低噪音对语音识别的影响，提高ASR文本结果的准确性。

由此，通过用户属性分析获取的多模态信息，一方面可以用于对拾音得到的音频数据进行处理，降低噪音对语音识别的影响，提高ASR文本结果的准确性，另一方面可以与语音识别得到的ASR文本结果相结合，用于人机对话意图识别，增强人机对话意图识别效果。

以由设备采集音频数据、服务器接收设备上传的音频数据为例，在判定用户未与设备进行语音交互时，服务器还可以向设备发送拾音终止指令，以降低设备资源消耗，同时降低设备与服务器间的数据传输量。

作为示例，本公开还可以基于图像数据确定与用户相关的诸如表情、用以识别用户身份的信息、眼神朝向和用户与设备间的距离等属性信息，在执行步骤S140时，可以将属性信息连同音频数据一同上传至服务器，由服务器基于对音频数据的语音识别结果和属性信息，判断用户是否与设备进行语音交互。例如，服务器可以将语音识别结果和属性信息输入预先训练好的人机对话意图识别模型，由人机对话意图识别模型判断用户是否与设备进行语音交互。

可选地，在判定场景中存在期望与设备进行语音交互的用户的情况下，还可以基于图像信息识别该用户的身份信息，如可以通过人脸检测、指纹识别、视网膜识别等技术识别用户的身份信息；并对该用户的身份信息进行验证，只有身份验证通过才启动针对设备的交互服务。如此可以使得只有身份符合特定条件的用户(如成年人，或已在设备上进行注册的用户，注册内容涵盖声纹ID和人脸ID)才能唤醒设备。

可选地，在对语音识别结果进行语义解析之前，或者在对上传的音频(语音)数据进行语音识别之前，或者在上传音频数据之前，还可以对判定该用户期望与设备进行语音交互所利用的图像数据的采集时间(可以是一个时间点或时间段)，以及音频数据的采集时间(同样可以是一个时间点或时间段)，是否同步进行判断，即判断这两个采集时间是否接近，如这两个采集时间的时间差是否在预定阈值时间范围内，或者这两个采集时间是否存在重叠期间。当时间差在预定阈值时间范围内，或者存在重叠期间，再执行后续语音交互流程。

图2示出了根据本公开一个实施例的应用场景示意图。

如图2所示，在场景一中，用户A与用户B进行对话，此时用户A和用户B的视线均未指向智能音箱。基于本公开的语音交互方法，智能音箱将处于休眠态，即不会启动智能音箱的语音交互服务。

在场景二中，用户B视线指向智能音箱，且用户B发出语音。基于本公开的语音交互方法，智能音箱将处于激活态，即启动智能音箱的语音交互服务。

由此，用户无需说出唤醒词而只需要在说出语音交互指令时，做出指示智能音箱的肢体动作，如注视智能音箱，即可直接与智能音箱进行语音交互。

图3示出了根据本公开另一个实施例的语音交互方法的示意性流程图。图3所示方法可以由设备和服务器协作执行。其中，设备可以是具备图像采集功能和音频采集功能的多模态设备，也即第一设备，如智能音箱。

在本实施例中，设备的状态可以包括初始态、倾听态以及激活态。

1、初始态

在初始态下，设备仅启动图像采集功能，针对采集到的图像信号可以进行人脸检测，并识别用户视线方向，以判断用户是否注视设备。可选地，可以在用户靠近设备时(如用户与设备间距离小于阈值)，再进行人脸检测，如人脸眼神识别。

2、倾听态

当检测到用户注视设备，则设备进入倾听态。进入倾听态后，设备开启拾音功能，采集音频信号。其中，在初始态或倾听态，也可以执行基于图像信号确定用以识别用户的身份的属性信息的操作。

在倾听态下，可以针对音频信号提取语音频谱特征，并针对图像信号提取人脸图像特征，然后将特征提取结果送入LSTM时序网络中进行说话识别。可选的，该网络可以识别当前环境是否为噪音环境，以提升噪音环境的效果。

3、激活态

当识别到用户说话，则设备进入激活态，激活态也即唤醒态。

设备进入激活态后，将用户属性、语音上传至云端(即服务器)，由云端使用语音识别算法识别语音内容，即ASR文本。

云端可以将原始语音频谱特征、ASR文本以及人脸表情等属性信息，作为人机对话意图模块算法的输入，综合判断用户是否在和设备聊天。

当该过程的判断结果为用户不是和设备聊天(即用户未和设备进行交互)，则下发指令至端上进行闭麦，不再拾音。此时设备可以返回初始态。

当该过程的判断结果为用户在和设备聊天，则可以通过语义理解算法，识别用户操作意图，生成与用户操作意图对应的指令，并下发给设备以执行指令。

由此，本公开可以在识别到人脸注视设备时才开始切换设备状态，然后识别人脸、眼神、音视频对齐等多模态算法方案综合判断是否开启交互服务，降低云端数据传输量。并且，在语音交互实现过程中通过人机意图识别算法，判断用户是否和设备说话，可以大幅降低误唤醒。整个过程用户无需额外学习和感知，只需要肢体动作指示设备，如注视设备，就可以随时和设备聊天，更符合自然人交互的方式。

图4示出了根据本公开另一个实施例的语音交互方法的示意性流程图。在本实施例中，可以借助第一设备实现第二设备的免唤醒语音交互。关于第一设备、第二设备可以参见上文相关描述，此处不再赘述。

需要说明的是，第一设备和第二设备可以布置在同一场景中的不同位置。可选地，第二设备可以是位置通常固定的智能家电设备，如智能电视、智能厨具。第一设备可以是可移动的设备，如智能音箱。在将第一设备和第二设备布置在同一场景中后，第一设备可以基于自身位置以及通过对第二设备成像得到的图像数据，确定第一设备和第二设备间的相对位置关系，即对第一设备而言第二设备的位置是已知的。

参见图4，在步骤S310，可以由第一设备采集用于表征第二设备所处场景的图像数据。例如，可以由第一设备对第二设备附近的空间区域进行成像，以得到图像数据。

在步骤S320，判断图像数据中是否存在肢体动作指示第二设备的用户，肢体动作指示第二设备的用户，即为期望与第二设备交互的用户。具体判断过程可以参见上文相关描述。

在步骤S330，当判定存在肢体动作指示第二设备的用户，则检测该用户是否说话，即用户是否发音或是否发音意图。具体检测方式可以参见上文相关描述。

当检测到用户说话，则执行步骤S340，将采集的音频数据上传至服务器。

在步骤S350，可以由服务器对第一设备上传的音频数据进行语音识别。

在步骤S360，根据语音识别结果判断用户是否与第二设备进行对话。

当判定结果为用户未与第二设备进行对话，则服务器可以执行步骤S370，向第一设备发送拾音终止指令。响应于接收到拾音终止指令，第一设备可以执行步骤S380，停止拾音，此时可以返回步骤S320。

当判定结果为用户与第二设备进行对话，则服务器可以执行步骤S390，对语音识别结果进行语义解析，识别用户的操作意图。

在步骤S393，可以由服务器将与用户的操作意图对应的交互指令下发给第二设备，由第二设备执行步骤S395，执行与交互指令对应的操作。或者，服务器也可以将与用户的操作意图对应的交互指令下发给第一设备，由第一设备将交互指令下发给第二设备。

图5示出了图4所示语音交互方法的一种应用场景示意图。

如图5所示，智能音箱可以通过执行本公开的免唤醒语音交互方法为诸如智能插座、智能按钮等不具备多模态数据采集功能的物联网设备，提供免唤醒检测服务。其中，免唤醒检测是指基于图像数据检测场景中是否存在期望与物联网设备进行语音交互的用户，以及该用户是否发出语音以及/或者该用户是否具有发音意图。具体检测过程可以参见上文相关描述。

当通过免唤醒检测，则可以启动针对物联网设备的交互服务，将语音、用户属性等数据上传给服务器，由服务器进行对话意图识别，判断用户是否与物联网设备进行对话。当判定用户与物联网设备进行对话，再执行语义解析、指令生成、指令下发的操作，以控制物联网设备执行与用户操作意图对应的操作。

由此，对于不具备多模态数据采集功能的物联网设备，基于本公开也可以实现这类设备的免唤醒语音交互。

本公开还提出了一种语音交互方法，包括：基于用于表征设备所处场景的图像数据判断场景中是否存在期望与设备进行语音交互的用户；当判定场景中存在期望与设备进行语音交互的用户，则启动针对设备的交互服务。与图1所示的语音交互方法不同之处在于，本实施例的语音交互方法可以不包括图1中示出的步骤S130，方案细节可以参见上文结合图1的相关描述，此处不再赘述。

本公开还可以实现为一种语音交互系统。

图6示出了根据本公开一个实施例的语音交互系统的结构示意图。图6所示的语音交互系统与图3所示的语音交互方法相对应，即图6所示的语音交互系统可以用于执行图3所示的语音交互方法。

参见图6，语音交互系统600包括第一设备610和服务器620。

第一设备610用于对第一设备所处场景进行成像，基于得到的图像数据判断场景中是否存在期望与第一设备进行语音交互的用户，当判定场景中存在期望与第一设备进行语音交互的用户，则检测该用户是否发出语音以及/或者该用户是否具有发音意图，当检测到该用户发出语音或该用户具有发音意图，则将采集到的音频数据发送至服务器。

可选地，当判定场景中存在期望与第一设备进行语音交互的用户，可以启动第一设备610的音频采集功能(即拾音功能)，开始采集音频数据。

服务器620用于接收第一设备发送的音频数据，对音频数据进行语音识别，基于语音识别结果判断用户是否与第一设备进行语音交互，当判定用户未与第一设备进行语音交互，则向第一设备610发送拾音终止指令，第一设备610还用于响应于接收到拾音终止指令，停止采集音频数据，即关闭拾音。

关于第一设备610、服务器620可以执行的操作及相关细节，可以参见上文相关描述，此处不再赘述。

图7示出了根据本公开另一个实施例的语音交互系统的结构示意图。图7所示的语音交互系统与图4所示的语音交互方法相对应，即图7所示的语音交互系统可以用于执行图4所示的语音交互方法。

参见图7，语音交互系统700包括第一设备710、第二设备720以及服务器730。第一设备710可以与第二设备720布置在同一场景中。

第一设备710用于对场景进行成像，基于得到的图像数据判断场景中是否存在期望与第二设备720进行语音交互的用户，当判定场景中存在期望与第二设备720进行语音交互的用户，则检测该用户是否发出语音以及/或者该用户是否具有发音意图，当检测到该用户发出语音或该用户具有发音意图，则将采集到的音频数据上传至服务器。

可选地，当判定场景中存在期望与第一设备进行语音交互的用户，可以启动第一设备710的音频采集功能(即拾音功能)，开始采集音频数据。

服务器730用于接收第一设备710发送的音频数据，对音频数据进行语音识别，基于语音识别结果判断用户是否与第二设备720进行语音交互，当判定用户未与第二设备720进行语音交互，则向第一设备710发送拾音终止指令。

服务器730还用于当判定用户与第二设备720进行语音交互，则通过对语音识别结果进行语义解析，识别用户操作意图，并向第二设备720发送与用户操作意图对应的交互指令。第二设备720用于接收服务器下发的交互指令，并执行与交互指令对应的操作。关于第一设备710、服务器720可以执行的操作及相关细节，可以参见上文相关描述，此处不再赘述。

本公开还可以实现为一种智能设备。图8示出了根据本公开一个实施例的智能设备的结构示意图。其中，图8所示智能设备对应于上文述及的第一设备，是指具备多模态数据采集功能的设备，如带摄像头的智能音箱。下面仅就智能设备可以包括的功能模块以及功能模块执行的操作做简要说明。关于智能设备可以执行的操作以及智能设备中各功能模块所执行操作的细节部分均可以参见上文相关描述。

参见图8，智能设备800包括通信模块810、拾音模块820、成像模块830以及处理器840。

在本公开的一个实施例中，智能设备800实现自身免唤醒语音交互。

具体地，成像模块830用于对智能设备所处场景进行成像，得到图像数据。处理器840用于基于图像数据判断场景中是否存在期望与智能设备进行语音交互的用户，当判定场景中存在期望与智能设备进行语音交互的用户，则检测该用户是否发出语音以及/或者该用户是否具有发音意图，当检测到该用户发出语音或该用户具有发音意图，则通过通信模块810将拾音模块820采集到的音频数据上传至服务器，由服务器对音频数据进行语音识别。

可选地，初始状态下拾音模块820的拾音功能处于关闭状态，在判定场景中存在期望与智能设备进行语音交互的用户的情况下，才控制拾音模块820开启拾音功能，采集音频数据。

通信模块810还用于接收服务器下发的交互指令或拾音终止指令，其中，服务器还基于语音识别结果判断用户是否与智能设备800进行语音交互，交互指令是服务器在判定用户与智能设备800进行语音交互的情况下发送的，拾音终止指令是服务器在判定用户未与智能设备800进行语音交互的情况下发送的。响应于接收到拾音终止指令，处理器840可以控制拾音模块820切换到关闭状态，即关闭拾音功能，停止采集音频数据。

在本公开的另一个实施例中，智能设备800可以为不具备多模态数据采集功能的物联网设备实现免唤醒语音交互。其中，智能设备800可以适于与物联网设备布置在同一场景中。

成像模块830可以用于对物联网设备所处场景进行成像，得到图像数据。处理器840可以用于基于图像数据判断场景中是否存在期望与物联网设备进行语音交互的用户，当判定场景中存在期望与物联网设备进行语音交互的用户，则检测该用户是否发出语音以及/或者该用户是否具有发音意图，当检测到该用户发出语音或该用户具有发音意图，则通过通信模块810将拾音模块820采集到的音频数据上传至服务器，由服务器对音频数据进行语音识别。

可选地，初始状态下拾音模块820的拾音功能处于关闭状态，在判定场景中存在期望与物联网设备进行语音交互的用户的情况下，才控制拾音模块820开启拾音功能，采集音频数据。

通信模块810还用于接收服务器下发的拾音终止指令，其中，服务器还基于语音识别结果判断用户是否与物联网进行语音交互，拾音终止指令是服务器在判定用户未与物联网设备进行语音交互的情况下发送的。响应于接收到拾音终止指令，处理器840可以控制拾音模块820切换到关闭状态，即关闭拾音功能，停止采集音频数据。

本公开的语音交互方法还可以实现为一种语音交互装置。

图9示出了根据本公开一个实施例的语音交互装置的结构示意图。其中，图9所示的语音交互装置900可以设置在支持多模态数据采集功能的设备端。语音交互装置900的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图9所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就语音交互装置900可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图9，语音交互装置900包括获取模块910、判断模块920、检测模块930以及启动模块940。

获取模块910用于获取图像数据，图像数据包含表征设备所处场景的信息。判断模块920用于基于图像数据判断场景中是否存在期望与设备进行语音交互的用户。检测模块930用于当判定场景中存在期望与设备进行语音交互的用户，则检测该用户是否发出语音以及/或者该用户是否具有发音意图。启动模块940用于当检测到该用户发出语音或该用户具有发音意图，则启动针对设备的交互服务。

判断模块920可以基于图像数据识别场景中用户的肢体动作，根据场景中用户的肢体动作的识别结果，判断场景中是否存在期望与设备进行语音交互的用户。例如，判断模块920可以根据场景中用户的肢体动作的识别结果，判断场景中是否存在肢体动作指示设备的用户，肢体动作指示设备的用户即为期望与设备进行语音交互的用户。

检测模块930可以基于音频数据和/或图像数据，判断用户是否发出语音以及/或者用户是否具有发音意图，其中，音频数据为通过对设备所处场景进行音频采集得到的。

作为示例，检测模块930可以基于所述图像数据确定用于识别所述用户的身份的属性信息；确定所述音频数据中语音数据的语音特征；判断所述语音特征所表征的用户身份是否与所述属性信息所表征的用户身份一致，当判断结果为一致，则判定所述用户发出语音。

作为示例，检测模块930还可以通过对所述图像数据中所述用户的脸部图像进行识别，判断所述用户是否发出语音以及/或者所述用户是否具有发音意图。

作为示例，检测模块930还可以对所述音频数据中的语音数据进行特征提取，得到语音特征数据；对所述图像数据中所述用户的脸部图像进行特征提取，得到脸部图像特征数据；将所述语音特征数据和所述脸部图像特征数据输入预先训练好的机器学习模型，得到所述机器学习模型输出的用于表征所述用户是否发出语音的识别结果。

启动模块940可以包括上传模块和接收模块。上传模块用于将采集到的音频数据上传至服务器，由服务器对音频数据进行语音识别，基于语音识别结果判断用户是否与设备进行语音交互。接收模块用于接收服务器下发的交互指令或拾音终止指令，其中，交互指令是服务器在判定用户与设备进行语音交互的情况下发送的，拾音终止指令是服务器在判定用户未与设备进行语音交互的情况下发送的。

语音交互装置900还可以包括属性确定模块，用于基于所述图像数据确定与所述用户的身份、动作以及姿态中的任一种相关的属性信息，上传模块还可以将所述属性信息上传至服务器，由所述服务器基于所述语音识别结果和所述属性信息，判断所述用户是否与所述设备进行语音交互。

图10示出了根据本公开一个实施例的语音交互装置的结构示意图。其中，图10所示的语音交互装置1000可以设置在服务器端。语音交互装置1000的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图10所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就语音交互装置1000可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图10，语音交互装置1000包括接收模块1010、语音识别模块1020、判断模块1030以及发送模块1040。

在本公开的一个实施例中，接收模块1010用于接收设备上传的音频数据，音频数据是设备在基于用于表征设备所处场景的图像数据判定场景中存在期望与设备进行语音交互的用户，且检测到该用户发出语音或该用户具有发音意图的情况下上传的。语音识别模块1020用于对音频数据进行语音识别。判断模块1030用于基于语音识别结果判断用户是否与设备进行语音交互。发送模块1040用于当判定该用户未与设备进行语音交互，则向设备发送拾音终止指令。

语音交互装置1000还可以包括语义解析模块。语义解析模块用于当判定用户与设备进行语音交互，则通过对语音识别结果进行语义解析，识别用户操作意图。发送模块1040还用于向设备发送与用户操作意图对应的交互指令。

接收模块1010还可以接收设备上传的属性信息，属性信息是基于图像数据确定的与用户的身份、动作以及姿态中的任一种相关的信息，判断模块1030可以具体用于基于语音识别结果和属性信息，判断用户是否与设备进行语音交互。例如，判断模块1030可以将语音识别结果和属性信息输入预先训练好的人机对话意图识别模型，由人机对话意图识别模型判断用户是否与设备进行语音交互。

在本公开的另一个实施例中，接收模块1010用于接收第一设备上传的音频数据，音频数据是第一设备在基于用于表征第二设备所处场景的图像数据判定场景中存在期望与第二设备进行语音交互的用户，且检测到该用户发出语音或该用户具有发音意图的情况下发送的。语音识别模块1020用于对音频数据进行语音识别。判断模块1030用于基于语音识别结果判断用户是否与第二设备进行语音交互。发送模块1040用于当判定该用户未与第二设备进行语音交互，则向第一设备发送拾音终止指令。

语音交互装置1000还可以包括语义解析模块。语义解析模块用于当判定所述用户与所述第二设备进行语音交互，则通过对所述语音识别结果进行语义解析，识别用户操作意图。发送模块1040还用于向所述第二设备发送与所述用户操作意图对应的交互指令。

图11示出了根据本公开一个实施例的语音交互装置的结构示意图。其中，图11所示的语音交互装置1100可以设置在设备端。语音交互装置1100的功能模块可以由实现本公开原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是，图11所描述的功能模块可以组合起来或者划分成子模块，从而实现上述发明的原理。因此，本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

下面就语音交互装置1100可以具有的功能模块以及各功能模块可以执行的操作做简要说明，对于其中涉及的细节部分可以参见上文相关描述，这里不再赘述。

参见图11，语音交互装置1100包括判断模块1110和启动模块1120。

判断模块1110用于基于用于表征设备所处场景的图像数据判断场景中是否存在期望与设备进行语音交互的用户。

判断模块1110可以基于图像数据识别场景中用户的肢体动作；根据场景中用户的肢体动作的识别结果，判断场景中是否存在肢体动作指示设备的用户，肢体动作指示设备的用户即为期望与设备进行语音交互的用户。

启动模块1120用于当判定场景中存在期望与设备进行语音交互的用户，则启动针对设备的交互服务。

启动模块1120可以包括上传模块和接收模块。上传模块用于将采集到的音频数据上传至服务器，由服务器对音频数据进行语音识别，基于语音识别结果判断用户是否与设备进行语音交互；接收模块用于接收服务器下发的交互指令或拾音终止指令，其中，交互指令是服务器在判定用户与设备进行语音交互的情况下发送的，拾音终止指令是服务器在判定用户未与设备进行语音交互的情况下发送的。

语音交互装置1100还可以包括属性确定模块，用于基于图像数据确定与用户相关的属性信息，上传模块还可以用于将属性信息上传至服务器，由服务器基于语音识别结果和属性信息，判断用户是否与设备进行语音交互。

图12示出了根据本发明一实施例可用于实现上述语音交互方法的计算设备的结构示意图。

参见图12，计算设备1200包括存储器1210和处理器1220。

处理器1220可以是一个多核的处理器，也可以包含多个处理器。在一些实施例中，处理器1220可以包含一个通用的主处理器以及一个或多个特殊的协处理器，例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中，处理器1220可以使用定制的电路实现，例如特定用途集成电路(ASIC，Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA，Field Programmable Gate Arrays)。

存储器1210可以包括各种类型的存储单元，例如系统内存、只读存储器(ROM)，和永久存储装置。其中，ROM可以存储处理器1220或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中，永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中，永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备，例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外，存储器1210可以包括任意计算机可读存储媒介的组合，包括各种类型的半导体存储芯片(DRAM，SRAM，SDRAM，闪存，可编程只读存储器)，磁盘和/或光盘也可以采用。在一些实施方式中，存储器1210可以包括可读和/或写的可移除的存储设备，例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM，双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。

存储器1210上存储有可执行代码，当可执行代码被处理器1220处理时，可以使处理器1220执行上文述及的语音交互方法。

上文中已经参考附图详细描述了根据本发明的语音交互方法、语音交互装置、语音交互系统、智能设备以及计算设备。

此外，根据本发明的方法还可以实现为一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。

或者，本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质)，其上存储有可执行代码(或计算机程序、或计算机指令代码)，当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时，使所述处理器执行根据本发明的上述方法的各个步骤。

本领域技术人员还将明白的是，结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种语音交互方法，用以与一设备交互，包括：

获取图像数据，图像数据包含表征设备所处场景的信息；

基于所述图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户；

当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图；

当检测到所述用户发出语音或所述用户具有发音意图，则启动针对所述设备的交互服务。

2.根据权利要求1所述的语音交互方法，其中，基于所述图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户的步骤包括：

基于所述图像数据识别所述场景中用户的肢体动作；

根据所述场景中用户的肢体动作的识别结果，判断所述场景中是否存在期望与所述设备进行语音交互的用户。

3.根据权利要求1所述的语音交互方法，还包括：

获取音频数据；

其中，检测所述用户是否发出语音以及/或者所述用户是否具有发音意图的步骤包括：基于所述音频数据和/或所述图像数据，判断所述用户是否发出语音以及/或者所述用户是否具有发音意图。

4.根据权利要求3所述的语音交互方法，其中，基于所述音频数据和/或所述图像数据判断所述用户是否发出语音以及/或者所述用户是否具有发音意图的步骤包括：

基于所述图像数据确定用以识别所述用户的身份的属性信息；

确定所述音频数据中语音数据的语音特征；

判断所述语音特征所表征的用户身份是否与所述属性信息所表征的用户身份一致，

当判断结果为一致，则判定所述用户发出语音。

5.根据权利要求3所述的语音交互方法，其中基于所述音频数据和/或所述图像数据，判断所述用户是否发出语音以及/或者所述用户是否具有发音意图的步骤包括：

对所述音频数据中的语音数据进行特征提取，得到语音特征数据；

对所述图像数据中所述用户的脸部图像进行特征提取，得到脸部图像特征数据；

将所述语音特征数据和所述脸部图像特征数据输入预先训练好的机器学习模型，得到所述机器学习模型输出的用于表征所述用户是否发出语音的识别结果。

6.根据权利要求1所述的语音交互方法，其中，检测所述用户是否发出语音以及/或者所述用户是否具有发音意图的步骤包括：

通过识别所述图像数据中所述用户的脸部动作或姿态，判断所述用户是否发出语音以及/或者所述用户是否具有发音意图。

7.根据权利要求1所述的语音交互方法，其中，启动针对所述设备的交互服务的步骤包括：

将采集到的音频数据上传至服务器，由所述服务器对所述音频数据进行语音识别，基于语音识别结果判断所述用户是否与所述设备进行语音交互；

接收所述服务器下发的交互指令或拾音终止指令，其中，所述交互指令是所述服务器在判定所述用户与所述设备进行语音交互的情况下发送的，所述拾音终止指令是所述服务器在判定所述用户未与所述设备进行语音交互的情况下发送的。

8.根据权利要求7所述的语音交互方法，还包括：

基于所述图像数据确定与所述用户的身份、动作以及姿态中的任一种相关的属性信息，

其中，启动针对所述设备的交互服务的步骤还包括：将所述属性信息上传至服务器，由所述服务器基于所述属性信息对所述音频数据进行处理，以增强所述音频数据中与所述用户对应的音频部分，以及/或者由所述服务器基于所述语音识别结果和所述属性信息，判断所述用户是否与所述设备进行语音交互。

9.根据权利要求1所述的语音交互方法，其中，

所述图像数据由所述设备拍摄得到，或者所述图像数据由与所述设备处于同一场景中的其他设备拍摄得到。

10.一种语音交互方法，包括：

接收设备上传的音频数据，所述音频数据是所述设备在基于用于表征设备所处场景的图像数据判定场景中存在期望与设备进行语音交互的用户，且检测到所述用户发出语音或具有发音意图的情况下上传的；

对所述音频数据进行语音识别；

基于语音识别结果判断所述用户是否与所述设备进行语音交互；

当判定所述用户未与所述设备进行语音交互，则向所述设备发送拾音终止指令。

11.根据权利要求10所述的语音交互方法，还包括：

当判定所述用户与所述设备进行语音交互，则通过对所述语音识别结果进行语义解析，识别用户操作意图，并向所述设备发送与所述用户操作意图对应的交互指令。

12.根据权利要求10所述的语音交互方法，还包括：

接收所述设备上传的属性信息，所述属性信息是基于所述图像数据确定的与所述用户的身份、动作以及姿态中的任一种相关的信息，其中，

在对所述音频数据进行语音识别之前，该方法还包括：基于所述属性信息对所述音频数据进行处理，以增强所述音频数据中与所述用户对应的音频部分，以及/或者

基于语音识别结果判断所述用户是否与所述设备进行语音交互的步骤包括：基于所述语音识别结果和所述属性信息，判断所述用户是否与所述设备进行语音交互。

13.根据权利要求12所述的语音交互方法，其中，基于所述语音识别结果和所述属性信息判断所述用户是否与所述设备进行语音交互的步骤包括：

将所述语音识别结果和所述属性信息输入预先训练好的人机对话意图识别模型，由所述人机对话意图识别模型判断所述用户是否与所述设备进行语音交互。

14.一种语音交互方法，包括：

接收第一设备上传的音频数据，所述音频数据是所述第一设备在基于用于表征第二设备所处场景的图像数据判定场景中存在期望与第二设备进行语音交互的用户，且检测到所述用户发出语音或所述用户具有发音意图的情况下发送的；

对所述音频数据进行语音识别；

基于语音识别结果判断所述用户是否与所述第二设备进行语音交互；

当判定所述用户未与所述第二设备进行语音交互，则向所述第一设备发送拾音终止指令。

15.根据权利要求14所述的语音交互方法，还包括：

当判定所述用户与所述第二设备进行语音交互，则通过对所述语音识别结果进行语义解析，识别用户操作意图，并向所述第二设备发送与所述用户操作意图对应的交互指令。

16.一种语音交互方法，包括：

基于用于表征设备所处场景的图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户；

当判定所述场景中存在所述用户，则启动针对所述设备的交互服务。

17.一种语音交互系统，包括：

第一设备，用于对所述第一设备所处场景进行成像，基于得到的图像数据判断所述场景中是否存在期望与所述第一设备进行语音交互的用户，当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图，当检测到所述用户发出语音或所述用户具有发音意图，则将采集到的音频数据发送至服务器；

服务器，用于接收所述第一设备发送的所述音频数据，对所述音频数据进行语音识别，基于语音识别结果判断所述用户是否与所述第一设备进行语音交互，当判定所述用户未与所述第一设备进行语音交互，则向所述第一设备发送拾音终止指令，

所述第一设备还用于响应于接收到所述拾音终止指令，停止采集音频数据。

18.根据权利要求17所述的语音交互系统，其中，

所述服务器还用于当判定所述用户与所述设备进行语音交互，则通过对所述语音识别结果进行语义解析，识别用户操作意图，并向所述第一设备发送与所述用户操作意图对应的交互指令，

所述第一设备还用于响应于接收到所述交互指令，执行与所述交互指令对应的操作。

19.一种语音交互系统，包括：

第二设备；

第一设备，与所述第二设备布置在同一场景中，所述第一设备用于对所述场景进行成像，基于得到的图像数据判断所述场景中是否存在期望与所述第二设备进行语音交互的用户，当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图，当检测到所述用户发出语音或所述用户具有发音意图，则将采集到的音频数据上传至服务器；

服务器，用于接收所述第一设备发送的音频数据，对所述音频数据进行语音识别，基于语音识别结果判断所述用户是否与所述第二设备进行语音交互，当判定所述用户未与所述第二设备进行语音交互，则向所述第一设备发送拾音终止指令，

20.根据权利要求19所述的语音交互系统，其中，

所述服务器还用于当判定所述用户与所述第二设备进行语音交互，则通过对所述语音识别结果进行语义解析，识别用户操作意图，并向所述第二设备发送与所述用户操作意图对应的交互指令，

所述第二设备用于接收所述交互指令，并执行与所述交互指令对应的操作。

21.一种智能设备，包括：

通信模块；

拾音模块；

成像模块，用于对所述智能设备所处场景进行成像，得到图像数据；

处理器，用于基于所述图像数据判断所述场景中是否存在期望与所述智能设备进行语音交互的用户，当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图，当检测到所述用户发出语音或所述用户具有发音意图，则通过所述通信模块将所述拾音模块采集到的音频数据上传至服务器，由所述服务器对所述音频数据进行语音识别。

22.根据权利要求21所述的智能设备，其中，

所述通信模块还用于接收所述服务器下发的交互指令或拾音终止指令，其中，所述服务器还基于语音识别结果判断所述用户是否与所述智能设备进行语音交互，所述交互指令是所述服务器在判定所述用户与所述智能设备进行语音交互的情况下发送的，所述拾音终止指令是所述服务器在判定所述用户未与所述智能设备进行语音交互的情况下发送的。

23.一种智能设备，适于与物联网设备布置在同一场景中，所述智能设备包括：

通信模块；

拾音模块；

成像模块，用于对所述场景进行成像，得到图像数据；

处理器，用于基于所述图像数据判断所述场景中是否存在期望与所述物联网设备进行语音交互的用户，当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图，当检测到所述用户发出语音或所述用户具有发音意图，则通过所述通信模块将所述拾音模块采集到的音频数据上传至服务器，由所述服务器对所述音频数据进行语音识别。

24.根据权利要求23所述的智能设备，其中，

所述通信模块还用于接收所述服务器下发的拾音终止指令，其中，所述服务器还基于语音识别结果判断所述用户是否与所述物联网设备进行语音交互，所述拾音终止指令是所述服务器在判定所述用户未与所述物联网设备进行语音交互的情况下发送的。

25.一种语音交互装置，包括：

获取模块，用于获取图像数据，图像数据包含表征设备所处场景的信息；

判断模块，用于基于所述图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户；

检测模块，用于当判定所述场景中存在所述用户，则检测所述用户是否发出语音以及/或者所述用户是否具有发音意图；

启动模块，用于当检测到所述用户发出语音或所述用户具有发音意图，则启动针对所述设备的交互服务。

26.一种语音交互装置，包括：

接收模块，用于接收设备上传的音频数据，所述音频数据是所述设备在基于用于表征设备所处场景的图像数据判定场景中存在期望与设备进行语音交互的用户，且检测到所述用户发出语音或具有发音意图的情况下上传的；

语音识别模块，用于对所述音频数据进行语音识别；

判断模块，用于基于语音识别结果判断所述用户是否与所述设备进行语音交互；

发送模块，用于当判定所述用户未与所述设备进行语音交互，则向所述设备发送拾音终止指令。

27.一种语音交互装置，包括：

接收模块，用于接收第一设备上传的音频数据，所述音频数据是所述第一设备在基于用于表征第二设备所处场景的图像数据判定场景中存在期望与第二设备进行语音交互的用户，且检测到所述用户发出语音或所述用户具有发音意图的情况下发送的；

语音识别模块，用于对所述音频数据进行语音识别；

判断模块，用于基于语音识别结果判断所述用户是否与所述第二设备进行语音交互；

发送模块，用于当判定所述用户未与所述第二设备进行语音交互，则向所述第一设备发送拾音终止指令。

28.一种语音交互装置，包括：

判断模块，用于基于用于表征设备所处场景的图像数据判断所述场景中是否存在期望与所述设备进行语音交互的用户；

启动模块，用于当判定所述场景中存在所述用户，则启动针对所述设备的交互服务。

29.一种计算设备，包括：

处理器；以及

存储器，其上存储有可执行代码，当所述可执行代码被所述处理器执行时，使所述处理器执行如权利要求1至16中任何一项所述的方法。

30.一种非暂时性机器可读存储介质，其上存储有可执行代码，当所述可执行代码被电子设备的处理器执行时，使所述处理器执行如权利要求1至16中任何一项所述的方法。