CN107103906B

CN107103906B - 一种唤醒智能设备进行语音识别的方法、智能设备和介质

Info

Publication number: CN107103906B
Application number: CN201710300244.5A
Authority: CN
Inventors: 刘锐
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Netease Hangzhou Network Co Ltd
Priority date: 2017-05-02
Filing date: 2017-05-02
Publication date: 2020-12-11
Anticipated expiration: 2037-05-02
Also published as: CN107103906A

Abstract

本发明实施例中，提出一种唤醒智能设备进行语音识别的方法，包括：确定持有第一智能设备的用户的第一部位朝向第二智能设备时，进入语音检测状态；在语音检测状态下，检测到语音能量时，进行语音识别；在该方案中，并不是依赖于唤醒词来唤醒第二智能设备进行语音识别的，也就是说，在用户还没有发出唤醒词的情况下就将第二智能设备唤醒了，因此，减少了唤醒时间，提高了唤醒的效率，并且，该方案是在持有第一智能设备的用户的第一部位朝向第二智能设备时，才唤醒第二智能设备进行语音检测，避免了第二智能设备处于持续唤醒状态，因此，降低了第二智能设备的功耗，提高了用户体验。

Description

一种唤醒智能设备进行语音识别的方法、智能设备和介质

技术领域

本发明的实施方式涉及智能设备领域，更具体地，本发明的实施方式涉及一种唤醒智能设备进行语音识别的方法、智能设备和介质。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着智能设备技术的不断进步以及对生活品质的不断追求，作为物联网应用之一的智能设备的应用前景越来越广阔。随着需求的不断提升，在很多情况下，用户需要跟智能设备进行人机交互。

中国专利CN105912092A于2016年4月6日公开了一种人机交互中的语音唤醒方法和语音识别装置，该专利中的语音唤醒方法包括：S1静音检测步骤，包括：在机器检测到声音能量时，进行唤醒词检出，如果声音能量包括唤醒词，则唤醒机器开始语音识别，否则，启动S2图像检测步骤；S2图像检测步骤，包括：在图像检测中，如果检测到人，则唤醒机器开始语音识别，否则继续检测声音能量。通过本发明的方法和语音识别装置，能够结合图像检测，实现人机交互，同时保持待机状态下的低电力消耗，但是该方案是依赖唤醒词来唤醒机器，需要先说出唤醒词才能唤醒机器，因此，唤醒操作不便捷，人机交互效率较低。

中国专利CN104065718A公开了通过摄像头判断是否有人存在，来决定是否开始进行语音识别的方法。但是，在摄像头前有人走动但没有交互意图的场景下，会导致智能设备持续误唤醒和识别，导致智能设备的功耗较大，用户体验较差。

本发明主要解决如何减少唤醒时间，及降低功耗和提高用户体验的问题。

发明内容

现有技术中的唤醒设备的方法存在唤醒操作不便捷、智能设备功耗较大及用户体验较差的缺陷，这些是非常令人烦恼的过程。

为此，非常需要一种改进的唤醒智能终端进行语音识别的方法，以解决上述问题。

在本发明实施方式的第一方面中，提供了一种唤醒第二智能设备进行语音识别的方法，包括：

确定持有第一智能设备的用户的第一部位朝向第二智能设备时，进入语音检测状态；

在语音检测状态下，检测到语音能量时，进行语音识别。

在一个实施方式中，根据本发明的上述实施方式所述的方法，确定持有第一智能设备的用户的第一部位朝向第二智能设备，包括下列方式中的至少一种：

接收到所述第一智能设备发送的第一信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备，所述第一信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域的情况下发送的；

在所述第二智能设备处接收到所述第一智能设备中的向预设方向区间发送第二信号的信号发射源所发送的第二信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备；或

在所述第二智能设备处采用眼球跟踪技术判断所述用户的眼球朝向，判定所述眼球朝向为所述第二智能设备所处的方向时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备。

在一些实施方式中，根据本发明的上述任一实施方式所述的方法，确定持有第一智能设备的用户的第一部位朝向第二智能设备，包括：

接收到所述第一智能设备发送的第一信号，所述第一信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域的情况下发送的，并且在所述第二智能设备处接收到所述第一智能设备中的向预设方向区间发送第二信号的信号发射源所发送的第二信号，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备；或者

接收到所述第一智能设备发送的触发信号，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备，所述触发信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域，并且在所述第一智能设备处采用眼球跟踪技术判断所述用户的眼球朝向、判定所述眼球朝向所述第一智能设备的第一方向时发送的。

在一些实施方式中，根据本发明的上述任一实施方式所述的方法，所述第一智能设备为智能眼镜，和/或所述第二智能设备为智能音箱。

在一些实施方式中，根据本发明的上述任一实施方式所述的方法，在语音检测状态下，检测到语音能量，包括：

在与开始进行语音检测的时间点相距预设时长的时间段内检测到语音能量。

在一些实施方式中，根据本发明的上述任一实施方式所述的方法，进行语音识别，包括：

采用基于深度学习的目标检测方法进行语音识别。

在一些实施方式中，根据本发明的上述任一实施方式所述的方法，所述第一部位为面部和/或眼部。

在本发明实施方式的第二方面中，提供了一种第二智能设备，包括：

第一确定单元，用于确定持有第一智能设备的用户的第一部位是否朝向第二智能设备；

检测单元，用于在所述第一确定单元确定持有第一智能设备的用户的所述第一部位朝向第二智能设备时，进入语音检测状态，进行语音检测；

语音识别单元，用于在所述检测单元在语音检测状态下，检测到语音能量时，进行语音识别。

在一个实施方式中，根据本发明的上述实施方式所述的智能设备，所述第一确定单元包括接收单元和第二确定单元，或者包括判断单元和第二确定单元，其中：

所述接收单元，用于接收所述第一智能设备发送的第一信号，所述第一信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域的情况下发送的；所述第二确定单元，用于在所述接收单元接收到所述第一信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备；或者，

所述接收单元，用于在所述第二智能设备处接收所述第一智能设备中的向预设方向区间发送第二信号的信号发射源所发送的第二信号；所述第二确定单元，用于在所述接收单元接收到所述第二信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备；或者，

所述判断单元，用于在所述第二智能设备处采用眼球跟踪技术判断所述用户的眼球朝向；所述第二确定单元，用于在所述判断单元判定所述眼球朝向为所述第二智能设备所处的方向时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备。

在一些实施方式中，根据本发明的上述任一实施方式所述的智能设备，所述第一确定单元包括接收单元和第二确定单元，其中：所述接收单元，用于接收所述第一智能设备发送的第一信号及在所述第二智能设备处接收所述第一智能设备中的向预设方向区间发送第二信号的信号发射源所发送的第二信号，或者，接收所述第一智能设备发送的触发信号，所述第一信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域的情况下发送的，所述触发信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域，并且在所述第一智能设备处采用眼球跟踪技术判断所述用户的眼球朝向、判定所述眼球朝向所述第一智能设备的第一方向时发送的；

所述第二确定单元，用于在所述接收单元接收到所述第一信号及所述第二信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备，或者用于在所述接收单元接收到所述触发信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备。

在一些实施方式中，根据本发明的上述任一实施方式所述的智能设备，所述第一智能设备为智能眼镜，和/或所述第二智能设备为智能音箱。

在一些实施方式中，根据本发明的上述任一实施方式所述的智能设备，所述检测单元在语音检测状态下，检测到语音能量，包括：

在一些实施方式中，根据本发明的上述任一实施方式所述的智能设备，所述语音识别单元进行语音识别，包括：

采用基于深度学习的目标检测方法进行语音识别。

在一些实施方式中，根据本发明的上述任一实施方式所述的智能设备，所述第一部位为面部和/或眼部。

在本发明实施方式的第三方面中，提供了一种智能设备，包括：

一个或者多个处理器；

存储器；

存储在所述存储器中的程序，当被所述一个或者多个处理器执行时，所述程序使所述智能设备执行如第一方面，或者第一方面的任意一实施方式所述的方法。

在本发明实施方式的第四方面中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有程序，当所述程序被处理器执行时，使得所述处理器执行如第一方面，或者第一方面的任意一实施方式所述的方法。

在本发明实施方式的第五方面中，提供了一种唤醒第二智能设备进行语音识别的方法，包括：

判断第二智能设备是否位于持有第一智能设备的用户的可视区域中；

判定出所述第二智能设备位于所述可视区域中时，向所述第二智能设备发送第一信号。

在一个实施方式中，根据本发明的上述实施方式所述的方法，判定出所述第二智能设备位于所述可视区域中，包括：

判定出所述第二智能设备位于所述第一智能设备的图像采集区域中的第一区域时，判定出所述第二智能设备位于所述可视区域中。

在一些实施方式中，根据本发明的上述任一实施方式所述的方法，判定出所述第二智能设备位于所述可视区域中，包括：

判定出所述第二智能设备位于所述第一智能设备的图像采集区域中的第一区域，及在所述第一智能设备处采用眼球跟踪技术判断所述用户的眼球朝向，在判定所述眼球朝向所述第一智能设备的第一方向时，判定出所述第二智能设备位于所述可视区域中。

在一些实施方式中，根据本发明的上述任一实施方式所述的方法，所述方法还包括：

所述第一智能设备中的向预设方向区间发送第二信号的信号发射源发送第二信号。

在本发明实施方式的第六方面中，提供了一种第一智能设备，包括：

判断单元，用于判断第二智能设备是否位于持有第一智能设备的用户的可视区域中；

发送单元，用于在所述判断单元判定出所述第二智能设备位于所述可视区域中时，向所述第二智能设备发送第一信号。

在一个实施方式中，根据本发明的上述实施方式所述的智能设备，所述判断单元判定出所述第二智能设备位于所述可视区域中时，具体为：

在一些实施方式中，根据本发明的上述任一实施方式所述的智能设备，所述判断单元判定出所述第二智能设备位于所述可视区域中时，具体为：

在一些实施方式中，根据本发明的上述任一实施方式所述的智能设备，所述发送单元还用于，向预设方向区间发送第二信号。

在本发明实施方式的第七方面中，提供了一种智能设备，包括：

一个或者多个处理器；

存储器；

存储在所述存储器中的程序，当被所述一个或者多个处理器执行时，所述程序使所述智能设备执行如第五方面，或者第五方面的任意一实施方式所述的方法。

在本发明实施方式的第八方面中，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有程序，当所述程序被处理器执行时，使得所述处理器执行如第五方面，或者第五方面的任意一实施方式所述的方法。

本发明实施例中，提出一种唤醒第二智能设备进行语音识别的方法，包括：确定持有第一智能设备的用户的第一部位朝向第二智能设备时，进入语音检测状态；在语音检测状态下，检测到语音能量时，进行语音识别；该方案基于这样一个实践观察规律：在人与人之间当面交流时，A为了让B知道其是与B在说话，A通常会脸和目光朝向B，此时B通常会自然知晓，A是在同B交流，特别的，目光接触时，B更能确定A是在和他说话(而不是其他对象)，该方案并不是依赖于唤醒词来唤醒第二智能设备进行语音识别的，也就是说，在用户还没有发出唤醒词的情况下就将第二智能设备唤醒了，因此，提高了唤醒操作的便捷性、减少了唤醒时间，提高了唤醒的效率，并且，该方案也不是在检测到用户图像的时候就唤醒第二智能设备，而是在持有第一智能设备的用户的第一部位朝向第二智能设备时，才唤醒第二智能设备进行语音检测，避免了持有第一智能设备的用户的第一部位没有朝向第二智能设备时也唤醒第二智能终端，进而避免了持续唤醒第二智能设备，因此，降低了第二智能设备的功耗，提高了用户体验。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了根据本发明实施方式的持有第一智能设备的用户的第一部位朝向第二智能设备的场景示意图；

图2示意性地示出了根据本发明实施方式的唤醒第二智能设备进行语音识别的方法的一种流程图；

图3示意性地示出了根据本发明实施方式的唤醒第二智能设备进行语音识别的方法的另一种流程图；

图4示意性地示出了根据本发明实施方式的第二智能设备的一种示意图；

图5示意性地示出了根据本发明实施方式的第一智能设备的另一种示意图；

图6示意性地示出了根据本发明实施方式的智能设备的另一种示意图；

图7示意性地示出了根据本发明实施方式的智能设备的另一种示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种唤醒第二智能设备进行语音识别的方法、智能设备及介质。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，人与人在当面交流时，用户A为了让用户B知道用户A要与用户B说话，用户A通常会将脸和目光朝向用户B，此时，即使用户A没有说话，用户B也会知道用户A接下来要与他打招呼交流，更进一步的，当用户A和用户B的目光接触时，用户B更能确定用户A是要与用户B说话，而不是与其他人说话。发明人提出了鉴于上述“人与人交互方法”的人机交互的方法；例如，用户A戴有智能眼镜，当用户A面向智能音箱时，智能音箱就进入语音检测状态，智能音箱在语音检测状态下，检测到语音能量时，进行语音识别，这样，还没等到用户A说话，智能音箱就知道用户A要与智能音箱进行交互，唤醒了智能音箱，因此，提高了唤醒效率，同时，即使智能音箱检测到了存在用户A但是如果用户A没有朝向智能音箱时，智能音箱也不会唤醒，因此，避免了持续唤醒智能音箱，降低了智能音箱的功耗，提高了用户体验。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

参考图1所示，戴有智能眼镜的用户A预跟智能音箱进行交互，用户A的眼睛朝向智能音箱时，智能音箱就唤醒了，进入语音检测状态，接下来，用户A说了一句“请播放张国荣的《沉默是金》”，智能音箱检测到这句话时，进行语音识别。这样，智能音箱在用户A说话之前就唤醒了，因此，提高了唤醒效率，同时，由于在用户A的眼睛朝向智能音箱时才唤醒智能音箱，避免了智能音箱在检测到用户A的图像时就唤醒导致的持续唤醒的缺陷，因此，降低了智能音箱的功耗，提高了用户体验。

示例性方法

下面结合图1的应用场景，参考图2来描述根据本发明示例性实施方式的用于唤醒第二智能设备进行语音识别的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

参阅图2所示，本发明实施例中，提出一种唤醒第二智能设备进行语音识别的方法20，包括：

步骤200：确定持有第一智能设备的用户的第一部位朝向第二智能设备时，进入语音检测状态；

步骤210：在语音检测状态下，检测到语音能量时，进行语音识别。

本发明实施例中，确定持有第一智能设备的用户的第一部位朝向第二智能设备时，包括下列方式中的至少一种：

接收到所述第一智能设备发送的第一信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备，所述第一信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域的情况下发送的，例如，智能音箱接收到用户A戴的智能眼镜发送的第一信号时，确定用户A的第一部位朝向智能音箱，其中，第一信号是智能眼镜在识别出智能音箱出现在智能眼镜的图像采集区域中的第一区域时发送的；

在所述第二智能设备处接收到所述第一智能设备中的向预设方向区间发送第二信号的信号发射源所发送的第二信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备，例如，智能音箱接收到用户A戴的智能眼镜中的红外发射源发射的红外信号时，确定用户A的第一部位朝向智能音箱；或

前面两种描述的是第二智能设备依赖第一智能设备发送的信号来确定持有所述第一智能设备的用户的第一部位是否朝向所述第二智能设备，当然，也可以不依赖于第一智能设备发射的信号来确定，例如，采用如下方式：

在所述第二智能设备处采用眼球跟踪技术判断所述用户的眼球朝向，判定所述眼球朝向为所述第二智能设备所处的方向时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备，例如，智能音箱判定用户A的眼球朝向智能音箱时，确定用户A的第一部位朝向智能音箱。

或者，确定持有第一智能设备的用户的第一部位朝向第二智能设备时，也可以采用如下方式：

接收到所述第一智能设备发送的第一信号，所述第一信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域的情况下发送的，并且在所述第二智能设备处接收到所述第一智能设备中的向预设方向区间发送第二信号的信号发射源所发送的第二信号，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备，也就是说，第二智能设备要同时接收到第一信号和第二信号时，才能确定持有第一智能设备的用户的第一部位朝向第二智能设备，例如，智能音箱接收到用户A戴的智能眼镜发送的第一信号，并且还要接收到智能眼镜发送的红外信号时，确定用户A的第一部位朝向智能音箱，其中，第一信号是智能眼镜在识别出智能音箱出现在智能眼镜的图像采集区域中的第一区域时发送的；或者

接收到所述第一智能设备发送的触发信号，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备，所述触发信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域，并且在所述第一智能设备处采用眼球跟踪技术判断所述用户的眼球朝向、判定所述眼球朝向所述第一智能设备的第一方向时发送的，也就是说，第二智能设备要接收到触发信号时，就能确定持有第一智能设备的用户的第一部位朝向第二智能设备，例如，智能音箱接收到用户A戴的智能眼镜发送触发信号，第二智能设备就可以确定用户A的第一部位朝向智能音箱，其中，触发信号是智能眼镜在识别出智能音箱出现在智能眼镜的图像采集区域中的第一区域，且判定出用户A的眼球朝向智能眼镜的第一方向时发送的。

前面所描述的第二信号可以是红外信号，也可以是蓝牙信号，红外信号和蓝牙信号是第二信号的几种示例，本发明实施例中并不限定于此。

本发明实施例中，可选地，所述第一智能设备为智能眼镜，和/或所述第二智能设备为智能音箱。

当然，第一智能设备和第二智能并不限定于上述示例，还可以是其他形式，例如，第一智能设备还可以为帽子、裤带、衣服等可穿戴设备，第二使能设备还可以为家居设备、移动设备等。

在有些情况下，用户可能由于误操作将第一部位朝向第二智能设备，在这种情况下，用户不会向第二智能设备发送语音消息，但是，第二智能设备如果一直处于语音检测状态的话，第二智能终端会产生不必要的功耗，因此，为了降低第二智能终端的功耗，在与开始进行语音检测的时间点相距预设时长的时间段内检测语音，如果没有检测到语音能量的话，进入休眠状态，因此，本发明实施例中，在语音检测状态下，检测到语音能量，可选地，可以采用如下方式：

例如，用户A由于误操作，在X1时刻眼睛朝向智能音箱，智能音箱检测到用户A的眼睛朝向智能音箱时，进入语音检测状态，如果在从X1时刻开始的预设时长内都没有检测到语音能量时，智能音箱进入休眠状态，如果在从X1时刻开始的预设时长内检测到语音能量时，进行语音识别，这样可以避免智能音箱的功耗。

本发明实施例中，进行语音识别时，可选地，可以采用如下方法：

采用基于深度学习的目标检测方法进行语音识别。例如，基于CNN(ConvolutionalNeural Networks，卷积神经网络)方法。

本发明实施例中，所述第一部位为面部和/或眼部。

参阅图3所示，本发明实施例中，还提出一种唤醒第二智能设备进行语音识别的方法30，包括：

步骤300：判断第二智能设备是否位于持有第一智能设备的用户的可视区域中；

步骤310：判定出所述第二智能设备位于所述可视区域中时，向所述第二智能设备发送第一信号。

本发明实施例中，判定出所述第二智能设备位于所述可视区域中，包括：

判定出所述第二智能设备位于所述第一智能设备的图像采集区域中的第一区域时，判定出所述第二智能设备位于所述可视区域中。在这种情况下，方法30中所描述的第一信号与方法20中所描述的第一信号相同。

例如，判定出智能音箱位于智能眼镜的图像采集区域中的前方区域时，判定出智能音箱位于可视区域中。

本发明实施例中，判定出所述第二智能设备位于所述可视区域中时，可选地，可以采用如下方式：

判定出所述第二智能设备位于所述第一智能设备的图像采集区域中的第一区域，及在所述第一智能设备处采用眼球跟踪技术判断所述用户的眼球朝向，在判定所述眼球朝向所述第一智能设备的第一方向时，判定出所述第二智能设备位于所述可视区域中。在这种情况下，方法30中所描述的第一信号包括方法20中所描述的第一信号和触发信号。

例如，判定出智能音箱位于智能眼镜的图像采集区域中的前方区域，及进一步要在判定出用户的眼球朝向智能眼镜的第一方向时，才能判定出智能音箱位于可视区域中。

本发明实施例中，进一步的，所述方法还包括：

所述第一智能设备中的向预设方向区间发送第二信号的信号发射源发送第二信号。其中，可选地，第二信号可以是红外信号，或者，也可以是蓝牙信号，当然，红外信号和蓝牙信号是几种示例，并不限定于此。

当然，第一智能设备和第二智能并不限定于上述示例，还可以是其他形式，例如，第一智能设备还可以为帽子、裤带、衣服等可穿戴设备；第二使能设备还可以为家居设备、移动设备等。

本发明实施例是基于人与人之间的“目光接触”的方法提出的，无需唤醒词就可以实现唤醒，缩短了从发出命令到智能设备执行的时间，也就是说，在用户还没有发出唤醒词的情况下就将第二智能设备唤醒了，因此，减少了唤醒时间，提高了唤醒的效率，并且，该方案也不是在检测到用户图像的时候就唤醒第二智能设备，而是在持有第一智能设备的用户的第一部位朝向第二智能设备时，才唤醒第二智能设备进行语音检测，避免了持有第一智能设备的用户的第一部位没有朝向第二智能设备时也唤醒第二智能终端，进而避免了持续唤醒第二智能设备，因此，降低了第二智能设备的功耗，提高了用户体验。

示例性装置

在介绍了本发明示例性实施方式的介质之后，接下来，参考图4对本发明示例性实施方式的第二智能设备40进行描述，第二智能设备40包括：

第一确定单元400，用于确定持有第一智能设备的用户的第一部位是否朝向第二智能设备；

检测单元410，用于在所述第一确定单元400确定持有第一智能设备的用户的所述第一部位朝向第二智能设备时，进入语音检测状态，进行语音检测；

语音识别单元420，用于在所述检测单元410在语音检测状态下，检测到语音能量时，进行语音识别。

本发明实施例中，可选地，所述第一确定单元400包括接收单元400A和第二确定单元400B，或者包括判断单元400C和第二确定单元400B，其中：

所述接收单元400A，用于接收所述第一智能设备发送的第一信号，所述第一信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域的情况下发送的；所述第二确定单元400B，用于在所述接收单元400A接收到所述第一信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备；或者，

所述接收单元400A，用于在所述第二智能设备处接收所述第一智能设备中的向预设方向区间发送第二信号的信号发射源所发送的第二信号；所述第二确定单元400B，用于在所述接收单元400A接收到所述第二信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备；或者，

所述判断单元400C，用于在所述第二智能设备处采用眼球跟踪技术判断所述用户的眼球朝向；所述第二确定单元400B，用于在所述判断单元400C判定所述眼球朝向为所述第二智能设备所处的方向时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备。

本发明实施例中，可选地，所述第一确定单元400包括接收单元400A和第二确定单元400B，其中：所述接收单元400A，用于接收所述第一智能设备发送的第一信号及在所述第二智能设备处接收所述第一智能设备中的向预设方向区间发送第二信号的信号发射源所发送的第二信号，或者，接收所述第一智能设备发送的触发信号，所述第一信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域的情况下发送的，所述触发信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域，并且在所述第一智能设备处采用眼球跟踪技术判断所述用户的眼球朝向、判定所述眼球朝向所述第一智能设备的第一方向时发送的；

所述第二确定单元400B，用于在所述接收单元400A接收到所述第一信号及所述第二信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备，或者用于在所述接收单元400A接收到所述触发信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备。

本发明实施例中，可选地，所述检测单元410在语音检测状态下，检测到语音能量，包括：

本发明实施例中，可选地，所述语音识别单元420进行语音识别，包括：

采用基于深度学习的目标检测方法进行语音识别。

本发明实施例中，可选地，所述第一部位为面部和/或眼部。

参阅图5所示，本发明实施例中，提出一种第一智能设备50，包括：

判断单元500，用于判断第二智能设备是否位于持有第一智能设备的用户的可视区域中；

发送单元510，用于在所述判断单元500判定出所述第二智能设备位于所述可视区域中时，向所述第二智能设备发送第一信号。

本发明实施例张，可选地，所述判断单元500判定出所述第二智能设备位于所述可视区域中时，具体为：

本发明实施例中，可选地，所述判断单元500判定出所述第二智能设备位于所述可视区域中时，具体为：

本发明实施例中，进一步的，所述发送单元510还用于，向预设方向区间发送第二信号。

示例性设备

在介绍了本发明示例性实施方式的方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的智能设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的智能设备可以至少包括至少一个处理单元、以及至少一个存储单元。其中，所述存储单元存储有程序代码，当所述程序代码被所述处理单元执行时，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于唤醒第二智能设备进行语音识别的方法中的步骤。例如，所述处理单元可以执行如图2中所示的步骤200：确定持有第一智能设备的用户的第一部位朝向第二智能设备时，进入语音检测状态；步骤210：在语音检测状态下，检测到语音能量时，进行语音识别。

又例如，所述处理单元可以执行如图3中所示的步骤300：判断第二智能设备是否位于持有第一智能设备的用户的可视区域中；步骤310：判定出所述第二智能设备位于所述可视区域中时，向所述第二智能设备发送第一信号。

下面参照图6来描述根据本发明的这种实施方式的智能设备60。图6显示的智能设备60仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，智能设备60以通用计算设备的形式表现。智能设备60的组件可以包括但不限于：上述至少一个处理单元16、上述至少一个存储单元28、连接不同系统组件(包括存储单元28和处理单元16以及显示单元24)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、图形加速端口、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储单元28可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)31和/或高速缓存存储器32，还可以进一步只读存储器(ROM)34。

存储单元28还可以包括具有一组(至少一个)程序模块42的程序/实用工具41，这样的程序模块42包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

智能设备60也可以与一个或多个外部设备14(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该智能设备60交互的设备通信，和/或与使得该智能设备60能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，智能设备60还可以通过网络适配器21与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器21通过总线18与智能设备60的其它模块通信。应当明白，尽管图中未示出，可以结合智能设备60使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

示例性程序产品

在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在设备上运行时，所述程序代码用于使所述设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的用于唤醒第二智能设备进行语音识别的方法中的步骤，例如，所述设备可以执行如图2中所示的步骤200：确定持有第一智能设备的用户的第一部位朝向第二智能设备时，进入语音检测状态；步骤210：在语音检测状态下，检测到语音能量时，进行语音识别。

例如，所述设备可以执行如图3中所示的步骤300：判断第二智能设备是否位于持有第一智能设备的用户的可视区域中；步骤310：判定出所述第二智能设备位于所述可视区域中时，向所述第二智能设备发送第一信号。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图7所示，描述了根据本发明的实施方式的用于唤醒第二智能设备进行语音识别的程序产品70，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了智能设备的若干装置或子装置，但是这种划分仅仅并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之，上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种唤醒第二智能设备进行语音识别的方法，包括：

根据第一智能设备发送的信号确定持有所述第一智能设备的用户的第一部位朝向第二智能设备时，唤醒所述第二智能设备进入语音检测状态；

在语音检测状态下，检测到语音能量时，进行语音识别；

其中，确定持有第一智能设备的用户的第一部位朝向第二智能设备，包括：接收到所述第一智能设备发送的第一信号时，和/或在所述第二智能设备处接收到所述第一智能设备中的向预设方向区间发送第二信号的信号发射源所发送的第二信号时,确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备，所述第一信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域的情况下发送的；或

2.如权利要求1所述的方法，所述第一智能设备为智能眼镜，和/或所述第二智能设备为智能音箱。

3.如权利要求1所述的方法，在语音检测状态下，检测到语音能量，包括：

4.如权利要求1或3所述的方法，进行语音识别，包括：

采用基于深度学习的目标检测方法进行语音识别。

5.如权利要求1或3所述的方法，所述第一部位为面部和/或眼部。

6.一种第二智能设备，包括：

第一确定单元，用于根据第一智能设备发送的信号确定持有所述第一智能设备的用户的第一部位是否朝向第二智能设备；

检测单元，用于在所述第一确定单元根据所述第一智能设备发送的信号确定持有所述第一智能设备的用户的所述第一部位朝向第二智能设备时，唤醒所述第二智能设备进入语音检测状态，进行语音检测；

语音识别单元，用于在所述检测单元在语音检测状态下，检测到语音能量时，进行语音识别；

所述第一确定单元包括接收单元和第二确定单元；其中，

所述接收单元，用于接收所述第一智能设备发送的第一信号，和/或在所述第二智能设备处接收所述第一智能设备中的向预设方向区间发送第二信号的信号发射源所发送的第二信号，所述第一信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域的情况下发送的；所述第二确定单元，用于在所述接收单元接收到所述第一信号时和/或所述第二信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备；或

所述接收单元，用于接收所述第一智能设备发送的触发信号，所述触发信号是所述第一智能设备在识别出所述第二智能设备出现在所述第一智能设备的图像采集区域中的第一区域，并且在所述第一智能设备处采用眼球跟踪技术判断所述用户的眼球朝向、判定所述眼球朝向所述第一智能设备的第一方向时发送的；所述第二确定单元，用于在所述接收单元接收到所述触发信号时，确定持有所述第一智能设备的用户的第一部位朝向所述第二智能设备。

7.如权利要求6所述的智能设备，所述第一智能设备为智能眼镜，和/或所述第二智能设备为智能音箱。

8.如权利要求6所述的智能设备，所述检测单元在语音检测状态下，检测到语音能量，包括：

9.如权利要求6或8所述的智能设备，所述语音识别单元进行语音识别，包括：

采用基于深度学习的目标检测方法进行语音识别。

10.如权利要求6或8所述的智能设备，所述第一部位为面部和/或眼部。

11.一种智能设备，包括：

一个或者多个处理器；

存储器；

存储在所述存储器中的程序，当被所述一个或者多个处理器执行时，所述程序使所述智能设备执行如权利要求1-5中任意一项所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有程序，当所述程序被处理器执行时，使得所述处理器执行如权利要求1-5中任意一项所述的方法。

13.一种唤醒第二智能设备进行语音识别的方法，包括：

判定出所述第二智能设备位于所述可视区域中时，向所述第二智能设备发送第一信号唤醒所述第二智能设备；

其中，判定出所述第二智能设备位于所述可视区域中，包括：判定出所述第二智能设备位于所述第一智能设备的图像采集区域中的第一区域时，判定出所述第二智能设备位于所述可视区域中；或判定出所述第二智能设备位于所述第一智能设备的图像采集区域中的第一区域，及在所述第一智能设备处采用眼球跟踪技术判断所述用户的眼球朝向，在判定所述眼球朝向所述第一智能设备的第一方向时，判定出所述第二智能设备位于所述可视区域中。

14.如权利要求13所述的方法，所述方法还包括：

15.如权利要求14所述的方法，所述第一智能设备为智能眼镜，和/或所述第二智能设备为智能音箱。

16.一种第一智能设备，包括：

发送单元，用于在所述判断单元判定出所述第二智能设备位于所述可视区域中时，向所述第二智能设备发送第一信号唤醒所述第二智能设备；

其中，所述判断单元判定出所述第二智能设备位于所述可视区域中时，具体为：判定出所述第二智能设备位于所述第一智能设备的图像采集区域中的第一区域时，判定出所述第二智能设备位于所述可视区域中；或判定出所述第二智能设备位于所述第一智能设备的图像采集区域中的第一区域，及在所述第一智能设备处采用眼球跟踪技术判断所述用户的眼球朝向，在判定所述眼球朝向所述第一智能设备的第一方向时，判定出所述第二智能设备位于所述可视区域中。

17.如权利要求16所述的智能设备，所述发送单元还用于，向预设方向区间发送第二信号。

18.如权利要求17所述的智能设备，所述第一智能设备为智能眼镜，和/或所述第二智能设备为智能音箱。

19.一种智能设备，包括：

一个或者多个处理器；

存储器；

存储在所述存储器中的程序，当被所述一个或者多个处理器执行时，所述程序使所述智能设备执行如权利要求13-15任一项所述的方法。

20.一种计算机可读存储介质，所述计算机可读存储介质存储有程序，当所述程序被处理器执行时，使得所述处理器执行如权利要求13-15任一项所述的方法。