CN111554283A

CN111554283A - 一种智能设备及其控制方法

Info

Publication number: CN111554283A
Application number: CN202010324942.0A
Authority: CN
Inventors: 高伟杰; 冯谨强; 孟祥奇
Original assignee: Hisense Co Ltd
Current assignee: Hisense Group Co Ltd; Hisense Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-08-18

Abstract

本发明公开了一种智能设备及其控制方法，在通话场景中，且在确定出图像采集器采集到的参考图像中包括参考手势时，可以对播放器的状态进行控制，使得处于静音状态，然后则可以切换语音采集器的工作模式，使其工作在语音控制模式，对智能设备的功能进行语音控制。如此，处于通话场景中时，可以实现对智能设备的语音控制，从而实现了远场交互场景中的语音控制；同时，还可以避免因语音采集器采集到播放器播放出的语音信息而对语音控制造成干扰，提高语音控制的准确性，减少语音控制的误判。

Description

一种智能设备及其控制方法

技术领域

本发明涉及智能设备技术领域，尤指一种智能设备及其控制方法。

背景技术

随着技术的发展，通过语音控制智能设备的功能，已成为智能设备的标配，大大提高了人机交互的体验感受。目前，为了实现语音控制，一般通过麦克风阵列采集声音，且麦克风阵列通常有两种工作模式：待唤醒模式和通话模式。其中，待唤醒模式为低功耗模式，此时麦克风阵列只采集激活词，并不会实时连续地采集语音信息；通话模式为用户通过智能设备进行通话的模式，此时麦克风阵列实时连续地采集语音信息。

由于待唤醒模式和通话模式并不能同时存在，所以在通话场景下，麦克风阵列处于通话模式，麦克风阵列无法工作在待唤醒模式，即使用户说出激活词，麦克风阵列也无法识别，却将采集的语音信息用于通话，导致无法对智能设备的功能进行语音控制。

那么，如何能够在通话场景下，实现对智能设备的语音控制，是本领域技术人员亟待解决的技术问题。

发明内容

本发明实施例提供了一种智能设备及其控制方法，用以在通话场景下，实现对智能设备的语音控制。

第一方面，本发明实施例提供了一种智能设备，包括：

图像采集器，被配置为：采集参考图像并传输至处理器中；

语音采集器，被配置为：采集语音信息并传输至所述处理器中；

播放器，被配置为：在所述处理器的控制下播放语音；

所述处理器，被配置为：

在所述语音采集器处于通话模式，且在确定出所述参考图像中包括用于表示模式切换的参考手势时，控制所述播放器处于静音状态；

控制所述语音采集器从所述通话模式切换至语音控制模式，并根据所述语音采集器采集到的语音信息，对所述智能设备进行语音控制；其中，所述语音控制模式为：用户通过语音对所述智能设备的功能进行控制的模式；所述通话模式为：所述用户通过所述智能设备进行通话的模式。

在某些本发明实施例中，所述处理器，被配置为：

在根据所述语音采集器采集到的语音信息，对所述智能设备进行语音控制之前，且在控制所述语音采集器从所述通话模式切换至语音控制模式之后，根据所述参考图像、以及预设的所述图像采集器与所述语音采集器之间的位置关系，确定所述用户与所述语音采集器之间的角度信息；

根据确定出的所述角度信息，控制所述语音采集器采集所述用户所在位置的语音信息。

在某些本发明实施例中，所述图像采集器与所述语音采集器之间的位置关系为：

所述图像采集器具有第一中心对称点，所述语音采集器具有第二中心对称点，所述第一中心对称点与所述第二中心对称点处于第一直线上，所述第一直线沿第一方向延伸。

在某些本发明实施例中，所述处理器，被配置为：

确定所述图像采集器在第二方向上的视场角度；其中所述第一方向与所述第二方向垂直；

确定所述参考图像在所述第二方向上的像素数量；

根据确定出的所述视场角度和所述像素数量，确定所述用户与所述语音采集器之间的角度信息。

在某些本发明实施例中，所述处理器，被配置为：

在对所述智能设备进行语音控制之后，在确定出对所述智能设备结束所述语音控制时，控制所述语音采集器从所述语音控制模式切换至所述通话模式。

在某些本发明实施例中，所述处理器，被配置为：

根据预设的语音控制结束规则，确定对所述智能设备结束所述语音控制。

在某些本发明实施例中，所述语音控制结束规则包括：

所述语音采集器采集到用于表示结束所述语音控制的参考语音信息；

或，在所述语音控制模式下，在预设时间内所述语音采集器未采集到语音信息。

在某些本发明实施例中，所述参考图像包括人脸区域和身体区域，所述人脸区域包括参考区域；所述参考图像中包括所述参考手势时，所述参考手势位于所述参考区域；

所述处理器，被配置为：

确定所述参考图像中所述人脸区域；

确定所述人脸区域中的所述参考区域，并提取所述参考区域对应的第一图像；

对所述第一图像进行识别，在确定出所述参考区域包括所述参考手势时，确定所述参考图像中包括所述参考手势。

在某些本发明实施例中，所述图像采集器的视场角度不小于120°。

第二方面，本发明实施例提供了一种智能设备的控制方法，包括：

在语音采集器处于通话模式下，接收采集到的参考图像并确定出所述参考图像中包括用于表示模式切换的参考手势时，控制播放器处于静音状态；

控制所述语音采集器从所述通话模式切换至语音控制模式，并接收语音信息，对所述智能设备进行语音控制；其中，所述语音控制模式为：用户通过语音对所述智能设备的功能进行控制的模式；所述通话模式为：所述用户通过所述智能设备进行通话的模式。

第三方面，本发明实施例提供了一种可读性存储介质，所述可读性存储介质存储有智能设备可执行指令，所述智能设备可执行指令用于使智能设备执行上述控制方法。

本发明有益效果如下：

本发明实施例提供的一种智能设备及其控制方法，在通话场景中，且在确定出图像采集器采集到的参考图像中包括参考手势时，可以对播放器的状态进行控制，使得处于静音状态，然后则可以切换语音采集器的工作模式，使其工作在语音控制模式，对智能设备的功能进行语音控制。如此，处于通话场景中时，可以实现对智能设备的语音控制，从而实现了远场交互场景中的语音控制；同时，还可以避免因语音采集器采集到播放器播放出的语音信息而对语音控制造成干扰，提高语音控制的准确性，减少语音控制的误判。

附图说明

图1为本发明实施例中提供的一种智能设备的结构示意图；

图2为本发明实施例中提供的人脸区域和参考区域的示意图；

图3为本发明实施例中提供的用户、图像采集器和语音采集器的位置关系的示意图；

图4为本发明实施例中提供的智能设备的工作过程的流程图；

图5为本发明实施例中提供的一种智能设备的控制方法的流程图。

其中，10-图像采集器，20-语音采集器，30-播放器，40-处理器。

具体实施方式

下面将结合附图，对本发明实施例提供的一种智能设备及其控制方法的具体实施方式进行详细地说明。需要说明的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

发明人在研究中发现，若麦克风阵列工作在待唤醒模式时，用户必须先通过说出激活词唤醒麦克风阵列，也就是说，麦克风阵列可以通过对包括唤醒词的语音进行采集，再由处理器识别出该语音中包括激活词，从而控制麦克风阵列切换到语音控制模式，并根据麦克风阵列采集到的语音信息，对智能设备的功能进行控制。

例如，若需要对智能设备的音量进行调节时，在用户通过说出激活词使得麦克风阵列切换到语音控制模式时，可以通过麦克风阵列采集到用户说出的“降低音量”的语音信息，由处理器进行处理后将智能设备的音量，从而实现对智能设备的语音控制。

若麦克风阵列工作在通话模式时，麦克风阵列会将采集到的全部语音信息通过视频云发送至通话对方，所以，此时用户无法通过语音对智能设备的功能进行控制。

基于此，本发明实施例提供了一种智能设备，用以在通话场景下，实现对智能设备的语音控制。

具体地，本发明实施例提供的一种智能设备，如图1所示，可以包括：

图像采集器10，被配置为：采集参考图像并传输至处理器40中；

语音采集器20，被配置为：采集语音信息并传输至处理器40中；

播放器30，被配置为：在处理器40的控制下播放语音；

处理器40，被配置为：

在语音采集器20处于通话模式，且在确定出参考图像中包括用于表示模式切换的参考手势时，控制播放器30处于静音状态；

控制语音采集器20从通话模式切换至语音控制模式，并根据语音采集器20采集到的语音信息，对智能设备进行语音控制；其中，语音控制模式为：用户通过语音对智能设备的功能进行控制的模式；通话模式为：用户通过智能设备进行通话的模式。

其中，语音控制模式，可以理解为：

例如但不限于，若要打开智能设备中的应用软件A时，用户可以说出“打开应用软件A”的指令，语音采集器采集到这一指令后传输至处理器中，处理器根据该指令打开应用软件A。

通话模式，可以理解为：

用户正在通过智能设备与其他人进行语音通话或视频通话。

因此，在通话场景中，且在确定出图像采集器采集到的参考图像中包括参考手势时，可以对播放器的状态进行控制，使得处于静音状态；例如，此时用户正在使用智能设备进行视频通话，播放器正在播放对方的语音，用户做出参考手势后，为了避免将视频通话的语音被语音采集器采集到而影响语音控制，则控制播放器静音。

之后，则可以切换语音采集器的工作模式，使其工作在语音控制模式，等待用户发出语音控制指令，以对智能设备的功能进行语音控制。

如此，在处于通话场景中时，可以实现对智能设备的语音控制，从而实现了远场交互场景中的语音控制；同时，还可以避免因语音采集器采集到播放器播放出的语音信息而对语音控制造成干扰，提高语音控制的准确性，减少语音控制的误判。

在某些实施例中，在本发明实施例中，智能设备可以但不限于为移动终端、以及智能电视等具有语音采集器、图像采集器、播放器和处理器的智能家电，在此并不限定。

在某些实施例中，在本发明实施例中，图像采集器可以为摄像头、传感器等图像采集器件，只要能够实现参考图像的采集即可，对于图像采集器的具体结构，在此不作具体限定。

在某些实施例中，在本发明实施例中，图像采集器的视场角度不小于120°。

也就是说，图像采集器的视场角度(包括横向视场角度和纵向视场角度)均可以不小于120°，使得图像采集器具有较大的视场角度，进而具有较大的可采集区域，不管用户与智能设备之间的相对位置如何，均可以使得采集到的参考图像中包括用户，以便于识别出参考手势，从而有利于实现对语音采集器的模式的切换。

在某些实施例中，在本发明实施例中，对于语音采集器而言，可以为麦克风阵列等采集语音的器件，只要能够实现语音信息的采集即可，对于语音采集器的具体结构，在此不作具体限定。

在某些实施例中，在本发明实施例中，如图2所示，参考图像可以包括人脸区域和身体区域，人脸区域可以包括参考区域；并且，在参考图像中包括参考手势时，参考手势可以位于参考区域；

基于此，在确定参考图像中是否包括参考手势时，处理器，可以被配置为：

确定参考图像中的人脸区域(如实线框M2)；

确定人脸区域中的参考区域(如实线框M3)，并提取参考区域对应的第一图像；

对第一图像进行识别，在确定出参考区域包括参考手势时，确定参考图像中包括参考手势。

其中，在确定参考图像中的人脸区域时，可以具体为：

过程1：对参考图像进行人体检测，在确定参考图像中包括人体信息时，确定人体区域(如图2中的实线框M1)；

过程2：对确定出的人体区域进行人脸检测，在确定出包括人脸信息时，确定人脸区域(如图2中的实线框M2)。

说明一点，先进行人体检测再进行人脸检测的原因为：

在检测出人体信息的前提下进行人脸检测时，可以缩小检测范围，提高检测的准确度，减小检测结果的误差；同时，还可以减少检测时的运算量，提高检测效率。

当然，在实际情况中，参考区域可以为人脸中的嘴巴区域，但并不限于此，还可以为眼睛区域或鼻子区域等，可以根据实际需要设计参考手势以确定参考区域，以满足不同应用场景的需要，提高设计的灵活性。

并且，在提取第一图像时，可以根据统计的方法确定。

也就是说，根据对大量的样本进行前期的统计和分析，确定出参考区域在人脸区域中的相对位置，以便于在实际的提取过程中，从参考图像中准确、快速且有效地提取出第一图像。

具体地，以参考区域为嘴巴区域为例，对大量的样本进行前期的统计和分析的过程，可以包括：

1、选取大量样本图像；

其中，每个样本图像均为人脸区域对应的图像，且这些样本图像中，部分样本图像包括参考手势、部分样本图像不包括参考手势，还有一部分样本图像包括除参考手势之外的其他手势。

2、在这些样本图像中对嘴巴区域标记矩形框；

3、统一这些样本图像的尺寸；

由于不同样本图像的尺寸可能存在不一致的情况，所以需要统一样本图像的尺寸，以便于后续能够准确地提取第一图像。

4、对标记的矩形框进行响应变换，得到每个矩形框对应的第一数值；

5、计算变换后的各矩形框对应的第一数值的平均值，将该平均值记为第二数值；

6、对二数值进行放大处理；

7、将放大处理后的第二数值对应的矩形框作为嘴巴区域，并提取该矩形框，得到第一图像。

当然，在实际情况中，对大量的样本进行前期的统计和分析的过程，并不限于上述过程，还可以是本领域技术人员所熟知的其他可以实现统计和分析的过程，在此并不做具体限定。

此外，在对第一图像进行识别，以确定是否包括参考手势时，可以根据本领域技术人员所熟知的任何图像识别方法，在此并不做限定，只要能够识别出第一图像中是否包括参考手势即可。

在具体实施时，在本发明实施例中，处理器，还可以被配置为：

在根据语音采集器采集到的语音信息，对智能设备进行语音控制之前，且在控制语音采集器从通话模式切换至语音控制模式之后，根据参考图像、以及预设的图像采集器与语音采集器之间的位置关系，确定用户与语音采集器之间的角度信息；

根据确定出的角度信息，控制语音采集器采集用户所在位置的语音信息。

也就是说，在将语音采集器的模式切换至语音控制模式之后，需要确定用户所在位置，以便于采集用户所在位置的语音信息，实现定向拾音，且对其他方向的语音信息进行抑制，避免其他方向的语音对语音控制过程的干扰，提高语音识别的准确率，从而提高用户交互语音的质量。

在某些实施例中，在本发明实施例中，图像采集器与语音采集器之间的位置关系可以为：

图像采集器具有第一中心对称点，语音采集器具有第二中心对称点，第一中心对称点与第二中心对称点处于第一直线上，第一直线沿第一方向延伸。

例如，参见图3所示，第一直线(如虚线L1)为沿着Y方向延伸的直线，所以图像采集器10和语音采集器20是沿着Y方向设置的，也即第一中心对称点D1与第二中心对称点D2为沿着Y方向上下对齐。

如此，通过对图像采集器与语音采集器之间的位置关系的设置，可以有利于确定出用户与语音采集器之间的角度信息，从而有利于实现根据确定出的角度信息，控制语音采集器采集用户所在位置的语音信息，实现定向拾音。

在某些实施例中，在本发明实施例中，处理器，被配置为：

确定图像采集器在第二方向上的视场角度；其中第一方向与第二方向垂直；

确定参考图像在第二方向上的像素数量；

根据确定出的视场角度和像素数量，确定用户与语音采集器之间的角度信息。

其中，参见图3所示，第一方向为Y方向时，第二方向为X方向。当然，在第一方向为X方向时，第二方向可以为Y方向，未给出图示。

如此，通过上述过程，即可准确有效地确定出用户与语音采集器之间的角度信息，从而有利于实现根据确定出的角度信息，控制语音采集器采集用户所在位置的语音信息，实现定向拾音。

下面结合图3所示，对确定用户与语音采集器之间的角度信息的具体过程进行说明。

由于选定图像采集器10后，图像采集器10的横向视场角即固定，所以可以根据图像采集器10的参数，确定出图像采集器10的横向视场角α的大小、以及确定出图像采集器10采集到的参考图像在X方向上的像素数量，用w来表示。

若假设：经过图像采集器10的第一中心对称点D1且沿着X方向延伸的直线为参考直线L0，且参考直线L0向左延伸的方向表示0°方向，向右延伸的方向表示180°方向，所以第一直线L1为：经过第一中心对称点D1且与参考直线L0垂直的直线，因此：

用户与第一中心对称点D1的连线与第一直线L1之间的夹角θ，可以根据以下公式计算：

其中，若将参考图像对应的坐标系为参考坐标系(即中心对称点可以为坐标系中的原点)时，x表示参考区域的中心对称点在参考坐标系中的横坐标(也即X方向的坐标)。

那么：用户与图像采集器10之间的夹角信息，即为用户与第一中心对称点D1的连线与0°方向之间的角度β：

由于图像采集器10的第一中心对称点与语音采集器20的第二中心对称点，沿着Y方向对齐，所以用户与图像采集器10之间的角度信息，即为用户与语音采集器20之间的角度信息，因此，用户与语音采集器20之间的夹角信息即为上述公式得到的β。

在具体实施时，在本发明实施例中，处理器，被配置为：

在对智能设备进行语音控制之后，在确定出对智能设备结束语音控制时，控制语音采集器从语音控制模式切换至通话模式。

如此，可以在需要结束语音控制时，结束语音控制，使得语音采集器的工作模式切换至通话模式，继续进行通话，从而实现了语音采集器在不同模式之间的切换，同时还可以在通话场景下实现对智能设备的语音控制。

在某些实施例中，处理器，被配置为：

根据预设的语音控制结束规则，确定对智能设备结束语音控制。

也就是说，通过设置的语音控制结束规则，即可确定出是否需要对智能设备结束语音控制，从而实现语音采集器的模式切换，保证语音控制模式和通话模式的正常有序进行，提高用户的体验感受。

在某些实施例中，在本发明实施例中，语音控制结束规则包括：

语音采集器采集到用于表示结束语音控制的参考语音信息；

或，在语音控制模式下，在预设时间内语音采集器未采集到语音信息。

其中，参考语音信息，可以根据实际需要进行设置，例如但不限于设置为结束控制等，只要能够结束语音控制即可，从而提高设计的灵活性。

并且，对于预设时间而言，同样可以根据实际需要进行设置，例如但不限于设置为10s、20s或30s等，只要能够结束语音控制即可，从而提高设计的灵活性。

也就是说，在实际实施时，可以通过上述两种方式判断是否结束语音控制，从而有利于提高对语音采集器的模式的控制，进而有利于提高对智能设备的控制。

说明一点，在具体实施时，在确定结束对智能设备的语音控制时，可以停止语音采集器当前的收音功能(也即采集语音信息的功能)，并对停止收音功能之前采集到的语音信息进行识别，对智能设备的功能进行控制；同时，在停止语音采集器当前的收音功能，可以同时切换语音采集器的模式，即从语音控制模式切换回通话模式，使得语音采集器此时可以实时采集各个方向的语音信息，经过同步、编码处理后发送至视频云以用于通话，从而继续使用语音采集器进行通话过程。

下面以具体实施例，对本发明实施例提供的上述智能设备的工作过程进行说明。

结合图4所示的流程图，且以参考区域为嘴巴区域，当前语音采集器处于通话模式为例。

S401、图像采集器获取参考图像，并传输至处理器中；

S402、处理器从参考图像中提取嘴巴区域对应的第一图像；

S403、处理器判断第一图像中是否包括参考手势；若是，执行S404；如否，回到S401；

S404、处理器控制播放器处于静音状态；

S405、处理器控制语音采集器从通话模式切换至语音控制模式；

S406、处理器根据参考图像、以及预设的图像采集器与语音采集器之间的位置关系，确定用户与语音采集器之间的角度信息；

S407、处理器根据确定出的角度信息，控制语音采集器采集用户所在位置的语音信息；

S408、处理器根据语音采集器采集到的语音信息，对智能设备进行语音控制；

S409、处理器根据预设的语音控制结束规则，判断对智能设备是否结束语音控制；若是，执行S410；若否，回到S407；

S410、处理器控制语音采集器从语音控制模式切换至通话模式。

基于同一发明构思，本发明实施例提供了一种智能设备的控制方法，如图5所示，该控制方法包括：

S501、在语音采集器处于通话模式下，接收采集到的参考图像并确定出参考图像中包括用于表示模式切换的参考手势时，控制播放器处于静音状态；

S502、控制语音采集器从通话模式切换至语音控制模式，并接收语音信息，对智能设备进行语音控制；其中，语音控制模式为：用户通过语音对智能设备的功能进行控制的模式；通话模式为：用户通过智能设备进行通话的模式。

如此，在通话场景中，且在确定出采集到的参考图像中包括参考手势时，可以对播放器的状态进行控制，使得处于静音状态，然后则可以切换语音采集器的工作模式，使其工作在语音控制模式，对智能设备的功能进行语音控制。如此，处于通话场景中时，可以实现对智能设备的语音控制，从而实现了远场交互场景中的语音控制；同时，还可以避免因语音采集器采集到播放器播放出的语音信息而对语音控制造成干扰，提高语音控制的准确性，减少语音控制的误判。

在某些实施例中，在本发明实施例中，在根据所述语音采集器采集到的语音信息，对所述智能设备进行语音控制之前，且在控制所述语音采集器从所述通话模式切换至语音控制模式之后，还包括：

根据所述参考图像、以及预设的所述图像采集器与所述语音采集器之间的位置关系，确定所述用户与所述语音采集器之间的角度信息；

在某些实施例中，在本发明实施例中，根据所述参考图像、以及预设的所述图像采集器与所述语音采集器之间的位置关系，确定所述用户与所述语音采集器之间的角度信息，具体包括：

确定所述参考图像在所述第二方向上的像素数量；

在某些实施例中，在本发明实施例中，在对所述智能设备进行语音控制之后，还包括：

在确定出对所述智能设备结束所述语音控制时，控制所述语音采集器从所述语音控制模式切换至所述通话模式。

在某些实施例中，在本发明实施例中，确定对所述智能设备是否结束所述语音控制，具体包括：

根据预设的语音控制结束规则，确定对所述智能设备是否结束所述语音控制。

需要说明的是，在本发明实施例中，对于控制方法的具体实施方式，可以参见前述智能设备的实施例，重复之处不再赘述。

基于同一发明构思，本发明实施例提供了一种可读性存储介质，可读性存储介质存储有智能设备可执行指令，智能设备可执行指令用于使智能设备执行上述控制方法。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种智能设备，其特征在于，包括：

图像采集器，被配置为：采集参考图像并传输至处理器中；

播放器，被配置为：在所述处理器的控制下播放语音；

所述处理器，被配置为：

2.如权利要求1所述的智能设备，其特征在于，所述处理器，被配置为：

3.如权利要求2所述的智能设备，其特征在于，所述图像采集器与所述语音采集器之间的位置关系为：

4.如权利要求3所述的智能设备，其特征在于，所述处理器，被配置为：

确定所述参考图像在所述第二方向上的像素数量；

5.如权利要求1所述的智能设备，其特征在于，所述处理器，被配置为：

6.如权利要求5所述的智能设备，其特征在于，所述处理器，被配置为：

7.如权利要求6所述的智能设备，其特征在于，所述语音控制结束规则包括：

8.如权利要求1所述的智能设备，其特征在于，所述参考图像包括人脸区域和身体区域，所述人脸区域包括参考区域；所述参考图像中包括所述参考手势时，所述参考手势位于所述参考区域；

所述处理器，被配置为：

确定所述参考图像中所述人脸区域；

9.如权利要求1所述的智能设备，其特征在于，所述图像采集器的视场角度不小于120°。

10.一种智能设备的控制方法，其特征在于，包括：