CN111294706A

CN111294706A - 一种语音电器控制方法、装置、存储介质及语音电器

Info

Publication number: CN111294706A
Application number: CN202010048226.4A
Authority: CN
Inventors: 刘康; 王子; 李保水; 汪进
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-16

Abstract

本发明提供一种语音电器控制方法、装置、存储介质及语音电器，所述方法包括：通过双目摄像机采集所述语音电器所处环境的环境图像；基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系；根据所述目标用户与所述扬声器之间的所述相对位置关系控制所述语音电器的扬声器。本发明提供的方案能够实现动态调整扬声器的声音输出。

Description

一种语音电器控制方法、装置、存储介质及语音电器

技术领域

本发明涉及控制领域，尤其涉及一种语音电器控制方法、装置、存储介质及语音电器。

背景技术

传统语音播报系统中的语音反馈一般只会随着用户设定的音量大小和方向进行TTS语音播放，实际使用中由于用户的活动状态使得其位置在环境中时刻发生变化，不会判断用户实际位置，造成用户的不良体验。

发明内容

本发明的主要目的在于克服上述现有技术的缺陷，提供一种语音电器控制方法、装置、存储介质及语音电器，以解决现有技术中语音播放不会判断用户实际位置的问题。

本发明一方面提供了一种语音电器控制方法，包括：通过双目摄像机采集所述语音电器所处环境的环境图像；基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系；根据所述目标用户与所述扬声器之间的所述相对位置关系控制所述语音电器的扬声器。

可选地，基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系，包括：识别目标用户在所述环境图像中的位置；其中，所述目标用户包括所述语音电器当前的控制者；根据所述目标用户在所述环境图像中的位置，利用双目视觉算法计算所述双目摄像机与所述目标用户之间的相对位置关系；根据所述双目摄像机与所述扬声器之间的相对位置关系和所述双目摄像机与所述目标用户之间的相对位置关系，确定所述扬声器与所述目标用户之间的相对位置关系。

可选地，识别目标用户在所述环境图像中的位置，包括：在所述环境图像中识别所述目标用户的身体各个特征部位的位置；根据所述身体各个特征部位的位置，确定所述目标用户在所述环境图像中的位置。

可选地，还包括：确定所述环境图像中的目标用户，包括：当识别出所述环境图像中只存在一个用户时，将存在的所述一个用户确定为目标用户；和/或，当识别出所述环境图像中存在两个以上用户时，通过识别所述两个以上用户的嘴部变化情况，确定所述环境图像中的目标用户。

可选地，根据所述目标用户与所述扬声器之间的所述相对位置关系控制所述语音电器的扬声器，包括：根据所述相对位置关系控制所述扬声器的音量输出大小。

本发明另一方面提供了一种语音电器控制装置，包括：采集单元，用于通过双目摄像机采集所述语音电器所处环境的环境图像；确定单元，用于基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系；控制单元，用于根据所述目标用户与所述扬声器之间的所述相对位置关系控制所述语音电器的扬声器。

可选地，所述确定单元，包括：识别子单元，用于识别目标用户在所述环境图像中的位置；其中，所述目标用户包括所述语音电器当前的控制者；计算子单元，用于根据所述目标用户在所述环境图像中的位置，利用双目视觉算法计算所述双目摄像机与所述目标用户之间的相对位置关系；确定子单元，用于根据所述双目摄像机与所述扬声器之间的相对位置关系和所述双目摄像机与所述目标用户之间的相对位置关系，确定所述扬声器与所述目标用户之间的相对位置关系。

可选地，所述识别子单元，识别目标用户在所述环境图像中的位置，包括：在所述环境图像中识别所述目标用户的身体各个特征部位的位置；根据所述身体各个特征部位的位置，确定所述目标用户在所述环境图像中的位置。

可选地，所述确定单元，还包括：确定子单元，用于确定所述环境图像中的目标用户，包括：当识别出所述环境图像中只存在一个用户时，将存在的所述一个用户确定为目标用户；和/或，当识别出所述环境图像中存在两个以上用户时，通过识别所述两个以上用户的嘴部变化情况，确定所述环境图像中的目标用户。

本发明又一方面提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现前述任一所述方法的步骤。

本发明再一方面提供了一种语音电器，包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述任一所述方法的步骤。

本发明再一方面提供了一种语音电器，包括前述任一所述的语音电器控制装置。

根据本发明的技术方案，在用户与语音电器进行语音交互时，通过双目摄像机采集环境图像，基于双目视觉获取目标用户与所述扬声器之间的相对位置关系，从而根据所述相对位置关系控制所述语音电器的扬声器，通过双目摄像机进行图像采集，实现物体深度探测，完成目标用户的识别定位，从而能够根据目标用户与扬声器的相对位置关系控制扬声器的声音输出，实现动态调整扬声器的声音输出，提升用户的语音交互体验。根据本发明的技术方案，当所处环境有多个用户时，通过图像识别准确判断出语音电器当前的控制者，自动调节扬声器的输出，使语音电器与用户之间的语音交互与人与人之间的交互一样有指向性，更加人性化。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明提供的语音电器控制方法的一实施例的方法示意图；

图2是基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系的步骤一具体实施方式的流程示意图；

图3是本发明提供的语音电器控制装置的一实施例的结构框图；

图4是根据本发明实施例的确定单元的一种具体实施方式的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

图1是本发明提供的语音电器控制方法的一实施例的方法示意图。所述语音电器例如包括语音空调、语音冰箱和/或语音洗衣机。

如图1所示，根据本发明的一个实施例，所述控制方法至少包括步骤S110、步骤S120和步骤S130。

步骤S110，通过双目摄像机采集所述语音电器所处环境的环境图像。

具体地，当所述语音电器接收到唤醒语音时，通过双目摄像机采集所述语音电器所处环境的环境图像。所述双目摄像机可以安装在所述语音电器上，通过双目摄像机拍摄所述语音电器所处环境的环境图像。所述环境图像可以包括所述语音电器所处环境的至少一幅图像。例如，由于摄像机拍摄角度的原因不能在一幅图像中拍摄到将所处环境(例如房间)的全景，则可以拍摄一幅以上图像。

步骤S120，基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系。

图2是基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系的步骤一具体实施方式的流程示意图。如图2所示，在一种具体实施方式中，步骤S120包括步骤S121、步骤S122和步骤S123。

步骤S121，识别目标用户在所述环境图像中的位置。

所述目标用户具体为所述语音电器当前的控制者，例如，当前向所述语音电器发出语音命令的用户。

具体地，在所述环境图像中识别所述目标用户的身体各个特征部位的位置；根据所述身体各个特征部位的位置，确定所述目标用户在所述环境图像中的位置。更具体而言，通过图像识别算法识别目标用户的身体各个特征部位，所述特征部位具体可以为预先选定的人体部位，例如包括肢体关节、头部和/或肩部。根据所述身体各个特征部位在所述环境图像中的位置，确定所述目标用户在所述环境图像中的位置。

优选地，由于所处环境中可能有一个用户或者一个以上用户，因此，在识别目标用户在所述环境图像中的位置之前，先确定所述环境图像中的目标用户，再进一步识别目标用户在所述环境图像中的位置。具体地，通过图像识别算法，识别出所述环境图像中存在的用户，当识别出所述环境图像中只存在一个用户时，将存在的所述一个用户确定为目标用户；和/或，当识别出所述环境图像中存在两个以上用户时，通过识别所述两个以上用户的嘴部变化情况，确定所述环境图像中的目标用户。

例如，当接收到用户语音命令时，通过双目摄像机采集所述语音电器所处环境的环境图像，通过图像识别，识别出所述环境图像中存在的用户。当识别出存在两个以上用户时，识别所述两个以上用户的嘴部变化情况，通过识别接收到语音命令时采集的连续多幅图像(例如在接收到语音命令的时刻之前的预定时长内采集到的连续多帧图像)，识别出嘴巴持续开合的用户表明该用户正在说话，则确定为目标用户。例如，进行人脸信息识别，判断是否存在多个人脸信息，如果存在多个人脸信息，则对嘴部变化情况进行识别，所以当识别并判断出正在张嘴说话的人时，目标用户的位置也就能够获得。

步骤S122，根据所述目标用户在所述环境图像中的位置，利用双目视觉算法计算所述双目摄像机与所述目标用户之间的相对位置关系。

具体地，根据所述目标用户在所述环境图像中的位置，通过双目视觉算法计算所述目标用户与所述双目摄像机之间的深度信息和方向信息，得到所述双目摄像机与所述目标用户之间的相对位置关系，所述相对位置关系即空间的三维位置关系。

步骤S123，根据所述双目摄像机与所述扬声器之间的相对位置关系和所述双目摄像机与所述目标用户之间的相对位置关系，确定所述扬声器与所述目标用户之间的相对位置关系。

具体而言，预先确定所述双目摄像机与所述扬声器之间的相对位置关系，根据所述双目摄像机与所述扬声器之间的相对位置关系，可以将所述双目摄像机与所述目标用户之间的相对位置关系转换为所述扬声器与所述目标用户之间的相对位置关系。

例如，基于双目摄像机的位置建立三维坐标系，通过双目摄像机获得目标用户与双目摄像机之间的深度信息和方向信息，得到双目摄像机与目标用户的位置向量

在安装好双目摄像机和扬声器后，双目摄像机和扬声器相对位置已经确定，即得到双目摄像机与扬声器的位置向量

那么扬声器与目标用户的相对位置即

即转换到扬声器与目标用户的相对位置关系。应当注意，所述扬声器的数量为一个以上，此处只是对目标用户与其中一个扬声器的相对位置关系进行举例说明。

步骤S130，根据所述目标用户与所述扬声器之间的所述相对位置关系控制所述语音电器的扬声器。

在上述步骤得到所述扬声器与所述目标用户之间的相对位置关系后，每个扬声器与目标用户的相对位置关系确定，根据此相对位置关系控制扬声器。具体地，根据所述相对位置关系控制所述扬声器的音量输出大小。

在一种具体实施方式中，扬声器的音量输出大小根据距离与声音衰减的关系函数进行补偿。例如，声音衰减量L＝20lgD(温度为20℃情况下)，其中，D为距离音源的正面距离。当目标用户的位置发生变化后，可以根据衰减量对扬声器的音量输出进行补偿，使到达用户的音量始终保持相同。若所述语音电器包括两个以上扬声器，经过上述计算得到所述两个以上扬声器的音量的调整信息，保证不论目标用户处在什么位置都能得到一致的声音输出，例如保证用户无论出于什么位置都能得到一致的语音播报效果。在多个扬声器的配合下，实现立体音效。

可选地，可以设置控制语音电器的扬声器输出的功能开关，用户可以根据实际需求开启或关闭控制语音电器的扬声器输出的功能。即，当用户开启该功能时，执行本发明的方法，当用户未开启该功能时不执行本发明方法。

本发明还提供一种语音电器控制装置。所述语音电器例如包括语音空调、语音冰箱和/或语音洗衣机。

图3是本发明提供的语音电器控制装置的一实施例的结构框图。如图3所示，所述语音电器控制装置100包括采集单元110、确定单元120和控制单元130。

采集单元110用于通过双目摄像机采集所述语音电器所处环境的环境图像；确定单元120用于基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系；控制单元130用于根据所述目标用户与所述扬声器之间的所述相对位置关系控制所述语音电器的扬声器。

采集单元110通过双目摄像机采集所述语音电器所处环境的环境图像。具体地，当所述语音电器接收到唤醒语音时，采集单元110通过双目摄像机采集所述语音电器所处环境的环境图像。所述双目摄像机可以安装在所述语音电器上，通过双目摄像机拍摄所述语音电器所处环境的环境图像。所述环境图像可以包括所述语音电器所处环境的至少一幅图像。例如，由于摄像机拍摄角度的原因不能在一幅图像中拍摄到将所处环境(例如房间)的全景，则可以拍摄一幅以上图像。

确定单元120基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系。

图4是根据本发明实施例的确定单元的一种具体实施方式的结构框图。如图4所示，在一种具体实施方式中确定单元120包括：识别子单元121、计算子单元122和确定子单元123。

识别子单元121用于识别目标用户在所述环境图像中的位置；其中，所述目标用户包括所述语音电器当前的控制者。所述目标用户具体为所述语音电器当前的控制者，例如，当前向所述语音电器发出语音命令的用户。

具体地，识别子单元121在所述环境图像中识别所述目标用户的身体各个特征部位的位置；根据所述身体各个特征部位的位置，确定所述目标用户在所述环境图像中的位置。更具体而言，识别子单元121通过图像识别算法识别目标用户的身体各个特征部位，所述特征部位具体可以为预先选定的人体部位，例如包括肢体关节、头部和/或肩部。根据所述身体各个特征部位在所述环境图像中的位置，确定所述目标用户在所述环境图像中的位置。

优选地，由于所处环境中可能有一个用户或者一个以上用户，因此，识别子单元121在识别目标用户在所述环境图像中的位置之前，先确定所述环境图像中的目标用户，再进一步识别目标用户在所述环境图像中的位置。具体地，通过图像识别算法，识别出所述环境图像中存在的用户，当识别出所述环境图像中只存在一个用户时，将存在的所述一个用户确定为目标用户；和/或，当识别出所述环境图像中存在两个以上用户时，通过识别所述两个以上用户的嘴部变化情况，确定所述环境图像中的目标用户。

计算子单元122用于根据所述目标用户在所述环境图像中的位置，利用双目视觉算法计算所述双目摄像机与所述目标用户之间的相对位置关系。

具体地，计算子单元122根据所述目标用户在所述环境图像中的位置，通过双目视觉算法计算所述目标用户与所述双目摄像机之间的深度信息和方向信息，得到所述双目摄像机与所述目标用户之间的相对位置关系，所述相对位置关系即空间的三维位置关系。

确定子单元123用于根据所述双目摄像机与所述扬声器之间的相对位置关系和所述双目摄像机与所述目标用户之间的相对位置关系，确定所述扬声器与所述目标用户之间的相对位置关系。

具体而言，确定子单元123预先确定所述双目摄像机与所述扬声器之间的相对位置关系，根据所述双目摄像机与所述扬声器之间的相对位置关系，可以将所述双目摄像机与所述目标用户之间的相对位置关系转换为所述扬声器与所述目标用户之间的相对位置关系。

那么扬声器与目标用户的相对位置即

控制单元120根据所述目标用户与所述扬声器之间的所述相对位置关系控制所述语音电器的扬声器。

得到所述扬声器与所述目标用户之间的相对位置关系后，每个扬声器与目标用户的相对位置关系确定，根据此相对位置关系控制扬声器。具体地，根据所述相对位置关系控制所述扬声器的音量输出大小。

在一种具体实施方式中，扬声器的音量输出大小根据距离与声音衰减的关系函数进行补偿。例如，声音衰减量L＝20lgD(温度为20℃情况下)，其中，D为距离音源的正面距离。当目标用户的位置发生变化后，根据衰减量对扬声器的音量输出进行补偿，使到达用户的音量始终保持相同。若所述语音电器包括两个以上扬声器，经过上述计算得到所述两个以上扬声器的音量的调整信息，保证不论目标用户处在什么位置都能得到一致的声音输出，例如保证用户无论出于什么位置都能得到一致的语音播报效果。在多个扬声器的配合下，实现立体音效。

可选地，可以设置控制语音电器的扬声器输出的功能开关，用户可以根据实际需求开启或关闭控制语音电器的扬声器输出的功能。即，当用户开启该功能时，本发明装置执行相应操作，当用户未开启该功能时本发明装置不执行相应操作。

本发明还提供对应于所述语音电器控制方法的一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现前述任一所述方法的步骤。

本发明还提供对应于所述语音电器控制方法的一种语音电器，包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序，所述处理器执行所述程序时实现前述任一所述方法的步骤。

本发明还提供对应于所述语音电器控制装置的一种语音电器，包括前述任一所述的语音电器控制装置。

据此，本发明提供的方案，在用户与语音电器进行语音交互时，通过双目摄像机采集环境图像，基于双目视觉获取目标用户与所述扬声器之间的相对位置关系，从而根据所述相对位置关系控制所述语音电器的扬声器，通过双目摄像机进行图像采集，实现物体深度探测，完成目标用户的识别定位，从而能够根据目标用户与扬声器的相对位置关系控制扬声器的声音输出，实现动态调整扬声器的声音输出，提升用户的语音交互体验。根据本发明的技术方案，当所处环境有多个用户时，通过图像识别准确判断出语音电器当前的控制者，自动调节扬声器的输出，使语音电器与用户之间的语音交互与人与人之间的交互一样有指向性，更加人性化。

本文中所描述的功能可在硬件、由处理器执行的软件、固件或其任何组合中实施。如果在由处理器执行的软件中实施，那么可将功能作为一或多个指令或代码存储于计算机可读媒体上或经由计算机可读媒体予以传输。其它实例及实施方案在本发明及所附权利要求书的范围及精神内。举例来说，归因于软件的性质，上文所描述的功能可使用由处理器、硬件、固件、硬连线或这些中的任何者的组合执行的软件实施。此外，各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为控制装置的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种语音电器控制方法，其特征在于，包括：

通过双目摄像机采集所述语音电器所处环境的环境图像；

基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系；

根据所述目标用户与所述扬声器之间的所述相对位置关系控制所述语音电器的扬声器。

2.根据权利要求1所述的方法，其特征在于，基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系，包括：

识别目标用户在所述环境图像中的位置；其中，所述目标用户包括所述语音电器当前的控制者；

根据所述目标用户在所述环境图像中的位置，利用双目视觉算法计算所述双目摄像机与所述目标用户之间的相对位置关系；

根据所述双目摄像机与所述扬声器之间的相对位置关系和所述双目摄像机与所述目标用户之间的相对位置关系，确定所述扬声器与所述目标用户之间的相对位置关系。

3.根据权利要求2所述的方法，其特征在于，识别目标用户在所述环境图像中的位置，包括：

在所述环境图像中识别所述目标用户的身体各个特征部位的位置；

根据所述身体各个特征部位的位置，确定所述目标用户在所述环境图像中的位置。

4.根据权利要求2或3所述的方法，其特征在于，还包括：确定所述环境图像中的目标用户，包括：

当识别出所述环境图像中只存在一个用户时，将存在的所述一个用户确定为目标用户；

和/或，

当识别出所述环境图像中存在两个以上用户时，通过识别所述两个以上用户的嘴部变化情况，确定所述环境图像中的目标用户。

5.一种语音电器控制装置，其特征在于，包括：

采集单元，用于通过双目摄像机采集所述语音电器所处环境的环境图像；

确定单元，用于基于所述环境图像确定目标用户与所述语音电器的扬声器之间的相对位置关系；

控制单元，用于根据所述目标用户与所述扬声器之间的所述相对位置关系控制所述语音电器的扬声器。

6.根据权利要求5所述的装置，其特征在于，所述确定单元，包括：

识别子单元，用于识别目标用户在所述环境图像中的位置；其中，所述目标用户包括所述语音电器当前的控制者；

计算子单元，用于根据所述目标用户在所述环境图像中的位置，利用双目视觉算法计算所述双目摄像机与所述目标用户之间的相对位置关系；

确定子单元，用于根据所述双目摄像机与所述扬声器之间的相对位置关系和所述双目摄像机与所述目标用户之间的相对位置关系，确定所述扬声器与所述目标用户之间的相对位置关系。

7.根据权利要求6所述的装置，其特征在于，所述识别子单元，识别目标用户在所述环境图像中的位置，包括：

8.根据权利要求6或7所述的装置，其特征在于，所述识别子单元，还用于：确定所述环境图像中的目标用户，包括：

和/或，

9.一种存储介质，其特征在于，其上存储有计算机程序，所述程序被处理器执行时实现权利要求1-4任一所述方法的步骤。

10.一种语音电器，其特征在于，包括处理器、存储器以及存储在存储器上可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-4任一所述方法的步骤，或者包括如权利要求5-8任一所述的语音电器控制装置。