CN104269172A

CN104269172A - 基于视频定位的语音控制方法和系统

Info

Publication number: CN104269172A
Application number: CN201410373088.1A
Authority: CN
Inventors: 程德凯; 吕艳红
Original assignee: Midea Group Co Ltd; Guangdong Midea Refrigeration Equipment Co Ltd
Current assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Priority date: 2014-07-31
Filing date: 2014-07-31
Publication date: 2015-01-07

Abstract

本发明公开了一种基于视频定位的语音控制方法，在侦测到语音控制指令时，终端获取图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓；在获取到人形轮廓时，所述终端响应侦测到的语音控制指令。本发明还公开了一种基于视频定位的语音控制系统。本发明提出的方案可避免终端响应机器发出的语音控制指令，提高语音控制的准确性。

Description

基于视频定位的语音控制方法和系统

技术领域

本发明涉及语音控制技术领域，尤其涉及基于视频定位的语音控制方法和系统。

背景技术

随着语音识别技术的发展，越来越多的终端采用语音来控制，现有的语音终端在侦测到语音控制指令时，可基于预存的语音控制指令与控制代码之间的映射关系，响应侦测到的语音控制指令所对应的控制代码。

但由于终端运行环境中有电视、音响、收音机等人为声源的存在，导致接收到的语音控制指令可能由上述电视、音响、收音机等声源发出，可能误触发错误的控制代码，导致终端的语音控制准确率低。

发明内容

本发明的主要目的在于解决语音控制准确率低的技术问题。

为实现上述目的，本发明提供的一种基于视频定位的语音控制方法，所述基于视频定位的语音控制方法包括以下步骤：

在侦测到语音控制指令时，所述终端获取图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓；

在获取到人形轮廓时，所述终端响应侦测到的语音控制指令。

优选地，在侦测到语音控制指令时，所述终端获取图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓的步骤包括：

在侦测到语音控制指令时，所述终端基于侦测到的语音指令确定声源方向；

所述终端获取所述声源方向的图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓。

优选地，在获取到人形轮廓时，所述终端响应侦测到的语音控制指令的步骤包括：

在获取到人形轮廓时，所述终端基于获取到的人形轮廓，确定获取到的图像中所述唇形轮廓是否发生变化；

在确定获取到的图像中所述唇形轮廓是否发生变化时，所述终端响应所述语音控制指令。

优选地，所述在获取到人形轮廓时，所述终端响应侦测到的语音控制指令的步骤包括：

在获取到人形轮廓时，所述终端确定获取到的人形轮廓所对应的图像中是否存在预设类型轮廓；

在获取到的人形轮廓所对应的图像中存在预设类型轮廓时，所述终端响应侦测到的语音控制指令。

在获取到人形轮廓时，所述终端确定提取到人形轮廓的图像对应的图像采集装置，在预设时间间隔内是否改变过；

在预设时间间隔内提取到人形轮廓的图像采集装置改变过时，所述终端响应侦测到的语音控制指令。

在获取到人形轮廓时，所述终端获取预设频率的红外信号；

在获取到预设频率的红外信号时，所述终端响应侦测到的语音控制指令。

优选地，所述在获取到人形轮廓时，所述终端获取预设频率的红外信号的步骤包括：

在获取到人形轮廓时，所述终端基于侦测到的语音指令确定声源方向；

所述终端控制红外信号检测装置指向所述声源方向，并获取预设频率的红外信号。

优选地，在侦测到语音控制指令时，所述终端获取图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓的步骤之后，所述基于视频定位的语音控制方法还包括：

在未获取到人形轮廓时，所述终端将侦测到的语音控制指令所对应的声源方向存储为异常方向。

此外，为实现上述目的，本发明还提出一种基于视频定位的语音控制系统，所述基于视频定位的语音控制系统包括以下步骤：

获取模块，用于在侦测到语音控制指令时，获取图像采集装置采集到的图像；

图像处理模块，用于对获取到的图像进行处理，以获取人形轮廓；

响应模块，用于在获取到人形轮廓时，响应侦测到的语音控制指令。

优选地，所述获取模块包括：

定向单元，用于在侦测到语音控制指令时，基于侦测到的语音指令确定声源方向；

获取单元，用于获取所述声源方向的图像采集装置采集到的图像。

优选地，所述响应模块包括：

确定单元，用于在获取到人形轮廓时，基于获取到的人形轮廓，确定获取到的图像中所述唇形轮廓是否发生变化；

响应单元，用于在确定获取到的图像中所述唇形轮廓是否发生变化时，所述终端响应所述语音控制指令。

优选地，所述响应模块包括：

确定单元，用于在获取到人形轮廓时，确定获取到的人形轮廓所对应的图像中是否存在预设类型轮廓；

响应单元，用于在获取到的人形轮廓所对应的图像中存在预设类型轮廓时，响应侦测到的语音控制指令。

优选地，所述响应模块包括：

确定单元，用于在获取到人形轮廓时，确定提取到人形轮廓的图像对应的图像采集装置，在预设时间间隔内是否改变过；

响应单元，用于在预设时间间隔内提取到人形轮廓的图像采集装置改变过时，响应侦测到的语音控制指令。

优选地，所述响应模块包括：

获取单元，用于在获取到人形轮廓时，获取预设频率的红外信号；

响应单元，用于在获取到预设频率的红外信号时，响应侦测到的语音控制指令。

优选地，所述获取单元包括：

确定子单元，用于在获取到人形轮廓时，基于侦测到的语音指令确定声源方向；

处理子单元，用于控制红外信号检测装置指向所述声源方向，并获取预设频率的红外信号。

优选地，所述基于视频定位的语音控制系统还包括：

存储模块，用于在未获取到人形轮廓时，将侦测到的语音控制指令所对应的声源方向存储为异常方向。

本发明提出的基于视频定位的语音控制方法系统，在侦测到语音控制指令时，终端获取图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓，在获取到人形轮廓时，终端响应侦测到的语音控制指令，基于该方案可避免终端响应机器发出的语音控制指令，提高语音控制的准确性。

附图说明

图1为本发明基于视频定位的语音控制的终端的较佳实施例的硬件结构示意图；

图2为图1中基于视频定位的语音控制系统较佳实施例的功能模块示意图；

图3为本发明基于视频定位的语音控制方法较佳实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明基于视频定位的语音控制的终端的较佳实施例的硬件结构示意图。

该终端1包括处理单元11、存储单元12、语音拾取单元13、图像采集单元14以及基于视频定位的语音控制系统15。

语音拾取单元13，用于在接收到声波的震动时，将震动产生的电信号转换为音频信号。

图像采集单元14，用于在处理单元的控制下进行图像的采集。

存储单元12，用于基于视频定位的语音控制系统15及其运行数据。需要强调的是，该存储单元12既可以是一个单独的存储装置，也可以是多个不同存储装置的统称，在此不作赘述。

该处理单元11，用于调用并执行该基于视频定位的语音控制系统15，在语音拾取单元13在侦测到语音控制指令时，获取图像采集单元采集到的图像，并对获取到的图像进行处理，以获取人形轮廓，在获取到人形轮廓时，所述终端响应侦测到的语音控制指令。该处理单元11与存储单元12既可以分别是单独的单元，也可以集成在一起，构成一个控制器，在此不作赘述。

本发明提供一种基于视频定位的语音控制系统。

参照图2，图2为图1中基于视频定位的语音控制系统较佳实施例的功能模块示意图。

需要强调的是，对本领域的技术人员来说，图2所示功能模块图仅仅是一个较佳实施例的示例图，本领域的技术人员围绕图2所示的基于视频定位的语音控制系统15的功能模块，可轻易进行新的功能模块的补充；各功能模块的名称是自定义名称，仅用于辅助理解该基于视频定位的语音控制系统15的各个程序功能块，不用于限定本发明的技术方案，本发明技术方案的核心是，各自定义名称的功能模块所要达成的功能。

本实施例提出的基于视频定位的语音控制系统15，包括：

获取模块151，用于在侦测到语音控制指令时，获取图像采集装置采集到的图像；

本领域技术人员可以理解的是，为减少终端的能耗，在侦测到语音控制指令时，获取模块151控制图像采集装置进行图像采集，并获取图像采集装置采集到的图像；或者，为保证语音控制的准确性，图像采集装置实时采集图像，在侦测到语音控制指令时，获取模块151确定侦测到语音控制指令的时间点，并获取图像采集装置在该时间点采集到的图像。

图像处理模块152，用于对获取到的图像进行处理，以获取人形轮廓；

在本实施例中，图像处理模块152基于获取到的图像中的颜色变化生成对应的轮廓，并将该轮廓与预设的人形轮廓进行比对，在该轮廓与预设的人形轮廓匹配时，确定该生成的轮廓为人形轮廓，或者将该生成的轮廓与预设的特征轮廓进行比对，如头部轮廓以及手部轮廓等，在生成的轮廓与特征轮廓匹配时，确定该生成的轮廓为人形轮廓。

响应模块153，用于在获取到人形轮廓时，响应侦测到的语音控制指令。

本领域技术人员可以理解的是，提高语音控制的准确性，响应模块153包括：特征获取单元，用于在获取到人形轮廓时，获取侦测到的语音控制指令的声音特征；响应单元，用于在获取到的声纹特征与预设的声音特征匹配时，响应所述语音控制指令。该声音特征可为声纹特征、语音控制指令的频率、声压或者声压级等。

进一步地，为提高对语音控制的灵活性。响应模块153可基于侦测到的语音控制指令的声源方向进行相应的控制。例如，在终端为空调器时，响应模块153控制其所在的空调器的导风板方向指向/避开侦测到的语音控制指令的声源方向。

本实施例提出的基于视频定位的语音控制系统，在侦测到语音控制指令时，获取模块获取图像采集装置采集到的图像，处理模块对获取到的图像进行处理，以获取人形轮廓，在获取到人形轮廓时，响应模块响应侦测到的语音控制指令，基于该方案可避免终端响应机器发出的语音控制指令，提高语音控制的准确性。

进一步地，为提高语音控制的准确性，所述获取模块151包括：

在本实施例中，可通过以下方式确定声源方向：

1)、通过按预设方向扫描的定向麦克风确定接收到的语音控制指令所对应的声源方向，具体方案如下：控制模块控制定向麦克风按照预设的方向进行扫描，在接收到语音控制指令时，定向单元确定该定向麦克风的当前收音方向，并确定该定向麦克风的当前收音方向为声源方向。该定向麦克风可按顺时针或者逆时针方向扫描，或者由起点到终点，再由终点到起点来回扫描。

2)、通过麦克风阵列确定接收到的语音控制指令所对应的声源方向，具体方案如下：在接收到语音控制语音指令时，终端确定麦克风阵列中接收到语音控制指令的麦克风，并确定的麦克风接收到语音控制指令的时间差，确定接收到的语音控制语音指令的声源方向。该根据麦克风接收到语音控制指令的时间差，确定接收到的风向控制语音指令的声源方向为现有技术，在此不再赘述。

以上所列举出的两种确定声源方向的方式仅仅为示例性的，本领域技术人员利用本发明的技术思想，根据其具体需求所提出的其他确定声源方向的方式均在本发明的保护范围内，在此不进行一一穷举。

通过获取声源方向的图像采集装置采集到的图像，并在获取到的图像中有人形轮廓时，响应模块153响应侦测到的语音控制指令，使得对终端的语音控制更加准确。

进一步地，为提高语音控制的准确性，响应模块153响应所述语音控制指令的过程包括以下实施例：

第一实施例：所述响应模块153包括：

确定单元，用于在从获取到的图像中获取到人形轮廓时，基于获取到的人形轮廓，确定获取到的图像中所述唇形轮廓是否发生变化；

该获取到的图像可为预设时间间隔内的视频，基于视频每一帧的图像确定唇形轮廓是否发生变化，或者，为预设时间间隔内定时获取到的图像，基于各个图像的比对确定唇形轮廓是否发生变化。

在本实施例中，可在获取到人形轮廓时，确定获取到的图像中的唇形轮廓，并确定唇形轮廓是否发生变化，在唇形轮廓发生变化时，说明是人在发生，此时响应所述语音控制指令即可。

第二实施例：所述响应模块153包括：

确定单元，用于在从获取到的图像中获取到人形轮廓时，确定获取到的人形轮廓所对应的图像中是否存在预设类型轮廓；

在本实施例中，由于用户在发送语音控制指令时，一般会面朝终端，故该预设类型轮廓优选为脸部轮廓，在获取到的该脸部轮廓时，说明用户面朝着终端。

第三实施例：所述响应模块153包括：

确定单元，用于在从获取到的图像中获取到人形轮廓时，确定预设时间间隔内提取到人形轮廓的图像采集装置是否改变过；

响应单元，用于在预设时间间隔内提取到人形轮廓的图像对应的图像采集装置改变过时，响应侦测到的语音控制指令。

在本实施例中，终端设置多个图像采集装置，不同的图像采集装置对应不同的方向，在预设时间间隔内采集到提取到人形轮廓的图像对应的图像采集装置改变过时，说明室内有用户移动，此时响应单元响应侦测到的语音控制指令。

第四实施例：所述响应模块153包括：

在本实施例中，红外检测装置优选为红外传感器，由于人为恒温动物，检测到的红外信号的频率是一定的，当红外传感器检测到红外信号时，获取检测到的红外信号的频率，当红外信号的频率在预设(人体红外线频率)的范围内时，则可说明检测到的红外线为人体散发出的，则认为该终端的运行环境内有人，或者将红外传感器设置为仅接收某一频率范围的红外信号的传感器，该频率范围属于人体红外线频率的范围，当接收到红外信号时，则认为该终端的运行环境内有人。

本实施例中，可设置多个红外检测装置，每个红外检测装置对应不同的方向，以检测不同的检测区域中是否有人；或者该红外检测装置为广角红外检测装置，可接收到室内不同角度的热源发送的红外线；或者红外检测装置为单向红外传感器，仅仅能检测固定方向的红外线，可控制该红外检测装置按照预设的转动方向(如顺时针方向)转动，以接收不同方向的红外信号。

为提高语音控制的准确性，所述获取单元进一步包括：

该第一实施例至第四实施例可为并列关系，也可为递进关系，例如确定单元，从获取到的图像中获取到人形轮廓时，确定获取到的人形轮廓所对应的图像中是否存在预设类型轮廓；以及在存在预设类型轮廓时，确定获取到的图像中所述唇形轮廓是否发生变化；在确定获取到的图像中所述唇形轮廓是否发生变化时，所述响应单元响应侦测得到的语音控制指令。

进一步地，为减少终端能耗，所述基于视频定位的语音控制系统15还包括：

在本实施例中，将未获取到人形轮廓的声源方向作为异常方向，则在侦测到的语音控制指令所对应的声源方向为异常方向时，不用获取预设频率的红外信号，直接不做任何处理。

本领域技术人员可以理解的是，存储模块还用于，在获取到预设频率的红外信号，且基于图像采集装置获取到的图像中未提取到人形轮廓时，将侦测到的语音控制指令所对应的声源方向存储为异常方向。

在本实施例中，所述响应模块153还用于，在侦测到的语音控制指令，且侦测到的语音控制指令所对应的声源方向与预存的异常方向不匹配时，响应所述语音控制指令。

本发明进一步提供一种基于视频定位的语音控制方法。

参照图3，图3为本发明基于视频定位的语音控制方法较佳实施例的流程示意图。

本实施例提出一种基于视频定位的语音控制方法，包括：

步骤S10，在侦测到语音控制指令时，所述终端获取图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓；

本领域技术人员可以理解的是，为减少终端的能耗，在侦测到语音控制指令时，终端控制图像采集装置进行图像采集，并获取图像采集装置采集到的图像；或者，为保证语音控制的准确性，图像采集装置实时采集图像，在侦测到语音控制指令时，终端确定侦测到语音控制指令的时间点，并获取图像采集装置在该时间点采集到的图像。

在本实施例中，终端基于获取到的图像中的颜色变化生成对应的轮廓，并将该轮廓与预设的人形轮廓进行比对，在该轮廓与预设的人形轮廓匹配时，确定该生成的轮廓为人形轮廓，或者将该生成的轮廓与预设的特征轮廓进行比对，如头部轮廓以及手部轮廓等，在生成的轮廓与特征轮廓匹配时，确定该生成的轮廓为人形轮廓。

步骤S20，在获取到人形轮廓时，所述终端响应侦测到的语音控制指令。

本领域技术人员可以理解的是，提高语音控制的准确性，步骤S20包括：在获取到人形轮廓时，所述终端获取侦测到的语音控制指令的声音特征；在获取到的声纹特征与预设的声音特征匹配时，所述终端响应所述语音控制指令。该声音特征可为声纹特征、语音控制指令的频率、声压或者声压级等。

进一步地，为提高对语音控制的灵活性。终端可基于侦测到的语音控制指令的声源方向进行相应的控制。例如，在终端为空调器时，所述终端控制其所在的空调器的导风板方向指向/避开侦测到的语音控制指令的声源方向。

本实施例提出的基于视频定位的语音控制方法，在侦测到语音控制指令时，终端获取图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓，在获取到人形轮廓时，终端响应侦测到的语音控制指令，基于该方案可避免终端响应机器发出的语音控制指令，提高语音控制的准确性。

进一步地，为提高语音控制的准确性，所述步骤S10包括：

在本实施例中，可通过以下方式确定声源方向：

1)、通过按预设方向扫描的定向麦克风确定接收到的语音控制指令所对应的声源方向，具体方案如下：控制模块控制定向麦克风按照预设的方向进行扫描，在接收到语音控制指令时，终端确定定向麦克风的当前收音方向，并将该定向麦克风的当前收音方向作为声源方向。该定向麦克风可按顺时针或者逆时针方向扫描，或者由起点到终点，再由终点到起点来回扫描。

通过获取声源方向的图像采集装置采集到的图像，并在获取到的图像中有人形轮廓时，终端响应侦测到的语音控制指令，使得对终端的语音控制更加准确。

进一步地，为提高语音控制的准确性，终端响应所述语音控制指令的过程包括以下实施例：

第一实施例：所述步骤S20包括：

第二实施例：所述步骤S20包括：

第三实施例：所述步骤S20包括：

在本实施例中，终端设置多个图像采集装置，不同的图像采集装置对应不同的方向，在预设时间间隔内采集到提取到人形轮廓的图像对应的图像采集装置改变过时，说明室内有用户移动，此时终端响应侦测到的语音控制指令。

第四实施例：所述步骤S20包括：

在获取到人形轮廓时，所述终端获取预设频率的红外信号；

在本实施例中，基于红外检测装置获取预设频率的红外信号，红外检测装置优选为红外传感器，由于人为恒温动物，检测到的红外信号的频率是一定的，当红外传感器检测到红外信号时，获取检测到的红外信号的频率，当红外信号的频率在预设(人体红外线频率)的范围内时，则可说明检测到的红外线为人体散发出的，则认为该终端的运行环境内有人，或者将红外传感器设置为仅接收某一频率范围的红外信号的传感器，该频率范围属于人体红外线频率的范围，当接收到红外信号时，则认为该终端的运行环境内有人。

为提高语音控制的准确性，所述“在获取到预设频率的红外信号时，所述终端响应侦测到的语音控制指令”的步骤进一步包括：

该第一实施例至第四实施例可为并列关系，也可为递进关系，例如从获取到的图像中获取到人形轮廓时，终端确定获取到的人形轮廓所对应的图像中是否存在预设类型轮廓；在存在预设类型轮廓时，所述终端确定获取到的图像中所述唇形轮廓是否发生变化；在确定获取到的图像中所述唇形轮廓是否发生变化时，所述终端响应侦测得到的语音控制指令。

进一步地，为减少终端能耗，所述步骤S10之后，所述基于视频定位的语音控制方法还包括：

在本实施例中，在侦测到的语音控制指令，且侦测到的语音控制指令所对应的声源方向与预存的异常方向不匹配时，终端响应所述语音控制指令。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于视频定位的语音控制方法，其特征在于，所述基于视频定位的语音控制方法包括以下步骤：

在侦测到语音控制指令时，终端获取图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓；

2.如权利要求1所述的基于视频定位的语音控制方法，其特征在于，在侦测到语音控制指令时，所述终端获取图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓的步骤包括：

3.如权利要求1所述的基于视频定位的语音控制方法，其特征在于，在获取到人形轮廓时，所述终端响应侦测到的语音控制指令的步骤包括：

4.如权利要求1所述的基于视频定位的语音控制方法，其特征在于，所述在获取到人形轮廓时，所述终端响应侦测到的语音控制指令的步骤包括：

5.如权利要求1所述的基于视频定位的语音控制方法，其特征在于，所述在获取到人形轮廓时，所述终端响应侦测到的语音控制指令的步骤包括：

6.如权利要求1所述的基于视频定位的语音控制方法，其特征在于，所述在获取到人形轮廓时，所述终端响应侦测到的语音控制指令的步骤包括：

在获取到人形轮廓时，所述终端获取预设频率的红外信号；

7.如权利要求1所述的基于视频定位的语音控制方法，其特征在于，所述在获取到人形轮廓时，所述终端获取预设频率的红外信号的步骤包括：

8.如权利要求1-7任一项所述的基于视频定位的语音控制方法，其特征在于，在侦测到语音控制指令时，所述终端获取图像采集装置采集到的图像，并对获取到的图像进行处理，以获取人形轮廓的步骤之后，所述基于视频定位的语音控制方法还包括：

9.一种基于视频定位的语音控制系统，其特征在于，所述基于视频定位的语音控制系统包括以下步骤：

10.如权利要求9所述的基于视频定位的语音控制系统，其特征在于，所述获取模块包括：

11.如权利要求9所述的基于视频定位的语音控制系统，其特征在于，所述响应模块包括：

12.如权利要求9所述的基于视频定位的语音控制系统，其特征在于，所述响应模块包括：

13.如权利要求9所述的基于视频定位的语音控制系统，其特征在于，所述响应模块包括：

14.如权利要求9所述的基于视频定位的语音控制系统，其特征在于，所述响应模块包括：

15.如权利要求14所述的基于视频定位的语音控制系统，其特征在于，所述获取单元包括：

16.如权利要求9-15任一项所述的基于视频定位的语音控制系统，其特征在于，所述基于视频定位的语音控制系统还包括：