CN104200816B

CN104200816B - 语音控制方法和系统

Info

Publication number: CN104200816B
Application number: CN201410374890.2A
Authority: CN
Inventors: 程德凯; 吕艳红
Original assignee: Midea Group Co Ltd; Guangdong Midea Refrigeration Equipment Co Ltd
Current assignee: Midea Group Co Ltd; GD Midea Air Conditioning Equipment Co Ltd
Priority date: 2014-07-31
Filing date: 2014-07-31
Publication date: 2017-12-22
Anticipated expiration: 2034-07-31
Also published as: CN104200816A

Abstract

本发明公开了一种语音控制方法，在侦测到混合音频信号时，终端获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例；在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端响应侦测到的混合音频信号。本发明还公开了一种语音控制系统。本发明提高了语音控制的准确性。

Description

语音控制方法和系统

技术领域

本发明涉及语音控制领域，尤其涉及语音控制方法和系统。

背景技术

随着语音识别技术的发展，越来越多的终端采用语音来控制，现有的语音终端在侦测到语音控制指令时，可基于预存的语音控制指令与控制代码之间的映射关系，响应侦测到的语音控制指令所对应的控制代码。

但由于终端运行环境中有电视、音响、收音机等人为声源的存在，导致接收到的语音控制指令可能由上述电视、音响、收音机等声源发出，可能误触发错误的控制代码，导致终端的语音控制准确率低。

发明内容

本发明的主要目的在于解决语音控制准确率低的技术问题。

为实现上述目的，本发明提供的一种语音控制方法，所述语音控制方法包括以下步骤：

在侦测到混合音频信号时，终端获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例；

在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端响应侦测到的混合音频信号。

优选地，在各个预设频率的音频信号的强度或者比例满足预设的条件时，响应侦测到的混合音频信号的步骤包括：

在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端确定侦测到的混合音频信号中的中频信号是否为脉冲信号；

在所述中频信号为脉冲信号时，所述终端响应侦测到的混合音频信号。

优选地，所述在侦测到混合音频信号时，终端获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例的步骤之后，所述语音控制方法还包括：

在各个预设频率的音频信号的强度或者比例不满足预设的条件时，所述终端将侦测到的混合音频信号所对应的声源方向存储为机械声源方向。

优选地，所述在各个预设频率的音频信号的强度或者比例不满足预设的条件时，所述终端将侦测到的混合音频信号所对应的声源方向存储为异常方向的步骤包括：

在侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例不满足预设的条件时，所述终端确定侦测到的混合音频信号的声源方向；

所述终端将所述声源方向记录为异常方向；

在所述音源方向被记录为异常方向的次数大于预设阀值时，所述终端将所述声源方向存储为机械声源方向。

优选地，所述在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端响应侦测到的混合音频信号的步骤包括：

在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端获取预设频率的红外信号；

在获取到预设频率的红外信号时，所述终端响应所述语音控制指令。

在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端确定侦测到混合音频信号的时间点；

所述终端确定图像获取装置在确定的时间点获取到的图像，并对获取到的图像进行处理，以获取人形轮廓；

在从获取到的图像中获取到人形轮廓时，所述终端响应侦测到的混合音频信号。

此外，为实现上述目的，本发明还提出一种语音控制系统，所述语音控制系统包括：

获取模块，用于在侦测到混合音频信号时，获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例；

响应模块，用于在各个预设频率的音频信号的强度或者比例满足预设的条件时，响应侦测到的混合音频信号。

优选地，所述响应模块包括：

确定单元，用于在各个预设频率的音频信号的强度或者比例满足预设的条件时，确定侦测到的混合音频信号中的中频信号是否为脉冲信号；

响应单元，用于在所述中频信号为脉冲信号时，响应侦测到的混合音频信号。

优选地，所述语音控制系统还包括存储模块，用于在各个预设频率的音频信号的强度或者比例不满足预设的条件时，将侦测到的混合音频信号所对应的声源方向存储为机械声源方向。

优选地，所述存储包括：

确定单元，用于在侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例不满足预设的条件时，所述终端确定侦测到的混合音频信号的声源方向；

记录单元，用于将所述声源方向记录为异常方向；

存储单元，用于在所述音源方向被记录为异常方向的次数大于预设阀值时，将所述声源方向存储为机械声源方向。

优选地，所述响应模块包括：

红外信号获取单元，用于在各个预设频率的音频信号的强度或者比例满足预设的条件时，获取预设频率的红外信号；

响应单元，用于在获取到预设频率的红外信号时，响应所述语音控制指令。

优选地，所述响应模块包括：

确定单元，用于在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端确定侦测到混合音频信号的时间点；

处理单元，用于图像获取装置在确定的时间点获取到的图像，并对获取到的图像进行处理，以获取人形轮廓；

响应单元，用于在从获取到的图像中获取到人形轮廓时，响应侦测到的混合音频信号。

本发明提出的语音控制方法，在侦测到混合音频信号时，终端获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例，并在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端响应侦测到的混合音频信号，以保证该侦测到的混合音频信号不是机器发出的，提高语音控制的准确性。

附图说明

图1为本发明实现语音控制的终端的较佳实施例的硬件结构示意图；

图2为图1中语音控制系统的较佳实施例的功能模块示意图；

图3为本发明语音控制方法的较佳实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实现语音控制的终端的较佳实施例的硬件结构示意图。

该终端1包括处理单元11、存储单元12、语音拾取单元13以及语音控制系统14。

语音拾取单元13，用于在接收到声波的震动时，将震动产生的电信号转换为音频信号。

存储单元12，用于存储语音控制系统14及其运行数据，预设的条件以及预设的频率，语音控制指令与控制代码之间的映射关系。需要强调的是，该存储单元12既可以是一个单独的存储装置，也可以是多个不同存储装置的统称，在此不作赘述。

该处理单元11，用于调用并执行该语音控制系统14，在语音拾取单元13侦测到混合音频信号时，代用存储单元存储的预设的频率以及预设的条件，在侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例满足预设的条件时，响应所述混合音频信号。该处理单元11与存储单元12既可以分别是单独的单元，也可以集成在一起，构成一个控制器，在此不作赘述。

本发明提供一种语音控制系统。

参照图2，图2为图1中语音控制系统的较佳实施例的功能模块示意图。

需要强调的是，对本领域的技术人员来说，图2所示功能模块图仅仅是一个较佳实施例的示例图，本领域的技术人员围绕图2所示的语音控制系统14的功能模块，可轻易进行新的功能模块的补充；各功能模块的名称是自定义名称，仅用于辅助理解该语音控制系统14的各个程序功能块，不用于限定本发明的技术方案，本发明技术方案的核心是，各自定义名称的功能模块所要达成的功能。

本实施例提出的语音控制系统14，包括：

获取模块141，用于在侦测到混合音频信号时，获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例；

在本实施例中，获取模块141获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例可通过以下方式实现：

a、通过不同频率的带通滤波器分别对侦测到的混合音频信号进行过滤，以得到不同频率的音频信号，例如预设的频率分别为20HZ～300HZ、300HZ～4KHZ以及4KHZ～20KHZ，通过带通滤波器可得到20HZ～300HZ、300HZ～4KHZ以及4KHZ～20KHZ的第一音频信号、第二音频信号以及第三音频信号，则第一音频信号、第二音频信号以及第三音频信号的幅值a、b、c即为第一音频信号、第二音频信号以及第三音频信号的强度，而第一音频信号、第二音频信号以及第三音频信号的比例分别为a/(a+b+c)、b/(a+b+c)、c/(a+b+c)。

b、基于预设得到频率对侦测到的混合音频信号进行傅里叶转换，以将该混合音频信号转换为对应频率频域信号，并基于侦测到的频域信号获取对应的各个频率信号的比例或者强度，该比例如a方案所述，基于强度获取。

以上所列举出的两种获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例方式仅仅为示例性的，本领域技术人员利用本发明的技术思想，根据其具体需求所提出的其他方式以获取混合音频信号中各个预设频率的音频信号的强度或者比例均在本发明的保护范围内，在此不进行一一穷举。

响应模块142，用于在各个预设频率的音频信号的强度或者比例满足预设的条件时，响应侦测到的混合音频信号。

在本实施例中，该预设的条件可由厂商进行设定，具体示例如下：

1)预设的条件为中频信号的强度或者比例大于第一预设阀值，低频信号的强度或者比例小于第二预设阀值，高频信号的强度或者比例小于第三预设阀值，则响应模块142用于在侦测到的混合音频信号中中频信号的强度或者比例大于第一预设阀值，低频信号的强度或者比例小于第二预设阀值，高频信号的强度或者比例小于第三预设阀值时，响应侦测到的混合音频信号。

2)预设的条件为中频信号的强度或者比例大于第一预设阀值，低频信号的强度或者比例小于第二预设阀值，则响应模块142用于在侦测到的混合音频信号中中频信号的强度或者比例大于第一预设阀值，且低频信号的强度或者比例小于第二预设阀值时，响应侦测到的混合音频信号。

以上所列举出的两种在各个预设频率的音频信号的强度或者比例满足预设的条件时，响应侦测到的混合音频信号的方式仅仅为示例性的，本领域技术人员利用本发明的技术思想，根据其具体需求所提出的其他方式实现在各个预设频率的音频信号的强度或者比例满足预设的条件时，响应侦测到的混合音频信号的技术方案均在本发明的保护范围内，在此不进行一一穷举。

本实施例提出的语音控制系统，在侦测到混合音频信号时，获取模块获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例，并在各个预设频率的音频信号的强度或者比例满足预设的条件时，响应模块响应侦测到的混合音频信号，以保证该侦测到的混合音频信号不是机器发出的，提高语音控制的准确性。

进一步地，为提高语音控制的准确性，所述响应模块142包括：

确定单元1421，用于在各个预设频率的音频信号的强度或者比例满足预设的条件时，确定侦测到的混合音频信号中的中频信号是否为脉冲信号；

响应单元1422，用于在所述中频信号为脉冲信号时，响应侦测到的混合音频信号。

在本实施例中，该中频信号的频率优选为300HZ～4KHZ。在本实施例中，脉冲信号指不连续信号。在侦测到的混合音频信号中的中频信号为持续信号时，说明该侦测到的混合音频信号为持续运行的机械设备发出的，如排气扇、电机及/或电风扇等。

本领域技术人员可以理解的是，由于用户说话时，说话的时间间隔是基本不变的，此时，在所述中频信号为脉冲信号时，确定单元1421所述中频信号的脉冲时间间隔，在确定的时间间隔与预设的时间间隔匹配时，所述响应模块1422响应侦测到的混合音频信号。

进一步地，为提高语音控制的准确性，所述语音控制系统还包括存储模块，用于在各个预设频率的音频信号的强度或者比例不满足预设的条件时，将侦测到的混合音频信号所对应的声源方向存储为机械声源方向。

在本实施例中，在各个预设频率的音频信号的强度或者比例不满足预设的条件时，说明当前侦测到的混合音频信号为机器发出的，此时，将侦测到的混合音频信号所对应的声源方向存储为机械声源方向。本领域技术人员可以理解的是，用户向终端发送异常方向记录指令，终端的控制模块在侦测到异常方向记录指令时，控制语音拾取单元13按照预设的方向转动，存储模块在侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例不满足预设的条件时，将语音拾取单元13当前方向存储为机械声源方向。

进一步地，为提高语音控制的准确性，所述响应模块142还用于在各个预设频率的音频信号的强度或者比例满足预设的条件，且侦测到的混合音频信号的声源方向与预存的机械声源方向不匹配时，响应侦测到的混合音频信号。

进一步地，为提高语音控制的准确性，所述存储模块包括：

记录单元，用于将所述声源方向记录为异常方向；

在本实施例中，由于侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例不满足预设的条件时，该侦测到的音频信号可能由移动终端如手机等发出，故在当前声源方向被记录为异常方向的次数大于预设阀值时，则当前声源方向发出的音频信号为固定机械发送的如电机等，此时，将当前声源方向记录为机械声源方向。

在本实施例中，优选通过红外传感器获取预设频率的红外信号，由于人为恒温动物，检测到的红外信号的频率是一定的，当红外传感器检测到红外信号时，获取检测到的红外信号的频率，当红外信号的频率在预设(人体红外线频率)的范围内时，则可说明检测到的红外线为人体散发出的，则认为该终端的运行环境内有人，或者将红外传感器设置为仅接收某一频率范围的红外信号的传感器，该频率范围属于人体红外线频率的范围，当接收到红外信号时，则认为该终端的运行环境内有人。

本实施例中，可设置多个红外检测装置，每个红外检测装置对应不同的方向，以检测不同的检测区域中是否有人；或者该红外检测装置为广角红外检测装置，可接收到室内不同角度的热源发送的红外线；或者红外检测装置为单向红外传感器，仅仅能检测固定方向的红外线，可控制该红外检测装置按照预设的转动方向(如顺时针方向)转动，以接收不同方向的红外信号。

本领域技术人员可以理解的是，提高语音控制的准确性，响应单元包括：特征获取单元，用于在获取到预设频率的红外信号时，获取侦测到的混合音频信号的声音特征；响应单元，用于在获取到的声纹特征与预设的声音特征匹配时，响应侦测到的混合音频信号。该声音特征可为声纹特征、语音控制指令的频率、声压或者声压级等。

在本实施例中，基于获取到的图像中的颜色变化生成对应的轮廓，并将该轮廓与预设的人形轮廓进行比对，在该轮廓与预设的人形轮廓匹配时，确定该生成的轮廓为人形轮廓，或者将该生成的轮廓与预设的特征轮廓进行比对，如头部轮廓以及手部轮廓等，在生成的轮廓与特征轮廓匹配时，确定该生成的轮廓为人形轮廓。

在本实施例中，可在获取到人形轮廓时，确定获取到的图像中的唇形轮廓，并确定唇形轮廓是否发生变化，在唇形轮廓发生变化时，说明是人在发生，此时响应所述侦测到的混合音频信号。即所述响应单元包括：确定子单元，用于在从获取到的图像中获取到人形轮廓时，基于获取到的人形轮廓，确定获取到的图像中所述唇形轮廓是否发生变化；响应子单元，用于在确定获取到的图像中所述唇形轮廓是否发生变化时，响应侦测到的混合音频信号。

此外，本发明还提供一种语音控制方法。

参照图3，图3为本发明语音控制方法的较佳实施例的流程示意图。

本实施例提出的语音控制方法，包括以下步骤：

步骤S10，在侦测到混合音频信号时，终端获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例；

在本实施例中，获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例可通过以下方式实现：

步骤S20，在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端响应侦测到的混合音频信号。

本实施例提出的语音控制方法，在侦测到混合音频信号时，终端获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例，并在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端响应侦测到的混合音频信号，以保证该侦测到的混合音频信号不是机器发出的，提高语音控制的准确性。

进一步地，为提高语音控制的准确性，所述步骤S20包括：

步骤S21，在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端确定侦测到的混合音频信号中的中频信号是否为脉冲信号；

步骤S22，在所述中频信号为脉冲信号时，所述终端响应侦测到的混合音频信号。

本领域技术人员可以理解的是，由于用户说话时，说话的时间间隔是基本不变的，此时，在所述中频信号为脉冲信号时，步骤S22包括：在所述中频信号为脉冲信号时，所述终端确定所述中频信号的脉冲时间间隔；在确定的时间间隔与预设的时间间隔匹配时，所述终端响应侦测到的混合音频信号。

进一步地，为提高语音控制的准确性，所述步骤S10之后，所述语音控制方法还包括：

步骤S30，在各个预设频率的音频信号的强度或者比例不满足预设的条件时，所述终端将侦测到的混合音频信号所对应的声源方向存储为机械声源方向。

在本实施例中，在各个预设频率的音频信号的强度或者比例不满足预设的条件时，说明当前侦测到的混合音频信号为机器发出的，此时，将侦测到的混合音频信号所对应的声源方向存储为机械声源方向。本领域技术人员可以理解的是，用户向终端发送异常方向记录指令，在侦测到异常方向记录指令时，所述终端控制语音拾取单元13按照预设的方向转动，在侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例不满足预设的条件时，所述终端将语音拾取单元13当前方向存储为机械声源方向。

进一步地，为提高语音控制的准确性，所述步骤S20包括：在各个预设频率的音频信号的强度或者比例满足预设的条件，且侦测到的混合音频信号的声源方向与预存的机械声源方向不匹配时，所述终端响应侦测到的混合音频信号。

进一步地，为提高语音控制的准确性，所述步骤S30包括：

所述终端将所述声源方向记录为异常方向；

进一步地，为提高语音控制的准确性，所述步骤S20包括：

步骤S23，在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端获取预设频率的红外信号；

步骤S24，在获取到预设频率的红外信号时，所述终端响应所述语音控制指令。

本领域技术人员可以理解的是，提高语音控制的准确性，步骤S22包括：在获取到预设频率的红外信号时，所述终端获取侦测到的混合音频信号的声音特征；在获取到的声纹特征与预设的声音特征匹配时，所述终端响应侦测到的混合音频信号。该声音特征可为声纹特征、语音控制指令的频率、声压或者声压级等。

进一步地，为提高语音控制的准确性，所述步骤S20包括：

步骤S25，在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端确定侦测到混合音频信号的时间点；

步骤S26，所述终端确定图像获取装置在确定的时间点获取到的图像，并对获取到的图像进行处理，以获取人形轮廓；

步骤S27，在从获取到的图像中获取到人形轮廓时，所述终端响应侦测到的混合音频信号。

在本实施例中，可在获取到人形轮廓时，确定获取到的图像中的唇形轮廓，并确定唇形轮廓是否发生变化，在唇形轮廓发生变化时，说明是人在发生，此时响应所述侦测到的混合音频信号。即所述步骤S27包括在从获取到的图像中获取到人形轮廓时，所述终端基于获取到的人形轮廓，确定获取到的图像中所述唇形轮廓是否发生变化；在确定获取到的图像中所述唇形轮廓是否发生变化时，所述终端响应侦测到的混合音频信号。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音控制方法，其特征在于，所述语音控制方法包括以下步骤：

在各个预设频率的音频信号的强度或者比例满足预设的条件时，且侦测到的混合音频信号的声源方向与预存的机械声源方向不匹配时，所述终端响应侦测到的混合音频信号。

2.如权利要求1所述的语音控制方法，其特征在于，在各个预设频率的音频信号的强度或者比例满足预设的条件时，响应侦测到的混合音频信号的步骤包括：

在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端确定侦测到的混合音频信号中的中频信号是否为脉冲信号，所述脉冲信号指不连续信号；

3.如权利要求1所述的语音控制方法，其特征在于，所述在侦测到混合音频信号时，终端获取侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例的步骤之后，所述语音控制方法还包括：

4.如权利要求3所述的语音控制方法，其特征在于，所述在各个预设频率的音频信号的强度或者比例不满足预设的条件时，所述终端将侦测到的混合音频信号所对应的声源方向存储为异常方向的步骤包括：

所述终端将所述声源方向记录为异常方向；

在所述声源方向被记录为异常方向的次数大于预设阀值时，所述终端将所述声源方向存储为机械声源方向。

5.如权利要求1所述语音控制方法，其特征在于，所述在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端响应侦测到的混合音频信号的步骤包括：

6.如权利要求1所述语音控制方法，其特征在于，所述在各个预设频率的音频信号的强度或者比例满足预设的条件时，所述终端响应侦测到的混合音频信号的步骤包括：

7.一种语音控制系统，其特征在于，所述语音控制系统包括：

响应模块，用于在各个预设频率的音频信号的强度或者比例满足预设的条件时，且侦测到的混合音频信号的声源方向与预存的机械声源方向不匹配时，响应侦测到的混合音频信号。

8.如权利要求7所述的语音控制系统，其特征在于，所述响应模块包括：

确定单元，用于在各个预设频率的音频信号的强度或者比例满足预设的条件时，确定侦测到的混合音频信号中的中频信号是否为脉冲信号，所述脉冲信号指不连续信号；

9.如权利要求7所述的语音控制系统，其特征在于，所述语音控制系统还包括存储模块，用于在各个预设频率的音频信号的强度或者比例不满足预设的条件时，将侦测到的混合音频信号所对应的声源方向存储为机械声源方向。

10.如权利要求9所述的语音控制系统，其特征在于，所述存储包括：

确定单元，用于在侦测到的混合音频信号中各个预设频率的音频信号的强度或者比例不满足预设的条件时，终端确定侦测到的混合音频信号的声源方向；

记录单元，用于将所述声源方向记录为异常方向；

存储单元，用于在所述声源方向被记录为异常方向的次数大于预设阀值时，将所述声源方向存储为机械声源方向。

11.如权利要求7所述语音控制系统，其特征在于，所述响应模块包括：

12.如权利要求7所述语音控制系统，其特征在于，所述响应模块包括：

确定单元，用于在各个预设频率的音频信号的强度或者比例满足预设的条件时，终端确定侦测到混合音频信号的时间点；