CN102298443B - 结合视频通道的智能家居语音控制系统及其控制方法 - Google Patents

结合视频通道的智能家居语音控制系统及其控制方法 Download PDF

Info

Publication number
CN102298443B
CN102298443B CN 201110174072 CN201110174072A CN102298443B CN 102298443 B CN102298443 B CN 102298443B CN 201110174072 CN201110174072 CN 201110174072 CN 201110174072 A CN201110174072 A CN 201110174072A CN 102298443 B CN102298443 B CN 102298443B
Authority
CN
China
Prior art keywords
module
instruction
lip
probability
people
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110174072
Other languages
English (en)
Other versions
CN102298443A (zh
Inventor
徐向民
梁卓锐
王玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN 201110174072 priority Critical patent/CN102298443B/zh
Publication of CN102298443A publication Critical patent/CN102298443A/zh
Application granted granted Critical
Publication of CN102298443B publication Critical patent/CN102298443B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)
  • Image Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了结合视频通道的智能家居语音控制系统及其方法,系统包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。其能够通过检测控制手势、识别人脸和唇语信息,对已识别到的语音信息加以补充,从而提高控制指令的准确度,增加利用语音控制智能家居的可行性。本专利具有很强的抗干扰能力,可广泛应用于多种复杂环境模式,尤其适用于克服家庭环境中人多有噪音的情况下。

Description

结合视频通道的智能家居语音控制系统及其控制方法
技术领域
本发明涉及视频语音识别技术,尤其涉及结合视频通道的智能家居语音控制系统及其控制方法。
背景技术
目前,大部分复杂的家电都是通过遥控器的键盘输入方式进行遥控的,随着家居的智能化以及包含内容的多样化,为了优化操作方式、增强操作的舒适性,用户需要更加易于操作的遥控器。语言是人类最直接最方便的交流和表达方式,如果采用语音识别技术,可以将原来的被动静止结构转变为具有主动识别语音执行的智慧工具,从而满足人们日益增长的需求。
近年来,语音识别技术发展十分迅速,目前已出现了许多自动语音识别类的产品,例如IBM开发的ViaVoice语音系统等。但是这些系统仍然缺乏较强的抗干扰能力,原因是它只能单一地从语音信道中获取信息,当这些系统应用到真实环境中时,一旦有背景噪声或多人交叉说话,它们的性能将大大下降,并且这样的应用环境十分常见,如:办公室、汽车、工厂或机场等,就连家庭环境也是如此。
发明内容
为解决现有技术存在的缺点和不足,本发明提供结合视频通道的智能家居语音控制系统及其控制方法,相比现有技术所采用的控制方式,本发明抗干扰能力强,能够克服家庭环境中由于噪音干扰所带来的无法识别的技术问题。
本发明的目的通过下述技术方案实现:
结合视频通道的智能家居语音控制系统,包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。
所述识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。
结合视频通道的智能家居语音控制系统的识别方法,可通过如下步骤实现:
(1)手势检测
手势检测模块采用haar小波变换,以及LBP特征提取,选取Adaboost分类器对固定手势进行检测,判断用户是否获得控制权;
(2)人脸检测
人脸检测模块采用haar小波变换,选取Adaboost分类器对人脸进行检测,判断操作空间内是否有人,如果检测到人脸,则同时开启识别系统模块的唇语和语音两部分;
(3)人脸跟踪与定位
人脸跟踪与定位模块结合人脸检测模块输出的参数,按照人脸的大小以及位置,调整摄像头焦距和光轴,使人脸图像足够清晰,同时控制人脸处于图像中央位置,使人脸至少占图像的三分之二面积以上;
(4)唇语视频输入
唇语视频输入模块将从人脸中提取出嘴唇部分,实现嘴唇的分割与模型建立,获得嘴唇运动序列;
(5)唇语识别
唇语识别模块将相应的嘴唇运动序列翻译成为一定语义的指令,其中包括唇部特征提取和模式识别;
(6)语音输入
语音输入模块通过语音接收设备,接收音频输入,系统采用麦克风将语音输入给计算机,声卡以一定频率机型数据采样,然后进行A/D转换;为减少不利影响,此模块将对输入的语音信号进行高频补偿。
(7)语音识别
语音识别模块将检测到的语音数据,翻译成对应的语义指令,包括语音特征提取和语音识别。
(8)指令判断
指令判断模块将语音识别模块的输出结果和唇语识别模块的输出结果进行匹配,通过概率分析,判断该指令是否有效,
指令集为C=[c1,c2,...cn]
唇语识别模块输出各指令概率为P=[p1,p2,...pn],
语音识别模块输出各指令概率为Q=[q1,q2,...qn],
则认为唇语和语音结合判断的指令概率D=[d1,d2,...dn],其中
d i = p i q i / Σ k = 1 n p k q k , 1≤i≤n
挑选最大概率dimax,若dimax大于阈值,则选择dimax对应的指令ci作为输出指令;若dimax小于阈值,则认为该指令是无效指令,系统将返回至人脸检测模块重新开始。
(9)指令显示与确认
指令显示与确认模块将显示判断后的最终指令,供用户确认,确认方法仍为手势控制。
上述步骤(4)唇语视频输入具体如下:
(1)嘴唇分割使用改善的FCMS算法,将图像的颜色信息与空间信息结合起来,再把嘴唇的形状信息嵌入到聚类算法中的相似性判别函数中,实现嘴唇的有效分割;
(2)在嘴唇模型建立方法上,采用14点主动形状模型。在ASM中将外形相似的嘴唇轮廓通过14个关键的特征点的坐标串接成原始的形状向量;
上述步骤(5)唇语识别具体如下:
(1)唇部的形状特征提取,将选取14点ASM模型的长和宽,即6点和14点之间以及3点和10点之间的距离W和H作为特征,并在计算过程中引入两点间距离公式:
D = ( x 1 - x 2 ) 2 + ( y 1 - y 2 ) 2
为消除由于说话人坐姿等带来的干扰因素,要对W,H进行归一化,特征向量记为fWH={W,H};另外几何特征提取将通过14点ASM模型进行曲线拟合,然后把说话人嘴唇划分为三段曲线,即1-6点和14点,6-10点,10-14点分别进行二次曲线拟合:
Y=ax2+bx+c
曲线内核所得到参数a,b,c,经过归一化后可作为独立的特征向量,此特征向量可记为
fcur={a1,b1,c1,a2,b2,c2,a3,b3,c3}
其中相关特征提取将采取一阶差分、二阶差分获取运动图像相关特征:
Vf=f(n)-f(n-1),结果记为VfWH,Vfcur
V2f=f(n)+f(n-2)-2f(n-1),结果记为V2fWH,V2fcur
(2)模式识别部分将前述的各种特征组合作为输入向量输入HMM,通过这种方式识别唇语。紧接着将识别的内容与事先设置好的指令集进行匹配。匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
上述步骤(7)语音特征提取和语音识别具体如下:
(1)语音特征提取
使用线性预测倒谱系数来表征短时语音信号,由线性预测系数直接推导:
c m = a m + Σ k = 1 m - 1 k m c k a m - k ( 1 ≤ m ≤ p )
c m = Σ k = 1 m - 1 k m c k a m - k ( m > p )
(2)语音识别,使用动态时间规整方法和隐马尔科夫模型方法;
动态时间规整方法对参考语音模式和待测语音模式的时间轴进行非线性归一化变换,使其对齐从而进行模板匹配;隐马尔科夫模型方法包括:
1)HMM(即为隐马尔科夫模型方法)中的状态个数记为N;模型t时刻的状态记为qt
2)初始状态概率分布π=[πi]。
3)状态概率转移矩阵为A=[aij],其中aij,aij=P(qt+1=Si),1≤i,j≤N表示从状态i转移到状态j的概率。
4)观察概率分布B=[bj(Oj)],表示时刻t观察到状态i的概率;
只要合并不同HMM之间的引入状态和引出状态,即得到任意长度的音素序列或词序列的组合模型。预示对于每一帧特征矢量,组合HMM都会以一定的转移概率改变状态,而当前状态又以其观察概率产生这一帧特征矢量,这样就能计算某音素序列或词序列产生给定特征矢量的概率,实现语音识别,紧接着将识别的内容与事先设置好的指令集进行匹配,匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
上述步骤(9)指令显示与确认具体如下:当检测到用户的手势,若表示确认该指令,指令将会输出到相应的设备中执行;当检测到用户的手势,若表示否定该指令,系统将返回至人脸检测模块重新开始。
与现有技术相比本发明的有益效果在于,在中远距离情况下,结合视频通道的智能家居语音控制系统,其能够通过检测控制手势、识别人脸和唇语信息,对已识别到的语音信息加以补充,从而提高控制指令的准确度,增加利用语音控制智能家居的可行性。本发明可稳定的应用于有噪音,以及中远距离等复杂情况。本发明技术手段简便易行,抗干扰能力强,克服了家庭环境中由于噪音干扰所带来的无法识别的技术问题。
附图说明
图1为本发明的系统结构及工作流程示意图;
图2为图1中指令判断模块的判断方法示意图;
图3(a)、(b)为本发明唇部视频输入步骤中嘴唇模型建立示意图;
图4本发明动态时间规整坐标示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步的详细描述,但本发明的实施方式不限于此。
实施例
如图1所示,本发明结合视频通道的智能家居语音控制系统,包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。所述识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。
如图1所示,上述控制系统通过下述方法实现:
1、手势检测:手势检测模块采用haar小波变换,以及LBP特征提取,选取Adaboost分类器对固定手势进行检测,判断用户是否获得控制权。本发明中,如果检测到用户的手势为拳头,则表示获取控制权。
2、人脸检测:人脸检测模块采用haar小波变换,选取Adaboost分类器对人脸进行检测,判断操作空间内是否有人。如果检测到人脸,则同时开启唇语和语音两部分。
3、人脸跟踪与定位:人脸跟踪与定位模块将结合人脸检测模块输出的参数,按照人脸的大小以及位置,调整摄像头焦距和光轴,使人脸图像足够清晰,同时控制人脸处于图像中央位置,使人脸至少占图像的三分之二面积以上。
4、唇部视频输入:唇部视频输入模块将从人脸中提取出嘴唇部分,实现嘴唇的分割与模型建立,从而获得嘴唇运动序列。
(1)嘴唇分割使用改善的FCMS算法,将图像的颜色信息与空间信息结合起来,再把嘴唇的形状信息嵌入到聚类算法中的相似性判别函数中,实现嘴唇的有效分割。
(2)如图3a、b所示,在嘴唇模型建立方法上,本发明将采用14点主动形状模型。在ASM中将外形相似的嘴唇轮廓通过14个关键的特征点的坐标串接成原始的形状向量。
5、唇语识别:唇语识别模块通过模式识别技术,将相应的嘴唇运动序列翻译成为一定语义的指令,其中包括唇部特征提取和模式识别。
(1)唇部的形状特征提取将选取上图14点ASM模型的长和宽,即6点和14点之间以及3点和10点之间的距离W和H作为特征,并在计算过程中引入两点间距离公式:
D = ( x 1 - x 2 ) 2 + ( y 1 - y 2 ) 2
为消除由于说话人坐姿等带来的干扰因素,要对W,H进行归一化,特征向量可记为fWH={W,H};另外几何特征提取将通过14点ASM模型进行曲线拟合,然后把说话人嘴唇划分为三段曲线,即1-6点和14点,6-10点,10-14点分别进行二次曲线拟合:
Y=ax2+bx+c
曲线内核所得到参数a,b,c,经过归一化后可作为独立的特征向量,此特征向量可记为
fcur={a1,b1,c1,a2,b2,c2,a3,b3,c3}
其中相关特征提取将采取一阶差分、二阶差分获取运动图像相关特征:
Vf=f(n)-f(n-1),结果记为VfWH,Vfcur
V2f=f(n)+f(n-2)-2f(n-1),结果记为V2fWH,V2fcur
(2)模式识别部分将前述的各种特征组合作为输入向量输入HMM,通过这种方式识别唇语。紧接着将识别的内容与事先设置好的指令集进行匹配。匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
6、语音输入模块:该模块通过拾音器等接收设备,接收音频输入。系统采用麦克风将语音输入给计算机,声卡以一定频率机型数据采样,然后进行A/D转换。为减少不利影响,此模块将对输入的语音信号进行高频补偿。
7、语音识别模块:该模块通过语音模式识别技术,将检测到的语音数据,翻译成对应的语义指令,包括语音特征提取和语音识别,如下:
(1)语音特征提取方面,本发明使用线性预测倒谱系数(LPCC)来表征短时语音信号,可由线性预测系数(LPC)直接推导:
c m = a m + Σ k = 1 m - 1 k m c k a m - k ( 1 ≤ m ≤ p )
c m = Σ k = 1 m - 1 k m c k a m - k ( m > p )
(2)语音识别方面,本专利使用动态时间规整技术(DTW)和隐马尔科夫模型技术。
DTW算法主要用于孤立词语识别中,通过该技术对参考语音模式和待测语音模式的时间轴进行非线性归一化变换,使其对齐从而进行模板匹配。如图4所示。
而隐马尔科夫模型技术(HMM)包括:
1)HMM中的状态个数记为N;模型t时刻的状态记为qt
2)初始状态概率分布π=[πi]。
3)状态概率转移矩阵为A=[aij],其中aij,aij=P(qt+1=Si),1≤i,j≤N表示从状态i转移到状态j的概率。
4)观察概率分布B=[bj(Oj)],表示时刻t观察到状态i的概率。
只要合并不同HMM之间的引入状态和引出状态,就可以得到任意长度的音素序列或词序列的组合模型。预示对于每一帧特征矢量,组合HMM都会以一定的转移概率改变状态,而当前状态又以其观察概率产生这一帧特征矢量。这样就可以计算某音素序列或词序列产生给定特征矢量的概率了,从而实现语音识别。紧接着将识别的内容与事先设置好的指令集进行匹配。匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
8、指令判断:指令判断模块将语音识别的输出结果和唇语识别的输出结果进行匹配,通过概率分析,判断该指令是否有效。如图2所示。
指令集为C=[c1,c2,...cn ]
唇语识别模块输出各指令概率为P=[p1,p2,...pn],
语音识别模块输出各指令概率为Q=[q1,q2,...qn ],
则可以认为唇语和语音结合判断的指令概率D=[d1,d2,...dn],其中
d i = p i q i / Σ k = 1 n p k q k , 1≤i≤n
挑选最大概率dimax,若dimax大于阈值,则选择dimax对应的指令ci作为输出指令;若dimax小于阈值,则认为该指令是无效指令,系统将返回至人脸检测模块重新开始。
9、指令显示与确认:指令显示与确认模块将显示判断后的最终指令,供用户确认,确认方法仍为手势控制。本发明中,若检测到用户的手势为拳头,则表示确认该指令,指令将会输出到相应的设备中执行;若检测到用户的手势为手掌张开,则表示否定该指令,系统将返回至人脸检测模块重新开始。
本发明的实施过程中,有的环节需要用户进行手势控制以及使用唇语和语音输入。若在这些环节中,用户在指定时间内未进行任何操作,系统则返回至初始状态。
10、指令集:由于电视控制的指令较少,所以我们将在系统中提前录入指令集,里面包含电视控制过程中涉及到的所有指令。
如上所述便可较好的实现本发明。

Claims (7)

1.结合视频通道的智能家居语音控制系统的识别方法,其特征在于如下步骤:
(1)手势检测
手势检测模块采用haar小波变换,以及LBP特征提取,选取Adaboost分类器对固定手势进行检测,判断用户是否获得控制权;
(2)人脸检测
人脸检测模块采用haar小波变换,选取Adaboost分类器对人脸进行检测,判断操作空间内是否有人,如果检测到人脸,则同时开启识别系统模块的唇语和语音两部分;
(3)人脸跟踪与定位
人脸跟踪与定位模块结合人脸检测模块输出的参数,按照人脸的大小以及位置,调整摄像头焦距和光轴,使人脸图像足够清晰,同时控制人脸处于图像中央位置,使人脸至少占图像的三分之二面积以上;
(4)唇语视频输入
唇语视频输入模块将从人脸中提取出嘴唇部分,实现嘴唇的分割与模型建立,获得嘴唇运动序列;
(5)唇语识别
唇语识别模块将相应的嘴唇运动序列翻译成为一定语义的指令,其中包括唇部特征提取和模式识别;
(6)语音输入
语音输入模块通过语音接收设备,接收音频输入,系统采用麦克风将语音输入给计算机,声卡以一定频率机型数据采样,然后进行A/D转换;为减少不利影响,此模块将对输入的语音信号进行高频补偿;
(7)语音识别
语音识别模块将检测到的语音数据,翻译成对应的语义指令,包括语音特征提取和语音识别;
(8)指令判断
指令判断模块将语音识别模块的输出结果和唇语识别模块的输出结果进行匹配,通过概率分析,判断该指令是否有效,
指令集为C=[c1,c2,...cn]
唇语识别模块输出各指令概率为P=[p1,p2,...pn],
语音识别模块输出各指令概率为Q=[q1,q2,...qn],
则认为唇语和语音结合判断的指令概率D=[d1,d2,...dn],其中
d i = p i q i / Σ k = 1 n p k q k , 1 ≤ i ≤ n
挑选最大概率dimax,若dimax大于阈值,则选择dimax对应的指令ci作为输出指令;若dimax小于阈值,则认为该指令是无效指令,系统将返回至人脸检测模块重新开始;
(9)指令显示与确认
指令显示与确认模块将显示判断后的最终指令,供用户确认,确认方法仍为手势控制。
2.根据权利要求1所述结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(4)唇语视频输入具体如下:
(1)嘴唇分割使用改善的FCMS算法,将图像的颜色信息与空间信息结合起来,再把嘴唇的形状信息嵌入到聚类算法中的相似性判别函数中,实现嘴唇的有效分割;
(2)在嘴唇模型建立方法上,采用14点主动形状模型,在ASM中将外形相似的嘴唇轮廓通过14个关键的特征点的坐标串接成原始的形状向量。
3.根据权利要求1所述结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(5)唇语识别具体如下:
(1)唇部的形状特征提取,将选取14点ASM模型的长和宽,即6点和14点之间以及3点和10点之间的距离W和H作为特征,并在计算过程中引入两点间距离公式:
D = ( x 1 - x 2 ) 2 + ( y 1 - y 2 ) 2
为消除由于说话人坐姿等带来的干扰因素,要对W,H进行归一化,特征向量记为fWH={W,H};另外几何特征提取将通过14点ASM模型进行曲线拟合,然后把说话人嘴唇划分为三段曲线,即14-6点,6-10点,10-14点分别进行二次曲线拟合:
Y=ax2+bx+c
曲线内核所得到参数a,b,c,经过归一化后可作为独立的特征向量,此特征向量可记为
fcur={a1,b1,c1,a2,b2,c2,a3,b3,c3}
其中相关特征提取将采取一阶差分、二阶差分获取运动图像相关特征:
Vf=f(n)-f(n-1),结果记为VfWH,Vfcur
V2f=f(n)+f(n+2)-2f(n-1),结果记为V2fWH,V2fcur
(2)模式识别部分将前述的各种特征组合作为输入向量输入HMM,通过这种方式识别唇语,紧接着将识别的内容与事先设置好的指令集进行匹配,匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
4.根据权利要求1所述的结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(7)语音特征提取和语音识别具体如下:
(1)语音特征提取
使用线性预测倒谱系数来表征短时语音信号,由线性预测系数直接推导:
c m = α m + Σ k = 1 m - 1 k m c k α m - k ( 1 ≤ m ≤ p )
c m = Σ k = 1 m - 1 k m c k a m - k ( m > p )
(2)语音识别,使用动态时间规整方法和隐马尔科夫模型方法;
动态时间规整方法对参考语音模式和待测语音模式的时间轴进行非线性归一化变换,使其对齐从而进行模板匹配;隐马尔科夫模型方法包括:
1)HMM中的状态个数记为N;模型t时刻的状态记为qt
2)初始状态概率分布π=[πi];
3)状态概率转移矩阵为A=[aij],其中aij,aij=P(qt+1=Si),1≤i,j≤N表示从状态i转移到状态j的概率;
4)观察概率分布B=[bj(Oj)],表示时刻t观察到状态i的概率;
只要合并不同HMM之间的引入状态和引出状态,即得到任意长度的音素序列或词序列的组合模型,预示对于每一帧特征矢量,组合HMM都会以一定的转移概率改变状态,而当前状态又以其观察概率产生这一帧特征矢量,这样就能计算某音素序列或词序列产生给定特征矢量的概率,实现语音识别,紧接着将识别的内容与事先设置好的指令集进行匹配,匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
5.根据权利要求1所述的结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述步骤(9)指令显示与确认具体如下:当检测到用户的手势,若表示确认该指令,指令将会输出到相应的设备中执行;当检测到用户的手势,若表示否定该指令,系统将返回至人脸检测模块重新开始。
6.根据权利要求1所述的结合视频通道的智能家居语音控制系统的识别方法,其特征在于,所述智能家居语音控制系统,包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。
7.根据权利要求6所述的结合视频通道的智能家居语音控制系统的识别方法,其特征在于:所述识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。
CN 201110174072 2011-06-24 2011-06-24 结合视频通道的智能家居语音控制系统及其控制方法 Expired - Fee Related CN102298443B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110174072 CN102298443B (zh) 2011-06-24 2011-06-24 结合视频通道的智能家居语音控制系统及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110174072 CN102298443B (zh) 2011-06-24 2011-06-24 结合视频通道的智能家居语音控制系统及其控制方法

Publications (2)

Publication Number Publication Date
CN102298443A CN102298443A (zh) 2011-12-28
CN102298443B true CN102298443B (zh) 2013-09-25

Family

ID=45358900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110174072 Expired - Fee Related CN102298443B (zh) 2011-06-24 2011-06-24 结合视频通道的智能家居语音控制系统及其控制方法

Country Status (1)

Country Link
CN (1) CN102298443B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9804680B2 (en) 2014-11-07 2017-10-31 Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd. Computing device and method for generating gestures

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186230B (zh) * 2011-12-30 2017-06-06 北京朝歌数码科技股份有限公司 基于颜色识别与跟踪的人机交互方法
CN102692068B (zh) * 2012-06-15 2018-05-18 海尔集团公司 一种具有语音交互功能的声控空调器
CN102789218A (zh) * 2012-07-20 2012-11-21 大连理工大学 一种基于多控制器的Zigbee智能家居系统
CN102932212A (zh) * 2012-10-12 2013-02-13 华南理工大学 一种基于多通道交互方式的智能家居控制系统
TW201426401A (zh) * 2012-12-17 2014-07-01 Li Ge Design Entpr Co Ltd 體感家居用電產品控制設備及其系統
CN103366159A (zh) * 2013-06-28 2013-10-23 京东方科技集团股份有限公司 手势识别方法及装置
CN103366188B (zh) * 2013-07-08 2017-07-07 中科创达软件股份有限公司 一种基于拳头检测作为辅助信息的手势跟踪方法
CN104423543A (zh) * 2013-08-26 2015-03-18 联想(北京)有限公司 一种信息处理方法及装置
CN104656877A (zh) * 2013-11-18 2015-05-27 李君� 基于手势和语音识别控制的人机交互方法及其设备和应用
CN103593055B (zh) * 2013-11-27 2017-05-31 北京科技大学 一种基于手势控制器的控制系统
TWI543635B (zh) * 2013-12-18 2016-07-21 jing-feng Liu Speech Acquisition Method of Hearing Aid System and Hearing Aid System
CN103885585B (zh) * 2014-02-20 2017-01-25 深圳市贝特尔机电有限公司 一种基于单人手势和语音信息的机器人人工导航方法
CN103940042B (zh) * 2014-04-14 2016-07-06 美的集团股份有限公司 控制设备和控制方法
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN105321523A (zh) * 2014-07-23 2016-02-10 中兴通讯股份有限公司 噪音抑制方法和装置
CN104267618B (zh) * 2014-07-31 2017-06-13 广东美的制冷设备有限公司 基于红外定位的语音控制方法和系统
CN105468950B (zh) * 2014-09-03 2020-06-30 阿里巴巴集团控股有限公司 身份认证方法、装置、终端及服务器
CN104409075B (zh) * 2014-11-28 2018-09-04 深圳创维-Rgb电子有限公司 语音识别方法和系统
CN104376250A (zh) * 2014-12-03 2015-02-25 优化科技(苏州)有限公司 基于音型像特征的真人活体身份验证方法
CN106157956A (zh) * 2015-03-24 2016-11-23 中兴通讯股份有限公司 语音识别的方法及装置
CN106157957A (zh) * 2015-04-28 2016-11-23 中兴通讯股份有限公司 语音识别方法、装置及用户设备
CN104820556A (zh) * 2015-05-06 2015-08-05 广州视源电子科技股份有限公司 唤醒语音助手的方法及装置
CN104992171A (zh) * 2015-08-04 2015-10-21 易视腾科技有限公司 一种基于2d视频序列的手势识别及人机交互方法和系统
CN105159111B (zh) * 2015-08-24 2019-01-25 百度在线网络技术(北京)有限公司 基于人工智能的智能交互设备控制方法及系统
CN106599765B (zh) * 2015-10-20 2020-02-21 深圳市商汤科技有限公司 基于对象连续发音的视-音频判断活体的方法及系统
CN106205611B (zh) * 2016-06-29 2020-03-27 北京儒博科技有限公司 一种基于多模态历史响应结果的人机交互方法及系统
CN106019973A (zh) * 2016-07-30 2016-10-12 杨超坤 一种具有情感识别功能的智能家居
CN108227903B (zh) * 2016-12-21 2020-01-10 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN108227904A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN107247923A (zh) * 2017-05-18 2017-10-13 珠海格力电器股份有限公司 一种指令识别方法、装置、存储设备、移动终端及电器
CN107330240A (zh) * 2017-05-22 2017-11-07 华东师范大学 一种基于双手环传感器的智能远程特护监控系统及方法
CN107620996A (zh) * 2017-10-12 2018-01-23 信利光电股份有限公司 一种智能吸油烟机及其使用方法
CN108447477A (zh) * 2018-01-30 2018-08-24 华南理工大学 一种基于自然语言理解的机器人控制方法
CN108346427A (zh) * 2018-02-05 2018-07-31 广东小天才科技有限公司 一种语音识别方法、装置、设备及存储介质
CN108428453A (zh) * 2018-03-27 2018-08-21 王凯 一种基于唇语识别的智能终端操控系统
CN108596107A (zh) * 2018-04-26 2018-09-28 京东方科技集团股份有限公司 基于ar设备的唇语识别方法及其装置、ar设备
CN109344775B (zh) * 2018-10-08 2022-06-17 苏州次源科技服务有限公司 一种全自动和面机的智能唇读识别控制方法
CN109977811A (zh) * 2019-03-12 2019-07-05 四川长虹电器股份有限公司 基于嘴部关键位置特征检测实现免语音唤醒的系统及方法
CN111724786A (zh) * 2019-03-22 2020-09-29 上海博泰悦臻网络技术服务有限公司 唇语识别系统及方法
US11227610B1 (en) 2019-04-16 2022-01-18 Wells Fargo Bank, P.A. Computer-based systems for administering patterned passphrases
CN110349576A (zh) * 2019-05-16 2019-10-18 国网上海市电力公司 基于语音识别的电力系统操作指令执行方法、装置及系统
CN110309799B (zh) * 2019-07-05 2022-02-08 四川长虹电器股份有限公司 基于摄像头的说话判断方法
CN110716706B (zh) * 2019-10-30 2023-11-14 华北水利水电大学 智能人机交互指令转换方法及系统
CN111045639B (zh) * 2019-12-11 2021-06-22 深圳追一科技有限公司 语音输入方法、装置、电子设备及存储介质
CN111783892B (zh) * 2020-07-06 2021-10-01 广东工业大学 一种机器人指令识别方法、装置及电子设备和存储介质
CN113345436B (zh) * 2021-08-05 2021-11-12 创维电器股份有限公司 基于多系统集成高识别率的远程语音识别控制系统及方法
CN114089641A (zh) * 2021-11-17 2022-02-25 广州市诺的电子有限公司 基于点到点通信物联网控制器的智能电器及其控制方法
CN114578705B (zh) * 2022-04-01 2022-12-27 深圳冠特家居健康系统有限公司 一种基于5g物联网智能家居控制系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1423228A (zh) * 2002-10-17 2003-06-11 南开大学 识别人眼注视方向的装置和方法及其应用
CN101488346A (zh) * 2009-02-24 2009-07-22 深圳先进技术研究院 语音可视化系统及语音可视化方法
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100357863C (zh) * 2002-05-14 2007-12-26 皇家飞利浦电子股份有限公司 用于电子设备的对话控制装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1423228A (zh) * 2002-10-17 2003-06-11 南开大学 识别人眼注视方向的装置和方法及其应用
CN101488346A (zh) * 2009-02-24 2009-07-22 深圳先进技术研究院 语音可视化系统及语音可视化方法
CN102023703A (zh) * 2009-09-22 2011-04-20 现代自动车株式会社 组合唇读与语音识别的多模式界面系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9804680B2 (en) 2014-11-07 2017-10-31 Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd. Computing device and method for generating gestures

Also Published As

Publication number Publication date
CN102298443A (zh) 2011-12-28

Similar Documents

Publication Publication Date Title
CN102298443B (zh) 结合视频通道的智能家居语音控制系统及其控制方法
CN202110564U (zh) 结合视频通道的智能家居语音控制系统
CN108962255B (zh) 语音会话的情绪识别方法、装置、服务器和存储介质
US11854550B2 (en) Determining input for speech processing engine
CN102023703B (zh) 组合唇读与语音识别的多模式界面系统
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
EP3424044A1 (en) Modular deep learning model
CN104200805B (zh) 汽车驾驶员语音助手
CN106157956A (zh) 语音识别的方法及装置
CN109767769A (zh) 一种语音识别方法、装置、存储介质及空调
CN102405463A (zh) 利用多模态信息的用户意图推理装置及方法
US11568853B2 (en) Voice recognition method using artificial intelligence and apparatus thereof
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
US20140146644A1 (en) Methods and systems for ambient system comtrol
CN105225665A (zh) 一种语音识别方法及语音识别装置
CN108182418A (zh) 一种基于多维声波特征的键击识别方法
CN111128178A (zh) 一种基于面部表情分析的语音识别方法
CN110970020A (zh) 一种利用声纹提取有效语音信号的方法
CN114842835A (zh) 一种基于深度学习模型的语音交互系统
CN114242066A (zh) 语音处理方法、语音处理模型的训练方法、设备及介质
CN114550713A (zh) 对话系统、车辆以及对话系统的控制方法
WO2020073839A1 (zh) 语音唤醒方法、装置、系统及电子设备
KR20150035312A (ko) 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체
CN113658582B (zh) 一种音视协同的唇语识别方法及系统
CN113851113A (zh) 模型训练方法及装置、语音唤醒方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130925