CN202110564U - 结合视频通道的智能家居语音控制系统 - Google Patents

结合视频通道的智能家居语音控制系统 Download PDF

Info

Publication number
CN202110564U
CN202110564U CN201120218940XU CN201120218940U CN202110564U CN 202110564 U CN202110564 U CN 202110564U CN 201120218940X U CN201120218940X U CN 201120218940XU CN 201120218940 U CN201120218940 U CN 201120218940U CN 202110564 U CN202110564 U CN 202110564U
Authority
CN
China
Prior art keywords
module
lip
voice
instruction
reading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201120218940XU
Other languages
English (en)
Inventor
庄蓁蓁
徐向民
叶佳木
梁卓锐
王玥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201120218940XU priority Critical patent/CN202110564U/zh
Application granted granted Critical
Publication of CN202110564U publication Critical patent/CN202110564U/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本实用新型公开了结合视频通道的智能家居语音控制系统,系统包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。其能够通过检测控制手势、识别人脸和唇语信息,对已识别到的语音信息加以补充,从而提高控制指令的准确度,增加利用语音控制智能家居的可行性。本专利具有很强的抗干扰能力,可广泛应用于多种复杂环境模式,尤其适用于克服家庭环境中人多有噪音的情况下。

Description

结合视频通道的智能家居语音控制系统
技术领域
本实用新型涉及视频语音识别技术,尤其涉及结合视频通道的智能家居语音控制系统。
背景技术
目前,大部分复杂的家电都是通过遥控器的键盘输入方式进行遥控的,随着家居的智能化以及包含内容的多样化,为了优化操作方式、增强操作的舒适性,用户需要更加易于操作的遥控器。语言是人类最直接最方便的交流和表达方式,如果采用语音识别技术,可以将原来的被动静止结构转变为具有主动识别语音执行的智慧工具,从而满足人们日益增长的需求。
近年来,语音识别技术发展十分迅速,目前已出现了许多自动语音识别类的产品,例如IBM开发的ViaVoice语音系统等。但是这些系统仍然缺乏较强的抗干扰能力,原因是它只能单一地从语音信道中获取信息,当这些系统应用到真实环境中时,一旦有背景噪声或多人交叉说话,它们的性能将大大下降,并且这样的应用环境十分常见,如:办公室、汽车、工厂或机场等,就连家庭环境也是如此。
发明内容
为解决现有技术存在的缺点和不足,本实用新型提供结合视频通道的智能家居语音控制系统,相比现有技术所采用的控制方式,本实用新型抗干扰能力强,能够克服家庭环境中由于噪音干扰所带来的无法识别的技术问题。
本实用新型的目的通过下述技术方案实现:
结合视频通道的智能家居语音控制系统,包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。
所述识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。
结合视频通道的智能家居语音控制系统的识别方法,可通过如下步骤实现:
(1)手势检测
手势检测模块采用haar小波变换,以及LBP特征提取,选取Adaboost分类器对固定手势进行检测,判断用户是否获得控制权;
(2)人脸检测
人脸检测模块采用haar小波变换,选取Adaboost分类器对人脸进行检测,判断操作空间内是否有人,如果检测到人脸,则同时开启识别系统模块的唇语和语音两部分;
(3)人脸跟踪与定位
人脸跟踪与定位模块结合人脸检测模块输出的参数,按照人脸的大小以及位置,调整摄像头焦距和光轴,使人脸图像足够清晰,同时控制人脸处于图像中央位置,使人脸至少占图像的三分之二面积以上;
(4)唇语视频输入
唇语视频输入模块将从人脸中提取出嘴唇部分,实现嘴唇的分割与模型建立,获得嘴唇运动序列;
(5)唇语识别
唇语识别模块将相应的嘴唇运动序列翻译成为一定语义的指令,其中包括唇部特征提取和模式识别;
(6)语音输入
语音输入模块通过语音接收设备,接收音频输入,系统采用麦克风将语音输入给计算机,声卡以一定频率机型数据采样,然后进行A/D转换;为减少不利影响,此模块将对输入的语音信号进行高频补偿。
(7)语音识别
语音识别模块将检测到的语音数据,翻译成对应的语义指令,包括语音特征提取和语音识别。
(8)指令判断
指令判断模块将语音识别模块的输出结果和唇语识别模块的输出结果进行匹配,通过概率分析,判断该指令是否有效,
指令集为C=[c1,c2,...cn]
唇语识别模块输出各指令概率为P=[p1,p2,...pn],
语音识别模块输出各指令概率为Q=[q1,q2,...qn],
则认为唇语和语音结合判断的指令概率D=[d1,d2,...dn],其中
d i = p i q i / Σ k = 1 n p k q k , 1 ≤ i ≤ n
挑选最大概率dimax,若dimax大于阈值,则选择dimax对应的指令ci作为输出指令;若dimax小于阈值,则认为该指令是无效指令,系统将返回至人脸检测模块重新开始。
(9)指令显示与确认
指令显示与确认模块将显示判断后的最终指令,供用户确认,确认方法仍为手势控制。
上述步骤(4)唇语视频输入具体如下:
(1)嘴唇分割使用改善的FCMS算法,将图像的颜色信息与空间信息结合起来,再把嘴唇的形状信息嵌入到聚类算法中的相似性判别函数中,实现嘴唇的有效分割;
(2)在嘴唇模型建立方法上,采用14点主动形状模型。在ASM中将外形相似的嘴唇轮廓通过14个关键的特征点的坐标串接成原始的形状向量;
上述步骤(5)唇语识别具体如下:
(1)唇部的形状特征提取,将选取14点ASM模型的长和宽,即6点和14点之间以及3点和10点之间的距离W和H作为特征,并在计算过程中引入两点间距离公式:
D = ( x 1 - x 2 ) 2 + ( y 1 - y 2 ) 2
为消除由于说话人坐姿等带来的干扰因素,要对W,H进行归一化,特征向量记为fWH={W,H};另外几何特征提取将通过14点ASM模型进行曲线拟合,然后把说话人嘴唇划分为三段曲线,即1-6点和14点,6-10点,10-14点分别进行二次曲线拟合:
Y=ax2+bx+c
曲线内核所得到参数a,b,c,经过归一化后可作为独立的特征向量,此特征向量可记为
fcur={a1,b1,c1,a2,b2,c2,a3,b3,c3}
其中相关特征提取将采取一阶差分、二阶差分获取运动图像相关特征:
Vf=f(n)-f(n-1),结果记为VfWH,Vfcur
V2f=f(n)+f(n-2)-2f(n-1),结果记为V2fWH,V2fcur
(2)模式识别部分将前述的各种特征组合作为输入向量输入HMM,通过这种方式识别唇语。紧接着将识别的内容与事先设置好的指令集进行匹配。匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
上述步骤(7)语音特征提取和语音识别具体如下:
(1)语音特征提取
使用线性预测倒谱系数来表征短时语音信号,由线性预测系数直接推导:
c m = a m + Σ k = 1 m - 1 k m c k a m - k ( 1 ≤ m ≤ p )
c m = Σ k = 1 m - 1 k m c k a m - k ( m > p )
(2)语音识别,使用动态时间规整方法和隐马尔科夫模型方法;
动态时间规整方法对参考语音模式和待测语音模式的时间轴进行非线性归一化变换,使其对齐从而进行模板匹配;隐马尔科夫模型方法包括:
1)HMM(即为隐马尔科夫模型方法)中的状态个数记为N;模型t时刻的状态记为qt
2)初始状态概率分布π=[πi]。
3)状态概率转移矩阵为A=[aij],其中aij,aij=P(qt+1=Si),1≤i,j≤N表示从状态i转移到状态j的概率。
4)观察概率分布B=[bj(Oj)],表示时刻t观察到状态i的概率;
只要合并不同HMM之间的引入状态和引出状态,即得到任意长度的音素序列或词序列的组合模型。预示对于每一帧特征矢量,组合HMM都会以一定的转移概率改变状态,而当前状态又以其观察概率产生这一帧特征矢量,这样就能计算某音素序列或词序列产生给定特征矢量的概率,实现语音识别,紧接着将识别的内容与事先设置好的指令集进行匹配,匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
上述步骤(9)指令显示与确认具体如下:当检测到用户的手势,若表示确认该指令,指令将会输出到相应的设备中执行;当检测到用户的手势,若表示否定该指令,系统将返回至人脸检测模块重新开始。
与现有技术相比本实用新型的有益效果在于,在中远距离情况下,结合视频通道的智能家居语音控制系统,其能够通过检测控制手势、识别人脸和唇语信息,对已识别到的语音信息加以补充,从而提高控制指令的准确度,增加利用语音控制智能家居的可行性。本实用新型可稳定的应用于有噪音,以及中远距离等复杂情况。本发明技术手段简便易行,抗干扰能力强,克服了家庭环境中由于噪音干扰所带来的无法识别的技术问题。
附图说明
图1为本实用新型的系统结构及工作流程示意图;
图2为图1中指令判断模块的判断方法示意图;
图3(a)、(b)为本实用新型唇部视频输入步骤中嘴唇模型建立示意图;
图4本实用新型动态时间规整坐标示意图。
具体实施方式
下面结合实施例及附图对本实用新型作进一步的详细描述,但本实用新型的实施方式不限于此。
实施例
如图1所示,本实用新型结合视频通道的智能家居语音控制系统,包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。所述识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。
如图1所示,上述控制系统通过下述方法实现:
1、手势检测:手势检测模块采用haar小波变换,以及LBP特征提取,选取Adaboost分类器对固定手势进行检测,判断用户是否获得控制权。本发明中,如果检测到用户的手势为拳头,则表示获取控制权。
2、人脸检测:人脸检测模块采用haar小波变换,选取Adaboost分类器对人脸进行检测,判断操作空间内是否有人。如果检测到人脸,则同时开启唇语和语音两部分。
3、人脸跟踪与定位:人脸跟踪与定位模块将结合人脸检测模块输出的参数,按照人脸的大小以及位置,调整摄像头焦距和光轴,使人脸图像足够清晰,同时控制人脸处于图像中央位置,使人脸至少占图像的三分之二面积以上。
4、唇部视频输入:唇部视频输入模块将从人脸中提取出嘴唇部分,实现嘴唇的分割与模型建立,从而获得嘴唇运动序列。
(1)嘴唇分割使用改善的FCMS算法,将图像的颜色信息与空间信息结合起来,再把嘴唇的形状信息嵌入到聚类算法中的相似性判别函数中,实现嘴唇的有效分割。
(2)如图3a、b所示,在嘴唇模型建立方法上,本发明将采用14点主动形状模型。在ASM中将外形相似的嘴唇轮廓通过14个关键的特征点的坐标串接成原始的形状向量。
5、唇语识别:唇语识别模块通过模式识别技术,将相应的嘴唇运动序列翻译成为一定语义的指令,其中包括唇部特征提取和模式识别。
(1)唇部的形状特征提取将选取上图14点ASM模型的长和宽,即6点和14点之间以及3点和10点之间的距离W和H作为特征,并在计算过程中引入两点间距离公式:
D = ( x 1 - x 2 ) 2 + ( y 1 - y 2 ) 2
为消除由于说话人坐姿等带来的干扰因素,要对W,H进行归一化,特征向量可记为fWH={W,H};另外几何特征提取将通过14点ASM模型进行曲线拟合,然后把说话人嘴唇划分为三段曲线,即1-6点和14点,6-10点,10-14点分别进行二次曲线拟合:
Y=ax2+bx+c
曲线内核所得到参数a,b,c,经过归一化后可作为独立的特征向量,此特征向量可记为
fcur={a1,b1,c1,a2,b2,c2,a3,b3,c3}
其中相关特征提取将采取一阶差分、二阶差分获取运动图像相关特征:
Vf=f(n)-f(n-1),结果记为VfWH,Vfcur
V2f=f(n)+f(n-2)-2f(n-1),结果记为V2fWH,V2fcur
(2)模式识别部分将前述的各种特征组合作为输入向量输入HMM,通过这种方式识别唇语。紧接着将识别的内容与事先设置好的指令集进行匹配。匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
6、语音输入模块:该模块通过拾音器等接收设备,接收音频输入。系统采用麦克风将语音输入给计算机,声卡以一定频率机型数据采样,然后进行A/D转换。为减少不利影响,此模块将对输入的语音信号进行高频补偿。
7、语音识别模块:该模块通过语音模式识别技术,将检测到的语音数据,翻译成对应的语义指令,包括语音特征提取和语音识别,如下:
(1)语音特征提取方面,本发明使用线性预测倒谱系数(LPCC)来表征短时语音信号,可由线性预测系数(LPC)直接推导:
c m = a m + Σ k = 1 m - 1 k m c k a m - k ( 1 ≤ m ≤ p )
c m = Σ k = 1 m - 1 k m c k a m - k ( m > p )
(2)语音识别方面,本专利使用动态时间规整技术(DTW)和隐马尔科夫模型技术。
DTW算法主要用于孤立词语识别中,通过该技术对参考语音模式和待测语音模式的时间轴进行非线性归一化变换,使其对齐从而进行模板匹配。如图4所示。
而隐马尔科夫模型技术(HMM)包括:
1)HMM中的状态个数记为N;模型t时刻的状态记为qt
2)初始状态概率分布π=[πi]。
3)状态概率转移矩阵为A=[aij],其中aij,aij=P(qt+1=Si),1≤i,j≤N表示从状态i转移到状态j的概率。
4)观察概率分布B=[bj(Oj)],表示时刻t观察到状态i的概率。
只要合并不同HMM之间的引入状态和引出状态,就可以得到任意长度的音素序列或词序列的组合模型。预示对于每一帧特征矢量,组合HMM都会以一定的转移概率改变状态,而当前状态又以其观察概率产生这一帧特征矢量。这样就可以计算某音素序列或词序列产生给定特征矢量的概率了,从而实现语音识别。紧接着将识别的内容与事先设置好的指令集进行匹配。匹配后,指令集中的每个子集概率都会不一样,将所有子集对应的概率输入指令判断模块。
8、指令判断:指令判断模块将语音识别的输出结果和唇语识别的输出结果进行匹配,通过概率分析,判断该指令是否有效。如图2所示。
指令集为C=[c1,c2,...cn]
唇语识别模块输出各指令概率为P=[p1,p2,...pn],
语音识别模块输出各指令概率为Q=[q1,q2,...qn],则可以认为唇语和语音结合判断的指令概率D=[d1,d2,...dn],其中
d i = p i q i / Σ k = 1 n p k q k , 1 ≤ i ≤ n
挑选最大概率dimax,若dimax大于阈值,则选择dimax对应的指令ci作为输出指令;若dimax小于阈值,则认为该指令是无效指令,系统将返回至人脸检测模块重新开始。
9、指令显示与确认:指令显示与确认模块将显示判断后的最终指令,供用户确认,确认方法仍为手势控制。本发明中,若检测到用户的手势为拳头,则表示确认该指令,指令将会输出到相应的设备中执行;若检测到用户的手势为手掌张开,则表示否定该指令,系统将返回至人脸检测模块重新开始。
本实用新型的实施过程中,有的环节需要用户进行手势控制以及使用唇语和语音输入。若在这些环节中,用户在指定时间内未进行任何操作,系统则返回至初始状态。
10、指令集:由于电视控制的指令较少,所以我们将在系统中提前录入指令集,里面包含电视控制过程中涉及到的所有指令。
如上所述便可较好的实现本实用新型。

Claims (2)

1.结合视频通道的智能家居语音控制系统,其特征在于:包括依次连接的手势检测模块、人脸检测模块、识别系统模块、指令判断模块、指令显示与确认模块。
2.根据权利要求1所述的结合视频通道的智能家居语音控制系统,其特征在于:所述识别系统模块包括唇语部分和语音部分,所述唇语部分包括依次连接的人脸跟踪定位模块、唇语视频输入模块、唇语识别模块;所述语音部分包括依次连接的语音输入模块、语音识别模块。
CN201120218940XU 2011-06-24 2011-06-24 结合视频通道的智能家居语音控制系统 Expired - Fee Related CN202110564U (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201120218940XU CN202110564U (zh) 2011-06-24 2011-06-24 结合视频通道的智能家居语音控制系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201120218940XU CN202110564U (zh) 2011-06-24 2011-06-24 结合视频通道的智能家居语音控制系统

Publications (1)

Publication Number Publication Date
CN202110564U true CN202110564U (zh) 2012-01-11

Family

ID=45436009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201120218940XU Expired - Fee Related CN202110564U (zh) 2011-06-24 2011-06-24 结合视频通道的智能家居语音控制系统

Country Status (1)

Country Link
CN (1) CN202110564U (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664008A (zh) * 2012-04-27 2012-09-12 上海量明科技发展有限公司 一种用以传输数据的方法、终端及系统
CN102932212A (zh) * 2012-10-12 2013-02-13 华南理工大学 一种基于多通道交互方式的智能家居控制系统
CN104103274A (zh) * 2013-04-11 2014-10-15 纬创资通股份有限公司 语音处理装置和语音处理方法
CN104202694A (zh) * 2014-07-31 2014-12-10 广东美的制冷设备有限公司 语音拾取装置的定向方法和系统
CN104200816A (zh) * 2014-07-31 2014-12-10 广东美的制冷设备有限公司 语音控制方法和系统
CN104269172A (zh) * 2014-07-31 2015-01-07 广东美的制冷设备有限公司 基于视频定位的语音控制方法和系统
WO2015158082A1 (zh) * 2014-04-17 2015-10-22 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN105703978A (zh) * 2014-11-24 2016-06-22 武汉物联远科技有限公司 智能家居控制系统和方法
WO2018036462A1 (zh) * 2016-08-22 2018-03-01 腾讯科技(深圳)有限公司 图像分割的方法、计算机设备及存储介质
CN108010527A (zh) * 2017-12-19 2018-05-08 深圳市欧瑞博科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN108227904A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN109344775A (zh) * 2018-10-08 2019-02-15 山东衡昊信息技术有限公司 一种全自动和面机的智能唇读识别控制方法
CN110221693A (zh) * 2019-05-23 2019-09-10 南京双路智能科技有限公司 一种基于人机交互的智能零售终端操作系统
CN110415701A (zh) * 2019-06-18 2019-11-05 平安科技(深圳)有限公司 唇语的识别方法及其装置
CN114089641A (zh) * 2021-11-17 2022-02-25 广州市诺的电子有限公司 基于点到点通信物联网控制器的智能电器及其控制方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664008B (zh) * 2012-04-27 2014-11-19 上海量明科技发展有限公司 一种用以传输数据的方法、终端及系统
CN102664008A (zh) * 2012-04-27 2012-09-12 上海量明科技发展有限公司 一种用以传输数据的方法、终端及系统
CN102932212A (zh) * 2012-10-12 2013-02-13 华南理工大学 一种基于多通道交互方式的智能家居控制系统
CN104103274A (zh) * 2013-04-11 2014-10-15 纬创资通股份有限公司 语音处理装置和语音处理方法
CN104103274B (zh) * 2013-04-11 2017-12-22 纬创资通股份有限公司 语音处理装置和语音处理方法
TWI502583B (zh) * 2013-04-11 2015-10-01 Wistron Corp 語音處理裝置和語音處理方法
WO2015158082A1 (zh) * 2014-04-17 2015-10-22 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN105022470A (zh) * 2014-04-17 2015-11-04 中兴通讯股份有限公司 一种基于唇读的终端操作方法及装置
CN104200816B (zh) * 2014-07-31 2017-12-22 广东美的制冷设备有限公司 语音控制方法和系统
CN104200816A (zh) * 2014-07-31 2014-12-10 广东美的制冷设备有限公司 语音控制方法和系统
CN104202694A (zh) * 2014-07-31 2014-12-10 广东美的制冷设备有限公司 语音拾取装置的定向方法和系统
CN104202694B (zh) * 2014-07-31 2018-03-13 广东美的制冷设备有限公司 语音拾取装置的定向方法和系统
CN104269172A (zh) * 2014-07-31 2015-01-07 广东美的制冷设备有限公司 基于视频定位的语音控制方法和系统
CN105703978A (zh) * 2014-11-24 2016-06-22 武汉物联远科技有限公司 智能家居控制系统和方法
WO2018036462A1 (zh) * 2016-08-22 2018-03-01 腾讯科技(深圳)有限公司 图像分割的方法、计算机设备及存储介质
CN108227904A (zh) * 2016-12-21 2018-06-29 深圳市掌网科技股份有限公司 一种虚拟现实语言交互系统与方法
CN108010527A (zh) * 2017-12-19 2018-05-08 深圳市欧瑞博科技有限公司 语音识别方法、装置、计算机设备和存储介质
CN108010527B (zh) * 2017-12-19 2020-06-12 深圳市欧瑞博科技有限公司 语音识别方法、计算机设备和存储介质
CN111508489A (zh) * 2017-12-19 2020-08-07 深圳市欧瑞博科技股份有限公司 语音识别方法、装置、计算机设备和存储介质
CN109344775A (zh) * 2018-10-08 2019-02-15 山东衡昊信息技术有限公司 一种全自动和面机的智能唇读识别控制方法
CN109344775B (zh) * 2018-10-08 2022-06-17 苏州次源科技服务有限公司 一种全自动和面机的智能唇读识别控制方法
CN110221693A (zh) * 2019-05-23 2019-09-10 南京双路智能科技有限公司 一种基于人机交互的智能零售终端操作系统
CN110415701A (zh) * 2019-06-18 2019-11-05 平安科技(深圳)有限公司 唇语的识别方法及其装置
CN114089641A (zh) * 2021-11-17 2022-02-25 广州市诺的电子有限公司 基于点到点通信物联网控制器的智能电器及其控制方法

Similar Documents

Publication Publication Date Title
CN102298443B (zh) 结合视频通道的智能家居语音控制系统及其控制方法
CN202110564U (zh) 结合视频通道的智能家居语音控制系统
US11854550B2 (en) Determining input for speech processing engine
CN102023703B (zh) 组合唇读与语音识别的多模式界面系统
EP3923273B1 (en) Voice recognition method and device, storage medium, and air conditioner
US11568853B2 (en) Voice recognition method using artificial intelligence and apparatus thereof
CN110853617B (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN106157956A (zh) 语音识别的方法及装置
US20200219384A1 (en) Methods and systems for ambient system control
Huahu et al. Application of speech emotion recognition in intelligent household robot
CN102405463A (zh) 利用多模态信息的用户意图推理装置及方法
KR20210155401A (ko) 인공 지능을 이용하여, 합성 음성의 품질을 평가하는 음성 합성 장치 및 그의 동작 방법
US20210110815A1 (en) Method and apparatus for determining semantic meaning of pronoun
CN105225665A (zh) 一种语音识别方法及语音识别装置
CN113129867B (zh) 语音识别模型的训练方法、语音识别方法、装置和设备
CN105763586A (zh) 一种远程控制车辆的系统及方法
CN111128178A (zh) 一种基于面部表情分析的语音识别方法
CN114842835B (zh) 一种基于深度学习模型的语音交互系统
CN113851113A (zh) 模型训练方法及装置、语音唤醒方法及装置
CN114550713A (zh) 对话系统、车辆以及对话系统的控制方法
Saradi et al. Voice-based motion control of a robotic vehicle through visible light communication
WO2020073839A1 (zh) 语音唤醒方法、装置、系统及电子设备
CN116453548A (zh) 一种基于注意力mcnn结合性别信息的语音情感识别方法
CN112331200A (zh) 一种车载语音控制方法
CN112562652B (zh) 一种基于Untiy引擎的语音处理方法及系统

Legal Events

Date Code Title Description
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120111

Termination date: 20170624