CN105427861A - 智能家居协同麦克风语音控制系统及控制方法 - Google Patents

智能家居协同麦克风语音控制系统及控制方法 Download PDF

Info

Publication number
CN105427861A
CN105427861A CN201510740405.3A CN201510740405A CN105427861A CN 105427861 A CN105427861 A CN 105427861A CN 201510740405 A CN201510740405 A CN 201510740405A CN 105427861 A CN105427861 A CN 105427861A
Authority
CN
China
Prior art keywords
module
steps
signal
voice
microphone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510740405.3A
Other languages
English (en)
Other versions
CN105427861B (zh
Inventor
胡旻波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ningbo Yirui Information Technology Co., Ltd.
Original Assignee
胡旻波
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 胡旻波 filed Critical 胡旻波
Priority to CN201510740405.3A priority Critical patent/CN105427861B/zh
Publication of CN105427861A publication Critical patent/CN105427861A/zh
Application granted granted Critical
Publication of CN105427861B publication Critical patent/CN105427861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/34Adaptation of a single recogniser for parallel processing, e.g. by use of multiple processors or cloud computing

Abstract

本发明公开了智能家居协同麦克风语音控制系统及控制方法,所述控制系统包括信号采集模块、控制中枢模块和云服务器;所述控制中枢模块包括语音监听模块、数据融合模块和降混响预处理模块。所述控制方法为:所述信号采集模块采集语音信号;所述控制中枢模块对语音信号进行降噪处理;所述云服务器识别语音信号,解析语音指令。本发明经过对语音信号的监听,之后又进行了数据融合和降混响预处理两次处理,有效抑制了环境噪音和房间反射,最大程度上保证了语音不失真,可确保后续语音识别的准确性。

Description

智能家居协同麦克风语音控制系统及控制方法
技术领域
本发明涉及语音控制系统及方法,具体涉及一种智能家居协同麦克风语音控制系统及控制方法。
背景技术
有关智能家居:
随着人民生活水平的提高,用户对居住环境提出了更高的要求,越来越注重家居生活的舒适、安全与便捷。智能家居旨在融合计算机、自动化控制、人工智能和网络通讯各项技术于一体,将家居环境下的各种设备终端,比如照明设备、音视频设备、安防系统、网络家电等通过家庭网络连接在一起,实现家居环境的智能化控制。
智能家居最基本的目标是为人们提供一个舒适、安全、方便和高效的生活环境,市场起步很早,经历了上世纪90年代的萌芽期和本世纪最初十年的开创期,从2011年开始,市场明显看到了增长的势头,行业背景是房地产受到调控。智能家居的放量增长说明智能家居行业进入了一个拐点,由徘徊期进入了新一轮的融合演变期。2014年是整个智能家居行业发展的关键性年度,先是Google高价(32亿美元)收购智能家居产品生产商Nest,苹果推出“Homekit”计划。随后阿里、腾讯、乐视、小米、360等互联网厂商,海尔、长虹、格力、海信、TCL和美的等传统家电厂商的高调进入,整个行业呈现百花齐放的格局,因此这年也被称为智能家居元年。
有关智能语音控制:
语音是人与人之间最便捷的交互方式,实现计算机对语音信号的识别,即语音识别,是人工智能领域的重要研究课题。由于语音交互的便利性,智能语音技术对改变家居环境下对电视、音箱、照明设备等控制方式有着重大革新意义,是赋予人与各终端设备良好沟通的重要桥梁。
智能语音交互系统通常包括语音信号采集设备(麦克风)和后台语音识别系统。麦克风通常集成在各种应用终端上,实现实时用户语音采集;语音识别系统通常放置在云端服务器。
真实家居场景下,用户发出语音指令的同时,通常伴随着各种各样的噪声,比如电视的声音、音乐等,为了保证识别的准确性,通常需要对噪音进行抑制,以保证用户语音指令的纯净。而通常为了保证噪音抑制性能,需要多个麦克风集成到一起,并通过时间校订实现声信号录制同步,最后通过beamforming等信号处理技术实现噪音抑制。
目前智能语音交互技术在智能家居行业有了一定应用,凸显了一定问题,现有技术中的主要问题包括:
1)用户体验差,目前的语音解决方案对用户与控制系统的距离有严格要求。这是由于如果距离过远会导致语音衰减,语音识别引擎不再匹配;会放大噪声对识别系统的影响,显著降低语音识别准确性。一方面限制用户体验度,比如用语音操控空调或者电视机必须走到一个固定位置,如果在另一个房间或者有其他遮挡物,则无法有效使用语音控制系统,这与降低用户操作的复杂度、提高人机交互简易度这一目的背道而驰的。
2)过渡依赖于手机APP,由于手机和用户的距离通常不会太远,行业内为了解决远场和噪音问题,通常把语音控制系统集成在手机APP端。这样固然保证了语音交互的准确性,但是不同智能终端设备,采用不同的APP,用户操作起来非常的不方便,反而增加了交互的复杂度。
3)行业标准混乱,智能语音控制载体(即各种各样的常用电器)种类繁多,且相互独立,很难有效协同成一个高效率、高性能的语音控制系统。比如一台海尔冰箱采用的语音控制系统是采用科大讯飞的解决方案,而电视机采用的可能是另外一家语音解决方案。各个家电载体由于语音解决方案的不同,形成一个个孤岛,无法实现不同载体之间的信息互换。并且每台终端设备上面集成一个语音采集、处理与交互系统,造成了极大的资源浪费,提高了成本。
发明内容
针对现有技术的不足,本发明公开了一种智能家居协同麦克风语音控制系统及控制方法。
本发明的技术方案如下:
一种智能家居协同麦克风语音控制系统,包括信号采集模块、控制中枢模块和云服务器;所述信号采集模块采集语音信号;所述控制中枢模块对语音信号进行降噪处理;所述云服务器识别并解析语音信号;
所述控制中枢模块包括语音监听模块、数据融合模块和降混响预处理模块;
所述语音监听模块包括:
接收线程:对第i个麦克风,1≤i≤M,采集其实时录音信号yi(t),直至实时录音信号样本点的录音文件写满一个内存缓冲区,即采集到512个时域信号样本点;
所述实时录音信号yi(t)为:
yi(t)=si(t)+ni(t);
ni(t)为实时噪音信号,si(t)为语音信号;如果用户未发出语音信号,则si(t)为0;
平滑模块:将本缓冲区与前个缓冲区中的512个实时录音信号样本点一起,共同采用长度为1024汉宁窗进行平滑处理;
FFT变换模块:对经过平滑模块平滑处理之后的数据进行快速傅里叶变换,将原时域信号变换为频域信号;
方差计算模块:由FFT变换模块所得到的频域信号中,语音信号组成语音谱,噪音信号组成噪音谱;计算语音谱的方差λS,i(k)及噪音谱的方差λN,i(k);
信噪比计算模块:根据方差计算模块的输出结果,计算先验信噪比ξk,i和后验信噪比γk,i,分别为:
ξ k , i = λ S , i ( k ) λ N , i ( k ) ;
γ k , i = | Y i ( k ) | 2 λ N , i ( k ) ;
指示函数计算模块:根据信噪比计算模块的输出结果,计算指示函数Λk,i
Λ k , i = 1 1 + ξ k , i exp { γ k , i ξ k , i 1 + ξ k , i } ;
判别函数计算模块:根据指示函数计算模块的输出结果,计算判别函数Ρi
P i = 1 K Σ k = 0 K - 1 l o g ( Λ k , i ) ;
如果判别函数Ρi大于阈值η=0.95,则说明监测到语音,否则说明没有监测到语音;如果任意一个麦克风监测到语音,则说明有用户在说话,启动所有麦克风录音发送线程,向数据融合模块发射语音信号,并向服务器发送处理信号;
所述数据融合模块包括:
STFT变换模块:对各路不同麦克风阵列的通道进行短时傅里叶变换,每一帧长512样本点,帧移256,平滑窗为汉宁窗;将原有的时域信号谱转换为时频谱Ym,i(t,k);t和k分别为时间帧和频带坐标;
第一向量构建模块:对每一个阵列系统构建向量ym(t,k):
y m ( t , k ) = [ Y m , 1 ( t , k ) , Y m , 2 ( t , k ) , ... , Y m , Ω m ( t , k ) ] T ;
T为转置操作符;省略时间帧和频带坐标之后,ym(t,k)简记为ym;由STFT变换的线性性质,有:
ym=sm+nm
对所有阵列构建一个新向量y(t,k):
y(t,k)=[y1(t,k)T,y2(t,k)T,…,yM(t,k)T]T
同样省略时间帧和频带坐标,有:
y=s+n;
自相关矩阵构建模块:根据向量构建模块得到的与时频谱相关的向量,根据前10帧,对每一个频带,估计噪音谱的自相关矩阵Rn,n(t,k):
Rn,n(t,k)=λRn,n(t-1,k)+(1-λ)n(t,k)n(t,k)H
H代表厄尔米特转置,平滑因子λ=0.995;
对每一个频带,每一时间帧,估计混合谱的自相关矩阵Ry,y(t,k):
Ry,y(t,k)=λRy,y(t-1,k)+(1-λ)y(t,k)y(t,k)H
平滑因子λ=0.995;
计算语音谱的自相关矩阵Rs,s(t,k):
Rs,s(t,k)=Ry,y(t,k)-Rn,n(t,k);
目标函数优化模块:对每一个麦克风阵列系统,省略时间帧和频带坐标,构建优化目标函数Jm(Wm):
J m ( W m ) = E { | | d m - W m H y | | 2 } ;
Ε为期望算符;
最优滤波器构造模块:根据目标函数优化模块得到的结果,最小化上述目标函数,即得到最优滤波器
W ~ m = W ~ m , 1 W ~ m , 2 . . . W ~ m , M = R y , y - 1 R s , s Γ m ;
其中是一个复数域矩阵,Γm为对角矩阵:
语音信号融合模块:根据最优滤波器构造模块所构造的最优滤波器,计算融合后的语音信号
d ~ m = W ~ m H y ;
原阵列系统共有Ωm路语音数据,经过融合之后,转化成1路数据;噪音得到抑制;
所述降混响预处理模块包括线性预测系数估计模块;
所述降混响预处理模块以语音融合的输出为输入,即输入D为:
D = ( d ~ 1 , d ~ 2 , ... , d ~ M ) ;
通过在每一个频带线性预测的方式抑制掉房间反射,每一个频带的线性预测系数g(k)为:
gm(k)=[gm(k,0),gm(k,1),…,gm(k,Lg-1)]T
g ( k ) = [ g 1 T ( k ) , g 2 T ( k ) , ... , g M T ( k ) ] T ;
线性预测阶数Lg=13;
所述线性预测系数估计模块包括:
第二向量构造模块:构造向量dm(k):
d m ( k ) = [ d ~ m ( 1 , k ) , d ~ m ( 2 , k ) , ... , d ~ m ( N , k ) ] T ;
N为时间帧的数量;
复数矩阵构造模块:根据dm(k)构造延迟τ帧的复数矩阵
整合全部子系统数据成复数矩阵Dτ(k):
Dτ(k)=[Dτ,1(k),Dτ,1(k),…,Dτ,M(k)];
隐变量初始化模块:初始化隐变量
线性预测系数估计模块:估计线性预测系数
g ~ ( k ) = ( D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) D τ ( k ) ) - 1 D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) d 1 ( k ) ;
Λ为对角矩阵算子;
混向后语音估计模块:估计降混响后的语音信号
s ~ ( k ) = d 1 ( k ) - D τ ( k ) g ~ ( k ) ;
隐变量优化模块:最小化如下优化函数,迭代估计隐变量:
θ ~ ( k , n ) = argmin θ ( k , n ) | s ~ ( k , n ) | 2 θ ( k , n ) + l o g ( θ ( k , n ) ) ;
log为自然对数算子,得到隐变量估计
θ ~ ( k ) = | s ~ ( k ) | 2 ;
所述隐变量优化模块的输出信号返回线性预测系数估计模块,迭代五次之后,混向后语音估计模块输出最后的语音信号。
一种使用上述的智能家居协同麦克风语音控制系统进行语音控制的方法,其特征在于:所述信号采集模块为协同麦克风或/和智能移动终端;
A、当信号采集模块为协同麦克风时,控制方法具体包括以下步骤:
步骤A1、协同麦克风接收到语音信号;
步骤A2、协同麦克风向语音监听模块提出请求,要求一次语音处理,所述语音监听模块对麦克风阵列进行语音监听;语音监听模块进行语音监听的具体步骤为:
步骤A21、语音监听模块接收到语音处理请求后,新建一个接收线程并将接收线程的端口号通知给协同麦克风;协同麦克风接收到端口号后与接收线程建立连接,开始传输语音数据;所述麦克风阵列有M个,第m个麦克风阵列包括麦克风Ωm个,1≤Ωm;麦克风总数MΣ为:
M Σ = Σ m = 1 M Ω m ;
步骤A22、对第i个麦克风,1≤i≤M,采集其实时录音信号yi(t),直至实时录音信号样本点的录音文件写满一个内存缓冲区,即采集到512个时域信号样本点;
所述实时录音信号yi(t)为:
yi(t)=si(t)+ni(t);
ni(t)为实时噪音信号,si(t)为语音信号;如果用户未发出语音信号,则si(t)为0;
步骤A23、与前个缓冲区中的512个实时录音信号样本点一起,共同采用长度为1024汉宁窗进行平滑处理;
步骤A24、对平滑处理之后的数据进行快速傅里叶变换,将原时域信号变换为频域信号;所述频域信号的频带数K=513,第i个信号的频带系数Yi(k)为复数;
步骤A25、所述语音信号组成语音谱,噪音信号组成噪音谱;计算语音谱的方差λS,i(k)及噪音谱的方差λN,i(k);
步骤A26、计算先验信噪比ξk,i和后验信噪比γk,i,分别为:
ξ k , i = λ S , i ( k ) λ N , i ( k ) ;
γ k , i = | Y i ( k ) | 2 λ N , i ( k ) ;
步骤A27、计算指示函数Λk,i
Λ k , i = 1 1 + ξ k , i exp { γ k , i ξ k , i 1 + ξ k , i } ;
步骤A28、计算判别函数Ρi
P i = 1 K Σ k = 0 K - 1 l o g ( Λ k , i ) ;
如果判别函数Ρi大于阈值η=0.95,则说明监测到语音,否则说明没有监测到语音;如果任意一个麦克风监测到语音,则说明有用户在说话,启动所有麦克风录音发送线程,并向服务器发送信号;
步骤A3、将不同麦克风阵列的结果进行数据融合;1≤m≤M,代表第m个麦克风阵列系统,1≤i≤Ωm代表该阵列系统第i个麦克风
步骤A31、对各路不同麦克风阵列的通道计算短时傅里叶变换,
每一帧长512样本点,帧移256,平滑窗为汉宁窗;变换后结果为时频谱Ym,i(t,k);,t和k分别代表时间帧和频带坐标;
步骤A32、对每一个阵列系统构建向量ym(t,k):
y m ( t , k ) = [ Y m , 1 ( t , k ) , Y m , 2 ( t , k ) , ... , Y m , Ω m ( t , k ) ] T ;
T为转置操作符;省略时间帧和频带坐标,ym(t,k)简记为ym;由STFT变换的线性性质,有:
ym=sm+nm
步骤A33、对所有阵列构建一个新向量y(t,k):
y(t,k)=[y1(t,k)T,y2(t,k)T,…,yM(t,k)T]T
同样省略时间帧和频带坐标,有:
y=s+n;
步A34、根据前10帧,对每一个频带,估计噪音谱的自相关矩阵Rn,n(t,k):
Rn,n(t,k)=λRn,n(t-1,k)+(1-λ)n(t,k)n(t,k)H
上坐标H为厄尔米特转置,平滑因子λ=0.995;
步骤A35、对每一个频带,每一时间帧,估计混合谱的自相关矩阵Ry,y(t,k):
Ry,y(t,k)=λRy,y(t-1,k)+(1-λ)y(t,k)y(t,k)H
平滑因子λ=0.995;
步骤A36、计算语音谱的自相关矩阵Rs,s(t,k):
Rs,s(t,k)=Ry,y(t,k)-Rn,n(t,k);
步骤A37、对每一个麦克风阵列系统,省略时间帧和频带坐标,构建优化目标函数Jm(Wm):
J m ( W m ) = E { | | d m - W m H y | | 2 } ;
Ε代表期望算符;
步骤A38、最小化上述目标函数,即得到最优滤波器
W ~ m = W ~ m , 1 W ~ m , 2 . . . W ~ m , M = R y , y - 1 R s , s Γ m ;
其中是一个复数域矩阵,Γm为对角矩阵:
步骤A39、根据步骤28得到的最优滤波器,计算融合后的语音信号
d ~ m = W ~ m H y ;
原阵列系统共有Ωm路语音数据,经过融合之后,转化成1路数据;噪音得到抑制;
步骤A4、降混响预处理,抑制房间的反射,保证用户发布的语音指令来自同一个方向;
以语音融合的输出为输入,即输入D为:
D = ( d ~ 1 , d ~ 2 , ... , d ~ M ) ;
通过在每一个频带线性预测的方式抑制掉房间反射,每一个频带的线性预测系数g(k)为:
gm(k)=[gm(k,0),gm(k,1),…,gm(k,Lg-1)]T
g ( k ) = [ g 1 T ( k ) , g 2 T ( k ) , ... , g M T ( k ) ] T ;
线性预测阶数Lg=13;
所述线性预测系数g(k)的估计方法为:
步骤A41、构造向量dm(k):
d m ( k ) = [ d ~ m ( 1 , k ) , d ~ m ( 2 , k ) , ... , d ~ m ( N , k ) ] T ;
N为时间帧的数量;
步骤A42、根据dm(k)构造延迟τ帧的复数矩阵
步骤A43、整合全部子系统数据成一个复数矩阵:
Dτ(k)=[Dτ,1(k),Dτ,1(k),…,Dτ,M(k)];
步骤A44、初始化隐变量
步骤A45、迭代估计线性预测系数
g ~ ( k ) = ( D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) D τ ( k ) ) - 1 D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) d 1 ( k ) ;
Λ为对角矩阵算子;
步骤A46、迭代估计降混响后语音
s ~ ( k ) = d 1 ( k ) - D τ ( k ) g ~ ( k ) ;
步骤A47、最小化如下优化函数迭代估计隐变量:
θ ~ ( k , n ) = argmin θ ( k , n ) | s ~ ( k , n ) | 2 θ ( k , n ) + l o g ( θ ( k , n ) ) ;
log为自然对数算子,得到隐变量估计
θ ~ ( k ) = | s ~ ( k ) | 2 ;
步骤A48、迭代步骤A45至步骤A47,共迭代5次;迭代结束后,即为原语音估计;
步骤A5、将语音提交给云服务器,进行语音识别,并根据识别结果发送控制指令至相应的家具应用终端;一次数据提交结束。
B、当信号采集模块为智能移动终端时,控制方法具体包括以下步骤:
步骤B1、智能移动终端对语音信号进行采集:用户操作智能移动终端的UI界面,请求开始录音;
步骤B2、智能移动终端新建录音线程,并开始录音;同时向用户发出提示说话的信号;
步骤B3、用户开始发出语音指令;
步骤B4、智能移动终端录音,并将语音数据发送到云服务器;
步骤B5、云服务器进行语音识别,并根据识别结果发送控制指令至相应的家具应用终端;同时通过操作界面提示用户命令发送成功;一次数据提交结束。
本发明的有益技术效果是:
本发明主要应用于智能家居市场,有着重大市场潜力。根据2014年前瞻产业研究院发布的《2015-2020年中国智能家居设备行业发展前景预测与投资机会分析报告》显示,预计到2018年市场规模达到1800亿,2020年能达到5850亿的市场规模。
本发明的主要载体包括家庭网络和集成麦克风的应用终端。一方面,随着计算机通讯技术的发展,无线路由器走进千家万户,家庭网络已经成为人民生活的必须,网络带宽和速度足以承载语音交互系统的需求。另一方面,市场上集成麦克风的应用终端成爆发式增长,比如冰箱、电视、音箱甚至插座上都集成了语音采集设备,为智能家居语音控制塑造了完善的接口。这些市场固有的硬件资源,保证了本项专利的应用群体。
目前,市场上的智能家居语音控制系统通常是一对一,针对某一个应用终端单独搭建一个控制系统。本发明旨在打破这一孤岛效应,实现不同应用终端的物物互联,具有操作距离更远、识别率更高等优点,属于市场迫切需求的技术解决方案。
本发明和传统的麦克风阵列技术相同之处在于都需要多个麦克风采集声音信号,不同之处在于麦克风阵列技术需要各个麦克风空间位置固定、录音时间严格同步;本项发明不同的麦克风空间位置可以分布在家居的不同位置,不需要固定,不同的录音系统可以有一定时间差,无须严格同步。控制系统性能上,本项发明和传统麦克风阵列技术相比,有如下三个技术优势:
1.由于增加了协同控制系统,相当于增加了同时工作的麦克风数量,提高了噪音抑制性能,所得到的语音更加纯净。
2.在家居环境下,不同应用终端分布在不同位置,扩展了麦克风采集语音的空间位置,提高了远场处理能力,可以实现不同房间、隔着墙壁语音控制应用终端。
3.协同控制系统可以看作不同应用终端的连接枢纽,增加了不同应用终端协同工作的接口。
4、本发明还增加了通过移动智能终端进行控制的控制方法,方便用户对智能家居终端进行远程控制。
附图说明
图1是本发明的拓扑结构示意图。
图2是通过协同麦克风采集语音信号的控制流程示意图。
图3是数据融合过程的示意图。
图4是通过智能移动终端采集语音信号的控制流程示意图。
图5是本发明的控制中枢的结构图。
具体实施方式
本发明所述的系统,包括信号采集模块、控制中枢模块和云服务器,信号采集模块采集语音信号,控制中枢模块对语音信号进行降噪处理,云服务器识别语音信号,解析语音指令。
图1是本发明的拓扑结构示意图。图1中的信号采集层对应信号采集模块,控制中枢层对应控制中枢模块,云平台对应云服务器。假定一个家居环境多个应用终端都集成了独立的语音控制系统,如图1所示,其中空调、智能电视分别集成了3个和2个麦克风,智能台灯集成了单个麦克风,并都装备有相关控制系统,则本项发明所设计的智能家居协同麦克风语音控制系统旨在仅仅利用各独立终端上的麦克风语音采集模块,搭建一个统一的语音控制系统,不改变已有的麦克风阵列,并兼容单麦克风处理算法,所以本项发明增加了控制中枢模块,协调各个语音采集、控制系统,建立不同语音控制系统的连接通道,实现智能家居物物互联的功能。
图1中还包括一种情况是信号采集模块直接与云服务器相连接,无需经过控制中枢模块的处理,此种情况适应于信号采集模块为智能移动终端的情况。
图2是通过协同麦克风采集语音信号的控制流程示意图。图2中,信号采集模块为协同麦克风。图2所示的控制流程可协调各个孤立的麦克风、或者麦克风阵列,实现信号采集、唤醒、信号发送至云端,在语音识别云平台识别相应的指令之后,返回控制指令至相关应用终端。
具体的控制流程包括以下步骤:
步骤A1、协同麦克风接收到语音信号;
步骤A2、协同麦克风向语音监听模块提出请求,要求一次语音处理,所述语音监听模块对麦克风阵列进行语音监听;语音监听模块进行语音监听的具体步骤为:
步骤A21、语音监听模块接收到语音处理请求后,新建一个接收线程并将接收线程的端口号通知给协同麦克风;协同麦克风接收到端口号后与接收线程建立连接,开始传输语音数据;所述麦克风阵列有M个,第m个麦克风阵列包括麦克风Ωm个,1≤Ωm;麦克风总数MΣ为:
M Σ = Σ m Ω m
步骤A22、对第i个麦克风,1≤i≤M,采集其实时录音信号yi(t),直至实时录音信号样本点的录音文件写满一个内存缓冲区,即采集到512个时域信号样本点;
实时录音信号yi(t)为:
yi(t)=si(t)+ni(t);
上式中ni(t)为实时噪音信号,si(t)为语音信号;如果用户未发出语音信号,则si(t)为0;
步骤A23、与前个缓冲区中的512个实时录音信号样本点一起,共同采用长度为1024汉宁窗进行平滑处理;
步骤A24、对平滑处理之后的数据进行快速傅里叶变换,将原时域信号变换为频域信号;频域信号的频带数K=513,第i个信号的频带系数Yi(k)为复数;
步骤A25、语音信号组成语音谱,噪音信号组成噪音谱;计算语音谱的方差λS,i(k)及噪音谱的方差λN,i(k);
步骤A26、计算先验信噪比ξk,i和后验信噪比γk,i,分别为:
ξ k , i = λ S , i ( k ) λ N , i ( k ) ;
γ k , i = | Y i ( k ) | 2 λ N , i ( k ) ;
步骤A27、计算指示函数Λk,i
Λ k , i = 1 1 + ξ k , i exp { γ k , i ξ k , i 1 + ξ k , i } ;
步骤A28、计算判别函数Ρi
P i = 1 K Σ k = 0 K - 1 l o g ( Λ k , i ) ;
如果判别函数Ρi大于阈值η=0.95,则说明监测到语音,否则说明没有监测到语音;如果任意一个麦克风监测到语音,则说明有用户在说话,启动所有麦克风录音发送线程,并向服务器发送信号;
步骤A3、将不同麦克风阵列的结果进行数据融合;1≤m≤M,代表第m个麦克风阵列系统,1≤i≤Ωm代表该阵列系统第i个麦克风
步骤A31、对各路不同麦克风阵列的通道计算短时傅里叶变换,
每一帧长512样本点,帧移256,平滑窗为汉宁窗;变换后结果为时频谱Ym,i(t,k);,t和k分别代表时间帧和频带坐标;
步骤A32、对每一个阵列系统构建向量ym(t,k):
y m ( t , k ) = [ Y m , 1 ( t , k ) , Y m , 2 ( t , k ) , ... , Y m , Ω m ( t , k ) ] T ;
上式中,T代表转置操作符;省略时间帧和频带坐标,ym(t,k)简记为ym;由STFT变换的线性性质,有:
ym=sm+nm
步骤A33、对所有阵列构建一个新向量y(t,k):
y(t,k)=[y1(t,k)T,y2(t,k)T,…,yM(t,k)T]T
同样省略时间帧和频带坐标,有:
y=s+n;
步A34、根据前10帧,对每一个频带,估计噪音谱的自相关矩阵Rn,n(t,k):
Rn,n(t,k)=λRn,n(t-1,k)+(1-λ)n(t,k)n(t,k)H
上式中,上坐标H代表厄尔米特转置,平滑因子λ=0.995;
步骤A35、对每一个频带,每一时间帧,估计混合谱的自相关矩阵Ry,y(t,k):
Ry,y(t,k)=λRy,y(t-1,k)+(1-λ)y(t,k)y(t,k)H
平滑因子λ=0.995;
步骤A36、计算语音谱的自相关矩阵Rs,s(t,k):
Rs,s(t,k)=Ry,y(t,k)-Rn,n(t,k);
步骤A37、对每一个麦克风阵列系统,省略时间帧和频带坐标,构建优化目标函数Jm(Wm):
J m ( W m ) = E { | | d m - W m H y | | 2 } ;
上式中,Ε代表期望算符;
步骤A38、最小化上述目标函数,即得到最优滤波器
W ~ m = W ~ m , 1 W ~ m , 2 . . . W ~ m , M = R y , y - 1 R s , s Γ m ;
其中是一个复数域矩阵,Γm为对角矩阵:
步骤A39、根据步骤28得到的最优滤波器,计算融合后的语音信号
d ~ m = W ~ m H y ;
原阵列系统共有Ωm路语音数据,经过融合之后,转化成1路数据;噪音得到抑制。
图3为数据融合过程的示意图,图3中有3个独立麦克风子阵列,每个阵列有3个麦克风。一方面,每个子阵列原有3路语音数据,被融合成1路数据。另一方面,可以看出,所有子阵列的数据都参与每一次数据融合滤波器计算。由于不同的子阵列所得到的噪音来自不同位置,因此对噪音的统计性质刻画的更为详尽,噪音抑制的效果更为明显,得到的数据为纯净语音估计。
步骤A4、降混响预处理,抑制房间的反射,保证用户发布的语音指令来自同一个方向;
以语音融合的输出为输入,即输入D为:
D = ( d ~ 1 , d ~ 2 , ... , d ~ M ) ;
通过在每一个频带线性预测的方式抑制掉房间反射,每一个频带的线性预测系数g(k)为:
gm(k)=[gm(k,0),gm(k,1),…,gm(k,Lg-1)]T
g ( k ) = [ g 1 T ( k ) , g 2 T ( k ) , ... , g M T ( k ) ] T ;
上式中,线性预测阶数Lg=13。
线性预测系数g(k)的估计方法为:
步骤A41、构造向量dm(k):
d m ( k ) = [ d ~ m ( 1 , k ) , d ~ m ( 2 , k ) , ... , d ~ m ( N , k ) ] T ;
上式中N为时间帧的数量;
步骤A42、根据dm(k)构造延迟τ帧的复数矩阵
步骤A43、整合全部子系统数据成一个复数矩阵:
Dτ(k)=[Dτ,1(k),Dτ,1(k),…,Dτ,M(k)];
步骤A44、初始化隐变量
步骤A45、迭代估计线性预测系数
g ~ ( k ) = ( D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) D τ ( k ) ) - 1 D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) d 1 ( k )
上式中,Λ为对角矩阵算子;
步骤A46、迭代估计降混响后语音
s ~ ( k ) = d 1 ( k ) - D τ ( k ) g ~ ( k )
步骤A47、最小化如下优化函数迭代估计隐变量:
θ ~ ( k , n ) = argmin θ ( k , n ) | s ~ ( k , n ) | 2 θ ( k , n ) + l o g ( θ ( k , n ) )
上式中,log为自然对数算子,得到隐变量估计
θ ~ ( k ) = | s ~ ( k ) | 2 ;
步骤A48、迭代步骤A45至步骤A47,共迭代5次;迭代结束后,即为原语音估计;
步骤A5、将语音提交给云服务器,进行语音识别,并根据识别结果发送控制指令至相应的家具应用终端;一次数据提交结束。
图2所示的流程中,语音监听、数据融合和降混响预处理步骤为控制中枢模块中的核心算法。其中,语音监听的功能是实时监测有无用户发出语音指令;数据融合的目的在于融合不同麦克风录音信号,实现噪音抑制、信号挑选,已保证语音信号的纯净;降混响语音预处理目的在于有效抑制房间的反射、混响,保证后续语音识别的准确性。
图4是通过智能移动终端采集语音信号的控制流程示意图。图4所示的流程适用于远程控制的情况,保证用户不在家中时,可以通过智能手机等移动设备语音控制家里的应用终端。智能移动终端通常都内置有麦克风,由于是远程操作,不需要调用家居环境中其他的麦克风设备。用户用手机采集到的语音文件,直接发送到语音识别云服务器,识别成语音指令后发送到家居相应的应用终端。由于用户对着手机录音,采集路径较短,环境噪音与房间混响都非常小,因此不需要噪音抑制与降混响处理。
具体包括以下步骤:
步骤B1、智能移动终端对语音信号进行采集:用户操作智能移动终端的UI界面,请求开始录音;
步骤B2、智能移动终端新建录音线程,并开始录音;同时向用户发出提示说话的信号;
步骤B3、用户开始发出语音指令;
步骤B4、智能移动终端录音,并将语音数据发送到云服务器;
步骤B5、云服务器进行语音识别,并根据识别结果发送控制指令至相应的家具应用终端;同时通过操作界面提示用户命令发送成功;一次数据提交结束。
图5是本发明的控制中枢模块的系统结构图。控制中枢模块为本发明的核心模块。
控制中枢模块包括语音监听模块、数据融合模块和降混响预处理模块;
语音监听模块监听用户是否有语音信号发出,包括:
接收线程11:对第i个麦克风,1≤i≤M,采集其实时录音信号yi(t),直至实时录音信号样本点的录音文件写满一个内存缓冲区,即采集到512个时域信号样本点;
实时录音信号yi(t)为:
yi(t)=si(t)+ni(t);
上式中ni(t)为实时噪音信号,si(t)为语音信号;如果用户未发出语音信号,则si(t)为0;
平滑模块12:将本缓冲区与前个缓冲区中的512个实时录音信号样本点一起,共同采用长度为1024汉宁窗进行平滑处理;
FFT变换模块13:对经过平滑模块平滑处理之后的数据进行快速傅里叶变换(FastFourierTrsform,FFT),将原时域信号变换为频域信号;
方差计算模块14:由FFT变换模块所得到的频域信号中,语音信号组成语音谱,噪音信号组成噪音谱;计算语音谱的方差λS,i(k)及噪音谱的方差λN,i(k);
信噪比计算模块15:根据方差计算模块的输出结果,计算先验信噪比ξk,i和后验信噪比γk,i,分别为:
ξ k , i = λ S , i ( k ) λ N , i ( k ) ;
γ k , i = | Y i ( k ) | 2 λ N , i ( k ) ;
指示函数计算模块16:根据信噪比计算模块的输出结果,计算指示函数Λk,i
Λ k , i = 1 1 + ξ k , i exp { γ k , i ξ k , i 1 + ξ k , i } ;
判别函数计算模块17:根据指示函数计算模块的输出结果,计算判别函数Ρi
P i = 1 K Σ k = 0 K - 1 l o g ( Λ k , i ) ;
如果判别函数Ρi大于阈值η=0.95,则说明监测到语音,否则说明没有监测到语音;如果任意一个麦克风监测到语音,则说明有用户在说话,启动所有麦克风录音发送线程,向数据融合模块发射语音信号,并向服务器发送处理信号;
数据融合模块的用处是有效协同不同麦克风阵列系统,抑制环境噪音,把各个麦克风阵列录音结果融合成一个通道的纯净语音信号,进而保证后续语音识别的准确性。功能实现主要依靠设计一组滤波器,分别从不同的位置和角度获取更全面的环境噪音功率谱性质。具体包括:
STFT变换模块21:对各路不同麦克风阵列的通道计算短时傅里叶变换(Short-TimeFourierTransform,STFT),每一帧长512样本点,帧移256,平滑窗为汉宁窗;将原有的时域信号转换为时频谱Ym,i(t,k);t和k分别代表时间帧和频带坐标;
第一向量构建模块22:对每一个阵列系统构建向量ym(t,k):
y m ( t , k ) = [ Y m , 1 ( t , k ) , Y m , 2 ( t , k ) , ... , Y m , Ω m ( t , k ) ] T ;
上式中,T代表转置操作符;省略时间帧和频带坐标,ym(t,k)简记为ym;由STFT变换的线性性质,有:
ym=sm+nm
对所有阵列构建一个新向量y(t,k):
y(t,k)=[y1(t,k)T,y2(t,k)T,…,yM(t,k)T]T
同样省略时间帧和频带坐标,有:
y=s+n;
自相关矩阵构建模块23:根据向量构建模块得到的与时频谱相关的向量,根据前10帧,对每一个频带,估计噪音谱的自相关矩阵Rn,n(t,k):
Rn,n(t,k)=λRn,n(t-1,k)+(1-λ)n(t,k)n(t,k)H
上式中,上坐标H代表厄尔米特转置,平滑因子λ=0.995;
对每一个频带,每一时间帧,估计混合谱的自相关矩阵Ry,y(t,k):
Ry,y(t,k)=λRy,y(t-1,k)+(1-λ)y(t,k)y(t,k)H
平滑因子λ=0.995;
计算语音谱的自相关矩阵Rs,s(t,k):
Rs,s(t,k)=Ry,y(t,k)-Rn,n(t,k);
目标函数优化模块24:对每一个麦克风阵列系统,省略时间帧和频带坐标,构建优化目标函数Jm(Wm):
J m ( W m ) = E { | | d m - W m H y | | 2 } ;
上式中,Ε代表期望算符;
最优滤波器构造模块25:根据目标函数优化模块得到的结果,最小化上述目标函数,即得到最优滤波器
W ~ m = W ~ m , 1 W ~ m , 2 . . . W ~ m , M = R y , y - 1 R s , s Γ m ;
其中是一个复数域矩阵,Γm为对角矩阵:
语音信号融合模块26:根据最优滤波器构造模块所构造的最优滤波器,计算融合后的语音信号
d ~ m = W ~ m H y ;
原阵列系统共有Ωm路语音数据,经过融合之后,转化成1路数据;噪音得到抑制;降混响预处理模块包括线性预测系数估计模块;
降混响预处理模块降混响预处理的目的是抑制掉房间的反射,保证用户发布的语音指令尽可能来自一个方向。本项处理以语音融合的输出为输入,即输入D为:
D = ( d ~ 1 , d ~ 2 , ... , d ~ M ) ;
通过在每一个频带线性预测的方式抑制掉房间反射,每一个频带的线性预测系数g(k)为:
gm(k)=[gm(k,0),gm(k,1),…,gm(k,Lg-1)]T
g ( k ) = [ g 1 T ( k ) , g 2 T ( k ) , ... , g M T ( k ) ] T ;
上式中,线性预测阶数Lg=13。
线性预测系数估计模块包括:
第二向量构造模块31:构造向量dm(k):
d m ( k ) = [ d ~ m ( 1 , k ) , d ~ m ( 2 , k ) , ... , d ~ m ( N , k ) ] T ;
上式中N为时间帧的数量;
复数矩阵构造模块32:根据dm(k)构造延迟τ帧的复数矩阵
整合全部子系统数据成一个复数矩阵:
Dτ(k)=[Dτ,1(k),Dτ,1(k),…,Dτ,M(k)];
隐变量初始化模块33:初始化隐变量
线性预测系数估计模块34:估计线性预测系数
g ~ ( k ) = ( D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) D τ ( k ) ) - 1 D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) d 1 ( k )
上式中,Λ为对角矩阵算子;
混向后语音估计模块35:估计降混响后的语音信号
s ~ ( k ) = d 1 ( k ) - D τ ( k ) g ~ ( k )
隐变量优化模块36:最小化如下优化函数,迭代估计隐变量:
θ ~ ( k , n ) = argmin θ ( k , n ) | s ~ ( k , n ) | 2 θ ( k , n ) + l o g ( θ ( k , n ) )
上式中,log为自然对数算子,得到隐变量估计
θ ~ ( k ) = | s ~ ( k ) | 2 ;
隐变量优化模块36的输出信号返回线性预测系数估计模块34,如图5所示迭代五次之后,混向后语音估计模块35输出最后的语音信号。
原家居环境存在多个麦克风阵列系统,经过数据融合和降混响预处理两次处理,有效抑制了环境噪音和房间反射,最大程度上保证了语音不失真,以确保后续语音识别的准确性。
以上所述的仅是本发明的优选实施方式,本发明不限于以上实施例。可以理解,本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化,均应认为包含在本发明的保护范围之内。

Claims (2)

1.一种智能家居协同麦克风语音控制系统,其特征在于:包括信号采集模块、控制中枢模块和云服务器;所述信号采集模块采集语音信号;所述控制中枢模块对语音信号进行降噪处理;所述云服务器识别并解析语音信号;
所述控制中枢模块包括语音监听模块、数据融合模块和降混响预处理模块;
所述语音监听模块包括:
接收线程:对第i个麦克风,1≤i≤MΣ,采集其实时录音信号yi(t),直至实时录音信号样本点的录音文件写满一个内存缓冲区,即采集到512个时域信号样本点;
所述实时录音信号yi(t)为:
yi(t)=si(t)+ni(t);
ni(t)为实时噪音信号,si(t)为语音信号;如果用户未发出语音信号,则si(t)为0;
平滑模块:将本缓冲区与前个缓冲区中的512个实时录音信号样本点一起,共同采用长度为1024汉宁窗进行平滑处理;
FFT变换模块:对经过平滑模块平滑处理之后的数据进行快速傅里叶变换,将原时域信号变换为频域信号;
方差计算模块:由FFT变换模块所得到的频域信号中,语音信号组成语音谱,噪音信号组成噪音谱;计算语音谱的方差λS,i(k)及噪音谱的方差λN,i(k);
信噪比计算模块:根据方差计算模块的输出结果,计算先验信噪比ξk,i和后验信噪比γk,i,分别为:
ξ k , i = λ S , i ( k ) λ N , i ( k ) ;
γ k , i = | Y i ( k ) | 2 λ N , i ( k ) ;
指示函数计算模块:根据信噪比计算模块的输出结果,计算指示函数Λk,i
Λ k , i = 1 1 + ξ k , i exp { γ k , i ξ k , i 1 + ξ k , i } ;
判别函数计算模块:根据指示函数计算模块的输出结果,计算判别函数Ρi
P i = 1 K Σ k = 0 K - 1 l o g ( Λ k , i ) ;
如果判别函数Ρi大于阈值η=0.95,则说明监测到语音,否则说明没有监测到语音;如果任意一个麦克风监测到语音,则说明有用户在说话,启动所有麦克风录音发送线程,向数据融合模块发射语音信号,并向服务器发送处理信号;
所述数据融合模块包括:
STFT变换模块:对各路不同麦克风阵列的通道进行短时傅里叶变换,每一帧长512样本点,帧移256,平滑窗为汉宁窗;将原有的时域信号谱转换为时频谱Ym,i(t,k);t和k分别为时间帧和频带坐标;
第一向量构建模块:对每一个阵列系统构建向量ym(t,k):
y m ( t , k ) = [ Y m , 1 ( t , k ) , Y m , 2 ( t , k ) , ... , Y m , Ω m ( t , k ) ] T ;
T为转置操作符;省略时间帧和频带坐标之后,ym(t,k)简记为ym;由STFT变换的线性性质,有:
ym=sm+nm
对所有阵列构建一个新向量y(t,k):
y(t,k)=[y1(t,k)T,y2(t,k)T,…,yM(t,k)T]T
同样省略时间帧和频带坐标,有:
y=s+n;
自相关矩阵构建模块:根据向量构建模块得到的与时频谱相关的向量,根据前10帧,对每一个频带,估计噪音谱的自相关矩阵Rn,n(t,k):
Rn,n(t,k)=λRn,n(t-1,k)+(1-λ)n(t,k)n(t,k)H
H代表厄尔米特转置,平滑因子λ=0.995;
对每一个频带,每一时间帧,估计混合谱的自相关矩阵Ry,y(t,k):
Ry,y(t,k)=λRy,y(t-1,k)+(1-λ)y(t,k)y(t,k)H
平滑因子λ=0.995;
计算语音谱的自相关矩阵Rs,s(t,k):
Rs,s(t,k)=Ry,y(t,k)-Rn,n(t,k);
目标函数优化模块:对每一个麦克风阵列系统,省略时间帧和频带坐标,构建优化目标函数Jm(Wm):
J m ( W m ) = E { | | d m - W m H y | | 2 } ;
Ε为期望算符;
最优滤波器构造模块:根据目标函数优化模块得到的结果,最小化上述目标函数,即得到最优滤波器
W ~ m = W ~ m , 1 W ~ m , 2 . . . W ~ m , M = R y , y - 1 R s , s Γ m ;
其中是一个复数域矩阵,Γm为对角矩阵:
语音信号融合模块:根据最优滤波器构造模块所构造的最优滤波器,计算融合后的语音信号
d ~ m = W ~ m H y ;
原阵列系统共有Ωm路语音数据,经过融合之后,转化成1路数据;噪音得到抑制;
所述降混响预处理模块包括线性预测系数估计模块;
所述降混响预处理模块以语音融合的输出为输入,即输入D为:
D = ( d ~ 1 , d ~ 2 , ... , d ~ M ) ;
通过在每一个频带线性预测的方式抑制掉房间反射,每一个频带的线性预测系数g(k)为:
gm(k)=[gm(k,0),gm(k,1),…,gm(k,Lg-1)]T
g ( k ) = [ g 1 T ( k ) , g 2 T ( k ) , ... , g M T ( k ) ] T ;
线性预测阶数Lg=13;
所述线性预测系数估计模块包括:
第二向量构造模块:构造向量dm(k):
d m ( k ) = [ d ~ m ( 1 , k ) , d ~ m ( 2 , k ) , ... , d ~ m ( N , k ) ] T ;
N为时间帧的数量;
复数矩阵构造模块:根据dm(k)构造延迟τ帧的复数矩阵
整合全部子系统数据成复数矩阵Dτ(k):
Dτ(k)=[Dτ,1(k),Dτ,1(k),…,Dτ,M(k)];
隐变量初始化模块:初始化隐变量
线性预测系数估计模块:估计线性预测系数
g ~ ( k ) = ( D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) D τ ( k ) ) - 1 D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) d 1 ( k ) ;
Λ为对角矩阵算子;
混向后语音估计模块:估计降混响后的语音信号
s ~ ( k ) = d 1 ( k ) - D τ ( k ) g ~ ( k ) ;
隐变量优化模块:最小化如下优化函数,迭代估计隐变量:
θ ~ ( k , n ) = arg min θ ( k , n ) | s ~ ( k , n ) | 2 θ ( k , n ) + l o g ( θ ( k , n ) ) ;
log为自然对数算子,得到隐变量估计
θ ~ ( k ) = | s ~ ( k ) | 2 ;
所述隐变量优化模块的输出信号返回线性预测系数估计模块,迭代五次之后,混向后语音估计模块输出最后的语音信号。
2.一种使用如权利要求1所述的智能家居协同麦克风语音控制系统进行语音控制的方法,其特征在于:所述信号采集模块为协同麦克风或/和智能移动终端;
A、当信号采集模块为协同麦克风时,控制方法具体包括以下步骤:
步骤A1、协同麦克风接收到语音信号;
步骤A2、协同麦克风向语音监听模块提出请求,要求一次语音处理,所述语音监听模块对麦克风阵列进行语音监听;语音监听模块进行语音监听的具体步骤为:
步骤A21、语音监听模块接收到语音处理请求后,新建一个接收线程并将接收线程的端口号通知给协同麦克风;协同麦克风接收到端口号后与接收线程建立连接,开始传输语音数据;所述麦克风阵列有M个,第m个麦克风阵列包括麦克风Ωm个,1≤Ωm;麦克风总数MΣ为:
M Σ = Σ m = 1 M Ω m ;
步骤A22、对第i个麦克风,1≤i≤MΣ,采集其实时录音信号yi(t),直至实时录音信号样本点的录音文件写满一个内存缓冲区,即采集到512个时域信号样本点;
所述实时录音信号yi(t)为:
yi(t)=si(t)+ni(t);
ni(t)为实时噪音信号,si(t)为语音信号;如果用户未发出语音信号,则si(t)为0;
步骤A23、与前个缓冲区中的512个实时录音信号样本点一起,共同采用长度为1024汉宁窗进行平滑处理;
步骤A24、对平滑处理之后的数据进行快速傅里叶变换,将原时域信号变换为频域信号;所述频域信号的频带数K=513,第i个信号的频带系数Yi(k)为复数;
步骤A25、所述语音信号组成语音谱,噪音信号组成噪音谱;计算语音谱的方差λS,i(k)及噪音谱的方差λN,i(k);
步骤A26、计算先验信噪比ξk,i和后验信噪比γk,i,分别为:
ξ k , i = λ S , i ( k ) λ N , i ( k ) ;
γ k , i = | Y i ( k ) | 2 λ N , i ( k ) ;
步骤A27、计算指示函数Λk,i
Λ k , i = 1 1 + ξ k , i exp { γ k , i ξ k , i 1 + ξ k , i } ;
步骤A28、计算判别函数Ρi
P i = 1 K Σ k = 0 K - 1 l o g ( Λ k , i ) ;
如果判别函数Ρi大于阈值η=0.95,则说明监测到语音,否则说明没有监测到语音;如果任意一个麦克风监测到语音,则说明有用户在说话,启动所有麦克风录音发送线程,并向服务器发送信号;
步骤A3、将不同麦克风阵列的结果进行数据融合;1≤m≤M,代表第m个麦克风阵列系统,1≤i≤Ωm代表该阵列系统第i个麦克风
步骤A31、对各路不同麦克风阵列的通道计算短时傅里叶变换,
每一帧长512样本点,帧移256,平滑窗为汉宁窗;变换后结果为时频谱Ym,i(t,k);,t和k分别代表时间帧和频带坐标;
步骤A32、对每一个阵列系统构建向量ym(t,k):
y m ( t , k ) = [ Y m , 1 ( t , k ) , Y m , 2 ( t , k ) , ... , Y m , Ω m ( t , k ) ] T ;
T为转置操作符;省略时间帧和频带坐标,ym(t,k)简记为ym;由STFT变换的线性性质,有:
ym=sm+nm
步骤A33、对所有阵列构建一个新向量y(t,k):
y(t,k)=[y1(t,k)T,y2(t,k)T,…,yM(t,k)T]T
同样省略时间帧和频带坐标,有:
y=s+n;
步A34、根据前10帧,对每一个频带,估计噪音谱的自相关矩阵Rn,n(t,k):
Rn,n(t,k)=λRn,n(t-1,k)+(1-λ)n(t,k)n(t,k)H
上坐标H为厄尔米特转置,平滑因子λ=0.995;
步骤A35、对每一个频带,每一时间帧,估计混合谱的自相关矩阵Ry,y(t,k):
Ry,y(t,k)=λRy,y(t-1,k)+(1-λ)y(t,k)y(t,k)H
平滑因子λ=0.995;
步骤A36、计算语音谱的自相关矩阵Rs,s(t,k):
Rs,s(t,k)=Ry,y(t,k)-Rn,n(t,k);
步骤A37、对每一个麦克风阵列系统,省略时间帧和频带坐标,构建优化目标函数Jm(Wm):
J m ( W m ) = E { | | d m - W m H y | | 2 } ;
Ε代表期望算符;
步骤A38、最小化上述目标函数,即得到最优滤波器
W ~ m = W ~ m , 1 W ~ m , 2 . . . W ~ m , M = R y , y - 1 R s , s Γ m ;
其中是一个复数域矩阵,Γm为对角矩阵:
步骤A39、根据步骤28得到的最优滤波器,计算融合后的语音信号
d ~ m = W ~ m H y ;
原阵列系统共有Ωm路语音数据,经过融合之后,转化成1路数据;噪音得到抑制;
步骤A4、降混响预处理,抑制房间的反射,保证用户发布的语音指令来自同一个方向;
以语音融合的输出为输入,即输入D为:
D = ( d ~ 1 , d ~ 2 , ... , d ~ M ) ;
通过在每一个频带线性预测的方式抑制掉房间反射,每一个频带的线性预测系数g(k)为:
gm(k)=[gm(k,0),gm(k,1),…,gm(k,Lg-1)]T
g ( k ) = [ g 1 T ( k ) , g 2 T ( k ) , ... , g M T ( k ) ] T ;
线性预测阶数Lg=13;
所述线性预测系数g(k)的估计方法为:
步骤A41、构造向量dm(k):
d m ( k ) = [ d ~ m ( 1 , k ) , d ~ m ( 2 , k ) , ... , d ~ m ( N , k ) ] T ;
N为时间帧的数量;
步骤A42、根据dm(k)构造延迟τ帧的复数矩阵
步骤A43、整合全部子系统数据成一个复数矩阵:
Dτ(k)=[Dτ,1(k),Dτ,1(k),…,Dτ,M(k)];
步骤A44、初始化隐变量
步骤A45、迭代估计线性预测系数g~(k):
g ~ ( k ) = ( D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) D τ ( k ) ) - 1 D τ H ( k ) Λ - 1 ( θ ~ ( k ) ) d 1 ( k ) ;
Λ为对角矩阵算子;
步骤A46、迭代估计降混响后语音
s ~ ( k ) = d 1 ( k ) - D τ ( k ) g ~ ( k ) ;
步骤A47、最小化如下优化函数迭代估计隐变量:
θ ~ ( k , n ) = arg min θ ( k , n ) | s ~ ( k , n ) | 2 θ ( k , n ) + l o g ( θ ( k , n ) ) ;
log为自然对数算子,得到隐变量估计
θ ~ ( k ) = | s ~ ( k ) | 2 ;
步骤A48、迭代步骤A45至步骤A47,共迭代5次;迭代结束后,即为原语音估计;
步骤A5、将语音提交给云服务器,进行语音识别,并根据识别结果发送控制指令至相应的家具应用终端;一次数据提交结束;
B、当信号采集模块为智能移动终端时,控制方法具体包括以下步骤:
步骤B1、智能移动终端对语音信号进行采集:用户操作智能移动终端的UI界面,请求开始录音;
步骤B2、智能移动终端新建录音线程,并开始录音;同时向用户发出提示说话的信号;
步骤B3、用户开始发出语音指令;
步骤B4、智能移动终端录音,并将语音数据发送到云服务器;
步骤B5、云服务器进行语音识别,并根据识别结果发送控制指令至相应的家具应用终端;同时通过操作界面提示用户命令发送成功;一次数据提交结束。
CN201510740405.3A 2015-11-03 2015-11-03 智能家居协同麦克风语音控制的系统及其控制方法 Active CN105427861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510740405.3A CN105427861B (zh) 2015-11-03 2015-11-03 智能家居协同麦克风语音控制的系统及其控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510740405.3A CN105427861B (zh) 2015-11-03 2015-11-03 智能家居协同麦克风语音控制的系统及其控制方法

Publications (2)

Publication Number Publication Date
CN105427861A true CN105427861A (zh) 2016-03-23
CN105427861B CN105427861B (zh) 2019-02-15

Family

ID=55506016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510740405.3A Active CN105427861B (zh) 2015-11-03 2015-11-03 智能家居协同麦克风语音控制的系统及其控制方法

Country Status (1)

Country Link
CN (1) CN105427861B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105957519A (zh) * 2016-06-30 2016-09-21 广东美的制冷设备有限公司 多区域同时进行语音控制的方法和系统、服务器及麦克风
CN106128459A (zh) * 2016-06-30 2016-11-16 广东美的制冷设备有限公司 语音控制装置及基于多麦克风的语音控制方法
CN106128451A (zh) * 2016-07-01 2016-11-16 北京地平线机器人技术研发有限公司 用于语音识别的方法及装置
CN106292321A (zh) * 2016-08-30 2017-01-04 无锡小天鹅股份有限公司 洗衣机及其控制方法和控制系统
CN106328131A (zh) * 2016-08-13 2017-01-11 厦门傅里叶电子有限公司 一种可侦测呼叫者位置的交互系统及其启动方法
CN106789484A (zh) * 2017-02-17 2017-05-31 张德明 一种基于网络的分布式麦克风智能家居系统
CN107360497A (zh) * 2017-07-14 2017-11-17 深圳永顺智信息科技有限公司 估算混响分量的计算方法及装置
CN107507623A (zh) * 2017-10-09 2017-12-22 维拓智能科技(深圳)有限公司 基于麦克风阵列语音交互的自助服务终端
CN107564515A (zh) * 2016-06-30 2018-01-09 广东美的制冷设备有限公司 基于多麦克风的语音控制方法和系统、麦克风及服务器
CN108109621A (zh) * 2017-11-28 2018-06-01 珠海格力电器股份有限公司 家电设备的控制方法、装置和系统
CN109716429A (zh) * 2016-07-15 2019-05-03 搜诺思公司 由多个设备进行的语音检测
CN111473264A (zh) * 2019-01-23 2020-07-31 杰哈思文化创意(杭州)有限公司 一种智能台灯
CN113424558A (zh) * 2019-02-06 2021-09-21 哈曼国际工业有限公司 智能个人助理
CN113823314A (zh) * 2021-08-12 2021-12-21 荣耀终端有限公司 语音处理方法和电子设备
US11727933B2 (en) 2016-10-19 2023-08-15 Sonos, Inc. Arbitration-based voice recognition
US11750969B2 (en) 2016-02-22 2023-09-05 Sonos, Inc. Default playback device designation
US11778259B2 (en) 2018-09-14 2023-10-03 Sonos, Inc. Networked devices, systems and methods for associating playback devices based on sound codes
US11790937B2 (en) 2018-09-21 2023-10-17 Sonos, Inc. Voice detection optimization using sound metadata
US11790911B2 (en) 2018-09-28 2023-10-17 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11792590B2 (en) 2018-05-25 2023-10-17 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11797263B2 (en) 2018-05-10 2023-10-24 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11798553B2 (en) 2019-05-03 2023-10-24 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11816393B2 (en) 2017-09-08 2023-11-14 Sonos, Inc. Dynamic computation of system response volume
US11817076B2 (en) 2017-09-28 2023-11-14 Sonos, Inc. Multi-channel acoustic echo cancellation
US11817083B2 (en) 2018-12-13 2023-11-14 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US11854547B2 (en) 2019-06-12 2023-12-26 Sonos, Inc. Network microphone device with command keyword eventing
US11862161B2 (en) 2019-10-22 2024-01-02 Sonos, Inc. VAS toggle based on device orientation
US11863593B2 (en) 2016-02-22 2024-01-02 Sonos, Inc. Networked microphone device control
US11869503B2 (en) 2019-12-20 2024-01-09 Sonos, Inc. Offline voice control
US11881222B2 (en) 2020-05-20 2024-01-23 Sonos, Inc Command keywords with input detection windowing
US11881223B2 (en) 2018-12-07 2024-01-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11887598B2 (en) 2020-01-07 2024-01-30 Sonos, Inc. Voice verification for media playback
US11893308B2 (en) 2017-09-29 2024-02-06 Sonos, Inc. Media playback system with concurrent voice assistance
US11900937B2 (en) 2017-08-07 2024-02-13 Sonos, Inc. Wake-word detection suppression
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11934742B2 (en) 2016-08-05 2024-03-19 Sonos, Inc. Playback device supporting concurrent voice assistants
US11947870B2 (en) 2016-02-22 2024-04-02 Sonos, Inc. Audio response playback
US11961519B2 (en) 2020-02-07 2024-04-16 Sonos, Inc. Localized wakeword verification
US11973893B2 (en) 2023-01-23 2024-04-30 Sonos, Inc. Do not disturb feature for audio notifications

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN102682771A (zh) * 2012-04-27 2012-09-19 厦门思德电子科技有限公司 一种适用于云平台的多语音控制方法
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法
US8543399B2 (en) * 2005-12-14 2013-09-24 Samsung Electronics Co., Ltd. Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms
CN103730116A (zh) * 2014-01-07 2014-04-16 苏州思必驰信息科技有限公司 在智能手表上实现智能家居设备控制的系统及其方法
CN104935615A (zh) * 2014-03-19 2015-09-23 重庆深蜀科技有限公司 实现语音控制家电设备的系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8543399B2 (en) * 2005-12-14 2013-09-24 Samsung Electronics Co., Ltd. Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms
CN102347028A (zh) * 2011-07-14 2012-02-08 瑞声声学科技(深圳)有限公司 双麦克风语音增强装置及方法
CN102682771A (zh) * 2012-04-27 2012-09-19 厦门思德电子科技有限公司 一种适用于云平台的多语音控制方法
CN102938254A (zh) * 2012-10-24 2013-02-20 中国科学技术大学 一种语音信号增强系统和方法
CN103730116A (zh) * 2014-01-07 2014-04-16 苏州思必驰信息科技有限公司 在智能手表上实现智能家居设备控制的系统及其方法
CN104935615A (zh) * 2014-03-19 2015-09-23 重庆深蜀科技有限公司 实现语音控制家电设备的系统及方法

Cited By (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11750969B2 (en) 2016-02-22 2023-09-05 Sonos, Inc. Default playback device designation
US11863593B2 (en) 2016-02-22 2024-01-02 Sonos, Inc. Networked microphone device control
US11947870B2 (en) 2016-02-22 2024-04-02 Sonos, Inc. Audio response playback
US11832068B2 (en) 2016-02-22 2023-11-28 Sonos, Inc. Music service selection
CN105957519A (zh) * 2016-06-30 2016-09-21 广东美的制冷设备有限公司 多区域同时进行语音控制的方法和系统、服务器及麦克风
CN106128459A (zh) * 2016-06-30 2016-11-16 广东美的制冷设备有限公司 语音控制装置及基于多麦克风的语音控制方法
CN107564515A (zh) * 2016-06-30 2018-01-09 广东美的制冷设备有限公司 基于多麦克风的语音控制方法和系统、麦克风及服务器
CN105957519B (zh) * 2016-06-30 2019-12-10 广东美的制冷设备有限公司 多区域同时进行语音控制的方法和系统、服务器及麦克风
CN106128459B (zh) * 2016-06-30 2019-11-26 广东美的制冷设备有限公司 语音控制装置及基于多麦克风的语音控制方法
CN106128451B (zh) * 2016-07-01 2019-12-10 北京地平线机器人技术研发有限公司 用于语音识别的方法及装置
CN106128451A (zh) * 2016-07-01 2016-11-16 北京地平线机器人技术研发有限公司 用于语音识别的方法及装置
CN109716429B (zh) * 2016-07-15 2023-02-28 搜诺思公司 由多个设备进行的语音检测
CN109716429A (zh) * 2016-07-15 2019-05-03 搜诺思公司 由多个设备进行的语音检测
US11934742B2 (en) 2016-08-05 2024-03-19 Sonos, Inc. Playback device supporting concurrent voice assistants
CN106328131A (zh) * 2016-08-13 2017-01-11 厦门傅里叶电子有限公司 一种可侦测呼叫者位置的交互系统及其启动方法
CN106292321A (zh) * 2016-08-30 2017-01-04 无锡小天鹅股份有限公司 洗衣机及其控制方法和控制系统
US11727933B2 (en) 2016-10-19 2023-08-15 Sonos, Inc. Arbitration-based voice recognition
CN106789484A (zh) * 2017-02-17 2017-05-31 张德明 一种基于网络的分布式麦克风智能家居系统
CN107360497B (zh) * 2017-07-14 2020-09-29 深圳永顺智信息科技有限公司 估算混响分量的计算方法及装置
CN107360497A (zh) * 2017-07-14 2017-11-17 深圳永顺智信息科技有限公司 估算混响分量的计算方法及装置
US11900937B2 (en) 2017-08-07 2024-02-13 Sonos, Inc. Wake-word detection suppression
US11816393B2 (en) 2017-09-08 2023-11-14 Sonos, Inc. Dynamic computation of system response volume
US11817076B2 (en) 2017-09-28 2023-11-14 Sonos, Inc. Multi-channel acoustic echo cancellation
US11893308B2 (en) 2017-09-29 2024-02-06 Sonos, Inc. Media playback system with concurrent voice assistance
CN107507623A (zh) * 2017-10-09 2017-12-22 维拓智能科技(深圳)有限公司 基于麦克风阵列语音交互的自助服务终端
CN108109621A (zh) * 2017-11-28 2018-06-01 珠海格力电器股份有限公司 家电设备的控制方法、装置和系统
US11797263B2 (en) 2018-05-10 2023-10-24 Sonos, Inc. Systems and methods for voice-assisted media content selection
US11792590B2 (en) 2018-05-25 2023-10-17 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US11778259B2 (en) 2018-09-14 2023-10-03 Sonos, Inc. Networked devices, systems and methods for associating playback devices based on sound codes
US11790937B2 (en) 2018-09-21 2023-10-17 Sonos, Inc. Voice detection optimization using sound metadata
US11790911B2 (en) 2018-09-28 2023-10-17 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11881223B2 (en) 2018-12-07 2024-01-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11817083B2 (en) 2018-12-13 2023-11-14 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
CN111473264A (zh) * 2019-01-23 2020-07-31 杰哈思文化创意(杭州)有限公司 一种智能台灯
CN113424558A (zh) * 2019-02-06 2021-09-21 哈曼国际工业有限公司 智能个人助理
US11798553B2 (en) 2019-05-03 2023-10-24 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11854547B2 (en) 2019-06-12 2023-12-26 Sonos, Inc. Network microphone device with command keyword eventing
US11862161B2 (en) 2019-10-22 2024-01-02 Sonos, Inc. VAS toggle based on device orientation
US11869503B2 (en) 2019-12-20 2024-01-09 Sonos, Inc. Offline voice control
US11887598B2 (en) 2020-01-07 2024-01-30 Sonos, Inc. Voice verification for media playback
US11961519B2 (en) 2020-02-07 2024-04-16 Sonos, Inc. Localized wakeword verification
US11881222B2 (en) 2020-05-20 2024-01-23 Sonos, Inc Command keywords with input detection windowing
CN113823314A (zh) * 2021-08-12 2021-12-21 荣耀终端有限公司 语音处理方法和电子设备
CN113823314B (zh) * 2021-08-12 2022-10-28 北京荣耀终端有限公司 语音处理方法和电子设备
US11973893B2 (en) 2023-01-23 2024-04-30 Sonos, Inc. Do not disturb feature for audio notifications

Also Published As

Publication number Publication date
CN105427861B (zh) 2019-02-15

Similar Documents

Publication Publication Date Title
CN105427861A (zh) 智能家居协同麦克风语音控制系统及控制方法
CN111542810B (zh) 数字语音助理计算设备当中的信号处理协调
Zhang et al. Why does PHAT work well in lownoise, reverberative environments?
CN108962263B (zh) 一种智能设备控制方法及系统
CN105744434B (zh) 一种基于手势识别的智能音箱控制方法及系统
WO2019114331A1 (zh) 一种可视智能问询方法及系统
CN109599124A (zh) 一种音频数据处理方法、装置及存储介质
CN107924681A (zh) 具有语音功能的装置之间的仲裁
CN108681440A (zh) 一种智能设备音量控制方法及系统
CN103901401A (zh) 一种基于双耳匹配滤波器的双耳声音源定位方法
CN109949821B (zh) 一种利用cnn的u-net结构进行远场语音去混响的方法
CN108470034A (zh) 一种智能设备服务提供方法及系统
CN111239687A (zh) 一种基于深度神经网络的声源定位方法及系统
CN109377992A (zh) 基于无线通信的全空间语音交互物联网控制系统及方法
CN112820291A (zh) 智能家居控制方法、系统和存储介质
WO2022161277A1 (zh) 语音增强方法、模型训练方法以及相关设备
CN103811013A (zh) 噪声抑制方法、装置、电子设备和通信处理方法
CN109819375A (zh) 调节音量的方法与装置、存储介质、电子设备
CN105182763A (zh) 一种基于语音识别的智能遥控器及实现方法
CN107680594A (zh) 一种分布式智能语音采集识别系统及其采集识别方法
CN103702258A (zh) 麦克风装置及消除近场声源干扰的麦克风设置方法
JP2021167977A (ja) 音声信号処理方法、音声信号処理装置、電子機器及び記憶媒体
TWI725617B (zh) 虛擬隔音通訊方法及通訊裝置、通訊系統、電子設備及其儲存介質
CN103901400A (zh) 一种基于时延补偿和双耳一致性的双耳声音源定位方法
CN110136733A (zh) 一种音频信号的解混响方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190911

Address after: 315806 Room 915, Block B, Changjiang International Building, Beilun District, Ningbo City, Zhejiang Province

Patentee after: Ningbo Yirui Information Technology Co., Ltd.

Address before: 214000 Jiangsu province Wuxi Guangyi Jiayuan No. 201 room 29

Patentee before: Hu Min Bo

TR01 Transfer of patent right