CN105427861A

CN105427861A - 智能家居协同麦克风语音控制系统及控制方法

Info

Publication number: CN105427861A
Application number: CN201510740405.3A
Authority: CN
Inventors: 胡旻波
Original assignee: 胡旻波
Current assignee: Ningbo Yirui Information Technology Co., Ltd.
Priority date: 2015-11-03
Filing date: 2015-11-03
Publication date: 2016-03-23
Anticipated expiration: 2035-11-03
Also published as: CN105427861B

Abstract

本发明公开了智能家居协同麦克风语音控制系统及控制方法，所述控制系统包括信号采集模块、控制中枢模块和云服务器；所述控制中枢模块包括语音监听模块、数据融合模块和降混响预处理模块。所述控制方法为：所述信号采集模块采集语音信号；所述控制中枢模块对语音信号进行降噪处理；所述云服务器识别语音信号，解析语音指令。本发明经过对语音信号的监听，之后又进行了数据融合和降混响预处理两次处理，有效抑制了环境噪音和房间反射，最大程度上保证了语音不失真，可确保后续语音识别的准确性。

Description

智能家居协同麦克风语音控制系统及控制方法

技术领域

本发明涉及语音控制系统及方法，具体涉及一种智能家居协同麦克风语音控制系统及控制方法。

背景技术

有关智能家居：

随着人民生活水平的提高，用户对居住环境提出了更高的要求，越来越注重家居生活的舒适、安全与便捷。智能家居旨在融合计算机、自动化控制、人工智能和网络通讯各项技术于一体，将家居环境下的各种设备终端，比如照明设备、音视频设备、安防系统、网络家电等通过家庭网络连接在一起，实现家居环境的智能化控制。

智能家居最基本的目标是为人们提供一个舒适、安全、方便和高效的生活环境，市场起步很早，经历了上世纪90年代的萌芽期和本世纪最初十年的开创期，从2011年开始，市场明显看到了增长的势头，行业背景是房地产受到调控。智能家居的放量增长说明智能家居行业进入了一个拐点，由徘徊期进入了新一轮的融合演变期。2014年是整个智能家居行业发展的关键性年度，先是Google高价(32亿美元)收购智能家居产品生产商Nest，苹果推出“Homekit”计划。随后阿里、腾讯、乐视、小米、360等互联网厂商，海尔、长虹、格力、海信、TCL和美的等传统家电厂商的高调进入，整个行业呈现百花齐放的格局，因此这年也被称为智能家居元年。

有关智能语音控制：

语音是人与人之间最便捷的交互方式，实现计算机对语音信号的识别，即语音识别，是人工智能领域的重要研究课题。由于语音交互的便利性，智能语音技术对改变家居环境下对电视、音箱、照明设备等控制方式有着重大革新意义，是赋予人与各终端设备良好沟通的重要桥梁。

智能语音交互系统通常包括语音信号采集设备(麦克风)和后台语音识别系统。麦克风通常集成在各种应用终端上，实现实时用户语音采集；语音识别系统通常放置在云端服务器。

真实家居场景下，用户发出语音指令的同时，通常伴随着各种各样的噪声，比如电视的声音、音乐等，为了保证识别的准确性，通常需要对噪音进行抑制，以保证用户语音指令的纯净。而通常为了保证噪音抑制性能，需要多个麦克风集成到一起，并通过时间校订实现声信号录制同步，最后通过beamforming等信号处理技术实现噪音抑制。

目前智能语音交互技术在智能家居行业有了一定应用，凸显了一定问题，现有技术中的主要问题包括：

1)用户体验差，目前的语音解决方案对用户与控制系统的距离有严格要求。这是由于如果距离过远会导致语音衰减，语音识别引擎不再匹配；会放大噪声对识别系统的影响，显著降低语音识别准确性。一方面限制用户体验度，比如用语音操控空调或者电视机必须走到一个固定位置，如果在另一个房间或者有其他遮挡物，则无法有效使用语音控制系统，这与降低用户操作的复杂度、提高人机交互简易度这一目的背道而驰的。

2)过渡依赖于手机APP，由于手机和用户的距离通常不会太远，行业内为了解决远场和噪音问题，通常把语音控制系统集成在手机APP端。这样固然保证了语音交互的准确性，但是不同智能终端设备，采用不同的APP，用户操作起来非常的不方便，反而增加了交互的复杂度。

3)行业标准混乱，智能语音控制载体(即各种各样的常用电器)种类繁多，且相互独立，很难有效协同成一个高效率、高性能的语音控制系统。比如一台海尔冰箱采用的语音控制系统是采用科大讯飞的解决方案，而电视机采用的可能是另外一家语音解决方案。各个家电载体由于语音解决方案的不同，形成一个个孤岛，无法实现不同载体之间的信息互换。并且每台终端设备上面集成一个语音采集、处理与交互系统，造成了极大的资源浪费，提高了成本。

发明内容

针对现有技术的不足，本发明公开了一种智能家居协同麦克风语音控制系统及控制方法。

本发明的技术方案如下：

一种智能家居协同麦克风语音控制系统，包括信号采集模块、控制中枢模块和云服务器；所述信号采集模块采集语音信号；所述控制中枢模块对语音信号进行降噪处理；所述云服务器识别并解析语音信号；

所述控制中枢模块包括语音监听模块、数据融合模块和降混响预处理模块；

所述语音监听模块包括：

接收线程：对第i个麦克风，1≤i≤M_∑，采集其实时录音信号y_i(t)，直至实时录音信号样本点的录音文件写满一个内存缓冲区，即采集到512个时域信号样本点；

所述实时录音信号y_i(t)为：

y_i(t)＝s_i(t)+n_i(t)；

n_i(t)为实时噪音信号，s_i(t)为语音信号；如果用户未发出语音信号，则s_i(t)为0；

平滑模块：将本缓冲区与前个缓冲区中的512个实时录音信号样本点一起，共同采用长度为1024汉宁窗进行平滑处理；

FFT变换模块：对经过平滑模块平滑处理之后的数据进行快速傅里叶变换，将原时域信号变换为频域信号；

方差计算模块：由FFT变换模块所得到的频域信号中，语音信号组成语音谱，噪音信号组成噪音谱；计算语音谱的方差λ_S,i(k)及噪音谱的方差λ_N,i(k)；

信噪比计算模块：根据方差计算模块的输出结果，计算先验信噪比ξ_k,i和后验信噪比γ_k,i，分别为：

ξ_{k, i} = \frac{λ_{S, i} (k)}{λ_{N, i} (k)};

γ_{k, i} = \frac{| Y_{i} (k) |^{2}}{λ_{N, i} (k)};

指示函数计算模块：根据信噪比计算模块的输出结果，计算指示函数Λ_k,i：

Λ_{k, i} = \frac{1}{1 + ξ_{k, i}} \exp {\frac{γ_{k, i} ξ_{k, i}}{1 + ξ_{k, i}}};

判别函数计算模块：根据指示函数计算模块的输出结果，计算判别函数Ρ_i：

P_{i} = \frac{1}{K} Σ_{k = 0}^{K - 1} l o g (Λ_{k, i});

如果判别函数Ρ_i大于阈值η＝0.95，则说明监测到语音，否则说明没有监测到语音；如果任意一个麦克风监测到语音，则说明有用户在说话，启动所有麦克风录音发送线程，向数据融合模块发射语音信号，并向服务器发送处理信号；

所述数据融合模块包括：

STFT变换模块：对各路不同麦克风阵列的通道进行短时傅里叶变换，每一帧长512样本点，帧移256，平滑窗为汉宁窗；将原有的时域信号谱转换为时频谱Y_m,i(t,k)；t和k分别为时间帧和频带坐标；

第一向量构建模块：对每一个阵列系统构建向量y_m(t,k)：

y_{m} (t, k) = {[Y_{m, 1} (t, k), Y_{m, 2} (t, k), ..., Y_{m, Ω_{m}} (t, k)]}^{T};

T为转置操作符；省略时间帧和频带坐标之后，y_m(t,k)简记为y_m；由STFT变换的线性性质，有：

y_m＝s_m+n_m；

对所有阵列构建一个新向量y(t,k)：

y(t,k)＝[y₁(t,k)^T,y₂(t,k)^T,…,y_M(t,k)^T]^T；

同样省略时间帧和频带坐标，有：

y＝s+n；

自相关矩阵构建模块：根据向量构建模块得到的与时频谱相关的向量，根据前10帧，对每一个频带，估计噪音谱的自相关矩阵R_n,n(t,k)：

R_n,n(t,k)＝λR_n,n(t-1,k)+(1-λ)n(t,k)n(t,k)^H；

H代表厄尔米特转置，平滑因子λ＝0.995；

对每一个频带，每一时间帧，估计混合谱的自相关矩阵R_y,y(t,k)：

R_y,y(t,k)＝λR_y,y(t-1,k)+(1-λ)y(t,k)y(t,k)^H；

平滑因子λ＝0.995；

计算语音谱的自相关矩阵R_s,s(t,k)：

R_s,s(t,k)＝R_y,y(t,k)-R_n,n(t,k)；

目标函数优化模块：对每一个麦克风阵列系统，省略时间帧和频带坐标，构建优化目标函数J_m(W_m)：

J_{m} (W_{m}) = E {| | d_{m} - W_{m}^{H} y | |^{2}};

Ε为期望算符；

最优滤波器构造模块：根据目标函数优化模块得到的结果，最小化上述目标函数，即得到最优滤波器

{\tilde{W}}_{m} = [\begin{matrix} {\tilde{W}}_{m, 1} \\ {\tilde{W}}_{m, 2} \\ . \\ . \\ . \\ {\tilde{W}}_{m, M} \end{matrix}] = R_{y, y}^{- 1} R_{s, s} Γ_{m};

其中是一个复数域矩阵，Γ_m为对角矩阵：

语音信号融合模块：根据最优滤波器构造模块所构造的最优滤波器，计算融合后的语音信号

{\tilde{d}}_{m} = {\tilde{W}}_{m}^{H} y;

原阵列系统共有Ω_m路语音数据，经过融合之后，转化成1路数据；噪音得到抑制；

所述降混响预处理模块包括线性预测系数估计模块；

所述降混响预处理模块以语音融合的输出为输入，即输入D为：

D = ({\tilde{d}}_{1}, {\tilde{d}}_{2}, ..., {\tilde{d}}_{M});

通过在每一个频带线性预测的方式抑制掉房间反射，每一个频带的线性预测系数g(k)为：

g_m(k)＝[g_m(k,0),g_m(k,1),…,g_m(k,L_g-1)]^T

g (k) = {[g_{1}^{T} (k), g_{2}^{T} (k), ..., g_{M}^{T} (k)]}^{T};

线性预测阶数L_g＝13；

所述线性预测系数估计模块包括：

第二向量构造模块：构造向量d_m(k)：

d_{m} (k) = {[{\tilde{d}}_{m} (1, k), {\tilde{d}}_{m} (2, k), ..., {\tilde{d}}_{m} (N, k)]}^{T};

N为时间帧的数量；

复数矩阵构造模块：根据d_m(k)构造延迟τ帧的复数矩阵

整合全部子系统数据成复数矩阵D_τ(k)：

D_τ(k)＝[D_τ,1(k),D_τ,1(k),…,D_τ,M(k)]；

隐变量初始化模块：初始化隐变量

线性预测系数估计模块：估计线性预测系数

\tilde{g} (k) = {(D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) D_{τ} (k))}^{- 1} D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) d_{1} (k);

Λ为对角矩阵算子；

混向后语音估计模块：估计降混响后的语音信号

\tilde{s} (k) = d_{1} (k) - D_{τ} (k) \tilde{g} (k);

隐变量优化模块：最小化如下优化函数，迭代估计隐变量：

\tilde{θ} (k, n) = {argmin}_{θ (k, n)} \frac{| \tilde{s} (k, n) |^{2}}{θ (k, n)} + l o g (θ (k, n));

log为自然对数算子，得到隐变量估计

\tilde{θ} (k) = | \tilde{s} (k) |^{2};

所述隐变量优化模块的输出信号返回线性预测系数估计模块，迭代五次之后，混向后语音估计模块输出最后的语音信号。

一种使用上述的智能家居协同麦克风语音控制系统进行语音控制的方法，其特征在于：所述信号采集模块为协同麦克风或/和智能移动终端；

A、当信号采集模块为协同麦克风时，控制方法具体包括以下步骤：

步骤A1、协同麦克风接收到语音信号；

步骤A2、协同麦克风向语音监听模块提出请求，要求一次语音处理，所述语音监听模块对麦克风阵列进行语音监听；语音监听模块进行语音监听的具体步骤为：

步骤A21、语音监听模块接收到语音处理请求后，新建一个接收线程并将接收线程的端口号通知给协同麦克风；协同麦克风接收到端口号后与接收线程建立连接，开始传输语音数据；所述麦克风阵列有M个，第m个麦克风阵列包括麦克风Ω_m个，1≤Ω_m；麦克风总数M_Σ为：

M_{Σ} = Σ_{m = 1}^{M} Ω_{m};

步骤A22、对第i个麦克风，1≤i≤M_∑，采集其实时录音信号y_i(t)，直至实时录音信号样本点的录音文件写满一个内存缓冲区，即采集到512个时域信号样本点；

所述实时录音信号y_i(t)为：

y_i(t)＝s_i(t)+n_i(t)；

步骤A23、与前个缓冲区中的512个实时录音信号样本点一起，共同采用长度为1024汉宁窗进行平滑处理；

步骤A24、对平滑处理之后的数据进行快速傅里叶变换，将原时域信号变换为频域信号；所述频域信号的频带数K＝513，第i个信号的频带系数Y_i(k)为复数；

步骤A25、所述语音信号组成语音谱，噪音信号组成噪音谱；计算语音谱的方差λ_S,i(k)及噪音谱的方差λ_N,i(k)；

步骤A26、计算先验信噪比ξ_k,i和后验信噪比γ_k,i，分别为：

ξ_{k, i} = \frac{λ_{S, i} (k)}{λ_{N, i} (k)};

γ_{k, i} = \frac{| Y_{i} (k) |^{2}}{λ_{N, i} (k)};

步骤A27、计算指示函数Λ_k,i：

Λ_{k, i} = \frac{1}{1 + ξ_{k, i}} \exp {\frac{γ_{k, i} ξ_{k, i}}{1 + ξ_{k, i}}};

步骤A28、计算判别函数Ρ_i：

P_{i} = \frac{1}{K} Σ_{k = 0}^{K - 1} l o g (Λ_{k, i});

如果判别函数Ρ_i大于阈值η＝0.95，则说明监测到语音，否则说明没有监测到语音；如果任意一个麦克风监测到语音，则说明有用户在说话，启动所有麦克风录音发送线程，并向服务器发送信号；

步骤A3、将不同麦克风阵列的结果进行数据融合；1≤m≤M，代表第m个麦克风阵列系统，1≤i≤Ω_m代表该阵列系统第i个麦克风

步骤A31、对各路不同麦克风阵列的通道计算短时傅里叶变换，

每一帧长512样本点，帧移256，平滑窗为汉宁窗；变换后结果为时频谱Y_m,i(t,k)；，t和k分别代表时间帧和频带坐标；

步骤A32、对每一个阵列系统构建向量y_m(t,k)：

y_{m} (t, k) = {[Y_{m, 1} (t, k), Y_{m, 2} (t, k), ..., Y_{m, Ω_{m}} (t, k)]}^{T};

T为转置操作符；省略时间帧和频带坐标，y_m(t,k)简记为y_m；由STFT变换的线性性质，有：

y_m＝s_m+n_m；

步骤A33、对所有阵列构建一个新向量y(t,k)：

y(t,k)＝[y₁(t,k)^T,y₂(t,k)^T,…,y_M(t,k)^T]^T；

同样省略时间帧和频带坐标，有：

y＝s+n；

步A34、根据前10帧，对每一个频带，估计噪音谱的自相关矩阵R_n,n(t,k)：

R_n,n(t,k)＝λR_n,n(t-1,k)+(1-λ)n(t,k)n(t,k)^H；

上坐标H为厄尔米特转置，平滑因子λ＝0.995；

步骤A35、对每一个频带，每一时间帧，估计混合谱的自相关矩阵R_y,y(t,k)：

R_y,y(t,k)＝λR_y,y(t-1,k)+(1-λ)y(t,k)y(t,k)^H；

平滑因子λ＝0.995；

步骤A36、计算语音谱的自相关矩阵R_s,s(t,k)：

R_s,s(t,k)＝R_y,y(t,k)-R_n,n(t,k)；

步骤A37、对每一个麦克风阵列系统，省略时间帧和频带坐标，构建优化目标函数J_m(W_m)：

J_{m} (W_{m}) = E {| | d_{m} - W_{m}^{H} y | |^{2}};

Ε代表期望算符；

步骤A38、最小化上述目标函数，即得到最优滤波器

{\tilde{W}}_{m} = [\begin{matrix} {\tilde{W}}_{m, 1} \\ {\tilde{W}}_{m, 2} \\ . \\ . \\ . \\ {\tilde{W}}_{m, M} \end{matrix}] = R_{y, y}^{- 1} R_{s, s} Γ_{m};

其中是一个复数域矩阵，Γ_m为对角矩阵：

步骤A39、根据步骤28得到的最优滤波器，计算融合后的语音信号

{\tilde{d}}_{m} = {\tilde{W}}_{m}^{H} y;

步骤A4、降混响预处理，抑制房间的反射，保证用户发布的语音指令来自同一个方向；

以语音融合的输出为输入，即输入D为：

D = ({\tilde{d}}_{1}, {\tilde{d}}_{2}, ..., {\tilde{d}}_{M});

g_m(k)＝[g_m(k,0),g_m(k,1),…,g_m(k,L_g-1)]^T

g (k) = {[g_{1}^{T} (k), g_{2}^{T} (k), ..., g_{M}^{T} (k)]}^{T};

线性预测阶数L_g＝13；

所述线性预测系数g(k)的估计方法为：

步骤A41、构造向量d_m(k)：

d_{m} (k) = {[{\tilde{d}}_{m} (1, k), {\tilde{d}}_{m} (2, k), ..., {\tilde{d}}_{m} (N, k)]}^{T};

N为时间帧的数量；

步骤A42、根据d_m(k)构造延迟τ帧的复数矩阵

步骤A43、整合全部子系统数据成一个复数矩阵：

D_τ(k)＝[D_τ,1(k),D_τ,1(k),…,D_τ,M(k)]；

步骤A44、初始化隐变量

步骤A45、迭代估计线性预测系数

\tilde{g} (k) = {(D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) D_{τ} (k))}^{- 1} D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) d_{1} (k);

Λ为对角矩阵算子；

步骤A46、迭代估计降混响后语音

\tilde{s} (k) = d_{1} (k) - D_{τ} (k) \tilde{g} (k);

步骤A47、最小化如下优化函数迭代估计隐变量：

\tilde{θ} (k, n) = {argmin}_{θ (k, n)} \frac{| \tilde{s} (k, n) |^{2}}{θ (k, n)} + l o g (θ (k, n));

log为自然对数算子，得到隐变量估计

\tilde{θ} (k) = | \tilde{s} (k) |^{2};

步骤A48、迭代步骤A45至步骤A47，共迭代5次；迭代结束后，即为原语音估计；

步骤A5、将语音提交给云服务器，进行语音识别，并根据识别结果发送控制指令至相应的家具应用终端；一次数据提交结束。

B、当信号采集模块为智能移动终端时，控制方法具体包括以下步骤：

步骤B1、智能移动终端对语音信号进行采集：用户操作智能移动终端的UI界面，请求开始录音；

步骤B2、智能移动终端新建录音线程，并开始录音；同时向用户发出提示说话的信号；

步骤B3、用户开始发出语音指令；

步骤B4、智能移动终端录音，并将语音数据发送到云服务器；

步骤B5、云服务器进行语音识别，并根据识别结果发送控制指令至相应的家具应用终端；同时通过操作界面提示用户命令发送成功；一次数据提交结束。

本发明的有益技术效果是：

本发明主要应用于智能家居市场，有着重大市场潜力。根据2014年前瞻产业研究院发布的《2015-2020年中国智能家居设备行业发展前景预测与投资机会分析报告》显示，预计到2018年市场规模达到1800亿，2020年能达到5850亿的市场规模。

本发明的主要载体包括家庭网络和集成麦克风的应用终端。一方面，随着计算机通讯技术的发展，无线路由器走进千家万户，家庭网络已经成为人民生活的必须，网络带宽和速度足以承载语音交互系统的需求。另一方面，市场上集成麦克风的应用终端成爆发式增长，比如冰箱、电视、音箱甚至插座上都集成了语音采集设备，为智能家居语音控制塑造了完善的接口。这些市场固有的硬件资源，保证了本项专利的应用群体。

目前，市场上的智能家居语音控制系统通常是一对一，针对某一个应用终端单独搭建一个控制系统。本发明旨在打破这一孤岛效应，实现不同应用终端的物物互联，具有操作距离更远、识别率更高等优点，属于市场迫切需求的技术解决方案。

本发明和传统的麦克风阵列技术相同之处在于都需要多个麦克风采集声音信号，不同之处在于麦克风阵列技术需要各个麦克风空间位置固定、录音时间严格同步；本项发明不同的麦克风空间位置可以分布在家居的不同位置，不需要固定，不同的录音系统可以有一定时间差，无须严格同步。控制系统性能上，本项发明和传统麦克风阵列技术相比，有如下三个技术优势：

1.由于增加了协同控制系统，相当于增加了同时工作的麦克风数量，提高了噪音抑制性能，所得到的语音更加纯净。

2.在家居环境下，不同应用终端分布在不同位置，扩展了麦克风采集语音的空间位置，提高了远场处理能力，可以实现不同房间、隔着墙壁语音控制应用终端。

3.协同控制系统可以看作不同应用终端的连接枢纽，增加了不同应用终端协同工作的接口。

4、本发明还增加了通过移动智能终端进行控制的控制方法，方便用户对智能家居终端进行远程控制。

附图说明

图1是本发明的拓扑结构示意图。

图2是通过协同麦克风采集语音信号的控制流程示意图。

图3是数据融合过程的示意图。

图4是通过智能移动终端采集语音信号的控制流程示意图。

图5是本发明的控制中枢的结构图。

具体实施方式

本发明所述的系统，包括信号采集模块、控制中枢模块和云服务器，信号采集模块采集语音信号，控制中枢模块对语音信号进行降噪处理，云服务器识别语音信号，解析语音指令。

图1是本发明的拓扑结构示意图。图1中的信号采集层对应信号采集模块，控制中枢层对应控制中枢模块，云平台对应云服务器。假定一个家居环境多个应用终端都集成了独立的语音控制系统，如图1所示，其中空调、智能电视分别集成了3个和2个麦克风，智能台灯集成了单个麦克风，并都装备有相关控制系统，则本项发明所设计的智能家居协同麦克风语音控制系统旨在仅仅利用各独立终端上的麦克风语音采集模块，搭建一个统一的语音控制系统，不改变已有的麦克风阵列，并兼容单麦克风处理算法，所以本项发明增加了控制中枢模块，协调各个语音采集、控制系统，建立不同语音控制系统的连接通道，实现智能家居物物互联的功能。

图1中还包括一种情况是信号采集模块直接与云服务器相连接，无需经过控制中枢模块的处理，此种情况适应于信号采集模块为智能移动终端的情况。

图2是通过协同麦克风采集语音信号的控制流程示意图。图2中，信号采集模块为协同麦克风。图2所示的控制流程可协调各个孤立的麦克风、或者麦克风阵列，实现信号采集、唤醒、信号发送至云端，在语音识别云平台识别相应的指令之后，返回控制指令至相关应用终端。

具体的控制流程包括以下步骤：

步骤A1、协同麦克风接收到语音信号；

M_{Σ} = \overset{m}{Σ} Ω_{m}

实时录音信号y_i(t)为：

y_i(t)＝s_i(t)+n_i(t)；

上式中n_i(t)为实时噪音信号，s_i(t)为语音信号；如果用户未发出语音信号，则s_i(t)为0；

步骤A24、对平滑处理之后的数据进行快速傅里叶变换，将原时域信号变换为频域信号；频域信号的频带数K＝513，第i个信号的频带系数Y_i(k)为复数；

步骤A25、语音信号组成语音谱，噪音信号组成噪音谱；计算语音谱的方差λ_S,i(k)及噪音谱的方差λ_N,i(k)；

步骤A26、计算先验信噪比ξ_k,i和后验信噪比γ_k,i，分别为：

ξ_{k, i} = \frac{λ_{S, i} (k)}{λ_{N, i} (k)};

γ_{k, i} = \frac{| Y_{i} (k) |^{2}}{λ_{N, i} (k)};

步骤A27、计算指示函数Λ_k,i：

Λ_{k, i} = \frac{1}{1 + ξ_{k, i}} \exp {\frac{γ_{k, i} ξ_{k, i}}{1 + ξ_{k, i}}};

步骤A28、计算判别函数Ρ_i：

P_{i} = \frac{1}{K} Σ_{k = 0}^{K - 1} l o g (Λ_{k, i});

步骤A32、对每一个阵列系统构建向量y_m(t,k)：

y_{m} (t, k) = {[Y_{m, 1} (t, k), Y_{m, 2} (t, k), ..., Y_{m, Ω_{m}} (t, k)]}^{T};

上式中，T代表转置操作符；省略时间帧和频带坐标，y_m(t,k)简记为y_m；由STFT变换的线性性质，有：

y_m＝s_m+n_m；

步骤A33、对所有阵列构建一个新向量y(t,k)：

y(t,k)＝[y₁(t,k)^T,y₂(t,k)^T,…,y_M(t,k)^T]^T；

同样省略时间帧和频带坐标，有：

y＝s+n；

R_n,n(t,k)＝λR_n,n(t-1,k)+(1-λ)n(t,k)n(t,k)^H；

上式中，上坐标H代表厄尔米特转置，平滑因子λ＝0.995；

R_y,y(t,k)＝λR_y,y(t-1,k)+(1-λ)y(t,k)y(t,k)^H；

平滑因子λ＝0.995；

步骤A36、计算语音谱的自相关矩阵R_s,s(t,k)：

R_s,s(t,k)＝R_y,y(t,k)-R_n,n(t,k)；

J_{m} (W_{m}) = E {| | d_{m} - W_{m}^{H} y | |^{2}};

上式中，Ε代表期望算符；

步骤A38、最小化上述目标函数，即得到最优滤波器

{\tilde{W}}_{m} = [\begin{matrix} {\tilde{W}}_{m, 1} \\ {\tilde{W}}_{m, 2} \\ . \\ . \\ . \\ {\tilde{W}}_{m, M} \end{matrix}] = R_{y, y}^{- 1} R_{s, s} Γ_{m};

其中是一个复数域矩阵，Γ_m为对角矩阵：

{\tilde{d}}_{m} = {\tilde{W}}_{m}^{H} y;

原阵列系统共有Ω_m路语音数据，经过融合之后，转化成1路数据；噪音得到抑制。

图3为数据融合过程的示意图，图3中有3个独立麦克风子阵列，每个阵列有3个麦克风。一方面，每个子阵列原有3路语音数据，被融合成1路数据。另一方面，可以看出，所有子阵列的数据都参与每一次数据融合滤波器计算。由于不同的子阵列所得到的噪音来自不同位置，因此对噪音的统计性质刻画的更为详尽，噪音抑制的效果更为明显，得到的数据为纯净语音估计。

以语音融合的输出为输入，即输入D为：

D = ({\tilde{d}}_{1}, {\tilde{d}}_{2}, ..., {\tilde{d}}_{M});

g_m(k)＝[g_m(k,0),g_m(k,1),…,g_m(k,L_g-1)]^T

g (k) = {[g_{1}^{T} (k), g_{2}^{T} (k), ..., g_{M}^{T} (k)]}^{T};

上式中，线性预测阶数L_g＝13。

线性预测系数g(k)的估计方法为：

步骤A41、构造向量d_m(k)：

d_{m} (k) = {[{\tilde{d}}_{m} (1, k), {\tilde{d}}_{m} (2, k), ..., {\tilde{d}}_{m} (N, k)]}^{T};

上式中N为时间帧的数量；

步骤A42、根据d_m(k)构造延迟τ帧的复数矩阵

步骤A43、整合全部子系统数据成一个复数矩阵：

D_τ(k)＝[D_τ,1(k),D_τ,1(k),…,D_τ,M(k)]；

步骤A44、初始化隐变量

步骤A45、迭代估计线性预测系数

\tilde{g} (k) = {(D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) D_{τ} (k))}^{- 1} D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) d_{1} (k)

上式中，Λ为对角矩阵算子；

步骤A46、迭代估计降混响后语音

\tilde{s} (k) = d_{1} (k) - D_{τ} (k) \tilde{g} (k)

步骤A47、最小化如下优化函数迭代估计隐变量：

\tilde{θ} (k, n) = {argmin}_{θ (k, n)} \frac{| \tilde{s} (k, n) |^{2}}{θ (k, n)} + l o g (θ (k, n))

上式中，log为自然对数算子，得到隐变量估计

\tilde{θ} (k) = | \tilde{s} (k) |^{2};

图2所示的流程中，语音监听、数据融合和降混响预处理步骤为控制中枢模块中的核心算法。其中，语音监听的功能是实时监测有无用户发出语音指令；数据融合的目的在于融合不同麦克风录音信号，实现噪音抑制、信号挑选，已保证语音信号的纯净；降混响语音预处理目的在于有效抑制房间的反射、混响，保证后续语音识别的准确性。

图4是通过智能移动终端采集语音信号的控制流程示意图。图4所示的流程适用于远程控制的情况，保证用户不在家中时，可以通过智能手机等移动设备语音控制家里的应用终端。智能移动终端通常都内置有麦克风，由于是远程操作，不需要调用家居环境中其他的麦克风设备。用户用手机采集到的语音文件，直接发送到语音识别云服务器，识别成语音指令后发送到家居相应的应用终端。由于用户对着手机录音，采集路径较短，环境噪音与房间混响都非常小，因此不需要噪音抑制与降混响处理。

具体包括以下步骤：

步骤B3、用户开始发出语音指令；

图5是本发明的控制中枢模块的系统结构图。控制中枢模块为本发明的核心模块。

控制中枢模块包括语音监听模块、数据融合模块和降混响预处理模块；

语音监听模块监听用户是否有语音信号发出，包括：

接收线程11：对第i个麦克风，1≤i≤M_∑，采集其实时录音信号y_i(t)，直至实时录音信号样本点的录音文件写满一个内存缓冲区，即采集到512个时域信号样本点；

实时录音信号y_i(t)为：

y_i(t)＝s_i(t)+n_i(t)；

平滑模块12：将本缓冲区与前个缓冲区中的512个实时录音信号样本点一起，共同采用长度为1024汉宁窗进行平滑处理；

FFT变换模块13：对经过平滑模块平滑处理之后的数据进行快速傅里叶变换(FastFourierTrsform,FFT)，将原时域信号变换为频域信号；

方差计算模块14：由FFT变换模块所得到的频域信号中，语音信号组成语音谱，噪音信号组成噪音谱；计算语音谱的方差λ_S,i(k)及噪音谱的方差λ_N,i(k)；

信噪比计算模块15：根据方差计算模块的输出结果，计算先验信噪比ξ_k,i和后验信噪比γ_k,i，分别为：

ξ_{k, i} = \frac{λ_{S, i} (k)}{λ_{N, i} (k)};

γ_{k, i} = \frac{| Y_{i} (k) |^{2}}{λ_{N, i} (k)};

指示函数计算模块16：根据信噪比计算模块的输出结果，计算指示函数Λ_k,i：

Λ_{k, i} = \frac{1}{1 + ξ_{k, i}} \exp {\frac{γ_{k, i} ξ_{k, i}}{1 + ξ_{k, i}}};

判别函数计算模块17：根据指示函数计算模块的输出结果，计算判别函数Ρ_i：

P_{i} = \frac{1}{K} Σ_{k = 0}^{K - 1} l o g (Λ_{k, i});

数据融合模块的用处是有效协同不同麦克风阵列系统，抑制环境噪音，把各个麦克风阵列录音结果融合成一个通道的纯净语音信号，进而保证后续语音识别的准确性。功能实现主要依靠设计一组滤波器，分别从不同的位置和角度获取更全面的环境噪音功率谱性质。具体包括：

STFT变换模块21：对各路不同麦克风阵列的通道计算短时傅里叶变换(Short-TimeFourierTransform,STFT)，每一帧长512样本点，帧移256，平滑窗为汉宁窗；将原有的时域信号转换为时频谱Y_m,i(t,k)；t和k分别代表时间帧和频带坐标；

第一向量构建模块22：对每一个阵列系统构建向量y_m(t,k)：

y_{m} (t, k) = {[Y_{m, 1} (t, k), Y_{m, 2} (t, k), ..., Y_{m, Ω_{m}} (t, k)]}^{T};

y_m＝s_m+n_m；

对所有阵列构建一个新向量y(t,k)：

y(t,k)＝[y₁(t,k)^T,y₂(t,k)^T,…,y_M(t,k)^T]^T；

同样省略时间帧和频带坐标，有：

y＝s+n；

自相关矩阵构建模块23：根据向量构建模块得到的与时频谱相关的向量，根据前10帧，对每一个频带，估计噪音谱的自相关矩阵R_n,n(t,k)：

R_n,n(t,k)＝λR_n,n(t-1,k)+(1-λ)n(t,k)n(t,k)^H；

上式中，上坐标H代表厄尔米特转置，平滑因子λ＝0.995；

R_y,y(t,k)＝λR_y,y(t-1,k)+(1-λ)y(t,k)y(t,k)^H；

平滑因子λ＝0.995；

计算语音谱的自相关矩阵R_s,s(t,k)：

R_s,s(t,k)＝R_y,y(t,k)-R_n,n(t,k)；

目标函数优化模块24：对每一个麦克风阵列系统，省略时间帧和频带坐标，构建优化目标函数J_m(W_m)：

J_{m} (W_{m}) = E {| | d_{m} - W_{m}^{H} y | |^{2}};

上式中，Ε代表期望算符；

最优滤波器构造模块25：根据目标函数优化模块得到的结果，最小化上述目标函数，即得到最优滤波器

{\tilde{W}}_{m} = [\begin{matrix} {\tilde{W}}_{m, 1} \\ {\tilde{W}}_{m, 2} \\ . \\ . \\ . \\ {\tilde{W}}_{m, M} \end{matrix}] = R_{y, y}^{- 1} R_{s, s} Γ_{m};

其中是一个复数域矩阵，Γ_m为对角矩阵：

语音信号融合模块26：根据最优滤波器构造模块所构造的最优滤波器，计算融合后的语音信号

{\tilde{d}}_{m} = {\tilde{W}}_{m}^{H} y;

原阵列系统共有Ω_m路语音数据，经过融合之后，转化成1路数据；噪音得到抑制；降混响预处理模块包括线性预测系数估计模块；

降混响预处理模块降混响预处理的目的是抑制掉房间的反射，保证用户发布的语音指令尽可能来自一个方向。本项处理以语音融合的输出为输入，即输入D为：

D = ({\tilde{d}}_{1}, {\tilde{d}}_{2}, ..., {\tilde{d}}_{M});

g_m(k)＝[g_m(k,0),g_m(k,1),…,g_m(k,L_g-1)]^T

g (k) = {[g_{1}^{T} (k), g_{2}^{T} (k), ..., g_{M}^{T} (k)]}^{T};

上式中，线性预测阶数L_g＝13。

线性预测系数估计模块包括：

第二向量构造模块31：构造向量d_m(k)：

d_{m} (k) = {[{\tilde{d}}_{m} (1, k), {\tilde{d}}_{m} (2, k), ..., {\tilde{d}}_{m} (N, k)]}^{T};

上式中N为时间帧的数量；

复数矩阵构造模块32：根据d_m(k)构造延迟τ帧的复数矩阵

整合全部子系统数据成一个复数矩阵：

D_τ(k)＝[D_τ,1(k),D_τ,1(k),…,D_τ,M(k)]；

隐变量初始化模块33：初始化隐变量

线性预测系数估计模块34：估计线性预测系数

\tilde{g} (k) = {(D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) D_{τ} (k))}^{- 1} D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) d_{1} (k)

上式中，Λ为对角矩阵算子；

混向后语音估计模块35：估计降混响后的语音信号

\tilde{s} (k) = d_{1} (k) - D_{τ} (k) \tilde{g} (k)

隐变量优化模块36：最小化如下优化函数，迭代估计隐变量：

\tilde{θ} (k, n) = {argmin}_{θ (k, n)} \frac{| \tilde{s} (k, n) |^{2}}{θ (k, n)} + l o g (θ (k, n))

上式中，log为自然对数算子，得到隐变量估计

\tilde{θ} (k) = | \tilde{s} (k) |^{2};

隐变量优化模块36的输出信号返回线性预测系数估计模块34，如图5所示迭代五次之后，混向后语音估计模块35输出最后的语音信号。

原家居环境存在多个麦克风阵列系统，经过数据融合和降混响预处理两次处理，有效抑制了环境噪音和房间反射，最大程度上保证了语音不失真，以确保后续语音识别的准确性。

以上所述的仅是本发明的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种智能家居协同麦克风语音控制系统，其特征在于：包括信号采集模块、控制中枢模块和云服务器；所述信号采集模块采集语音信号；所述控制中枢模块对语音信号进行降噪处理；所述云服务器识别并解析语音信号；

所述语音监听模块包括：

接收线程：对第i个麦克风，1≤i≤M_Σ，采集其实时录音信号y_i(t)，直至实时录音信号样本点的录音文件写满一个内存缓冲区，即采集到512个时域信号样本点；

所述实时录音信号y_i(t)为：

y_i(t)＝s_i(t)+n_i(t)；

ξ_{k, i} = \frac{λ_{S, i} (k)}{λ_{N, i} (k)};

γ_{k, i} = \frac{| Y_{i} (k) |^{2}}{λ_{N, i} (k)};

Λ_{k, i} = \frac{1}{1 + ξ_{k, i}} \exp {\frac{γ_{k, i} ξ_{k, i}}{1 + ξ_{k, i}}};

P_{i} = \frac{1}{K} Σ_{k = 0}^{K - 1} l o g (Λ_{k, i});

所述数据融合模块包括：

第一向量构建模块：对每一个阵列系统构建向量y_m(t,k)：

y_{m} (t, k) = {[Y_{m, 1} (t, k), Y_{m, 2} (t, k), ..., Y_{m, Ω_{m}} (t, k)]}^{T};

y_m＝s_m+n_m；

对所有阵列构建一个新向量y(t,k)：

y(t,k)＝[y₁(t,k)^T,y₂(t,k)^T,…,y_M(t,k)^T]^T；

同样省略时间帧和频带坐标，有：

y＝s+n；

R_n,n(t,k)＝λR_n,n(t-1,k)+(1-λ)n(t,k)n(t,k)^H；

H代表厄尔米特转置，平滑因子λ＝0.995；

R_y,y(t,k)＝λR_y,y(t-1,k)+(1-λ)y(t,k)y(t,k)^H；

平滑因子λ＝0.995；

计算语音谱的自相关矩阵R_s,s(t,k)：

R_s,s(t,k)＝R_y,y(t,k)-R_n,n(t,k)；

J_{m} (W_{m}) = E {| | d_{m} - W_{m}^{H} y | |^{2}};

Ε为期望算符；

{\tilde{W}}_{m} = [\begin{matrix} {\tilde{W}}_{m, 1} \\ {\tilde{W}}_{m, 2} \\ . \\ . \\ . \\ {\tilde{W}}_{m, M} \end{matrix}] = R_{y, y}^{- 1} R_{s, s} Γ_{m};

其中是一个复数域矩阵，Γ_m为对角矩阵：

{\tilde{d}}_{m} = {\tilde{W}}_{m}^{H} y;

所述降混响预处理模块包括线性预测系数估计模块；

D = ({\tilde{d}}_{1}, {\tilde{d}}_{2}, ..., {\tilde{d}}_{M});

g_m(k)＝[g_m(k,0),g_m(k,1),…,g_m(k,L_g-1)]^T

g (k) = {[g_{1}^{T} (k), g_{2}^{T} (k), ..., g_{M}^{T} (k)]}^{T};

线性预测阶数L_g＝13；

所述线性预测系数估计模块包括：

第二向量构造模块：构造向量d_m(k)：

d_{m} (k) = {[{\tilde{d}}_{m} (1, k), {\tilde{d}}_{m} (2, k), ..., {\tilde{d}}_{m} (N, k)]}^{T};

N为时间帧的数量；

复数矩阵构造模块：根据d_m(k)构造延迟τ帧的复数矩阵

整合全部子系统数据成复数矩阵D_τ(k)：

D_τ(k)＝[D_τ,1(k),D_τ,1(k),…,D_τ,M(k)]；

隐变量初始化模块：初始化隐变量

线性预测系数估计模块：估计线性预测系数

\tilde{g} (k) = {(D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) D_{τ} (k))}^{- 1} D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) d_{1} (k);

Λ为对角矩阵算子；

混向后语音估计模块：估计降混响后的语音信号

\tilde{s} (k) = d_{1} (k) - D_{τ} (k) \tilde{g} (k);

隐变量优化模块：最小化如下优化函数，迭代估计隐变量：

\tilde{θ} (k, n) = \arg \min_{θ (k, n)} \frac{| \tilde{s} (k, n) |^{2}}{θ (k, n)} + l o g (θ (k, n));

log为自然对数算子，得到隐变量估计

\tilde{θ} (k) = | \tilde{s} (k) |^{2};

2.一种使用如权利要求1所述的智能家居协同麦克风语音控制系统进行语音控制的方法，其特征在于：所述信号采集模块为协同麦克风或/和智能移动终端；

步骤A1、协同麦克风接收到语音信号；

M_{Σ} = Σ_{m = 1}^{M} Ω_{m};

步骤A22、对第i个麦克风，1≤i≤M_Σ，采集其实时录音信号y_i(t)，直至实时录音信号样本点的录音文件写满一个内存缓冲区，即采集到512个时域信号样本点；

所述实时录音信号y_i(t)为：

y_i(t)＝s_i(t)+n_i(t)；

步骤A26、计算先验信噪比ξ_k,i和后验信噪比γ_k,i，分别为：

ξ_{k, i} = \frac{λ_{S, i} (k)}{λ_{N, i} (k)};

γ_{k, i} = \frac{| Y_{i} (k) |^{2}}{λ_{N, i} (k)};

步骤A27、计算指示函数Λ_k,i：

Λ_{k, i} = \frac{1}{1 + ξ_{k, i}} \exp {\frac{γ_{k, i} ξ_{k, i}}{1 + ξ_{k, i}}};

步骤A28、计算判别函数Ρ_i：

P_{i} = \frac{1}{K} Σ_{k = 0}^{K - 1} l o g (Λ_{k, i});

步骤A32、对每一个阵列系统构建向量y_m(t,k)：

y_{m} (t, k) = {[Y_{m, 1} (t, k), Y_{m, 2} (t, k), ..., Y_{m, Ω_{m}} (t, k)]}^{T};

y_m＝s_m+n_m；

步骤A33、对所有阵列构建一个新向量y(t,k)：

y(t,k)＝[y₁(t,k)^T,y₂(t,k)^T,…,y_M(t,k)^T]^T；

同样省略时间帧和频带坐标，有：

y＝s+n；

R_n,n(t,k)＝λR_n,n(t-1,k)+(1-λ)n(t,k)n(t,k)^H；

上坐标H为厄尔米特转置，平滑因子λ＝0.995；

R_y,y(t,k)＝λR_y,y(t-1,k)+(1-λ)y(t,k)y(t,k)^H；

平滑因子λ＝0.995；

步骤A36、计算语音谱的自相关矩阵R_s,s(t,k)：

R_s,s(t,k)＝R_y,y(t,k)-R_n,n(t,k)；

J_{m} (W_{m}) = E {| | d_{m} - W_{m}^{H} y | |^{2}};

Ε代表期望算符；

步骤A38、最小化上述目标函数，即得到最优滤波器

{\tilde{W}}_{m} = [\begin{matrix} {\tilde{W}}_{m, 1} \\ {\tilde{W}}_{m, 2} \\ . \\ . \\ . \\ {\tilde{W}}_{m, M} \end{matrix}] = R_{y, y}^{- 1} R_{s, s} Γ_{m};

其中是一个复数域矩阵，Γ_m为对角矩阵：

{\tilde{d}}_{m} = {\tilde{W}}_{m}^{H} y;

以语音融合的输出为输入，即输入D为：

D = ({\tilde{d}}_{1}, {\tilde{d}}_{2}, ..., {\tilde{d}}_{M});

g_m(k)＝[g_m(k,0),g_m(k,1),…,g_m(k,L_g-1)]^T

g (k) = {[g_{1}^{T} (k), g_{2}^{T} (k), ..., g_{M}^{T} (k)]}^{T};

线性预测阶数L_g＝13；

所述线性预测系数g(k)的估计方法为：

步骤A41、构造向量d_m(k)：

d_{m} (k) = {[{\tilde{d}}_{m} (1, k), {\tilde{d}}_{m} (2, k), ..., {\tilde{d}}_{m} (N, k)]}^{T};

N为时间帧的数量；

步骤A42、根据d_m(k)构造延迟τ帧的复数矩阵

步骤A43、整合全部子系统数据成一个复数矩阵：

D_τ(k)＝[D_τ,1(k),D_τ,1(k),…,D_τ,M(k)]；

步骤A44、初始化隐变量

步骤A45、迭代估计线性预测系数g～(k)：

\tilde{g} (k) = {(D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) D_{τ} (k))}^{- 1} D_{τ}^{H} (k) Λ^{- 1} (\tilde{θ} (k)) d_{1} (k);

Λ为对角矩阵算子；

步骤A46、迭代估计降混响后语音

\tilde{s} (k) = d_{1} (k) - D_{τ} (k) \tilde{g} (k);

步骤A47、最小化如下优化函数迭代估计隐变量：

\tilde{θ} (k, n) = \arg \min_{θ (k, n)} \frac{| \tilde{s} (k, n) |^{2}}{θ (k, n)} + l o g (θ (k, n));

log为自然对数算子，得到隐变量估计

\tilde{θ} (k) = | \tilde{s} (k) |^{2};

步骤A5、将语音提交给云服务器，进行语音识别，并根据识别结果发送控制指令至相应的家具应用终端；一次数据提交结束；

步骤B3、用户开始发出语音指令；