CN110136709A

CN110136709A - 语音识别方法及基于语音识别的视频会议系统

Info

Publication number: CN110136709A
Application number: CN201910343629.9A
Authority: CN
Inventors: 杨鸿珍; 王云烨; 卢晓帆; 章毅; 吴建伟; 方晴程; 范超; 史俊潇; 段玉帅; 由其林; 吴立刚; 徐海青; 陈是同; 徐唯耀; 浦正国; 梁翀; 张天奇; 余江斌; 韩涛
Original assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Information and Telecommunication Co Ltd; Anhui Jiyuan Software Co Ltd; Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-16

Abstract

本发明涉及语音识别领域，尤其涉及语音识别方法及基于语音识别的视频会议系统，该方法包括以下步骤：通过小波去噪阈值函数将语音信号样本进行去噪处理；对去噪处理后的语音信号样本进行预处理；对预处理之后的语音信号样本进行特征提取，并训练得到模型；通过训练得到的模型对待识别的语音信号进行语音匹配，并输出识别后的文字。本发明建立的小波去噪阈值函数，既能够较多的保留有用信号，又可以在平滑性方面处理较好，因此能够起到更好的去噪效果，进一步提高语音识别的准确度。

Description

语音识别方法及基于语音识别的视频会议系统

技术领域

本发明涉及语音识别领域，尤其涉及语音识别方法及基于语音识别的视频会议系统。

背景技术

智能语音技术主要研究人机之间语言信息处理的问题，可分为语音识别和语音合成两大类人机语音通信问题，语音识别则是机器对人的语言进行识别，并将语音转换为文字；而语音合成是将计算机自己产生的或外部输入的文字信息转变为语言说出来。本课题研究探索智能语音技术与多媒体识别分析技术的结合，并实现与应急会商、视频会议业务的深度融合，将智能语音技术应用到故障应急会商处理、公司日常会议服务活动中，提高公司沟通效率和支撑服务水平，存进公司智能化水平的发展。

语音识别主要的技术流程分为去噪技术、预处理技术、特征提取技术、模型匹配技术、语言模型训练技术和自然语言处理技术等几个部分。语音识别系统已经在理想的环境下获得了不错的成绩，但是存在于应用环境中的各种干扰信号，导致系统的识别能力大幅度下降。由此可见，去噪技术已经成为语音识别系统能否在生活中完美应用的关键，同时也是语音识别领域要攻克的热点问题。

传统的小波去噪阈值函数有硬阈值函数和软阈值函数两种，其中前者函数公式为：

式中ω_j，k、λ分别为估计小波系数、原始信号小波分解系数、阈值。硬阈值函数将各尺度上含噪信号的小波分解系数ω_j，k同阈值λ比较，小于λ的点直接置零，大于λ的点不变，在阈值λ处函数是间断的，这种不连续性将导致重构后的信号被引入振荡噪声，即伪吉布斯现象，从而影响去噪效果。

为了消除函数不连续性对去噪的影响，Donoho和Johnstone[8]根据函数的光滑性理论和噪声统计性质，提出了软阈值函数消噪公式：

软阈值函数的主要思想是将各尺度上含噪信号的小波分解系数ω_j，k与阈值λ进行比较，小于λ的点置零，大于λ的点则变为该点系数与阈值的差值。软阈值函数在阈值λ处是连续的，故避免了伪吉布斯现象造成的振荡噪声。但由于在系数处理时，大于λ的系数ω_j，k统一减去了λ，这导致处理后的估计小波系数和ω_j，k之间总是存在恒定偏差λ，这会使重构后的信号丢失掉某些特征，对去噪效果造成影响。

综上所述，硬阈值函数能够较多的保留有用信号的特征，但在平滑性方面处理的不够理想；软阈值函数在平滑性方面较硬阈值函数处理的好，但信号的某些重要特征会被丢失。

发明内容

为解决上述问题，本发明提出语音识别方法及基于语音识别的视频会议系统，以达到更好的语音去噪效果，进一步提高语音识别的准确度。

一方面，本发明提出语音识别方法，包括以下步骤：

通过小波去噪阈值函数将语音信号样本进行去噪处理，所述小波去噪阈值函数为：

其中，j为小波分解的层数，为估计小波系数，ω_j，k为原始信号小波分解系数，λ为阈值；

对去噪处理后的语音信号样本进行预处理；

对预处理之后的语音信号样本进行特征提取，并训练得到模型；

通过训练得到的模型对待识别的语音信号进行语音匹配，并输出识别后的文字。

优选的，所述预处理包括以下步骤：

预滤波处理，用于使语音信号样本带宽限制在设定范围内

预加重处理，用于对高频段的语音信号样本通过预加重来提升高频；

加窗处理，用于将语音信号样本进行分帧处理；

端点检测处理，用于确定语音信号样本的开始点和终止点。

优选的，通过深度学习算法对提取的特征进行训练得到模型。

本发明建立的小波去噪阈值函数，既能够较多的保留有用信号，又可以在平滑性方面处理较好，因此能够起到更好的去噪效果，进一步提高语音识别的准确度。

另一方面，本发明还提出基于语音识别的视频会议系统，包括：MCU多点控制器、与MCU多点控制器连接的网关、以及与网关连接的多个终端，所述终端包括显示模块，所述终端还包括：语音识别模块，用于将接收的语音信号转换为文字，并在显示模块上实时显示，所述语音识别模块包括：

去噪处理模块：通过小波去噪阈值函数将语音信号样本进行去噪处理，所述小波去噪阈值函数为：

预处理模块：对去噪处理后的语音信号样本进行预处理；

特征提取模块：对预处理之后的语音信号样本进行特征提取；

训练模块：对特征提取后的语音信号样本训练得到模型；

匹配模块：通过训练得到的模型对待识别的语音信号进行语音匹配，并输出识别后的文字。

优选的，所述预处理包括以下步骤：

预滤波处理，用于使语音信号样本带宽限制在设定范围内

加窗处理，用于将语音信号样本进行分帧处理；

端点检测处理，用于确定语音信号样本的开始点和终止点。

本发明通过语音识别模块在显示模块上实时显示对应的文字，使得会议参加人员不仅仅能够观看到视频流，还可以观看到视频流中的实时文字显示，方便会议参加人员对会议内容的理解，提高了沟通的效率。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1是本发明实施例一的流程示意图；

图2是本发明实施例一中blocks信号的波形图；

图3是本发明实施例一中染噪blocks信号的波形图；

图4是本发明实施例一中硬阈值函数去噪的波形图；

图5是本发明实施例一中软阈值函数去噪的波形图；

图6是本发明实施例一中改进阈值函数去噪的波形图；

图7是本发明实施例二的结构示意图；

图8是本发明实施例二中语音识别模块的结构示意图。

具体实施方式

以下结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

实施例一

本实施例的主要构想是结合现有技术中硬阈值函数能够较多的保留有用信号的特征，但在平滑性方面处理的不够理想；软阈值函数在平滑性方面较硬阈值函数处理的好，但信号的某些重要特征会被丢失的特点，建立小波去噪阈值函数，既能够较多的保留有用信号，又可以在平滑性方面处理较好。

基于上述构想，本实施例提出一种语音识别方法，如图1所示，包括以下步骤：

S1：通过小波去噪阈值函数将语音信号样本进行去噪处理；

S2：对去噪处理后的语音信号样本进行预处理；

S3：对预处理之后的语音信号样本进行特征提取，并训练得到模型；

S4：通过训练得到的模型对待识别的语音信号进行语音匹配，并输出识别后的文字。

去噪的目的是提高语音识别的准确率，尽量保留说话人说话频率区间内的有用信号，衰减其他频率段的信号。语音信号的有用信号信息主要集中在中低频率段，经小波分解后，噪声信号的系数幅值会随着尺度j的增大而逐渐减小，有用信号的系数幅值会随着度增大而增大。该特性表明，一般的阈值选取规则都会使阈值λ随着分解尺度的增大而减小，但阈值函数本身并没有针对语音信号的该特征做出有针对性的调整。而现有的阈值函数在各分解尺度上阈值函数的表达式都是固定的。因此，如果令阈值函数随着分解尺度的变化而做出一定调整，即在较高尺度上，令阈值函数能够更接近于硬阈值函数，这样处理后的小波估计系数就能够更加接近真实系数ω_j，k，去噪效果将会得到进一步改善。

基于以上设想，结合语音信号特有的频率特性，在阈值函数中引入了分解尺度j来对其进行调整：

其中，j为小波分解的层数，为估计小波系数，ω_j，k为原始信号小波分解系数，λ为阈值。

当j＝1时，该函数等价于软阈值函数，当j→∞时，有

此时上式等价于硬阈值函数。随着j的增大，在信号的中低频段，该阈值函数逐渐向硬阈值函数逼近，使更接近ω_j，k，语音信号的有用信号被更多的保留，同时该函数在所有尺度上在λ处是连续的，连续就可以避免振荡噪声的产生。

通过实验对本实施例中的阈值函数进行验证。实验在Matlab平台上对信号进行小波的分解，系数处理以及重构，并绘出去噪前后的语音波形图。实验是用常见的测试信号blocks信号进行去噪处理和结果比较，实验选取了信号处理中常用的两个参数作为比较参数：信号的信噪比(SNR)和最小均方差(MSE)。

实验结果如图2-6所示，硬阈值函数由于其在λ处的不连续性，重构后后产生了伪吉布斯现象，导致其去噪后信号图像中的“毛刺”明显多于其他算法。软阈值函数去噪后的图像最光滑，直观视觉上去噪效果似乎是最好的，但由于其和ω_j，k之间存在着恒定偏差，重构后信号和原信号在幅值上的偏差也较其他算法大很多。

为了更好的对各函数的去噪效果进行量化的比较，本文对该blocks信号去噪前后的信噪比(SNR)和最小均方差(MSE)都进行了计算，具体结果如下表：

表1各函数对blocks信号去噪前后的指标参数对比

表1中证明，本文提出的改进的阈值函数，去噪后信号的信噪比较其他几种函数都有了一定的提高，去噪后信号和原始信号的最小均方差也大大降低。

在本实施例中，预处理包括预滤波处理、预加重处理、预加重处理、加窗处理以及端点检测处理。

预滤波处理是指滤除高于1/2采样频率的信号成分或噪声，使信号带宽限制在一定的范围里；否则，如果采样率不满足采样定理，则会产生频谱混叠，此时信号中的高频成分将产生失真；预滤波本质就是一个带通滤波器。

预加重处理对于语音信号受口鼻的影响，800Hz以上的频段有6dB的衰减，即求频谱时，频率越高则信号幅度越小。这常常使得频谱分析时，低频到高频的整个频带内不能使用相同的信噪比。为此一般要使语音信号通过一个预加重来提升高频。

加窗处理进行预加重数字滤波处理后，下面就是进行加窗分帧处理，语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变)，这样就可以把语音信号分为一些短段来来进行处理，这就是分帧，语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。一般每秒的帧数约为33～100帧，视情况而定。一般的分帧方法为交叠分段的方法，前一帧和后一帧的交叠部分称为帧移，帧移与帧长的比值一般为0～0.5。常见的分窗类型为矩形窗、汉纳窗、汉明窗、布莱克曼窗。

端点检测处理是指从背景噪声中找出语音的开始和终止点，是语音处理领域的基本问题，特别是孤立词语识别中，找出每个单词的语音信号范围是很重要的，确定语音信号的开始和终止可以减少系统的大量计算。一般采用两极判断方法：基于能量-过零点的端点检测。

为进一步提高语音识别的准确度，的本实施例中，通过深度学习算法对提取的特征进行训练得到模型。

首先逐层构建单层神经元，这样每次都是训练一个单层网络。当所有层训练完后使用wake-sleep算法进行调优。Wake-Sleep算法分为醒(wake)和睡(sleep)两个部分。wake阶段：认知过程，通过外界的特征和向上的权重(认知权重)产生每一层的抽象表示(结点状态)，并且使用梯度下降修改层间的下行权重(生成权重)。。sleep阶段：生成过程，通过顶层表示和向下权重，生成底层的状态，同时修改层间向上的权重。

实施例二

基于上述实施例，本实施例提出一种基于语音识别的视频会议系统，该视频会议系统通过上述语音识别算法将视频输入的语音信号转换为文字，并将文字显示在显示模块上。基于此，会议参加人员不仅仅能够观看到视频流，还可以观看到视频流中的实时文字显示，方便会议参加人员对会议内容的理解，提高了沟通的效率。

如图7所示，一种基于语音识别的视频会议系统包括：包括：MCU多点控制器、与MCU多点控制器连接的网关、以及与网关连接的多个终端，所述终端包括显示模块，所述终端还包括：语音识别模块，用于将接收的语音信号转换为文字，并在显示模块上实时显示。

如图8所示，语音识别模块包括去噪处理模块、特征提取模块、训练模块以及匹配模块。

具体的，去噪处理模块：通过小波去噪阈值函数将语音信号样本进行去噪处理，所述小波去噪阈值函数为：

由实施例一中的内容可知，上述阈值函数既能够较多的保留有用信号，又可以在平滑性方面处理较好。

预处理模块用于对去噪处理后的语音信号样本进行预处理。具体的，预处理包括以下步骤：

预滤波处理，用于使语音信号样本带宽限制在设定范围内；

加窗处理，用于将语音信号样本进行分帧处理；

端点检测处理，用于确定语音信号样本的开始点和终止点。

本实施例中的预滤波处理、预加重处理、加窗处理、端点检测处理与实施例一中的过程以及效果均相同，因此不再赘述。

特征提取模块用于对预处理之后的语音信号样本进行特征提取。特征提取就是从原始语音信号中抽取出能反映语音本质的特征参数，形成矢量序列。可以选择的语音特征参数如下：

a、时域参数：包括短时平均能量、短时平均过零率、基音周期等。短时平均过零率和短时平均能量常用于检测语音端点，基音周期则用于清浊音类和汉字的声调区别；

b、频域参数：包括短时频谱(通道滤波器的平均谱、DFT频谱)前三个共振峰(幅度、频率、带宽)、倒谱(基于线性预测编码的倒谱即LPCC，基于Mel频率弯折的倒谱即MFCC)等。

对于不同的参数可以采用以下方法提取参数：快速傅立叶变换(FFT)、平均过零率分析(RBZ)和高斯混合模型(GMM)。

训练模块用于对特征提取后的语音信号样本训练得到模型。作为优选，在本实施例中，通过深度学习算法对提取的特征进行训练得到模型，以达到更好的语音识别效果。

深度学习的常用模型包括：

1)AutoEncoder自动编码器，存在变体SparseAutoEncoder稀疏自动编码器、DenoisingAutoEncoders降噪自动编码器；

2)SparseCoding稀疏编码；

3)RestrictedBoltzmannMachine(RBM)限制波尔兹曼机；

4)DeepBeliefNetworks深信度网络；

5)ConvolutionalNeuralNetworks卷积神经网络。

匹配模块用于通过训练得到的模型对待识别的语音信号进行语音匹配，并输出识别后的文字。匹配模块主要是将输入的语言信号与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统，当用户输入的问题在计算机的答疑库里找到相匹配的答案时，就会完成自动回答问题的功能。基于批匹配模块所采用的技术为现有技术，因此在此不再赘述。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.语音识别方法，其特征在于，包括以下步骤：

其中，j为小波分解的层数，为估计小波系数，ω_j,k为原始信号小波分解系数，λ为阈值；

对去噪处理后的语音信号样本进行预处理；

2.根据权利要求1所述的语音识别方法，其特征在于，所述预处理包括以下步骤：

预滤波处理，用于使语音信号样本带宽限制在设定范围内

加窗处理，用于将语音信号样本进行分帧处理；

端点检测处理，用于确定语音信号样本的开始点和终止点。

3.根据权利要求1所述的语音识别方法，其特征在于，通过深度学习算法对提取的特征进行训练得到模型。

4.基于语音识别的视频会议系统，包括：MCU多点控制器、与MCU多点控制器连接的网关、以及与网关连接的多个终端，所述终端包括显示模块，其特征在于，所述终端还包括：语音识别模块，用于将接收的语音信号转换为文字，并在显示模块上实时显示，所述语音识别模块包括：

预处理模块：对去噪处理后的语音信号样本进行预处理；

训练模块：对特征提取后的语音信号样本训练得到模型；

5.根据权利要求4所述的基于语音识别的视频会议系统，其特征在于，所述预处理包括以下步骤：

预滤波处理，用于使语音信号样本带宽限制在设定范围内

加窗处理，用于将语音信号样本进行分帧处理；

端点检测处理，用于确定语音信号样本的开始点和终止点。

6.根据权利要求4所述的基于语音识别的视频会议系统，其特征在于，通过深度学习算法对提取的特征进行训练得到模型。