CN110136709A - 语音识别方法及基于语音识别的视频会议系统 - Google Patents

语音识别方法及基于语音识别的视频会议系统 Download PDF

Info

Publication number
CN110136709A
CN110136709A CN201910343629.9A CN201910343629A CN110136709A CN 110136709 A CN110136709 A CN 110136709A CN 201910343629 A CN201910343629 A CN 201910343629A CN 110136709 A CN110136709 A CN 110136709A
Authority
CN
China
Prior art keywords
voice signal
signal sample
wavelet
denoising
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910343629.9A
Other languages
English (en)
Inventor
杨鸿珍
王云烨
卢晓帆
章毅
吴建伟
方晴程
范超
史俊潇
段玉帅
由其林
吴立刚
徐海青
陈是同
徐唯耀
浦正国
梁翀
张天奇
余江斌
韩涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Anhui Jiyuan Software Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Anhui Jiyuan Software Co Ltd, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201910343629.9A priority Critical patent/CN110136709A/zh
Publication of CN110136709A publication Critical patent/CN110136709A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Abstract

本发明涉及语音识别领域,尤其涉及语音识别方法及基于语音识别的视频会议系统,该方法包括以下步骤:通过小波去噪阈值函数将语音信号样本进行去噪处理;对去噪处理后的语音信号样本进行预处理;对预处理之后的语音信号样本进行特征提取,并训练得到模型;通过训练得到的模型对待识别的语音信号进行语音匹配,并输出识别后的文字。本发明建立的小波去噪阈值函数,既能够较多的保留有用信号,又可以在平滑性方面处理较好,因此能够起到更好的去噪效果,进一步提高语音识别的准确度。

Description

语音识别方法及基于语音识别的视频会议系统
技术领域
本发明涉及语音识别领域,尤其涉及语音识别方法及基于语音识别的视频会议系统。
背景技术
智能语音技术主要研究人机之间语言信息处理的问题,可分为语音识别和语音合成两大类人机语音通信问题,语音识别则是机器对人的语言进行识别,并将语音转换为文字;而语音合成是将计算机自己产生的或外部输入的文字信息转变为语言说出来。本课题研究探索智能语音技术与多媒体识别分析技术的结合,并实现与应急会商、视频会议业务的深度融合,将智能语音技术应用到故障应急会商处理、公司日常会议服务活动中,提高公司沟通效率和支撑服务水平,存进公司智能化水平的发展。
语音识别主要的技术流程分为去噪技术、预处理技术、特征提取技术、模型匹配技术、语言模型训练技术和自然语言处理技术等几个部分。语音识别系统已经在理想的环境下获得了不错的成绩,但是存在于应用环境中的各种干扰信号,导致系统的识别能力大幅度下降。由此可见,去噪技术已经成为语音识别系统能否在生活中完美应用的关键,同时也是语音识别领域要攻克的热点问题。
传统的小波去噪阈值函数有硬阈值函数和软阈值函数两种,其中前者函数公式为:
式中ωj,k、λ分别为估计小波系数、原始信号小波分解系数、阈值。硬阈值函数将各尺度上含噪信号的小波分解系数ωj,k同阈值λ比较,小于λ的点直接置零,大于λ的点不变,在阈值λ处函数是间断的,这种不连续性将导致重构后的信号被引入振荡噪声,即伪吉布斯现象,从而影响去噪效果。
为了消除函数不连续性对去噪的影响,Donoho和Johnstone[8]根据函数的光滑性理论和噪声统计性质,提出了软阈值函数消噪公式:
软阈值函数的主要思想是将各尺度上含噪信号的小波分解系数ωj,k与阈值λ进行比较,小于λ的点置零,大于λ的点则变为该点系数与阈值的差值。软阈值函数在阈值λ处是连续的,故避免了伪吉布斯现象造成的振荡噪声。但由于在系数处理时,大于λ的系数ωj,k统一减去了λ,这导致处理后的估计小波系数和ωj,k之间总是存在恒定偏差λ,这会使重构后的信号丢失掉某些特征,对去噪效果造成影响。
综上所述,硬阈值函数能够较多的保留有用信号的特征,但在平滑性方面处理的不够理想;软阈值函数在平滑性方面较硬阈值函数处理的好,但信号的某些重要特征会被丢失。
发明内容
为解决上述问题,本发明提出语音识别方法及基于语音识别的视频会议系统,以达到更好的语音去噪效果,进一步提高语音识别的准确度。
一方面,本发明提出语音识别方法,包括以下步骤:
通过小波去噪阈值函数将语音信号样本进行去噪处理,所述小波去噪阈值函数为:
其中,j为小波分解的层数,为估计小波系数,ωj,k为原始信号小波分解系数,λ为阈值;
对去噪处理后的语音信号样本进行预处理;
对预处理之后的语音信号样本进行特征提取,并训练得到模型;
通过训练得到的模型对待识别的语音信号进行语音匹配,并输出识别后的文字。
优选的,所述预处理包括以下步骤:
预滤波处理,用于使语音信号样本带宽限制在设定范围内
预加重处理,用于对高频段的语音信号样本通过预加重来提升高频;
加窗处理,用于将语音信号样本进行分帧处理;
端点检测处理,用于确定语音信号样本的开始点和终止点。
优选的,通过深度学习算法对提取的特征进行训练得到模型。
本发明建立的小波去噪阈值函数,既能够较多的保留有用信号,又可以在平滑性方面处理较好,因此能够起到更好的去噪效果,进一步提高语音识别的准确度。
另一方面,本发明还提出基于语音识别的视频会议系统,包括:MCU多点控制器、与MCU多点控制器连接的网关、以及与网关连接的多个终端,所述终端包括显示模块,所述终端还包括:语音识别模块,用于将接收的语音信号转换为文字,并在显示模块上实时显示,所述语音识别模块包括:
去噪处理模块:通过小波去噪阈值函数将语音信号样本进行去噪处理,所述小波去噪阈值函数为:
其中,j为小波分解的层数,为估计小波系数,ωj,k为原始信号小波分解系数,λ为阈值;
预处理模块:对去噪处理后的语音信号样本进行预处理;
特征提取模块:对预处理之后的语音信号样本进行特征提取;
训练模块:对特征提取后的语音信号样本训练得到模型;
匹配模块:通过训练得到的模型对待识别的语音信号进行语音匹配,并输出识别后的文字。
优选的,所述预处理包括以下步骤:
预滤波处理,用于使语音信号样本带宽限制在设定范围内
预加重处理,用于对高频段的语音信号样本通过预加重来提升高频;
加窗处理,用于将语音信号样本进行分帧处理;
端点检测处理,用于确定语音信号样本的开始点和终止点。
优选的,通过深度学习算法对提取的特征进行训练得到模型。
本发明通过语音识别模块在显示模块上实时显示对应的文字,使得会议参加人员不仅仅能够观看到视频流,还可以观看到视频流中的实时文字显示,方便会议参加人员对会议内容的理解,提高了沟通的效率。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例一的流程示意图;
图2是本发明实施例一中blocks信号的波形图;
图3是本发明实施例一中染噪blocks信号的波形图;
图4是本发明实施例一中硬阈值函数去噪的波形图;
图5是本发明实施例一中软阈值函数去噪的波形图;
图6是本发明实施例一中改进阈值函数去噪的波形图;
图7是本发明实施例二的结构示意图;
图8是本发明实施例二中语音识别模块的结构示意图。
具体实施方式
以下结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
本实施例的主要构想是结合现有技术中硬阈值函数能够较多的保留有用信号的特征,但在平滑性方面处理的不够理想;软阈值函数在平滑性方面较硬阈值函数处理的好,但信号的某些重要特征会被丢失的特点,建立小波去噪阈值函数,既能够较多的保留有用信号,又可以在平滑性方面处理较好。
基于上述构想,本实施例提出一种语音识别方法,如图1所示,包括以下步骤:
S1:通过小波去噪阈值函数将语音信号样本进行去噪处理;
S2:对去噪处理后的语音信号样本进行预处理;
S3:对预处理之后的语音信号样本进行特征提取,并训练得到模型;
S4:通过训练得到的模型对待识别的语音信号进行语音匹配,并输出识别后的文字。
去噪的目的是提高语音识别的准确率,尽量保留说话人说话频率区间内的有用信号,衰减其他频率段的信号。语音信号的有用信号信息主要集中在中低频率段,经小波分解后,噪声信号的系数幅值会随着尺度j的增大而逐渐减小,有用信号的系数幅值会随着度增大而增大。该特性表明,一般的阈值选取规则都会使阈值λ随着分解尺度的增大而减小,但阈值函数本身并没有针对语音信号的该特征做出有针对性的调整。而现有的阈值函数在各分解尺度上阈值函数的表达式都是固定的。因此,如果令阈值函数随着分解尺度的变化而做出一定调整,即在较高尺度上,令阈值函数能够更接近于硬阈值函数,这样处理后的小波估计系数就能够更加接近真实系数ωj,k,去噪效果将会得到进一步改善。
基于以上设想,结合语音信号特有的频率特性,在阈值函数中引入了分解尺度j来对其进行调整:
其中,j为小波分解的层数,为估计小波系数,ωj,k为原始信号小波分解系数,λ为阈值。
当j=1时,该函数等价于软阈值函数,当j→∞时,有
此时上式等价于硬阈值函数。随着j的增大,在信号的中低频段,该阈值函数逐渐向硬阈值函数逼近,使更接近ωj,k,语音信号的有用信号被更多的保留,同时该函数在所有尺度上在λ处是连续的,连续就可以避免振荡噪声的产生。
通过实验对本实施例中的阈值函数进行验证。实验在Matlab平台上对信号进行小波的分解,系数处理以及重构,并绘出去噪前后的语音波形图。实验是用常见的测试信号blocks信号进行去噪处理和结果比较,实验选取了信号处理中常用的两个参数作为比较参数:信号的信噪比(SNR)和最小均方差(MSE)。
实验结果如图2-6所示,硬阈值函数由于其在λ处的不连续性,重构后后产生了伪吉布斯现象,导致其去噪后信号图像中的“毛刺”明显多于其他算法。软阈值函数去噪后的图像最光滑,直观视觉上去噪效果似乎是最好的,但由于其和ωj,k之间存在着恒定偏差,重构后信号和原信号在幅值上的偏差也较其他算法大很多。
为了更好的对各函数的去噪效果进行量化的比较,本文对该blocks信号去噪前后的信噪比(SNR)和最小均方差(MSE)都进行了计算,具体结果如下表:
表1各函数对blocks信号去噪前后的指标参数对比
表1中证明,本文提出的改进的阈值函数,去噪后信号的信噪比较其他几种函数都有了一定的提高,去噪后信号和原始信号的最小均方差也大大降低。
在本实施例中,预处理包括预滤波处理、预加重处理、预加重处理、加窗处理以及端点检测处理。
预滤波处理是指滤除高于1/2采样频率的信号成分或噪声,使信号带宽限制在一定的范围里;否则,如果采样率不满足采样定理,则会产生频谱混叠,此时信号中的高频成分将产生失真;预滤波本质就是一个带通滤波器。
预加重处理对于语音信号受口鼻的影响,800Hz以上的频段有6dB的衰减,即求频谱时,频率越高则信号幅度越小。这常常使得频谱分析时,低频到高频的整个频带内不能使用相同的信噪比。为此一般要使语音信号通过一个预加重来提升高频。
加窗处理进行预加重数字滤波处理后,下面就是进行加窗分帧处理,语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变),这样就可以把语音信号分为一些短段来来进行处理,这就是分帧,语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的。一般每秒的帧数约为33~100帧,视情况而定。一般的分帧方法为交叠分段的方法,前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般为0~0.5。常见的分窗类型为矩形窗、汉纳窗、汉明窗、布莱克曼窗。
端点检测处理是指从背景噪声中找出语音的开始和终止点,是语音处理领域的基本问题,特别是孤立词语识别中,找出每个单词的语音信号范围是很重要的,确定语音信号的开始和终止可以减少系统的大量计算。一般采用两极判断方法:基于能量-过零点的端点检测。
为进一步提高语音识别的准确度,的本实施例中,通过深度学习算法对提取的特征进行训练得到模型。
首先逐层构建单层神经元,这样每次都是训练一个单层网络。当所有层训练完后使用wake-sleep算法进行调优。Wake-Sleep算法分为醒(wake)和睡(sleep)两个部分。wake阶段:认知过程,通过外界的特征和向上的权重(认知权重)产生每一层的抽象表示(结点状态),并且使用梯度下降修改层间的下行权重(生成权重)。。sleep阶段:生成过程,通过顶层表示和向下权重,生成底层的状态,同时修改层间向上的权重。
实施例二
基于上述实施例,本实施例提出一种基于语音识别的视频会议系统,该视频会议系统通过上述语音识别算法将视频输入的语音信号转换为文字,并将文字显示在显示模块上。基于此,会议参加人员不仅仅能够观看到视频流,还可以观看到视频流中的实时文字显示,方便会议参加人员对会议内容的理解,提高了沟通的效率。
如图7所示,一种基于语音识别的视频会议系统包括:包括:MCU多点控制器、与MCU多点控制器连接的网关、以及与网关连接的多个终端,所述终端包括显示模块,所述终端还包括:语音识别模块,用于将接收的语音信号转换为文字,并在显示模块上实时显示。
如图8所示,语音识别模块包括去噪处理模块、特征提取模块、训练模块以及匹配模块。
具体的,去噪处理模块:通过小波去噪阈值函数将语音信号样本进行去噪处理,所述小波去噪阈值函数为:
其中,j为小波分解的层数,为估计小波系数,ωj,k为原始信号小波分解系数,λ为阈值。
由实施例一中的内容可知,上述阈值函数既能够较多的保留有用信号,又可以在平滑性方面处理较好。
预处理模块用于对去噪处理后的语音信号样本进行预处理。具体的,预处理包括以下步骤:
预滤波处理,用于使语音信号样本带宽限制在设定范围内;
预加重处理,用于对高频段的语音信号样本通过预加重来提升高频;
加窗处理,用于将语音信号样本进行分帧处理;
端点检测处理,用于确定语音信号样本的开始点和终止点。
本实施例中的预滤波处理、预加重处理、加窗处理、端点检测处理与实施例一中的过程以及效果均相同,因此不再赘述。
特征提取模块用于对预处理之后的语音信号样本进行特征提取。特征提取就是从原始语音信号中抽取出能反映语音本质的特征参数,形成矢量序列。可以选择的语音特征参数如下:
a、时域参数:包括短时平均能量、短时平均过零率、基音周期等。短时平均过零率和短时平均能量常用于检测语音端点,基音周期则用于清浊音类和汉字的声调区别;
b、频域参数:包括短时频谱(通道滤波器的平均谱、DFT频谱)前三个共振峰(幅度、频率、带宽)、倒谱(基于线性预测编码的倒谱即LPCC,基于Mel频率弯折的倒谱即MFCC)等。
对于不同的参数可以采用以下方法提取参数:快速傅立叶变换(FFT)、平均过零率分析(RBZ)和高斯混合模型(GMM)。
训练模块用于对特征提取后的语音信号样本训练得到模型。作为优选,在本实施例中,通过深度学习算法对提取的特征进行训练得到模型,以达到更好的语音识别效果。
深度学习的常用模型包括:
1)AutoEncoder自动编码器,存在变体SparseAutoEncoder稀疏自动编码器、DenoisingAutoEncoders降噪自动编码器;
2)SparseCoding稀疏编码;
3)RestrictedBoltzmannMachine(RBM)限制波尔兹曼机;
4)DeepBeliefNetworks深信度网络;
5)ConvolutionalNeuralNetworks卷积神经网络。
匹配模块用于通过训练得到的模型对待识别的语音信号进行语音匹配,并输出识别后的文字。匹配模块主要是将输入的语言信号与其内已设定的单词模式与输入表达式之间的相匹配的技术。例如计算机的辅导答疑系统,当用户输入的问题在计算机的答疑库里找到相匹配的答案时,就会完成自动回答问题的功能。基于批匹配模块所采用的技术为现有技术,因此在此不再赘述。
本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (6)

1.语音识别方法,其特征在于,包括以下步骤:
通过小波去噪阈值函数将语音信号样本进行去噪处理,所述小波去噪阈值函数为:
其中,j为小波分解的层数,为估计小波系数,ωj,k为原始信号小波分解系数,λ为阈值;
对去噪处理后的语音信号样本进行预处理;
对预处理之后的语音信号样本进行特征提取,并训练得到模型;
通过训练得到的模型对待识别的语音信号进行语音匹配,并输出识别后的文字。
2.根据权利要求1所述的语音识别方法,其特征在于,所述预处理包括以下步骤:
预滤波处理,用于使语音信号样本带宽限制在设定范围内
预加重处理,用于对高频段的语音信号样本通过预加重来提升高频;
加窗处理,用于将语音信号样本进行分帧处理;
端点检测处理,用于确定语音信号样本的开始点和终止点。
3.根据权利要求1所述的语音识别方法,其特征在于,通过深度学习算法对提取的特征进行训练得到模型。
4.基于语音识别的视频会议系统,包括:MCU多点控制器、与MCU多点控制器连接的网关、以及与网关连接的多个终端,所述终端包括显示模块,其特征在于,所述终端还包括:语音识别模块,用于将接收的语音信号转换为文字,并在显示模块上实时显示,所述语音识别模块包括:
去噪处理模块:通过小波去噪阈值函数将语音信号样本进行去噪处理,所述小波去噪阈值函数为:
其中,j为小波分解的层数,为估计小波系数,ωj,k为原始信号小波分解系数,λ为阈值;
预处理模块:对去噪处理后的语音信号样本进行预处理;
特征提取模块:对预处理之后的语音信号样本进行特征提取;
训练模块:对特征提取后的语音信号样本训练得到模型;
匹配模块:通过训练得到的模型对待识别的语音信号进行语音匹配,并输出识别后的文字。
5.根据权利要求4所述的基于语音识别的视频会议系统,其特征在于,所述预处理包括以下步骤:
预滤波处理,用于使语音信号样本带宽限制在设定范围内
预加重处理,用于对高频段的语音信号样本通过预加重来提升高频;
加窗处理,用于将语音信号样本进行分帧处理;
端点检测处理,用于确定语音信号样本的开始点和终止点。
6.根据权利要求4所述的基于语音识别的视频会议系统,其特征在于,通过深度学习算法对提取的特征进行训练得到模型。
CN201910343629.9A 2019-04-26 2019-04-26 语音识别方法及基于语音识别的视频会议系统 Pending CN110136709A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910343629.9A CN110136709A (zh) 2019-04-26 2019-04-26 语音识别方法及基于语音识别的视频会议系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910343629.9A CN110136709A (zh) 2019-04-26 2019-04-26 语音识别方法及基于语音识别的视频会议系统

Publications (1)

Publication Number Publication Date
CN110136709A true CN110136709A (zh) 2019-08-16

Family

ID=67575352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910343629.9A Pending CN110136709A (zh) 2019-04-26 2019-04-26 语音识别方法及基于语音识别的视频会议系统

Country Status (1)

Country Link
CN (1) CN110136709A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941945A (zh) * 2019-12-02 2020-03-31 百度在线网络技术(北京)有限公司 语言模型预训练方法和装置
CN111405122A (zh) * 2020-03-18 2020-07-10 苏州科达科技股份有限公司 音频通话测试方法、装置及存储介质
CN111681649A (zh) * 2020-05-25 2020-09-18 重庆邮电大学 语音识别方法、交互系统及包括该系统的成绩管理系统
CN112422265A (zh) * 2020-09-29 2021-02-26 浙江想能睡眠科技股份有限公司 一种避免语音信号被篡改的语音控制方法及控制系统
CN112966528A (zh) * 2021-03-01 2021-06-15 郑州铁路职业技术学院 一种英语语音的翻译模糊匹配系统
CN114333769A (zh) * 2021-09-29 2022-04-12 腾讯科技(深圳)有限公司 语音识别方法、计算机程序产品、计算机设备及存储介质
CN114722885A (zh) * 2022-06-09 2022-07-08 山东山矿机械有限公司 托辊搬运小车运行异常智能检测方法及系统
CN116364072A (zh) * 2023-05-31 2023-06-30 北京师范大学 一种基于人工智能的教育信息监管方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102244760A (zh) * 2011-04-28 2011-11-16 大连亿创天地科技发展有限公司 一种基于互联网的远程视频会诊系统
CN105745921A (zh) * 2016-01-19 2016-07-06 王晓光 一种视频网络会议的会议记录方法及系统
US20170270107A1 (en) * 2005-10-26 2017-09-21 Cortica, Ltd. System and method for signature-enhanced multimedia content searching
CN107274908A (zh) * 2017-06-13 2017-10-20 南京邮电大学 基于新阈值函数的小波语音去噪方法
CN108320746A (zh) * 2018-02-09 2018-07-24 杭州智仁建筑工程有限公司 一种智能家居系统
CN108766420A (zh) * 2018-05-31 2018-11-06 中国联合网络通信集团有限公司 语音交互设备唤醒词生成方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270107A1 (en) * 2005-10-26 2017-09-21 Cortica, Ltd. System and method for signature-enhanced multimedia content searching
CN102244760A (zh) * 2011-04-28 2011-11-16 大连亿创天地科技发展有限公司 一种基于互联网的远程视频会诊系统
CN105745921A (zh) * 2016-01-19 2016-07-06 王晓光 一种视频网络会议的会议记录方法及系统
CN107274908A (zh) * 2017-06-13 2017-10-20 南京邮电大学 基于新阈值函数的小波语音去噪方法
CN108320746A (zh) * 2018-02-09 2018-07-24 杭州智仁建筑工程有限公司 一种智能家居系统
CN108766420A (zh) * 2018-05-31 2018-11-06 中国联合网络通信集团有限公司 语音交互设备唤醒词生成方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
毛艳辉: "一种改进的语音数据小波阈值的去噪算法", 《微型电脑应用》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110941945A (zh) * 2019-12-02 2020-03-31 百度在线网络技术(北京)有限公司 语言模型预训练方法和装置
CN111405122A (zh) * 2020-03-18 2020-07-10 苏州科达科技股份有限公司 音频通话测试方法、装置及存储介质
CN111681649A (zh) * 2020-05-25 2020-09-18 重庆邮电大学 语音识别方法、交互系统及包括该系统的成绩管理系统
CN111681649B (zh) * 2020-05-25 2023-05-02 重庆邮电大学 语音识别方法、交互系统及包括该系统的成绩管理系统
CN112422265A (zh) * 2020-09-29 2021-02-26 浙江想能睡眠科技股份有限公司 一种避免语音信号被篡改的语音控制方法及控制系统
CN112966528A (zh) * 2021-03-01 2021-06-15 郑州铁路职业技术学院 一种英语语音的翻译模糊匹配系统
CN112966528B (zh) * 2021-03-01 2023-09-19 郑州铁路职业技术学院 一种英语语音的翻译模糊匹配系统
CN114333769A (zh) * 2021-09-29 2022-04-12 腾讯科技(深圳)有限公司 语音识别方法、计算机程序产品、计算机设备及存储介质
CN114333769B (zh) * 2021-09-29 2024-03-01 腾讯科技(深圳)有限公司 语音识别方法、计算机程序产品、计算机设备及存储介质
CN114722885A (zh) * 2022-06-09 2022-07-08 山东山矿机械有限公司 托辊搬运小车运行异常智能检测方法及系统
CN114722885B (zh) * 2022-06-09 2022-08-16 山东山矿机械有限公司 托辊搬运小车运行异常智能检测方法及系统
CN116364072A (zh) * 2023-05-31 2023-06-30 北京师范大学 一种基于人工智能的教育信息监管方法

Similar Documents

Publication Publication Date Title
CN110136709A (zh) 语音识别方法及基于语音识别的视频会议系统
CN105513605B (zh) 手机麦克风的语音增强系统和语音增强方法
Muda et al. Voice recognition algorithms using mel frequency cepstral coefficient (MFCC) and dynamic time warping (DTW) techniques
US6691090B1 (en) Speech recognition system including dimensionality reduction of baseband frequency signals
CN109524014A (zh) 一种基于深度卷积神经网络的声纹识别分析方法
CN106486131A (zh) 一种语音去噪的方法及装置
Xiang et al. A nested u-net with self-attention and dense connectivity for monaural speech enhancement
Hui et al. Convolutional maxout neural networks for speech separation
CN104078039A (zh) 基于隐马尔科夫模型的家用服务机器人语音识别系统
CN104318927A (zh) 一种抗噪声的低速率语音编码方法及解码方法
CN111192598A (zh) 一种跳变连接深度神经网络的语音增强方法
CN106024010A (zh) 一种基于共振峰曲线的语音信号动态特征提取方法
CN105679312A (zh) 一种噪声环境下声纹识别的语音特征处理方法
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
CN102655003A (zh) 基于声道调制信号mfcc的汉语语音情感点识别方法
CN111489763B (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN111899750B (zh) 联合耳蜗语音特征和跳变深层神经网络的语音增强算法
CN110277087A (zh) 一种广播信号预判预处理方法
CN108682432B (zh) 语音情感识别装置
Geng et al. End-to-end speech enhancement based on discrete cosine transform
Roy et al. DeepLPC-MHANet: Multi-head self-attention for augmented Kalman filter-based speech enhancement
CN110136746B (zh) 一种基于融合特征的加性噪声环境下手机来源识别方法
Wand et al. Analysis of phone confusion in EMG-based speech recognition
CN111524520A (zh) 一种基于误差逆向传播神经网络的声纹识别方法
CN115641839A (zh) 一种智能语音识别方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190816

RJ01 Rejection of invention patent application after publication