CN111755029A - 语音处理方法、装置、存储介质以及电子设备 - Google Patents
语音处理方法、装置、存储介质以及电子设备 Download PDFInfo
- Publication number
- CN111755029A CN111755029A CN202010465071.4A CN202010465071A CN111755029A CN 111755029 A CN111755029 A CN 111755029A CN 202010465071 A CN202010465071 A CN 202010465071A CN 111755029 A CN111755029 A CN 111755029A
- Authority
- CN
- China
- Prior art keywords
- voice
- frames
- frame
- sample
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 14
- 238000012545 processing Methods 0.000 claims abstract description 54
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000009432 framing Methods 0.000 claims abstract description 33
- 230000015654 memory Effects 0.000 claims abstract description 29
- 238000009499 grossing Methods 0.000 claims description 14
- 238000003062 neural network model Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 10
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000001228 spectrum Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 210000005069 ears Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101100272279 Beauveria bassiana Beas gene Proteins 0.000 description 1
- 210000000721 basilar membrane Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005654 stationary process Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请实施例公开了一种语音处理方法、装置、存储介质以及电子设备。所述方法包括:对语音数据进行分帧处理得到N个语音帧,其中,N为大于1的整数,确定所述语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧,其中,M为大于或等于1的整数,提取所述2M+1个语音帧的语音特征信息,将所述语音特征信息输入至长短期记忆神经网络模型LSTM进行运算处理得到所述语音帧的语音识别结果,其中,所述语音识别结果包括静音帧和非静音帧。本申请通过将语音数据进行分帧处理,提取2M+1个语音帧的语音特征信息,再将该语音特征信息输入至LSTM进行处理,识别静音帧和非静音帧,提高了语音识别中区分有效语音和无效语音的准确度,进一步提高了语音识别的准确率。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种语音处理方法、装置、存储介质以及电子设备。
背景技术
在语音识别技术中,经常需要进行语音的端点检测,即检测出语音中的开始端点和结束端点,从带有噪声的语音中将有效语音信号和无效语音信号进行分离。相关技术中,在进行语音的端点检测时,缺乏帧级标注数据、没有主流的VAD(Voice ActivityDetection,语音端点检测)模型,以及没有统一的评估标准,那么如何提高语音端点检测的准确率是一个亟需解决的问题。
发明内容
本申请实施例提供了一种语音处理方法、装置、计算机存储介质以及电子设备,旨在解决相关技术中无法准确区分有效语音和无效语音的技术问题。所述技术方案如下:
第一方面,本申请实施例提供了一种语音处理方法,所述方法包括:
对语音数据进行分帧处理得到N个语音帧;其中,N为大于1的整数;
对于其中至少一个语音帧中的每个当前语音帧,进行如下计算:
确定所述当前语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧;其中,M为大于或等于1的整数;
提取所述2M+1个语音帧的语音特征信息;
将所述语音特征信息输入至语音处理模型中进行运算处理,得到所述当前语音帧的语音识别结果;其中,所述语音识别结果包括静音帧和非静音帧。
第二方面,本申请实施例提供了一种语音处理装置,所述装置包括:
分帧模块,用于对语音数据进行分帧处理得到N个语音帧;其中,N为大于1的整数;
计算模块,用于对于其中至少一个语音帧中的每个当前语音帧,进行如下计算:
提取语音帧单元,用于确定所述语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧;其中,M为大于或等于1的整数;
提取特征单元,用于提取所述2M+1个语音帧的语音特征信息;
语音识别单元,用于将所述语音特征信息输入至长短期记忆神经网络模型LSTM进行运算处理得到所述语音帧的语音识别结果;其中,所述语音识别结果包括静音语音帧和非静音语音帧。
第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供了一种电子设备,可包括:存储器和处理器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述存储器加载并执行上述的方法步骤。
本申请实施例提供的技术方案带来的有益效果至少包括:
本申请实施例的方案在执行时,对语音数据进行分帧处理得到N个语音帧,N为大于1的整数,确定所述语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧,M为大于或等于1的整数,提取所述2M+1个语音帧的语音特征信息,将所述语音特征信息输入至长短期记忆神经网络模型LSTM进行运算处理得到所述语音帧的语音识别结果,所述语音识别结果包括静音帧和非静音帧。本申请通过将语音数据进行分帧处理,提取2M+1个语音帧的语音特征信息,再将该语音特征信息输入至LSTM进行处理,识别静音帧和非静音帧,提高了语音识别中区分有效语音和无效语音的准确度,进一步提高了语音识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的电子设备的结构示意图;
图2是本申请实施例提供的一种语音处理方法的流程示意图;
图3是本申请实施例提供的一种LSTM的原理结构示意图;
图4是本申请实施例提供的一种语音处理方法的流程示意图;
图5是本申请实施例提供的一种语音处理装置的结构示意图。
具体实施方式
为使得本申请实施例的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
参见图1,其示出了本申请实施例所涉及的一种电子设备的结构示意图,该电子设备可以用于实施上述实施例中语音处理方法。具体来讲:
存储器120可用于存储软件程序以及模块,处理器190通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器190和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131(例如:触摸屏、触摸板或触摸框)。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器190,并能接收处理器190发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器190以确定触摸事件的类型,随后处理器190根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图1中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
处理器190是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端设备的各种功能和处理数据,从而对终端设备进行整体监控。可选的,处理器190可包括一个或多个处理核心;其中,处理器190可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器190中。
具体在本实施例中,终端设备的显示单元是触摸屏显示器,终端设备还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含实现语音处理方法的步骤。
在下述方法实施例中,为了便于说明,仅以各步骤的执行主体为终端进行介绍说明。
请参见图2,为本申请实施例提供的一种语音处理方法的流程示意图。如图2所示,本申请实施例的所述方法可以包括以下步骤:
S201,对语音数据进行分帧处理得到N个语音帧,N为大于1的整数。
其中,语音数据可以是数据库中存储的视频数据中包括的语音数据,也可以是用户在与终端的交互过程中,终端通过语音采集装置获取的语音数据,也可以是安静环境下语音数据,还可以是噪声环境下的语音数据。本实施例对于语音数据的类型不作任何限制。
对于语音数据的分帧处理来说,其实,贯穿于语音分析全过程的是“短时分析技术”,因为语音信号从整体来看其特性是随时间变化的,所以它是一个非平稳态过程,不能用处理平稳信号的数字信号处理技术对其进行分析处理。但是,由于不同的语音是由人的口腔肌肉运动构成声道某种形状而产生的响应,而这种口腔肌肉运动相对于语音频率来说是非常缓慢的,所以从另一方面看,虽然语音信号具有时变特性,但是在一个短时间范围内(一般认为在20~50ms),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。
所以任何语音信号的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,将语音信号分为一段一段来分析其特征参数,其中每一段称为一“帧”,在一个或多个实施例中,帧长可取为20~50ms。这样,对于整体的语音信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列。在对语音信号做傅里叶变换之前,通常需要进行加窗操作,即将语音信号与窗函数进行相乘,加窗的好处是让一帧信号的幅度在两端渐变到0,可以提高频谱的分辨率,但是加窗的一个缺点就是一帧信号的两端被削弱了,没有像中间信号一样得到很好的利用,那么可以弥补的办法就是,相互重叠一部分地去截取帧信号,把相邻两帧信号的起始位置的时间差叫做帧移,通常把帧移取为帧长的一半或者固定为10ms。
举例来说:可以将待处理的语音数据进行分帧处理得到N个帧长为25ms,帧移为10ms的N个语音帧信号。
S202,对于其中N个语音帧中的每一个当前语音帧,确定当前语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧,M为大于或等于1的整数。
一般的,对于步骤S202中的任意一个语音帧的处理方式是,除了确定当前语音帧之外,还可以获取该语音帧的前面M个语音帧和后面M个语音帧,共获取2M+1个语音帧。
S203,提取2M+1个语音帧的语音特征信息。
其中,语音特征是指提取语音帧的MFCC(Mel-scale Frequency CepstralCoefficients,梅尔倒谱系数)特征。在语音识别方面,最常用到的是梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)。根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。提取语音帧的MFCC特征,是在将分帧之后的语音信号经过加窗以及傅里叶变化之后进行的,对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧信号的频谱,并对语音信号的频谱取模平方得到语音信号的功率谱。再将功率能量谱输入至一组三角形滤波器组,将滤波器输出的信号能量作为作为语音信号的基本特征,进一步的,对此特征经过进一步的处理处理后,最终得到语音帧的语音特征信息。这里三角带通滤波器有两个主要目的:一是对频谱进行平滑化,并消除谐波的作用,突显原先语音的共振峰。因此一段语音的音调或音高,是不会呈现在MFCC参数内,换句话说,以MFCC为特征的语音辨识系统,并不会受到输入语音的音调不同而有所影响;二是还可以降低运算量。相较于其他特征,MFCC更加符合人类听觉原理。
S204,将语音特征信息输入至语音处理模型中进行运算处理,得到语音帧的语音识别结果,语音识别结果包括静音帧和非静音帧。
其中,非静音帧是指语音数据中属于有效语音信号的那一帧语音信号,静音帧是指语音数据中属于无效语音信号的那一帧语音信号。
语音处理模型选用的是LSTM(long-short term memory,长短期记忆模型),LSTM是一种特殊的RNN(recurrent neural network,循环神经网络),主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题。可以说,就是相比普通的RNN,LSTM能够在更长的序列中有更好的表现。
在LSTM内部有三个阶段,第一个阶段是忘记阶段,即主要是对上一个节点传进来的输入进行选择性忘记;第二个阶段是选择记忆阶段,即主要是将这个阶段的输入进行选择性的记忆;第三个阶段是输出阶段,即决定输出当前状态的值。简言之,LSTM就是通过门控状态来控制传输状态,记住需要长时间记忆的,忘记不重要的信息。
如图3所示的LSTM网络的原理结构图,图中由ct-1作为输入,经过乘法器,再经过加法器,输出为ct,这条水平线表示细胞状态,LSTM的关键是细胞状态,细胞的状态类似于传送带,细胞的状态在整个链上运行,只有一些线性操作作用在其上,保持信息不变流过整个链是很容易的。LSTM还具有删除或添加信息到细胞状态的功能,这个功能是由被称为门的结构完成的,门是一种可选地让信息通过的方式,它由一个Sigmoid神经网络层和一个点乘法运算组成。Sigmoid神经网络层输出0和1之间的数字,这个数字表示每个组件有多少信息可以通过,0表示不通过任何信息,1表示全部通过。
LSTM的第一个阶段决定的是要从细胞状态中丢弃什么信息,是由被称为“忘记门”的Sigmoid层实现。它查看ht-1(前一个输出)和xt(当前输入),ft=σ[wf·(ht-1,xt)+bf],并为单元格状态ct-1(上一个状态)中的每个数字输出0和1之间的数字。1代表完全保留,0代表彻底删除。
LSTM的第二个阶段决定的是要在细胞状态中存储什么信息,该部分分为两步,第一步,由称为“输入门层”的Sigmoid层决定将更新哪些数值,it=σ[wi·(ht-1,xt)+bi];第二步,由一个tanh层创建候选向量 该向量将会被加到细胞的状态中。然后将结合这两个向量来创建更新值,将上一个状态值ct-1更新为ct。将上一个状态值ct-1乘以ft,用此来表示忘记的部分,再将作为新的输出候选值。
LSTM的第三个阶段决定的是要输出什么,输出值基于细胞状态。先运行一个Sigmoid层,ot=σ[wo·(ht-1,xt)+bo],该Sigmoid层决定要输出的细胞状态的哪些部分。再将单元格状态通过tanh(将值规范化到-1和1之间),并将其乘以Sigmoid门的输出,ht=ot*tanh(ct),然后只输出了决定输出的部分。
需要说明的是,上述描述的是一个正常的LSTM,但在实际应用中会根据需要对LSTM进行调整设计,在此不再赘述。
一般的,在将语音特征信息输入至长短期记忆神经网络模型LSTM进行运算处理之前,可以训练出一个LSTM网络模型。通过创建样本语音数据集合,进一步的,对样本语音数据进行分帧处理得到N个样本语音帧,N为大于1的整数,确定样本语音帧的前面M个样本语音帧和后面M个样本语音帧得到2M+1个样本语音帧,M为大于或等于1的整数,提取上述2M+1个样本语音帧的样本语音特征信息,将上述样本语音特征信息作为LSTM的输入特征,将所述样本语音帧的语音识别结果作为LSTM的输出特征,对LSTM进行训练,得到一个能够识别输入的语音帧是静音帧还是非静音帧的语音识别结果。
本申请实施例的方案在执行时,对语音数据进行分帧处理得到N个语音帧,N为大于1的整数,确定所述语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧,M为大于或等于1的整数,提取所述2M+1个语音帧的语音特征信息,将所述语音特征信息输入至长短期记忆神经网络模型LSTM进行运算处理得到所述语音帧的语音识别结果,所述语音识别结果包括静音帧和非静音帧。本申请通过将语音数据进行分帧处理,提取2M+1个语音帧的语音特征信息,再将该语音特征信息输入至LSTM进行处理,识别静音帧和非静音帧,提高了语音识别中区分有效语音和无效语音的准确度,进一步提高了语音识别的准确率。
请参见图4,为本申请实施例提供的一种语音处理方法的流程示意图。如图4所示,本申请实施例的所述方法可以包括以下步骤:
S401,对语音数据进行分帧处理得到N个语音帧,N为大于1的整数。
S402,确定语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧,M为大于或等于1的整数。
S403,提取所述2M+1个语音帧的语音特征信息。
一般的,S401~S403具体可参见图2中的S201~S203,在此不再赘述。
S404,创建样本语音数据集合。
在本申请实施例中,由于缺乏帧级标注的数据,可以选用具有发音长度标注的surfing数据。样本语音数据集合中可以包括正常语音样本数据和噪声语音样本数据。
S405,对样本语音数据进行分帧处理得到N个样本语音帧,N为大于1的整数。
一般的,由于语音数据在宏观上是不平稳的,而在微观上是平稳的,具有短时平稳性,在10~30ms内可以认为语音数据近似不变。因此,在对语音数据进行处理时,为了减少语音数据时变非稳态的形象,需要将语音数据进行分帧处理,即把语音数据分成一短段一短段来处理,每一短段称为一帧。所以,可以将样本语音数据进行分帧处理得到N各样本语音帧。
S406,确定样本语音帧的前面M个样本语音帧和后面M个样本语音帧得到2M+1个样本语音帧,M为大于或等于1的整数。
在一种可能的实施方式中,将M取为5,对于样本语音帧中的每一帧来说,确定该帧前5个样本语音帧以及后5个样本语音帧,总共得到11个样本语音帧。
S407,提取2M+1个样本语音帧的样本语音特征信息。
一般的,对于样本语音帧的任意一语音帧,基于S306,提取上述11个样本语音帧的语音特征信息,在本申请实施例中,可以提取上述11个样本语音帧的MFCC特征。
S408,将样本语音特征信息作为LSTM的输入特征,将样本语音帧的语音识别结果作为LSTM的输出特征,对LSTM进行训练。
一般的,对于样本语音帧的任意一个语音帧,将该样本语音帧对应的2M+1个语音帧的MFCC特征作为LSTM的输入特征,将该样本语音帧对应的实际帧类型作为LSTM的输出特征,对LSTM进行训练,可以训练出一个能够根据语音帧的特征信息识别出该语音帧的类型,是静音帧还是非静音帧。
S409,将语音特征信息输入至LSTM进行运算处理得到语音帧的语音识别结果,语音识别结果包括静音帧和非静音帧。
一般的,根据训练好的LSTM模型,将待处理的N个语音帧的语音特征信息输入至LSTM,经过运算之后,得到N个语音帧的识别结果,即N个语音帧中包括的静音帧和非静音帧。
S410,在目标语音帧为非静音帧时,判断目标语音帧的前面M个语音帧以及目标语音帧的后面M个语音帧是否都为非静音帧。
一般的,基于S408中的N个语音帧的识别结果,对于部分语音帧的异常识别结果,可以进行窗口平滑处理。对语音识别结果进行窗口平滑处理是指对N个语音帧的语音识别结果中出现的部分异常结果进行处理。将出现异常结果的语音帧称为目标语音帧,在目标语音帧为非静音帧时,判断该目标语音帧的前面M个语音帧以及该目标语音帧的后面M个语音帧是否都为非静音帧,M为大于或等于1的整数,若不是,则将该目标语音帧调整为静音;在该目标语音帧为静音帧时,判断该目标语音帧的前面M个语音帧以及该目标语音帧的后面M个语音帧是否都为静音帧,若不是,则将该目标语音帧调整为非静音帧。
假如将M取为5,在目标语音帧为非静音帧时,判断目标语音帧的前5个语音帧以及后5个语音帧是否都为非静音帧。
S411,若不是,则将目标语音帧调整为静音帧。
S412,在目标语音帧为静音帧时,判断目标语音帧的前面M个语音帧以及目标语音帧的后面M个语音帧是否都为静音帧。
一般的,基于S408中的N个语音帧的识别结果,对于部分语音帧的异常识别结果,可以进行窗口平滑处理,假如将M取为5,在目标语音帧为静音帧时,判断目标语音帧的前5个语音帧以及后5个语音帧是否都为静音帧。
S413,若不是,则将目标语音帧调整为非静音帧。
S414,在N个语音帧中筛选出静音帧,根据静音帧生成有效语音数据。
一般的,根据N个语音帧的语音识别结果,以及对语音识别结果进行平滑处理之后,从N个语音帧中筛选出静音帧,假如连续的多个语音帧为非静音帧,则可以确定当前的语音数据中存在语音开始端点,假如连续的多个语音帧为静音帧,则可以确定当前的语音数据中存在语音结束端点。基于此,可以将有效的语音数据和无效的语音数据进行分离,从带有噪声数据语音中精准的定位出语音的开始点和结束点,进一步的生成有效语音数据。
本申请实施例的方案在执行时,对语音数据进行分帧处理得到N个语音帧,N为大于1的整数,确定所述语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧,M为大于或等于1的整数,提取所述2M+1个语音帧的语音特征信息,将所述语音特征信息输入至长短期记忆神经网络模型LSTM进行运算处理得到所述语音帧的语音识别结果,所述语音识别结果包括静音帧和非静音帧。本申请通过将语音数据进行分帧处理,提取2M+1个语音帧的语音特征信息,再将该语音特征信息输入至LSTM进行处理,识别静音帧和非静音帧,提高了语音识别中区分有效语音和无效语音的准确度,进一步提高了语音识别的准确率。
请参见图5,为本申请实施例提供的一种语音处理装置的结构示意图。该在线教学交互装置500可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分。装置500包括:
分帧模块510,用于对语音数据进行分帧处理得到N个语音帧;其中,N为大于1的整数;
提取语音帧模块520,用于确定所述语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧;其中,M为大于或等于1的整数;
提取特征模块530,用于提取所述2M+1个语音帧的语音特征信息;
语音识别模块540,用于将所述语音特征信息输入至长短期记忆神经网络模型LSTM进行运算处理得到所述语音帧的语音识别结果;其中,所述语音识别结果包括静音语音帧和非静音语音帧;
平滑处理模块550,用于将所述N个语音帧的语音识别结果进行窗口平滑处理。
可选地,装置500还包括:
样本数据创建模块,用于创建样本语音数据集合;
样本数据分帧模块,用于对所述样本语音数据进行分帧处理得到N个样本语音帧;其中,N为大于1的整数;
样本数据确定模块,用于确定所述样本语音帧的前面M个样本语音帧和后面M个样本语音帧得到2M+1个样本语音帧;其中,M为大于或等于1的整数;
样本数据特征提取模块,用于提取所述2M+1个样本语音帧的样本语音特征信息;
模型训练模块,用于将所述样本语音特征信息作为LSTM的输入特征,将所述样本语音帧的语音识别结果作为LSTM的输出特征,对LSTM进行训练。
可选地,平滑处理模块550包括:
第一平滑处理单元,用于在目标语音帧为非静音帧时,判断所述目标语音帧的前面M个语音帧以及所述目标语音帧的后面M个语音帧是否都为非静音帧;其中,M为大于或等于1的整数;
第一调整单元,用于将所述目标语音帧调整为静音帧。
可选地,平滑处理模块550包括:
第一平滑处理单元,用于在目标语音帧为静音帧时,判断所述目标语音帧的前面M个语音帧以及所述目标语音帧的后面M个语音帧是否都为静音帧;其中,M为大于或等于1的整数;
第一调整单元,用于将所述目标语音帧调整为非静音帧。
可选地,装置500还包括:
有效语音生成模块,用于在所述N个语音帧中筛选出非静音帧,根据所述非静音帧生成有效语音数据。
本申请实施例的方案在执行时,对语音数据进行分帧处理得到N个语音帧,N为大于1的整数,确定所述语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧,M为大于或等于1的整数,提取所述2M+1个语音帧的语音特征信息,将所述语音特征信息输入至长短期记忆神经网络模型LSTM进行运算处理得到所述语音帧的语音识别结果,所述语音识别结果包括静音帧和非静音帧。本申请通过将语音数据进行分帧处理,提取2M+1个语音帧的语音特征信息,再将该语音特征信息输入至LSTM进行处理,识别静音帧和非静音帧,提高了语音识别中区分有效语音和无效语音的准确度,进一步提高了语音识别的准确率。
本申请实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述的方法步骤,具体执行过程可以参见图2和图4所示实施例的具体说明,在此不进行赘述。
本申请还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的语音处理方法。
以上介绍仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种语音处理方法,其特征在于,所述方法包括:
对语音数据进行分帧处理得到N个语音帧;其中,N为大于1的整数;
对于其中至少一个语音帧中的每个当前语音帧,进行如下计算:
确定所述当前语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧;其中,M为大于或等于1的整数;
提取所述2M+1个语音帧的语音特征信息;
将所述语音特征信息输入至语音处理模型中进行运算处理,得到所述当前语音帧的语音识别结果;其中,所述语音识别结果包括静音帧和非静音帧。
2.根据权利要求1所述的方法,其特征在于,所述语音处理模型为长短期记忆神经网络模型LSTM,所述LSTM预先经过训练,其训练过程包括:
创建样本语音数据集合;
对所述样本语音数据进行分帧处理得到N个样本语音帧;其中,N为大于1的整数;
确定所述样本语音帧的前面M个样本语音帧和后面M个样本语音帧得到2M+1个样本语音帧;其中,M为大于或等于1的整数;
提取所述2M+1个样本语音帧的样本语音特征信息;
将所述样本语音特征信息作为所述LSTM的输入特征,将所述样本语音帧的语音识别结果作为所述LSTM的输出特征,对所述LSTM进行训练。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述N个语音帧的语音识别结果进行窗口平滑处理。
4.根据权利要求3所述的方法,其特征在于,所述将所述N个语音帧的语音识别结果进行窗口平滑处理,包括:
当识别出的目标语音帧为非静音帧时,判断所述目标语音帧的前面M个语音帧以及所述目标语音帧的后面M个语音帧是否都为非静音帧;其中,M为大于或等于1的整数;
若不是,则将所述目标语音帧调整为静音帧。
5.根据权利要求3所述的方法,其特征在于,所述将所述N个语音帧的语音识别结果进行窗口平滑处理,还包括:
识别出的目标语音帧为静音帧时,判断所述目标语音帧的前面M个语音帧以及所述目标语音帧的后面M个语音帧是否都为静音帧;其中,M为大于或等于1的整数;
若不是,则将所述目标语音帧调整为非静音帧。
6.根据权利要求3或4所述的方法,其特征在于,所述将所述N个语音帧的语音识别结果进行窗口平滑处理之后,还包括:
在所述N个语音帧中筛选出非静音帧,根据所述非静音帧生成有效语音数据。
7.一种语音处理装置,其特征在于,所述装置包括:
分帧模块,用于对语音数据进行分帧处理得到N个语音帧;其中,N为大于1的整数;
计算模块,用于对于其中至少一个语音帧中的每个当前语音帧,进行如下计算:
提取语音帧单元,用于确定所述语音帧的前面M个语音帧和后面M个语音帧得到2M+1个语音帧;其中,M为大于或等于1的整数;
提取特征单元,用于提取所述2M+1个语音帧的语音特征信息;
语音识别单元,用于将所述语音特征信息输入至长短期记忆神经网络模型LSTM进行运算处理得到所述语音帧的语音识别结果;其中,所述语音识别结果包括静音语音帧和非静音语音帧。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
样本数据模块,用于创建样本语音数据集合;
样本分帧模块,用于对所述样本语音数据进行分帧处理得到N个样本语音帧;其中,N为大于1的整数;
提取样本语音帧模块,用于确定所述样本语音帧的前面M个样本语音帧和后面M个样本语音帧得到2M+1个样本语音帧;其中,M为大于或等于1的整数;
样本特征提取模块,用于提取所述2M+1个样本语音帧的样本语音特征信息;
模型训练模块,用于将所述样本语音特征信息作为LSTM的输入特征,将所述样本语音帧的语音识别结果作为LSTM的输出特征,对LSTM进行训练。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~5任意一项的方法步骤。
10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~6任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010465071.4A CN111755029B (zh) | 2020-05-27 | 2020-05-27 | 语音处理方法、装置、存储介质以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010465071.4A CN111755029B (zh) | 2020-05-27 | 2020-05-27 | 语音处理方法、装置、存储介质以及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111755029A true CN111755029A (zh) | 2020-10-09 |
CN111755029B CN111755029B (zh) | 2023-08-25 |
Family
ID=72673621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010465071.4A Active CN111755029B (zh) | 2020-05-27 | 2020-05-27 | 语音处理方法、装置、存储介质以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111755029B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022083039A1 (zh) * | 2020-10-20 | 2022-04-28 | 网易(杭州)网络有限公司 | 语音处理方法、计算机存储介质及电子设备 |
WO2023202352A1 (zh) * | 2022-04-21 | 2023-10-26 | 北京字跳网络技术有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0348900A (ja) * | 1989-07-18 | 1991-03-01 | Toshiba Corp | 有音検出装置及びその方法 |
EP1569200A1 (en) * | 2004-02-26 | 2005-08-31 | Sony International (Europe) GmbH | Identification of the presence of speech in digital audio data |
CN106356077A (zh) * | 2016-08-29 | 2017-01-25 | 北京理工大学 | 一种笑声检测方法及装置 |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
US20190385636A1 (en) * | 2018-06-13 | 2019-12-19 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice activity detection method and apparatus |
US20190392859A1 (en) * | 2018-12-05 | 2019-12-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for voice activity detection |
CN110619871A (zh) * | 2018-06-20 | 2019-12-27 | 阿里巴巴集团控股有限公司 | 语音唤醒检测方法、装置、设备以及存储介质 |
CN110706694A (zh) * | 2019-09-26 | 2020-01-17 | 成都数之联科技有限公司 | 一种基于深度学习的语音端点检测方法及系统 |
-
2020
- 2020-05-27 CN CN202010465071.4A patent/CN111755029B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0348900A (ja) * | 1989-07-18 | 1991-03-01 | Toshiba Corp | 有音検出装置及びその方法 |
EP1569200A1 (en) * | 2004-02-26 | 2005-08-31 | Sony International (Europe) GmbH | Identification of the presence of speech in digital audio data |
CN106356077A (zh) * | 2016-08-29 | 2017-01-25 | 北京理工大学 | 一种笑声检测方法及装置 |
US20190385636A1 (en) * | 2018-06-13 | 2019-12-19 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice activity detection method and apparatus |
CN110619871A (zh) * | 2018-06-20 | 2019-12-27 | 阿里巴巴集团控股有限公司 | 语音唤醒检测方法、装置、设备以及存储介质 |
US20190392859A1 (en) * | 2018-12-05 | 2019-12-26 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for voice activity detection |
CN110047510A (zh) * | 2019-04-15 | 2019-07-23 | 北京达佳互联信息技术有限公司 | 音频识别方法、装置、计算机设备及存储介质 |
CN110706694A (zh) * | 2019-09-26 | 2020-01-17 | 成都数之联科技有限公司 | 一种基于深度学习的语音端点检测方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022083039A1 (zh) * | 2020-10-20 | 2022-04-28 | 网易(杭州)网络有限公司 | 语音处理方法、计算机存储介质及电子设备 |
WO2023202352A1 (zh) * | 2022-04-21 | 2023-10-26 | 北京字跳网络技术有限公司 | 一种语音识别方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111755029B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
CN111210021B (zh) | 一种音频信号处理方法、模型训练方法以及相关装置 | |
CN112259106A (zh) | 声纹识别方法、装置、存储介质及计算机设备 | |
CN110310623A (zh) | 样本生成方法、模型训练方法、装置、介质及电子设备 | |
CN112289299A (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN110021307A (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN109545192A (zh) | 用于生成模型的方法和装置 | |
CN110473554B (zh) | 音频校验方法、装置、存储介质及电子设备 | |
CN111653265B (zh) | 语音合成方法、装置、存储介质和电子设备 | |
CN111755029B (zh) | 语音处理方法、装置、存储介质以及电子设备 | |
CN113129867B (zh) | 语音识别模型的训练方法、语音识别方法、装置和设备 | |
CN108305639A (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN113921022A (zh) | 音频信号分离方法、装置、存储介质和电子设备 | |
CN110718210B (zh) | 一种英文错误发音的识别方法、装置、介质和电子设备 | |
CN112562723A (zh) | 发音准确度确定方法、装置、存储介质和电子设备 | |
Labied et al. | An overview of automatic speech recognition preprocessing techniques | |
CN111862961A (zh) | 识别语音的方法和装置 | |
CN112466328B (zh) | 呼吸音检测方法、装置和电子设备 | |
CN114446268B (zh) | 一种音频数据处理方法、装置、电子设备、介质和程序产品 | |
CN110070891B (zh) | 一种歌曲识别方法、装置以及存储介质 | |
CN116825113A (zh) | 语谱图生成方法、装置、设备及计算机可读存储介质 | |
CN112259077B (zh) | 语音识别方法、装置、终端和存储介质 | |
CN114999440A (zh) | 虚拟形象生成方法、装置、设备、存储介质以及程序产品 | |
Płonkowski | Using bands of frequencies for vowel recognition for Polish language | |
CN113539239A (zh) | 语音转换方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |