CN112002343A - 语音纯度的识别方法、装置、存储介质及电子装置 - Google Patents
语音纯度的识别方法、装置、存储介质及电子装置 Download PDFInfo
- Publication number
- CN112002343A CN112002343A CN202010832990.0A CN202010832990A CN112002343A CN 112002343 A CN112002343 A CN 112002343A CN 202010832990 A CN202010832990 A CN 202010832990A CN 112002343 A CN112002343 A CN 112002343A
- Authority
- CN
- China
- Prior art keywords
- audio
- pure
- speech
- purity
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000012549 training Methods 0.000 claims abstract description 55
- 238000010801 machine learning Methods 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000000306 recurrent effect Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000000694 effects Effects 0.000 abstract description 4
- 238000012545 processing Methods 0.000 description 11
- 238000009432 framing Methods 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 238000012821 model calculation Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006386 memory function Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mobile Radio Communication Systems (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明实施例提供了一种语音纯度的识别方法、装置、存储介质及电子装置,其中,该方法包括:获取目标音频的信号特征;使用第一模型对信号特征进行识别,以确定目标音频的语音纯度,其中,第一模型为使用多组训练数据对初始模型进行机器学习训练后得到的模型,多组训练数据中的每组数据均包括:第一音频和用于标识第一音频的语音纯度的标识信息,第一音频为利用第一纯净语音对第二纯净语音进行加扰后所得到的音频,第一纯净语音和第二纯净语音为同一纯净音频中所包括的语音,其中,纯净音频为不包含噪声的音频。通过本发明,解决了相关技术中存在的识别语音纯度准确率低的问题,达到提高识别语音纯度准确率的效果。
Description
技术领域
本发明实施例涉及通信领域,具体而言,涉及一种语音纯度的识别方法、装置、存储介质及电子装置。
背景技术
语音信号处理技术是当今人机交互领域的一项关键技术,且很多环节都需要依赖语音纯净程度,例如,判断语料是否适合降噪训练,判断麦克风阵列哪个方向波束干扰更少等。
在相关技术中,判断语音信号纯净程度的主要手段是计算信噪比,也就是计算信号的平均功率和噪声的平均功率之比,即计算信号的能量与噪声的能量之比,信噪比公式为其中,s2(t)为纯净语音能量,n2(t)为噪声能量,用分贝(dB)作为度量单位,信噪比越小说明信号的纯度越高。然而,计算信噪比获得语音纯度在很多情况下不够准确,对于一段带有噪声干扰的语音,为计算其信噪比,通常用没有语音的部分估计背景噪声干扰能量,再用语音部分与之作差估计纯净语音能量,从而计算信噪比,但一般情况下,没有语音部分的噪声干扰能量和语音段的干扰能量不同,这就会导致信噪比计算不准确,其中,带干扰的语音波形和频谱参考图如图1所示。
由此可知,相关技术中存在识别语音纯度准确率低的问题。
针对相关技术中存在的上述问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种语音纯度的识别方法、装置、存储介质及电子装置,以至少解决相关技术中存在的识别语音纯度准确率低的问题。
根据本发明的一个实施例,提供了一种语音纯度的识别方法,包括:获取目标音频的信号特征;使用第一模型对所述信号特征进行识别,以确定所述目标音频的语音纯度,其中,所述第一模型为使用多组训练数据对初始模型进行机器学习训练后得到的模型,所述多组训练数据中的每组数据均包括:第一音频和用于标识所述第一音频的语音纯度的标识信息,所述第一音频为利用第一纯净语音对第二纯净语音进行加扰后所得到的音频,所述第一纯净语音和所述第二纯净语音为同一纯净音频中所包括的语音,其中,所述纯净音频为不包含噪声的音频。
根据本发明的另一个实施例,提供了一种语音纯度的识别装置,包括:获取模块,用于获取目标音频的信号特征;识别模块,用于使用第一模型对所述信号特征进行识别,以确定所述目标音频的语音纯度,其中,所述第一模型为使用多组训练数据对初始模型进行机器学习训练后得到的模型,所述多组训练数据中的每组数据均包括:第一音频和用于标识所述第一音频的语音纯度的标识信息,所述第一音频为利用第一纯净语音对第二纯净语音进行加扰后所得到的音频,所述第一纯净语音和所述第二纯净语音为同一纯净音频中所包括的语音,其中,所述纯净音频为不包含噪声的音频。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述方法实施例中的步骤。
通过本发明,在获取到目标音频的信号特征之后,利用第一模型对信号特征进行识别,确定出目标音频的语音纯度,由于第一模型是通过多组训练数据经过机器学习训练得到的模型,识别准确率高,因此,可以解决相关技术中存在的识别语音纯度准确率低的问题,达到提高识别语音纯度准确率的效果。
附图说明
图1是本发明相关技术中的带干扰的语音波形和频谱参考图;
图2是本发明实施例的一种语音纯度的识别方法的移动终端的硬件结构框图;
图3是根据本发明实施例的语音纯度的识别方法的流程图;
图4是根据本发明示例性实施例的语音纯度的识别方法的流程图一;
图5是根据本发明示例性实施例的语音纯度的识别方法的流程图二;
图6是根据本发明示例性实施例的语音纯度的识别方法的流程图三;
图7是根据本发明示例性实施例的获取目标音频的信号特征流程图;
图8是根据本发明示例性实施例的使用第一模型对信号特征进行识别以确定目标音频的语音纯度流程图;
图9是根据本发明具体实施例的语音纯度的识别方法流程图;
图10是根据本发明实施例的语音纯度的识别装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图2是本发明实施例的一种语音纯度的识别方法的移动终端的硬件结构框图。如图2所示,移动终端可以包括一个或多个(图2中仅示出一个)处理器202(处理器202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器204,其中,上述移动终端还可以包括用于通信功能的传输设备206以及输入输出设备208。本领域普通技术人员可以理解,图2所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。
存储器204可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音纯度的识别方法对应的计算机程序,处理器202通过运行存储在存储器204内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器204可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器204可进一步包括相对于处理器202远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输装置206包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置206可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种语音纯度的识别方法,图3是根据本发明实施例的语音纯度的识别方法的流程图,如图3所示,该流程包括如下步骤:
步骤S302,获取目标音频的信号特征;
步骤S304,使用第一模型对所述信号特征进行识别,以确定所述目标音频的语音纯度,其中,所述第一模型为使用多组训练数据对初始模型进行机器学习训练后得到的模型,所述多组训练数据中的每组数据均包括:第一音频和用于标识所述第一音频的语音纯度的标识信息,所述第一音频为利用第一纯净语音对第二纯净语音进行加扰后所得到的音频,所述第一纯净语音和所述第二纯净语音为同一纯净音频中所包括的语音,其中,所述纯净音频为不包含噪声的音频。
在上述实施例中,目标音频可以是手动输入的音频或者是通过其他方式输入的音频,还可以是自主采集到的环境中的声音,或者采集到的由其他播放设备播放的音频等。第一模型可以是通过多组训练数据进行机器学习训练后得到模型,例如,RNN(RecurrentNeural Network,循环神经网络)模型、DNN(Deep Neural Networks,深度神经网络)模型。第一纯净语音和第二纯净语音可以是同一纯净音频中的部分语音,例如,第一纯净语音可以是一段纯净音频的前半段,第二纯净语音可以是该段音频的后半段,当然,第一纯净语音还可以是一段纯净音频的前三分之一,第二纯净语音可以是该段纯净音频的后二分之一,本发明对第一纯净语音和第二纯净语音的时长不做限制。
在上述实施例中,获取目标音频的信号特征可以通过如下方式:
首先,对目标音频进行分帧加窗,目标音频经过分帧加窗处理消除帧边界的频谱不连续。对目标音频进行分帧可以采用2n个点进行分帧,如,152、256、1024等。
然后,对分帧加窗后的目标音频进行短时傅里叶变换,将目标音频变换到频域,便于提取频域特征。
最后,特征提取。基于循环神经网络模型,提取22维的Bark频域特征、6个Bark频域特征的一阶和二阶差分、6个与音频的声调特征相关的系数、1个声调周期、1个频谱动态特征,共计42个特征。需要说明的是,上述提取的特征数量仅是一种示例性的实施方式,特征的数量可以人为设定,例如,还可以取40个特征,44个特征等。
示例性的,上述步骤的执行主体可以是后台处理器,或者其他的具备类似处理能力的设备,还可以是至少集成有音频获取设备以及数据处理设备的机器,其中,音频获取设备可以包括麦克风等音频采集模块,数据处理设备可以包括计算机、手机等终端,但不限于此。
通过本发明,在获取到目标音频的信号特征之后,利用第一模型对信号特征进行识别,确定出目标音频的语音纯度,由于第一模型是通过多组训练数据经过机器学习训练得到的模型,识别准确率高,因此,可以解决相关技术中存在的识别语音纯度准确率低的问题,达到提高识别语音纯度准确率的效果。
在一个示例性实施例中,语音纯度的识别方法的流程图一可参见附图4,如图4所示,在使用第一模型对所述信号特征进行识别之前,所述方法还包括:
步骤S402,按照预定干扰系数将所述第一纯净语音加扰到所述第二纯净语音上,以得到所述第一音频;
步骤S404,确定与所述预定干扰系数对应的所述标识信息。
在本实施例中,预定干扰系数可以是根据人为设定的系数,还可以是根据第一纯净语音和第二纯净语音的平均功率之比根据预定规则计算得到的系数,按照预定干扰系数将第一纯净语音加扰到第二纯净语音上,以得到第一音频,例如,干扰系数为0.3,则将第一纯净语音的平均功率与该预定干扰系数,即第一纯净语音的平均功率与0.3相乘,再将上述语音加扰到第二纯净语音上,以得到第一音频。其中,预定干扰系数对应的标识信息可以是人为设定的标识,可以按照预定干扰系数的大小顺序确定标识信息,标识信息可以为数字、字母等。例如,可以设置为预定干扰系数越大,标识信息越小,示例性的,预定干扰系数为1,则标识信息为0.2,预定干扰系数为0.8,则标识信息为0.4,预定干扰系数为0.6,则标识信息为0.6等。即,可以将纯净声源的标识信息设置为1,带干扰的音频按照功率比从大到小依次每帧标为0.2,0.4,0.6,0.8等,表示语音纯净程度的分数。上述对应关系仅是一种示例性说明,本发明对预定干扰系数与标识信息的对应关系不做限制,本领域技术人员可以自行设置预定干扰系数与标识信息的对应关系,例如,还可以预定干扰系数对应的标识信息为字母,预定干扰系数越大,对应的字母越靠前,示例性的,预定干扰系数为1,则标识信息为a,预定干扰系数为0.8,则标识信息为b等。
在一个示例性实施例中,语音纯度的识别方法的流程图二可参见附图5,如图5所示,在按照预定干扰系数将所述第一纯净语音加扰到所述第二纯净语音上,以得到所述第一音频之前,所述方法还包括:
步骤S502,去除所述纯净音频中的静音部分以得到第一语音;
步骤S504,将所述第一语音中的第一部分语音确定为所述第一纯净语音,将所述第一语音中的第二部分语音确定为所述第二纯净语音。
在本实施例中,可以将纯净音频去掉静音段只保留语音以得到第一语音,将第一语音中的部分语料作为声源(对应于上述第一纯净语音),部分作为干扰(对应于上述第二纯净语音),由此可知,第一纯净语音和第二纯净语音可以是同一段纯净音频中的部分音频,例如,第一纯净语音可以是一段纯净音频的前半段,第二纯净语音可以是该段音频的后半段,当然,第一纯净语音还可以是一段纯净音频的前三分之一,第二纯净语音可以是该段纯净音频的后二分之一,本发明对第一纯净语音和第二纯净语音的时长不做限制。
在一个示例性实施例中,语音纯度的识别方法的流程图三可参见附图6,如图6所示,在按照预定干扰系数将所述第一纯净语音加扰到所述第二纯净语音上,以得到所述第一音频之前,所述方法还包括:
步骤S602,将第一设定值与第一预定系数的乘积确定为所述预定干扰系数,其中,所述第一设定值为所述第二纯净语音的能量与所述第一纯净语音的能量和第二设定值的乘积的比的常用对数,所述第二设定值为第二预定系数的指数函数,所述指数函数为所述预定功率比与第三预定系数的比值。
在本实施例中,预定干扰系数可以是其中,等号右边的“10”为第一预定系数,为第一设定值,s2(t)为第二纯净语音的能量,即,第二纯净语音的平均功率,n2(t)为噪声(对应于上述第一纯净语音)能量,即第一纯净语音的平均功率,为第二设定值,其中,第二预定系数为指数函数的底数10,第三预定系数为指数中的10,x为功率比,即第一纯净语音的能量与第二纯净语音的能量之比,示例性的,可以x可以取20dB,15dB,10dB,5dB(该取值仅是一种示例性的实施方式,功率比的取值可以是人为设定,本发明对此功率比不做限制,可以根据模型训练的需要设定不同的功率比,例如,还可以为3dB,25dB,30dB等)。需要说明的是,上述第一预定系数、第二预定系数、第三预定系数仅是一种示例性的实施方式,第一预定系数、第二预定系数、第三预定系数可以相同,也可以不同,本发明对上述预定系数不做限制,本领域技术人员可以根据模型训练的需要自行设定预定系数,例如,预定系数还可以是5,8,12等。
在本实施例中,可以按照对个不同的功率比,例如20dB,15dB,10dB,5dB,利用上述公式,计算出多个预定干扰系数,将干扰叠加到声源上,即第一纯净语音加扰到第二纯净语音上,得到多组训练语料(对应于上述第一音频)。
在一个示例性实施例中,获取目标音频的信号特征流程图可参见附图7,如图7所示,该流程包括:
步骤S702,分别获取所述目标音频中包括的多个音频帧的信号特征;
使用第一模型对所述信号特征进行识别,以确定所述目标音频的语音纯度流程图可以参见附图8,如图8所示,该流程包括:
步骤S802,使用所述第一模型分别对所述多个音频帧的信号特征进行识别,以分别确定所述多个音频帧的语音纯度;将所述多个音频帧的语音纯度确定为所述目标音频的语音纯度。
在本实施例中,分别获取目标音频中的每一帧音频的信号特征,即,可以对目标音频进行分帧处理,一帧音频的长度可以是160个点,即10ms,需要说明的是,每帧音频的长度可以是人为设定的,例如,还可以是8ms,15ms等。获取到每一帧音频的信号特征之后,使用第一模型分别对每一帧音频的信号特征进行识别,确定出每一帧音频的语音纯度。若第一模型计算结果为1,则判断该帧音频为纯净语音,若第一模型计算结果小于1,则值越小,即给音频打的分数越少,说明所带干扰越多,语音纯净程度越低。
在一个示例性实施例中,在使用第一模型对所述信号特征进行识别之前,所述方法还包括:获取多组所述训练数据;使用多组所述训练数据通过所述机器学习对初始模型进行训练,以得到所述第一模型。在本实施例中,在使用第一模型对信号特征进行识别之前,可以获取多组训练数据,使用多组训练数据通过机器学习对初始模型进行训练以得到第一模型,其中,多组训练数据包括第一音频及用于标识第一音频的语音纯度的标识信息。在训练时,可以对第一音频包括的每一帧音频进行特征提取,特征提取方式可参见前述获取目标音频的信号特征的方式,在此不再赘述。提取到第一音频的特征后,将第一音频的特征输入到初始模型中训练得到第一模型。利用循环神经网络对带有不同功率比的干扰语音进行打分训练,可以对每一帧给出分数来判断语音纯净程度,从而避免由于各时间段噪声干扰能量不同导致语音纯度估计不准确的问题。
在一个示例性实施例中,所述初始模型包括循环神经网络RNN模型。在本实施例中,初始模型可以为RNN模型,还可以为DNN模型,当初始模型为RNN模型时,第一模型则为通过多组训练数据对RNN通过机器学习后得到的RNN模型,利用RNN模型的记忆能力可以更好地对时序的语音信号进行建模,特别是噪声环境下具有很好的性能,通过对带有不同功率比干扰的语音打分训练,可以更加准确的判断音频的纯净程度。当初始模型为DNN模型时,第一模型则为通过多组训练数据对DNN通过机器学习后得到的DNN模型。
下面结合具体实施方式对如何进行语音纯度的识别进行说明:
图9是根据本发明具体实施例的语音纯度的识别方法流程图,如图9所示,该流程包括:
步骤S902,叠加声源(对应于第二纯净语音)和干扰音频(对应于第一纯净语音)。将纯净语料(对应于上述纯净音频)去掉静音段只保留语音(对应于上述第一语音),部分语料作为声源,部分作为干扰音频,按照20dB,15dB,10dB,5dB的功率比,即能量比,利用公式计算出干扰系数α,将干扰叠加到声源上,得到训练语料。其中,x为功率比,s2(t)为纯净语音能量,n2(t)为噪声能量。
步骤S904,对音频中包括的每一帧音频打标签(对应于上述标识信息)。将纯净声源标为1,带干扰的音频按照功率比从大到小依次每帧标为0.2,0.4,0.6,0.8,表示语音纯净程度的分数,其中,标签为人为设定的值,标签值越大,代表语音纯净度越高。
步骤S906,特征提取。基于循环神经网络模型,提取22维的Bark频域特征、6个Bark频域特征的一阶和二阶差分、6个与音频的声调特征相关的系数、1个声调周期、1个频谱动态特征,共计42个特征。其中,提取的特征是提取每一帧的特征,即对第一语音中包括的每一帧音频进行特征提取,每一帧的音频长度是人为设定的,可以取160个点,即10ms,当然,还可以取8ms,15ms等。其中,提取的特征包括频域特征,因此,可以对音频进行分帧加窗和短时傅里叶变换处理,将音频从时域转换为频域,便于提取特征。分帧加窗:输入信号,即纯净带干扰语音的音频(对应于上述第一语音),经过分帧加窗处理消除帧边界的频谱不连续。其中,此处分帧采用2n倍进行采点,如152个点,256个点,1024个点等。短时傅里叶变换:将输入信号变换到频域,便于提取频域特征。
步骤S908,RNN模型训练。将语料特征数据送入循环神经网络进行训练,得到训练好的RNN模型。
步骤S910,输入目标音频。
步骤S912,提取目标音频的特征,提取方式可参见步骤S906。
步骤S914,RNN模型计算。将输入信号(对应于上述目标音频)特征送入循环神经网络完成语音信号纯净程度分数的计算。
步骤S916,模型结果。若RNN模型计算结果为1,则判断为纯净语音,若RNN模型计算结果小于1,则值越小,即,给音频打的分数越少,说明所带干扰越多,语音纯净程度越低。需要说明的是,对语音纯度的判断是一帧一帧判断的,最后得到的是每一帧音频的语音纯度。
需要说明的是,步骤S902-S908是模型训练的过程,步骤S910-S916是模型使用的过程,即,初始模型训练完成后,利用训练好的音频识别输入的目标音频。
在前述实施例中,采用循环神经网络实现对声源和干扰建模,进而实现对语音纯度进行打分,由于语音的时序特性,采用循环神经网络可以利用其时序记忆功能达到更好的建模能力,从而达到更好的语音纯度判决能力,并且可以对每帧给出语音纯度分数,便于信号处理过程中分帧分析。此外,采用循环神经网络算法结构清晰,易于实现。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种语音纯度的识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图10是根据本发明实施例的语音纯度的识别装置的结构框图,如图10所示,该装置包括:
获取模块1002,用于获取目标音频的信号特征;
识别模块1004,用于使用第一模型对所述信号特征进行识别,以确定所述目标音频的语音纯度,其中,所述第一模型为使用多组训练数据对初始模型进行机器学习训练后得到的模型,所述多组训练数据中的每组数据均包括:第一音频和用于标识所述第一音频的语音纯度的标识信息,所述第一音频为利用第一纯净语音对第二纯净语音进行加扰后所得到的音频,所述第一纯净语音和所述第二纯净语音为同一纯净音频中所包括的语音,其中,所述纯净音频为不包含噪声的音频。
在上述实施例中,目标音频可以是手动输入的音频或者是通过其他方式输入的音频,还可以是自主采集到的环境中的声音,或者采集到的由其他播放设备播放的音频等。第一模型可以是通过多组训练数据进行机器学习训练后得到模型,例如,RNN(RecurrentNeural Network,循环神经网络)模型、DNN(Deep Neural Networks,深度神经网络)模型。第一纯净语音和第二纯净语音可以是同一纯净音频中的部分语音,例如,第一纯净语音可以是一段纯净音频的前半段,第二纯净语音可以是该段音频的后半段,当然,第一纯净语音还可以是一段纯净音频的前三分之一,第二纯净语音可以是该段纯净音频的后二分之一,本发明对第一纯净语音和第二纯净语音的时长不做限制。
在上述实施例中,获取目标音频的信号特征可以通过如下方式:
首先,对目标音频进行分帧加窗,目标音频经过分帧加窗处理消除帧边界的频谱不连续。对目标音频进行分帧可以采用2n个点进行分帧,如,152、256、1024等。
然后,对分帧加窗后的目标音频进行短时傅里叶变换,将目标音频变换到频域,便于提取频域特征。
最后,特征提取。基于循环神经网络模型,提取22维的Bark频域特征、6个Bark频域特征的一阶和二阶差分、6个与音频的声调特征相关的系数、1个声调周期、1个频谱动态特征,共计42个特征。需要说明的是,上述提取的特征数量仅是一种示例性的实施方式,特征的数量可以人为设定,例如,还可以取40个特征,44个特征等。
通过本发明,在获取到目标音频的信号特征之后,利用第一模型对信号特征进行识别,确定出目标音频的语音纯度,由于第一模型是通过多组训练数据经过机器学习训练得到的模型,识别准确率高,因此,可以解决相关技术中存在的识别语音纯度准确率低的问题,达到提高识别语音纯度准确率的效果。
在一个示例性实施例中,所述装置可以用于在使用第一模型对所述信号特征进行识别之前,按照预定干扰系数将所述第一纯净语音加扰到所述第二纯净语音上,以得到所述第一音频;确定与所述预定干扰系数对应的所述标识信息。
在一个示例性实施例中,所述装置还可以用于在按照预定干扰系数将所述第一纯净语音加扰到所述第二纯净语音上,以得到所述第一音频之前,去除所述纯净音频中的静音部分以得到第一语音;将所述第一语音中的第一部分语音确定为所述第一纯净语音,将所述第一语音中的第二部分语音确定为所述第二纯净语音。
在一个示例性实施例中,所述装置还可以用于在按照预定干扰系数将所述第一纯净语音加扰到所述第二纯净语音上,以得到所述第一音频之前,将第一设定值与第一预定系数的乘积确定为所述预定干扰系数,其中,所述第一设定值为所述第二纯净语音的能量与所述第一纯净语音的能量和第二设定值的乘积的比的常用对数,所述第二设定值为第二预定系数的指数函数,所述指数函数为所述预定功率比与第三预定系数的比值。
在一个示例性实施例中,所述获取模块1002可以通过如下方式实现获取目标音频的信号特征:分别获取所述目标音频中包括的多个音频帧的信号特征;所述识别模块1004可以通过如下方式实现使用第一模型对所述信号特征进行识别,以确定所述目标音频的语音纯度:使用所述第一模型分别对所述多个音频帧的信号特征进行识别,以分别确定所述多个音频帧的语音纯度;将所述多个音频帧的语音纯度确定为所述目标音频的语音纯度。
在一个示例性实施例中,所述装置还可以用于在使用第一模型对所述信号特征进行识别之前,获取多组所述训练数据;使用多组所述训练数据通过所述机器学习对初始模型进行训练,以得到所述第一模型。
在一个示例性实施例中,所述初始模型包括循环神经网络RNN模型。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音纯度的识别方法,其特征在于,包括:
获取目标音频的信号特征;
使用第一模型对所述信号特征进行识别,以确定所述目标音频的语音纯度,其中,所述第一模型为使用多组训练数据对初始模型进行机器学习训练后得到的模型,所述多组训练数据中的每组数据均包括:第一音频和用于标识所述第一音频的语音纯度的标识信息,所述第一音频为利用第一纯净语音对第二纯净语音进行加扰后所得到的音频,所述第一纯净语音和所述第二纯净语音为同一纯净音频中所包括的语音,其中,所述纯净音频为不包含噪声的音频。
2.根据权利要求1所述的方法,其特征在于,在使用第一模型对所述信号特征进行识别之前,所述方法还包括:
按照预定干扰系数将所述第一纯净语音加扰到所述第二纯净语音上,以得到所述第一音频;
确定与所述预定干扰系数对应的所述标识信息。
3.根据权利要求2所述的方法,其特征在于,在按照预定干扰系数将所述第一纯净语音加扰到所述第二纯净语音上,以得到所述第一音频之前,所述方法还包括:
去除所述纯净音频中的静音部分以得到第一语音;
将所述第一语音中的第一部分语音确定为所述第一纯净语音,将所述第一语音中的第二部分语音确定为所述第二纯净语音。
4.根据权利要求2所述的方法,其特征在于,在按照预定干扰系数将所述第一纯净语音加扰到所述第二纯净语音上,以得到所述第一音频之前,所述方法还包括:
将第一设定值与第一预定系数的乘积确定为所述预定干扰系数,其中,所述第一设定值为所述第二纯净语音的能量与所述第一纯净语音的能量和第二设定值的乘积的比的常用对数,所述第二设定值为第二预定系数的指数函数,所述指数函数为所述预定功率比与第三预定系数的比值。
5.根据权利要求1所述的方法,其特征在于,
获取目标音频的信号特征包括:分别获取所述目标音频中包括的多个音频帧的信号特征;
使用第一模型对所述信号特征进行识别,以确定所述目标音频的语音纯度包括:使用所述第一模型分别对所述多个音频帧的信号特征进行识别,以分别确定所述多个音频帧的语音纯度;将所述多个音频帧的语音纯度确定为所述目标音频的语音纯度。
6.根据权利要求1所述的方法,其特征在于,在使用第一模型对所述信号特征进行识别之前,所述方法还包括:
获取多组所述训练数据;
使用多组所述训练数据通过所述机器学习对初始模型进行训练,以得到所述第一模型。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述初始模型包括循环神经网络RNN模型。
8.一种语音纯度的识别装置,其特征在于,包括:
获取模块,用于获取目标音频的信号特征;
识别模块,用于使用第一模型对所述信号特征进行识别,以确定所述目标音频的语音纯度,其中,所述第一模型为使用多组训练数据对初始模型进行机器学习训练后得到的模型,所述多组训练数据中的每组数据均包括:第一音频和用于标识所述第一音频的语音纯度的标识信息,所述第一音频为利用第一纯净语音对第二纯净语音进行加扰后所得到的音频,所述第一纯净语音和所述第二纯净语音为同一纯净音频中所包括的语音,其中,所述纯净音频为不包含噪声的音频。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832990.0A CN112002343B (zh) | 2020-08-18 | 2020-08-18 | 语音纯度的识别方法、装置、存储介质及电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010832990.0A CN112002343B (zh) | 2020-08-18 | 2020-08-18 | 语音纯度的识别方法、装置、存储介质及电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112002343A true CN112002343A (zh) | 2020-11-27 |
CN112002343B CN112002343B (zh) | 2024-01-23 |
Family
ID=73474067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010832990.0A Active CN112002343B (zh) | 2020-08-18 | 2020-08-18 | 语音纯度的识别方法、装置、存储介质及电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112002343B (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060015389A (ko) * | 2004-08-14 | 2006-02-17 | 삼성전자주식회사 | 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법 |
US20080056511A1 (en) * | 2006-05-24 | 2008-03-06 | Chunmao Zhang | Audio Signal Interpolation Method and Audio Signal Interpolation Apparatus |
US20090216530A1 (en) * | 2008-02-21 | 2009-08-27 | Qnx Software Systems (Wavemakers). Inc. | Interference detector |
DE102009039889A1 (de) * | 2009-09-03 | 2011-03-31 | Volkswagen Ag | Spracherfassungsvorrichtung für ein Kraftfahrzeug |
CN102129860A (zh) * | 2011-04-07 | 2011-07-20 | 魏昕 | 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 |
CN103440869A (zh) * | 2013-09-03 | 2013-12-11 | 大连理工大学 | 一种音频混响的抑制装置及其抑制方法 |
US9253566B1 (en) * | 2011-02-10 | 2016-02-02 | Dolby Laboratories Licensing Corporation | Vector noise cancellation |
CN105489226A (zh) * | 2015-11-23 | 2016-04-13 | 湖北工业大学 | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 |
US20170323653A1 (en) * | 2016-05-06 | 2017-11-09 | Robert Bosch Gmbh | Speech Enhancement and Audio Event Detection for an Environment with Non-Stationary Noise |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN108682429A (zh) * | 2018-05-29 | 2018-10-19 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
CN108831440A (zh) * | 2018-04-24 | 2018-11-16 | 中国地质大学(武汉) | 一种基于机器学习及深度学习的声纹降噪方法及系统 |
RU2691603C1 (ru) * | 2018-08-22 | 2019-06-14 | Акционерное общество "Концерн "Созвездие" | Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи |
CN110047514A (zh) * | 2019-05-30 | 2019-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种伴奏纯净度评估方法以及相关设备 |
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
CN110619886A (zh) * | 2019-10-11 | 2019-12-27 | 北京工商大学 | 一种针对低资源土家语的端到端语音增强方法 |
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及系统 |
CN111223493A (zh) * | 2020-01-08 | 2020-06-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
CN111292762A (zh) * | 2018-12-08 | 2020-06-16 | 南京工业大学 | 一种基于深度学习的单通道语音分离方法 |
EP3776534B1 (en) * | 2018-04-13 | 2023-04-19 | Microsoft Technology Licensing, LLC | Systems, methods, and computer-readable media for improved real-time audio processing |
-
2020
- 2020-08-18 CN CN202010832990.0A patent/CN112002343B/zh active Active
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20060015389A (ko) * | 2004-08-14 | 2006-02-17 | 삼성전자주식회사 | 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법 |
US20080056511A1 (en) * | 2006-05-24 | 2008-03-06 | Chunmao Zhang | Audio Signal Interpolation Method and Audio Signal Interpolation Apparatus |
US20090216530A1 (en) * | 2008-02-21 | 2009-08-27 | Qnx Software Systems (Wavemakers). Inc. | Interference detector |
DE102009039889A1 (de) * | 2009-09-03 | 2011-03-31 | Volkswagen Ag | Spracherfassungsvorrichtung für ein Kraftfahrzeug |
US9253566B1 (en) * | 2011-02-10 | 2016-02-02 | Dolby Laboratories Licensing Corporation | Vector noise cancellation |
CN102129860A (zh) * | 2011-04-07 | 2011-07-20 | 魏昕 | 基于无限状态隐马尔可夫模型的与文本相关的说话人识别方法 |
CN103440869A (zh) * | 2013-09-03 | 2013-12-11 | 大连理工大学 | 一种音频混响的抑制装置及其抑制方法 |
CN105489226A (zh) * | 2015-11-23 | 2016-04-13 | 湖北工业大学 | 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法 |
US20170323653A1 (en) * | 2016-05-06 | 2017-11-09 | Robert Bosch Gmbh | Speech Enhancement and Audio Event Detection for an Environment with Non-Stationary Noise |
EP3776534B1 (en) * | 2018-04-13 | 2023-04-19 | Microsoft Technology Licensing, LLC | Systems, methods, and computer-readable media for improved real-time audio processing |
CN108831440A (zh) * | 2018-04-24 | 2018-11-16 | 中国地质大学(武汉) | 一种基于机器学习及深度学习的声纹降噪方法及系统 |
CN108615535A (zh) * | 2018-05-07 | 2018-10-02 | 腾讯科技(深圳)有限公司 | 语音增强方法、装置、智能语音设备和计算机设备 |
CN108682429A (zh) * | 2018-05-29 | 2018-10-19 | 平安科技(深圳)有限公司 | 语音增强方法、装置、计算机设备及存储介质 |
RU2691603C1 (ru) * | 2018-08-22 | 2019-06-14 | Акционерное общество "Концерн "Созвездие" | Способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи |
CN111292762A (zh) * | 2018-12-08 | 2020-06-16 | 南京工业大学 | 一种基于深度学习的单通道语音分离方法 |
CN110047514A (zh) * | 2019-05-30 | 2019-07-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种伴奏纯净度评估方法以及相关设备 |
CN110428842A (zh) * | 2019-08-13 | 2019-11-08 | 广州国音智能科技有限公司 | 语音模型训练方法、装置、设备及计算机可读存储介质 |
CN110619886A (zh) * | 2019-10-11 | 2019-12-27 | 北京工商大学 | 一种针对低资源土家语的端到端语音增强方法 |
CN110956957A (zh) * | 2019-12-23 | 2020-04-03 | 苏州思必驰信息科技有限公司 | 语音增强模型的训练方法及系统 |
CN111223493A (zh) * | 2020-01-08 | 2020-06-02 | 北京声加科技有限公司 | 语音信号降噪处理方法、传声器和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112002343B (zh) | 2024-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109599093B (zh) | 智能质检的关键词检测方法、装置、设备及可读存储介质 | |
CN106935248A (zh) | 一种语音相似度检测方法及装置 | |
CN110880329B (zh) | 一种音频识别方法及设备、存储介质 | |
CN102054480A (zh) | 一种基于分数阶傅立叶变换的单声道混叠语音分离方法 | |
CN108877823A (zh) | 语音增强方法和装置 | |
CN110111769B (zh) | 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
US20060100866A1 (en) | Influencing automatic speech recognition signal-to-noise levels | |
CN112669820B (zh) | 基于语音识别的考试作弊识别方法、装置及计算机设备 | |
CN111796790B (zh) | 一种音效调节方法、装置、可读存储介质及终端设备 | |
CN113823293B (zh) | 一种基于语音增强的说话人识别方法及系统 | |
CN110751960B (zh) | 噪声数据的确定方法及装置 | |
CN107464563B (zh) | 一种语音交互玩具 | |
CN111785288A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN112133289B (zh) | 声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质 | |
CN112382300A (zh) | 声纹鉴定方法、模型训练方法、装置、设备及存储介质 | |
CN111883181A (zh) | 音频检测方法、装置、存储介质及电子装置 | |
CN111785302B (zh) | 说话人分离方法、装置及电子设备 | |
CN113178204A (zh) | 一种单通道降噪的低功耗方法、装置及存储介质 | |
US6701291B2 (en) | Automatic speech recognition with psychoacoustically-based feature extraction, using easily-tunable single-shape filters along logarithmic-frequency axis | |
CN113539243A (zh) | 语音分类模型的训练方法、语音分类方法及相关装置 | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
CN107993666B (zh) | 语音识别方法、装置、计算机设备及可读存储介质 | |
WO2018001125A1 (zh) | 一种音频识别方法和装置 | |
CN112863517A (zh) | 基于感知谱收敛率的语音识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |