CN110148400A - 发音类型的识别方法、模型的训练方法、装置及设备 - Google Patents
发音类型的识别方法、模型的训练方法、装置及设备 Download PDFInfo
- Publication number
- CN110148400A CN110148400A CN201810790666.XA CN201810790666A CN110148400A CN 110148400 A CN110148400 A CN 110148400A CN 201810790666 A CN201810790666 A CN 201810790666A CN 110148400 A CN110148400 A CN 110148400A
- Authority
- CN
- China
- Prior art keywords
- audio data
- training
- spectrogram
- identified
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 200
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000003062 neural network model Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims description 27
- 238000009826 distribution Methods 0.000 claims description 22
- 238000003860 storage Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 claims description 21
- 238000013527 convolutional neural network Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 11
- 238000005520 cutting process Methods 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 6
- 102100032202 Cornulin Human genes 0.000 claims 4
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims 4
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 17
- 208000001491 myopia Diseases 0.000 description 12
- 241001672694 Citrus reticulata Species 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 241001269238 Data Species 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000032696 parturition Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本申请实施例公开了一种发音类型的识别方法、模型的训练方法、装置及设备。所述方法包括:获取待识别音频数据;生成待识别音频数据的频谱图;根据待识别音频数据的频谱图,生成至少一个预测样本;其中,每一个预测样本包括从待识别音频数据的频谱图中提取的n个频谱图片段,n为正整数;调用完成训练的神经网络模型对预测样本进行处理,得到待识别音频数据的发音类型。本申请实施例通过生成音频数据的频谱图,从而将音频识别问题转换为图像识别问题,并采用深度学习技术,通过模型得到待识别音频数据的发音类型,方案具有较高的鲁棒性,从而提高了对发音类型进行识别的准确度。
Description
技术领域
本申请实施例涉及音频识别技术领域,特别涉及一种发音类型的识别方法、发音类型识别模型的训练方法、装置、设备及存储介质。
背景技术
随着短视频应用的兴起,短视频中音频内容的发音类型也是多种多样。有些短视频中音频内容的发音类型是普通话,也有些短视频中音频内容的发音类型并非是普通话,如各地方言或者外语。
对于音频内容的发音类型并非是普通话的短视频而言,其并不适合推荐给所有用户。为提升用户体验,需要对短视频中音频内容的发音类型进行识别,以进行个性化推荐。例如,将发音类型为粤语的短视频推荐给广东地区用户,将发音类型为上海话的短视频推荐给上海地区用户,等等。
在相关技术中,采用下述方式识别短视频中音频内容的发音类型:预先人工制定需要提取的声学特征,如MFCC(Mel-Frequency Cepstral Coefficients,梅尔频率倒谱系数)、SDC(Shifted Delta Cepstra,移位差分倒谱特征)等声学特征;然后提取待识别短视频的音频数据,进一步提取该音频数据的上述声学特征;之后,通过分类模型或者GMM(Gaussian Mixed Model,高斯混合模型),基于上述声学特征来确定待识别短视频中音频内容的发音类型。
上述相关技术对发音类型的识别,依赖于声学特征,而这些声学特征对于各类噪声信息的干扰不具备鲁棒性。而在现实场景中,音频内容因为环境因素、说话人特征、背景音等,会呈现多种多样的特点,因此采用相关技术提供的方案,对发音类型进行识别的准确度并不高,无法很好地应对复杂多样的现实场景。
发明内容
本申请实施例提供了一种发音类型的识别方法、发音类型识别模型的训练方法、装置、设备及存储介质,可用于解决相关技术对发音类型进行识别的准确度不高的问题。技术方案如下:
一方面,本申请实施例提供一种发音类型的识别方法,所述方法包括:
获取待识别音频数据;
生成所述待识别音频数据的频谱图;
根据所述待识别音频数据的频谱图,生成至少一个预测样本;其中,每一个预测样本包括从所述待识别音频数据的频谱图中提取的n个频谱图片段,所述n为正整数;
调用完成训练的神经网络模型对所述预测样本进行处理,得到所述待识别音频数据的发音类型。
另一方面,本申请实施例提供一种发音类型识别模型的训练方法,所述方法包括:
获取训练音频数据,所述训练音频数据是指用于生成训练样本的音频数据;
生成所述训练音频数据的频谱图;
根据所述训练音频数据的频谱图,生成至少一个所述训练样本;其中,每一个训练样本包括:从所述训练音频数据的频谱图中提取的n个频谱图片段,以及所述训练样本的标签,所述训练样本的标签用于指示所述训练样本的真实发音类型,所述n为正整数;
采用所述训练样本对用于识别发音类型的神经网络模型进行训练,得到完成训练的所述神经网络模型。
再一方面,本申请实施例提供一种发音类型的识别装置,所述装置包括:
待识别数据获取模块,用于获取待识别音频数据;
频谱图生成模块,用于生成所述待识别音频数据的频谱图;
预测样本生成模块,用于根据所述待识别音频数据的频谱图,生成至少一个预测样本;其中,每一个预测样本包括从所述待识别音频数据的频谱图中提取的n个频谱图片段,所述n为正整数;
模型预测模块,用于调用完成训练的神经网络模型对所述预测样本进行处理,得到所述待识别音频数据的发音类型。
再一方面,本申请实施例提供一种发音类型识别模型的训练装置,所述装置包括:
训练数据获取模块,用于获取训练音频数据,所述训练音频数据是指用于生成训练样本的音频数据;
频谱图生成模块,用于生成所述训练音频数据的频谱图;
训练样本生成模块,用于根据所述训练音频数据的频谱图,生成至少一个所述训练样本;其中,每一个训练样本包括:从所述训练音频数据的频谱图中提取的n个频谱图片段,以及所述训练样本的标签,所述训练样本的标签用于指示所述训练样本的真实发音类型,所述n为正整数;
模型训练模块,用于采用所述训练样本对用于识别发音类型的神经网络模型进行训练,得到完成训练的所述神经网络模型。
还一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方面所述的发音类型的识别方法,或者实现上述方面所述的发音类型识别模型的训练方法。
又一方面,本申请实施例提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方面所述的发音类型的识别方法,或者实现上述方面所述的发音类型识别模型的训练方法。
又一方面,本申请实施例提供一种计算机程序产品,当该计算机程序产品被执行时,其用于执行上述方面所述的发音类型的识别方法,或者实现上述方面所述的发音类型识别模型的训练方法。
在本申请实施例提供的技术方案中,通过生成音频数据的频谱图,从而将音频识别问题转换为图像识别问题,并且,采用深度学习技术,对训练样本进行学习生成用于识别发音类型的神经网络模型,后续便可采用该神经网络模型识别待识别音频数据的发音类型,整个过程无需人工制定所要提取的特征,即便是复杂多样的现实场景下的各类干扰,也能够在模型训练阶段进行学习,因此本申请实施例提供的技术方案具有较高的鲁棒性,从而提高了对发音类型进行识别的准确度。
附图说明
图1是本申请一个实施例提供的实施环境的示意图;
图2是本申请一个实施例提供的发音类型的识别方法的流程图;
图3示例性示出了若干个频谱图片段的示意图;
图4示例性示出了一种CRNN模型的架构图;
图5示例性示出了确定待识别视频数据中音频内容的发音类型的流程图;
图6示例性示出了给待识别视频数据添加标签的示意图;
图7是本申请一个实施例提供的发音类型识别模型的训练方法的流程图;
图8示例性示出了一种CRNN模型的架构图;
图9示例性示出了发音类型识别模型的训练过程的示意图;
图10是本申请一个实施例提供的发音类型的识别装置的框图;
图11是本申请一个实施例提供的发音类型识别模型的训练装置的框图;
图12是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
下面将结合附图对本申请实施方式作进一步地详细描述。
在本申请实施例提供的技术方案中,通过生成音频数据的频谱图,从而将音频识别问题转换为图像识别问题,并且,采用深度学习技术,对训练样本进行学习生成用于识别发音类型的神经网络模型,后续便可采用该神经网络模型识别待识别音频数据的发音类型,整个过程无需人工制定所要提取的特征,即便是复杂多样的现实场景下的各类干扰,也能够在模型训练阶段进行学习,因此本申请实施例提供的技术方案具有较高的鲁棒性,从而提高了对发音类型进行识别的准确度。
本申请实施例提供的技术方案,主要涉及如下两部分内容:第一,发音类型识别模型(也即用于识别发音的神经网络模型)的训练过程,该过程可以称为模型训练过程;第二,采用完成训练的发音类型识别模型对待识别音频数据的发音类型的识别过程,该过程可以称为模型使用过程。在一个示例中,请参考图1,其示例性示出了一种实施环境的示意图。该实施环境可以包括:PC(personal computer,个人计算机)10和服务器20。其中,PC 10用于执行模型训练过程,得到完成训练的发音类型识别模型。该完成训练的发音类型识别模型可以被提供给服务器20。服务器20用于执行模型使用过程。有关模型训练过程和模型使用过程的具体流程,可参见下文方法实施例中的介绍说明。
另外,本申请实施例提供的发音类型识别模型,可用于识别音频数据的发音类型,如歌曲、录音等音频数据;也可以用于识别视频数据中的音频内容的发音类型,如短视频、中长视频等视频数据。
在本申请实施例提供的技术方案中,发音类型是指声音所属的语言类型。发音类型的种类划分可以根据实际需求预先设定。
在一个示例中,发音类型包括如下两种:1、普遍易懂中文发音;2、普遍不易懂发音。其中,普遍易懂中文发音是指容易听懂的中文发音,包括普通话以及与普通话接近的地方方言,如四川话、东北话、天津话、唐山话等。普遍不易懂发音是指不容易听懂的发音,包括除普遍易懂中文发音以外的其它发音,包括与普通话差异较大的地方方言,如粤语、闽南语、温州话、上海话、维语等,以及包括除中国以外的其它国家的语言,如英语、韩语、日语、俄语、德语、法语、葡萄牙语、西班牙语等。
当然,上述仅示例性示出了一种发音类型的种类划分方式。在其它示例性,发音类型也可以分为汉语、英语、韩语、日语、俄语、德语、法语、葡萄牙语、西班牙语等不同种类;或者,发音类型还可以分为普通话、与普通话接近的地方方言、与普通话差异较大的地方方言、除中国以外的其它国家的语言等不同种类。发音类型的种类划分可以根据实际需求预先设定,本申请实施例对此不作具体限定。
请参考图2,其示出了本申请一个实施例提供的发音类型的识别方法的流程图。该方法可应用于图1所示实施环境的服务器20中。该方法可以包括如下几个步骤:
步骤201,获取待识别音频数据。
待识别音频数据是指有待识别其发音类型的音频数据。
可选地,待识别音频数据是从待识别视频数据中提取得到的。服务器可以获取待识别视频数据,提取待识别视频数据中的音频信息,得到待识别音频数据。在本申请实施例中,对于从视频数据中提取音频数据的方式不作限定,例如可以采用音频提取工具(如FFmpeg)从视频数据中提取音频数据。
步骤202,生成待识别音频数据的频谱图。
服务器可以采用频谱图生成工具(如sox),生成待识别音频数据的频谱图。至此,便将一段音频数据转换为了一幅图像。可选地,频谱图采用灰度图表示。频谱图的长度由待识别音频数据的时长决定,频谱图的宽度为预设值。例如,每秒音频数据在频谱图的长度上对应50个像素,最高频率限定为10kHz,频谱图的宽度设定为129像素。当然,上述对频谱图的相关参数的设定仅是示例性和解释性的,其可根据实际需求预先设定,本申请实施例对此不作限定。
步骤203,根据待识别音频数据的频谱图,生成至少一个预测样本。
每一个预测样本包括从待识别音频数据的频谱图中提取的n个频谱图片段,n为正整数。可选地,上述n个频谱图片段中,各个频谱图片段的长度相同,且宽度也相同。
在一些实施例中,服务器可以对待识别音频数据的频谱图进行切分,得到若干个长度为预设长度且宽度为预设宽度的频谱图片段。上述预设长度和预设宽度的取值可以预先设定,例如预设长度为500像素,预设宽度为129像素。每一个频谱图片段仍然是一张图像。
示例性地,如图3所示,其示出了若干个频谱图片段的示意图。各个频谱图片段具有相同的图像尺寸,且每一个频谱图片段中记录有一段目标时长的音频数据的频谱信息。
另外,上述预测样本中包含的频谱图片段的数量,与模型训练过程中训练样本所包含的频谱图片段的数量相同,均为n。在一种可能的实施方式中,n为1。在另一种可能的实施方式中,n为预设常数,且该预设常数为大于1的整数。
服务器将待识别音频数据的频谱图切分为若干个频谱图片段之后,对于从中选取频谱图片段生成预测样本时的选取规则,本申请实施例对此不作限定。例如可以随机选取n个频谱图片段,生成一个预测样本。另外,服务器可以生成一个预测样本,也可以生成多个预测样本。当服务器生成多个预测样本时,任意两个预测样本中,包含至少一个不相同的频谱图片段。
步骤204,调用完成训练的神经网络模型对预测样本进行处理,得到待识别音频数据的发音类型。
本申请实施例中的神经网络模型可以称为发音类型识别模型,其用于对待识别音频数据的发音类型进行识别。
在一个示例中,上述神经网络模型为CRNN(Convolutional Recurrent NeuralNetwork,卷积循环神经网络)模型。CRNN模型是CNN(Convolutional Neural Network,卷积神经网络)和RNN(Recurrent Neural Network,循环神经网络)的组合。
可选地,如图4所示,该CRNN模型包括:输入层、CNN层、池化层、堆叠层、切片层、RNN层、全连接层和输出层。其中:输入层用于输入预测样本所包含的n个频谱图片段;CNN层用于将n个频谱图片段转化为特征图;池化层用于对特征图进行池化处理,得到多个池化处理后的特征图;堆叠层用于对多个池化处理后的特征图进行堆叠处理,得到堆叠处理后的特征图;切片层用于对堆叠处理后的特征图进行切片处理,得到特征向量序列,该特征向量序列包括在时间维度上切分的多个特征向量;RNN层用于记忆上述多个特征向量在时间维度上的关系,得到输出向量;全连接层用于根据输出向量得到预测样本在多种不同的发音类型中的概率分布;输出层用于输出上述概率分布。有关CRNN模型各层的详细说明,可参见下文关于模型训练过程的实施例,本实施例对此不作赘述。
在一个示例中,当预测样本的数量为1个时,服务器通过上述神经网络模型获取预测样本在多种不同的发音类型中的概率分布之后,将概率最大的发音类型,确定为待识别音频数据的发音类型。例如,预先设定发音类型包括如下两种:1、普遍易懂中文发音;2、普遍不易懂发音。预测样本在上述两种发音类型中的概率分布分别为a和b。则,当a>b时,服务器确定待识别音频数据的发音类型为普遍易懂中文发音;当a<b时,服务器确定待识别音频数据的发音类型为普遍不易懂发音。
在另一个示例中,当预测样本的数量为k个,且k为大于1的整数时,上述步骤204可以包括如下几个子步骤:
1、调用完成训练的神经网络模型,分别对k个预测样本中的每一个预测样本进行处理,得到每一个预测样本在多种不同的发音类型中的概率分布;
2、根据k个预测样本中的每一个预测样本在多种不同的发音类型中的概率分布,得到k个预测样本在多种不同的发音类型中的平均概率分布;
3、将平均概率最大的发音类型,确定为待识别音频数据的发音类型。
例如,预先设定发音类型包括如下两种:1、普遍易懂中文发音;2、普遍不易懂发音。假设预测样本的数量为3个,分别记为第一预测样本、第二预测样本和第三预测样本。其中,第一预测样本在上述两种发音类型中的概率分布分别为a1和b1,第二预测样本在上述两种发音类型中的概率分布分别为a2和b2,第三预测样本在上述两种发音类型中的概率分布分别为a3和b3,则这3个预测样本在上述两种发音类型中的平均概率分布分别为a0和b0,其中,a0=(a1+a2+a3)/3,b0=(b1+b2+b3)/3。当a0>b0时,服务器确定待识别音频数据的发音类型为普遍易懂中文发音;当a0<b0时,服务器确定待识别音频数据的发音类型为普遍不易懂发音。
在实际应用中,预测样本的数量可以在权衡计算复杂度和识别准确度两方面因素之后进行设定。通过综合多个预测样本对应的预测结果,最终确定待识别音频数据的发音类型,有助于提升最终的识别准确度。
综上所述,本申请实施例提供的技术方案中,通过生成音频数据的频谱图,从而将音频识别问题转换为图像识别问题,并且,采用深度学习技术,通过用于识别发音类型的神经网络模型得到待识别音频数据的发音类型,整个过程无需人工制定所要提取的特征,即便是复杂多样的现实场景下的各类干扰,也能够在模型训练阶段进行学习,因此本申请实施例提供的技术方案具有较高的鲁棒性,从而提高了对发音类型进行识别的准确度。
在上述图2实施例中,对模型使用过程进行了介绍说明。结合参考图5,以确定待识别视频数据中的音频内容的发音类型为例,其示出了相应的流程示意图。在获取待识别视频数据之后,提取待识别视频数据中的音频信息,得到待识别音频数据;之后,生成待识别音频数据的频谱图;然后,对待识别音频数据的频谱图进行切分,得到若干个频谱图片段,选取频谱图片段构建预测样本;最后,调用完成训练的CRNN模型对所述预测样本进行处理,得到待识别视频数据中的音频内容的发音类型。
可选地,服务器识别出待识别视频数据中的音频内容的发音类型之后,可以给待识别视频数据打上标签,该标签用于指示该待识别视频数据中的音频内容的发音类型。示例性地,如图6所示,待识别视频数据的标签包括是否为中文发音的标签60,当该是否为中文发音的标签60被记为“是”时,表明该待识别视频数据中的音频内容是普遍易懂中文发音,当该是否为中文发音的标签60被记为“否”时,表明该待识别视频数据中的音频内容是普遍不易懂发音。
在短视频应用中,每日新增的短视频数量可能达到几十万甚至数百万。在应用本申请实施例提供的技术方案之前,判断短视频中音频内容的发音类型,需要由人工收听判断,效率较低,这不仅影响短视频推荐的及时性,而且消耗大量的人力成本。在应用本申请实施例提供的技术方案之后,能够有效解决因人工识别效率低所导致的推荐不及时的问题,提升了短视频推荐的及时性,并且自动识别的准确度也高于人工识别的准确度。相关实验数据如下表-1所示:
表-1
从上述表-1中可以看出,人工识别的总体准确度为97.3%,采用本申请技术方案进行发音类型识别的总体准确度为99.4%,高于人工识别的总体准确度。
请参考图7,其示出了本申请一个实施例提供的发音类型识别模型的训练方法的流程图。该方法可应用于图1所示实施环境的PC 10中。该方法可以包括如下几个步骤:
步骤701,获取训练音频数据。
训练音频数据是指用于生成训练样本的音频数据。
可选地,训练音频数据是从训练视频数据中提取得到的,训练视频数据是指用于生成训练样本的视频数据。PC可以获取训练视频数据,提取训练视频数据中的音频信息,得到训练音频数据。在本申请实施例中,对于从视频数据中提取音频数据的方式不作限定,例如可以采用音频提取工具(如FFmpeg)从视频数据中提取音频数据。
可选地,考虑到在实际应用场景中,视频数据的音频内容中除了包含人说话的声音以外,还可能包含背景音、环境噪声等,因此PC在提取训练视频数据中的音频信息之后,可以在音频信息中混入噪音信息,生成训练音频数据。其中,噪音信息可以包括背景音乐、噪声等声音信息。通过上述方式,可以起到增强训练样本的目的。
在本申请实施例中,对训练视频数据或训练音频数据的获取渠道不作限定,包括但不限于:历史审核确定其发音类型的视频数据或音频数据、从网络抓取的各地电视台节目的视频数据或音频数据、从网络抓取的不同语言的电影电视节目的视频数据或音频数据。PC获取到上述训练视频数据或训练音频数据之后,可以按照发音类型进行分类存储。另外,可以对获取的训练视频数据或训练音频数据进行数据清洗,以剔除掉一些质量较差的数据,如剔除掉质量较差的来源的数据、剔除掉损坏或者过短的数据等,本申请实施例对此不作限定。
需要说明的一点是,在模型训练过程中,需要大量的训练样本,因此需要获取较多数量的训练音频数据。对于每一段训练音频数据的处理,均可采用本实施例提供的方法流程。
步骤702,生成训练音频数据的频谱图。
服务器可以采用频谱图生成工具(如sox),生成训练音频数据的频谱图。至此,便将一段音频数据转换为了一幅图像。可选地,频谱图采用灰度图表示。频谱图的长度由训练音频数据的时长决定,频谱图的宽度为预设值。例如,每秒音频数据在频谱图的长度上对应50个像素,最高频率限定为10kHz,频谱图的宽度设定为129像素。当然,上述对频谱图的相关参数的设定仅是示例性和解释性的,其可根据实际需求预先设定,本申请实施例对此不作限定。
步骤703,根据训练音频数据的频谱图,生成至少一个训练样本。
每一个训练样本包括:从训练音频数据的频谱图中提取的n个频谱图片段,以及训练样本的标签,训练样本的标签用于指示训练样本的真实发音类型,n为正整数。可选地,上述n个频谱图片段中,各个频谱图片段的长度相同,且宽度也相同。
在一些实施例中,服务器可以对训练音频数据的频谱图进行切分,得到若干个长度为预设长度且宽度为预设宽度的频谱图片段。上述预设长度和预设宽度的取值可以预先设定,例如预设长度为500像素,预设宽度为129像素。每一个频谱图片段仍然是一张图像。有关频谱图片段的图示可参见图3。
PC将训练音频数据的频谱图切分为若干个频谱图片段之后,对于从中选取频谱图片段生成训练样本时的选取规则,本申请实施例对此不作限定。例如可以随机选取n个频谱图片段,生成一个训练样本。另外,任意两个训练样本中,包含至少一个不相同的频谱图片段。
另外,每一个训练样本中包含的频谱图片段的数量相同,均为n。在一种可能的实施方式中,n为1。在另一种可能的实施方式中,n为预设常数,且该预设常数为大于1的整数。需要说明的是,不论从何种渠道获取的训练音频数据,其标签均是对应该训练音频数据中的整个音频内容的,一个训练音频数据的标签,仅能够代表该训练音频数据中的主体音频内容的真实发音类型,但该训练音频数据中,可能并不是所有的片段的发音类型均一致,会存在噪声、背景音乐、静音或者其它特殊片段。如果每一个训练样本中仅包含一个频谱图片段,训练样本的标签的准确度不够高,从而影响到最终训练得到的发音类型识别模型的识别准确度。而当每一个训练样本中包含多个频谱图片段时,可以更大概率地保证训练样本中的主体音频内容与其标签是匹配的,从而提高最终训练得到的发音类型识别模型的识别准确度,且能够扩充训练样本的数量。
可选地,在训练样本的数量不够充足的情况下,可以按较小长度切割频谱图片段,或者使频谱图片段之间有部分的交叉重叠区域,以扩充训练样本的数量。
步骤704,采用训练样本对用于识别发音类型的神经网络模型进行训练,得到完成训练的神经网络模型。
在模型训练过程中,可以不断修正神经网络模型的各层权重,以得到准确度符合预设要求的发音类型识别模型。可选地,根据训练样本的真实发音类型和采用该神经网络模型得到的预测发音类型,计算该神经网络模型的损失函数值,当损失函数值符合预设条件时,说明该神经网络模型的准确度已经达到设定要求,即可停止训练。
在一个示例中,上述神经网络模型为CRNN模型,如图4或图8所示,该CRNN模型可以包括:输入层、CNN层、池化层、堆叠层、切片层、RNN层、全连接层和输出层。其中:
1、输入层用于输入训练样本所包含的n个频谱图片段;
当训练样本中包含多个频谱图片段时,将该多个频谱图片段叠加后输入至输入层。
2、CNN层用于将n个频谱图片段转化为特征图;
CNN是一种深度前馈人工神经网络,在图像识别中具有较好的性能表现。CNN层可以包括卷积层(convolutional layer)和池化层(pooling layer)。卷积层用于从输入的目标图像中自动抽取特征,得到特征图(feature map)。池化层用于对特征图进行池化处理,以减少特征图中的特征数量。池化处理包括最大池化、平均池化、随机池化等方式,其可根据实际需求选择合适的方式。
其中,CNN层可以根据业务需求,在权衡模型训练的时间代价和识别效果之后,选择不同复杂程度的网络架构。示例性地,CNN层的网络架构包括但不限于以下任意一种:VGG19、ResNet50、InceptionV3、Xception、InceptionResNetV2等。
3、池化层用于对特征图进行池化处理,得到多个池化处理后的特征图;
池化层将CNN层输出的多个特征图进行池化处理,池化处理后的特征图的宽度为1,形成c个t*1的池化处理后的特征图,其中c代表池化处理后的特征图的个数,t代表池化处理后的特征图的长度,c为大于1的整数。
4、堆叠层用于对多个池化处理后的特征图进行堆叠处理,得到堆叠处理后的特征图;
5、切片层用于对堆叠处理后的特征图进行切片处理,得到特征向量序列,该特征向量序列包括在时间维度上切分的多个特征向量;
特征向量序列中包括t个c维的特征向量,这些特征向量按照时间顺序,依次输入至RNN层进行学习。
6、RNN层用于记忆上述多个特征向量在时间维度上的关系,得到输出向量;
RNN是一种用于处理序列数据的神经网络。示例性地,RNN层的网络架构包括但不限于以下任意一种:LSTM(Long Short-Term Memory,长短期记忆)网络、BiLSTM网络等。
7、全连接层用于根据输出向量得到训练样本在多种不同的发音类型中的概率分布;
8、输出层用于输出上述概率分布。
另外,在CRNN模型构建完成之后,可以有如下两种训练策略。如果训练样本的数量有限,可以先训练CNN部分,待CNN部分训练完成之后,以该训练完成的CNN部分作为后续RNN部分的特征提取器,继续训练RNN部分;如果训练样本的数量充足,则可以直接训练整个模型。此外,在模型训练过程中,优化器的选用包括但不限于SGD(stochastic gradientdescent,随机梯度下降)、RMSprop、Adam等优化算法,本申请实施例对此不作限定。
可选地,在模型训练过程中,还可以将传统的声学特征(如MFCC、SDC等)融合进来,以进一步提升模型的准确度。
综上所述,本申请实施例提供的技术方案中,通过生成音频数据的频谱图,从而将音频识别问题转换为图像识别问题,并且,采用深度学习技术,对训练样本进行学习生成用于识别发音类型的神经网络模型,后续便可采用该神经网络模型识别待识别音频数据的发音类型,整个过程无需人工制定所要提取的特征,即便是复杂多样的现实场景下的各类干扰,也能够在模型训练阶段进行学习,因此本申请实施例提供的技术方案具有较高的鲁棒性,从而提高了对发音类型进行识别的准确度。
另外,当每一个训练样本中包含多个频谱图片段时,可以更大概率地保证训练样本中的主体音频内容与其标签是匹配的,从而提高最终训练得到的发音类型识别模型的识别准确度,且能够扩充训练样本的数量。
在上述图7实施例中,对模型训练过程进行了介绍说明。结合参考图9,以训练用于识别视频数据中的音频内容的发音类型的模型为例,其示出了相应的流程示意图。在训练数据获取阶段,可以从多个渠道获取训练视频数据。每一个训练视频数据具有对应的标签,用于指示该训练视频数据中音频内容的真实发音类型。在训练数据预处理阶段,包括对训练视频数据进行数据清洗,剔除掉一些质量较差的数据,而后提取训练视频数据中的音频信息,得到训练音频数据,之后生成训练音频数据的频谱图,对训练音频数据的频谱图进行切分,得到若干个频谱图片段,选取频谱图片段构建训练样本。在模型训练阶段,采用训练样本对CRNN模型进行训练,得到识别准确度符合要求的CRNN模型。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图10,其示出了本申请一个实施例提供的发音类型的识别装置的框图。该装置具有实现上述发音类型的识别方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置1000可以包括:待识别数据获取模块1010、频谱图生成模块1020、预测样本生成模块1030和模型预测模块1040。
待识别数据获取模块1010,用于获取待识别音频数据。
频谱图生成模块1020,用于生成所述待识别音频数据的频谱图。
预测样本生成模块1030,用于根据所述待识别音频数据的频谱图,生成至少一个预测样本;其中,每一个预测样本包括从所述待识别音频数据的频谱图中提取的n个频谱图片段,所述n为正整数。
模型预测模块1040,用于调用完成训练的神经网络模型对所述预测样本进行处理,得到所述待识别音频数据的发音类型。
综上所述,本申请实施例提供的技术方案中,通过生成音频数据的频谱图,从而将音频识别问题转换为图像识别问题,并且,采用深度学习技术,通过用于识别发音类型的神经网络模型得到待识别音频数据的发音类型,整个过程无需人工制定所要提取的特征,即便是复杂多样的现实场景下的各类干扰,也能够在模型训练阶段进行学习,因此本申请实施例提供的技术方案具有较高的鲁棒性,从而提高了对发音类型进行识别的准确度。
在基于图10实施例提供的一个可选实施例中,所述n为预设常数,且所述预设常数为大于1的整数。
在基于图10实施例或者上述可选实施例提供的另一个可选实施例中,所述神经网络模型为CRNN模型。
在基于图10实施例或者上述可选实施例提供的另一个可选实施例中,所述预测样本的数量为k个,所述k为大于1的整数。相应地,所述模型预测模块1040,用于:调用所述完成训练的神经网络模型,分别对所述k个预测样本中的每一个预测样本进行处理,得到每一个预测样本在多种不同的发音类型中的概率分布;根据所述k个预测样本中的每一个预测样本在多种不同的发音类型中的概率分布,得到所述k个预测样本在所述多种不同的发音类型中的平均概率分布;将平均概率最大的发音类型,确定为所述待识别音频数据的发音类型。
在基于图10实施例或者上述可选实施例提供的另一个可选实施例中,所述待识别数据获取模块1010,用于:获取待识别视频数据;提取所述待识别视频数据中的音频信息,得到所述待识别音频数据。
请参考图11,其示出了本申请一个实施例提供的发音类型识别模型的训练装置的框图。该装置具有实现上述发音类型识别模型的训练方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置1100可以包括:训练数据获取模块1110、频谱图生成模块1120、训练样本生成模块1130和模型训练模块1140。
训练数据获取模块1110,用于获取训练音频数据,所述训练音频数据是指用于生成训练样本的音频数据。
频谱图生成模块1120,用于生成所述训练音频数据的频谱图。
训练样本生成模块1130,用于根据所述训练音频数据的频谱图,生成至少一个所述训练样本;其中,每一个训练样本包括:从所述训练音频数据的频谱图中提取的n个频谱图片段,以及所述训练样本的标签,所述训练样本的标签用于指示所述训练样本的真实发音类型,所述n为正整数。
模型训练模块1140,用于采用所述训练样本对用于识别发音类型的神经网络模型进行训练,得到完成训练的所述神经网络模型。
综上所述,本申请实施例提供的技术方案中,通过生成音频数据的频谱图,从而将音频识别问题转换为图像识别问题,并且,采用深度学习技术,对训练样本进行学习生成用于识别发音类型的神经网络模型,后续便可采用该神经网络模型识别待识别音频数据的发音类型,整个过程无需人工制定所要提取的特征,即便是复杂多样的现实场景下的各类干扰,也能够在模型训练阶段进行学习,因此本申请实施例提供的技术方案具有较高的鲁棒性,从而提高了对发音类型进行识别的准确度。
在基于图11实施例提供的一个可选实施例中,所述n为预设常数,且所述预设常数为大于1的整数。
在基于图11实施例或者上述可选实施例提供的另一个可选实施例中,所述神经网络模型为CRNN模型。
在基于图11实施例或者上述可选实施例提供的另一个可选实施例中,所述训练数据获取模块1110,用于:获取训练视频数据,所述训练视频数据是指用于生成所述训练样本的视频数据;提取所述训练视频数据中的音频信息,得到所述训练音频数据。
可选地,所述提取所述训练视频数据中的音频信息,得到所述训练音频数据,包括:提取所述训练视频数据中的音频信息;在所述音频信息中混入噪音信息,生成所述训练音频数据。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图12,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实施上述实施例中提供的发音类型的识别方法,或者也可用于实施上述实施例中提供的发音类型识别模型的训练方法。该计算机设备可以是PC或者服务器,或者其它具备数据处理和存储能力的设备。具体来讲:
所述计算机设备1200包括中央处理单元(CPU)1201、包括随机存取存储器(RAM)1202和只读存储器(ROM)1203的系统存储器1204,以及连接系统存储器1204和中央处理单元1201的系统总线1205。所述计算机设备1200还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1206,和用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1207。
所述基本输入/输出系统1206包括有用于显示信息的显示器1208和用于用户输入信息的诸如鼠标、键盘之类的输入设备1209。其中所述显示器1208和输入设备1209都通过连接到系统总线1205的输入输出控制器1210连接到中央处理单元1201。所述基本输入/输出系统1206还可以包括输入输出控制器1210以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1210还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备1207通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。所述大容量存储设备1207及其相关联的计算机可读介质为计算机设备1200提供非易失性存储。也就是说,所述大容量存储设备1207可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术,CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1207可以统称为存储器。
根据本申请的各种实施例,所述计算机设备1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1200可以通过连接在所述系统总线1205上的网络接口单元1211连接到网络1212,或者说,也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述发音类型的识别方法的指令,或者包含用于执行上述发音类型识别模型的训练方法的指令。
在示例中实施例中,还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集。所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行,以实现上述发音类型的识别方法,或者实现上述发音类型识别模型的训练方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被计算机设备的处理器执行时实现上述发音类型的识别方法,或者实现上述发音类型识别模型的训练方法。
可选地,上述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,当该计算机程序产品被执行时,其用于实现上述发音类型的识别方法,或者实现上述发音类型识别模型的训练方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (14)
1.一种发音类型的识别方法,其特征在于,所述方法包括:
获取待识别音频数据;
生成所述待识别音频数据的频谱图;
根据所述待识别音频数据的频谱图,生成至少一个预测样本;其中,每一个预测样本包括从所述待识别音频数据的频谱图中提取的n个频谱图片段,所述n为正整数;
调用完成训练的神经网络模型对所述预测样本进行处理,得到所述待识别音频数据的发音类型。
2.根据权利要求1所述的方法,其特征在于,所述n为预设常数,且所述预设常数为大于1的整数。
3.根据权利要求1所述的方法,其特征在于,所述神经网络模型为卷积循环神经网络CRNN模型,所述CRNN模型包括:输入层、卷积神经网络CNN层、池化层、堆叠层、切片层、循环神经网络RNN层、全连接层和输出层;其中:
所述输入层用于输入所述预测样本所包含的n个频谱图片段;
所述CNN层用于将所述n个频谱图片段转化为特征图;
所述池化层用于对所述特征图进行池化处理,得到多个池化处理后的特征图;
所述堆叠层用于对所述多个池化处理后的特征图进行堆叠处理,得到堆叠处理后的特征图;
所述切片层用于对所述堆叠处理后的特征图进行切片处理,得到特征向量序列,所述特征向量序列包括在时间维度上切分的多个特征向量;
所述RNN层用于记忆所述多个特征向量在时间维度上的关系,得到输出向量;
所述全连接层用于根据所述输出向量得到所述预测样本在多种不同的发音类型中的概率分布;
所述输出层用于输出所述概率分布。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述预测样本的数量为k个,所述k为大于1的整数;
所述调用完成训练的神经网络模型对所述预测样本进行处理,得到所述待识别音频数据的发音类型,包括:
调用所述完成训练的神经网络模型,分别对所述k个预测样本中的每一个预测样本进行处理,得到每一个预测样本在多种不同的发音类型中的概率分布;
根据所述k个预测样本中的每一个预测样本在多种不同的发音类型中的概率分布,得到所述k个预测样本在所述多种不同的发音类型中的平均概率分布;
将平均概率最大的发音类型,确定为所述待识别音频数据的发音类型。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述获取待识别音频数据,包括:
获取待识别视频数据;
提取所述待识别视频数据中的音频信息,得到所述待识别音频数据。
6.一种发音类型识别模型的训练方法,其特征在于,所述方法包括:
获取训练音频数据,所述训练音频数据是指用于生成训练样本的音频数据;
生成所述训练音频数据的频谱图;
根据所述训练音频数据的频谱图,生成至少一个所述训练样本;其中,每一个训练样本包括:从所述训练音频数据的频谱图中提取的n个频谱图片段,以及所述训练样本的标签,所述训练样本的标签用于指示所述训练样本的真实发音类型,所述n为正整数;
采用所述训练样本对用于识别发音类型的神经网络模型进行训练,得到完成训练的所述神经网络模型。
7.根据权利要求6所述的方法,特征在于,所述n为预设常数,且所述预设常数为大于1的整数。
8.根据权利要求6所述的方法,其特征在于,所述神经网络模型为卷积循环神经网络CRNN模型,所述CRNN模型包括:输入层、卷积神经网络CNN层、池化层、堆叠层、切片层、循环神经网络RNN层、全连接层和输出层;其中:
所述输入层用于输入所述训练样本所包含的n个频谱图片段;
所述CNN层用于将所述n个频谱图片段转化为特征图;
所述池化层用于对所述特征图进行池化处理,得到多个池化处理后的特征图;
所述堆叠层用于对所述多个池化处理后的特征图进行堆叠处理,得到堆叠处理后的特征图;
所述切片层用于对所述堆叠处理后的特征图进行切片处理,得到特征向量序列,所述特征向量序列包括在时间维度上切分的多个特征向量;
所述RNN层用于记忆所述多个特征向量在时间维度上的关系,得到输出向量;
所述全连接层用于根据所述输出向量得到所述训练样本在多种不同的发音类型中的概率分布;
所述输出层用于输出所述概率分布。
9.根据权利要求6至8任一项所述的方法,其特征在于,所述获取训练音频数据,包括:
获取训练视频数据,所述训练视频数据是指用于生成所述训练样本的视频数据;
提取所述训练视频数据中的音频信息,得到所述训练音频数据。
10.根据权利要求9所述的方法,其特征在于,所述提取所述训练视频数据中的音频信息,得到所述训练音频数据,包括:
提取所述训练视频数据中的音频信息;
在所述音频信息中混入噪音信息,生成所述训练音频数据。
11.一种发音类型的识别装置,其特征在于,所述装置包括:
待识别数据获取模块,用于获取待识别音频数据;
频谱图生成模块,用于生成所述待识别音频数据的频谱图;
预测样本生成模块,用于根据所述待识别音频数据的频谱图,生成至少一个预测样本;其中,每一个预测样本包括从所述待识别音频数据的频谱图中提取的n个频谱图片段,所述n为正整数;
模型预测模块,用于调用完成训练的神经网络模型对所述预测样本进行处理,得到所述待识别音频数据的发音类型。
12.一种发音类型识别模型的训练装置,其特征在于,所述装置包括:
训练数据获取模块,用于获取训练音频数据,所述训练音频数据是指用于生成训练样本的音频数据;
频谱图生成模块,用于生成所述训练音频数据的频谱图;
训练样本生成模块,用于根据所述训练音频数据的频谱图,生成至少一个所述训练样本;其中,每一个训练样本包括:从所述训练音频数据的频谱图中提取的n个频谱图片段,以及所述训练样本的标签,所述训练样本的标签用于指示所述训练样本的真实发音类型,所述n为正整数;
模型训练模块,用于采用所述训练样本对用于识别发音类型的神经网络模型进行训练,得到完成训练的所述神经网络模型。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至5任一项所述的方法,或者实现如权利要求6至10任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至5任一项所述的方法,或者实现如权利要求6至10任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810790666.XA CN110148400B (zh) | 2018-07-18 | 2018-07-18 | 发音类型的识别方法、模型的训练方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810790666.XA CN110148400B (zh) | 2018-07-18 | 2018-07-18 | 发音类型的识别方法、模型的训练方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110148400A true CN110148400A (zh) | 2019-08-20 |
CN110148400B CN110148400B (zh) | 2023-03-17 |
Family
ID=67589062
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810790666.XA Active CN110148400B (zh) | 2018-07-18 | 2018-07-18 | 发音类型的识别方法、模型的训练方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110148400B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145779A (zh) * | 2019-12-26 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种音频文件的目标检测方法及相关设备 |
CN111306008A (zh) * | 2019-12-31 | 2020-06-19 | 远景智能国际私人投资有限公司 | 风机叶片的检测方法、装置、设备及存储介质 |
CN111370002A (zh) * | 2020-02-14 | 2020-07-03 | 平安科技(深圳)有限公司 | 语音训练样本的获取方法、装置、计算机设备和存储介质 |
CN111414959A (zh) * | 2020-03-18 | 2020-07-14 | 南京星火技术有限公司 | 图像识别方法、装置、计算机可读介质和电子设备 |
CN111444967A (zh) * | 2020-03-30 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 生成对抗网络的训练方法、生成方法、装置、设备及介质 |
CN111488486A (zh) * | 2020-04-20 | 2020-08-04 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN112185347A (zh) * | 2020-09-27 | 2021-01-05 | 北京达佳互联信息技术有限公司 | 语种识别方法、装置、服务器及存储介质 |
CN112201226A (zh) * | 2020-09-28 | 2021-01-08 | 复旦大学 | 一种发声方式判别方法及系统 |
CN112259120A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 基于卷积循环神经网络的单通道人声与背景声分离方法 |
CN112488013A (zh) * | 2020-12-04 | 2021-03-12 | 重庆邮电大学 | 基于时序不一致性的深度伪造视频检测方法及系统 |
CN113053410A (zh) * | 2021-02-26 | 2021-06-29 | 北京国双科技有限公司 | 声音识别方法、装置、计算机设备和存储介质 |
WO2021135611A1 (zh) * | 2019-12-31 | 2021-07-08 | 华为技术有限公司 | 一种语音识别的方法、装置、终端以及存储介质 |
CN113421574A (zh) * | 2021-06-18 | 2021-09-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频特征提取模型的训练方法、音频识别方法及相关设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021373A (zh) * | 2014-05-27 | 2014-09-03 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
CN106919710A (zh) * | 2017-03-13 | 2017-07-04 | 东南大学 | 一种基于卷积神经网络的方言分类方法 |
CN107886968A (zh) * | 2017-12-28 | 2018-04-06 | 广州讯飞易听说网络科技有限公司 | 语音评测方法及系统 |
-
2018
- 2018-07-18 CN CN201810790666.XA patent/CN110148400B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104021373A (zh) * | 2014-05-27 | 2014-09-03 | 江苏大学 | 一种半监督语音特征可变因素分解方法 |
CN106919710A (zh) * | 2017-03-13 | 2017-07-04 | 东南大学 | 一种基于卷积神经网络的方言分类方法 |
CN107886968A (zh) * | 2017-12-28 | 2018-04-06 | 广州讯飞易听说网络科技有限公司 | 语音评测方法及系统 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145779A (zh) * | 2019-12-26 | 2020-05-12 | 腾讯科技(深圳)有限公司 | 一种音频文件的目标检测方法及相关设备 |
US11905926B2 (en) | 2019-12-31 | 2024-02-20 | Envision Digital International Pte. Ltd. | Method and apparatus for inspecting wind turbine blade, and device and storage medium thereof |
CN111306008A (zh) * | 2019-12-31 | 2020-06-19 | 远景智能国际私人投资有限公司 | 风机叶片的检测方法、装置、设备及存储介质 |
WO2021135611A1 (zh) * | 2019-12-31 | 2021-07-08 | 华为技术有限公司 | 一种语音识别的方法、装置、终端以及存储介质 |
CN111306008B (zh) * | 2019-12-31 | 2022-03-11 | 远景智能国际私人投资有限公司 | 风机叶片的检测方法、装置、设备及存储介质 |
EP4085376A4 (en) * | 2019-12-31 | 2023-02-08 | Envision Digital International Pte. Ltd. | METHOD AND APPARATUS FOR INSPECTION OF WIND TURBINE BLADES, AND RELATED APPARATUS, AND RELATED STORAGE MEDIUM |
CN111370002A (zh) * | 2020-02-14 | 2020-07-03 | 平安科技(深圳)有限公司 | 语音训练样本的获取方法、装置、计算机设备和存储介质 |
CN111414959A (zh) * | 2020-03-18 | 2020-07-14 | 南京星火技术有限公司 | 图像识别方法、装置、计算机可读介质和电子设备 |
CN111414959B (zh) * | 2020-03-18 | 2024-02-02 | 南京星火技术有限公司 | 图像识别方法、装置、计算机可读介质和电子设备 |
CN111444967B (zh) * | 2020-03-30 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 生成对抗网络的训练方法、生成方法、装置、设备及介质 |
CN111444967A (zh) * | 2020-03-30 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 生成对抗网络的训练方法、生成方法、装置、设备及介质 |
CN111488486A (zh) * | 2020-04-20 | 2020-08-04 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN111488486B (zh) * | 2020-04-20 | 2021-08-17 | 武汉大学 | 一种基于多音源分离的电子音乐分类方法及系统 |
CN112185347A (zh) * | 2020-09-27 | 2021-01-05 | 北京达佳互联信息技术有限公司 | 语种识别方法、装置、服务器及存储介质 |
CN112201226B (zh) * | 2020-09-28 | 2022-09-16 | 复旦大学 | 一种发声方式判别方法及系统 |
CN112201226A (zh) * | 2020-09-28 | 2021-01-08 | 复旦大学 | 一种发声方式判别方法及系统 |
CN112259120B (zh) * | 2020-10-19 | 2021-06-29 | 南京硅基智能科技有限公司 | 基于卷积循环神经网络的单通道人声与背景声分离方法 |
CN112259120A (zh) * | 2020-10-19 | 2021-01-22 | 成都明杰科技有限公司 | 基于卷积循环神经网络的单通道人声与背景声分离方法 |
CN112488013B (zh) * | 2020-12-04 | 2022-09-02 | 重庆邮电大学 | 基于时序不一致性的深度伪造视频检测方法及系统 |
CN112488013A (zh) * | 2020-12-04 | 2021-03-12 | 重庆邮电大学 | 基于时序不一致性的深度伪造视频检测方法及系统 |
CN113053410B (zh) * | 2021-02-26 | 2021-10-01 | 北京国双科技有限公司 | 声音识别方法、装置、计算机设备和存储介质 |
CN113053410A (zh) * | 2021-02-26 | 2021-06-29 | 北京国双科技有限公司 | 声音识别方法、装置、计算机设备和存储介质 |
CN113421574A (zh) * | 2021-06-18 | 2021-09-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频特征提取模型的训练方法、音频识别方法及相关设备 |
CN113421574B (zh) * | 2021-06-18 | 2024-05-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频特征提取模型的训练方法、音频识别方法及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110148400B (zh) | 2023-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110148400A (zh) | 发音类型的识别方法、模型的训练方法、装置及设备 | |
US10657969B2 (en) | Identity verification method and apparatus based on voiceprint | |
CN110457432B (zh) | 面试评分方法、装置、设备及存储介质 | |
US9818409B2 (en) | Context-dependent modeling of phonemes | |
CN110136693A (zh) | 用于使用少量样本进行神经话音克隆的系统和方法 | |
Kelly et al. | Deep neural network based forensic automatic speaker recognition in VOCALISE using x-vectors | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN112487139B (zh) | 基于文本的自动出题方法、装置及计算机设备 | |
CN114465737B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN110556130A (zh) | 语音情绪识别方法、装置及存储介质 | |
CN110246488A (zh) | 半优化CycleGAN模型的语音转换方法及装置 | |
CN109657229A (zh) | 一种意图识别模型生成方法、意图识别方法及装置 | |
CN110310619A (zh) | 多音字预测方法、装置、设备及计算机可读存储介质 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN107247700A (zh) | 一种添加文本标注的方法及装置 | |
CN107437417A (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
KR20230152741A (ko) | 고정 언어 모델을 사용한 다중-모달 퓨-샷 학습 | |
CN116050496A (zh) | 图片描述信息生成模型的确定方法及装置、介质、设备 | |
WO2023197749A9 (zh) | 背景音乐的插入时间点确定方法、装置、设备和存储介质 | |
Zhao et al. | End-to-end-based Tibetan multitask speech recognition | |
CN112580669A (zh) | 一种对语音信息的训练方法及装置 | |
CN111008531A (zh) | 语句选词模型的训练方法及装置、语句选词方法及装置 | |
CN116956915A (zh) | 实体识别模型训练方法、装置、设备、存储介质及产品 | |
CN114170997A (zh) | 发音技巧检测方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |