CN111243575A - 基于扩张卷积神经网络的方言种属识别方法 - Google Patents
基于扩张卷积神经网络的方言种属识别方法 Download PDFInfo
- Publication number
- CN111243575A CN111243575A CN202010039566.0A CN202010039566A CN111243575A CN 111243575 A CN111243575 A CN 111243575A CN 202010039566 A CN202010039566 A CN 202010039566A CN 111243575 A CN111243575 A CN 111243575A
- Authority
- CN
- China
- Prior art keywords
- dialect
- layer
- neural network
- convolution
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 18
- 241000894007 species Species 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000009432 framing Methods 0.000 claims abstract description 5
- 238000013135 deep learning Methods 0.000 claims abstract description 4
- 238000000605 extraction Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 230000005236 sound signal Effects 0.000 claims description 4
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 210000005069 ears Anatomy 0.000 claims description 3
- 108090000623 proteins and genes Proteins 0.000 claims description 3
- 230000001174 ascending effect Effects 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 10
- 230000005855 radiation Effects 0.000 abstract description 2
- 238000013507 mapping Methods 0.000 abstract 1
- 238000004364 calculation method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000010339 dilation Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于扩张卷积神经网络的方言种属识别方法。方言作为一种独特的民族文化有着丰厚的文化底蕴。若想将汉语方言识别体系化,首先要将方言进行分类汇总,确定方言的种属。主要选取三种方言,实现语料库的构建,对音频数据数字化并进行预处理,去除口唇对语音信号的辐射和提升高频的分辨率,分帧后保证语音信号具有短时平稳性。提取音频的声学特征梅尔频率倒谱系数MFCC、log‑mel filterbank,使用基于扩张卷积的卷积神经网络CNN进行训练,融入残差网络ResNet。保存最佳模型,整理分类标签,保存标签分类和方言之间的映射。通过深度学习的方式模拟人的判断力去辨别方言的种类。结果表明此方法可使识别准确率提升至90%以上,可用于方言口音鉴别等领域。
Description
技术领域
本发明涉及深度学习语种识别及语音信号处理领域的方言种属识别方法,具体地,涉及一种基于扩张卷积神经网络的方言种属识别技术方法。
背景技术
基于不同地域文化形态形成了形式各异的各地方言,诸多地方的方言均有“十里不同音”的特点。方言的地域文化推广、文化特色传承等社会教育作用应被发扬光大。需利用技术将一些正在淡出人们视线的方言保护下去,成为一笔财富。
方言识别类比于语种识别,其目的在于自动确定一段语音所属的语言种类。作为相关语言应用的一种前端处理技术,语种识别在多语种语音识别、信息检索和服务、即时通信系统、公安消防系统和机器翻译等领域中有着举足轻重的地位,让其研究变得有意义起来。现有技术中,声学模型从GMM-HMM到DNN-HMM的蜕变,再到利用长短时记忆递归神经网络LSTM-RNN搭建的端对端网络的语种识别系统无一不促进了语音识别的发展。LSTM-RNN在处理长时信息和序列信号上有着天然的优势,独特的结构设计让它可以自动选择遗忘不重要的节点并记忆重要的节点,同时在一定程度上解决了传统RNN网络梯度消失和梯度爆炸的问题。但由于RNN采用循环机制,导致实时性不强,所以这成为了一大弊端。
发明内容
针对现有技术的不足,本发明提出一种基于扩张卷积的神经网络的方言种属识别方法,使用传统声学特征梅尔频率倒谱系数MFCC及梅尔滤波器组log-mel filterbank作为神经网络模型的输入,利用卷积的平移、缩放和旋转不变性,在网络中训练的参数更少的基础上,提高方言种属识别的准确率。
为实现上述目的,本发明提出一种基于扩张卷积神经网络的方言种属识别方法,其特征在于具体包括如下步骤:
a)数据集选取及预处理阶段:选择音频格式为PCM的方言,该音频是通过将模拟音频信号经模数转换得到的二进制序列;该语音信号为单通道的采样频率16kHz的信号,无头尾信息,为其添加头信息将其转化为wav格式文件;
b)特征提取阶段:将预处理完成后的音频根据人耳特征,提取梅尔倒谱系数MFCC声学特征;;
c)模型构建阶段:将特征提取阶段得到的特征序列作为模型输入,采用扩张卷积的CNN构建模型;输入层之后紧接着一层一维卷积层,卷积核大小选取1×1,可通过设置卷积核的个数,灵活的实现升维和降维;BN层和激活层排布在每个卷积层后面,设置两个残差网络块,内部包含一维卷积层、BN层和激活层,使用add层来做信息的叠加;下一层为shortcut connection连接的跳跃层之间的add层,再连接激活层和BN层,最终将BN层的输出作为池化层的输入,全连接到softmax层。
d)训练模型阶段:利用深度学习框架keras和TensorFlow训练网络,将数据集中的数据标签化,并序列化保存到最佳模型。
优选地,在所述步骤a)数据集选取集预处理阶段,为了使数据集中包含更多的数据,搜集到了方言的扩展,增加语料库容量;使用百度人工智能API,音频处理相关SDK,添加jar到java库,并添加相应依赖到maven仓库;将MP3格式转化为PCM无损压缩格式,添加信息头得到wav格式文件。
优选地,在所述步骤a)数据集选取及预处理阶段,使用分帧、加窗的方法处理语音信号,使得语音信号在一帧内实现语音信号的短时平稳性以方便提取特征。
优选地,在所述步骤a)数据集选取集预处理阶段,对语音信号进行时域分析,可通过短时相关分析得到基因周期的估值等;对语音信号进行短时傅里叶变换,将时域信号转到频域。
优选地,在所述步骤b)特征提取阶段,提取的MFCC特征向量维数为13维,提取动态特征MFCC一阶差分、二阶差分,拼接为39维特征向量;log-mel filterbank特征向量的维数等于三角滤波器组中滤波器的个数。
优选地,在所述步骤c)模型构建阶段,其特征在于利用扩张卷积来扩大网络的感受野,类似于使用更大的卷积核进行卷积操作,未增加参数,保证了运算速度;
优选地,在所述步骤c)模型构建阶段,加入残差网络,在网络中的层中间融入shortcut connection跨越3层,通过权重连接,将不相邻网络层前后串接起来形成深度网络。
优选地,在所述步骤c)模型构建阶段,在全连接的softmax层前面增加全局平均池化层,以减少了参数数量。
本发明是一种基于扩张卷积神经网络的方言种属识别方法,包括数据集的选取及预处理阶段、特征提取阶段,模型构建阶段以及训练模型阶段。使用传统声学特征梅尔频率倒谱系数MFCC及梅尔滤波器组log-mel filterbank作为输入构建神经网络模型。实现在方言语料充分的条件下,使用该网络训练模型,比传统GMM-HMM模型的识别准确率提升了8%~15%,使得方言种属识别准确率稳定在90%以上,并可以推广到其他语言辨识应用中去。
附图说明
图1是本发明声学特征MFCC计算流程图
图2是本发明神经网络结构示意图
具体实施方式
以下结合附图对本发明的具体实施方式作进一步说明。
针对现有技术的不足,本发明提出一种基于扩张卷积的神经网络,使用传统声学特征梅尔频率倒谱系数MFCC及梅尔滤波器组log-mel filterbank作为神经网络模型的输入,利用卷积的平移、缩放和旋转不变性,在网络中训练的参数更少的基础上,提高方言种属识别的准确率。
本发明将所述基于扩张卷积的神经网络应用于方言种属的识别中,形成一种基于扩张卷积的神经网络的方言种属识别方法,包括数据集的选取及预处理阶段、特征提取阶段,模型构建阶段,训练模型阶段,其中:
所述数据集选取及预处理阶段,选择长沙、上海、南昌方言,音频格式为PCM,是模拟音频信号经模数转换(A/D变换)直接形成的二进制序列,语音信号为单通道,为遵循奈奎斯特采样定律fs>2f,采样频率16kHz,无头尾信息,为其添加头信息转化为wav格式文件。
对于数据集的构建与预处理阶段,具体处理方式如下:
(1)数据集构建:数据集由三种PCM格式的方言语料和数据格式为MP3格式的新语料组合而成,将原本的MP3格式统一转换为PCM格式,减少语音压缩后的失真。使用百度人工智能API,音频处理相关SDK,添加jar到Java库,并添加相应依赖到maven仓库;将MP3格式转化为PCM无损压缩格式,添加信息头得到wav格式文件。使用百度人工智能开放平台,引入第三方依赖包,申请AppID等,将数据上传至服务器,并得到PCM格式文件。为PCM文件加上语音信息头,例如采样频率、帧速率、通道数等信息,将其转化为WAV格式文件。将转化后的文件标签化,选出与原始语音集相关的地方方言,重命名文件,加入整体数据集,
(2)分帧:是利用可移动的有限长度窗口进行加权的方法实现。通常将语音段分为多个10ms~30ms的短段,称之为帧。为了保证信号之间的平滑性,分帧时加入帧移概念,使得帧与帧之间平滑过渡,保证了语音信号的短时平稳不变性。
(3)加窗:为了减小截断反应,常用的窗函数包括矩形窗、汉明窗。后者的主瓣宽度比矩形窗大一倍,同时其带外衰减也比矩形窗大一倍多,虽然矩形窗的谱平滑性较好,但损失了高频部分,二者比较选用不使波形丢失细节的汉明窗。
(4)预加重:为了去除口唇对语音信号的辐射和提升高频的分辨率,我们需对数字化后的加重语音信号的高频部分,即预加重。我们一般会通过加高通滤波器来实现对语音信号高频部分的加重处理。一阶FIR高通数字滤波器:
H(z)=1-αz-1,0.9<α<1
(5)端点检测:用于鉴别音频信号当中的语音出现和语音消失。附加的在此基础上清掉了语音中的静音段。
(6)时频域分析:对语音信号进行时域分析,可通过短时相关分析得到基因周期的估值等;对语音信号进行短时傅里叶变换,将时域信号转到频域。
所述特征提取阶段,将预处理完成后的音频根据人耳特征,提取常用的两种声学特征MFCC和log-mel filterbank。利用MFCC提取特征可得到对应的13维,另外提取log-melfilterbank特征得到的维数等于滤波器组滤波器个数梅尔倒谱系数MFCC特征拟合了人耳的听觉系统,Mel标度描述了人耳频率的非线性特征。MFCC是对log-mel filterbank的对数能量谱做DCT计算得到。MFCC系数中的首维能量C0用log energy代替,防止C0数值过大带来识别结果的下降。MFCC计算流程如附图1所示。MFCC为静态特征,为了能更好的表达相邻帧之间的相关性,提取动态特征MFCC一阶差分、二阶差分,拼接为39维特征向量。提取频谱对数能量作为log-mel filterbank特征,滤波器个数取40个。使用python提取出两种特征后对其进行归一化处理作为整个网络的输入。
所述模型构建阶段:将特征提取阶段得到的特征序列最为模型输入,利用采用扩张卷积的CNN解决序列长时期依赖问题,从而替代具有长短时记忆LSTM机制的RNN,采用扩张卷积使得在网络具有更大的感受野。语音信号为一维信号,采用一维卷积,只需在数据帧上做卷积即可。输入层之后紧接着一层一维卷积层,卷积核大小选取1×1,可通过设置卷积核的个数,灵活的实现升维和降维。Relu激活函数将线性问题非线性化,让神经网络拟合能力提升。归一化层采用Batch Normalization使得在深度神经网络训练过程中,每一层神经网络的输入保持相同分布,让每一层的值在有效地范围内传递。采用反向传播算法进行区分性训练。使用在图像分割领域初现的扩张卷积也叫带洞卷积或者膨胀卷积,扩张卷积可以使感受野呈指数增长,计算量未增加。和普通卷积相比多了一个dilation rate的参数,可以通过它在基础卷积核中加入间隔,类似于kernel size做了相应的扩大,携带参数的只有本身卷积核,即扩张卷积与普通卷积在网络中的参数数量保持一致。将连续排布的扩张卷积的dilation rate设置为类似[1,2,4,8]的结构,使网格向外延伸的计算点尽可能地被覆盖到。考虑到深度越深网络表达能力可能不增反降的因素,加入残差网络,在网络中的层中间融入shortcut connection跨越3层,比较于high networks和plain networks,缓解了深度网络中的梯度下降问题。加入池化层,采用全局平均池化方式,对数据进行降维,减少了参数数量,保证了计算速度。由于涉及到分类问题采用softmax作为最后一层。如附图2所示为网络结构示意并附带特征形状变化。
通过本发明的改进方案,比传统GMM-HMM模型的识别准确率提升了8%~15%,使得方言种属识别准确率稳定在90%以上,最好模型测试集准确率能达到95%以上。可用此分类器将待验证语音分类,再根据语言模型进行方言识别。
以上内容结合附图对本发明的实施方式作出描述,但本发明不局限于上述实施方式。本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (8)
1.一种基于扩张卷积神经网络的方言种属识别方法,其特征在于具体包括如下步骤:
a)数据集选取及预处理阶段:选择音频格式为PCM的方言,该音频是通过将模拟音频信号经模数转换得到的二进制序列;该语音信号为单通道的采样频率16kHz的信号,无头尾信息,为其添加头信息将其转化为wav格式文件;
b)特征提取阶段:将预处理完成后的音频根据人耳特征,提取梅尔倒谱系数MFCC声学特征和log-melfilterbank特征;
c)模型构建阶段:将特征提取阶段得到的特征序列作为模型输入,采用扩张卷积的CNN构建模型;输入层之后紧接着一层一维卷积层,可通过设置卷积核的个数,灵活的实现升维和降维;BN层和激活层排布在每个卷积层后面,设置两个残差网络块,内部包含一维卷积层、BN层和激活层,使用add层来做信息的叠加;下一层为shortcut connection连接的跳跃层之间的add层,再连接激活层和BN层,最终将BN层的输出作为池化层的输入,全连接到softmax层;
d)训练模型阶段:利用深度学习框架keras和TensorFlow训练网络,将数据集中的数据标签化,并序列化保存到最佳模型。
2.根据权利要求1所述的一种基于扩张卷积神经网络的方言种属识别方法,其特征在于:在所述步骤a)数据集选取集预处理阶段,为了使数据集中包含更多的数据,搜集到了方言的扩展,增加语料库容量;使用百度人工智能API,音频处理相关SDK,添加jar到java库,并添加相应依赖到maven仓库;将MP3格式转化为PCM无损压缩格式,添加信息头得到wav格式文件。
3.根据权利要求1所述的一种基于扩张卷积神经网络的方言种属识别方法,其特征在于:在所述步骤a)数据集选取及预处理阶段,使用分帧、加窗的方法处理语音信号,使得语音信号在一帧内实现语音信号的短时平稳性以方便提取特征。
4.根据权利要求1所述的一种基于扩张卷积神经网络的方言种属识别方法,其特征在于:在所述步骤a)数据集选取集预处理阶段,对语音信号进行时域分析,可通过短时相关分析得到基因周期的估值等;对语音信号进行短时傅里叶变换,将时域信号转到频域。
5.根据权利要求1所述的一种基于扩张卷积神经网络的方言种属识别方法,其特征在于:在所述步骤b)特征提取阶段,提取的MFCC特征向量维数为13维,提取动态特征MFCC一阶差分、二阶差分,拼接为39维特征向量;log-melfilterbank特征向量的维数等于三角滤波器组中滤波器的个数。
6.根据权利要求1所述的一种基于扩张卷积神经网络的方言种属识别方法,其特征在于:在所述步骤c)模型构建阶段,其特征在于利用扩张卷积来扩大网络的感受野,类似于使用更大的卷积核进行卷积操作,未增加参数,保证了运算速度。
7.根据权利要求1所述一种基于扩张卷积神经网络的方言种属识别的方法,其特征在于:在所述步骤c)模型构建阶段,加入残差网络,在网络中的层中间融入shortcutconnection跨越3层,通过权重连接,将不相邻网络层前后串接起来形成深度网络。
8.根据权利要求1所述的一种基于扩张卷积神经网络的方言种属识别的方法,其特征在于:在所述步骤c)模型构建阶段,在全连接的softmax层前面增加全局平均池化层,以减少了参数数量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010039566.0A CN111243575A (zh) | 2020-01-15 | 2020-01-15 | 基于扩张卷积神经网络的方言种属识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010039566.0A CN111243575A (zh) | 2020-01-15 | 2020-01-15 | 基于扩张卷积神经网络的方言种属识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111243575A true CN111243575A (zh) | 2020-06-05 |
Family
ID=70874521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010039566.0A Pending CN111243575A (zh) | 2020-01-15 | 2020-01-15 | 基于扩张卷积神经网络的方言种属识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243575A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111693976A (zh) * | 2020-06-08 | 2020-09-22 | 电子科技大学 | 一种基于残差网络的mimo雷达波束赋形方法 |
CN111958588A (zh) * | 2020-07-06 | 2020-11-20 | 佛山科学技术学院 | 一种多机器人数据同步的控制方法及系统 |
CN112233651A (zh) * | 2020-10-10 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
CN112560811A (zh) * | 2021-02-19 | 2021-03-26 | 中国科学院自动化研究所 | 端到端的音视频抑郁症自动检测研究方法 |
CN112712812A (zh) * | 2020-12-24 | 2021-04-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号生成方法、装置、设备以及存储介质 |
CN113190678A (zh) * | 2021-05-08 | 2021-07-30 | 陕西师范大学 | 基于参数稀疏共享的中国方言语种分类系统 |
WO2021213161A1 (zh) * | 2020-11-25 | 2021-10-28 | 平安科技(深圳)有限公司 | 方言语音识别方法、装置、介质及电子设备 |
CN113689863A (zh) * | 2021-09-24 | 2021-11-23 | 广东电网有限责任公司 | 一种声纹特征提取方法、装置、设备及存储介质 |
CN113808573A (zh) * | 2021-08-06 | 2021-12-17 | 华南理工大学 | 基于混合域注意力与时序自注意力的方言分类方法及系统 |
CN114495903A (zh) * | 2021-12-21 | 2022-05-13 | 北京达佳互联信息技术有限公司 | 一种语言类别识别方法、装置、电子设备和存储介质 |
CN116825088A (zh) * | 2023-08-25 | 2023-09-29 | 深圳市国硕宏电子有限公司 | 一种基于深度学习的会议语音检测方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313892A (zh) * | 2017-05-17 | 2019-02-05 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和系统 |
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN110378239A (zh) * | 2019-06-25 | 2019-10-25 | 江苏大学 | 一种基于深度学习的实时交通标志检测方法 |
-
2020
- 2020-01-15 CN CN202010039566.0A patent/CN111243575A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109313892A (zh) * | 2017-05-17 | 2019-02-05 | 北京嘀嘀无限科技发展有限公司 | 稳健的语言识别方法和系统 |
CN109829058A (zh) * | 2019-01-17 | 2019-05-31 | 西北大学 | 一种基于多任务学习提高方言识别准确率的分类识别方法 |
CN110378239A (zh) * | 2019-06-25 | 2019-10-25 | 江苏大学 | 一种基于深度学习的实时交通标志检测方法 |
Non-Patent Citations (3)
Title |
---|
AARON VAN DEN OORD ET AL.: "WAVENET:A GENERATIVE MODEL FOR RAW AUDIO", 《HTTPS:ARXIV.ORG/ABS/1609.03499》 * |
YUE ZHAO ET AL.: "End-to-End-Based Tibetan Multitask Speech Recognition", 《IEEE ACCESS》 * |
尚荣华等: "《人工智能前沿技术丛书 计算智能导论》", 30 September 2019, 西安电子科技大学出版社 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111693976A (zh) * | 2020-06-08 | 2020-09-22 | 电子科技大学 | 一种基于残差网络的mimo雷达波束赋形方法 |
CN111958588A (zh) * | 2020-07-06 | 2020-11-20 | 佛山科学技术学院 | 一种多机器人数据同步的控制方法及系统 |
CN112233651A (zh) * | 2020-10-10 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
CN112233651B (zh) * | 2020-10-10 | 2024-06-04 | 深圳前海微众银行股份有限公司 | 方言类型的确定方法、装置、设备及存储介质 |
WO2021213161A1 (zh) * | 2020-11-25 | 2021-10-28 | 平安科技(深圳)有限公司 | 方言语音识别方法、装置、介质及电子设备 |
CN112712812A (zh) * | 2020-12-24 | 2021-04-27 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号生成方法、装置、设备以及存储介质 |
CN112712812B (zh) * | 2020-12-24 | 2024-04-26 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频信号生成方法、装置、设备以及存储介质 |
CN112560811A (zh) * | 2021-02-19 | 2021-03-26 | 中国科学院自动化研究所 | 端到端的音视频抑郁症自动检测研究方法 |
US11963771B2 (en) | 2021-02-19 | 2024-04-23 | Institute Of Automation, Chinese Academy Of Sciences | Automatic depression detection method based on audio-video |
CN113190678B (zh) * | 2021-05-08 | 2023-10-31 | 陕西师范大学 | 基于参数稀疏共享的中国方言语种分类系统 |
CN113190678A (zh) * | 2021-05-08 | 2021-07-30 | 陕西师范大学 | 基于参数稀疏共享的中国方言语种分类系统 |
CN113808573A (zh) * | 2021-08-06 | 2021-12-17 | 华南理工大学 | 基于混合域注意力与时序自注意力的方言分类方法及系统 |
CN113808573B (zh) * | 2021-08-06 | 2023-11-07 | 华南理工大学 | 基于混合域注意力与时序自注意力的方言分类方法及系统 |
CN113689863B (zh) * | 2021-09-24 | 2024-01-16 | 广东电网有限责任公司 | 一种声纹特征提取方法、装置、设备及存储介质 |
CN113689863A (zh) * | 2021-09-24 | 2021-11-23 | 广东电网有限责任公司 | 一种声纹特征提取方法、装置、设备及存储介质 |
CN114495903A (zh) * | 2021-12-21 | 2022-05-13 | 北京达佳互联信息技术有限公司 | 一种语言类别识别方法、装置、电子设备和存储介质 |
CN116825088B (zh) * | 2023-08-25 | 2023-11-07 | 深圳市国硕宏电子有限公司 | 一种基于深度学习的会议语音检测方法及系统 |
CN116825088A (zh) * | 2023-08-25 | 2023-09-29 | 深圳市国硕宏电子有限公司 | 一种基于深度学习的会议语音检测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111243575A (zh) | 基于扩张卷积神经网络的方言种属识别方法 | |
CN112017644B (zh) | 一种声音变换系统、方法及应用 | |
Hu et al. | Pitch‐based gender identification with two‐stage classification | |
CN106782511A (zh) | 修正线性深度自编码网络语音识别方法 | |
CN104008751A (zh) | 一种基于bp神经网络的说话人识别方法 | |
CN102982803A (zh) | 基于hrsf及改进dtw算法的孤立词语音识别方法 | |
CN112071308A (zh) | 一种基于语音合成数据增强的唤醒词训练方法 | |
CN109767756A (zh) | 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法 | |
CN106024010A (zh) | 一种基于共振峰曲线的语音信号动态特征提取方法 | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
CN113889090A (zh) | 一种基于多任务学习的多语种识别模型的构建和训练方法 | |
Sinha et al. | Acoustic-phonetic feature based dialect identification in Hindi Speech | |
CN113611285B (zh) | 基于层叠双向时序池化的语种识别方法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Rudresh et al. | Performance analysis of speech digit recognition using cepstrum and vector quantization | |
Dave et al. | Speech recognition: A review | |
Rabiee et al. | Persian accents identification using an adaptive neural network | |
Gaudani et al. | Comparative study of robust feature extraction techniques for ASR for limited resource Hindi language | |
Zhou et al. | Environmental sound classification of western black-crowned gibbon habitat based on spectral subtraction and VGG16 | |
Dharmale et al. | Evaluation of phonetic system for speech recognition on smartphone | |
Thalengala et al. | Study of sub-word acoustical models for Kannada isolated word recognition system | |
Kumar et al. | Text dependent voice recognition system using MFCC and VQ for security applications | |
Tailor et al. | Deep learning approach for spoken digit recognition in Gujarati language | |
Chit et al. | Myanmar continuous speech recognition system using fuzzy logic classification in speech segmentation | |
CN114550696A (zh) | 一种通过语音识别实现情绪判断的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200605 |
|
WD01 | Invention patent application deemed withdrawn after publication |