CN109410914A - 一种赣方言语音和方言点识别方法 - Google Patents
一种赣方言语音和方言点识别方法 Download PDFInfo
- Publication number
- CN109410914A CN109410914A CN201810983923.1A CN201810983923A CN109410914A CN 109410914 A CN109410914 A CN 109410914A CN 201810983923 A CN201810983923 A CN 201810983923A CN 109410914 A CN109410914 A CN 109410914A
- Authority
- CN
- China
- Prior art keywords
- dialect
- jiangxi
- model
- phonetic
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 15
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 7
- 238000010845 search algorithm Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000009432 framing Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 244000245214 Mentha canadensis Species 0.000 description 2
- 235000016278 Mentha canadensis Nutrition 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 244000207740 Lemna minor Species 0.000 description 1
- 235000006439 Lemna minor Nutrition 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 240000002853 Nelumbo nucifera Species 0.000 description 1
- 235000006508 Nelumbo nucifera Nutrition 0.000 description 1
- 235000006510 Nelumbo pentapetala Nutrition 0.000 description 1
- 235000001855 Portulaca oleracea Nutrition 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种赣方言语音和方言点识别方法,包括预先构建赣方言语音识别模型,通过赣方言语音识别模型接收待识别的赣方言语音;对接收到的赣方言语音通过赣方言语音识别模型中的前端信号处理模块进行预处理并提取出MFCC特征向量;通过语言解码和探索算法模块将声学模块与语言模型结合起来,选出概率最大的句子作为语音识别句子输出;构建赣方言点识别模型通过赣方言点识别模型对赣方言点进行识别。该方法采用DNN替换传统的GMM对HMM状态的发射概率进行建模,通过卷积神经网络框架对输入的赣方言语音进行识别,可以识别出其对应的方言汉字文本和其归属的片区,同时还可以识别出其所在的方言点。
Description
技术领域
本发明涉及一种语音识别方法及转换系统,特别涉及一种赣方言语音和方言点识别方法。
背景技术
语音是人类最自然的特征之一,也是最直接的交互手段。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。目前很多语音识别的声学建模通常是指从语音波形中计算得出的特征向量序列建立统计陈述的过程。目前语音识别多为普通话,而方言作为一个地方特色语言,有一大批人还在使用,特别是一些年龄比较大的人不会说普通话只会说方言,因此无法使用语言识别。且随着社会发展,越来越多软件:如输入法、导航软件都要使用到语言识别,方言的识别需求已经越来越强烈需求量也越来越大。赣方言作为江西方言,历史悠久,是唐宋以前中原移民的中原话和赣地先民语言相互融合的产物,形成于汉朝,定型于唐宋。主要包括赣语、客家语、江淮官话,方言间混淆度很大,这无疑给赣语方言种类识别带来了较大的挑战。
发明内容
为解决上述问题,本发明的目的在于提供一种赣方言语音和方言点识别方法,采用DNN(Deep Neural Network)替换传统的GMM(Gaussian Mixture Mode)对HMM(HiddenMarkov Model)状态的发射概率进行建模,基于Kaldi1实现了赣方言的HMM-DNN(HiddenMarkov Model-Deep Neural Network)模型,结合我们标注的赣方言语音和文字语料库,采用5倍交叉验证进行赣方言语音和方言点识别任务,用最新深度学习卷积神经网络框架对输入的赣方言语音进行识别,可以识别出其对应的方言汉字文本和其归属的片区,同时还可以识别出其所在的方言点。
为实现上述目的,本发明通过以下技术方案来实现:
一种赣方言语音和方言点识别方法,其特征在于,包括预先构建赣方言语音识别模型,所述赣方言语音识别模型由前端信号处理模块、语言解码和搜索算法模块、声学模型、发音词典、语言模型构成,所述语言解码和搜索算法模块主要将声学信号解码成理想情况下接近源词序列的词序列,通过使用声学模型和语言模型生成具有最大后验概率输入特征向量的词序列,所述声学模型构建方式为通过建立赣方言语音语料库后通过声学模型训练而成,所述语言模型构建方式为通过建立赣方言文本语料库后通过语言模型训练而成,所述发音字典模块为赣方言发音词典,主要包含赣方言句子以及它对应的声母、韵母和声调信息;
赣方言语音识别模型接收待识别的赣方言语音;
对接收到的赣方言语音通过赣方言语音识别模型中的前端信号处理模块进行预处理并提取出MFCC(Mel Frequency Cepstral Coefficients)特征向量;
通过语言解码和探索算法模块将声学模块与语言模型结合起来,选出概率最大的句子作为语音识别句子输出;
构建赣方言点识别模型,采用CNN网络结构(Convolution Neural Network)混合建模,首先以赣方言语音识别模型识别出来的赣方言汉字为基础,利用word2vec工具将其转换成汉字向量;其次利用赣方言语音中抽取出MFCC特征,对识别出的赣方言文本和语音两种类型的向量进行拼接,将此向量作为CNN的输入,并将卷积层的过滤大小分别设置为3、4和5;然后将卷积层后的向量利用最大池化策略降维;最后采用dropout防止模型过拟合,并利用Softmax对赣方言点进行识别;
通过赣方言点识别模型识别赣方言点。
进一步地,所述的前端信号处理模块的预处理过程具体为:输入是赣方言声音信号,经过数模转换后,再去除直流信号,然后对信号进行分帧处理,接着对信号进行放大(扩大频率),对其分窗,然后经过付立叶变换,截取Mel频率范围信号,经过对数运算,提取出MFCC特征,再结合每帧的能量信号,得到差分信息,最后提取出语音信号的声学特征,用于后续的模型训练。
进一步地,所述信号进行分帧处理以25毫秒为一帧,每两个帧之间的叠加长度为10毫秒。
进一步地,所述声学模型采用基于HMM-DNN的声学建模,赣方言语音的MFCC特征向量作为DNN输入,输出各种精度的音素,声学模型采用公式(1)所示的交叉熵作为目标函数,同时采用随机梯度下降法对其进行优化;
H0=-yclog[p(yc=1)]-(1-yc)log[1-p(yc=1)] (2)
公式(1)中的Θ是参数集,M代表训练实例的个数。
进一步地,所述赣方言点识别模型采用公式(1)所示的交叉熵作为目标函数,同时采用Adam算法对其进行优化。
本发明采用HMM-DNN模型有两大优点:一是不需要对语音数据分布进行假设,不需要切分成语流来分段拟合;二是DNN的输入可以将相邻语音帧拼接成包含时序结构信息的矢量,在帧层次利用更多的上下文信息。
说明书附图
图1为本发明一种赣方言语音和方言点识别方法的赣方言语音识别模型;
图2为MFCC声学特征提取流程;
图3为HMM-DNN模型;
图4为本发明一种赣方言语音和方言点识别方法的赣方言点识别模型。
具体实施方式
下面结合附图对本发明作进一步说明:
一种赣方言语音和方言点识别方法,包括预先构建赣方言语音识别模型,通过赣方言语音识别模型接收待识别的赣方言语音;对接收到的赣方言语音通过赣方言语音识别模型中的前端信号处理模块进行预处理并提取出MFCC(Mel Frequency CepstralCoefficients)特征向量;通过语言解码和探索算法模块将声学模块与语言模型结合起来,选出概率最大的句子作为语音识别句子输出;构建赣方言点识别模型通过赣方言点识别模型对赣方言点进行识别。
附图1显示了一个完整的建赣方言语音识别模型。语音识别的任务就是通过计算机程序将语音信号转换为相应的单词序列的一个过程。如图1所示,在信号处理模块中处理语音信号,提取解码器的显著特征向量。解码器(Decoder)使用声学和语言模型生成具有最大后验概率的输入特征向量的词序列。各部件的组成分别如下:
(1)前端信号处理模块
在开始语音识别之前,首先要对语音信号进行预处理。预处理由三个阶段来完成,分别是模拟信号数字化、端点检测和分帧。在语音信号分帧以后,我们才可以对它进行详细分析。分帧是指将一段完整的语音信号切开成很多长度相等的小段。切开的每一段语音称为一帧。分帧操作一般采用移动窗函数来实现。第一帧和第二帧只有一个叠加部分。一般一帧长度为25毫秒,每两个帧之间的叠加长度为10毫秒即可。语音信号分帧完了以后,提取语音信号的特征参数。常用的特征有LPC(linear predictive coding)、LPCC(LicensedProfessional Clinical Counselor)和MFCC(Mel Frequency Cepstral Coefficients)。本文我们选用MFCC作为特征参数。MFCC声学特征提取过程如附图2所示,其输入的是赣方言声音信号,经过数模转换后,再去除直流信号,然后对信号进行分帧处理(25毫秒为一帧,每两个帧之间的叠加长度为10毫秒),接着对信号进行放大(扩大频率),对其分窗,然后经过付立叶变换,截取Mel频率范围信号,经过对数运算,提取出MFCC特征,再结合每帧的能量信号,得到差分信息,最后提取出语音信号的声学特征,用于后续的模型训练。输入的语音以WAVE(Wave Audio File Format)格式保存在计算机上,这种格式是直接保存对声音波形的采样数据,数据没有经过压缩,最大程度的保存了原语音特征的数据。本赣方言识别平台使用单声道的语音音频,其采样频率为16000HZ,采样位数为16bit。最后每一帧的MFCC特征实际上是13维的向量,再通过一阶差分和二阶差分的计算,得到了长度为39维的声学特征。
(2)声学模型模块
声学模型主要负责完成语音到音节概率的计算。语音识别的声学建模通常是指从语音波形中计算得出的特征向量序列建立统计陈述的过程。本装置采用DNN(Deep NeuralNetwork)替换传统的GMM(Gaussian Mixture Mode)对HMM(Hidden Markov Model)状态的发射概率进行建模有两大优点:一是不需要对语音数据分布进行假设,不需要切分成语流来分段拟合;DNN的输入可以将相邻语音帧拼接成包含时序结构信息的矢量,在帧层次利用更多的上下文信息。附图3显示了HMM-DNN模型,图3中模块7主要负责从语音信号中提取MFCC特征,模块8是DNN(Deep Neural Network)深度神经网络模块,利用DNN可替换描述特征发射概率模型的GMM(Gaussian Mixture model),模块9是隐马尔可夫过程(HiddenMarkov Model,简称HMM),其中在每个状态表示成I,II,III......N,状态之间可以进行转换,转换概率分别用aij进行表示,1<=i<=N;1<=j<=N。转移概率是每个状态转移到自身或转移到下个状态的概率。在实际中,每个音素用一个包含6个状态的HMM建模,每个状态用高斯混合模型GMM拟合对应的观测帧,观测帧按时序组合成观测序列。每个模型可以生成长短不一的观测序列,即一对多映射。训练过程即将样本按音素划分到具体的模型,再学习每个模型中HMM的转移矩阵和GMM的权重以及均值方差等参数。DNN比GMM提供更好的观察概率,DNN的每一帧的特征向量的长度为40维,考虑了相邻发音之间的关系,采用了相邻的11帧总共440维的数据作为DNN的输入,输出是各种精度的音素:单音子音素和三音子音素。
模型采用公式(1)所示的交叉熵作为目标函数,同时采用随机梯度下降法对其进行优化:
H0=-yclog[p(yc=1)]-(1-yc)log[1-p(yc=1)] (2)
公式(1)中的Θ是参数集,M代表训练实例的个数。
基于DNN-HMM的声学建模时,一般MLP对音素分类建模,计算音素分类的后验概率,并于HMM一起组成混合模型结构。深度神经网络的输入是语音的特征向量,这些特征向量通过线性辨别式分析(Linear Discriminant Analysis,LDA)映射位200维向量,然后经过倒谱归一化去除信道噪声后作为DNN的输入。它的输出是各种精度的音素,常见的有单音子音素(Monophone)和它的状态,三音子音素(Triphone)和状态绑定等。HMM-DNN是一个完整的声学模型。利用DNN的时候HMM的作用就是对输出进行强对齐。因为,训练DNN的时候,需要知道每一帧对应的是什么音素。而一般语音数据的标注,只有音素串,并不知道每个音素HMM状态的起止时间。“强制对齐”就是利用HMM模型,求出每个音素或HMM状态的起止时间。
(3)语言模型训练模块
语言模型主要负责音节到字概率的计算,用以约束单词搜索,并计算句子出现的概率。统计语言模型是一个词序列上的概率分布。在语音识别中,计算机尝试将声音与字序列进行匹配。语言模型提供上下文单词和短语相似的相似度。数据稀疏是构建语言模型的主要问题。在训练中将不会观察到最可能的字序列。一个解决方案是假设一个单词的概率只取决于前面的n个单词。这一般称为n-gram模型。在n-gram语言模型中,观察句子w1,w2,…wn的概率P(w1,w2,wm)近似为
条件概率可以从n-gram模型频率计算得出:
bigram和trigram语言模型分别表示n=2和n=3的n-gram语言模型。然而,通常n-gram模型概率不直接来自于频率计数,因为以这种方式推出的模型在遇到以前没有明确出现的任何n-gram时,都会遇到严重问题。相反,某种形式的平滑是必要的,将一些总概率质量分配给不出现的单词或n-gram模型,其核心思想是对根据极大似然估计原则得到的概率分布进一步调整,确保统计语言模型中的每个概率参数均不为零,同时使概率分布更加趋向合理、均匀。常用的数据平滑技术有:加法平滑,Good-Turing估计,回退(Backing-offSmoothing)平滑,线性插值(Linear Interpolation)等。
(4)发音词典模块
本装置的赣方言发音词典主要包含赣方言句子以及它对应的声母、韵母和声调信息。赣方言发音词典实例如表1所示
表1赣方言训练实例
(5)语言解码和搜索模块
解码器旨在将声学信号X解码成理想情况下接近源词序列的词序列,通过使用声学模型和语言模型生成具有最大后验概率的输入特征向量的词序列。解码器能够将声学模型与语言模型结合起来考虑,选出概率最大的句子作为语音识别的句子。而语音识别过程就是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大,这个过程称为“解码”,而基于动态规划剪纸的Viterbi算法是一种常用的路径搜索算法,它可以寻找全局最优路径。HMM中的观察概率是指每帧和每个状态对应的概率;转移概率是每个状态转移到自身或转移到下个状态的概率。在实际中,每个音素用一个包含6个状态的HMM建模,每个状态用高斯混合模型GMM拟合对应的观测帧,观测帧按时序组合成观测序列。每个模型可以生成长短不一的观测序列,即一对多映射。训练过程即将样本按音素划分到具体的模型,再学习每个模型中HMM的转移矩阵和GMM的权重以及均值方差等参数。
(6)赣方言点识别模块
方言点的分类粗粒度的是精确到六大片区,细粒度的是精确到19个县市的方言点如表2所示:
表2赣方言的层次区域结构
赣方言点识别模型如图4所示,本装置所使用的CNN网络结构包括了输入层(Inputlayer)1、卷积层(Conv layer)2、最大池化层(Max pool)3、全连接层(FullyConnected)4、Dropout层5和输出层(Output)6。从模型结构图可以看出,输入层1输入的是语料库中的原始语句,该语句是由词向量拼接而成的句子向量。卷积层2对输入数据应用3种范围的过滤器,每种范围的过滤器个数是128个。在该模型中,过滤器的长度大小与词向量的长度大小是相同的,这一点不同于对图像做卷积时的过滤器。图4中卷积层2过滤器的宽度从左到右分别为3、4、5,表示同时对连续的3个词、4个词和5个词做特征提取。从直觉上讲,如果将一个权重分布到整个图像上,那么这个特征就和位置无关了,同时多个过滤器可以分别探测出不同的特征。最大池化层3能够缩减输入数据的规模,对每一个过滤器提取出来的特征只取一个最大的特征。在最大池化层3后面通常连接着一个或多个连接层,该模型在最大池化层3后面接了一个全连接层4,全连接层4将不同过滤器提取的特征拼接起来。Dropout层5随机删除网络中的一些隐藏神经元,可以有效地减轻过拟合的发生,一定程度上达到了正则化的效果,本文中将该值设置为一般的0.5。输出层6最后输出每一个对应分类的概率值。
实施例1:
我们将音频采样率设置为16000HZ,单声道,采样精度为16位;采用pydub工具按句子切分音频。对于HMM-DNN模型,我们采用Sigmoid作为激活函数,softmax作为最后的输出层,学习率(learning rate)设置为0.008,mini-batch大小设置为256。
评测指标:
在语音识别中,常用的评估标准为词错误率WER(Word Error Rate),其计算方式如公式(3)所示。为了使识别出来的词序列和标准的词序列之间保持一致,需要进行替换、删除、或者插入某些词,这些插入(Insertions)、替换(Substitutions)、删除(Deletions)的词的总个数除以标准的词序列中词的个数的百分比便得到WER。
错误!未找到引用源。(3)
赣方言语音识别结果:
表3显示了HMM-DNN赣方言语音识别性能,体现了深度学习的复杂学习能力。但是相比与普通话语音识别而言,赣方言的语音识别性能还有很大的提升空间。
表3赣方言语音识别性能
模型 | WER(%) |
HMM-DNN模型 | 24.76 |
在赣方言点识别模型中,我们设置5帧MFCC为一组,从而得到65维度的语音特征向量。为了与语音向量维度一致,我们设置赣方言语音识别后的汉字向量的维度也为65。CNN卷积层的过滤大小分别为3、4和5,过滤节点个数为128,采用RELU作为激活函数,设置mini-batch大小为64,dropout比例为0.5,最大学习率为0.005,最小学习率为0.0001。与赣方言语音识别不同,我们没有对MFCC进行一阶和二阶差分,而是直接利用原始的13维度的MFCC作为特征。模型采用公式(1)所示的交叉熵作为目标函数,并利用Adam算法优化该目标函数。
评测指标
我们采用正确度公式(4)度量系统性能。
其中,TruePositive代表本来是正样例,同时分类成正样例的个数;
TrueNegative代表本来是负样例,同时分类成负样例的个数;All代表样例总个数。
结果分析:
表4显示了赣方言点识别模型的实验结果,从表中数据得知我们的系统取得了很好的识别性能,这充分说明了语音特征和文本特征的互补性。因为赣方言中各片区人群的发音特点在语音层面上有很大的差别,相比而言,各片区的词语方面的差别性要相对较小些。
表4赣方言点识别实验结果
正确率 | |
6路分类(第一层次) | 95.64 |
19路分类(第二层次) | 94.90 |
表5显示了我们提出的模型下第一层次的赣方言点识别实验混淆矩阵结果,我们可以看出绝大多数实例都可以被正确地识别出来,只有极少数实例被识别错误。其中,L1代表‘昌靖片’,L2代表‘抚广片’,L3代表‘客家话’,L4代表‘吉莲片’,L5代表‘宜萍片’,L6代表‘鹰弋片’。
表5第一层次赣方言点识别混淆矩阵
Claims (5)
1.一种赣方言语音和方言点识别方法,其特征在于,包括预先构建赣方言语音识别模型,所述赣方言语音识别模型由前端信号处理模块、语言解码和搜索算法模块、声学模型、发音词典、语言模型构成,所述语言解码和搜索算法模块主要将声学信号解码成理想情况下接近源词序列的词序列,通过使用声学模型和语言模型生成具有最大后验概率输入特征向量的词序列,所述声学模型构建方式为通过建立赣方言语音语料库后通过声学模型训练而成,所述语言模型构建方式为通过建立赣方言文本语料库后通过语言模型训练而成,所述发音字典模块为赣方言发音词典,主要包含赣方言句子以及它对应的声母、韵母和声调信息;
赣方言语音识别模型接收待识别的赣方言语音;
对接收到的赣方言语音通过赣方言语音识别模型中的前端信号处理模块进行预处理并提取出MFCC特征向量;
通过语言解码和探索算法模块将声学模块与语言模型结合起来,选出概率最大的句子作为语音识别句子输出;
构建赣方言点识别模型,采用CNN网络结构混合建模,首先以赣方言语音识别模型识别出来的赣方言汉字为基础,利用word2vec工具将其转换成汉字向量;其次利用赣方言语音中抽取出MFCC特征,对识别出的赣方言文本和语音两种类型的向量进行拼接,将此向量作为CNN的输入,并将卷积层的过滤大小分别设置为3、4和5;然后将卷积层后的向量利用最大池化策略降维;最后采用dropout防止模型过拟合,并利用Softmax对赣方言点进行识别;
通过赣方言点识别模型识别赣方言点。
2.根据权利要求1所述的一种赣方言语音和方言点识别方法,其特征在于,所述的前端信号处理模块的预处理过程具体为:输入是赣方言声音信号,经过数模转换后,再去除直流信号,然后对信号进行分帧处理,接着对信号进行放大,对其分窗,然后经过付立叶变换,截取Mel频率范围信号,经过对数运算,提取出MFCC特征,再结合每帧的能量信号,得到差分信息,最后提取出语音信号的声学特征,用于后续的模型训练。
3.根据权利要求2所述的一种赣方言语音和方言点识别方法,其特征在于,所述信号进行分帧处理以25毫秒为一帧,每两个帧之间的叠加长度为10毫秒。
4.根据权利要求1所述的一种赣方言语音和方言点识别方法,其特征在于,所述声学模型采用基于HMM-DNN的声学建模,赣方言语音的MFCC特征向量作为DNN输入,输出各种精度的音素,声学模型采用公式(1)所示的交叉熵作为目标函数,同时采用随机梯度下降法对其进行优化;
H0=-yclog[p(yc=1)]-(1-yc)log[1-p(yc=1)] (2)
公式(1)中的Θ是参数集,M代表训练实例的个数。
5.根据权利要求4所述的一种赣方言语音和方言点识别方法,其特征在于,所述赣方言点识别模型采用公式(1)所示的交叉熵作为目标函数,同时采用Adam算法对其进行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810983923.1A CN109410914B (zh) | 2018-08-28 | 2018-08-28 | 一种赣方言语音和方言点识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810983923.1A CN109410914B (zh) | 2018-08-28 | 2018-08-28 | 一种赣方言语音和方言点识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109410914A true CN109410914A (zh) | 2019-03-01 |
CN109410914B CN109410914B (zh) | 2022-02-22 |
Family
ID=65464460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810983923.1A Expired - Fee Related CN109410914B (zh) | 2018-08-28 | 2018-08-28 | 一种赣方言语音和方言点识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109410914B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979439A (zh) * | 2019-03-22 | 2019-07-05 | 泰康保险集团股份有限公司 | 基于区块链的语音识别方法、装置、介质及电子设备 |
CN110047502A (zh) * | 2019-04-18 | 2019-07-23 | 广州九四智能科技有限公司 | 噪声环境下层级式语音降噪识别方法及系统 |
CN110415697A (zh) * | 2019-08-29 | 2019-11-05 | 的卢技术有限公司 | 一种基于深度学习的车载语音控制方法及其系统 |
CN110738991A (zh) * | 2019-10-11 | 2020-01-31 | 东南大学 | 基于柔性可穿戴传感器的语音识别设备 |
CN111291154A (zh) * | 2020-01-17 | 2020-06-16 | 厦门快商通科技股份有限公司 | 方言样本数据抽取方法、装置、设备及存储介质 |
CN111539653A (zh) * | 2020-05-27 | 2020-08-14 | 山西东易园智能家居科技有限公司 | 一种智能填充施工进度管理方法 |
CN111667821A (zh) * | 2020-05-27 | 2020-09-15 | 山西东易园智能家居科技有限公司 | 一种语音识别系统及识别方法 |
CN111862944A (zh) * | 2019-04-30 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 语音识别装置、方法、电子设备和计算机可读存储介质 |
CN111951785A (zh) * | 2019-05-16 | 2020-11-17 | 武汉Tcl集团工业研究院有限公司 | 语音识别方法、装置及终端设备 |
CN112102817A (zh) * | 2019-06-18 | 2020-12-18 | 杭州中软安人网络通信股份有限公司 | 语音识别系统 |
CN112233671A (zh) * | 2020-08-28 | 2021-01-15 | 广州南方卫星导航仪器有限公司 | 基于方言识别的gnss接收机控制方法、装置、设备及介质 |
WO2021109856A1 (zh) * | 2019-12-04 | 2021-06-10 | 中国科学院深圳先进技术研究院 | 一种针对认知障碍的语音识别系统 |
CN113053367A (zh) * | 2021-04-16 | 2021-06-29 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
CN113571045A (zh) * | 2021-06-02 | 2021-10-29 | 北京它思智能科技有限公司 | 一种闽南语语音识别方法、系统、设备及介质 |
CN113658611A (zh) * | 2021-08-11 | 2021-11-16 | 华南农业大学 | 一种基于cnn的粤剧流派分类和识别方法 |
CN113781999A (zh) * | 2021-09-13 | 2021-12-10 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
CN113868394A (zh) * | 2021-10-09 | 2021-12-31 | 维沃移动通信有限公司 | 操作执行方法、装置、电子设备和存储介质 |
CN114187914A (zh) * | 2021-12-17 | 2022-03-15 | 广东电网有限责任公司 | 一种语音识别方法及系统 |
CN114627896A (zh) * | 2022-03-29 | 2022-06-14 | 标贝(北京)科技有限公司 | 语音评测方法、装置、设备及存储介质 |
CN114792518A (zh) * | 2022-04-12 | 2022-07-26 | 广西电网有限责任公司 | 一种基于调度域技术的语音识别系统及其方法、存储介质 |
CN118136022A (zh) * | 2024-04-09 | 2024-06-04 | 海识(烟台)信息科技有限公司 | 一种智能语音识别系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
CN105957518A (zh) * | 2016-06-16 | 2016-09-21 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108109615A (zh) * | 2017-12-21 | 2018-06-01 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的构造和使用方法 |
CN108170735A (zh) * | 2017-12-15 | 2018-06-15 | 东南大学 | 一种适用于卷积神经网络的方言数据库建立方法 |
-
2018
- 2018-08-28 CN CN201810983923.1A patent/CN109410914B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104036774A (zh) * | 2014-06-20 | 2014-09-10 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
CN105957518A (zh) * | 2016-06-16 | 2016-09-21 | 内蒙古大学 | 一种蒙古语大词汇量连续语音识别的方法 |
CN108010514A (zh) * | 2017-11-20 | 2018-05-08 | 四川大学 | 一种基于深度神经网络的语音分类方法 |
CN108170735A (zh) * | 2017-12-15 | 2018-06-15 | 东南大学 | 一种适用于卷积神经网络的方言数据库建立方法 |
CN108109615A (zh) * | 2017-12-21 | 2018-06-01 | 内蒙古工业大学 | 一种基于dnn的蒙古语声学模型的构造和使用方法 |
Non-Patent Citations (4)
Title |
---|
ELISE MICHON 等: "Neural Network Architectures for Arabic Dialect Identification", 《PROCEEDINGS OF THE FIFTH WORKSHOP ON NLP FOR SIMILAR LANGUAGES》 * |
FAN XU 等: "Building Parallel Monolingual Gan Chinese Dialects Corpus", 《INTERNATIONAL CONFERENCE ON LANGUAGE RESOURCES AND EVALUATION》 * |
YE ZHANG 等: "MGNC-CNN: A Simple Approach to Exploiting Multiple Word Embeddings for Sentence Classification", 《PROCEEDINGS OF NAACL-HLT 2016》 * |
李子煜 等: "卷积神经网络在语言识别中的应用", 《科技传播》 * |
Cited By (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109979439B (zh) * | 2019-03-22 | 2021-01-29 | 泰康保险集团股份有限公司 | 基于区块链的语音识别方法、装置、介质及电子设备 |
CN109979439A (zh) * | 2019-03-22 | 2019-07-05 | 泰康保险集团股份有限公司 | 基于区块链的语音识别方法、装置、介质及电子设备 |
CN110047502A (zh) * | 2019-04-18 | 2019-07-23 | 广州九四智能科技有限公司 | 噪声环境下层级式语音降噪识别方法及系统 |
CN111862944B (zh) * | 2019-04-30 | 2024-04-02 | 北京嘀嘀无限科技发展有限公司 | 语音识别装置、方法、电子设备和计算机可读存储介质 |
CN111862944A (zh) * | 2019-04-30 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 语音识别装置、方法、电子设备和计算机可读存储介质 |
CN111951785B (zh) * | 2019-05-16 | 2024-03-15 | 武汉Tcl集团工业研究院有限公司 | 语音识别方法、装置及终端设备 |
CN111951785A (zh) * | 2019-05-16 | 2020-11-17 | 武汉Tcl集团工业研究院有限公司 | 语音识别方法、装置及终端设备 |
CN112102817A (zh) * | 2019-06-18 | 2020-12-18 | 杭州中软安人网络通信股份有限公司 | 语音识别系统 |
CN110415697A (zh) * | 2019-08-29 | 2019-11-05 | 的卢技术有限公司 | 一种基于深度学习的车载语音控制方法及其系统 |
CN110738991A (zh) * | 2019-10-11 | 2020-01-31 | 东南大学 | 基于柔性可穿戴传感器的语音识别设备 |
WO2021109856A1 (zh) * | 2019-12-04 | 2021-06-10 | 中国科学院深圳先进技术研究院 | 一种针对认知障碍的语音识别系统 |
CN111291154B (zh) * | 2020-01-17 | 2022-08-23 | 厦门快商通科技股份有限公司 | 方言样本数据抽取方法、装置、设备及存储介质 |
CN111291154A (zh) * | 2020-01-17 | 2020-06-16 | 厦门快商通科技股份有限公司 | 方言样本数据抽取方法、装置、设备及存储介质 |
CN111667821A (zh) * | 2020-05-27 | 2020-09-15 | 山西东易园智能家居科技有限公司 | 一种语音识别系统及识别方法 |
CN111539653A (zh) * | 2020-05-27 | 2020-08-14 | 山西东易园智能家居科技有限公司 | 一种智能填充施工进度管理方法 |
CN112233671A (zh) * | 2020-08-28 | 2021-01-15 | 广州南方卫星导航仪器有限公司 | 基于方言识别的gnss接收机控制方法、装置、设备及介质 |
CN113053367A (zh) * | 2021-04-16 | 2021-06-29 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
CN113053367B (zh) * | 2021-04-16 | 2023-10-10 | 北京百度网讯科技有限公司 | 语音识别方法、语音识别的模型训练方法以及装置 |
CN113571045A (zh) * | 2021-06-02 | 2021-10-29 | 北京它思智能科技有限公司 | 一种闽南语语音识别方法、系统、设备及介质 |
CN113571045B (zh) * | 2021-06-02 | 2024-03-12 | 北京它思智能科技有限公司 | 一种闽南语语音识别方法、系统、设备及介质 |
CN113658611A (zh) * | 2021-08-11 | 2021-11-16 | 华南农业大学 | 一种基于cnn的粤剧流派分类和识别方法 |
CN113781999A (zh) * | 2021-09-13 | 2021-12-10 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
CN113781999B (zh) * | 2021-09-13 | 2024-02-20 | 中国科学院计算技术研究所 | 一种方言语音数据切分及标注方法、系统 |
CN113868394A (zh) * | 2021-10-09 | 2021-12-31 | 维沃移动通信有限公司 | 操作执行方法、装置、电子设备和存储介质 |
CN114187914A (zh) * | 2021-12-17 | 2022-03-15 | 广东电网有限责任公司 | 一种语音识别方法及系统 |
CN114627896A (zh) * | 2022-03-29 | 2022-06-14 | 标贝(北京)科技有限公司 | 语音评测方法、装置、设备及存储介质 |
CN114792518A (zh) * | 2022-04-12 | 2022-07-26 | 广西电网有限责任公司 | 一种基于调度域技术的语音识别系统及其方法、存储介质 |
CN118136022A (zh) * | 2024-04-09 | 2024-06-04 | 海识(烟台)信息科技有限公司 | 一种智能语音识别系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109410914B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109410914A (zh) | 一种赣方言语音和方言点识别方法 | |
CN108492820B (zh) | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 | |
CN110517663B (zh) | 一种语种识别方法及识别系统 | |
Lee et al. | An information-extraction approach to speech processing: Analysis, detection, verification, and recognition | |
Rabiner et al. | An overview of automatic speech recognition | |
Ghai et al. | Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study | |
Li et al. | Towards zero-shot learning for automatic phonemic transcription | |
Kumar et al. | A comprehensive view of automatic speech recognition system-a systematic literature review | |
Mridha et al. | A study on the challenges and opportunities of speech recognition for Bengali language | |
Alsayadi et al. | Deep investigation of the recent advances in dialectal arabic speech recognition | |
US8219386B2 (en) | Arabic poetry meter identification system and method | |
Singh et al. | Computational intelligence in processing of speech acoustics: a survey | |
Renals et al. | Speech recognition | |
Kurian | A survey on speech recognition in Indian languages | |
Zhang et al. | Wake-up-word spotting using end-to-end deep neural network system | |
Hadwan et al. | An End-to-End Transformer-Based Automatic Speech Recognition for Qur'an Reciters. | |
Vancha et al. | Word-level speech dataset creation for sourashtra and recognition system using kaldi | |
Liu et al. | Deriving disyllabic word variants from a Chinese conversational speech corpus | |
Tabibian | A survey on structured discriminative spoken keyword spotting | |
Manjunath et al. | Development of multilingual phone recognition system for Indian languages | |
Fu et al. | A survey on Chinese speech recognition | |
Barman et al. | State of the art review of speech recognition using genetic algorithm | |
Manjunath et al. | Articulatory-feature-based methods for performance improvement of Multilingual Phone Recognition Systems using Indian languages | |
Veisi et al. | Jira: a Kurdish Speech Recognition System Designing and Building Speech Corpus and Pronunciation Lexicon | |
Phuong et al. | Development of high-performance and large-scale vietnamese automatic speech recognition systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220222 |
|
CF01 | Termination of patent right due to non-payment of annual fee |