CN107785011B - 语速估计模型的训练、语速估计方法、装置、设备及介质 - Google Patents
语速估计模型的训练、语速估计方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN107785011B CN107785011B CN201710835273.1A CN201710835273A CN107785011B CN 107785011 B CN107785011 B CN 107785011B CN 201710835273 A CN201710835273 A CN 201710835273A CN 107785011 B CN107785011 B CN 107785011B
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- sentence
- section
- dividing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 113
- 238000012549 training Methods 0.000 title claims abstract description 70
- 230000015654 memory Effects 0.000 claims description 46
- 238000004891 communication Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 30
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 18
- 238000012545 processing Methods 0.000 description 13
- 230000008859 change Effects 0.000 description 12
- 238000001514 detection method Methods 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 241001672694 Citrus reticulata Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 201000007201 aphasia Diseases 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语速估计模型的训练、语速估计方法、装置、设备及介质,用以解决现有语速估计方法无法预测语速真实值的问题。该训练方法中通过对预设的语音语料库中的每个语句根据预设的音节进行音节标注,将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值,并将每个第一语音段划分为预设数量的第一语音单元,提取每个第一语音单元的音频特征,并利用该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值对LSTM模型进行训练。由于本发明实施例中对语音语料库中的语句进行了音节标注,确定了真实语速值,使该LSTM模型能够估计出待估计语句语速的真实值。
Description
技术领域
本发明涉及语速预测技术领域,特别涉及一种语速估计模型的训练、语速估计方法、装置、设备及介质。
背景技术
语速作为情感表达的一种重要的韵律手段,是构成语言节奏的基础,在情感识别、语音识别中语速补偿、医学中评估失语症语言流利性等领域有着广阔的应用前景。目前已有的对语速快慢的衡量方案可分为两大类,一类是基于音节检测的算法,另一类是采用机器学习的算法。
其中,基于音节检测的算法中,语速的快慢多用每秒的音节数量或者每秒的音素数量来衡量,一般通过提取语音的能量包络、频域特征或者过零率等特征,采用Mermelstein提出的凸包或者改进的凸包算法,通过调整阈值来实现语速检测。基于这种音节检测的方法得到的目前最好的语速检测方案,所衡量得到的语速的相关系数是0.79。
另一种采用机器学习的语速检测算法中,一般将语速的大小分为快中慢三个档次,通常采用支持向量机(Support Vector Machine),即SVM或者其他的机器学习方法做分类;或者采用基于语音识别的隐马尔可夫模型(Hidden Markov Model,HMM),即HMM系统进行语速的检测;或者采用高斯混合模型(Gaussian mixture model,GMM)与人工神经网络(Artificial neural network,ANN)混合模型的语音转换系统,即GMM-ANN系统做回归分析。基于这种机器学习的方法得到的语速相关系数一般只有0.74左右。
对于上述的方法中,虽然基于音节检测的算法所测得的语速的相关系数相对于机器学习算法较高,但其使用过程中需要设置和调整阈值,来应对不同的语料和不同的环境,导致了其鲁棒性不高,应用不方便。基于统计学习方法的语速分类方式仅仅得到的是语速的快慢等级,并没有计算出真正的语速值。基于上述的缺点可知现有技术难以满足实际需求的问题。
发明内容
本发明提供一种语速估计模型的训练、语速估计方法、装置、设备及介质,用以解决现有技术中语速估计方法鲁棒性低和无法预测语速真实值的问题。
本发明实施例提供了一种语速估计模型的训练方法,包括:
针对预设的语音语料库中的每个语句,根据预设的音节对该语句进行音节标注;将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值;
针对每个语句,将该语句中每个第一语音段划分为预设数量的多个第一语音单元,提取每个第一语音单元的音频特征;
针对每个第一语音段,根据该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值,对长短期记忆网络LSTM模型进行训练。
进一步地,所述预设的音节包括:预设的元音及预设的响音。
进一步地,所述将该语句划分为多个第一语音段包括:
将该语句划分为多个时长为1秒的第一语音段,其中每个在后的第一语音段,与与其相邻的在前的第一语音段重叠0.5秒。
进一步地,所述将该语句中每个第一语音段划分为预设数量的多个第一语音单元包括:
针对每个第一语音段,将该第一语音段划分为99个时长为20毫秒的第一语音单元,其中每个在后的第一语音单元,与与其相邻的在前的第一语音单元重叠10毫秒。
进一步地,所述提取每个第一语音单元的音频特征包括:
针对每个第一语音单元,提取该第一语音单元的13维的梅尔频率倒谱系数MFCC特征。
进一步地,所述LSTM模型包括两层LSTM层。
本发明实施例提供了一种基于语速估计模型的训练方法的语速估计方法,所述语速估计方法包括:
将待估计语句划分为多个第二语音段;
将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元,提取每个第二语音单元的音频特征;
根据每个第二语音段中每个第二语音单元的音频特征,及预先训练完成的LSTM模型,对该第二语音段的下一语音段的语速值进行估计。
进一步地,所述将待估计语句划分为多个第二语音段包括:
将待估计语句划分为多个时长为1秒的第二语音段,其中每个在后的第二语音段,与与其相邻的在前的第二语音段重叠0.5秒。
进一步地,所述将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元包括:
进一步地,针对每个第二语音段,将该第二语音段划分为99个时长为20毫秒的第二语音单元,其中每个在后的第二语音单元,与与其相邻的在前的第二语音单元重叠10毫秒。
本发明实施例提供了一种语速估计模型的训练装置,包括:
划分模块,用于针对预设的语音语料库中的每个语句,根据预设的音节对该语句进行音节标注;将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值;
划分提取模块,用于针对每个语句,将该语句中每个第一语音段划分为预设数量的多个第一语音单元,提取每个第一语音单元的音频特征;
训练模块,用于针对每个第一语音段,根据该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值,对长短期记忆网络LSTM模型进行训练。
本发明实施例提供了一种基于语速估计模型的训练装置的语速估计装置,所述语速估计装置包括:
划分模块,用于将待估计语句划分为多个第二语音段;
划分提取模块,用于将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元,提取每个第二语音单元的音频特征;
估计模块,用于根据每个第二语音段中每个第二语音单元的音频特征,及预先训练完成的LSTM模型,对该第二语音段的下一语音段的语速值进行估计。
本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述语速估计模型训练的方法步骤。
本发明实施例提供了本发明提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述语速估计模型训练的方法步骤。
本发明实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述语速估计的方法步骤。
本发明实施例提供了本发明提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述语速估计的方法步骤。
本发明实施例提供了一种语速估计模型的训练、语速估计方法、装置、设备及介质,该训练方法中通过对预设的语音语料库中的每个语句根据预设的音节进行音节标注,将预设的语音语料库中的语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值,并将每个第一语音段划分为预设数量的第一语音单元,提取每个第一语音单元的音频特征,并利用该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值对长短期记忆网络LSTM模型进行训练。由于本发明实施例中通过对预设的语音语料库中的语句进行音节标注,并将预设的语音语料库中的语句划分为多个第一语音段,从而确定出每个第一语音段的语速值;利用已知语速值的每个第一语音段对LSTM模型进行训练,使得该LSTM模型能够估计出待估计语句语速的真实值;同时,本发明实施例提供的训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速估计方法的鲁棒性。
附图说明
图1为本发明实施例提供一种语速估计模型训练方法的流程图;
图2为本发明实施例提供一种语速估计模型训练的详细实施过程图;
图3为本发明实施例提供一种语句分段方法示意图;
图4为本发明实施例提供一种语速估计方法的流程图;
图5为本发明实施例提供一种本语速估计模型的结构框图;
图6为本发明实施例提供一种语速估计模型训练装置示意图;
图7为本发明实施例提供一种语速估计装置示意图;
图8为本发明实施例7提供的一种计算机设备示意图;
图9为本发明实施例9提供的一种计算机设备示意图。
具体实施方式
为了估计出待估计语句语速的真实值并且提高语速估计方法的鲁棒性,本发明实施例提供了一种语速估计模型的训练、语速估计方法、装置、设备及介质。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
图1为本发明实施例提出的语速估计模型训练的流程图,其具体处理过程如下:
S101:针对预设的语音语料库中的每个语句,根据预设的音节对该语句进行音节标注;将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值。
本发明实施例在进行语速估计模型训练时,采用的预设的语音语料库可以是全球语种的包含有语音信息的语料库,例如,该预设的语音语料库可以是863四大方言普通话语音语料库、德语语音语料库、法语语音语料库以及声学-音素连续语音语料库(TIMIT语料库)等。
优选地,本发明实施例可以采用TIMIT语料库,TIMIT语料库是由德州仪器(TI)、麻省理工学院(MIT)和斯坦福研究院(SRI)合作构建的声学-音素连续语音语料库。TIMIT语料库的语音采样频率为16kHz,由来自美国八个主要方言地区的630个人,每人说出给定的10个语句组成,一共包含6300个语句,并且所有的语句都在音素级别(phone level)上进行了手动分割标记。为了能够进行真实语速值的估计,在进行语速估计模型训练时,采用的也是具有真实语速值的语句,而语速衡量方法为音节每秒,为了确定语句的真实语速值,预先设定了进行音节标注的音节。
所述预设的音节包括预设的元音和响音。
具体地,对预设的语音语料库进行音节标注的方法为,将预设的元音和预设的响音作为音节进行音节标注。其中,作为公知的元音此处不再赘述,对于预设的响音是指发音时出气流不受阻碍直接冲出口腔的音节,例如/el/,/em/,/en/,/eng/等。具体标注方法为,将预设的语音语料库中的每个语句中发音与预设的元音和响音发音相同的声音标注为音节。通过对预设的语音语料库进行音节标注,得到预设的语音语料库中每个语句包含的音节数。
针对每个语句,可以将每个语句划分为多个第一语音段,具体的划分时,可以采用多种方法,可以将语句划分为多个等长或不等长的第一语音段,并且针对每个语句的第一语音段经过拼接后,可以得到该完整的语句;另外,在确定每个第一语音段时,每两个相邻的语音段可以有重叠等等。因为对语句进行了音节标注,因此针对每个第一语音段,可以确定每个第一语音段的语速值。如果该第一语音段的时长为1s,则该第一语音段中包含的音节数量即为该第一语音段的语速值,如果该第一语音段的时长非1s,则可以根据第一语音段的时长,以及其包含的音节数量,确定第一语音段的语速值。
具体地,本发明实施例中,将该语句划分为多个第一语音段的方法包括但不限于以下几种:
第一种,将该语句划分为等长并互相不重叠的第一语音段,其中第一语音段的时长可以是相等的1秒或2.5秒或3秒等;例如:将某一语句划分为每段时长为2秒的第一语音段,若该语句时长共10秒,则可划分为5个第一语音段。
第二种,将该语句划分为等长并互相重叠若干秒的第一语音段,其中第一语音段的时长可以是1秒或2.5秒或3秒等,但其重叠部分时长小于每个第一语音段的时长;例如:将某一语句划分为每段时长为2秒的第一语音段,每个在前的第一目标语音段与与其相邻的在后的第一目标语音段重叠1秒,若该语句时长共10秒,则可划分为9个第一语音段。
第三种,将该语句划分为不等长并互相不重叠的第一语音段,其中每个第一语音段的时长可以是不相等的1秒或2.5秒或3秒等;例如:将某一语句划分为第一个第一语音段时长为1秒,第二个第一语音段时长为2秒,第m个第一语音段时长为n秒的多个第一语音段(其中,m和n为随机的正有理数)。
第四种,将该语句划分为不等长并互相重叠若干秒的第一语音段,其中每个第一语音段的时长可以是不相等的1秒或2.5秒或3秒等,而且相互重叠的时长也可以不相等;例如:将某一时长为12秒的语句划分为5段,其中,第一段时长2秒,第二段时长4秒且与第一段重叠1秒,第三段时长6秒且与第二段重叠2秒,第四段时长5秒且与第三段重叠3秒,第五段时长3秒且与第四段重叠2秒。
较佳地,为了方便训练及后续的语速估计,在本发明实施例中划分后的每个第一语音段时长相等。
具体地,确定每个第一语音段的语速值的方法在于,根据每个第一语音段中包含的被标注的音节数量,以及该第一语音段的时长,将第一语音段中包含的音节数作为被除数,其时长转换为单位为秒时的数值作为除数,进行求商运算,运算所得即为该第一语音段的真实语速值。
S102:针对每个语句,将该语句中每个第一语音段划分为预设数量的多个第一语音单元,提取每个第一语音单元的音频特征。
针对每个第一语音段,可以将每个第一语音段划分为多个第一语音单元,具体的划分时,可以采用多种方法,可以将第一语音段划分为多个等长或不等长的第一语音单元,并且针对每个第一语音段的第一语音单元经过拼接后,可以得到该完整的第一语音段;另外,在确定每个第一语音单元时,每两个相邻的语音单元可以有重叠等等。
具体地,本发明实施例中,将该语句中每个第一语音段划分为预设数量的多个第一语音单元的方法包括但不限于以下几种:
第一种,将第一语音段划分为等长并互相不重叠的第一语音单元,其中第一语音单元的时长可以是相等的10毫秒或25毫秒或30毫秒等;例如:将某第一语音段划分为时长为20毫秒的第一语音单元,若该第一语音段时长共1秒,则可划分为50个第一语音单元。
第二种,将第一语音段划分为等长并互相重叠若干毫秒的第一语音单元,其中第一语音单元的时长可以是10毫秒或25毫秒或30毫秒等,但其重叠部分时长小于每个第一语音单元的时长;例如:将某第一语音段划分为时长为50毫秒的第一语音单元,每个在前的第一目标语音单元与与其相邻的在后的第一目标语音单元重叠25毫秒,若该第一语音段时长共1秒,则可划分为39个第一语音单元。
第三种,将第一语音段划分为不等长并互相不重叠的第一语音单元,其中每个第一语音单元的时长可以是不相等的10毫秒或25毫秒或30毫秒等;例如:将某第一语音段划分为第一个第一语音单元时长为10毫秒,第二个第一语音单元时长为20毫秒,第m个第一语音单元时长为n毫秒的多个第一语音单元(其中,m和n为随机的正有理数)。
第四种,将第一语音段划分为不等长并互相重叠若干毫秒的第一语音单元,其中每个第一语音单元的时长可以是不相等的10毫秒或25毫秒或30毫秒等,而且相互重叠的时长也可以不相等;例如:将某时长为12毫秒的第一语音段划分为5个第一语音单元,其中,第一个第一语音单元时长2毫秒,第二个第一语音单元时长4毫秒且与第一个第一语音单元重叠1毫秒,第三个第一语音单元时长6毫秒且与第二个第一语音单元重叠2毫秒,第四个第一语音单元时长5毫秒且与第三个第一语音单元重叠3毫秒,第五个第一语音单元时长3毫秒且与第四个第一语音单元重叠2毫秒。
较佳地,为了方便训练及后续的语速估计,在本发明实施例中划分后的每个第一语音单元时长相等。
具体地,所述提取每个第一语音单元的音频特征,是指针对每个第一语音单元,提取该第一语音单元的13维的梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)特征。
具体地,每个第一语音单元提取一个13维的MFCC特征,其中,由于MFCC的一阶差分特征和二阶差分特征在一定程度上去除了MFCC在时间上的相关性,所以只提取13维的MFCC特征,不使用其差分特征,这样既保证了提取的音频特征在时间上的相关性,同时减少了特征维数,减少了计算的复杂度。由于MFCC特征为本领域技术人员所公知的现有技术,在本发明实施例中对其原理、组成及提取过程不再进行赘述。
S103:针对每个第一语音段,根据该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值,对长短期记忆网络LSTM模型进行训练。
具体地,针对预设的语音语料库中的某一语句,将该语句划分为多个第一语音段,对于每个第一语音段,将其划分为预设数量的第一语音单元后,通过对第一语音单元进行音频特征提取,并将第一语音段中的每个第一语音单元的音频特征输入到LSTM模型,LSTM模型会根据输入的第一语音段的音频特征估计该第一语音段对应的下一个第一语音段的语速值,根据已知的该语句中每个第一语音段的真实语速值,完成对LSTM模型的训练。例如:从预设的语音语料库中选择某一语句,将该语句的第一个第一语音段中的所有第一语音单元的音频特征输入到LSTM模型,该模型将估计出该语句中第二个第一语音段的语速值,根据已知的该语句中第二个第一语音段的真实语速值便可对LSTM模型进行训练。
由于LSTM模型为公知的处理时间序列问题的模型,在本发明实施例中对该模型的原理、建立方法以及模型训练的具体方法不再进行赘述。
本发明实施例中通过对预设的语音语料库中的语句进行音节标注,并将预设的语音语料库中的语句划分为多个第一语音段,从而确定出每个第一语音段的语速值;利用已知语速值的每个第一语音段对LSTM模型进行训练,使得该LSTM模型能够估计出待估计语句语速的真实值;同时,本发明实施例提供的训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速估计方法的鲁棒性。
实施例2:
为了展现语速在语音中动态变化过程,并提高语速估计结果的准确率的效果,在上述实施例的基础上,在本发明实施例中:
所述将该语句划分为多个第一语音段包括:
将该语句划分为多个时长为1秒的第一语音段,其中每个在后的第一语音段,与与其相邻的在前的第一语音段重叠0.5秒。
具体地,将预设的语音语料库中的语句划分为多个第一语音段的方法如下:对于预设的语音语料库中的每个语句,已知每个语句的时长,时间精度为秒,考虑到每个语句占用的时长可能不同(例如,语句a时长为10秒,语句b时长为7.8秒),选取某一语句,该语句占用的时长为t秒,当t不为整数时,对其做进一法处理,利用空白的内容将最后不足1秒的语句进行补充,补充后该语句时长为1秒的整数倍。例如,选取预设的语音语料库中的某一语句,其占用的时长为8.3秒,则将该语句的时长确定为t=9秒处理,且补充的0.7秒的语句不含有任何声音,为空白的内容。
对预设的语音语料库中的语句进行进一法处理后,可知,其中每个语句所占用的时长均为整数。如图3所示,选取预设的语音语料库中的某一语句,以1秒为单位,在该语句内分段,每过0.5秒划分一段时长1秒的第一语音段。例如某段语句占用n秒,则将其划分为共2n-1个第一语音段。将标注了音节的语句划分为多个第一语音段后,已知每个第一语音段的时长为1秒,则根据每个第一语音段中包含的音节数,可知每个第一语音段的真实语速值。由于语句的长度可长可短,对于一定时长的语句,在不同的时间段内其语速可能会发生变化,采取语句分段的方法,可以体现出语速在语句中的连续性,展现语速在语句中的动态变化过程。
所述将该语句中每个第一语音段划分为预设数量的多个第一语音单元包括:
针对每个第一语音段,将该第一语音段划分为99个时长为20毫秒的第一语音单元,其中每个在后的第一目标语音单元,与与其相邻的在前的第一目标语音单元重叠10毫秒。
具体地,针对预设的语音语料库中的每个语句,将该语句中每个第一语音段划分为预设数量的多个第一语音单元的方法如下:已知每个第一语音段时长为1秒,将每个第一语音段划分为99个时长为20毫秒的第一语音单元,以20毫秒为单位,在1秒的第一语音段内进行划分,每过10毫秒划分一段时长为20毫秒的第一语音单元,从而将每个第一语音段被划分为99个时长为20毫秒的第一语音单元。
所述LSTM模型是指两层的LSTM层。
具体地,LSTM模型包括两层LSTM层。其中,本模型增加了输入层到隐含层之间的深度,即,将输入的99个13维MFCC特征经过本模型第一层LSTM的节点为64的神经网络的隐含层后,将隐含层的输出作为第二层LSTM网络的输入层的特征。即,采用两层的LSTM层,将第一层LSTM网络的输出作为下一层LSTM网络的输入,进一步增加网络的深度。这样,深度神经网络在解决复杂问题时有更强的表征能力和学习能力,故而两层的LSTM模型提高了语速估计结果的准确率。
图2为本发明实施例提供的详细实施过程:
S201:针对预设的语音语料库中的每个语句,根据预设的元音及预设的响音音节,对该语句进行音节标注。
S202:对该语句进行进一法处理,将该语句划分为多个时长为1秒的第一语音段,其中每个在后的第一语音段,与与其相邻的在前的第一语音段重叠0.5秒,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值。
S203:将该语句中每个第一语音段划分为99个时长为20毫秒的第一语音单元,其中每个在后的第一语音单元,与与其相邻的在前的第一语音单元重叠10毫秒,同时,提取该第一语音单元的13维的梅尔频率倒谱系数MFCC特征。
S204:针对每个第一语音段,根据该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值,对LSTM模型进行训练。
本发明实施例中通过对预设的语音语料库中的语句进行音节标注,并将预设的语音语料库中的语句划分为多个第一语音段,从而确定出每个第一语音段的语速值,并且通过分段处理的方法,体现了语速的动态变化过程;利用已知语速值的每个第一语音段对LSTM模型进行训练,使得该LSTM模型能够估计出待估计语句语速的真实值,采用两层的LSTM模型,提高了语速估计结果的准确率;同时,本发明实施例提供的训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速估计方法的鲁棒性。
实施例3:
如图4所示,为本发明实施例提出的语速估计方法的流程图,其具体处理过程如下:
S401:将待估计语句划分为多个第二语音段。
针对每个待估计语句,可以将每个待估计语句划分为多个第二语音段,具体的划分时,可以采用多种方法,可以将待估计语句划分为多个等长或不等长的第二语音段,并且针对每个待估计语句的第二语音段经过拼接后,可以得到该完整的语句;另外,在确定每个第二语音段时,每两个相邻的语音段可以有重叠等等。
具体地,本发明实施例中,将该语句划分为多个第二语音段的方法包括但不限于以下几种:
第一种,将待估计语句划分为等长并互相不重叠的第二语音段,其中第二语音段的时长可以是相等的1秒或2.5秒或3秒等;例如:将某待估计语句划分为每段时长为2秒的第二语音段,若该语句时长共10秒,则可划分为5个第二语音段。
第二种,将待估计语句划分为等长并互相重叠若干秒的第二语音段,其中第二语音段的时长可以是1秒或2.5秒或3秒等,但其重叠部分时长小于每个第二语音段的时长;例如:将某待估计语句划分为每段时长为2秒的第二语音段,每个在前的第一目标语音段与与其相邻的在后的第二目标语音段重叠1秒,若该语句时长共10秒,则可划分为9个第二语音段。
第三种,将待估计语句划分为不等长并互相不重叠的第二语音段,其中每个第二语音段的时长可以是不相等的1秒或2.5秒或3秒等;例如:将某待估计语句划分为第一个第二语音段时长为1秒,第二个第二语音段时长为2秒,第m个第二语音段时长为n秒的多个第二语音段(其中,m和n为随机的正有理数)。
第四种,将待估计语句划分为不等长并互相重叠若干秒的第二语音段,其中每个第二语音段的时长可以是不相等的1秒或2.5秒或3秒等,而且相互重叠的时长也不相等;例如:将某一时长为12秒的待估计语句划分为5段,其中,第一段时长2秒,第二段时长4秒且与第一段重叠1秒,第三段时长6秒且与第二段重叠2秒,第四段时长5秒且与第三段重叠3秒,第五段时长3秒且与第四段重叠2秒。
较佳地,为了方便语速估计,在本发明实施例中划分后的每个第二语音段时长相等。
S402:将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元,提取每个第二语音单元的音频特征。
针对每个第二语音段,可以将每个第二语音段划分为多个第二语音单元,具体的划分时,可以采用多种方法,可以将第二语音段划分为多个等长或不等长的第二语音单元,并且针对每个第二语音段的第二语音单元经过拼接后,可以得到该完整的第二语音段;另外,在确定每个第二语音单元时,每两个相邻的语音单元可以有重叠等等。
具体地,本发明实施例中,将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元的方法包括但不限于以下几种:
第一种,将第二语音段划分为等长并互相不重叠的第二语音单元,其中第二语音单元的时长可以是相等的10毫秒或25毫秒或30毫秒等;例如:将某一第二语音段划分为时长为20毫秒的第二语音单元,若该第二语音段时长共1秒,则可划分为50个第二语音单元。
第二种,将第二语音段划分为等长并互相重叠若干毫秒的第二语音单元,其中第二语音单元的时长可以是10毫秒或25毫秒或30毫秒等,但其重叠部分时长小于每个第二语音单元的时长;例如:将某一第二语音段划分为时长为50毫秒的第二语音单元,每个在前的第二目标语音单元与与其相邻的在后的第二目标语音单元重叠25毫秒,若该第二语音段时长共1秒,则可划分为39个第二语音单元。
第三种,将第二语音段划分为不等长并互相不重叠的第二语音单元,其中每个第二语音单元的时长可以是不相等的10毫秒或25毫秒或30毫秒等;例如:将某一第二语音段划分为第一个第二语音单元时长为10毫秒,第二个第二语音单元时长为20毫秒,第m个第二语音单元时长为n毫秒的多个第二语音单元(其中,m和n为随机的正有理数)。
第四种,将第二语音段划分为不等长并互相重叠若干毫秒的第二语音单元,其中每个第二语音单元的时长可以是不相等的10毫秒或25毫秒或30毫秒等,而且相互重叠的时长也不相等;例如:将某一时长为12毫秒的第二语音段划分为5个第二语音单元,其中,第一个第二语音单元时长2毫秒,第二个第二语音单元时长4毫秒且与第一个第二语音单元重叠1毫秒,第三个第二语音单元时长6毫秒且与第二个第二语音单元重叠2毫秒,第四个第二语音单元时长5毫秒且与第三个第二语音单元重叠3毫秒,第五个第二语音单元时长3毫秒且与第四个第二语音单元重叠2毫秒。
较佳地,为了方便语速估计,在本发明实施例中划分后的每个第二语音单元时长相等。
具体地,每个第二语音单元提取一个13维的MFCC特征,其中,由于MFCC的一阶差分特征和二阶差分特征在一定程度上去除了MFCC在时间上的相关性,所以只提取13维的MFCC特征,不使用其差分特征,这样既保证了提取的音频特征在时间上的相关性,同时减少了特征维数,减少了计算的复杂度。由于MFCC特征为本领域技术人员所公知的现有技术,在本发明实施例中对其原理、组成及提取过程不再进行赘述。
S403:根据每个第二语音段中每个第二语音单元的音频特征,及预先训练完成的LSTM模型,对该第二语音段的下一语音段的语速值进行估计。
具体地,将待估计语句的某个第二语音段的MFCC特征输入到训练完成的LSTM模型后,模型会预测该第二语音段对应的下一个第二语音段的语速值;即,将该待估计语句中第一个第二语音段的MFCC特征输入到LSTM模型后,模型会估计该待估计语句中第二个第二语音段的语速值。
本发明实施例提供的训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速估计方法的鲁棒性;同时,由于模型训练的过程是通过语速真实值进行训练的,故而训练完成的模型在进行语速估计时,可以估计出待估计语句的语速真实值。
实施例4:
为了展现语速在语音中动态变化过程的效果,在上述实施例的基础上,在本发明实施例中:
所述将待估计语句划分为多个第二语音段包括:
将待估计语句划分为多个时长为1秒的第二语音段,其中每个在后的第二目标语音段,与与其相邻的在前的第二目标语音段重叠0.5秒。
具体地,将待估计语句划分为多个第二语音段的方法如下:已知待估计语句的时长,时间精度为秒,将待估计语句的时长设为y秒,当y不为整数时,对其做进一法处理,利用空白的内容将最后不足1秒的语句进行补充,补充后该语句时长为1秒的整数倍。例如,若待估计语句的时长为8.4秒,则将该待估计语句的时长确定为y=9秒处理,且补充的0.6秒的语句不含有任何声音,为空白的内容。
具体地,如图3所示,在对待估计语句进行分段时,将该待估计语句划分为多个时长为1秒的第二语音段,其中每个在后的第二目标语音段,与与其相邻的在前的第二目标语音段重叠0.5秒。
即,以1秒为单位,在待估计语句内分段,每过0.5秒划分一段时长1秒的第二语音段。例如某待估计语句占用n秒,则将其分为2n-1段第二语音段。由于语句的长度可长可短,对于一定时长的语句,在不同的时间段内其语速可能会发生变化,采取语句分段的方法,可以体现出语速在语句中的连续性,展现语速在语句中的动态变化过程。
所述将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元包括:
针对每个第二语音段,将该第二语音段划分为99个时长为20毫秒的第二语音单元,其中每个在后的第二目标语音单元,与与其相邻的在前的第二目标语音单元重叠10毫秒。
具体地,将待估计语句中每个第二语音段划分为预设数量的多个第二语音单元的方法如下:已知每个第二语音段时长为1秒,将每个第二语音段划分为99个时长为20毫秒的第二语音单元,其中每个在后的第二目标语音单元,与与其相邻的在前的第一目标语音单元重叠10毫秒。即以20毫秒为单位,在1秒的第二语音段内进行划分,每过10毫秒划分一段时长为20毫秒的第二语音单元,故而每个第二语音段被划分为99个时长为20毫秒的第二语音单元。
综上所述,本发明实施例提供了一种语速估计模型的语速估计方法,具体在于:对待估计语句做进一法处理,将该待估句语句划分为多个时长为1秒的第二语音段,针对每个第二语音段,将该第二语音段划分为99个时长为20毫秒的第二语音单元,并针对每个第二语音单元提取一个13维的MFCC特征,将每个第二语音段提取的99个13维的MFCC特征输入到训练完成的LSTM语速估计模型,该LSTM模型会估计该待估计语句中下一个第二语音段的语速值。例如,将该待估计语句的第一个第二语音段中的99个第二语音单元的MFCC特征输入到训练完成的LSTM模型,该模型将估计出该待估计语句中第二个第二语音段的语速值。
综合上述实施例,图5为本发明实施例提供一种本语速估计模型的结构框图:
训练集和测试集,训练集中包含了本实施例中用于模型训练的预设的语音语料库中的所有语句,测试集中含有需要利用本语速估计模型进行语速估计的待估计语句。其中,训练集与测试集中的语句数量关系成一定比例,例如:训练集与测试集中的语句数量比为7:3或6:4等。
在模型训练过程中,利用训练集中包含的预设的语音语料库中的每个语句,根据预设的元音及预设的响音音节,对该语句进行音节标注并将该语句划分为多个时长为1秒的第一语音段,其中每个在后的第一语音段,与与其相邻的在前的第一语音段重叠0.5秒,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值;将该语句中每个第一语音段划分为99个时长为20毫秒的第一语音单元,其中每个在后的第一语音单元,与与其相邻的在前的第一语音单元重叠10毫秒,同时,提取该第一语音单元的13维的MFCC特征;将每个第一语音段中每个第一语音单元的音频特征输入到LSTM模型后,LSTM模型会根据输入的当前第一语音段的音频特征估计下一语音段的语速值,根据LSTM模型估计的语速结果及该第一语音段的下一语音段的真实语速值,对LSTM模型进行训练。
在利用训练完成的模型进行语速估计过程中,对测试集中的待估计语句做进一法处理,将该待估句语句划分为多个时长为1秒的第二语音段,针对每个第二语音段,将该第二语音段划分为99个时长为20毫秒的第二语音单元,并针对每个第二语音单元提取13维的MFCC特征,将每个第二语音段提取的99个13维的MFCC特征输入到训练完成的LSTM语速估计模型,该LSTM模型会估计该待估计语句中下一个第二语音段的语速值,从而得到待估计语句的语速。
本发明实施例提供的训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速检测的鲁棒性;同时,由于该LSTM模型是通过语速真实值进行训练的,故而采用训练完成的所述LSTM模型在对待估计语句进行语速估计时,可以估计出待估计语句的真实语速值;同时,本语速估计模型为两层的LSTM模型,从而提高了语速估计结果的准确率;另外,本方法只选用13维的MFCC特征,没有使用其差分特征,既保证了时间上的相关性,又减少了特征维数,减小了计算复杂度;将待估计语句划分成时长1秒的第二语音段进行语速的估计,体现了语速的动态变化过程。
实施例5:
图6为本发明实施例提供的一种语速估计模型的训练装置的结构示意图,所述装置包括:
划分模块61,用于针对预设的语音语料库中的每个语句,根据预设的音节对该语句进行音节标注;将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值;
划分提取模块62,用于针对每个语句,将该语句中每个第一语音段划分为预设数量的多个第一语音单元,提取每个第一语音单元的音频特征;
训练模块63,用于针对每个第一语音段,根据该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值,对长短期记忆网络LSTM模型进行训练。
所述划分模块61,具体用于将该语句划分为多个时长为1秒的第一语音段,其中每个在后的第一语音段,与与其相邻的在前的第一语音段重叠0.5秒。
所述划分提取模块62,具体用于针对每个第一语音段,将该第一语音段划分为99个时长为20毫秒的第一语音单元,其中每个在后的第一语音单元,与与其相邻的在前的第一语音单元重叠10毫秒。
所述划分提取模块62,具体用于针对每个第一语音单元,提取该第一语音单元的13维的梅尔频率倒谱系数MFCC特征。
本发明实施例中通过对预设的语音语料库中的语句进行音节标注,并将预设的语音语料库中的语句划分为多个第一语音段,从而确定出每个第一语音段的语速值,并且通过分段处理的方法,体现了语速的动态变化过程;利用已知语速值的每个第一语音段对LSTM模型进行训练,使得该LSTM模型能够估计出待估计语句语速的真实值,采用两层的LSTM模型,提高了语速估计结果的准确率;同时,本发明实施例提供的训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速估计方法的鲁棒性。
实施例6:
图7为本发明实施例提供的一种语速估计模型的语速估计装置的结构示意图,所述装置包括:
划分模块71,用于将待估计语句划分为多个第二语音段;
划分提取模块72,用于将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元,提取每个第二语音单元的音频特征;
估计模块73,用于根据每个第二语音段中每个第二语音单元的音频特征,及预先训练完成的LSTM模型,对该第二语音段的下一语音段的语速值进行估计。
所述划分模块71,具体用于将待估计语句划分为多个时长为1秒的第二语音段,其中每个在后的第二语音段,与与其相邻的在前的第二语音段重叠0.5秒。
所述划分提取模块72,具体用于针对每个第二语音段,将该第二语音段划分为99个时长为20毫秒的第二语音单元,其中每个在后的第二语音单元,与与其相邻的在前的第二语音单元重叠10毫秒。
本发明实施例提供的采用训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速检测的鲁棒性;同时,由于该LSTM模型是通过语速真实值进行训练的,故而采用训练完成的所述LSTM模型在对待估计语句进行语速估计时,可以估计出待估计语句的真实语速值;同时,本语速估计模型为两层的LSTM模型,从而提高了语速估计结果的准确率;另外,本方法只选用13维的MFCC特征,没有使用其差分特征,既保证了时间上的相关性,又减少了特征维数,减小了计算复杂度;将待估计语句划分成时长1秒的第二语音段进行语速的估计,体现了语速的动态变化过程。
实施例7:
在上述各实施例的基础上,本发明实施例中还提供了一种电子设备,如图8所示,包括:处理器81、通信接口82、存储器83和通信总线84,其中,处理器81,通信接口82,存储器83通过通信总线84完成相互间的通信;
所述存储器83中存储有计算机程序,当所述程序被所述处理器81执行时,使得所述处理器81执行如下步骤:
针对预设的语音语料库中的每个语句,根据预设的音节对该语句进行音节标注;将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值;
针对每个语句,将该语句中每个第一语音段划分为预设数量的多个第一语音单元,提取每个第一语音单元的音频特征;
针对每个第一语音段,根据该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值,对长短期记忆网络LSTM模型进行训练。
基于同一发明构思,本发明实施例中还提供了一种电子设备,由于上述电子设备解决问题的原理与语速估计模型的训练方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、网络侧设备等。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口82用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在本发明实施例中处理器执行存储器上所存放的程序时,实现对预设的语音语料库中的语句进行音节标注,并将预设的语音语料库中的语句划分为多个第一语音段,从而确定出每个第一语音段的语速值;利用已知语速值的每个第一语音段对LSTM模型进行训练,使得该LSTM模型能够估计出待估计语句语速的真实值;同时,本发明实施例提供的训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速估计方法的鲁棒性。
实施例8:
在上述各实施例的基础上,本发明实施例还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
针对预设的语音语料库中的每个语句,根据预设的音节对该语句进行音节标注;将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值;
针对每个语句,将该语句中每个第一语音段划分为预设数量的多个第一语音单元,提取每个第一语音单元的音频特征;
针对每个第一语音段,根据该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值,对长短期记忆网络LSTM模型进行训练。
基于同一发明构思,本发明实施例中还提供了一种计算机可读存储介质,由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与语速估计模型的训练方法相似,因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施,重复之处不再赘述。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
在本发明实施例中提供的计算机可读存储介质内存储计算机程序,计算机程序被处理器执行时实现对预设的语音语料库中的语句进行音节标注,并将预设的语音语料库中的语句划分为多个第一语音段,从而确定出每个第一语音段的语速值;利用已知语速值的每个第一语音段对LSTM模型进行训练,使得该LSTM模型能够估计出待估计语句语速的真实值;同时,本发明实施例提供的训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速估计方法的鲁棒性。
实施例9:
在上述各实施例的基础上,本发明实施例中还提供了一种电子设备,如图9所示,包括:处理器91、通信接口92、存储器93和通信总线94,其中,处理器91,通信接口92,存储器93通过通信总线94完成相互间的通信;
所述存储器93中存储有计算机程序,当所述程序被所述处理器91执行时,使得所述处理器91执行如下步骤:
将待估计语句划分为多个第二语音段;
将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元,提取每个第二语音单元的音频特征;
根据每个第二语音段中每个第二语音单元的音频特征,及预先训练完成的LSTM模型,对该第二语音段的下一语音段的语速值进行估计。
基于同一发明构思,本发明实施例中还提供了一种电子设备,由于上述电子设备解决问题的原理与语速估计方法相似,因此上述电子设备的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供的电子设备具体可以为桌面计算机、便携式计算机、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、网络侧设备等。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口92用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
在本发明实施例中处理器执行存储器上所存放的程序时,实现对待估计语句做进一法处理,将该待估句语句划分为多个时长为1秒的第二语音段,针对每个第二语音段,将该第二语音段划分为99个时长为20毫秒的第二语音单元,并针对每个第二语音单元提取一个13维的MFCC特征,将每个第二语音段提取的99个13维的MFCC特征输入到训练完成的LSTM语速估计模型,该LSTM模型会估计该待估计语句中下一个第二语音段的语速值。采用训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速检测的鲁棒性;同时,由于该LSTM模型是通过语速真实值进行训练的,故而采用训练完成的所述LSTM模型在对待估计语句进行语速估计时,可以估计出待估计语句的真实语速值;同时,本语速估计模型为两层的LSTM模型,从而提高了语速估计结果的准确率;另外,本方法只选用13维的MFCC特征,没有使用其差分特征,既保证了时间上的相关性,又减少了特征维数,减小了计算复杂度;将待估计语句划分成时长1秒的第二语音段进行语速的估计,体现了语速的动态变化过程。
实施例10:
在上述各实施例的基础上,本发明实施例还提供了一种计算机存储可读存储介质,所述计算机可读存储介质内存储有可由电子设备执行的计算机程序,当所述程序在所述电子设备上运行时,使得所述电子设备执行时实现如下步骤:
将待估计语句划分为多个第二语音段;
将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元,提取每个第二语音单元的音频特征;
根据每个第二语音段中每个第二语音单元的音频特征,及预先训练完成的LSTM模型,对该第二语音段的下一语音段的语速值进行估计。
基于同一发明构思,本发明实施例中还提供了一种计算机可读存储介质,由于处理器在执行上述计算机可读存储介质上存储的计算机程序时解决问题的原理与语速估计方法相似,因此处理器在执行上述计算机可读存储介质存储的计算机程序的实施可以参见方法的实施,重复之处不再赘述。
上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器如软盘、硬盘、磁带、磁光盘(MO)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD)等。
在本发明实施例中提供的计算机可读存储介质内存储计算机程序,计算机程序被处理器执行时实现对待估计语句做进一法处理,将该待估句语句划分为多个时长为1秒的第二语音段,针对每个第二语音段,将该第二语音段划分为99个时长为20毫秒的第二语音单元,并针对每个第二语音单元提取一个13维的MFCC特征,将每个第二语音段提取的99个13维的MFCC特征输入到训练完成的LSTM语速估计模型,该LSTM模型会估计该待估计语句中下一个第二语音段的语速值。采用训练完成的LSTM模型,可以直接对语句进行语速估计,不涉及到阈值的设置和调整,也不会影响语速估计的准确性,提高了语速检测的鲁棒性;同时,由于该LSTM模型是通过语速真实值进行训练的,故而采用训练完成的所述LSTM模型在对待估计语句进行语速估计时,可以估计出待估计语句的真实语速值;同时,本语速估计模型为两层的LSTM模型,从而提高了语速估计结果的准确率;另外,本方法只选用13维的MFCC特征,没有使用其差分特征,既保证了时间上的相关性,又减少了特征维数,减小了计算复杂度;将待估计语句划分成时长1秒的第二语音段进行语速的估计,体现了语速的动态变化过程。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者一个操作与另一个实体或者另一个操作区分开来,而不一定要求或者暗示这些实体或者操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (15)
1.一种语速估计模型的训练方法,其特征在于,包括:
针对预设的语音语料库中的每个语句,根据预设的音节对该语句进行音节标注;将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值;
针对每个语句,将该语句中每个第一语音段划分为预设数量的多个第一语音单元,提取每个第一语音单元的音频特征;
针对每个第一语音段,根据该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值,对长短期记忆网络LSTM模型进行训练。
2.如权利要求1所述的方法,其特征在于,所述预设的音节包括:
预设的元音及预设的响音。
3.如权利要求1所述的方法,其特征在于,所述将该语句划分为多个第一语音段包括:
将该语句划分为多个时长为1秒的第一语音段,其中每个在后的第一语音段,与与其相邻的在前的第一语音段重叠0.5秒。
4.如权利要求3所述的方法,其特征在于,所述将该语句中每个第一语音段划分为预设数量的多个第一语音单元包括:
针对每个第一语音段,将该第一语音段划分为99个时长为20毫秒的第一语音单元,其中每个在后的第一语音单元,与与其相邻的在前的第一语音单元重叠10毫秒。
5.如权利要求4所述的方法,其特征在于,所述提取每个第一语音单元的音频特征包括:
针对每个第一语音单元,提取该第一语音单元的13维的梅尔频率倒谱系数MFCC特征。
6.如权利要求1所述的方法,其特征在于,所述LSTM模型包括两层LSTM层。
7.一种基于权利要求1-6任一项所述语速估计模型的训练方法的语速估计方法,其特征在于,所述语速估计方法包括:
将待估计语句划分为多个第二语音段;
将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元,提取每个第二语音单元的音频特征;
根据每个第二语音段中每个第二语音单元的音频特征,及预先训练完成的LSTM模型,对该第二语音段的下一语音段的语速值进行估计。
8.如权利要求7所述的方法,其特征在于,所述将待估计语句划分为多个第二语音段包括:
将待估计语句划分为多个时长为1秒的第二语音段,其中每个在后的第二语音段,与与其相邻的在前的第二语音段重叠0.5秒。
9.如权利要求8所述的方法,其特征在于,所述将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元包括:
针对每个第二语音段,将该第二语音段划分为99个时长为20毫秒的第二语音单元,其中每个在后的第二语音单元,与与其相邻的在前的第二语音单元重叠10毫秒。
10.一种语速估计模型的训练装置,其特征在于,包括:
划分模块,用于针对预设的语音语料库中的每个语句,根据预设的音节对该语句进行音节标注;将该语句划分为多个第一语音段,根据每个第一语音段中包含的音节数量,确定每个第一语音段的语速值;
划分提取模块,用于针对每个语句,将该语句中每个第一语音段划分为预设数量的多个第一语音单元,提取每个第一语音单元的音频特征;
训练模块,用于针对每个第一语音段,根据该第一语音段中每个第一语音单元的音频特征,及该第一语音段的下一语音段的语速值,对长短期记忆网络LSTM模型进行训练。
11.一种基于权利要求10所述语速估计模型的训练装置的语速估计装置,其特征在于,所述语速估计装置包括:
划分模块,用于将待估计语句划分为多个第二语音段;
划分提取模块,用于将该待估计语句中每个第二语音段划分为预设数量的多个第二语音单元,提取每个第二语音单元的音频特征;
估计模块,用于根据每个第二语音段中每个第二语音单元的音频特征,及预先训练完成的LSTM模型,对该第二语音段的下一语音段的语速值进行估计。
12.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-6任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。
14.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求7-9任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求7-9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710835273.1A CN107785011B (zh) | 2017-09-15 | 2017-09-15 | 语速估计模型的训练、语速估计方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710835273.1A CN107785011B (zh) | 2017-09-15 | 2017-09-15 | 语速估计模型的训练、语速估计方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107785011A CN107785011A (zh) | 2018-03-09 |
CN107785011B true CN107785011B (zh) | 2020-07-03 |
Family
ID=61438256
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710835273.1A Active CN107785011B (zh) | 2017-09-15 | 2017-09-15 | 语速估计模型的训练、语速估计方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107785011B (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110060665A (zh) * | 2019-03-15 | 2019-07-26 | 上海拍拍贷金融信息服务有限公司 | 语速检测方法及装置、可读存储介质 |
CN110033782B (zh) * | 2019-04-11 | 2021-08-24 | 腾讯音乐娱乐科技(深圳)有限公司 | 单位时间内音节数量的计算方法及相关装置 |
CN110675861B (zh) * | 2019-09-26 | 2022-11-01 | 深圳追一科技有限公司 | 语音断句方法、装置、设备及存储介质 |
CN111179910A (zh) * | 2019-12-17 | 2020-05-19 | 深圳追一科技有限公司 | 语速识别方法和装置、服务器、计算机可读存储介质 |
CN111091849B (zh) * | 2020-03-03 | 2020-12-22 | 龙马智芯(珠海横琴)科技有限公司 | 鼾声识别的方法及装置、存储介质止鼾设备和处理器 |
US11302301B2 (en) * | 2020-03-03 | 2022-04-12 | Tencent America LLC | Learnable speed control for speech synthesis |
CN112185363B (zh) * | 2020-10-21 | 2024-02-13 | 北京猿力未来科技有限公司 | 音频处理方法及装置 |
CN112466332B (zh) * | 2020-11-13 | 2024-05-28 | 阳光保险集团股份有限公司 | 一种语速评分方法、装置、电子设备及存储介质 |
CN112786017B (zh) * | 2020-12-25 | 2024-04-09 | 北京猿力未来科技有限公司 | 语速检测模型的训练方法及装置、语速检测方法及装置 |
CN112820289A (zh) * | 2020-12-31 | 2021-05-18 | 广东美的厨房电器制造有限公司 | 语音播放方法、语音播放系统、电器和可读存储介质 |
CN112599148A (zh) * | 2020-12-31 | 2021-04-02 | 北京声智科技有限公司 | 一种语音识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103928023A (zh) * | 2014-04-29 | 2014-07-16 | 广东外语外贸大学 | 一种语音评分方法及系统 |
CN104952444A (zh) * | 2015-04-27 | 2015-09-30 | 桂林电子科技大学 | 一种文本无关的中国人英语口语质量评估方法 |
CN105578115A (zh) * | 2015-12-22 | 2016-05-11 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
CN105741832A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于深度学习的口语评测方法和系统 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107103903A (zh) * | 2017-05-05 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH02254500A (ja) * | 1989-03-29 | 1990-10-15 | Sharp Corp | 発声速度推定装置 |
-
2017
- 2017-09-15 CN CN201710835273.1A patent/CN107785011B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103928023A (zh) * | 2014-04-29 | 2014-07-16 | 广东外语外贸大学 | 一种语音评分方法及系统 |
CN104952444A (zh) * | 2015-04-27 | 2015-09-30 | 桂林电子科技大学 | 一种文本无关的中国人英语口语质量评估方法 |
CN105578115A (zh) * | 2015-12-22 | 2016-05-11 | 深圳市鹰硕音频科技有限公司 | 一种具有语音评估功能的网络教学方法及系统 |
CN105741832A (zh) * | 2016-01-27 | 2016-07-06 | 广东外语外贸大学 | 一种基于深度学习的口语评测方法和系统 |
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN107103903A (zh) * | 2017-05-05 | 2017-08-29 | 百度在线网络技术(北京)有限公司 | 基于人工智能的声学模型训练方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
"Understanding speaking styles of internet speech data with LSTM and low-resource training";Xixin Wu等;《2015 International Conference on Affective Computing and Intelligent Interaction (ACII)》;20151231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107785011A (zh) | 2018-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107785011B (zh) | 语速估计模型的训练、语速估计方法、装置、设备及介质 | |
US11996088B2 (en) | Setting latency constraints for acoustic models | |
US10923107B2 (en) | Clockwork hierarchical variational encoder | |
US9208778B2 (en) | System and method for combining frame and segment level processing, via temporal pooling, for phonetic classification | |
CN110706690A (zh) | 语音识别方法及其装置 | |
US12080272B2 (en) | Attention-based clockwork hierarchical variational encoder | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
CN104978963A (zh) | 语音识别装置、方法以及电子设备 | |
JPWO2018151125A1 (ja) | 単語ベクトル化モデル学習装置、単語ベクトル化装置、音声合成装置、それらの方法、及びプログラム | |
CN104575490A (zh) | 基于深度神经网络后验概率算法的口语发音评测方法 | |
Talman et al. | Predicting prosodic prominence from text with pre-trained contextualized word representations | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
Landsiedel et al. | Syllabification of conversational speech using bidirectional long-short-term memory neural networks | |
CN112017648A (zh) | 加权有限状态转换器构建方法、语音识别方法及装置 | |
CN112634866A (zh) | 语音合成模型训练和语音合成方法、装置、设备及介质 | |
Ramteke et al. | Phoneme boundary detection from speech: A rule based approach | |
CN112331207A (zh) | 服务内容监控方法、装置、电子设备和存储介质 | |
CN111599339A (zh) | 具有高自然度的语音拼接合成方法、系统、设备及介质 | |
Rahmawati et al. | Java and Sunda dialect recognition from Indonesian speech using GMM and I-Vector | |
Sinha et al. | Empirical analysis of linguistic and paralinguistic information for automatic dialect classification | |
Canevari et al. | Cross-corpus and cross-linguistic evaluation of a speaker-dependent DNNHMM ASR system using EMA data | |
McKnight et al. | Analysis of phonetic dependence of segmentation errors in speaker diarization | |
Xia et al. | HMM-based unit selection speech synthesis using log likelihood ratios derived from perceptual data | |
CN114566156A (zh) | 一种关键词的语音识别方法及装置 | |
Li et al. | Automatic segmentation of Chinese Mandarin speech into syllable-like |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |