CN109377981A - 音素对齐的方法及装置 - Google Patents
音素对齐的方法及装置 Download PDFInfo
- Publication number
- CN109377981A CN109377981A CN201811397421.7A CN201811397421A CN109377981A CN 109377981 A CN109377981 A CN 109377981A CN 201811397421 A CN201811397421 A CN 201811397421A CN 109377981 A CN109377981 A CN 109377981A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- feature
- alignment
- voice
- phonemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 239000011159 matrix material Substances 0.000 claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000005194 fractionation Methods 0.000 claims abstract description 13
- 150000001875 compounds Chemical class 0.000 claims description 11
- 238000000605 extraction Methods 0.000 claims description 9
- 239000000284 extract Substances 0.000 claims description 3
- 238000002360 preparation method Methods 0.000 claims description 3
- VIKNJXKGJWUCNN-XGXHKTLJSA-N norethisterone Chemical compound O=C1CC[C@@H]2[C@H]3CC[C@](C)([C@](CC4)(O)C#C)[C@@H]4[C@@H]3CCC2=C1 VIKNJXKGJWUCNN-XGXHKTLJSA-N 0.000 claims 1
- 230000004807 localization Effects 0.000 abstract description 3
- 238000010801 machine learning Methods 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000002262 irrigation Effects 0.000 abstract 1
- 238000003973 irrigation Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007596 consolidation process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种音素对齐的方法及装置,属于机器学习中语音信号处理领域。本发明解决了现有音素对齐技术存在模型复杂度高、步骤繁琐及很难实现本地化的问题,其技术方案要点为:首先,定义音素集合;其次,语音样本数据采集和音素位置信息的标定;然后,提取语音的声学特征;再然后,语音转文本并参照音素集合进行音素拆分;再然后,训练每类音素的概率模型;再然后,采用概率模型对语音特征求后验概率,得到概率矩阵;再然后,采用动态路径规划对概率矩阵求解最优对齐路径;最后,音素位置信息映射,得到音素的起始和终止位置。本发明的有益效果是:能够高效且准确地实现音素对齐。适用于机器学习。
Description
技术领域
本发明涉及机器学习中语音信号处理技术,特别涉及音素对齐的方法及装置的技术。
背景技术
近几年来,随着人工智能技术的快速发展,越来越多的带有人工智能技术的产品出现在人们的日常生活中。如语音识别、语音合成和声纹识别等技术应用越来越广泛,而这些技术的大都会使用到音素对齐技术。
现有音素对齐技术存在这样的问题:模型复杂度高,步骤繁琐,很难实现本地化。
发明内容
本发明的目的是提供一种音素对齐的方法及装置,解决现有音素对齐技术存在模型复杂度高、步骤繁琐及很难实现本地化的问题。
本发明解决其技术问题,采用的技术方案是:音素对齐的方法,包括以下步骤:
步骤1、定义音素集合;
步骤2、语音样本数据采集和音素位置信息的标定;
步骤3、提取语音的声学特征;
步骤4、语音转文本并参照音素集合进行音素拆分;
步骤5、训练每类音素的概率模型;
步骤6、采用概率模型对语音特征求后验概率,得到概率矩阵;
步骤7、采用动态路径规划对概率矩阵求解最优对齐路径;
步骤8、音素位置信息映射,得到音素的起始和终止位置。
进一步的是,步骤1中,音素集合的定义是根据不同发音方式将声母和韵母定义为M类的音素集合。
进一步的是,步骤3中,提取语音的声学特征包括:提取梅尔频率倒谱系数特征或者PNCC特征,同时记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。
进一步的是,步骤4中,语音转文本并参照音素集合进行音素拆分是首先将汉字转为拼音,然后将拼音拆分为声母和韵母,最后根据音素的定义集合映射为对应的音素。
进一步的是,步骤5中,训练每类音素的概率模型,包括以下步骤:
步骤501、每类音素的样本准备,具体为:对于标定的音素,采用此音素的真实窗口的语音数据作为正样本;
步骤502、特征提取,具体为:对所有的正样本提取特征,假设帧长为A毫秒,步长为B毫秒,每个帧长内就会得到一个C维的特征向量,假设音素数据有N帧,这样得到CxN的二维矩阵X;
步骤503、训练概率模型,具体为:设置混合系数为K,训练混合高斯模型。
进一步的是,步骤6中,采用概率模型对语音特征求后验概率时,采用步骤3中的特征矩阵中的每一帧特征和所有的音素的概率模型求后验概率,最终得到一个概率矩阵。
进一步的是,步骤7中,所述动态路径规划是根据概率矩阵寻找最优的音素对齐路径,并输出音素特征的起始和终止位置信息。
进一步的是,步骤8中,所述音素位置信息映射时,是根据步骤3中的特征在原始语音的位置信息和步骤7中音素特征对齐的路径做映射,并输出音素的起始和终止位置信息。
音素对齐的装置,应用于所述音素对齐的方法,包括语音采集存储模块和音素对齐模块,所述语音采集存储模块和音素对齐模块连接;
所述语音采集存储模块用于采集和存储语音数据;
所述音素对齐模块,用于识别音素的起始和终止位置。
进一步的是,所述音素对齐模块包括音素的类别定义、文本内容的音素拆分、语音特征提取、特征概率计算、动态路径规划及音素位置信息映射。
本发明的有益效果是,通过上述音素对齐的方法及装置,首先,定义音素集合;其次,语音样本数据采集和音素位置信息的标定;然后,提取语音的声学特征;再然后,语音转文本并参照音素集合进行音素拆分;再然后,训练每类音素的概率模型;再然后,采用概率模型对语音特征求后验概率,得到概率矩阵;再然后,采用动态路径规划对概率矩阵求解最优对齐路径;最后,音素位置信息映射,得到音素的起始和终止位置。能够高效且准确地实现音素对齐。
附图说明
图1为本发明音素对齐的装置的结构框图。
具体实施方式
下面结合实施例,详细描述本发明的技术方案。
本发明所述音素对齐的方法,包括以下步骤:
步骤1、定义音素集合,其中,音素集合的定义是根据不同发音方式将声母和韵母定义为M类的音素集合。
步骤2、语音样本数据采集和音素位置信息的标定;
步骤3、提取语音的声学特征,提取语音的声学特征包括:提取梅尔频率倒谱系数特征或者PNCC特征,同时记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。
步骤4、语音转文本并参照音素集合进行音素拆分,语音转文本并参照音素集合进行音素拆分是首先将汉字转为拼音,然后将拼音拆分为声母和韵母,最后根据音素的定义集合映射为对应的音素。
步骤5、训练每类音素的概率模型,具体包括以下步骤:
步骤501、每类音素的样本准备,具体为:对于标定的音素,采用此音素的真实窗口的语音数据作为正样本;
步骤502、特征提取,具体为:对所有的正样本提取特征,假设帧长为A毫秒,步长为B毫秒,每个帧长内就会得到一个C维的特征向量,假设音素数据有N帧,这样得到CxN的二维矩阵X;
步骤503、训练概率模型,具体为:设置混合系数为K,训练混合高斯模型。
步骤6、采用概率模型对语音特征求后验概率,得到概率矩阵,采用概率模型对语音特征求后验概率时,采用步骤3中的特征矩阵中的每一帧特征和所有的音素的概率模型求后验概率,最终得到一个概率矩阵。
步骤7、采用动态路径规划对概率矩阵求解最优对齐路径,所述动态路径规划是根据概率矩阵寻找最优的音素对齐路径,并输出音素特征的起始和终止位置信息。
步骤8、音素位置信息映射,得到音素的起始和终止位置,所述音素位置信息映射时,是根据步骤3中的特征在原始语音的位置信息和步骤7中音素特征对齐的路径做映射,并输出音素的起始和终止位置信息。
音素对齐的装置,应用于所述音素对齐的方法,包括语音采集存储模块和音素对齐模块,其结构框图参见图1,其中,语音采集存储模块和音素对齐模块连接;语音采集存储模块用于采集和存储语音数据;所述音素对齐模块,用于识别音素的起始和终止位置。音素对齐模块包括音素的类别定义、文本内容的音素拆分、语音特征提取、特征概率计算、动态路径规划及音素位置信息映射。
实施例
本实施例音素对齐的方法,具体实施例时,包括如下步骤:
步骤1、定义音素集合
根据语言学原理,将声母和韵母定义为66类音素,如下:a,aa,ai,an,ang,ao,b,c,ch,d,e,ee,ei,en,eng,er,f,g,h,i,ia,ian,iang,iao,ie,ii,in,ing,iong,iu,ix,iy,iz,j,k,l,m,n,o,ong,oo,ou,p,q,r,s,sh,t,u,ua,uai,uan,uang,ueng,ui,un,uo,uu,v,van,ve,vn,vv,x,z,zh。
步骤2、数据收集和标定
收集语音数据库,标定音素的类别和位置。
步骤3、提取语音的声学特征
假设帧长为A毫秒,步长为B毫秒,每个帧长内就会得到一个C维的特征向量,假设音素数据有N帧,这样得到CxN的二维矩阵X。
步骤4、语音转文本并参照音素集合进行音素拆分
将语音文本信息转为拼音,并按照S1中定义的音素集合确定此段语音中包含的音素。
步骤5、训练概率模型
针对每一类音素训练一个混合高斯模型,如此就可以得到66个混合高斯模型,混合高斯模型训练方法如下:
步骤501、将步骤2中收集的数据提取MFCC特征;
步骤502、将每类音素的每一帧作为训练此类音素的混合高斯模型的样本;
步骤503、设置混合高斯模型的混合度为16;
步骤504、训练混合高斯模型知道收敛;
步骤505、保存66个混合高斯模型;
步骤506、采用概率模型对语音特征求后验概率,得到概率矩阵
对于一段语音,首先提取MFCC特征,设帧长为25ms,步长为10ms,N帧,因此每个帧长内就会得到一个39维的特征向量,假设N=100,这样得到39x100的二维mfcc特征矩阵,同时记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置;将语音文本信息转为拼音,并按照S1中定义的音素集合确定此段语音中包含的音素,假设包含如下音素。ch、ang、h、ong、x、iao、b、ai;在S5中的混合高斯模型中挑选出这8个模型,用这8个模型分别和S41中39x100的矩阵计算概率,得到一个8x100的概率矩阵;
步骤6、用动态路径规划对概率矩阵求解最优对齐路径,采用动态时间规整对步骤5中的概率矩阵寻找最优路径,输出音素的特征的起始和终止位置。
步骤7、音素位置信息映射,根据步骤6中的特征的起始和终止位置信息和步骤5中每一帧特征对应于原始语音数据上的起始位置和终止位置做对应的映射,得到音素在语音中的起始和终止位置。
音素对齐的装置,应用于本实施例的音素对齐的方法,包括语音采集存储模块和音素对齐模块,语音采集存储模块和音素对齐模块连接;语音采集存储模块用于采集和存储语音数据;音素对齐模块,用于识别音素的起始和终止位置。
音素对齐模块包括音素的类别定义、文本内容的音素拆分、语音特征提取、特征概率计算、动态路径规划及音素位置信息映射。
具体应用时:
音素的类别定义,方法为:汉字通常是由声母和韵母组成,根据语言学的原理可以在进一步细分,相同的韵母和不同的声母组合可以表现为不同的音素,因此通过语言学原理将声母和韵母重新定义为一个音素集合。
文本内容的音素拆分,方法为:首先将文本内容转写为拼音,然后根据音素的类别定义中音素集合将拼音拆分为单个音素。
语音特征提取,方法为:设定一个固定窗口大小和一个固定的步长,对音素的类别定义中语音提取MFCC或者PNCC特征,同时记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。
特征概率计算,方法为:首先对每一类音素训练一个概率模型,然后用所有概率模型对每一帧语音特征计算概率,得到概率矩阵。
动态路径规划,方法为根据特征概率计算中的概率矩阵采用动态时间归整寻找最优对齐路径,并输出特征的起始和终止位置信息。
音素位置信息映射,方法为根据动态路径规划中的特征的起始和终止位置信息和语音特征提起中每一帧特征对应于原始语音数据上的起始位置和终止位置做对应的映射,得到音素在语音中的起始和终止位置。
实现上述实施例方法中的全部或部分流程是可以通各种算法程序实现的,所述的程序可以存储于计算机可读取存储介质中,该程序在执行时,可包括如上各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
Claims (10)
1.音素对齐的方法,其特征在于,包括以下步骤:
步骤1、定义音素集合;
步骤2、语音样本数据采集和音素位置信息的标定;
步骤3、提取语音的声学特征;
步骤4、语音转文本并参照音素集合进行音素拆分;
步骤5、训练每类音素的概率模型;
步骤6、采用概率模型对语音特征求后验概率,得到概率矩阵;
步骤7、采用动态路径规划对概率矩阵求解最优对齐路径;
步骤8、音素位置信息映射,得到音素的起始和终止位置。
2.如权利要求1所述的音素对齐的方法,其特征在于,步骤1中,音素集合的定义是根据不同发音方式将声母和韵母定义为M类的音素集合。
3.如权利要求1所述的音素对齐的方法,其特征在于,步骤3中,提取语音的声学特征包括:提取梅尔频率倒谱系数特征或者PNCC特征,同时记录该特征中每一帧特征对应于原始语音数据上的起始位置和终止位置。
4.如权利要1所述的音素对齐的方法,其特征在于,步骤4中,语音转文本并参照音素集合进行音素拆分是首先将汉字转为拼音,然后将拼音拆分为声母和韵母,最后根据音素的定义集合映射为对应的音素。
5.如权利要求1所述的音素对齐的方法,其特征在于,步骤5中,训练每类音素的概率模型,包括以下步骤:
步骤501、每类音素的样本准备,具体为:对于标定的音素,采用此音素的真实窗口的语音数据作为正样本;
步骤502、特征提取,具体为:对所有的正样本提取特征,假设帧长为A毫秒,步长为B毫秒,每个帧长内就会得到一个C维的特征向量,假设音素数据有N帧,这样得到CxN的二维矩阵X;
步骤503、训练概率模型,具体为:设置混合系数为K,训练混合高斯模型。
6.如权利要求1所述的音素对齐的方法,其特征在于,步骤6中,采用概率模型对语音特征求后验概率时,采用步骤3中的特征矩阵中的每一帧特征和所有的音素的概率模型求后验概率,最终得到一个概率矩阵。
7.如权利要求1所述的音素对齐的方法,其特征在于,步骤7中,所述动态路径规划是根据概率矩阵寻找最优的音素对齐路径,并输出音素特征的起始和终止位置信息。
8.如权利要求1所述的音素对齐的方法,其特征在于,步骤8中,所述音素位置信息映射时,是根据步骤3中的特征在原始语音的位置信息和步骤7中音素特征对齐的路径做映射,并输出音素的起始和终止位置信息。
9.音素对齐的装置,应用于上述权利要求1-8任意一项所述音素对齐的方法,其特征在于,包括语音采集存储模块和音素对齐模块,所述语音采集存储模块和音素对齐模块连接;
所述语音采集存储模块用于采集和存储语音数据;
所述音素对齐模块,用于识别音素的起始和终止位置。
10.如权利要求9所述的音素对齐的装置,其特征在于,所述音素对齐模块包括音素的类别定义、文本内容的音素拆分、语音特征提取、特征概率计算、动态路径规划及音素位置信息映射。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811397421.7A CN109377981B (zh) | 2018-11-22 | 2018-11-22 | 音素对齐的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811397421.7A CN109377981B (zh) | 2018-11-22 | 2018-11-22 | 音素对齐的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109377981A true CN109377981A (zh) | 2019-02-22 |
CN109377981B CN109377981B (zh) | 2021-07-23 |
Family
ID=65382810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811397421.7A Active CN109377981B (zh) | 2018-11-22 | 2018-11-22 | 音素对齐的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109377981B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798868A (zh) * | 2020-09-07 | 2020-10-20 | 北京世纪好未来教育科技有限公司 | 语音强制对齐模型评价方法、装置、电子设备及存储介质 |
CN112420075A (zh) * | 2020-10-26 | 2021-02-26 | 四川长虹电器股份有限公司 | 一种基于多任务的音素检测方法及装置 |
CN112542159A (zh) * | 2020-12-01 | 2021-03-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN112908308A (zh) * | 2021-02-02 | 2021-06-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN113035247A (zh) * | 2021-03-17 | 2021-06-25 | 广州虎牙科技有限公司 | 一种音频文本对齐方法、装置、电子设备及存储介质 |
CN113450760A (zh) * | 2021-06-07 | 2021-09-28 | 北京一起教育科技有限责任公司 | 一种文本转语音的方法、装置及电子设备 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117582A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 音声処理装置およびカラオケ装置 |
CN101826325A (zh) * | 2010-03-10 | 2010-09-08 | 华为终端有限公司 | 对中英文语音信号进行识别的方法和装置 |
CN101887725A (zh) * | 2010-04-30 | 2010-11-17 | 中国科学院声学研究所 | 一种基于音素混淆网络的音素后验概率计算方法 |
US20120253812A1 (en) * | 2011-04-01 | 2012-10-04 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
CN102982799A (zh) * | 2012-12-20 | 2013-03-20 | 中国科学院自动化研究所 | 一种融合引导概率的语音识别优化解码方法 |
CN103204100A (zh) * | 2013-04-08 | 2013-07-17 | 浙江海联电子有限公司 | 一种出租车顶灯语音控制系统 |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN108648760A (zh) * | 2018-04-17 | 2018-10-12 | 四川长虹电器股份有限公司 | 实时声纹辨识系统与方法 |
-
2018
- 2018-11-22 CN CN201811397421.7A patent/CN109377981B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001117582A (ja) * | 1999-10-21 | 2001-04-27 | Yamaha Corp | 音声処理装置およびカラオケ装置 |
CN101826325A (zh) * | 2010-03-10 | 2010-09-08 | 华为终端有限公司 | 对中英文语音信号进行识别的方法和装置 |
CN101887725A (zh) * | 2010-04-30 | 2010-11-17 | 中国科学院声学研究所 | 一种基于音素混淆网络的音素后验概率计算方法 |
US20120253812A1 (en) * | 2011-04-01 | 2012-10-04 | Sony Computer Entertainment Inc. | Speech syllable/vowel/phone boundary detection using auditory attention cues |
CN102982799A (zh) * | 2012-12-20 | 2013-03-20 | 中国科学院自动化研究所 | 一种融合引导概率的语音识别优化解码方法 |
CN103204100A (zh) * | 2013-04-08 | 2013-07-17 | 浙江海联电子有限公司 | 一种出租车顶灯语音控制系统 |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN108648760A (zh) * | 2018-04-17 | 2018-10-12 | 四川长虹电器股份有限公司 | 实时声纹辨识系统与方法 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111798868A (zh) * | 2020-09-07 | 2020-10-20 | 北京世纪好未来教育科技有限公司 | 语音强制对齐模型评价方法、装置、电子设备及存储介质 |
US11749257B2 (en) | 2020-09-07 | 2023-09-05 | Beijing Century Tal Education Technology Co., Ltd. | Method for evaluating a speech forced alignment model, electronic device, and storage medium |
CN112420075A (zh) * | 2020-10-26 | 2021-02-26 | 四川长虹电器股份有限公司 | 一种基于多任务的音素检测方法及装置 |
CN112420075B (zh) * | 2020-10-26 | 2022-08-19 | 四川长虹电器股份有限公司 | 一种基于多任务的音素检测方法及装置 |
CN112542159A (zh) * | 2020-12-01 | 2021-03-23 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN112542159B (zh) * | 2020-12-01 | 2024-04-09 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种数据处理方法以及设备 |
CN112908308A (zh) * | 2021-02-02 | 2021-06-04 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN112908308B (zh) * | 2021-02-02 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频处理方法、装置、设备及介质 |
CN113035247A (zh) * | 2021-03-17 | 2021-06-25 | 广州虎牙科技有限公司 | 一种音频文本对齐方法、装置、电子设备及存储介质 |
CN113450760A (zh) * | 2021-06-07 | 2021-09-28 | 北京一起教育科技有限责任公司 | 一种文本转语音的方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109377981B (zh) | 2021-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109377981A (zh) | 音素对齐的方法及装置 | |
CN103928023B (zh) | 一种语音评分方法及系统 | |
CN102982809B (zh) | 一种说话人声音转换方法 | |
CN100411011C (zh) | 用于语言学习机的发音质量评价方法 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN108269133A (zh) | 一种结合人体识别和语音识别的智能广告推送方法及终端 | |
CN106297773B (zh) | 一种神经网络声学模型训练方法 | |
CN100514446C (zh) | 一种基于语音识别及语音分析的发音评估方法 | |
CN103177733B (zh) | 汉语普通话儿化音发音质量评测方法与系统 | |
CN105810212B (zh) | 一种复杂噪声环境下的列车鸣笛识别方法 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN109754812A (zh) | 一种基于卷积神经网络的防录音攻击检测的声纹认证方法 | |
CN107945805A (zh) | 一种智能化跨语言语音识别转化方法 | |
CN106782603B (zh) | 智能语音评测方法及系统 | |
CN101710490A (zh) | 语音评测的噪声补偿方法及装置 | |
CN110517663A (zh) | 一种语种识别方法及识别系统 | |
CN107731233A (zh) | 一种基于rnn的声纹识别方法 | |
CN103544963A (zh) | 一种基于核半监督判别分析的语音情感识别方法 | |
CN107393554A (zh) | 一种声场景分类中融合类间标准差的特征提取方法 | |
WO2013040981A1 (zh) | 一种基于近邻原则合成情感模型的说话人识别方法 | |
CN108877769B (zh) | 识别方言种类的方法和装置 | |
CN108648760A (zh) | 实时声纹辨识系统与方法 | |
CN103985390A (zh) | 一种基于伽马通相关图语音特征参数提取方法 | |
CN110047474A (zh) | 一种英语音标发音智能训练系统及训练方法 | |
CN107886968A (zh) | 语音评测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |