CN106782503A - 基于发音过程中生理信息的自动语音识别方法 - Google Patents
基于发音过程中生理信息的自动语音识别方法 Download PDFInfo
- Publication number
- CN106782503A CN106782503A CN201611243868.XA CN201611243868A CN106782503A CN 106782503 A CN106782503 A CN 106782503A CN 201611243868 A CN201611243868 A CN 201611243868A CN 106782503 A CN106782503 A CN 106782503A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- signal
- speech
- parameter
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 25
- 239000000284 extract Substances 0.000 claims abstract description 12
- 230000009467 reduction Effects 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 8
- 238000009432 framing Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 4
- 238000000513 principal component analysis Methods 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 241000208340 Araliaceae Species 0.000 claims description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 claims description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 claims description 2
- 235000008434 ginseng Nutrition 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims 1
- 230000000007 visual effect Effects 0.000 description 9
- 238000002474 experimental method Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000007499 fusion processing Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明属于语音识别技术领域,具体涉及一种基于发音过程中生理信息的自动语音识别方法。包括以下步骤:预处理训练数据;语音信号处理,提取语音信号特征参数;选择磁共振图像视频主要特征区域,提取出特征区域的图像特征参数;融合上述步骤二中语音信号特征参数与步骤三中图像特征参数,获得融合特征参数;采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型;使用上述步骤五获得语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。本发明的自动语音识别方法降低外部环境对语音识别的影响,既提升了识别准确性,又提升语音识别系统的鲁棒性。
Description
技术领域
本发明属于语音识别技术领域,具体涉及一种基于发音过程中生理信息的自动语音识别方法。
背景技术
目前语音识别技术主要分两种:一种是仅仅利用语音信号进行语音识别的技术。语音信号作为语音研究最直接的研究材料,具有简单直观的优点,并且经过数十年来的发展,对于语音信号的处理方法已经十分成熟完善。语音信号的处理,根据目的不同,处理方法也不相同,通常是将语音信号转换到时域、频域、倒谱域上,然后对转化后的语音信号进行分析,提取出信号特征,再根据信号特征进行接下来的模型训练、识别等步骤。市场上的语音识别系统大多采用该种技术。
单纯利用语音信号进行识别的缺陷在于受环境影响较大。尽管许多实验中该技术表现出了极高的语音识别准确性,但是实验环境通常没有噪音的干扰。而实际生活中,噪音的干扰时有发生,而系统又难以区分何种声音是噪音,何种声音是需要识别的声音,因此系统会表现出较差的语音识别性能。
另一种是在上述技术的基础上,辅以视觉信息进行语音识别,目的是降低噪音的干扰。人们获取信息的首要方式是通过视觉,而语言的表现形式也不仅仅是语音信号,还包括面部表情、肢体动作等。生活中人们听不清对方说话的时候,通过观察对方的表情动作就可以增强理解。因此,辅以视觉信息的方法是可行的,实验也证实了该技术确实能够提升语音识别系统的准确性。
但是辅以视觉信息的技术也有其局限性。首先视觉信息的采集受人的主观影响,肢体信息、面部表情动作都可以作为视觉信息,并且对于效果较好的唇舌视觉信息,信息特征的采集通常采用超声、X射线进行采集,易丢失信息。并且视觉信息作为语言的一种表现形式,许多时候不同发音的视觉信息表现较为相似,导致视觉信息虽然能够提升语音识别系统性能,但是提升效果有限。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种对现有语音识别系统识别准确性进行有效提升的技术方法,通过对发声器官的核磁共振图像进行分析,同时将其与语音信号进行结合,降低外部环境对语音识别的影响,提升语音识别系统的鲁棒性。
本发明的技术方案是提供一种基于发音过程中生理信息的自动语音识别方法,具体包括如下步骤:
步骤一:预处理训练数据;
步骤二:语音信号处理,提取语音信号特征参数;
步骤三:选择磁共振图像视频主要特征区域,提取出特征区域的图像特征参数;
步骤四:融合上述步骤二中语音信号特征参数与步骤三中图像特征参数,获得融合特征参数;
步骤五:采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型;
步骤六:使用上述步骤五获得语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。
所述步骤一中预处理训练数据是采用对文本进行人工标注,获得标注文件;具体步骤:首先是听取语音数据,对其中显而易见的误读等人为造成的与语音文本不符的错误修改,使用GoldWave对其进行静音操作,即将其变为沉默时间,这个过程应保证语音时间长度不变,以便与视频相对应;然后对语音数据进行音素级别的标注,这个过程使用的是p2fa标注工具,通过文本与语音文件相对应生成音素标注文件;经过工具生成的标注文件需要在进行人工修正,以提升标注的准确性。
所述步骤一中数据指的是F1、F5、M1、M3的语音数据,每个人包含92个语音数据文件,这些语音数据有对应的文本,4个被测试人员均按照文本朗读。训练数据与测试数据比例为9:1,即从中选取83个作为训练数据,其余9个作为测试数据。
所述步骤二中提取语音信号特征参数是将语音信号转换到梅尔频率倒谱域上,提取梅尔频率倒谱系数MFCC参数作为语音信号特征参数,具体步骤包括:首先对信号进行预加重操作,增强信号,之后对信号进行分帧、加窗、快速傅里叶变换FFT将语音信号从时域转换到频域,便于分析信号,接下来将信号通过Mel滤波器组,将信号从频域转到倒谱域上,最后对倒谱域上的信号进行对数运算及离散余弦变换DCT获得MFCC参数,对MFCC参数取一阶、二阶差分,再加上语音信号的帧能量,即为特征参数。
所述步骤三选择磁共振图像视频主要特征区域采用主成分分析的方法提取出特征区域的图像特征参数;磁共振图像参数属于高维空间参数,图像特征参数提取的具体步骤包括:离散余弦变换DCT、降维、插值、归一化、加窗分帧以及再次降维处理。
所述步骤五融合特征参数维数选择66-87维。
所述步骤五语音识别模型训练是采用隐马尔科夫模型训练,进行多次迭代训练,直至模型趋于平稳,获得语音识别模型。
本发明的有益效果:
本发明提供了一种对现有语音识别系统识别准确性进行有效提升的技术方法,通过对发声器官的核磁共振图像进行分析,同时将其与语音信号进行结合,降低外部环境对语音识别的影响,既提升了识别准确性,又提升语音识别系统的鲁棒性。
附图说明
图1为本发明的方法流程图。
图2为75维融合特征识别准确率对比图。
具体实施方式
下面通过具体实施例和附图对本发明作进一步的说明。本发明的实施例是为了更好地使本领域的技术人员更好地理解本发明,并不对本发明作任何的限制。
本发明基于发音过程中生理信息的自动语音识别方法,具体包括如下步骤:首先,预处理训练数据,采用对文本进行人工标注,获得标注文件;具体步骤:首先是听取语音数据,对其中显而易见的误读等人为造成的与语音文本不符的错误修改,使用GoldWave对其进行静音操作,即将其变为沉默时间,这个过程应保证语音时间长度不变,以便与视频相对应;然后进行对语音数据进行音素级别的标注,这个过程使用的是p2fa标注工具,通过文本与语音文件相对应生成音素标注文件;经过工具生成的标注文件需要在进行人工修正,以提升标注的准确性。数据指的是F1、F5、M1、M3的语音数据,每个人包含92个语音数据文件,这些语音数据有对应的文本,4个被测试人员均按照文本朗读。训练数据与测试数据比例为9:1,即从中选取83个作为训练数据,其余9个作为测试数据。然后,语音信号处理,提取语音信号特征参数是将语音信号转换到梅尔频率倒谱域上,提取梅尔频率倒谱系数MFCC参数作为语音信号特征参数,具体步骤包括:首先对信号进行预加重操作,增强信号,之后对信号进行分帧、加窗、快速傅里叶变换FFT将语音信号从时域转换到频域,便于分析信号,接下来将信号通过Mel滤波器组,将信号从频域转到倒谱域上,最后对倒谱域上的信号进行对数运算及离散余弦变换DCT获得MFCC参数,对MFCC参数取一阶、二阶差分,再加上语音信号的帧能量即为特征参数。其次,磁共振图像特征主要特征区域选择,提取出特征区域的图像特征参数;采用主成分分析的方法提取出特征区域的图像特征参数,磁共振图像参数属于高维空间参数,对于图像的特征提取具体步骤包括:离散余弦变换DCT、降维、插值、归一化、加窗分帧以及再次降维处理。再次,融合上述两步中的语音信号特征参数与图像特征参数,获得融合特征参数;本发明融合特征参数维数选择66至87维。再次,采用上述步骤的融合特征参数进行语音识别模型训练,采用隐马尔科夫模型训练,进行多次迭代训练,直至模型趋于平稳,得到最佳语音识别模型。最后,使用训练出的最佳语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。
本发明的方法一个具体实施例:基于发音过程中生理信息的自动语音识别方法,包括以下步骤:
步骤S01:语音识别过程中,首先要对语音信号进行处理,具体来说就是语音信号特征参数的提取,本发明中使用的为MFCC参数。MFCC参数最终由离散余弦变换DCT得到。
求出MFCC参数之后,可以加入其他语音特征参数(通常采用语音信号音量)作为共同识别特征参数。然后对MFCC参数计算一阶差分、二阶差分,最终得到的MFCC参数由N维的MFCC参数和帧能量组成,N维的MFCC参数包括N/3维的MFCC倒谱系数、N/3维的一阶差分和N/3维的二阶差分。
步骤S02:对磁共振图像视频进行主要特征区域选择,对视频进行离散余弦变换后进行一次降维操作,然后对其进行插值使得视频采样率与语音采样率一致,在进行归一化、加窗分帧操作,最后进行降维操作,即主成分分析操作,获取贡献率大的图像特征。
步骤S03:本发明重点在于采用语音特征与磁共振图像特征融合的方式进行语音识别模型训练,在融合过程中明确主要特征和次要特征的关系。对于语音识别而言,语音信号特征是主特征,因此融合过程中语音信号特征要占大比例,协调两种特征的比例对语音识别性能有很大影响。
步骤S04:初始化一个模型,初始化模型是在第一次训练之前,构建出一个隐马尔科夫模型的样例,将融合特征与标注文件一起进行模型训练,训练的过程中会逐步调整参数,使其越来越符合对应于训练数据的模型,最终等到模型趋于稳定后,就获得最佳模型了,模型训练过程循环多次,直至最终结果收敛即可得到合适的音素模型。
步骤S05:对未知语音进行相同的特征提取、融合操作,获得融合特征后代入训练出的模型进行识别,将识别结果与人工标注文件进行比对,即可得出识别准确率。通过比较三种不同特征参数的识别性能,可以验证本发明对于语音识别系统性能的提升情况。
实验在改变磁共振图像特征参数维数的情况下,测试融合特征对语音识别系统的性能影响。本实验通过将融合特征的识别系统与单独特征的识别系统的识别结果进行比较,以验证融合特征对语音识别系统的识别性能提升效用。
表1表明了融合特征识别系统的识别率,对于不同实验对象,其最佳识别率的特征维数也不相同。
表1融合特征识别率
本次实验采用的数据为USC-TIMIT数据库中的数据,其中磁共振图像分辨率为68×68像素,分辨率对图像特征提取有较大影响,因此也影响了最终识别率。实验结果表明,随着融合特征参数维数的增加,识别准确率呈现出先上升后下降的趋势,并且在融合特征参数维数为66-87维的时候,对于各个实验对象均呈现出较高的识别性能提升。
图2为75维融合特征识别准确率对比图,可以看出语音信号仍旧是语音识别系统性能最大的影响因素,但是在与磁共振图像特征进行适当融合后,得到了更高的识别率,从而达到了改善语音识别系统性能的目的。
应当理解的是,这里所讨论的实施方案及实例只是为了说明,对本领域技术人员来说,可以加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (7)
1.基于发音过程中生理信息的自动语音识别方法,其特征在于,具体包括如下步骤:
步骤一:预处理训练数据;
步骤二:语音信号处理,提取语音信号特征参数;
步骤三:选择磁共振图像视频主要特征区域,提取出特征区域的图像特征参数;
步骤四:融合上述步骤二中语音信号特征参数与步骤三中图像特征参数,获得融合特征参数;
步骤五:采用上述步骤四融合特征参数进行语音识别模型训练,获得语音识别模型;
步骤六:使用上述步骤五获得语音识别模型进行语音识别,通过与人工标注的语音数据进行比对识别准确性,同时将结果与纯语音信号的语音识别系统性能进行比较。
2.根据权利要求1所述的方法,其特征在于,所述步骤一中预处理训练数据是采用对文本进行人工标注,获得标注文件;具体步骤:首先是听取语音数据,对其中显而易见的误读等人为造成的与语音文本不符的错误修改,使用GoldWave对其进行静音操作,即将其变为沉默时间,这个过程应保证语音时间长度不变,以便与视频相对应;然后进行对语音数据进行音素级别的标注,这个过程使用的是p2fa标注工具,通过文本与语音文件相对应生成音素标注文件;经过工具生成的标注文件需要在进行人工修正,以提升标注的准确性。
3.根据权利要求1所述的方法,其特征在于,所述步骤一中数据指的是F1、F5、M1、M3的语音数据,每个人包含92个语音数据文件,这些语音数据有对应的文本,4个被测试人员均按照文本朗读,训练数据与测试数据比例为9:1,即从中选取83个作为训练数据,其余9个作为测试数据。
4.根据权利要求1所述的方法,其特征在于,所述步骤二中提取语音信号特征参数是将语音信号转换到梅尔频率倒谱域上,提取梅尔频率倒谱系数MFCC参数作为语音信号特征参数,具体步骤包括:首先对信号进行预加重操作,增强信号,之后对信号进行分帧、加窗、快速傅里叶变换FFT将语音信号从时域转换到频域,便于分析信号,接下来将信号通过Mel滤波器组,将信号从频域转到倒谱域上,最后对倒谱域上的信号进行对数运算及离散余弦变换DCT获得MFCC参数,对MFCC参数取一阶、二阶差分,再加上语音信号的帧能量,即为特征参数。
5.根据权利要求1所述的方法,其特征在于,所述步骤三选择磁共振图像视频主要特征区域采用主成分分析的方法提取出特征区域的图像特征参数;磁共振图像参数属于高维空间参数,图像特征参数提取的具体步骤包括:离散余弦变换DCT、降维、插值、归一化、加窗分帧以及再次降维处理。
6.根据权利要求1所述的方法,其特征在于,所述步骤五融合特征参数维数选择66至87维。
7.根据权利要求1所述的方法,其特征在于,所述步骤五语音识别模型训练是采用隐马尔科夫模型训练,进行多次迭代训练,直至模型趋于平稳,获得语音识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611243868.XA CN106782503A (zh) | 2016-12-29 | 2016-12-29 | 基于发音过程中生理信息的自动语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611243868.XA CN106782503A (zh) | 2016-12-29 | 2016-12-29 | 基于发音过程中生理信息的自动语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106782503A true CN106782503A (zh) | 2017-05-31 |
Family
ID=58927408
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611243868.XA Pending CN106782503A (zh) | 2016-12-29 | 2016-12-29 | 基于发音过程中生理信息的自动语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106782503A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108369813A (zh) * | 2017-07-31 | 2018-08-03 | 深圳和而泰智能家居科技有限公司 | 特定声音识别方法、设备和存储介质 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其系统 |
CN110767228A (zh) * | 2018-07-25 | 2020-02-07 | 杭州海康威视数字技术股份有限公司 | 一种声音获取方法、装置、设备及系统 |
CN111161368A (zh) * | 2019-12-13 | 2020-05-15 | 天津大学 | 通过输入语音实时合成人体发声器官运动图像的方法 |
CN112786052A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音识别方法、电子设备和存储装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122675A1 (en) * | 2002-12-19 | 2004-06-24 | Nefian Ara Victor | Visual feature extraction procedure useful for audiovisual continuous speech recognition |
JP2005134496A (ja) * | 2003-10-29 | 2005-05-26 | Advanced Telecommunication Research Institute International | 音声認識で使用するための隠れマルコフモデルを準備する方法 |
JP2006243215A (ja) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム |
CN101488346A (zh) * | 2009-02-24 | 2009-07-22 | 深圳先进技术研究院 | 语音可视化系统及语音可视化方法 |
CN102750549A (zh) * | 2012-06-12 | 2012-10-24 | 天津大学 | 基于核磁共振图像的舌头轮廓自动提取方法 |
CN104036775A (zh) * | 2014-04-09 | 2014-09-10 | 天津思博科科技发展有限公司 | 一种视听融合的语音识别系统 |
-
2016
- 2016-12-29 CN CN201611243868.XA patent/CN106782503A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040122675A1 (en) * | 2002-12-19 | 2004-06-24 | Nefian Ara Victor | Visual feature extraction procedure useful for audiovisual continuous speech recognition |
JP2005134496A (ja) * | 2003-10-29 | 2005-05-26 | Advanced Telecommunication Research Institute International | 音声認識で使用するための隠れマルコフモデルを準備する方法 |
JP2006243215A (ja) * | 2005-03-02 | 2006-09-14 | Advanced Telecommunication Research Institute International | 調音パラメータ補間用データ生成装置、音声合成装置、及びコンピュータプログラム |
CN101488346A (zh) * | 2009-02-24 | 2009-07-22 | 深圳先进技术研究院 | 语音可视化系统及语音可视化方法 |
CN102750549A (zh) * | 2012-06-12 | 2012-10-24 | 天津大学 | 基于核磁共振图像的舌头轮廓自动提取方法 |
CN104036775A (zh) * | 2014-04-09 | 2014-09-10 | 天津思博科科技发展有限公司 | 一种视听融合的语音识别系统 |
Non-Patent Citations (2)
Title |
---|
ETIENNE MARCHERET 等: "Efficient Likelihood Computation in Multi-Stream HMM based Audio-Visual Speech Recognition", 《INTERSPEECH 2004 -- ICSLP》 * |
路文焕 等: "用于无声语音接口的超声图像的混合特征提取", 《第十三届全国人机语音通讯学术会议论文集》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108369813A (zh) * | 2017-07-31 | 2018-08-03 | 深圳和而泰智能家居科技有限公司 | 特定声音识别方法、设备和存储介质 |
CN110767228A (zh) * | 2018-07-25 | 2020-02-07 | 杭州海康威视数字技术股份有限公司 | 一种声音获取方法、装置、设备及系统 |
CN110111783A (zh) * | 2019-04-10 | 2019-08-09 | 天津大学 | 一种基于深度神经网络的多模态语音识别方法 |
CN110556093A (zh) * | 2019-09-17 | 2019-12-10 | 浙江核新同花顺网络信息股份有限公司 | 一种语音标注方法及其系统 |
CN111161368A (zh) * | 2019-12-13 | 2020-05-15 | 天津大学 | 通过输入语音实时合成人体发声器官运动图像的方法 |
CN112786052A (zh) * | 2020-12-30 | 2021-05-11 | 科大讯飞股份有限公司 | 语音识别方法、电子设备和存储装置 |
CN112786052B (zh) * | 2020-12-30 | 2024-05-31 | 科大讯飞股份有限公司 | 语音识别方法、电子设备和存储装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN106782503A (zh) | 基于发音过程中生理信息的自动语音识别方法 | |
CN106057206B (zh) | 声纹模型训练方法、声纹识别方法及装置 | |
CN109741732B (zh) | 命名实体识别方法、命名实体识别装置、设备及介质 | |
CN105374356B (zh) | 语音识别方法、语音评分方法、语音识别系统及语音评分系统 | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
CN108986824B (zh) | 一种回放语音检测方法 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
Hansen et al. | Automatic voice onset time detection for unvoiced stops (/p/,/t/,/k/) with application to accent classification | |
US20170154640A1 (en) | Method and electronic device for voice recognition based on dynamic voice model selection | |
CN111243602A (zh) | 基于性别、国籍和情感信息的声纹识别方法 | |
Shaw et al. | Emotion recognition and classification in speech using artificial neural networks | |
CN110931022B (zh) | 基于高低频动静特征的声纹识别方法 | |
CN105023573A (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN102411932B (zh) | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 | |
CN109036437A (zh) | 口音识别方法、装置、计算机装置及计算机可读存储介质 | |
CN101751919A (zh) | 一种汉语口语重音自动检测方法 | |
CN109377981A (zh) | 音素对齐的方法及装置 | |
CN111933113B (zh) | 一种语音识别的方法、装置、设备及介质 | |
CN111402892A (zh) | 一种基于语音识别的会议记录模板生成方法 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Charisma et al. | Speaker recognition using mel-frequency cepstrum coefficients and sum square error | |
CN111489763A (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN112347788A (zh) | 语料处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170531 |