CN112216272A - 一种针对民航陆空通话领域的语种识别方法 - Google Patents
一种针对民航陆空通话领域的语种识别方法 Download PDFInfo
- Publication number
- CN112216272A CN112216272A CN201910571386.4A CN201910571386A CN112216272A CN 112216272 A CN112216272 A CN 112216272A CN 201910571386 A CN201910571386 A CN 201910571386A CN 112216272 A CN112216272 A CN 112216272A
- Authority
- CN
- China
- Prior art keywords
- language identification
- land
- civil aviation
- voice
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000006854 communication Effects 0.000 title claims abstract description 53
- 238000004891 communication Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 32
- 238000013528 artificial neural network Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 9
- 239000012634 fragment Substances 0.000 claims description 7
- 238000009432 framing Methods 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 4
- 238000011161 development Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种针对民航陆空通话领域的语种识别方法。方法包括:获取民航陆空通话领域语音,对语音信号进行预处理,作为数据集;对所述数据集进行特征提取,得到特征向量;根据所述特征向量采用深度神经网络训练,得到语种识别模型;运用所述语种识别模型,实现对民航陆空通话领域的语种识别。民航陆空通话领域语音语速快,语音时间短,语音的现有特征表达不足,成为语种识别的一个难点,而深度神经网络对特征有较好的再表达效果,能够自动获取特征并进行分析,将深度神经网络运用到本发明上,能够辅助管制员进行陆空对话分析,识别对话语种,突破语种交流的障碍。
Description
技术领域
本发明涉及智能通话领域,特别是涉及一种针对民航陆空通话领域的语种识别方法。
背景技术
由于航空运输、通用航空和军事交通的迅速发展,使得空中交通管制(AirTraffic Control,ATC)系统的运行繁忙,空中交通管制中使用不同种语言的人们在交流的过程中,语言是最大的局限和障碍,管制员迫切希望突破语种的障碍进行交流。
民航陆空通话作为飞行员与管制员之间的一种重要的通信方式,其正确性是保障航空器安全、高效运行的关键,也是关系民航事业发展的重点。为了减少陆空通话失误的发生,国际民航组织不断地对陆空通话用语规范进行改进,但是飞行员和管制员之间通话仍然存在着语种的差异,进而导致陆空通话失误,导致飞行事故不断发生,这对民航安全提出了严峻的考验。
随着现代文明与科技的快速发展,人类对语言的认识更加深入,从语音发音的原理、声道信息以及语音的频谱等都有了较深入的理解。特别的,随着计算机网络和人工智能的飞速发展,人们对于计算机能提取出深层语言信息并“听懂”不同语言的愿望更加强烈。民航陆空通话依赖于管制员主观性的决策,这对管制员的可靠性要求极高,如果能通过机器来辅助管制员实现民航陆空通话语种识别,进而实现语音的高效性识别,将能有效提高ATC系统的性能和可靠性,这对减少陆空安全事故具有重大和迫切的现实意义。
近些年,语种识别技术已日益成熟,使得实现以上构想成为可能,因此,如何提供一种针对民航陆空通话领域的语种识别方法,成为本领域亟需解决的技术问题。
发明内容
本发明的目的是提供一种针对民航陆空通话领域的语种识别方法,识别对话语种。
为实现上述目的,本发明提供了如下方案:
一种针对民航陆空通话领域的语种识别方法,所述识别方法包括:
获取民航陆空通话领域语音,对语音信号进行预处理,作为训练数据集;
对所述训练数据集进行特征提取,得到特征向量;
根据所述特征向量采用深度神经网络训练,得到语种识别模型;
运用所述语种识别模型,实现对民航陆空通话领域的语种识别。
可选的,所述获取民航陆空通话领域语音,对语音信号进行预处理,作为训练数据集,具体包括:
获取一段语音,切除首尾端的静音得到语音片段;
对所述语音片段,进行预加重处理;
对所述语音片段,进行分帧处理,得到语音段;
对所述语音段,进行加窗处理,作为训练数据集。
可选的,对所述训练数据集进行特征提取,得到特征向量,具体包括:
将所述训练数据集进行特征提取,选用梅尔倒谱频率特征;
根据所述特征,进行特征域补偿和归一化,得到处理后的特征;
根据处理后的特征,将多个特征进行融合,得到特征向量。
可选的,根据所述特征向量采用深度神经网络训练,得到语种识别模型,具体包括:
对所述特征向量,逐层训练受限玻尔兹曼机,得到高阶特征;
根据高阶特征,使用逻辑回归模型,得到模型的实际输出;
根据模型的实际输出,得到与样本标签的误差;
根据样本标签的误差,结合误差逆传播算法对模型的参数进行微调,得到语种识别模型。
可选的,运用所述语种识别模型,实现对民航陆空通话领域的语种识别,具体包括:
对所述输入语音进行特征提取,得到特征向量;
根据所述特征向量,使用语种识别模型,得到语种识别。
为实现上述目的,本发明提供了如下方案:
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种针对民航陆空通话领域的语种识别方法。方法包括:获取民航陆空通话领域语音,对语音信号进行预处理,作为训练数据集;对所述训练数据集进行特征提取,得到特征向量;根据所述特征向量采用深度神经网络训练,得到语种识别模型;运用所述语种识别模型,实现对民航陆空通话领域的语种识别。民航陆空通话领域语音语速快,语音时间短,语音的现有特征表达不足,成为语种识别的一个难点,而深度神经网络对特征有较好的再表达效果,能够自动获取特征并进行分析,将深度神经网络运用到本发明上,能够辅助管制员进行陆空对话分析,识别对话语种,突破语种交流的障碍。
附图说明
为了更清楚地说明本发明现有技术中的技术方案,下面将对技术方案所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些技术方案,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例针对民航陆空通话领域的语种识别方法流程图;
图2为本发明实施例针对民航陆空通话领域的语种识别方法流程模块图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例针对民航陆空通话领域的语种识别方法流程图。如图1所示,一种针对民航陆空通话领域的语种识别方法,所述识别方法包括:
步骤101:获取民航陆空通话领域语音,对语音信号进行预处理,作为训练数据集,具体包括:
获取一段语音,切除首尾端的静音得到语音片段;对所述语音片段,进行预加重处理;对所述语音片段,进行分帧处理,得到语音段;对所述语音段,进行加窗处理,作为训练数据集。
步骤102:对所述训练数据集进行特征提取,得到特征向量,具体包括:
将所述训练数据集进行特征提取,选用梅尔倒谱频率特征;根据所述特征,进行特征域补偿和归一化,得到处理后的特征;根据所述特征,将多个特征进行融合,得到特征向量。
步骤103:根据所述特征向量采用深度神经网络训练,得到语种识别模型,具体包括:
对所述特征向量,逐层训练受限玻尔兹曼机,得到高阶特征;根据高阶特征,使用逻辑回归模型,得到模型的实际输出;根据模型的实际输出,得到与样本标签的误差;根据样本标签的误差,结合误差逆传播算法对模型的参数进行微调,得到语种识别模型。
步骤104:根据所述语种识别模型,得到民航陆空通话领域的语种识别方法,具体包括:
对所述输入语音进行特征提取,得到特征向量;根据所述特征向量,使用语种识别模型,得到语种识别。
图2为本发明实施例针对民航陆空通话领域的语种识别方法流程模块图。如图2所示,一种针对民航陆空通话领域的语种识别方法,所述识别方法包括:
步骤201:对所述语音片段,进行预加重处理;对所述语音片段,进行分帧处理,得到语音段;对所述语音段,进行加窗处理,作为训练数据集。
步骤202:将所述训练数据集进行特征提取,选用梅尔倒谱频率特征;根据所述特征,进行特征域补偿和归一化,得到处理后的特征;根据处理后的特征,将多个特征进行融合,得到特征向量;根据特征向量,逐层训练受限玻尔兹曼机,得到高阶特征。
步骤203:对所述高阶特征,使用逻辑回归模型,得到模型的实际输出;根据模型的实际输出,得到与样本标签的误差;根据样本标签的误差,结合误差逆传播算法对模型的参数进行微调,得到语种识别模型。
本发明提供一种针对民航陆空通话领域的语种自动识别方法包括:获取民航陆空通话领域语音,对语音信号进行预处理,作为训练数据集;对所述训练数据集进行特征提取,得到特征向量;根据所述特征向量采用深度神经网络训练,得到语种识别模型;运用所述语种识别模型,实现对民航陆空通话领域的语种识别。民航陆空通话领域语音语速快,语音时间短,语音的现有特征表达不足,成为语种识别的一个难点,而深度神经网络对特征有较好的再表达效果,能够自动获取特征并进行分析,将深度神经网络运用到本发明上,能够辅助管制员进行陆空对话分析,识别对话语种,突破语种交流的障碍。
特征提取是语种识别方法中重要的部分之一,需要在语音信号中获得能够代表语种信息的特征表达。从语音信号中获取的特征参数要能够准确、完整的表达语音信号里面所携带的全部信息。然而,语音信号是复杂的非平稳的随机信号,其中不仅包含有语义信息,还有个人特征信息,如声道、情感等因素。需要在前端特征参数的处理过程中,增加增强鲁棒性的预处理方法,尽可能去除掉干扰因素,提高语种的识别性能。先对语音数据进行预处理,包括预加重、分帧、加窗,之后在提取特征,最后对提取出的原始特征进行特征域补偿和归一化,提高特征的鲁棒性。
特征提取的过程中提取的是梅尔倒谱频率特征(简称MFCC,Mel FrequencyCepstral Coefficient),MFCC是基于人耳机理特性提取出来的声学特征。MFCC是从Mel频域提取出来的倒谱特征,具有较好的识别能力和噪声鲁棒性。具体方法如下:
1)预处理:预加重提升高频信号、分帧和加窗等处理,得到时域信号X(n);
2)用快速傅里叶变换(Fast Fourier Transform,FFT)将时域信号X(n)转换为频域信号 X(m),并计算得到能量谱E(f);
3)将信号的频率转换为Mel域上的频率Mel(f),从而得到梅尔域能量谱P(fmel);
4)将P(fmel)通过一组三角滤波器Hi(m),三角滤波器组的加权系数为:
其中,f(i)是三角带通滤波器的中心频率:
Mel(f[i+1])-Mel(f[i])=Mel(f[i])-Mel(f[i-1])
由此得到每个滤波器组的对数能量输出:
其中M是滤波器组个数,ψ(i)表示第i个滤波器的输出,这里取对数是为了之后的信道卷积将乘积信号变为加性信号提供方便;
5)对ψ(i)做离散余弦变换(DCT,Discrete Cosine Transform)得到MFCC系数:
其中,P是MFCC参数的级数。
语种识别模型是语种识别方法中最为重要的部分之一,语种识别模型中最重要的部分是深度神经网络,深度神经网络是以受限玻尔兹曼机(简称RBM,Restric BoltzmanMachine)为基础网络结构逐层堆叠而成的,最底层的RBM的输入即为原始的语音数据的特征向量,其隐含层的输出作为下一层RBM的输入,下一层RBM隐含层的输出继续作为下一层RBM的输入,以此类推,直到到达最顶层的RBM,在最顶层的RBM的隐含层输出的后端加入逻辑回归作为语种识别分类结果的输出层,相比于单独的RBM对数据的建模更加精确,在语种识别研宄中得到了较好的应用。
语种识别模型训练的具体过程如下:
1)随机初始化RBM网络权值;
2)将输入语音数据的特征向量作为最底层的RBM的输入,用对比散度算法(简称CD, Contrastive Divergence)算法对该层RBM进行无监督学习;
3)固定已经训练好的RBM的参数,并将该层的隐含节点概率分布进行抽样得到隐含层节点状态样本,将该状态样本作为下一层RBM的输入,使用CD算法继续训练直到收敛;
4)重复步骤3,直到神经网络中的所有RBM都收敛;
5)在最顶层RBM之后添加逻辑回归模型,用样本的标签与模型实际的输出的误差结合BP 算法对模型的参数进行微调。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (5)
1.一种针对民航陆空通话领域的语种识别方法,其特征在于,所述语种识别方法包括:
获取民航陆空通话领域语音,对语音信号进行预处理,作为训练数据集;
对所述训练数据集进行特征提取,得到特征向量;
根据所述特征向量采用深度神经网络训练,得到语种识别模型;
运用所述语种识别模型,实现对民航陆空通话领域的语种识别。
2.根据权利要求1所述的针对民航陆空通话领域的语种识别方法,其特征在于,获取陆空通话领域语音,对语音信号进行预处理,作为训练数据集,具体包括:
获取一段语音,切除首尾端的静音得到语音片段;
对所述语音片段,进行预加重处理;
对所述语音片段,进行分帧处理,得到语音段;
对所述语音段,进行加窗处理,作为训练数据集。
3.根据权利要求1所述的针对民航陆空通话领域的语种识别方法,其特征在于,对所述训练数据集进行特征提取,得到特征向量,具体包括:
将所述训练数据集进行特征提取,选用梅尔倒谱频率特征;
根据所述特征,进行特征域补偿和归一化,得到处理后的特征;
根据处理后的特征,将多个特征进行融合,得到特征向量。
4.根据权利要求1所述的针对民航陆空通话领域的语种识别方法,其特征在于,所述特征向量采用深度神经网络训练,得到语种识别模型,具体包括:
对所述特征向量,逐层训练受限玻尔兹曼机,得到高阶特征;
根据高阶特征,使用逻辑回归模型,得到模型的实际输出;
根据模型的实际输出,得到与样本标签的误差;
根据样本标签的误差,结合误差逆传播算法对模型的参数进行微调,得到语种识别模型。
5.根据权利要求1所述的针对民航陆空通话领域的语种识别方法,其特征在于,运用所述语种识别模型,实现民航陆空通话领域的语种识别,具体包括:
对所述输入语音进行特征提取,得到特征向量;
根据所述特征向量,使用语种识别模型,得到语种识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910571386.4A CN112216272A (zh) | 2019-06-25 | 2019-06-25 | 一种针对民航陆空通话领域的语种识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910571386.4A CN112216272A (zh) | 2019-06-25 | 2019-06-25 | 一种针对民航陆空通话领域的语种识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112216272A true CN112216272A (zh) | 2021-01-12 |
Family
ID=74047019
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910571386.4A Pending CN112216272A (zh) | 2019-06-25 | 2019-06-25 | 一种针对民航陆空通话领域的语种识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112216272A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359784A (zh) * | 2022-10-21 | 2022-11-18 | 成都爱维译科技有限公司 | 基于迁移学习的民航陆空语音识别模型训练方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130262096A1 (en) * | 2011-09-23 | 2013-10-03 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
CN106328123A (zh) * | 2016-08-25 | 2017-01-11 | 苏州大学 | 小数据库条件下正常语音流中耳语音的识别方法 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
CN108986791A (zh) * | 2018-08-10 | 2018-12-11 | 南京航空航天大学 | 针对民航陆空通话领域的中英文语种语音识别方法及系统 |
CN109119072A (zh) * | 2018-09-28 | 2019-01-01 | 中国民航大学 | 基于dnn-hmm的民航陆空通话声学模型构建方法 |
-
2019
- 2019-06-25 CN CN201910571386.4A patent/CN112216272A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130262096A1 (en) * | 2011-09-23 | 2013-10-03 | Lessac Technologies, Inc. | Methods for aligning expressive speech utterances with text and systems therefor |
CN106328123A (zh) * | 2016-08-25 | 2017-01-11 | 苏州大学 | 小数据库条件下正常语音流中耳语音的识别方法 |
CN107146601A (zh) * | 2017-04-07 | 2017-09-08 | 南京邮电大学 | 一种用于说话人识别系统的后端i‑vector增强方法 |
CN108986791A (zh) * | 2018-08-10 | 2018-12-11 | 南京航空航天大学 | 针对民航陆空通话领域的中英文语种语音识别方法及系统 |
CN109119072A (zh) * | 2018-09-28 | 2019-01-01 | 中国民航大学 | 基于dnn-hmm的民航陆空通话声学模型构建方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115359784A (zh) * | 2022-10-21 | 2022-11-18 | 成都爱维译科技有限公司 | 基于迁移学习的民航陆空语音识别模型训练方法及系统 |
CN115359784B (zh) * | 2022-10-21 | 2023-01-17 | 成都爱维译科技有限公司 | 基于迁移学习的民航陆空语音识别模型训练方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Basu et al. | A review on emotion recognition using speech | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN109119072A (zh) | 基于dnn-hmm的民航陆空通话声学模型构建方法 | |
CN110827801A (zh) | 一种基于人工智能的自动语音识别方法及系统 | |
CN103065629A (zh) | 一种仿人机器人的语音识别系统 | |
CN111276125A (zh) | 一种面向边缘计算的轻量级语音关键词识别方法 | |
CN111951796B (zh) | 语音识别方法及装置、电子设备、存储介质 | |
Yücesoy et al. | Gender identification of a speaker using MFCC and GMM | |
Chenchah et al. | Speech emotion recognition in acted and spontaneous context | |
CN113192535B (zh) | 一种语音关键词检索方法、系统和电子装置 | |
CN111599344A (zh) | 一种基于拼接特征的语种识别方法 | |
CN111883181A (zh) | 音频检测方法、装置、存储介质及电子装置 | |
CN113889090A (zh) | 一种基于多任务学习的多语种识别模型的构建和训练方法 | |
Gamit et al. | Isolated words recognition using mfcc lpc and neural network | |
CN115101076B (zh) | 一种基于多尺度通道分离卷积特征提取的说话人聚类方法 | |
CN112562725A (zh) | 基于语谱图和胶囊网络的混合语音情感分类方法 | |
Pao et al. | Combining acoustic features for improved emotion recognition in mandarin speech | |
Hassan et al. | Pattern classification in recognizing Qalqalah Kubra pronuncation using multilayer perceptrons | |
CN108806725A (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Sekkate et al. | Speaker identification for OFDM-based aeronautical communication system | |
Guo et al. | Speaker Verification Using Short Utterances with DNN-Based Estimation of Subglottal Acoustic Features. | |
CN112216272A (zh) | 一种针对民航陆空通话领域的语种识别方法 | |
Chavan et al. | Speech recognition in noisy environment, issues and challenges: A review | |
Komlen et al. | Text independent speaker recognition using LBG vector quantization | |
Hidayat | Frequency domain analysis of MFCC feature extraction in children’s speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210112 |
|
WD01 | Invention patent application deemed withdrawn after publication |