CN108986791B - 针对民航陆空通话领域的中英文语种语音识别方法及系统 - Google Patents
针对民航陆空通话领域的中英文语种语音识别方法及系统 Download PDFInfo
- Publication number
- CN108986791B CN108986791B CN201810905662.1A CN201810905662A CN108986791B CN 108986791 B CN108986791 B CN 108986791B CN 201810905662 A CN201810905662 A CN 201810905662A CN 108986791 B CN108986791 B CN 108986791B
- Authority
- CN
- China
- Prior art keywords
- chinese
- model
- voice
- language
- english
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004891 communication Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 88
- 239000013598 vector Substances 0.000 claims abstract description 81
- 238000006243 chemical reaction Methods 0.000 claims description 20
- 238000000605 extraction Methods 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 13
- 230000006978 adaptation Effects 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000013480 data collection Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 4
- 230000009466 transformation Effects 0.000 description 5
- 238000007476 Maximum Likelihood Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
Abstract
本发明公开一种针对民航陆空通话领域的中英文语种语音识别方法及系统。方法包括:获取民航陆空通话语音的数据集,包括音频文件、标注文本、发音词典、语言模型,作为训练数据集;对所述训练数据集进行特征提取,并对所述数据转换得到特征向量;根据所述特征向量进行语种识别训练,得到中英文语种识别模型;根据所述特征向量进行语音识别训练,得到中英文语音识别模型;将所述语种识别模型作为前端、所述语音识别模型作为后端得到民航空中交通管制中英文语种语音识别方法。采用本发明的方法或者系统能够辅助管制员进行陆空对话分析,保证语音识别的精确度,提高民航陆空通话的准确性。
Description
技术领域
本发明涉及智能通话领域,特别是涉及一种针对民航陆空通话领域的中英文语种语音识别方法及系统。
背景技术
由于航空运输、通用航空和军事交通的迅速发展,使得空中交通管制(AirTraffic Control,ATC)系统的运行繁忙,空中交通管制的工作强度大、工作时间长,从而导致管制员工作疲劳、精神不振,容易在通话中发出不当甚至错误的指令。
世界范围内的许多空难事故都是由于陆空通话失误而产生的。在1977年,在特纳利夫(Tenerife)岛上发生了民航历史中最为严重的空难,造成了583名乘客全部死亡。而这次空难是由于飞行员与管制员通话时使用了不当的飞行指令所导致的。
民航陆空通话作为飞行员与管制员之间的一种重要的通信方式,其正确性是保障航空器安全、高效运行的关键。也是关系民航事业发展的重点。为了减少陆空通话失误的发生,国际民航组织不断地对陆空通话用语规范进行改进,但是由于陆空通话失误导致的飞行事故仍然不断发生,这对民航安全提出了严峻的考验。
民航陆空通话依赖于管制员主观性的决策,是高强度的脑力劳动,这对管制员的可靠性要求极高,如果能通过机器来辅助管制员甚至替代管制员进行陆空通话,将能有效提高ATC系统的性能和可靠性,这对减少陆空安全事故具有重大和迫切的现实意义。
近些年,语音识别技术已日益成熟,使得实现以上构想成为可能,因此,因此,如何提供一种针对民航陆空通话领域的中英文语种语音识别方法及系统,成为本领域亟需解决的技术问题。
发明内容
本发明的目的是提供一种针对民航陆空通话领域的中英文语种语音识别方法及系统,提高民航陆空通话的准确性。
为实现上述目的,本发明提供了如下方案:
一种针对民航陆空通话领域的中英文语种语音识别方法,所述识别方法包括:
获取民航陆空通话语音的数据集,包括音频文件、标注文本、发音词典、语言模型,作为训练数据集;
对所述训练数据集进行特征提取,并对所数据转换得到特征向量;
根据所述特征向量进行中英文语种识别训练,得到中英文语种识别模型;
根据所述特征向量进行语音识别训练,得到中英文语音识别模型;
将所述中英文语种识别模型作为前端、所述中英文语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法。
可选的,对所述训练数据集进行特征提取,并对所数据转换转换得到特征向量,具体包括:
找到一段语音端点,去除掉语音前部无声或噪音片段,仅保留包含有人说话的片段;
若所述语音过长,则以较短时间间隔切分所述语音,得到语音段;
对所述语音段进行特征提取,选用梅尔倒谱频率特征,得到特征向量;
对所述特征向量进行针对民航陆空对话特点的适应转换,所述转换包括噪音削减、音速扰动,得到处理后的特征向量。
可选的,所述根据所述特征向量进行语种识别训练,得到语种识别模型,具体包括:
将所述训练集中所有的特征向量使用最大期望算法得到一个通用背景模型;
根据所述通用背景模型训练得到一个声学特征提取器;
根据所述声学特征提取器对每个语音段进行声学特征抽取,得到每段语音对应的包含语种信息和信道信息的特征向量;
根据所述特征向量训练声纹,得到声纹识别模型;
根据所述声纹识别模型,加上得分计算步骤和判别阈值,得到中英文语种识别模型。
可选的,所述根据所述特征向量进行语音识别训练,得到中英文语音识别模型,具体包括:
对所述中英文特征向量根据其上下文关系进行三音素建模,得到三音素模型;
对所述三音素模型进行说话人自适应,得到说话人适应后的三音素模型;
根据所述说话人适应后的三音素模型加上语言模型构建解码图,得到语音识别模型。
可选的,所述将所述中英文语种识别模型作为前端、所述语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法,具体包括:
根据所述中英文语种识别模型对输入语音进行识别,得到语种类型;
根据所述中英文语音识别模型对输入语音进行识别,得到解码文本;
根据所述语种类型和所述解码文本识别出输入语音,得到识别文本。
为实现上述目的,本发明提供了如下方案:
一种针对民航陆空通话领域的中英文语种语音识别系统,所述识别系统包括:
数据收集模块,用于获取民航陆空通话语音的数据集,包括音频文件、标注文本、发音词典、语言模型,作为训练数据集;
特征提取模块,用于对所述训练数据集进行特征提取,并对特征做适应转换得到特征向量;
中英文语种识别训练模块,用于根据所述特征向量进行中英文语种识别训练,得到语种识别模型;
中英文语音识别训练模块,用于根据所述特征向量进行语音识别训练,得到中英文语音识别模型;
语种语音识别模块,用于将所述中英文语种识别模型作为前端、所述中英文语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法。
可选的,所述特征提取模块,具体包括:
去噪单元,用于找到一段语音端点,去除掉语音前部无声或噪音片段,仅保留有人说话的片段;
切分语音单元,若所述语音过长,用于以较短时间间隔切分所述语音,得到语音段;
特征提取单元,用于对所述语音段进行特征提取,选用梅尔倒谱频率特征,得到特征向量;
转换单元,用于对所述特征向量进行针对民航陆空对话特点的适应转换,所述转换包括噪音削减、音速扰动,得到处理后的特征向量。
可选的,所述语种识别训练模块,具体包括:
背景模型建立单元,用于将所述训练集中所有的特征向量使用最大期望算法得到一个通用背景模型;
特征提取器训练单元,用于根据所述通用背景模型训练得到一个声学特征提取器;
特征抽取单元,用于根据所述声学特征提取器对每个语音段进行声学特征抽取,得到每段语音对应的包含语种信息和信道信息的特征向量;
声纹训练单元,用于根据所述特征向量训练声纹,得到声纹识别模型;
语种识别模型建立单元,用于根据所述声纹识别模型,加上得分计算步骤和判别阈值,得到中英文语种识别模型。
可选的,所述中英文语音识别训练模块,具体包括:
三音素建模单元,用于对所述特征向量根据其上下文关系进行三音素建模,得到三音素模型;
自适应单元,用于对所述三音素模型进行说话人自适应,得到说话人适应后的三音素模型;
解码单元,用于根据所述说话人适应后的三音素模型加上语言模型构建解码图,得到中英文语音识别模型。
可选的,所述语种语音识别模块,具体包括:
语种类型识别单元,用于根据所述中英文语种识别模型对输入语音进行识别,得到语种类型;
解码文本获取单元,用于根据所述中英文语音识别模型对输入语音进行识别,得到解码文本;
识别文本获取单元,用于根据所述语种类型和所述解码文本识别出输入语音,得到识别文本。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种针对民航陆空通话领域的中英文语种语音识别方法。包括:获取民航陆空通话语音的数据集,包括音频文件、标注文本、发音词典、语言模型,作为训练数据集;对所述训练数据集进行特征提取,并对所述特征做适应转换得到特征向量;根据所述特征向量进行语种识别训练,得到民航陆空通话中英文语种识别模型;根据所述特征向量进行语音识别训练,得到语音识别模型;将所述语种识别模型作为前端、所述语音识别模型作为后端得到民航空中交通管制多语种语音识别方法。本发明中的语音识别方法能够辅助管制员进行陆空对话分析,保证了语音识别的精确度,提高了民航陆空通话的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例针对民航陆空通话领域的中英文语种语音识别方法流程图;
图2为本发明实施例针对民航陆空通话领域的中英文语种语音识别系统结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明实施例针对民航陆空通话领域的中英文语种语音识别方法流程图。如图1所示,一种针对民航陆空通话领域的中英文语种语音识别方法,所述识别方法包括:
步骤101:获取民航陆空通话语音的数据集,包括音频文件、标注文本、发音词典、语言模型,作为训练数据集;
步骤102:对所述训练数据集进行特征提取,并对所述数据转换得到特征向量,具体包括:
找到一段语音端点,去除掉语音前部无声或噪音片段,仅保留包含语言的片段;若所述语音过长,则以较短时间间隔切分所述语音,得到语音段;对所述语音段进行特征提取,所述特征选用梅尔倒谱频率特征,得到特征向量;对所述特征向量进行针对民航陆空对话特点的适应转换,所述转换包括噪音削减、音速扰动,得到处理后的特征向量。
步骤103:根据所述特征向量进行语种识别训练,得到中英文语种识别模型,具体包括:
将所述训练集中所有的特征向量使用最大期望算法得到通用背景模型;根据所述通用背景模型训练得到声学特征提取器;根据所述声学特征提取器对每个语音段进行声学特征抽取,得到每段语音对应的包含语种信息和信道信息的特征向量;根据所述特征向量训练声纹,得到声纹识别模型;根据所述声纹识别模型,加上得分计算步骤和判别阈值,得到语种识别模型。
步骤104:根据所述特征向量进行语音识别训练,得到中英文语音识别模型;具体包括:
对所述特征向量根据其上下文关系进行三音素建模,得到三音素模型;对所述三音素模型进行说话人自适应,得到说话人适应后的三音素模型;根据所述说话人适应后的三音素模型加上语言模型构建解码图,得到语音识别模型。
步骤105:将所述中英文语种识别模型作为前端、所述中英文语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法,具体包括:
根据所述语种识别模型对输入语音进行识别,得到语种类型;根据所述语音识别模型对输入语音进行识别,得到解码文本;根据所述语种类型和所述解码文本识别出多语种输入语音,得到识别文本。
本发明提供一种针对民航陆空通话领域的中英文语种自动语音识别方法包括:获取民航陆空通话语音的数据集,包括音频文件、标注文本、发音词典、语言模型,作为训练数据集;对所述训练数据集进行特征提取,并对所述特征做适应转换得到特征向量;根据所述特征向量进行语种识别训练,得到语种识别模型;根据所述特征向量进行语音识别训练,得到语音识别模型;将所述语种识别模型作为前端、所述语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法。本发明中的语音识别方法能够辅助管制员进行陆空对话分析,保证了语音识别的精确度,提高了民航陆空通话的准确性。
声学模型是语音识别系统中最为重要的部分之一,目前的主流系统多采用隐马尔科夫模型进行建模。隐马尔可夫模型的是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。
对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的评分、解码和训练相应的算法是前向算法、Viterbi算法和前向后向算法。
语料库具体的准备过程如下:
1)将音频和文本按语句进行切分;
2)将所有音频的格式转换为Windows PCM格式;
3)将任意组织形式的多个音频文件和文本进行规范化,将文本以“说话人标识符文本标注”的形式汇总,将音频以“说话人标识符音频路径”的形式汇总,并组成一个总数据集;
4)汇总文本中出现的字符,并基于CMU和CEDICT的字典构建民航陆空通话的发音字典;
5)使用开源的“字素转音素”模型,自动得到未登录词的音素序列;
6)将总数据集按9:1的比例进行切分,分别为训练数据集和训练数据集;
语言模型训练的具体过程如下:
根据中国民航局发布的《空中交通无线电通话用语标准(MH/T4014-2003)》,从中总结与归纳出民航陆空通话的语法规范,以语法树的抽象表达方式对语法规范进行转述。在此基础之上,将语法树转换为有限状态转换器(Finite State Transducer)的代码表现形式,最后使用编译器将上述代码编译为有限状态转换器的模型文件。
声学模型训练的具体过程如下:
1)随机初始化GMM-HMM声学模型;
2)以语句为单位,使用步骤1中的模型对训练数据集进行子词边界的标注;
3)根据步骤2中的子词边界,将语句中每个词细化为音素后,将每个音素与音频段进行对应;
4)根据步骤3中的对应关系,以音素为单位,使用Baum-Welch算法训练GMM-HMM单音素模型;
5)对每个音素对应的HMM上下文进行扩展,扩展为三音素,重复步骤2~步骤4;
6)对训练集基于最大似然准则,估计一个全局的线性判别分析变换和最大似然线性变换。对所有的特征进行上述变换,并使用变换后的特征与步骤5得到的新子词边界重复步骤2~步骤4;
7)基于最大似然准则,对每个说话人拥有的语句估计基于最大似然线性回归变换,并对每个说话人对应的所有特征进行该变换,并使用变换后的特征与步骤6得到的新子词边界重复步骤2~步骤4;
8)在步骤6得到的新子词边界和特征的基础上,基于序列鉴别性训练准则,进行新一轮的训练;
9)比较步骤4~步骤8的测试结果,选取最优的模型对应的子词边界。
图2为本发明实施例针对民航陆空通话领域的中英文语种语音识别系统结构图。如图2所示,一种针对民航陆空通话领域的中英文语种语音识别系统,所述识别系统包括:
数据收集模块201,用于获取民航陆空通话语音的数据集,包括音频文件、标注文本、发音词典、语言模型,作为训练数据集;
特征提取模块202,用于对所述训练数据集进行特征提取,并对所述特征转换得到特征向量;
中英文语种识别训练模块203,用于根据所述特征向量进行语种识别训练,得到语种识别模型;
中英文语音识别训练模块204,用于根据所述特征向量进行语音识别训练,得到语音识别模型;
语音识别模块205,用于将所述语种识别模型作为前端、所述语音识别模型作为后端得到民航空中交通管制多语种语音识别方法。
所述特征提取模块202,具体包括:
去噪单元,用于找到一段语音端点,去除掉语音前部无声或噪音片段,仅保留包含语言的片段;
切分语音单元,若所述语音过长,用于以较短时间间隔切分所述语音,得到语音段;
特征提取单元,用于对所述语音段进行特征提取,所述特征选用梅尔倒谱频率特征,得到特征向量;
转换单元,用于对所述特征向量进行针对民航陆空对话特点的适应转换,所述转换包括噪音削减、音速扰动,得到处理后的特征向量。
所述语种识别训练模块203,具体包括:
背景模型建立单元,用于将所述训练集中所有的特征向量使用最大期望算法得到一个通用背景模型;
特征提取器训练单元,用于根据所述通用背景模型训练得到一个声学特征提取器;
特征抽取单元,用于根据所述声学特征提取器对每个语音段进行声学特征抽取,得到每段语音对应的包含语种信息和信道信息的特征向量;
声纹训练单元,用于根据所述特征向量训练声纹,得到声纹识别模型;
语种识别模型建立单元,用于根据所述声纹识别模型,加上得分计算步骤和判别阈值,得到语种识别模型。
所述语音识别训练模块204,具体包括:
三音素建模单元,用于对所述特征向量根据其上下文关系进行三音素建模,得到三音素模型;
自适应单元,用于对所述三音素模型进行说话人自适应,得到说话人适应后的三音素模型;
解码单元,用于根据所述说话人适应后的三音素模型加上语言模型构建解码图,得到语音识别模型。
所述语音识别模块205,具体包括:
语种类型识别单元,用于根据所述语种识别模型对输入语音进行识别,得到民航陆空通话中英文语种类型;
解码文本获取单元,用于根据所述语音识别模型对输入语音进行识别,得到解码文本;
识别文本获取单元,用于根据所述语种类型和所述解码文本识别出多语种输入语音,得到识别文本。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种针对民航陆空通话领域的中英文语种语音识别方法,其特征在于,所述语种语音识别方法包括:
获取民航陆空通话语音的数据集,包括音频文件、标注文本、发音词典、语言模型,作为训练数据集;
对所述训练数据集进行特征提取和转换,得到特征向量;
根据所述特征向量进行中英文语种识别训练,得到中英文语种识别模型;
根据所述特征向量进行语音识别训练,得到中英文语音识别模型;
将所述中英文语种识别模型作为前端、所述中英文语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法;
所述根据所述特征向量进行语种识别训练,得到语种识别模型,具体包括:
将所述训练数据集中所有的特征向量使用最大期望算法得到一个通用背景模型;
根据所述通用背景模型训练得到一个声学特征提取器;
根据所述声学特征提取器对每个语音段进行声学特征抽取,得到每段语音对应的包含语种信息和信道信息的特征向量;
根据所述特征向量训练声纹,得到声纹识别模型;
根据所述声纹识别模型,加上得分计算步骤和判别阈值,得到中英文语种识别模型;
所述将所述中英文语种识别模型作为前端、所述语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法,具体包括:
根据所述中英文语种识别模型对输入语音进行识别,得到语种类型;
根据所述中英文语音识别模型对输入语音进行识别,得到解码文本;
根据所述语种类型和所述解码文本识别出输入语音,得到识别文本。
2.根据权利要求1所述的针对民航陆空通话领域的中英文语种语音识别方法,其特征在于,对所述训练数据集进行特征提取和转换,得到特征向量,具体包括:
找到一段语音端点,去除掉语音前部无声或噪音片段,仅保留包含有人说话的片段;
若所述语音过长,则以较短时间间隔切分所述语音,得到语音段;
对所述语音段进行特征提取,选用梅尔倒谱频率特征,得到特征向量;
对所述特征向量进行针对民航陆空对话特点的适应转换,所述转换包括噪音削减、音速扰动,得到处理后的特征向量。
3.根据权利要求1所述的针对民航陆空通话领域的中英文语种语音识别方法,其特征在于,所述根据所述特征向量进行语音识别训练,得到中英文语音识别模型,具体包括:
对所述特征向量根据其上下文关系进行三音素建模,得到三音素模型;
对所述三音素模型进行说话人自适应,得到说话人适应后的三音素模型;
根据所述说话人适应后的三音素模型加上语言模型构建解码图,得到语音识别模型。
4.一种针对民航陆空通话领域的中英文语种语音识别系统,其特征在于,所述语种语音识别系统包括:
数据收集模块,用于获取民航陆空通话语音的数据集,包括音频文件、标注文本、发音词典、语言模型,作为训练数据集;
特征提取模块,用于对所述训练数据集进行特征提取,并对特征做适应转换得到特征向量;
中英文语种识别训练模块,用于根据所述特征向量进行中英文语种识别训练,得到语种识别模型;
中英文语音识别训练模块,用于根据所述特征向量进行语音识别训练,得到中英文语音识别模型;
语种语音识别模块,用于将所述中英文语种识别模型作为前端、所述中英文语音识别模型作为后端得到民航陆空通话中英文语种语音识别方法;
所述语种识别训练模块,具体包括:
背景模型建立单元,用于将所述训练数据集中所有的特征向量使用最大期望算法得到一个通用背景模型;
特征提取器训练单元,用于根据所述通用背景模型训练得到一个声学特征提取器;
特征抽取单元,用于根据所述声学特征提取器对每个语音段进行声学特征抽取,得到每段语音对应的包含语种信息和信道信息的特征向量;
声纹训练单元,用于根据所述特征向量训练声纹,得到声纹识别模型;
语种识别模型建立单元,用于根据所述声纹识别模型,加上得分计算步骤和判别阈值,得到中英文语种识别模型;
所述语种语音识别模块,具体包括:
语种类型识别单元,用于根据所述中英文语种识别模型对输入语音进行识别,得到语种类型;
解码文本获取单元,用于根据所述中英文语音识别模型对输入语音进行识别,得到解码文本;
识别文本获取单元,用于根据所述语种类型和所述解码文本识别出输入语音,得到识别文本。
5.根据权利要求4所述的针对民航陆空通话领域的中英文语种语音识别系统,其特征在于,所述特征提取模块,具体包括:
去噪单元,用于找到一段语音端点,去除掉语音前部无声或噪音片段,仅保留有人说话的片段;
切分语音单元,若所述语音过长,用于以较短时间间隔切分所述语音,得到语音段;
特征提取单元,用于对所述语音段进行特征提取,选用梅尔倒谱频率特征,得到特征向量;
转换单元,用于对所述特征向量进行针对民航陆空对话特点的适应转换,所述转换包括噪音削减、音速扰动,得到处理后的特征向量。
6.根据权利要求4所述的针对民航陆空通话领域的中英文语种语音识别系统,其特征在于,所述中英文语音识别训练模块,具体包括:
三音素建模单元,用于对所述特征向量根据其上下文关系进行三音素建模,得到三音素模型;
自适应单元,用于对所述三音素模型进行说话人自适应,得到说话人适应后的三音素模型;
解码单元,用于根据所述说话人适应后的三音素模型加上语言模型构建解码图,得到中英文语音识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810905662.1A CN108986791B (zh) | 2018-08-10 | 2018-08-10 | 针对民航陆空通话领域的中英文语种语音识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810905662.1A CN108986791B (zh) | 2018-08-10 | 2018-08-10 | 针对民航陆空通话领域的中英文语种语音识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108986791A CN108986791A (zh) | 2018-12-11 |
CN108986791B true CN108986791B (zh) | 2021-01-05 |
Family
ID=64555825
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810905662.1A Active CN108986791B (zh) | 2018-08-10 | 2018-08-10 | 针对民航陆空通话领域的中英文语种语音识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108986791B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111369978B (zh) * | 2018-12-26 | 2024-05-17 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN109616096B (zh) * | 2018-12-29 | 2022-01-04 | 北京如布科技有限公司 | 多语种语音解码图的构建方法、装置、服务器和介质 |
CN109799478A (zh) * | 2019-01-08 | 2019-05-24 | 成都点阵科技有限公司 | 一种基于无线电信号处理的海上船舶定位识别方法 |
CN109840052B (zh) * | 2019-01-31 | 2022-03-18 | 成都超有爱科技有限公司 | 一种音频处理方法、装置、电子设备及存储介质 |
CN110797016B (zh) * | 2019-02-26 | 2020-12-29 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110491382B (zh) * | 2019-03-11 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音识别方法、装置及语音交互设备 |
CN110189746B (zh) * | 2019-03-20 | 2021-06-11 | 成都天奥信息科技有限公司 | 一种应用于地空通信的话音识别方法 |
CN112133292A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的端到端的自动语音识别方法 |
CN112216272A (zh) * | 2019-06-25 | 2021-01-12 | 南京航空航天大学 | 一种针对民航陆空通话领域的语种识别方法 |
CN112133290A (zh) * | 2019-06-25 | 2020-12-25 | 南京航空航天大学 | 一种针对民航陆空通话领域的基于迁移学习的语音识别方法 |
CN110415683A (zh) * | 2019-07-10 | 2019-11-05 | 上海麦图信息科技有限公司 | 一种基于深度学习的空中管制语音指令识别方法 |
CN110675854B (zh) * | 2019-08-22 | 2022-10-28 | 厦门快商通科技股份有限公司 | 一种中英文混合语音识别方法及装置 |
CN111369974B (zh) * | 2020-03-11 | 2024-01-19 | 北京声智科技有限公司 | 一种方言发音标注方法、语言识别方法及相关装置 |
CN111667830B (zh) * | 2020-06-08 | 2022-04-29 | 中国民航大学 | 基于管制员指令语义识别的机场管制决策支持系统及方法 |
CN112420024B (zh) * | 2020-10-23 | 2022-09-09 | 四川大学 | 一种全端到端的中英文混合空管语音识别方法及装置 |
CN112599121B (zh) * | 2020-12-03 | 2023-06-20 | 天津大学 | 基于辅助数据正则化的说话人自适应方法 |
FR3123326A1 (fr) * | 2021-05-25 | 2022-12-02 | Thales | Dispositif électronique de commande d’un système avionique pour la mise en œuvre d’une fonction critique avionique, procédé et programme d’ordinateur associés |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7209880B1 (en) * | 2001-03-20 | 2007-04-24 | At&T Corp. | Systems and methods for dynamic re-configurable speech recognition |
CN1302456C (zh) * | 2005-04-01 | 2007-02-28 | 郑方 | 一种声纹识别方法 |
US8260615B1 (en) * | 2011-04-25 | 2012-09-04 | Google Inc. | Cross-lingual initialization of language models |
CN103065631B (zh) * | 2013-01-24 | 2015-07-29 | 华为终端有限公司 | 一种语音识别的方法、装置 |
US10255903B2 (en) * | 2014-05-28 | 2019-04-09 | Interactive Intelligence Group, Inc. | Method for forming the excitation signal for a glottal pulse model based parametric speech synthesis system |
CN108281137A (zh) * | 2017-01-03 | 2018-07-13 | 中国科学院声学研究所 | 一种全音素框架下的通用语音唤醒识别方法及系统 |
CN107945805B (zh) * | 2017-12-19 | 2018-11-30 | 北京烽火万家科技有限公司 | 一种智能化跨语言语音识别转化方法 |
-
2018
- 2018-08-10 CN CN201810905662.1A patent/CN108986791B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108986791A (zh) | 2018-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108986791B (zh) | 针对民航陆空通话领域的中英文语种语音识别方法及系统 | |
CN109410914B (zh) | 一种赣方言语音和方言点识别方法 | |
CN108305634B (zh) | 解码方法、解码器及存储介质 | |
US9812122B2 (en) | Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium | |
US9721573B2 (en) | Decoding-time prediction of non-verbalized tokens | |
Kumpf et al. | Automatic accent classification of foreign accented Australian English speech | |
KR20040076035A (ko) | 음소 결합정보를 이용한 연속 음성인식방법 및 장치 | |
US9495955B1 (en) | Acoustic model training | |
Hwang et al. | Investigation on Mandarin broadcast news speech recognition. | |
Hieronymus et al. | Spoken language identification using large vocabulary speech recognition | |
JP3776391B2 (ja) | 多言語音声認識方法、装置、プログラム | |
JP3364631B2 (ja) | 統計的言語モデル生成装置及び音声認識装置 | |
Lyu et al. | Language diarization for conversational code-switch speech with pronunciation dictionary adaptation | |
Adell et al. | Database pruning for unsupervised building of text-to-speech voices | |
Al-Anzi et al. | The effect of diacritization on Arabic speech recogntion | |
Obuchi et al. | Language identification using phonetic and prosodic HMMs with feature normalization | |
Kirchhoff et al. | Cross-dialectal acoustic data sharing for Arabic speech recognition | |
Cettolo et al. | Automatic detection of semantic boundaries based on acoustic and lexical knowledge. | |
CN112270923A (zh) | 一种基于神经网络的语义识别系统 | |
JP2938865B1 (ja) | 音声認識装置 | |
JP4163207B2 (ja) | 多言語話者適応方法、装置、プログラム | |
JP2008242059A (ja) | 音声認識辞書作成装置および音声認識装置 | |
Yang et al. | Unsupervised prosodic phrase boundary labeling of Mandarin speech synthesis database using context-dependent HMM | |
JPH08314490A (ja) | ワードスポッティング型音声認識方法と装置 | |
Quang et al. | A novel approach in continuous speech recognition for Vietnamese, an isolating tonal language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |