CN108510976A - 一种多语言混合语音识别方法 - Google Patents
一种多语言混合语音识别方法 Download PDFInfo
- Publication number
- CN108510976A CN108510976A CN201710103972.7A CN201710103972A CN108510976A CN 108510976 A CN108510976 A CN 108510976A CN 201710103972 A CN201710103972 A CN 201710103972A CN 108510976 A CN108510976 A CN 108510976A
- Authority
- CN
- China
- Prior art keywords
- language
- indicating
- voice data
- multilingual
- output label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000000463 material Substances 0.000 claims abstract description 6
- 238000012549 training Methods 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 3
- 230000000306 recurrent effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 206010068052 Mosaicism Diseases 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000000465 moulding Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 210000003765 sex chromosome Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/148—Duration modelling in HMMs, e.g. semi HMM, segmental models or transition probabilities
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/022—Demisyllables, biphones or triphones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0638—Interactive procedures
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种多语言混合语音识别方法,属于语音识别技术领域;方法包括:步骤S1,配置一包括多种不同语言的多语言混合词典;步骤S2,根据多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型;步骤S3,根据包括多种不同语言的多语言文本语料训练形成一语言识别模型;步骤S4,采用多语言混合词典、声学识别模型以及语言识别模型形成语音识别系统;随后,采用语音识别系统对混合语音进行识别,并输出对应的识别结果。上述技术方案的有益效果是:能够支持多种语言混合语音的识别,提升识别的准确率和效率,因此提高语音识别系统的性能。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种多语言混合语音识别方法。
背景技术
在日常说话的表达中,人们往往在无意中使用一种语言中夹杂另一种或者另几种语言的表达方式,例如一些英文单词在中文中会直接沿用其原本名字,例如“ipad”、“iphone”、“USB”等专有名词,因此会造成中英文混杂的现象,这种现象会给语音识别带来一定的困难和挑战。
早期的多语言混合语音识别系统的识别原理是分别建立单独的语音识别系统,然后将混合语音切开,并将不同语种的语音片段分别送入对应的语音识别系统中进行识别,最后再将各个语音片段的识别结果合并,以形成混合语音的识别结果。这种识别方法一方面很难保证按照语种对混合语音进行切分的准确性,另一方面每个被切分后形成的语音片段的上下文信息太短,从而影响识别准确率。
近年来,多语言混合语音的识别方法的做法开始发生变化,具体为将单独的语音识别系统进行词典扩充,即使用一种语言的音子集去拼凑另一种语言,例如英语中的“iphone”在中文词典中的发音会被拼凑成“爱疯”。这样的识别方法虽然能够识别出个别不同语种的词汇,但是一方面要求使用者的发音非常怪异(例如“iphone”必须准确发成“爱疯”),另一方面在识别整句混合语音的准却率会大幅下降。
发明内容
根据现有技术中存在的上述问题,现提供一种多语言混合语音识别方法的技术方案,旨在支持多种语言混合语音的识别,提升识别的准确率和效率,因此提高语音识别系统的性能。
上述技术方案具体包括:
一种多语言混合语音识别方法,其中,首先形成用于识别多语言的混合语音的语音识别系统,形成所述语音识别系统的方法包括:
步骤S1,配置一包括多种不同语言的多语言混合词典;
步骤S2,根据所述多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型;
步骤S3,根据包括多种不同语言的多语言文本语料训练形成一语言识别模型;
步骤S4,采用所述多语言混合词典、所述声学识别模型以及所述语言识别模型形成所述语音识别系统;
随后,采用所述语音识别系统对所述混合语音进行识别,并输出对应的识别结果。
优选的,该多语言混合语音识别方法,其中,所述步骤S1中,采用三音子建模的方式,根据分别对应每种不同语言的单语言词典配置所述多语言混合词典。
优选的,该多语言混合语音识别方法,其中,所述步骤S1中,采用三音子建模的方式配置所述多语言混合词典;
在配置所述多语言混合词典时,对所述多语言混合词典中包括的每种所语言的音子前分别添加一对应的语种标记,以将多种不同语言的音子进行区分。
优选的,该多语言混合语音识别方法,其中,所述步骤S2具体包括:
步骤S21,根据多种不同语言混合的多语言语音数据以及所述多语言混合词典训练形成一声学模型;
步骤S22,对所述多语言语音数据提取语音特征,并采用所述声学模型对所述语音特征进行帧对齐操作,以获得每一帧所述语音特征所对应的输出标签;
步骤S23,将所述语音特征作为所述声学识别模型的输入数据,以及将所述语音特征对应的所述输出标签作为所述声学识别模型的输出层中的输出标签,以训练形成所述声学识别模型。
优选的,该多语言混合语音识别方法,其中,所述声学模型为隐马尔可夫-高斯混合模型。
优选的,该多语言混合语音识别方法,其中,所述步骤S23中,对所述声学识别模型进行训练后,对所述声学识别模型的所述输出层进行调整,具体包括:
步骤S231,分别计算得到每种语言的先验概率,以及计算得到所有种类的语言公用的静音的先验概率;
步骤S232,分别计算得到每种语言的后验概率,以及计算得到所述静音的后验概率;
步骤S233,根据每种语言的先验概率和后验概率,以及所述静音的先验概率和后验概率,调整所述声学识别模型的所述输出层。
优选的,该多语言混合语音识别方法,其中,所述步骤S231中,依照下述公式分别计算得到每种语言的先验概率:
其中,
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;
用于表示所述多语言语音数据中所述输出标签为的先验概率;
用于表示所述多语言语音数据中所述输出标签为的总数;
用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签;
用于表示所述多语言语音数据中所述输出标签为的总数;
Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;
Msil用于表示所述多语言语音数据中的所述静音的状态的总数。
优选的,该多语言混合语音识别方法,其中,所述步骤S231中,依照下述公式计算得到所述静音的先验概率:
其中,
用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签;
用于表示所述多语言语音数据中所述输出标签为的先验概率;
用于表示所述多语言语音数据中所述输出标签为的总数;
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;
用于表示所述多语言语音数据中所述输出标签为的总数;
Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;
Msil用于表示所述多语言语音数据中的所述静音的状态的总数;
L用于表示所述多语言语音数据中的所有语言。
优选的,该多语言混合语音识别方法,其中,所述步骤S232中,依照下述公式分别计算得到每种语言的后验概率:
其中,
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;
x用于表示所述语音特征;
用于表示所述多语言语音数据中所述输出标签为的后验概率;
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输入数据;
用于表示所述静音的第i种状态的所述输入数据;
Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;
Msil用于表示所述多语言语音数据中的所述静音的状态的总数;
exp用于表示指数函数计算方式。
优选的,该多语言混合语音识别方法,其中,所述步骤S232中,依照下述公式计算得到所述静音的后验概率:
其中,
用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签;
x用于表示所述语音特征;
用于表示所述多语言语音数据中所述输出标签为的后验概率;
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输入数据;
用于表示所述静音的第i种状态的所述输入数据;
Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;
Msil用于表示所述多语言语音数据中的所述静音的状态的总数;
L用于表示所述多语言语音数据中的所有语言;
exp用于表示指数函数计算方式。
优选的,该多语言混合语音识别方法,其中,所述步骤S2中,所述声学识别模型为深度神经网络的声学模型。
优选的,该多语言混合语音识别方法,其中,所述步骤S3中,采用n-Gram模型训练形成所述语言识别模型,或者采用递归神经网络训练形成所述语言识别模型。
优选的,该多语言混合语音识别方法,其中,形成所述语音识别系统后,首先对所述语音识别系统中不同种类的语言进行权重调整;
进行所述权重调整的步骤包括:
步骤A1,根据真实语音数据分别确定每种语言的后验概率权重值;
步骤A2,根据所述后验概率权重值,分别调整每种语言的后验概率,以完成所述权重调整。
优选的,该多语言混合语音识别方法,其中,所述步骤A2中,依照下述公式进行所述权重调整:
其中,
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;
x用于表示所述语音特征;
用于表示所述多语言语音数据中所述输出标签为的后验概率;
aj用于表示所述多语言语音数据中第j种语言的所述后验概率权重值;
用于表示经过所述权重调整的所述多语言语音数据中所述输出标签为的后验概率。
上述技术方案的有益效果是:提供一种多语言混合语音识别方法,能够支持多种语言混合语音的识别,提升识别的准确率和效率,因此提高语音识别系统的性能。
附图说明
图1是本发明的较佳的实施例中,一种多语言混合语音识别方法中,形成语音识别系统的总体流程示意图;
图2是本发明的较佳的实施例中,多语言混合词典的示意图;
图3是本发明的较佳的实施例中,于图1的基础上,训练形成声学识别模型的流程示意图;
图4是本发明的较佳的实施例中,声学识别模型的结构示意图;
图5是本发明的较佳的实施例中,于图2的基础上,对声学识别模型的输出层进行调整的流程示意图;
图6是本发明的较佳的实施例中,对语音识别系统进行权重调整的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
基于现有技术中存在的上述问题,本发明中提供一种多语言混合语音识别方法,所谓混合语音,是指混合了多种不同语言的语音数据,例如使用者输入语音“我需要一个USB接口”,该段语音中既包括中文语音,也包括英文的专有名词“USB”,则该段语音为混合语音。本发明的其他实施例中,上述混合语音也可以为两种以上语音的混合体,在此不做限制。
上述多语言混合语音识别方法中,首先需要形成用于识别上述混合语音的语音识别系统。该语音识别系统的形成方法具体如图1所示,包括:
步骤S1,配置一包括多种不同语言的多语言混合词典;
步骤S2,根据多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型;
步骤S3,根据包括多种不同语言的多语言文本语料训练形成一语言识别模型;
步骤S4,采用多语言混合词典、声学识别模型以及语言识别模型形成语音识别系统。
在形成语音识别系统后,则可以采用语音识别系统对混合语音进行识别,并输出对应的识别结果。
具体地,本实施例中,上述多语言混合词典为包括多种不同语言的混合词典,该混合词典被配置到音子级别。本发明的较佳的实施例中,采用三音子建模的方式配置上述混合词典,能够得到比字建模更稳定的词典模型。另外,由于不同语言的词典中可能包含相同字符表述的音子,因此需要在配置混合词典时对多语言混合词典中包括的每种所语言的音子前分别添加一对应的语种标记,以将多种不同语言的音子进行区分。
例如,中英文的音子集中都包括“b”、“d”等音子。为了加以区分,在所有的英文的音子集前面都添加语种标记(例如添加“en”作为前缀)以将英文的音子集与中文的音子集进行区分,具体如图2所示。
上述语种标记可以为空,例如在混合词典中存在两种语言,则只需要对其中一种语言添加语种标记,即可以将两种语言区分开来。类似地,若混合词典中存在三种语言,则只需要对其中两种语言添加语种标记,即可以将三种语言区分开来,以此类推。
在上述混合词典中,也可以只对可能产生混淆的语种的音子集之间添加语种标记,例如一个混合词典中包括中文、英文以及其他语种,并且其中只有中英文的音子集可能存在混淆的问题,因此只需要在英文的音子集前面添加语种标记即可。
本实施例中,在形成多语言混合词典之后,根据该混合词典和包括多种语言的多语言语音数据训练形成一声学识别模型。具体地,上述多语言语音数据为事先预备好的包括多种不同语言的训练用的混合语音数据,上述混合词典在形成声学识别模型的过程中提供不同种语言的音子。因此,在训练形成多语言混合的声学识别模型的过程中,为了得到混合语言音子的三音子关系,需要准备上述多种语言混合的多语言语音数据,以及依据上述形成的多语言混合词典进行。
本实施例中,随后根据多种语言混合的多语言文本语料训练形成一语言识别模型,并最终将多语言混合词典、声学识别模型和语言识别模型包括在一语音识别系统中,并根据该语音识别系统对使用者输入的包括多种语言的混合语音进行识别,输出识别结果。
本实施例中,经过上述处理后,上述混合语音的识别过程就与现有技术中对于单语种语音的识别过程类似,通过声学识别模型将一段语音数据中的语音特征识别成对应的音子或者字词序列,并且通过语言识别模型将字词序列识别成一个完整的句子,从而完成对混合语音的识别过程。上述识别过程在本文中不再赘述。
综上,本发明技术方案中,首先根据多个单语种的语言词典形成包括多个语种的多语言混合词典,并在其中对不同语种的音子打上语种标记以进行区分。随后根据多语言混合语音数据和多语言混合词典训练形成一声学识别模型,以及根据多语言混合文本语料训练形成一语言识别模型。随后根据多语言混合词典、声学识别模型以及语言识别模型形成一个完整的语音识别系统,以对使用者输入的多语言混合语音进行识别。
本发明的较佳的实施例中,如图3所示,上述步骤S2具体包括:
步骤S21,根据多种不同语言混合的多语言语音数据以及多语言混合词典训练形成一声学模型;
步骤S22,对多语言语音数据提取语音特征,并采用声学模型对语音特征进行帧对齐操作,以获得每一帧语音特征所对应的输出标签;
步骤S23,将语音特征作为声学识别模型的输入数据,以及将语音特征对应的输出标签作为声学识别模型的输出层中的输出标签,以训练形成声学识别模型。
具体地,本实施例中,在训练形成声学识别模型之前,首先根据多种不同语言混合的多语言语音数据训练形成一声学模型。该声学模型可以为一隐马尔可夫-高斯混合(Hidden Markov Model-Gaussian Mixture Model,HMM-GMM)模型。针对三音子建模中面临的参数重估鲁班性问题,在训练形成声学模型的过程中可以选择使用参数共享技术,从而减少参数规模。基于HMM-GMM的声学模型的建模技术目前已经想当成熟,在此不再赘述。
本实施例中,形成上述声学模型后,需要利用该声学模型对上述多语言语音数据进行帧对齐操作,从而将每一帧多语言语音数据中提取的语音特征都对应有一个输出标签。具体地,经过帧对齐后,每一帧语音特征都对应有一个GMM编号。而声学识别模型的输出层中的输出标签是每一帧语音特征对应的标签,因此该声学识别模型的输出层中的输出标签的个数即为HMM-GMM模型中的GMM的个数,每一个输出节点对应一个GMM。
本实施例中,将语音特征作为声学识别模型的输入数据,以及将语音特征对应的输出标签作为声学识别模型的输出层中的输出标签,以训练形成声学识别模型。
如图4所示为本发明的一个实施例中的声学识别模型的大致结构,该声学识别模型为由全连接的神经网络结构建立的深度神经网络模型,该神经网络中共包含7个全连接的神经网络单元,每层具有2048个节点,每两个神经网络中间都包含一个sigmoid非线性单元。其输出层采用softmax非线性单元实现。图4中的s51用于表示该声学识别模型的输出层,L1、L2和L3分别表示输出层上的关联于不同种类的语言的输出标签。
本发明的较佳的实施例中,上述步骤S23中,在对声学识别模型进行训练后,需要针对多语言对声学识别模型的输出层进行调整和先验等操作,具体如图5所示,包括:
步骤S231,分别计算得到每种语言的先验概率,以及计算得到所有种类的语言公用的静音的先验概率;
步骤S232,分别计算得到每种语言的后验概率,以及计算得到静音的后验概率;
步骤S233,根据每种语言的先验概率和后验概率,以及静音的先验概率和后验概率,调整声学识别模型的输出层。
具体地,本发明的较佳的实施例中,在采用声学识别模型进行语音识别时,对于给定的语音特征,其输出结果的字符串通常由下述公式决定:
其中,用于表示输出结果的字符串,w表示可能的字符串,x表示输入的语音特征,P(w)用于表示上述语言识别模型的概率,P(x|w)用于表示上述声学识别模型的概率。
则上述P(x|w)可以进一步展开为:
其中,xt用于表示t时刻输入的语音特征,qt用于表示t时刻绑定的三音子状态,π(q0)用于表示初始状态为q0的概率分布,P(xt|qt)用于表示qt状态下,语音特征为xt的概率。
则上述P(xt|qt)可以进一步展开为:
P(xt|qt)=P(qt|xt)P(xt)/P(qt); (3)
其中,P(xt|qt)为上述声学识别模型的输出层的后验概率,P(qt)为上述声学识别模型的先验概率,P(xt)则表示xt的概率。P(xt)跟字符串序列不相关,因此可以忽略。
则根据上述公式(3)可以得出,通过计算声学识别模型的输出层的先验概率和后验概率能够对输出结果的字符串进行调整。
本发明的较佳的实施例中,神经网络的先验概率P(q)通常由下述公式计算得到:
其中,Count(qi)用于表示多语言语音数据中标签为qi的总数,N用于表示所有输出标签的总数。
本发明的较佳的实施例中,由于不同种类的语言的训练用语音数据的数量可能不同,因此上述先验概率不能统一计算,需要根据不同种类的语言分别进行计算。
则本发明的较佳的实施例中,上述步骤S231,首先分别计算得到每种语言的先验概率,以及计算得到所有种类的语言公用的静音的先验概率。
首先依照下述公式分别计算得到每种语言的先验概率:
其中,
用于表示多语言语音数据中第j种语言的第i个状态的输出标签;
用于表示多语言语音数据中输出标签为的先验概率;
用于表示多语言语音数据中输出标签为的总数;
用于表示多语言语音数据中的静音的第i种状态的输出标签;
用于表示多语言语音数据中输出标签为的总数;
Mj用于表示多语言语音数据中的第j种语言中的状态的总数;
Msil用于表示多语言语音数据中的静音的状态的总数。
随后,依照下述公式计算得到静音的先验概率:
其中,
用于表示多语言语音数据中输出标签为的先验概率;
L用于表示多语言语音数据中的所有语言。
本发明的较佳的实施例中,在计算得到上述每种语言的先验概率以及静音的先验概率后,继续计算声学识别模型的后验概率。神经网络输出的后验概率P(qi|x)通常由输出层计算得到,当输出层为softmax非线性单元实现时,后验概率通常按照下述公式计算得到:
其中,yi用于表示第i个状态下的输入值,N为所有状态的数目。
同样地,在声学识别模型中,不同种类语言的训练数据数量不均衡会造成不同种类语言的状态值计算结果的分布不平衡,因此后验概率仍然需要针对不同种类的语言分别进行计算。
则本发明的较佳的实施例中,上述步骤S232中,依照下述公式分别计算得到每种语言的后验概率:
其中,
x用于表示语音特征;
用于表示多语言语音数据中输出标签为的后验概率;
用于表示多语言语音数据中第j种语言的第i个状态的输入数据;
用于表示静音的第i种状态的输入数据;
exp用于表示指数函数计算方式。
本发明的较佳的实施例中,步骤S232中,依照下述公式计算得到静音的后验概率:
其中,用于表示多语言语音数据中输出标签为的后验概率。
本发明中,利用上述改进的公式(6)-(9)可以计算得到每种语言和静音状态下的先验概率以及后验概率,从而使得声学识别模型能够符合多语言混合建模的输出需求,能够更加精准地对每种语言以及静音状态进行描述。需要注意的是,经过上述公式调整后,先验概率和后验概率的总和均不再为1。
本发明的较佳的实施例中,上述步骤S3中,可以采用n-Gram模型训练形成语言识别模型,或者采用递归神经网络训练形成语言识别模型。上述多语言文本语料中需要包括多语言单独的文本语料,以及多语言混合的文本数据。
本发明的较佳的实施例中,形成语音识别系统后,首先对语音识别系统中不同种类的语言进行权重调整;
进行权重调整的步骤如图6所示,包括:
步骤A1,根据真实语音数据分别确定每种语言的后验概率权重值;
步骤A2,根据后验概率权重值,分别调整每种语言的后验概率,以完成权重调整。
具体地,本实施例中,形成上述语音识别系统后,由于在训练过程中可能会产生训练数据量不均衡的问题,数据量较多的一种语言会得到相对较大的先验概率,由于最终的识别概率是后验概率除以先验概率,因此训练数据较多的语言实际的识别概率反而偏小,这就会造成识别系统的识别结果可能会倾向于识别出某一种语言而无法识别另一种语言,从而造成识别结果的偏差。
为了解决这个问题,在将上述语音识别系统进行实用之前,需要采用真实的数据作为开发集对其进行实测以对每种语言的权重进行调整。上述权重调整通常应用在声学识别模型输出的后验概率上,因此其公式如下:
其中,
用于表示多语言语音数据中第j种语言的第i个状态的输出标签;
x用于表示语音特征;
用于表示多语言语音数据中输出标签为的后验概率;
aj用于表示多语言语音数据中第j种语言的后验概率权重值,该后验概率权重值通过上述真实数据组成的开发集对声学识别模型进行实测来确定。
用于表示经过权重调整的多语言语音数据中输出标签为的后验概率。
通过上述劝着哦那个调整后能够使得语音识别系统在不同的应用场景中都能得到很好的识别效果。
在本发明的一个较佳的实施例中,对于一个由中英文混合的语音识别系统中,经过真实数据实测后可以将中文的后验概率权重值设定为1.0,将英文的后验概率权重值设定为0.3,将静音的后验概率权重值设定为1.0。
本发明的其他实施例中,上述后验概率权重值可以通过多次采用不同的真实数据组成的开发集进行反复调整,最终确定最佳的取值。
以上所述仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
Claims (14)
1.一种多语言混合语音识别方法,其特征在于,首先形成用于识别多语言的混合语音的语音识别系统,形成所述语音识别系统的方法包括:
步骤S1,配置一包括多种不同语言的多语言混合词典;
步骤S2,根据所述多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型;
步骤S3,根据包括多种不同语言的多语言文本语料训练形成一语言识别模型;
步骤S4,采用所述多语言混合词典、所述声学识别模型以及所述语言识别模型形成所述语音识别系统;
随后,采用所述语音识别系统对所述混合语音进行识别,并输出对应的识别结果。
2.如权利要求1所述的多语言混合语音识别方法,其特征在于,所述步骤S1中,采用三音子建模的方式,根据分别对应每种不同语言的单语言词典配置所述多语言混合词典。
3.如权利要求1所述的多语言混合语音识别方法,其特征在于,所述步骤S1中,采用三音子建模的方式配置所述多语言混合词典;
在配置所述多语言混合词典时,对所述多语言混合词典中包括的每种所语言的音子前分别添加一对应的语种标记,以将多种不同语言的音子进行区分。
4.如权利要求1所述的多语言混合语音识别方法,其特征在于,所述步骤S2具体包括:
步骤S21,根据所述多语言语音数据以及所述多语言混合词典训练形成一声学模型;
步骤S22,对所述多语言语音数据提取语音特征,并采用所述声学模型对所述语音特征进行帧对齐操作,以获得每一帧所述语音特征所对应的输出标签;
步骤S23,将所述语音特征作为所述声学识别模型的输入数据,以及将所述语音特征对应的所述输出标签作为所述声学识别模型的输出层中的输出标签,以训练形成所述声学识别模型。
5.如权利要求4所述的多语言混合语音识别方法,其特征在于,所述声学模型为隐马尔可夫-高斯混合模型。
6.如权利要求4所述的多语言混合语音识别方法,其特征在于,所述步骤S23中,对所述声学识别模型进行训练后,对所述声学识别模型的所述输出层进行调整,具体包括:
步骤S231,分别计算得到每种语言的先验概率,以及计算得到所有种类的语言公用的静音的先验概率;
步骤S232,分别计算得到每种语言的后验概率,以及计算得到所述静音的后验概率;
步骤S233,根据每种语言的先验概率和后验概率,以及所述静音的先验概率和后验概率,调整所述声学识别模型的所述输出层。
7.如权利要求6所述的多语言混合语音识别方法,其特征在于,所述步骤S231中,依照下述公式分别计算得到每种语言的先验概率:
其中,
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;
用于表示所述多语言语音数据中所述输出标签为的先验概率;
用于表示所述多语言语音数据中所述输出标签为的总数;
用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签;
用于表示所述多语言语音数据中所述输出标签为的总数;
Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;
Msil用于表示所述多语言语音数据中的所述静音的状态的总数。
8.如权利要求6所述的多语言混合语音识别方法,其特征在于,所述步骤S231中,依照下述公式计算得到所述静音的先验概率:
其中,
用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签;
用于表示所述多语言语音数据中所述输出标签为的先验概率;
用于表示所述多语言语音数据中所述输出标签为的总数;
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;
用于表示所述多语言语音数据中所述输出标签为的总数;
Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;
Msil用于表示所述多语言语音数据中的所述静音的状态的总数;
L用于表示所述多语言语音数据中的所有语言。
9.如权利要求6所述的多语言混合语音识别方法,其特征在于,所述步骤S232中,依照下述公式分别计算得到每种语言的后验概率:
其中,
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;
x用于表示所述语音特征;
用于表示所述多语言语音数据中所述输出标签为的后验概率;
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输入数据;
用于表示所述静音的第i种状态的所述输入数据;
Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;
Msil用于表示所述多语言语音数据中的所述静音的状态的总数;
exp用于表示指数函数计算方式。
10.如权利要求6所述的多语言混合语音识别方法,其特征在于,所述步骤S232中,依照下述公式计算得到所述静音的后验概率:
其中,
用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签;
x用于表示所述语音特征;
用于表示所述多语言语音数据中所述输出标签为的后验概率;
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输入数据;
用于表示所述静音的第i种状态的所述输入数据;
Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;
Msil用于表示所述多语言语音数据中的所述静音的状态的总数;
L用于表示所述多语言语音数据中的所有语言;
exp用于表示指数函数计算方式。
11.如权利要求1所述的多语言混合语音识别方法,其特征在于,所述步骤S2中,所述声学识别模型为深度神经网络的声学模型。
12.如权利要求1所述的多语言混合语音识别方法,其特征在于,所述步骤S3中,采用n-Gram模型训练形成所述语言识别模型,或者采用递归神经网络训练形成所述语言识别模型。
13.如权利要求4所述的多语言混合语音识别方法,其特征在于,形成所述语音识别系统后,首先对所述语音识别系统中不同种类的语言进行权重调整;
进行所述权重调整的步骤包括:
步骤A1,根据真实语音数据分别确定每种语言的后验概率权重值;
步骤A2,根据所述后验概率权重值,分别调整每种语言的后验概率,以完成所述权重调整。
14.如权利要求13所述的多语言混合语音识别方法,其特征在于,所述步骤A2中,依照下述公式进行所述权重调整:
其中,
用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;
x用于表示所述语音特征;
用于表示所述多语言语音数据中所述输出标签为的后验概率;
aj用于表示所述多语言语音数据中第j种语言的所述后验概率权重值;
用于表示经过所述权重调整的所述多语言语音数据中所述输出标签为的后验概率。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710103972.7A CN108510976B (zh) | 2017-02-24 | 2017-02-24 | 一种多语言混合语音识别方法 |
PCT/CN2018/074314 WO2018153213A1 (zh) | 2017-02-24 | 2018-01-26 | 一种多语言混合语音识别方法 |
US16/487,279 US11151984B2 (en) | 2017-02-24 | 2018-01-26 | Multi-language mixed speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710103972.7A CN108510976B (zh) | 2017-02-24 | 2017-02-24 | 一种多语言混合语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108510976A true CN108510976A (zh) | 2018-09-07 |
CN108510976B CN108510976B (zh) | 2021-03-19 |
Family
ID=63254098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710103972.7A Active CN108510976B (zh) | 2017-02-24 | 2017-02-24 | 一种多语言混合语音识别方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11151984B2 (zh) |
CN (1) | CN108510976B (zh) |
WO (1) | WO2018153213A1 (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109493846A (zh) * | 2018-11-18 | 2019-03-19 | 深圳市声希科技有限公司 | 一种英语口音识别系统 |
CN110517664A (zh) * | 2019-09-10 | 2019-11-29 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
CN110580908A (zh) * | 2019-09-29 | 2019-12-17 | 出门问问信息科技有限公司 | 一种支持不同语种的命令词检测方法及设备 |
CN110970018A (zh) * | 2018-09-28 | 2020-04-07 | 珠海格力电器股份有限公司 | 语音识别方法和装置 |
CN111508505A (zh) * | 2020-04-28 | 2020-08-07 | 讯飞智元信息科技有限公司 | 一种说话人识别方法、装置、设备及存储介质 |
WO2020182153A1 (zh) * | 2019-03-11 | 2020-09-17 | 腾讯科技(深圳)有限公司 | 基于自适应语种进行语音识别的方法及相关装置 |
CN111916062A (zh) * | 2019-05-07 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置和系统 |
CN112364658A (zh) * | 2019-07-24 | 2021-02-12 | 阿里巴巴集团控股有限公司 | 翻译以及语音识别方法、装置、设备 |
CN112652300A (zh) * | 2020-12-24 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
CN112837674A (zh) * | 2019-11-22 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及相关系统和设备 |
CN113205795A (zh) * | 2020-01-15 | 2021-08-03 | 普天信息技术有限公司 | 多语种混说语音的语种识别方法及装置 |
CN114078475A (zh) * | 2021-11-08 | 2022-02-22 | 北京百度网讯科技有限公司 | 语音识别和更新方法、装置、设备和存储介质 |
CN116386609A (zh) * | 2023-04-14 | 2023-07-04 | 南通大学 | 一种中英混合语音识别方法 |
US12033621B2 (en) | 2019-03-11 | 2024-07-09 | Tencent Technology (Shenzhen) Company Limited | Method for speech recognition based on language adaptivity and related apparatus |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111369978B (zh) * | 2018-12-26 | 2024-05-17 | 北京搜狗科技发展有限公司 | 一种数据处理方法、装置和用于数据处理的装置 |
CN110797016B (zh) * | 2019-02-26 | 2020-12-29 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110223674B (zh) * | 2019-04-19 | 2023-05-26 | 平安科技(深圳)有限公司 | 语音语料训练方法、装置、计算机设备和存储介质 |
CN111862961A (zh) * | 2019-04-29 | 2020-10-30 | 京东数字科技控股有限公司 | 识别语音的方法和装置 |
CN113014854B (zh) * | 2020-04-30 | 2022-11-11 | 北京字节跳动网络技术有限公司 | 互动记录的生成方法、装置、设备及介质 |
CN111968646B (zh) * | 2020-08-25 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及装置 |
CN112652311B (zh) * | 2020-12-01 | 2021-09-03 | 北京百度网讯科技有限公司 | 中英文混合语音识别方法、装置、电子设备和存储介质 |
CN113782000B (zh) * | 2021-09-29 | 2022-04-12 | 北京中科智加科技有限公司 | 一种基于多任务的语种识别方法 |
US20230290345A1 (en) * | 2022-03-08 | 2023-09-14 | Microsoft Technology Licensing, Llc | Code-Mixed Speech Recognition Using Attention and Language-Specific Joint Analysis |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200421263A (en) * | 2003-04-10 | 2004-10-16 | Delta Electronics Inc | Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme |
CN101604522A (zh) * | 2009-07-16 | 2009-12-16 | 北京森博克智能科技有限公司 | 非特定人的嵌入式中英文混合语音识别方法及系统 |
CN101826325A (zh) * | 2010-03-10 | 2010-09-08 | 华为终端有限公司 | 对中英文语音信号进行识别的方法和装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
US10235994B2 (en) * | 2016-03-04 | 2019-03-19 | Microsoft Technology Licensing, Llc | Modular deep learning model |
CN106228976B (zh) * | 2016-07-22 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN107633842B (zh) * | 2017-06-12 | 2018-08-31 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及存储介质 |
-
2017
- 2017-02-24 CN CN201710103972.7A patent/CN108510976B/zh active Active
-
2018
- 2018-01-26 WO PCT/CN2018/074314 patent/WO2018153213A1/zh active Application Filing
- 2018-01-26 US US16/487,279 patent/US11151984B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW200421263A (en) * | 2003-04-10 | 2004-10-16 | Delta Electronics Inc | Speech recognition device and method using di-phone model to realize the mixed-multi-lingual global phoneme |
CN101604522A (zh) * | 2009-07-16 | 2009-12-16 | 北京森博克智能科技有限公司 | 非特定人的嵌入式中英文混合语音识别方法及系统 |
CN101826325A (zh) * | 2010-03-10 | 2010-09-08 | 华为终端有限公司 | 对中英文语音信号进行识别的方法和装置 |
Non-Patent Citations (5)
Title |
---|
M. ADDA-DECKER: "《owards Multilingual Interoperability in Automatic Speech Recognition》", 《SPEECH COMMUNICATION》 * |
PY. SHIH 等: "《Acoustic and Phoneme Modeling Based on Confusion Matrix for Ubiquitous Mixed-Language Speech Recognition》", 《IEEE INTERNATIONAL CONFERENCE ON SENSOR NETWORKS》 * |
于胜民等: "汉英双语混合声学建模方法研究", 《中文信息学报》 * |
姚海涛 等: "《面向多语言的语音识别声学模型建模方法研究》", 《中国声学学会第十一届青年学术会议会议论文集》 * |
王士进等: "基于Multilingual的音素识别及其在语种识别中的应用", 《清华大学学报(自然科学版)》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110970018A (zh) * | 2018-09-28 | 2020-04-07 | 珠海格力电器股份有限公司 | 语音识别方法和装置 |
CN109493846B (zh) * | 2018-11-18 | 2021-06-08 | 深圳市声希科技有限公司 | 一种英语口音识别系统 |
CN109493846A (zh) * | 2018-11-18 | 2019-03-19 | 深圳市声希科技有限公司 | 一种英语口音识别系统 |
WO2020182153A1 (zh) * | 2019-03-11 | 2020-09-17 | 腾讯科技(深圳)有限公司 | 基于自适应语种进行语音识别的方法及相关装置 |
US12033621B2 (en) | 2019-03-11 | 2024-07-09 | Tencent Technology (Shenzhen) Company Limited | Method for speech recognition based on language adaptivity and related apparatus |
CN111916062A (zh) * | 2019-05-07 | 2020-11-10 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置和系统 |
US11735184B2 (en) | 2019-07-24 | 2023-08-22 | Alibaba Group Holding Limited | Translation and speech recognition method, apparatus, and device |
CN112364658A (zh) * | 2019-07-24 | 2021-02-12 | 阿里巴巴集团控股有限公司 | 翻译以及语音识别方法、装置、设备 |
CN110517664A (zh) * | 2019-09-10 | 2019-11-29 | 科大讯飞股份有限公司 | 多方言识别方法、装置、设备及可读存储介质 |
CN110580908A (zh) * | 2019-09-29 | 2019-12-17 | 出门问问信息科技有限公司 | 一种支持不同语种的命令词检测方法及设备 |
CN112837674A (zh) * | 2019-11-22 | 2021-05-25 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及相关系统和设备 |
CN112837674B (zh) * | 2019-11-22 | 2024-06-11 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及相关系统和设备 |
CN113205795A (zh) * | 2020-01-15 | 2021-08-03 | 普天信息技术有限公司 | 多语种混说语音的语种识别方法及装置 |
CN111508505A (zh) * | 2020-04-28 | 2020-08-07 | 讯飞智元信息科技有限公司 | 一种说话人识别方法、装置、设备及存储介质 |
CN111508505B (zh) * | 2020-04-28 | 2023-11-03 | 讯飞智元信息科技有限公司 | 一种说话人识别方法、装置、设备及存储介质 |
CN112652300A (zh) * | 2020-12-24 | 2021-04-13 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
CN112652300B (zh) * | 2020-12-24 | 2024-05-17 | 百果园技术(新加坡)有限公司 | 多方言语音识别方法、装置、设备和存储介质 |
CN114078475B (zh) * | 2021-11-08 | 2023-07-25 | 北京百度网讯科技有限公司 | 语音识别和更新方法、装置、设备和存储介质 |
CN114078475A (zh) * | 2021-11-08 | 2022-02-22 | 北京百度网讯科技有限公司 | 语音识别和更新方法、装置、设备和存储介质 |
CN116386609A (zh) * | 2023-04-14 | 2023-07-04 | 南通大学 | 一种中英混合语音识别方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2018153213A1 (zh) | 2018-08-30 |
US20190378497A1 (en) | 2019-12-12 |
US11151984B2 (en) | 2021-10-19 |
CN108510976B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108510976A (zh) | 一种多语言混合语音识别方法 | |
CN106297773B (zh) | 一种神经网络声学模型训练方法 | |
CN102354495B (zh) | 半开放式口语试题的测试方法及系统 | |
CN103531196B (zh) | 一种波形拼接语音合成的选音方法 | |
TWI595478B (zh) | 可學習不同語言及模仿不同語者說話方式之韻律參數語速正規化器、語速相依韻律模型建立器、可控語速之韻律訊息產生裝置及韻律訊息產生方法 | |
CN101178896B (zh) | 基于声学统计模型的单元挑选语音合成方法 | |
CN109697973A (zh) | 一种韵律层级标注的方法、模型训练的方法及装置 | |
CN107103900A (zh) | 一种跨语言情感语音合成方法及系统 | |
CN103970806B (zh) | 一种建立歌词感情分类模型的方法及装置 | |
Cole | Tools for research and education in speech science | |
CN106128450A (zh) | 一种汉藏双语跨语言语音转换的方法及其系统 | |
CN110322900A (zh) | 一种语音信号特征融合的方法 | |
CN110852075B (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
KR101037247B1 (ko) | 외국어 회화 연습 방법 및 장치와 이것의 빠른 개발과 검증을 돕는 학습자 시뮬레이션 방법과 장치 | |
CN103810993B (zh) | 一种文本注音方法及装置 | |
TWI659411B (zh) | 一種多語言混合語音識別方法 | |
Chen et al. | Assessment of non-native speech using vowel space characteristics | |
Panda et al. | Text-to-speech synthesis with an Indian language perspective | |
CN105895076B (zh) | 一种语音合成方法及系统 | |
CN106502988A (zh) | 一种目标属性抽取的方法和设备 | |
CN106297766A (zh) | 语音合成方法及系统 | |
Boroș et al. | Rss-tobi-a prosodically enhanced romanian speech corpus | |
CN201069643Y (zh) | 中文语音自助学习及语音识别机 | |
CN105895075B (zh) | 提高合成语音韵律自然度的方法及系统 | |
Watson et al. | Resources created for building New Zealand English voices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1252736 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |