CN111243597A - 中英文混合语音识别方法 - Google Patents
中英文混合语音识别方法 Download PDFInfo
- Publication number
- CN111243597A CN111243597A CN202010026451.8A CN202010026451A CN111243597A CN 111243597 A CN111243597 A CN 111243597A CN 202010026451 A CN202010026451 A CN 202010026451A CN 111243597 A CN111243597 A CN 111243597A
- Authority
- CN
- China
- Prior art keywords
- chinese
- speech
- english
- voice signal
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013519 translation Methods 0.000 claims abstract description 5
- 230000009191 jumping Effects 0.000 claims abstract description 4
- 238000009432 framing Methods 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 4
- 230000000295 complement effect Effects 0.000 claims description 3
- 230000006870 function Effects 0.000 description 12
- 230000037433 frameshift Effects 0.000 description 4
- 230000000737 periodic effect Effects 0.000 description 4
- 230000001568 sexual effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001747 exhibiting effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 241001347978 Major minor Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种中英文混合语音识别方法,包括步骤:S1:获取语音信号;S2:将语音信号输入一中文语音识别系统,中文语音识别系统将语音信号中的中文部分识别为中文文字;S3:判断语音信号中是否有尚未识别的部分,如无跳至步骤S6;S4:将语音信号中尚未识别的部分输入一英文语音识别系统,英文语音识别系统将语音信号中尚未识别的部分识别为英文文字;S5:利用一中文翻译数据库将英文文字翻译为中文文字;S6:利用一中文词性数据库对中文文字添加词性标签;S7:利用词性标签和中文语序结构对中文文字排序;S8:验证并输出排序后的中文文字。本发明的一种中英文混合语音识别方法,可实现对中英文混合的句子进行识别。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种中英文混合语音识别方法。
背景技术
近几年,语音识别技术保持高速发展。语音识别是将语音转换为对应的文字的一种智能信息处理技术。将语音转换为文字有利于计算机终端进行进一步地处理,所以语音识别技术被广泛地用于各个领域并且成为很多设备的标配,手机端的语音助手,地图导航,智能音响等。
虽然现在的语音识别技术已经给人类带来了便利,总体让人满意,但是目前的语音识别系统只停留在单纯的中文识别和英文识别,无法同时进行中英文同时辨别,在中英混合识别方面仍然有很大的提升空间。
发明内容
针对上述现有技术中的不足,本发明提供一种中英文混合语音识别方法,可实现对中英文混合的句子进行识别。
为了实现上述目的,本发明提供一种中英文混合语音识别方法,包括步骤:
S1:获取语音信号;
S2:将所述语音信号输入一中文语音识别系统,所述中文语音识别系统将所述语音信号中的中文部分识别为中文文字;
S3:判断所述语音信号中是否有尚未识别的部分,如无跳至步骤S6;
S4:将所述语音信号中尚未识别的部分输入一英文语音识别系统,所述英文语音识别系统将所述语音信号中尚未识别的部分识别为英文文字;
S5:利用一中文翻译数据库将所述英文文字翻译为中文文字;
S6:利用一中文词性数据库对所述中文文字添加词性标签;
S7:利用所述词性标签和中文语序结构对所述中文文字排序;
S8:验证并输出排序后的中文文字。
优选地,所述S2步骤进一步包括步骤:
S21:预处理,进行A/D转换;
S22:分帧加窗,将数字化后的所述语音信号分成多段数字语音信号;
S23:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到所述数字语音信号的倒谱;
S24:匹配判决,利用声学模型对所述数字语音信号的倒谱进行识别,获得所述中文文字。
优选地,所述S22进一步包括步骤:
S221:分帧,将数字化后的所述语音信号分成多段数字语音信号;
S222:对所述数字语音信号加窗。
优选地,所述声学模型包括HMM声学模型。
优选地,所述S4步骤进一步包括步骤:
S41:预处理,进行A/D转换;
S42:分帧加窗,将数字化后的所述语音信号分成多段数字语音信号;
S43:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到所述数字语音信号的倒谱;
S44:匹配判决,利用声学模型对所述数字语音信号的倒谱进行识别,获得所述英文文字。
优选地,所述S42进一步包括步骤:
S421:分帧,将数字化后的所述语音信号分成多段数字语音信号;
S422:对所述数字语音信号加窗。
优选地,所述S6步骤中,所述词性标签包括:主语、谓语、宾语、状语、补语和定语。
优选地,所述S7步骤中,所述中文语序结构包括:主谓、主谓宾、定主状谓、定主谓、主状谓、定主谓宾、主状谓宾、主谓补宾、定主状谓宾、定主谓补宾、主状谓补宾和定主状谓补宾。
优选地,所述S8步骤中的所述验证步骤包括步骤:
计算所有所述中文文字的所述词性标签的总数;
计算所述中文文字所组成的语句所对应的中文语序结构中词性的个数;
当所述词性标签的总数与所述词性的个数相等时通过验证。
本发明由于采用了以上技术方案,使其具有以下有益效果:
通过中文语音识别系统、英文语音识别系统和中文词性数据库的配合,可实现对中英文混合的句子进行识别;克服了现有语音识别系统只能识别单一语言句子的问题。验证步骤的采用提高了识别语句的准确性。
附图说明
图1为本发明实施例的中英文混合语音识别方法的流程图。
具体实施方式
下面根据附图1,给出本发明的较佳实施例,并予以详细描述,使能更好地理解本发明的功能、特点。
请参阅图1,本发明实施例的一种中英文混合语音识别方法,包括步骤:
S1:获取语音信号;
S2:将语音信号输入一中文语音识别系统,中文语音识别系统将语音信号中的中文部分识别为中文文字;
其中,S2步骤进一步包括步骤:
S21:预处理,进行A/D转换;即对接收到的语音信号进行采集然后进行量化再然后进行编码,可以获得最初的语音信号中语音信息;
S22:分帧加窗,在预处理的信号之后,将语音信号分成多个窗口,将数字化后的语音信号分成多段数字语音信号;
S23:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到数字语音信号的倒谱;性预测倒谱系数(LPCC)既能实现它的预测功能,又能提供进行声道模型参数的提取过程,在性预测倒谱系数(LPCC)分析过程中首先将语音信号视作全极点形式,在线性预测分析(LPC)基础上进行运算:
C0=log10(G);
其中,C0为初始采样的倒谱系数;G为操作的增益,Cn为第n采样的倒谱系数;n为采样总数;k为当前采样;Ck为第k采样的倒谱系数;α为LPC得到的系数;p为LPC分析阶数。
S24:匹配判决,利用声学模型对数字语音信号的倒谱进行识别,获得中文文字。本实施例中,声学模型包括HMM声学模型。声学模型是将获取语言信息的发音标准与模式库中的发音标准进行匹配而设计的模型,它通过矢量量化的分析将不同发音模板提取出来。本实施例中,在采用HMM声学模型的基础上,引入了状态段长,对于不同语音段的划分提高了原始基本识别的性能,神经网络的引入也给模式匹配环节带来了性能的进步。
本实施例中,S22进一步包括步骤:
S221:分帧,将数字化后的语音信号分成多段数字语音信号;
接收到的一段语音信号整体是不平稳的,但是局部上可以看作是平稳的。而在后期的语音处理中需要的是平稳信号,所以要对整段语音信号分帧,也就是切分成很多段。在10-30ms范围内都可以认为信号是稳定的,一般奖不少于20ms定义为一帧,1/2左右时长为帧移分帧。帧移,即为相邻两帧间的重叠部分,是为了避免相邻两帧的变化过大。将语音信号划分为很多短时的语音段,每个短时的语音段称为一个分析帧;
S222:对数字语音信号加窗。
每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。加窗可以使得,分帧后的信号变得连续,每一帧就会表现出周期函数的特征。加窗之后,原本没有周期性的语音信号呈现出周期函数的部分特征。
S3:判断语音信号中是否有尚未识别的部分,如无跳至步骤S6;
S4:将语音信号中尚未识别的部分输入一英文语音识别系统,英文语音识别系统将语音信号中尚未识别的部分识别为英文文字;
其中,S4步骤进一步包括步骤:
S41:预处理,进行A/D转换;
S42:分帧加窗,将数字化后的语音信号分成多段数字语音信号;
S43:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到数字语音信号的倒谱;性预测倒谱系数(LPCC)既能实现它的预测功能,又能提供进行声道模型参数的提取过程,在性预测倒谱系数(LPCC)分析过程中首先将语音信号视作全极点形式,在线性预测分析(LPC)基础上进行运算:
C0=log10(G);
其中,C0为初始采样的倒谱系数;G为操作的增益;Cn为第n采样的倒谱系数;n为采样总数;k为当前采样;Ck为第k采样的倒谱系数;α为LPC得到的系数;p为LPC分析阶数。
傅里叶变换,即能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。使用傅里叶变换进行语音信号的函数图像转化。实现对数运算再取傅里叶反经过变换即可得到信号的倒谱,生成函数图像。
LPCC使用10多个倒谱系数代表共振峰的特性,有很好的性能。
在线性预测分析(LPC)。
S44:匹配判决,利用声学模型对数字语音信号的倒谱进行识别,获得英文文字。本实施例中,声学模型包括HMM声学模型。声学模型是将获取语言信息的发音标准与模式库中的发音标准进行匹配而设计的模型,它通过矢量量化的分析将不同发音模板提取出来。本实施例中,在采用HMM声学模型的基础上,引入了状态段长,对于不同语音段的划分提高了原始基本识别的性能,神经网络的引入也给模式匹配环节带来了性能的进步。
其中,S42进一步包括步骤:
S421:分帧,将数字化后的语音信号分成多段数字语音信号;
接收到的一段语音信号整体是不平稳的,但是局部上可以看作是平稳的。而在后期的语音处理中需要的是平稳信号,所以要对整段语音信号分帧,也就是切分成很多段。在10-30ms范围内都可以认为信号是稳定的,一般奖不少于20ms定义为一帧,1/2左右时长为帧移分帧。帧移,即为相邻两帧间的重叠部分,是为了避免相邻两帧的变化过大。将语音信号划分为很多短时的语音段,每个短时的语音段称为一个分析帧
S422:对数字语音信号加窗。
每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。加窗可以使得,分帧后的信号变得连续,每一帧就会表现出周期函数的特征。加窗之后,原本没有周期性的语音信号呈现出周期函数的部分特征。
S5:利用一中文翻译数据库将英文文字翻译为中文文字;
S6:利用一中文词性数据库对中文文字添加词性标签;
词性标签包括:主语、谓语、宾语、状语、补语和定语。
S7:利用词性标签和中文语序结构对中文文字排序;
中文语序结构包括:主谓、主谓宾、定主状谓、定主谓、主状谓、定主谓宾、主状谓宾、主谓补宾、定主状谓宾、定主谓补宾、主状谓补宾和定主状谓补宾。
中文语序结构共分为12种,划分为二维数组,存放语音句子。
中文句子中结构有12种,定义为char chsh[12][12]:(1)char chsh[0][0-12]主谓;(2)char chsh[1][0-12]主谓宾;(3)char chsh[2][0-12]定主状谓;(4)char chsh[3][0-12]定主谓;(5)char chsh[4][0-12]主状谓;(6)char chsh[5][0-12]定主谓宾;(7)char chsh[6][0-12]主状谓宾;(8)char chsh[7][0-12]主谓补宾;(9)char chsh[8][0-12]定主状谓宾;(10)char chsh[9][0-12]定主谓补宾;(11)char chsh[10][0-12]主状谓补宾;(12)char chsh[11][0-12]定主状谓补宾。
按照中文语序结构进行排序。
S8:验证并输出排序后的中文文字。
验证步骤包括步骤:
计算所有中文文字的词性标签的总数;
计算中文文字所组成的语句所对应的中文语序结构中词性的个数;
当词性标签的总数与词性的个数相等时通过验证。
通过词类衔接累计算法,按照句子中文语序结构,进行句子匹配衔接,匹配结束后,将提取出正确的语音信息。
例如:
步骤100:按照中文句子词性分类方法,进行排列;
步骤200:计数求和值,进行词性与句子结构逐个匹配,对应累加分数,总分成功而且语法词性正确,则含义正确,提取出符合的即为正确的含义;
步骤300:词序排序,按照中文句子结构再次匹配,最后得出的句子符合中文语序。
计数求和值,定义分数为:sum的具体步骤;对句子进行匹配判断,若识别出第一个词性为“主语”,分数sum=sum+1,且将第一个词性不为主语的全部句子舍去,识别出第二个词性为“谓语”,分数sum=sum+1但是句子未结束,则继续识别,且第一种结构(1)char chsh[0][0-12]主谓被舍弃,步骤循环直到句子结束。在将sum最后的分数值与规定句子的分数S进行比较,结构词性正确,而且分数相等,则正确。
中文句子中结构以及对应分数为:(1)主谓:S=2分(2)主谓宾:S=3分(3)定主状谓:S=4分(4)定主谓:S=3分(5)主状谓:S=3分(6)定主谓宾:S=4分(7)主状谓宾:S=4分(8)主谓补宾:S=4分(9)定主状谓宾:S=5分(10)定主谓补宾:S=5分(11)主状谓补宾:S=5分(12)定主状谓补宾:S=6分;符合一个词性即可加1分。
步骤400:输出句子的语序结构正确且分数累计总和正确,证明信息提取成功,可进行句子输出。
本发明实施例的一种中英文混合语音识别方法,通过中文语音识别系统和英文语音识别系统,进行句子含义转化;通过中文翻译数据库和进入中文词类属性数据库,进行两个语句的含义提取;通过词类衔接累计算法,进行语句的准确含义提取衔接;可以提取出其一句中英文混合的句子的相关的信息,来改善语音识别系统的只可以单一识别一种语言的不足。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。
Claims (9)
1.一种中英文混合语音识别方法,包括步骤:
S1:获取语音信号;
S2:将所述语音信号输入一中文语音识别系统,所述中文语音识别系统将所述语音信号中的中文部分识别为中文文字;
S3:判断所述语音信号中是否有尚未识别的部分,如无跳至步骤S6;
S4:将所述语音信号中尚未识别的部分输入一英文语音识别系统,所述英文语音识别系统将所述语音信号中尚未识别的部分识别为英文文字;
S5:利用一中文翻译数据库将所述英文文字翻译为中文文字;
S6:利用一中文词性数据库对所述中文文字添加词性标签;
S7:利用所述词性标签和中文语序结构对所述中文文字排序;
S8:验证并输出排序后的中文文字。
2.根据权利要求1所述的中英文混合语音识别方法,其特征在于,所述S2步骤进一步包括步骤:
S21:预处理,进行A/D转换;
S22:分帧加窗,将数字化后的所述语音信号分成多段数字语音信号;
S23:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到所述数字语音信号的倒谱;
S24:匹配判决,利用声学模型对所述数字语音信号的倒谱进行识别,获得所述中文文字。
3.根据权利要求2所述的中英文混合语音识别方法,其特征在于,所述S22进一步包括步骤:
S221:分帧,将数字化后的所述语音信号分成多段数字语音信号;
S222:对所述数字语音信号加窗。
4.根据权利要求3所述的中英文混合语音识别方法,其特征在于,所述声学模型包括HMM声学模型。
5.根据权利要求4所述的中英文混合语音识别方法,其特征在于,所述S4步骤进一步包括步骤:
S41:预处理,进行A/D转换;
S42:分帧加窗,将数字化后的所述语音信号分成多段数字语音信号;
S43:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到所述数字语音信号的倒谱;
S44:匹配判决,利用声学模型对所述数字语音信号的倒谱进行识别,获得所述英文文字。
6.根据权利要求5所述的中英文混合语音识别方法,其特征在于,所述S42进一步包括步骤:
S421:分帧,将数字化后的所述语音信号分成多段数字语音信号;
S422:对所述数字语音信号加窗。
7.根据权利要求6所述的中英文混合语音识别方法,其特征在于,所述S6步骤中,所述词性标签包括:主语、谓语、宾语、状语、补语和定语。
8.根据权利要求7所述的中英文混合语音识别方法,其特征在于,所述S7步骤中,所述中文语序结构包括:主谓、主谓宾、定主状谓、定主谓、主状谓、定主谓宾、主状谓宾、主谓补宾、定主状谓宾、定主谓补宾、主状谓补宾和定主状谓补宾。
9.根据权利要求8所述的中英文混合语音识别方法,其特征在于,所述S8步骤中的所述验证步骤包括步骤:
计算所有所述中文文字的所述词性标签的总数;
计算所述中文文字所组成的语句所对应的中文语序结构中词性的个数;
当所述词性标签的总数与所述词性的个数相等时通过验证。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010026451.8A CN111243597A (zh) | 2020-01-10 | 2020-01-10 | 中英文混合语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010026451.8A CN111243597A (zh) | 2020-01-10 | 2020-01-10 | 中英文混合语音识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111243597A true CN111243597A (zh) | 2020-06-05 |
Family
ID=70876135
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010026451.8A Withdrawn CN111243597A (zh) | 2020-01-10 | 2020-01-10 | 中英文混合语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111243597A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968646A (zh) * | 2020-08-25 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及装置 |
CN112037762A (zh) * | 2020-09-10 | 2020-12-04 | 中航华东光电(上海)有限公司 | 一种中英文混合语音识别方法 |
-
2020
- 2020-01-10 CN CN202010026451.8A patent/CN111243597A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968646A (zh) * | 2020-08-25 | 2020-11-20 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及装置 |
CN111968646B (zh) * | 2020-08-25 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及装置 |
CN112037762A (zh) * | 2020-09-10 | 2020-12-04 | 中航华东光电(上海)有限公司 | 一种中英文混合语音识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112002308A (zh) | 一种语音识别方法及装置 | |
CN111402862B (zh) | 语音识别方法、装置、存储介质及设备 | |
Dua et al. | GFCC based discriminatively trained noise robust continuous ASR system for Hindi language | |
CN101645271B (zh) | 发音质量评估系统中的置信度快速求取方法 | |
CN111640418B (zh) | 一种韵律短语识别方法、装置及电子设备 | |
Ghai et al. | Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study | |
CN102122507A (zh) | 一种运用人工神经网络进行前端处理的语音检错方法 | |
Khelifa et al. | Constructing accurate and robust HMM/GMM models for an Arabic speech recognition system | |
Keshet | Automatic speech recognition: A primer for speech-language pathology researchers | |
Jothilakshmi et al. | Large scale data enabled evolution of spoken language research and applications | |
CN113707125A (zh) | 一种多语言语音合成模型的训练方法及装置 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
Alsayadi et al. | Deep investigation of the recent advances in dialectal arabic speech recognition | |
CN113450757A (zh) | 语音合成方法、装置、电子设备及计算机可读存储介质 | |
CN111243597A (zh) | 中英文混合语音识别方法 | |
CN112651247A (zh) | 对话系统、对话处理方法、翻译装置和翻译方法 | |
Larabi-Marie-Sainte et al. | A new framework for Arabic recitation using speech recognition and the Jaro Winkler algorithm | |
Seng et al. | Which unit for acoustic and language modeling for Khmer Automatic Speech Recognition? | |
KR101145440B1 (ko) | 음성인식 기술을 이용한 외국어 말하기 평가 방법 및 시스템 | |
CN115424604B (zh) | 一种基于对抗生成网络的语音合成模型的训练方法 | |
Rao et al. | Language identification using excitation source features | |
CN114360537A (zh) | 口语问答的评分方法、训练方法、计算机设备及存储介质 | |
Jamtsho et al. | OCR and speech recognition system using machine learning | |
Pranjol et al. | Bengali speech recognition: An overview | |
Babykutty et al. | Development of multilingual phonetic engine for four Indian languages |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200605 |
|
WW01 | Invention patent application withdrawn after publication |