CN111243597A - 中英文混合语音识别方法 - Google Patents

中英文混合语音识别方法 Download PDF

Info

Publication number
CN111243597A
CN111243597A CN202010026451.8A CN202010026451A CN111243597A CN 111243597 A CN111243597 A CN 111243597A CN 202010026451 A CN202010026451 A CN 202010026451A CN 111243597 A CN111243597 A CN 111243597A
Authority
CN
China
Prior art keywords
chinese
speech
english
voice signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010026451.8A
Other languages
English (en)
Inventor
吴与同
范光宇
孙焜
张鹏飞
生洪源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Dianji University
Original Assignee
Shanghai Dianji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Dianji University filed Critical Shanghai Dianji University
Priority to CN202010026451.8A priority Critical patent/CN111243597A/zh
Publication of CN111243597A publication Critical patent/CN111243597A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种中英文混合语音识别方法,包括步骤:S1:获取语音信号;S2:将语音信号输入一中文语音识别系统,中文语音识别系统将语音信号中的中文部分识别为中文文字;S3:判断语音信号中是否有尚未识别的部分,如无跳至步骤S6;S4:将语音信号中尚未识别的部分输入一英文语音识别系统,英文语音识别系统将语音信号中尚未识别的部分识别为英文文字;S5:利用一中文翻译数据库将英文文字翻译为中文文字;S6:利用一中文词性数据库对中文文字添加词性标签;S7:利用词性标签和中文语序结构对中文文字排序;S8:验证并输出排序后的中文文字。本发明的一种中英文混合语音识别方法,可实现对中英文混合的句子进行识别。

Description

中英文混合语音识别方法
技术领域
本发明涉及信息处理领域,尤其涉及一种中英文混合语音识别方法。
背景技术
近几年,语音识别技术保持高速发展。语音识别是将语音转换为对应的文字的一种智能信息处理技术。将语音转换为文字有利于计算机终端进行进一步地处理,所以语音识别技术被广泛地用于各个领域并且成为很多设备的标配,手机端的语音助手,地图导航,智能音响等。
虽然现在的语音识别技术已经给人类带来了便利,总体让人满意,但是目前的语音识别系统只停留在单纯的中文识别和英文识别,无法同时进行中英文同时辨别,在中英混合识别方面仍然有很大的提升空间。
发明内容
针对上述现有技术中的不足,本发明提供一种中英文混合语音识别方法,可实现对中英文混合的句子进行识别。
为了实现上述目的,本发明提供一种中英文混合语音识别方法,包括步骤:
S1:获取语音信号;
S2:将所述语音信号输入一中文语音识别系统,所述中文语音识别系统将所述语音信号中的中文部分识别为中文文字;
S3:判断所述语音信号中是否有尚未识别的部分,如无跳至步骤S6;
S4:将所述语音信号中尚未识别的部分输入一英文语音识别系统,所述英文语音识别系统将所述语音信号中尚未识别的部分识别为英文文字;
S5:利用一中文翻译数据库将所述英文文字翻译为中文文字;
S6:利用一中文词性数据库对所述中文文字添加词性标签;
S7:利用所述词性标签和中文语序结构对所述中文文字排序;
S8:验证并输出排序后的中文文字。
优选地,所述S2步骤进一步包括步骤:
S21:预处理,进行A/D转换;
S22:分帧加窗,将数字化后的所述语音信号分成多段数字语音信号;
S23:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到所述数字语音信号的倒谱;
S24:匹配判决,利用声学模型对所述数字语音信号的倒谱进行识别,获得所述中文文字。
优选地,所述S22进一步包括步骤:
S221:分帧,将数字化后的所述语音信号分成多段数字语音信号;
S222:对所述数字语音信号加窗。
优选地,所述声学模型包括HMM声学模型。
优选地,所述S4步骤进一步包括步骤:
S41:预处理,进行A/D转换;
S42:分帧加窗,将数字化后的所述语音信号分成多段数字语音信号;
S43:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到所述数字语音信号的倒谱;
S44:匹配判决,利用声学模型对所述数字语音信号的倒谱进行识别,获得所述英文文字。
优选地,所述S42进一步包括步骤:
S421:分帧,将数字化后的所述语音信号分成多段数字语音信号;
S422:对所述数字语音信号加窗。
优选地,所述S6步骤中,所述词性标签包括:主语、谓语、宾语、状语、补语和定语。
优选地,所述S7步骤中,所述中文语序结构包括:主谓、主谓宾、定主状谓、定主谓、主状谓、定主谓宾、主状谓宾、主谓补宾、定主状谓宾、定主谓补宾、主状谓补宾和定主状谓补宾。
优选地,所述S8步骤中的所述验证步骤包括步骤:
计算所有所述中文文字的所述词性标签的总数;
计算所述中文文字所组成的语句所对应的中文语序结构中词性的个数;
当所述词性标签的总数与所述词性的个数相等时通过验证。
本发明由于采用了以上技术方案,使其具有以下有益效果:
通过中文语音识别系统、英文语音识别系统和中文词性数据库的配合,可实现对中英文混合的句子进行识别;克服了现有语音识别系统只能识别单一语言句子的问题。验证步骤的采用提高了识别语句的准确性。
附图说明
图1为本发明实施例的中英文混合语音识别方法的流程图。
具体实施方式
下面根据附图1,给出本发明的较佳实施例,并予以详细描述,使能更好地理解本发明的功能、特点。
请参阅图1,本发明实施例的一种中英文混合语音识别方法,包括步骤:
S1:获取语音信号;
S2:将语音信号输入一中文语音识别系统,中文语音识别系统将语音信号中的中文部分识别为中文文字;
其中,S2步骤进一步包括步骤:
S21:预处理,进行A/D转换;即对接收到的语音信号进行采集然后进行量化再然后进行编码,可以获得最初的语音信号中语音信息;
S22:分帧加窗,在预处理的信号之后,将语音信号分成多个窗口,将数字化后的语音信号分成多段数字语音信号;
S23:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到数字语音信号的倒谱;性预测倒谱系数(LPCC)既能实现它的预测功能,又能提供进行声道模型参数的提取过程,在性预测倒谱系数(LPCC)分析过程中首先将语音信号视作全极点形式,在线性预测分析(LPC)基础上进行运算:
C0=log10(G);
Figure BDA0002362649800000041
Figure BDA0002362649800000042
其中,C0为初始采样的倒谱系数;G为操作的增益,Cn为第n采样的倒谱系数;n为采样总数;k为当前采样;Ck为第k采样的倒谱系数;α为LPC得到的系数;p为LPC分析阶数。
S24:匹配判决,利用声学模型对数字语音信号的倒谱进行识别,获得中文文字。本实施例中,声学模型包括HMM声学模型。声学模型是将获取语言信息的发音标准与模式库中的发音标准进行匹配而设计的模型,它通过矢量量化的分析将不同发音模板提取出来。本实施例中,在采用HMM声学模型的基础上,引入了状态段长,对于不同语音段的划分提高了原始基本识别的性能,神经网络的引入也给模式匹配环节带来了性能的进步。
本实施例中,S22进一步包括步骤:
S221:分帧,将数字化后的语音信号分成多段数字语音信号;
接收到的一段语音信号整体是不平稳的,但是局部上可以看作是平稳的。而在后期的语音处理中需要的是平稳信号,所以要对整段语音信号分帧,也就是切分成很多段。在10-30ms范围内都可以认为信号是稳定的,一般奖不少于20ms定义为一帧,1/2左右时长为帧移分帧。帧移,即为相邻两帧间的重叠部分,是为了避免相邻两帧的变化过大。将语音信号划分为很多短时的语音段,每个短时的语音段称为一个分析帧;
S222:对数字语音信号加窗。
每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。加窗可以使得,分帧后的信号变得连续,每一帧就会表现出周期函数的特征。加窗之后,原本没有周期性的语音信号呈现出周期函数的部分特征。
S3:判断语音信号中是否有尚未识别的部分,如无跳至步骤S6;
S4:将语音信号中尚未识别的部分输入一英文语音识别系统,英文语音识别系统将语音信号中尚未识别的部分识别为英文文字;
其中,S4步骤进一步包括步骤:
S41:预处理,进行A/D转换;
S42:分帧加窗,将数字化后的语音信号分成多段数字语音信号;
S43:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到数字语音信号的倒谱;性预测倒谱系数(LPCC)既能实现它的预测功能,又能提供进行声道模型参数的提取过程,在性预测倒谱系数(LPCC)分析过程中首先将语音信号视作全极点形式,在线性预测分析(LPC)基础上进行运算:
C0=log10(G);
Figure BDA0002362649800000051
Figure BDA0002362649800000052
其中,C0为初始采样的倒谱系数;G为操作的增益;Cn为第n采样的倒谱系数;n为采样总数;k为当前采样;Ck为第k采样的倒谱系数;α为LPC得到的系数;p为LPC分析阶数。
傅里叶变换,即能将满足一定条件的某个函数表示成三角函数(正弦和/或余弦函数)或者它们的积分的线性组合。使用傅里叶变换进行语音信号的函数图像转化。实现对数运算再取傅里叶反经过变换即可得到信号的倒谱,生成函数图像。
LPCC使用10多个倒谱系数代表共振峰的特性,有很好的性能。
在线性预测分析(LPC)。
S44:匹配判决,利用声学模型对数字语音信号的倒谱进行识别,获得英文文字。本实施例中,声学模型包括HMM声学模型。声学模型是将获取语言信息的发音标准与模式库中的发音标准进行匹配而设计的模型,它通过矢量量化的分析将不同发音模板提取出来。本实施例中,在采用HMM声学模型的基础上,引入了状态段长,对于不同语音段的划分提高了原始基本识别的性能,神经网络的引入也给模式匹配环节带来了性能的进步。
其中,S42进一步包括步骤:
S421:分帧,将数字化后的语音信号分成多段数字语音信号;
接收到的一段语音信号整体是不平稳的,但是局部上可以看作是平稳的。而在后期的语音处理中需要的是平稳信号,所以要对整段语音信号分帧,也就是切分成很多段。在10-30ms范围内都可以认为信号是稳定的,一般奖不少于20ms定义为一帧,1/2左右时长为帧移分帧。帧移,即为相邻两帧间的重叠部分,是为了避免相邻两帧的变化过大。将语音信号划分为很多短时的语音段,每个短时的语音段称为一个分析帧
S422:对数字语音信号加窗。
每一帧的起始段和末尾端会出现不连续的地方,所以分帧越多与原始信号的误差也就越大。加窗可以使得,分帧后的信号变得连续,每一帧就会表现出周期函数的特征。加窗之后,原本没有周期性的语音信号呈现出周期函数的部分特征。
S5:利用一中文翻译数据库将英文文字翻译为中文文字;
S6:利用一中文词性数据库对中文文字添加词性标签;
词性标签包括:主语、谓语、宾语、状语、补语和定语。
S7:利用词性标签和中文语序结构对中文文字排序;
中文语序结构包括:主谓、主谓宾、定主状谓、定主谓、主状谓、定主谓宾、主状谓宾、主谓补宾、定主状谓宾、定主谓补宾、主状谓补宾和定主状谓补宾。
中文语序结构共分为12种,划分为二维数组,存放语音句子。
中文句子中结构有12种,定义为char chsh[12][12]:(1)char chsh[0][0-12]主谓;(2)char chsh[1][0-12]主谓宾;(3)char chsh[2][0-12]定主状谓;(4)char chsh[3][0-12]定主谓;(5)char chsh[4][0-12]主状谓;(6)char chsh[5][0-12]定主谓宾;(7)char chsh[6][0-12]主状谓宾;(8)char chsh[7][0-12]主谓补宾;(9)char chsh[8][0-12]定主状谓宾;(10)char chsh[9][0-12]定主谓补宾;(11)char chsh[10][0-12]主状谓补宾;(12)char chsh[11][0-12]定主状谓补宾。
按照中文语序结构进行排序。
S8:验证并输出排序后的中文文字。
验证步骤包括步骤:
计算所有中文文字的词性标签的总数;
计算中文文字所组成的语句所对应的中文语序结构中词性的个数;
当词性标签的总数与词性的个数相等时通过验证。
通过词类衔接累计算法,按照句子中文语序结构,进行句子匹配衔接,匹配结束后,将提取出正确的语音信息。
例如:
步骤100:按照中文句子词性分类方法,进行排列;
步骤200:计数求和值,进行词性与句子结构逐个匹配,对应累加分数,总分成功而且语法词性正确,则含义正确,提取出符合的即为正确的含义;
步骤300:词序排序,按照中文句子结构再次匹配,最后得出的句子符合中文语序。
计数求和值,定义分数为:sum的具体步骤;对句子进行匹配判断,若识别出第一个词性为“主语”,分数sum=sum+1,且将第一个词性不为主语的全部句子舍去,识别出第二个词性为“谓语”,分数sum=sum+1但是句子未结束,则继续识别,且第一种结构(1)char chsh[0][0-12]主谓被舍弃,步骤循环直到句子结束。在将sum最后的分数值与规定句子的分数S进行比较,结构词性正确,而且分数相等,则正确。
中文句子中结构以及对应分数为:(1)主谓:S=2分(2)主谓宾:S=3分(3)定主状谓:S=4分(4)定主谓:S=3分(5)主状谓:S=3分(6)定主谓宾:S=4分(7)主状谓宾:S=4分(8)主谓补宾:S=4分(9)定主状谓宾:S=5分(10)定主谓补宾:S=5分(11)主状谓补宾:S=5分(12)定主状谓补宾:S=6分;符合一个词性即可加1分。
步骤400:输出句子的语序结构正确且分数累计总和正确,证明信息提取成功,可进行句子输出。
本发明实施例的一种中英文混合语音识别方法,通过中文语音识别系统和英文语音识别系统,进行句子含义转化;通过中文翻译数据库和进入中文词类属性数据库,进行两个语句的含义提取;通过词类衔接累计算法,进行语句的准确含义提取衔接;可以提取出其一句中英文混合的句子的相关的信息,来改善语音识别系统的只可以单一识别一种语言的不足。
以上结合附图实施例对本发明进行了详细说明,本领域中普通技术人员可根据上述说明对本发明做出种种变化例。因而,实施例中的某些细节不应构成对本发明的限定,本发明将以所附权利要求书界定的范围作为本发明的保护范围。

Claims (9)

1.一种中英文混合语音识别方法,包括步骤:
S1:获取语音信号;
S2:将所述语音信号输入一中文语音识别系统,所述中文语音识别系统将所述语音信号中的中文部分识别为中文文字;
S3:判断所述语音信号中是否有尚未识别的部分,如无跳至步骤S6;
S4:将所述语音信号中尚未识别的部分输入一英文语音识别系统,所述英文语音识别系统将所述语音信号中尚未识别的部分识别为英文文字;
S5:利用一中文翻译数据库将所述英文文字翻译为中文文字;
S6:利用一中文词性数据库对所述中文文字添加词性标签;
S7:利用所述词性标签和中文语序结构对所述中文文字排序;
S8:验证并输出排序后的中文文字。
2.根据权利要求1所述的中英文混合语音识别方法,其特征在于,所述S2步骤进一步包括步骤:
S21:预处理,进行A/D转换;
S22:分帧加窗,将数字化后的所述语音信号分成多段数字语音信号;
S23:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到所述数字语音信号的倒谱;
S24:匹配判决,利用声学模型对所述数字语音信号的倒谱进行识别,获得所述中文文字。
3.根据权利要求2所述的中英文混合语音识别方法,其特征在于,所述S22进一步包括步骤:
S221:分帧,将数字化后的所述语音信号分成多段数字语音信号;
S222:对所述数字语音信号加窗。
4.根据权利要求3所述的中英文混合语音识别方法,其特征在于,所述声学模型包括HMM声学模型。
5.根据权利要求4所述的中英文混合语音识别方法,其特征在于,所述S4步骤进一步包括步骤:
S41:预处理,进行A/D转换;
S42:分帧加窗,将数字化后的所述语音信号分成多段数字语音信号;
S43:信息提取,通过傅里叶变换谱经对数运算再取傅里叶反变得到所述数字语音信号的倒谱;
S44:匹配判决,利用声学模型对所述数字语音信号的倒谱进行识别,获得所述英文文字。
6.根据权利要求5所述的中英文混合语音识别方法,其特征在于,所述S42进一步包括步骤:
S421:分帧,将数字化后的所述语音信号分成多段数字语音信号;
S422:对所述数字语音信号加窗。
7.根据权利要求6所述的中英文混合语音识别方法,其特征在于,所述S6步骤中,所述词性标签包括:主语、谓语、宾语、状语、补语和定语。
8.根据权利要求7所述的中英文混合语音识别方法,其特征在于,所述S7步骤中,所述中文语序结构包括:主谓、主谓宾、定主状谓、定主谓、主状谓、定主谓宾、主状谓宾、主谓补宾、定主状谓宾、定主谓补宾、主状谓补宾和定主状谓补宾。
9.根据权利要求8所述的中英文混合语音识别方法,其特征在于,所述S8步骤中的所述验证步骤包括步骤:
计算所有所述中文文字的所述词性标签的总数;
计算所述中文文字所组成的语句所对应的中文语序结构中词性的个数;
当所述词性标签的总数与所述词性的个数相等时通过验证。
CN202010026451.8A 2020-01-10 2020-01-10 中英文混合语音识别方法 Withdrawn CN111243597A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010026451.8A CN111243597A (zh) 2020-01-10 2020-01-10 中英文混合语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010026451.8A CN111243597A (zh) 2020-01-10 2020-01-10 中英文混合语音识别方法

Publications (1)

Publication Number Publication Date
CN111243597A true CN111243597A (zh) 2020-06-05

Family

ID=70876135

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010026451.8A Withdrawn CN111243597A (zh) 2020-01-10 2020-01-10 中英文混合语音识别方法

Country Status (1)

Country Link
CN (1) CN111243597A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968646A (zh) * 2020-08-25 2020-11-20 腾讯科技(深圳)有限公司 一种语音识别方法及装置
CN112037762A (zh) * 2020-09-10 2020-12-04 中航华东光电(上海)有限公司 一种中英文混合语音识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968646A (zh) * 2020-08-25 2020-11-20 腾讯科技(深圳)有限公司 一种语音识别方法及装置
CN111968646B (zh) * 2020-08-25 2023-10-13 腾讯科技(深圳)有限公司 一种语音识别方法及装置
CN112037762A (zh) * 2020-09-10 2020-12-04 中航华东光电(上海)有限公司 一种中英文混合语音识别方法

Similar Documents

Publication Publication Date Title
CN112002308A (zh) 一种语音识别方法及装置
CN111402862B (zh) 语音识别方法、装置、存储介质及设备
Dua et al. GFCC based discriminatively trained noise robust continuous ASR system for Hindi language
CN101645271B (zh) 发音质量评估系统中的置信度快速求取方法
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
Ghai et al. Analysis of automatic speech recognition systems for indo-aryan languages: Punjabi a case study
CN102122507A (zh) 一种运用人工神经网络进行前端处理的语音检错方法
Khelifa et al. Constructing accurate and robust HMM/GMM models for an Arabic speech recognition system
Keshet Automatic speech recognition: A primer for speech-language pathology researchers
Jothilakshmi et al. Large scale data enabled evolution of spoken language research and applications
CN113707125A (zh) 一种多语言语音合成模型的训练方法及装置
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
Alsayadi et al. Deep investigation of the recent advances in dialectal arabic speech recognition
CN113450757A (zh) 语音合成方法、装置、电子设备及计算机可读存储介质
CN111243597A (zh) 中英文混合语音识别方法
CN112651247A (zh) 对话系统、对话处理方法、翻译装置和翻译方法
Larabi-Marie-Sainte et al. A new framework for Arabic recitation using speech recognition and the Jaro Winkler algorithm
Seng et al. Which unit for acoustic and language modeling for Khmer Automatic Speech Recognition?
KR101145440B1 (ko) 음성인식 기술을 이용한 외국어 말하기 평가 방법 및 시스템
CN115424604B (zh) 一种基于对抗生成网络的语音合成模型的训练方法
Rao et al. Language identification using excitation source features
CN114360537A (zh) 口语问答的评分方法、训练方法、计算机设备及存储介质
Jamtsho et al. OCR and speech recognition system using machine learning
Pranjol et al. Bengali speech recognition: An overview
Babykutty et al. Development of multilingual phonetic engine for four Indian languages

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20200605

WW01 Invention patent application withdrawn after publication