CN109493846B - 一种英语口音识别系统 - Google Patents

一种英语口音识别系统 Download PDF

Info

Publication number
CN109493846B
CN109493846B CN201811371012.XA CN201811371012A CN109493846B CN 109493846 B CN109493846 B CN 109493846B CN 201811371012 A CN201811371012 A CN 201811371012A CN 109493846 B CN109493846 B CN 109493846B
Authority
CN
China
Prior art keywords
english
word
american
probability
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811371012.XA
Other languages
English (en)
Other versions
CN109493846A (zh
Inventor
钟建生
杨智
高聪
蒋秋燕
李坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Speechx Ltd
Original Assignee
Speechx Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Speechx Ltd filed Critical Speechx Ltd
Priority to CN201811371012.XA priority Critical patent/CN109493846B/zh
Publication of CN109493846A publication Critical patent/CN109493846A/zh
Application granted granted Critical
Publication of CN109493846B publication Critical patent/CN109493846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种英语口音识别系统,包括如下步骤,S1:训练多任务多口音模型;S2:识别模块对音频做口音识别;步骤S1完成对口音模型数据库的建立、模型目标函数的建立,以及函数数据的后续处理;步骤S2完成对数据语音信息的处理,先完成单个文本单词的处理,提取单词的美式音素序列和英式音素序列,然后针对整段文本音频进行处理,获取音频特征,最后根据S1中的多任务多口音模型获得音素的后验概率,求出每个单词发音的概率,最后将概率转化,进一步求出整个文本英式/美式发音的概率;本发明能够完成英文文本阅读语音的英式、美式发音的检测,并通过概率的方式呈现出来,便于用户了解,进一步的改进。

Description

一种英语口音识别系统
技术领域
本发明涉及语音信息处理技术领域,具体为一种英语口音识别系统。
背景技术
由于英语口音分有美式英语和英式英语两种,二者口音有所差距,口音上的问题很难得以发现和纠正。
发明内容
本发明要解决的技术问题是英语口音分为美式英语和英式英语,口音上出现的问题难以发现和解决,提供一种英语口音识别系统,从而解决上述问题。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种英语口音识别系统,包括如下步骤,
S1:训练多任务多口音模型;
S2:识别模块对音频做口音识别;
步骤S1中还包括如下步骤,
S11:建立英式、美式口音的数据库,并对数据进行音素级别的标注;
S12:构建多任务多口音的声学模型;
S13:设置目标函数,并对函数进行相关处理;
S14:函数优化;
步骤S2中包括如下步骤,
S21:根据用户输入的语音信息,将用户输入的文本分割成单词序列,提取每个单词的英式、美式音素序列;
S22:对整个文本音频,获取音频特征;
S23:求出步骤S21中每个单词英式音素的后验概率和美式音素的后验概率,并求出每个单词英式/美式发音的概率;
S24:归一化处理,转化每个单词英式/美式发音的概率,并获取整个文本英式/美式发音的概率。
作为本发明的一种优选技术方案,所述步骤S12中,多任务多口音的声学模型是一个深度神经网络,输出两个数据,其一是英式音素
Figure GDA0002995261510000021
发音的后验概率
Figure GDA0002995261510000022
其二是美式音素
Figure GDA0002995261510000023
发音的后验概率
Figure GDA0002995261510000024
作为本发明的一种优选技术方案,所述步骤S13中,定义文本的第k个单词为Wk,其英式音素序列为
Figure GDA0002995261510000025
其美式音素序列为
Figure GDA0002995261510000026
Figure GDA0002995261510000027
单词Wk的英式发音后验概率为:
Figure GDA0002995261510000028
单词Wk的美式发音后验概率为:
Figure GDA0002995261510000029
ωi是对应音素的权重,定义L(Wk)为音频对应的英美音标注,如果L(Wk)=1,则Wk标注为英音,如果L(Wk)=0,则Wk标注为美音;目标函数为:E=[P(Wk)-L(Wk)]2。作为本发明的一种优选技术方案,所述步骤S13中,目标函数对参数ωi求导:
Figure GDA00029952615100000210
之后进行迭代:
Figure GDA00029952615100000211
从而获得最优的参数ωi
作为本发明的一种优选技术方案,所述步骤S21中,定义文本内容为W,第u个单词为Wu,单词Wu的英式音素序列为
Figure GDA00029952615100000212
单词Wu的美式音素序列为
Figure GDA00029952615100000213
Figure GDA00029952615100000214
作为本发明的一种优选技术方案,所述步骤S22中,将用户的语音信息进行快速傅里叶变换,并利用汉明窗函数进行分帧处理,窗长25毫秒,帧移10毫秒。从每一帧的信息中提取一组13维的Mel频率倒谱系数特征,分别对每一维度的特征进行归一化处理,使之平均值为0,标准方差为1,得到所述第t帧的声学特征xt;也可以使用21帧的Mel频率倒谱系数特征(即前10帧、当前帧、后10帧)作为声学特征xt
作为本发明的一种优选技术方案,所述步骤S23中,
Figure GDA0002995261510000031
中第i个音素的后验概率为:
Figure GDA0002995261510000032
Figure GDA0002995261510000033
Figure GDA0002995261510000034
中第i个音素的后验概率为:
Figure GDA0002995261510000035
单词Wu的英式发音概率:
Figure GDA0002995261510000036
单词Wu的美式发音概率:
Figure GDA0002995261510000037
作为本发明的一种优选技术方案,所述步骤S24中,单词Wu的英式发音概率转换为:
Figure GDA0002995261510000038
单词Wu的美式发音概率转换为:
Figure GDA0002995261510000039
文本W的英式发音概率:
Figure GDA00029952615100000310
文本W的美式发音概率:
Figure GDA00029952615100000311
本发明所达到的有益效果是:本发明通过设置美式英语和英式英语的数据库,并建立相关模型数据,对数据进行处理;在获取使用者语音消息之后,将使用者语音分成单个音素与模型进行比较,之后针对语音分段按帧进行比对,最后获得单词的发音概率,转换获得整个文本的发音概率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明整体步骤流程图;
图2是本发明步骤S1流程图;
图3是本发明步骤S2流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-3所示,本发明提供一种英语口音识别系统,包括如下步骤,
S1:训练多任务多口音模型;
S2:识别模块对音频做口音识别;
步骤S1中还包括如下步骤,
S11:建立英式、美式口音的数据库,并对数据进行音素级别的标注;
S12:构建多任务多口音的声学模型;
S13:设置目标函数,并对函数进行相关处理;
S14:函数优化;
步骤S2中包括如下步骤,
S21:根据用户输入的语音信息,将用户输入的文本分割成单词序列,提取每个单词的英式、美式音素序列;
S22:对整个文本音频,获取音频特征;
S23:求出步骤S21中每个单词英式音素的后验概率和美式音素的后验概率,并求出每个单词英式/美式发音的概率;
S24:归一化处理,转化每个单词英式/美式发音的概率,并获取整个文本英式/美式发音的概率。
进一步的,所述步骤S12中,多任务多口音的声学模型是一个深度神经网络,输出两个数据,其一是英式音素
Figure GDA0002995261510000041
发音的后验概率
Figure GDA0002995261510000042
其二是美式音素
Figure GDA0002995261510000043
发音的后验概率
Figure GDA0002995261510000044
进一步的,所述步骤S13中,定义文本的第k个单词为Wk,其英式音素序列为
Figure GDA0002995261510000045
Figure GDA0002995261510000046
其美式音素序列为
Figure GDA0002995261510000047
单词Wk的英式发音后验概率为:
Figure GDA0002995261510000048
单词Wk的美式发音后验概率为:
Figure GDA0002995261510000049
ωi是对应音素的权重,定义L(Wk)为音频对应的英美音标注,如果L(Wk)=1,则Wk标注为英音,如果L(Wk)=0,则Wk标注为美音;目标函数为:E=[P(Wk)-L(Wk)]2。
进一步的,所述步骤S13中,目标函数对参数ωi求导:
Figure GDA00029952615100000410
之后进行迭代:
Figure GDA0002995261510000051
从而获得最优的参数ωi
进一步的,所述步骤S21中,定义文本内容为W,第u个单词为Wu,单词Wu的英式音素序列为
Figure GDA0002995261510000052
单词Wu的美式音素序列为
Figure GDA0002995261510000053
Figure GDA0002995261510000054
进一步的,所述步骤S22中,将用户的语音信息进行快速傅里叶变换,并利用汉明窗函数进行分帧处理,窗长25毫秒,帧移10毫秒。从每一帧的信息中提取一组13维的Mel频率倒谱系数特征,分别对每一维度的特征进行归一化处理,使之平均值为0,标准方差为1,得到所述第t帧的声学特征xt;也可以使用21帧的Mel频率倒谱系数特征(即前10帧、当前帧、后10帧)作为声学特征xt
进一步的,所述步骤S23中,
Figure GDA0002995261510000055
中第i个音素的后验概率为:
Figure GDA0002995261510000056
Figure GDA0002995261510000057
中第i个音素的后验概率为:
Figure GDA0002995261510000058
单词Wu的英式发音概率:
Figure GDA0002995261510000059
单词Wu的美式发音概率:
Figure GDA00029952615100000510
进一步的,所述步骤S24中,单词Wu的英式发音概率转换为:
Figure GDA00029952615100000511
单词Wu的美式发音概率转换为:
Figure GDA00029952615100000512
文本W的英式发音概率:
Figure GDA00029952615100000513
文本W的美式发音概率:
Figure GDA00029952615100000514
具体的:步骤S1中建立美式英语和英式英语数据库以及建立多任务多口音模型,步骤S2中获取使用者文本读音,获取音频特征,通过比对计算,获得最终结果,文本的发音概率。
步骤S11中建立模型,在步骤S12中,模型输出数据英式音素发音的后验概率和美式音素发音的后验概率,用于在步骤S13中获取单个单词的发音后验概率;同时根据在步骤S13中建立的函数,对函数的参数求导,训练模型,获得最优的参数。
步骤S21中,根据用户输入语音文本,将语音分割成单个的单词,并获取单词的发音音素序列,在步骤S22提取音频特征,将音频信息按照25帧或21帧,获取Mel频率倒谱系数特征,设置平均值为0,方差为1,得到第t帧的声学特征;在步骤S23中,获得单词中第i个音素的后验概率和每个单词美式/英式发音概率,并在步骤S24中将概率转化,同时根据单词的发音概率获得整个文本的美式/英式发音概率。
最后应说明的是:以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种英语口音识别系统,其特征在于,包括如下步骤,
S1:训练多任务多口音模型;
S2:识别模块对音频做口音识别;
步骤S1中还包括如下步骤,
S11:建立英式、美式口音的数据库,并对数据进行音素级别的标注;
S12:构建多任务多口音的声学模型;
S13:设置目标函数,并对函数进行相关处理;
S14:函数优化;
其中,所述步骤S12中,多任务多口音的声学模型是一个深度神经网络,输出两个数据,其一是英式音素
Figure FDA0002971252420000011
发音的后验概率
Figure FDA0002971252420000012
其二是美式音素
Figure FDA0002971252420000013
发音的后验概率
Figure FDA0002971252420000014
所述步骤S13中,定义文本的第k个单词为Wk,其英式音素序列为
Figure FDA0002971252420000015
Figure FDA0002971252420000016
其美式音素序列为
Figure FDA0002971252420000017
单词Wk的英式发音后验概率为:
Figure FDA0002971252420000018
单词Wk的美式发音后验概率为:
Figure FDA0002971252420000019
ωi是对应音素的权重,定义L(Wk)为音频对应的英美音标注,如果L(Wk)=1,则Wk标注为英音,如果L(Wk)=0,则Wk标注为美音;目标函数为:E=[P(Wk)-L(Wk)]2
步骤S2中包括如下步骤,
S21:根据用户输入的语音信息,将用户输入的文本分割成单词序列,提取每个单词的英式、美式音素序列;
S22:对整个文本音频,获取音频特征;
S23:求出步骤S21中每个单词英式音素的后验概率和美式音素的后验概率,并求出每个单词英式/美式发音的概率;
S24:归一化处理,转化每个单词英式/美式发音的概率,并获取整个文本英式/美式发音的概率。
2.根据权利要求1所述的一种英语口音识别系统,其特征在于,所述步骤S13中,目标函数对参数ωi求导:
Figure FDA0002971252420000021
之后进行迭代:
Figure FDA0002971252420000022
从而获得最优的参数ωi
3.根据权利要求1所述的一种英语口音识别系统,其特征在于,所述步骤S21中,定义文本内容为W,第u个单词为Wu,单词Wu的英式音素序列为
Figure FDA0002971252420000023
单词Wu的美式音素序列为
Figure FDA0002971252420000024
4.根据权利要求1所述的一种英语口音识别系统,其特征在于,所述步骤S22中,将用户的语音信息进行快速傅里叶变换,并利用汉明窗函数进行分帧处理,窗长25毫秒,帧移10毫秒; 从每一帧的信息中提取一组13维的Mel频率倒谱系数特征,分别对每一维度的特征进行归一化处理,使之平均值为0,标准方差为1,得到第t帧的声学特征xt;也可以使用21帧的Mel频率倒谱系数特征即前10帧、当前帧、后10帧作为声学特征xt
5.根据权利要求1所述的一种英语口音识别系统,其特征在于,所述步骤S23中,
Figure FDA0002971252420000025
中第i个音素的后验概率为:
Figure FDA0002971252420000026
Figure FDA0002971252420000027
中第i个音素的后验概率为:
Figure FDA0002971252420000028
单词Wu的英式发音概率:
Figure FDA0002971252420000029
单词Wu的美式发音概率:
Figure FDA00029712524200000210
6.根据权利要求1所述的一种英语口音识别系统,其特征在于,所述步骤S24中,单词Wu的英式发音概率转换为:
Figure FDA0002971252420000031
单词的美式发音概率转换为:
Figure FDA0002971252420000032
文本W的英式发音概率:
Figure FDA0002971252420000033
文本W的美式发音概率:
Figure FDA0002971252420000034
CN201811371012.XA 2018-11-18 2018-11-18 一种英语口音识别系统 Active CN109493846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811371012.XA CN109493846B (zh) 2018-11-18 2018-11-18 一种英语口音识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811371012.XA CN109493846B (zh) 2018-11-18 2018-11-18 一种英语口音识别系统

Publications (2)

Publication Number Publication Date
CN109493846A CN109493846A (zh) 2019-03-19
CN109493846B true CN109493846B (zh) 2021-06-08

Family

ID=65696086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811371012.XA Active CN109493846B (zh) 2018-11-18 2018-11-18 一种英语口音识别系统

Country Status (1)

Country Link
CN (1) CN109493846B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136687B (zh) * 2019-05-20 2021-06-15 深圳市数字星河科技有限公司 一种基于语音训练克隆口音及声韵方法
CN112562675B (zh) * 2019-09-09 2024-05-24 北京小米移动软件有限公司 语音信息处理方法、装置及存储介质
CN111933110B (zh) * 2020-08-12 2021-10-29 北京字节跳动网络技术有限公司 视频生成方法、生成模型训练方法、装置、介质及设备
CN112216270B (zh) * 2020-10-09 2024-02-06 携程计算机技术(上海)有限公司 语音音素的识别方法及系统、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
JP2016156870A (ja) * 2015-02-23 2016-09-01 日本電信電話株式会社 言語識別モデル学習装置、言語識別装置、言語識別モデル学習方法、言語識別方法、プログラム、および記録媒体
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端
CN108510976A (zh) * 2017-02-24 2018-09-07 芋头科技(杭州)有限公司 一种多语言混合语音识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104681036A (zh) * 2014-11-20 2015-06-03 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN104575490A (zh) * 2014-12-30 2015-04-29 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
JP2016156870A (ja) * 2015-02-23 2016-09-01 日本電信電話株式会社 言語識別モデル学習装置、言語識別装置、言語識別モデル学習方法、言語識別方法、プログラム、および記録媒体
CN105632501A (zh) * 2015-12-30 2016-06-01 中国科学院自动化研究所 一种基于深度学习技术的自动口音分类方法及装置
CN108510976A (zh) * 2017-02-24 2018-09-07 芋头科技(杭州)有限公司 一种多语言混合语音识别方法
CN108389573A (zh) * 2018-02-09 2018-08-10 北京易真学思教育科技有限公司 语种识别方法及装置、训练方法及装置、介质、终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于深层神经网络的口语发音检测与错误分析;胡文凭;《中国博士学位论文全文数据库 信息科技辑》;20160915(第09期);I136-4 *

Also Published As

Publication number Publication date
CN109493846A (zh) 2019-03-19

Similar Documents

Publication Publication Date Title
CN109493846B (zh) 一种英语口音识别系统
US11514891B2 (en) Named entity recognition method, named entity recognition equipment and medium
US10074363B2 (en) Method and apparatus for keyword speech recognition
KR100815115B1 (ko) 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치
US8478591B2 (en) Phonetic variation model building apparatus and method and phonetic recognition system and method thereof
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
JP2017058674A (ja) 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器
JPH075892A (ja) 音声認識方法
CN110930981A (zh) 多对一语音转换系统
US20030093269A1 (en) Method and apparatus for denoising and deverberation using variational inference and strong speech models
US11763801B2 (en) Method and system for outputting target audio, readable storage medium, and electronic device
Ghule et al. Feature extraction techniques for speech recognition: A review
JPH086587A (ja) 動的特徴を使用した音声認識方法及び装置
Le et al. First steps in fast acoustic modeling for a new target language: application to Vietnamese
CN112466287A (zh) 一种语音分割方法、装置以及计算机可读存储介质
CN110390948B (zh) 一种快速语音识别的方法及系统
JP2955297B2 (ja) 音声認識システム
US20140142925A1 (en) Self-organizing unit recognition for speech and other data series
CN112885335B (zh) 语音识别方法及相关装置
CN112686041A (zh) 一种拼音标注方法及装置
Mohanty et al. Isolated Odia digit recognition using HTK: an implementation view
CN111402887A (zh) 一种语音转义文字的方法及装置
Dalva Automatic speech recognition system for Turkish spoken language
CN113689885A (zh) 基于语音信号处理的智能辅助引导系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant