CN109493846B - 一种英语口音识别系统 - Google Patents
一种英语口音识别系统 Download PDFInfo
- Publication number
- CN109493846B CN109493846B CN201811371012.XA CN201811371012A CN109493846B CN 109493846 B CN109493846 B CN 109493846B CN 201811371012 A CN201811371012 A CN 201811371012A CN 109493846 B CN109493846 B CN 109493846B
- Authority
- CN
- China
- Prior art keywords
- english
- word
- american
- probability
- pronunciation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010606 normalization Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 238000009795 derivation Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种英语口音识别系统,包括如下步骤,S1:训练多任务多口音模型;S2:识别模块对音频做口音识别;步骤S1完成对口音模型数据库的建立、模型目标函数的建立,以及函数数据的后续处理;步骤S2完成对数据语音信息的处理,先完成单个文本单词的处理,提取单词的美式音素序列和英式音素序列,然后针对整段文本音频进行处理,获取音频特征,最后根据S1中的多任务多口音模型获得音素的后验概率,求出每个单词发音的概率,最后将概率转化,进一步求出整个文本英式/美式发音的概率;本发明能够完成英文文本阅读语音的英式、美式发音的检测,并通过概率的方式呈现出来,便于用户了解,进一步的改进。
Description
技术领域
本发明涉及语音信息处理技术领域,具体为一种英语口音识别系统。
背景技术
由于英语口音分有美式英语和英式英语两种,二者口音有所差距,口音上的问题很难得以发现和纠正。
发明内容
本发明要解决的技术问题是英语口音分为美式英语和英式英语,口音上出现的问题难以发现和解决,提供一种英语口音识别系统,从而解决上述问题。
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明提供一种英语口音识别系统,包括如下步骤,
S1:训练多任务多口音模型;
S2:识别模块对音频做口音识别;
步骤S1中还包括如下步骤,
S11:建立英式、美式口音的数据库,并对数据进行音素级别的标注;
S12:构建多任务多口音的声学模型;
S13:设置目标函数,并对函数进行相关处理;
S14:函数优化;
步骤S2中包括如下步骤,
S21:根据用户输入的语音信息,将用户输入的文本分割成单词序列,提取每个单词的英式、美式音素序列;
S22:对整个文本音频,获取音频特征;
S23:求出步骤S21中每个单词英式音素的后验概率和美式音素的后验概率,并求出每个单词英式/美式发音的概率;
S24:归一化处理,转化每个单词英式/美式发音的概率,并获取整个文本英式/美式发音的概率。
ωi是对应音素的权重,定义L(Wk)为音频对应的英美音标注,如果L(Wk)=1,则Wk标注为英音,如果L(Wk)=0,则Wk标注为美音;目标函数为:E=[P(Wk)-L(Wk)]2。作为本发明的一种优选技术方案,所述步骤S13中,目标函数对参数ωi求导:
作为本发明的一种优选技术方案,所述步骤S22中,将用户的语音信息进行快速傅里叶变换,并利用汉明窗函数进行分帧处理,窗长25毫秒,帧移10毫秒。从每一帧的信息中提取一组13维的Mel频率倒谱系数特征,分别对每一维度的特征进行归一化处理,使之平均值为0,标准方差为1,得到所述第t帧的声学特征xt;也可以使用21帧的Mel频率倒谱系数特征(即前10帧、当前帧、后10帧)作为声学特征xt。
本发明所达到的有益效果是:本发明通过设置美式英语和英式英语的数据库,并建立相关模型数据,对数据进行处理;在获取使用者语音消息之后,将使用者语音分成单个音素与模型进行比较,之后针对语音分段按帧进行比对,最后获得单词的发音概率,转换获得整个文本的发音概率。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明整体步骤流程图;
图2是本发明步骤S1流程图;
图3是本发明步骤S2流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例:如图1-3所示,本发明提供一种英语口音识别系统,包括如下步骤,
S1:训练多任务多口音模型;
S2:识别模块对音频做口音识别;
步骤S1中还包括如下步骤,
S11:建立英式、美式口音的数据库,并对数据进行音素级别的标注;
S12:构建多任务多口音的声学模型;
S13:设置目标函数,并对函数进行相关处理;
S14:函数优化;
步骤S2中包括如下步骤,
S21:根据用户输入的语音信息,将用户输入的文本分割成单词序列,提取每个单词的英式、美式音素序列;
S22:对整个文本音频,获取音频特征;
S23:求出步骤S21中每个单词英式音素的后验概率和美式音素的后验概率,并求出每个单词英式/美式发音的概率;
S24:归一化处理,转化每个单词英式/美式发音的概率,并获取整个文本英式/美式发音的概率。
ωi是对应音素的权重,定义L(Wk)为音频对应的英美音标注,如果L(Wk)=1,则Wk标注为英音,如果L(Wk)=0,则Wk标注为美音;目标函数为:E=[P(Wk)-L(Wk)]2。
进一步的,所述步骤S22中,将用户的语音信息进行快速傅里叶变换,并利用汉明窗函数进行分帧处理,窗长25毫秒,帧移10毫秒。从每一帧的信息中提取一组13维的Mel频率倒谱系数特征,分别对每一维度的特征进行归一化处理,使之平均值为0,标准方差为1,得到所述第t帧的声学特征xt;也可以使用21帧的Mel频率倒谱系数特征(即前10帧、当前帧、后10帧)作为声学特征xt。
具体的:步骤S1中建立美式英语和英式英语数据库以及建立多任务多口音模型,步骤S2中获取使用者文本读音,获取音频特征,通过比对计算,获得最终结果,文本的发音概率。
步骤S11中建立模型,在步骤S12中,模型输出数据英式音素发音的后验概率和美式音素发音的后验概率,用于在步骤S13中获取单个单词的发音后验概率;同时根据在步骤S13中建立的函数,对函数的参数求导,训练模型,获得最优的参数。
步骤S21中,根据用户输入语音文本,将语音分割成单个的单词,并获取单词的发音音素序列,在步骤S22提取音频特征,将音频信息按照25帧或21帧,获取Mel频率倒谱系数特征,设置平均值为0,方差为1,得到第t帧的声学特征;在步骤S23中,获得单词中第i个音素的后验概率和每个单词美式/英式发音概率,并在步骤S24中将概率转化,同时根据单词的发音概率获得整个文本的美式/英式发音概率。
最后应说明的是:以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种英语口音识别系统,其特征在于,包括如下步骤,
S1:训练多任务多口音模型;
S2:识别模块对音频做口音识别;
步骤S1中还包括如下步骤,
S11:建立英式、美式口音的数据库,并对数据进行音素级别的标注;
S12:构建多任务多口音的声学模型;
S13:设置目标函数,并对函数进行相关处理;
S14:函数优化;
ωi是对应音素的权重,定义L(Wk)为音频对应的英美音标注,如果L(Wk)=1,则Wk标注为英音,如果L(Wk)=0,则Wk标注为美音;目标函数为:E=[P(Wk)-L(Wk)]2;
步骤S2中包括如下步骤,
S21:根据用户输入的语音信息,将用户输入的文本分割成单词序列,提取每个单词的英式、美式音素序列;
S22:对整个文本音频,获取音频特征;
S23:求出步骤S21中每个单词英式音素的后验概率和美式音素的后验概率,并求出每个单词英式/美式发音的概率;
S24:归一化处理,转化每个单词英式/美式发音的概率,并获取整个文本英式/美式发音的概率。
4.根据权利要求1所述的一种英语口音识别系统,其特征在于,所述步骤S22中,将用户的语音信息进行快速傅里叶变换,并利用汉明窗函数进行分帧处理,窗长25毫秒,帧移10毫秒; 从每一帧的信息中提取一组13维的Mel频率倒谱系数特征,分别对每一维度的特征进行归一化处理,使之平均值为0,标准方差为1,得到第t帧的声学特征xt;也可以使用21帧的Mel频率倒谱系数特征即前10帧、当前帧、后10帧作为声学特征xt。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811371012.XA CN109493846B (zh) | 2018-11-18 | 2018-11-18 | 一种英语口音识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811371012.XA CN109493846B (zh) | 2018-11-18 | 2018-11-18 | 一种英语口音识别系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109493846A CN109493846A (zh) | 2019-03-19 |
CN109493846B true CN109493846B (zh) | 2021-06-08 |
Family
ID=65696086
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811371012.XA Active CN109493846B (zh) | 2018-11-18 | 2018-11-18 | 一种英语口音识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109493846B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110136687B (zh) * | 2019-05-20 | 2021-06-15 | 深圳市数字星河科技有限公司 | 一种基于语音训练克隆口音及声韵方法 |
CN112562675B (zh) * | 2019-09-09 | 2024-05-24 | 北京小米移动软件有限公司 | 语音信息处理方法、装置及存储介质 |
CN111933110B (zh) * | 2020-08-12 | 2021-10-29 | 北京字节跳动网络技术有限公司 | 视频生成方法、生成模型训练方法、装置、介质及设备 |
CN112216270B (zh) * | 2020-10-09 | 2024-02-06 | 携程计算机技术(上海)有限公司 | 语音音素的识别方法及系统、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
CN104681036A (zh) * | 2014-11-20 | 2015-06-03 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
JP2016156870A (ja) * | 2015-02-23 | 2016-09-01 | 日本電信電話株式会社 | 言語識別モデル学習装置、言語識別装置、言語識別モデル学習方法、言語識別方法、プログラム、および記録媒体 |
CN108389573A (zh) * | 2018-02-09 | 2018-08-10 | 北京易真学思教育科技有限公司 | 语种识别方法及装置、训练方法及装置、介质、终端 |
CN108510976A (zh) * | 2017-02-24 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种多语言混合语音识别方法 |
-
2018
- 2018-11-18 CN CN201811371012.XA patent/CN109493846B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104681036A (zh) * | 2014-11-20 | 2015-06-03 | 苏州驰声信息科技有限公司 | 一种语言音频的检测系统及方法 |
CN104575490A (zh) * | 2014-12-30 | 2015-04-29 | 苏州驰声信息科技有限公司 | 基于深度神经网络后验概率算法的口语发音评测方法 |
JP2016156870A (ja) * | 2015-02-23 | 2016-09-01 | 日本電信電話株式会社 | 言語識別モデル学習装置、言語識別装置、言語識別モデル学習方法、言語識別方法、プログラム、および記録媒体 |
CN105632501A (zh) * | 2015-12-30 | 2016-06-01 | 中国科学院自动化研究所 | 一种基于深度学习技术的自动口音分类方法及装置 |
CN108510976A (zh) * | 2017-02-24 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种多语言混合语音识别方法 |
CN108389573A (zh) * | 2018-02-09 | 2018-08-10 | 北京易真学思教育科技有限公司 | 语种识别方法及装置、训练方法及装置、介质、终端 |
Non-Patent Citations (1)
Title |
---|
基于深层神经网络的口语发音检测与错误分析;胡文凭;《中国博士学位论文全文数据库 信息科技辑》;20160915(第09期);I136-4 * |
Also Published As
Publication number | Publication date |
---|---|
CN109493846A (zh) | 2019-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109493846B (zh) | 一种英语口音识别系统 | |
US11514891B2 (en) | Named entity recognition method, named entity recognition equipment and medium | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
KR100815115B1 (ko) | 타 언어권 화자 음성에 대한 음성 인식시스템의 성능향상을 위한 발음 특성에 기반한 음향모델 변환 방법 및이를 이용한 장치 | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
US20220262352A1 (en) | Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation | |
JP2017058674A (ja) | 音声認識のための装置及び方法、変換パラメータ学習のための装置及び方法、コンピュータプログラム並びに電子機器 | |
JPH075892A (ja) | 音声認識方法 | |
CN110930981A (zh) | 多对一语音转换系统 | |
US20030093269A1 (en) | Method and apparatus for denoising and deverberation using variational inference and strong speech models | |
US11763801B2 (en) | Method and system for outputting target audio, readable storage medium, and electronic device | |
Ghule et al. | Feature extraction techniques for speech recognition: A review | |
JPH086587A (ja) | 動的特徴を使用した音声認識方法及び装置 | |
Le et al. | First steps in fast acoustic modeling for a new target language: application to Vietnamese | |
CN112466287A (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN110390948B (zh) | 一种快速语音识别的方法及系统 | |
JP2955297B2 (ja) | 音声認識システム | |
US20140142925A1 (en) | Self-organizing unit recognition for speech and other data series | |
CN112885335B (zh) | 语音识别方法及相关装置 | |
CN112686041A (zh) | 一种拼音标注方法及装置 | |
Mohanty et al. | Isolated Odia digit recognition using HTK: an implementation view | |
CN111402887A (zh) | 一种语音转义文字的方法及装置 | |
Dalva | Automatic speech recognition system for Turkish spoken language | |
CN113689885A (zh) | 基于语音信号处理的智能辅助引导系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |