CN110827801B - 一种基于人工智能的自动语音识别方法及系统 - Google Patents

一种基于人工智能的自动语音识别方法及系统 Download PDF

Info

Publication number
CN110827801B
CN110827801B CN202010019733.5A CN202010019733A CN110827801B CN 110827801 B CN110827801 B CN 110827801B CN 202010019733 A CN202010019733 A CN 202010019733A CN 110827801 B CN110827801 B CN 110827801B
Authority
CN
China
Prior art keywords
voice
layer
learning
output
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010019733.5A
Other languages
English (en)
Other versions
CN110827801A (zh
Inventor
漆伟
马永霄
童永鳌
张瑞冬
殷子凌
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu No Sugar Information Tech Co ltd
Original Assignee
Chengdu No Sugar Information Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu No Sugar Information Tech Co ltd filed Critical Chengdu No Sugar Information Tech Co ltd
Priority to CN202010019733.5A priority Critical patent/CN110827801B/zh
Publication of CN110827801A publication Critical patent/CN110827801A/zh
Application granted granted Critical
Publication of CN110827801B publication Critical patent/CN110827801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于人工智能的自动语音识别方法及系统,它主要包括了语音预处理模块、语音特征提取模块、语音训练识别模块和文本矫正模块四大模块。本发明采用语音训练识别模块对语音特征及语音对应文字编码进行学习,先通过特征学习层进行卷积学习频谱特征,然后通过语义学习层学习频谱特征间语义信息,最后通过输出层对综合学到的信息进行解码,输出对应文本。这样在直接使用汉字映射表进行标签的编码和解码,不需要对文本进行音素编码解码,然后再解码为文本,简化了训练流程。

Description

一种基于人工智能的自动语音识别方法及系统
技术领域
本发明涉及人工智能中的语音识别技术领域,具体涉及一种基于人工智能的自动语音识别技术。
背景技术
人工智能(ArtificialIntelligence,简称AI),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、计算机视觉、自然语言处理和专家系统等。
现有自动语音识别技术的发展主要倾向于训练和解码两个阶段;训练,即通过大量标注的语音数据训练声学模型,其中包括GMM-HMM、DNN-HMM和RNN+CTC等;解码,即通过声学模型和语言模型将训练集外的语音数据识别成文字。
以孤立词识别为例,能够很好地阐述语音识别的流程和相关概念。假如对词进行建模,在训练阶段学习每个模型的参数;在识别阶段,计算输入语音序列在每个模型的得分(概率值),最高分者获胜。但是,任何语言里的常用单词都以千计,学习数以千计的模型不仅需要庞大的语料库,还需要漫长的迭代时间。此外,汉语还分有调无调,同音字等,导致模型数量成倍增加。这给用户带来了诸多不便,使得语音识别技术无法大规模产业化。
发明内容
为克服上述存在之不足,本发明的发明人通过长期的探索尝试以及多次的实验和努力,不断改革与创新,提出一种基于深度学习的端到端的自动语音识别技术,以解决上述背景技术中提出的问题。
为实现上述目的本发明所采用的技术方案是:
一种基于人工智能的自动语音识别方法,其包括以下步骤:
S1、语音预处理:对原始语音序列做预处理,以消除因为人类发声器官本身和由于采集语音信号的设备对语音信号质量产生影响的因素,保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量;
S2、语音特征提取:采用梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients)来获取语音的声谱特征图, 然后对输入的语音信号进行滤波,将每个输出的信号能量作为信号的基本特征,对该基本特征进行计算频谱图后作为下一步的语音输入特征;
S3、语音训练识别:输入提取的语音特征及语音对应的文字编码进行学习,具体是先通过特征学习层进行卷积学习频谱特征,然后通过语义学习层学习频谱特征间语义信息,最后通过输出层对综合学到的信息进行解码,输出对应文本;
S4、文本矫正:语音识别输出是对频谱特征到字典表的映射,输出的文字不够通顺和语义信息比较缺乏,因此还需要把语音训练识别输出文本输入到语言模型,然后输出比较通顺的文字,再把经过语言模型的文字输入到拼写纠错模型,最终得到通顺且语义逻辑连贯的文本。
根据本发明所述的一种基于人工智能的自动语音识别方法,其中进一步地优选技术方案是所述语音预处理具体操作是:
对语音进行端点检测,找到语音信号的起始点和结束点;
然后对语音的高频部分进行添加权重,去除口唇辐射的影响,增加语音的高频分辨率,再对语音进行分帧处理,所述分帧是把连续的若干个点设为一帧,一般采用交叠分段的方法,这是为了使帧与帧之前平滑过渡,保持其连续性;前一针和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0~1/2;
随后对语音信号进行加窗,对加窗的语音波形加以强调而对波形的其余部分加以减弱,最后达到语音预处理的效果,提高语音质量。
根据本发明所述的一种基于人工智能的自动语音识别方法,其中进一步地优选技术方案是,语音特征提取包括如下操作,从语音的低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入语音信号进行滤波,将每个带通滤波器输出的信号能量作为信号的基本特征,对该基本特征进行计算频谱图后作为语音的输入特征,然后对该语音的输入特征进行批量归一化处理,以语音训练识别过程中加快模型的训练速度和实际场景使用时的预测速度。
根据本发明所述的一种基于人工智能的自动语音识别方法,其中进一步地优选技术方案是,语音训练识别中:
所述特征学习层是由两层的二维卷积神经网络组成,学习每个频谱特征,
所述语义学习层是由七层循环神经网络以及每层加上一层批量归一化组成,用于学习频谱特征间的关系;
所述输出层输出文本是输出字典表中的一个个汉字。
根据本发明所述的一种基于人工智能的自动语音识别方法,其中进一步地优选技术方案是,语音训练识别时采用的是CTC(Connectionist temporal classification)损失,用于处理在语音特征及语音对应文字编码时序列标注中的输入与输出标签的对齐,实现端到端的训练。
根据本发明所述的一种基于人工智能的自动语音识别方法,其中进一步地优选技术方案是,文本矫正是语音训练识别的输出文本通过语言模型来计算一个句子出现的概率,最终选出概率最大的句子,采用拼写纠错模型来对错别字和同音字进行纠错改正。
本发明还提供了一种实现上述方法的自动语音识别系统,其包括:
语音预处理模块:对原始语音序列做预处理,以消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频因素对语音信号质量产生的影响,保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量;
语音特征提取模块:采用梅尔倒谱系数来获取语音的声谱特征图,然后对输入的语音信号进行滤波,将每个输出的信号能量作为信号的基本特征,对该基本特征进行计算频谱图后作为语音的输入特征;
语音训练识别模块:输入提取的语音特征及语音对应文字编码进行学习,先通过特征学习层进行卷积学习频谱特征,然后通过语义学习层学习频谱特征间语义信息,最后通过输出层对综合学到的信息进行解码,输出对应文本;
文本矫正模块:将语音训练识别模块输出文本输入到语言模型,然后输出一句比较通顺的文字,再把语言模型输出的文字输入到拼写纠错模型,最终得到一段通顺且语义逻辑连贯的文本。
根据本发明所述的一种基于人工智能的自动语音识别系统,其进一步地优选技术方案是:所述语音预处理模块包括,
语音检测模块,对语音进行端点检测,找到语音信号的起始点和结束点;
高频语音处理模块,对语音的高频部分进行添加权重,去除口唇辐射的影响,增加语音的高频分辨率;
语音分帧处理模块,将语音信号进行分帧处理;
语音信号加窗模块,对加窗的语音波形加以强调而对波形的其余部分加以减弱,最后达到语音预处理的效果,提高语音质量。
根据本发明所述的一种基于人工智能的自动语音识别系统,其进一步地优选技术方案是:所述语音特征提取模块包括带通滤波器,从语音低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入信号进行滤波,将每个带通滤波器输出的信号能量作为信号的基本特征,对该基本特征进行计算频谱图后作为语音的输入特征。
根据本发明所述的一种基于人工智能的自动语音识别系统,其进一步地优选技术方案是:语音训练识别模块中特征学习层是由两层的二维卷积神经网络组成,学习每个频谱特征;语义学习层是由七层循环神经网络以及每层加上一层批量归一化组成,用于学习频谱特征间的关系;输出层是输出字典表中的一个个汉字;语音训练识别时采用的是CTC(Connectionist temporal classification)损失, 用于处理语音特征及语音对应文字编码时序列标注中的输入与输出标签的对齐,实现端到端的训练。
本申请相比现有技术的具有以下技术优点:
1、本发明提供了采用MFCC(Mel-scaleFrequency Cepstral Coefficients)特征,并对语音特征进行归一化处理,加快模型的收敛和模型的识别。
2、采用语音训练识别模块对语音特征及对应标签编码进行学习,先通过特征学习层进行卷积学习特征,然后通过语义学习层学习特征间语义信息,最后通过输出层综合学到的信息进行解码,输出对应文本。这样在直接使用汉字映射表进行标签的编码和解码,不需要对文本进行音素编码解码,然后再解码为文本,简化了训练流程。
3、语音训练模块采用卷积神经网络与循环神经网络相结合,并对每层特征进行归一化处理,对语音特征进行特征学习和特征间语义特征学习。
4、本技术方法的模型的输出直接可解码为文本,实现端到端的语音到文本的转换。
5、采用文本矫正模块将语音训练识别模块输出结果输入到语言模型,然后输出一句比较通顺的文字,再把语言模型输出的文字输入到拼写纠错模型,最终得到一段通顺且语义逻辑连贯的文本。对模型转录的文本根据语义进行通顺化处理和拼写纠正,调整文本和语音所表达的内容一致。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明所述一种基于人工智能的自动语音识别方法原理框图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
实施例:本实施例提供了一种基于人工智能的自动语音识别系统,它主要包括了四大模块,一、语音预处理模块,二、语音特征提取模块,三、语音训练识别模块和四、文本矫正模块。
其中一、语音预处理模块:在进行特征提取之前,对原始语音序列做预处理,目的是消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频等等因素,对语音信号质量的影响。尽可能保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量。
该语音预处理模块具体包括以下几大部分:
01语音检测模块,对语音进行端点检测,找到语音信号的起始点和结束点。
02高频语音处理模块,对语音的高频部分进行添加权重,去除口唇辐射的影响,增加语音的高频分辨率。
03语音分帧处理模块,对语音进行分帧处理,语音信号具有时变特性,但是在一个短时间范围内(一般认为在10~30ms),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。因此我们需要将语音信号进行分帧处理,具体是把连续的若干个点设为一帧,采用交叠分段的方法,这是为了使帧与帧之前平滑过渡,保持其连续性。前一针和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0~1/2。
04语音信号加窗模块,对语音信号进行加窗,其目的是对加窗的语音波形加以强调而对波形的其余部分加以减弱。最后达到语音预处理的效果,提高语音质量。
二、语音特征提取模块,它使用的语音特征是由梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,以下简称MFCC)来获取语音的声谱特征图。
具体原理是根据人耳听觉机理的研究发现,从语音低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入语音信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对该基本特征经过进一步处理后就可以作为语音的输入特征,具体是对此特征进行计算频谱图后作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数与基于声道模型的LPCC特征相比具有更好的鲁棒性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
然后对语音特征进行批量归一化处理,以加快语音训练识别模型的训练速度和实际场景使用时的预测速度。
三、语音训练识别模块,它对语音特征及语音对应文字编码进行学习,具体是先通过特征学习层进行卷积学习频谱特征,然后通过语义学习层学习频谱特征间语义信息,最后通过输出层对综合学到的信息进行解码,输出对应文本。
语音训练识别模型的输入是语音信号的频谱特征及其对应文本标签(输入语音对应的文字)编码。
特征学习层是由两层的二维卷积神经网络组成,学习每个频谱特征。
语义学习层是由七层循环神经网络以及每层加上一层归一化组成,用于学习频谱特征间的语义信息关系。
输出层是输出字典表中的一个个汉字。
语音训练识别时采用的是CTC(Connectionist temporal classification)损失,主要用于处理语音特征及语音对应文字编码序列标注中的输入与输出标签的对齐问题,解决了传统语音训练识别模型需要把语音序列和标签进行对齐再训练的问题,真正实现端到端的训练。
四、文本矫正模块,语音识别模块的输出是对频谱特征到字典表的映射,输出的文字不够通顺和语义信息比较缺乏,把输出结果输入到语言模型,然后输出一句比较通顺的文字,有时候还会出现一些错别字和同音字的情况,我们再把经过语言模型的文字输入到拼写纠错模型,最终得到一段通顺且语义逻辑连贯的文本。
该模块主要包括的两大模型是语言模型和拼写纠错模型,其中语言模型:用来计算一个句子出现的概率,最终选出概率最大的句子。拼写纠错模型:用来对错别字和同音字进行纠错改正。
如图1所示,本实施例还基于上述系统提出了一种基于人工智能的自动语音识别方法,该方法首先进行数据准备和清洗,然后进行语音预处理、语音特征提取、语音训练识别和文本矫正,具体操作是,
S1.对长语音进行根据空白音频进行分割,构成文档,文档内容为语音路径和语音的文本信息。
S2.对语音的标签文本内容进行处理,繁体转简体,去掉中文及英文的标点符号。
S3. 语音预处理,其包括以下处理过程,
S301.通过语音检测模块对语音进行端点检测,找到语音的起始点和结束点。
S302.对语音的高频进行加权重,去除口唇辐射的影响,使得这部分特征更加明显。
S303.对语音进行分帧处理,语音信号具有时变特性,但是在一个短时间范围内(一般认为在10~30ms),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。因此我们需要将语音信号进行分帧处理,具体是把连续的若干个点设为一帧,采用交叠分段的方法,这是为了使帧与帧之前平滑过渡,保持其连续性。前一针和后一帧的交叠部分称为帧移,帧移与帧长的比值一般取为0~1/2。
S304.对语音信号进行加窗,其目的是对加窗的语音波形加以强调而对波形的其余部分加以减弱。
S4.语音特征提取,其具体操作是:对语音信号进行MFCC提取特征,转换为声谱图,将语音低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入的语音信号进行滤波,将每个带通滤波器输出的信号能量作为信号的基本特征,对该基本特征进行计算频谱图后作为语音的输入特征,将整个音频范围用不同颜色记录为频谱特征然后让网络去学习对频谱特征进行批量的归一化处理,加快模型的收敛和模型的识别。
S5.语音训练识别,输入提取的语音特征及语音对应文字编码进行学习,先通过特征学习层进行卷积学习频谱特征,然后通过语义学习层学习频谱特征间语义信息,最后通过输出层对综合学到的信息进行解码,输出对应文本,此过程具体操作是:
S5001.把构建好的频谱特征批量的送入特征学习层第一层卷积层:卷积核尺寸为:41x11x32,步长:2x3。
S5002.把特征学习层第一层卷积层输出特征送入特征学习层第二层卷积层:卷积核尺寸为:21x11x32,步长:2x1。
S5003.到此就进行了特征的学习,接下来是进行特征间的语义信息进行学习。
S5004.把特征学习层的输出,送入到循环神经网络中,神经元设置为1280,然后把该层的输出特征进行归一化处理。
S5005.重复进行第四步7次,构建7层的循环神经网络层,每层都加上一层归一化处理,加快模型的收敛。
S5006.最后构建一层全连接层,输出个数为字典映射表的个数及每个汉字的概率,到此网络构建完成。
S5007.构建CTC损失函数,获取标签的长度,标签的信息,网络的输出,语音序列的长度来计算模型训练的损失,后面模型的优化就是根据这个损失进行调优的。
S5008.然后进行语音识别模型训练,具体是首先初始化预先构建的模型;然后初始化一个Adam的优化器,初始化学习率为:0.001,并对学习率进行指数式衰减;再采用一机多卡的训练方式,进行模型迭代。
其中涉及到的模型部署操作是:先把模型训练保存的checkpoint格式模型转换成SavedModel格式模型,然后以Tensorflow Serving进行模型部署并提供端口进行访问测试模型;然后获取一段语音,直接送入模型测试端口返回文本,达到语音到文本的转录。
S6.文本矫正,把输出文本送入语言模型获取最大概率句子,然后再进行拼写纠正,获得最终文本。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于人工智能的自动语音识别方法,其特征在于包括以下步骤:
S1、语音预处理:对原始语音序列做预处理,以消除因为人类发声器官本身和由于采集语音信号的设备对语音信号质量产生影响的因素,保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量;
S2、语音特征提取:采用梅尔倒谱系数来获取语音的声谱特征图,然后对输入的语音信号进行滤波,将每个输出的信号能量作为信号的基本特征,对该基本特征进行计算频谱图后作为下一步的语音输入特征;
S3、语音训练识别:输入提取的语音特征及语音对应文字编码进行学习,先通过特征学习层进行卷积学习频谱特征,然后通过语义学习层学习频谱特征间语义信息,最后通过输出层对综合学到的信息进行解码,输出对应文本;具体操作如下,
S3001.把构建好的频谱特征批量的送入特征学习层第一层卷积层:卷积核尺寸为:41x11x32,步长:2x3,
S3002.把特征学习层第一层卷积层输出特征送入特征学习层第二层卷积层:卷积核尺寸为:21x11x32,步长:2x1,
S3003.到此就进行了特征的学习,接下来是进行特征间的语义信息进行学习,
S3004.把特征学习层的输出,送入到循环神经网络中,神经元设置为1280,然后把该层的输出特征进行归一化处理,
S3005.重复进行第S3004步7次,构建7层的循环神经网络层,每层都加上一层归一化处理,加快模型的收敛,
S3006.最后构建一层全连接层,输出个数为字典映射表的个数及每个汉字的概率,到此网络构建完成,
S3007.构建CTC损失函数,获取标签的长度,标签的信息,网络的输出,语音序列的长度来计算模型训练的损失,后面模型的优化就是根据这个损失进行调优的,
S3008.然后进行语音识别模型训练,具体是首先初始化预先构建的模型;然后初始化一个Adam的优化器,初始化学习率为:0.001,并对学习率进行指数式衰减;再采用一机多卡的训练方式,进行模型迭代;
S4、文本矫正:把语音训练识别输出文本输入到语言模型,将语音训练识别的输出文本通过语言模型来计算一个句子出现的概率,最终选出概率最大的句子,然后输出比较通顺的文字,再采用拼写纠错模型来对错别字和同音字进行纠错改正,最终得到通顺且语义逻辑连贯的文本。
2.根据权利要求1所述的一种基于人工智能的自动语音识别方法,其特征在于:所述语音预处理具体操作是:
对语音进行端点检测,找到语音信号的起始点和结束点;
然后对语音的高频部分进行添加权重,去除口唇辐射的影响,增加语音的高频分辨率,再对语音进行分帧处理;
随后对语音信号进行加窗,对加窗的语音波形加以强调而对波形的其余部分加以减弱,最后达到语音预处理的效果,提高语音质量。
3.根据权利要求1或2所述的一种基于人工智能的自动语音识别方法,其特征在于:语音特征提取过程中还需对语音输入特征进行归一化处理,以语音训练识别过程中加快模型的训练速度和实际场景使用时的预测速度。
4.根据权利要求1所述的一种基于人工智能的自动语音识别方法,其特征在于:语音训练识别中:
所述特征学习层是由两层的二维卷积神经网络组成,学习每个频谱特征,
所述语义学习层是由七层循环神经网络以及每层加上一层批量归一化层组成,用于学习频谱特征间语义信息;
所述输出层输出的文本为字典表中的一个个汉字。
5.根据权利要求1所述的一种基于人工智能的自动语音识别方法,其特征在于:语音训练识别过程中采用的是CTC损失,用于处理在语音特征及语音对应文字编码时序列标注中输入与输出标签的对齐,实现端到端的训练。
6.一种基于人工智能的自动语音识别系统,其特征在于包括:
语音预处理模块:对原始语音序列做预处理,以消除因为人类发声器官本身和由于采集语音信号的设备所带来的混叠、高次谐波失真、高频因素对语音信号质量产生的影响,保证后续语音处理得到的信号更均匀、平滑,为信号参数提取提供优质的参数,提高语音处理质量;
语音特征提取模块:采用梅尔倒谱系数来获取语音的声谱特征图,然后对输入的语音信号进行滤波,将每个输出的信号能量作为信号的基本特征,对该基本特征进行计算频谱图后作为语音输入特征;
语音训练识别模块:输入提取的语音特征及语音对应文字编码进行学习,先通过特征学习层进行卷积学习频谱特征,然后通过语义学习层学习频谱特征间语义信息,最后通过输出层对综合学到的信息进行解码,输出对应文本;
文本矫正模块:将语音训练识别模块输出文本输入到语言模型,然后输出一句比较通顺的文字,再把语言模型输出的文字输入到拼写纠错模型,最终得到一段通顺且语义逻辑连贯的文本。
7.根据权利要求6所述的一种基于人工智能的自动语音识别系统,其特征在于,所述语音预处理模块包括,
语音检测模块,对语音进行端点检测,找到语音信号的起始点和结束点;
高频语音处理模块,对语音的高频部分进行添加权重,去除口唇辐射的影响,增加语音的高频分辨率;
语音分帧处理模块,将语音信号进行分帧处理;
语音信号加窗模块,对加窗的语音波形加以强调而对波形的其余部分加以减弱,最后达到语音预处理的效果,提高语音质量。
8.根据权利要求6所述的一种基于人工智能的自动语音识别系统,其特征在于,所述语音特征提取模块包括带通滤波器,从语音低频到高频这一段频带内按临界带宽的大小由密到疏安排一组带通滤波器,对输入语音信号进行滤波,将每个带通滤波器输出的信号能量作为信号的基本特征,对该基本特征进行计算频谱图后作为语音的输入特征。
9.根据权利要求6所述的一种基于人工智能的自动语音识别系统,其特征在于,语音训练识别模块中特征学习层是由两层的二维卷积神经网络组成,学习每个频谱特征;语义学习层是由七层循环神经网络以及每层加上一层批量归一化组成,用于学习频谱特征间的关系;输出层是输出字典表中的一个个汉字;语音训练识别时采用的是CTC损失,用于处理在语音特征及语音对应文字编码时序列标注中的输入与输出标签的对齐,实现端到端的训练。
CN202010019733.5A 2020-01-09 2020-01-09 一种基于人工智能的自动语音识别方法及系统 Active CN110827801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010019733.5A CN110827801B (zh) 2020-01-09 2020-01-09 一种基于人工智能的自动语音识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010019733.5A CN110827801B (zh) 2020-01-09 2020-01-09 一种基于人工智能的自动语音识别方法及系统

Publications (2)

Publication Number Publication Date
CN110827801A CN110827801A (zh) 2020-02-21
CN110827801B true CN110827801B (zh) 2020-04-17

Family

ID=69546549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010019733.5A Active CN110827801B (zh) 2020-01-09 2020-01-09 一种基于人工智能的自动语音识别方法及系统

Country Status (1)

Country Link
CN (1) CN110827801B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111627428B (zh) * 2020-05-15 2023-11-14 北京青牛技术股份有限公司 构建压缩的语音识别模型的方法
US20210358490A1 (en) * 2020-05-18 2021-11-18 Nvidia Corporation End of speech detection using one or more neural networks
CN111597308A (zh) * 2020-05-19 2020-08-28 中国电子科技集团公司第二十八研究所 一种基于知识图谱的语音问答系统及其应用方法
CN111824879B (zh) * 2020-07-02 2021-03-30 南京安杰信息科技有限公司 智能语音无接触梯控方法、系统及存储介质
CN111968622A (zh) * 2020-08-18 2020-11-20 广州市优普科技有限公司 一种基于注意力机制的语音识别方法、系统及装置
CN112017638A (zh) * 2020-09-08 2020-12-01 北京奇艺世纪科技有限公司 语音语义识别模型构建方法、语义识别方法、装置及设备
CN112217947B (zh) * 2020-10-10 2021-09-21 携程计算机技术(上海)有限公司 客服电话语音转录文本方法、系统、设备及存储介质
CN112397059B (zh) * 2020-11-10 2024-02-06 武汉天有科技有限公司 一种语音流畅度检测方法及装置
CN112815957A (zh) * 2020-12-31 2021-05-18 出门问问(武汉)信息科技有限公司 一种语音识别路径规划方法、系统及平台
CN113205798A (zh) * 2021-05-10 2021-08-03 北京航空航天大学 一种无人机集群控制方法及系统
CN113327586B (zh) * 2021-06-01 2023-11-28 深圳市北科瑞声科技股份有限公司 一种语音识别方法、装置、电子设备以及存储介质
CN113538982B (zh) * 2021-06-15 2024-01-23 南昌理工学院 一可调节的思政课在线教育智能投影仪
CN114550706B (zh) * 2022-02-21 2024-06-18 苏州市职业大学 基于深度学习的智慧校园语音识别方法
CN116580706B (zh) * 2023-07-14 2023-09-22 合肥朗永智能科技有限公司 一种基于人工智能的语音识别方法
CN117891928B (zh) * 2024-03-15 2024-06-07 福建省政务门户网站运营管理有限公司 一种用户语音留言的智能处理方法及系统
CN118101632B (zh) * 2024-04-22 2024-06-21 安徽声讯信息技术有限公司 一种基于人工智能的语音低延时信号传输方法及系统

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107341251A (zh) * 2017-07-10 2017-11-10 江西博瑞彤芸科技有限公司 一种医药偏方与关键字的提取和处理方法
CN107688329A (zh) * 2017-08-21 2018-02-13 杭州古北电子科技有限公司 智能家居控制方法和智能家居控制系统
CN108170686A (zh) * 2017-12-29 2018-06-15 科大讯飞股份有限公司 文本翻译方法及装置
CN108701452A (zh) * 2016-02-02 2018-10-23 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法
CN109545186A (zh) * 2018-12-16 2019-03-29 初速度(苏州)科技有限公司 一种语音识别训练系统及方法
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN109753966A (zh) * 2018-12-16 2019-05-14 初速度(苏州)科技有限公司 一种文字识别训练系统及方法
CN110085257A (zh) * 2019-03-29 2019-08-02 语文出版社有限公司 一种基于国学经典学习的韵律自动评价系统
CN110110204A (zh) * 2018-01-15 2019-08-09 北京搜狗科技发展有限公司 一种信息推荐方法、装置和用于信息推荐的装置
CN110178139A (zh) * 2016-11-14 2019-08-27 柯达阿拉里斯股份有限公司 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
CN110189749A (zh) * 2019-06-06 2019-08-30 四川大学 语音关键词自动识别方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108701452A (zh) * 2016-02-02 2018-10-23 日本电信电话株式会社 音频模型学习方法、语音识别方法、音频模型学习装置、语音识别装置、音频模型学习程序及语音识别程序
CN110178139A (zh) * 2016-11-14 2019-08-27 柯达阿拉里斯股份有限公司 使用具有注意力机制的全卷积神经网络的字符识别的系统和方法
CN107341251A (zh) * 2017-07-10 2017-11-10 江西博瑞彤芸科技有限公司 一种医药偏方与关键字的提取和处理方法
CN107688329A (zh) * 2017-08-21 2018-02-13 杭州古北电子科技有限公司 智能家居控制方法和智能家居控制系统
CN109753636A (zh) * 2017-11-01 2019-05-14 阿里巴巴集团控股有限公司 机器处理及文本纠错方法和装置、计算设备以及存储介质
CN108170686A (zh) * 2017-12-29 2018-06-15 科大讯飞股份有限公司 文本翻译方法及装置
CN110110204A (zh) * 2018-01-15 2019-08-09 北京搜狗科技发展有限公司 一种信息推荐方法、装置和用于信息推荐的装置
CN109272990A (zh) * 2018-09-25 2019-01-25 江南大学 基于卷积神经网络的语音识别方法
CN109545186A (zh) * 2018-12-16 2019-03-29 初速度(苏州)科技有限公司 一种语音识别训练系统及方法
CN109753966A (zh) * 2018-12-16 2019-05-14 初速度(苏州)科技有限公司 一种文字识别训练系统及方法
CN110085257A (zh) * 2019-03-29 2019-08-02 语文出版社有限公司 一种基于国学经典学习的韵律自动评价系统
CN110189749A (zh) * 2019-06-06 2019-08-30 四川大学 语音关键词自动识别方法

Also Published As

Publication number Publication date
CN110827801A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
CN110827801B (zh) 一种基于人工智能的自动语音识别方法及系统
CN110534089B (zh) 一种基于音素和韵律结构的中文语音合成方法
CN112017644B (zh) 一种声音变换系统、方法及应用
Ghai et al. Literature review on automatic speech recognition
CN113439301A (zh) 使用序列到序列映射在模拟数据与语音识别输出之间进行协调
Zhu et al. Phone-to-audio alignment without text: A semi-supervised approach
CN111640418B (zh) 一种韵律短语识别方法、装置及电子设备
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
CN113450761B (zh) 一种基于变分自编码器的并行语音合成方法和装置
CN114550703A (zh) 语音识别系统的训练方法和装置、语音识别方法和装置
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN108806725A (zh) 语音区分方法、装置、计算机设备及存储介质
CN113505611B (zh) 在生成对抗中获得更好的语音翻译模型的训练方法和系统
CN114944150A (zh) 一种基于双任务的Conformer陆空通话声学模型构建方法
CN114550706A (zh) 基于深度学习的智慧校园语音识别方法
CN114187894A (zh) 一种意图识别方法、装置及其相关设备
CN114171002A (zh) 语音识别方法、装置、电子设备和存储介质
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN113327585A (zh) 一种基于深度神经网络的自动语音识别方法
Fujiwara et al. Data augmentation based on frequency warping for recognition of cleft palate speech
CN115376547A (zh) 发音评测方法、装置、计算机设备和存储介质
Amoolya et al. Automatic speech recognition for Tulu Language using GMM-HMM and DNN-HMM techniques
CN114724547A (zh) 一种用于口音英语的识别方法及系统
CN112599114B (zh) 一种语音识别方法及装置
CN117095674B (zh) 智能门窗的交互控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Automatic speech recognition method and automatic speech recognition system based on artificial intelligence

Effective date of registration: 20200603

Granted publication date: 20200417

Pledgee: China Minsheng Banking Corp Chengdu branch

Pledgor: CHENGDU NO SUGAR INFORMATION TECH Co.,Ltd.

Registration number: Y2020980002752

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210624

Granted publication date: 20200417

Pledgee: China Minsheng Banking Corp Chengdu branch

Pledgor: CHENGDU NO SUGAR INFORMATION TECH Co.,Ltd.

Registration number: Y2020980002752

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An automatic speech recognition method and system based on Artificial Intelligence

Effective date of registration: 20210714

Granted publication date: 20200417

Pledgee: China Minsheng Banking Corp Chengdu branch

Pledgor: CHENGDU NO SUGAR INFORMATION TECH Co.,Ltd.

Registration number: Y2021510000152

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230109

Granted publication date: 20200417

Pledgee: China Minsheng Banking Corp Chengdu branch

Pledgor: CHENGDU NO SUGAR INFORMATION TECH Co.,Ltd.

Registration number: Y2021510000152

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and System for Automatic Speech Recognition Based on Artificial Intelligence

Effective date of registration: 20230712

Granted publication date: 20200417

Pledgee: Sichuan Tianfu bank Limited by Share Ltd. Chengdu branch

Pledgor: CHENGDU NO SUGAR INFORMATION TECH Co.,Ltd.

Registration number: Y2023510000179