CN109065032B - 一种基于深度卷积神经网络的外部语料库语音识别方法 - Google Patents

一种基于深度卷积神经网络的外部语料库语音识别方法 Download PDF

Info

Publication number
CN109065032B
CN109065032B CN201810777097.5A CN201810777097A CN109065032B CN 109065032 B CN109065032 B CN 109065032B CN 201810777097 A CN201810777097 A CN 201810777097A CN 109065032 B CN109065032 B CN 109065032B
Authority
CN
China
Prior art keywords
data
voice
neural network
feature
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810777097.5A
Other languages
English (en)
Other versions
CN109065032A (zh
Inventor
傅啸
张桂军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Hehong Yingke Technology Co.,Ltd.
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201810777097.5A priority Critical patent/CN109065032B/zh
Publication of CN109065032A publication Critical patent/CN109065032A/zh
Application granted granted Critical
Publication of CN109065032B publication Critical patent/CN109065032B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1807Speech classification or search using natural language modelling using prosody or stress

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于深度卷积神经网络的外部语料库语音识别方法。本发明具体实现如下:步骤1、获取语音标注数据和互联网语料库;步骤2、利用语音信号数据的平均能量对该语音信号数据进行清洗;步骤3、对语音标注数据进行特征抽取和标准化;步骤4、构建神经网络模型步骤5、将待测试的语音数据输入构建的神经网络模型,完成识别后输出识别文本数据。本发明能够根据语音信号数据,构建深度卷积、条件随机场模型,与一般的深度学习模型相比,需要更少的标记语音数据,同时充分利用廉价、大规模的无标注互联网预料数据库加强句子整体的识别率,提升句子识别精度。同时本发明将两个过程融为一体,实现了端到端的语音识别方法。

Description

一种基于深度卷积神经网络的外部语料库语音识别方法
技术领域
本发明涉及语音信号处理领域,特别是涉及一种基于深度卷积神经网络的外部语料库语音识别方法。
背景技术
目前语音识别的方法主要有两大类:端到端的语音识别、基于声学模型和语言模型的两段式识别模型。其中,端到端的语音识别是根据大规模的语音标注数据进行训练,输入为语音信号,输出为语音对应的文本。该方法的优点为端到端的识别系统,不需要人工专家设计业务规则,充分利用大规模的数据优势和深度模型的特征学习能力。但是,缺点是需要庞大的训练数据支持,此类方法中经常需要上万小时的语音数据,并且在不同的业务场景需要不同的数据集进行重新训练。
在基于声学模型和语言模型的识别系统中声学模型的任务是计算给定文字后发出语音的概率,通过声学模型把语音转化成音素序列。语言模型的任务是根据发音找到最合理的文字序列,在声学模型给出发音序列之后,从候选的文字序列中找出概率最大的字符串序列。该方法的优点是利用了语音信号和音素、语素、文字之间的规则,从而可以利用更少的数据训练声学模型。然后基于大量的无标注文本数据集训练语言模型,减少了标注成本,同时也通过人工经验保证模型的正确性。但是,缺点是基于声学模型和语言模型的两段式识别模型是串联的两阶段分离训练,使得语言模型并没有使用到原始语音信号特征,不能得到最优解。
发明内容
本发明旨在解决上述技术问题。
本发明的目的在于针对现有语音识别系统的不足,提出一种基于深度卷积神经网络的外部语料库语音识别方法,该方法结合已标注的语音数据集和无标注的特定场景语料库能够准确的识别语音信号对应的文字。并且,根据不同的场景,搭配不同的语料库,在语料库相适应的场景中具有识别精度高,需求标记数据少的优点。
本发明的另一个优点在于提出一种基于深度卷积神经网络的端到端的语音识别系统。
为了实现上述目的,本发明的一方面实例公开了基于深度卷积神经网络和外部语料库的端到端语音识别方法,包括以下步骤:
步骤1、获取语音标注数据和互联网语料库
1-1.所述的语音标注数据为一段话的录音数据,通过人工提取的方式对语音标注数据进行解析,获取该语音标注数据对应的汉字序列、拼音序列和音素序列;
1-2.每个汉字都有拼音,而一个拼音可能对应多个汉字;具体的:将一个拼音拆分成声母和韵母;同理的,再将声韵母拆分成音素,多个音素对应一个声韵母;
1-3.获取该语音标注数据时,必须符合如下约束:
首先,根据语音信号数据,标注对应的汉字序列数据;
然后,对汉字序列进行逐字注音;
最后,将每个拼音拆分成音素;
其中,语音信号数据为输入数据,汉字序列,拼音序列、音素序列为输出数据;
所述的互联网语料库为现有的公开的数据库,例如wiki中文语料库;
步骤2、利用语音信号数据的平均能量对该语音信号数据进行清洗;
步骤3、对语音标注数据进行特征抽取和标准化;
步骤4、构建神经网络模型
步骤5、将待测试的语音数据输入构建的神经网络模型,完成识别后输出识别文本数据。
步骤2所述的利用语音信号数据的平均能量对该语音信号数据进行清洗,具体实现如下:
2-1.计算语音标注数据的平均能量,语音标注数据的平均能量的计算公式;
Figure BDA0001731614900000031
其中,x为语音信号数据,x(m)为语音信号数据的第m个采样点,实验中采样率n使用16000;N为窗大小,实验中取值为320;
2-2.清洗语音标注数据信号中的静音部分。
步骤3所述的对语音标注数据进行特征抽取和标准化,具体实现如下:
3-1.对清洗后的语音标注数据进行预加重、分帧、加窗的操作,计算梅尔频率倒谱系数特征;对当前帧中M个点的mfcc特征进行描述并整合,将整合后的描述集合作为为当前帧的mfcc特征集;
3-2.再将当前帧的前三帧和后三帧的mfcc特征集进行组合,组合生成当前帧的基本特征;
3-3.由于mfcc特征的数值差异大,因此需要对训练集中的每一个基本特征计算其均值和方差,并对每一个基本特征进行标准化,具体实现如下:
Figure BDA0001731614900000032
Figure BDA0001731614900000033
Figure BDA0001731614900000034
其中,ft,i表示第i个基本特征在t时刻的取值;
Figure BDA0001731614900000035
为第i个基本特征在所有时刻上的均值;σi表示第i个基本特征在所有时刻上的方差;
Figure BDA0001731614900000036
为第i个基本特征标准化后在t时刻的取值。
步骤3所述的M为40。
步骤4所述的构建神经网络模型,具体实现如下:
所需构建的神经网络模型:维数为40*7的输入块,由特征数为27,54,108构成的3层卷积块、步长为2的最大值池化,特征数为108,216的2层卷积块;
所述卷积块为1*3,3*1,1*5,5*1,1*1等二维卷积构成;由特征数为512,512,256,256,256构成的5层核大小为3的一维全卷积、隐节点数为256的3层BiLSTM构成的时序特征提取块;由节点数为70的音素输出层、节点数为1170的拼音输出层、节点数为6500的汉字输出层构成的输出模块;
将构建的神经网络模型采用leaky relu激活函数,静态特征提取块和时序特征提取块中的各层均有res连接,加速训练速度。
本发明在构建模型的时候采用基于条件随机场和概率统计的算法,根据所述的模型输入训练集和所述的深度卷积神经网络模型及互联网语料库,根据所述模型的识别结果,进一步的包括:
基于大规模的互联语料库,统计词频、计算每一个词的上下文,和深度卷积神经网络提取的特征构建条件随机场模型,完成句子级别的识别。
本发明有益效果如下:
本发明能够根据语音信号数据,构建深度卷积、条件随机场模型,与一般的深度学习模型相比,需要更少的标记语音数据,同时充分利用廉价、大规模的无标注互联网预料数据库加强句子整体的识别率,提升句子识别精度。相比通过声学模型和语言模型的经典语音识别方法,本发明将两个过程融为一体,实现了端到端的语音识别方法,并且相比于两个分离的系统,端到端的语音识别系统取得了更高的识别精度。
附图说明
图1是本发明端到端的语音识别的流程图;
图2是发明特征提取块的卷积层结构示意图;
图3是本发明端到端的语音识别的框架图。
具体实施方法
下面结合附图对本发明作进一步说明。
如图1-3所示,一种基于深度卷积神经网络的外部语料库语音识别方法,其具体实现包括如下步骤:
步骤1、获取语音标注数据和互联网语料库
1-1所述的语音标注数据为一段话的录音数据,通过人工提取的方式对语音标注数据进行解析,获取该语音标注数据对应的汉字序列、拼音序列和音素序列。
1-2每个汉字都有拼音,而一个拼音可能对应多个汉字。具体的:将一个拼音拆分成声母和韵母。同理的,再将声韵母拆分成音素,多个音素对应一个声韵母。
1-3获取该语音标注数据时,必须符合如下约束:
首先,根据语音信号数据,标注对应的汉字序列数据;
然后,对汉字序列进行逐字注音;
最后,将每个拼音拆分成音素。
其中语音信号数据为输入数据,汉字序列,拼音序列、音素序列为输出数据。
所述的互联网语料库为现有的公开的数据库,例如wiki中文语料库。
步骤2、利用语音信号数据的平均能量对该语音信号数据进行清洗。
2-1计算语音标注数据的平均能量,语音标注数据的平均能量的计算公式;
Figure BDA0001731614900000051
其中,x为语音信号数据,x(m)为语音信号数据的第m个采样点,实验中采样率n使用16000;N为窗大小,实验中取值为320。
2-2.清洗语音标注数据信号中的静音部分。
步骤3、对语音标注数据进行特征抽取和标准化;
3-1.对清洗后的语音标注数据进行预加重、分帧、加窗等操作,计算梅尔频率倒谱系数特征(mfcc),对当前帧中M个点的mfcc特征进行描述并整合,将整合后的描述集合作为为当前帧的mfcc特征集;所述的M优选为40;
3-2.再将当前帧的前三帧和后三帧的mfcc特征集进行组合,组合生成当前帧的基本特征。
3-3.由于mfcc特征的数值差异较大,因此需要对训练集中的每一个基本特征,计算其均值和方差,并对每一个基本特征进行标准化,具体实现如下:
Figure BDA0001731614900000061
Figure BDA0001731614900000062
Figure BDA0001731614900000063
其中,ft,i表示第i个基本特征在t时刻的取值。
Figure BDA0001731614900000064
为第i个基本特征在所有时刻上的均值。σi表示第i个基本特征在所有时刻上的方差。
Figure BDA0001731614900000065
为第i个基本特征标准化后在t时刻的取值。
步骤4、构建神经网络模型
所需构建的神经网络模型:维数为40*7的输入块,由特征数为27,54,108构成的3层卷积块、步长为2的最大值池化,特征数为108,216的2层卷积块。
所述卷积块为1*3,3*1,1*5,5*1,1*1等二维卷积构成,组成方式如图2所示。由特征数为512,512,256,256,256构成的5层核大小为3的一维全卷积、隐节点数为256的3层BiLSTM构成的时序特征提取块,由节点数为70的音素输出层、节点数为1170的拼音输出层、节点数为6500的汉字输出层构成的输出模块。
将构建的神经网络模型采用leaky relu激活函数,静态特征提取块和时序特征提取块中的各层均有res连接,加速训练速度。
步骤5、将待测试的语音数据输入构建的神经网络模型,完成识别后输出识别文本数据。

Claims (2)

1.一种基于深度卷积神经网络的外部语料库语音识别方法,其特征在于包括如下步骤:
步骤1、获取语音标注数据和互联网语料库
1-1.所述的语音标注数据为一段话的录音数据,通过人工提取的方式对语音标注数据进行解析,获取该语音标注数据对应的汉字序列、拼音序列和音素序列;
1-2.每个汉字都有拼音,而一个拼音可能对应多个汉字;具体的:将一个拼音拆分成声母和韵母;同理的,再将声韵母拆分成音素,多个音素对应一个声韵母;
1-3.获取该语音标注数据时,必须符合如下约束:
首先,根据语音信号数据,标注对应的汉字序列数据;
然后,对汉字序列进行逐字注音;
最后,将每个拼音拆分成音素;
其中,语音标注数据为输入数据,汉字序列、拼音序列、音素序列为输出数据;
所述的互联网语料库为现有的公开的数据库;
步骤2、利用语音标注数据的平均能量对该语音标注数据进行清洗;
步骤3、对语音标注数据进行特征抽取和标准化;
步骤4、构建神经网络模型;
步骤5、将待测试的语音数据输入构建的神经网络模型,完成识别后输出识别文本数据;
步骤2所述的利用语音标注数据的平均能量对该语音标注数据进行清洗,具体实现如下:
2-1.计算语音标注数据的平均能量,语音标注数据的平均能量的计算公式;
Figure FDA0002407352510000021
其中,x为语音信号数据,x(m)为语音信号数据的第m个采样点,采样率n使用16000;N为窗大小,取值为320;
2-2.清洗语音标注数据信号中的静音部分;
步骤3所述的对语音标注数据进行特征抽取和标准化,具体实现如下:
3-1.对清洗后的语音标注数据进行预加重、分帧、加窗的操作,计算梅尔频率倒谱系数特征;对当前帧中M个点的梅尔频率倒谱特征进行描述并整合,将整合后的描述集合作为当前帧的梅尔频率倒谱特征集;
3-2.再将当前帧的前三帧和后三帧的梅尔频率倒谱特征集进行组合,组合生成当前帧的基本特征;
3-3.由于梅尔频率倒谱特征的数值差异大,因此需要对训练集中的每一个基本特征计算其均值和方差,并对每一个基本特征进行标准化,具体实现如下:
Figure FDA0002407352510000022
Figure FDA0002407352510000023
Figure FDA0002407352510000024
其中,ft,i表示第i个基本特征在t时刻的取值;
Figure FDA0002407352510000025
为第i个基本特征在所有时刻上的均值;σi表示第i个基本特征在所有时刻上的方差;
Figure FDA0002407352510000026
为第i个基本特征标准化后在t时刻的取值;
步骤4所述的构建神经网络模型,具体实现如下:
所需构建的神经网络模型:维数为40*7的输入块,由特征数为27,54,108构成的3层卷积块、步长为2的最大值池化,特征数为108,216的2层卷积块;
所述卷积块为1*3,3*1,1*5,5*1,1*1二维卷积构成;由特征数为512,512,256,256,256构成的5层核大小为3的一维全卷积、隐节点数为256的3层BiLSTM构成的时序特征提取块;由节点数为70的音素输出层、节点数为1170的拼音输出层、节点数为6500的汉字输出层构成的输出模块;
将构建的神经网络模型采用leaky relu激活函数,静态特征提取块和时序特征提取块中的各层均有resnet残差学习连接,加速训练速度。
2.根据权利要求1所述的一种基于深度卷积神经网络的外部语料库语音识别方法,其特征在于步骤3所述的M为40。
CN201810777097.5A 2018-07-16 2018-07-16 一种基于深度卷积神经网络的外部语料库语音识别方法 Active CN109065032B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810777097.5A CN109065032B (zh) 2018-07-16 2018-07-16 一种基于深度卷积神经网络的外部语料库语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810777097.5A CN109065032B (zh) 2018-07-16 2018-07-16 一种基于深度卷积神经网络的外部语料库语音识别方法

Publications (2)

Publication Number Publication Date
CN109065032A CN109065032A (zh) 2018-12-21
CN109065032B true CN109065032B (zh) 2020-09-22

Family

ID=64816651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810777097.5A Active CN109065032B (zh) 2018-07-16 2018-07-16 一种基于深度卷积神经网络的外部语料库语音识别方法

Country Status (1)

Country Link
CN (1) CN109065032B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110211594B (zh) * 2019-06-06 2021-05-04 杭州电子科技大学 一种基于孪生网络模型和knn算法的说话人识别方法
CN110459208B (zh) * 2019-09-09 2022-01-11 中科极限元(杭州)智能科技股份有限公司 一种基于知识迁移的序列到序列语音识别模型训练方法
CN110619867B (zh) * 2019-09-27 2020-11-03 百度在线网络技术(北京)有限公司 语音合成模型的训练方法、装置、电子设备及存储介质
CN110853629A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于深度学习的语音识别数字的方法
CN111126563B (zh) * 2019-11-25 2023-09-29 中国科学院计算技术研究所 基于孪生网络的时空数据的目标识别方法及系统
CN111666469B (zh) * 2020-05-13 2023-06-16 广州国音智能科技有限公司 语句库构建方法、装置、设备和存储介质
CN111695298B (zh) * 2020-06-03 2023-04-07 重庆邮电大学 一种基于Pandapower与语音识别的电力系统潮流仿真交互方法
CN111710330A (zh) * 2020-07-29 2020-09-25 深圳波洛斯科技有限公司 基于深度神经网络的环境噪声消除方法、装置及存储介质
WO2022021366A1 (zh) * 2020-07-31 2022-02-03 北京嘀嘀无限科技发展有限公司 语音识别方法、装置、计算设备和存储介质
CN111916064A (zh) * 2020-08-10 2020-11-10 北京睿科伦智能科技有限公司 一种端到端的神经网络语音识别模型的训练方法
CN112259080B (zh) * 2020-10-20 2021-06-22 北京讯众通信技术股份有限公司 一种基于神经网络模型的语音识别方法
CN112632421B (zh) * 2020-12-25 2022-05-10 杭州电子科技大学 一种自适应结构化的文档抽取方法
CN113205814B (zh) * 2021-04-28 2024-03-12 平安科技(深圳)有限公司 语音数据标注方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104575497B (zh) * 2013-10-28 2017-10-03 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
CN105679316A (zh) * 2015-12-29 2016-06-15 深圳微服机器人科技有限公司 一种基于深度神经网络的语音关键词识别方法及装置
CN107195299A (zh) * 2016-03-14 2017-09-22 株式会社东芝 训练神经网络声学模型的方法和装置及语音识别方法和装置
CN107293291B (zh) * 2016-03-30 2021-03-16 中国科学院声学研究所 一种基于自适应学习率的端到端的语音识别方法
US10109275B2 (en) * 2016-12-19 2018-10-23 Asapp, Inc. Word hash language model

Also Published As

Publication number Publication date
CN109065032A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109065032B (zh) 一种基于深度卷积神经网络的外部语料库语音识别方法
CN109410914B (zh) 一种赣方言语音和方言点识别方法
CN110364171B (zh) 一种语音识别方法、语音识别系统及存储介质
CN105427858B (zh) 实现语音自动分类的方法及系统
CN107195296B (zh) 一种语音识别方法、装置、终端及系统
US11514891B2 (en) Named entity recognition method, named entity recognition equipment and medium
CN111429889A (zh) 基于截断注意力的实时语音识别的方法、装置、设备以及计算机可读存储介质
CN111210807B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Zou et al. Comparable study of modeling units for end-to-end mandarin speech recognition
JP2019159654A (ja) 時系列情報の学習システム、方法およびニューラルネットワークモデル
CN109036471B (zh) 语音端点检测方法及设备
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN102063900A (zh) 克服混淆发音的语音识别方法及系统
CN112466279B (zh) 一种英语口语发音自动纠正方法和装置
Ahmed et al. End-to-end lexicon free arabic speech recognition using recurrent neural networks
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
Zhao et al. End-to-end-based Tibetan multitask speech recognition
CN111192572A (zh) 语义识别的方法、装置及系统
CN111862952A (zh) 一种去混响模型训练方法及装置
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
CN112489634A (zh) 语言的声学模型训练方法、装置、电子设备及计算机介质
Suyanto et al. End-to-End speech recognition models for a low-resourced Indonesian Language
Kherdekar et al. Convolution neural network model for recognition of speech for words used in mathematical expression
CN113793599A (zh) 语音识别模型的训练方法和语音识别方法及装置
Zhao et al. Tibetan Multi-Dialect Speech and Dialect Identity Recognition.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220728

Address after: Room 702, building 1, No. 20, headquarters 3rd road, Songshanhu Park, Dongguan City, Guangdong Province, 523000

Patentee after: Dongguan Zhuangli cutting edge technology Co.,Ltd.

Address before: 310018 No. 2 street, Xiasha Higher Education Zone, Hangzhou, Zhejiang

Patentee before: HANGZHOU DIANZI University

Effective date of registration: 20220728

Address after: 100176 room 601-3, 6th floor, building 6, courtyard 10, KEGU 1st Street, Daxing District, Beijing (Yizhuang group, high-end industrial area, Beijing Pilot Free Trade Zone)

Patentee after: Beijing Hehong Yingke Technology Co.,Ltd.

Address before: Room 702, building 1, No. 20, headquarters 3rd road, Songshanhu Park, Dongguan City, Guangdong Province, 523000

Patentee before: Dongguan Zhuangli cutting edge technology Co.,Ltd.