CN107437417A - 基于循环神经网络语音识别中语音数据增强方法及装置 - Google Patents
基于循环神经网络语音识别中语音数据增强方法及装置 Download PDFInfo
- Publication number
- CN107437417A CN107437417A CN201710651866.2A CN201710651866A CN107437417A CN 107437417 A CN107437417 A CN 107437417A CN 201710651866 A CN201710651866 A CN 201710651866A CN 107437417 A CN107437417 A CN 107437417A
- Authority
- CN
- China
- Prior art keywords
- mrow
- speech data
- mentioned
- recognition
- random number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 230000000306 recurrent effect Effects 0.000 title claims abstract description 23
- 230000002708 enhancing effect Effects 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000009471 action Effects 0.000 claims description 27
- 238000012217 deletion Methods 0.000 claims description 21
- 230000037430 deletion Effects 0.000 claims description 21
- 238000003780 insertion Methods 0.000 claims description 21
- 230000037431 insertion Effects 0.000 claims description 21
- 238000012163 sequencing technique Methods 0.000 claims description 17
- 230000007935 neutral effect Effects 0.000 claims description 6
- 238000004088 simulation Methods 0.000 claims description 2
- 230000001788 irregular Effects 0.000 abstract description 4
- 239000002245 particle Substances 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 206010027476 Metastases Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及语音识别处理领域,提出了一种基于循环神经网络的语音数据增强的方法,旨在解决循环神经网络在语音识别中由于模拟语音识别中不规则语法现象引起的过度建模词间依赖的问题。该方法包括:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和声学特征向量获得语音数据的语句标签序列;通过决策聚类预设的标注文件和语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果第一随机数γ大于调整比例α,在边界文件所指示的位置对上述语音数据进行增强处理。该方法够快速、方便地增加训练数据中不规则的口语化现象。
Description
技术领域
本发明涉语音识别技术领域,具体涉及中文口语语言处理、深度学习和大词汇量连续语音识别领域,特别涉及一种基于循环神经网络语音识别中的语音数据增强方法及装置。
背景技术
语音识别是指把一段语音序列,转换成文本序列,是一个序列到序列的映射任务。随着大数据时代的来临,人工智能快速发展,语音识别作为一种便捷的人机交互入口,变得越来越重要。
当前,在进行语音识别模型的训练中,尤其是在不同的应用场景中,常常由于应用场景不同,而不同场景之间的表达习惯不同,数据源不能通用,新的应用场景中数据积累较少,人工标注数据的成本非常高。在自然的口语下,口语的不规则表达非常多,现有的用于训练上述语音识别模型的数据无法全面的模拟口语表达中的重复、省略、儿化等多种不规则现象,导致在训练语音识别模型时训练用语音数据的资源稀缺。
发明内容
为了解决现有技术中的上述问题,本发明采用以下技术方案以解决上述问题:第一方面,本申请提供了基于循环神经网络语音识别中语音数据增强方法,该方法包括如下步骤:在训练基于循环神经网络的语音识别模型中,训练用数据输入神经网络之前,对上述语音数据进行增强处理上述语音数据增强方法包括:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列;通过决策聚类预设的标注文件和上述语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果上述第一随机数γ大于上述调整比例α,在上述边界文件所指示的位置对上述语音数据进行增强处理。
在一些示例中,上述方法还包括在上述边界文件所指示位置对上述语音数据进行增强处理之前,确定上述增强处理的类型:根据上述第一随机数γ的大小,通过如下公式计算对上述语音数据的模拟操作序号n:
从模拟化操作集合中选出与上述模拟操作序号对应的操作信息,作为上述增强处理的模拟化操作类型。
在一些示例中,所述方法还包括在确定所述增强处理的类型之后,根据预设的操作粒度表选出所述增强处理的模拟化操作类型所对应的增强处理的模拟操作的粒度。
在一些示例中,上述方法还包括根据上述增强处理的模拟操作的粒度确定上述增强处理的模拟操作的最小操作粒度单元。
在一些示例中,上述在上述边界文件所指示的位置对上述语音数据进行增强处理,包括:判断上述模拟化操作序号对应模拟操作的类型是否为插入和/或删除操作;如果是,计算上述插入和/或删除操作的最小操作粒度单元所占上述语句标签序列总数的比例作为第一比例;随机生成零与上述第一比例之间的第二随机数;将上述第二随机数与上述语句标签序列的总数的乘积作为上述插入和/或删除操作的单元数目,标记为第一数目;在上述语句标签序列上进行第一数目个插入和/或删除操作。
在一些示例中,上述在上述语句标签序列上进行第一数目个插入和/或删除操作,包括:依次生成第一数目个零与上述语句标签序列的总数之间的第三随机数;在上述第三随机数所指示的位置对上述语句标签序列所模拟的语句进行上述插入和/或删除操作。
在一些示例中,其特征在于上述在上述边界文件所指示的位置对上述语音数据进行增强处理,包括:判断上述模拟化操作序号对应的操作的类型是否为调序操作;如果是,随机生成[0,1]之间的第四随机数;计算上述调序操作的最小操作粒度单元所占上述语句标签序列总数的比例作为第二比例;随机生成零与上述第二比例之间的第五随机数;将上述第五随机数与上述语句标签序列总数的乘积作为上述调序操作的第二数目;在上述语句标签序列中随机调换第二数目个调序操作的最小操作粒度单元的位置。
在一些示例中,所述方法还包括根据预设的标注文件和所述声学特征向量获得所述语音数据的语句标签序列,包括:利用公式从语料库中提取出使得所述声学特征向量后验概率最大的词序列:由上述词序列生成上述语音数据的语句标签序列。其中,公式为:
其中,X1:T=x1,…,xT表示有T帧的声学特征向量,w表示词序列,P(w)表示表示词序列的先验分布的概率,最可能发生的对齐状态序列给定时,词序列的概率;表示在输入到解码器前的声学似然。
第二方面,本申请提供了一种存储装置,该存储装置中存储有多条程序,程序适于由处理器加载并执行以实现上述第一方面中所述的基于循环神经网络的语音数据增强的方法。
第三方面,本申请提供了一种处理装置,包括处理器和存储设备,其中,处理器适于执行各条程序;存储设备适于存储多条程序;程序适于由处理器加载并执行以实现上述第一方面中所述的基于循环神经网络语音识别中语音数据增强方法。
本申请提供的基于神经网络语音识别中语音数据增强方法和设备,通过从输入的语音数据中所获得声学特征值,生成声学特征向量,并根据标注文件和所述声学特征向量获得语句的标签序列;之后,通过决策聚类预设的标注文件和所述语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果第一随机数γ大于所述调整比例α,在上述对齐文件的边界所指示的位置对上述语音数据进行增强处理。上述方法模拟口语表达中的不规则现象,如重复、删除等,充分利用来自各不同场景的数据,提高口语化语音数据的数量。
附图说明
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的基于循环神经网络语音识别中语音数据增强方法的一个实施例的流程图;
图3为本申请提供的语音数据的语音信号图;
图4为本申请提供的增强处理操作示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的基于循环神经网络语音识别中语音数据增强方法或基于循环神经网络语音识别中语音数据增强设备的实施例的示例性系统架构。
如图1所示,系统架构可以包括终端设备网络104和服务器105。其中,终端设备可以是多个相同或不同的设备,可以为第一终端101、第二终端102、第三终端103。网络104用以在第一终端101、第二终端102、第三终端103和服务器105之间,提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
第一终端101、第二终端102、第三终端103可以通过网络104与服务器105之间进行信息交互,以接收或发送信息等。第一终端101、第二终端102、第三终端103之间可以通过网络104进行信息交互。
第一终端101、第二终端102、第三终端103可以是具有显示屏并支持网络通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机以及由多个计算机构成的计算机处理系统等等。需要说明的是,第一终端101、第二终端102、第三终端103上装设有可以使用语音输入的各类应用,例如,各类搜索类应用、社交平台交互工具等。
服务器105可以是提供各种服务的服务器,例如,对终端设备上的搜索应用提供技术支持的后台数据处理服务器。后台数据处理服务器对接收到的用户通过终端设备输入的语音数据等进行处理,将处理结果(将语音搜索数据转换为文字再进行搜索,搜索后的结果)反馈给终端设备。
需要说明的是,本申请实施例所提供的基于循环神经网络语音识别中语音数据增强方法一般由服务器105执行,相应地,基于循环神经网络语音识别中语音数据增强方设备一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,图2示出了根据本申请的基于循环神经网络语音识别中语音数据增强方法的一个实施例的流程。在训练基于神经网络的语音识别模型中,训练用数据输入神经网络之前,对语音数据作增强处理。该基于循环神经网络语音识别中口语语音数据增强方法,包括以下步骤:
步骤201,从输入的语音数据中提取标识口语语音的各个频率能量值的声学特征,生成声学特征向量。
在本实施例中,基于循环神经网络语音识别中语音数据增强方法运行于其上的电子设备(例如图1所示的服务器)在基于神经网络的应用识别之前,对训练数据作增强处理,使得有效的训练用数据的数据量增加。上述服务器可以通过有线连接方式或者无线连接方式从终端设备或服务器自带的存储单元或其他具有存储功能的设备输入的语音数据,提取语音数据中口语语音的各个频率能量值的声学特征,生成声学特征向量。
这里,声学特征是语音的特征参数,如,MFCC(Mel-frequency CepstrumCoefficients,梅尔频率倒谱系数)特征、FBank(Mel-scale Filter Bank,梅尔标度滤波器组)特征、LPC(Linear Predictive Coding,线性预测编码)特征。
这里,提取语音数据中口语语音的各个频率能量值的声学特征可以是从语音信号的频谱中提取出在各频率的能量值作为在该频率的声学特征,由不同频率的声学特征生成声学特征向量。作为示例,如图3所示的语音信号,将上述语音信号转换为[t1,t2,﹒﹒﹒tn],其中,ti(i为0到n的整数)为固定维度的特征向量。
步骤202,根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列。
本实施例中,上述服务器可以根据预先存储的标注文件或标注数据和声学特征向量获得上述语音数据的语句标签序列。这里,标注文件是标注语音数据与文字信息或语言信息对应关系的文件或数据。根据上述标注文件中语音与文字的对应关系,获得上述声学特征向量中各维声学特征所对应的文字信息作为语句标签,上述特征向量对应的全部语句标签为上述语音数据的语句标签序列。
在本实施例的一些可选的实现方式中,根据预设的标注文件和声学特征向量获得语音数据的语句标签序列,包括:利用公式从语料库中提取出使得声学特征向量后验概率最大的词序列,由上述词序列生成上述口语语音数据的语句标签序列。其中,公式为:
其中,其中,X1:T=x1,…,xT表示有T帧的声学特征向量,w表示词序列,P(w)表示表示词序列的先验分布的概率,最可能发生的对齐状态序列给定时,词序列的概率;表示在输入到解码器前的声学似然。
具体地,上述公式通过如下的变换获得:
其中,s1:T表示对齐的状态序列;P(w|s1:T,X1:T)表示给定声学特征向量和所有可能的对齐的状态序列时,词序列的概率;P(s1:T|X1:T)表示给定特征向量序列,得到所有可能的对齐的状态序列的概率;表示在最可能发生的对齐状态序列给定时,词序列的概率;表示给定特征向量,最可能发生的对齐状态序列的概率;(也就是概率最大的那个对齐状态序列的概率值);表示最可能发生的对齐状态序列的先验概率;表示在输入到解码器前的声学似然;P(w)表示语言模型的概率,也是该词序列的先验分布的概率;给定当前词序列,得到上述最大可能的对齐状态序列的概率,该概率是通过HMM模型的转移模型结合发音词典模型得到。
步骤203,通过决策聚类预设的标注文件和上述语句标签序列,获得决策聚类操作后的对齐文件。
本实施例中,通过对预设的标注文件和上述语句标签序列进行决策聚类,获得决策聚类操作后的对齐文件。其中,决策聚类是决策树聚类算法。这里,利用声学模型将特征向量映射到建模单元,其中,建模单元是组成语言信息或文字信息的基本状态。例如可以是拼音,为了得到更加充分的建模单元,可以把拼音根据上下文做决策树聚类,将拼音拆分为三个上下文相关的音素,每个音素可以为一个状体,每个状态为建模单元。上述获得决策聚类操作后的对齐文件可以是从上述语句标签序列中截取建模单元取得。
步骤204。生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较。
在本实施例中,随机生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较,其中,α是预先设置的调整比例。
在本实施例的一些可选的实现方式中,还包括确定所述增强处理的类型:根据上述第一随机数γ的大小,通过模拟操作序号计算公式计算上述语音数据的模拟操作序号n,从模拟化操作集合中选出与上述模拟操作序号n对应的操作信息,作为增强处理的模拟化操作类型。其中,上述模拟操作序号计算公式:
这里,模拟化操作集合是预先存储的,对上述语音数据增强处理的操作集合,如[插入、删除···调序],集合确定要进行的模拟化操作集合,如。假如集合元素个数为N,操作的标记为[0,1,…,N-1],比如操作标记为0,对应模拟化操作集合的操作为插入、操作标记为1,对应模拟化操作集合的操作为删除等等。上述公式确定出n后,由操作的标记和模拟化操作集合对应关系确定出上述增强处理的模拟化操作类型。
在本实施例的一些可选的实现方式中,在确定上述增强处理的类型之后,根据预设的操作粒度表选出上述增强处理的模拟化操作类型所对应的增强处理的模拟操作的粒度。模拟操作的粒度是模拟操作对应的最小的单元。在具体的实施过程中,模拟操作的粒度有字的操作、词的操作、音素的操作等。根据增强处理的模拟操作的粒度确定增强处理的模拟操作的最小操作粒度单元。可以由预先设置的模拟化操作类型与最小操作粒度对应关系确定出最小操作粒度单元。
步骤205:如果上述第一随机数γ大于上述调整比例α,在上述对齐文件的边界所指示的位置对上述语音数据进行增强处理。
本实施例中上述服务器比较上述第一随机数γ与上述调整比例α的大小,如果γ<α,将上述语音数据作为训练用数据直接输入训练模型。如果γ≥α,对上述语音数据作增强处理。这里,可以在上述齐文件的边界所指示的位置对上述语音数据进行增强处理,其中上述增强处理可以是插入、删除、调序、替换等操作。
在本实施例的一些可选的实现方式中,在上述边界文件所指示的位置对上述语音数据进行增强处理,包括:判断上述模拟化操作序号对应模拟操作的类型是否为插入和/或删除操作;如果是,计算上述插入和/或删除操作的最小操作粒度单元所占上述语句标签序列总数的比例作为第一比例;随机生成零与上述第一比例之间的第二随机数;将上述第二随机数与上述语句标签序列的总数的乘积作为上述插入和/或删除操作的单元数目,标记为第一数目;在上述语句标签序列上进行第一数目个插入和/或删除操作。这里,当类型为插入和/或删除操作,模拟化操作的最小粒度单元为字。作为示例,确定出插入和/或删除操作的最小粒度单元p占语句标签序列总数P的比例为第一比例β,生成[0,β]之间的随机数为第二随机数γ2,进行插入或者删除的单元数为p=floor(γP),函数floor代表向下取整。依次随机生成p个[0,P]之间的第三随机数,对每个第三随机数位置处的词或字进行插入或者删除操作。
在本实施例的一些可选的实现方式中,在上述边界文件所指示的位置对上述语音数据进行增强处理,包括:判断上述模拟化操作序号对应的操作的类型是否为调序操作;如果是,随机生成[0,1]之间的第四随机数;计算上述调序操作的最小操作粒度单元所占上述语句标签序列总数的比例作为第二比例;随机生成零与上述第二比例之间的第五随机数;将上述第五随机数与上述语句标签序列总数的乘积作为上述调序操作的第二数目;在上述语句标签序列中随机调换第二数目个调序操作的最小操作粒度单元的位置。其中,调序操作的最小粒度单元是音素。另一方面,本申请还提供了一种存储装置,其中存储有多条程序,程序适于由处理器加载并执行以实现:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列;通过决策聚类预设的标注文件和上述语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果上述第一随机数γ大于上述调整比例α,在上述边界文件所指示的位置对上述语音数据进行增强处理。
图4示是对语音数据作增强处理的示意图,图(b)中示出了对语句标签序列“我爱中国”作调序操作,然后将调序后的序列输入到递归神经网络(RNNS)中进行后续处理;图(c)示出了对语句标签序列“我爱中国”作删除操作,然后将删除了最小粒度单元后的的序列输入到递归神经网络(RNNS)中进行后续处理;图(d)中示出了对语句标签序列“我爱中国”作插入操作,然后将插入最小粒度单元后的序列输入到递归神经网络(RNNS)中进行后续处理。
另一方面,本申请还提供了一种处理装置,包括处理器,适于执行各条程序;以及存储设备,适于存储多条程序;所述程序适于由处理器加载并执行以实现:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列;通过决策聚类预设的标注文件和上述语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果上述第一随机数γ大于上述调整比例α,在上述边界文件所指示的位置对上述语音数据进行增强处理。
另一方面,本申请还提供了一种存储装置,其中存储有多条程序,程序适于由处理器加载并执行以实现:从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;根据预设的标注文件和上述声学特征向量获得上述语音数据的语句标签序列;通过决策聚类预设的标注文件和上述语句标签序列获得决策聚类操作后的对齐文件;生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;如果上述第一随机数γ大于上述调整比例α,在上述边界文件所指示的位置对上述语音数据进行增强处理。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于循环神经网络语音识别中语音数据增强方法,其特征在于,在训练基于循环神经网络的语音识别模型中,训练用语音数据输入神经网络之前,对所述语音数据进行增强处理,所述语音数据增强方法包括:
从输入的语音数据中提取标识语音的各个频率能量值的声学特征,生成声学特征向量;
根据预设的标注文件和所述声学特征向量获得所述语音数据的语句标签序列;
通过决策聚类预设的标注文件和所述语句标签序列获得决策聚类操作后的对齐文件;
生成一个[0,1]之间的第一随机数γ,并与预设的调整比例α比较;
如果所述第一随机数γ大于所述调整比例α,在所述对齐文件的边界所指示的位置对所述语音数据进行增强处理。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括在所述边界文件所指示位置对所述语音数据进行增强处理之前,确定所述增强处理的类型:
根据所述第一随机数γ的大小,通过如下公式计算对所述语音数据的模拟操作序号n:
<mrow>
<mi>n</mi>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mn>0</mn>
<mo>,</mo>
<mi>&gamma;</mi>
<mo>&le;</mo>
<mfrac>
<mn>1</mn>
<mi>N</mi>
</mfrac>
</mtd>
</mtr>
<mtr>
<mtd>
<mn>1</mn>
<mo>,</mo>
<mfrac>
<mn>1</mn>
<mi>N</mi>
</mfrac>
<mo><</mo>
<mi>&gamma;</mi>
<mo>&le;</mo>
<mfrac>
<mn>2</mn>
<mi>N</mi>
</mfrac>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>...</mo>
</mtd>
</mtr>
<mtr>
<mtd>
<mi>N</mi>
<mo>-</mo>
<mn>1</mn>
<mo>,</mo>
<mfrac>
<mrow>
<mi>N</mi>
<mo>-</mo>
<mn>1</mn>
</mrow>
<mi>N</mi>
</mfrac>
<mo><</mo>
<mi>&gamma;</mi>
<mo>&le;</mo>
<mn>1</mn>
</mtd>
</mtr>
</mtable>
</mfenced>
</mrow>
从预存的模拟化操作集合中选出与所述模拟操作序号对应的操作信息,作为所述增强处理的模拟化操作类型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括在确定所述增强处理的类型之后,根据预设的操作粒度表选出所述增强处理的模拟化操作类型所对应的增强处理的模拟操作的粒度。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括根据所述增强处理的模拟操作的粒度确定所述增强处理的模拟操作的最小操作粒度单元。
5.根据权利要求4所述的方法,其特征在于,所述在所述边界文件所指示的位置对所述语音数据进行增强处理,包括:
判断所述模拟化操作序号对应模拟操作的类型是否为插入和/或删除操作;
如果是,计算所述插入和/或删除操作的最小操作粒度单元所占所述语句标签序列总数的比例作为第一比例;
随机生成零与所述第一比例之间的第二随机数;
将所述第二随机数与所述语句标签序列的总数的乘积作为所述插入和/或删除操作的单元数目,标记为第一数目;
在所述语句标签序列上进行第一数目个插入和/或删除操作。
6.根据权利要求5所述的方法,其特征在于,所述在所述语句标签序列上进行第一数目个插入和/或删除操作,包括:
依次生成第一数目个零与所述语句标签序列的总数之间的第三随机数;
在所述第三随机数所指示的位置对所述语句标签序列所模拟的语句进行所述插入和/或删除操作。
7.根据权利要求4所述的方法,其特征在于,所述在所述边界文件所指示的位置对所述语音数据进行增强处理,包括:
判断所述模拟化操作序号对应的操作的类型是否为调序操作;
如果是,随机生成[0,1]之间的第四随机数;
计算所述调序操作的最小操作粒度单元所占所述语句标签序列总数的比例作为第二比例;
随机生成零与所述第二比例之间的第五随机数;
将所述第五随机数与所述语句标签序列总数的乘积作为所述调序操作的第二数目;
在所述语句标签序列中随机调换第二数目个调序操作的最小操作粒度单元的位置。
8.根据权利要求4所述的方法,其特征在于,所述方法还包括根据预设的标注文件和所述声学特征向量获得所述语音数据的语句标签序列,包括:
利用如下公式从语料库中提取出使得所述声学特征向量后验概率最大的词序列:
<mrow>
<msup>
<mi>w</mi>
<mo>*</mo>
</msup>
<mo>=</mo>
<munder>
<mi>argmax</mi>
<mi>w</mi>
</munder>
<mi>P</mi>
<mrow>
<mo>(</mo>
<mi>w</mi>
<mo>)</mo>
</mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>s</mi>
<mrow>
<mn>1</mn>
<mo>:</mo>
<mi>T</mi>
</mrow>
<mo>*</mo>
</msubsup>
<mo>|</mo>
<mi>w</mi>
<mo>)</mo>
</mrow>
<mfrac>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>s</mi>
<mrow>
<mn>1</mn>
<mo>:</mo>
<mi>T</mi>
</mrow>
<mo>*</mo>
</msubsup>
<mo>|</mo>
<msub>
<mi>X</mi>
<mrow>
<mn>1</mn>
<mo>:</mo>
<mi>T</mi>
</mrow>
</msub>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>P</mi>
<mrow>
<mo>(</mo>
<msubsup>
<mi>s</mi>
<mrow>
<mn>1</mn>
<mo>:</mo>
<mi>T</mi>
</mrow>
<mo>*</mo>
</msubsup>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,X1:T=x1,…,xT表示有T帧的声学特征向量,w表示词序列,P(w)表示表示词序列的先验分布的概率,最可能发生的对齐状态序列给定时,词序列的概率;表示在输入到解码器前的声学似然;
由所述词序列生成所述语音数据的语句标签序列。
9.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-7任一项所述的基于循环神经网络的语音数据增强的方法。
10.一种处理装置,包括
处理器,适于执行各条程序;以及
存储设备,适于存储多条程序;
其特征在于,所述程序适于由处理器加载并执行以实现:
权利要求1-5任一项所述的基于循环神经网络语音识别的语音数据增强的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710651866.2A CN107437417B (zh) | 2017-08-02 | 2017-08-02 | 基于循环神经网络语音识别中语音数据增强方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710651866.2A CN107437417B (zh) | 2017-08-02 | 2017-08-02 | 基于循环神经网络语音识别中语音数据增强方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107437417A true CN107437417A (zh) | 2017-12-05 |
CN107437417B CN107437417B (zh) | 2020-02-14 |
Family
ID=60459893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710651866.2A Active CN107437417B (zh) | 2017-08-02 | 2017-08-02 | 基于循环神经网络语音识别中语音数据增强方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107437417B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024008A1 (zh) * | 2017-08-02 | 2019-02-07 | 中国科学院自动化研究所 | 基于循环神经网络语音识别中语音数据增强方法及装置 |
CN109346063A (zh) * | 2018-10-12 | 2019-02-15 | 电子科技大学 | 一种语音数据增强方法 |
CN109472318A (zh) * | 2018-11-27 | 2019-03-15 | 阿里巴巴集团控股有限公司 | 为构建的机器学习模型选取特征的方法及装置 |
CN109935243A (zh) * | 2019-02-25 | 2019-06-25 | 重庆大学 | 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法 |
CN110633197A (zh) * | 2018-06-22 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 一种过度绘制的检测方法和装置 |
CN110718223A (zh) * | 2019-10-28 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 用于语音交互控制的方法、装置、设备和介质 |
CN111145730A (zh) * | 2019-12-30 | 2020-05-12 | 苏州思必驰信息科技有限公司 | 语音识别模型的优化方法及系统 |
CN112116181A (zh) * | 2019-06-20 | 2020-12-22 | 北京新唐思创教育科技有限公司 | 课堂质量模型的训练方法、课堂质量评价方法及装置 |
CN112466298A (zh) * | 2020-11-24 | 2021-03-09 | 网易(杭州)网络有限公司 | 语音检测方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582264A (zh) * | 2009-06-12 | 2009-11-18 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法及语音增加的声音采集系统 |
CN103021420A (zh) * | 2012-12-04 | 2013-04-03 | 中国科学院自动化研究所 | 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法 |
US9208794B1 (en) * | 2013-08-07 | 2015-12-08 | The Intellisis Corporation | Providing sound models of an input signal using continuous and/or linear fitting |
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US20170206915A1 (en) * | 2016-01-19 | 2017-07-20 | Xerox Corporation | Method and system for detecting sentiment by analyzing human speech |
-
2017
- 2017-08-02 CN CN201710651866.2A patent/CN107437417B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101582264A (zh) * | 2009-06-12 | 2009-11-18 | 瑞声声学科技(深圳)有限公司 | 语音增强的方法及语音增加的声音采集系统 |
CN103021420A (zh) * | 2012-12-04 | 2013-04-03 | 中国科学院自动化研究所 | 一种基于相位调整和幅值补偿的多子带谱减法的语音增强方法 |
US9208794B1 (en) * | 2013-08-07 | 2015-12-08 | The Intellisis Corporation | Providing sound models of an input signal using continuous and/or linear fitting |
CN106683677A (zh) * | 2015-11-06 | 2017-05-17 | 阿里巴巴集团控股有限公司 | 语音识别方法及装置 |
US20170206915A1 (en) * | 2016-01-19 | 2017-07-20 | Xerox Corporation | Method and system for detecting sentiment by analyzing human speech |
Non-Patent Citations (3)
Title |
---|
ANURAG KUMAR1, ET AL.: "Speech Enhancement In Multiple-Noise Conditions using Deep Neural Networks", 《INTERSPEECH 2016》 * |
YONG XU,ET AL.: "A Regression Approach to Speech Enhancement Based on Deep Neural Networks", 《IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 * |
YUANYUAN ZHAO,ET AL.: "Multidimensional Residual Learning Based on Recurrent Neural Networks for Acoustic Modeling", 《INTERSPEECH 2016》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019024008A1 (zh) * | 2017-08-02 | 2019-02-07 | 中国科学院自动化研究所 | 基于循环神经网络语音识别中语音数据增强方法及装置 |
CN110633197A (zh) * | 2018-06-22 | 2019-12-31 | 北京京东尚科信息技术有限公司 | 一种过度绘制的检测方法和装置 |
CN110633197B (zh) * | 2018-06-22 | 2024-04-12 | 北京京东尚科信息技术有限公司 | 一种过度绘制的检测方法和装置 |
CN109346063B (zh) * | 2018-10-12 | 2022-10-14 | 电子科技大学 | 一种语音数据增强方法 |
CN109346063A (zh) * | 2018-10-12 | 2019-02-15 | 电子科技大学 | 一种语音数据增强方法 |
CN109472318B (zh) * | 2018-11-27 | 2021-06-04 | 创新先进技术有限公司 | 为构建的机器学习模型选取特征的方法及装置 |
CN109472318A (zh) * | 2018-11-27 | 2019-03-15 | 阿里巴巴集团控股有限公司 | 为构建的机器学习模型选取特征的方法及装置 |
CN109935243A (zh) * | 2019-02-25 | 2019-06-25 | 重庆大学 | 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法 |
CN112116181A (zh) * | 2019-06-20 | 2020-12-22 | 北京新唐思创教育科技有限公司 | 课堂质量模型的训练方法、课堂质量评价方法及装置 |
CN110718223A (zh) * | 2019-10-28 | 2020-01-21 | 百度在线网络技术(北京)有限公司 | 用于语音交互控制的方法、装置、设备和介质 |
CN110718223B (zh) * | 2019-10-28 | 2021-02-12 | 百度在线网络技术(北京)有限公司 | 用于语音交互控制的方法、装置、设备和介质 |
US11503155B2 (en) | 2019-10-28 | 2022-11-15 | Baidu Online Network Technology (Beijing) Co., Ltd. | Interactive voice-control method and apparatus, device and medium |
CN111145730A (zh) * | 2019-12-30 | 2020-05-12 | 苏州思必驰信息科技有限公司 | 语音识别模型的优化方法及系统 |
CN111145730B (zh) * | 2019-12-30 | 2022-05-06 | 思必驰科技股份有限公司 | 语音识别模型的优化方法及系统 |
CN112466298A (zh) * | 2020-11-24 | 2021-03-09 | 网易(杭州)网络有限公司 | 语音检测方法、装置、电子设备和存储介质 |
CN112466298B (zh) * | 2020-11-24 | 2023-08-11 | 杭州网易智企科技有限公司 | 语音检测方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN107437417B (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107437417A (zh) | 基于循环神经网络语音识别中语音数据增强方法及装置 | |
CN110491382B (zh) | 基于人工智能的语音识别方法、装置及语音交互设备 | |
EP3346463B1 (en) | Identity verification method and apparatus based on voiceprint | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN111767741B (zh) | 一种基于深度学习和tfidf算法的文本情感分析方法 | |
CN107195296B (zh) | 一种语音识别方法、装置、终端及系统 | |
CN107945786A (zh) | 语音合成方法和装置 | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
CN106297800B (zh) | 一种自适应的语音识别的方法和设备 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN102142253B (zh) | 语音情感识别设备及方法 | |
CN108428446A (zh) | 语音识别方法和装置 | |
CN108831445A (zh) | 四川方言识别方法、声学模型训练方法、装置及设备 | |
CN109271493A (zh) | 一种语言文本处理方法、装置和存储介质 | |
CN108170749A (zh) | 基于人工智能的对话方法、装置及计算机可读介质 | |
CN110556130A (zh) | 语音情绪识别方法、装置及存储介质 | |
CN106935239A (zh) | 一种发音词典的构建方法及装置 | |
CN110148400A (zh) | 发音类型的识别方法、模型的训练方法、装置及设备 | |
CN110517664A (zh) | 多方言识别方法、装置、设备及可读存储介质 | |
CN105723362A (zh) | 自然表达处理方法、处理及回应方法、设备及系统 | |
CN109036371A (zh) | 用于语音合成的音频数据生成方法及系统 | |
CN109313892A (zh) | 稳健的语言识别方法和系统 | |
CN110413988A (zh) | 文本信息匹配度量的方法、装置、服务器及存储介质 | |
CN103677729A (zh) | 一种语音输入方法和系统 | |
CN109508402A (zh) | 违规用语检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |