CN112951218B - 基于神经网络模型的语音处理方法、装置及电子设备 - Google Patents
基于神经网络模型的语音处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN112951218B CN112951218B CN202110304510.8A CN202110304510A CN112951218B CN 112951218 B CN112951218 B CN 112951218B CN 202110304510 A CN202110304510 A CN 202110304510A CN 112951218 B CN112951218 B CN 112951218B
- Authority
- CN
- China
- Prior art keywords
- matrix
- segment
- voice
- voice signal
- time point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003062 neural network model Methods 0.000 title claims abstract description 25
- 238000003672 processing method Methods 0.000 title claims abstract description 15
- 239000012634 fragment Substances 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims description 95
- 238000012545 processing Methods 0.000 claims description 28
- 238000004891 communication Methods 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 2
- 239000008358 core component Substances 0.000 abstract description 6
- 230000008447 perception Effects 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 description 10
- 108010076504 Protein Sorting Signals Proteins 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 4
- 239000000306 component Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供了一种基于神经网络模型的语音处理方法、装置及电子设备,涉及语音识别技术领域。该方法包括:获取待处理的语音信号;选取所述语音信号中的第一时间点片段;以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段;根据所述目标片段,得到关于所述语音信号的语音识别文字。上述方案,可以降低encoder核心部件MHA的感知域,即每个隐层的单元仅需要感知其上层对应的部分语音片段即可,从而可以减少计算量。
Description
技术领域
本发明涉及语音识别技术领域,尤其涉及一种基于神经网络模型的语音处理方法、装置及电子设备。
背景技术
针对目前的直播软件,常常需要对数量繁杂的直播间主播的内容进行监管,包括图像和声音,对于声音,直播中的声音主要是主播说出的语音。对于语音内容的监管,其中一个方法就是对于语音进行识别,转换成文字内容,然后对文字内容进行甄别。
在语音识别的过程中,需要使用端到端深度神经网络对于切分过的一小段一小段的语音进行建模,其中较为常用的损失函数在神经网络模型seq2seq结构有编码器encoder和注意力解码器attention-decoder两个部分,encoder对于输入的语音特征进行编码,然后decoder对于编码进行结算得到文字存在概率矩阵,然后可以通过一定的搜索算法在文字存在概率矩阵得到文字串。但是,对于seq2seq基于深度学习神经网络结构transformer模型,transformer中的encoder核心部件多头注意力(Multihead attenbtion,MHA)的感知域较大,每个隐层的单元需要感知上层的整个序列,因此导致计算资源消耗较大。
发明内容
本发明提供一种基于神经网络模型的语音处理方法、装置及电子设备,以便在一定程度上解决语音识别的过程中的计算资源消耗较大的问题。
在本发明实施的第一方面,提供了一种基于神经网络模型的语音处理方法,所述方法包括:
获取待处理的语音信号;
选取所述语音信号中的第一时间点片段;
以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段;
根据所述目标片段,得到关于所述语音信号的语音识别文字。
在本发明实施的第二方面,提供了一种基于神经网络模型的语音处理装置,所述装置包括:
第一获取模块,用于获取待处理的语音信号;
第一选取模块,用于选取所述语音信号中的第一时间点片段;
第一处理模块,用于以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段;
第二获取模块,用于根据所述目标片段,得到关于所述语音信号的语音识别文字。
在本发明实施的第三方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如上所述的基于神经网络模型的语音处理方法中的步骤。
在本发明实施的第四方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的基于神经网络模型的语音处理方法。
针对在先技术,本发明具备如下优点:
本发明实施例中,通过选取获取的语音信号中的第一时间点片段,并以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段,根据所述目标片段,得到关于所述语音信号的语音识别文字,由此可以降低transformer中的encoder核心部件MHA的感知域,即每个隐层的单元仅需要感知其上层对应的部分语音片段,而不是上层的整个语音序列,从而可以减少计算量。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的基于神经网络模型的语音处理方法流程图;
图2为本发明实施例提供的深度神经网络的结构示意图;
图3为本发明实施例提供的编码层的结构示意图;
图4为本发明实施例提供的第一窗口使用示意图;
图5为本发明实施例提供的基于神经网络模型的语音处理装置的框图;
图6为本发明实施例提供的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
transformer最开始是用于机器翻译,在机器翻译存在比较常见的倒装问题,比如英语的“how dare you”翻译为中文为“你怎么敢”,在这个其中最后的“你”对应的应该是最后的“you”,而最后的“敢”对应的确是中间“dare“。但是语音识别并不存在如此复杂的倒装关系,语音和其对应的文字应该是单调对应的,即发音顺序等同于书写顺序。因此本发明实施例提供了一种神经网络模型的数据处理方法、装置及电子设备,transformer中的encoder核心部件MHA的感知域,下一层的每个隐层的单元仅需要感知上层对应的部分语音片段,从而可以减少计算量。
具体的,如图1所示,本发明实施例提供了一种基于神经网络模型的语音处理方法,上述方法具体可以包括如下步骤:
步骤101,获取待处理的语音信号。
在上述步骤101中,在语音识别中,一些端到端的声学深度神经网络,如seq2seq和其各种改进网络,一般具有类似于如图2所示的结构,主要包括编码器encoder和解码器decoder,encoder中的圆形(如图2中O1~O8等)表示待处理的语音信号的其中一段,即O1~O8组合形成整个待处理的语音信号。encoder中的方块表征encoder的深度神经网络,针对encoder中的方块表征的深度神经网络,由多个编码层encoder-layer堆叠组成。其中,如图3所示,每一个encoder-layer的结构主要包括:多头注意力层21、第一加和正则化层22、前馈层23、第二加和正则化层24。其中,第一数据为输入至每一个encoder-layer的数据,首先输入至每一个encoder-layer中的多头注意力层21中,经过多头注意力层21计算输出第二数据,然后将第二数据输入至encoder-layer中的第一加和正则化层22中,并将第一数据输入至第一加和正则化层22中,经过第一加和正则化层22计算输出第三数据;然后将第三数据输入至前馈层23中,经过前馈层23计算输入第四数据,将第四数据输入至第二加和正则化层24中,并将第三数据输入至第二加和正则化层24中,经过第二加和正则化层24计算输出encoder-layer的输出数据,输入至下一层的encoder-layer中进行计算,直到经过所有的encoder-layer计算出来的数据输入至解码器decoder中。
步骤102,选取所述语音信号中的第一时间点片段。
在上述步骤102中,多头注意力层21是由多个自注意力层拼接而成,针对自注意力层,在语音信号序列中选取一个时间点,该时间点对应的语音片段为第一时间点片段。
步骤103,以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段。
进一步的,所述第一窗口可以为伯努利分布控制的软窗口,或者所述第一窗口可以为长度固定的硬窗口hard window。
在上述步骤103中,针对自注意力层,以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的部分片段,形成目标片段,而不是使用整个语音信号序列,由此可以减少语音识别的计算量。
步骤104,根据所述目标片段,得到关于所述语音信号的语音识别文字。
在上述步骤104中,对所述语音信号的目标片段进行处理,由此可以得到语音信号的语音识别文字。
本发明上述实施例中,通过选取获取的语音信号中的第一时间点片段,并以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段,根据所述目标片段,得到关于所述语音信号的语音识别文字,降低transformer中的encoder核心部件MHA的感知域,即每个隐层的单元仅需要感知其上层对应的部分语音片段,而不是上层的整个语音序列,从而可以减少计算量。
可选的,所述步骤103以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段,具体可以包括如下步骤:
以所述第一时间点片段为基准,通过第一窗口向前和/或向后截取所述语音信号的部分片段;
根据所述第一时间点片段以及截取的部分片段,生成所述语音信号的目标片段。
在上述实施例中,针对自注意力层,以所述第一时间点片段为基准,通过第一窗口向前截取所述语音信号的部分片段,上述截取的部分片段加上第一时间点片段共同组成目标片段;或者,以所述第一时间点片段为基准,通过第一窗口向后截取所述语音信号的部分片段,上述截取的部分片段加上第一时间点片段共同组成目标片段;或者,以所述第一时间点片段为基准,通过第一窗口向前截取所述语音信号的部分片段,并向后截取所述语音信号的部分片段,上述向后并向后截取的部分片段加上第一时间点片段共同组成目标片段。
需要说明的是,该目标片段仅为整个语音信号序列的其中一部分,而不是使用整个语音信号序列,由此可以减少语音识别的计算量。
可选的,所述步骤104根据所述目标片段,得到关于所述语音信号的语音识别文字,具体可以包括如下步骤:
对所述目标片段进行计算,得到第一矩阵;
对所述第一矩阵进行归一化处理,得到第二矩阵;
根据所述第二矩阵,得到关于所述语音信号的语音识别文字。
在上述实施例中,针对自注意力层,首先对目标片段进行计算,可以得到第一矩阵Q、K以及V。其中,第一矩阵Q表示矩阵quary,第一矩阵K表示矩阵key,第一矩阵V表示矩阵value。然后对第一矩阵进行归一化处理或者通过注意力机制进行处理,从而得到第二矩阵。然后所述第二矩阵通过第一加和正则化层、前馈层、第二加和正则化层以及损失函数(Connectionist temporal classification,CTC)等可以得到语音识别文字,或者所述第二矩阵通过第一加和正则化层、前馈层、第二加和正则化层以及解码器等可以得到语音识别文字。
可选的,上述根据所述第二矩阵,得到关于所述语音信号的语音识别文字的步骤,具体可以包括如下内容:
根据所述第二矩阵,得到关于所述语音信号的隐含特征;
将所述隐含特征进行解码处理,得到关于所述语音信号的语音识别文字。
在上述实施例中,针对编码器,根据所述第二矩阵可以得到关于所述语音信号的隐含特征,如果将隐含特征输入至解码器中进行解码处理,可以得到语音识别文字;这个隐含特征页可以作为序列标注问题中的一种CTC算法的输入数据,进行计算CTC损失函数并识别语音识别文字。其中,CTC算法用于训练深度神经网络模型,主要解决语音识别、文字识别和其他的一些序列任务。
例如:如图2所示,encoder中的方块表征encoder的深度神经网络,经过encoder的深度神经网络处理之后输出的为隐含特征hn(如图2中的h1~h4)。并且,这个隐含特征也可以作为attention-decoder的输入,首先根据所有的隐含层输出h1~h4,通过attention神经网络(如图中解码器中的方框H所示)先计算出一个注意力权重attention weight,记为公式一:
am,n=attention(h1→N,Sm-1)
其中,Sm-1表示attention-decoder中的一个状态量,即解码器中的S0~S3;
am,n表示注意力权重,即hn对于语音识别文字Ym的贡献程度;
h1→N表示隐含特征h1~hN;
hn表示h1~hN中的任意一个取值;
N表示h的总数量。
需要说明的是,隐含特征的数量可以是待处理的语音信号分段之后的分段数量除以2,也可以是待处理的语音信号分段之后的分段数量除以4,也可以是待处理的语音信号分段之后的分段数量除以8等,在此不做具体限定。
然后根据attention weight更新各个隐含特征到加权隐含特征Cm(如图2中的C1~C4),记为公式二:
其中,Cm表示加权隐含特征;
am,n表示注意力权重;
hn表示隐含特征;
N表示h的总数量。
然后,加权隐含特征结合decoder中的状态量Sm计算出需要的文字Ym,同时更新状态量Sm,记为公式三和公式四:
Ym=Generate(Cm,Sm-1)
Sm=Recurrency(Sm-1,Cm,Ym)
其中,Cm表示加权隐含特征;
Ym表示计算出的需要的文字,即语音信号的语音识别文字;
Sm-1表示更新前的状态量;
Sm表示更新后的状态量;
上述公式三和公式四中的Generate和Recurrency都是decoder神经网络的一部分。这个状态量Sm-1也会去更新注意力权重am,n,如公式一所示。最后attention-decoder计算出来的文字Ym也用来计算注意力损失函数。
可选的,上述对所述目标片段进行计算,得到第一矩阵的步骤,具体可以包括如下内容:
获取第一矩阵参数、第二矩阵参数以及第三矩阵参数;
将所述第一矩阵参数与所述第一时间点片段相乘,得到第一子矩阵;
将所述第二矩阵参数与所述目标片段相乘,得到第二子矩阵;
将所述第三矩阵参数与所述目标片段相乘,得到第三子矩阵;
其中,所述第一矩阵包括:所述第一子矩阵、所述第二子矩阵以及所述第三子矩阵。
在上述实施例中,针对自注意力层,第一矩阵包括:第一子矩阵Q、所述第二子矩阵K以及所述第三子矩阵V;获取第一子矩阵Q、第二子矩阵K、第三子矩阵V的方法如下:首先获取关于第一子矩阵Q的第一矩阵参数,并获取关于第二子矩阵K的第二矩阵参数,并获取关于第三子矩阵V的第三矩阵参数;然后将第一矩阵参数与所述第一时间点片段相乘得到第一子矩阵Q,将第二矩阵参数与目标片段相乘得到第二子矩阵K,将第三矩阵参数与目标片段相乘得到第三子矩阵V。
可选的,所述目标片段为第一时间点片段、第一片段以及第二片段的结合;
其中,所述第一片段为通过所述第一窗口向前截取的所述语音信号的部分片段,所述第二片段为通过所述第一窗口向后截取的所述语音信号的部分片段。
在上述实施例中,语音信号用X表示,第一时间点用t表示,第一时间点片段用X[t]表示;通过所述第一窗口向前截取的时间用a表示,通过所述第一窗口向前截取的语音信号的第一片段用X[t-a:t]表示;通过所述第一窗口向后截取的时间用b表示,通过第一窗口向后截取的语音信号的第二片段用X[t:t+b]表示,因此目标片段用X[t-a:t+b]表示。在训练和部署模型的时候,a和b的大小是可以采用不一样的数值,因为a和b的大小设定不同,本质上不影响权重的Wq、Wk、Wv的矩阵的尺寸的。因此,可以在训练中增加a和b的值实现高精度的自动语音识别技术(Automatic Speech Recognition,ASR)模型训练,同时在部署模型时,为了降低计算复杂度,可以同时降低a或者b的值,或者为了降低模型的推理延时,可以降低b的值,同时利用编码器层下降encoder layer drop技术,增加堆叠的encoder layer的数量,这样就可以降低延时的情况下不降低太多的识别性能。
例如:如图4所示,X表示语音信号,第一时间点片段用X[t]表示,根据X[t]可以得到第一子矩阵Q。X[t-a:t+b]表示目标片段,根据X[t-a:t+b]可以得到第二子矩阵K和第三子矩阵V。第一子矩阵Q、第二子矩阵K和第三子矩阵V通过多头注意力可以得到第二矩阵Z,对于一条的20s的音频,帧长为40ms的短时傅里叶变换,整个语音信号序列的大小在百量级,而a和b的量级都分别在个位或者十位,减少了算法的复杂度。
下面通过具体公式对第一矩阵、第二矩阵的计算过程进行详细说明:
Q[t]=Wq*X[t]
K[t-a:t+b]=Wk*X[t-a:t+b]
V[t-a:t+b]=Wv*X[t-a:t+b]
其中,Q[t]表示关于第一时间点片段的第一子矩阵Q;
K[t-a:t+b]表示关于目标片段的第二子矩阵K;
V[t-a:t+b]表示关于目标片段第三子矩阵V;
Wq表示第一矩阵参数;
Wk表示第二矩阵参数;
Wv表示第三矩阵参数;
X[t]表示自注意力层的输入序列(即语音信号)的第一时间点片段;
X[t-a:t+b]表示自注意力层的输入序列(即语音信号)的目标片段;
Z[t]表示第二矩阵;
softmax表示使用归一化指数函数;
a表示过去look back参数,即通过所述第一窗口向前截取的所述语音信号的第一片段;
b表示未来look ahead参数,通过所述第一窗口向后截取的所述语音信号的第二片段;
K[t-a:t+b]T表示对K[t-a:t+b]的转置计算;
dk表示第二子矩阵K的维度。
综上所述,本发明实施例通过语音信号的部分语音片段替换了整个语音信号序列,减少了算法的复杂度;利用语音识别中的单调性,对于端到端的语音识别模型进行参数压缩,从而降低语音识别时候的硬件消耗,从而提高模型的推理速度和降低计算资源的消耗。
如图5所示,本发明实施例提供的一种基于神经网络模型的语音处理装置500,所述装置包括:
第一获取模块501,用于获取待处理的语音信号;
第一选取模块502,用于选取所述语音信号中的第一时间点片段;
第一处理模块503,用于以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段;
第二获取模块504,用于根据所述目标片段,得到关于所述语音信号的语音识别文字。
本发明上述实施例中,通过选取获取的语音信号中的第一时间点片段,并以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段,根据所述目标片段,得到关于所述语音信号的语音识别文字,降低transformer中的encoder核心部件MHA的感知域,即每个隐层的单元仅需要感知其上层对应的部分语音片段,而不是上层的整个语音序列,从而可以减少计算量。
可选的,所述第一窗口为伯努利分布控制的软窗口或者长度固定的硬窗口。
可选的,所述第一处理模块503,包括:
第一处理单元,用于以所述第一时间点片段为基准,通过第一窗口向前和/或向后截取所述语音信号的部分片段;
第一生成单元,用于根据所述第一时间点片段以及截取的部分片段,生成所述语音信号的目标片段。
可选的,所述目标片段为第一时间点片段、第一片段以及第二片段的结合;
其中,所述第一片段为通过所述第一窗口向前截取的所述语音信号的部分片段,所述第二片段为通过所述第一窗口向后截取的所述语音信号的部分片段。
可选的,所述第二获取模块504,包括:
第一计算单元,用于对所述目标片段进行计算,得到第一矩阵;
第二处理单元,用于对所述第一矩阵进行归一化处理,得到第二矩阵;
第三处理单元,用于根据所述第二矩阵,得到关于所述语音信号的语音识别文字。
可选的,所述第三处理单元,包括:
第一处理子单元,用于根据所述第二矩阵,得到关于所述语音信号的隐含特征;
第二处理子单元,用于将所述隐含特征进行解码处理,得到关于所述语音信号的语音识别文字。
可选的,所述第一计算单元,包括:
第一获取子单元,用于获取第一矩阵参数、第二矩阵参数以及第三矩阵参数;
第一计算子单元,用于将所述第一矩阵参数与所述第一时间点片段相乘,得到第一子矩阵;
第二计算子单元,用于将所述第二矩阵参数与所述目标片段相乘,得到第二子矩阵;
第三计算子单元,用于将所述第二矩阵参数与所述目标片段相乘,得到第三子矩阵;
其中,所述第一矩阵包括:所述第一子矩阵、所述第二子矩阵以及所述第三子矩阵。
需要说明的是,该基于神经网络模型的语音处理装置实施例是与上述基于神经网络模型的语音处理方法相对应的装置,上述方法实施例的所有实现方式均适用于该装置实施例中,也能达到与其相同的技术效果,在此不再赘述。
综上所述,本发明实施例通过语音信号的部分语音片段替换了整个语音信号序列,减少了算法的复杂度;利用语音识别中的单调性,对于端到端的语音识别模型进行参数压缩,从而降低语音识别时候的硬件消耗,从而提高模型的推理速度和降低计算资源的消耗。
本发明实施例还提供了一种电子设备。如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。
存储器603,用于存放计算机程序。
处理器601用于执行存储器603上所存放的程序时,实现本发明实施例提供的一种基于神经网络模型的语音处理方法中的部分或者全部步骤。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中所述的基于神经网络模型的语音处理方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中所述的基于神经网络模型的语音处理方法。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,包含在本发明的保护范围内。
Claims (9)
1.一种基于神经网络模型的语音处理方法,其特征在于,所述方法包括:
获取待处理的语音信号;
选取所述语音信号中的第一时间点片段;
以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段;
根据所述目标片段,得到关于所述语音信号的语音识别文字;
所述根据所述目标片段,得到关于所述语音信号的语音识别文字,包括:
对所述目标片段进行计算,得到第一矩阵;
对所述第一矩阵进行归一化处理,得到第二矩阵;
根据所述第二矩阵,得到关于所述语音信号的语音识别文字。
2.根据权利要求1所述的方法,其特征在于,所述第一窗口为伯努利分布控制的软窗口或者长度固定的硬窗口。
3.根据权利要求1所述的方法,其特征在于,所述以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段,包括:
以所述第一时间点片段为基准,通过第一窗口向前和/或向后截取所述语音信号的部分片段;
根据所述第一时间点片段以及截取的部分片段,生成所述语音信号的目标片段。
4.根据权利要求3所述的方法,其特征在于,所述目标片段为第一时间点片段、第一片段以及第二片段的结合;
其中,所述第一片段为通过所述第一窗口向前截取的所述语音信号的部分片段,所述第二片段为通过所述第一窗口向后截取的所述语音信号的部分片段。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第二矩阵,得到关于所述语音信号的语音识别文字,包括:
根据所述第二矩阵,得到关于所述语音信号的隐含特征;
将所述隐含特征进行解码处理,得到关于所述语音信号的语音识别文字。
6.根据权利要求1所述的方法,其特征在于,所述对所述目标片段进行计算,得到第一矩阵,包括:
获取第一矩阵参数、第二矩阵参数以及第三矩阵参数;
将所述第一矩阵参数与所述第一时间点片段相乘,得到第一子矩阵;
将所述第二矩阵参数与所述目标片段相乘,得到第二子矩阵;
将所述第三矩阵参数与所述目标片段相乘,得到第三子矩阵;
其中,所述第一矩阵包括:所述第一子矩阵、所述第二子矩阵以及所述第三子矩阵。
7.一种基于神经网络模型的语音处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取待处理的语音信号;
第一选取模块,用于选取所述语音信号中的第一时间点片段;
第一处理模块,用于以所述第一时间点片段为基准,通过第一窗口截取所述语音信号的目标片段;
第二获取模块,用于根据所述目标片段,得到关于所述语音信号的语音识别文字;
所述第二获取模块,包括:
第一计算单元,用于对所述目标片段进行计算,得到第一矩阵;
第二处理单元,用于对所述第一矩阵进行归一化处理,得到第二矩阵;
第三处理单元,用于根据所述第二矩阵,得到关于所述语音信号的语音识别文字。
8.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线;其中,处理器、通信接口以及存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现如权利要求1至6任一项所述的基于神经网络模型的语音处理方法中的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至6任一项所述的基于神经网络模型的语音处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304510.8A CN112951218B (zh) | 2021-03-22 | 2021-03-22 | 基于神经网络模型的语音处理方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110304510.8A CN112951218B (zh) | 2021-03-22 | 2021-03-22 | 基于神经网络模型的语音处理方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112951218A CN112951218A (zh) | 2021-06-11 |
CN112951218B true CN112951218B (zh) | 2024-03-29 |
Family
ID=76227878
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110304510.8A Active CN112951218B (zh) | 2021-03-22 | 2021-03-22 | 基于神经网络模型的语音处理方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112951218B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1511312A (zh) * | 2001-04-13 | 2004-07-07 | 多尔拜实验特许公司 | 音频信号的高质量时间标度和音调标度 |
WO2013090451A1 (en) * | 2011-12-13 | 2013-06-20 | Simigence, Inc. | Computer-implemented simulated intelligence capabilities by neuroanatomically-based system architecture |
CN108804715A (zh) * | 2018-07-09 | 2018-11-13 | 北京邮电大学 | 融合视听感知的多任务协同识别方法及系统 |
CN110225278A (zh) * | 2019-06-25 | 2019-09-10 | 歌尔科技有限公司 | 多媒体文件的获取方法、装置及设备 |
WO2020172979A1 (zh) * | 2019-02-25 | 2020-09-03 | 深圳市商汤科技有限公司 | 数据处理方法和装置、电子设备和存储介质 |
CN111988651A (zh) * | 2019-05-22 | 2020-11-24 | 奇酷互联网络科技(深圳)有限公司 | 一种视频播放方法及移动终端、可穿戴设备 |
CN112037776A (zh) * | 2019-05-16 | 2020-12-04 | 武汉Tcl集团工业研究院有限公司 | 一种语音识别方法、语音识别装置及终端设备 |
CN112189232A (zh) * | 2019-07-31 | 2021-01-05 | 深圳市大疆创新科技有限公司 | 音频处理方法及装置 |
CN112235722A (zh) * | 2020-12-11 | 2021-01-15 | 浙江口碑网络技术有限公司 | 信息输出方法、装置、计算机设备及可读存储介质 |
CN112311841A (zh) * | 2019-09-29 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 信息推送方法、装置、电子设备和计算机可读介质 |
CN112466288A (zh) * | 2020-12-18 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10811000B2 (en) * | 2018-04-13 | 2020-10-20 | Mitsubishi Electric Research Laboratories, Inc. | Methods and systems for recognizing simultaneous speech by multiple speakers |
-
2021
- 2021-03-22 CN CN202110304510.8A patent/CN112951218B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1511312A (zh) * | 2001-04-13 | 2004-07-07 | 多尔拜实验特许公司 | 音频信号的高质量时间标度和音调标度 |
WO2013090451A1 (en) * | 2011-12-13 | 2013-06-20 | Simigence, Inc. | Computer-implemented simulated intelligence capabilities by neuroanatomically-based system architecture |
CN108804715A (zh) * | 2018-07-09 | 2018-11-13 | 北京邮电大学 | 融合视听感知的多任务协同识别方法及系统 |
CN109947954A (zh) * | 2018-07-09 | 2019-06-28 | 北京邮电大学 | 多任务协同识别方法及系统 |
WO2020172979A1 (zh) * | 2019-02-25 | 2020-09-03 | 深圳市商汤科技有限公司 | 数据处理方法和装置、电子设备和存储介质 |
CN112037776A (zh) * | 2019-05-16 | 2020-12-04 | 武汉Tcl集团工业研究院有限公司 | 一种语音识别方法、语音识别装置及终端设备 |
CN111988651A (zh) * | 2019-05-22 | 2020-11-24 | 奇酷互联网络科技(深圳)有限公司 | 一种视频播放方法及移动终端、可穿戴设备 |
CN110225278A (zh) * | 2019-06-25 | 2019-09-10 | 歌尔科技有限公司 | 多媒体文件的获取方法、装置及设备 |
CN112189232A (zh) * | 2019-07-31 | 2021-01-05 | 深圳市大疆创新科技有限公司 | 音频处理方法及装置 |
CN112311841A (zh) * | 2019-09-29 | 2021-02-02 | 北京字节跳动网络技术有限公司 | 信息推送方法、装置、电子设备和计算机可读介质 |
CN112235722A (zh) * | 2020-12-11 | 2021-01-15 | 浙江口碑网络技术有限公司 | 信息输出方法、装置、计算机设备及可读存储介质 |
CN112466288A (zh) * | 2020-12-18 | 2021-03-09 | 北京百度网讯科技有限公司 | 语音识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112951218A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107632987B (zh) | 一种对话生成方法及装置 | |
CN112435656B (zh) | 模型训练方法、语音识别方法、装置、设备及存储介质 | |
CN110853626B (zh) | 基于双向注意力神经网络的对话理解方法、装置及设备 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN109508717A (zh) | 一种车牌识别方法、识别装置、识别设备及可读存储介质 | |
US10810993B2 (en) | Sample-efficient adaptive text-to-speech | |
CN112989107B (zh) | 音频分类和分离方法、装置、电子设备以及存储介质 | |
CN111326168B (zh) | 语音分离方法、装置、电子设备和存储介质 | |
US20210089909A1 (en) | High fidelity speech synthesis with adversarial networks | |
CN108959388B (zh) | 信息生成方法及装置 | |
CN110211562B (zh) | 一种语音合成的方法、电子设备及可读存储介质 | |
CN113362804B (zh) | 一种合成语音的方法、装置、终端及存储介质 | |
CN111368118A (zh) | 一种图像描述生成方法、系统、装置和存储介质 | |
US20230267950A1 (en) | Audio signal generation model and training method using generative adversarial network | |
CN111539199A (zh) | 文本的纠错方法、装置、终端、及存储介质 | |
CN116206314A (zh) | 模型训练方法、公式识别方法、装置、介质及设备 | |
CN113724689B (zh) | 语音识别方法及相关装置、电子设备、存储介质 | |
CN113506581B (zh) | 一种语音增强方法和装置 | |
CN112989843B (zh) | 意图识别方法、装置、计算设备及存储介质 | |
EP4218007A1 (en) | Fast emit low-latency streaming asr with sequence-level emission regularization | |
CN111048065B (zh) | 文本纠错数据生成方法及相关装置 | |
CN112951218B (zh) | 基于神经网络模型的语音处理方法、装置及电子设备 | |
CN115496134A (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 | |
CN112668704B (zh) | 音频识别模型的训练方法、装置和音频识别方法、装置 | |
CN111460096B (zh) | 一种碎片文本的处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |