CN111862956B - 一种数据处理方法、装置、设备及存储介质 - Google Patents

一种数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111862956B
CN111862956B CN202010734850.XA CN202010734850A CN111862956B CN 111862956 B CN111862956 B CN 111862956B CN 202010734850 A CN202010734850 A CN 202010734850A CN 111862956 B CN111862956 B CN 111862956B
Authority
CN
China
Prior art keywords
layer
self
time
truncated
attention network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010734850.XA
Other languages
English (en)
Other versions
CN111862956A (zh
Inventor
曹松军
马龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010734850.XA priority Critical patent/CN111862956B/zh
Publication of CN111862956A publication Critical patent/CN111862956A/zh
Application granted granted Critical
Publication of CN111862956B publication Critical patent/CN111862956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、设备及存储介质,其中,该方法包括:服务器按照预设时间窗获取语音帧序列并确定出语音帧序列的特征信息,根据该特征信息确定第一层时间截断的自注意力网络的输入信息,针对任意一层时间截断的自注意力网络,将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络,以对语音识别模型进行训练,并得到训练后的语音识别模型。通过上述实施例,将第一层时间截断的自注意力网络的输入信息输入到每一层时间截断的自注意力网络进行训练,从而可以减少在对语音识别模型训练过程中语音特征信息的丢失,提高语音识别模型的语音识别率。

Description

一种数据处理方法、装置、设备及存储介质
技术领域
本申请涉及基于人工智能的语音识别技术领域,尤其涉及一种数据处理方法、装置、设备及存储介质。
背景技术
语音识别技术,其目的是接收人类的语音信号并让机器负责将语音信号转化为文字。对于语音的处理,整个流程可分为四部分:前端处理、声学模型建模、语言模型与词典建模以及解码。
随着人工智能技术尤其是深度学习的研究和发展,当前语音识别分为三种,一是概率模型方法,二是深度学习方法,三是应用自注意力机制。对于概率模型方法,模型并不能利用每一帧的上下文信息,即不能利用历史信息来辅助当前任务;对于深度学习方法,模型虽然能达到较好的收敛效果,但由于循环神经网络(Recurrent Neural Network,RNN)本身的循环结构,较多的RNN单元使得训练时间较长,难以并行化;而针对目前的自注意力机制虽在一定程度上克服了上述方式的问题,但是受到该方法中对语音信号的时间加窗技术会导致信息的丢失。
因此,怎样在目前的研究形势下减弱建模过程中信息的丢失成为亟待解决的问题。
发明内容
本发明实施例提供了一种数据处理方法、装置、设备及存储介质,可以减少在对语音识别模型训练过程中语音特征信息的丢失,提高语音识别模型的语音识别率。
第一方面,本发明实施公开了一种数据处理方法,包括:
按照预设时间窗获取语音帧序列,并确定所述语音帧序列的特征信息;
根据所述特征信息确定第一层时间截断的自注意力网络的输入信息;
针对任意一层时间截断的自注意力网络,将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络,以对所述语音识别模型进行训练,并得到训练后的语音识别模型。
第二方面,本发明实施公开了一种语音识别方法,包括:
获取待识别的语音数据;
利用语音识别模型对所述语音数据进行发音映射处理,以得到所述语音数据的发音数据,所述语音识别模型包括多层时间截断的自注意力网络,所述语音识别模型是通过针对任意一层时间截断的自注意力网络,将第一层时间截断的自注意力网络的输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络,以进行训练得到的;
利用语言模型和发音词典对所述发音数据进行识别处理,以得到所述语音数据对应的文本信息。
第三方面,本发明实施公开了一种数据处理装置,包括:
获取模块,用于按照预设时间窗获取语音帧序列;
确定模块,用于确定所述语音帧序列的特征信息;
所述确定模块,用于根据所述特征信息确定第一层时间截断的自注意力网络的输入信息;
处理模块,用于针对任意一层时间截断的自注意力网络,将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络,以对所述语音识别模型进行训练,并得到训练后的语音识别模型。
第四方面,本发明实施公开了一种数据处理设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面所述的数据处理方法。
第五方面,本发明实施公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如第一方面所述的数据处理方法。
第六方面,本发明实施公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的数据处理方法。
本发明实施例中,服务器按照预设时间窗获取语音帧序列并确定出语音帧序列的特征信息,根据该特征信息确定第一层时间截断的自注意力网络的输入信息,针对任意一层时间截断的自注意力网络,将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络,以对语音识别模型进行训练,并得到训练后的语音识别模型。通过上述实施例,将第一层时间截断的自注意力网络的输入信息输入到每一层时间截断的自注意力网络进行训练,从而可以减少在对语音识别模型训练过程中语音特征信息的丢失,提高语音识别模型的语音识别率。
附图说明
为了更清楚地说明本发明实施例或背景技术中的技术方案,下面将对本发明实施例或背景技术中所需要使用的附图进行说明。
图1是本发明实施例提供的一种语音识别的流程意图;
图2a是本发明实施例提供的一种时间截断的自注意力网络结构的示意图;
图2b是本发明实施例提供的一种改进的时间截断的自注意力网络结构的示意图;
图2c是本发明实施例提供的一种单头的自注意力计算步骤示意图;
图2d是本发明实施例提供的一种多头的自注意力计算步骤示意图;
图3是本发明实施例提供的一种数据处理方法的流程示意图;
图4是本发明实施例提供的另一种数据处理方法的流程示意图;
图5a是现有技术提供的一种多层时间截断的自注意力网络示意图;
图5b是本发明实施例提供的一种多层时间截断的自注意力网络示意图;
图5c是本发明实施例提供的另一种多层时间截断的自注意力网络示意图;
图6是本发明实施例提供的一种数据处理装置的结构示意图;
图7是本发明实施例提供的一种数据处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的语音识别等技术,具体通过如下实施例进行说明。
请参见图1,图1是本发明实施例提供的一种语音识别的流程意图,语音识别的流程可以拆分成四大部分:
1、前端处理:包括语音信号的降噪、声源定位、回声消除等技术。
2、声学模型:对语音信号到对应发音单元的映射关系进行建模。
3、语言模型和词典:对发音单元到汉字的映射关系进行建模。
4、解码器:结合声学模型、语言模型、词典,进行语音到文字的整个搜索过程。
在本发明实施中,按照预设时间窗从语音数据中截取语音信号,并对语音信号进行预处理,以得到对应的语音帧序列,即对应图1的声学前端处理。确定语音帧序列的特征信息并根据特征信息确定第一层时间截断的自注意力网络的输入信息,针对任意一层时间截断的自注意力网络,将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络,以对语音识别模型(对应图1中的声学模型)进行训练,并得到训练后的语音识别模型。
具体的,该语音识别服务可以应用到车联网语音交互、音箱、机器人等其他智能硬件。
请参见图2a,图2a为本发明实施例提供的一种时间截断的自注意力网络结构的示意图,如图所示:
传统的时间截断的自注意力网络结构(time-restricted self-attention,TRSA)是一种应用于流式语音识别声学建模的子注意机制,这种自注意力机制存在一定的局部性,即多层TRSA叠加的时候由于局部视野累计会导致当前帧对应的视野的信息丢失,本发明实施例提供的图2a的网络架构是对传统的TRSA进行了改进。
具体的,该网络结构包括整合处理层(可表示为append)、第一全连接层(可表示为Affine)、自注意力层(attention)、第一激活函数层(rectified linear unit,ReLu)和第一规范化层(layer norm,LN)。为了减少局部视野带来的信息丢失,在图2a的网络架构中,对输入信息进行了增加。传统的TRSA每一层的输入只有上一层TRSA的输出信息,本发明实施中每一层TRSA中的训练数据不仅包括上一层TRSA的输出信息,还包括第一层TRSA的输入信息。
进一步的,还可以对图2a的TRSA做进一步改进,如图2b所述,为本发明实施例提供的一种改进的时间截断的自注意力网络结构的示意图,在图2a中所示的时间截断的自注意力网络结构的基础上还包括连接在第一规范化层之后,且级联的第二全连接层、第二激活函数层、第二规范化层和正则化层(Dropout)。
可选地,图2b中的affine层,可以尝试使用蜂窝神经网络(Cellular NeuralNetwork,CNN)或者延时神经网络(Time Delay Neural Network,TDNN)网络结果来替换。
上述的第一全连接层是对融合信息进行综合分类,第二全连接层都是对经图2a处理后得到的输出信息进行综合分类,第一激活函数层、第二激活函数层第一规范化层、第二规范化层与正则化层都是对信息的规范化处理,避免数据出现过拟合等问题。
其中,需要注意的是时间截断的自注意力网络结构中自注意力层对数据的处理,该处理步骤是整个模型训练的核心部分,这里对单头的自注意力层的计算进行介绍,运用一个实例对其进行介绍,如图2c所示,为本发明实施例提供的一种单头的自注意力计算步骤示意图:
自注意力计算其实可以描述成一个查询(query)到一系列键值(键key-值value)对的映射。服务器在语音帧序列进行加窗,假设进行加窗后的语音帧序列的左长度为L,右长度为R,那么对应的在自注意力层中的帧序列包括[-L,R],对应的query、key、value分别表示为qt,vt,kt,对于到那头的自注意力计算公式为:
Figure BDA0002603092450000061
其中,ct(τ)=exp(qt·kτ)/t,Zt保证∑τct(τ)=1。
这里的L和R一般取值5和2,参与自注意力计算的总的输入帧数为5+2+1=8帧。在本发明实施例中草用的是多头自注意力计算,如图2d所示,为本发明实施例提供的一种多头的自注意力计算步骤示意图。
如图2a所示,假设在第i+1层时间截断的自注意力网络的输入除了上一层时间截断的自注意力网络的输出xi,还包括了第一层时间截断的自注意力网络的输入,这里把这个输入当成底层输入,为x0,这样通过在每一层的时间截断的自注意力网络中加入对应的底层输入,便会在一定程度上减弱对输入信息加窗所带来的信息丢失的问题。
图2b是为了提升建模效果,在图2a的基础上加上了级联的第二全连接层、第二激活函数层、第二规范化层和正则化层。对训练后的输出信息进行进一步地规范化,在一定程度上提高了该模型的非线性能力。
将图2a与图2b对应的全连接层(Affine)与自注意力层(attention)合并成MultiHead来表示,则可得到图2a与图2b对应的网络架构分别可以表示为:
Figure BDA0002603092450000062
上述两个表达式是对于两个网络架构对输入数据的处理顺序的解释。
请参见图3,图3为本发明实施例提供的一种数据处理方法的流程图示意图,该方法应用于语音识别模型的训练,该语音识别模型包括多层时间截断的自注意力网络,该流程图具体包括如下步骤:
S301、服务器按照预设时间窗获取语音帧序列,并确定所述语音帧序列的特征信息。
在一种可能的实施例中,服务器按照预设时间窗获取语音帧序列,具体包括:服务器先是获取语音数据,由于语音数据是一串无限长的信号,因此,需要按照预设时间窗去获取一段语音信号。再对获取到的语音信号进行预处理,以得到对应的语音帧序列,上述的预处理属于对语音信号的前端处理,包括对语音信号的降噪、对语音信号的音源定位以及对语音信号的回音消除中的一种或者多种,一般情况下,这些预处理在语音识别过程中都是必要的,因为能进一步保证语音信号的质量。
进一步地,服务器还需要确定上述语音帧序列的特征信息,这里语音帧序列的特征信息具体包括功率归一化倒谱系数(Power-Normalized Cepstral Coefficients,PNCC)和身份认证矢量(identity-vector,i-vector)特征。利用PNCC算法对语音帧序列进行特征提取得到PNCC特征,PNCC特征相比于以往的梅尔频率倒谱系数(Mel Frequency CepstrumCoefficient,MFCC)特征,测试出来的性能更好。其中,i-vector特征的得到:i-vector空间用一个低维的总变量空间来表示语音信号子空间和信道子空间,将语音信号降维投影到该空间,可得到一个固定长度的矢量表征(即i-vector)。
需要注意的是,预设时间窗,一般是用窗函数获取需要的语音信号,常用的窗函数有矩形窗、汉明窗和汉宁窗,其中窗函数中的各个参数需要根据不同的情况进行设置,可根据不同的情况选择不同的窗函数。
S302、服务器根据特征信息确定第一层时间截断的自注意力网络的输入信息。
上述步骤已描述出特征信息包括功率归一化倒谱系数特征和身份认证矢量特征,要根据特征信息确定第一层时间截断的自注意力网络的输入信息,还需要对包括功率归一化倒谱系数特征和身份认证矢量特征的特征信息进行线性判别分析(LinearDiscriminant Analysis,LDA)处理得到联合特征信息,经过LDA处理后能得到重要的特征信息,使得在进行训练时能更好的对其进行处理。将经LDA处理后得到的联合特征信息输入全连接网络进行处理,将经全连接网络处理后的输出信息作为第一层时间截断的自注意力网络的输入信息。
S303、针对任意一层时间截断的自注意力网络,服务器将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络,以对语音识别模型进行训练,并得到训练后的语音识别模型。
在一种可能的实施例中,针对第一层时间截断的自注意力网络,在这种情况下,输入信息为上述特征信息所确定出来的输入信息,此时的上一层间截断的自注意力网络的输出结果为空,则第一层时间截断的自注意力网络训练的就是该层的输入信息,并得到输出信息。
在一种可能的实施例中,针对非第一层的任一层时间截断的自注意力网络,在这种情况下,输入任一层时间截断的自注意力网络的输入信息包括上一层时间截断的自注意力网络的输出信息以及第一层时间截断的自注意力网络的输入信息,服务器利用时间截断的自注意力网络对这个信息进行语音识别模型的训练,直到完成最后一层时间截断的自注意力网络的训练,最后得到训练好的语音识别模型。其中,第一层时间截断的自注意力网络的输入信息就是步骤S301中根据语音帧序列确定出的特征信息,将该特征信息加入到任一层时间截断的自注意力网络中,可以有效减少在每一层时间截断的自注意力网络中训练特征信息的丢失。
本发明实施例中,服务器按照预设时间窗获取语音帧序列并确定出语音帧序列的特征信息,根据该特征信息确定第一层时间截断的自注意力网络的输入信息,针对任意一层时间截断的自注意力网络,将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络,以对语音识别模型进行训练,并得到训练后的语音识别模型。通过上述实施例,将第一层时间截断的自注意力网络的输入信息输入到每一层时间截断的自注意力网络进行训练,从而可以减少在对语音识别模型训练过程中语音特征信息的丢失,提高语音识别模型的语音识别率。
图4为本发明实施例提供的另一种数据处理方法的流程图示意图,同样,该方法应用于语音识别模型的训练,该语音识别模型包括多层时间截断的自注意力网络,该流程图具体包括如下步骤:
S401、服务器按照预设时间窗从语音数据中截取语音信号,对语音信号进行预处理,以得到对应的语音帧序列,所述预处理包括降噪、音源定位以及回音消除中的一种或多种。
S402、服务器确定语音帧序列的特征信息。
S403、服务器根据特征信息确定第一层时间截断的自注意力网络的输入信息。
S404、针对任意一层时间截断的自注意力网络,服务器将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络,以对语音识别模型进行训练,并得到训练后的语音识别模型。
上述步骤S401~S404在步骤S301~S303已经进行了相关的阐述,这里便不再一一赘述了。
S405、服务器获取语音数据的验证集数据和/或测试集数据,将验证集数据或测试集数据输入训练后的语音识别模型,得到测验结果。
其中,服务器在获取语音数据的时候,可以相应地获取该语音数据所对应的验证集数据和/或测试集数据。服务器将验证集数据或测试集数据输入训练后的语音识别模型,得到测验结果。这两个数据集都是对训练好的语音识别模型进行测验,对语音识别模型的相关参数进行调整,以进一步提高语音识别模型的性能。
在一种可能的实施例中,服务器在获取语音数据的时候获取的是验证集数据,那么服务器就将该验证集数据输入训练后的语音识别模型进行验证,得到测验结果。
在一种可能的实施例中,服务器在获取语音数据的时候获取的是测试集数据,那么服务器就将该测试集数据输入训练后的语音识别模型进行测试,得到测验结果。
在一种可能的实施例中,服务器在获取语音数据的时候获取的是验证集数据和测试集数据,那么服务器就将该验证集数据和测试集数据分别输入训练后的语音识别模型进行测试,得到测验结果。
S406、服务器根据测验结果与对应的验证集数据或测试集数据之间的差异调整训练后的语音识别模型的网络参数。
在一种可能的实施例中,当只是得到验证集数据对应的测验结果时,则服务器根据该测验结果与对应的验证集数据之间的差异,对该语音识别模型的参数进行调整,从而找到验证集数据中对应的最优的语音识别模型的参数。
在一种可能的实施例中,当只是得到测试集数据对应的测验结果时,则服务器根据该测验结果与对应的测试集数据之间的差异,对该语音识别模型的参数进行调整,以达到对所述语音识别模型的优化。
在一种可能的实施例中,得到是验证集数据与测试集数据对应的测验结果时,则服务器根据该测验结果与对应的验证集数据和测试集数据之间的差异,分别对该语音识别模型的参数进行调整,以达到对所述语音识别模型的优化,提升语音识别模型的建模能力。
针对该实施例,举例说明,在具体的测验中,可以采用使用2000小时的语音数据对传统的多层时间截断的自注意力网络、图2a以及图2b的多层截断的自注意力网络进行训练。用于测验的传统的(现有技术提供的)多层时间截断的自注意力网络如图5a所示,图2a对应的用于测验的多层时间截断的自注意力网络如图5b所示,图2b对应的用于测验的多层时间截断的自注意力网络如图5c所示。图5a、图5b以及图5c中的时间截断的自注意力网络都有六层,分别用时间截断的自注意力网络1、时间截断的自注意力网络2、时间截断的自注意力网络3表示,这是因为三者的网络是有所不同的,仅用于区分。
对应的验证集和测试集分别有4998和6901条车载场景语音,如表1所示:
语音数据 验证集数据 测试集数据
2000小时 4998条 6901条
表1
在测验中,对语音数据的训练使用的准则是最大互信息(Lattice-Free MaximumMutual Information,LF-MMI)准则,使用传统的梯度下降法进行训练。针对图5a、图5b以及图5c三种不同的网络,做了三组实验,每个网络的输入是40维的PNCC特征和200维的i-vector特征,输出对应5552个状态。
其中,最大互信息训练准则通过在神经网络输出层计算出来所有可能的标注序列,根据这些标注序列计算出相应的MMI信息和相关的梯度,然后通过梯度传播算法完成训练。LF-MMI训练准则能够在训练过程中直接计算所有可能路径的后验概率(PosteriorProbability),省去了鉴别性训练前需要提前生成Lattice的麻烦。
同时,在测验中三种网络中的自注意力计算的参数都有统一的设置:
时间窗间隔设置成3(即time-stride=3),自注意力多头数量为12(即num-heads=12),键的维度为60(即value-dim=60),值的维度为40(即key-dim=4),时间窗的左边长度为5(即num-left-inputs=5),边长度为2(即num-right-inputs=2)。
图5c对应的时间截断的是自注意力网络架构的第二全连接层的维度设置成2048,归一化层的比例系数设置成0.30。
将上述的验证集数据和测试集数据输入训练后的语音识别模型,得到测验结果如表2所示:
网络模型 验证集数据 测试集数据
图5a 13.71 18.15
图5b 12.99 17.29
图5c 11.83 15.65
表2
其中,测验结果中的数值是验证集数据以及测试集数据在训练后的语音识别模型中的进行测验得到的字错误率,其数值越小,表明该网络模型的建模能力越强。从测验结果,可以直观地看到图5b和图5c的网络模型的建模能力是优于图5a的网络模型的。
本发明实施例中,针对步骤S301~S303训练好的语音识别模型,进一步通过验证集数据以及测试集数据对该语音识别模型进行测验,并根据测验结果对语音识别模型的相关参数进行调整,以达到对语音识别模型的优化。
本发明实施例还提供了一种语音识别方法,其中,该方法用到的语音识别模型是根据本发明实施例提供的一种数据处理方法得到的,该方法主要包括以下步骤:
(1)、服务器获取待识别的语音数据。
该步骤具体是对应于图1所示的整个语音处理的流程来说的,这里的语音数据对应于图1中的原始语音数据,即通过输入设备输入的语音。
(2)、服务器利用语音识别模型对语音数据进行发音映射处理,以得到语音数据的发音数据,语音识别模型包括多层时间截断的自注意力网络,语音识别模型是通过针对任意一层时间截断的自注意力网络,将第一层时间截断的自注意力网络的输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络,以进行训练得到的。
当获取到语音数据后,就对该语音数据进行前端声学处理后得到待识别的语音数据,并利用训练好的语音识别模型对待识别的语音数据进行发音映射处理,以得到待识别的语音数据的发音数据。其中,语音识别模型包括多层时间截断的自注意力网络,语音识别模型是通过针对任意一层时间截断的自注意力网络,将第一层时间截断的自注意力网络的输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络,以进行训练得到的语音数据的发音数据的。
(3)、服务器利用语言模型和发音词典对发音数据进行识别处理,以得到语音数据对应的文本信息。
经过声学模型即训练好的语音识别模型处理得到待识别的语音数据的发音数据后,处理器将发音数据输入到语言模型以及发音词典进行进一步识别处理,以得到语音数据对应的文本信息。从而实现完整的语音识别过程。
本发明实施例中,主要是对整个语音识别过程进行阐述,服务器获取待识别的语音数据后,利用语音识别模型进行发音映射处理,以得到语音数据的发音数据,再利用语言模型和发音词典对发音数据进行识别处理,以得到语音数据对应的文本信息,从而达到对语音数据的完整识别,还利用语音数据对整个语音识别过程进行测试,以验证本发明实施例中的训练出来的语音识别模型所能达到的效果。
下面将结合附图6对本发明实施例提供的数据处理装置进行详细介绍。需要说明的是,附图6所示的数据处理装置,用于执行本发明图3-图4所示实施例的方法。
请参见图6,为本发明实施例提供的一种数据处理装置的结构示意图,数据处理装置60可包括:获取模块601、确定模块602、处理模块603,其中:
获取模块601,用于按照预设时间窗获取语音帧序列;
确定模块602,用于确定所述语音帧序列的特征信息;
所述确定模块602,用于根据所述特征信息确定第一层时间截断的自注意力网络的输入信息;
处理模块603,用于针对任意一层时间截断的自注意力网络,将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络,以对所述语音识别模型进行训练,并得到训练后的语音识别模型。
在一种可能的实施例中,所述特征信息包括功率归一化倒谱系数特征和身份认证矢量特征,所述确定模块602根据所述特征信息确定第一层时间截断的自注意力网络的输入信息,具体用于执行:
对所述功率归一化倒谱系数特征和所述身份认证矢量特征进行线性判别分析处理,得到融合信息;
将所述融合信息输入全连接网络进行处理,并将所述全连接网络的输出作为第一层时间截断的自注意力网络的输入信息。
在一种可能的实施例中,所述任意一层时间截断的自注意力网络包括级联的整合处理层、第一全连接层、自注意力层、第一激活函数层和第一规范化层。
在一种可能的实施例中,所述任意一层时间截断的自注意力网络还包括连接在所述第一规范化层之后,且级联的第二全连接层、第二激活函数层、第二规范化层和正则化层。
在一种可能的实施例中,所述获取模块601按照预设时间窗获取语音帧序列,具体用于执行:
按照预设时间窗从语音数据中截取语音信号;
对所述语音信号进行预处理,以得到对应的语音帧序列,所述预处理包括降噪、音源定位以及回音消除中的一种或多种。
在一种可能的实施例中,所述获取模块601,还用于获取所述语音数据的验证集数据和/或测试集数据;
所述处理模块603,还用于:
将所述验证集数据或所述测试集数据输入所述训练后的语音识别模型,得到测验结果;
根据所述测验结果与对应的所述验证集数据或所述测试集数据之间的差异调整所述训练后的语音识别模型的网络参数。
本发明实施例,获取模块601按照预设时间窗获取语音帧序列,确定模块601确定出语音帧序列的特征信息,并根据该特征信息确定第一层时间截断的自注意力网络的输入信息,处理模块603针对任意一层时间截断的自注意力网络,将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络,以对语音识别模型进行训练,并得到训练后的语音识别模型。通过上述实施例,将第一层时间截断的自注意力网络的输入信息输入到每一层时间截断的自注意力网络进行训练,从而可以减少在对语音识别模型训练过程中语音特征信息的丢失,提高语音识别模型的语音识别率。
请参见图7,为本发明实施例提供了一种数据处理设备的结构示意图。该数据处理设备可以是服务器。如图7所示,该数据处理设备包括:至少一个处理器701,输入设备703,输出设备704,存储器705,至少一个通信总线702。其中,通信总线702用于实现这些组件之间的连接通信。其中,输入设备703可以是控制面板或者麦克风等,输出设备704可以是显示屏等。其中,存储器405可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。其中处理器701可以结合图6所描述的装置,存储器705中存储一组程序代码,且处理器701,输入设备703,输出设备704调用存储器705中存储的程序代码,用于执行以下操作:
按照预设时间窗获取语音帧序列,并确定所述语音帧序列的特征信息;
根据所述特征信息确定第一层时间截断的自注意力网络的输入信息;
针对任意一层时间截断的自注意力网络,将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络,以对所述语音识别模型进行训练,并得到训练后的语音识别模型。
在一种可能的实施例中,所述特征信息包括功率归一化倒谱系数特征和身份认证矢量特征,所述处理器701根据所述特征信息确定第一层时间截断的自注意力网络的输入信息,具体包括:
对所述功率归一化倒谱系数特征和所述身份认证矢量特征进行线性判别分析处理,得到融合信息;
将所述融合信息输入全连接网络进行处理,并将所述全连接网络的输出作为第一层时间截断的自注意力网络的输入信息。
在一种可能的实施例中,所述任意一层时间截断的自注意力网络包括级联的整合处理层、第一全连接层、自注意力层、第一激活函数层和第一规范化层。
在一种可能的实施例中,所述任意一层时间截断的自注意力网络还包括连接在所述第一规范化层之后,且级联的第二全连接层、第二激活函数层、第二规范化层和正则化层。
在一种可能的实施例中,所述输入设备703按照预设时间窗获取语音帧序列,具体包括:
按照预设时间窗从语音数据中截取语音信号;
对所述语音信号进行预处理,以得到对应的语音帧序列,所述预处理包括降噪、音源定位以及回音消除中的一种或多种。
在一种可能的实施例中,所述输入设备703,还用于获取所述语音数据的验证集数据和/或测试集数据;
所述处理器701,还用于:
将所述验证集数据或所述测试集数据输入所述训练后的语音识别模型,得到测验结果;
根据所述测验结果与对应的所述验证集数据或所述测试集数据之间的差异调整所述训练后的语音识别模型的网络参数。
本发明实施例,处理器701按照预设时间窗获取语音帧序列,确定出语音帧序列的特征信息,并根据该特征信息确定第一层时间截断的自注意力网络的输入信息,针对任意一层时间截断的自注意力网络,将输入信息以及上一层时间截断的自注意力网络的输出结果输入任意一层时间截断的自注意力网络,以对语音识别模型进行训练,并得到训练后的语音识别模型。通过上述实施例,将第一层时间截断的自注意力网络的输入信息输入到每一层时间截断的自注意力网络进行训练,从而可以减少在对语音识别模型训练过程中语音特征信息的丢失,提高语音识别模型的语音识别率。
本发明实施例中还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,可执行上述实施例中所执行的步骤。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据分析实施例中所执行的步骤。
应当理解,在本发明实施例中,所称处理器701可以是中央处理模块(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法应用于语音识别模型的训练,所述语音识别模型包括多层时间截断的自注意力网络,所述方法包括:
按照预设时间窗获取语音帧序列,并确定所述语音帧序列的特征信息;
根据所述特征信息确定第一层时间截断的自注意力网络的输入信息;
针对任意一层时间截断的自注意力网络,将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络,以对所述语音识别模型进行训练,并得到训练后的语音识别模型。
2.根据权利要求1所述的方法,其特征在于,所述特征信息包括功率归一化倒谱系数特征和身份认证矢量特征,所述根据所述特征信息确定第一层时间截断的自注意力网络的输入信息,包括:
对所述功率归一化倒谱系数特征和所述身份认证矢量特征进行线性判别分析处理,得到融合信息;
将所述融合信息输入全连接网络进行处理,并将所述全连接网络的输出作为第一层时间截断的自注意力网络的输入信息。
3.根据权利要求1或2所述的方法,其特征在于,所述任意一层时间截断的自注意力网络包括级联的整合处理层、第一全连接层、自注意力层、第一激活函数层和第一规范化层。
4.根据权利要求3所述的方法,其特征在于,所述任意一层时间截断的自注意力网络还包括连接在所述第一规范化层之后,且级联的第二全连接层、第二激活函数层、第二规范化层和正则化层。
5.根据权利要求1所述的方法,其特征在于,所述按照预设时间窗获取语音帧序列,包括:
按照预设时间窗从语音数据中截取语音信号;
对所述语音信号进行预处理,以得到对应的语音帧序列,所述预处理包括降噪、音源定位以及回音消除中的一种或多种。
6.根据权利要求5所述的方法,其特征在于,所述方法包括:
获取所述语音数据的验证集数据和/或测试集数据;
将所述验证集数据或所述测试集数据输入所述训练后的语音识别模型,得到测验结果;
根据所述测验结果与对应的所述验证集数据或所述测试集数据之间的差异调整所述训练后的语音识别模型的网络参数。
7.一种语音识别方法,其特征在于,所述方法包括:
获取待识别的语音数据;
利用语音识别模型对所述语音数据进行发音映射处理,以得到所述语音数据的发音数据,所述语音识别模型包括多层时间截断的自注意力网络,所述语音识别模型是通过针对任意一层时间截断的自注意力网络,将第一层时间截断的自注意力网络的输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络,以进行训练得到的;
利用语言模型和发音词典对所述发音数据进行识别处理,以得到所述语音数据对应的文本信息。
8.一种数据处理装置,其特征在于,所述装置应用于语音识别模型的训练,所述语音识别模型包括多层时间截断的自注意力网络,所述装置包括:
获取模块,用于按照预设时间窗获取语音帧序列;
确定模块,用于确定所述语音帧序列的特征信息;
所述确定模块,用于根据所述特征信息确定第一层时间截断的自注意力网络的输入信息;
处理模块,用于针对任意一层时间截断的自注意力网络,将所述输入信息以及上一层时间截断的自注意力网络的输出结果输入所述任意一层时间截断的自注意力网络,以对所述语音识别模型进行训练,并得到训练后的语音识别模型。
9.一种数据处理设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的数据处理方法。
CN202010734850.XA 2020-07-27 2020-07-27 一种数据处理方法、装置、设备及存储介质 Active CN111862956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010734850.XA CN111862956B (zh) 2020-07-27 2020-07-27 一种数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010734850.XA CN111862956B (zh) 2020-07-27 2020-07-27 一种数据处理方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111862956A CN111862956A (zh) 2020-10-30
CN111862956B true CN111862956B (zh) 2022-07-12

Family

ID=72947651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010734850.XA Active CN111862956B (zh) 2020-07-27 2020-07-27 一种数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111862956B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345424B (zh) * 2021-05-31 2024-02-27 平安科技(深圳)有限公司 一种语音特征提取方法、装置、设备及存储介质
CN113327603B (zh) * 2021-06-08 2024-05-17 广州虎牙科技有限公司 语音识别方法、装置、电子设备和计算机可读存储介质
CN113838466B (zh) * 2021-06-16 2024-02-06 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110688861A (zh) * 2019-09-26 2020-01-14 沈阳航空航天大学 一种多特征融合的句子级译文质量估计方法
CN111357051A (zh) * 2019-12-24 2020-06-30 深圳市优必选科技股份有限公司 语音情感识别方法、智能装置和计算机可读存储介质
CN111382584A (zh) * 2018-09-04 2020-07-07 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102424514B1 (ko) * 2017-12-04 2022-07-25 삼성전자주식회사 언어 처리 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382584A (zh) * 2018-09-04 2020-07-07 腾讯科技(深圳)有限公司 文本翻译方法、装置、可读存储介质和计算机设备
CN110688861A (zh) * 2019-09-26 2020-01-14 沈阳航空航天大学 一种多特征融合的句子级译文质量估计方法
CN111357051A (zh) * 2019-12-24 2020-06-30 深圳市优必选科技股份有限公司 语音情感识别方法、智能装置和计算机可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Time-Restricted Self-Attention Layer for ASR;Daniel Povey et al.;《2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20180913;全文 *
Dual Attention Network for Scene Segmentation;Jun Fu et al.;《2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200109;全文 *

Also Published As

Publication number Publication date
CN111862956A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
EP3680894B1 (en) Real-time speech recognition method and apparatus based on truncated attention, device and computer-readable storage medium
US10176811B2 (en) Neural network-based voiceprint information extraction method and apparatus
US11908455B2 (en) Speech separation model training method and apparatus, storage medium and computer device
CN111862956B (zh) 一种数据处理方法、装置、设备及存储介质
Li et al. Developing far-field speaker system via teacher-student learning
WO2021042870A1 (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
WO2019019252A1 (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
Myer et al. Efficient keyword spotting using time delay neural networks
JP2023542685A (ja) 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム
CN111816166A (zh) 声音识别方法、装置以及存储指令的计算机可读存储介质
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
JP2017076127A (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
Liu et al. Simple pooling front-ends for efficient audio classification
CN115132196A (zh) 语音指令识别的方法、装置、电子设备及存储介质
Dai et al. Improving audio-visual speech recognition by lip-subword correlation based visual pre-training and cross-modal fusion encoder
CN112216270A (zh) 语音音素的识别方法及系统、电子设备及存储介质
Liu et al. Hierarchical component-attention based speaker turn embedding for emotion recognition
WO2023168713A1 (zh) 交互语音信号处理方法、相关设备及系统
CN113593523B (zh) 基于人工智能的语音检测方法、装置及电子设备
CN114360507A (zh) 基于跨层连接注意力的语音识别网络、方法、设备及介质
Agrawal et al. Comparison of Unsupervised Modulation Filter Learning Methods for ASR.
CN113488069A (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
Strake et al. DenseNet BLSTM for acoustic modeling in robust ASR
Zhang et al. Audio-visual speech separation with visual features enhanced by adversarial training
Zeng et al. Language Identification Based on Residual Network and Attention Mechanism

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant