CN113077782B - 语音识别模型的数据处理方法及装置 - Google Patents

语音识别模型的数据处理方法及装置 Download PDF

Info

Publication number
CN113077782B
CN113077782B CN202110225198.3A CN202110225198A CN113077782B CN 113077782 B CN113077782 B CN 113077782B CN 202110225198 A CN202110225198 A CN 202110225198A CN 113077782 B CN113077782 B CN 113077782B
Authority
CN
China
Prior art keywords
recognized
normal distribution
model
data
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110225198.3A
Other languages
English (en)
Other versions
CN113077782A (zh
Inventor
冯大航
陈孝良
常乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202110225198.3A priority Critical patent/CN113077782B/zh
Publication of CN113077782A publication Critical patent/CN113077782A/zh
Application granted granted Critical
Publication of CN113077782B publication Critical patent/CN113077782B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本申请公开了语音识别模型的数据处理方法及装置,在语音识别模型进行量化之前首先对语音识别模型的待识别语音特征数据进行标准化处理,降低了模型量化过程中的量化误差。该方法包括:获取输入语音识别模型的待识别语音特征数据;对待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,标准化的待识别语音特征数据满足正态分布;对标准化后的待识别语音特征数据进行量化处理。

Description

语音识别模型的数据处理方法及装置
技术领域
本申请涉及人工智能技术领域,特别涉及语音识别模型的数据处理方法及装置。
背景技术
近些年,神经网络模型被广泛应用在离线自动语音识别等人工智能技术中。但是由于神经网络模型占用内存较大,难以部署在嵌入式设备等产品中,所以需要对神经网络模型的参数进行量化处理,减少内存使用量、提高运算速度,从而提高神经网络模型的部署能力和可扩展性。
目前针对每层使用的神经网络模型参数进行量化的方法是将采用浮点型的参数分别量化为整型数据,但转化后的整型数据与原浮点数据的量化误差较大,同时这个量化误差会传递到下面的其它层,会被逐步放大,使网络的整体量化误差较大,从而影响最终模型的效果。
发明内容
本申请实施例提供一种语音识别模型的数据处理方法及装置,用以降低量化误差,提高模型的准确性。
第一方面,本申请实施例提供了语音识别模型的数据处理方法,包括:
对语音识别模型的待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,所述标准化的待识别语音特征数据满足正态分布;
对所述标准化后的待识别语音特征数据进行量化处理。
上述方案中,在语音识别模型量化之前,预先对待识别语音特征数据进行标准化处理,可以降低由于待识别语音特征数据分布不均匀带来的量化误差及误差的逐层传递,提高根据语音识别模型进行运算的准确性。
在一种可能的实现方式中,所述方法还包括:
将经过所述量化处理后的标准化的待识别语音特征数据输入所述语音识别模型得到语音识别结果;
其中,所述语音识别模型使用的权重和残差均满足正态分布。
基于上述方案,将输入语音识别模型的待识别语音特征数据首先进行标准化和量化处理,可以使得识别过程更加迅速,并且得到的语音识别结果更加准确。
在一种可能的实现方式中,对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,包括:
根据第一正态分布模型对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据;
所述第一正态分布模型包括均值、方差,或者,所述第一正态分布模型包括均值、方差和补偿值。
基于上述方案,根据第一正态分布模型得到标准化的待识别语音特征数据,使得待识别语音特征数据满足正态分布,解决了待识别语音特征数据分布不均匀的情况。
在一种可能的实现方式中,所述方法还包括:
调整输入第一模型参数的预设的第二正态分布模型中均值、方差以及补偿值中的一项或多项,使得调整后的所述第二正态分布模型输出标准化的第一模型参数;
所述调整后的所述第二正态分布模型作为所述第一正态分布模型;
其中,所述第一模型参数为所述语音识别模型中的权重、语音特征数据的样本数据或者残差。
应说明的是,正态分布模型可以理解是一个由均值、方差以及补偿值构成的正态分布函数。第二正态分布模型是基于均值、方差以及补偿值预先构造的一个正态分布模型。通过在第二正态分布模型中输入第一模型参数,输出的第一模型参数可能不符合标准化,可以通过调整均值、方差或者补偿值中一项或多项,使得经过调整后的均值、方差和补偿值构成的第一正态分布模型是一个输入第一模型参数,能够输出标准化的第一模型参数的正态分布模型。
在一种可能的实现方式中,根据第一正态分布模型对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,包括:
根据如下公式对待识别语音特征数据进行标准化处理:
Figure BDA0002955557770000031
其中,X表示待识别语音特征数据,
Figure BDA0002955557770000032
表示满足正态分布的待识别语音特征数据,V表示所述第一正态分布模型的均值,σ表示所述第一正态分布模型的方差,C表示所述第一正态分布模型的补偿值,X、
Figure BDA0002955557770000033
V、C、σ均为N×1的向量,hadamard表示哈达玛积,G和H表示预设常数。
基于上述方案,根据语音识别模型中权重、语音特征数据的样本数据或者残差调整预设的第二正态分布模型,得到第一正态分布模型。进而,使用第一正态分布模型对待识别语音特征数据进行标准化处理,使得对待识别语音特征数据的标准化处理更加准确。
在一种可能的实现方式中,所述标准化的待识别语音特征数据为浮点型数据,对所述标准化的待识别语音特征数据进行量化处理,包括:
将所述标准化的待识别语音特征数据从浮点型数据转换为整型数据;
其中,所述经过量化后的待识别语音识别模型应用于嵌入式设备中。
基于上述方案,将标准化的待识别语音特征数据进行量化处理,使得在实际的应用中,能够提高模型的运算速度。
第二方面,基于与第一方面同样的发明构思,本申请实施例提供了语音识别模型的数据处理装置,所述语音识别模型的数据处理装置可以包括用于实现上述第一方面任一种可能实现的方式,有益效果可以参见第一方面,此处不再赘述。语音识别模型的数据处理装置包括:
获取单元,用于获取输入语音识别模型的待识别语音特征数据;
处理单元,用于对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,所述标准化的待识别语音特征数据满足正态分布;
所述处理单元,还用于对所述标准化后的待识别语音特征数据进行量化处理。
在一种可能的实现方式中,所述处理单元,还用于:
将经过所述量化处理后的标准化的待识别语音特征数据输入所述语音识别模型得到语音识别结果;
其中,所述语音识别模型使用的权重和残差均满足正态分布。
在一种可能的实现方式中,所述处理单元,在对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据时,具体用于:
根据第一正态分布模型对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据;
所述第一正态分布模型包括均值、方差,或者,所述第一正态分布模型包括均值、方差和补偿值。
在一种可能的实现方式中,所述处理单元还用于:
调整输入第一模型参数的预设的第二正态分布模型中均值、方差以及补偿值中的一项或多项,使得调整后的所述第二正态分布模型输出标准化的第一模型参数;
所述调整后的所述第二正态分布模型作为所述第一正态分布模型;
其中,所述第一模型参数为所述语音识别模型中的权重、语音特征数据的样本数据或者残差。
在一种可能的实现方式中,所述处理单元,在根据第一正态分布模型对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,具体用于:
根据如下公式对待识别语音特征数据进行标准化处理:
Figure BDA0002955557770000051
其中,X表示待识别语音特征数据,
Figure BDA0002955557770000052
表示满足正态分布的待识别语音特征数据,V表示所述第一正态分布模型的均值,σ表示所述第一正态分布模型的方差,C表示所述第一正态分布模型的补偿值,X、
Figure BDA0002955557770000053
V、C、σ均为N×1的向量,hadamard表示哈达玛积,G和H表示预设常数。
在一种可能的实现方式中,所述标准化的待识别语音特征数据为浮点型数据,所述处理单元,在对所述标准化的待识别语音特征数据进行量化处理时,具体用于:
将所述标准化的待识别语音特征数据从浮点型数据转换为整型数据;
其中,所述经过量化后的待识别语音识别模型应用于嵌入式设备中。
第三方面,提供了一种电子设备,所述电子设备包括处理器和存储器。存储器用于存储计算机执行指令,处理器执行存储器中的计算机执行指令以利用控制器中的硬件资源执行第一方面或第一方面任一种可能实现方式中方法的操作步骤。
第四方面,本申请提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
另外,第二方面至第四方面的有益效果可以参见如第一方面所述的有益效果,此处不再赘述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理,并不构成对本发明的不当限定。
图1是本申请实施例提供的一种语音识别模型的数据处理方法的流程图;
图2是本申请实施例提供的一种可能实现方式的流程图;
图3是本申请实施例提供的一种具有语音识别模型的数据处理功能的装置;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部份实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本申请实施例描述的应用场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
目前,针对每层使用的神经网络模型的模型参数进行量化的方法是将采用浮点型的参数分别量化为整型数据,转化后的整型数据与原浮点数据的量化误差较大,同时这个量化误差会传递到下面的其它层,会被逐步放大,使神经网络模型的整体量化误差较大,从而影响最终神经网络模型运算的效果。基于此,本申请实施例提出了一种语音识别模型的数据处理方法及装置,用以在语音识别模型量化之前,预先对待识别的语音特征数据进行标准化处理,保证待识别语音特征数据呈正态分布。所述语音识别模型可以采用神经网络模型,例如神经网络模型可以包含多个隐藏层,每个隐藏层的核(kernel)运算:W·X+B,其中,W为权重,X为待识别的语音特征数据,B为残差。进一步地,利用标准化的待识别语音特征数据对语音识别模型进行量化处理,可以降低由于待识别语音特征数据分布不均匀带来的量化误差及误差的逐层传递,提高根据语音识别模型进行运算的准确性。作为一种示例,在语言识别过程中,每个隐藏层的权重和残差可以是预先经过标准化处理及量化处理的,在识别过程中仅输入的待识别语音特征数据是没有经过标准化和量化处理的,或者,权重和残差也可以在每次使用时,进行标准化和量化处理。
本申请实施例提供的方法可以应用于自动语音识别模型(Automatic SpeechRecognition,ASR)的离线部署场景。
为了便于理解本申请实施例,首先以图1示出的语音识别模型的数据处理方法的流程图为例进行具体说明。
具体地,对语音识别模型的待识别语音特征数据处理方法是针对语音识别模型的多个隐藏层逐层进行待识别语音特征数据的标准化处理。
101,对输入语音识别模型的待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,所述标准化的待识别语音特征数据满足正态分布。
示例性地,所述待识别语音特征数据的分布可能是不均匀的,比如为浮点型数据。在一种可能的情况下,所述语音识别模型可以是已经训练完成的,也可以是正在训练的,本申请实施例中以训练完成的语音识别模型在使用过程中的数据处理为例进行说明。
在一种可能的实施方式中,在对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据时,具体可以通过如下方式实现。
根据第一正态分布模型对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据;所述第一正态分布模型包括均值、方差,或者,所述第一正态分布模型包括均值、方差和补偿值。
例如,第一正态分布模型可以满足如下:
Figure BDA0002955557770000071
其中,X表示待识别语音特征数据,
Figure BDA0002955557770000072
表示满足正态分布的待识别语音特征数据,V表示所述第一正态分布模型的均值,σ表示所述第一正态分布模型的方差,C表示所述第一正态分布模型的补偿值,X、
Figure BDA0002955557770000073
V、C、σ均为N×1的向量,hadamard表示哈达玛积,G和H表示预设常数。
作为一种举例,可以使用如下方式获取第一正态分布模型。
首先在使用语音识别模型之前获取语音识别模型中语音特征数据的样本数据X1,其中,语音特征数据的样本数据X1可以是离线获取的一组语音特征数据,并且,语音特征数据的样本数据X1的分布可能是不均匀的。
进一步地,在获取语音识别模型中的语音特征数据的样本数据X1之后,可以通过调整输入样本数据X1的预设的第二正态分布模型中均值、方差以及补偿值中的一项或多项,使得所述第二正态分布模型输出标准化的样本数据X1,使得该标准化的样本数据X1满足正态分布。例如,所述第二正态分布模型可以满足如下公式(1)的条件:
X2=G*(X1-V1)hadamard(σ1)+H*C1 (1);
其中,X1表示语音特征数据的样本数据,X2表示第二正态分布模型输出的语音特征数据的样本数据,V1表示第二正态分布模型的均值,σ1表示第二正态分布模型的方差,C1表示第二正态分布模型的补偿值,X1、X2、V1、C1、σ1均为N×1的向量,hadamard表示哈达玛积,G和H表示预设常数。
最后,通过不断调整公式(1)中的V1、σ1和C1,使得第二正态分布模型输出的语音特征数据的样本数据X2满足正态分布。将调整后的第二正态分布模型作为第一正态分布模型。也就是说,第一正态分布模型中的均值V是通过调整第二正态分布模型的均值V1得到的,第一正态分布模型中的方差σ是通过调整第二正态分布模型的方差σ1得到的,第一正态分布模型中的补偿值C是通过调整第二正态分布模型的补偿值C1得到的。
后续通过
Figure BDA0002955557770000081
来表示标准化后的X1,即将X1输入第一正态分布模型输出的结果。
进一步地,还可以根据所述第一正态分布模型以及标准化的样本数据
Figure BDA0002955557770000082
对所述语音识别模型的其它参数进行标准化处理。进而,可以在语音识别模型应用之前得到标准化的语音识别模型中的权重或者残差,在后续的实际应用中就不需要再次进行标准化处理。也可以不在使用之前对权重和残差进行标准化处理,而是在后续的实际应用过程中对权重和残差进行标准化处理。本申请实施例对此不做限定。下面,以在实际使用之前先对权重和残差进行标准化处理为例进行说明。
接着上述第一参数为特征的举例,也就是说,可以根据语音识别模型的多个隐藏层中任一层的模型参数的核(kernel)运算:W·X1+B以及标准化处理后的语音特征数据的样本数据
Figure BDA0002955557770000091
对所述模型参数中的权重W及残差B进行标准化处理,包括:
根据如下公式(2)和(3)对所述语音识别模型的其它参数进行标准化处理:
Figure BDA0002955557770000092
Figure BDA0002955557770000093
其中,W表示所述模型参数中标准化处理前的权重,
Figure BDA0002955557770000094
表示标准化处理后的权重,W和
Figure BDA0002955557770000095
均为M×N的矩阵,B表示标准化处理前的残差,
Figure BDA0002955557770000096
表示标准化处理后的残差,B和
Figure BDA0002955557770000097
均为M×1的向量,Φ表示σ-1展开的对角矩阵。
在一种可选的方式中,标准化的权重和残差可以通过如下公式(4)-公式(5)得到:
Figure BDA0002955557770000098
对公式(4)进行整理,得到:
Figure BDA0002955557770000099
进一步地,对公式(5)进行整理可以得到标准化的权重和残差。
可选地,还可以通过其他方式得到标准化的权重和残差,例如,可以通过公式(1)所示的类似方法对权重和残差进行标准化处理。在本申请实施例中,对此不做限定。
上述标准化处理完成后,可以得到第一正态分布模型,并且模型参数包括的权重和残差均满足正态分布,在后续的实际应用中,除了实时输入的待识别语音特征数据需要进行标准化之外,已经标准化处理后的权重和残差可以直接使用,无需再进行标准化处理。
102,对所述标准化后的待识别语音特征数据进行量化处理。
作为一种举例,所述量化处理是将浮点型的待识别语音特征数据量化为整型数据,用以减少语音识别模型的内存使用量并提高语音识别模型的运算速度,使语音识别模型能够成功部署在实际产品中。
需要说明的是,在图1对应的实施例中,语音识别模型在使用之前,会离线获取一组语音特征数据的样本数据,并对语音特征数据的样本数据以及语音识别模型中的权重和残差进行标准化处理及量化处理。进而在实际应用所述语音识别模型时,不需要再对权重和残差进行标准化处理及量化处理,仅对实时输入的待识别语音特征数据进行标准化处理及量化处理。
第一参数为特征,针对特征进行标准化处理,再进一步根据标准化的特征对其他模型参数进行标准化处理。本申请实施例,或者可以先对权重进行标准化处理,然后根据标准化的权重对其它模型参数(特征、残差)进行标准化处理。还可以先对残差进行标准化处理,然后在根据标准化的权重对其它模型参数(权重、特征)进行标准化处理。
结合图2,对本申请实施例中的一种具体的实现方式进行说明。
所述语音识别模型包含的多个隐藏层,下面,将以语音识别模型中的第i个隐藏层进行量化宽度为8bit的量化过程为例进行具体说明。需要说明的是,量化宽度还可以是其它的值,本申请实施例对此不作具体限定。
下面将以模型参数中的语音特征数据的样本数据和残差为向量、权重为矩阵的形式为例进行说明。需要说明的是,模型参数中的语音特征数据的样本数据、权重和残差也可以是其他形式,本申请实施例对此不作具体限定。为方便描述,后续描述时将向量形式的语音特征数据的样本数据称为特征向量,矩阵形式的权重称为权重矩阵,向量形式的残差称为残差向量。
201,获取语音识别模型第i个隐藏层的模型参数。
作为一种举例,将所述语音识别模型中的隐藏层i的特征向量称为Xi,权重矩阵称为Wi,残差向量称为Bi。需要说明的是,实际的量化过程是针对语音识别模型的每一个隐藏层都进行量化处理。本申请实施例以隐藏层i的量化为例进行具体说明。后续描述以隐藏层i采用核(kernel)运算。kernel运算满足:WiXi+Bi
202,获取语音识别模型第i个隐藏层的正态分布模型。
比如,可以根据特征向量Xi对第i个隐藏层的预设的正态分布模型中的均值、方差和补偿值进行调整,使得调整后的预设的正态分布模型输出标准化的特征向量Xi,进而得到第i个隐藏层的正态分布模型,即调整后的预设的正态分布模型。
例如,第i个隐藏层的正态分布模型可以满足如下公式(6)的条件:
Figure BDA0002955557770000111
其中,Xi表示特征向量,
Figure BDA0002955557770000112
表示满足正态分布的特征向量,Vi表示第i个隐藏层的正态分布模型的均值,σi表示第i个隐藏层的正态分布模型的方差,Ci表示第i个隐藏层的正态分布模型的补偿值,Xi
Figure BDA0002955557770000113
Vi、Ci、σi均为Ni×1的向量,Ni×1表示第i个隐藏层中Xi
Figure BDA0002955557770000114
Vi、Ci、σi的向量维度,需要说明的是,不同的隐藏层中向量维度可以是不同的也可以是相同的。hadamard表示哈达玛积,G和H表示预设常数,(Xi-Vi)hadamard(σi)表示(Xi-Vi)与σi之间的哈达玛积。需要说明的是,哈达玛积也可以理解为叉乘。
203,根据标准化的特征向量
Figure BDA0002955557770000115
以及所述调整后的第i个隐藏层的正态分布模型对第i个隐藏层的权重矩阵Wi及残差向量Bi进行标准化处理。
参见公式(7)和公式(8),为标准化的权重矩阵和残差向量:
Figure BDA0002955557770000116
Figure BDA0002955557770000117
其中,Wi表示所述模型参数中标准化处理前的权重矩阵,
Figure BDA0002955557770000118
表示标准化处理后的权重矩阵,Wi
Figure BDA0002955557770000119
均为Mi×Ni的矩阵,Mi×Ni表示第i个隐藏层中Wi
Figure BDA00029555577700001110
的矩阵维度,需要说明的是,不同的隐藏层中矩阵维度可以是不同的也可以是相同的。Bi表示标准化处理前的残差向量,
Figure BDA00029555577700001111
表示标准化处理后的残差向量,Bi
Figure BDA0002955557770000121
均为Mi×1的向量,Mi×1表示第i个隐藏层中Bi
Figure BDA00029555577700001214
的向量维度。Φi表示σi -1展开的对角矩阵。
上述标准化处理完成后,第i个隐藏层的模型参数均满足正态分布。
204,将第i个隐藏层中标准化后浮点型的模型参数量化为整型参数。
下面,根据标准化的模型参数,以8bit的量化宽度为例,对第i个隐藏层进行量化处理。具体的量化过程见下方步骤A1-A4。
B1,通过下方公式(9)获取标准化的权重矩阵
Figure BDA0002955557770000122
中绝对值最大的元素:
Figure BDA0002955557770000123
其中,
Figure BDA0002955557770000124
表示标准化的权重矩阵
Figure BDA0002955557770000125
中第(k,j)个元素。
B2,将8bit量化的标准化权重矩阵称为
Figure BDA0002955557770000126
Figure BDA0002955557770000127
中的第(k,j)个元素为:
Figure BDA0002955557770000128
其中,round表示对浮点数取整的函数。
对标准化的权重矩阵中的每一个元素都进行公式(10)的量化过程,这样量化后的标准化权重矩阵元素都分布在(-128,127)之间,实现了标准化权重矩阵从浮点型数据到整型数据的量化过程。
B3,进一步对标准化的特征向量
Figure BDA0002955557770000129
进行量化。
首先获取标准化的特征向量
Figure BDA00029555577700001210
中绝对值最大的元素
Figure BDA00029555577700001211
将8bit量化的特征向量称为
Figure BDA00029555577700001212
则特征向量的量化过程为:
Figure BDA00029555577700001213
对标准化的特征向量中的每一个元素都进行公式(11)的量化过程,这样量化后的标准化特征向量的元素都分布在(-128,127)之间,实现了标准化特征向量从浮点数到整数的量化过程。
可选地,在实际的识别过程中,也可以采用公式(11)对待识别的语音特征数据进行量化。
B4,根据
Figure BDA0002955557770000131
Figure BDA0002955557770000132
相乘后的整型数据的宽度对标准化的残差向量
Figure BDA0002955557770000133
进行调整得到
Figure BDA0002955557770000134
使得标准化的残差向量
Figure BDA0002955557770000135
的宽度大于或者等于
Figure BDA0002955557770000136
Figure BDA0002955557770000137
相乘后的结果,以保证量化后的权重矩阵
Figure BDA0002955557770000138
特征向量
Figure BDA0002955557770000139
和残差向量
Figure BDA00029555577700001310
在进行kernel计算时整型数据不会溢出。作为一种举例,例如
Figure BDA00029555577700001311
Figure BDA00029555577700001312
相乘后的整型数据宽度为8bit,那么标准化的残差向量
Figure BDA00029555577700001313
的宽度可以是16bit或者32bit。那么,这里就涉及到量化的整型数据的宽度和计算速度的问题,需要知道的是,量化的整型数据宽度越窄,使用模型时的计算速度越快。所以,在确定残差向量
Figure BDA00029555577700001314
的宽度时,不能只考虑数据会溢出而选择较宽的整型数据,还需要考虑模型使用时的计算速度。
上述步骤B1-B4所述的量化方法是针对语音识别模型的模型参数为浮点型数据时的量化方法,在一种可能的情况下,该方法也同样可以用于其它类型数据的量化,本申请实施例对此不做限定。
在一种可能的场景中,语音识别模型的模型参数处理方法可以应用在离线自动语音识别模型(Automatic Speech Recognition,ASR)的部署上。由于语音技术在智能物联网设备上不断丰富,离线ASR成为越来越多智能设备的必备技术。例如在人工智能(AI)电梯项目中,可以使用离线ASR实现语音控制楼层及实现不依赖网络的语音交互等功能。为了在更多的嵌入式设备上实现复杂的离线ASR模型计算,就需要现在设备上部署参数量化的ASR模型。本申请实施例提供了一种在模型量化之前首先对模型参数进行标准化处理,以降低量化带来的误差,可以提高ASR模型的准确性,并可以提高模型在使用过程中的运算速度、减少模型的内存使用量,从而可以提高ASR模型的部署能力和可扩展性。
在另一个可能的场景中,本申请实施例提出的方法可以在实际产品中使用语音识别模型时,提高运算速度。作为一种举例,在嵌入式设备微处理器(Advanced RISCMachines,ARM)上部署根据本申请实施例提供的量化方法进行量化后的语音识别模型,在设备上使用ARM neon指令进行加速,与直接运行浮点型的语音识别模型相比会消耗更低的功耗。作为另一种举例,在嵌入式信号处理器(Digital Signal Processing,DSP)上部署根据本申请实施例提供的量化方法进行量化后的语音识别模型,在设备上使用hifi指令进行运算加速,相比于运行浮点型模型,能够以更小的内存运行更大的语音识别模型。
基于与上述语音识别模型的数据处理方法的同一构思,如图3所示,提供了一种具有语音识别模型的数据处理功能的装置300。装置300能够执行上述方法中的各个步骤,为了避免重复,此处不再详述。装置300包括:获取单元301、处理单元202。
获取单元301,用于获取输入语音识别模型的待识别语音特征数据;
处理单元302,用于对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,所述标准化的待识别语音特征数据满足正态分布;
所述处理单元302,还用于对所述标准化后的待识别语音特征数据进行量化处理。
在一种可能的实现方式中,所述处理单元302,还用于:
将经过所述量化处理后的标准化的待识别语音特征数据输入所述语音识别模型得到语音识别结果;
其中,所述语音识别模型使用的权重和残差均满足正态分布。
在一种可能的实现方式中,所述处理单元302,在对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据时,具体用于:
根据第一正态分布模型对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据;
所述第一正态分布模型包括均值、方差,或者,所述第一正态分布模型包括均值、方差和补偿值。
在一种可能的实现方式中,所述处理单元302还用于:
调整输入第一模型参数的预设的第二正态分布模型中均值、方差以及补偿值中的一项或多项,使得调整后的所述第二正态分布模型输出标准化的第一模型参数;
所述调整后的所述第二正态分布模型作为所述第一正态分布模型;
其中,所述第一模型参数为所述语音识别模型中的权重、语音特征数据的样本数据或者残差。
在一种可能的实现方式中,所述处理单元302,在根据第一正态分布模型对所述待识别语音特征数据进行标准化处理得到标准化的待识别语音特征数据,具体用于:
根据如下公式对待识别语音特征数据进行标准化处理:
Figure BDA0002955557770000151
其中,X表示待识别语音特征数据,
Figure BDA0002955557770000152
表示满足正态分布的待识别语音特征数据,V表示所述第一正态分布模型的均值,σ表示所述第一正态分布模型的方差,C表示所述第一正态分布模型的补偿值,X、
Figure BDA0002955557770000153
V、C、σ均为N×1的向量,hadamard表示哈达玛积,G和H表示预设常数。
在一种可能的实现方式中,所述标准化的待识别语音特征数据为浮点型数据,所述处理单元302,在对所述标准化的待识别语音特征数据进行量化处理时,具体用于:
将所述标准化的待识别语音特征数据从浮点型数据转换为整型数据;
其中,所述经过量化后的待识别语音识别模型应用于嵌入式设备中。
图4示出了本发明实施例提供的电子设备结构示意图。该电子设备可以包括处理器401和存储器402。
进一步地,电子设备还可以包括通信接口403。
处理器401可以是通用处理器,例如中央处理器(CPU)、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的语音识别模型的数据处理方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器402作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器可以包括至少一种类型的存储介质,例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random Access Memory,RAM)、静态随机访问存储器(Static Random Access Memory,SRAM)、可编程只读存储器(Programmable Read Only Memory,PROM)、只读存储器(Read Only Memory,ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性存储器、磁盘、光盘等等。存储器是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本发明实施例中的存储器402还可以是电路或者其它任意能够实现存储功能的装置,用于存储程序指令和/或数据。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;上述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于:移动存储设备、随机存取存储器(RAM,Random Access Memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等各种可以存储程序代码的介质。
或者,本发明上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、随机存取存储器(RAM,Random Access Memory)、磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(SSD))等各种可以存储程序代码的介质。
以上实施例仅用以对本发明的技术方案进行了详细介绍,但以上实施例的说明只是用于帮助理解本发明实施例的方法,不应理解为对本发明实施例的限制。本技术领域的技术人员可轻易想到的变化或替换,都应涵盖在本发明实施例的保护范围之内。

Claims (8)

1.语音识别模型的数据处理方法,其特征在于,所述方法包括:
根据第一正态分布模型
Figure DEST_PATH_IMAGE001
,对语音识别模型 的待识别语音特征数据进行标准化处理,得到标准化的待识别语音特征数据;
对标准化后的待识别语音特征数据进行量化处理;
其中,
Figure 203054DEST_PATH_IMAGE002
表示待识别语音特征数据,
Figure DEST_PATH_IMAGE003
表示满足正态分布的待识别语音特征数据,V表示 所述第一正态分布模型的均值,σ表示所述第一正态分布模型的方差,C表示所述第一正态 分布模型的补偿值,X、
Figure 470088DEST_PATH_IMAGE003
、V、C、σ均为N×1的向量,
Figure 606671DEST_PATH_IMAGE004
表示哈达玛积,G和H表示预设 常数,所述标准化的待识别语音特征数据满足正态分布,所述第一正态分布模型包括均值、 方差,或者,所述第一正态分布模型包括均值、方差和补偿值。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
将经过所述量化处理后的标准化的待识别语音特征数据输入所述语音识别模型得到语音识别结果;
其中,所述语音识别模型使用的权重和残差均满足正态分布。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
调整输入第一模型参数的预设的第二正态分布模型中均值、方差以及补偿值中的一项或多项,使得调整后的所述第二正态分布模型输出标准化的第一模型参数;
所述调整后的所述第二正态分布模型作为所述第一正态分布模型;
其中,所述第一模型参数为所述语音识别模型中的权重、语音特征数据的样本数据或者残差。
4.如权利要求2-3任一项所述的方法,其特征在于,所述标准化的待识别语音特征数据为浮点型数据,对所述标准化的待识别语音特征数据进行量化处理,包括:
将所述标准化的待识别语音特征数据从浮点型数据转换为整型数据;
其中,经过量化后的待识别语音识别模型应用于嵌入式设备中。
5.语音识别模型的数据处理装置,其特征在于,所述装置包括:
获取单元,用于获取输入语音识别模型的待识别语音特征数据;
处理单元,用于根据第一正态分布模型:
Figure DEST_PATH_IMAGE005
, 对语音识别模型的待识别语音特征数据进行标准化处理,得到标准化的待识别语音特征数 据;
所述处理单元,还用于对标准化后的待识别语音特征数据进行量化处理;
其中,
Figure 213233DEST_PATH_IMAGE002
表示待识别语音特征数据,
Figure 206596DEST_PATH_IMAGE003
表示满足正态分布的待识别语音特征数据,V表示 所述第一正态分布模型的均值,σ表示所述第一正态分布模型的方差,C表示所述第一正态 分布模型的补偿值,X、
Figure 397144DEST_PATH_IMAGE003
、V、C、σ均为N×1的向量,
Figure 134156DEST_PATH_IMAGE004
表示哈达玛积,G和H表示预设 常数,所述标准化的待识别语音特征数据满足正态分布,所述第一正态分布模型包括均值、 方差,或者,所述第一正态分布模型包括均值、方差和补偿值。
6.如权利要求5所述的装置,其特征在于,所述处理单元,还用于:
将经过所述量化处理后的标准化的待识别语音特征数据输入所述语音识别模型得到语音识别结果;
其中,所述语音识别模型使用的权重和残差均满足正态分布。
7.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,
所述存储器,用于存储计算机程序或指令;
所述处理器,用于执行存储器中的计算机程序或指令,使得权利要求1-4中任一项所述的方法被执行。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被计算机调用时,使所述计算机执行如权利要求1-4任一项所述的方法。
CN202110225198.3A 2021-03-01 2021-03-01 语音识别模型的数据处理方法及装置 Active CN113077782B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110225198.3A CN113077782B (zh) 2021-03-01 2021-03-01 语音识别模型的数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110225198.3A CN113077782B (zh) 2021-03-01 2021-03-01 语音识别模型的数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN113077782A CN113077782A (zh) 2021-07-06
CN113077782B true CN113077782B (zh) 2023-01-17

Family

ID=76609663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110225198.3A Active CN113077782B (zh) 2021-03-01 2021-03-01 语音识别模型的数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN113077782B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922544A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN109559733A (zh) * 2018-11-29 2019-04-02 阿里巴巴集团控股有限公司 语音节奏处理方法和装置
CN111833845A (zh) * 2020-07-31 2020-10-27 平安科技(深圳)有限公司 多语种语音识别模型训练方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102410914B1 (ko) * 2015-07-16 2022-06-17 삼성전자주식회사 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922544A (zh) * 2018-06-11 2018-11-30 平安科技(深圳)有限公司 通用向量训练方法、语音聚类方法、装置、设备及介质
CN109559733A (zh) * 2018-11-29 2019-04-02 阿里巴巴集团控股有限公司 语音节奏处理方法和装置
CN111833845A (zh) * 2020-07-31 2020-10-27 平安科技(深圳)有限公司 多语种语音识别模型训练方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
语音识别特征参数选择方法研究;杨大利等;《计算机研究与发展》;20030730(第07期);第963-969页 *

Also Published As

Publication number Publication date
CN113077782A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
US11373087B2 (en) Method and apparatus for generating fixed-point type neural network
US20210004663A1 (en) Neural network device and method of quantizing parameters of neural network
US9400955B2 (en) Reducing dynamic range of low-rank decomposition matrices
CN110598838A (zh) 统计感知权重量化
CN109800865B (zh) 神经网络生成及图像处理方法和装置、平台、电子设备
US11604960B2 (en) Differential bit width neural architecture search
CN110929865B (zh) 网络量化方法、业务处理方法及相关产品
CN111401550A (zh) 神经网络模型量化方法、装置及电子设备
CN112955907A (zh) 量化训练的长短期记忆神经网络
TW202145142A (zh) 量化訓練、圖像處理方法及裝置、儲存媒體
US11861467B2 (en) Adaptive quantization for execution of machine learning models
US11704556B2 (en) Optimization methods for quantization of neural network models
CN110874625A (zh) 一种深度神经网络量化方法及装置
CN114207625A (zh) 用于性能优化的分布式深度学习的系统感知选择性量化
CN110782030A (zh) 深度学习权值更新方法、系统、计算机设备及存储介质
CN114781618A (zh) 一种神经网络量化处理方法、装置、设备及可读存储介质
CN113077782B (zh) 语音识别模型的数据处理方法及装置
CN112561050B (zh) 一种神经网络模型训练方法及装置
CN117273092A (zh) 一种模型量化方法、装置、电子设备及存储介质
CN116306879A (zh) 数据处理方法、装置、电子设备以及存储介质
JP2020027604A (ja) 情報処理方法、及び情報処理システム
CN115705486A (zh) 量化模型的训练方法、装置、电子设备和可读存储介质
CN116472538A (zh) 用于量化神经网络的方法和系统
Xing et al. Speeding up deep neural networks in speech recognition with piecewise quantized sigmoidal activation function
Takeda et al. Acoustic model training based on node-wise weight boundary model increasing speed of discrete neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant