CN116994593A - 信息识别方法、装置及计算机可读存储介质 - Google Patents
信息识别方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116994593A CN116994593A CN202310998044.7A CN202310998044A CN116994593A CN 116994593 A CN116994593 A CN 116994593A CN 202310998044 A CN202310998044 A CN 202310998044A CN 116994593 A CN116994593 A CN 116994593A
- Authority
- CN
- China
- Prior art keywords
- module
- encoder
- information
- self
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 239000011159 matrix material Substances 0.000 claims abstract description 61
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 8
- 230000004913 activation Effects 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 2
- 230000007246 mechanism Effects 0.000 abstract description 21
- 230000000694 effects Effects 0.000 abstract description 12
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 210000002364 input neuron Anatomy 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/001—Model-based coding, e.g. wire frame
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及人工智能技术领域,具体提供一种信息识别方法、装置及计算机可读存储介质,旨在解决现有的识别模型总参数量过大而不适用于存储空间有限的应用场景的问题。本发明的信息识别方法所采用的编码器包含至少一个编码组合模块,每个编码组合模块包含多个编码器子块,其中,每个编码器子块均包含自注意力模块,且每个编码组合模块所包含的所有编码器子块中的所述自注意力模块共享线型层矩阵wq、wk、wv。根据共享的线型层矩阵和对角矩阵计算自注意力模块的运算矩阵。本发明通过共享参数的方式减小自注意力机制的特征冗余,可以极大缩小模型参数量,通过对角阵机制实现对共享的参数矩阵进行微调,进而保证模型的识别效果保持不变甚至略微提升。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种信息识别方法、装置及计算机可读存储介质。
背景技术
目前广泛应用于图像、文本、语音等识别领域的信息识别模型,多采用自注意力机制来计算输入向量之间的相关性,由于自注意力(self-attention)机制中涉及大量的矩阵运算和学习,因此如何做到缩减模型的参数量是一个问题。以目前主流的语音识别模型为例来说,该模型通常基于conformer结构或transformer结构,两种模型结构内部实现都大量依赖于self-attention机制,self-attention机制在实现时需要计算query、key、value三个参数并基于计算结果来计算最终输出。这种机制虽然可以并行计算,但依然需要大量参数,同时conformer模型和transformer模型的网络深度通常都要达到12个self-attention模块以上,因此模型总参数量通常会达到4000万以上,对于端上设备或其他存储空间有限的应用场景来说,这是一个问题。
目前常用的模型参数压缩手段通常有:直接减少模型网络层数;对模型进行量化;模型蒸馏。这三种方法都会在一定程度上限制模型表征,虽然减小了参数量,但会导致模型识别效果降低。
因此,本领域需要提出一种新的可以缩小模型参数量的信息识别方法,以及在缩减模型参数量同时可以保持模型的识别效果不变甚至略微提升的方案来解决上述问题。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决缩小模型参数量以及保持模型的识别效果的技术问题的信息识别模型。
在第一方面,本发明提供一种信息识别方法,包括:
所述信息包括音频信息、文本信息、图像信息中任一种,所述方法包括:
从获取的原始信息中提取数据特征;
将所述数据特征输入编码器得到编码特征;
将所述编码特征输入解码器得到所述原始信息对应的识别结果;
所述编码器包含至少一个编码组合模块,每个编码组合模块包含多个编码器子块,其中,每个编码器子块均包含自注意力模块,且每个编码组合模块所包含的所有编码器子块中的所述自注意力模块共享线型层矩阵wq、wk、wv。
所述自注意力模块为对角阵自注意力模块,所述对角阵自注意力模块的运算矩阵Wq、Wk、Wv根据线性层矩阵wq、wk、wv和对角矩阵Diagq、Diagk、Diagv计算得到,计算公式如下:Wq=wq·Diagq,Wk=wk·Diagk,Wv=wv·Diagv。
进一步地,所述编码器子块的组成还包括前馈模块,或者是还包括前馈模块和卷积模块。
所述前馈模块至少包括以下模型层:归一化层、线性层、激活函数层、dropout层。所述卷积模块至少包括以下模型层:归一化层、卷积层、激活函数层、dropout层。
在上述方法的一个技术方案中,所述将所述编码特征输入解码器得到所述原始信息对应的识别结果具体为,当所述编码器包含多个编码组合模块时,将所述编码器中的最后一个编码组合模块的结果作为编码特征输入所述解码器;所述解码器的训练包括,对所述编码器中每个编码组合模块输出的结果都进行重打分。
进一步地,将所述数据特征输入编码器之前还包括:对提取的所述数据特征进行下采样,和/或位置编码。
当所述信息为音频信息时,所述从获取的原始数据中提取数据特征具体包括:通过预加重、分帧、加窗、快速傅里叶变化,将获取的原始音频数据转为频谱特征,并通过梅尔滤波器组得到MFCC特征作为提取的数据特征。
在第二方面,本发明提供一种控制装置,该控制装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述信息识别方法的技术方案中任一项技术方案所述的信息识别方法。
在第三方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述信息识别方法的技术方案中任一项技术方案所述的信息识别方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:在实施本发明的技术方案中,编码器中每个编码组合模块所包含的各个编码器子块中的自注意力模块共享线型层矩阵wq、wk、wv,通过共享参数的方式减小self-attention机制的特征冗余,从而极大缩小模型参数量。自注意力模块采用对角阵自注意力模块,其实际运算矩阵根据共享的线性层矩阵和对角矩阵计算得到,通过这种对角阵机制实现对共享的self-attention参数矩阵进行微调,进而保证模型的识别效果保持不变甚至略微提升。另外还引入解码器重打分机制,通过在解码环节对编码器中各个编码组合模块的输出进行重打分以得到更准确的信息识别结果。
附图说明
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。此外,图中类似的数字用以表示类似的部件,其中:
图1是根据本发明的一个实施例的语音识别方法的主要步骤流程示意图;
图2是根据本发明的一个实施例的信息识别系统的主要结构框图示意图;
图3是根据本发明的一个实施例的语音识别系统的结构框图示意图;
图4是图3所示语音识别系统的工作流程示意图。
附图标记列表:
201:特征提取模块;202:编码模块;203:解码模块。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
这里先解释本发明涉及到的一些术语。
self-attention:自注意力机制,是目前深度学习任务中常用模块;
conformer模块:语音识别中常用的模型结构,由前馈模块、self-attention模块、卷积模块组合而成;
组合conformer模块:由n个conformer模块组合而成的模块,在模块内,每个conformer模块共享参数矩阵wq、wk、wv,并通过单独的对角阵学习该层独有的数据特征。
MFCC特征:梅尔频率倒谱系数,是一种基于人耳对频率的听觉感知来进行建模的语音识别常用特征;
dropout层:随机选中一些输入的神经元并将其临时隐藏,深度学习任务中常用模块;
对角矩阵:是主对角线以外其他元素都为零的矩阵;
卷积层:由多个参数可学习的卷积核组成的模型层,深度学习任务中常用模块;
CTC:全称为Connectionist Temporal Classification,是一种语音识别中常用的损失函数。
在本发明实施例中,提出一种信息识别方法,该信息识别方法可以应用于音频信息、文本信息、图像信息等的识别,因此,本发明实施例的方法中所述信息包括音频信息、文本信息、图像信息中任一种,所述方法包括以下步骤:
步骤S1:从获取的原始信息中提取数据特征;
当原始信息是音频信息或图像信息时,在提取音频数据特征或图像数据特征之后,一般还会进行下采样,和/或位置编码操作,之后再执行步骤S2。
当原始信息是文本信息时,在提取文本数据特征之后,一般还会进行位置编码操作之后执行步骤S2。
步骤S2:将所述数据特征输入编码器得到编码特征;
所述编码器包含至少一个编码组合模块,每个编码组合模块包含多个编码器子块,其中,每个编码器子块均包含自注意力模块,且每个组合模块所包含的所有编码器子块中的所述自注意力模块共享线型层矩阵wq、wk、wv。
所述编码器子块的组成还可以包括前馈模块、卷积模块。
例如采用conformer结构的编码器子块的组成包含第一前馈模块、卷积模块、自注意力模块和第二卷积模块,采用transformer结构的编码器子块的组成包含前馈模块和自注意力模块。
步骤S3:将所述编码特征输入解码器得到所述原始信息对应的识别结果;
当所述编码器包含多个编码组合模块时,将所述编码器中的最后一个编码组合模块的结果作为编码特征输入所述解码器;
所述解码器的训练包括,对所述编码器中每个编码组合模块输出的结果都进行重打分。
进一步地,上述步骤S2中自注意力模块通过共享线性层矩阵,可以使得模型的参数量得到极大缩减,同时为了保证识别效果,还可以通过对角阵对自注意力机制中参数进行微调,具体为:所述自注意力模块采用对角阵自注意力模块,其用于计算注意力机制中的参数query、key、value所采用的运算矩阵Wq、Wk、Wv,根据线性层矩阵wq、wk、wv和对角矩阵Diagq、Diagk、Diagv计算得到,计算公式如下:Wq=wq·Diagq,Wk=wk·Diagk,Wv=wv·Diagv。
为了对本发明的信息识别方法有更深入理解,以下将通过将上述信息识别方法具体应用于音频信息的识别为例,具体化为一种编码器采用conformer结构的语音识别方法进行详细描述。
在本发明实施例中,具体提出的语音识别方法是一种基于对角阵自注意力机制的语音识别方法,在降低模型参数量的同时,依然可以保留模型的识别准确率。self-attention机制通过预览整体输入特征来判断每个特征的重要性并将前后相隔较远的特征关联起来,语音识别模型中常采用的conformer通常由12个模块组成,在12个conformer模块中,self-attention存在相当程度的数据冗余。因此我们以m个conformer模块为一个组合,称为一个组合conformer模块,即等同于本发明的编码组合模块,组合conformer模块中的n个conformer模块共享一组参数矩阵,每个conformer模块等同于本发明的编码组合模块中的编码器子块;m*n=12,m和n均为正整数,这样就可以将这部分的参数减少到原来的n分之一。共用参数必然会使得模型的拟合能力降低,因此我们使用12个对角矩阵单独微调每一个conformer模块的参数,对于一个256×256维的矩阵,它的对角阵参数只有256个,相比于它原本的参数量65536个,几乎可以忽略不计。此外,为了进一步加强组合conformer模块的拟合能力,我们额外引入解码器重打分机制。我们将每个组合conformer模块的输出,都输入到解码器进行重打分,这样可以使模型在浅层就开始学习最终特征规律。
参阅附图1,图1是根据本发明的一个实施例的语音识别方法的主要步骤流程示意图,主要包括下列步骤S11-步骤S13。
步骤S11:从获取的原始音频数据中提取音频特征
在本实施例中提取的所述音频特征具体为梅尔频谱倒谱系数(MFCC特征),本步骤可以具体为:通过预加重、分帧、加窗、快速傅里叶变化等算法,将获取的原始音频数据转为频谱特征,并通过梅尔滤波器组得到MFCC特征。
步骤S12:将所述音频特征输入音频编码器得到音频编码特征,所述音频编码器包含至少一个组合conformer模块,每个组合conformer模块包含多个conformer模块,每个组合conformer模块所包含的各个conformer模块共享线型层矩阵,所述conformer模块的组成包括第一前馈模块、基于对角阵的自注意力模块、卷积模块和第二前馈模块;
在本实施例中,为了压缩模型参数,基于对角阵的自注意力模块的实际运算矩阵由共享矩阵和对角阵组成,共享矩阵wq、wk、wv用以减小参数和数据冗余。对角矩阵Diagq、Diagk、Diagv用以保证当前层可以通过对角阵进行微调,即使共享参数也依然有独立建模的能力。
具体的,conformer模块中的所述基于对角阵的自注意力模块通过运算矩阵Wq、Wk、Wv来计算注意力机制中的参数query、key、value,以及根据参数query、key、value获得音频特征之间相关性;
其中,运算矩阵Wq、Wk、Wv根据线性层矩阵wq、wk、wv和对角矩阵Diagq、Diagk、Diagv计算得到,计算公式如下:Wq=wq·Diagq,Wk=wk·Diagk,Wv=wv·Diagv;根据参数query、key、value获得音频特征之间相关性的计算公式如下:其中d是矩阵的维度,一般取值为256。
本步骤中上述每个组合conformer模块包含至少一个conformer模块,以包含的conformer模块的个数为正整数n为例说明,n可以根据实际应用场景灵活调整,当n等于1时,模型退化为一般的conformer模型;当n等于12时,模型的所有conformer模块都共享同一组参数矩阵,模型参数压缩率达到最大。实际应用中,为了平衡模型参数量和模型识别效果,通常令n等于3或4。
进一步地,在将所述音频特征输入音频编码器之前还包括:对提取的所述音频特征进行下采样和位置编码,具体为:使用具有两层二维卷积神经忘了的卷积下采样模块对所述音频特征进行处理,降低特征时域和频域维度,接着使用位置编码模块为数据加入位置信息。优选地,所述位置编码模块采用正弦函数和余弦函数实现对音频数据的位置编码。
步骤S13:将所述音频编码特征输入音频解码器得到所述原始音频数据对应的语音识别结果。
由于编码器的识别结果通过CTC损失函数计算得到,但CTC具有输出结果前后无关的特性,而语音识别却是一个高度依赖前后语意的任务,因此我们将CTC的输出结果再通过一个解码器进行重打分,解码器的结构通常是一个六层的transformer结构,输入是一个序列,输出是得到这组序列的概率。因此如果当前句子不符合语意,那么经过重打分后它的最终得分会变低,模型也不会以此错误结果作为最终识别结果。
为了进一步提升模型的拟合能力,本发明在系统训练过程中将音频编码器中每一个组合conformer模块的输出结果都输出到音频解码器进行重打分,并将重打分结果平均加权,让模型提前拟合深层特征。在实际应用推理过程中,只将音频编码器中最后一个组合conformer模块的结果输入音频解码器,因此在实际推理过程中不会增加额外的计算量。
进一步,本发明还提供了一种信息识别系统。参见附图2,图2是根据本发明的一个实施例提供的信息识别系统的结构框图,如图2所示,本发明实施例中的信息识别系统主要包括特征提取模块201、编码模块202和解码模块203。
在一个实施方式中,各模块具体实现功能的描述如下:
特征提取模块201,用于从获取的原始信息中提取数据特征;
例如,原始信息是音频信息则提取的是音频特征,原始信息是图像信息则提取的是图像特征。
编码模块202,用于根据所述数据特征得到编码特征;
具体实现时,编码模块202包含有自注意力模块,各个自注意力模块共享线性层矩阵。
例如,以编码模块采用conformer结构为例介绍,编码模块202包含至少一个组合conformer模块,每个组合conformer模块包含至少一个conformer模块;例如,编码模块202包含有3个组合conformer模块,每个组合conformer模块由4个conformer模块组成。
每个组合conformer模块所包含的各个conformer模块共享线型层矩阵wq、wk、wv;每个conformer模块的组成包括第一前馈模块、基于对角阵的自注意力模块、卷积模块和第二前馈模块;
本实施例提供的信息识别系统,通过对自注意力模块进行改进以达到压缩模型参数的效果,具体的通过矩阵参数共享来降低模型参数。进一步地采用了对角阵自注意力模块,所述对角阵自注意力模块通过运算矩阵Wq、Wk、Wv来计算注意力机制中的参数query、key、value,以及根据参数query、key、value获得音频特征之间相关性;
其中,运算矩阵Wq、Wk、Wv根据线性层矩阵wq、wk、wv和对角矩阵Diagq、Diagk、Diagv计算得到,计算公式如下:Wq=wq·Diagq,Wk=wk·Diagk,Wv=wv·Diagv;根据参数query、key、value获得音频特征之间相关性的计算公式如下:其中d是矩阵的维度。
解码模块203,用于根据所述编码特征得到所述原始信息对应的识别结果;
上述信息识别系统可用于执行前面所述的信息识别方法以及语音识别方法所对应的实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,信息识别系统的具体工作过程及有关说明,可以参考信息识别方法的实施例所描述的内容,此处不再赘述。
可以理解的是,本发明的信息识别方法及系统,并不局限于特定的编码器模型结构,在信息识别技术领域中,对于图像识别、文本识别、音频识别等模型的构建中,只要是采用了自注意力机制的编码模型结构,都涉及到大量矩阵运算而面临巨大参数量的问题,因此本发明提出的通过共享矩阵参数实现模型参数量缩减的信息识别方法,可以广泛应用于语音信息的识别、文本信息的识别、图像信息的识别等各类信息识别的模型结构中。
参阅附图3,图3是根据本发明的一个实施例的语音识别系统的示意图,本实施例中语音识别系统的设计采用12个conformer模块,以n=4为例,每4个conformer模块为一个组合,将12个conformer模块划分成3个组合conformer模块,每个组合conformer模块中的4个conformer模块共享参数矩阵wq、wk、wv,每个conformer模块的组成包含两个前馈模块、一个对角阵自注意力模块和一个卷积模块。如图3所示,语音特征依次经特征提取模块进行特征提取,经下采样与位置编码模块进行处理之后依次经过组合conformer模块1、组合conformer模块2、组合conformer模块3进行输出,在模型训练阶段将三个组合conformer模块的输出均由解码器重打分以提升模型的语音识别效果,最后输出识别结果,在模型实际应用时,可以仅将最后一个组合conformer模块即图中组合conformer模块3的输出经由解码器重打分,以防止增加额外计算量。
图3所示语音识别系统的工作流程如图4所示,包括以下步骤:
步骤S101:从音频特征中利用信号处理算法提取MFCC特征;
具体的,通过预加重、分帧、加窗、快速傅里叶变换等信号处理方法,将输入的一维音频转为频谱特征,并通过梅尔滤波器组和离散余弦变换对频谱特征降维压缩得到MFCC特征。
步骤S102:对MFCC特征进行下采样和位置编码;
由于self-attention模块在计算参数query、key、value时并不能得到其相关的位置信息,通过位置编码对原始特征叠加正弦和余弦向量,使得self-attention具有位置感知的能力。
步骤S103:使用前馈模块将将经过编码后的特征进行规整和处理;
前馈模块依次包括模型层:归一化层、线性层、激活函数层、dropout层、线性层、dropout层,使用前馈模块对输入数据特征进行处理和规整,主要用于同一特征维度等,方便后续的self-attention模块进行处理。
步骤S104:使用对角阵self-attention学习数据的前后关联信息;
将线性层参数矩阵wq、wk、wv分别对应乘上对角矩阵Diagq、Diagk、Diagv得到Wq、Wk、Wv,再通过Wq、Wk、Wv来计算注意力机制中的参数query、key、value。
步骤S105:通过卷积模块和前馈模块对上一层结果进行处理和规整;
卷积模块使用单点卷积,对输入特征乘上一个可学习的系数,作为一种门控机制,可以控制模型选择保留或遗弃数据中的特征。前馈模块则进一步对特征进行规整和提取,来给到下一组模块使用。
卷积模块依次包括模型层:归一化层、卷积层、激活函数层、卷积层、归一化层、激活函数层、卷积层、dropout层。
步骤S106:重复流程S103到S105得到所有组合conformer模块的输出;
一次S103到S105的步骤流程被称为一个conformer模块,整个模型共由12个conformer模块组成,12个conformer模块又可以分组为3个组合conformer模块。一个组合conformer模块内部的4个conformer模块共享wq、wk、wv参数,通过对角阵Diagq、Diagk、Diagv学习该层特殊的特征。
步骤S107:将每个组合conformer模块的输出使用解码器对结果重打分。
为了进一步提升模型的拟合能力,本系统在训练过程中将每一个组合conformer模块的输出结果都输出到解码器进行重打分,让模型提前拟合深层特征。在实际应用推理过程中,只会将最后一个组合conformer模块的结果输入解码器,因此在实际推理过程中不会增加额外的计算量。
需要指出的是,尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述,但是本领域技术人员可以理解,为了实现本发明的效果,不同的步骤之间并非必须按照这样的顺序执行,其可以同时(并行)执行或以其他顺序执行,这些变化都在本发明的保护范围之内。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
进一步,本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的信息识别方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的信息识别方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的信息识别方法的程序,该程序可以由处理器加载并运行以实现上述信息识别方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种信息识别方法,其特征在于,所述信息包括音频信息、文本信息、图像信息中任一种,所述方法包括:
从获取的原始信息中提取数据特征;
将所述数据特征输入编码器得到编码特征;
将所述编码特征输入解码器得到所述原始信息对应的识别结果;
所述编码器包含至少一个编码组合模块,每个编码组合模块包含多个编码器子块,其中,每个编码器子块均包含自注意力模块,且每个编码组合模块所包含的所有编码器子块中的所述自注意力模块共享线型层矩阵wq、wk、wv。
2.根据权利要求1所述的方法,其特征在于,所述自注意力模块为对角阵自注意力模块,所述对角阵自注意力模块的运算矩阵Wq、Wk、Wv根据线性层矩阵wq、wk、wv和对角矩阵Diagq、Diagk、Diagv计算得到,计算公式如下:Wq=wq·Diagq,Wk=wk·Diagk,Wv=wv·Diagv。
3.根据权利要求1或2所述的方法,其特征在于,所述编码器子块的组成还包括前馈模块,或者是还包括前馈模块和卷积模块。
4.根据权利要求3所述的方法,其特征在于,所述前馈模块至少包括以下模型层:归一化层、线性层、激活函数层、dropout层。
5.根据权利要求3所述的方法,其特征在于,所述卷积模块至少包括以下模型层:归一化层、卷积层、激活函数层、dropout层。
6.根据权利要求1所述的方法,其特征在于,所述将所述编码特征输入解码器得到所述原始信息对应的识别结果具体为,当所述编码器包含多个编码组合模块时,将所述编码器中的最后一个编码组合模块的结果作为编码特征输入所述解码器;
所述解码器的训练包括,对所述编码器中每个编码组合模块输出的结果都进行重打分。
7.根据权利要求1所述的方法,其特征在于,所述将所述数据特征输入编码器之前还包括:对提取的所述数据特征进行下采样,和/或位置编码。
8.根据权利要求1所述的方法,其特征在于,所述信息为音频信息时,所述从获取的原始数据中提取数据特征具体包括:通过预加重、分帧、加窗、快速傅里叶变化,将获取的原始音频数据转为频谱特征,并通过梅尔滤波器组得到MFCC特征作为提取的数据特征。
9.一种控制装置,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至8中任一项所述的信息识别方法。
10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至8中任一项所述的信息识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310998044.7A CN116994593A (zh) | 2023-08-07 | 2023-08-07 | 信息识别方法、装置及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310998044.7A CN116994593A (zh) | 2023-08-07 | 2023-08-07 | 信息识别方法、装置及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116994593A true CN116994593A (zh) | 2023-11-03 |
Family
ID=88533683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310998044.7A Pending CN116994593A (zh) | 2023-08-07 | 2023-08-07 | 信息识别方法、装置及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116994593A (zh) |
-
2023
- 2023-08-07 CN CN202310998044.7A patent/CN116994593A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110335587B (zh) | 语音合成方法、系统、终端设备和可读存储介质 | |
TWI300214B (en) | Method for robust voice recognition by analyzing redundant features of source signal | |
CN113728339A (zh) | 使用深度多项式网络对加密数据的分布式和协作分析 | |
CN111326168B (zh) | 语音分离方法、装置、电子设备和存储介质 | |
CN110070867B (zh) | 语音指令识别方法、计算机装置及计算机可读存储介质 | |
CN113470664B (zh) | 语音转换方法、装置、设备及存储介质 | |
Yang et al. | Steganalysis of VoIP streams with CNN-LSTM network | |
CN111429893A (zh) | 基于Transitive STARGAN的多对多说话人转换方法 | |
KR20090002076A (ko) | 동영상 데이터의 동일성 판단 및 동일 구간 검출 방법 및장치 | |
CN114141237A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN115101085A (zh) | 一种卷积增强外部注意力的多说话人时域语音分离方法 | |
CN116959465A (zh) | 语音转换模型训练方法、语音转换方法、装置及介质 | |
CN113782042B (zh) | 语音合成方法、声码器的训练方法、装置、设备及介质 | |
CN114783459A (zh) | 一种语音分离方法、装置、电子设备和存储介质 | |
CN113470672A (zh) | 语音增强方法、装置、设备及存储介质 | |
CN116994593A (zh) | 信息识别方法、装置及计算机可读存储介质 | |
CN116564315A (zh) | 一种声纹识别方法、装置、设备及存储介质 | |
CN113436608B (zh) | 双流语音转换方法、装置、设备及存储介质 | |
CN113515617B (zh) | 一种对话生成模型的方法、装置以及设备 | |
CN115589446A (zh) | 一种基于预训练与提示的会议摘要生成方法及系统 | |
Al-Thahab | Speech recognition based radon-discrete cosine transforms by Delta Neural Network learning rule | |
CN114203151A (zh) | 语音合成模型的训练的相关方法以及相关装置、设备 | |
CN111048065B (zh) | 文本纠错数据生成方法及相关装置 | |
CN114373443A (zh) | 语音合成方法和装置、计算设备、存储介质及程序产品 | |
CN113823318A (zh) | 一种基于人工智能的倍率确定方法、音量调节方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |