CN112002307B - 一种语音识别方法和装置 - Google Patents
一种语音识别方法和装置 Download PDFInfo
- Publication number
- CN112002307B CN112002307B CN202010901270.5A CN202010901270A CN112002307B CN 112002307 B CN112002307 B CN 112002307B CN 202010901270 A CN202010901270 A CN 202010901270A CN 112002307 B CN112002307 B CN 112002307B
- Authority
- CN
- China
- Prior art keywords
- noise
- audio frame
- audio
- weight vector
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 131
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 238000013145 classification model Methods 0.000 claims description 32
- 238000012545 processing Methods 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 9
- 230000007613 environmental effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语音识别方法和装置,其中所述方法包括:采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量,其中,所述噪声权重向量携带对应音频帧所表征的时间信息;在将所述音频帧的音频特征信息输入语音识别器时,获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入,以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策,改善低信噪比下语音识别率下降的问题,提高语音识别率,提升语音识别在噪声环境的鲁棒性。
Description
技术领域
本申请实施例涉及自然语言处理技术,尤其涉及一种语音识别方法和装置。
背景技术
语音识别(Automatic Speech Recognition,简称ASR)是以语音为研究对象, 通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识 别技术就是让机器通过识别和理解过程把语音信号转换为相应的文本或命令的 技术。随着信息技术的发展,语音识别技术正逐步成为计算机信息处理技术中 的关键技术,语音识别技术的应用场景也变得越来越广泛,例如语音识别技术 可以应用在字幕添加、识别谈话中的敏感内容、人机交互等场景。
随着ASR技术的发展,在安静场景下进行的语音识别已经具有相当满意的 效果,然而在噪声场景下识别率会大幅下降。
在一种相关技术中,关于噪声场景下的语音识别,可以在ASR前端使用多 麦克风语音增强算法来提升语音识别器的性能。然而,该方案并不适用于只有 一个麦克风可用的业务场景。而针对只有一个麦克风可用的业务场景,可以使 用单通道语音增强(SE)算法提高识别率,但单通道语音增强算法往往会引起 失真,造成与ASR训练及测试场景不匹配,导致ASR系统的识别率较低。
在其他相关技术中,还可以通过增加训练数据来提升ASR系统的识别率, 但在真实使用场景中往往存在不同程度的环境噪声、混响等无法通过数据增强 来完善描述的场景。
发明内容
本申请提供一种语音识别方法和装置,以解决现有技术中在噪声场景下进 行语音识别时识别率较低,训练和测试场景不匹配的问题。
第一方面,本申请实施例提供了一种语音识别方法,所述方法包括:
采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量, 其中,所述噪声权重向量携带对应音频帧所表征的时间信息;
在将所述音频帧的音频特征信息输入语音识别器时,获取与各音频特征信 息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入,以指导所 述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特 征信息进行决策。
第二方面,本申请实施例还提供了一种语音识别装置,所述装置包括:
噪声权重确定模块,用于采用自注意力机制确定待识别的音频帧序列中各 音频帧的噪声权重向量,其中,所述噪声权重向量携带对应音频帧所表征的时 间信息;
噪声嵌入模块,用于在将所述音频帧的音频特征信息输入语音识别器时, 获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境 噪声嵌入,以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选 择高信噪比的音频特征信息进行决策。
第三方面,本申请实施例还提供了一种服务器,包括存储器、处理器及存 储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时 实现上述的方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有 计算机程序,该程序被处理器执行时实现上述的方法。
本申请具有如下有益效果:
在本实施例中,通过将自注意力机制与语音识别器相结合在噪声环境中进 行语音识别,采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权 重向量以后,在将各音频帧的音频特征信息输入至语音识别器时,将时间对齐 的噪声权重向量作为语音识别器的环境噪声嵌入,使得语音识别器更容易学习 到语音特征与噪声的关系,从而在进行语音识别时根据噪声权重向量选择高信噪比的音频特征信息进行决策,改善低信噪比下语音识别率下降的问题,提高 语音识别率,提升语音识别在噪声环境的鲁棒性。
附图说明
图1是本申请实施例一提供的一种语音识别方法实施例的流程图;
图2是本申请实施例一中的音频帧序列示意图;
图3是本申请实施例二提供的另一种语音识别方法实施例的流程图;
图4是本申请实施例二中的噪声分类模型示意图;
图5是本申请实施例二中的噪声分类模型与语音解码器结合的示意图;
图6是本申请实施例三提供的一种语音识别装置实施例的结构框图;
图7是本申请实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此 处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需 要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结 构。
实施例一
图1为本申请实施例一提供的一种语音识别方法实施例的流程图,该实施 例着重于在语音识别过程中的抗噪处理,以在噪声场景下提高语音识别的识别 率。该方法可以应用在具有语音识别功能的应用程序上,例如在音视频直播应 用程序上针对吵杂环境的语音识别。
本实施例具体可以包括如下步骤:
步骤110,采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声 权重向量。
自注意力机制(Self-attention Mechanism)是注意力(Attention)机制中的 一种,注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部 感觉对齐,从而增加部分区域的观察精细度的机制。注意力机制可以快速提取 稀疏数据的重要特征,而自注意力机制是注意力机制的改进,其减少了对外部 信息的依赖,更擅长捕捉数据或特征的内部相关性。在本实施例中,在语音识 别中引入自注意力机制,来确定待识别的音频帧序列中各音频帧的噪声权重向量。
其中,噪声权重向量携带对应音频帧所表征的时间信息,其可以用于表征 该时间信息的音频帧的噪声强度,音频帧的噪声强度越强,其噪声权重向量越 大。
例如,如图2所示的音频帧序列包括五帧,各帧的噪声强度为第五帧>第四 帧>第三帧>第二帧=第一帧,其噪声权重向量的大小排序为:w5>w4>w3>w2=w1。
在一种实施方式中,步骤110进一步可以包括如下步骤:
步骤110-1,获取待识别的音频帧序列中各音频帧的频域特征信息。
示例性地,频域特征信息可以包括但不限于如下的一种或结合:FFT(fastFourier transform,快速傅里叶变换)特征、MFCC(Mel Frequency CepstrumCoefficient,梅尔频率倒谱系数)特征、FBank(Filter Bank,滤波器组)特征、LPC(LinearPrediction Coefficient,线性预测系数)特征,等等。
在一种实现中,MFCC特征的获取方式可以如下:先对待识别语音进行预 加重、分帧和加窗;对每一个短时分析窗,通过FFT得到对应的频谱(获得分布在时间轴上不同时间窗内的频谱,即FFT特征为频谱特征);将上面的频谱 通过Mel滤波器组得到Mel频谱(通过Mel频谱,将线形的自然频谱转换为体 现人类听觉特性的Mel频谱);在Mel频谱上面进行倒谱分析(取对数,做逆 变换,实际逆变换是通过DCT(Discrete Cosine Transform,离散余弦变换)来 实现,取DCT后的第2个到第13个系数作为MFCC系数),获得Mel频率倒 谱系数MFCC,这个MFCC就是这帧语音的特征(倒谱分析,获得MFCC作为 语音特征)。
Filter bank和MFCC的计算步骤基本一致,但没有做IDFT(Inverse DiscreteFourier Transform,离散傅里叶逆变换)。
对语音信号进行LPC分析的基本思想是:一个语音的采样能够用过去若干 个语音采样的线性组合来逼近,通过线性预测到的采样在最小均方误差意义上 逼近实际语音采样,可以求取一组唯一的预测系数。预测系数就是线性组合中 所用的加权系数,这种线性预测分析最早是用于语音编码中。
步骤110-2,分别将各音频帧的频域特征信息输入至已训练的噪声分类模型 中,并获取所述噪声分类模型的隐藏层输出的各音频帧的隐层状态信息。
在该步骤中,音频帧输入至噪声分类模型的隐藏层后,由隐藏层将该音频 帧映射为隐层状态信息(hidden state)。当噪声分类模型中有多个隐藏层时, 隐层状态信息表示最后一个隐藏层的输出。
若当前处理的音频帧对应的时间信息为t,即t时刻的音频帧对应的隐层状 态信息为ht,则,待识别的音频帧序列经过隐藏层的映射可以输出隐层状态信 息序列H={h1,h2,…hN}。
步骤110-3,对所述隐层状态信息进行处理,得到对应音频帧的噪声权重向 量。
在该步骤中,对隐层状态信息序列H={h1,h2,…hN}中的各个隐层状态信息进 行处理,可以得到携带时间信息的噪声权重向量序列W={w1,w2,...wN},其中, w1表示第一帧的噪声权重向量,w2表示第二帧的噪声权重向量,以此类推。
在一种例子中,上述对隐层状态信息进行的处理可以包括但不限于:归一 化处理。例如,可以按照如下公式计算音频帧的噪声权重向量wt:
其中,为ht的转置,u为可通过反向传播学习的参数,目的是通过此参数 决定每个时间点的隐层状态信息对于输出的重要性。
步骤120,在将所述音频帧的音频特征信息输入语音识别器时,获取与各 音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入, 以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比 的音频特征信息进行决策。
在该步骤中,将自注意力机制结合语音识别器进行噪声环境下的语音识别。 当获得各音频帧的噪声权重向量以后,可以将各音频帧的音频特征信息以及时 间上对齐的噪声权重向量输入至语音识别器中,上述时间上对齐是指,例如, 第一帧的音频特征信息与w1对齐。
基于接收到的音频特征信息以及噪声权重向量,语音识别器无需大量训练 数据即可通过该噪声权重向量确定帧级别下语音特征和噪声之间的关系,从而 便于语音识别器在进行语音识别时选择高信噪比的音频特征信息进行决策。
作为一种示例,音频特征信息可以包括但不限于MFCC特征。
在一种实施方式中,可以将各音频帧的音频特征信息以及对应的噪声权重 向量输入至语音识别器的声学模型中,由所述声学模型根据各音频帧的噪声权 重向量确定各音频帧的识别权重向量,并选择识别权重向量高的音频特征信息 进行语音识别。
在该实施例中,语音识别器的声学模型的输入可以包括音频帧序列中各音 频帧的音频特征信息以及时间上对齐的噪声权重向量。声学模型根据各音频帧 的噪声权重向量可以确定各音频帧的识别权重向量,在一种实现中,声学模型 可以计算数值1与噪声权重向量的差值,作为音频帧的识别权重向量,即识别权重向量=1-wt,噪声越大,音频帧的识别权重向量越小。
确定各音频帧的识别权重向量以后,声学模型可以在提取上下文特征时, 选择识别权重向量高的音频特征信息进行语音识别,以提高识别率。
在本实施例中,通过将自注意力机制与语音识别器相结合在噪声环境中进 行语音识别,采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权 重向量以后,在将各音频帧的音频特征信息输入至语音识别器时,将时间对齐 的噪声权重向量作为语音识别器的环境噪声嵌入,使得语音识别器更容易学习到语音特征与噪声的关系,从而在进行语音识别时根据噪声权重向量选择高信 噪比的音频特征信息进行决策,改善低信噪比下语音识别率下降的问题,提高 语音识别率,提升语音识别在噪声环境的鲁棒性。
实施例二
图3为本申请实施例二提供的另一种语音识别方法实施例的流程图,该实 施例在实施例一的基础上,对通过自注意力机制提升编码器的编码效果的过程 进行说明,具体可以包括如下步骤:
步骤310,获取待识别的音频帧序列中各音频帧的频域特征信息。
示例性地,频域特征信息可以包括但不限于如下的一种或结合:FFT特征、 MFCC特征、FBank特征、LPC特征,等等。
步骤320,分别将各音频帧的频域特征信息输入至已训练的噪声分类模型 中,并获取所述噪声分类模型的隐藏层输出的各音频帧的隐层状态信息。
在该步骤中,本实施例上述所指的编码器可以为噪声分类模型,噪声分类 模型可以是一种深度神经网络多分类器,如图4的噪声分类模型示意图所示, 噪声分类模型的输入是音频帧序列,输出为该音频帧序列对应的噪声分类类别 (即图4中的黑色圈),如干净、白噪声、汽车噪声、机器噪声等。
在本实施例中,噪声分类模型的作用之一是提取对语音识别结果有帮助的 隐层状态信息,其中,该隐层状态信息为噪声分类模型的隐藏层对输入的各音频帧的频域特征信息进行映射,并输出的信息。
若当前处理的音频帧对应的时间信息为t,即t时刻的音频帧对应的隐层状 态信息为ht,则,待识别的音频帧序列经过隐藏层的映射可以输出隐层状态信 息序列H={h1,h2,…hN}。
步骤330,对所述隐层状态信息进行处理,得到对应音频帧的噪声权重向 量。
在该步骤中,对隐层状态信息序列H={h1,h2,…hN}中的各个隐层状态信息进 行处理,可以得到携带时间信息的噪声权重向量序列W={w1,w2,...wN},其中, w1表示第一帧的噪声权重向量,w2表示第二帧的噪声权重向量,以此类推。
在一种例子中,上述对隐层状态信息进行的处理可以包括但不限于:归一 化处理。例如,可以按照如下公式计算音频帧的噪声权重向量wt:
其中,为ht的转置,u为可通过反向传播学习的参数,目的是通过此参数 决定每个时间点的隐层状态信息对于输出的重要性。
在本实施例中,一方面,噪声权重向量可以用于表征该时间信息的音频帧 的噪声强度,音频帧的噪声强度越强,其噪声权重向量越大。另一方面,噪声 权重向量还可以用于表征对应的音频帧对噪声分类的贡献度。
步骤340,计算所述音频帧序列中各音频帧的隐层状态信息与时间对齐的 噪声权重向量的加权平均值,作为所述音频帧序列的上下文向量。
在该步骤中,通过对各音频帧的隐层状态信息与时间对齐的噪声权重向量 加权平均的方式,可以得到当前音频帧序列的抽象特征表示,即上下文向量c。 可以通过如下公式计算上下文向量c:
步骤350,将所述上下文向量作为池化层特征更新所述噪声分类模型。
如图4所示,根据自注意力机制获得当前音频帧序列的上下文向量c以后, 可以将上下文向量c可以作为噪声分类模型的池化层更新噪声分类模型,此时 的池化层可以称为自注意池化(self attention pooling)层。由于上下文向量c是通 过不同的噪声权重向量(即动态权重)计算得到的,相比于传统的池化层中对每一音频帧的特征平均化,即为每个音频帧分配了相等的权重的做法,更能凸 显强噪声帧的音频特征,更易于训练网络且能保留时间序列上依赖关系信息, 使噪声分类模型的分类性能最大化。
步骤360,在将所述音频帧的音频特征信息输入语音识别器时,获取与各 音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入, 以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比 的音频特征信息进行决策。
在一种例子中,如图5所示,在将音频帧序列各音频帧的音频特征信息输 入语音识别器时,各音频帧的噪声权重向量wt可以作为语音识别器的环境噪音 嵌入,以指导语音识别器在进行语音识别时选择高信噪比的音频特征信息进行 决策。
在一种实施方式中,步骤360可以包括如下步骤:
将各音频帧的音频特征信息以及对应的噪声权重向量输入至语音识别器的 声学模型中,由所述声学模型根据各音频帧的噪声权重向量确定各音频帧的识 别权重向量,并选择识别权重向量高的音频特征信息进行语音识别。
在一种实施方式中,可以由所述声学模型计算数值1与所述音频帧的噪声 权重向量的差值,作为该音频帧的识别权重向量。
在该实施例中,噪声权重向量越大的音频帧,其识别权重向量越小,根据 识别权重向量可以指导声学模型采用识别权重向量大的音频特征信息,避免受 到噪声大的音频帧的影响,并且有利用前后文修正错误。
在一种例子中,针对应用程序对语音进行审核的场景,如果低信噪比下违 规信号和背景噪声信号能量接近,而背景噪声通常是时变,可以可利用噪声权 重向量,判定噪声大的字识别权重向量较低,指导语音识别器利用前后文修正 信噪比高导致识别错误的字。
在本实施例中,噪声分类模型提取出对语音识别结果有帮助的隐层状态信 息以后,根据隐层状态信息确定各音频帧的噪声权重向量,并根据各音频帧的 噪声权重向量计算音频帧序列的上下文向量,作为训练噪声分类模型的参数, 以实现动态权重分配,相比于平均池化的方式更易于训练网络且能保留时间序 列上的依赖关系信息,更能凸显强噪声帧的音频特征,使噪声分类模型的性能最大化。
另外,噪声分类模型的将携带时间信息的噪声权重向量输出给语音识别器 作为环境噪声嵌入,性能越好的噪声分类模型越能有效提取出、对语音识别器 输出正确文字有帮助的隐层状态信息,从而得到越能体现噪声强度的噪声权重 向量,该噪声权重向量提供给语音识别器以后,语音识别器根据各音频帧的音 频特征信息以及噪声权重向量确定音频特征和噪声的关系,以便于在进行语音 识别时选择高信噪比的音频特征信息进行决策,提高语音识别在噪声环境的鲁棒性。
实施例三
图6为本申请实施例三提供的一种语音识别装置实施例的结构框图,该装 置可以包括:
噪声权重确定模块610,用于采用自注意力机制确定待识别的音频帧序列 中各音频帧的噪声权重向量,其中,所述噪声权重向量携带对应音频帧所表征 的时间信息;
噪声嵌入模块620,用于在将所述音频帧的音频特征信息输入语音识别器 时,获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的 环境噪声嵌入,以指导所述语音识别器在进行语音识别时根据所述噪声权重向 量选择高信噪比的音频特征信息进行决策。
在一种实施方式中,所述噪声权重确定模块610可以包括如下子模块:
频域特征信息获取子模块,用于获取待识别的音频帧序列中各音频帧的频 域特征信息;
隐层状态信息确定子模块,用于分别将各音频帧的频域特征信息输入至已 训练的噪声分类模型中,并获取所述噪声分类模型的隐藏层输出的各音频帧的隐层状态信息;
噪声权重向量确定子模块,用于对所述隐层状态信息进行处理,得到对应 音频帧的噪声权重向量。
在一种实施方式中,所述装置还包括如下模块:
上下文向量确定模块,用于计算所述音频帧序列中各音频帧的隐层状态信 息与时间对齐的噪声权重向量的加权平均值,作为所述音频帧序列的上下文向 量;
分类模型更新模块,用于将所述上下文向量作为池化层特征更新所述噪声 分类模型。
在一种实施方式中,所述噪声嵌入模块620还用于:
将各音频帧的音频特征信息以及对应的噪声权重向量输入至语音识别器的 声学模型中,由所述声学模型根据各音频帧的噪声权重向量确定各音频帧的识 别权重向量,并选择识别权重向量高的音频特征信息进行语音识别。
在一种实施方式中,所述噪声嵌入模块620还用于:
由所述声学模型计算数值1与所述音频帧的噪声权重向量的差值,作为该 音频帧的识别权重向量。
需要说明的是,本申请实施例所提供的语音识别装置可执行本申请任意实 施例所提供的语音识别方法,具备执行方法相应的功能模块和有益效果。
实施例四
图7为本申请实施例六提供的一种服务器的结构示意图,如图7所示,该 服务器包括处理器710、存储器720、输入装置730和输出装置740;服务器中 处理器710的数量可以是一个或多个,图7中以一个处理器710为例;服务器 中的处理器710、存储器720、输入装置730和输出装置740可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器720作为一种计算机可读存储介质,可用于存储软件程序、计算机 可执行程序以及模块,如本申请实施例中的方法对应的程序指令/模块。处理器710通过运行存储在存储器720中的软件程序、指令以及模块,从而执行服务 器的各种功能应用以及数据处理,即实现上述的方法。
存储器720可主要包括存储程序区和存储数据区,其中,存储程序区可存 储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使 用所创建的数据等。此外,存储器720可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失 性固态存储器件。在一些实例中,存储器720可进一步包括相对于处理器710 远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的 实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收输入的数字或字符信息,以及产生与服务器的用 户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设 备。
实施例五
本申请实施例五还提供一种包含计算机可执行指令的存储介质,所述计算 机可执行指令在由计算机处理器执行时用于执行实施例一至实施例二中任一实 施例中的方法。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到, 本申请可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很 多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器 (Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、 闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以 是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
值得注意的是,上述装置的实施例中,所包括的各个单元和模块只是按照 功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即 可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本 申请的保护范围。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员 会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进 行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽 然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以 上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (10)
1.一种语音识别方法,其特征在于,所述方法包括:
采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量,其中,所述噪声权重向量携带对应音频帧所表征的时间信息;
在将所述音频帧的音频特征信息输入语音识别器时,获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入,以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策。
2.根据权利要求1所述的方法,其特征在于,所述采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量,包括:
获取待识别的音频帧序列中各音频帧的频域特征信息;
分别将各音频帧的频域特征信息输入至已训练的噪声分类模型中,并获取所述噪声分类模型的隐藏层输出的各音频帧的隐层状态信息;
对所述隐层状态信息进行处理,得到对应音频帧的噪声权重向量。
3.根据权利要求2所述的方法,其特征在于,在所述采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量之后,还包括:
计算所述音频帧序列中各音频帧的隐层状态信息与时间对齐的噪声权重向量的加权平均值,作为所述音频帧序列的上下文向量;
将所述上下文向量作为池化层特征更新所述噪声分类模型。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述在将所述音频帧的音频特征信息输入语音识别器时,获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入,以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策,包括:
将各音频帧的音频特征信息以及对应的噪声权重向量输入至语音识别器的声学模型中,由所述声学模型根据各音频帧的噪声权重向量确定各音频帧的识别权重向量,并选择识别权重向量高的音频特征信息进行语音识别。
5.根据权利要求4所述的方法,其特征在于,所述由所述声学模型根据各音频帧的噪声权重向量确定各音频帧的识别权重向量包括:
由所述声学模型计算数值1与所述音频帧的噪声权重向量的差值,作为该音频帧的识别权重向量。
6.一种语音识别装置,其特征在于,所述装置包括:
噪声权重确定模块,用于采用自注意力机制确定待识别的音频帧序列中各音频帧的噪声权重向量,其中,所述噪声权重向量携带对应音频帧所表征的时间信息;
噪声嵌入模块,用于在将所述音频帧的音频特征信息输入语音识别器时,获取与各音频特征信息时间上对齐的噪声权重向量作为所述语音识别器的环境噪声嵌入,以指导所述语音识别器在进行语音识别时根据所述噪声权重向量选择高信噪比的音频特征信息进行决策。
7.根据权利要求6所述的装置,其特征在于,所述噪声权重确定模块包括:
频域特征信息获取子模块,用于获取待识别的音频帧序列中各音频帧的频域特征信息;
隐层状态信息确定子模块,用于分别将各音频帧的频域特征信息输入至已训练的噪声分类模型中,并获取所述噪声分类模型的隐藏层输出的各音频帧的隐层状态信息;
噪声权重向量确定子模块,用于对所述隐层状态信息进行处理,得到对应音频帧的噪声权重向量。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
上下文向量确定模块,用于计算所述音频帧序列中各音频帧的隐层状态信息与时间对齐的噪声权重向量的加权平均值,作为所述音频帧序列的上下文向量;
分类模型更新模块,用于将所述上下文向量作为池化层特征更新所述噪声分类模型。
9.一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010901270.5A CN112002307B (zh) | 2020-08-31 | 2020-08-31 | 一种语音识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010901270.5A CN112002307B (zh) | 2020-08-31 | 2020-08-31 | 一种语音识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112002307A CN112002307A (zh) | 2020-11-27 |
CN112002307B true CN112002307B (zh) | 2023-11-21 |
Family
ID=73466190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010901270.5A Active CN112002307B (zh) | 2020-08-31 | 2020-08-31 | 一种语音识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112002307B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113593609B (zh) * | 2021-08-03 | 2024-02-09 | 杭州网易云音乐科技有限公司 | 乐曲识别方法、装置、电子设备及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01274198A (ja) * | 1988-04-27 | 1989-11-01 | Mitsubishi Electric Corp | 音声認識装置 |
EP1327976A1 (en) * | 2001-12-21 | 2003-07-16 | Cortologic AG | Method and system for recognition of speech in a noisy environment |
CN104021789A (zh) * | 2014-06-25 | 2014-09-03 | 厦门大学 | 一种利用短时时频值的自适应端点检测方法 |
CN108022588A (zh) * | 2017-11-13 | 2018-05-11 | 河海大学 | 一种基于双特征模型的鲁棒语音识别方法 |
CN108122556A (zh) * | 2017-08-08 | 2018-06-05 | 问众智能信息科技(北京)有限公司 | 减少驾驶人语音唤醒指令词误触发的方法及装置 |
CN110580919A (zh) * | 2019-08-19 | 2019-12-17 | 东南大学 | 多噪声场景下语音特征提取方法及可重构语音特征提取装置 |
-
2020
- 2020-08-31 CN CN202010901270.5A patent/CN112002307B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01274198A (ja) * | 1988-04-27 | 1989-11-01 | Mitsubishi Electric Corp | 音声認識装置 |
EP1327976A1 (en) * | 2001-12-21 | 2003-07-16 | Cortologic AG | Method and system for recognition of speech in a noisy environment |
CN104021789A (zh) * | 2014-06-25 | 2014-09-03 | 厦门大学 | 一种利用短时时频值的自适应端点检测方法 |
CN108122556A (zh) * | 2017-08-08 | 2018-06-05 | 问众智能信息科技(北京)有限公司 | 减少驾驶人语音唤醒指令词误触发的方法及装置 |
CN108022588A (zh) * | 2017-11-13 | 2018-05-11 | 河海大学 | 一种基于双特征模型的鲁棒语音识别方法 |
CN110580919A (zh) * | 2019-08-19 | 2019-12-17 | 东南大学 | 多噪声场景下语音特征提取方法及可重构语音特征提取装置 |
Non-Patent Citations (1)
Title |
---|
《基于深度神经网络的音频事件检测》;金海;《中国优秀硕士学位论文全文数据库 信息科技辑》;第I136-544页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112002307A (zh) | 2020-11-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xu et al. | A regression approach to speech enhancement based on deep neural networks | |
US10373609B2 (en) | Voice recognition method and apparatus | |
Xu et al. | An experimental study on speech enhancement based on deep neural networks | |
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN107077860B (zh) | 用于将有噪音频信号转换为增强音频信号的方法 | |
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN107910011B (zh) | 一种语音降噪方法、装置、服务器及存储介质 | |
CN108447495B (zh) | 一种基于综合特征集的深度学习语音增强方法 | |
Krueger et al. | Model-based feature enhancement for reverberant speech recognition | |
CN110600017A (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
JP2006079079A (ja) | 分散音声認識システム及びその方法 | |
WO2001016937A9 (en) | System and method for classification of sound sources | |
CN112053702B (zh) | 一种语音处理的方法、装置及电子设备 | |
CN111081223A (zh) | 一种语音识别方法、装置、设备和存储介质 | |
CN111489763B (zh) | 一种基于gmm模型的复杂环境下说话人识别自适应方法 | |
CN112002307B (zh) | 一种语音识别方法和装置 | |
JP2016143042A (ja) | 雑音除去装置及び雑音除去プログラム | |
CN112116909A (zh) | 语音识别方法、装置及系统 | |
WO2020015546A1 (zh) | 一种远场语音识别方法、语音识别模型训练方法和服务器 | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
Kaminski et al. | Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models | |
CN110875037A (zh) | 语音数据处理方法、装置及电子设备 | |
Upadhyay et al. | Robust recognition of English speech in noisy environments using frequency warped signal processing | |
Tzudir et al. | Low-resource dialect identification in Ao using noise robust mean Hilbert envelope coefficients | |
Maganti et al. | A perceptual masking approach for noise robust speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |