CN111724770A - 一种基于深度卷积生成对抗网络的音频关键词识别方法 - Google Patents

一种基于深度卷积生成对抗网络的音频关键词识别方法 Download PDF

Info

Publication number
CN111724770A
CN111724770A CN202010425087.2A CN202010425087A CN111724770A CN 111724770 A CN111724770 A CN 111724770A CN 202010425087 A CN202010425087 A CN 202010425087A CN 111724770 A CN111724770 A CN 111724770A
Authority
CN
China
Prior art keywords
audio
convolution
generator
keyword
discriminator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010425087.2A
Other languages
English (en)
Other versions
CN111724770B (zh
Inventor
白杨
李全兵
詹茂豪
徐海森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Electronic Technology Cyber Security Co Ltd
Original Assignee
China Electronic Technology Cyber Security Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Electronic Technology Cyber Security Co Ltd filed Critical China Electronic Technology Cyber Security Co Ltd
Priority to CN202010425087.2A priority Critical patent/CN111724770B/zh
Publication of CN111724770A publication Critical patent/CN111724770A/zh
Application granted granted Critical
Publication of CN111724770B publication Critical patent/CN111724770B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于深度卷积生成对抗网络的音频关键词识别方法,其特征在于,包括如下步骤:步骤1,构建基于深度卷积生成对抗网络的音频关键词识别模型;步骤2,训练基于深度卷积生成对抗网络的音频关键词识别模型;步骤3,利用训练好的基于深度卷积生成对抗网络的音频关键词识别模型进行音频关键词识别。本发明能够处理连续音频,并且不需要将音频转录为文本,而是直接对音频进行分析实现音频识别关键词。

Description

一种基于深度卷积生成对抗网络的音频关键词识别方法
技术领域
本发明涉及音频识别技术领域,尤其是一种基于深度卷积生成对抗网络的音频关键词识别方法。
背景技术
随着音频识别技术的不断成熟,出现了非常多的应用场景,如:手机地图音频导航、智能家具音频控制、苹果公司的音频助手应用等场景。随着信息的公开以及传播,音频敏感数据的泄露会给社会、商业公司、以及用户造成较大的经济损失或者其他危害。由于,要获知当前音频中是否存在敏感信息,才能决定怎样对当前音频数据进行安全保护,因此,如何实现高效精准的音频关键词识别成为了研究要点。
传统的音频关键词识别方式如:基于模板匹配的关键词识别方法,由于其计算复杂度高、恰当的相似性阈值难以确定,导致其在连续音频流中识别准确率不高,适用于低资源与小任务量的音频关键词识别场景。基于隐马尔科夫模型的关键词识别方法准确率受语料库规模影响,需要大量带有标签数据来训练模型以达到对模型的准确度要求,这种方法复用性差,如果要识别新的关键词,则需要重新训练模型。基于大词汇量连续音频的关键词识别方法不需要预定义词汇表,但需要将音频信号全部转录为文本,再对文本进行关键词识别,它需要依赖音频转换器的准确率,且该方法也需要大量带标注的音频数据作为训练集。
随着深度学习在图像和音频识别领域的使用,深度神经网络也被应用到关键词识别。如:循环神经网络、卷积神经网络和卷积循环神经网络等都被使用到音频关键词识别当中。但这些机器学习方法主要采用将音频信息转换为文本信息,然后再使用循环神经网络,长短期记忆神经网络等技术,对其进行文本分析和自然语言处理,最后进行关键词识别。
综上,已有的方法存在以下问题:
1.现有的音频关键词识别方法在面对连续音频输入时,识别准确率不高;
2.现有的音频关键词识别方法对语料库的依赖大,往往需要大量带有标签数据来训练模型以达到对模型的准确度要求,导致方法复用性差;
3.现有方法需要将音频信号全部转录为文本,再对文本进行关键词识别,因此需要依赖音频文字转换器的准确率,且过程复杂度高。
因此,需要一种适用于连续音频场景下的,具有较高复用性且不需要依赖音频文字转换器准确率的音频关键词识别方法,来解决上述问题。
发明内容
本发明所要解决的技术问题是:针对上述存在的问题,提供一种基于深度卷积生成对抗网络的音频关键词识别方法,以实现在不需要将连续音频转录为文本的条件下,进行音频关键词的精准识别。
本发明采用的技术方案为:一种基于深度卷积生成对抗网络的音频关键词识别方法,包括如下步骤:
步骤1,构建基于深度卷积生成对抗网络的音频关键词识别模型;
步骤2,训练基于深度卷积生成对抗网络的音频关键词识别模型;
步骤3,利用训练好的基于深度卷积生成对抗网络的音频关键词识别模型进行音频关键词识别。
进一步地,步骤1中构建的基于深度卷积生成对抗网络的音频关键词识别模型包括生成器和判别器;
(1)所述生成器包括扩展路径、收缩路径、以及3个零散卷积层;当输入音频特征到生成器中时:依次经过扩展路径,2个卷积核为3×3、激活函数为ReLU的卷积层,收缩路径,以及1个卷积核为1×1的卷积层后,输出音频关键词定位标签序列;其中,
所述扩展路径包括4个第一重复单元,每个第一重复单元包括2个卷积核为3×3、激活函数为ReLU的卷积层,以及1个区域大小为2×2、步长为2的最大池化层;其中,每一次最大池化层进行下采样后都将特征通道的数量加倍;
所述收缩路径包括4个第二重复单元,每个第二重复单元包括1个反卷积核为2×2的反卷积层和2个卷积核为3×3、激活函数为ReLU的卷积层;其中,每个第二重复单元中先由反卷积层处理,并将反卷积结果与扩展路径中对应步骤的特征拼接起来,然后将拼接后的数据经过2个卷积层;
(2)所述判别器包括5个卷积模块、5个最大池化层和2个全连接层;其中,
前3个卷积模块中,每个卷积模块包括2个卷积核为3×3、激活函数为ReLU的卷积层;后2个卷积模块中,每个卷积模块包括3个卷积核为1×1、激活函数为ReLU的卷积层;上一卷积模块输入到下一卷积模块之前要经过1层区域大小为2×2、步长为2的最大池化层;
2个全连接层采用的激活函数为ReLU,其中,第一个全连接层的神经元个数为256个,第二个全连接层神经元个数为64个;最后一个卷积模块输入到第一个全连接层之前要经过1层区域大小为2×2、步长为2的最大池化层;第二个全连接层输出的数据再输入到softmax损失函数中进行概率预测。
进一步地,步骤2包括如下子步骤:
步骤2.1,获取给定音频信号的音频特征;
步骤2.2,将步骤2.1获取的音频特征,通过生成器和人工标记两种方法分别生成音频关键词定位标签序列;其中,通过生成器生成的音频关键词定位标签序列为定位序列数据,通过人工标记生成的音频关键词定位标签序列为训练数据集;
步骤2.3,将步骤2生成的定位序列数据和训练数据集输入到判别器进行判别,所述判别器的输出值为定位序列数据属于真实数据的概率值,所述判别器的输出为生成器的生成的定位序列数据被判定为真实数据的概率值;当生成器生成的定位序列数据为真实数据时,概率值为1;当生成器生成的定位序列数据为伪造数据时,概率为0;
步骤2.4,根据判别器输出的概率值,依据深度卷积生成对抗网络的生成器和判别器的损失函数计算方法来计算损失函数;
步骤2.5,根据步骤2.4计算得到的生成器和判别器的损失函数,利用反向传播算法,更新生成器的模型参数,使生成器能够生成与通过人工标记生成的音频关键词定位标签序列接近的音频关键词定位标签序列。
进一步地,步骤2.1中采用梅尔频率倒谱系数获取给定音频信号的音频特征,包括如下子步骤:
步骤2.11,预加重:将给定音频信号经过高通滤波器滤波;
步骤2.12,分帧:将滤波后的音频信号分割成若干片段,每一个片段为一帧;
步骤2.13,加窗:给每一帧加窗,以增加帧的起始端和终止端的连续性;
步骤2.14,快速傅里叶变换:对加窗后的每一帧进行快速傅里叶变换得到各帧的频谱,并对音频信号的各帧频谱取模平方得到音频信号的功率谱;
步骤2.15,梅尔滤波器处理:将功率谱通过一组梅尔尺度的三角形滤波器组,得到梅尔频谱;
步骤2.16,离散傅里叶变换:将梅尔频谱取对数,之后再经过离散余弦变换得到L阶的梅尔频率倒谱系数。
进一步地,步骤2.12中,分帧后的两相邻帧之间具有重叠区域。
进一步地,步骤3包括如下子步骤:
步骤3.1,获取待识别的音频信号的音频特征;
步骤3.2,将步骤3.1获取的音频特征输入到训练好的生成器,由生成器生成音频关键词定位标签序列;
步骤3.3,将生成器生成的音频关键词定位标签序列以及人工标记好的音频关键词定位标签序列输入判别器,由判别器判断生成器生成的音频关键词定位标签序列的真假:
若判别结果为假,则待识别的音频信号中不存在敏感关键词,由此结束流程;
若判别结果为真,则待识别的音频信号中存在敏感关键词,由此输出判别结果为真的音频关键词定位标签序列并结束流程。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1、本发明不需要将音频转录为文本,而是通过直接提取音频的特征来进行关键词识别,直接对音频进行分析实现音频识别关键词;因此,与需要将音频转换为文本在处理的方法相比,能够实现对连续音频的关键词识别。
2、由于本发明基于深度卷积生成对抗网络,与模板匹配算法等算法的关键词检测算法比,能够适用于不同语言的关键词检测,在多种语言场景下方法复用性高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明的基于深度卷积生成对抗网络的音频关键词识别方法的实现原理图。
图2为本发明的生成器的网络结构示意图。
图3为本发明的判别器的网络结构示意图。
图4为本发明的训练基于深度卷积生成对抗网络的音频关键词识别模型的流程框图。
图5为本发明的获取音频特征的流程框图。
图6为本发明的利用训练好的基于深度卷积生成对抗网络的音频关键词识别模型进行音频关键词识别的流程框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下结合实施例对本发明的特征和性能作进一步的详细描述。
如图1所示,本实施例提供的一种基于深度卷积生成对抗网络的音频关键词识别方法,包括如下步骤:
步骤1,构建基于深度卷积生成对抗网络的音频关键词识别模型;
步骤2,训练基于深度卷积生成对抗网络的音频关键词识别模型;
步骤3,利用训练好的基于深度卷积生成对抗网络的音频关键词识别模型进行音频关键词识别。
1、构建基于深度卷积生成对抗网络的音频关键词识别模型
所述步骤1中构建的基于深度卷积生成对抗网络的音频关键词识别模型包括生成器和判别器;
(1)如图2所示,所述生成器包括扩展路径、收缩路径、以及3个零散卷积层;当输入音频特征到生成器中时:依次经过扩展路径,2个卷积核为3×3、激活函数为ReLU的卷积层,收缩路径,以及1个卷积核为1×1的卷积层后,输出音频关键词定位标签序列;其中,
所述扩展路径是一种重复结构,包括4个第一重复单元,每个第一重复单元包括2个卷积核为3×3、激活函数为ReLU的卷积层(Conv),以及1个区域大小为2×2、步长为2的最大池化层(Maxpool);其中,每一次最大池化层进行下采样后都将特征通道的数量加倍;
所述收缩路径也是一种重复结构,包括4个第二重复单元,每个第二重复单元包括1个反卷积核为2×2的反卷积层(Up-conv)和2个卷积核为3×3、激活函数为ReLU的卷积层;其中,每个第二重复单元中先由反卷积层处理,并将反卷积结果与扩展路径中对应步骤的特征拼接起来,然后将拼接后的数据经过2个卷积层;
(2)如图3所示,所述判别器包括5个卷积模块、5个最大池化层和2个全连接层;其中,
前3个卷积模块中,每个卷积模块包括2个卷积核为3×3、激活函数为ReLU的卷积层;后2个卷积模块中,每个卷积模块包括3个卷积核为1×1、激活函数为ReLU的卷积层;上一卷积模块输入到下一卷积模块之前要经过1层区域大小为2×2、步长为2的最大池化层;
2个全连接层采用的激活函数为ReLU,其中,第一个全连接层的神经元个数为256个,第二个全连接层神经元个数为64个;最后一个卷积模块输入到第一个全连接层之前要经过1层区域大小为2×2、步长为2的最大池化层;第二个全连接层输出的数据再输入到softmax损失函数中进行概率预测。
2、训练基于深度卷积生成对抗网络的音频关键词识别模型
如图4所示,所述步骤2包括如下子步骤:
步骤2.1,获取给定音频信号的音频特征;传统的音频信号特征提取算法有很多,由于梅尔频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,简称MFCC)是基于人耳听觉特性,梅尔频率倒谱频带是在梅尔刻度上等距划分的,频率的尺度值与实际频率的对数分布关系更符合人耳的听觉特性,因此可采用MFCC作为特征。其方法为,将给定音频信号(连续音频)经过梅尔频率倒谱系数音频特征提取后输出给定音频信号的梅尔特征,包括:预加重、分帧、加窗、快速傅里叶变换、梅尔滤波器处理和离散傅里叶逆变换等步骤。如图5所示,具体为:
步骤2.11,预加重:将给定音频信号经过高通滤波器滤波;其目的是提升高频部分,使音频信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱。同时,也是为了消除发声过程中声带和嘴唇对音频信号产生的影响,补偿音频信号受到发音系统所抑制的高频部分。
步骤2.12,分帧:将滤波后的音频信号分割成若干片段,每一个片段为一帧。由于音频信号具有时变性,但是在一个短时间范围内,其特性基本保持不变或相对稳定,即音频信号具有短时平稳性,因此需要对音频分帧。为了避免相邻两帧的变化过大,两相邻帧之间具有重叠区域。
步骤2.13,加窗:给每一帧加窗,以增加帧的起始端和终止端的连续性;
步骤2.14,快速傅里叶变换:由于音频信号在时域上的变换通常很难看出其特性,所以通常将音频信号转换为频域上的能量分布来观察,不同的能量分布,代表不同音频的特性。由此,对加窗后的每一帧进行快速傅里叶变换得到各帧的频谱,并对音频信号的各帧频谱取模平方得到音频信号的功率谱;
步骤2.15,梅尔滤波器处理:经过快速傅里叶变换后得到的频谱是等距频段的,但人类听觉在较高频率下较不敏感,因此,将功率谱通过一组梅尔尺度的三角形滤波器组,得到梅尔频谱;
步骤2.16,离散傅里叶变换:将梅尔频谱取对数,之后再经过离散余弦变换得到L阶的梅尔频率倒谱系数;L指梅尔频率倒谱系数阶数。
以一示例说明步骤2.1,音频信号的音频特征表示为S={si:i=1,2,…,M},其中si表示第i帧音频信号的特征,M是音频信号中的帧总数,每一帧的特征表示为si={si1,si2,…,siN},N是每一帧的特征长度。经过步骤2.1获取的音频特征表示为M×N的特征矩阵。
步骤2.2,将步骤2.1获取的音频特征,通过生成器和人工标记两种方法分别生成音频关键词定位标签序列;其中,通过生成器生成的音频关键词定位标签序列为定位序列数据,通过人工标记生成的音频关键词定位标签序列为训练数据集;
(1)生成器生成方法:将音频信号的音频特征S输入生成器,得到音频关键词定位标签序列x={x1,x2,…,xM},该音频关键词定位标签序列是定位序列数据;
(2)人工标记生成方法:获取音频信号的音频关键词定位标签序列y={y1,y2,…,yM}。音频信号的总时长为T,假设关键词在音频信号中出现的时间区间为[s,s+t]。关键词出现的帧区间为:
Figure BDA0002498403270000101
人为地将出现关键词的帧记为1,其余的帧记0。例如:音频信号总帧数为10,出现关键词的帧区间为[4,7],则相应的音频关键词定位标签序列为[0,0,0,1,1,1,1,0,0,0],该音频关键词定位标签序列为训练数据集。
步骤2.3,将步骤2生成的定位序列数据(即通过生成器生成的音频关键词定位标签序列)和训练数据集(即通过人工标记获取的音频关键词定位标签序列)输入到判别器进行判别,所述判别器的输出为生成器的生成的定位序列数据被判定为真实数据的概率值;当生成器生成的定位序列数据为真实数据时,概率值为1;当生成器生成的定位序列数据为伪造数据时,概率为0;
步骤2.4,根据判别器输出的概率值,依据深度卷积生成对抗网络的生成器和判别器的损失函数计算方法来计算损失函数;其中深度卷积生成对抗网络的生成器和判别器的损失函数计算方法是现有技术,本发明可以直接利用。具体地,
(1)判别器的目的是判别生成器生成的定位序列数据和真实的定位序列分类,其损失函数为:
Figure BDA0002498403270000102
(2)生成器的目的是生成与真实的定位序列接近的定位序列数据,其损失函数为:
Figure BDA0002498403270000111
其中,D(x)表示生成器生成的定位序列数据被判定为真实数据的概率;G(z)表示生成器生成的定位序列数据中的伪造数据;D(G(z))表示生成器生成的定位序列数据被判定为伪造数据的概率。
生成器和判别器是一个相互博弈的过程,生成器希望生成结果的判别输出概率越大,这样生成器损失值越小,来达到成功欺骗判别器的目的;判别器希望生成器的生成结果的判别输出概率越小,这样判别器损失越大,这样就能很容易的分辨出伪造定位数据来。
步骤2.5,根据步骤2.4计算得到的生成器和判别器的损失函数,利用反向传播算法,更新生成器的模型参数,包括:训练步数、学习率、权重等,使生成器能够生成与通过人工标记生成的音频关键词定位标签序列接近的音频关键词定位标签序列,从而提高生成器的生成准确度,进而训练所述基于深度卷积生成对抗网络的音频关键词识别模型的识别准确度。
3、利用训练好的基于深度卷积生成对抗网络的音频关键词识别模型进行音频关键词识别
如图6所示,所述步骤3包括如下子步骤:
步骤3.1,获取待识别的音频信号的音频特征;该获取方法可以采用与步骤2.1相同的方法进行。
步骤3.2,将步骤3.1获取的音频特征输入到训练好的生成器,由生成器生成音频关键词定位标签序列;
步骤3.3,将生成器生成的音频关键词定位标签序列以及人工标记好的音频关键词定位标签序列输入判别器,由判别器判断生成器生成的音频关键词定位标签序列的真假:
若判别结果为假,则待识别的音频信号中不存在敏感关键词,由此结束流程;
若判别结果为真,则待识别的音频信号中存在敏感关键词,由此输出判别结果为真的音频关键词定位标签序列并结束流程。
通过上述流程输出的音频关键词定位标签序列即可用于语音脱敏的应用中,例如:
根据输出的判别结果为真的音频关键词定位标签序列,将音频信号的帧上的定位结果映射回原始音频信号;
采用音频剪辑技术,把音频信号根据定位结果截成若干音频段,把存在敏感关键词对应的音频段替换成噪音段,然后按原始音频信号的顺序拼接起来;
将经过处理后的已屏蔽敏感关键词的音频结果输出,该输出的音频结果即为已经脱敏的音频信号。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于深度卷积生成对抗网络的音频关键词识别方法,其特征在于,包括如下步骤:
步骤1,构建基于深度卷积生成对抗网络的音频关键词识别模型;
步骤2,训练基于深度卷积生成对抗网络的音频关键词识别模型;
步骤3,利用训练好的基于深度卷积生成对抗网络的音频关键词识别模型进行音频关键词识别。
2.根据权利要求1所述的基于深度卷积生成对抗网络的音频关键词识别方法,其特征在于,步骤1中构建的基于深度卷积生成对抗网络的音频关键词识别模型包括生成器和判别器;
(1)所述生成器包括扩展路径、收缩路径、以及3个零散卷积层;当输入音频特征到生成器中时:依次经过扩展路径,2个卷积核为3×3、激活函数为ReLU的卷积层,收缩路径,以及1个卷积核为1×1的卷积层后,输出音频关键词定位标签序列;其中,
所述扩展路径包括4个第一重复单元,每个第一重复单元包括2个卷积核为3×3、激活函数为ReLU的卷积层,以及1个区域大小为2×2、步长为2的最大池化层;其中,每一次最大池化层进行下采样后都将特征通道的数量加倍;
所述收缩路径包括4个第二重复单元,每个第二重复单元包括1个反卷积核为2×2的反卷积层和2个卷积核为3×3、激活函数为ReLU的卷积层;其中,每个第二重复单元中先由反卷积层处理,并将反卷积结果与扩展路径中对应步骤的特征拼接起来,然后将拼接后的数据经过2个卷积层;
(2)所述判别器包括5个卷积模块、5个最大池化层和2个全连接层;其中,
前3个卷积模块中,每个卷积模块包括2个卷积核为3×3、激活函数为ReLU的卷积层;后2个卷积模块中,每个卷积模块包括3个卷积核为1×1、激活函数为ReLU的卷积层;上一卷积模块输入到下一卷积模块之前要经过1层区域大小为2×2、步长为2的最大池化层;
2个全连接层采用的激活函数为ReLU,其中,第一个全连接层的神经元个数为256个,第二个全连接层神经元个数为64个;最后一个卷积模块输入到第一个全连接层之前要经过1层区域大小为2×2、步长为2的最大池化层;第二个全连接层输出的数据再输入到softmax损失函数中进行概率预测。
3.根据权利要求2所述的基于深度卷积生成对抗网络的音频关键词识别方法,其特征在于,步骤2包括如下子步骤:
步骤2.1,获取给定音频信号的音频特征;
步骤2.2,将步骤2.1获取的音频特征,通过生成器和人工标记两种方法分别生成音频关键词定位标签序列;其中,通过生成器生成的音频关键词定位标签序列为定位序列数据,通过人工标记生成的音频关键词定位标签序列为训练数据集;
步骤2.3,将步骤2生成的定位序列数据和训练数据集输入到判别器进行判别,所述判别器的输出值为定位序列数据属于真实数据的概率值,所述判别器的输出为生成器的生成的定位序列数据被判定为真实数据的概率值;当生成器生成的定位序列数据为真实数据时,概率值为1;当生成器生成的定位序列数据为伪造数据时,概率为0;
步骤2.4,然后根据判别器输出的概率值,依据深度卷积生成对抗网络的生成器和判别器的损失函数计算方法来计算损失函数;
步骤2.5,根据步骤2.4计算得到的生成器和判别器的损失函数,利用反向传播算法,更新生成器的模型参数,使生成器能够生成与通过人工标记生成的音频关键词定位标签序列接近的音频关键词定位标签序列。
4.根据权利要求3所述的基于深度卷积生成对抗网络的音频关键词识别方法,其特征在于,步骤2.1中采用梅尔频率倒谱系数获取给定音频信号的音频特征,包括如下子步骤:
步骤2.11,预加重:将给定音频信号经过高通滤波器滤波;
步骤2.12,分帧:将滤波后的音频信号分割成若干片段,每一个片段为一帧;
步骤2.13,加窗:给每一帧加窗,以增加帧的起始端和终止端的连续性;
步骤2.14,快速傅里叶变换:对加窗后的每一帧进行快速傅里叶变换得到各帧的频谱,并对音频信号的各帧频谱取模平方得到音频信号的功率谱;
步骤2.15,梅尔滤波器处理:将功率谱通过一组梅尔尺度的三角形滤波器组,得到梅尔频谱;
步骤2.16,离散傅里叶变换:将梅尔频谱取对数,之后再经过离散余弦变换得到L阶的梅尔频率倒谱系数。
5.根据权利要求4-7任一项所述的基于深度卷积生成对抗网络的音频关键词识别方法,其特征在于,步骤2.12中,分帧后的两相邻帧之间具有重叠区域。
6.根据权利要求1所述的基于深度卷积生成对抗网络的音频关键词识别方法,其特征在于,步骤3包括如下子步骤:
步骤3.1,获取待识别的音频信号的音频特征;
步骤3.2,将步骤3.1获取的音频特征输入到训练好的生成器,由生成器生成音频关键词定位标签序列;
步骤3.3,将生成器生成的音频关键词定位标签序列以及人工标记好的音频关键词定位标签序列输入判别器,由判别器判断生成器生成的音频关键词定位标签序列的真假:
若判别结果为假,则待识别的音频信号中不存在敏感关键词,由此结束流程;
若判别结果为真,则待识别的音频信号中存在敏感关键词,由此输出判别结果为真的音频关键词定位标签序列并结束流程。
CN202010425087.2A 2020-05-19 2020-05-19 一种基于深度卷积生成对抗网络的音频关键词识别方法 Active CN111724770B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010425087.2A CN111724770B (zh) 2020-05-19 2020-05-19 一种基于深度卷积生成对抗网络的音频关键词识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010425087.2A CN111724770B (zh) 2020-05-19 2020-05-19 一种基于深度卷积生成对抗网络的音频关键词识别方法

Publications (2)

Publication Number Publication Date
CN111724770A true CN111724770A (zh) 2020-09-29
CN111724770B CN111724770B (zh) 2022-04-01

Family

ID=72564627

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010425087.2A Active CN111724770B (zh) 2020-05-19 2020-05-19 一种基于深度卷积生成对抗网络的音频关键词识别方法

Country Status (1)

Country Link
CN (1) CN111724770B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712812A (zh) * 2020-12-24 2021-04-27 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN113283403A (zh) * 2021-07-21 2021-08-20 武汉大学 基于对抗学习的伪造人脸视频检测方法
CN113314109A (zh) * 2021-07-29 2021-08-27 南京烽火星空通信发展有限公司 一种基于循环生成网络的语音生成方法
CN113361647A (zh) * 2021-07-06 2021-09-07 青岛洞听智能科技有限公司 一种未接通电话类型识别方法
CN113961674A (zh) * 2021-12-21 2022-01-21 深圳市迪博企业风险管理技术有限公司 一种关键信息与上市公司公告文本语义匹配方法及装置
CN114544772A (zh) * 2022-04-26 2022-05-27 华南农业大学 基于卷积神经网络和声音频谱的鸭蛋裂纹检测装置及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
CN108766419A (zh) * 2018-05-04 2018-11-06 华南理工大学 一种基于深度学习的非常态语音区别方法
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109065021A (zh) * 2018-10-18 2018-12-21 江苏师范大学 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN109461458A (zh) * 2018-10-26 2019-03-12 合肥工业大学 一种基于生成对抗网络的音频异常检测方法
US20190114348A1 (en) * 2017-10-13 2019-04-18 Microsoft Technology Licensing, Llc Using a Generative Adversarial Network for Query-Keyword Matching
CN110533066A (zh) * 2019-07-19 2019-12-03 浙江工业大学 一种基于深度神经网络的图像数据集自动构建方法
CN111078849A (zh) * 2019-12-02 2020-04-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293289A (zh) * 2017-06-13 2017-10-24 南京医科大学 一种基于深度卷积生成对抗网络的语音生成方法
US20190114348A1 (en) * 2017-10-13 2019-04-18 Microsoft Technology Licensing, Llc Using a Generative Adversarial Network for Query-Keyword Matching
CN108766419A (zh) * 2018-05-04 2018-11-06 华南理工大学 一种基于深度学习的非常态语音区别方法
CN108986835A (zh) * 2018-08-28 2018-12-11 百度在线网络技术(北京)有限公司 基于改进gan网络的语音去噪方法、装置、设备及介质
CN109065021A (zh) * 2018-10-18 2018-12-21 江苏师范大学 基于条件深度卷积生成对抗网络的端到端方言辨识方法
CN109461458A (zh) * 2018-10-26 2019-03-12 合肥工业大学 一种基于生成对抗网络的音频异常检测方法
CN110533066A (zh) * 2019-07-19 2019-12-03 浙江工业大学 一种基于深度神经网络的图像数据集自动构建方法
CN111078849A (zh) * 2019-12-02 2020-04-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张克明: ""基于生成对抗网络的稀有音频事件检测研究"", 《信息工程大学学报》 *
张逸: ""基于生成对抗网络的音频音质提升方法"", 《计算机工程与应用》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712812A (zh) * 2020-12-24 2021-04-27 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN112712812B (zh) * 2020-12-24 2024-04-26 腾讯音乐娱乐科技(深圳)有限公司 音频信号生成方法、装置、设备以及存储介质
CN113361647A (zh) * 2021-07-06 2021-09-07 青岛洞听智能科技有限公司 一种未接通电话类型识别方法
CN113283403A (zh) * 2021-07-21 2021-08-20 武汉大学 基于对抗学习的伪造人脸视频检测方法
CN113283403B (zh) * 2021-07-21 2021-11-02 武汉大学 基于对抗学习的伪造人脸视频检测方法
CN113314109A (zh) * 2021-07-29 2021-08-27 南京烽火星空通信发展有限公司 一种基于循环生成网络的语音生成方法
CN113314109B (zh) * 2021-07-29 2021-11-02 南京烽火星空通信发展有限公司 一种基于循环生成网络的语音生成方法
CN113961674A (zh) * 2021-12-21 2022-01-21 深圳市迪博企业风险管理技术有限公司 一种关键信息与上市公司公告文本语义匹配方法及装置
CN113961674B (zh) * 2021-12-21 2022-03-22 深圳市迪博企业风险管理技术有限公司 一种关键信息与上市公司公告文本语义匹配方法及装置
CN114544772A (zh) * 2022-04-26 2022-05-27 华南农业大学 基于卷积神经网络和声音频谱的鸭蛋裂纹检测装置及方法

Also Published As

Publication number Publication date
CN111724770B (zh) 2022-04-01

Similar Documents

Publication Publication Date Title
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
US10424289B2 (en) Speech recognition system using machine learning to classify phone posterior context information and estimate boundaries in speech from combined boundary posteriors
CN108305616B (zh) 一种基于长短时特征提取的音频场景识别方法及装置
US11062699B2 (en) Speech recognition with trained GMM-HMM and LSTM models
CN107731233B (zh) 一种基于rnn的声纹识别方法
US8676574B2 (en) Method for tone/intonation recognition using auditory attention cues
CN107610707A (zh) 一种声纹识别方法及装置
CN103503060A (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN111341319A (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
Nivetha A survey on speech feature extraction and classification techniques
Birla A robust unsupervised pattern discovery and clustering of speech signals
CN117457031A (zh) 基于语音全局声学特征和局部频谱特征的情绪识别方法
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
Prakash et al. Analysis of emotion recognition system through speech signal using KNN & GMM classifier
CN116665649A (zh) 基于韵律特征的合成语音检测方法
CN111091816B (zh) 一种基于语音评测的数据处理系统及方法
Mathur et al. A study of machine learning algorithms in speech recognition and language identification system
CN111785262A (zh) 一种基于残差网络及融合特征的说话人年龄性别分类方法
CN113129926A (zh) 语音情绪识别模型训练方法、语音情绪识别方法及装置
CN117393000B (zh) 一种基于神经网络和特征融合的合成语音检测方法
KR102300599B1 (ko) 가중치를 이용한 음성 신호의 스트레스 판별 방법 및 그를 위한 장치
Danuwar et al. Nepali Voice-Based Gender Classification Using MFCC and GMM
Nath et al. A study of Spoken Word Recognition using Unsupervised Learning with reference to Assamese Language
Zaidi et al. Name spotting over low signal-to-noise ratio (SNR) using Blind Source Separation and Connectionist Temporal Classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant