CN113793602A - 一种未成年人的音频识别方法和系统 - Google Patents

一种未成年人的音频识别方法和系统 Download PDF

Info

Publication number
CN113793602A
CN113793602A CN202110984799.2A CN202110984799A CN113793602A CN 113793602 A CN113793602 A CN 113793602A CN 202110984799 A CN202110984799 A CN 202110984799A CN 113793602 A CN113793602 A CN 113793602A
Authority
CN
China
Prior art keywords
audio
layer
data
module
cnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110984799.2A
Other languages
English (en)
Other versions
CN113793602B (zh
Inventor
简杨沃
唐会军
刘拴林
梁堃
陈建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nextdata Times Technology Co ltd
Original Assignee
Beijing Nextdata Times Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nextdata Times Technology Co ltd filed Critical Beijing Nextdata Times Technology Co ltd
Priority to CN202110984799.2A priority Critical patent/CN113793602B/zh
Publication of CN113793602A publication Critical patent/CN113793602A/zh
Application granted granted Critical
Publication of CN113793602B publication Critical patent/CN113793602B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种未成年人的音频识别方法和系统,涉及人工智能领域。该方法包括:对待识别音频片段进行预处理,获得频谱数据,通过fbank算法对所述频谱数据转换成多维数组数据,将所述多维数组数据输入第一CNN模型提取音频特征数据,提取所述音频特征数据中的高维音频数据,通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别,可以有效识别出未成人音频和通过第二CNN模型的深度可分离卷积模块进行高维音频数据识别大大提升未成年人识别的准确率,识别精度高可以快速应用到相关领域。

Description

一种未成年人的音频识别方法和系统
技术领域
本发明涉及人工智能领域,尤其涉及一种未成年人的音频识别方法和系统。
背景技术
随着互联网的快速发展以及智能手机、数码相机等设备大规模普及,互联网上的多媒体数据成指数式增长,极大丰富了人们的娱乐方式。图片,语音,短视频也成为了人们的重要交流手段。随之而来的是未成年人对网络的沉迷成为了近几年社会高度关注的焦点问题。因此如何有效识别未成年人成为了监管未成年人上网的重要技术手段。现有基于音频的主流算法是通过提取音频特征做音频识别。此类算法的缺点之一是需要大量的人工标注未成年人数据,在目前的公司数据不共享和信息安全保护的环境下是难以获取的。另外,未成年人的生理发展因人而异,采集出来的音频在不同年龄段的声音存在明显差异,现有的技术方案无法准确有效识别未成年人音频。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种未成年人的音频识别方法和系统。
本发明解决上述技术问题的技术方案如下:
一种未成年人的音频识别方法,包括:
S1,对待识别音频片段进行预处理,获得频谱数据;
S2,通过fbank算法对所述频谱数据转换成多维数组数据;
S3,将所述多维数组数据输入第一CNN模型提取音频特征数据;
S4,提取所述音频特征数据中的高维音频数据;
S5,通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别,并输出识别结果。
本发明的有益效果是:本方案通过预处理获得频谱数据,再将频谱数据转换成多维数组数据,有通过第一CNN模型提取音频特征数据,再提取音频特征数据中的高维音频数据,通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别,可以有效识别出未成人音频和通过第二 CNN模型的深度可分离卷积模块进行高维音频数据识别大大提升未成年人识别的准确率,识别精度高可以快速应用到相关领域。
进一步地,所述S1具体包括:
通过预处理算法对待识别音频片段进行加重,分帧和加窗,再通过傅里叶变换将时序特征转换,获得所述频谱数据。
进一步地,所述第一CNN模型包括:多个CNN模块;
所述S3之前还包括:将多个CNN模块分别进行直接连接和跳跃连接,获得连接后的多个CNN模块,则完成所述第一CNN模型的构建;
所述S4具体包括:通过连接后的多个CNN模块将所述音频特征数据的多个位置的低维特征和声学特征提取出所述高维音频数据。
采用上述进一步方案的有益效果是:本方案通过直接连接从上层的模块提取的特征直接输入到下层的模块上,进一步捕获音频的特征;通过跳跃连接关注更早的特征,捕获上下文相关信息。
进一步地,所述S5之前还包括:
将所述第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块,完成所述第二CNN模型的构建;
所述CNN模块包括:卷积层、归一化层、激活层和池化层;所述卷积层、所述归一化层、所述激活层和所述池化层依次连接;
所述深度可分离卷积模块包括:逐通道卷积层、两个归一化层、两个激活层和逐点卷积层;逐通道卷积层、一个所述归一化层、一个所述激活层、逐点卷积层、一个所述归一化层和一个所述激活层依次连接。
采用上述进一步方案的有益效果是:本方案通过深度可分离卷积模块,进一步提取到音频的多个上下文相关信息和更加丰富的声学特征和场景信息,最终提升了未成年人识别的准确率。
进一步地,所述S5具体包括:
通过所述深度可分离卷积模块进行处理;
将计算结果输入到所述第二CNN模型的全连接层进行分类;
将分类结果通过sigmoid函数计算出所述待识别音频片段属于所述未成年人的概率。
采用上述进一步方案的有益效果是:本方案通过所述深度可分离卷积模块进行处理,将多个CNN将音频的多个位置的低维特征和声学特征提取为更抽象的高维信息,最终使用sigmoid函数将高维信息转化为概率并进行评估,实现有效识别未成年人音频。
本发明解决上述技术问题的另一种技术方案如下:
一种未成年人的音频识别系统,包括:预处理模块、多维转换模块、初步数据提取模块、高维音频数据提取模块和识别模块;
所述预处理模块用于对待识别音频片段进行预处理,获得频谱数据;
所述多维转换模块用于通过fbank算法对所述频谱数据转换成多维数组数据;
所述初步数据提取模块用于将所述多维数组数据输入第一CNN模型提取音频特征数据;
所述高维音频数据提取模块用于提取所述音频特征数据中的高维音频数据;
所述识别模块用于通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别,并输出识别结果。
本发明的有益效果是:本方案通过预处理获得频谱数据,再将频谱数据转换成多维数组数据,有通过第一CNN模型提取音频特征数据,再提取音频特征数据中的高维音频数据,通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别,可以有效识别出未成人音频和通过第二 CNN模型的深度可分离卷积模块进行高维音频数据识别大大提升未成年人识别的准确率,识别精度高可以快速应用到相关领域。
进一步地,所述预处理模块具体用于通过预处理算法对待识别音频片段进行加重,分帧和加窗,再通过傅里叶变换将时序特征转换,获得所述频谱数据。
进一步地,所述第一CNN模型包括:多个CNN模块;
还包括:第一CNN模型构建模块用于将多个CNN模块分别进行直接连接和跳跃连接,获得连接后的多个CNN模块,则完成所述第一CNN模型的构建;
所述高维音频数据提取模块具体用于通过连接后的多个CNN模块将所述音频特征数据的多个位置的低维特征和声学特征提取出所述高维音频数据。
采用上述进一步方案的有益效果是:本方案通过直接连接从上层的模块提取的特征直接输入到下层的模块上,进一步捕获音频的特征;通过跳跃连接关注更早的特征,捕获上下文相关信息。
进一步地,还包括:第二CNN模型构建模块,用于将所述第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块,完成所述第二CNN模型的构建;
所述CNN模块包括:卷积层、归一化层、激活层和池化层;所述卷积层、所述归一化层、所述激活层和所述池化层依次连接;
所述深度可分离卷积模块包括:逐通道卷积层、两个归一化层、两个激活层和逐点卷积层;逐通道卷积层、一个所述归一化层、一个所述激活层、逐点卷积层、一个所述归一化层和一个所述激活层依次连接。
采用上述进一步方案的有益效果是:本方案通过深度可分离卷积模块,进一步提取到音频的多个上下文相关信息和更加丰富的声学特征和场景信息,最终提升了未成年人识别的准确率。
进一步地,所述识别模块具体用于通过所述深度可分离卷积模块进行处理;
将计算结果输入到所述第二CNN模型的全连接层进行分类;
将分类结果通过sigmoid函数计算出所述待识别音频片段属于所述未成年人的概率。
采用上述进一步方案的有益效果是:本方案通过所述深度可分离卷积模块进行处理,将多个CNN将音频的多个位置的低维特征和声学特征提取为更抽象的高维信息,最终使用sigmoid函数将高维信息转化为概率并进行评估,实现有效识别未成年人音频。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明的实施例提供的一种未成年人的音频识别方法的流程示意图;
图2为本发明的实施例提供的一种未成年人的音频识别系统的结构框架图;
图3为本发明的其他实施例提供的多个CNN模块的直接连接和分别连接的示意图;
图4为本发明的其他实施例提供的一个CNN模块的结构示意图;
图5为本发明的其他实施例提供的一个深度可分离卷积模块的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明实施例提供的一种未成年人的音频识别方法,包括:
S1,对待识别音频片段进行预处理,获得频谱数据;
在某一实施例中,可以包括:通过预处理算法对待识别音频进行加重、分帧和加窗处理,计算出一个音频片段的频谱图,在通过傅里叶变换将频谱图的时序特征转换成频谱特征。即频谱数据。
S2,通过fbank算法对频谱数据转换成多维数组数据;
在某一实施例中,可以包括:通过fbank算法将频谱特征转换成高维的计算机能处理的多维数组数据特征。
S3,将多维数组数据输入第一CNN模型提取音频特征数据;
S4,提取音频特征数据中的高维音频数据;
在某一实施例中,可以包括:通过分别进行直接连接和跳跃连接的多个 CNN模块,提取多个位置上的低维特征和声学特征,进一步提取更抽象的高维音频特征。
在某一实施例中,构建第一CNN模型可以包括:将多个CNN模块分别进行直接连接和跳跃连接,获得连接后的多个CNN模块,则完成第一CNN 模型的构建;
在某一实施例中,如图3所示,多个CNN模块都进行直接连接和跳跃连接。直接连接表示从上层的模块提取的特征直接输入到下层的模块上,进一步捕获音频的特征;而跳跃连接表示关注更早的特征,捕获上下文相关信息。多个CNN模块的直接连接和跳跃连接在建立第一CNN模型的时候就建立好连接,在后续的多次识别都不需要再连接操作。
在某一实施例中,第一CNN模型包括多个CNN模块分别进行直接连接和跳跃连接。每个CNN模块,如图4所示,包括卷积层,归一化层,激活层和池化层。所述卷积层、所述归一化层、所述激活层和所述池化层依次连接;从卷积层输入,池化层输出。
S5,通过第二CNN模型的深度可分离卷积模块对高维音频数据进行深度识别,并输出识别结果。
在某一实施例中,通过深度可分离卷积模块进一步提取到音频的多个上下文相关信息和更加丰富的声学特征和场景信息,再将提取的信息输入到全连接层,接着通过sigmoid函数得到每条音频属于未成年人的概率。音频概率越接近1,说明音频属于未成年人,反之亦然。
在某一实施例中,上下文信息可以是一段音频的连续所有相关的音频特征,包括:声学特征和场景信息。而高维音频数据特征可以是声学特征和场景信息的更抽象的表征。
在某一实施例中,还包括:将第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块,完成第二CNN模型的构建;其中一个深度可分离卷积模块,如图5所示,可以包括:逐通道卷积层、归一化层、激活层、逐点卷积层、归一化层和激活层。
在某一实施例中,多个CNN模块进行直接连接和跳跃连接,通过多个CNN将音频的多个位置的低维特征和声学特征提取为更抽象的高维信息,最终使用sigmoid函数将高维信息转化为概率并进行评估。
本方案通过预处理获得频谱数据,再将频谱数据转换成多维数组数据,有通过第一CNN模型提取音频特征数据,再提取音频特征数据中的高维音频数据,通过第二CNN模型的深度可分离卷积模块对高维音频数据进行深度识别,可以有效识别出未成人音频和通过第二CNN模型的深度可分离卷积模块进行高维音频数据识别大大提升未成年人识别的准确率,识别精度高可以快速应用到相关领域。
优选地,在上述任意实施例中,S1具体包括:
通过预处理算法对待识别音频片段进行加重,分帧和加窗,再通过傅里叶变换将时序特征转换,获得频谱数据。
在某一实施例中,需要说明的是,通过音频预处理算法对待识别音频进行加重、分帧和加窗处理,计算出一个音频片段的频谱图,在通过傅里叶变换将频谱图的时序特征转换成频谱特征。即频谱数据。其中,音频预处理算法可以是现有可以实现加重、分帧和加窗等处理的算法,可根据实际应用选择,不做具体限制。
优选地,在上述任意实施例中,第一CNN模型包括:多个CNN模块;
S3之前还包括:将多个CNN模块分别进行直接连接和跳跃连接,获得连接后的多个CNN模块,则完成第一CNN模型的构建;
S4具体包括:通过连接后的多个CNN模块将音频特征数据的多个位置的低维特征和声学特征提取出高维音频数据。其中,高维音频数据特征可以是声学特征和场景信息的更抽象的表征。
本方案通过直接连接从上层的模块提取的特征直接输入到下层的模块上,进一步捕获音频的特征;通过跳跃连接关注更早的特征,捕获上下文相关信息。
优选地,在上述任意实施例中,所述S5之前还包括:
将第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块,完成第二CNN模型的构建;
CNN模块包括:卷积层、归一化层、激活层和池化层;所述卷积层、所述归一化层、所述激活层和所述池化层依次连接;
深度可分离卷积模块包括:逐通道卷积层、两个归一化层、两个激活层和逐点卷积层;逐通道卷积层、一个所述归一化层、一个所述激活层、逐点卷积层、一个所述归一化层和一个所述激活层依次连接。
在某一实施例中,一个深度可分离卷积模块,如图5所示,可以包括:逐通道卷积层、归一化层、激活层、逐点卷积层、归一化层和激活层。
本方案通过深度可分离卷积模块,进一步提取到音频的多个上下文相关信息和更加丰富的声学特征和场景信息,最终提升了未成年人识别的准确率。
优选地,在上述任意实施例中,S5具体包括:
通过深度可分离卷积模块进行处理;
将计算结果输入到第二CNN模型的全连接层进行分类;
将分类结果通过sigmoid函数计算出待识别音频片段属于未成年人的概率。
在某一实施例中,音频概率越接近1,则说明该音频属于未成年人,反之则说明该音频不属于未成年人。
本方案通过深度可分离卷积模块进行处理,将多个CNN将音频的多个位置的低维特征和声学特征提取为更抽象的高维信息,最终使用sigmoid函数将高维信息转化为概率并进行评估,实现有效识别未成年人音频。
在某一实施例中,如图2所示,一种未成年人的音频识别系统,包括:预处理模块1001、多维转换模块1002、初步数据提取模块1003、高维音频数据提取模块1004和识别模块1005;
预处理模块1001用于对待识别音频片段进行预处理,获得频谱数据;
在某一实施例中,可以包括:通过预处理算法对待识别音频进行加重、分帧和加窗处理,计算出一个音频片段的频谱图,在通过傅里叶变换将频谱图的时序特征转换成频谱特征。即频谱数据。
多维转换模块1002用于通过fbank算法对频谱数据转换成多维数组数据;
在某一实施例中,可以包括:通过fbank算法将频谱特征转换成高维的计算机能处理的多维数组数据特征。
初步数据提取模块1003用于将多维数组数据输入第一CNN模型提取音频特征数据;
高维音频数据提取模块1004用于提取音频特征数据中的高维音频数据;
在某一实施例中,可以包括:通过分别进行直接连接和跳跃连接的多个 CNN模块,提取多个位置上的低维特征和声学特征,进一步提取更抽象的高维音频特征。
在某一实施例中,构建第一CNN模型可以包括:将多个CNN模块分别进行直接连接和跳跃连接,获得连接后的多个CNN模块,则完成第一CNN 模型的构建;
在某一实施例中,如图3所示,多个CNN模块都进行直接连接和跳跃连接。直接连接表示从上层的模块提取的特征直接输入到下层的模块上,进一步捕获音频的特征;而跳跃连接表示关注更早的特征,捕获上下文相关信息。多个CNN模块的直接连接和跳跃连接在建立第一CNN模型的时候就建立好连接,在后续的多次识别都不需要再连接操作。
在某一实施例中,第一CNN模型包括多个CNN模块分别进行直接连接和跳跃连接。每个CNN模块,如图4所示,包括卷积层,归一化层,激活层和池化层。
识别模块1005用于通过第二CNN模型的深度可分离卷积模块对高维音频数据进行深度识别,并输出识别结果。
在某一实施例中,通过深度可分离卷积模块进一步提取到音频的多个上下文相关信息和更加丰富的声学特征和场景信息,再将提取的信息输入到全连接层,接着通过sigmoid函数得到每条音频属于未成年人的概率。音频概率越接近1,说明音频属于未成年人,反之亦然。
在某一实施例中,上下文信息可以是一段音频的连续所有相关的音频特征,包括:声学特征和场景信息。而高维音频数据特征可以是声学特征和场景信息的更抽象的表征。
在某一实施例中,还包括:将第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块,完成第二CNN模型的构建;其中一个深度可分离卷积模块,如图5所示,可以包括:逐通道卷积层、归一化层、激活层、逐点卷积层、归一化层和激活层。
在某一实施例中,多个CNN模块进行直接连接和跳跃连接,通过多个 CNN将音频的多个位置的低维特征和声学特征提取为更抽象的高维信息,最终使用sigmoid函数将高维信息转化为概率并进行评估。
本方案通过预处理获得频谱数据,再将频谱数据转换成多维数组数据,有通过第一CNN模型提取音频特征数据,再提取音频特征数据中的高维音频数据,通过第二CNN模型的深度可分离卷积模块对高维音频数据进行深度识别,可以有效识别出未成人音频和通过第二CNN模型的深度可分离卷积模块进行高维音频数据识别大大提升未成年人识别的准确率,识别精度高可以快速应用到相关领域。
优选地,在上述任意实施例中,预处理模块1001具体用于通过预处理算法对待识别音频片段进行加重,分帧和加窗,再通过傅里叶变换将时序特征转换,获得频谱数据。
在某一实施例中,需要说明的是,通过音频预处理算法对待识别音频进行加重、分帧和加窗处理,计算出一个音频片段的频谱图,在通过傅里叶变换将频谱图的时序特征转换成频谱特征。即频谱数据。其中,音频预处理算法可以是现有可以实现加重、分帧和加窗等处理的算法,可根据实际应用选择,不做具体限制。
优选地,在上述任意实施例中,第一CNN模型包括:多个CNN模块;
还包括:第一CNN模型构建模块用于将多个CNN模块分别进行直接连接和跳跃连接,获得连接后的多个CNN模块,则完成第一CNN模型的构建;
高维音频数据提取模块具体用于通过连接后的多个CNN模块将音频特征数据的多个位置的低维特征和声学特征提取出高维音频数据。其中,高维音频数据特征可以是声学特征和场景信息的更抽象的表征。
本方案通过直接连接从上层的模块提取的特征直接输入到下层的模块上,进一步捕获音频的特征;通过跳跃连接关注更早的特征,捕获上下文相关信息。
优选地,在上述任意实施例中,还包括:第二CNN模型构建模块,用于将第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块,完成第二CNN模型的构建;
CNN模块包括:卷积层、归一化层、激活层和池化层;所述卷积层、所述归一化层、所述激活层和所述池化层依次连接;
深度可分离卷积模块包括:逐通道卷积层、两个归一化层、两个激活层和逐点卷积层;逐通道卷积层、一个所述归一化层、一个所述激活层、逐点卷积层、一个所述归一化层和一个所述激活层依次连接。
在某一实施例中,一个深度可分离卷积模块,如图5所示,可以包括:逐通道卷积层、归一化层、激活层、逐点卷积层、归一化层和激活层。
本方案通过深度可分离卷积模块,进一步提取到音频的多个上下文相关信息和更加丰富的声学特征和场景信息,最终提升了未成年人识别的准确率。
优选地,在上述任意实施例中,识别模块1005具体用于通过深度可分离卷积模块进行处理;
将计算结果输入到第二CNN模型的全连接层进行分类;
将分类结果通过sigmoid函数计算出待识别音频片段属于未成年人的概率。
在某一实施例中,音频概率越接近1,则说明该音频属于未成年人,反之则说明该音频不属于未成年人。
本方案通过深度可分离卷积模块进行处理,将多个CNN将音频的多个位置的低维特征和声学特征提取为更抽象的高维信息,最终使用sigmoid函数将高维信息转化为概率并进行评估,实现有效识别未成年人音频。
可以理解,在一些实施例中,可以包含如上述各实施例中的部分或全部可选实施方式。
需要说明的是,上述各实施例是与在先方法实施例对应的产品实施例,对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明,在此不再赘述。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种未成年人的音频识别方法,其特征在于,包括:
S1,对待识别音频片段进行预处理,获得频谱数据;
S2,通过fbank算法对所述频谱数据转换成多维数组数据;
S3,将所述多维数组数据输入第一CNN模型提取音频特征数据;
S4,提取所述音频特征数据中的高维音频数据;
S5,通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别,并输出识别结果。
2.根据权利要求1所述的一种未成年人的音频识别方法,其特征在于,所述S1具体包括:
通过预处理算法对待识别音频片段进行加重,分帧和加窗,再通过傅里叶变换将时序特征转换,获得所述频谱数据。
3.根据权利要求1或2所述的一种未成年人的音频识别方法,其特征在于,所述第一CNN模型包括:多个CNN模块;
所述S3之前还包括:将多个CNN模块分别进行直接连接和跳跃连接,获得连接后的多个CNN模块,则完成所述第一CNN模型的构建;
所述S4具体包括:通过连接后的多个CNN模块将所述音频特征数据的多个位置的低维特征和声学特征提取出所述高维音频数据。
4.根据权利要求3所述的一种未成年人的音频识别方法,其特征在于,所述S5之前还包括:
将所述第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块,完成所述第二CNN模型的构建;
所述CNN模块包括:卷积层、归一化层、激活层和池化层;所述卷积层、所述归一化层、所述激活层和所述池化层依次连接;
所述深度可分离卷积模块包括:逐通道卷积层、两个归一化层、两个激活层和逐点卷积层;逐通道卷积层、一个所述归一化层、一个所述激活层、逐点卷积层、一个所述归一化层和一个所述激活层依次连接。
5.根据权利要求1或2所述的一种未成年人的音频识别方法,其特征在于,所述S5具体包括:
通过所述深度可分离卷积模块进行处理;
将计算结果输入到所述第二CNN模型的全连接层进行分类;
将分类结果通过sigmoid函数计算出所述待识别音频片段属于所述未成年人的概率。
6.一种未成年人的音频识别系统,其特征在于,包括:预处理模块、多维转换模块、初步数据提取模块、高维音频数据提取模块和识别模块;
所述预处理模块用于对待识别音频片段进行预处理,获得频谱数据;
所述多维转换模块用于通过fbank算法对所述频谱数据转换成多维数组数据;
所述初步数据提取模块用于将所述多维数组数据输入第一CNN模型提取音频特征数据;
所述高维音频数据提取模块用于提取所述音频特征数据中的高维音频数据;
所述识别模块用于通过第二CNN模型的深度可分离卷积模块对所述高维音频数据进行深度识别,并输出识别结果。
7.根据权利要求6所述的一种未成年人的音频识别系统,其特征在于,所述预处理模块具体用于通过预处理算法对待识别音频片段进行加重,分帧和加窗,再通过傅里叶变换将时序特征转换,获得所述频谱数据。
8.根据权利要求6或7所述的一种未成年人的音频识别系统,其特征在于,所述第一CNN模型包括:多个CNN模块;
还包括:第一CNN模型构建模块用于将多个CNN模块分别进行直接连接和跳跃连接,获得连接后的多个CNN模块,则完成所述第一CNN模型的构建;
所述高维音频数据提取模块具体用于通过连接后的多个CNN模块将所述音频特征数据的多个位置的低维特征和声学特征提取出所述高维音频数据。
9.根据权利要求8所述的一种未成年人的音频识别系统,其特征在于,还包括:第二CNN模型构建模块,用于将所述第一CNN模型的多个CNN模块修改为逐通道卷积和逐点卷积的深度可分离卷积模块,完成所述第二CNN模型的构建;
所述CNN模块包括:卷积层、归一化层、激活层和池化层;所述卷积层、所述归一化层、所述激活层和所述池化层依次连接;
所述深度可分离卷积模块包括:逐通道卷积层、两个归一化层、两个激活层和逐点卷积层;逐通道卷积层、一个所述归一化层、一个所述激活层、逐点卷积层、一个所述归一化层和一个所述激活层依次连接。
10.根据权利要求6或7所述的一种未成年人的音频识别系统,其特征在于,所述识别模块具体用于通过所述深度可分离卷积模块进行处理;
将计算结果输入到所述第二CNN模型的全连接层进行分类;
将分类结果通过sigmoid函数计算出所述待识别音频片段属于所述未成年人的概率。
CN202110984799.2A 2021-08-24 2021-08-24 一种未成年人的音频识别方法和系统 Active CN113793602B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110984799.2A CN113793602B (zh) 2021-08-24 2021-08-24 一种未成年人的音频识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110984799.2A CN113793602B (zh) 2021-08-24 2021-08-24 一种未成年人的音频识别方法和系统

Publications (2)

Publication Number Publication Date
CN113793602A true CN113793602A (zh) 2021-12-14
CN113793602B CN113793602B (zh) 2022-05-10

Family

ID=78876545

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110984799.2A Active CN113793602B (zh) 2021-08-24 2021-08-24 一种未成年人的音频识别方法和系统

Country Status (1)

Country Link
CN (1) CN113793602B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140288928A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition
CN105702250A (zh) * 2016-01-06 2016-06-22 福建天晴数码有限公司 语音识别方法和装置
CN106878677A (zh) * 2017-01-23 2017-06-20 西安电子科技大学 基于多传感器的学生课堂掌握程度评估系统和方法
US20180277097A1 (en) * 2017-03-21 2018-09-27 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for extracting acoustic feature based on convolution neural network and terminal device
CN109448719A (zh) * 2018-12-11 2019-03-08 网易(杭州)网络有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN110335626A (zh) * 2019-07-09 2019-10-15 北京字节跳动网络技术有限公司 基于音频的年龄识别方法及装置、存储介质
CN110728991A (zh) * 2019-09-06 2020-01-24 南京工程学院 一种改进的录音设备识别算法
WO2020045732A1 (ko) * 2018-08-27 2020-03-05 엘지전자 주식회사 이동 로봇의 제어 방법
US20200162491A1 (en) * 2018-11-20 2020-05-21 Easy Solutions Enterprises Corp. Classification of Transport Layer Security Certificates using Artificial Neural Networks
US20210019593A1 (en) * 2019-07-19 2021-01-21 Qualcomm Incorporated Efficient inferencing with piecewise pointwise convolution
CN112559797A (zh) * 2020-12-22 2021-03-26 湖南大学 一种基于深度学习的音频多标签分类方法
CN113196385A (zh) * 2018-12-28 2021-07-30 阿里巴巴集团控股有限公司 音频信号处理
CN113205803A (zh) * 2021-04-22 2021-08-03 上海顺久电子科技有限公司 一种具有自适应降噪能力的语音识别方法及装置

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140288928A1 (en) * 2013-03-25 2014-09-25 Gerald Bradley PENN System and method for applying a convolutional neural network to speech recognition
CN105702250A (zh) * 2016-01-06 2016-06-22 福建天晴数码有限公司 语音识别方法和装置
CN106878677A (zh) * 2017-01-23 2017-06-20 西安电子科技大学 基于多传感器的学生课堂掌握程度评估系统和方法
US20180277097A1 (en) * 2017-03-21 2018-09-27 Baidu Online Network Technology (Beijing) Co., Ltd. Method and device for extracting acoustic feature based on convolution neural network and terminal device
WO2020045732A1 (ko) * 2018-08-27 2020-03-05 엘지전자 주식회사 이동 로봇의 제어 방법
US20200162491A1 (en) * 2018-11-20 2020-05-21 Easy Solutions Enterprises Corp. Classification of Transport Layer Security Certificates using Artificial Neural Networks
CN109448719A (zh) * 2018-12-11 2019-03-08 网易(杭州)网络有限公司 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN113196385A (zh) * 2018-12-28 2021-07-30 阿里巴巴集团控股有限公司 音频信号处理
CN110335626A (zh) * 2019-07-09 2019-10-15 北京字节跳动网络技术有限公司 基于音频的年龄识别方法及装置、存储介质
US20210019593A1 (en) * 2019-07-19 2021-01-21 Qualcomm Incorporated Efficient inferencing with piecewise pointwise convolution
CN110728991A (zh) * 2019-09-06 2020-01-24 南京工程学院 一种改进的录音设备识别算法
CN112559797A (zh) * 2020-12-22 2021-03-26 湖南大学 一种基于深度学习的音频多标签分类方法
CN113205803A (zh) * 2021-04-22 2021-08-03 上海顺久电子科技有限公司 一种具有自适应降噪能力的语音识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
洪奇峰等: "深度卷积神经网络模型发展综述", 《软件导刊》 *

Also Published As

Publication number Publication date
CN113793602B (zh) 2022-05-10

Similar Documents

Publication Publication Date Title
Yang et al. Unsupervised extraction of video highlights via robust recurrent auto-encoders
CN110839173A (zh) 一种音乐匹配方法、装置、终端及存储介质
Su et al. Environmental sound classification for scene recognition using local discriminant bases and HMM
CN113709384A (zh) 基于深度学习的视频剪辑方法、相关设备及存储介质
CN109993025B (zh) 一种关键帧提取方法及设备
EP4198807A1 (en) Audio processing method and device
CN113395578A (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
WO2020135756A1 (zh) 视频段的提取方法、装置、设备及计算机可读存储介质
CN111488813B (zh) 视频的情感标注方法、装置、电子设备及存储介质
Wang et al. Exploring multimodal video representation for action recognition
CN109241315B (zh) 一种基于深度学习的快速人脸检索方法
JP7014072B2 (ja) 特徴量生成方法、特徴量生成装置、及び特徴量生成プログラム
CN113793602B (zh) 一种未成年人的音频识别方法和系统
CN114510564A (zh) 视频知识图谱生成方法及装置
Erol et al. YouTube video categorization using moviebarcode
CN116883900A (zh) 一种基于多维生物特征的视频真伪鉴别方法和系统
CN115170942B (zh) 一种声音与视觉多级融合的鱼类行为识别方法
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
Badr et al. Speech Emotion Recognition using MFCC and Hybrid Neural Networks.
Upadhyay et al. Mood based music playlist generator using convolutional neural network
CN111356022A (zh) 一种基于语音识别的视频文件处理方法
CN112905811A (zh) 一种基于学生课堂行为分析的教学音视频推送方法及系统
CN116821381B (zh) 一种基于空间线索的语音-图像跨模态检索方法及装置
Saber et al. DeepFake Video Detection
CN109190556B (zh) 一种公证意愿真实性鉴别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant