CN112259122A - 音频类型识别方法、装置及存储介质 - Google Patents

音频类型识别方法、装置及存储介质 Download PDF

Info

Publication number
CN112259122A
CN112259122A CN202011126396.6A CN202011126396A CN112259122A CN 112259122 A CN112259122 A CN 112259122A CN 202011126396 A CN202011126396 A CN 202011126396A CN 112259122 A CN112259122 A CN 112259122A
Authority
CN
China
Prior art keywords
target
network
audio data
audio
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011126396.6A
Other languages
English (en)
Inventor
李吉祥
张勃
梁楚明
王昭
相非
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202011126396.6A priority Critical patent/CN112259122A/zh
Publication of CN112259122A publication Critical patent/CN112259122A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种音频类型识别方法、装置及存储介质,所述方法包括:获取待识别的音频数据;将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息;其中,所述目标音频类型识别模型由基于训练得到的超网络生成,所述超网络中属于同一层网络的多个子结构具有不同尺寸的卷积核。上述技术方案可以基于训练得到的超网络确定精度更高的网络结构作为目标音频类型识别模型。由此,可以将待识别的音频数据作为输入,通过所述目标音频类型识别模型确定所述音频数据的类型信息,从而起到提升音频分类精度的效果。

Description

音频类型识别方法、装置及存储介质
技术领域
本公开涉及信息处理领域,尤其涉及音频类型识别方法、装置及存储介质。
背景技术
目前,深度学习技术在声音场景识别领域中的应用越来越广泛,基于深度学习技术的声音场景识别方案也能够实现较高的识别精度。例如,在相关技术中,可以基于3×3的卷积算子来对输入至网络中的音频数据进行特征提取,从而根据提取到的特征对音频数据进行检测和识别。
一般来说,深度学习的网络结构能够对整体方案产生较大的影响。例如,不合理的网络结构可能导致网络输出结果精度较低、网络训练困难等问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种音频类型识别方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种音频类型识别方法,包括:
获取待识别的音频数据;
将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息;
其中,所述目标音频类型识别模型由基于训练得到的超网络生成,所述超网络中属于同一层网络的多个子结构具有不同尺寸的卷积核。
可选地,所述超网络包括时域特征提取层以及频域特征提取层,所述时域特征提取层的多个子结构具有尺寸为1×K的卷积核,所述频域特征提取层的多个子结构具有尺寸为K×1的卷积核;
其中,K为正整数,针对所述时域特征提取层的多个子结构中的每一子结构;或频域特征提取层的多个子结构中的每一子结构,K的取值不同。
可选地,所述超网络通过如下方式训练得到:
针对每一批训练音频数据,从超网络的每一层网络中随机确定多个目标子结构;
基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个子模型;
通过当前批训练音频数据对每一所述子模型进行训练;
根据训练得到的子模型中各目标子结构的参数信息对所述超网络中与所述训练得到的子模型中的各目标子结构相对应的子结构的参数信息进行更新,直至所述超网络收敛。
可选地,所述目标音频类型识别模型通过如下方式生成:
从所述训练得到的超网络的每一层网络中随机确定多个目标子结构;
基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个候选子模型;
通过测试音频数据集确定每一所述候选子模型的音频类型分类准确度;
将音频类型分类准确度大于阈值的目标候选子模型作为所述目标音频类型识别模型。
可选地,所述方法还包括:
获取训练音频数据;
将所述训练音频数据输入至所述目标候选子模型,以对该目标候选子模型进行训练,直至该目标候选子模型收敛;
所述将音频类型分类准确度大于阈值的目标候选子模型作为所述目标音频类型识别模型,包括:
将训练得到的所述目标候选子模型作为所述目标音频类型识别模型。
根据本公开实施例的第二方面,提供一种音频类型识别装置,包括:
第一获取模块,被配置为获取待识别的音频数据;
第一输入模块,被配置为将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息;
其中,所述目标音频类型识别模型由基于训练得到的超网络生成,所述超网络中属于同一层网络的多个子结构具有不同尺寸的卷积核。
可选地,所述超网络包括时域特征提取层以及频域特征提取层,所述时域特征提取层的多个子结构具有尺寸为1×K的卷积核,所述频域特征提取层的多个子结构具有尺寸为K×1的卷积核;
其中,K为正整数,针对所述时域特征提取层的多个子结构中的每一子结构;或频域特征提取层的多个子结构中的每一子结构,K的取值不同。
可选地,所述装置还包括:
训练模块,被配置为训练得到所述超网络,所述训练模块包括:
第一确定子模块,被配置为针对每一批训练音频数据,从超网络的每一层网络中随机确定多个目标子结构;
第一构建子模块,被配置为基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个子模型;
训练子模块,被配置为通过当前批训练音频数据对每一所述子模型进行训练;
更新子模块,被配置为根据训练得到的子模型中各目标子结构的参数信息对所述超网络中与所述训练得到的子模型中的各目标子结构相对应的子结构的参数信息进行更新,直至所述超网络收敛。
可选地,所述装置还包括:
执行模块,用于确定所述目标音频类型识别模型,所述执行模块包括:
第二确定子模块,被配置为从所述训练得到的超网络的每一层网络中随机确定多个目标子结构;
第二构建子模块,被配置为基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个候选子模型;
第三确定子模块,被配置为通过测试音频数据集确定每一所述候选子模型的音频类型分类准确度;
执行子模块,被配置为将音频类型分类准确度大于阈值的目标候选子模型作为所述目标音频类型识别模型。
可选地,所述装置还包括:
第二获取模块,被配置为获取训练音频数据;
第二输入模块,被配置为将所述训练音频数据输入至所述目标候选子模型,以对该目标候选子模型进行训练,直至该目标候选子模型收敛;
所述执行子模块,包括:
执行子单元,被配置为将训练得到的所述目标候选子模型作为所述目标音频类型识别模型。
根据本公开实施例的第三方面,提供一种音频类型识别装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待识别的音频数据;
将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息;
其中,所述目标音频类型识别模型由基于训练得到的超网络生成,所述超网络中属于同一层网络的多个子结构具有不同尺寸的卷积核。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现上述第一方面中任一项所述方法的步骤。
本公开的实施例提供的技术方案至少可以包括以下有益效果:
通过在超网络中的每一层中的各个子结构中设置不同尺寸的卷积核,在为所述超网络进行训练时所述超网络中的各个子结构也能够得到训练。这样,可以基于训练得到的超网络确定精度更高的网络结构作为目标音频类型识别模型。由此,可以将待识别的音频数据作为输入,通过所述目标音频类型识别模型确定所述音频数据的类型信息,从而起到提升音频分类精度的效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种音频识别模型的示意图。
图2是根据一示例性实施例示出的一种音频类型识别方法的流程图。
图3是根据一示例性实施例示出的一种超网络的结构示意图。
图4是根据一示例性实施例示出的一种超网络的训练流程图。
图5是根据一示例性实施例示出的一种超网络的结构示意图。
图6是根据一示例性实施例示出的一种子模型的示意图。
图7是根据一示例性实施例示出的一种目标音频类型识别模型的生成流程的示意图。
图8是根据一示例性实施例示出的一种音频类型识别装置的框图。
图9是根据一示例性实施例示出的一种音频类型识别装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开的音频类型识别方法、装置及存储介质之前,首先对本公开所提供的各实施例的应用场景进行介绍。本公开所提供的各实施例可以用于音频识别场景,以确定待识别的音频数据所对应的类型,这些类型例如可以是车鸣声、脚步声、人声等等。
相关场景中,可以通过基于深度神经网络的音频识别模型来对音频类型进行识别。图1是本公开一示例性实施例所示出的一种音频识别模型的示意图,所述音频识别模型包括M层网络(M为正整数),每一层网络中可以包括一个卷积算子。其中,所述卷积算子可以包括例如3×3、5×5等正方形尺寸的卷积核(图1中以卷积核尺寸为3×3示意),用于提取输入至该卷积算子的音频数据的时域特征以及频域特征,以便于对输入的音频信号进行类型识别。
一般来说,卷积核尺寸由相关人员基于经验来人工设计,因此可能出现所设计的对应尺寸的卷积核的特征提取效率较低的情况。
为此,本公开提供一种音频类型识别方法,参照图2所示出的一种音频类型识别方法的流程图,所述方法包括:
在S21中,获取待识别的音频数据;
在S22中,将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息。
示例地,所述方法例如可以应用于音频类型识别装置,所述音频类型识别装置例如可以提供为一音频类型识别服务器。这样,所述音频类型识别服务器可以响应于终端设备的音频类型识别请求,获取待识别的音频数据,并通过将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息。之后,所述音频类型识别服务器还可以将所述音频数据的类型信息发送至所述终端设备,从而完成对所述待识别的音频数据的类型识别。
针对所述目标音频类型识别模型,所述目标音频类型识别模型可以基于训练得到的超网络生成,在所述超网络中,属于同一层网络的多个子结构具有不同尺寸的卷积核。
举例来讲,参照图3所示出的一种超网络的结构示意图,所述超网络例如可以包括M层,每一层包括N个子结构。其中,每一所述子结构例如可以包括一个卷积算子,属于同一层的不同子结构所包括的卷积算子的卷积核尺寸不同。以图3所示的超网络的第一层为例,子结构1例如可以包括尺寸为3×1的卷积核,子结构2例如可以包括尺寸为3×3的卷积核,子结构3例如可以包括尺寸为3×5的卷积核,子结构N可以包括尺寸为3×(N-1)的卷积核。当然,在一些实施例中,在所述超网络中属于同一层网络的多个子结构还可以具有不同的通道膨胀率,例如3、6等等。
这样,通过在超网络中的每一层中的各个子结构中设置不同尺寸的卷积核,在为所述超网络进行训练时所述超网络中的各个子结构也能够得到训练,从而提升网络架构的搜索速度。具体来讲,参照图4所示出的一种超网络的训练流程图,所述超网络可以通过如下方式训练得到:
在S41中,针对每一批训练音频数据,从超网络的每一层网络中随机确定多个目标子结构。
具体的,在一些实施例中,可以从超网络中的每一层中随机选择阈值数量的子结构作为目标子结构,如3个、5个等等。在另一些实施例中,也可以选择超网络中的每一层网络中的所有子结构作为目标子结构。例如,参照图5所示出的一种超网络的结构示意图,所述超网络包括3层,每一层均包括4个子结构。则上述步骤S41可以是指,针对所述超网络中的每一层,将该层网络中的子结构1至子结构4全部选取,得到对应的目标子结构1至目标子结构4。
在S42中,基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个子模型。
沿用上述例子,在从所述超网络中的每一层中确定出目标子结构1至目标子结构4之后,可以根据目标子结构的层级关系,将各层级的目标子结构进行组合,得到多个子模型。以图5为例进行说明,可以从每一层网络中的4个目标子结构中随机选择一个目标子结构(图中以从第1层中选择子结构1,第2层中选择子结构2,第三层中选择子结构1示意),并按照层级关系将每层中所选择的目标子结构依次相连,得到如图6(一种子模型的示意图)所示的子模型1。
进一步的,可以从每一层网络中的未被选择的3个目标子结构中随机选择一个目标子结构,并按照层级关系将每层中所选择的目标子结构依次相连,得到如图6所示的子模型2。类似的,可以基于所述超网络确定如图6所示的子模型3以及子模型4。
值得说明的是,上述实施例中以不重复的随机选择目标子结构的方式对子模型的生成方式进行了说明,但本领域技术人员应当知晓,在具体实施时,所述目标子结构也可以重复选择。此外,所确定的子模型的数量也可以根据需求设置,本公开对此不做限定。
在S43中,通过当前批训练音频数据对每一所述子模型进行训练。
需要说明的是,在基于超网络生成子模型时,每一子结构可以复制所述子结构在所述超网络中的相关参数信息,例如权重、卷积尺寸、卷积步长等等。这样,可以通过所述训练音频数据对每一所述子模型进行训练,从而对该子模型中的各子结构的参数信息(如权重)进行更新。
在S44中,根据训练得到的子模型中各目标子结构的参数信息对所述超网络中与所述训练得到的子模型中的各目标子结构相对应的子结构的参数信息进行更新,直至所述超网络收敛。
根据训练得到的子模型对所述超网络进行更新的过程可以是上述的复制子模型中的子结构在所述超网络中的相关参数信息的这一过程的逆过程。例如,可以基于每一批训练数据训练得到的各子模型中的子结构的权重信息,对所述超网络中对应子结构的权重信息进行更新,从而实现对所述超网络进行间接训练的效果。
由此,可以基于训练得到的超网络确定所述目标音频类型识别模型。
示例地,可以在所述训练得到的超网络的每一层中随机确定一个子结构,并根据层级关系将每一层中确定的子结构依次连接,从而得到候选音频类型识别模型。以图3为例进行说明,若该超网络包括4层(即M为4),其中,第1层确定的为子结构3,第2层确定的为子结构1,第3层确定的子结构为1,第4层确定的为子结构3。那么,可以根据层级关系,将第1至4层分别确定的子结构依次相连,从而得到子结构3—>子结构1—>子结构1—>子结构3的候选音频类型识别模型。当然,在具体实施时,还可以通过上述的方式从超网络中确定出多个候选音频类型识别模型,本公开对此不做限定。
此外,针对从超网络中所确定的候选音频类型识别模型,还可以通过测试音频数据集对所述候选音频类型识别模型的性能进行测试,进而将满足条件的候选音频类型识别模型确定为所述目标音频类型识别模型。例如在一种可能的实施方式中,根据所述候选音频类型识别模型识别所述测试音频数据集所需要的时长,可以将识别时长最短的候选音频类型识别模型作为所述目标音频类型识别模型,从而提升音频类型识别的速度。
上述技术方案中,通过在超网络中的每一层中的各个子结构中设置不同尺寸的卷积核,在为所述超网络进行训练时所述超网络中的各个子结构也能够得到训练。这样,可以基于训练得到的超网络确定识别速度更快的网络结构作为目标音频类型识别模型。由此,可以将待识别的音频数据作为输入,通过所述目标音频类型识别模型确定所述音频数据的类型信息,从而起到提升音频分类速度的效果。
在另一种可能的实施方式中,也可以根据候选音频类型识别模型对所述测试数据的识别结果,确定该候选音频识别模型的识别准确度,将准确度满足阈值的候选音频识别模型作为所述目标音频识别模型。
图7是本公开一示例性实施例所示出的一种目标音频类型识别模型的生成流程的示意图,所述目标音频类型识别模型通过如下方式生成:
S71,从所述训练得到的超网络的每一层网络中随机确定多个目标子结构;
S72,基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个候选子模型;
S73,通过测试音频数据集确定每一所述候选子模型的音频类型分类准确度;
S74,将音频类型分类准确度大于阈值的目标候选子模型作为所述目标音频类型识别模型。
关于步骤S71以及S72,请参照上述关于步骤S41以及S42的实施例说明,为了说明书的简洁,本公开在此不做赘述。
在S73中,针对每一候选子模型,可以将所述测试音频数据集作为该候选子模型的输入,从而得到该候选子模型对所述测试音频数据集中的每一测试音频数据的分类结果。这样,可以根据所述识别结果确定该候选子模型的音频类型分类准确度。
举例来讲,所述测试音频数据集例如可以包括100个测试音频数据,每一所述测试音频数据包括对应该测试音频数据的原始类型标签。这样,可以通过将所述100个测试音频数据输入至候选子模型,得到所述候选子模型输出的所述100个测试音频数据的预测类型标签。进一步的,可以通过将原始类型标签与预测类型标签进行对比,从而确定该候选子模型的音频类型分类准确度。
由此,在S74中,可以通过对比各子模型的音频类型分类准确度,将音频类型分类准确度大于阈值的目标候选子模型作为所述目标音频类型识别模型。当然,在一些可能的实施方式中,也可以将各子模型中音频类型分类准确度最高的目标候选子模型作为所述目标音频类型识别模型,本公开对此不做限定。
上述技术方案中,通过在超网络中的每一层中的各个子结构中设置不同尺寸的卷积核,在为所述超网络进行训练时所述超网络中的各个子结构也能够得到训练。这样,可以基于训练得到的超网络确定音频类型分类准确度较高的网络结构作为目标音频类型识别模型。由此,可以将待识别的音频数据作为输入,通过所述目标音频类型识别模型确定所述音频数据的类型信息,从而起到提升音频类型分类准确度的效果。
在一种可能的实施方式中,在基于训练得到的超网络获得音频类型分类准确度较高的网络结构之后,还可以对获得的子模型进行二次训练,在这种情况下,所述方法还包括:
获取训练音频数据;
将所述训练音频数据输入至所述目标候选子模型,以对该目标候选子模型进行训练,直至该目标候选子模型收敛。
例如,在具体实施时可以重新获取S个训练音频数据(即与超网络训练采用不同的训练数据),其中,每一训练音频数据可以包括对应的音频类型标签。这样,可以将所述S个训练音频数据分批次输入至所述目标候选子模型,得到所述目标候选子模型输出的对应训练音频数据的预测音频类型标签。进一步的,可以通过将训练音频数据的音频类型标签与所述目标候选子模型输出的预测音频类型标签进行对比,从而确定本次训练的损失值,并根据该损失值对所述目标候选子模型进行调整,实现针对该目标候选子模型的训练。进一步的,通过多次训练,可以得到收敛的所述目标候选子模型。
在这种情况下,图7中所示的所述将音频类型分类准确度大于阈值的目标候选子模型作为所述目标音频类型识别模型,包括:
将训练得到的所述目标候选子模型作为所述目标音频类型识别模型。
上述技术方案在基于超网络确定音频类型分类准确度较高的网络结构之后,还对获得的子模型进行了二次训练,从而进一步的提升了所述目标音频类型识别模型的音频类型识别准确度。
针对上述各实施例中所述的超网络中各子结构的卷积核尺寸,在一种可能的实施方式中,所述超网络包括时域特征提取层以及频域特征提取层。所述时域特征提取层的多个子结构具有尺寸为1×K的卷积核,所述频域特征提取层的多个子结构具有尺寸为K×1的卷积核。其中,所述时域特征提取层以及所述频域特征提取层的数量可以为一个或多个,本公开对此不做限定。所述参数K为正整数,针对所述时域特征提取层的多个子结构中的每一子结构;或频域特征提取层的多个子结构中的每一子结构,K的取值不同。
由于音频信号在坐标系中的横坐标与纵坐标的含义通常不同(例如横坐标为时间,纵坐标为幅值等),因此采用诸如正方形的卷积核,即同时提取音频数据的时域特征以及频域特征可能导致模型网络的参数量过多的问题。
而采用上述技术方案,通过设置时域特征提取层以及频域特征提取层,在时域特征提取层中可以通过1×K的卷积核专注提取输入的音频数据的时域特征,在频域特征提取层中可以通过K×1的卷积核专注提取输入的音频数据的频域特征,从而提升了音频数据的特征提取效率,也减少了网络的参数数量。
图8是本公开一示例性实施例所示出的一种音频类型识别装置的框图,如图8所示,所述装置800包括:
第一获取模块801,被配置为获取待识别的音频数据;
第一输入模块802,被配置为将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息;
其中,所述目标音频类型识别模型由基于训练得到的超网络生成,所述超网络中属于同一层网络的多个子结构具有不同尺寸的卷积核。
本公开的实施例提供的技术方案可以包括以下有益效果:
通过在超网络中的每一层中的各个子结构中设置不同尺寸的卷积核,在为所述超网络进行训练时所述超网络中的各个子结构也能够得到训练。这样,可以基于训练得到的超网络确定精度更高的网络结构作为目标音频类型识别模型。由此,可以将待识别的音频数据作为输入,通过所述目标音频类型识别模型确定所述音频数据的类型信息,从而起到提升音频分类精度的效果。
可选地,所述超网络包括时域特征提取层以及频域特征提取层,所述时域特征提取层的多个子结构具有尺寸为1×K的卷积核,所述频域特征提取层的多个子结构具有尺寸为K×1的卷积核;
其中,K为正整数,针对所述时域特征提取层的多个子结构中的每一子结构;或频域特征提取层的多个子结构中的每一子结构,K的取值不同。
采用上述技术方案,通过设置时域特征提取层以及频域特征提取层,在时域特征提取层中可以通过1×K的卷积核专注提取输入的音频数据的时域特征,在频域特征提取层中可以通过K×1的卷积核专注提取输入的音频数据的频域特征,从而提升了音频数据的特征提取效率,也减少了网络的参数数量。
可选地,所述装置800还包括:
训练模块,被配置为训练得到所述超网络,所述训练模块包括:
第一确定子模块,被配置为针对每一批训练音频数据,从超网络的每一层网络中随机确定多个目标子结构;
第一构建子模块,被配置为基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个子模型;
训练子模块,被配置为通过当前批训练音频数据对每一所述子模型进行训练;
更新子模块,被配置为根据训练得到的子模型中各目标子结构的参数信息对所述超网络中与所述训练得到的子模型中的各目标子结构相对应的子结构的参数信息进行更新,直至所述超网络收敛。
可选地,所述装置800还包括:
执行模块,用于确定所述目标音频类型识别模型,所述执行模块包括:
第二确定子模块,被配置为从所述训练得到的超网络的每一层网络中随机确定多个目标子结构;
第二构建子模块,被配置为基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个候选子模型;
第三确定子模块,被配置为通过测试音频数据集确定每一所述候选子模型的音频类型分类准确度;
执行子模块,被配置为将音频类型分类准确度大于阈值的目标候选子模型作为所述目标音频类型识别模型。
可选地,所述装置800还包括:
第二获取模块,被配置为获取训练音频数据;
第二输入模块,被配置为将所述训练音频数据输入至所述目标候选子模型,以对该目标候选子模型进行训练,直至该目标候选子模型收敛;
所述执行子模块,包括:
执行子单元,被配置为将训练得到的所述目标候选子模型作为所述目标音频类型识别模型。
上述技术方案在基于超网络确定音频类型分类准确度较高的网络结构之后,还对获得的子模型进行了二次训练,从而进一步的提升了所述目标音频类型识别模型的音频类型识别准确度。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种音频类型识别装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待识别的音频数据;
将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息;
其中,所述目标音频类型识别模型由基于训练得到的超网络生成,所述超网络中属于同一层网络的多个子结构具有不同尺寸的卷积核。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的音频类型识别方法的步骤。
图9是根据一示例性实施例示出的一种用于上述的音频类型识别的装置900的框图。例如,装置900可以是移动电话,计算机等。
参照图9,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电力组件906,多媒体组件909,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,数据通信和数据记录相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的音频类型识别方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件909和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在装置900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,例如图片、视频、待识别的音频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件906为装置900的各种组件提供电力。电力组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件909包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件909包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:启动按钮、关闭按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到装置900的打开/关闭状态,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi、4G、5G,或它们的组合。在一个示例性实施例中,通信组件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的音频类型识别方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述的音频类型识别方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的音频类型识别方法的代码部分。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (12)

1.一种音频类型识别方法,其特征在于,包括:
获取待识别的音频数据;
将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息;
其中,所述目标音频类型识别模型由基于训练得到的超网络生成,所述超网络中属于同一层网络的多个子结构具有不同尺寸的卷积核。
2.根据权利要求1所述的方法,其特征在于,所述超网络包括时域特征提取层以及频域特征提取层,所述时域特征提取层的多个子结构具有尺寸为1×K的卷积核,所述频域特征提取层的多个子结构具有尺寸为K×1的卷积核;
其中,K为正整数,针对所述时域特征提取层的多个子结构中的每一子结构;或频域特征提取层的多个子结构中的每一子结构,K的取值不同。
3.根据权利要求1所述的方法,其特征在于,所述超网络通过如下方式训练得到:
针对每一批训练音频数据,从超网络的每一层网络中随机确定多个目标子结构;
基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个子模型;
通过当前批训练音频数据对每一所述子模型进行训练;
根据训练得到的子模型中各目标子结构的参数信息对所述超网络中与所述训练得到的子模型中的各目标子结构相对应的子结构的参数信息进行更新,直至所述超网络收敛。
4.根据权利要求1所述的方法,其特征在于,所述目标音频类型识别模型通过如下方式生成:
从所述训练得到的超网络的每一层网络中随机确定多个目标子结构;
基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个候选子模型;
通过测试音频数据集确定每一所述候选子模型的音频类型分类准确度;
将音频类型分类准确度大于阈值的目标候选子模型作为所述目标音频类型识别模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取训练音频数据;
将所述训练音频数据输入至所述目标候选子模型,以对该目标候选子模型进行训练,直至该目标候选子模型收敛;
所述将音频类型分类准确度大于阈值的目标候选子模型作为所述目标音频类型识别模型,包括:
将训练得到的所述目标候选子模型作为所述目标音频类型识别模型。
6.一种音频类型识别装置,其特征在于,包括:
第一获取模块,被配置为获取待识别的音频数据;
第一输入模块,被配置为将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息;
其中,所述目标音频类型识别模型由基于训练得到的超网络生成,所述超网络中属于同一层网络的多个子结构具有不同尺寸的卷积核。
7.根据权利要求6所述的装置,其特征在于,所述超网络包括时域特征提取层以及频域特征提取层,所述时域特征提取层的多个子结构具有尺寸为1×K的卷积核,所述频域特征提取层的多个子结构具有尺寸为K×1的卷积核;
其中,K为正整数,针对所述时域特征提取层的多个子结构中的每一子结构;或频域特征提取层的多个子结构中的每一子结构,K的取值不同。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
训练模块,被配置为训练得到所述超网络,所述训练模块包括:
第一确定子模块,被配置为针对每一批训练音频数据,从超网络的每一层网络中随机确定多个目标子结构;
第一构建子模块,被配置为基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个子模型;
训练子模块,被配置为通过当前批训练音频数据对每一所述子模型进行训练;
更新子模块,被配置为根据训练得到的子模型中各目标子结构的参数信息对所述超网络中与所述训练得到的子模型中的各目标子结构相对应的子结构的参数信息进行更新,直至所述超网络收敛。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
执行模块,用于确定所述目标音频类型识别模型,所述执行模块包括:
第二确定子模块,被配置为从所述训练得到的超网络的每一层网络中随机确定多个目标子结构;
第二构建子模块,被配置为基于每一所述目标子结构以及每一所述目标子结构在所述超网络中所对应的层级信息,构建多个候选子模型;
第三确定子模块,被配置为通过测试音频数据集确定每一所述候选子模型的音频类型分类准确度;
执行子模块,被配置为将音频类型分类准确度大于阈值的目标候选子模型作为所述目标音频类型识别模型。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
第二获取模块,被配置为获取训练音频数据;
第二输入模块,被配置为将所述训练音频数据输入至所述目标候选子模型,以对该目标候选子模型进行训练,直至该目标候选子模型收敛;
所述执行子模块,包括:
执行子单元,被配置为将训练得到的所述目标候选子模型作为所述目标音频类型识别模型。
11.一种音频类型识别装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
获取待识别的音频数据;
将所述音频数据输入至目标音频类型识别模型,得到所述音频数据的类型信息;
其中,所述目标音频类型识别模型由基于训练得到的超网络生成,所述超网络中属于同一层网络的多个子结构具有不同尺寸的卷积核。
12.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1~5中任一项所述方法的步骤。
CN202011126396.6A 2020-10-20 2020-10-20 音频类型识别方法、装置及存储介质 Pending CN112259122A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011126396.6A CN112259122A (zh) 2020-10-20 2020-10-20 音频类型识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011126396.6A CN112259122A (zh) 2020-10-20 2020-10-20 音频类型识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112259122A true CN112259122A (zh) 2021-01-22

Family

ID=74245428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011126396.6A Pending CN112259122A (zh) 2020-10-20 2020-10-20 音频类型识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112259122A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989106A (zh) * 2021-05-18 2021-06-18 北京世纪好未来教育科技有限公司 音频分类方法、电子设备以及存储介质
CN113506581A (zh) * 2021-07-08 2021-10-15 京东科技控股股份有限公司 一种语音增强方法和装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070112551A1 (en) * 2005-11-17 2007-05-17 Fortune Steven J Methods and apparatus for determining equivalence and generalization of a network model
CN109166593A (zh) * 2018-08-17 2019-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN110189769A (zh) * 2019-05-23 2019-08-30 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
CN110533179A (zh) * 2019-07-15 2019-12-03 北京地平线机器人技术研发有限公司 网络结构搜索方法和装置、可读存储介质、电子设备
CN110580914A (zh) * 2019-07-24 2019-12-17 安克创新科技股份有限公司 一种音频处理方法、设备及具有存储功能的装置
CN110782034A (zh) * 2019-10-31 2020-02-11 北京小米智能科技有限公司 神经网络的训练方法、装置及存储介质
CN110929087A (zh) * 2019-10-21 2020-03-27 量子云未来(北京)信息科技有限公司 一种音频分类方法、装置、电子设备及存储介质
CN111445921A (zh) * 2020-03-20 2020-07-24 腾讯科技(深圳)有限公司 音频特征的提取方法、装置、计算机设备及存储介质
CN111582454A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 生成神经网络模型的方法和装置
CN111652354A (zh) * 2020-05-29 2020-09-11 北京百度网讯科技有限公司 用于训练超网络的方法、装置、设备以及存储介质
CN112784730A (zh) * 2021-01-20 2021-05-11 东南大学 一种基于时域卷积网络的多模态情感识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070112551A1 (en) * 2005-11-17 2007-05-17 Fortune Steven J Methods and apparatus for determining equivalence and generalization of a network model
CN109166593A (zh) * 2018-08-17 2019-01-08 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及存储介质
CN110189769A (zh) * 2019-05-23 2019-08-30 复钧智能科技(苏州)有限公司 基于多个卷积神经网络模型结合的异常声音检测方法
CN110533179A (zh) * 2019-07-15 2019-12-03 北京地平线机器人技术研发有限公司 网络结构搜索方法和装置、可读存储介质、电子设备
CN110580914A (zh) * 2019-07-24 2019-12-17 安克创新科技股份有限公司 一种音频处理方法、设备及具有存储功能的装置
CN110929087A (zh) * 2019-10-21 2020-03-27 量子云未来(北京)信息科技有限公司 一种音频分类方法、装置、电子设备及存储介质
CN110782034A (zh) * 2019-10-31 2020-02-11 北京小米智能科技有限公司 神经网络的训练方法、装置及存储介质
CN111445921A (zh) * 2020-03-20 2020-07-24 腾讯科技(深圳)有限公司 音频特征的提取方法、装置、计算机设备及存储介质
CN111582454A (zh) * 2020-05-09 2020-08-25 北京百度网讯科技有限公司 生成神经网络模型的方法和装置
CN111652354A (zh) * 2020-05-29 2020-09-11 北京百度网讯科技有限公司 用于训练超网络的方法、装置、设备以及存储介质
CN112784730A (zh) * 2021-01-20 2021-05-11 东南大学 一种基于时域卷积网络的多模态情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HUAHUAN ZHENG 等: "EFFICIENT NEURAL ARCHITECTURE SEARCH FOR END-TO-END SPEECH RECOGNITION VIA STRAIGHT-THROUGH GRADIENTS", SPOKEN LANGUAGE TECHNOLOGY WORKSHOP, 31 December 2021 (2021-12-31) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112989106A (zh) * 2021-05-18 2021-06-18 北京世纪好未来教育科技有限公司 音频分类方法、电子设备以及存储介质
CN112989106B (zh) * 2021-05-18 2021-07-30 北京世纪好未来教育科技有限公司 音频分类方法、电子设备以及存储介质
CN113506581A (zh) * 2021-07-08 2021-10-15 京东科技控股股份有限公司 一种语音增强方法和装置
CN113506581B (zh) * 2021-07-08 2024-04-05 京东科技控股股份有限公司 一种语音增强方法和装置

Similar Documents

Publication Publication Date Title
CN110210535B (zh) 神经网络训练方法及装置以及图像处理方法及装置
CN111524521B (zh) 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111310616B (zh) 图像处理方法及装置、电子设备和存储介质
CN110287874B (zh) 目标追踪方法及装置、电子设备和存储介质
CN109871896B (zh) 数据分类方法、装置、电子设备及存储介质
CN110837761B (zh) 多模型知识蒸馏方法及装置、电子设备和存储介质
CN108010060B (zh) 目标检测方法及装置
CN109543537B (zh) 重识别模型增量训练方法及装置、电子设备和存储介质
CN107133354B (zh) 图像描述信息的获取方法及装置
CN110399841B (zh) 一种视频分类方法、装置及电子设备
EP3923202A1 (en) Method and device for data processing, and storage medium
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
CN107527059A (zh) 文字识别方法、装置及终端
CN111435432B (zh) 网络优化方法及装置、图像处理方法及装置、存储介质
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN107341509B (zh) 卷积神经网络的训练方法、装置及可读存储介质
CN109858614B (zh) 神经网络训练方法及装置、电子设备和存储介质
JP2022522551A (ja) 画像処理方法及び装置、電子機器並びに記憶媒体
CN110532956B (zh) 图像处理方法及装置、电子设备和存储介质
CN110188865B (zh) 信息处理方法及装置、电子设备和存储介质
CN110889489A (zh) 神经网络的训练方法、图像识别方法及其装置
CN111523599B (zh) 目标检测方法及装置、电子设备和存储介质
CN112259122A (zh) 音频类型识别方法、装置及存储介质
CN109447258B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN111027617A (zh) 神经网络训练及图像识别方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination