CN111191072B

CN111191072B - 一种基于迁移学习的音频分类方法

Info

Publication number: CN111191072B
Application number: CN201911365456.7A
Authority: CN
Inventors: 杜春河; 丁宁
Original assignee: Guangzhou Lizhi Network Technology Co ltd
Current assignee: Guangzhou Lizhi Network Technology Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-06-30
Anticipated expiration: 2039-12-26
Also published as: CN111191072A

Abstract

本发明公开了一种基于迁移学习的音频分类方法，包括如下步骤：人工标注音频分类数据，建立音频分类数据集；收集公开的文本分类数据，建立公开数据集；筛选出公开数据集中分类在音频分类数据集类别中的数据并与音频分类数据集组成训练集；利用训练集训练分类模型；利用分类模型对音频进行分类。不需要大量标注数据，有效降低成本，集合公开数据集和音频分类数据集，保证模型效果。

Description

一种基于迁移学习的音频分类方法

技术领域

本发明具体涉及到一种基于迁移学习的音频分类方法。

背景技术

音频分类是音频平台重要组成部分之一。音频分类首先需要人工标注一批分类数据。如果标注大量数据，标注成本高，模型效果好；如果标注少量数据，标注成本低，模型效果差，因此音频分类的方法需要进一步的改进。

发明内容

针对上述现有技术存在的缺陷，本发明要解决的技术问题是：可以不需要大量标注数的低成本情况下，达到好的模型效果。

一种基于迁移学习的音频分类方法，包括如下步骤：

人工标注音频分类数据，建立音频分类数据集；

收集公开的文本分类数据，建立公开数据集；

筛选出公开数据集中分类在音频分类数据集类别中的数据并与音频分类数据集组成训练集；

利用训练集训练分类模型；

利用分类模型对音频进行分类。

进一步地，所述分类模型的Loss为交叉熵Loss。

进一步地，所述分类模型的交叉熵Loss的公式为：

L＝L_D+L_C；

Data是训练数据集合，d是其中一条样本；dc是它对应的分类，如果是二分类则dc是[0,1]或者[1,0]；如果是多分类，则dc是某一维度为1，其他维度为0的k维数组，k是分类数据量；pj(d)表示模型预测的d属于第j个分类的概率。

进一步地，所述L_C用于区分音频的类别。

进一步地，所述L_D用于区分数据来自音频分类数据集还是公开数据集。

与现有技术相比，本发明的至少包括以下有益效果：

1.成本低，不需要大量标注数据；

2.集合公开数据集和音频分类数据集，保证模型效果。

附图说明

图1为本发明一种基于迁移学习的音频分类方法的流程图。

具体实施方式

以下实施例对本发明进行说明，但本发明并不受这些实施例所限制。对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换，而不脱离本发明方案的精神，其均应涵盖在本发明请求保护的技术方案范围当中。

如图1所示，一种基于迁移学习的音频分类方法，包括如下步骤：

步骤S100：人工标注音频分类数据，建立音频分类数据集，先通过人工标注定量的音频分类数据；

步骤S101：收集公开的文本分类数据，建立公开数据集；

步骤S102：筛选出公开数据集中分类在音频分类数据集类别中的数据并与音频分类数据集组成训练集；

步骤S103：利用训练集训练分类模型；

步骤S104：利用分类模型对音频进行分类。

不需要大量标注数据有效降低成本，通过集合公开数据集和音频分类数据集，保证模型效果。

本发明所述分类模型的Loss为交叉熵Loss，交叉熵Loss的公式为：

L＝L_D+L_C；

本发明所述L_C用于区分音频的类别。

本发明所述L_D用于区分数据来自音频分类数据集还是公开数据集。

以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的最优选实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换等，均应包含在本发明的保护范围之内。

Claims

1.一种基于迁移学习的音频分类方法，其特征在于，包括如下步骤：

人工标注音频分类数据，建立音频分类数据集；

收集公开的文本分类数据，建立公开数据集；

利用训练集训练分类模型；

利用分类模型对音频进行分类，所述分类模型的Loss为交叉熵Loss，所述交叉熵Loss的公式为：L=L_D+L_C

其中，Data是训练数据集合，d是其中一条样本；

L_C用于区分音频的类别；d_c是它对应的分类，如果是二分类，则d_c是[0,1]或者[1,0]；如果是多分类，则d_c是某一维度为1，其他维度为0的k维数组，k是分类数据量；P_j(d)表示模型预测的d属于第j个分类的概率；

L_D用于区分数据来自音频分类数据集还是公开数据集。