CN111191072B - 一种基于迁移学习的音频分类方法 - Google Patents

一种基于迁移学习的音频分类方法 Download PDF

Info

Publication number
CN111191072B
CN111191072B CN201911365456.7A CN201911365456A CN111191072B CN 111191072 B CN111191072 B CN 111191072B CN 201911365456 A CN201911365456 A CN 201911365456A CN 111191072 B CN111191072 B CN 111191072B
Authority
CN
China
Prior art keywords
data
audio
classification
audio classification
public
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911365456.7A
Other languages
English (en)
Other versions
CN111191072A (zh
Inventor
杜春河
丁宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Lizhi Network Technology Co ltd
Original Assignee
Guangzhou Lizhi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Lizhi Network Technology Co ltd filed Critical Guangzhou Lizhi Network Technology Co ltd
Priority to CN201911365456.7A priority Critical patent/CN111191072B/zh
Publication of CN111191072A publication Critical patent/CN111191072A/zh
Application granted granted Critical
Publication of CN111191072B publication Critical patent/CN111191072B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于迁移学习的音频分类方法,包括如下步骤:人工标注音频分类数据,建立音频分类数据集;收集公开的文本分类数据,建立公开数据集;筛选出公开数据集中分类在音频分类数据集类别中的数据并与音频分类数据集组成训练集;利用训练集训练分类模型;利用分类模型对音频进行分类。不需要大量标注数据,有效降低成本,集合公开数据集和音频分类数据集,保证模型效果。

Description

一种基于迁移学习的音频分类方法
技术领域
本发明具体涉及到一种基于迁移学习的音频分类方法。
背景技术
音频分类是音频平台重要组成部分之一。音频分类首先需要人工标注一批分类数据。如果标注大量数据,标注成本高,模型效果好;如果标注少量数据,标注成本低,模型效果差,因此音频分类的方法需要进一步的改进。
发明内容
针对上述现有技术存在的缺陷,本发明要解决的技术问题是:可以不需要大量标注数的低成本情况下,达到好的模型效果。
一种基于迁移学习的音频分类方法,包括如下步骤:
人工标注音频分类数据,建立音频分类数据集;
收集公开的文本分类数据,建立公开数据集;
筛选出公开数据集中分类在音频分类数据集类别中的数据并与音频分类数据集组成训练集;
利用训练集训练分类模型;
利用分类模型对音频进行分类。
进一步地,所述分类模型的Loss为交叉熵Loss。
进一步地,所述分类模型的交叉熵Loss的公式为:
L=LD+LC
Figure BDA0002338290410000021
Figure BDA0002338290410000022
Data是训练数据集合,d是其中一条样本;dc是它对应的分类,如果是二分类则dc是[0,1]或者[1,0];如果是多分类,则dc是某一维度为1,其他维度为0的k维数组,k是分类数据量;pj(d)表示模型预测的d属于第j个分类的概率。
进一步地,所述LC用于区分音频的类别。
进一步地,所述LD用于区分数据来自音频分类数据集还是公开数据集。
与现有技术相比,本发明的至少包括以下有益效果:
1.成本低,不需要大量标注数据;
2.集合公开数据集和音频分类数据集,保证模型效果。
附图说明
图1为本发明一种基于迁移学习的音频分类方法的流程图。
具体实施方式
以下实施例对本发明进行说明,但本发明并不受这些实施例所限制。对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换,而不脱离本发明方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
如图1所示,一种基于迁移学习的音频分类方法,包括如下步骤:
步骤S100:人工标注音频分类数据,建立音频分类数据集,先通过人工标注定量的音频分类数据;
步骤S101:收集公开的文本分类数据,建立公开数据集;
步骤S102:筛选出公开数据集中分类在音频分类数据集类别中的数据并与音频分类数据集组成训练集;
步骤S103:利用训练集训练分类模型;
步骤S104:利用分类模型对音频进行分类。
不需要大量标注数据有效降低成本,通过集合公开数据集和音频分类数据集,保证模型效果。
本发明所述分类模型的Loss为交叉熵Loss,交叉熵Loss的公式为:
L=LD+LC
Figure BDA0002338290410000031
Figure BDA0002338290410000032
Data是训练数据集合,d是其中一条样本;dc是它对应的分类,如果是二分类则dc是[0,1]或者[1,0];如果是多分类,则dc是某一维度为1,其他维度为0的k维数组,k是分类数据量;pj(d)表示模型预测的d属于第j个分类的概率。
本发明所述LC用于区分音频的类别。
本发明所述LD用于区分数据来自音频分类数据集还是公开数据集。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于迁移学习的音频分类方法,其特征在于,包括如下步骤:
人工标注音频分类数据,建立音频分类数据集;
收集公开的文本分类数据,建立公开数据集;
筛选出公开数据集中分类在音频分类数据集类别中的数据并与音频分类数据集组成训练集;
利用训练集训练分类模型;
利用分类模型对音频进行分类,所述分类模型的Loss为交叉熵Loss,所述交叉熵Loss的公式为:L=LD+LC
Figure QLYQS_1
其中,Data是训练数据集合,d是其中一条样本;
LC用于区分音频的类别;dc是它对应的分类,如果是二分类,则dc是[0,1]或者[1,0];如果是多分类,则dc是某一维度为1,其他维度为0的k维数组,k是分类数据量;Pj(d)表示模型预测的d属于第j个分类的概率;
LD用于区分数据来自音频分类数据集还是公开数据集。
CN201911365456.7A 2019-12-26 2019-12-26 一种基于迁移学习的音频分类方法 Active CN111191072B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911365456.7A CN111191072B (zh) 2019-12-26 2019-12-26 一种基于迁移学习的音频分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911365456.7A CN111191072B (zh) 2019-12-26 2019-12-26 一种基于迁移学习的音频分类方法

Publications (2)

Publication Number Publication Date
CN111191072A CN111191072A (zh) 2020-05-22
CN111191072B true CN111191072B (zh) 2023-06-30

Family

ID=70705845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911365456.7A Active CN111191072B (zh) 2019-12-26 2019-12-26 一种基于迁移学习的音频分类方法

Country Status (1)

Country Link
CN (1) CN111191072B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287324A (zh) * 2019-06-27 2019-09-27 成都冰鉴信息科技有限公司 一种针对粗粒度文本分类的数据动态标注方法及装置
CN110321926A (zh) * 2019-05-24 2019-10-11 北京理工大学 一种基于深度残差修正网络的迁移方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110321926A (zh) * 2019-05-24 2019-10-11 北京理工大学 一种基于深度残差修正网络的迁移方法及系统
CN110287324A (zh) * 2019-06-27 2019-09-27 成都冰鉴信息科技有限公司 一种针对粗粒度文本分类的数据动态标注方法及装置

Also Published As

Publication number Publication date
CN111191072A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN110909820B (zh) 基于自监督学习的图像分类方法及系统
CN102096821A (zh) 基于复杂网络理论的强干扰环境下的车牌识别方法
CN108829661B (zh) 一种基于模糊匹配的新闻主体名称提取方法
CN112766334A (zh) 一种基于伪标签域适应的跨域图像分类方法
CN101937510A (zh) 基于类Haar和AdaBoost分类器的快速增量学习方法
CN108595704A (zh) 一种基于软分类模型的新闻情感和重要性分类方法
CN109492105A (zh) 一种基于多特征集成学习的文本情感分类方法
CN103839078A (zh) 一种基于主动学习的高光谱图像分类方法
CN109492226B (zh) 一种提高情感倾向占比低文本预断准确率的方法
CN109858570A (zh) 图像分类方法及系统、计算机设备及介质
CN110489753B (zh) 改进特征选择的神经结构对应学习跨领域情感分类方法
CN110796260B (zh) 一种基于类扩张学习的神经网络模型优化方法
US20220215679A1 (en) Method of determining a density of cells in a cell image, electronic device, and storage medium
Rigaud et al. What do we expect from comic panel extraction?
JP2019136664A (ja) 水質分析装置及び水質分析方法
CN103853720B (zh) 基于用户关注度的网络敏感信息监控系统及方法
CN111191072B (zh) 一种基于迁移学习的音频分类方法
US8645290B2 (en) Apparatus and method for improved classifier training
CN109145749B (zh) 一种跨数据集的面部表情识别模型构建及识别方法
CN112750128A (zh) 图像语义分割方法、装置、终端及可读存储介质
CN108804524B (zh) 基于层次化分类体系的情感判别和重要性划分方法
Chaudhury et al. Model-guided segmentation and layout labelling of document images using a hierarchical conditional random field
CN116186266A (zh) Bert、ner实体抽取以及知识图谱的物料分类优化方法及系统
CN105139010A (zh) 一种基于细化字符分类器的车牌字符识别方法
CN105243118A (zh) 一种稿件数据分类的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant