CN112632319B - 基于迁移学习的提升长尾分布语音总体分类准确度的方法 - Google Patents

基于迁移学习的提升长尾分布语音总体分类准确度的方法 Download PDF

Info

Publication number
CN112632319B
CN112632319B CN202011532360.8A CN202011532360A CN112632319B CN 112632319 B CN112632319 B CN 112632319B CN 202011532360 A CN202011532360 A CN 202011532360A CN 112632319 B CN112632319 B CN 112632319B
Authority
CN
China
Prior art keywords
model
training
cnn
voice
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011532360.8A
Other languages
English (en)
Other versions
CN112632319A (zh
Inventor
谢宗霞
王艳清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202011532360.8A priority Critical patent/CN112632319B/zh
Publication of CN112632319A publication Critical patent/CN112632319A/zh
Application granted granted Critical
Publication of CN112632319B publication Critical patent/CN112632319B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于迁移学习的提升长尾分布语音总体分类准确度的方法,首先,通过对呈现长尾分布的数据集进行训练建立由CNN和RNN网络构成的R‑CNN模型,CNN网络用于提取语音特征,RNN网络对的CNN网络提取的语音特征进行时序建模,进一步挖掘语音信息,提取到类间可分特征,用于后续语音分类;然后,对R‑CNN模型进行两次训练,其中:第一次模型训练是将长尾分布的数据用于模型训练,得到初步的模型参数;二次模型训练是将均衡分布的数据用于模型训练,把第一次模型训练得到的CNN网络浅层参数固定,迁移到二次的模型训练中;使用二次训练后的模型进行语音分类预测,从而提升语音分类模型的总体分类效果。

Description

基于迁移学习的提升长尾分布语音总体分类准确度的方法
技术领域
本发明属于深度学习网络训练技术领域,特别涉及一种基于迁移学习的提升长尾分布语音总体分类准确度的方法。
背景技术
语音分类是当前深度学习领域中一项重要而且具有广泛商业应用价值的领域。但是当前用于模型训练的数据集大多呈现长尾分布,是一种特殊的非对称分布,其中一部分类别包含的数据量非常多,称为头部类别,而相对应的另一部分类别所包含的数据量非常少,称为尾部类别。由于尾部类别所包含的数据相对于头部类别所包含的数据特别少,会引起分类结果偏向于头部类别从而造成总体分类结果的偏差。往往尾部类别所包含的信息又具有不可忽略的意义。处理长尾分布的数据的困难在于两方面,一是数据分布的不均衡问题,二是尾部类别由于数据量不充分导致的表征能力不足。近年来迁移学习的兴起,对于解决数据不充足的问题带来了新的解决思路。首先通过使用长尾分布的数据对模型进行训练,得到基础的模型信息。进而将所得到的的模型参数迁移到均衡分布数据中进行训练,从而提升模型的总体分类性能。
发明内容
针对上述现有技术,本发明提出一种基于迁移学习的提升长尾分布语音总体分类准确度的方法。
对于长尾分布数据的不均衡问题以及尾部类别由于数据量不充足导致的特征信息表征能力不足问题,提出一种基于迁移学习的语音分类训练方法,通过采用迁移学习,将首次训练中对长尾分布数据进行训练得到的模型参数,迁移到对均衡分布数据进行训练中,从而提高模型的整体分类性能。
考虑到头部数据充足,具有充分的信息表征能力,而CNN模型中浅层网络主要用于基础特征的提取,具有可迁移性。这种基础特征同样适用于尾部不充足的类别。所以将CNN浅层网络的模型参数固定,进行二次训练,将浅层网络的模型参数进行迁移,从而提升尾部类别的表征能力。所述的CNN网络用于对语音数据的对数梅尔特征进行特征提取;所述的RNN网络用于对CNN网络输出的特征进行时序建模,进一步挖掘语音数据的时序信息,将基础的语音特征通过时序建模,计算为类别可分的特征;所述的迁移学习训练方法,通过对第一次基于长尾分布训练所得出的CNN浅层网络模型参数迁移到基于均衡分布的二次训练中,通过这种二次训练的方式,提升尾部类别由于数据量缺少导致的表征能力不足的分类能力。
为了解决上述技术问题,本发明提出的一种基于迁移学习的提升长尾分布语音总体分类准确度的方法,设计了针对长尾分布语音分类模型;首先,通过对呈现长尾分布的数据集进行训练建立由一个CNN网络和一个RNN网络构成的R-CNN模型,所述CNN网络用于提取语音特征,所述RNN网络对所述的CNN网络提取的语音特征进行时序建模,通过充分挖掘语音数据的时序信息,进一步挖掘语音信息,提取到类间可分特征,用于后续语音分类;然后,对所述的R-CNN模型进行两次训练,其中:第一次模型训练是将长尾分布的数据用于模型训练,得到初步的模型参数;二次模型训练是将均衡分布的数据用于模型训练,把第一次模型训练得到的CNN网络浅层参数固定,迁移到二次的模型训练中;使用二次训练后的模型进行语音分类预测,从而提升语音分类模型的总体分类效果。
进一步讲,本发明所述的方法中,对长尾分布语音数据集中的原始语音数据进行特征提取,得到语音数据对应的对数梅尔特征;将得到的对数梅尔特征作为CNN网络的输入进行处理以提取语音特征,经过训练得到网络模型的参数θn=(wn,bn),其中,n代表CNN的网络层数,w为权重值,b为偏移量,θ代表该层的参数;第一次模型训练所采用的数据分布呈现长尾分布,通过第一次模型训练,得到了CNN层的模型参数θ1、θ2、θ3...,将这些模型参数固定,进行二次模型训练,二次模型训练中采用的数据分布呈现均衡分布。
用于第一次模型训练的数据分布呈现长尾分布,即:C1>C2>C3...>CK,C1>>CK;其中,k是用于语音分类的类别的总数;Ck代表对应类别的数据量;用于二次模型训练的数据分布呈现均衡分布,即:C1=C2=C3...=CK
与现有技术相比,本发明的有益效果是:能够在不对头部类别识别准确率造成负面影响的前提下,提升尾部类别识别效果。
附图说明
图1是本发明基于迁移学习的语音分类模型结构。
具体实施方式
下面结合附图及具体实施例对本发明做进一步的说明,但下述实施例绝非对本发明有任何限制。
如图1所示,本发明提出的一种基于迁移学习的提升长尾分布语音总体分类准确度的方法,其中设计了针对长尾分布语音分类模型。
首先,通过对呈现长尾分布的数据集进行训练建立由一个CNN网络和一个RNN网络构成的R-CNN模型,所述CNN网络用于提取语音特征,所述RNN网络对所述的CNN网络提取的语音特征进行时序建模,通过充分挖掘语音数据的时序信息,进一步挖掘语音信息,提取到类间可分特征,用于后续语音分类;
然后,对所述的R-CNN模型进行两次训练,其中:第一次模型训练是将长尾分布的数据用于模型训练,得到初步的模型参数;二次模型训练是将均衡分布的数据用于模型训练,把第一次模型训练得到的CNN网络浅层参数固定,迁移到二次的模型训练中;
使用二次训练后的模型进行语音分类预测,从而提升语音分类模型的总体分类效果。
实施例:
对长尾分布语音数据集中的原始语音数据进行特征提取,得到语音数据对应的对数梅尔特征。
图1上半部分示出了CNN网络对于对数梅尔特征的拟合:将得到的对数梅尔特征作为CNN网络的输入进行处理以提取语音特征,经过训练得到网络模型的参数θn=(wn,bn),其中,n代表CNN的网络层数,w为权重值,b为偏移量,θ代表该层的参数;第一次模型训练所采用的数据分布呈现长尾分布;RNN网络对上述特征的处理:即利用上述得到的特征进行时序建模,分析特征的时序信息;
图1下半部分示出了的迁移学习过程,通过第一次模型训练,得到了CNN层的模型参数θ1、θ2、θ3...,将这些模型参数固定,进行二次模型训练。二次模型训练中,对于语音数据集中的原始语音数据进行特征提取,得到语音数据对应的对数梅尔特征,用于CNN网络训练的数据分布呈现均衡分布。
本发明中,第一次和二次模型训练所采用的的数据的分布分别为长尾分布和均衡分布,若总共有k个用于语音分类的类别;用于第一次模型训练的数据分布呈现长尾分布,即:C1>C2>C3...>CK,C1>>CK;用于二次模型训练的数据分布呈现均衡分布,即:C1=C2=C3...=CK;其中,Ck代表对应类别的数据量。
使用二次训练之后的模型进行语音分类预测。
综上,本发明中的基于迁移学习的语音分类模型训练方法,用于解决由长尾分布带来的数据不均衡以及尾部类别数据量不充分导致的表征能力不足的问题。通过将第一次通过长尾分布的数据进行训练所得到的的浅层CNN网络参数迁移到第二次对于均衡分布数据进行训练的模型中,提升语音分类的总体分类性能。
尽管上面结合附图对本发明进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨的情况下,还可以做出很多变形,这些均属于本发明的保护之内。

Claims (3)

1.一种基于迁移学习的提升长尾分布语音总体分类准确度的方法,其特征在于,设计了针对长尾分布语音分类模型;
首先,通过对呈现长尾分布的数据集进行训练建立由一个CNN网络和一个RNN网络构成的R-CNN模型,所述CNN网络用于提取语音特征,所述RNN网络对所述的CNN网络提取的语音特征进行时序建模,通过挖掘语音数据的时序信息,进一步挖掘语音信息,提取到类间可分特征,用于后续语音分类;
然后,对所述的R-CNN模型进行两次训练,其中:第一次模型训练是将长尾分布的数据用于模型训练,得到初步的CNN网络所有层的模型参数;二次模型训练是将均衡分布的数据用于模型训练,把第一次模型训练得到的CNN网络中浅层网络的模型参数固定,迁移到二次的模型训练中;
使用二次训练后的模型进行语音分类预测,从而提升语音分类模型的总体分类效果。
2.根据权利要求1所述的基于迁移学习的提升长尾分布语音总体分类准确度的方法,其特征在于,
对长尾分布语音数据集中的原始语音数据进行特征提取,得到语音数据对应的对数梅尔特征;将得到的对数梅尔特征作为CNN网络的输入进行处理以提取语音特征,经过训练得到网络模型的参数θ n =(wn,bn),其中,n代表CNN的网络层数,w为权重值,b为偏移量;第一次模型训练所采用的数据分布呈现长尾分布,通过第一次模型训练,得到了CNN层的模型参数θ 1 、θ 2 、θ 3 、...、θ n-1 、θ n 将CNN网络中浅层网络的模型参数固定,进行二次模型训练,二次模型训练中采用的数据分布呈现均衡分布。
3.根据权利要求1中所述的基于迁移学习的提升长尾分布语音总体分类准确度的方法,其特征在于,
用于第一次模型训练的数据分布呈现长尾分布,即:C 1 >C 2 >C 3 ...>C K C 1 >>C K ;其中,k是用于语音分类的类别的总数;C k 代表对应第k个类别的数据量;
用于二次模型训练的数据分布呈现均衡分布,即:C 1 =C 2 =C 3 ...=C K
CN202011532360.8A 2020-12-22 2020-12-22 基于迁移学习的提升长尾分布语音总体分类准确度的方法 Active CN112632319B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011532360.8A CN112632319B (zh) 2020-12-22 2020-12-22 基于迁移学习的提升长尾分布语音总体分类准确度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011532360.8A CN112632319B (zh) 2020-12-22 2020-12-22 基于迁移学习的提升长尾分布语音总体分类准确度的方法

Publications (2)

Publication Number Publication Date
CN112632319A CN112632319A (zh) 2021-04-09
CN112632319B true CN112632319B (zh) 2023-04-11

Family

ID=75321139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011532360.8A Active CN112632319B (zh) 2020-12-22 2020-12-22 基于迁移学习的提升长尾分布语音总体分类准确度的方法

Country Status (1)

Country Link
CN (1) CN112632319B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632320A (zh) * 2020-12-22 2021-04-09 天津大学 基于长尾分布提升语音分类尾部识别准确度的方法
CN113823321B (zh) * 2021-08-31 2023-08-08 中国科学院上海微系统与信息技术研究所 一种基于特征预训练的深度学习分类的声音数据分类方法
CN113887561B (zh) * 2021-09-03 2022-08-09 广东履安实业有限公司 一种基于数据分析的人脸识别方法、设备、介质、产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034281A (zh) * 2018-07-18 2018-12-18 中国科学院半导体研究所 加速基于卷积神经网络的中文手写体识别的方法
CN109545190A (zh) * 2018-12-29 2019-03-29 联动优势科技有限公司 一种基于关键词的语音识别方法
CN110738314A (zh) * 2019-10-17 2020-01-31 中山大学 一种基于深度迁移网络的点击率预测方法及装置
CN111738301A (zh) * 2020-05-28 2020-10-02 华南理工大学 一种基于双通道学习的长尾分布图像数据识别方法
CN112101544A (zh) * 2020-08-21 2020-12-18 清华大学 适用于长尾分布数据集的神经网络的训练方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538286A (zh) * 2017-03-02 2018-09-14 腾讯科技(深圳)有限公司 一种语音识别的方法以及计算机
KR102025652B1 (ko) * 2019-01-21 2019-09-27 휴멜로 주식회사 사운드 이벤트 탐지 모델 학습 방법
CN111368525A (zh) * 2020-03-09 2020-07-03 深圳市腾讯计算机系统有限公司 信息搜索方法、装置、设备及存储介质
CN111402929B (zh) * 2020-03-16 2022-09-20 南京工程学院 基于域不变的小样本语音情感识别方法
CN111291841B (zh) * 2020-05-13 2020-08-21 腾讯科技(深圳)有限公司 图像识别模型训练方法、装置、计算机设备和存储介质
CN111832417B (zh) * 2020-06-16 2023-09-15 杭州电子科技大学 基于cnn-lstm模型和迁移学习的信号调制样式识别方法
CN111898685B (zh) * 2020-08-03 2023-10-27 华南理工大学 一种基于长尾分布数据集的目标检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109034281A (zh) * 2018-07-18 2018-12-18 中国科学院半导体研究所 加速基于卷积神经网络的中文手写体识别的方法
CN109545190A (zh) * 2018-12-29 2019-03-29 联动优势科技有限公司 一种基于关键词的语音识别方法
CN110738314A (zh) * 2019-10-17 2020-01-31 中山大学 一种基于深度迁移网络的点击率预测方法及装置
CN111738301A (zh) * 2020-05-28 2020-10-02 华南理工大学 一种基于双通道学习的长尾分布图像数据识别方法
CN112101544A (zh) * 2020-08-21 2020-12-18 清华大学 适用于长尾分布数据集的神经网络的训练方法和装置

Also Published As

Publication number Publication date
CN112632319A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112632319B (zh) 基于迁移学习的提升长尾分布语音总体分类准确度的方法
CN109902171B (zh) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
TWI794157B (zh) 自動多閾值特徵過濾方法及裝置
CN106251859B (zh) 语音识别处理方法和装置
CN108984683A (zh) 结构化数据的提取方法、系统、设备及存储介质
WO2019127924A1 (zh) 样本权重分配方法、模型训练方法、电子设备及存储介质
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
CN110880019B (zh) 通过无监督域适应训练目标域分类模型的方法
CN106297773A (zh) 一种神经网络声学模型训练方法
CN109271497B (zh) 一种基于词向量的事件驱动服务匹配方法
CN108829810A (zh) 面向健康舆情的文本分类方法
CN108959474B (zh) 实体关系提取方法
CN111914555B (zh) 基于Transformer结构的自动化关系抽取系统
CN110162766B (zh) 词向量更新方法和装置
CN109509010A (zh) 一种多媒体信息处理方法、终端及存储介质
CN106445915A (zh) 一种新词发现方法及装置
CN111125356A (zh) 一种文本分类方法及系统
CN110705272A (zh) 一种面向汽车发动机故障诊断的命名实体识别方法
CN108461091A (zh) 面向家居环境的智能哭声检测方法
CN115188440A (zh) 一种相似病历智能匹配方法
CN112632320A (zh) 基于长尾分布提升语音分类尾部识别准确度的方法
CN111984790B (zh) 一种实体关系抽取方法
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN116127974A (zh) 一种面向雷达的实体关系联合抽取方法
CN115688868A (zh) 一种模型训练方法及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant