CN115240659B - 分类模型训练方法、装置、计算机设备及存储介质 - Google Patents
分类模型训练方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN115240659B CN115240659B CN202211149185.3A CN202211149185A CN115240659B CN 115240659 B CN115240659 B CN 115240659B CN 202211149185 A CN202211149185 A CN 202211149185A CN 115240659 B CN115240659 B CN 115240659B
- Authority
- CN
- China
- Prior art keywords
- audio data
- classification model
- information
- label
- tags
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 131
- 238000012549 training Methods 0.000 title claims abstract description 92
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000015654 memory Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 21
- 238000010586 diagram Methods 0.000 description 6
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及一种分类模型训练方法、装置、计算机设备及存储介质,该方法包括:将第一音频数据集合输入初始模型进行训练,得到第一分类模型,第一音频数据集合设置有对应的第一标签集合;根据第一分类模型确定第二音频数据集合对应的第二标签集合;从第二标签集合中提取预设数量个第二标签,从第二音频数据集合中提取预设数量个第二音频数据;根据第一音频数据集合、第一标签集合、提取的第二音频数据和提取的第二标签对第一分类模型进行训练,得到训练好的第二分类模型,由此,可以实现通过少量已标注的音频数据训练分类模型,无需预先生成大量音频数据的标签,降低了分类模型训练的复杂程度和成本,提高了分类的准确度。
Description
技术领域
本发明实施例涉及模型训练技术领域,尤其涉及一种分类模型训练方法、装置、计算机设备及存储介质。
背景技术
在处理到大量声音数据时,需要根据用户需求、声音的类别或声音产生的时间对声音数据进行分类。
现有的分类方式包括人工分类,但是该方式成本高,效率低。也可通过现有的模型进行分类,但模型训练的过程复杂,模型的性能不稳定,需要大量的训练数据,容易造成分类结果的准确度低的问题。
发明内容
鉴于此,为解决上述分类结果准确度低的技术问题,本发明实施例提供一种分类模型训练方法、装置、计算机设备及存储介质。
第一方面,本发明实施例提供一种分类模型训练方法,包括:
将第一音频数据集合输入初始模型进行训练,得到第一分类模型,所述第一音频数据集合设置有对应的第一标签集合;
根据所述第一分类模型确定第二音频数据集合对应的第二标签集合;
从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据;
根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,得到训练好的第二分类模型。
在一个可能的实施方式中,所述第一音频数据集合和第一标签集合通过以下方式确定:
确定音频数据集合中每个音频数据的完整性;
从所述音频数据集合中提取完整性符合第一预设条件的音频数据生成第一音频数据集合;
针对所述第一音频数据集合中每个第一音频数据提取类别信息和时间信息;
根据所述类别信息和时间信息确定每个第一音频数据对应的第一标签;根据每个第一音频数据对应的第一标签生成第一标签集合。
在一个可能的实施方式中,所述根据所述类别信息和时间信息确定每个第一音频数据对应的第一标签,包括:
获取所述第一音频数据的音调信息、音色信息和音量信息;
根据所述音调信息、所述音色信息、所述音量信息、所述类别信息和时间信息确定所述第一音频数据集合中每个第一音频数据对应的第一标签。
在一个可能的实施方式中,所述第二音频数据集合包括至少一个第二音频数据;所述第二标签集合包括至少一个第二标签;一个所述第二音频数据对应一个所述第二标签;
所述从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据,包括:
确定所述第二标签集合中每个所述第二标签的置信度;
从所述第二标签集合中提取置信度大于第一设定阈值的预设数量个第二标签并记录为第三标签;
将所述第二音频数据集合中分别与所述第三标签对应的第二音频数据记录为第三音频数据。
在一个可能的实施方式中,所述从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据,还包括:
针对所述第二标签集合中每个第二标签提取目标音调信息、目标音色信息和目标音量信息;
根据所述目标音调信息、目标音色信息和目标音量信息确定每个第二标签对应的第二音频数据的属性信息;
从所述第二音频数据集合中提取属性信息符合第二预设条件的预设数量个第二音频数据并记录为第三音频数据;
将所述第二标签集合中分别与所述第三音频数据对应的第二标签记录为第三标签,所述第三标签的置信度均大于第一设定阈值。
在一个可能的实施方式中,所述根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,包括:
根据所述提取的第二音频数据更新所述第一音频数据集合,根据所述提取的第二标签更新所述第一标签集合;
将更新后的第一音频数据集合和更新后的第一标签集合输入第一分类模型进行迭代训练,直到输出数据对应的标签的准确率大于第二设定阈值时,确定模型训练结束,得到训练好的第二分类模型。
第二方面,本发明实施例提供一种音频数据分类方法,包括:
将第四音频数据输入训练好的第二分类模型中,所述第二分类模型由上述第一方面中任一所述分类模型训练方法训练得到;
利用所述第二分类模型确定所述第四音频数据对应的第四标签;
根据所述第四标签确定所述第四音频数据的类别信息和时间信息;
根据所述类别信息和时间信息对所述第四音频数据进行分类,得到音频数据分类结果。
第三方面,本发明实施例提供一种分类模型训练装置,包括:
第一输入模块,用于将第一音频数据集合输入初始模型进行训练,得到第一分类模型,所述第一音频数据集合设置有对应的第一标签集合;
第一处理模块,用于根据所述第一分类模型确定第二音频数据集合对应的第二标签集合;
所述第一处理模块,还用于从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据;
所述第一处理模块,还用于根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,得到训练好的第二分类模型。
第四方面,本发明实施例提供一种计算机设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的分类模型训练程序,以实现如上述第一方面中任一项所述的分类模型训练方法,或实现如上述第二方面所述的音频数据分类方法。
第五方面,本发明实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述第一方面中任一项所述的分类模型训练方法,或实现如上述第二方面所述的音频数据分类方法。
本发明实施例提供的分类模型训练方案,通过将第一音频数据集合输入初始模型进行训练,得到第一分类模型,所述第一音频数据集合设置有对应的第一标签集合;根据所述第一分类模型确定第二音频数据集合对应的第二标签集合;从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据;根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,得到训练好的第二分类模型,以实现通过少量已标注的音频数据训练分类模型,无需预先生成大量音频数据的标签,降低了分类模型训练的复杂程度和成本,提高了分类的准确度。
附图说明
图1为本发明实施例提供的一种分类模型训练方法的流程示意图;
图2为本发明实施例提供的另一种分类模型训练方法的流程示意图;
图3为本发明实施例提供的一种音频数据分类方法的流程示意图;
图4为本发明实施例提供的一种分类模型训练装置的结构示意图;
图5为本发明实施例提供的一种音频数据分类装置的结构示意图;
图6为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。
图1为本发明实施例提供的一种分类模型训练方法的流程示意图,如图1所示,该方法具体包括:
S11、将第一音频数据集合输入初始模型进行训练,得到第一分类模型,所述第一音频数据集合设置有对应的第一标签集合;
本申请实施例提供的分类模型训练方法应用于可以进行模型训练的终端,其中终端可以为手机、电脑、上位机等,具体通过半监督学习方法的自训练学习方法将少量已标注的数据和大量未标注的数据进行模型训练,以使训练后的模型确定未标注数据的标签后进行分类。
在本实施例中,由于在声音事件检测的过程中,真实场景下的音频数据很容易获取,因此我们有大量未标注的音频数据,预先获取大量音频数据生成音频数据集合,从音频数据集合中提取第一数量的符合预设要求的数据,或随机选择第一数量的音频数据生成第一音频数据集合,通过人工标记或提取音频特征的方式生成每个第一音频数据对应的第一标签,得到第一标签集合,生成第一标签与第一音频数据的对应关系,或通过第一标签标记对应的第一音频数据。
进一步的,将第一音频数据集合和对应的第一标签集合输入初始模型进行训练,该初始模型为半监督模型,训练预设时长后或初始模型收敛后,确定模型训练暂停,得到第一分类模型。
S12、根据所述第一分类模型确定第二音频数据集合对应的第二标签集合;
在本实施例中,第二音频数据为没有标签的音频数据,第二音频数据集合为音频数据集合中除第一音频数据集合以外的音频数据生成的集合(例如数据集DCASE 2018-Task4),第二音频数据的第二数量大于第一数量。
进一步的,将第二音频数据集合输入第一分类模型,以通过第一分类模型确定每个第二音频数据对应的伪标签,伪标签与第一标签的类型一致,将伪标签作为第二标签,得到第二标签集合,并分类输出标注有第二标签的第二音频数据集合。
S13、从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据;
在本实施例中,预先设置需要提取的第二标签和第二音频数据的预设数量,从生成的第二标签集合中选择预设数量个第二标签,确定预设数量个第二标签对应的第二音频数据作为预设数量个第二音频数据。
可选地,从每个第二音频数据中提取与标签相关的信息,根据与标签相关的信息确定每个第二标签的准确率(例如,第二音频数据中提取出与标签相关的信息为数字1,第二标签为1,故第二标签的准确率为百分之百),按照准确率从大到小对第二标签进行排序,从排序后的第二标签集合中选择前预设数量个第二标签,确定预设数量个第二标签对应的第二音频数据作为预设数量个第二音频数据。
S14、根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,得到训练好的第二分类模型。
在本实施例中,将第一音频数据集合、第一标签集合、提取的第二音频数据和提取的第二标签生成新的第一音频数据集合作为新的训练样本,将新的训练样本输入第一分类模型重新进行训练,迭代训练重复执行S11-S14的模型训练步骤,直到第一分类模型的性能不再增长,确定模型训练结束,得到训练好的第二分类模型。
本实施例提供的分类模型训练方法,通过将第一音频数据集合输入初始模型进行训练,得到第一分类模型,第一音频数据集合设置有对应的第一标签集合;根据第一分类模型确定第二音频数据集合对应的第二标签集合;从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据;根据第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,得到训练好的第二分类模型,以实现通过少量已标注的音频数据训练分类模型,无需预先生成大量音频数据的标签,降低了分类模型训练的复杂程度和成本,提高了分类的准确度。且基于半监督的分类模型有效增加了可用的数据量,一定程度改善小量标注数据的检测性能,促进更大规模更丰富事件种类的数据集建立,让模型不依赖于外界交互、自动地利用未标记样本来提升学习性能。
图2为本发明实施例提供的另一种分类模型训练方法的流程示意图,如图2所示,该方法具体包括:
S21、确定音频数据集合中每个音频数据的完整性;从所述音频数据集合中提取完整性符合第一预设条件的音频数据生成第一音频数据集合;
在本实施例中,首先获取多个声音生成音频数据集合,确定每个音频数据的数据完整性,判断每个音频数据的数据完整性是否符合第一预设条件,数据完整性符合第一预设条件表征音频数据是清晰完整且可靠的,不符合第一预设条件表征音频数据是不完整的、模糊的、或错误的。进一步的,将符合第一预设条件的数据完整性对应的音频数据作为第一音频数据,从音频数据集合中提取第一数量的第一音频数据生成第一音频数据集合。
可选地,当音频数据为语音时,可以识别每个音频数据的语义和格式,当无法识别出音频数据的语义(例如,语音中包含无法识别的词语),或格式不符合预设格式时确定音频数据不完整(例如,缺少主语、谓语或宾语,主语谓语和宾语的顺序错误等),当识别出音频数据的语义,且格式符合预设格式时确定音频数据完整。其中,预设格式可以是根据用户的语言习惯设置的格式。
S22、针对所述第一音频数据集合中每个第一音频数据提取类别信息和时间信息;根据所述类别信息和时间信息确定每个第一音频数据对应的第一标签;根据每个第一音频数据对应的第一标签生成第一标签集合;
在本实施例中,从每个第一音频数据中提取可以表征音频类别的特征作为类别信息,确定接收到第一音频数据的时刻或第一音频数据发生的时刻或第一音频数据中携带的时刻作为时间信息。将类别信息和时间信息作为每个第一音频数据对应的第一标签,或根据每个第一音频数据的类别信息和时间信息生成对应的标识作为第一标签。多个第一标签组成第一标签集合。
可选地,从音频数据集合中提取第一音频数据时可以优先选择音调的频率处于第一范围(例如,200~8000赫兹),和\或音量处于第二范围(例如,40-60分贝),和\或音色符合设定条件的音频数据作为第一音频数据。由此可以实现根据音调、音量或音色对音频数据进行筛选,优先选择符合用户需求的第一音频数据进行训练。
进一步的,获取第一音频数据的音调信息、音色信息和音量信息;将音调信息、音色信息、音量信息、类别信息和时间信息作为第一音频数据集合中每个第一音频数据对应的第一标签。
S23、将第一音频数据集合输入初始模型进行训练,得到第一分类模型;根据所述第一分类模型确定第二音频数据集合对应的第二标签集合;
在本实施例中,与图1中S11类似,具体可参照图1的相关描述,为简洁描述,在此不作赘述。
S24、确定所述第二标签集合中每个所述第二标签的置信度;从所述第二标签集合中提取置信度大于第一设定阈值的预设数量个第二标签并记录为第三标签;将所述第二音频数据集合中分别与所述第三标签对应的第二音频数据记录为第三音频数据;
在本实施例中,第二音频数据集合包括至少一个第二音频数据;第二标签集合包括至少一个第二标签;一个第二音频数据对应一个第二标签。通过第一分类模型确定每个第二标签的置信度,置信度用于表征第二标签的可靠性或准确性,当置信度大于第一设定阈值表征该第二标签的可靠性或准确性符合预设要求,说明此时可以将该第二标签和对应的第二音频数据作为训练数据继续输入模型进行训练。从第二标签集合中提取置信度大于第一设定阈值的预设数量个第二标签并记录为第三标签,从第二音频数据集合中确定与第三标签对应的预设数量个第二音频数据并记录为第三音频数据,其中,一个第三音频数据对应一个第三标签。
可选地,可以将第二标签集合中的第二标签按照置信度从大到小进行排序,从排序后的第二标签集合中选择前预设数量个第二标签并记录为第三标签。
可选地,从第二标签集合中确定置信度大于第一设定阈值的第二标签,从置信度大于第一设定阈值的第二标签中随机选择预设数量个第二标签并记录为第三标签。
可选地,由于第一标签可以由音调信息、音色信息、音量信息生成,故通过第一分类模型预测出的第二标签中也包含第二音频数据的音调信息、音色信息、音量信息,因此可以对第二标签集合中的每个第二标签进行解析,从解析后的第二标签中提取目标音调信息、目标音色信息和目标音量信息;根据目标音调信息、目标音色信息和目标音量信息确定每个第二标签对应的第二音频数据的属性信息,属性信息可以包括该音频的产生途径、音调和音量的具体数值等。
进一步的,判断属性信息是否符合第二预设条件,第二预设条件可以是:属性信息中的音频产生途径与预先设定的产生途径相同,音调的频率处于第一范围(例如,500~6000赫兹),音量处于第二范围(例如,45-60分贝),音色与预先设定的音色相同等。从第二音频数据集合中提取属性信息符合第二预设条件的预设数量个第二音频数据并记录为第三音频数据,将第二标签集合中分别与第三音频数据对应的第二标签记录为第三标签,其中,第三标签对应的置信度均大于第一设定阈值。
S25、根据第三音频数据更新所述第一音频数据集合,根据第三标签更新所述第一标签集合;
在本实施例中,将第三音频数据加入第一音频数据集合中,以使第一音频数据集合更新为新第一音频数据集合,将第三标签加入第一标签集合中,以使第一标签集合更新为新第一标签集合。
S26、将更新后的第一音频数据集合和更新后的第一标签集合输入第一分类模型进行迭代训练,直到输出数据对应的标签的准确率大于第二设定阈值时,确定模型训练结束,得到训练好的第二分类模型。
在本实施例中,将新第一音频数据集合和对应的新第一标签集合作为训练样本输入第一分类模型中进行训练,当训练预设时间或第一分类模型收敛后暂停训练,将除了上述预设数量个第二音频数据以外的第二音频数据作为新的第二音频数据集合,输入到训练后的第一分类模型中,重复执行上述步骤S24-S26,对第一分类模型进行重复迭代训练直到模型性能不再增长,且将第二音频数据输入第一分类模型后的输出的第二音频数据对应的第二标签的准确率大于第二设定阈值时,模型训练结束,得到训练好的第二分类模型。
可选地,可通过损失函数确定模型训练结束,或训练后的模型输出的第二标签的置信度全部大于第一设定阈值时,确定模型训练结束,得到训练好的第二分类模型。
本实施例提供的分类模型训练方法,通过确定音频数据集合中每个音频数据的完整性确定第一音频数据集合;根据第一音频数据的类别信息和时间信息确定第一标签集合;将第一音频数据集合输入初始模型训练,得到第一分类模型;根据第一分类模型确定第二音频数据集合对应的第二标签集合;根据第二标签的置信度选择预设数量个第二标签记录为第三标签和预设数量个第二音频数据记录为第三音频数据;根据第三音频数据更新第一音频数据集合,根据第三标签更新第一标签集合;根据更新后的第一音频数据集合和第一标签集合进行迭代训练,得到训练好的第二分类模型。以实现通过少量已标注的音频数据训练分类模型,无需预先生成大量音频数据的标签,降低了分类模型训练的复杂程度和成本,提高了分类的准确度。且基于半监督的分类模型有效增加了可用的数据量,一定程度改善小量标注数据的检测性能,促进更大规模更丰富事件种类的数据集建立,让模型不依赖于外界交互、自动地利用未标记样本来提升学习性能。
图3为本发明实施例提供的一种音频数据分类方法的流程示意图,如图3所示,该方法具体包括:
S31、将第四音频数据输入训练好的第二分类模型中;利用所述第二分类模型确定所述第四音频数据对应的第四标签;
S32、根据所述第四标签确定所述第四音频数据的类别信息和时间信息;根据所述类别信息和时间信息对所述第四音频数据进行分类,得到音频数据分类结果。
在本实施例中,将新获取到的无标签音频数据作为第四音频数据,输入到已经训练好的第二分类模型中进行预测。通过第二分类模型确定第四标签,根据第四标签对第四音频数据进行标注,并提取第四标签中的第四音频数据的类别信息和时间信息,基于类别信息和时间信息对第四音频数据进行分类,得到音频数据分类结果(例如,分类结果可以是第四音频数据为纯音乐类音频,或第四音频数据为三点到四点间产生的音频)。
可选地,可以从第四标签中提取第四音频数据的类别信息、时间信息、音调信息、音量信息和音色信息,基于类别信息、时间信息、音调信息、音量信息和音色信息对第四音频数据进行分类,得到音频数据分类结果。
具体的,音频数据分类结果可以是:根据类别信息分类的结果,类别信息可以表征第四音频数据中被识别出来的的含义,可以根据类别信息将第四音频数据分为:歌曲、对话、纯音乐等;和/或,根据时间信息分类的结果,时间信息表征第四音频数据产生的时间,可以将时间信息处于同一时间段的第四音频数据划分为同一类;和/或,根据音调信息分类的结果,音调信息可以表征声音的频率,根据音调信息可以将第四音频数据分为:高音、中音和低音等;和/或,根据音量信息分类的结果,音量信息可以表征声音的响度,根据音量信息可以将第四音频数据分为:能被人体感知和不能被人体感知、能被声音获取装置获取和不能被声音获取装置获取等;和/或,根据音色信息分类的结果,音色信息可以表征声音的产生途径,根据音色信息可以将第四音频数据分为:通过人体产生、通过动物产生、通过乐器产生和噪声等。
本实施例提供的音频数据分类方法,通过将第四音频数据输入训练好的第二分类模型中;利用所述第二分类模型确定所述第四音频数据对应的第四标签;根据所述第四标签确定所述第四音频数据的类别信息和时间信息;根据所述类别信息和时间信息对所述第四音频数据进行分类,得到音频数据分类结果。以实现快速确定音频数据对应的标签,并根据标签对音频数据进行标注,以及根据标签对音频数据进行分类,加快了对音频数据分类和标注速度以及准确度。
图4为本发明实施例提供的一种分类模型训练装置的结构示意图,如图4所示:
第一输入模块41,用于将第一音频数据集合输入初始模型进行训练,得到第一分类模型,所述第一音频数据集合设置有对应的第一标签集合;
第一处理模块42,用于根据所述第一分类模型确定第二音频数据集合对应的第二标签集合;
所述第一处理模块42,还用于从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据;
所述第一处理模块42,还用于根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,得到训练好的第二分类模型。
在一个可能的实施方式中,所述第一处理模块42,具体用于确定音频数据集合中每个音频数据的完整性;
从所述音频数据集合中提取完整性符合第一预设条件的音频数据生成第一音频数据集合;
针对所述第一音频数据集合中每个第一音频数据提取类别信息和时间信息;
根据所述类别信息和时间信息确定每个第一音频数据对应的第一标签;根据每个第一音频数据对应的第一标签生成第一标签集合。
在一个可能的实施方式中,所述第一处理模块42,具体用于获取所述第一音频数据的音调信息、音色信息和音量信息;
根据所述音调信息、所述音色信息、所述音量信息、所述类别信息和时间信息确定所述第一音频数据集合中每个第一音频数据对应的第一标签。
在一个可能的实施方式中,所述第一处理模块42,具体用于确定所述第二标签集合中每个所述第二标签的置信度;
从所述第二标签集合中提取置信度大于第一设定阈值的预设数量个第二标签作为所述预设数量个第二标签并记录为第三标签;
将所述第二音频数据集合中分别与所述第三标签对应的第二音频数据记录为第三音频数据。
在一个可能的实施方式中,所述第一处理模块42,具体用于针对所述第二标签集合中每个第二标签提取目标音调信息、目标音色信息和目标音量信息;
根据所述目标音调信息、目标音色信息和目标音量信息确定每个第二标签对应的第二音频数据的属性信息;
从所述第二音频数据集合中提取属性信息符合第二预设条件的预设数量个第二音频数据并记录为第三音频数据;
将所述第二标签集合中分别与所述第三音频数据对应的第二标签记录为第三标签,所述第三标签的置信度均大于第一设定阈值。
在一个可能的实施方式中,所述第一处理模块42,具体用于根据所述提取的第二音频数据更新所述第一音频数据集合,根据所述提取的第二标签更新所述第一标签集合;
将更新后的第一音频数据集合和更新后的第一标签集合输入第一分类模型进行迭代训练,直到输出数据对应的标签的准确率大于第二设定阈值时,确定模型训练结束,得到训练好的第二分类模型。
本实施例提供的分类模型训练装置可以是如图4中所示的装置,可执行如图1-2中分类模型训练方法的所有步骤,进而实现图1-2所示分类模型训练方法的技术效果,具体请参照图1-2相关描述,为简洁描述,在此不作赘述。
图5为本发明实施例提供的一种音频数据分类装置的结构示意图,如图5所示:
第二输入模块51,用于将第四音频数据输入训练好的第二分类模型中,所述第二分类模型由上述图1-2中任一所述分类模型训练方法训练得到,所述第四音频数据为无标签数据;
第二处理模块52,用于利用所述第二分类模型确定所述第四音频数据对应的第四标签;
所述第二处理模块52,还用于根据所述第四标签确定所述第四音频数据的类别信息和时间信息;
所述第二处理模块52,还用于根据所述类别信息和时间信息对所述第四音频数据进行分类,得到音频数据分类结果。
本实施例提供的音频数据分类装置可以是如图5中所示的装置,可执行如图3中音频数据分类方法的所有步骤,进而实现图3所示音频数据分类方法的技术效果,具体请参照图3相关描述,为简洁描述,在此不作赘述。
图6为本发明实施例提供的一种的计算机设备的结构示意图,图6所示的计算机设备600包括:至少一个处理器601、存储器602、至少一个网络接口604和其他用户接口603。计算机设备600中的各个组件通过总线系统605耦合在一起。可理解,总线系统605用于实现这些组件之间的连接通信。总线系统605除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图6中将各种总线都标为总线系统605。
其中,用户接口603可以包括显示器、键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
可以理解,本发明实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器 (Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器 (Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器602存储了如下的元素,可执行单元或者数据结构,或者他们的子集,或者他们的扩展集:操作系统6021和应用程序 6022。
其中,操作系统6021,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序6022,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序6022中。
在本发明实施例中,通过调用存储器602存储的程序或指令,具体的,可以是应用程序6022中存储的程序或指令,处理器601用于执行各方法实施例所提供的方法步骤,例如包括:
将第一音频数据集合输入初始模型进行训练,得到第一分类模型,所述第一音频数据集合设置有对应的第一标签集合;
根据所述第一分类模型确定第二音频数据集合对应的第二标签集合;
从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据;
根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,得到训练好的第二分类模型。
上述本发明实施例揭示的方法可以应用于处理器601中,或者由处理器601实现。处理器601可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array, FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器601读取存储器602中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSPDevice,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本实施例提供的计算机设备可以是如图6中所示的计算机设备,可执行如图1-3中方法的所有步骤,进而实现图1-3所示方法的技术效果,具体请参照图1-3相关描述,为简洁描述,在此不作赘述。
本发明实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中,存储介质可以包括易失性存储器,例如随机存取存储器;存储器也可以包括非易失性存储器,例如只读存储器、快闪存储器、硬盘或固态硬盘;存储器还可以包括上述种类的存储器的组合。
当存储介质中一个或者多个程序可被一个或者多个处理器执行,以实现上述在设备侧执行的方法。
所述处理器用于执行存储器中存储的程序,以实现以下在设备侧执行的方法的步骤:
将第一音频数据集合输入初始模型进行训练,得到第一分类模型,所述第一音频数据集合设置有对应的第一标签集合;
根据所述第一分类模型确定第二音频数据集合对应的第二标签集合;
从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据;
根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,得到训练好的第二分类模型。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种分类模型训练方法,其特征在于,包括:
将第一音频数据集合输入初始模型进行训练,得到第一分类模型,所述第一音频数据集合设置有对应的第一标签集合;
根据所述第一分类模型确定第二音频数据集合对应的第二标签集合;
从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据;
根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,得到训练好的第二分类模型;
所述从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据,包括:
针对所述第二标签集合中每个第二标签提取目标音调信息、目标音色信息和目标音量信息;
根据所述目标音调信息、目标音色信息和目标音量信息确定每个第二标签对应的第二音频数据的属性信息,所述属性信息包括音频数据的产生途径、音调和音量的具体数值;
从所述第二音频数据集合中提取属性信息符合第二预设条件的预设数量个第二音频数据并记录为第三音频数据,所述第二预设条件包括:所述产生途径与预先设定的产生途径相同,所述音调处于第一范围,所述音量处于第二范围。
2.根据权利要求1所述的方法,其特征在于,所述第一音频数据集合和第一标签集合通过以下方式确定:
确定音频数据集合中每个音频数据的完整性;
从所述音频数据集合中提取完整性符合第一预设条件的音频数据生成第一音频数据集合;
针对所述第一音频数据集合中每个第一音频数据提取类别信息和时间信息;
根据所述类别信息和时间信息确定每个第一音频数据对应的第一标签;根据每个第一音频数据对应的第一标签生成第一标签集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述类别信息和时间信息确定每个第一音频数据对应的第一标签,包括:
获取所述第一音频数据的音调信息、音色信息和音量信息;
根据所述音调信息、所述音色信息、所述音量信息、所述类别信息和时间信息确定所述第一音频数据集合中每个第一音频数据对应的第一标签。
4.根据权利要求1所述的方法,其特征在于,所述从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据,还包括:
将所述第二标签集合中分别与所述第三音频数据对应的第二标签记录为第三标签,所述第三标签的置信度均大于第一设定阈值。
5.根据权利要求1所述的方法,其特征在于,所述根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,包括:
根据所述提取的第二音频数据更新所述第一音频数据集合,根据所述提取的第二标签更新所述第一标签集合;
将更新后的第一音频数据集合和更新后的第一标签集合输入第一分类模型进行迭代训练,直到输出数据对应的标签的准确率大于第二设定阈值时,确定模型训练结束,得到训练好的第二分类模型。
6.一种音频数据分类方法,其特征在于,包括:
将第四音频数据输入训练好的第二分类模型中,所述第二分类模型由权利要求1~5中任一所述分类模型训练方法训练得到;
利用所述第二分类模型确定所述第四音频数据对应的第四标签;
根据所述第四标签确定所述第四音频数据的类别信息和时间信息;
根据所述类别信息和时间信息对所述第四音频数据进行分类,得到音频数据分类结果。
7.一种分类模型训练装置,其特征在于,包括:
第一输入模块,用于将第一音频数据集合输入初始模型进行训练,得到第一分类模型,所述第一音频数据集合设置有对应的第一标签集合;
第一处理模块,用于根据所述第一分类模型确定第二音频数据集合对应的第二标签集合;
所述第一处理模块,还用于从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据;
所述第一处理模块,还用于根据所述第一音频数据集合、所述第一标签集合、提取的第二音频数据和提取的第二标签对所述第一分类模型进行训练,得到训练好的第二分类模型;
所述从所述第二标签集合中提取预设数量个第二标签,从所述第二音频数据集合中提取预设数量个第二音频数据,包括:
针对所述第二标签集合中每个第二标签提取目标音调信息、目标音色信息和目标音量信息;
根据所述目标音调信息、目标音色信息和目标音量信息确定每个第二标签对应的第二音频数据的属性信息,所述属性信息包括音频数据的产生途径、音调和音量的具体数值;
从所述第二音频数据集合中提取属性信息符合第二预设条件的预设数量个第二音频数据并记录为第三音频数据,所述第二预设条件包括:所述产生途径与预先设定的产生途径相同,所述音调处于第一范围,所述音量处于第二范围。
8.一种计算机设备,其特征在于,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的分类模型训练程序,以实现权利要求1~5中任一项所述的分类模型训练方法,或实现如权利要求6所述的音频数据分类方法。
9.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现权利要求1~5中任一项所述的分类模型训练方法,或实现如权利要求6所述的音频数据分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211149185.3A CN115240659B (zh) | 2022-09-21 | 2022-09-21 | 分类模型训练方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211149185.3A CN115240659B (zh) | 2022-09-21 | 2022-09-21 | 分类模型训练方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115240659A CN115240659A (zh) | 2022-10-25 |
CN115240659B true CN115240659B (zh) | 2023-01-06 |
Family
ID=83680720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211149185.3A Active CN115240659B (zh) | 2022-09-21 | 2022-09-21 | 分类模型训练方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115240659B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115881103B (zh) * | 2022-11-23 | 2024-03-19 | 镁佳(北京)科技有限公司 | 语音情绪识别模型训练方法、语音情绪识别方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109461441A (zh) * | 2018-09-30 | 2019-03-12 | 汕头大学 | 一种自适应、无监督式的课堂教学活动智能感知方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8010357B2 (en) * | 2004-03-02 | 2011-08-30 | At&T Intellectual Property Ii, L.P. | Combining active and semi-supervised learning for spoken language understanding |
US9672814B2 (en) * | 2015-05-08 | 2017-06-06 | International Business Machines Corporation | Semi-supervised learning of word embeddings |
US20180052664A1 (en) * | 2016-08-16 | 2018-02-22 | Rulai, Inc. | Method and system for developing, training, and deploying effective intelligent virtual agent |
JP2018072560A (ja) * | 2016-10-28 | 2018-05-10 | 富士通株式会社 | 情報処理システム、情報処理装置及び情報処理方法 |
CN107808661B (zh) * | 2017-10-23 | 2020-12-11 | 中央民族大学 | 一种基于协作式批量主动学习的藏语语音语料标注方法及系统 |
CN110808049B (zh) * | 2018-07-18 | 2022-04-26 | 深圳市北科瑞声科技股份有限公司 | 语音标注文本修正方法、计算机设备和存储介质 |
CN110265001B (zh) * | 2019-05-06 | 2023-06-23 | 平安科技(深圳)有限公司 | 用于语音识别训练的语料筛选方法、装置及计算机设备 |
US11335347B2 (en) * | 2019-06-03 | 2022-05-17 | Amazon Technologies, Inc. | Multiple classifications of audio data |
CN111554287B (zh) * | 2020-04-27 | 2023-09-05 | 佛山市顺德区美的洗涤电器制造有限公司 | 语音处理方法及装置、家电设备和可读存储介质 |
US11568858B2 (en) * | 2020-10-17 | 2023-01-31 | International Business Machines Corporation | Transliteration based data augmentation for training multilingual ASR acoustic models in low resource settings |
CN114596844B (zh) * | 2022-03-18 | 2024-07-12 | 腾讯科技(深圳)有限公司 | 声学模型的训练方法、语音识别方法及相关设备 |
-
2022
- 2022-09-21 CN CN202211149185.3A patent/CN115240659B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109461441A (zh) * | 2018-09-30 | 2019-03-12 | 汕头大学 | 一种自适应、无监督式的课堂教学活动智能感知方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115240659A (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10937413B2 (en) | Techniques for model training for voice features | |
CN109087670B (zh) | 情绪分析方法、系统、服务器及存储介质 | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
JP2019079034A (ja) | 自己学習自然言語理解を伴うダイアログ・システム | |
TW202008349A (zh) | 語音標註方法、裝置及設備 | |
CN108766461B (zh) | 音频特征提取方法及装置 | |
CN103646046A (zh) | 一种浏览器中进行声音控制的方法、装置和浏览器 | |
CN109448704A (zh) | 语音解码图的构建方法、装置、服务器和存储介质 | |
CN112102813B (zh) | 基于用户评论中上下文的语音识别测试数据生成方法 | |
CN115240659B (zh) | 分类模型训练方法、装置、计算机设备及存储介质 | |
CN107885845B (zh) | 音频分类方法及装置、计算机设备及存储介质 | |
CN109637529A (zh) | 基于语音的功能定位方法、装置、计算机设备及存储介质 | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
CN111724781A (zh) | 音频数据的存储方法、装置、终端及存储介质 | |
JP2017058507A (ja) | 音声認識装置、音声認識方法、プログラム | |
KR102017229B1 (ko) | 발화 패턴의 무한성 개선을 위한 딥러닝 기반의 텍스트 문장 자동 생성시스템 | |
US20230335114A1 (en) | Evaluating reliability of audio data for use in speaker identification | |
CN116343771A (zh) | 一种基于知识图谱的音乐点播语音指令识别方法、装置 | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
CN113298185A (zh) | 模型训练方法、异常文件检测方法、装置、设备及介质 | |
CN112786023A (zh) | 标记模型构建方法及语音播报系统 | |
WO2021044606A1 (ja) | 学習装置、推定装置、それらの方法、およびプログラム | |
CN113159203A (zh) | 歌曲标记模型训练、歌曲标记方法、电子设备及存储介质 | |
US11900934B2 (en) | Method and apparatus for automatically extracting new function of voice agent based on usage log analysis | |
JP7376896B2 (ja) | 学習装置、学習方法、学習プログラム、生成装置、生成方法及び生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |