CN112700794B - 一种音频场景分类方法、装置、电子设备和存储介质 - Google Patents

一种音频场景分类方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112700794B
CN112700794B CN202110304711.8A CN202110304711A CN112700794B CN 112700794 B CN112700794 B CN 112700794B CN 202110304711 A CN202110304711 A CN 202110304711A CN 112700794 B CN112700794 B CN 112700794B
Authority
CN
China
Prior art keywords
scene
information
audio
training
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110304711.8A
Other languages
English (en)
Other versions
CN112700794A (zh
Inventor
白雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110304711.8A priority Critical patent/CN112700794B/zh
Publication of CN112700794A publication Critical patent/CN112700794A/zh
Application granted granted Critical
Publication of CN112700794B publication Critical patent/CN112700794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种音频场景分类方法、装置、电子设备和存储介质获取音频信息,对音频信息进行声学特征提取,得到第一声学特征信息和第二声学特征信息,并将第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息,将第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息。将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息,再将场景特征加权信息输入到场景分类网络中进行分类,得到场景分类结果。该方法可以获取音频信息中有区分性的音频片段,从而提高音频场景分类的准确性和有效性。

Description

一种音频场景分类方法、装置、电子设备和存储介质
技术领域
本公开涉及深度学习技术领域,尤其涉及一种音频场景分类方法、装置、电子设备和存储介质。
背景技术
声学场景分类属于计算机听觉场景分析中的非语音研究,它旨在通过音频流中的声学信息,识别音频流对应的特定场景语义标签,常见的声学场景包括商场、地铁、公园等。声学场景中携带了丰富的环境信息和物理事件,可以为场景分析、事件检测、声源定位等技术提供信息支撑,所以开发能够自动获取声学场景的识别模型具有广阔前景。相关技术中,通过可以采用浅层学习方法来对音频信息中的音频场景进行识别,但是浅层学习方法严重依赖于声学特征的设计且模型表达能力有限,降低了模型对音频场景的识别率。
发明内容
本公开提供一种音频场景分类方法、装置、电子设备和存储介质,以至少解决相关技术中音频场景的识别率低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种音频场景分类方法,所述方法包括:
获取待分类的音频信息;
对所述音频信息进行声学特征提取,得到第一声学特征信息和第二声学特征信息,所述第一声学特征信息表征所述音频信息的频谱信息,所述第二声学特征信息表征所述音频信息的频谱包络信息;
将所述第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息;
将所述第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息,所述音频场景信息表征所述音频信息中的声音事件单元在不同的声学场景中的重要程度;
将所述场景特征信息和所述音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息;
将所述场景特征加权信息输入到场景分类网络中进行场景分类,得到音频场景分类结果。
作为一个可选的实施例,所述声学场景分割模型包括声音事件获取层和声学场景分类层,所述将所述第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息包括:
在所述声音事件获取层中,对所述第二声学特征信息进行分割,得到声音事件单元序列;
在所述声学场景分类层中,根据预设的声学场景集,确定所述声音事件单元序列中每个声音事件单元对应的第一频率和第二频率,所述第一频率表征所述每个声音事件单元在每个声学场景中出现的频率,所述第二频率表征所述每个声音事件单元在所述声学场景集中出现的频率;
在所述声学场景分类层中,根据所述第一频率和所述第二频率,确定所述音频场景信息。
作为一个可选的实施例,所述场景特征信息包括多个场景特征信息,所述注意力模型包括预处理网络、第一注意力网络和第二注意力网络,所述将所述场景特征信息和所述音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息包括:
在所述预处理网络中,对所述多个场景特征信息进行均值池化,得到多个目标特征信息;
在所述预处理网络中,对所述多个目标特征信息进行均值处理,得到均值特征信息;
在所述第一注意力网络中,根据所述均值特征信息和所述音频场景信息,确定所述音频场景信息对应的场景加权信息;
在所述第二注意力网络中,根据所述场景加权信息和所述目标特征信息,确定所述目标特征信息对应的场景特征加权信息。
作为一个可选的实施例,所述音频场景信息包括多个音频场景信息,所述第一注意力网络包括第一相似度计算层、第一权重分布计算层和场景信息加权层,所述在所述第一注意力网络中,根据所述均值特征信息和所述音频场景信息,对所述音频场景信息的权重进行确定,得到场景加权信息包括:
在所述第一相似度计算层中,计算所述均值特征信息与每个音频场景信息间的第一相似度;
在所述第一权重分布计算层中,根据所述第一相似度,确定所述音频场景信息对应的第一权重分布;
在所述场景信息加权层中,根据所述第一权重分布,对每个音频场景信息进行加权平均,得到场景加权信息。
作为一个可选的实施例,所述第二注意力网络包括第二相似度计算层、第二权重分布计算层和特征信息加权层,所述在所述第二注意力网络中,根据所述场景加权信息和所述目标特征信息,对所述目标特征信息的权重进行确定,得到场景特征加权信息包括:
在所述第二相似度计算层中,确定所述场景加权信息与每个目标特征信息间的第二相似度;
在所述第二权重分布计算层中,根据所述第二相似度,确定所述目标特征信息对应的第二权重分布;
在所述特征信息加权层中,根据所述第二权重分布,对每个目标特征信息进行加权平均,得到场景特征加权信息。
作为一个可选的实施例,所述音频场景特征提取模型包括多个按序排列的卷积层,所述将所述第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息包括:
在所述多个按序排列的卷积层中,对所述第一声学特征信息进行场景特征提取,得到场景特征信息。
作为一个可选的实施例,所述场景分类网络包括多个全连接层和回归分类层,所述将所述场景特征加权信息输入到场景分类网络中进行场景分类,得到音频场景分类结果包括:
在所述多个全连接层中,对所述场景特征加权信息进行特征整合,得到全连接特征信息;
在所述回归分类层中,对所述全连接特征信息进行场景分类,得到音频场景分类结果。
作为一个可选的实施例,所述方法包括:
获取训练音频信息和所述训练音频信息对应的音频场景标注信息;
对所述训练音频信息进行声学特征提取,得到第一声学特征训练信息和第二声学特征训练信息,所述第一声学特征训练信息表征所述训练音频信息的频谱信息,所述第二声学特征训练信息表征所述训练音频信息的频谱包络信息;
将所述第一声学特征训练信息输入到训练音频场景特征提取模型中进行场景特征提取,得到场景特征训练信息;
将所述第二声学特征训练信息输入到训练声学场景分割模型中进行声学场景分析,得到音频场景训练信息,所述音频场景训练信息表征对所述训练音频信息中的声音事件单元在不同的训练声学场景中的重要程度;
将所述场景特征训练信息和所述音频场景训练信息输入到训练注意力模型中进行注意力学习,得到特征加权训练信息;
将所述特征加权训练信息输入到训练场景分类网络中进行场景分类,得到音频场景分类训练结果;
基于所述音频场景分类训练结果和所述音频场景标注信息,对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练,得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。
作为一个可选的实施例,所述音频场景训练信息包括多个音频场景训练信息,所述基于所述音频场景分类训练结果和所述音频场景标注信息,对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练,得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络包括:
根据所述音频场景分类训练结果和所述音频场景标注信息,确定场景误差数据;
计算两两音频场景训练信息间的场景相似度;
根据所述场景相似度,确定误差补偿数据;
根据所述场景误差数据和所述误差补偿数据,确定目标损失数据;
基于所述目标损失数据,对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练,得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。
根据本公开实施例的第二方面,提供一种音频场景分类装置,所述装置包括:
音频信息获取模块,被配置为执行获取待分类的音频信息;
声学特征提取模块,被配置为执行对所述音频信息进行声学特征提取,得到第一声学特征信息和第二声学特征信息,所述第一声学特征信息表征所述音频信息的频谱信息,所述第二声学特征信息表征所述音频信息的频谱包络信息;
场景特征提取模块,被配置为执行将所述第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息;
声学场景分析模块,被配置为执行将所述第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息,所述音频场景信息表征所述音频信息中的声音事件单元在不同的声学场景中的重要程度;
注意力学习模块,被配置为执行将所述场景特征信息和所述音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息;
场景分类模块,被配置为执行将所述场景特征加权信息输入到场景分类网络中进行场景分类,得到音频场景分类结果。
作为一个可选的实施例,所述声学场景分割模型包括声音事件获取层和声学场景分类层,所述声学场景分析模块包括:
声学特征分割单元,被配置为执行在所述声音事件获取层中,对所述第二声学特征信息进行分割,得到声音事件单元序列;
频率计算单元,被配置为执行在所述声学场景分类层中,根据预设的声学场景集,确定所述声音事件单元序列中每个声音事件单元对应的第一频率和第二频率,所述第一频率表征所述每个声音事件单元在每个声学场景中出现的频率,所述第二频率表征所述每个声音事件单元在所述声学场景集中出现的频率;
音频场景信息确定单元,被配置为执行在所述声学场景分类层中,根据所述第一频率和所述第二频率,确定所述音频场景信息。
作为一个可选的实施例,所述场景特征信息包括多个场景特征信息,所述注意力模型包括预处理网络、第一注意力网络和第二注意力网络,所述注意力学习模块包括:
均值池化单元,被配置为执行在所述预处理网络中,对所述多个场景特征信息进行均值池化,得到多个目标特征信息;
均值处理单元,被配置为执行在所述预处理网络中,对所述多个目标特征信息进行均值处理,得到均值特征信息;
第一注意力学习单元,被配置为执行在所述第一注意力网络中,根据所述均值特征信息和所述音频场景信息,确定所述音频场景信息对应的场景加权信息;
第二注意力学习单元,被配置为执行在所述第二注意力网络中,根据所述场景加权信息和所述目标特征信息,确定所述目标特征信息对应的场景特征加权信息。
作为一个可选的实施例,所述音频场景信息包括多个音频场景信息,所述第一注意力网络包括第一相似度计算层、第一权重分布计算层和场景信息加权层,所述第一注意力学习单元包括:
第一相似度计算单元,被配置为执行在所述第一相似度计算层中,计算所述均值特征信息与每个音频场景信息间的第一相似度;
第一权重分别布计算单元,被配置为执行在所述第一权重分布计算层中,根据所述第一相似度,确定所述音频场景信息对应的第一权重分布;
场景信息加权单元,被配置为执行在所述场景信息加权层中,根据所述第一权重分布,对每个音频场景信息进行加权平均,得到场景加权信息。
作为一个可选的实施例,所述第二注意力网络包括第二相似度计算层、第二权重分布计算层和特征信息加权层,所述第二注意力学习单元包括:
第二相似度计算单元,被配置为执行在所述第二相似度计算层中,计算所述场景加权信息与每个目标特征信息间的第二相似度;
第二权重分布计算单元,被配置为执行在所述第二权重分布计算层中,根据所述第二相似度,确定所述目标特征信息对应的第二权重分布;
特征信息加权单元,被配置为执行在所述特征信息加权层中,根据所述第二权重分布,对每个目标特征信息进行加权平均,得到场景特征加权信息。
作为一个可选的实施例,所述音频场景特征提取模型包括多个按序排列的卷积层,所述场景特征提取模块包括:
场景特征提取单元,被配置为执行在所述多个按序排列的卷积层中,对所述第一声学特征信息进行场景特征提取,得到场景特征信息。
作为一个可选的实施例,所述场景分类网络包括多个全连接层和回归分类层,所述场景分类模块包括:
全连接单元,被配置为执行在所述多个全连接层中,对所述场景特征加权信息进行特征整合,得到全连接特征信息;
回归分类单元,被配置为执行在所述回归分类层中,对所述全连接特征信息进行场景分类,得到音频场景分类结果。
作为一个可选的实施例,所述装置包括:
训练信息获取模块,被配置为执行获取训练音频信息和所述训练音频信息对应的音频场景标注信息;
声学训练特征提取模块,被配置为执行对所述训练音频信息进行声学特征提取,得到第一声学特征训练信息和第二声学特征训练信息,所述第一声学特征训练信息表征所述训练音频信息的频谱信息,所述第二声学特征训练信息表征所述训练音频信息的频谱包络信息;
场景训练特征提取模块,被配置为执行将所述第一声学特征训练信息输入到训练音频场景特征提取模型中进行场景特征提取,得到场景特征训练信息;
声学场景分析训练模块,被配置为执行将所述第二声学特征训练信息输入到训练声学场景分割模型中进行声学场景分析,得到音频场景训练信息,所述音频场景训练信息表征对所述训练音频信息中的声音事件单元在不同的训练声学场景中的重要程度;
注意力学习训练模块,被配置为执行将所述场景特征训练信息和所述音频场景训练信息输入到训练注意力模型中进行注意力学习,得到特征加权训练信息;
场景分类训练模块,被配置为执行将所述特征加权训练信息输入到训练场景分类网络中进行场景分类,得到音频场景分类训练结果;
模型训练模块,被配置为执行基于所述音频场景分类训练结果和所述音频场景标注信息,对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练,得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。
作为一个可选的实施例,所述音频场景训练信息包括多个音频场景训练信息,所述模型训练模块包括:
场景误差数据确定单元,被配置为执行根据所述音频场景分类训练结果和所述音频场景标注信息,确定场景误差数据;
场景相似度计算单元,被配置为执行计算两两音频场景训练信息间的场景相似度;
误差补偿数据确定单元,被配置为执行根据所述场景相似度,确定误差补偿数据;
目标损失数据确定单元,被配置为执行根据所述场景误差数据和所述误差补偿数据,确定目标损失数据;
模型训练单元,被配置为执行基于所述目标损失数据,对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练,得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。
根据本公开实施例的第三方面,提供一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上述所述的音频场景分类方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上述所述的音频场景分类方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现上述所述的音频场景分类方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
获取音频信息,对音频信息进行声学特征提取,得到第一声学特征信息和第二声学特征信息,并将第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息,将第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息。将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息,再将场景特征加权信息输入到场景分类网络中进行分类,得到场景分类结果。该方法可以获取音频信息中有区分性的音频片段,从而提高音频场景分类的准确性和有效性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种音频场景分类方法的应用场景示意图。
图2是根据一示例性实施例示出的一种音频场景分类方法的流程图。
图3是根据一示例性实施例示出的一种音频场景分类方法的声学场景分析的流程图。
图4是根据一示例性实施例示出的一种音频场景分类方法的注意力学习的流程图。
图5是根据一示例性实施例示出的一种音频场景分类方法的在第一次注意力学习中获取场景加权信息的流程图。
图6是根据一示例性实施例示出的一种音频场景分类方法的在第二次注意力学习中获取场景特征加权信息的流程图。
图7是根据一示例性实施例示出的一种音频场景分类方法的模型训练的流程图。
图8是根据一示例性实施例示出的一种音频场景分类方法的模型训练的示意图。
图9是根据一示例性实施例示出的一种音频场景分类方法的计算目标损失数据并利用目标损失数据进行模型训练的流程图。
图10是根据一示例性实施例示出的一种音频场景分类方法的模型示意图。
图11是根据一示例性实施例示出的一种音频场景分类装置的框图。
图12是根据一示例性实施例示出的一种服务器侧电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在具体描述本实施例之前,为了便于理解,首先对常用的关键术语进行介绍和解释:
梅尔倒频谱系数(Mel-Frequency Cipstal Coefficients, MFCC):是一组用来建立梅尔倒频谱的关键系数,可以表示梅尔频谱图的包络信息。
对数梅尔频谱(log Mel Filter Bank,LMFB):是一个可用来代表短期音讯的频谱,其为以非线性的梅尔刻度表示的对数频谱。
图1是根据一示例性实施例示出的一种音频场景分类方法的应用场景示意图,如图1所示,该应用场景包括服务器110和客户端120,客户端120发送待分类的音频信息到服务器110中,服务器110对音频信息进行声学特征提取,得到第一声学特征信息和第二声学特征信息,服务器110将第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息,服务器110将第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息,服务器110将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息,再将场景特征加权信息输入到场景分类网络中进行分类,得到场景分类结果。服务器120将场景分类结果发送到客户端120。
在本公开实施例中,服务器110可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。服务器110可以包括有网络通信单元、处理器和存储器等等。具体的,服务器110可以用于对音频信息对应的音频场景进行识别,输出音频场景分类结果。
在本发明实施例中,客户端120包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。本申请实施例中实体设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、Unix、windows等。客户端120包括UI(User Interface,用户界面)层,客户端120通过UI层对外提供音频场景分类结果的显示,另外,基于API(ApplicationProgramming Interface,应用程序接口)将音频信息发送给服务器110。
图2是根据一示例性实施例示出的一种音频场景分类方法的流程图,如图2所示,该方法用于服务器中,包括以下步骤。
S210.获取待分类的音频信息;
S220.对音频信息进行声学特征提取,得到第一声学特征信息和第二声学特征信息,第一声学特征信息表征音频信息的频谱信息,第二声学特征信息表征音频信息的频谱包络信息;
作为一个可选的实施例,音频信息可以为双声道音频或单声道音频。若音频信息为双声道音频,则先计算左右通道的音频信息的平均值,将双声道音频转换为单声道音频,然后从单声道音频中分别提取第一声学特征信息和第二声学特征信息。第一声学特征信息表征音频信息的频谱信息,可以为对数梅尔频谱(log Mel Filter Bank,LMFB)。第二声学特征信息表征音频信息的频谱包络信息,可以为梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient,MFCC)。服务器对音频信息进行声学特征提取时,可以分别设置第一声学特征信息的特征提取参数和第二声学特征信息的特征提取参数,第一声学特征信息的特征提取参数可以包括采样率、帧长、帧移、窗方法、梅尔滤波器和倒谱系数,第一声学特征信息的特征提取参数可以包括采样率、帧长、帧移、窗方法和梅尔滤波器。LMFB作为音频场景特征提取模型的输入特征,可以是一个大小为
Figure 225337DEST_PATH_IMAGE001
三维张量,其中
Figure 296061DEST_PATH_IMAGE002
为LMFB的尺寸,
Figure 349468DEST_PATH_IMAGE003
为通道数。
作为一个可选的实施例,LMFB的特征提取参数可以为:采样率为48000Hz,帧长为40ms,帧移为20ms,窗方法为汉明窗,梅尔滤波器的个数为128。服务器根据LMFB的特征提取参数,对音频信息进行特征提取,得到128维的特征向量。该128维的特征向量为第一声学特征信息。
作为一个可选的实施例,MFCC的特征提取参数可以为:采样率为48000Hz,帧长为40ms,帧移为20ms,窗方法为汉明窗,梅尔滤波器的个数为40,倒谱系数取20维,该倒谱系数的维数可以包括第零维。服务器根据MFCC的特征提取参数,对音频信息进行特征提取,并将提取到的MFCC做一阶差分和二阶差分,得到60维的特征向量。该60维的特征向量为第二声学特征信息。
对音频信息进行声学特征提取,得到不同的声学特征,可以利用不同的声学特征分别进行场景特征提取和声学场景分析,根据不同的声学特征中不同侧重的特征表达,可以获取多个维度的特征信息,从而提高音频场景分类的识别率。
S230.将第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息;
作为一个可选的实施例,音频场景特征提取模型包括多个按序排列的卷积层,将第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息,该方法包括:
在多个按序排列的卷积层中,对第一声学特征信息进行场景特征提取,得到场景特征信息。
将当前进行特征提取的卷积层作为当前卷积层,在当前卷积层不为第一个卷积层的情况下,对当前卷积层的上一卷积层对应的特征信息进行场景特征提取,得到当前卷积层对应的特征信息。在当前卷积层为第一个卷积层的情况下,对第一声学特征信息进行场景特征提取,得到第一个卷积层对应的特征信息。在多个按序排列的卷积层中,逐层进行特征提取,可以得到多尺度的场景特征信息。
作为一个可选的实施例,音频场景特征提取模型可以为卷积神经网络模型(Convolutional Neural Networks,CNN),包括多个按序排列的卷积层,在多个按序排列的卷积层的每个卷积层中可以包括卷积特征提取层、归一化处理层、激活处理层和最大值池化层。在归一化处理层中,服务器可以利用批量归一化(BatchNorm,BN)的方法进行归一化处理。在激活处理层中,服务器可以将线性整流单元(Rectified Linear Unit,ReLU)作为激活函数,将每个卷积特征提取层中提取到的特征映射到每个卷积特征提取层的下一卷积特征提取层的输入端。在最大值池化层中,服务器可以对最大值池化层对应的卷积层中提取到的特征进行最大值池化。
作为一个可选的实施例,第一声学特征信息可以为LMFB,LMFB可以为一个大小为
Figure 126931DEST_PATH_IMAGE001
三维张量,其中
Figure 607591DEST_PATH_IMAGE002
为LMFB的尺寸,
Figure 900032DEST_PATH_IMAGE003
为通道数。音频场景特征提取模型输出的场景特征信息可以为
Figure 757130DEST_PATH_IMAGE004
的三维张量,其中表示
Figure 389099DEST_PATH_IMAGE006
频域维,
Figure 40661DEST_PATH_IMAGE007
表示时域维,
Figure 85977DEST_PATH_IMAGE008
表示通道数。
如下表所示为音频场景特征提取模型中卷积层的结构,音频场景特征提取模型包括五个按序排列的卷积层。
Figure 418869DEST_PATH_IMAGE009
其中,第一个卷积层中的卷积特征提取层为二维卷积,卷积核(kernel)为3x3,填充为0的数量(pad)为2,即在输入特征周围需要填充两圈0,滑动步长(stride)为2,通道数为64。第一个卷积层中的有两个归一化处理层和两个激活处理层,以及一个最大值池化层,最大值池化层中卷积核(kernel)为2x2,滑动步长(stride)为2。
第二个卷积层中的卷积特征提取层为一维卷积,卷积核(kernel)为3x3,填充为0的数量(pad)为1,即在输入特征周围需要填充一圈0,滑动步长(stride)为2,通道数为128。第第二个卷积层中的卷积特征提取层后连接两个归一化处理层和两个激活处理层,以及一个最大值池化层,最大值池化层中卷积核(kernel)为2x2,滑动步长(stride)为2。
第三个卷积层中的卷积特征提取层为一维卷积,卷积核(kernel)为3x3,填充为0的数量(pad)为1,即在输入特征周围需要填充一圈0,滑动步长(stride)为2,通道数为256。第三个卷积层中的卷积特征提取层后连接三个归一化处理层和三个激活处理层,以及一个最大值池化层,最大值池化层中卷积核(kernel)为2x2,滑动步长(stride)为2。
第四个卷积层中的卷积特征提取层为一维卷积,卷积核(kernel)为3x3,填充为0的数量(pad)为1,即在输入特征周围需要填充一圈0,滑动步长(stride)为2,通道数为512。第四个卷积层中的卷积特征提取层连接三个归一化处理层和三个激活处理层,以及一个最大值池化层,最大值池化层中卷积核(kernel)为2x2,滑动步长(stride)为2。
第五个卷积层中有两个卷积特征提取层,第一个卷积特征提取层为一维卷积,卷积核(kernel)为3x3,填充为0的数量(pad)为1,即在输入特征周围需要填充一圈0,滑动步长(stride)为2,通道数为512。第一个卷积特征提取层后连接有两个归一化处理层和两个激活处理层。第二个卷积特征提取层为一维卷积,卷积核(kernel)为3x3,填充为0的数量(pad)为1,即在输入特征周围需要填充一圈0,滑动步长(stride)为2,通道数为405。第二个卷积特征提取层后连接一个归一化处理层和一个激活处理层,以及一个最大值池化层,最大值池化层中卷积核(kernel)为2x2,滑动步长(stride)为2。
利用卷积神经网络对第一声学特征信息进行特征提取,可以获取第一声学特征信息中的有效的特征信息,可以提高音频场景分类的有效性。
S240.将第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息,音频场景信息表征音频信息中的声音事件单元在不同的声学场景中的重要程度;
作为一个可选的实施例,将第二声学特征信息输入到声学场景分割模型中,确定第二声学特征信息中的声音事件单元与不同的声学场景间的关联程度,在声学场景分割模型中,根据第二声学特征信息中的声音事件单元与不同的声学场景间的关联程度,得到声音事件单元在不同声学场景中的重要程度,可以得到音频场景信息。
作为一个可选的实施例,请参见图3,声学场景分割模型包括声音事件获取层和声学场景分类层,将第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息包括:
S310.在声音事件获取层中,对第二声学特征信息进行分割,得到声音事件单元序列;
S320.在声学场景分类层中,根据预设的声学场景集,确定声音事件单元序列中每个声音事件单元对应的第一频率和第二频率,第一频率表征每个声音事件单元在每个声学场景中出现的频率,第二频率表征每个声音事件单元在声学场景集中出现的频率;
S330.在声学场景分类层中,根据第一频率和第二频率,确定音频场景信息。
作为一个可选的实施例,声学场景分割模型可以为声学分段模型(AcousticSegment Model,ASM)。服务器将第二声学特征信息输入到声学场景分割模型中的声音事件获取层,将第二声学特征信息分割为声音事件单元序列(ASMs序列)。
声学场景分割模型中有预设的声学场景集,服务器将声音事件单元序列输入到声学场景分割模型的声学场景分类层中,可以利用文本分类的方法,在声学场景分类层中对声音事件单元进行分类。文本分类的方法可以为词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)的方法。在使用TF-IDF方法时,计算声音事件单元序列中每个声音事件单元在每个声学场景中出现的频率,得到第一频率,也就是TF。计算声音事件单元序列中每个声音事件单元在声学场景集中出现的频率,得到第二频率,也就是IDF。
在声学场景分类层中,将第一频率和第二频率相乘,可以得到音频场景信息。每个声学场景均存在对应的音频场景信息,音频场景信息为不同的声学场景的向量表征,即每类声学场景的嵌入式向量(embedding),可以表征音频信息中的声音事件单元在不同的声学场景中的重要程度。如下公式所示:
Figure 967662DEST_PATH_IMAGE010
其中,
Figure 55704DEST_PATH_IMAGE011
为音频场景信息,
Figure 260420DEST_PATH_IMAGE012
为场景类别数,
Figure 459321DEST_PATH_IMAGE013
表示所有声学场景对应的音频场景信息的集合,
Figure 862620DEST_PATH_IMAGE014
为音频场景信息的维数。
作为一个可选的实施例,在使用TF-IDF方法时,服务器可以先确定音频信息对应的声音单元事件序列中与预设的声学场景共有的声音事件单元,这些共有的声音事件单元可以作为有效特征。当存在多个共有的声音事件单元时,那么也存在多个第一频率和对应的多个第二频率,得到的音频场景信息即为第一频率和第二频率乘积的和值。
作为一个可选的实施例,每个声音事件单元对应的声音片段可以包括一个或多个,音频场景信息的维数可以等于单字组(unigram)和多元组计数的有效特征总和,单字组为一元分词,对应的声音事件单元包括一个声音片段,多元组为多元分词,对应的声音事件单元包括多个声音片段,例如,多元组可以为二元组(bigram),对应的声音事件单元包括两个声音片段。
作为一个可选的实施例,声学场景分割模型中有预设的声学场景集,声学场景集中包括十个不同的声学场景,其中声学场景X为公交车声学场景。在声音事件单元序列中存在三个与公交车声学场景共有的声音事件单元,声音事件单元a为车门开启的声音,声音事件单元b为车内语音播报的声音,声音事件单元c为车内语音播报的声音和车门开启的声音。计算声音事件单元a在声学场景X中出现的频率a1,计算声音事件单元a在声学场景集中出现的频率a2,将a1乘以a2得到向量表征aX。计算声音事件单元b在声学场景X中出现的频率b1,计算声音事件单元b在声学场景集中出现的频率b2,将b1乘以b2得到向量表征bX。计算声音事件单元c在声学场景X中出现的频率c1,计算声音事件单元c在声学场景集中出现的频率c2,将c1乘以c2得到向量表征cX。根据向量表征aX、向量表征bX和向量表征cX,得到声学场景X对应的音频场景信息x。声学场景分割模型一共输出十个音频场景信息,分别对应声学场景集中不同的声学场景。
在声学场景分割模型中,对第二声学特征信息进行声学场景分析,得到每个声学场景对应的音频场景信息,可以为后续注意力学习提供先验信息,从而提高注意力模型的准确性。
S250.将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息;
作为一个可选的实施例,将场景特征信息和音频场景信息输入到注意力模型中进行两次注意力学习,得到场景特征加权信息。在注意力模型中,对音频场景信息进行注意力学习,对场景特征信息进行注意力学习,可以得到场景特征加权信息。
作为一个可选的实施例,请参见图4,场景特征信息包括多个场景特征信息,注意力模型包括预处理网络、第一注意力网络和第二注意力网络,将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息包括:
S410.在预处理网络中,对多个场景特征信息进行均值池化,得到多个目标特征信息;
S420.在预处理网络中,对多个目标特征信息进行均值处理,得到均值特征信息;
S430.在第一注意力网络中,根据均值特征信息和音频场景信息,确定音频场景信息对应的场景加权信息;
S440.在第二注意力网络中,根据场景加权信息和目标特征信息,确定目标特征信息对应的场景特征加权信息。
作为一个可选的实施例,服务器将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习。服务器将场景特征信息输入到预处理网络中,对多个场景特征信息进行均值池化,得到多个目标特征信息。场景特征信息可以为三维张量
Figure 121563DEST_PATH_IMAGE004
,其中
Figure 813576DEST_PATH_IMAGE006
表示频域维,
Figure 550587DEST_PATH_IMAGE007
表示时域维,
Figure 73973DEST_PATH_IMAGE008
表示通道数。在均值池化时,将
Figure 441500DEST_PATH_IMAGE006
均值池化为1,将三维张量
Figure 417546DEST_PATH_IMAGE004
变为二维张量
Figure 958249DEST_PATH_IMAGE015
,二维张量
Figure 539403DEST_PATH_IMAGE015
即为目标特征信息。根据时域维
Figure 874570DEST_PATH_IMAGE007
对应的音频帧,可以将目标特征信息表示为如下公式:
Figure 603491DEST_PATH_IMAGE016
其中,
Figure 682306DEST_PATH_IMAGE017
表示第
Figure 117966DEST_PATH_IMAGE018
帧的目标特征信息,
Figure 624034DEST_PATH_IMAGE014
为目标特征信息的维数。
在预处理网络中,计算多个目标特征信息的平均值,将平均值作为均值特征信息,可以将均值特征信息表示为如下公式:
Figure 840252DEST_PATH_IMAGE019
其中,
Figure 660440DEST_PATH_IMAGE020
为均值特征信息,利用均值特征信息可以表达音频信息对应的当前音频场景。将均值特征信息中的通道数
Figure 12924DEST_PATH_IMAGE008
设为音频场景信息的维数
Figure 955472DEST_PATH_IMAGE014
,使得均值特征信息和音频场景信息的维度匹配。
服务器将均值特征信息和音频场景信息输入到第一注意力网络中进行第一次注意力学习,确定音频场景信息对应的场景加权信息,场景加权信息可以表征音频信息对应的当前音频场景与不同的声学场景间的相关度。服务器再将场景加权信息和目标特征信息输入到第二注意力网络中进行第二次注意力学习,确定目标特征信息对应的场景特征加权信息。场景特征加权信息为注意力模型的输出。场景特征加权信息为音频信息对应的当前音频场景中的区分性信息,可以在场景分类网络中进一步确定音频信息对应的当前音频场景的类别。
利用注意力模型,可以为不同帧的音频信息分配不同的权重,从而使得输入到场景分类网络中的特征信息具有更好的区分性,可以提高场景分类的准确性。
作为一个可选的实施例,请参见图5,音频场景信息包括多个音频场景信息,第一注意力网络包括第一相似度计算层、第一权重分布计算层和场景信息加权层,在第一注意力网络中,根据均值特征信息和音频场景信息,对音频场景信息的权重进行确定,得到场景加权信息包括:
S510.在第一相似度计算层中,计算均值特征信息与每个音频场景信息间的第一相似度;
S520.在第一权重分布计算层中,根据第一相似度,确定音频场景信息对应的第一权重分布;
S530.在场景信息加权层中,根据第一权重分布,对每个音频场景信息进行加权平均,得到场景加权信息。
作为一个可选的实施例,服务器将均值特征信息与音频场景信息输入到第一注意力网络的第一相似度计算层中进行相似度计算。计算相似度时,计算均值特征信息
Figure 331090DEST_PATH_IMAGE020
与每个音频场景信息
Figure 751707DEST_PATH_IMAGE011
间的相似度,将该相似度作为第一相似度。服务器将第一相似度输入到第一注意力网络的第一权重分布计算层中,利用Softmax函数和第一相似度,计算音频场景信息对应的注意力权重分布,得到第一权重分布。第一权重分布的计算公式如下:
Figure 224276DEST_PATH_IMAGE021
其中,
Figure 9830DEST_PATH_IMAGE022
为第一权重分布。
Figure 935061DEST_PATH_IMAGE023
表示均值特征信息
Figure 159369DEST_PATH_IMAGE020
与每个音频场景信息
Figure 486445DEST_PATH_IMAGE011
间的相似度,利用Softmax函数将第一相似度映射为0到1间的数据,即得到每一类音频场景信息对应的权重,也就是第一权重分布。服务器将第一权重分布输入到场景信息加权层中,对每个音频场景信息进行加权平均,得到场景加权信息。场景加权信息的计算公式如下:
Figure 708479DEST_PATH_IMAGE024
其中,
Figure 121005DEST_PATH_IMAGE025
为场景加权信息。作为一个可选的实施例,音频场景信息包括音频场景信息1,音频场景信息2,音频场景信息3。计算每个音频场景信息和均值特征信息
Figure 883425DEST_PATH_IMAGE020
间的第一相似度。利用Softmax函数将计算得到的三个第一相似度映射为0到1间的数据,得到第一权重分布
Figure 2691DEST_PATH_IMAGE022
为(0.2、0.3、0.5),则可以确定音频场景信息1对应的权重为0.2,音频场景信息2对应的权重为0.3,音频场景信息3对应的权重为0.5,从而根据第一权重分布
Figure 457943DEST_PATH_IMAGE022
对音频场景信息1,音频场景信息2,音频场景信息3进行加权平均,得到场景加权信息。
在第一注意力网络中,对音频场景信息进行加权,可以得到音频信息对应的当前音频场景与不同的声学场景间的关联,以提高在第二注意力网络中获取场景特征加权信息的准确性。
作为一个可选的实施例,请参见图6,第二注意力网络包括第二相似度计算层、第二权重分布计算层和特征信息加权层,在第二注意力网络中,根据场景加权信息和目标特征信息,对目标特征信息的权重进行确定,得到场景特征加权信息包括:
S610.在第二相似度计算层中,确定场景加权信息与每个目标特征信息间的第二相似度;
S620.在第二权重分布计算层中,根据第二相似度,确定目标特征信息对应的第二权重分布;
S630.在特征信息加权层中,根据第二权重分布,对每个目标特征信息进行加权平均,得到场景特征加权信息。
作为一个可选的实施例,服务器将场景加权信息和目标特征信息输入到第二注意力网络的第二相似度计算层中进行相似度计算,计算相似度时,计算场景加权信息
Figure 357766DEST_PATH_IMAGE025
和每个目标特征信息
Figure 861559DEST_PATH_IMAGE017
间的相似度,得到第二相似度。服务器将第二相似度输入到第二注意力网络的第二权重分布计算层中,利用Softmax函数和第二相似度,计算场景特征信息对应的注意力权重分布,得到第二权重分布。第二权重分布的计算公式如下:
Figure 897649DEST_PATH_IMAGE026
其中,
Figure 523802DEST_PATH_IMAGE027
为第二权重分布。
Figure 910921DEST_PATH_IMAGE028
表示场景加权信息
Figure 952826DEST_PATH_IMAGE025
和每个目标特征信息
Figure 109001DEST_PATH_IMAGE017
间的相似度,利用Softmax函数将第二相似度映射为0到1间的数据,即得到每一类场景特征信息对应的权重,也就是第二权重分布。服务器将第二权重分布输入到特征信息加权层中,对每个场景特征信息进行加权平均,得到场景特征加权信息。场景特征加权信息的计算公式如下:
Figure 906056DEST_PATH_IMAGE029
其中,
Figure 452575DEST_PATH_IMAGE030
为场景特征加权信息。作为一个可选的实施例,目标特征信息包括目标特征信息1,目标特征信息2和目标特征信息3,计算场景加权信息和每个目标特征信息间的第二相似度,利用Softmax函数将计算得到的三个第二相似度映射为0到1间的数据,得到第二权重分布
Figure 626067DEST_PATH_IMAGE027
为(0.1,0.3,0.6),则可以确定目标特征信息1对应的权重为0.1,目标特征信息2对应的权重为0.3,目标特征信息3对应的权重为0.6,从而根据第二权重分布
Figure 636748DEST_PATH_IMAGE027
对目标特征信息1,目标特征信息2和目标特征信息3进行加权平均,得到场景特征加权信息。
在第二注意力网络中,对场景特征信息进行加权,得到场景特征加权信息,可以得到当前音频场景中的区分性信息,从而提高场景分类的准确性。
S260.将场景特征加权信息输入到场景分类网络中进行场景分类,得到音频场景分类结果。
作为一个可选的实施例,场景分类网络包括多个全连接层和回归分类层,将场景特征加权信息输入到场景分类网络中进行场景分类,得到音频场景分类结果包括:
在多个全连接层中,对场景特征加权信息进行特征整合,得到全连接特征信息;
在回归分类层中,对全连接特征信息进行场景分类,得到音频场景分类结果。
作为一个可选的实施例,服务器将场景特征加权信息输入到场景分类网络中的多个全连接层中,全连接层中的每个神经元与前一层的所有神经元连接,在全连接层中,可以整合注意力模型输出的场景特征加权信息,并将整合后得到全连接特征信息输入到回归分类层中。在回归分类层中,可以采用Softmax函数进行回归分类,将全连接特征信息映射为0到1间的数据,从而确定音频信息对应的当前音频场景,输出音频场景分类结果。
作为一个可选的实施例,声学场景包括十个不同的声学场景,在经过Softmax函数进行回归分类,若回归分类的结果为(0.01,0.21,0.17,0.06,0.08,0.23,0.14,0.03,0.05,0.02),则可以确定0.23对应的声学场景为音频信息对应的当前音频场景,若0.23在预设的十个声学场景中对应的声学场景为地铁场景,则音频信息对应的当前音频场景为地铁场景,输出音频场景分类结果。
在场景分类网络中,对场景特征加权信息进行分类,得到音频场景分类结果。通过全连接层和回归分类层的结构,可以减少特征位置对分类的影响,从而提高场景分类的准确性。
图7是根据一示例性实施例示出的一种音频场景分类方法的模型训练流程图,该模型训练方法包括:
S710.获取训练音频信息和训练音频信息对应的音频场景标注信息;
S720.对训练音频信息进行声学特征提取,得到第一声学特征训练信息和第二声学特征训练信息,第一声学特征训练信息表征训练音频信息的频谱信息,第二声学特征训练信息表征训练音频信息的频谱包络信息;
S730.将第一声学特征训练信息输入到训练音频场景特征提取模型中进行场景特征提取,得到场景特征训练信息;
S740.将第二声学特征训练信息输入到训练声学场景分割模型中进行声学场景分析,得到音频场景训练信息,音频场景训练信息表征对训练音频信息中的声音事件单元在不同的训练声学场景中的重要程度;
S750.将场景特征训练信息和音频场景训练信息输入到训练注意力模型中进行注意力学习,得到特征加权训练信息;
S760.将特征加权训练信息输入到训练场景分类网络中进行场景分类,得到音频场景分类训练结果;
S770.基于音频场景分类训练结果和音频场景标注信息,对训练音频场景特征提取模型、训练声学场景分割模型、训练注意力模型和训练场景分类网络进行训练,得到音频场景特征提取模型、声学场景分割模型、注意力模型和场景分类网络。
作为一个可选的实施例,请参见图8,如图8所示为模型训练的示意图,将音频信息的数据集分为训练集和测试集,将训练集中的音频信息作为训练音频信息,将测试集中的音频信息作为音频场景标注信息。服务器对训练音频信息进行声学特征提取,得到第一声学特征训练信息和第二声学特征训练信息,第一声学特征训练信息表征训练音频信息的频谱信息,第一声学特征训练信息可以为LMFB,第二声学特征训练信息表征训练音频信息的频谱包络信息,第二声学特征训练信息可以为MFCC。
服务器将第一声学特征训练信息输入到训练音频场景特征提取模型中,通过卷积神经网络进行场景特征提取,得到场景特征训练信息。服务器将第二声学特征训练信息输入到训练声学场景分割模型中进行声学场景分析,得到预设的训练声学场景集中各个训练声学场景对应的音频场景训练信息,音频场景训练信息表征对训练音频信息中的声音事件单元在不同的训练声学场景中的重要程度。服务器将场景特征训练信息和音频场景训练信息输入到训练注意力模型中进行两次注意力学习,在预处理层中得到目标特征训练信息和均值特征训练信息。在对均值特征训练信息和音频场景训练信息进行第一次注意力学习后得到场景加权训练信息,在对目标特征训练信息和场景加权训练信息进行第二次注意力学习后得到特征加权训练信息。服务器将特征加权训练信息输入到训练场景分类网络中进行场景分类,得到音频场景分类训练结果。服务器基于音频场景分类训练结果和音频场景标注信息,对训练音频场景特征提取模型、训练声学场景分割模型、训练注意力模型和训练场景分类网络进行训练,得到音频场景特征提取模型、声学场景分割模型、注意力模型和场景分类网络。
通过音频场景标注信息和音频场景分类训练结果间的误差,对模型进行训练,直到训练得到的模型达到预定的效果,可以提高模型训练的准确性。
作为一个可选的实施例,请参见图9,音频场景训练信息包括多个音频场景训练信息,基于音频场景分类训练结果和音频场景标注信息,对训练音频场景特征提取模型、训练声学场景分割模型、训练注意力模型和训练场景分类网络进行训练包括:
S910.根据音频场景分类训练结果和音频场景标注信息,确定场景误差数据;
S920.计算两两音频场景训练信息间的场景相似度;
S930.根据场景相似度,确定误差补偿数据;
S940.根据场景误差数据和误差补偿数据,确定目标损失数据;
S950.基于目标损失数据,对训练音频场景特征提取模型、训练声学场景分割模型、训练注意力模型和训练场景分类网络进行训练,得到音频场景特征提取模型、声学场景分割模型、注意力模型和场景分类网络。
作为一个可选的实施例,在基于音频场景分类训练结果和音频场景标注信息进行模型训练时,服务器可以计算训练场景分类网络的回归分类层输出的音频场景分类训练结果和音频场景标注信息间的交叉熵,得到场景误差数据。服务器还可以计算两两音频场景训练信息间的场景相似度,将计算得到的所有场景相似度的和值确定为误差补偿数据。场景相似度可以用余弦距离表示。误差补偿数据的计算公式为:
Figure 542388DEST_PATH_IMAGE031
其中,
Figure 638520DEST_PATH_IMAGE032
为任意两个音频场景训练信息间的余弦距离,
Figure 84544DEST_PATH_IMAGE033
表示误差补偿数据。对计算得到的所有余弦距离进行相加,得到误差补偿数据。
服务器计算场景误差数据和误差补偿数据的和值,得到目标损失数据。目标损失数据的计算公式如下:
Figure 152995DEST_PATH_IMAGE034
其中,
Figure 291852DEST_PATH_IMAGE035
表示目标损失数据,
Figure 875280DEST_PATH_IMAGE036
表示场景误差数据,γ是预设的加权因子。服务器可以基于目标损失数据,对训练音频场景特征提取模型、训练声学场景分割模型、训练注意力模型和训练场景分类网络进行训练,得到音频场景特征提取模型、声学场景分割模型、注意力模型和场景分类网络。
根据误差补偿数据和场景误差数据,计算得到目标损失数据,并利用目标损失数据进行模型训练,可以增加训练声学场景间的关联特征,从而提高模型训练的准确性。
作为一个可选的实施例,请参见图10,如图10所示为执行音频场景分类方法的模型的示意图,该方法可应用于音视频检索、音视频分类、声源检测的应用场景等。在音视频检索的应用场景中,客户端可以上传一段音视频,检索与该音视频相同场景的其他音视频。服务器接收到用户上传的音视频后,将对音视频进行声学特征提取,得到LMFB和MFCC。服务器将LMFB输入到音频场景特征提取模型,得到场景特征信息,将MFCC输入到声学场景分类网络中,得到音频场景信息。服务器将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习。服务器对场景特征信息进行预处理,得到目标特征信息和目标特征信息的平均值。服务器根据目标特征信息的平均值和音频场景信息间的第一相似度,计算第一权重分布,对音频场景信息进行加权平均,得到场景加权信息。服务器根据场景加权信息和目标特征信息间的第二相似度,计算第二权重分布,对目标特征信息进行加权平均,得到场景特征加权信息。服务器将场景特征加权信息输入到场景分类网络中进行分类,确定音视频对应的当前音频场景。服务器根据当前音频场景,获取与当前音频场景匹配的其他音视频,将这些音视频作为检索结果反馈到客户端。
在音视频分类的应用场景中,服务器还可以根据上述方法对客户端上传的音视频进行分类,得到客户端上传的音视频对应的当前音频场景,根据当前音视频场景确定该音视频对应的标签信息,将该音视频与标签信息进行关联。
本公开实施例提出了一种音频场景分类方法,该方法包括:获取音频信息,对音频信息进行声学特征提取,得到第一声学特征信息和第二声学特征信息,并将第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息,将第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息。将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息,再将场景特征加权信息输入到场景分类网络中进行分类,得到场景分类结果。该方法可以获取音频信息中有区分性的音频片段,从而提高音频场景分类的准确性和有效性。
图11是根据一示例性实施例示出的一种音频场景分类装置框图。参照图11,该装置包括:
音频信息获取模块1110,被配置为执行获取待分类的音频信息;
声学特征提取模块1120,被配置为执行对音频信息进行声学特征提取,得到第一声学特征信息和第二声学特征信息,第一声学特征信息表征音频信息的频谱信息,第二声学特征信息表征音频信息的频谱包络信息;
场景特征提取模块1130,被配置为执行将第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息;
声学场景分析模块1140,被配置为执行将第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息,音频场景信息表征音频信息中的声音事件单元在不同的声学场景中的重要程度;
注意力学习模块1150,被配置为执行将场景特征信息和音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息;
场景分类模块1160,被配置为执行将场景特征加权信息输入到场景分类网络中进行场景分类,得到音频场景分类结果。
作为一个可选的实施例,声学场景分割模型包括声音事件获取层和声学场景分类层,声学场景分析模块1140包括:
声学特征分割单元,被配置为执行在声音事件获取层中,对第二声学特征信息进行分割,得到声音事件单元序列;
频率计算单元,被配置为执行在声学场景分类层中,根据预设的声学场景集,确定声音事件单元序列中每个声音事件单元对应的第一频率和第二频率,第一频率表征每个声音事件单元在每个声学场景中出现的频率,第二频率表征每个声音事件单元在声学场景集中出现的频率;
音频场景信息确定单元,被配置为执行在声学场景分类层中,根据第一频率和第二频率,确定音频场景信息。
作为一个可选的实施例,场景特征信息包括多个场景特征信息,注意力模型包括预处理网络、第一注意力网络和第二注意力网络,注意力学习模块1150包括:
均值池化单元,被配置为执行在预处理网络中,对多个场景特征信息进行均值池化,得到多个目标特征信息;
均值处理单元,被配置为执行在预处理网络中,对多个目标特征信息进行均值处理,得到均值特征信息;
第一注意力学习单元,被配置为执行在第一注意力网络中,根据均值特征信息和音频场景信息,确定音频场景信息对应的场景加权信息;
第二注意力学习单元,被配置为执行在第二注意力网络中,根据场景加权信息和目标特征信息,确定目标特征信息对应的场景特征加权信息。
作为一个可选的实施例,音频场景信息包括多个音频场景信息,第一注意力网络包括第一相似度计算层、第一权重分布计算层和场景信息加权层,第一注意力学习单元包括:
第一相似度计算单元,被配置为执行在第一相似度计算层中,计算均值特征信息与每个音频场景信息间的第一相似度;
第一权重分别布计算单元,被配置为执行在第一权重分布计算层中,根据第一相似度,确定音频场景信息对应的第一权重分布;
场景信息加权单元,被配置为执行在场景信息加权层中,根据第一权重分布,对每个音频场景信息进行加权平均,得到场景加权信息。
作为一个可选的实施例,第二注意力网络包括第二相似度计算层、第二权重分布计算层和特征信息加权层,第二注意力学习单元包括:
第二相似度计算单元,被配置为执行在第二相似度计算层中,计算场景加权信息与每个目标特征信息间的第二相似度;
第二权重分布计算单元,被配置为执行在第二权重分布计算层中,根据第二相似度,确定目标特征信息对应的第二权重分布;
特征信息加权单元,被配置为执行在特征信息加权层中,根据第二权重分布,对每个目标特征信息进行加权平均,得到场景特征加权信息。
作为一个可选的实施例,音频场景特征提取模型包括多个按序排列的卷积层,场景特征提取模块1130包括:
场景特征提取单元,被配置为执行在多个按序排列的卷积层中,对第一声学特征信息进行场景特征提取,得到场景特征信息。
作为一个可选的实施例,场景分类网络包括多个全连接层和回归分类层,场景分类模块1160包括:
全连接单元,被配置为执行在多个全连接层中,对场景特征加权信息进行特征整合,得到全连接特征信息;
回归分类单元,被配置为执行在回归分类层中,对全连接特征信息进行场景分类,得到音频场景分类结果。
作为一个可选的实施例,该装置包括:
训练信息获取模块,被配置为执行获取训练音频信息和训练音频信息对应的音频场景标注信息;
声学训练特征提取模块,被配置为执行对训练音频信息进行声学特征提取,得到第一声学特征训练信息和第二声学特征训练信息,第一声学特征训练信息表征训练音频信息的频谱信息,第二声学特征训练信息表征训练音频信息的频谱包络信息;
场景训练特征提取模块,被配置为执行将第一声学特征训练信息输入到训练音频场景特征提取模型中进行场景特征提取,得到场景特征训练信息;
声学场景分析训练模块,被配置为执行将第二声学特征训练信息输入到训练声学场景分割模型中进行声学场景分析,得到音频场景训练信息,音频场景训练信息表征对训练音频信息中的声音事件单元在不同的训练声学场景中的重要程度;
注意力学习训练模块,被配置为执行将场景特征训练信息和音频场景训练信息输入到训练注意力模型中进行注意力学习,得到特征加权训练信息;
场景分类训练模块,被配置为执行将特征加权训练信息输入到训练场景分类网络中进行场景分类,得到音频场景分类训练结果;
模型训练模块,被配置为执行基于音频场景分类训练结果和音频场景标注信息,对训练音频场景特征提取模型、训练声学场景分割模型、训练注意力模型和训练场景分类网络进行训练,得到音频场景特征提取模型、声学场景分割模型、注意力模型和场景分类网络。
作为一个可选的实施例,音频场景训练信息包括多个音频场景训练信息,模型训练模块包括:
场景误差数据确定单元,被配置为执行根据音频场景分类训练结果和音频场景标注信息,确定场景误差数据;
场景相似度计算单元,被配置为执行计算两两音频场景训练信息间的场景相似度;
误差补偿数据确定单元,被配置为执行根据场景相似度,确定误差补偿数据;
目标损失数据确定单元,被配置为执行根据场景误差数据和误差补偿数据,确定目标损失数据;
模型训练单元,被配置为执行基于目标损失数据,对训练音频场景特征提取模型、训练声学场景分割模型、训练注意力模型和训练场景分类网络进行训练,得到音频场景特征提取模型、声学场景分割模型、注意力模型和场景分类网络。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图12是根据一示例性实施例示出的一种用于服务器侧的电子设备的框图,该电子设备可以是服务器,其内部结构图可以如图12所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频场景分类方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在示例性实施例中,还提供了一种电子设备,包括:处理器;用于存储该处理器可执行指令的存储器;其中,该处理器被配置为执行该指令,以实现如本公开实施例中一种音频场景分类方法。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器1204,上述指令可由电子设备1200的处理器1220执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机指令,计算机指令被处理器执行时实现上述的音频场景分类方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (20)

1.一种音频场景分类方法,其特征在于,所述方法包括:
获取待分类的音频信息;
对所述音频信息进行声学特征提取,得到第一声学特征信息和第二声学特征信息,所述第一声学特征信息表征所述音频信息的频谱信息,所述第二声学特征信息表征所述音频信息的频谱包络信息;
将所述第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息;
将所述第二声学特征信息输入到声学场景分割模型中进行声学场景分析,确定第二声学特征信息中的声音事件单元与不同的声学场景间的关联程度,并根据所述关联程度,得到音频场景信息,所述音频场景信息表征所述音频信息中的声音事件单元在不同的声学场景中的重要程度;
将所述场景特征信息和所述音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息,所述注意力模型用于对所述音频场景信息进行注意力学习并基于注意力学习后的音频场景信息,对所述场景特征信息进行注意力学习;
将所述场景特征加权信息输入到场景分类网络中进行场景分类,得到音频场景分类结果。
2.根据权利要求1所述的音频场景分类方法,其特征在于,所述声学场景分割模型包括声音事件获取层和声学场景分类层,所述将所述第二声学特征信息输入到声学场景分割模型中进行声学场景分析,得到音频场景信息包括:
在所述声音事件获取层中,对所述第二声学特征信息进行分割,得到声音事件单元序列;
在所述声学场景分类层中,根据预设的声学场景集,确定所述声音事件单元序列中每个声音事件单元对应的第一频率和第二频率,所述第一频率表征所述每个声音事件单元在每个声学场景中出现的频率,所述第二频率表征所述每个声音事件单元在所述声学场景集中出现的频率;
在所述声学场景分类层中,根据所述第一频率和所述第二频率,确定所述音频场景信息。
3.根据权利要求1所述的音频场景分类方法,其特征在于,所述场景特征信息包括多个场景特征信息,所述注意力模型包括预处理网络、第一注意力网络和第二注意力网络,所述将所述场景特征信息和所述音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息包括:
在所述预处理网络中,对所述多个场景特征信息进行均值池化,得到多个目标特征信息;
在所述预处理网络中,对所述多个目标特征信息进行均值处理,得到均值特征信息;
在所述第一注意力网络中,根据所述均值特征信息和所述音频场景信息,确定所述音频场景信息对应的场景加权信息;
在所述第二注意力网络中,根据所述场景加权信息和所述目标特征信息,确定所述目标特征信息对应的场景特征加权信息。
4.根据权利要求3所述的音频场景分类方法,其特征在于,所述音频场景信息包括多个音频场景信息,所述第一注意力网络包括第一相似度计算层、第一权重分布计算层和场景信息加权层,所述在所述第一注意力网络中,根据所述均值特征信息和所述音频场景信息,对所述音频场景信息的权重进行确定,得到场景加权信息包括:
在所述第一相似度计算层中,计算所述均值特征信息与每个音频场景信息间的第一相似度;
在所述第一权重分布计算层中,根据所述第一相似度,确定所述音频场景信息对应的第一权重分布;
在所述场景信息加权层中,根据所述第一权重分布,对每个音频场景信息进行加权平均,得到场景加权信息。
5.根据权利要求3所述的音频场景分类方法,其特征在于,所述第二注意力网络包括第二相似度计算层、第二权重分布计算层和特征信息加权层,所述在所述第二注意力网络中,根据所述场景加权信息和所述目标特征信息,对所述目标特征信息的权重进行确定,得到场景特征加权信息包括:
在所述第二相似度计算层中,确定所述场景加权信息与每个目标特征信息间的第二相似度;
在所述第二权重分布计算层中,根据所述第二相似度,确定所述目标特征信息对应的第二权重分布;
在所述特征信息加权层中,根据所述第二权重分布,对每个目标特征信息进行加权平均,得到场景特征加权信息。
6.根据权利要求1所述的音频场景分类方法,其特征在于,所述音频场景特征提取模型包括多个按序排列的卷积层,所述将所述第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息包括:
在所述多个按序排列的卷积层中,对所述第一声学特征信息进行场景特征提取,得到场景特征信息。
7.根据权利要求1所述的音频场景分类方法,其特征在于,所述场景分类网络包括多个全连接层和回归分类层,所述将所述场景特征加权信息输入到场景分类网络中进行场景分类,得到音频场景分类结果包括:
在所述多个全连接层中,对所述场景特征加权信息进行特征整合,得到全连接特征信息;
在所述回归分类层中,对所述全连接特征信息进行场景分类,得到音频场景分类结果。
8.根据权利要求1所述的音频场景分类方法,其特征在于,所述方法包括:
获取训练音频信息和所述训练音频信息对应的音频场景标注信息;
对所述训练音频信息进行声学特征提取,得到第一声学特征训练信息和第二声学特征训练信息,所述第一声学特征训练信息表征所述训练音频信息的频谱信息,所述第二声学特征训练信息表征所述训练音频信息的频谱包络信息;
将所述第一声学特征训练信息输入到训练音频场景特征提取模型中进行场景特征提取,得到场景特征训练信息;
将所述第二声学特征训练信息输入到训练声学场景分割模型中进行声学场景分析,得到音频场景训练信息,所述音频场景训练信息表征对所述训练音频信息中的声音事件单元在不同的训练声学场景中的重要程度;
将所述场景特征训练信息和所述音频场景训练信息输入到训练注意力模型中进行注意力学习,得到特征加权训练信息;
将所述特征加权训练信息输入到训练场景分类网络中进行场景分类,得到音频场景分类训练结果;
基于所述音频场景分类训练结果和所述音频场景标注信息,对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练,得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。
9.根据权利要求8所述的音频场景分类方法,其特征在于,所述音频场景训练信息包括多个音频场景训练信息,所述基于所述音频场景分类训练结果和所述音频场景标注信息,对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练,得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络包括:
根据所述音频场景分类训练结果和所述音频场景标注信息,确定场景误差数据;
计算两两音频场景训练信息间的场景相似度;
根据所述场景相似度,确定误差补偿数据;
根据所述场景误差数据和所述误差补偿数据,确定目标损失数据;
基于所述目标损失数据,对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练,得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。
10.一种音频场景分类装置,其特征在于,所述装置包括:
音频信息获取模块,被配置为执行获取待分类的音频信息;
声学特征提取模块,被配置为执行对所述音频信息进行声学特征提取,得到第一声学特征信息和第二声学特征信息,所述第一声学特征信息表征所述音频信息的频谱信息,所述第二声学特征信息表征所述音频信息的频谱包络信息;
场景特征提取模块,被配置为执行将所述第一声学特征信息输入到音频场景特征提取模型中进行场景特征提取,得到场景特征信息;
声学场景分析模块,被配置为执行将所述第二声学特征信息输入到声学场景分割模型中进行声学场景分析,确定第二声学特征信息中的声音事件单元与不同的声学场景间的关联程度,并根据所述关联程度,得到音频场景信息,所述音频场景信息表征所述音频信息中的声音事件单元在不同的声学场景中的重要程度;
注意力学习模块,被配置为执行将所述场景特征信息和所述音频场景信息输入到注意力模型中进行注意力学习,得到场景特征加权信息,所述注意力模型用于对所述音频场景信息进行注意力学习并基于注意力学习后的音频场景信息,对所述场景特征信息进行注意力学习;
场景分类模块,被配置为执行将所述场景特征加权信息输入到场景分类网络中进行场景分类,得到音频场景分类结果。
11.根据权利要求10所述的音频场景分类装置,其特征在于,所述声学场景分割模型包括声音事件获取层和声学场景分类层,所述声学场景分析模块包括:
声学特征分割单元,被配置为执行在所述声音事件获取层中,对所述第二声学特征信息进行分割,得到声音事件单元序列;
频率计算单元,被配置为执行在所述声学场景分类层中,根据预设的声学场景集,确定所述声音事件单元序列中每个声音事件单元对应的第一频率和第二频率,所述第一频率表征所述每个声音事件单元在每个声学场景中出现的频率,所述第二频率表征所述每个声音事件单元在所述声学场景集中出现的频率;
音频场景信息确定单元,被配置为执行在所述声学场景分类层中,根据所述第一频率和所述第二频率,确定所述音频场景信息。
12.根据权利要求10所述的音频场景分类装置,其特征在于,所述场景特征信息包括多个场景特征信息,所述注意力模型包括预处理网络、第一注意力网络和第二注意力网络,所述注意力学习模块包括:
均值池化单元,被配置为执行在所述预处理网络中,对所述多个场景特征信息进行均值池化,得到多个目标特征信息;
均值处理单元,被配置为执行在所述预处理网络中,对所述多个目标特征信息进行均值处理,得到均值特征信息;
第一注意力学习单元,被配置为执行在所述第一注意力网络中,根据所述均值特征信息和所述音频场景信息,确定所述音频场景信息对应的场景加权信息;
第二注意力学习单元,被配置为执行在所述第二注意力网络中,根据所述场景加权信息和所述目标特征信息,确定所述目标特征信息对应的场景特征加权信息。
13.根据权利要求12所述的音频场景分类装置,其特征在于,所述音频场景信息包括多个音频场景信息,所述第一注意力网络包括第一相似度计算层、第一权重分布计算层和场景信息加权层,所述第一注意力学习单元包括:
第一相似度计算单元,被配置为执行在所述第一相似度计算层中,计算所述均值特征信息与每个音频场景信息间的第一相似度;
第一权重分别布计算单元,被配置为执行在所述第一权重分布计算层中,根据所述第一相似度,确定所述音频场景信息对应的第一权重分布;
场景信息加权单元,被配置为执行在所述场景信息加权层中,根据所述第一权重分布,对每个音频场景信息进行加权平均,得到场景加权信息。
14.根据权利要求12所述的音频场景分类装置,其特征在于,所述第二注意力网络包括第二相似度计算层、第二权重分布计算层和特征信息加权层,所述第二注意力学习单元包括:
第二相似度计算单元,被配置为执行在所述第二相似度计算层中,计算所述场景加权信息与每个目标特征信息间的第二相似度;
第二权重分布计算单元,被配置为执行在所述第二权重分布计算层中,根据所述第二相似度,确定所述目标特征信息对应的第二权重分布;
特征信息加权单元,被配置为执行在所述特征信息加权层中,根据所述第二权重分布,对每个目标特征信息进行加权平均,得到场景特征加权信息。
15.根据权利要求10所述的音频场景分类装置,其特征在于,所述音频场景特征提取模型包括多个按序排列的卷积层,所述场景特征提取模块包括:
场景特征提取单元,被配置为执行在所述多个按序排列的卷积层中,对所述第一声学特征信息进行场景特征提取,得到场景特征信息。
16.根据权利要求10所述的音频场景分类装置,其特征在于,所述场景分类网络包括多个全连接层和回归分类层,所述场景分类模块包括:
全连接单元,被配置为执行在所述多个全连接层中,对所述场景特征加权信息进行特征整合,得到全连接特征信息;
回归分类单元,被配置为执行在所述回归分类层中,对所述全连接特征信息进行场景分类,得到音频场景分类结果。
17.根据权利要求10所述的音频场景分类装置,其特征在于,所述装置包括:
训练信息获取模块,被配置为执行获取训练音频信息和所述训练音频信息对应的音频场景标注信息;
声学训练特征提取模块,被配置为执行对所述训练音频信息进行声学特征提取,得到第一声学特征训练信息和第二声学特征训练信息,所述第一声学特征训练信息表征所述训练音频信息的频谱信息,所述第二声学特征训练信息表征所述训练音频信息的频谱包络信息;
场景训练特征提取模块,被配置为执行将所述第一声学特征训练信息输入到训练音频场景特征提取模型中进行场景特征提取,得到场景特征训练信息;
声学场景分析训练模块,被配置为执行将所述第二声学特征训练信息输入到训练声学场景分割模型中进行声学场景分析,得到音频场景训练信息,所述音频场景训练信息表征对所述训练音频信息中的声音事件单元在不同的训练声学场景中的重要程度;
注意力学习训练模块,被配置为执行将所述场景特征训练信息和所述音频场景训练信息输入到训练注意力模型中进行注意力学习,得到特征加权训练信息;
场景分类训练模块,被配置为执行将所述特征加权训练信息输入到训练场景分类网络中进行场景分类,得到音频场景分类训练结果;
模型训练模块,被配置为执行基于所述音频场景分类训练结果和所述音频场景标注信息,对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练,得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。
18.根据权利要求17所述的音频场景分类装置,其特征在于,所述音频场景训练信息包括多个音频场景训练信息,所述模型训练模块包括:
场景误差数据确定单元,被配置为执行根据所述音频场景分类训练结果和所述音频场景标注信息,确定场景误差数据;
场景相似度计算单元,被配置为执行计算两两音频场景训练信息间的场景相似度;
误差补偿数据确定单元,被配置为执行根据所述场景相似度,确定误差补偿数据;
目标损失数据确定单元,被配置为执行根据所述场景误差数据和所述误差补偿数据,确定目标损失数据;
模型训练单元,被配置为执行基于所述目标损失数据,对所述训练音频场景特征提取模型、所述训练声学场景分割模型、所述训练注意力模型和所述训练场景分类网络进行训练,得到所述音频场景特征提取模型、所述声学场景分割模型、所述注意力模型和所述场景分类网络。
19.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至9中任一项所述的音频场景分类方法。
20.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至9中任一项所述的音频场景分类方法。
CN202110304711.8A 2021-03-23 2021-03-23 一种音频场景分类方法、装置、电子设备和存储介质 Active CN112700794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110304711.8A CN112700794B (zh) 2021-03-23 2021-03-23 一种音频场景分类方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110304711.8A CN112700794B (zh) 2021-03-23 2021-03-23 一种音频场景分类方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112700794A CN112700794A (zh) 2021-04-23
CN112700794B true CN112700794B (zh) 2021-06-22

Family

ID=75515357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110304711.8A Active CN112700794B (zh) 2021-03-23 2021-03-23 一种音频场景分类方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112700794B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128527B (zh) * 2021-06-21 2021-08-24 中国人民解放军国防科技大学 基于变换器模型和卷积神经网络的图像场景分类方法
CN113470048B (zh) * 2021-07-06 2023-04-25 北京深睿博联科技有限责任公司 场景分割方法、装置、设备及计算机可读存储介质
CN115346543B (zh) * 2022-08-17 2024-09-24 广州市百果园信息技术有限公司 音频处理方法、模型训练方法、装置、设备、介质及产品
CN116030800A (zh) * 2023-03-30 2023-04-28 南昌航天广信科技有限责任公司 一种音频分类识别方法、系统、计算机及可读存储介质
CN116859336B (zh) * 2023-07-14 2024-09-13 苏州大学 一种声源定位的高精度实现方法
CN117275519B (zh) * 2023-11-22 2024-02-13 珠海高凌信息科技股份有限公司 一种声音类型识别修正方法、系统、装置及介质
CN118331929B (zh) * 2024-06-13 2024-08-27 深圳市康普信息技术有限公司 适用多场景模式的ai可视化音视频软件管理系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474311A (zh) * 2013-07-19 2016-04-06 视听公司 基于听觉场景分析及语音模型化的语音信号分离及合成
JP2018124432A (ja) * 2017-02-01 2018-08-09 トヨタ自動車株式会社 対話装置
CN110782878A (zh) * 2019-10-10 2020-02-11 天津大学 一种基于注意力机制的多尺度音频场景识别方法
WO2020036188A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法およびプログラム
CN111754988A (zh) * 2020-06-23 2020-10-09 南京工程学院 基于注意力机制和双路径深度残差网络的声场景分类方法
CN112418034A (zh) * 2020-11-12 2021-02-26 元梦人文智能国际有限公司 多模态情感识别方法、装置、电子设备和存储介质
CN112446242A (zh) * 2019-08-29 2021-03-05 北京三星通信技术研究有限公司 声学场景分类方法、装置及相应设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105474311A (zh) * 2013-07-19 2016-04-06 视听公司 基于听觉场景分析及语音模型化的语音信号分离及合成
JP2018124432A (ja) * 2017-02-01 2018-08-09 トヨタ自動車株式会社 対話装置
WO2020036188A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 学習データ生成装置、学習データ生成方法およびプログラム
CN112446242A (zh) * 2019-08-29 2021-03-05 北京三星通信技术研究有限公司 声学场景分类方法、装置及相应设备
CN110782878A (zh) * 2019-10-10 2020-02-11 天津大学 一种基于注意力机制的多尺度音频场景识别方法
CN111754988A (zh) * 2020-06-23 2020-10-09 南京工程学院 基于注意力机制和双路径深度残差网络的声场景分类方法
CN112418034A (zh) * 2020-11-12 2021-02-26 元梦人文智能国际有限公司 多模态情感识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112700794A (zh) 2021-04-23

Similar Documents

Publication Publication Date Title
CN112700794B (zh) 一种音频场景分类方法、装置、电子设备和存储介质
WO2021208287A1 (zh) 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质
Nagrani et al. Voxceleb: Large-scale speaker verification in the wild
Niu et al. Multimodal spatiotemporal representation for automatic depression level detection
Harwath et al. Deep multimodal semantic embeddings for speech and images
EP3839942A1 (en) Quality inspection method, apparatus, device and computer storage medium for insurance recording
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
Plinge et al. A bag-of-features approach to acoustic event detection
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
CN110956966B (zh) 声纹认证方法、装置、介质及电子设备
Povolny et al. Multimodal emotion recognition for AVEC 2016 challenge
US20230077849A1 (en) Content recognition method and apparatus, computer device, and storage medium
Sahoo et al. Emotion recognition from audio-visual data using rule based decision level fusion
Rashid et al. Human emotion recognition from videos using spatio-temporal and audio features
US20130251340A1 (en) Video concept classification using temporally-correlated grouplets
CN108615532B (zh) 一种应用于声场景的分类方法及装置
CN110880329A (zh) 一种音频识别方法及设备、存储介质
CN109947971B (zh) 图像检索方法、装置、电子设备及存储介质
Yang et al. Multi-scale semantic feature fusion and data augmentation for acoustic scene classification
CN113223536B (zh) 声纹识别方法、装置及终端设备
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
WO2020238681A1 (zh) 音频处理方法、装置和人机交互系统
CN113327584B (zh) 语种识别方法、装置、设备及存储介质
CN111477248A (zh) 一种音频噪声检测方法及装置
Chuchra et al. A deep learning approach for splicing detection in digital audios

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant