CN116758936A - 音频指纹特征提取模型的处理方法、装置和计算机设备 - Google Patents

音频指纹特征提取模型的处理方法、装置和计算机设备 Download PDF

Info

Publication number
CN116758936A
CN116758936A CN202311041995.1A CN202311041995A CN116758936A CN 116758936 A CN116758936 A CN 116758936A CN 202311041995 A CN202311041995 A CN 202311041995A CN 116758936 A CN116758936 A CN 116758936A
Authority
CN
China
Prior art keywords
audio
sample
audio fingerprint
positive
fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311041995.1A
Other languages
English (en)
Other versions
CN116758936B (zh
Inventor
袁有根
胡鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311041995.1A priority Critical patent/CN116758936B/zh
Publication of CN116758936A publication Critical patent/CN116758936A/zh
Application granted granted Critical
Publication of CN116758936B publication Critical patent/CN116758936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种音频指纹特征提取模型的处理方法、装置和计算机设备。该方法涉及人工智能技术,方法包括:利用音频指纹特征提取模型,得到样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征;根据样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征与负样本音频指纹特征间的负样本相似度,构建对比损失,根据样本音频指纹特征、正样本音频指纹特征分别与分界值间的差异,构建量化损失,根据正样本相似度,构建正样本趋同损失,联合对比损失、量化损失和正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型,提高音频匹配准确性。

Description

音频指纹特征提取模型的处理方法、装置和计算机设备
技术领域
本申请涉及人工智能技术领域,特别是涉及一种音频指纹特征提取模型的处理方法、装置和计算机设备。
背景技术
随着互联网技术与计算机技术的快速发展,在不同的音频场景中,常常涉及到对两个音频进行识别,以确定该两个音频是否为匹配的音频,该过程通常涉及音频预处理、音频指纹特征提取和音频匹配,其中音频指纹特征提取是后续音频匹配的基础。
相关技术中,音频指纹特征提取模型,对于音频的指纹特征的表示不够准确,对于不同音频样本的区分能力不够,且对于轻微变形的音频提取的音频指纹特征的鲁棒性不够,也就是说,只要音频有任何的变化,无论是编码、解码,采样率变动、声学环境变动或者音频内容变动,都会导致提取的音频指纹特征发生变化,不适用于音频匹配场景。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高音频匹配准确性的音频指纹特征提取模型的处理方法、装置和计算机设备。
第一方面,本申请提供了一种音频指纹特征提取模型的处理方法。所述方法包括:
获取音频样本、所述音频样本的正样本与负样本,所述正样本通过对所述音频样本进行数据增广得到,所述负样本是与所述音频样本不同的样本;
利用音频指纹特征提取模型分别对所述音频样本、所述正样本与所述负样本进行音频指纹特征提取,得到所述音频样本、所述正样本与所述负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征;
根据所述样本音频指纹特征与所述正样本音频指纹特征间的正样本相似度、所述样本音频指纹特征与所述负样本音频指纹特征间的负样本相似度,构建对比损失,根据所述样本音频指纹特征、所述正样本音频指纹特征分别与分界值间的差异,构建量化损失,根据所述正样本相似度,构建正样本趋同损失,联合所述对比损失、所述量化损失和所述正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。
第二方面,本申请还提供了一种音频指纹特征提取模型的处理装置。所述装置包括:
样本获取模块,用于获取音频样本、所述音频样本的正样本与负样本,所述正样本通过对所述音频样本进行数据增广得到,所述负样本是与所述音频样本不同的样本;
特征提取模块,用于利用音频指纹特征提取模型分别对所述音频样本、所述正样本与所述负样本进行音频指纹特征提取,得到所述音频样本、所述正样本与所述负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征;
调整模块,用于根据所述样本音频指纹特征与所述正样本音频指纹特征间的正样本相似度、所述样本音频指纹特征与所述负样本音频指纹特征间的负样本相似度,构建对比损失,根据所述样本音频指纹特征、所述正样本音频指纹特征分别与分界值间的差异,构建量化损失,根据所述正样本相似度,构建正样本趋同损失,联合所述对比损失、所述量化损失和所述正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。
在一些实施例中,所述样本获取模块,用于获取音频样本集合,所述音频样本集合包括个音频样本;对于所述音频样本集合中的第i个音频样本,对所述第i个音频样本进行数据增广,得到所述第i个音频样本对应的正样本,其中,/>;将所述正样本添加至所述音频样本集合中,得到一次迭代样本集合;将所述一次迭代样本集合中除所述第i个音频样本以外的样本、除所述第i个音频样本以外的样本所对应的正样本,作为所述第i个音频样本的负样本。
在一些实施例中,进行数据增广之前,所述装置还包括编解码模块,所述编解码模块,用于对每个音频样本依次进行编码处理与解码处理,得到风格不同的音频样本。
在一些实施例中,所述样本获取模块,还用于获取原始音频样本集合;对所述原始音频样本集合中的每个原始音频样本,获取各自的音频时长;对于音频时长大于或等于T秒的原始音频样本,从所述原始音频样本的第m秒开始,截取n秒的连续音频片段,作为用于模型训练的音频样本;对于音频时长小于T秒且大于n秒的原始音频样本,截取所述原始音频样本的后n秒的连续音频片段,作为用于模型训练的音频样本;对于音频时长小于n秒的原始音频样本,复制所述原始音频样本后拼接,在拼接后的音频时长大于n秒时,截取前n秒的连续音频片段,作为用于模型训练的音频样本;其中,,/>,/>
在一些实施例中,所述特征提取模块,还用于计算所述音频样本的音频能量;若根据所述音频能量确定所述音频样本属于低音量样本,则直接确定所述音频指纹特征中的每个元素取值为0。
在一些实施例中,所述特征提取模块,用于将所述音频样本的频域特征输入至所述音频指纹特征提取模型;利用所述音频指纹特征提取模型的多个堆叠的交互层,对所述音频样本的频域特征进行特征提取,得到所述样本音频指纹特征,所述交互层包括第一子交互层和第二子交互层,所述第一子交互层是提取时域上的特征和频域上的特征的网络层,所述第二子交互层是基于所述音频样本的频域特征中不同时刻间频率特征值的关联信息进行特征提取的网络层。
在一些实施例中,所述多个堆叠的交互层包括N个堆叠的交互层,所述特征提取模块,用于将所述音频样本的频域特征输入至所述音频指纹特征提取模型中第一个交互层,依次通过第一个交互层中的第一子交互层和第二子交互层进行特征提取,得到第一个交互层的输出特征;从第二个交互层开始,迭代地将第i个交互层的输出特征输入至第个交互层,依次通过第/>个交互层中的第一子交互层和第二子交互层进行特征提取,得到第个交互层的输出特征,直至得到第L个交互层的输出特征时结束迭代;其中,,/>,且i、N均为自然数;基于第L个交互层的输出特征,确定所述样本音频指纹特征。
在一些实施例中,所述调整模块,用于计算所述样本音频指纹特征与所述正样本音频指纹特征的正样本相似度;计算所述样本音频指纹特征分别与各所述负样本音频指纹特征间的负样本相似度,统计各所述负样本相似度的和值;根据所述正样本相似度与所述和值的差异,构建对比损失,所述对比损失与所述正样本相似度呈负相关,所述对比损失与所述和值呈正相关。
在一些实施例中,所述调整模块,用于计算所述样本音频指纹特征的绝对值与所述分界值间的第一差异;计算所述正样本音频指纹特征的绝对值与所述分界值间的第二差异;叠加所述第一差异和所述第二差异,构建量化损失。
在一些实施例中,所述调整模块,用于计算所述正样本相似度与相似度阈值的目标差异;根据所述目标差异,构建正样本趋同损失,所述正样本趋同损失与目标差异呈正相关。
在一些实施例中,所述装置还包括匹配模块,所述匹配模块,用于获取目标音频与待匹配音频集合;利用所述训练好的音频指纹特征提取模型,分别对所述目标音频与所述待匹配音频集合中的各待匹配音频进行音频指纹特征提取,得到各自的音频指纹特征;将各所述音频指纹特征中的每个元素映射为预设数值区间内的目标数值,得到相应的音频指纹序列;基于所述目标音频与所述待匹配音频集合中的待匹配音频各自的音频指纹序列,从所述待匹配音频集合中确定与所述目标音频匹配的音频。
在一些实施例中,所述匹配模块,用于将所述目标音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到所述目标音频的转换序列;将所述待匹配音频集合中的待匹配音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到所述待匹配音频的转换序列;根据所述目标音频的转换序列和所述待匹配音频集合中各所述待匹配音频的转换序列,从所述待匹配音频集合中确定与所述目标音频匹配的音频。
在一些实施例中,所述匹配模块,用于对于所述待匹配音频集合中每个待匹配音频的转换序列,比较所述目标音频的转换序列和所述待匹配音频的转换序列中相同元素位置处的二元值是否一致;若所述目标音频的转换序列和所述待匹配音频的转换序列中相同元素位置处的二元值均一致,则确定所述待匹配音频是与所述目标音频匹配的音频。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述音频指纹特征提取模型的处理方法的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述音频指纹特征提取模型的处理方法的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述音频指纹特征提取模型的处理方法的步骤。
上述音频指纹特征提取模型的处理方法、装置和计算机设备,通过获取音频样本、音频样本的正样本与负样本,正样本通过对音频样本进行数据增广得到,负样本是与音频样本不同的样本;利用音频指纹特征提取模型分别对音频样本、正样本与负样本进行音频指纹特征提取,得到音频样本、正样本与负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征;根据样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征与负样本音频指纹特征间的负样本相似度,构建对比损失,以此对音频指纹特征提取模型进行对比学习,确保了提取出的音频指纹特征具有区分性,确保了音频指纹特征的准确性。根据样本音频指纹特征、正样本音频指纹特征分别与分界值间的差异,构建量化损失,以进一步提高音频指纹特征的区分性。根据正样本相似度,构建正样本趋同损失,以此提升模型对轻微变异音频的鲁棒性。基于此,联合对比损失、量化损失和正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。这样,训练好的音频指纹特征提取模型能够在确保音频指纹特征具有区分性的同时,提升对轻微变异音频的鲁棒性,保证了音频匹配的准确性。
附图说明
图1为一个实施例中音频指纹特征提取模型的处理方法的应用环境图;
图2为一个实施例中音频指纹特征提取模型的处理方法的流程示意图;
图3为一个实施例中音频样本获取步骤的流程示意图;
图4为一个实施例中样本音频指纹特征提取的流程示意图;
图5为另一个实施例中样本音频指纹特征提取的流程示意图;
图6A为一个实施例中交互层的结构示意图;
图6B为一个实施例中第二子交互层的结构示意图;
图7为一个实施例中对比损失构建的流程示意图;
图8为一个实施例中音频匹配步骤的流程示意图;
图9为一个实施例中音频指纹特征提取模型的模型训练流程示意图;
图10为一个实施例中音频匹配的示意图;
图11为一个实施例中音频指纹特征提取模型的处理装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的音频指纹特征提取模型的处理方法,涉及人工智能(Artificial Intelligence,AI)技术,人工智能技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在相关技术中,在进行音频识别任务时,常常通过指纹特征提取模型提取音频的指纹特征。但是,相关技术中的指纹特征提取模型对指纹特征的表示不够准确,对不同音频的区分能力不够,并且,一旦音频出现轻微变形,变形前和变形后提取出的指纹特征存在很大的变化。基于此,在音频匹配场景中无法准确匹配音频。
基于此,本申请实施例提供一种音频指纹特征提取模型的处理方法,通过获取音频样本、音频样本的正样本与负样本,正样本通过对音频样本进行数据增广得到,负样本是与音频样本不同的样本;利用音频指纹特征提取模型分别对音频样本、正样本与负样本进行音频指纹特征提取,得到音频样本、正样本与负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征;根据样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征与负样本音频指纹特征间的负样本相似度,构建对比损失,以此对音频指纹特征提取模型进行对比学习,确保了提取出的音频指纹特征具有区分性,确保了音频指纹特征的准确性。根据所述样本音频指纹特征、所述正样本音频指纹特征分别与分界值间的差异,构建量化损失,以进一步提高音频指纹特征的区分性。根据正样本相似度,构建正样本趋同损失,以此提升模型对轻微变异正样本的鲁棒性。基于此,联合对比损失、量化损失和正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。这样,训练好的音频指纹特征提取模型能够在确保音频指纹特征具有区分性的同时,提升对轻微变异正样本的鲁棒性,保证了音频匹配的准确性。
本申请实施例提供的音频指纹特征提取模型的处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。终端102和服务器104可单独执行该音频指纹特征提取模型的处理方法,终端102和服务器104也可协同执行该音频指纹特征提取模型的处理方法。
以服务器104单独执行该音频指纹特征提取模型的处理方法为例进行说明。服务器104获取音频样本、音频样本的正样本与负样本,正样本通过对音频样本进行数据增广得到,负样本是与音频样本不同的样本。服务器104利用音频指纹特征提取模型分别对音频样本、正样本与负样本进行音频指纹特征提取,得到音频样本、正样本与负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征。服务器104根据样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征与负样本音频指纹特征间的负样本相似度,构建对比损失,根据样本音频指纹特征、正样本音频指纹特征分别与分界值间的差异,构建量化损失,根据正样本相似度,构建正样本趋同损失,联合对比损失、量化损失和正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。
在一些实施例中,在进行音频侵权检测任务,或者在进行听歌识曲任务时,通过终端102上传待处理的音频,服务器104根据终端102上传的待处理音频和预先存储的待匹配音频集合,通过调用训练好的音频指纹特征提取模型,分别确定待处理的音频、待匹配音频集合中各待匹配音频的音频指纹特征。基于此,服务器104根据待处理的音频、待匹配音频集合中各待匹配音频的音频指纹特征,从待匹配音频集合中确定与待处理的音频匹配的音频。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种音频指纹特征提取模型的处理方法,以该方法应用于计算机设备(可以是图1中的终端102,也可以是图1中的服务器104)为例进行说明,包括以下步骤:
步骤S202,获取音频样本、音频样本的正样本与负样本,正样本通过对音频样本进行数据增广得到,负样本是与音频样本不同的样本。
其中,音频样本是预设音频时长的音频片段,该音频样本是根据原始音频确定的,该音频样本包含了该原始音频的标志性内容。因此,可以理解的是,该音频样本能够代表该原始音频。可选地,对原始音频进行片段截取,得到预设音频时长的音频样本。例如,对4分钟时长的歌曲进行截取,得到12秒的音频片段,这个12秒的音频片段即为音频样本。可选地,对原始音频进行拼接,得到预设音频时长的音频样本。例如,对于一个5秒的歌曲,对该歌曲进行多次重复拼接,得到12秒的音频片段,这个12秒的音频片段即为音频样本。
数据增广是对音频样本的音频数据进行一个或多个数据变换操作,数据增广包括但不限于时域上的数据增广和频域上的数据增广。例如,时域上的数据增广包括但不限于添加噪音、添加背景声音和添加目标对象声音。频域上的数据增广可以是对音频样本的频域数据进行频域掩蔽处理。可以理解的是,音频样本是时域的样本,若数据增广涉及到频域上的数据增广,则增广得到的样本是频域的样本。该频域的样本包括频域上的频域特征,该频域特征包括各时刻的频率特征值。若数据增广不涉及到频域上的数据增广,则增广得到的样本是时域的样本。将对音频样本进行数据增广得到的样本作为正样本。因此,正样本可以是时域的样本,也可以是频域的样本。
对于两个不同的音频样本1和音频样本2,对音频样本1添加噪音得到的样本是音频样本1的正样本,对音频样本2添加噪音得到的样本是音频样本2的正样本,该音频样本2的正样本为音频样本1的负样本。可以理解的是,音频样本2是音频样本1的负样本。负样本可以是时域的样本,也可以是频域的样本。
可选地,计算机设备获取用于模型训练的多个音频样本,对于每个音频样本,计算机设备对该音频样本进行数据增广处理,得到该音频样本的正样本。计算机设备将除该音频样本和该音频样本的正样本以外的音频样本,均作为该音频样本的负样本。
当然,为确保样本一致性,各音频样本、各音频样本的正样本和负样本各自的音频时长都是相同的。
示例性地,对于每个音频样本,计算机设备对该音频样本进行时域上的数据增广和频域上的数据增广中的至少一种,得到该音频样本的正样本。举例说明,计算机设备对该音频样本进行时域上的数据增广,得到第一样本,并将第一样本作为该音频样本的正样本。该正样本与音频样本是相同域的样本,均为时域的样本。
或者,计算机设备根据该第一样本,进行频域上的数据增广,得到第二样本,将该第二样本作为第一音频样本的正样本。该正样本与音频样本是不同域的样本,该正样本为频域的样本。
又或者,计算机设备直接对该音频样本进行频域上的数据增广,得到该音频样本的正样本。该正样本与音频样本是不同域的样本,该正样本为频域的样本。
步骤S204,利用音频指纹特征提取模型分别对音频样本、正样本与负样本进行音频指纹特征提取,得到音频样本、正样本与负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征。
其中,音频指纹特征用于表示音频标志性内容,每个音频都唯一对应一个音频指纹特征。音频指纹特征提取模型为神经网络模型,该音频指纹特征提取模型用于提取音频指纹特征。
可选地,若音频样本、音频样本的正样本和负样本均为时域的样本,则计算机设备分别将音频样本、音频样本的正样本和负样本进行频域转换,得到该音频样本的频域特征、该正样本的频域特征和该负样本的频域特征。
将该音频样本的频域特征输入到音频指纹特征提取模型,进行音频指纹特征提取,得到该音频样本对应的样本音频指纹特征。计算机设备将该正样本的频域特征输入到音频指纹特征提取模型,进行音频指纹特征提取,得到正样本音频指纹特征。计算机设备将该负样本的频域特征输入到音频指纹特征提取模型,进行音频指纹特征提取,得到负样本音频指纹特征。
由于时域的样本体现的是各时刻的能量信息,为确保音频指纹特征提取的准确性,需要将时域的样本进行频域转化,得到频域上的音频数据,即转换为频域特征,该频域特征包括各时刻的频率特征值。
示例性地,计算机设备分别对音频样本、音频样本的正样本和负样本进行短时傅里叶变换,得到该音频样本的频域特征、该正样本的频域特征和该负样本的频域特征。该频域特征包括各时刻的频率特征值。例如,在进行短时傅里叶变换过程中,通过用于进行短时傅里叶变换的一维CNN网络(Convolutional Neural Networks,卷积神经网络),并设置短时傅里叶窗长为8000、窗移为4000以及特征维度为256,提取短时傅里叶特征,即提取频域特征。
当然,对于音频样本,若正样本为频域的样本,则计算机设备直接将正样本输入到音频指纹特征提取模型,得到正样本音频指纹特征。若负样本为频域的样本,则计算设备直接将负样本输入到音频指纹特征提取模型,得到负样本音频指纹特征。
步骤S206,根据样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征与负样本音频指纹特征间的负样本相似度,构建对比损失,根据样本音频指纹特征、正样本音频指纹特征分别与分界值间的差异,构建量化损失,根据正样本相似度,构建正样本趋同损失,联合对比损失、量化损失和正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。
其中,对比损失用于对音频指纹特征提取模型进行对比学习,以使得音频指纹特征提取模型提取出的音频指纹特征具有区分性。对比损失与正样本相似度呈负相关,对比损失与负样本相似度呈正相关。对比损失越小,则说明音频指纹特征的区分性更强。量化损失用于将音频指纹特征靠近或者远离分界值,以进一步提高音频指纹特征的区分性。音频指纹特征与分界值间的差异是指音频指纹特征的绝对值与分界值的差值,音频指纹特征与分界值间的差异与量化损失间呈正相关。正样本趋同损失与正样本相似度间呈负相关,正样本趋同损失用于约束正样例对,即让正样例对中的音频样本和正样本各自的音频指纹特征尽可能相同。
可选地,计算机设备获取样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征分别与各负样本音频指纹特征间的负样本相似度。根据正样本相似度和各负样本相似度,构建对比损失。计算机设备根据样本音频指纹特征、正样本音频指纹特征分别与分界值间的差异,构建量化损失。计算机设备根据正样本相似度与相似度阈值间的目标差异,构建正样本趋同损失。
计算机设备融合对比损失、量化损失和正样本趋同损失,确定目标损失。根据目标损失,调整模型参数。根据调整后的模型参数,更新音频指纹特征提取模型,以得到训练好的音频指纹特征提取模型。
示例性地,计算机设备直接叠加对比损失、量化损失和正样本趋同损失,确定目标损失。或者,计算机设备按对比损失、量化损失和正样本趋同损失各自的权重,对对比损失、量化损失和正样本趋同损失进行加权,确定目标损失。
例如,对比损失、量化损失/>和正样本趋同损失/>各自的权重分别是a、b、c,对应地,目标损失/>如下所示:
上述音频指纹特征提取模型的处理方法中,通过获取音频样本、音频样本的正样本与负样本,正样本通过对音频样本进行数据增广得到,负样本是与音频样本不同的样本;利用音频指纹特征提取模型分别对音频样本、正样本与负样本进行音频指纹特征提取,得到音频样本、正样本与负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征;根据样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征与负样本音频指纹特征间的负样本相似度,构建对比损失,以此对音频指纹特征提取模型进行对比学习,确保了提取出的音频指纹特征具有区分性,确保了音频指纹特征的准确性。根据样本音频指纹特征、正样本音频指纹特征分别与分界值间的差异,构建量化损失,以进一步提高音频指纹特征的区分性。根据正样本相似度,构建正样本趋同损失,以此提升模型对轻微变异正样本的鲁棒性。基于此,联合对比损失、量化损失和正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。这样,训练好的音频指纹特征提取模型能够在确保音频指纹特征具有区分性的同时,提升对轻微变异正样本的鲁棒性,保证了音频匹配的准确性。
在一些实施例中,获取音频样本、音频样本的正样本与负样本,包括:获取音频样本集合,音频样本集合包括个音频样本;对于音频样本集合中的第i个音频样本,对第i个音频样本进行数据增广,得到第i个音频样本对应的正样本,其中,/>;将正样本添加至音频样本集合中,得到一次迭代样本集合;将一次迭代样本集合中除第i个音频样本以外的样本、除第i个音频样本以外的样本所对应的正样本,作为第i个音频样本的负样本。
其中,一次迭代样本集合对应一个迭代次数,也即是,一次迭代样本集合用于对应迭代次数的模型训练。
可选地,计算机设备获取音频样本集合,该音频样本集合中包括个音频样本,各音频样本的音频时长相同。对于音频样本集合中的第i个音频样本,计算机设备对第i个音频样本进行时域上的数据增广和频域上的数据增广中的至少一种,得到第i个音频样本对应的正样本,其中,/>。N和i均为自然数。
计算机设备将第i个音频样本对应的正样本添加至音频样本集合中,得到一次迭代样本集合。计算机设备将一次迭代样本集合中除第i个音频样本以外的样本、除第i个音频样本以外的样本所对应的正样本,作为第i个音频样本的负样本。
示例性地,对于第i个音频样本,计算机设备对第i个音频样本添加噪音,得到第一样本。计算机设备对第一样本进行短时傅里叶变换,得到变换样本,并对变换样本进行频域掩蔽处理,得到第i个音频样本对应的正样本。
上述中变换样本为频域的样本,那么,对应生成的正样本为频域的样本。每个音频样本有唯一对应一个正样本。
在本实施例中,通过对每个音频样本进行数据增广,得到对应的正样本,从而确定了每次迭代对应的一次迭代样本集合。这样,根据各音频样本和对应的正样本,能够迅速确定每个音频样本的负样本。由此,根据各音频样本的正样本和负样本能够构建用于提升音频指纹特征区分性的对比损失和量化损失,以及提升鲁棒性的正样本趋同损失。这样,通过联合这些损失进行模型训练,使得训练好的音频指纹特征提取模型能够在确保音频指纹特征具有区分性的同时,提升对轻微变异正样本的鲁棒性,保证了音频匹配的准确性。
在一些实施例中,进行数据增广之前,方法还包括:对每个音频样本依次进行编码处理与解码处理,得到风格不同的音频样本。
其中,编码处理用于将音频样本编码为预设风格的编码样本,解码处理用于将预设风格的编码样本解码为目标风格的音频样本。风格可以理解为编码格式,如,MP3(MovingPicture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)编码风格、ACC(Advanced Audio Coding,高级音频编码)编码风格、WMA(Windows Media Audio,微软音频格式)等。
可选地,在计算机设备获取到音频样本后,且进行数据增广之前,对于第i个音频样本,计算机设备从预设的多个不同风格的编码器中选择一个编码器,并通过选择的编码器对第i个音频样本进行编码,得到第一预设风格的音频样本。该第一预设风格与音频样本的原始风格不同。计算机设备选择第二预设风格的解码器对预设风格的音频样本解码,得到第二预设风格的音频样本。第二预设风格与原始风格不同。
示例性地,对于第i个音频样本,计算机设备确定第i个音频样本的原始风格为MP3,从多个预设的编码器中选择ACC风格的编码器,并通过选择的编码器对第i个音频样本进行编码,得到ACC风格的音频样本。然后,对ACC风格的音频样本解码为WMA风格的音频样本。
在本实施例中,在进行数据增广处理后,通过对每个音频样本依次进行编码处理,得到风格不同的音频样本,能够增强音频样本对不同编解码的鲁棒性。
在一些实施例中,进行数据增广之前,方法还包括:对每个音频样本依次进行编码处理,得到风格不同的音频样本。将风格不同的音频样本解码为与音频指纹特征提取模型适配的目标风格的音频样本。
在本实施例中,在对音频样本进行不同风格编码后,对编码后的音频样本解码到目标风格的音频样本。这样,统一了输入至音频指纹特征提取模型的音频样本的风格,确保了输入音频样本的格式的一致性。
在一些实施例中,如图3所示,为一个实施例中音频样本获取步骤的流程示意图。方法还包括:
步骤S302,获取原始音频样本集合。
步骤S304,对原始音频样本集合中的每个原始音频样本,获取各自的音频时长。
其中,每个原始音频样本的音频时长可以相同,也可以不同,具体不作限定。原始音频样本为音频,例如,原始音频样本为某个歌曲。
可选地,对于原始音频样本集合中的每个原始音频样本,计算机设备直接获取该原始音频样本的音频时长。
当然,为排除编码的影响,可以通过对原始音频样本进行预处理,以统一音频样本的相关格式,该预处理不影响音频时长。因此,预处理后的音频样本的音频时长即为原始音频样本的音频时长。
可选地,对于原始音频样本集合中的每个原始音频样本,计算机设备对该原始音频样本进行预处理,得到预处理后的音频样本,计算机设备确定预处理后的音频样本的音频时长。
预处理是统一原始音频样本的采样率、声道方式和格式的处理。可选地,计算机设备将该原始音频样本的采样率统一为预设采样率,将声道方式确定为预设声道方式,并将格式确定为目标格式,得到预处理后的音频样本。示例性地,计算机设备将该原始音频样本的采样率统一为8000、且将声道方式设置为单声道、且统一格式为量化位数为16的wav(Waveform Audio File Format,波形音频文件格式)格式,得到预处理后的音频样本,并获取预处理后的音频样本的音频时长。
步骤S306,对于音频时长大于或等于T秒的原始音频样本,从原始音频样本的第m秒开始,截取n秒的连续音频片段,作为用于模型训练的音频样本。
其中,截取到的n秒的连续音频片段包含了该原始音频样本的标志性内容,因此,该连续音频片段可以代表该原始音频样本。
示例性地,对于音频时长大于或等于12秒的原始音频样本,计算机设备从该原始音频样本的第4秒开始,截取8秒的连续音频片段,作为用于模型训练的音频样本。
对于音频时长大于或等于T秒的原始音频样本,由于,/>,因此,音频样本是位于原始音频样本的中间音频片段。那么,通过截取操作,能够有效去除片头和片尾,避免了因片头和片尾的影响,将两个不相同的音频样本误认为是匹配的。这样,能够确保匹配的准确性。
步骤S308,对于音频时长小于T秒且大于n秒的原始音频样本,截取原始音频样本的后n秒的连续音频片段,作为用于模型训练的音频样本。
示例性地,对于音频时长小于12秒且大于8秒的原始音频样本,计算机设备截取原始音频样本的后8秒的连续音频片段,作为用于模型训练的音频样本。
步骤S310,对于音频时长小于n秒的原始音频样本,复制原始音频样本后拼接,在拼接后的音频时长大于n秒时,截取前n秒的连续音频片段,作为用于模型训练的音频样本;其中,,/>,/>
可选地,在音频时长小于n秒的原始音频样本情况下,在不遗漏原始音频的音频内容的基础上,为确保各音频样本的音频时长相同,计算机设备将原始音频样本进行至少一次的复制,并该原始音频样本和至少一个复制样本进行拼接,得到拼接后的音频片段。其中,对应的拼接后的音频时长大于n秒。此时,计算机设备再对该拼接后的音频片段的前n秒的连续音频片段进行截取,得到前n秒的连续音频片段,作为用于模型训练的音频样本。
上述复制过程中为避免原始音频样本音频内容被稀释,因此,直接用原始音频样本进行复制。
示例性地,对于音频时长小于8秒的原始音频样本,复制原始音频样本后进行拼接,在拼接后的音频时长大于8秒时,截取前8秒的连续音频片段,作为用于模型训练的音频样本。
在本实施例中,在确定音频时长大于或等于T秒时,从第m秒进行截取,极大地避免了音频样本中包含片头和片尾,确保了模型训练的准确性。在音频时长小于T秒且大于n秒时,直接截取后n秒的连续音频片段,确保音频样本不遗漏重要音频数据。在音频时长小于n秒时,通过复制拼接的方式确保了音频样本的音频时长的一致性。上述截取的操作,极大地减少了计算量,确保了处理效率,提高了匹配过程的实时性。此外,还能降低片头片尾对音频样本匹配的影响。
在一些实施例中,方法还包括:计算音频样本的音频能量;若根据音频能量确定音频样本属于低音量样本,则直接确定音频指纹特征中的每个元素取值为0。
其中,低音量样本可能是静音样本,也可以是类静音样本。该低音量样本中音频信息极少。该音频能量反映的是音频时长内的总能量。
可选地,对于每个音频样本,计算机设备根据音频样本中音频时长内各时刻的幅值,计算音频样本的音频能量。计算机设备对该音频能量进行均值处理,得到均值能量。若均值能量小于能量阈值,则计算机设备确定音频样本属于低音量样本,则直接确定音频指纹特征中的每个元素取值为0。
示例性地,计算机设备对音频能量取平均,或者进行均方根计算,得到均值能量。均值能量小于能量阈值则说明音频时长内各时刻幅值小,因此,该音频样本为静音样本或者类静音样本。若均值能量大于能量阈值,则计算机设备返回步骤204步骤继续执行。
在本实施例中,通过音频样本的音频能量,预先对音频样本进行筛选,校验是否是静音样本或者类静音样本。若是,为提高匹配效率,无需利用音频指纹特征提取模型对音频样本进行特征提取,直接确定音频指纹特征中的每个元素取值为0,简化了匹配流程,从而,提高了匹配的效率。
在一些实施例中,如图4所示,为一个实施例中样本音频指纹特征提取的流程示意图。利用音频指纹特征提取模型对音频样本进行音频指纹特征提取的步骤包括:
步骤S402,将音频样本的频域特征输入至音频指纹特征提取模型。
其中,频域特征包括各时刻的频率特征值。对该音频样本进行短时傅里叶变换得到音频样本的频域特征。
步骤S404,利用音频指纹特征提取模型的多个堆叠的交互层,对音频样本的频域特征进行特征提取,得到样本音频指纹特征,交互层包括第一子交互层和第二子交互层,第一子交互层是提取时域上的特征和频域上的特征的网络层,第二子交互层是基于音频样本的频域特征中不同时刻间频率特征值的关联信息进行特征提取的网络层。
其中,第一子交互层用于提取时域上的特征和频域上的特征,以最大限度的保留时间和空间的序列信息。第二子交互层是在保持频率特征值大小的情况下,尽可能学习到各时刻间频率特征值的关联信息,特别是不连续时刻间频率特征值的相互信息。
可选地,计算机设备利用音频指纹特征提取模型的多个堆叠的交互层中第一子交互层和第二子交互层,对音频样本的频域特征进行多次特征提取,根据最后一个交互层所提取出的特征,确定为样本音频指纹特征。
在一些实施例中,如图5所示,为另一个实施例中样本音频指纹特征提取的流程示意图,多个堆叠的交互层包括N个堆叠的交互层,利用音频指纹特征提取模型的多个堆叠的交互层,对音频样本的频域特征进行特征提取,得到样本音频指纹特征,包括:
步骤S502,将音频样本的频域特征输入至音频指纹特征提取模型中第一个交互层,依次通过第一个交互层中的第一子交互层和第二子交互层进行特征提取,得到第一个交互层的输出特征。
可选地,计算机设备将音频样本的频域特征输入至音频指纹特征提取模型中第一个交互层,通过第一个交互层中第一子交互层对该频域特征进行特征提取,得到第一个交互层对应的第一特征,通过第一交互层中第二子交互层对该第一特征进行特征提取,得到第一个交互层的输出特征。
示例性地,第一子交互层包含时域特征提取层和频域特征提取层。因此,该第一特征的获得步骤,包括:计算机设备通过第一个子交互层的时域特征提取层对该频域特征进行特征提取,得到第一中间特征,通过第一个子交互层的频域特征提取层对第一中间特征进行特征提取,得到第一特征。
上述过程中,对于同一个第一子交互层而言,所包含的时域特征提取层和频域特征提取层通过在时域和频域轮流进行卷积操作,不仅能够最大限度地保留时间和空间的序列信息,同时也能起到下采样的作用。
如图6A所示,为一个实施例中交互层的结构示意图。每个交互层包括第一子交互层和第二子交互层,第一子交互层包括时域特征提取层和频域特征提取层。示例性地,时域特征提取层包括一个尺寸的二维卷积层(Conv2d)和层归一化层(Layernorm);频域特征提取层包括一个尺寸/>的二维卷积层(Conv2d)和层归一化层(Layernorm)。如图6B所示,为一个实施例中第二子交互层的结构示意图。第二子交互层依次包含池化层(Pooling)、二维卷积层1、激活层(GeLU)和二维卷积层2。其中,二维卷积层1和二维卷积层2的尺寸相同,例如/>,并且二者都进行了批量归一化处理(BN,Batch Normalization)。在第一子交互层输出第一特征后,通过第二子交互层的池化层进行处理,得到池化后特征,融合池化后特征和第一特征,得到第一融合特征。第一融合特征输入二维卷积层1后,依次通过二维卷积层1、激活层和二维卷积层2,得到卷积后特征。融合第一融合特征和卷积后特征,得到第一个交互层的输出特征。
需要说明的是,若每个交互层仅涉及到第一子交互层,此时,模型无法学习到音频样本的频域特征中不相邻时刻间频率特征值的关联性。例如,频谱图反映了音频样本的频域特征,包括了不同时刻下的频率特征值。在仅涉及到第一子交互层的情况下,模型无法学习到频谱图的左上角的频率特征值与右下角的频率特征值的关联性。也就是说,对于频谱图中时间段相差很大的两个时刻,如第1个时刻和第100个时刻,模型是无法知晓第1个时刻的频率特征值1和第100个时刻的频率特征值之间的关联关系,此时,模型也就无法得到更准确的音频指纹特征。
基于此,通过在交互层增加第二子交互层,能够最大化学习相邻时刻间频率特征值的相互关系、以及不相邻时刻间频率特征值的相互关系(即能够学习到频谱图的左上角的频率特征值与右下角的频率特征值的关联性)。这样,训练好的音频指纹特征提取模型能够提取出更准确的音频指纹特征,音频匹配更加准确。
步骤S504,从第二个交互层开始,迭代地将第i个交互层的输出特征输入至第个交互层,依次通过第/>个交互层中的第一子交互层和第二子交互层进行特征提取,得到第/>个交互层的输出特征,直至得到第L个交互层的输出特征时结束迭代;其中,,/>,且i、N均为自然数。
可选地,从第二个交互层开始,对于第个交互层,计算机设备将第i个交互层的输出特征i输入至第/>个交互层,通过第/>个交互层中的第一子交互层中的时域特征提取层对该输出特征i进行特征提取,得到第/>个第一中间特征,通过第/>个子交互层中第一子交互层中的频域特征提取层对第/>个第一中间特征进行特征提取,得到第个交互层对应的第一特征,然后,通过第/>个子交互层中第二子交互层对该第一特征进行特征提取,得到第/>个交互层的输出特征,直至计算机设备得到第L个交互层的输出特征时结束迭代。
步骤S506,基于第L个交互层的输出特征,确定样本音频指纹特征。
可选地,计算机设备根据第L个交互层的输出特征,通过音频指纹特征提取模型的拆分拼接层,对第L个交互层的输出特征进行降维处理,得到样本音频指纹特征。
其中,拆分拼接层包括拆分层和全连接层,该拆分拼接层用于将输出特征进行拆分,得到各拆分结果,然后,对将拆分结果进行全连接处理,得到全连接结果,对各全连接结果拼接后归一化输出。
示例性地,第L个交互层的输出特征的维数是第一维数,计算机设备利用拆分层,将第一维数的输出特征拆分为多个拆分特征。对于每个拆分特征,计算机设备利用对应的全连接层进行处理,得到处理后的特征,计算机设备利用拼接层,将各处理后的特征进行拼接,得到第二维数的特征,并对第二维数的特征进行归一化处理,得到样本音频指纹特征。其中,第二维数与拆分特征的个数一致。第一维数大于第二维数。因此,根据拆分拼接层能够对输出特征进行降维。例如,第L个交互层的输出特征为1024维,经过拆分拼接层处理后得到128维的音频指纹特征。
上述利用拆分拼接层实现了特征的降维处理,不仅减少了模型计算量,还能保持不同网络层输出元素值之间相对独立的关系。例如,若不进行降维处理,一个维度的变化,也会导致其他维度发生变化。若进行降维处理,此时,某个维度的变化不会引起其他维度的变化,即,各维度中元素保持独立。
基于此,对于单个交互层的处理过程,通过第一子交互层分别提取时域和频域的信息,最大限度地保留时间和空间的序列信息。再通过第二子交互层最大化学习相邻时刻间频率特征值的相互关系、以及不相邻时刻间频率特征值的相互关系(即能够学习到频谱图的左上角的频率特征值与右下角的频率特征值的关联性)。进一步地,通过多个堆叠的交互层,实现最大化保留时间和空间的序列信息,并且精准学习到各时刻间频率特征值间的相互关系。由此,训练好的音频指纹特征提取模型能够提取出更准确的音频指纹特征,音频匹配更加准确。
在本实施例中,在获取到音频样本的频域特征之后,通过多个堆叠的交互层,不仅能够保留时域和频域中的信息,还能进一步的学习频域特征中各时刻间频率特征值的相互关系。这样,训练好的音频指纹特征提取模型能够提取出更准确的音频指纹特征,音频匹配更加准确。
在一些实施例中,利用音频指纹特征提取模型对正样本进行音频指纹特征提取的步骤包括:若正样本为时域的样本,则将正样本的频域特征输入至音频指纹特征提取模型,利用音频指纹特征提取模型的多个堆叠的交互层,对正样本的频域特征进行特征提取,得到正样本音频指纹特征。若正样本为频域的样本,则将正样本的频域特征输入至音频指纹特征提取模型,利用音频指纹特征提取模型的多个堆叠的交互层,对正样本进行特征提取,得到正样本音频指纹特征。
可选地,若正样本为时域的样本,则将正样本的频域特征输入至音频指纹特征提取模型中第一个交互层,依次通过第一个交互层中的第一子交互层和第二子交互层进行特征提取,得到第一个交互层的输出特征。若正样本为频域的样本,则将正样本输入至音频指纹特征提取模型中第一个交互层,依次通过第一个交互层中的第一子交互层和第二子交互层进行特征提取,得到第一个交互层的输出特征。
基于此,在确定了正样本对应的第一个交互层的输出特征之后,从第二个交互层开始,迭代地将第i个交互层的输出特征输入至第个交互层,依次通过第/>个交互层中的第一子交互层和第二子交互层进行特征提取,得到第/>个交互层的输出特征,直至得到第L个交互层的输出特征时结束迭代。基于第L个交互层的输出特征,确定正样本音频指纹特征。
对于利用音频指纹特征提取模型对负样本进行音频指纹特征提取的步骤,可参考上述利用音频指纹特征提取模型对正样本进行音频指纹特征提取的步骤。
在本实施例中,通过多个堆叠的交互层,不仅能够保留时域和频域中的信息,还能进一步的学习频域特征中各时刻间频率特征值的相互关系。这样,训练好的音频指纹特征提取模型能够提取出更准确的音频指纹特征,音频匹配更加准确。
在一些实施例中,如图7所示,为一个实施例中对比损失构建的流程示意图。根据样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征与负样本音频指纹特征间的负样本相似度,构建对比损失,包括:
步骤S702,计算样本音频指纹特征与正样本音频指纹特征的正样本相似度。
示例性地,对于音频样本,对应的正样本为/>,对应的样本音频指纹特征与正样本音频指纹特征分别为/>和/>,计算机设备可以通过余弦距离、欧式距离等计算样本音频指纹特征与正样本音频指纹特征的正样本相似度,即/>,例如,计算样本音频指纹特征与正样本音频指纹特征的内积,确定正样本相似度。/>
步骤S704,计算样本音频指纹特征分别与各负样本音频指纹特征间的负样本相似度,统计各负样本相似度的和值。
可选地,对于音频样本的每个负样本,计算机设备计算样本音频指纹特征与该负样本的负样本音频指纹特征间的负样本相似度,并统计该音频样本对应的各负样本相似度的和值。
步骤S706,根据正样本相似度与和值的差异,构建对比损失,对比损失与正样本相似度呈负相关,对比损失与和值呈正相关。
可选地,计算机设备根据正样本相似度,确定对比损失相关的分子,根据该和值,确定对比损失相关的分母,计算机设备根据该分子与分母,构建对比损失。
示例性地,通过下述公式确定音频样本的样本对比损失:
上述公式中的表达式如下:
其中,和/>均是常数,N为自然数,/>表示k为音频样本/>的负样本的负样本音频指纹特征,/>为负样本相似度,/>表示以常数e为底的指数函数,可视为是系数项,该系数项与音频样本和正样本有关。反映的是负样本相似度的和值。/>表征的是极大值,通过最大化函数/>,确保分母中/>不超过极大值,此时,能够防止模型梯度爆炸。
基于此,将各音频样本的样本对比损失叠加,得到最终用于模型训练的对比损失。
在本实施例中,通过正样本相似度与各负样本相似度的和值间的差异,构建对比损失。这样,根据该对比损失实现对音频指纹特征提取模型进行对比学习,确保了提取出的音频指纹特征具有区分性,确保了音频指纹特征的准确性。
在一些实施例中,根据样本音频指纹特征、正样本音频指纹特征分别与分界值间的差异,构建量化损失,包括:计算样本音频指纹特征的绝对值与分界值间的第一差异;计算正样本音频指纹特征的绝对值与分界值间的第二差异;叠加第一差异和第二差异,构建量化损失。
其中,音频指纹特征的绝对值与分界值间差异越小,则说明音频指纹特征要么是靠近分界值,要么是靠近分界值的相反数(即远离分界值)。音频指纹特征可以是样本音频指纹特征,也可以是正样本音频指纹特征。
可选地,对于每个音频样本,计算机设备计算样本音频指纹特征的绝对值与分界值间的第一差异。计算正样本音频指纹特征的绝对值与分界值间的第二差异,叠加第一差异和第二差异,得到该音频样本对应的样本量化损失。计算机设备叠加各音频样本各自对应的样本量化损失,得到量化损失。
进一步地,计算机设备还可以将样本音频指纹特征映射到目标数值范围,得到样本音频指纹对应的第一映射值,将正样本音频指纹特征映射到目标数值范围,得到正样本音频指纹对应的第二映射值。计算机设备计算第一映射值的绝对值与分界值的第一差异,计算第二映射值的绝对值与分界值的第二差异,计算机设备叠加第一差异和第二差异,构建量化损失。
例如,通过下述方法计算量化损失
其中,s为一次迭代样本集合,为映射函数,即将音频指纹特征映射到(-1,1)的范围。/>为正则化处理。根据该公式可知,可以将样本音频特征向1靠近,或者向-1靠近。基于此,根据该量化损失,能够确保模型输出的音频指纹特征的数值是靠近-1或者靠近1的,进一步对音频指纹特征进行区分。
在本实施例中,通过计算样本音频指纹特征的绝对值与分界值间的第一差异;计算正样本音频指纹特征的绝对值与分界值间的第二差异;叠加第一差异和第二差异,构建量化损失,以进一步提高音频指纹特征的区分性。
在一些实施例中,根据正样本相似度,构建正样本趋同损失,包括:计算正样本相似度与相似度阈值的目标差异;根据目标差异,构建正样本趋同损失,正样本趋同损失与目标差异呈正相关。
其中,相似度越靠近相似度阈值,则说明两个音频越匹配。相似度不大于相似度阈值。该目标差异可以是相似度阈值减去正样相似度得到,此时,目标差异为正数。也可以是正样本相似度减去相似度阈值得到,此时,目标差异为负数。
示例性地,正样本趋同损失的计算公式如下:
由于不同迭代次数各自对应的一次迭代样本集合中样本数量可能不同,也可能相同。因此,可以通过对一次迭代样本集合中各量化损失的和值(即)除以/>来实现均值计算,这样,也就统一了各集合对应的正样本趋同损失。
在本实施例中,通过计算正样本相似度与相似度阈值的目标差异;根据目标差异,构建正样本趋同损失。这样,根据正样本趋同损失能够让样本音频指纹特征和正样本音频指纹特征尽可能相同,以此提升模型对轻微变异正样本的鲁棒性。
在一些实施例中,如图8所示,为一个实施例中音频匹配步骤的流程示意图。方法还包括:
步骤S802,获取目标音频与待匹配音频集合。
其中,在进行音频侵权检测任务时,该目标音频是待进行侵权检测的音频,在进行听歌识曲任务时,该目标音频是待进行识别的音频。待匹配音频集合包括多个待匹配音频。
示例性地,计算机设备获取用户上传或发送的目标音频,并从音频存储库中获取待匹配音频集合。
步骤S804,利用训练好的音频指纹特征提取模型,分别对目标音频与待匹配音频集合中的各待匹配音频进行音频指纹特征提取,得到各自的音频指纹特征。
可选地,计算机设备对目标音频进行片段选择,确定预设音频时长的目标音频片段,并获取各待匹配音频各自的待匹配音频片段,待匹配音频片段的时长与目标音频片段的时长相同。各待匹配音频片段可以是预先进行片段选择,并存储在音频存储库中的。
计算机设备确定目标音频片段和各待匹配音频片段各自的频域特征。将目标音频片段的频域特征输入至训练好的音频指纹特征提取模型,进行音频指纹特征提取,得到目标音频对应的音频指纹特征。计算机设备分别将各待匹配音频片段各自的频域特征输入至训练好的音频指纹特征提取模型,进行音频指纹特征提取,得到各待匹配音频对应的音频指纹特征。
需要说明的是,在进行音频指纹特征提取之前,预先对目标音频进行有效的片段截取,以在确保音频信息量的同时,降低计算量,极大地的提高了匹配速度。
步骤S806,将各音频指纹特征中的每个元素映射为预设数值区间内的目标数值,得到相应的音频指纹序列。
其中,音频指纹特征可以是目标音频对应的音频指纹特征,也可以是各待匹配音频对应的音频指纹特征。
可选地,对于每个音频指纹特征,计算机设备对该音频指纹特征进行归一化处理,得到相应的音频指纹序列。音频指纹序列包括各元素的目标数值。
示例性地,计算机设备通过tanh(双曲正切)函数,确定音频指纹特征中各元素的目标数值,每个目标数值均处于(-1,1)区间内。
步骤S808,基于目标音频与待匹配音频集合中的待匹配音频各自的音频指纹序列,从待匹配音频集合中确定与目标音频匹配的音频。
其中,每个音频指纹序列的中序列长度都相同,模型输出的音频指纹特征的维数即音频指纹序列中各元素的个数。
可选地,计算机设备分别确定各音频指纹序列中每个元素位置处的目标数值。对于每个元素位置,计算机设备对比目标音频的音频指纹序列中该元素位置的目标数值和待匹配音频的音频指纹序列中该元素位置的目标数值间的差异,若存在预设数量的元素位置对应的差异小于预设差异,则确定该待匹配音频与目标音频是匹配的。
示例性地,音频指纹序列中包括H个元素,对于每个待匹配音频,计算机设备比较该待匹配音频的音频指纹序列中第h个元素的目标数值与目标音频的音频指纹序列中第h个元素的目标数值是否相同,计算机设备确定目标数值相同的个数,若该个数等于H,则计算机设备确定该待匹配音频是与目标音频匹配的。若该个数不小于H,则计算机设备确定该待匹配音频与目标音频不匹配。其中,,h和H均为自然数。/>
在本实施例中,通过训练好的音频指纹特征提取模型,能够准确提取出目标音频和各待匹配音频的音频指纹特征,在对各音频指纹特征中各元素的值进行归一化处理后,得到各自对应的音频指纹序列。基于此,根据目标音频的音频指纹特征序列和各待匹配音频的音频指纹特征,能够迅速且准确的完成音频匹配。
在一些实施例中,基于目标音频与待匹配音频集合中的待匹配音频各自的音频指纹序列,从待匹配音频集合中确定与目标音频匹配的音频,包括:将目标音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到目标音频的转换序列;将待匹配音频集合中的待匹配音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到待匹配音频的转换序列;根据目标音频的转换序列和待匹配音频集合中各待匹配音频的转换序列,从待匹配音频集合中确定与目标音频匹配的音频。
其中,二元值是指用第一数值或者第二数值来表示。第一数组和第二数组是不同的数值。第一数值和第二数值可以互为相反数,例如,+1和-1;第一数值和第二数值也可以是非负的两个不同数值,例如,0和+1。因此,转换序列中各元素的数值要么是第一数值,要么是第二数值。示例性地,转换序列:+1、-1、+1、…、-1。转换序列和音频指纹特征序列的序列长度相同。
可选地,计算机设备通过对目标音频的音频指纹序列进行哈希处理,将目标音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到目标音频的转换序列。对于每个待匹配音频,计算机设备通过对该待匹配音频的音频指纹特征序列进行哈希处理,将该待匹配音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到该待匹配音频的转换序列。计算机设备比对相同元素位置处、目标音频的转换序列中对应的二元值和待匹配音频的转换序列中对应的二元值间的差异。若每个元素位置对应的差异均不大于预设差异,则确定该待匹配音频与目标音频是匹配的。若存在至少一个元素位置对应的差异大于预设差异,则确定该待匹配音频与目标音频不匹配。
示例性地,计算机设备利用符号函数,将该目标音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到目标音频的转换序列。将该待匹配音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到该待匹配音频的转换序列。
例如,对于第h个元素,根据下述符号函数来确定转换序列:
为一种符号函数,音频指纹序列中第h个元素的目标数值x大于0,则确定第h个元素的二元值为1,相反,目标数值x小于0,则确定第h个元素的二元值为-1。
当然,还可以通过分段函数将目标数值转换为对应的二元值,具体不作限定。
在本实施例中,通过将音频指纹序列中各元素的目标数值转换为二元值,得到对应的转换序列。基于此,根据目标音频的转换序列中各元素的二元值和待匹配音频的转换序列中各元素的二元值,简化了匹配的过程,提高了匹配效率。
在一些实施例中,根据目标音频的转换序列和待匹配音频集合中各待匹配音频的转换序列,从待匹配音频集合中确定与目标音频匹配的音频,包括:对于待匹配音频集合中每个待匹配音频的转换序列,比较目标音频的转换序列和待匹配音频的转换序列中相同元素位置处的二元值是否一致;若目标音频的转换序列和待匹配音频的转换序列中相同元素位置处的二元值均一致,则确定待匹配音频是与目标音频匹配的音频。
示例性地,转换序列中包括H个元素,对于每个待匹配音频,计算机设备比较该待匹配音频的转换序列中第h个元素的二元值与目标音频的转换序列中第h个元素的二元值是否相同,计算机设备确定二元值相同的个数,若该个数等于H,则计算机设备确定该待匹配音频是与目标音频匹配的。若该个数不等于H,则计算机设备确定该待匹配音频与目标音频不匹配。其中,
在本实施例中,通过比对目标音频的转换序列和待匹配音频的转换序列中相同元素位置处的二元值,能够迅速且准确的校验目标音频与待匹配音频是否是匹配的,兼顾匹配准确性和匹配效率,极大地提高了匹配的实时性。
本申请还提供一种应用场景,该应用场景应用上述的音频指纹特征提取模型的处理方法。具体地,该音频指纹特征提取模型的处理方法在该应用场景的应用例如如下所述:在音频侵权检测的场景中,服务器在接收到用户终端上传的创作音频后,可以通过调用训练好的音频指纹特征提取模型提取创作音频的音频指纹特征以及待匹配音频的音频指纹特征。基于此,服务器根据比较创作音频的音频指纹特征以及待匹配音频的音频指纹特征来进行检测。为确保音频匹配的匹配的准确性。可以采用本申请提供的音频指纹特征提取模型的处理方法,得到准确性高的训练好的音频指纹特征提取模型。具体地:获取音频样本、音频样本的正样本与负样本,正样本通过对音频样本进行数据增广得到,负样本是与音频样本不同的样本;利用音频指纹特征提取模型分别对音频样本、正样本与负样本进行音频指纹特征提取,得到音频样本、正样本与负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征;根据样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征与负样本音频指纹特征间的负样本相似度,构建对比损失,根据样本音频指纹特征、正样本音频指纹特征分别与分界值间的差异,构建量化损失,根据正样本相似度,构建正样本趋同损失,联合对比损失、量化损失和正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。
当然并不局限于此,本申请提供的音频指纹特征提取模型的处理方法还可以应用在其他应用场景中,例如在进行听歌识曲的场景中,根据本申请提供的训练好的音频指纹特征提取模型,获取准确性高的待识别音频的音频指纹特征和音频库中各存储音频的音频指纹特征,以此确保音频匹配的准确性。
上述应用场景仅为示意性的说明,可以理解,本申请各实施例所提供的音频指纹特征提取模型的处理方法的应用不局限上述场景。
在一个具体的实施例中,本申请提供了一个音频指纹特征提取模型的处理方法,该方法由计算机设备执行。如图9所示,为一个实施例中音频指纹特征提取模型的模型训练流程示意图。
步骤1(音频样本获取阶段):计算机设备获取原始音频样本集合;对原始音频样本集合中的每个原始音频样本,获取各自的音频时长;对于音频时长大于或等于T秒的原始音频样本,从原始音频样本的第m秒开始,截取n秒的连续音频片段,作为用于模型训练的音频样本;对于音频时长小于T秒且大于n秒的原始音频样本,截取原始音频样本的后n秒的连续音频片段,作为用于模型训练的音频样本;对于音频时长小于n秒的原始音频样本,复制原始音频样本后拼接,在拼接后的音频时长大于n秒时,截取前n秒的连续音频片段,作为用于模型训练的音频样本;其中,,/>,/>
步骤2(音频样本编解码阶段):计算机设备对于每个音频样本,计算机设备对每个音频样本依次进行编码处理与解码处理,得到风格不同的音频样本。计算机设备根据获取到的风格不同的音频样本,确定音频样本集合。音频样本集合包括个音频样本。
步骤3(数据增广阶段):对于音频样本集合中的第i个音频样本,计算机设备对第i个音频样本进行数据增广,得到第i个音频样本对应的正样本,其中,;将正样本添加至音频样本集合中,得到一次迭代样本集合;将一次迭代样本集合中除第i个音频样本以外的样本、除第i个音频样本以外的样本所对应的正样本,作为第i个音频样本的负样本。
步骤4(模型训练阶段):计算机设备将音频样本的频域特征输入至音频指纹特征提取模型之前,计算音频样本的音频能量;若根据音频能量确定音频样本属于低音量样本,则直接确定音频指纹特征中的每个元素取值为0。
若音频能量确定音频样本不属于低音量样本,则将音频样本的频域特征输入至音频指纹特征提取模型。如图9所示,音频指纹特征提取模型包括第一个交互层、…、第N个交互层,即包括N个堆叠的交互层和拆分拼接层。其中,交互层包括第一子交互层和第二子交互层,第一子交互层是提取时域上的特征和频域上的特征的网络层,第二子交互层是基于音频样本的频域特征中不同时刻间频率特征值的关联信息进行特征提取的网络层。交互层和第二子交互层的网络结构分别参照图6A和图6B。如图9所示,拆分拼接层包括拆分层和m个全连接层。
将音频样本的频域特征输入至音频指纹特征提取模型中第一个交互层,依次通过第一个交互层中的第一子交互层和第二子交互层进行特征提取,得到第一个交互层的输出特征;从第二个交互层开始,迭代地将第i个交互层的输出特征输入至第个交互层,依次通过第/>个交互层中的第一子交互层和第二子交互层进行特征提取,得到第/>个交互层的输出特征,直至得到第L个交互层的输出特征时结束迭代;其中,/>,/>,且i、N均为自然数。
计算机设备将第L个交互层的输出特征输入拆分层,将第L个交互层的输出特征拆分为多个拆分特征。对于每个拆分特征,计算机设备利用对应的全连接层进行处理,得到处理后的特征,计算机设备对各处理后的特征进行拼接后归一化处理,得到样本音频指纹特征。具体地,计算机设备利用拼接层,将各处理后的特征进行拼接,得到第二维数的特征,并对第二维数的特征进行归一化处理,得到样本音频指纹特征。
此外,对于正样本音频指纹特征和负样本音频指纹特征可参考样本音频指纹特征的生成步骤。
计算机设备计算样本音频指纹特征与正样本音频指纹特征的正样本相似度;计算样本音频指纹特征分别与各负样本音频指纹特征间的负样本相似度,统计各负样本相似度的和值;根据正样本相似度与和值的差异,构建对比损失,对比损失与正样本相似度呈负相关,对比损失与和值呈正相关。计算样本音频指纹特征的绝对值与分界值间的第一差异;计算正样本音频指纹特征的绝对值与分界值间的第二差异;叠加第一差异和第二差异,构建量化损失。计算正样本相似度与相似度阈值的目标差异;根据目标差异,构建正样本趋同损失,正样本趋同损失与目标差异呈正相关。
联合对比损失、量化损失和正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。
步骤5(音频匹配阶段):如图10所示,为一个实施例中音频匹配的示意图。计算机设备分别确定音频a的音频片段和音频b的音频片段,并根据音频a的音频片段和音频b的音频片段,通过训练好的音频指纹特征提取模型,分别获取音频a的音频指纹特征和音频b的音频指纹特征。计算机设备根据音频a的音频指纹特征和音频b的音频指纹特征,进行音频匹配,以确定音频a和音频b是否是匹配的。
具体地,计算机设备获取目标音频与待匹配音频集合;计算机设备对目标音频进行片段选择,确定预设音频时长的目标音频片段,并获取各待匹配音频各自的待匹配音频片段,待匹配音频片段的时长与目标音频片段的时长相同。各待匹配音频片段可以是预先进行片段选择,并存储在音频存储库中的。
计算机设备确定目标音频片段的频域特征和各待匹配音频片段各自的频域特征。将目标音频片段的频域特征输入至训练好的音频指纹特征提取模型,进行音频指纹特征提取,得到目标音频对应的音频指纹特征。计算机设备分别将各待匹配音频片段各自的频域特征输入至训练好的音频指纹特征提取模型,进行音频指纹特征提取,得到各待匹配音频对应的音频指纹特征。将各音频指纹特征中的每个元素映射为预设数值区间内的目标数值,得到相应的音频指纹序列;
将目标音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到目标音频的转换序列;将待匹配音频集合中的待匹配音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到待匹配音频的转换序列。例如,转换序列如图9所示为01…10。
对于待匹配音频集合中每个待匹配音频的转换序列,比较目标音频的转换序列和待匹配音频的转换序列中相同元素位置处的二元值是否一致;若目标音频的转换序列和待匹配音频的转换序列中相同元素位置处的二元值均一致,则确定待匹配音频是与目标音频匹配的音频。
为进一步比对本申请实施例中模型效果,为此,从开源数据集中随机选取了2500条音视频样本作为测试集,并且选用准确率、覆盖率和实时率(Real time factor,RTF)作为评估指标。准确率和覆盖率越高说明效果越好,RTF越小说明匹配速度越快。比对结果如表1所示:
从表1结果可以看到,相比MD5(Message-Digest Algorithm5,信息-摘要算法)方法,本申请实施例匹配方法的覆盖率有明显提升,这是因为基于本申请实施例的匹配方法具有将轻微变异的音视频样本映射到同一个哈希值的能力,因此,大大增强了鲁棒性。更重要的是,本申请实施例匹配方法虽然覆盖率相比基于AsyCL(Asymmetric ContrastiveLearning,不对称对比学习)的音频相似度要差一些,但是它的匹配速度提升了将近20倍。这个结果说明本申请实施例匹配方法的推理速度确实很快,也即是,在兼顾了正确性和覆盖率的同时,还确保了实时性,适用于对实时性要求较高的任务。
在本实施例中,通过获取音频的音频片段,不仅能够减少计算量,还能有效避免因存在片头片尾将不同音频样本误匹配为相似视频。联合对比损失、量化损失和正样本趋同损失进行模型训练。基于此,利用对比损失能够有效提升音频指纹特征的区分能力,在此基础上,增加量化损失,以降低音频指纹特征的区分损失,进一步提升音频指纹特征的区分能力。利用正样本趋同损失以提升模型对轻微变异正样本的鲁棒性。基于此,训练好的音频指纹特征提取模型能够在确保音频指纹特征区分性的同时,提升对轻微变异正样本的鲁棒性,保证了音频匹配的准确性。此外,通过比较所述目标音频的转换序列和所述待匹配音频的转换序列中相同元素位置处的二元值是否一致,极大地减少了计算量,提升了匹配速度和准确率。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的音频指纹特征提取模型的处理方法的音频指纹特征提取模型的处理装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个音频指纹特征提取模型的处理装置实施例中的具体限定可以参见上文中对于音频指纹特征提取模型的处理方法的限定,在此不再赘述。
在一个实施例中,如图11所示,提供了一种音频指纹特征提取模型的处理装置1100,包括:样本获取模块1102、特征提取模块1104和调整模块1106,其中:
样本获取模块1102,用于获取音频样本、音频样本的正样本与负样本,正样本通过对音频样本进行数据增广得到,负样本是与音频样本不同的样本;
特征提取模块1104,用于利用音频指纹特征提取模型分别对音频样本、正样本与负样本进行音频指纹特征提取,得到音频样本、正样本与负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征;
调整模块1106,用于根据样本音频指纹特征与正样本音频指纹特征间的正样本相似度、样本音频指纹特征与负样本音频指纹特征间的负样本相似度,构建对比损失,根据样本音频指纹特征、正样本音频指纹特征分别与分界值间的差异,构建量化损失,根据正样本相似度,构建正样本趋同损失,联合对比损失、量化损失和正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。
在一些实施例中,样本获取模块1102,用于获取音频样本集合,音频样本集合包括个音频样本;对于音频样本集合中的第i个音频样本,对第i个音频样本进行数据增广,得到第i个音频样本对应的正样本,其中,/>;将正样本添加至音频样本集合中,得到一次迭代样本集合;将一次迭代样本集合中除第i个音频样本以外的样本、除第i个音频样本以外的样本所对应的正样本,作为第i个音频样本的负样本。
在一些实施例中,进行数据增广之前,装置还包括编解码模块,编解码模块,用于对每个音频样本依次进行编码处理与解码处理,得到风格不同的音频样本。
在一些实施例中,样本获取模块1102,还用于获取原始音频样本集合;对原始音频样本集合中的每个原始音频样本,获取各自的音频时长;对于音频时长大于或等于T秒的原始音频样本,从原始音频样本的第m秒开始,截取n秒的连续音频片段,作为用于模型训练的音频样本;对于音频时长小于T秒且大于n秒的原始音频样本,截取原始音频样本的后n秒的连续音频片段,作为用于模型训练的音频样本;对于音频时长小于n秒的原始音频样本,复制原始音频样本后拼接,在拼接后的音频时长大于n秒时,截取前n秒的连续音频片段,作为用于模型训练的音频样本;其中,,/>,/>
在一些实施例中,特征提取模块1104,还用于计算音频样本的音频能量;若根据音频能量确定音频样本属于低音量样本,则直接确定音频指纹特征中的每个元素取值为0。
在一些实施例中,特征提取模块1104,用于将音频样本的频域特征输入至音频指纹特征提取模型;利用音频指纹特征提取模型的多个堆叠的交互层,对音频样本的频域特征进行特征提取,得到样本音频指纹特征,交互层包括第一子交互层和第二子交互层,第一子交互层是提取时域上的特征和频域上的特征的网络层,第二子交互层是基于音频样本的频域特征中不同时刻间频率特征值的关联信息进行特征提取的网络层。
在一些实施例中,多个堆叠的交互层包括N个堆叠的交互层,特征提取模块1104,用于将音频样本的频域特征输入至音频指纹特征提取模型中第一个交互层,依次通过第一个交互层中的第一子交互层和第二子交互层进行特征提取,得到第一个交互层的输出特征;从第二个交互层开始,迭代地将第i个交互层的输出特征输入至第个交互层,依次通过第/>个交互层中的第一子交互层和第二子交互层进行特征提取,得到第/>个交互层的输出特征,直至得到第L个交互层的输出特征时结束迭代;其中,/>,/>,且i、N均为自然数;基于第L个交互层的输出特征,确定样本音频指纹特征。
在一些实施例中,调整模块1106,用于计算样本音频指纹特征与正样本音频指纹特征的正样本相似度;计算样本音频指纹特征分别与各负样本音频指纹特征间的负样本相似度,统计各负样本相似度的和值;根据正样本相似度与和值的差异,构建对比损失,对比损失与正样本相似度呈负相关,对比损失与和值呈正相关。
在一些实施例中,调整模块1106,用于计算样本音频指纹特征的绝对值与分界值间的第一差异;计算正样本音频指纹特征的绝对值与分界值间的第二差异;叠加第一差异和第二差异,构建量化损失。
在一些实施例中,调整模块1106,用于计算正样本相似度与相似度阈值的目标差异;根据目标差异,构建正样本趋同损失,正样本趋同损失与目标差异呈正相关。
在一些实施例中,装置还包括匹配模块,匹配模块,用于获取目标音频与待匹配音频集合;利用训练好的音频指纹特征提取模型,分别对目标音频与待匹配音频集合中的各待匹配音频进行音频指纹特征提取,得到各自的音频指纹特征;将各音频指纹特征中的每个元素映射为预设数值区间内的目标数值,得到相应的音频指纹序列;基于目标音频与待匹配音频集合中的待匹配音频各自的音频指纹序列,从待匹配音频集合中确定与目标音频匹配的音频。
在一些实施例中,匹配模块,用于将目标音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到目标音频的转换序列;将待匹配音频集合中的待匹配音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到待匹配音频的转换序列;根据目标音频的转换序列和待匹配音频集合中各待匹配音频的转换序列,从待匹配音频集合中确定与目标音频匹配的音频。
在一些实施例中,匹配模块,用于对于待匹配音频集合中每个待匹配音频的转换序列,比较目标音频的转换序列和待匹配音频的转换序列中相同元素位置处的二元值是否一致;若目标音频的转换序列和待匹配音频的转换序列中相同元素位置处的二元值均一致,则确定待匹配音频是与目标音频匹配的音频。
上述音频指纹特征提取模型的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,也可以是终端,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音频指纹特征提取模型的处理方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (16)

1.一种音频指纹特征提取模型的处理方法,其特征在于,所述方法包括:
获取音频样本、所述音频样本的正样本与负样本,所述正样本通过对所述音频样本进行数据增广得到,所述负样本是与所述音频样本不同的样本;
利用音频指纹特征提取模型分别对所述音频样本、所述正样本与所述负样本进行音频指纹特征提取,得到所述音频样本、所述正样本与所述负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征;
根据所述样本音频指纹特征与所述正样本音频指纹特征间的正样本相似度、所述样本音频指纹特征与所述负样本音频指纹特征间的负样本相似度,构建对比损失,根据所述样本音频指纹特征、所述正样本音频指纹特征分别与分界值间的差异,构建量化损失,根据所述正样本相似度,构建正样本趋同损失,联合所述对比损失、所述量化损失和所述正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。
2.根据权利要求1所述的方法,其特征在于,所述获取音频样本、所述音频样本的正样本与负样本,包括:
获取音频样本集合,所述音频样本集合包括个音频样本;
对于所述音频样本集合中的第i个音频样本,对所述第i个音频样本进行数据增广,得到所述第i个音频样本对应的正样本,其中,
将所述正样本添加至所述音频样本集合中,得到一次迭代样本集合;
将所述一次迭代样本集合中除所述第i个音频样本以外的样本、除所述第i个音频样本以外的样本所对应的正样本,作为所述第i个音频样本的负样本。
3.根据权利要求2所述的方法,其特征在于,进行数据增广之前,所述方法还包括:
对每个音频样本依次进行编码处理与解码处理,得到风格不同的音频样本。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取原始音频样本集合;
对所述原始音频样本集合中的每个原始音频样本,获取各自的音频时长;
对于音频时长大于或等于T秒的原始音频样本,从所述原始音频样本的第m秒开始,截取n秒的连续音频片段,作为用于模型训练的音频样本;
对于音频时长小于T秒且大于n秒的原始音频样本,截取所述原始音频样本的后n秒的连续音频片段,作为用于模型训练的音频样本;
对于音频时长小于n秒的原始音频样本,复制所述原始音频样本后拼接,在拼接后的音频时长大于n秒时,截取前n秒的连续音频片段,作为用于模型训练的音频样本;
其中,,/>,/>
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
计算所述音频样本的音频能量;
若根据所述音频能量确定所述音频样本属于低音量样本,则直接确定所述音频指纹特征中的每个元素取值为0。
6.根据权利要求1所述的方法,其特征在于,利用所述音频指纹特征提取模型对所述音频样本进行音频指纹特征提取的步骤包括:
将所述音频样本的频域特征输入至所述音频指纹特征提取模型;
利用所述音频指纹特征提取模型的多个堆叠的交互层,对所述音频样本的频域特征进行特征提取,得到所述样本音频指纹特征,所述交互层包括第一子交互层和第二子交互层,所述第一子交互层是提取时域上的特征和频域上的特征的网络层,所述第二子交互层是基于所述音频样本的频域特征中不同时刻间频率特征值的关联信息进行特征提取的网络层。
7.根据权利要求6所述的方法,其特征在于,所述多个堆叠的交互层包括N个堆叠的交互层,所述利用所述音频指纹特征提取模型的多个堆叠的交互层,对所述音频样本的频域特征进行特征提取,得到所述样本音频指纹特征,包括:
将所述音频样本的频域特征输入至所述音频指纹特征提取模型中第一个交互层,依次通过第一个交互层中的第一子交互层和第二子交互层进行特征提取,得到第一个交互层的输出特征;
从第二个交互层开始,迭代地将第i个交互层的输出特征输入至第个交互层,依次通过第/>个交互层中的第一子交互层和第二子交互层进行特征提取,得到第/>个交互层的输出特征,直至得到第L个交互层的输出特征时结束迭代;其中,/>,/>,且i、N均为自然数;
基于第L个交互层的输出特征,确定所述样本音频指纹特征。
8.根据权利要求1所述的方法,其特征在于,所述根据所述样本音频指纹特征与所述正样本音频指纹特征间的正样本相似度、所述样本音频指纹特征与所述负样本音频指纹特征间的负样本相似度,构建对比损失,包括:
计算所述样本音频指纹特征与所述正样本音频指纹特征的正样本相似度;
计算所述样本音频指纹特征分别与各所述负样本音频指纹特征间的负样本相似度,统计各所述负样本相似度的和值;
根据所述正样本相似度与所述和值的差异,构建对比损失,所述对比损失与所述正样本相似度呈负相关,所述对比损失与所述和值呈正相关。
9.根据权利要求1所述的方法,其特征在于,所述根据所述样本音频指纹特征、所述正样本音频指纹特征分别与分界值间的差异,构建量化损失,包括:
计算所述样本音频指纹特征的绝对值与所述分界值间的第一差异;
计算所述正样本音频指纹特征的绝对值与所述分界值间的第二差异;
叠加所述第一差异和所述第二差异,构建量化损失。
10.根据权利要求1所述的方法,其特征在于,所述根据所述正样本相似度,构建正样本趋同损失,包括:
计算所述正样本相似度与相似度阈值的目标差异;
根据所述目标差异,构建正样本趋同损失,所述正样本趋同损失与目标差异呈正相关。
11.根据权利要求1至10任一项所述的方法,其特征在于,所述方法还包括:
获取目标音频与待匹配音频集合;
利用所述训练好的音频指纹特征提取模型,分别对所述目标音频与所述待匹配音频集合中的各待匹配音频进行音频指纹特征提取,得到各自的音频指纹特征;
将各所述音频指纹特征中的每个元素映射为预设数值区间内的目标数值,得到相应的音频指纹序列;
基于所述目标音频与所述待匹配音频集合中的待匹配音频各自的音频指纹序列,从所述待匹配音频集合中确定与所述目标音频匹配的音频。
12.根据权利要求11所述的方法,其特征在于,所述基于所述目标音频与所述待匹配音频集合中的待匹配音频各自的音频指纹序列,从所述待匹配音频集合中确定与所述目标音频匹配的音频,包括:
将所述目标音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到所述目标音频的转换序列;
将所述待匹配音频集合中的待匹配音频的音频指纹序列中各元素的目标数值转换为对应的二元值,得到所述待匹配音频的转换序列;
根据所述目标音频的转换序列和所述待匹配音频集合中各所述待匹配音频的转换序列,从所述待匹配音频集合中确定与所述目标音频匹配的音频。
13.根据权利要求12所述的方法,其特征在于,所述根据所述目标音频的转换序列和所述待匹配音频集合中各所述待匹配音频的转换序列,从所述待匹配音频集合中确定与所述目标音频匹配的音频,包括:
对于所述待匹配音频集合中每个待匹配音频的转换序列,比较所述目标音频的转换序列和所述待匹配音频的转换序列中相同元素位置处的二元值是否一致;
若所述目标音频的转换序列和所述待匹配音频的转换序列中相同元素位置处的二元值均一致,则确定所述待匹配音频是与所述目标音频匹配的音频。
14.一种音频指纹特征提取模型的处理装置,其特征在于,所述装置包括:
样本获取模块,用于获取音频样本、所述音频样本的正样本与负样本,所述正样本通过对所述音频样本进行数据增广得到,所述负样本是与所述音频样本不同的样本;
特征提取模块,用于利用音频指纹特征提取模型分别对所述音频样本、所述正样本与所述负样本进行音频指纹特征提取,得到所述音频样本、所述正样本与所述负样本分别对应的样本音频指纹特征、正样本音频指纹特征与负样本音频指纹特征;
调整模块,用于根据所述样本音频指纹特征与所述正样本音频指纹特征间的正样本相似度、所述样本音频指纹特征与所述负样本音频指纹特征间的负样本相似度,构建对比损失,根据所述样本音频指纹特征、所述正样本音频指纹特征分别与分界值间的差异,构建量化损失,根据所述正样本相似度,构建正样本趋同损失,联合所述对比损失、所述量化损失和所述正样本趋同损失调整模型参数,以得到训练好的音频指纹特征提取模型。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述的方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。
CN202311041995.1A 2023-08-18 2023-08-18 音频指纹特征提取模型的处理方法、装置和计算机设备 Active CN116758936B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311041995.1A CN116758936B (zh) 2023-08-18 2023-08-18 音频指纹特征提取模型的处理方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311041995.1A CN116758936B (zh) 2023-08-18 2023-08-18 音频指纹特征提取模型的处理方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN116758936A true CN116758936A (zh) 2023-09-15
CN116758936B CN116758936B (zh) 2023-11-07

Family

ID=87959502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311041995.1A Active CN116758936B (zh) 2023-08-18 2023-08-18 音频指纹特征提取模型的处理方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN116758936B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336888A1 (en) * 2017-05-19 2018-11-22 Baidu Online Network Technology (Beijing) Co., Ltd. Method and Apparatus of Training Acoustic Feature Extracting Model, Device and Computer Storage Medium
CN111710346A (zh) * 2020-06-18 2020-09-25 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备以及存储介质
CN113646833A (zh) * 2021-07-14 2021-11-12 东莞理工学院 语音对抗样本检测方法、装置、设备及计算机可读存储介质
KR20220032322A (ko) * 2020-09-07 2022-03-15 에스케이텔레콤 주식회사 음악지문 생성을 위한 장치 및 방법
CN114443891A (zh) * 2022-01-14 2022-05-06 北京有竹居网络技术有限公司 编码器的生成方法、指纹提取方法、介质及电子设备
CN114765028A (zh) * 2021-01-15 2022-07-19 Tcl科技集团股份有限公司 声纹识别方法、装置、终端设备及计算机可读存储介质
CN115221351A (zh) * 2022-07-26 2022-10-21 腾讯科技(深圳)有限公司 音频匹配方法、装置、电子设备和计算机可读存储介质
CN115359785A (zh) * 2022-08-22 2022-11-18 腾讯音乐娱乐科技(深圳)有限公司 音频识别方法、装置、计算机设备及计算机可读存储介质
CN115862075A (zh) * 2022-11-14 2023-03-28 深圳大学 指纹识别模型训练方法、指纹识别方法、装置及相关设备
CN115862634A (zh) * 2022-12-23 2023-03-28 东莞理工学院 一种声纹识别方法及嵌入式装置
CN116486789A (zh) * 2022-01-17 2023-07-25 珠海金山办公软件有限公司 语音识别模型的生成方法、语音识别方法、装置及设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336888A1 (en) * 2017-05-19 2018-11-22 Baidu Online Network Technology (Beijing) Co., Ltd. Method and Apparatus of Training Acoustic Feature Extracting Model, Device and Computer Storage Medium
CN111710346A (zh) * 2020-06-18 2020-09-25 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备以及存储介质
KR20220032322A (ko) * 2020-09-07 2022-03-15 에스케이텔레콤 주식회사 음악지문 생성을 위한 장치 및 방법
CN114765028A (zh) * 2021-01-15 2022-07-19 Tcl科技集团股份有限公司 声纹识别方法、装置、终端设备及计算机可读存储介质
CN113646833A (zh) * 2021-07-14 2021-11-12 东莞理工学院 语音对抗样本检测方法、装置、设备及计算机可读存储介质
CN114443891A (zh) * 2022-01-14 2022-05-06 北京有竹居网络技术有限公司 编码器的生成方法、指纹提取方法、介质及电子设备
CN116486789A (zh) * 2022-01-17 2023-07-25 珠海金山办公软件有限公司 语音识别模型的生成方法、语音识别方法、装置及设备
CN115221351A (zh) * 2022-07-26 2022-10-21 腾讯科技(深圳)有限公司 音频匹配方法、装置、电子设备和计算机可读存储介质
CN115359785A (zh) * 2022-08-22 2022-11-18 腾讯音乐娱乐科技(深圳)有限公司 音频识别方法、装置、计算机设备及计算机可读存储介质
CN115862075A (zh) * 2022-11-14 2023-03-28 深圳大学 指纹识别模型训练方法、指纹识别方法、装置及相关设备
CN115862634A (zh) * 2022-12-23 2023-03-28 东莞理工学院 一种声纹识别方法及嵌入式装置

Also Published As

Publication number Publication date
CN116758936B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
JP7337953B2 (ja) 音声認識方法及び装置、ニューラルネットワークの訓練方法及び装置、並びにコンピュータープログラム
CN110162669B (zh) 视频分类处理方法、装置、计算机设备及存储介质
CN110136744B (zh) 一种音频指纹生成方法、设备及存储介质
CN111179911B (zh) 目标语音提取方法、装置、设备、介质和联合训练方法
CN109308912B (zh) 音乐风格识别方法、装置、计算机设备及存储介质
CN111444382B (zh) 一种音频处理方法、装置、计算机设备以及存储介质
CN115083435B (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN114443891B (zh) 编码器的生成方法、指纹提取方法、介质及电子设备
CN112825249A (zh) 语音处理方法和设备
CN112767927A (zh) 一种提取语音特征的方法、装置、终端及存储介质
CN114360502A (zh) 语音识别模型的处理方法、语音识别方法及装置
Zhang et al. A retrieval algorithm for encrypted speech based on convolutional neural network and deep hashing
CN113761282B (zh) 视频查重方法、装置、电子设备以及存储介质
CN114582325A (zh) 音频检测方法、装置、计算机设备、存储介质
CN113409803B (zh) 语音信号处理方法、装置、存储介质及设备
CN116758936B (zh) 音频指纹特征提取模型的处理方法、装置和计算机设备
TWI659410B (zh) Audio recognition method and device
KR20220032322A (ko) 음악지문 생성을 위한 장치 및 방법
CN116959465A (zh) 语音转换模型训练方法、语音转换方法、装置及介质
CN112395448A (zh) 一种人脸检索方法及装置
CN113488069B (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN111291576B (zh) 神经网络内部表示信息量确定方法、装置、设备、介质
CN111832596B (zh) 数据处理方法、电子设备及计算机可读介质
Mu et al. Self-Supervised Disentangled Representation Learning for Robust Target Speech Extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40093254

Country of ref document: HK