CN115359785A - 音频识别方法、装置、计算机设备及计算机可读存储介质 - Google Patents

音频识别方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN115359785A
CN115359785A CN202211006531.2A CN202211006531A CN115359785A CN 115359785 A CN115359785 A CN 115359785A CN 202211006531 A CN202211006531 A CN 202211006531A CN 115359785 A CN115359785 A CN 115359785A
Authority
CN
China
Prior art keywords
audio
audio data
training
fingerprint
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211006531.2A
Other languages
English (en)
Inventor
王武城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202211006531.2A priority Critical patent/CN115359785A/zh
Publication of CN115359785A publication Critical patent/CN115359785A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本申请公开了音频识别方法、装置、计算机设备及计算机可读存储介质,应用于计算机技术领域。该方法包括:将待识别音频数据输入至音频识别模型中,得到音频识别模型输出的待识别音频数据的音频指纹;其中,音频识别模型是基于第一训练音频数据与第二训练音频数据,以及第一训练音频数据与第三训练音频数据的对比学习得到的,第一训练音频数据与第二训练音频数据的音频标识相同;第一训练音频数据与第三训练音频数据的音频标识不同;从音频指纹库中确定与待识别音频数据的音频指纹满足预设条件的目标音频指纹;根据目标音频指纹确定识别结果,识别结果包括待识别音频数据对应的音频标识。通过本申请所提出的方法,能够提高音频识别的准确率。

Description

音频识别方法、装置、计算机设备及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及音频识别方法、音频识别装置、计算机设备及计算机可读存储介质。
背景技术
随着歌曲的数量逐渐增多,当用户在听到某一首歌却不知道这首歌的歌名时,可以通过终端设备录制一段听到的音乐片段,并通过终端设备中的听歌识曲功能识别出该音乐片段所属的歌曲。例如,用户可以通过终端设备中安装的音乐类应用程序启动听歌识曲功能,从而终端设备可以录制一段听到的音乐片段,并对录制的音乐片段进行识别。目前,听歌识曲功能的识别准确率较低。
发明内容
本申请实施例提供了音频识别方法、装置、计算机设备及计算机可读存储介质,可以提高音频识别的准确性。
第一方面,本申请实施例提供了一种音频识别方法,该方法包括:
将待识别音频数据输入至音频识别模型中,得到所述音频识别模型输出的所述待识别音频数据的音频指纹;其中,所述音频识别模型是基于第一训练音频数据与第二训练音频数据,以及所述第一训练音频数据与第三训练音频数据的对比学习得到的,所述第一训练音频数据与所述第二训练音频数据的音频标识相同;所述第一训练音频数据与所述第三训练音频数据的音频标识不同;
从音频指纹库中确定与所述待识别音频数据的音频指纹满足预设条件的目标音频指纹;
根据所述目标音频指纹确定识别结果,所述识别结果包括所述待识别音频数据对应的音频标识。
可见,基于对比学习得到的音频识别模型能够对同一音频标识的音频数据提取出相似度较高的音频指纹,对不同音频标识的音频数据提取出相似度较低的音频指纹,从而能够更便于后续识别,提高识别的准确率。
在一种实现方式中,所述方法还包括:
利用训练样本集对初始音频识别模型进行训练,得到目标损失信息;所述训练样本集包括正样本集和负样本集,所述正样本集包括所述第一训练音频数据和所述第二训练音频数据,所述负样本集包括所述第三训练音频数据;
在所述目标损失信息满足训练结束条件的情况下,将所述初始音频识别模型确定为所述音频识别模型。
在一种实现方式中,所述第一训练音频数据为原始音频数据,所述第二训练音频数据为对所述第一训练音频数据进行数据增强处理得到的音频数据;或者,所述第一训练音频数据和所述第二训练音频数据为对所述第一训练音频数据对应的原始音频数据进行不同数据增强处理得到的音频数据。
在一种实现方式中,所述第一训练音频数据为原始音频数据,所述第二训练音频数据为所述第一训练音频数据的翻唱音频数据;或者,
所述第一训练音频数据和所述第二训练音频数据为所述第一训练音频数据对应的原始音频数据的翻唱音频数据。
在一种实现方式中,所述利用训练样本集对初始音频识别模型进行训练,得到目标损失信息,包括:
将训练样本集输入初始音频识别模型,得到所述初始音频识别模型输出的所述第一训练音频数据的音频指纹、所述第二训练音频数据的音频指纹以及所述第三训练音频数据的音频指纹;
根据第一相似度和第二相似度,确定所述目标损失信息;所述第一相似度为所述第一训练音频数据的音频指纹与所述第二训练音频数据的音频指纹之间的相似度,所述第二相似度为所述第一训练音频数据的音频指纹与所述第二训练音频数据的音频指纹之间的相似度,以及所述第一训练音频数据的音频指纹与所述第三训练音频数据的音频指纹之间的相似度之和。
在一种实现方式中,所述方法还包括:
根据所述第一训练音频数据的音频指纹与所述第二训练音频数据的音频指纹之间的余弦距离,确定所述第一相似度;
根据所述第一训练音频数据的音频指纹与所述第二训练音频数据的音频指纹之间的余弦距离,与所述第一训练音频数据的音频指纹与所述第三训练音频数据的音频指纹之间的余弦距离之和,确定所述第二相似度。
在一种实现方式中,所述方法还包括:
播放所述待识别音频数据对应的音频标识所标识的原始音频数据。
在一种实现方式中,所述方法还包括:
于音频识别界面显示所述待识别音频数据对应的音频标识。
第二方面,本申请实施例提供一种音频识别装置,该装置包括:
输入单元,用于将待识别音频数据输入至音频识别模型中,得到上述音频识别模型输出的上述待识别音频数据的音频指纹;其中,上述音频识别模型是基于第一训练音频数据与第二训练音频数据,以及上述第一训练音频数据与第三训练音频数据的对比学习得到的,上述第一训练音频数据与上述第二训练音频数据的音频标识相同;上述第一训练音频数据与上述第三训练音频数据的音频标识不同;
确定单元,用于从音频指纹库中确定与上述待识别音频数据的音频指纹满足预设条件的目标音频指纹;
上述确定单元,还用于根据上述目标音频指纹确定识别结果,上述识别结果包括上述待识别音频数据对应的音频标识。
在一种实现方式中,上述音频识别装置还包括:
训练单元,用于利用训练样本集对初始音频识别模型进行训练,得到目标损失信息;上述训练样本集包括正样本集和负样本集,上述正样本集包括上述第一训练音频数据和上述第二训练音频数据,上述负样本集包括上述第三训练音频数据;
上述确定单元,还用于在上述目标损失信息满足训练结束条件的情况下,将上述初始音频识别模型确定为上述音频识别模型。
在一种实现方式中,上述第一训练音频数据为原始音频数据,上述第二训练音频数据为对上述第一训练音频数据进行数据增强处理得到的音频数据;或者,
上述第一训练音频数据和上述第二训练音频数据为对上述第一训练音频数据对应的原始音频数据进行不同数据增强处理得到的音频数据。
在一种实现方式中,上述第一训练音频数据为原始音频数据,上述第二训练音频数据为上述第一训练音频数据的翻唱音频数据;或者,
上述第一训练音频数据和上述第二训练音频数据为上述第一训练音频数据对应的原始音频数据的翻唱音频数据。
在一种实现方式中,上述训练单元,在利用训练样本集对初始音频识别模型进行训练,得到目标损失信息时,可具体用于:
将训练样本集输入初始音频识别模型,得到上述初始音频识别模型输出的上述第一训练音频数据的音频指纹、上述第二训练音频数据的音频指纹以及上述第三训练音频数据的音频指纹;
根据第一相似度和第二相似度,确定上述目标损失信息;上述第一相似度为上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的相似度,上述第二相似度为上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的相似度,以及上述第一训练音频数据的音频指纹与上述第三训练音频数据的音频指纹之间的相似度之和。
在一种实现方式中,上述确定单元,还用于根据上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的余弦距离,确定上述第一相似度;
上述确定单元,还用于根据上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的余弦距离,与上述第一训练音频数据的音频指纹与上述第三训练音频数据的音频指纹之间的余弦距离之和,确定上述第二相似度。
在一种实现方式中,上述音频识别装置还包括:
播放单元,用于播放上述待识别音频数据对应的音频标识所标识的原始音频数据。
在一种实现方式中,上述音频识别装置还包括:
显示单元,用于于音频识别界面显示上述待识别音频数据对应的音频标识。
第三方面,本申请实施例提供一种计算机设备,该计算机设备包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述的音频识别方法。
第四方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的音频识别方法。
第五方面,本申请实施例提供了一种计算机程序产品,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的音频识别方法。
在本申请所提出的方法中,基于对比学习得到的音频识别模型能够对同一音频标识的音频数据提取出相似度较高的音频指纹。通过提取待识别音频数据的音频指纹,并将提取到的音频指纹与音频指纹库中各个通过该音频识别模型提取的音频指纹进行比对,从而得到准确率较高的识别结果,提高听歌识曲的识别效果。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种音频识别系统的结构示意图;
图2是本申请实施例提供的一种音频识别方法的流程示意图;
图3是本申请实施例提供的一种音频识别结果的用户界面示意图;
图4是本申请实施例提供的一种播放识别的音频的用户界面示意图;
图5是本申请实施例提供的一种音频识别方法的架构示意图;
图6是本申请实施例提供的另一种音频识别方法的流程示意图;
图7是本申请实施例提供的一种对原始音频数据进行数据增强处理的架构示意图;
图8是本申请实施例提供的一种对翻唱音频数据进行处理的架构示意图;
图9是本申请实施例提供的一种音频识别装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
在对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1、音频指纹:指某一个音频数据的音频特征的压缩表征,类似于人的指纹可以唯一表征一个人,音频指纹则可以唯一表征一首歌。例如,可以对音频数据进行时频转换,得到这个音频数据的频谱图,该频谱图的中能量的局部峰值点对于歌曲来说比较具有代表性,因此一个音乐片段提取一个峰值点序列,这个序列可以唯一表征一个音乐片段,从而用峰值点序列来唯一标识一个音乐片段或者一首歌。
2、时间戳文件:指音频数据和对应的时间节点。例如,歌词时间戳文件,是指歌曲的音频数据和该歌曲的歌词文本对应的字时间节点(字时间戳),和/或句时间节点(句时间戳),例如可以包括每句歌词的开始时间和结束时间。再例如,旋律时间轴文件,是指按照一段旋律的开始和结束对应的时间节点(时间戳),例如副歌部分的开始时间和结束时间。
3、翻唱:是指将已经发表并由他人演唱的歌曲根据自己的风格重新演唱,包括重新填词,编曲。翻唱识别是指识别语原唱的歌曲在歌词、编曲上类似的歌曲。其中,由于翻唱涉及重新编曲以及重新演唱,因此,翻唱的音频数据对频谱峰值点的影响较大,采用频谱峰值作为音频指纹的方式识别效果较差。
4、向量映射(embedding):向量映射是一种分布式表示方法,即把原始输入数据分布地表示成一系列特征的线性组合,即能够将大型稀疏向量映射到保留语义关系的低维空间。其中,embedding向量也可以被称为embedding特征,若两个embedding特征的距离较远,则可以表示其embedding特征对应的对象具有相差较远的含义,若两个embedding特征的距离较近,则可以表示其embedding特征对应的对象具有相差较远的含义。例如,两个音频数据所提取的embedding特征距离较近,则可以表示这两个音频数据相似,可能为同一首歌的不同音乐片段。
5、对比学习(Contrastive Learning):对比学习是指无监督学习的一种形式,其训练样本不携带任何标签,对比学习的作用是训练得到的模型能够将各个正样本的距离拉近,并且能够将各个将正样本和各个负样本的距离拉远,从而能够通过模型确定正样本为同一个类别,正样本和负样本不是同一个类别。其中,所谓距离可以是指特征空间中特征向量的余弦距离,也可以称为余弦相似度,该距离可以用于衡量特征向量的差异。例如,正样本可以是具有同一音频标识的音频数据,即为同一歌曲的音频数据,负样本可以是具有不同音频标识的音频数据,即为不同歌曲的音频数据。从而经过对比学习训练得到的模型可以将同一歌曲的音频数据的距离拉近,将不同歌曲的音频数据的距离拉远,从而可以用于确定待识别音频数据与音频指纹库中最接近的音频数据对应的音频标识,即得到识别结果。
本申请实施例中,涉及人工智能(Artificial Intelligence,AI)、机器学习等技术,其中:
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
目前,由于通过音频数据进行时频转换,得到这个音频数据的频谱图,该频谱图的中能量的局部峰值作为音频数据的音频指纹,但是由于翻唱和真实场景中的噪声对频谱峰值的影响较大,从而导致识别准确率较低。
基于上述问题,本申请实施例提出了一种音频识别方法,该音频识别方法可以应用于听歌识曲场景中,所谓听歌识曲场景是指从声音到声音的精确检索的场景,听歌识曲是一种歌曲传播、新歌推广的重要途径。该音频识别方法提出:将待识别音频数据输入至音频识别模型中,得到该音频识别模型输出的该待识别音频的音频指纹,进而从音频指纹库中确定与该待识别音频数据的音频指纹满足预设条件的目标音频指纹,并根据目标音频指纹确定识别结果,该识别结果包括该待识别音频数据对应的音频标识。其中,该音频识别模型是基于同一音频标识的第一训练音频数据和第二训练音频数据,以及基于不同音频标识的第一训练音频数据和第三训练音频数据进行对比学习得到的。通过对比学习得到的音频识别模型能够很好的对同一音频标识和不同音频标识的音频数据进行分类,从而提高音频识别的效果,提高识别的准确率。
在具体实现中,上述所提及的音频识别方法可以由计算机设备执行,该计算机设备可以是终端设备或服务器。其中,终端设备可以例如是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等,但并不局限于此。服务器可以例如是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发服务器(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
或者,上述所提及的音频识别方法可以由终端设备和服务器共同执行。例如可以参见图1,图1是本申请实施例提供的一种音频识别系统的架构示意图。如图1所示,可以先由终端设备101获取到待识别音频数据,将待识别音频数据发送给服务器102。相应的,服务器102在接收到待识别音频数据后,可以将该待识别音频数据输入至音频识别模型中,得到该音频识别模型输出的该待识别音频数据的音频指纹,并从音频指纹库中确定与该待识别音频数据的音频指纹满足预设条件的目标音频指纹,进而根据目标音频指纹确定识别结果,该识别结果包括该待识别音频数据对应的音频标识。可选地,服务器102还可以将待识别音频数据的识别结果发送给终端设备101,使得终端设备101可以对待识别音频数据的识别结果进行显示,也可以对该待识别音频数据的识别结果进行语音播报,还可以播放该待识别音频数据对应的音频标识所标识的原始音频数据。
可选地,上述音频识别模型可以由训练设备进行训练,如图1所示的训练设备103为除终端设备和服务器以外的计算机设备,该训练设备103可以是终端设备,也可以是服务器。训练设备103可以获取初始音频识别模型,并对初始音频模型进行训练,并将训练好的音频识别模型部署在上述服务器102中。可选地,上述音频识别模型也可以由上述服务器102训练,即该训练设备103与服务器102为同一设备。
通过本申请实施例,基于对比学习得到的音频识别模型能够对同一音频标识的音频数据提取出相似度较高的音频指纹。并通过提取待识别音频数据的音频指纹,将提取到的音频指纹与音频指纹库中各个通过该音频识别模型提取的音频指纹进行比对,从而得到的识别结果准确率较高。
可以理解的是,本申请实施例描述的系统架构示意图是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
在本申请的具体实施方式中,涉及到待识别音频和待识别频谱图等相关的数据,当本申请以上实施例运用到具体产品或技术中时,相关数据均需要获得相关对象的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
基于上述阐述,下面结合图2所示的流程图,对本申请实施例所提出的音频识别方法作进一步阐述。在本申请实施例中,主要以上述所提及的计算机设备执行该音频识别方法为例进行说明。请参见图2,该音频识别方法具体可以包括步骤201~203。其中:
201、计算机设备将待识别音频数据输入至音频识别模型中,得到上述音频识别模型输出的上述待识别音频数据的音频指纹。
在本申请实施例中,待识别音频数据是指需要进行音频识别的音频数据,例如可以是一首完整的歌曲的音频数据,也可以是一首歌曲中的某一音乐片段的音频数据,也可以是一段录音的音频数据,例如可以是用户哼唱歌曲的录音、用户翻唱、改编该歌曲的录音等。该待识别音频数据可以是计算机设备本地的音频数据,例如可以是计算机设备存储在本地的音频数据,也可以是计算机设备录制并存储在本地的音频数据,还可以是其他设备发送至计算机设备的,本申请对此不做限定。
其中,音频识别模型是指经过预训练得到的用于识别音频数据的模型,音频识别模型可以用于提取待识别音频数据的特征,被提取的音频数据的特征可以被称为音频指纹,该音频指纹可以用于进行后续的识别。音频指纹是指音频特征的压缩表征,由于不同的音频数据具有不同的特征,因此可以利用音频指纹来代表这个待识别音频数据,从而基于该音频指纹对该待识别音频数据进行识别。对于音频数据来说,音频指纹可以是音频信号在频谱图中的能量局部峰值点,该频谱峰值点则可以代表该歌曲的音频特征。该音频指纹也可以是由音频识别模型提取到的音频数据的特征向量(embedding特征)。
在一种可能的实现方式中,用于提取待识别音频数据的音频指纹的音频识别模型是经过具有同一音频标识的第一训练音频数据和第二训练音频数据,以及具有不同音频标识的第一训练音频数据以及第三训练音频数据进行对比学习得到的。其中,音频标识可以用于标识一个音频数据,与其他音频数据区分开,例如可以是歌曲名称等。在本申请实施例中,正样本可以是具有同一音频标识的音频数据(例如上述第一训练音频数据和第二训练音频数据),负样本可以是具有不同音频标识的音频数据(例如上述第三训练音频数据),从而达到识别的目的。
在一种可能的实现方式中,在对一个待识别音频数据进行识别的过程中,可以先将该待识别音频数据输入至音频识别模型中,通过音频识别模型提取该待识别音频数据的音频指纹,即提取该待识别音频数据的特征,进而根据该待识别音频数据的音频指纹,在预先提取的各个音频数据的音频指纹进行查找,从而根据查找到的音频指纹来确定该待识别音频数据的识别结果。需要说明的是,各个音频数据的音频指纹和待识别音频数据的音频指纹均为音频识别模型所提取的,因此,经过同一音频识别模型提取的音频指纹在查找的时候才能查找相似度较高的作为查找到的音频数据。
可选地,在本申请实施例中可以将原始音频数据输入至音频识别模型中,得到音频识别模型输出的该原始音频数据的音频指纹,也可以是将原始音频数据已经被提取的特征输入至音频识别模型中,通过音频识别模型对该提取的特征进行处理,得到该原始音频数据的音频指纹,本申请对此不做限定,具体根据实现场景所确定,可以理解的是,输入音频识别模型的对象不同,则训练样本集也不同。
202、计算机设备从音频指纹库中确定与上述待识别音频数据的音频指纹满足预设条件的目标音频指纹。
本申请实施例中,音频指纹库是指存储有多个音频数据的音频指纹的数据库。在听歌识曲场景中,该音频指纹库中的多个音频指纹分别为曲库中各首歌曲的音频指纹,也可以是歌曲库中各首歌曲的至少一个片段的音频指纹。在音频指纹库中的各个音频指纹可以携带音频标识,以便后续计算机设备可以根据查找到的音频指纹后,可以根据查找到的音频指纹确定识别结果。预设条件可以是相似度高于设定的阈值,则目标音频指纹与待识别音频数据的音频指纹的相似度高于设定的阈值。预设条件还可以是在音频指纹库中目标音频指纹与待识别音频数据的音频指纹最相似的,即相似度最高的。本申请以预设条件为在音频指纹库中目标音频指纹与待识别音频数据的音频指纹的相似度最高为例进行说明。在本申请实施例中,相似度高于阈值可以是余弦距离小于阈值。
在一种可能的实现方式中,计算机设备可以在识别待识别音频数据之前,将曲库中的原始音频数据输入至音频识别模型中,所谓原始音频数据是指未经处理的音频数据,可以是一首歌曲的音频数据,也可以是多首歌曲的音频数据。该原始音频数据还可以是一首歌曲的某一音乐片段的音频数据。通过该音频识别模型提取该曲库中原始音频数据的音频指纹,并将该音频指纹添加至音频指纹库中。由音频识别模型提取曲库中的原始音频数据的音频指纹和待识别音频数据的音频指纹,可使提取到的具有同一音频标识的音频指纹更为相近,提取到的具有不同音频标识的音频指纹更为相远,具体可以例如是提取到的具有同一音频标识的音频指纹的相似度较高,提取到的具有不同音频标识的音频指纹的相似度较低。
在一种可能的实现方式中,在得到音频识别模型输出的待识别音频数据的音频指纹后,可以从音频指纹库中确定与待识别音频数据的音频指纹满足预设条件的目标音频指纹。其中,该预设条件可以是在音频指纹库中与待识别音频数据的音频指纹相似度最高。具体的,计算机设备可以计算待识别音频数据的音频指纹与音频指纹库中的各个音频指纹的相似度,得到计算结果,并将该计算结果中相似度最大的音频指纹确定为目标音频指纹。具体的,计算待识别音频数据的音频指纹,即提取的特征向量(如embedding特征)与音频指纹库中各个音频指纹(embedding特征)的余弦距离,进而确定余弦距离最短的音频指纹为目标音频指纹。
可以理解的是,该目标音频指纹也是由音频识别模型所提取的某一个音频数据的音频指纹,该目标音频指纹和待识别音频数据的音频指纹相似度最高(如上述余弦距离最短),则可以将目标音频指纹作为查询该音频指纹库的查询结果,进而可以根据该目标音频指纹确定识别结果。
203、计算机设备根据上述目标音频指纹确定并输出识别结果,上述识别结果包括上述待识别音频数据对应的音频标识。
在本申请实施例中,在听歌识曲的场景中识别结果可以包括待识别音频数据的音频标识。以音频标识为歌曲名称为例,则该识别结果可以指示待识别音频数据所属的具体是哪一首歌曲。由于确定与该待识别音频指纹最相似(余弦距离最短)的音频指纹是目标音频指纹,则可以将该目标音频指纹所携带的音频标识作为该待识别音频数据的音频标识。
可选地,音频指纹库中各个音频数据除了可以携带音频标识以外,还可以携带音频信息,音频信息例如可以包括歌手信息、专辑信息、作词作曲信息、编曲信息、制作人信息等等,本申请对此不做限定。则进一步地,该识别结果还可以包括该目标音频指纹的歌手信息、专辑信息、作词作曲信息、编曲信息、制作人信息中的至少一项。
在一种可能的实现方式中,计算机设备在确定识别结果后,还可以输出该识别结果,例如,在音乐软件中的用户界面显示该待识别音频数据的识别结果,也可以播放该待识别音频数据对应的音频标识所标识的原始音频数据。请一并参阅图3,图3是本申请实施例提供的一种音频识别结果的用户界面示意图。如图3所示,本申请以计算机设备为终端设备的界面作为示例进行说明,图3左侧为在音乐软件中听歌识曲的用户界面,在显示图3左侧的用户界面的同时,计算机设备可以录制一段待识别音频数据,并进行识别。进而显示图3右侧的用户界面,即音频识别界面,如图3右侧所示,在该音频识别界面中可以显示该待识别音频数据的音频标识(例如可以是歌曲名称),以及音频信息。
进一步地,请一并参阅图4,如图4左侧所示,用户可以点击该音频识别界面中的识别结果的歌曲显示区域,计算机设备检测到针对该识别结果的触发操作(如点击该识别结果的歌曲显示区域)时,进入歌曲播放页面,如图4右侧所示,歌曲播放页面中可以包括该歌曲的图像、该歌曲的音频标识,以及音频信息,示例性的,如图4右侧所示,可以显示歌手信息、作曲/作词信息、专辑信息、编曲信息以及歌词信息等等,本申请对此不做限定。在该歌曲播放页面中,可以播放该音频标识的原始音频数据。进而用户可以暂停播放,也可以切换到其他歌曲进行播放。
请一并参阅图5,图5是本申请实施例提供的一种音频识别方法的架构示意图,如图5所示,分为两个过程,一个建库的过程,一个检索的过程。在建库的过程中,可以将曲库中原始音频数据输入至音频识别模型中,通过音频识别模型提取曲库中原始音频数据的音频指纹,其中,该原始音频数据可以为多个音频数据,每个音频数据分别携带音频标识,从而将识别到的音频指纹添加到音频指纹库中。在检索的过程中,获取待识别音频数据,并将待识别音频数据输入至该音频识别模型中,通过音频识别模型提取该待识别音频数据的音频指纹,并在音频指纹库中进行检索,检索到满足预设条件的目标音频指纹作为检索结果。其中,预设条件可以是该待识别音频数据的音频指纹与目标音频指纹的相似度最高(余弦距离最短)。进一步的,根据目标音频指纹所携带的音频标识确定待识别音频数据的识别结果,从而达到听歌识曲的目的。
在本申请实施例中,通过将音频数据输入至音频识别模型中,提取出音频数据的音频指纹更具鲁棒性,可以更好的应对更复杂的噪声环境,也能更好的识别出翻唱改编的作品。
本申请实施例所描述的方法,首先将待识别音频数据输入至音频识别模型中,得到该音频识别模型输出的该待识别音频数据的音频指纹,然后从音频指纹库中确定与该待识别音频数据的音频指纹满足预设条件的目标音频指纹,最后根据该目标音频指纹确定识别结果,此处识别结果包括该待识别音频数据对应的音频标识。其中,该音频识别模型是基于音频标识相同的第一训练音频数据和第二训练音频数据,以及音频标识不同的第一训练音频数据和第三训练音频数据进行对比学习得到的。基于对比学习得到的音频识别模型能够对同一音频标识的音频数据提取出相似度较高的音频指纹。通过提取待识别音频数据的音频指纹,并将提取到的音频指纹与音频指纹库中各个通过该音频识别模型提取的音频指纹进行比对,从而得到准确率较高的识别结果,提高听歌识曲的识别效果。
请参见图6,为本发明实施例公开的另一种音频识别方法的流程示意图,该音频识别方法可以由计算机设备执行的,计算机设备具体可以是音频识别系统中的服务器102,也可以是音频识别系统中的训练设备103。该实施例主要用于说明训练初始音频识别模型的过程。该音频是被方法具体可以包括步骤601~602。其中:
601、计算机设备利用训练样本集对初始音频识别模型进行训练,得到目标损失信息。
在本申请实施例中,以上述计算机设备与训练设备为同一设备的执行主体为例进行说明,训练样本集为用于训练初始音频识别模型的样本集,该训练样本集中所有样本均不携带任何标签。初始音频识别模型可以是用于提取音频数据的特征向量的模型,该初始音频识别模型可以是卷积神经网络(Convolutional Neural Network),例如Sample CNN,也可以是其他类型的模型,本申请对此不做限定。目标损失信息可以包括该模型的损失函数。
具体的,该训练样本集中可以包括第一训练音频数据、第二训练音频数据以及第三训练音频数据,该第一训练音频数据、第二训练音频数据以及第三训练音频数据可以均为一个音频数据,也可以均包括多个音频数据,例如,上述训练音频数据可以为一完整的歌曲的音频数据,也可以是某一首歌曲的一个音乐片段的音频数据,也可以包括某一首歌曲的多个音乐片段的音频数据。其中,第一训练音频数据和第二训练音频数据具有相同的音频标识,第一训练音频数据与第三训练音频数据具有不同的音频标识。例如,第一训练音频数据和第二训练音频数据为同一首歌的两个音乐片段的音频数据,第一训练音频数据和第三训练音频数据为不同歌曲中的音乐片段的音频数据。
在一种可能的实现方式中,为了训练出的音频识别模型能够将同一音频标识的音频数据拉近,即归为一类,将不同音频标识的音乐片段拉远,即不归为一类。因此,该训练样本集可以包括正样本集和负样本集,该正样本集中的训练样本均为同一音频标识的音频数据,例如正样本集可以包括上述第一训练音频数据和第二训练音频数据。该负样本集中的训练样本可以是除正样本集中第一训练音频数据对应的音频标识以外的其他音频数据,例如负样本集可以包括上述第三训练音频数据。
在一种可能的实现方式中,由于训练样本集中的训练样本均不携带标签,则可以通过对音频标识所标识的原始音频数据进行数据增强处理,从而将该原始音频数据以及对原始音频数据进行不同数据增强处理得到的增强音频数据确定为一类,即该原始音频数据的音频标识这一类。可以理解的是,每一个音频标识对应的音频数据可以均各自为一类。在某一个音频标识的原始音频数据和增强音频数据作为正样本集时,其他音频标识的原始音频数据和增强音频数据组成负样本集。
在一种可能的实现方式中,第一训练音频数据可以为某一音频标识的原始音频数据,则第二训练音频数据对第一训练音频数据进行数据增强处理得到的音频数据。同理,第二训练音频数据可以为某一音频标识的原始音频数据,则第一训练音频数据是对第一训练音频数据进行数据增强处理得到的音频数据。
在另一种可能的实现方式中,第一训练音频数据和第二训练音频数据为对上述第一训练音频数据对应的原始音频数据进行数据增强处理得到的音频数据,即该第一训练音频数据和第二训练音频数据均为该音频标识的原始音频数据进行数据增强处理得到的增强音频数据中的两个音频数据。
在一种可能的实现方式中,对原始音频数据进行数据增强处理的方式包括以下一种或多种:变速处理、变调处理、翻转处理、加噪处理、裁剪处理,还可以包括其他处理方式,本申请对此不做限定。其中,原始音频数据可以包括时域特征和频域特征。所谓变速处理是指改变原始音频数据的速度,具体可以是对原始音频数据的时序特征和频域特征进行上采样或者下采样得到的。所谓变调处理是指改变原始音频数据的调性,具体可以是对原始音频数据的频域特征进行处理。所谓翻转处理也可以是指改变原始音频数据的调性,具体可以是将将频域特征进行翻转。例如可以取频域特征中各个频谱能量值的相反数。所谓加噪处理是指对原始音频数据添加噪声,例如在原始音频数据的频域特征中叠加一个预设的噪声的频域特征,预设的噪声可以是高斯噪声,也可以是其他噪声,本申请对此不做限定。所谓剪裁处理可以是对该原始音频数据进行随机剪裁,改变原始音频数据的时长。
可选地,原始音频数据可以为某一音频标识的完整音频数据,也可以为某一音频标识的部分音频数据。例如,该原始音频数据可以为这首歌的完整音频数据。则在对原始音频数据进行数据增强处理时,可以先获取该原始音频数据对应的时间戳文件,对该原始音频数据进行切片处理后,对各个切片进行数据增强处理,即各个音乐片段的音频数据进行数据增强处理。其中,时间戳文件可以包括切片的方案,即可以包括各个片段开始和结束的时间节点(时间戳),从而根据时间戳文件可以对原始音频数据进行切片。示例性的,以时间戳文件为歌词时间戳文件为例,可以按照每句歌词的开始和结束的时间戳对原始音频数据进行切片处理,也可以按照每段歌词(多句歌词)的开始和结束的时间戳对原始音频数据进行切片处理。
请一并参阅图7,图7是是本申请实施例提供的一种对原始音频数据进行数据增强处理的过程示意图,在本申请实施例中,可以对原始音频数据直接进行增强处理,图7以原始音频数据为完整音频数据为例,可以对原始音频数据进行切片,即先剪裁为多个原始音频数据的片段,即得到多个原始音频数据的切片。再对多个原始音频数据的切片进行数据增强处理,例如图7所示可以通过变速处理得到增强音频数据1,通过变调处理得到增强音频数据2,通过翻转处理得到增强音频数据3,通过加噪处理得到增强音频数据4,以及通过对未切片的原始音频数据进行剪裁处理,如随机剪裁,得到增强音频数据5。可以理解的是,上述第一训练音频数据和第二训练音频数据可以是原始音频数据和各个增强音频数据中的两个音频数据。通过数据增强的方式,可以使得模型学习真实噪声场景变换,提取的音频指纹更具鲁棒性。
在一种可能的实现方式中,本申请在训练样本集中引入了翻唱音频数据,将翻唱音频数据作为增强音频数据的一种。若第一训练音频数据为原始音频数据,第二训练音频数据则可以是第一训练音频数据的翻唱音频数据,即第一训练音频数据为原始音频数据,例如某一首歌的原唱的音频数据,第二训练音频数据为该歌曲的翻唱音频数据。
在另一种可能的实现方式中,第一训练音频数据和第二训练音频数据均为第一训练音频数据的音频标识所标识的原始音频数据的翻唱音频数据,即第一训练音频数据和第二训练音频数据均为同一首歌的两个不同的翻唱版本的音频数据,或者是同一翻唱版本的两个音乐片段。通过在训练样本中引入翻唱音频数据,能够随着翻唱版本与日俱增,使得指纹特征在保持唯一性的同时也具有一定的扩展性,能够使模型能够学习改编场景和翻唱场景的变换,使得所提取的音频指纹能够适应歌曲版本的变化,提取的音频指纹更具鲁棒性,这对于当前这个改编作品盛行的时代来说,具有重要的意义。
请一并参阅图8,图8是本申请实施例提供的一种对翻唱音频数据进行处理的架构示意图;在本申请实施例中,可以对原始音频数据直接进行增强处理,图8以原始音频数据为完整音频数据为例,可以对原始音频数据进行切片,即先剪裁为多个原始音频数据的片段,即得到多个原始音频数据的切片。并获取n个翻唱音频数据,以及各个翻唱音频数据对应的时间戳文件,例如图8中的n个翻唱时间戳。该翻唱时间戳文件可以是歌词时间戳,也可以是其他时间戳,例如对翻唱音频数据进行识别,得到识别的人声,通过人声唱出的每一句歌词的时间戳作为该翻唱音频数据对应的时间戳,本申请对此不做限定。其中,该n个翻唱音频数据与原始音频数据具有同一音频标识。还可以对每个翻唱音频数据进行切片处理,分别得到各个翻唱音频数据的多个音乐片段,并将得到的每个翻唱音频数据的多个音乐片段确定为正样本集中的训练样本。
在一种可能的实现方式中,将训练样本集输入初始音频识别模型中,得到该初始音频识别模型输出的该训练样本集中第一训练音频数据的音频指纹、第二训练音频数据的音频指纹以及第三训练音频数据的音频指纹,进而根据第一相似度及第二相似度,确定目标损失信息。其中,第一相似度为第一训练音频数据的音频指纹与第二训练音频数据的音频指纹之间的相似度,第二相似度为第一训练音频数据的音频指纹与第二训练音频数据的音频指纹之间的相似度,以及第一训练音频数据的音频指纹与第三训练音频数据的音频指纹的相似度之和。
可以理解的是,第一相似度可以是训练样本集中正样本集中原始音频数据与增强音频数据之间的相似度,第二相似度可以是训练样本集中某一正样本与训练样本集中任一训练样本之间的相似度之和。具体地,计算机设备可以根据第一训练音频数据的音频指纹与第二训练音频数据的音频指纹之间的余弦距离,确定该第一相似度;可以根据第一训练音频数据的音频指纹与第二训练音频数据的音频指纹之间的余弦距离,与根据第一训练音频数据的音频指纹和第三训练音频数据的音频指纹之间的余弦距离之和,确定第二相似度。该初始音频识别模型的目标损失信息可以包括该初始音频识别模型的损失函数,该损失函数可以如公式1所示:
Figure BDA0003809077170000171
其中,公式1中的li,j表示初始音频识别模型的损失函数,分子项为某一音频标识对应的原始音频数据的音频指纹与增强音频数据或者翻唱音频数据的音频指纹之间的余弦距离。zi为某一音频标识对应的原始音频数据的音频指纹,zj为该音频标识的增强音频数据或者翻唱音频数据的音频指纹,sim(zi,zj)表示zi和zj之间的余弦距离,τ为控制损失函数变化范围的常数。
分母项为某一音频标识对应的原始音频数据的音频指纹,与该音频标识对应的原始音频数据及增强音频数据或者翻唱音频数据的音频指纹之间的余弦距离,以及其他音频标识对应的原始音频数据或者增强音频数据或者翻唱音频数据中选出的某一音频数据的音频指纹之间的余弦距离之和。
在公式1中,k为当前的训练样本标号,zk为某一音频标识对应的音频数据(可以是原始音频数据,也可以是增强音频数据,还可以翻唱音频数据)的音频指纹。在公式1中,总训练样本的个数为2N,在2N个训练样本中,可以包括N个正样本和N个负样本。可以理解的是,zi可以是从N个正样本中选取的正样本,zk可以是从2N个训练样本中选出的一个训练样本,zk可以是正样本,也可以是负样本。在选取的过程中,i和k的值可以相等,即计算zi和zk之间的余弦距离。1[k≠i]表示在k≠i时,该值为1,在k=i时,该值为0,则得到某一正样本与各个样本之间的余弦距离之和。
可以理解的是,通过将训练样本集输入至初始音频识别模型中,确定一次目标损失信息,如损失函数的值,在根据该目标损失信息(如损失函数的值)确定不满足训练结束条件的情况下,计算机设备可以根据该目标损失信息对初始音频识别模型的参数进行调整,得到调整后的音频识别模型,并可以再次利用该训练样本集对该调整后的音频识别模型进行训练,再次得到一个目标损失信息,如再次确定一次损失函数的值,再根据这次损失函数的值判断是否满足训练结束条件,在不满足的情况下,调整上述调整后的音频识别模型,并再次对该两次调整后的音频识别模型进行训练,直至得到的目标损失信息满足训练结束条件,即损失函数的值满足训练结束条件。并且,通过本申请提供的训练初始音频识别模型的方式,通过任务式的学习,模型训练的任务是对比输入的两个音频数据是否属于同一首歌曲,或者同一首歌曲的某一音乐片段,能够提高音频识别模型提取音频指纹的效果。
602、在上述目标损失信息满足训练结束条件的情况下,计算机设备将上述最后一次调整得到的初始音频识别模型确定为上述音频识别模型。
在本申请实施例中,训练结束条件可以是目标损失信息中的损失函数的值在预设阈值范围内,如损失函数的值为最小值,训练结束条件也可以是连续N次迭代训练得到的损失函数的值中,相邻两次得到的损失函数的值的差值小于预设差值阈值的次数大于或等于预设次数阈值。本申请对此不做限定,具体可根据使用场景确定。则可以在根据目标损失信息满足训练结束条件的情况下,将满足训练结束条件时的音频识别模型确定为训练好的音频识别模型。
可选地,可以通过梯度下降法(gradient descent)来对初始音频识别模型的模型参数进行调整。在使用梯度下降法更新模型参数时,计算损失函数的梯度,根据该梯度来对模型参数进行迭代更新,以将该初始音频识别模型进行逐渐收敛来提高模型的分类的准确率。
具体的,训练得到的音频识别模型的网络结构可以如表1所示:
表1
Figure BDA0003809077170000191
Figure BDA0003809077170000201
其中,表1的音频识别模型仅为一种示例,不对本申请实施例中音频识别模型进行限定,在表1中,层(layer)表示该网络结构的层的类型,步长(stride)表示卷积核滑动的步长,若步长为1,则表示每计算一次,卷积核滑动一步,该滑动的方向可由步长具体确定。若步长为3,则表示每计算一次,卷积核滑动3步。输出(output)为本次处理后的输出的尺度乘以维度,其中,尺度可以由输入的音频数据决定,例如上述19683,维度由卷积层和池化层决定,例如上述128、256、512。Conv 3-128表示1个卷积层,该卷积层中的卷积核大小为3×1,个数为128,即输出通道数为128。Maxpool 3可以表示最大池化层,大小为3×1。
示例性的,输入的音频数据的尺度为19683,经过第一层conv3-128的卷积层后,输出的特征向量为19683×128,经过第二层conv3-128的卷积层后,输出的特征向量为19683×128,并经过最大池化层后,输出的特征向量为6561×128。同理,经过第三层conv3-128的卷积层后,输出的特征向量为6561×128,并经过最大池化层后,输出的特征向量为2187×128。同理,经过一层卷积层的处理,再经过最大池化层,直至最后一层的卷积层Conv 1-512,输出的特征向量为1×512,并经过随机失活层(dropout),其中,随机失活率为0.5,为设定的值,从而得到输出的1×512的特征向量。
其中,在表1最右的一列为参数(of Params)的个数,该网络参数的数量可以如公式2所示:
parameters=(w×h×fprevious+1)×fcurrent 公式2
其中,parameters为参数的个数,w和h为当前卷积层的卷积核的宽和高,fprevious为上一层的卷积核的数量,加1是因为bias参数,fcurrent为当前卷积层的卷积核的数量。示例性的,512=(3×1+1)×128;同理,49280=(3×128+1)×128,98560=(3×128+1)×256;196864=(3×256+1)×256;393782=(3×256+1)×512;786944=(3×512+1)×512;262656=(1×512+1)×512。
由上述网络结构可知,经过不断的最大池化处理,采用降采样,即跨步卷积模块,即上述步长为3不为1,提取音频数据的时域特征,由于以往提取音频数据的音频指纹均需要对音频数据进行频域变换处理,从而可能损失部分频域特征,而通过音频识别模型提取音频数据的时域特征保证了提取出的特征的完整性。
本申请实施例所描述的方法,首先将待识别音频数据输入至音频识别模型中,得到该音频识别模型输出的该待识别音频数据的音频指纹,然后从音频指纹库中确定与该待识别音频数据的音频指纹满足预设条件的目标音频指纹,最后根据该目标音频指纹确定识别结果,此处识别结果包括该待识别音频数据对应的音频标识。其中,该音频识别模型是基于音频标识相同的第一训练音频数据和第二训练音频数据,以及音频标识不同的第一训练音频数据和第三训练音频数据进行对比学习得到的。基于对比学习得到的音频识别模型能够对同一音频标识的音频数据提取出相似度较高的音频指纹。通过提取待识别音频数据的音频指纹,并将提取到的音频指纹与音频指纹库中各个通过该音频识别模型提取的音频指纹进行比对,从而得到准确率较高的识别结果,提高听歌识曲的识别效果。
基于上述的音频识别方法,本申请实施例提供了一种音频识别装置。请参见图9,是本申请实施例提供的一种音频识别装置的结构示意图,该音频识别装置900可以运行如下单元:
输入单元901,用于将待识别音频数据输入至音频识别模型中,得到上述音频识别模型输出的上述待识别音频数据的音频指纹;其中,上述音频识别模型是基于第一训练音频数据与第二训练音频数据,以及上述第一训练音频数据与第三训练音频数据的对比学习得到的,上述第一训练音频数据与上述第二训练音频数据的音频标识相同;上述第一训练音频数据与上述第三训练音频数据的音频标识不同;
确定单元902,用于从音频指纹库中确定与上述待识别音频数据的音频指纹满足预设条件的目标音频指纹;
上述确定单元902,还用于根据上述目标音频指纹确定并输出识别结果,上述识别结果包括上述待识别音频数据对应的音频标识。
在一种实现方式中,上述音频识别装置900还包括:
训练单元903,用于利用训练样本集对初始音频识别模型进行训练,得到目标损失信息;上述训练样本集包括正样本集和负样本集,上述正样本集包括上述第一训练音频数据和上述第二训练音频数据,上述负样本集包括上述第三训练音频数据;
上述确定单元902,还用于在上述目标损失信息满足训练结束条件的情况下,将上述初始音频识别模型确定为上述音频识别模型。
在一种实现方式中,上述第一训练音频数据为原始音频数据,上述第二训练音频数据为对上述第一训练音频数据进行数据增强处理得到的音频数据;或者,
上述第一训练音频数据和上述第二训练音频数据为对上述第一训练音频数据对应的原始音频数据进行不同数据增强处理得到的音频数据。
在一种实现方式中,上述第一训练音频数据为原始音频数据,上述第二训练音频数据为上述第一训练音频数据的翻唱音频数据;或者,
上述第一训练音频数据和上述第二训练音频数据为上述第一训练音频数据对应的原始音频数据的翻唱音频数据。
在一种实现方式中,上述训练单元903,在利用训练样本集对初始音频识别模型进行训练,得到目标损失信息时,可具体用于:
将训练样本集输入初始音频识别模型,得到上述初始音频识别模型输出的上述第一训练音频数据的音频指纹、上述第二训练音频数据的音频指纹以及上述第三训练音频数据的音频指纹;
根据第一相似度和第二相似度,确定上述目标损失信息;上述第一相似度为上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的相似度,上述第二相似度为上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的相似度,以及上述第一训练音频数据的音频指纹与上述第三训练音频数据的音频指纹之间的相似度之和。
在一种实现方式中,上述确定单元902,还用于根据上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的余弦距离,确定上述第一相似度;
上述确定单元902,还用于根据上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的余弦距离,与上述第一训练音频数据的音频指纹与上述第三训练音频数据的音频指纹之间的余弦距离之和,确定上述第二相似度。
在一种实现方式中,上述音频识别装置900还包括:
播放单元904,用于播放上述待识别音频数据对应的音频标识所标识的原始音频数据。
在一种实现方式中,上述音频识别装置900还包括:
显示单元905,用于于音频识别界面显示上述待识别音频数据对应的音频标识。
根据本申请的另一个实施例,图9所示的音频识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,音频识别装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本申请的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2或图6中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图10中所示的音频识别装置,以及来实现本申请实施例的音频识别方法。上述计算机程序可以记载于例如计算机可读记录介质上,并通过计算机可读记录介质装载于上述计算设备中,并在其中运行。
在本申请所提出的方法中,首先将待识别音频数据输入至音频识别模型中,得到该音频识别模型输出的该待识别音频数据的音频指纹,然后从音频指纹库中确定与该待识别音频数据的音频指纹满足预设条件的目标音频指纹,最后根据该目标音频指纹确定识别结果,此处识别结果包括该待识别音频数据对应的音频标识。其中,该音频识别模型是基于音频标识相同的第一训练音频数据和第二训练音频数据,以及音频标识不同的第一训练音频数据和第三训练音频数据进行对比学习得到的。本申请基于对比学习得到的音频识别模型能够对同一音频标识的音频数据提取出相似度较高的音频指纹。通过提取待识别音频数据的音频指纹,并将提取到的音频指纹与音频指纹库中各个通过该音频识别模型提取的音频指纹进行比对,从而得到准确率较高的识别结果,提高听歌识曲的识别效果。
基于上述方法实施例以及装置实施例的描述,本申请实施例还提供一种计算机设备。请参见图10,该计算机设备1000至少包括处理器1001、通信接口1002以及计算机存储介质1003。其中,处理器1001、通信接口1002以及计算机存储介质1003可通过总线或其他方式连接。计算机存储介质1003可以存储在计算机设备1000的存储器1004中,上述计算机存储介质1003用于存储计算机程序,上述计算机程序包括程序指令,上述处理器1001用于执行上述计算机存储介质1003存储的程序指令。处理器1001(或称CPU(Central ProcessingUnit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,本申请实施例上述的处理器1001可以用于进行一系列的音频识别处理,具体包括:将待识别音频数据输入至音频识别模型中,得到上述音频识别模型输出的上述待识别音频数据的音频指纹;其中,上述音频识别模型是基于第一训练音频数据与第二训练音频数据,以及上述第一训练音频数据与第三训练音频数据的对比学习得到的,上述第一训练音频数据与上述第二训练音频数据的音频标识相同;上述第一训练音频数据与上述第三训练音频数据的音频标识不同;从音频指纹库中确定与上述待识别音频数据的音频指纹满足预设条件的目标音频指纹;根据上述目标音频指纹确定并输出识别结果,上述识别结果包括上述待识别音频数据对应的音频标识。
本申请实施例还提供了一种计算机存储介质(Memory),上述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器1001加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的,还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2或图6所示的音频识别方法实施例中的方法的相应步骤;具体实现中,计算机存储介质中的一条或多条指令由处理器1001加载并执行如下步骤:
将待识别音频数据输入至音频识别模型中,得到上述音频识别模型输出的上述待识别音频数据的音频指纹;其中,上述音频识别模型是基于第一训练音频数据与第二训练音频数据,以及上述第一训练音频数据与第三训练音频数据的对比学习得到的,上述第一训练音频数据与上述第二训练音频数据的音频标识相同;上述第一训练音频数据与上述第三训练音频数据的音频标识不同;
从音频指纹库中确定与上述待识别音频数据的音频指纹满足预设条件的目标音频指纹;
根据上述目标音频指纹确定并输出识别结果,上述识别结果包括上述待识别音频数据对应的音频标识。
在一种实现方式中,该一条或多条指令还可由处理器加载并执行如下步骤:
利用训练样本集对初始音频识别模型进行训练,得到目标损失信息;上述训练样本集包括正样本集和负样本集,上述正样本集包括上述第一训练音频数据和上述第二训练音频数据,上述负样本集包括上述第三训练音频数据;
在上述目标损失信息满足训练结束条件的情况下,将上述初始音频识别模型确定为上述音频识别模型。
在一种实现方式中,上述第一训练音频数据为原始音频数据,上述第二训练音频数据为对上述第一训练音频数据进行数据增强处理得到的音频数据;或者,上述第一训练音频数据和上述第二训练音频数据为对上述第一训练音频数据对应的原始音频数据进行不同数据增强处理得到的音频数据。
在一种实现方式中,上述第一训练音频数据为原始音频数据,上述第二训练音频数据为上述第一训练音频数据的翻唱音频数据;或者,
上述第一训练音频数据和上述第二训练音频数据为上述第一训练音频数据对应的原始音频数据的翻唱音频数据。
在一种实现方式中,在利用训练样本集对初始音频识别模型进行训练,得到目标损失信息时,该一条或多条指令可由处理器加载并具体执行:将训练样本集输入初始音频识别模型,得到上述初始音频识别模型输出的上述第一训练音频数据的音频指纹、上述第二训练音频数据的音频指纹以及上述第三训练音频数据的音频指纹;根据第一相似度和第二相似度,确定上述目标损失信息;上述第一相似度为上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的相似度,上述第二相似度为上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的相似度,以及上述第一训练音频数据的音频指纹与上述第三训练音频数据的音频指纹之间的相似度之和。
在一种实现方式中,该一条或多条指令还可由处理器加载并执行如下步骤:
根据上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的余弦距离,确定上述第一相似度;
根据上述第一训练音频数据的音频指纹与上述第二训练音频数据的音频指纹之间的余弦距离,与上述第一训练音频数据的音频指纹与上述第三训练音频数据的音频指纹之间的余弦距离之和,确定上述第二相似度。
在一种实现方式中,该一条或多条指令还可由处理器加载并执行如下步骤:播放上述待识别音频数据对应的音频标识所标识的原始音频数据。
在一种实现方式中,该一条或多条指令还可由处理器加载并执行如下步骤:
于音频识别界面显示上述待识别音频数据对应的音频标识。
在本申请所提出的方法中,首先将待识别音频数据输入至音频识别模型中,得到该音频识别模型输出的该待识别音频数据的音频指纹,然后从音频指纹库中确定与该待识别音频数据的音频指纹满足预设条件的目标音频指纹,最后根据该目标音频指纹确定识别结果,此处识别结果包括该待识别音频数据对应的音频标识。其中,该音频识别模型是基于音频标识相同的第一训练音频数据和第二训练音频数据,以及音频标识不同的第一训练音频数据和第三训练音频数据进行对比学习得到的。本申请基于对比学习得到的音频识别模型能够对同一音频标识的音频数据提取出相似度较高的音频指纹。通过提取待识别音频数据的音频指纹,并将提取到的音频指纹与音频指纹库中各个通过该音频识别模型提取的音频指纹进行比对,从而得到准确率较高的识别结果,提高听歌识曲的识别效果。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2或图6所示的音频识别方法实施例方面的各种可选方式中提供的方法。并且,应理解的是,以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (10)

1.一种音频识别方法,其特征在于,包括:
将待识别音频数据输入至音频识别模型中,得到所述音频识别模型输出的所述待识别音频数据的音频指纹;其中,所述音频识别模型是基于第一训练音频数据与第二训练音频数据,以及所述第一训练音频数据与第三训练音频数据的对比学习得到的,所述第一训练音频数据与所述第二训练音频数据的音频标识相同;所述第一训练音频数据与所述第三训练音频数据的音频标识不同;
从音频指纹库中确定与所述待识别音频数据的音频指纹满足预设条件的目标音频指纹;
根据所述目标音频指纹确定识别结果,所述识别结果包括所述待识别音频数据对应的音频标识。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用训练样本集对初始音频识别模型进行训练,得到目标损失信息;所述训练样本集包括正样本集和负样本集,所述正样本集包括所述第一训练音频数据和所述第二训练音频数据,所述负样本集包括所述第三训练音频数据;
在所述目标损失信息满足训练结束条件的情况下,将所述初始音频识别模型确定为所述音频识别模型。
3.根据权利要求1或2所述的方法,其特征在于,
所述第一训练音频数据为原始音频数据,所述第二训练音频数据为对所述第一训练音频数据进行数据增强处理得到的音频数据;或者,
所述第一训练音频数据和所述第二训练音频数据为对所述第一训练音频数据对应的原始音频数据进行不同数据增强处理得到的音频数据。
4.根据权利要求1或2所述的方法,其特征在于,
所述第一训练音频数据为原始音频数据,所述第二训练音频数据为所述第一训练音频数据的翻唱音频数据;或者,
所述第一训练音频数据和所述第二训练音频数据为所述第一训练音频数据对应的原始音频数据的翻唱音频数据。
5.根据权利要求2所述的方法,其特征在于,所述利用训练样本集对初始音频识别模型进行训练,得到目标损失信息,包括:
将训练样本集输入初始音频识别模型,得到所述初始音频识别模型输出的所述第一训练音频数据的音频指纹、所述第二训练音频数据的音频指纹以及所述第三训练音频数据的音频指纹;
根据第一相似度和第二相似度,确定所述目标损失信息;所述第一相似度为所述第一训练音频数据的音频指纹与所述第二训练音频数据的音频指纹之间的相似度,所述第二相似度为所述第一训练音频数据的音频指纹与所述第二训练音频数据的音频指纹之间的相似度,以及所述第一训练音频数据的音频指纹与所述第三训练音频数据的音频指纹之间的相似度之和。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述第一训练音频数据的音频指纹与所述第二训练音频数据的音频指纹之间的余弦距离,确定所述第一相似度;
根据所述第一训练音频数据的音频指纹与所述第二训练音频数据的音频指纹之间的余弦距离,与所述第一训练音频数据的音频指纹与所述第三训练音频数据的音频指纹之间的余弦距离之和,确定所述第二相似度。
7.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
播放所述待识别音频数据对应的音频标识所标识的原始音频数据。
8.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
于音频识别界面显示所述待识别音频数据对应的音频标识。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-8任一项所述的音频识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一条或多条计算机程序,所述一条或多条计算机程序适于由处理器加载并执行如权利要求1-8任一项所述的音频识别方法。
CN202211006531.2A 2022-08-22 2022-08-22 音频识别方法、装置、计算机设备及计算机可读存储介质 Pending CN115359785A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211006531.2A CN115359785A (zh) 2022-08-22 2022-08-22 音频识别方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211006531.2A CN115359785A (zh) 2022-08-22 2022-08-22 音频识别方法、装置、计算机设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN115359785A true CN115359785A (zh) 2022-11-18

Family

ID=84001993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211006531.2A Pending CN115359785A (zh) 2022-08-22 2022-08-22 音频识别方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN115359785A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758936A (zh) * 2023-08-18 2023-09-15 腾讯科技(深圳)有限公司 音频指纹特征提取模型的处理方法、装置和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116758936A (zh) * 2023-08-18 2023-09-15 腾讯科技(深圳)有限公司 音频指纹特征提取模型的处理方法、装置和计算机设备
CN116758936B (zh) * 2023-08-18 2023-11-07 腾讯科技(深圳)有限公司 音频指纹特征提取模型的处理方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
Nam et al. Deep learning for audio-based music classification and tagging: Teaching computers to distinguish rock from bach
Levy et al. Music information retrieval using social tags and audio
CN100397387C (zh) 数字声音数据的摘要制作方法和设备
Typke et al. A survey of music information retrieval systems
JP2009508156A (ja) 音楽分析
CN111309965A (zh) 音频匹配方法、装置、计算机设备及存储介质
Mesaros et al. Datasets and evaluation
CN114117213A (zh) 一种推荐模型训练、推荐方法、装置、介质和设备
Farajzadeh et al. PMG-Net: Persian music genre classification using deep neural networks
CN115359785A (zh) 音频识别方法、装置、计算机设备及计算机可读存储介质
CN114420097A (zh) 语音定位方法、装置、计算机可读介质及电子设备
CN111460215B (zh) 音频数据处理方法、装置、计算机设备以及存储介质
CN111026908B (zh) 歌曲标签确定方法、装置、计算机设备以及存储介质
West et al. Incorporating machine-learning into music similarity estimation
EP3996085A1 (en) Relations between music items
KR101520572B1 (ko) 음악에 대한 복합 의미 인식 방법 및 그 장치
Jitendra et al. An ensemble model of CNN with Bi-LSTM for automatic singer identification
KR20210063822A (ko) 음악 컨텐츠 운용 방법 및 이를 지원하는 장치
He et al. Deepchorus: A hybrid model of multi-scale convolution and self-attention for chorus detection
Brandenburg et al. Music search and recommendation
EP3996084B1 (en) Determining relations between music items
CN113806586B (zh) 数据处理方法、计算机设备以及可读存储介质
Aryafar et al. Fusion of text and audio semantic representations through cca
CN117636898A (zh) 音频特征提取模型的训练方法和翻唱音频识别方法
US20230260488A1 (en) Relations between music items

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination