CN115101052A - 音频识别方法及计算机设备 - Google Patents
音频识别方法及计算机设备 Download PDFInfo
- Publication number
- CN115101052A CN115101052A CN202210719204.5A CN202210719204A CN115101052A CN 115101052 A CN115101052 A CN 115101052A CN 202210719204 A CN202210719204 A CN 202210719204A CN 115101052 A CN115101052 A CN 115101052A
- Authority
- CN
- China
- Prior art keywords
- audio
- feature vector
- target
- vector
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 239000013598 vector Substances 0.000 claims abstract description 331
- 238000012549 training Methods 0.000 claims description 133
- 238000003860 storage Methods 0.000 claims description 19
- 239000012634 fragment Substances 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 34
- 238000012545 processing Methods 0.000 description 22
- 238000013528 artificial neural network Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 13
- 238000001228 spectrum Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 6
- 238000012512 characterization method Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 230000000977 initiatory effect Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000001537 neural effect Effects 0.000 description 3
- 230000010355 oscillation Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种音频识别方法及计算机设备,可应用于云技术、人工智能、智慧城市等各种领域或场景,该方法包括:将待识别音频片段对应的待识别频谱图输入目标音频识别模型,得到目标音频模型输出的待识别特征向量;从曲库中确定与待识别特征向量满足预设条件的目标特征向量;将目标特征向量指向的目标音频确定为待识别音频片段的识别结果,识别结果指示待识别音频片段与目标音频为同一音频的不同版本。采用本方案可有效提升音频识别的准确性与效率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种音频识别方法及计算机设备。
背景技术
近年来,随着短视频的兴起和大量网络用户生成内容(user generated content,UGC)作品的出现,人们在观看短视频等多媒体内容时,听到感兴趣的音乐,想要知晓音乐名、演唱者等信息时,音乐识别就显得尤为重要。此外,互联网上大量的音视频作品也给歌曲的版权管理带来了巨大挑战,而使用音乐信息检索(music information retrieval,MIR)技术,如翻唱识别,识别出同一作品的不同版本,对曲库歌曲的管理和版权管理具有重要意义。因此,翻唱歌曲识别(cover song identification,CSI)已成为一个新的研究热点。
发明内容
本申请提供了一种音频识别方法及计算机设备,可有效提升音频识别的准确性与效率。
第一方面,本申请提供了一种音频识别方法,包括:
将待识别音频片段对应的待识别频谱图输入目标音频识别模型,得到目标音频模型输出的待识别特征向量;其中,目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的,初始音频识别模型包括第一任务模块及第二任务模块,调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的;
从曲库中确定与待识别特征向量满足预设条件的目标特征向量;
将目标特征向量指向的目标音频确定为待识别音频片段的识别结果,识别结果指示待识别音频片段与目标音频为同一音频的不同版本。
可见,采用目标音频识别模型,能够得到表征更准确的待识别特征向量,从而提高从曲库中查询匹配的目标特征向量的效率,同时提升音频识别的准确性。
在一种实现方式中,上述方法还包括:将训练频谱图输入初始音频识别模型,得到第一任务模块输出的第一训练特征向量和第二任务模块输出的第二训练特征向量;根据第一训练特征向量确定第一损失参数;根据第二训练特征向量确定第二损失参数;根据第一损失参数和第二损失参数,确定调整参数。其中,第一训练特征向量与第二训练特征向量不同。
在一种实现方式中,上述方法还包括:根据第一训练特征向量,确定训练频谱图的预测音频类别标签;确定预测音频类别标签对应的预测概率;根据预测概率,确定第一损失参数。
在一种实现方式中,训练频谱图包括第一样本图、第二样本图和第三样本图,第一样本图与第二样本图的音频类别标签相同,第一样本图与第三样本图的音频类别标签不同;上述方法具体还可包括:确定第一样本图对应的第二训练特征向量与第二样本图对应的第二训练特征向量之间的第一向量距离;确定第一样本图对应的第二训练特征向量与第三样本图对应的第二训练特征向量之间的第二向量距离;根据第一向量距离与第二向量距离,确定第二损失参数。
可见,使用第一任务模块与第二任务模块的联合学习得到的调整参数对初始音频识别模型的模型参数进行调整,可使得到的目标音频识别模型生成表征更准确、鲁棒性更高的待识别特征向量,有利于提升音频识别的准确性与效率。
在一种实现方式中,识别结果还包括待识别音频片段的音频类别标签;上述方法还包括:将待识别音频片段的音频类别标签与待识别特征向量之间的对应关系添加至曲库。
在一种实现方式中,上述方法还包括:将曲库中的历史音频的频谱图输入目标音频识别模型中,得到目标音频识别模型输出的第三特征向量;历史音频具有音频类别标签;将历史音频的音频类别标签与第三特征向量之间的对应关系添加至曲库。
在一种实现方式中,上述方法还包括:计算待识别特征向量与曲库中的第三特征向量的相似度;若待识别特征向量与第三特征向量的相似度满足预设条件,则确定第三特征向量为目标特征向量。
第二方面,本申请提供了一种音频识别方法,包括:
响应对哼唱音频片段的识别请求,获取所述哼唱音频片段的哼唱频谱图;
将哼唱频谱图输入目标音频识别模型,生成待识别哼唱向量;目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的,初始音频识别模型包括第一任务模块及第二任务模块,调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的;
从曲库中确定与待识别哼唱向量满足预设条件的相似特征向量,并将相似特征向量指向的音频确定为哼唱音频片段的相似音频;
输出相似音频的音频信息,音频信息包括相似音频的音频名称和演唱者名称。
可见,通过目标音频识别模型得到的待识别哼唱向量能够更加准确地表征哼唱音频片段,有利于提高从曲库中查找到相似音频的效率,同时提高哼唱识别的准确性。
第三方面,本申请提供了一种音频识别装置。
在一种可能的设计中,音频识别装置包括处理单元和检索单元。其中:
处理单元,用于将待识别音频片段对应的待识别频谱图输入目标音频识别模型,得到目标音频模型输出的待识别特征向量;其中,目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的,调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的;
检索单元,用于从曲库中确定待识别特征向量满足预设条件的目标特征向量;将目标特征向量指向的目标音频确定待识别音频片段的识别结果,识别结果指示待识别音频片段与目标音频为同一音频的不同版本。
在一种实现方式中,处理单元,还用于:将训练频谱图输入初始音频识别模型,得到第一任务模块输出的第一训练特征向量和第二任务模块输出的第二训练特征向量;根据第一训练特征向量确定第一损失参数;根据第二训练特征向量确定第二损失参数;根据第一损失参数和第二损失参数,确定调整参数。其中,第一训练特征向量与第二训练特征向量不同。
在一种实现方式中,处理单元,还用于:根据第一训练特征向量,确定训练频谱图的预测音频类别标签;确定预测音频类别标签对应的预测概率;根据所述预测概率,确定第一损失参数。
在一种实现方式中,训练频谱图包括第一样本图、第二样本图和第三样本图,第一样本图与第二样本图的音频类别标签相同,第一样本图与第三样本图的音频类别标签不同;处理单元,还用于:确定第一样本图对应的第二训练特征向量与第二样本图对应的第二训练特征向量之间的第一向量距离;确定第一样本图对应的第二训练特征向量与第三样本图对应的第二训练特征向量之间的第二向量距离;根据第一向量距离与第二向量距离,确定第二损失参数。
在一种实现方式中,识别结果还包括待识别音频片段的音频类别标签;检索单元,具体还用于:将待识别音频片段的音频类别标签与待识别特征向量之间的对应关系添加至曲库。
在一种实现方式中,处理单元,还用于:将曲库中的历史音频的频谱图输入目标音频识别模型中,得到目标音频识别模型输出的第三特征向量;历史音频具有音频类别标签;将历史音频的音频类别标签与第三特征向量之间的对应关系添加至曲库。
在一种实现方式中,检索单元,还用于:计算待识别特征向量与曲库中的第三特征向量的相似度;若待识别特征向量与第三特征向量的相似度满足预设条件,则确定第三特征向量为目标特征向量。
在另一种可能的设计中,音频识别装置包括获取单元、处理单元和检索单元。
获取单元,用于:响应对哼唱音频片段的识别请求,获取所述哼唱音频片段的哼唱频谱图。
处理单元,用于:将哼唱频谱图输入目标音频识别模型,生成待识别哼唱向量;目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的,初始音频识别模型包括第一任务模块及第二任务模块,调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的。
检索单元,用于:从曲库中确定与待识别哼唱向量满足预设条件的相似特征向量,并将相似特征向量指向的音频确定为哼唱音频片段的相似音频。
处理单元,还用于:输出相似音频的音频信息,音频信息包括相似音频的音频名称和演唱者名称。
第四方面,本申请提供了一种计算机设备,包括处理器、网络接口和存储装置,处理器、网络接口和存储装置相互连接。其中,网络接口受处理器的控制用于收发数据,存储装置用于存储计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,用于实现本申请提供的音频识别方法。
第五方面,本申请提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时使该处理器实现本申请提供的音频识别方法。
第六方面,本申请提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备实现本申请提供的音频识别方法。
采用本申请,通过目标音频识别模型包括的第一任务模块与第二任务模块实现联合学习,使待识别特征向量对音频的表征更加准确,从而提高音频识别的准确性与效率。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种音频识别系统的场景示意图;
图2为本申请实施例提供的一种音频识别方法的流程示意图;
图3为本申请实施例提供的一种音频识别的场景示意图;
图4为本申请实施例提供的一种音频识别模型的训练方法的流程示意图;
图5为本申请实施例提供的一种音频识别模型的结构示意图;
图6为本申请实施例提供的一种音频识别方法的流程示意图;
图7为本申请实施例提供的一种音频识别的场景示意图;
图8为本申请实施例提供的一种音频识别装置的结构示意图;
图9为本申请提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,首先对本申请涉及到的名词进行说明。
1、机器学习(machine learning,ML)
机器学习研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。深度学习(deep learning,DL)是机器学习领域中一个新的研究方向,深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
2、深度神经网络(deep neutral networks,DNN)
深度神经网络是深度学习的基础,DNN内部的神经网络层可以分为三类,输入层,隐藏层和输出层。一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层,层与层之间是全连接的。DNN中的反向传播(back-propagation)指的是计算神经网络参数梯度的方法。总的来说,反向传播依据微积分中的链式法则,沿着从输出层到输入层的顺序,依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度,从而可以求得DNN的损失函数。通过损失函数,可以调整网络中的参数,实现对网络的优化。
3、向量映射(embedding)
embedding是一种分布式表示方法,即把原始输入数据分布地表示成一系列特征的线性组合,即能够将大型稀疏向量映射到保留语义关系的低维空间,同时,embedding向量的性质是能使距离相近的向量对应的物体有相近的含义,比如“天气”对应的embedding与“晴天”对应的embedding之间的距离较近,而“天气”对应的embedding与“桌子”对应的embedding的距离较远。基于上述特点,embedding被广泛应用于深度学习领域中。在音频识别领域,使用embedding对音频进行表征,能够提升音频识别的效果。
翻唱,是指将已经发表并由他人演唱的歌曲根据自己的风格重新演唱,包括重新填词,编曲。相应的,翻唱识别就是识别出与原唱歌曲在歌词、编曲上类似的歌曲,其目的主要是在海量的音乐信息中找到同源音乐的不同版本。
目前,通常根据音频的和声音级轮廓(harmonic pitch class profile,HPCP)特征来判断两段音频互为翻唱歌曲的概率,但是,HPCP特征中混合了大量的干扰信息,导致翻唱识别的精度低下。此外,目前的深度学习方案通常采取单一的学习方式,往往容易导致过拟合,使学习到的歌曲特征的鲁棒性不够,影响歌曲表征的泛化能力,从而使得翻唱识别的准确性不够高。
基于上述问题,本申请提供了一种音频识别的方法,可用于翻唱歌曲的识别。例如但不限于,本申请实施例提供的音频方法可应用于如图1所示的音频识别系统。图1是一种音频识别系统的场景示意图。该音频识别系统可包括但不限于:一个或多个终端120,一个或多个服务器110。示例性的,图1中展示了一个服务器,和智能手机、智能手表、车载终端、电脑四种终端,终端与服务器之间通过有线网络或无限网络建立通信连接,并进行数据交互。需要说明的是,图1所示的设备数量和形态用于举例,并不构成对本申请实施例的限定。
本申请实施例中,终端可包括但不限于智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能家电、智能语音交互设备等智能设备。
应用于本申请中,终端可作为音频识别装置,从终端中或服务器中获取待识别音频片段,将待识别音频片段对应的待识别频谱图输入目标音频识别模型中,得到目标音频识别模型输出的待识别特征向量;终端还可根据待识别特征向量,从曲库中确定满足预设条件的目标特征向量,并通过该目标特征向量确定待识别音频片段的识别结果。
本申请实施例中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。
应用于本申请实施例中,服务器可作为音频识别装置,从终端中获取待识别音频片段,或者从服务器中的数据库中获取待识别音频片段;将待识别音频片段对应的待识别频谱图输入目标音频识别模型中,得到目标音频识别模型输出的待识别特征向量;服务器还可根据待识别特征向量,从曲库中确定满足预设条件的目标特征向量,并通过该目标特征向量确定待识别音频片段的识别结果。
上述音频识别方法中的待识别音频片段、待识别频谱图以及音频识别过程中产生的待识别特征向量和目标特征向量等可以是存储云数据库中,当执行音频识别方法时,音频识别装置从云数据库获取上述数据;或者,音频识别方法中产生的其他数据也可以是存储在区块链中的。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。由于区块链的上述特性使得存储在区块链上的数据不可篡改,保证了数据的安全性。
可以理解的是,在本申请的具体实施方式中,涉及到待识别音频和待识别频谱图等相关的数据,当本申请以上实施例运用到具体产品或技术中时,相关数据均需要获得相关对象的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
基于如图1所示的音频识别系统,本申请实施例提出了一种音频识别方法,可应用于音频识别装置。请参阅图2,图2为本申请实施例提供的一种音频识别方法的流程示意图。如图2所示,音频识别方法包括但不限于以下步骤:
S201:将待识别音频片段对应的待识别频谱图输入目标音频识别模型,得到目标音频模型输出的待识别特征向量。
其中,音频识别装置可以从终端中获取完整歌曲或歌曲片段,若获取到的是完整歌曲,可对完整歌曲进行采样,从而得到待识别音频片段,若获取到的是歌曲片段,则可将该歌曲片段作为待识别音频片段。待识别音频片段可以是歌曲的原唱版本,也可以是歌曲的翻唱版本。示例性的,请参阅图3中(a)所示的内容,用户可以通过智能手机等终端中的音频识别应用(如音乐播放器),上传歌曲(该歌曲可以是完整的一首歌,也可以是歌曲片段)作为待识别音频片段;或者,用户可以通过智能手机等终端中音乐播放器等应用实现如“哼唱识别”、“听歌识曲”等功能,具体地,用户可以通过自行哼唱一段旋律、一段歌曲,或者录制其他设备播放的音乐,由智能手机等终端接收并作为待识别音频输入目标音频识别模型中进行音频识别。
在一种实现方式中,可对待识别音频片段进行傅里叶变换,将待识别音频片段从时域转换到频域,生成待识别音频片段的待识别频谱图。其中,频谱,是频率谱密度的简称,是频率的分布曲线。复杂振荡分解为振幅不同和频率不同的谐振荡,这些谐振荡的幅值按频率排列的图形叫做频谱。频谱将对信号的研究从时域引入到频域,从而带来更直观的认识。对于一段音频,将音频转换到频域,获得尺寸为(T,F)的待识别频谱,其中,F为频率轴,T为时间轴。待识别频谱可看作二维图像,即频谱图,可用于输入目标音频识别模型中进行处理。
音频识别装置包括目标音频识别模型,目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的。其中,初始音频识别模型包括第一任务模块与第二任务模块,第一任务模块的输入与第二任务模块的输入相同,且不限定两个模块间的执行顺序,可以是第一任务模块比第二任务模块先执行任务,也可以是第二任务模块比第一任务模块先执行任务,还可以是第一任务模块与第二任务模块同时执行任务,本申请对此不作限定。此外,调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的,用于调整初始音频识别模型的模型参数。目标音频识别模型输出的待识别特征向量为embedding向量,包含了待识别音频片段的频谱信息。
在一种实现方式中,初始音频识别模型和目标音频识别模型中的第一任务模块可以是分类任务模块,用于预测输入模型的音频的频谱图所属的音频类别标签。具体地,当待识别频谱图输入目标音频识别模型时,第一任务模块可以对待识别频谱图进行分类,输出第一embedding向量,且预测出待识别频谱图所属的音频类别标签,同一个音频类别标签可标注一个或多个待识别频谱图,具有同一个音频类别标签的待识别频谱图可以为同一音频的不同版本。例如歌手a演唱的歌曲A,与歌手b演唱的歌曲B的音频类别标签均为2,表示歌曲A与歌曲B为同一音频的不同版本。
在一种实现方式中,第二任务模块可以是度量学习(metric learning)模块,用于根据音频识别任务,自主学习出针对该任务的度量距离函数。通过计算两张频谱图之间的相似度,使得输入的频谱图被归入到相似度大的音频类别中去。第二任务模块输出与待识别频谱图对应的第二embedding向量,若待识别频谱图的音频类别标签为2,则分别计算上述第二embedding向量与目标音频识别模型中已有的音频类别标签同为2的歌曲A的embedding向量、歌曲B的embedding向量之间的距离,以及分别计算上述第二embedding向量与目标音频识别模型中已有的音频类别标签与2不同(如1、3、4、5等)的歌曲的embedding向量之间的距离;根据计算结果,在距离函数的约束下,使得相似对象间(音频类别标签相同的embedding向量间)的距离小,不相似对象间(音频类别标签不同的embedding向量间)的距离大,从而提高目标音频识别模型输出的待识别特征向量的表征准确性和鲁棒性。
在一种实现方式中,可以将第一任务模块输出的embedding向量作为待识别特征向量,也可以将第二任务模块输出的embedding向量作为待识别特征向量,本申请对此不作限定。
S202:从曲库中确定与待识别特征向量满足预设条件的目标特征向量。
在本申请中,曲库是记录了大量音频信息的数据库,包括音频的基础信息,如音频的名称、演唱者等信息,曲库中的音频经目标音频识别模型处理后可得到目标音频识别模型输出的音频的embedding向量和音频类别标签,使得曲库中还包括了音频对应的embedding向量、音频的音频类别标签,以及每个embedding向量与对应的音频类别标签之间的对应关系。
可选地,预设条件可以是指待识别特征向量对应的属性信息与目标特征向量对应的属性信息相似或者相同,前述属性信息可以是音频类别标签、向量的方向等;例如,预设条件可以是指待识别特征向量对应的音频类别标签与目标特征向量对应的音频类别标签相同。
在一种实现方式中,可计算待识别特征向量与曲库中的音频对应的embedding向量的相似度,若待识别特征向量与曲库中的音频对应的embedding向量的相似度满足预设条件,则确定该embedding向量为目标特征向量。
可选地,预设条件可以是人为设定的相似度阈值范围,也可以是通过人工智能技术(如机器学习等技术)确定的相似度阈值范围;又或者,预设条件可以是目标特征向量同时满足音频类别标签与待识别特征向量的音频类别标签相同,以及目标特征向量与待识别特征向量的相似度满足预设条件。其中,人工智能是计算机科学的一个分支,利用已了解的智能的实质,生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别和自然语言处理等。
可选地,可以将向量间的余弦相似度作为上述相似度,即通过测量曲库中的向量与待识别向量的夹角的余弦值来度量它们之间的相似度。其中,余弦相似度的值与向量的长度无关,仅仅与向量的指向方向相关。余弦相似度的取值范围为[-1,1],则预设条件可以是余弦相似度的值处于[a,b]的取值区间内,其中,a与b为[-1,1]之间的整数,且b大于a,a与b的具体取值视实际应用场景而定,本申请对此不作限定。示例性的,若待识别特征向量与曲库中的向量相同,即两个向量有相同的方向时,余弦相似度的值为1;若待识别特征向量与曲库中的向量较为相似,两个向量夹角为90°时,余弦相似度的值为0;若待识别特征向量与曲库中的向量完全不同,即两个向量指向完全相反的方向时,余弦相似度的值为-1。其中,假设待识别特征性向量为向量A,曲库中的一个向量为向量B,夹角为α,Ai与Bi分别表示向量A与向量B的各个分量,则向量A与向量之间的余弦相似度simlarity可由下列公式计算,其中n为向量的分量个数:
可选地,计算相似度的方法还可以为计算待识别向量与曲库中的向量之间的欧式距离,若求得的欧式距离的值满足预设条件,则确定该曲库中的向量为目标特征向量。其中,欧式距离也称欧几里得距离或欧几里得度量,是一个常用的距离定义,它是在N(N为正整数)维空间中两个点之间的真实距离。在二维和三维空间中的欧氏距离就是两点之间的距离。在本申请中,待识别向量与曲库中的向量之间的欧式距离是一维空间中的距离。
S203:将目标特征向量指向的目标音频确定为待识别音频片段的识别结果,识别结果指示待识别音频片段与目标音频为同一音频的不同版本。
在本申请中,可根据目标特征向量,从曲库中查询到该目标特征向量对应的目标音频,由于目标特征向量与待识别特征向量满足预设条件,则可确定该目标音频与待识别音频片段为同一音频的不同版本。示例性的,若待识别音频片段为一首歌的原唱版本,则目标音频可以为此首歌的翻唱版本,由于一首歌的翻唱版本可能有多首,则确定的目标音频也可能有多个。若待识别音频片段为一首歌的翻唱版本,则目标音频可以为此首歌的原唱版本。
可选地,识别结果还可包括待识别音频片段的音频类别标签,得到识别结果后,可将待识别音频片段的音频类别标签与待识别特征向量之间的对应关系添加至曲库,从而增加曲库中的特征向量,有助于对其他待识别音频的识别。
基于此,本申请实施例提供的音频识别方法的应用场景可以是听歌识曲,例如,请参阅图3,图3为本申请实施例提供的一种音频识别的场景示意图,如图3中的(a)所示,用户通过终端上传一段音频,终端可以将该音频上传至服务器,服务器可以将该音频进行处理得到待识别频谱,并输入目标音频识别模型中,得到该音频的识别结果。其中,识别结果可能包括识别成功和识别失败两种,如图3中的(b)所示,识别结果为识别成功,可在终端上展示该音频为哪一首歌曲;如图3中的(c)所示,识别结果为“未匹配到结果”,用户可选择重新识别。
可选地,在另一种应用场景中,可将曲库中的歌曲输入目标音频识别模型中,将歌曲的翻唱版本进行聚类,用于管理各个版本的歌曲。
可选地,还可将本申请实施例提供的音频识别方法应用于歌曲版权管理,例如将制作人的创作歌曲的频谱图输入目标音频识别模型中,查询在曲库中已有的歌曲中是否有与该创作歌曲旋律相似的歌曲,若存在,则可以对该创作歌曲进行相应的修改,以规避版权风险。
在本申请实施例中,用于对待识别音频进行音频识别的目标音频识别模型,是基于调整参数对初始音频识别模型的模型参数进行调整得到的,调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的。根据本申请提供的音频识别方法,将待识别音频输入目标音频识别模型,可得到目标音频模型输出的待识别特征向量,通过待识别特征向量,可从曲库中找到与待识别音频为同一音频的不同版本的目标音频。采用本申请提供的方法,通过目标音频识别模型包括的第一任务模块与第二任务模块实现联合学习,使待识别特征向量对音频的表征更加准确,从而提高音频识别的准确性与效率。
请参阅图4,图4为本申请实施例提供的一种音频识别模型的训练方法的流程示意图。该音频识别模型训练方法可用于训练初始音频识别模型,得到目标音频识别模型,目标音频识别模型用于上述实施例中的音频识别方法。如图4所示,音频识别模型的训练方法包括但不限于以下步骤:
S401:将训练频谱图输入初始音频识别模型,得到第一任务模块输出的第一训练特征向量和第二任务模块输出的第二训练特征向量。
在本申请中,训练频谱图是音频样本经傅里叶变换等处理后生成的频谱图,音频样本可以是完整的一首歌曲,也可以是歌曲片段。用于训练初始音频识别模型的训练频谱图已标注了真实的音频类别标签,前述真实的音频类别标签是通过相关工作人员根据实际歌曲信息标注的音频类别标签,如音频A与音频B的音频类别标签为1,音频C的音频类别标签为2,表明音频A与音频B属于同一组的音频且为同一音频的不同版本,而音频C与音频A、音频C与音频B属于不同组的音频且为不同的音频。
音频识别装置包括初始音频识别模型,初始音频识别模型是基于深度神经卷积网络构建的模型,包括第一任务模块与第二任务模块,示例性的,请参阅图5,图5为本申请实施例提供的一种音频识别模型的结构示意图。其中,第一任务模块的输入与第二任务模块的输入是相同的,第一任务模块的输出为第一训练特征向量和第一训练特征向量的第一预测标签,第二任务模块的输出为第二训练特征向量和第二训练特征向量的第二预测标签,第一训练特征向量与第二训练特征向量是互不相同的embedding向量。此外,第一预测标签与第二预测均包括预测音频类别标签,预测音频类别标签与真实的音频类别标签之间可能相同也可能不同,即存在误差,在训练的过程中,需要采用损失函数调整模型参数,使得误差保持在可接受范围内。在本申请实施例中,可以是第一任务模块比第二任务模块先执行任务,也可以是第二任务模块比第一任务模块先执行任务,还可以是第一任务模块与第二任务模块同时执行任务,本申请对此不作限定。
可选地,初始音频识别模型采用的深度神经卷积网络可以是自编码器(autoencoder,AE)、残差神经网络(residual network,ResNet)、加宽残差神经网络(wideresidual neural networks,wide ResNet)等网络。其中,自编码器是一类在半监督学习和非监督学习中使用的人工神经网络(artificial neural networks,ANNs),其功能是通过将输入信息作为学习目标,对输入信息进行表征学习(representation learning);残差神经网络内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题,具有容易优化,并且能够通过增加相当的深度来提高准确率的特点;加宽残差神经网络从增加网络宽度角度改善残差神经网络,使得性能和训练速度都获得了提升。可根据实际应用场景的需求,选择合适的深度神经卷积网络作为构建初始音频识别模型的基础,本申请对此不作限定。
S402:根据第一训练特征向量确定第一损失参数。
在实际的训练场景中,每一次的模型训练通常采用批处理(batch)数据,在本申请中,输入初始音频识别模型中训练的为一个batch的训练频谱图,其中的每个训练频谱图已标注了真实的音频类别标签。假设一个batch的数量为n,n为正整数,则将一个batch训练频谱图(x1,x2,x3,…,xi,…,xn)输入初始音频识别模型,得到由第一任务模块输出的一个batch中每个训练频谱图的第一训练特征向量(y1,y2,y3,…,yi,…,yn)以及第一预测标签,即训练频谱图的预测音频类别标签(l1,l2,l3,…,li,…,ln),其中,输出的预测音频类别标签的种类共有p种,p为大于或等于1的正整数,且小于或等于已标注的真实的音频类别标签的种类数。示例性的,若训练频谱图A与B属于同一音频的不同版本,则训练频谱图A和B的预测音频类别标签可能相同,如均为1。根据得到的第一训练特征向量,可通过深度神经网络中的激活函数,确定每种预测音频类别标签对应的预测概率;根据损失函数可以确定第一损失参数。
在一种实现方式中,第一任务模块可以是分类任务模块,用于预测输入模型的音频频谱图所属的音频类别标签。具体地,当待识别频谱图输入初始音频识别模型时,第一任务模块可以对待识别频谱图进行分类,输出第一训练特征向量以及预测音频类别标签。其中,第一训练特征向量为embedding向量,属于同一类音频类别的训练频谱图的预测音频类别标签相同,属于不同的音频类别的训练频谱图的预测音频类别标签不同。例如,训练频谱图A与B均为歌曲a由不同歌手演唱的版本,训练频谱图C为歌曲b的原唱版本,则训练频谱图A与B的预测音频类别标签均为1,训练频谱图C的预测音频类别标签为2。可选地,可采用对数似然损失函数和softmax激活函数求得预测概率,从而求得第一损失参数;还可采用交叉熵损失函数与sigmoid激活函数求得第一损失参数,本申请对此不作限定。
S403:根据第二训练特征向量确定第二损失参数。
在本申请中,输入初始音频识别模型中训练的为一个batch的训练频谱图,其中的每个训练频谱图已标注了真实的音频类别标签。假设将一个batch训练频谱图输入初始音频识别模型,得到了由第二任务模块输出的一个batch中每个训练频谱图的第二训练特征向量以及第二预测标签,即训练频谱图的预测音频类别标签。其中,第二训练特征向量为embedding向量。根据一个batch的训练频谱图的第二训练特征向量,可根据损失函数,如三元组损失(triplet loss)、原型网络(prototypical network loss)、对比损失(contrastloss)等损失函数,确定第二损失函数,本申请对此不作限定。
在一种实现方式中,第二任务模块可以是度量学习(metric learning)模块,当一个batch的训练频谱图输入初始音频识别模型,可得到第二任务模块输出的对应的第二训练特征向量以及第二预测标签。可选地,每个batch的训练频谱图中包含一个或多个已标注相同音频类别标签的训练频谱图,以及一个或多个已标注不同音频类别标签的训练频谱图。
示例性的,采用三元组损失(triplet loss)函数来确定第二损失参数。假设一个batch的训练频谱包括第一样本图、第二样本图和第三样本图,第一样本图与第二样本图的音频类别标签相同,第一样本图与第三样本图的音频类别标签不同。根据三元组损失函数的定义,可将第一样本图命名为固定频谱图a(anchor),将第二样本图命名为正样本频谱图p(positive),以及将第三样本图命名为负样本频谱图n(negative),频谱图a与频谱图p为一对正样本对,频谱图a和频谱图n为一对负样本对,正样本对表示频谱图a与频谱图p为同一音频的不同版本,负样本对表示频谱图a和频谱图n为不同音频,相应的,若采用距离(distance)函数,频谱图a的第二训练特征向量与频谱图p的第二训练特征向量的第一向量距离d(a,p)相近,而频谱图a的第二训练特征向量和频谱图n的第二训练特征向量的第二向量距离d(a,n)较远,即满足下列公式:
‖f(a)-f(p)‖2=d(a,p)
‖f(a)-f(n)‖2=d(a,n)
‖f(a)-f(p)‖2≤‖f(a)-f(n)‖2
其中f表示embedding,用于将频谱图编码到欧式空间中;‖f(a)-f(p)‖2表示频谱图a与频谱图p之间的欧式距离度量,‖f(a)-f(n)‖2表示频谱图a与频谱图n之间的欧式距离度量。根据上述公式,取间隔(margin)参数β,可以拉大anchor和positive频谱图对和anchor与negative频谱图对之间的差距,从而提高初始音频识别模型输出的待识别特征向量的表征准确性和鲁棒性。根据第一向量距离和第二向量距离可确定第二损失参数。基于此,则第二损失函数L(a,p,n)可以用下列公式表示:
L(a,p,n)=max(‖f(a)-f(p)‖2-‖f(a)-f(n)‖2+β,0)
需要说明的是,本申请对S402与S403之间的执行顺序不作限定,即S402与S403可以同时执行,S402可以先于S403执行,S402还可以后于S403执行。
S404:根据第一损失参数和第二损失参数确定调整参数,根据调整参数调整初始音频识别模型的模型参数,得到目标音频识别模型。
其中,调整参数可以由第一损失参数与第二损失参数相加并求取平均值得到。若经调整参数调整后的初始音频识别模型的模型参数使得第一任务模块的损失函数与第二任务模块的损失函数收敛,则可将当前使用调整参数调整后的初始音频识别模型确定为目标音频识别模型。通过第一任务模块与第二任务模块联合学习得到的目标音频识别模型,可有效避免容易在单一学习任务中产生的过拟合问题,从而使输出的特征向量(如第一训练特征向量、第二训练特征向量)的表征更加准确且具有鲁棒性,提升目标音频识别模型的识别准确性与效率。
S405:将曲库中的历史音频的频谱图输入目标音频识别模型中,得到目标音频识别模型输出的第三特征向量;将历史音频的音频类别标签与第三特征向量之间的对应关系添加至曲库。
在本申请中,曲库是记录了大量音频信息的数据库,包括音频的基础信息,如歌名、演唱者等信息。将曲库中已存储的音频称作历史音频,将曲库中的历史音频对应的频谱图输入目标音频识别模型中,可得到历史音频的第三特征向量,该第三特征向量可以是第一任务模块输出的第一特征向量,或者是第二任务模块输出的第二特征向量。将得到的第三特征向量,以及第三特征向量与历史音频的音频类别标签的对应关系添加至曲库中,从而使得曲库中包括音频的基础信息、音频对应的第三特征向量、音频的音频类别标签,以及每个第三特征向量与对应的音频类别标签之间的对应关系。基于此,例如在翻唱识别的应用场景中,可以将待识别音频的待识别频谱图输入目标音频识别模型中,得到待识别特征向量,根据待识别特征向量,可从曲库中检索目标特征向量,从而得到待识别音频的识别结果。其中,识别结果可以是找到满足预设条件的目标特征向量,且目标特征向量所指向的曲库中的音频与待识别音频为同一音频的不同版本,或者识别结果是未在曲库中检索到满足预设条件的目标特征向量,即在曲库中未查询到与该待识别音频为同一音频的不同版本的音频。
采用本申请提供的音频识别模型训练方法,可通过初始音频识别模型中的第一任务模块生成的第一损失参数,以及第二任务模块生成的第二损失参数得到调整参数,利用调整参数对初始音频识别模型的模型参数进行调整得到目标音频识别模型,实现了第一任务模块与第二任务模块的联合学习,使输出的特征向量对音频的表征更加准确,从而使得训练得到的目标音频识别模型的泛化能力强,同时提升音频识别的准确性与效率。
请参阅图6,图6为本申请实施例提供的一种音频识别方法的流程示意图,适用于如图1所示的音频识别系统,可应用于音频识别装置,该音频识别装置可以是终端,也可以是服务器。如图6所示,音频识别方法包括但不限于以下步骤:
S601:响应对哼唱音频片段的识别请求,获取所述哼唱音频片段的哼唱频谱图。
在本申请中,发起哼唱识别请求的对象可以是用户,用户向终端发起哼唱识别请求,由终端对哼唱音频片段进行哼唱识别。可选地,发起哼唱识别请求的对象也可以是配置有哼唱识别服务的终端,终端可以对用户的哼唱进行收录,生成哼唱音频片段,并向作为音频识别装置的服务器发起哼唱识别请求。其中,哼唱识别请求中包括哼唱音频片段,还可包括发起请求的终端的身份信息等信息。
示例性的,如图7中的(a)所示,用户可以通过智能手机等终端中的音乐播放器等应用实现哼唱识别的功能。具体地,用户可以向终端的收音装置哼唱一段旋律或一首歌曲,向终端发起哼唱识别请求,终端可以作为音频识别被装置,将接收到的哼唱音频片段进行音频识别。
音频识别装置可对接收到的哼唱音频片段进行傅里叶变换处理,得到哼唱音频片段的哼唱频谱图。
在一种实现方式中,哼唱识别请求中还可包括哼唱音频片段的哼唱频谱图,当音频识别装置接收到用户的哼唱识别请求后,可以对其中的哼唱音频片段进行处理,生成哼唱音频片段的哼唱频谱图。
S602:将哼唱频谱图输入目标音频识别模型,生成待识别哼唱向量;目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的,初始音频识别模型包括第一任务模块及第二任务模块,调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的。
音频识别装置包括目标音频识别模型,目标音频模型包括第一任务模块及第二任务模块,当哼唱频谱图输入目标音频模型,第一任务模块与第二任务模块会针对哼唱频谱图进行联合学习,从而生成能够准确表征哼唱音频片段的哼唱向量。
需要说明的是,基于同一发明构思,构建目标音频识别模型的技术细节与原理可以参见S401-S405中的技术细节与原理,为简洁描述,在这里不再赘述。
S603:从曲库中确定与待识别哼唱向量满足预设条件的相似特征向量,并将相似特征向量指向的音频确定为哼唱音频片段的相似音频。
曲库中存储了大量音频信息,包括音频的基础信息,如音频的名称、演唱者、时长等信息,曲库中的音频经由目标音频识别模型处理后可得到各个音频的特征向量和音频类别标签,因此,曲库中还包括了各个音频的特征向量与对应的音频类别标签之间的对应关系。在曲库中,与哼唱向量满足预设条件的相似特征向量可以有一个或多个,例如用户哼唱的音频片段为歌曲A,曲库中的可以存储有歌曲A的原唱版本、不同歌手的翻唱版本等多个与哼唱音频片段相似的音频,则这些相似的音频的特征向量与哼唱向量是满足预设条件的。
可选地,预设条件可以是哼唱特征向量与相似特征向量的余弦相似度满足相似条件,其中,相似条件可以是认为设定的相似度阈值范围。
S604:输出相似音频的音频信息,音频信息包括相似音频的音频名称和演唱者名称。
在本申请中,相似音频的音频信息包括相似音频的歌曲名称和演唱者名称。可选地,相似音频的音频信息还可包括该相似音频与哼唱音频片段的相似程度、相似音频的音频文件或该相似音频的播放链接。哼唱音频片段的相似音频可以有一个或多个。其中,发起哼唱识别请求的对象可以是配置有哼唱识别等服务的终端,可以收录用户哼唱的音频片段,也可以向作为音频识别装置的服务器发送哼唱识别请求。音频识别装置可响应于该哼唱识别请求,将相似音频的音频信息返回至终端。
可选地,发起哼唱识别请求的对象可以是用户,用户通过哼唱歌曲片段向终端发起哼唱识别请求,终端作为音频识别装置进行识别,当从乐库中查找到相似音频后,可响应于该哼唱识别请求,在终端中显示结果。示例性的,请参阅图7,图7为本申请实施例提供的一种哼唱识别的场景示意图,如图7中的(a)所示,终端可接收用户哼唱的音频片段和哼唱识别请求,并进行识别。如图7中的(b)所示,终端可以识别得到一个或多个与哼唱音频片段相似的音频,并展示各个相似音频与哼唱音频片段的相似程度,以及相似音频的音频信息,如歌曲名和歌手,用户可以通过点击“播放”进行收听。如图7中的(c)所示,若未能识别出用户哼唱的音频片段是哪一首歌,则可以显示“未匹配到结果”,等待用户的下一次识别。根据本申请提供的音频识别方法,将哼唱频谱图输入目标音频识别模型,可得到目标音频识别模型输出的哼唱特征向量;通过哼唱特征向量。可从曲库中查找到与哼唱音频片段相似的一个或多个相似音频。采用本申请提供的方法,通过目标音频识别模型包括的第一任务模块与第二任务模块实现联合学习,能够更加准确地表征哼唱音频片段,从而提高音频识别的准确性与效率。
请参阅图8,图8为本申请实施例提供的一种音频识别装置的结构示意图。
在一种可能的设计中,该音频识别装置包括处理单元810和检索单元820。其中:
处理单元810,用于:将待识别音频片段对应的待识别频谱图输入目标音频识别模型,得到目标音频模型输出的待识别特征向量;其中,目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的,调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的;
检索单元820,用于:从曲库中确定与待识别特征向量满足预设条件的目标特征向量;将目标特征向量指向的目标音频确定为待识别音频片段的识别结果,识别结果指示待识别音频片段与目标音频为同一音频的不同版本。
在一种实现方式中,处理单元810,还用于:将训练频谱图输入初始音频识别模型,得到第一任务模块输出的第一训练特征向量和第二任务模块输出的第二训练特征向量;根据第一训练特征向量确定第一损失参数;根据第二训练特征向量确定第二损失参数;根据第一损失参数和第二损失参数,确定调整参数。其中,第一训练特征向量与第二训练特征向量不同。
在一种实现方式中,处理单元810,还用于:根据第一训练特征向量,确定训练频谱图的预测音频类别标签;确定预测音频类别标签对应的预测概率;根据所述预测概率,确定第一损失参数。
在一种实现方式中,训练频谱图包括第一样本图、第二样本图和第三样本图,第一样本图与第二样本图的音频类别标签相同,第一样本图与第三样本图的音频类别标签不同;处理单元810,还用于:确定第一样本图对应的第二训练特征向量与第二样本图对应的第二训练特征向量之间的第一向量距离;确定第一样本图对应的第二训练特征向量与第三样本图对应的第二训练特征向量之间的第二向量距离;根据第一向量距离与第二向量距离,确定第二损失参数。
在一种实现方式中,识别结果还包括待识别音频片段的音频类别标签;检索单元820,还用于:将待识别音频片段的音频类别标签与待识别特征向量之间的对应关系添加至曲库。
在一种实现方式中,处理单元810,还用于:将曲库中的历史音频的频谱图输入目标音频识别模型中,得到目标音频识别模型输出的第三特征向量;历史音频具有音频类别标签;将历史音频的音频类别标签与第三特征向量之间的对应关系添加至曲库。
在一种实现方式中,检索单元820,还用于:计算待识别特征向量与曲库中的第三特征向量的相似度;若待识别特征向量与第三特征向量的相似度满足预设条件,则确定第三特征向量为目标特征向量。
在另一种可能的设计中,音频识别装置包括获取单元830、处理单元810和检索单元820。其中:
获取单元830,用于:响应对哼唱音频片段的识别请求,获取所述哼唱音频片段的哼唱频谱图。
处理单元810,用于:将哼唱频谱图输入目标音频识别模型,生成待识别哼唱向量;目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的,初始音频识别模型包括第一任务模块及第二任务模块,调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的。
检索单元820,用于:从曲库中确定与待识别哼唱向量满足预设条件的相似特征向量,并将相似特征向量指向的音频确定为哼唱音频片段的相似音频;
处理单元810,还用于:输出相似音频的音频信息,音频信息包括相似音频的音频名称和演唱者名称。
根据本申请的一个实施例,图2、图4和图6所示的音频识别方法所涉及的步骤可由图8所示的音频识别装置中的各个单元来执行。例如,图2中所示的步骤S201和图4中所示的步骤S401、步骤S402、步骤S403、步骤S404和步骤S405,以及图6中所示的步骤S602、步骤S604可由图8中的处理单元810来执行,图2中所示的步骤S202、步骤S203和图6所示的步骤S603可由图8中的检索单元820来执行,图6中的步骤S601可由图8中的获取单元830来执行。
根据本申请的一个实施例,图8所示的音频识别装置中的各个单元可以分别或全部合并为一个或若干个单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个子单元,可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,音频识别装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
可以理解的是,本申请实施例所描述的音频识别装置的各功能单元的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
采用本申请提供的音频识别方法,通过目标音频识别模型包括的第一任务模块与第二任务模块实现联合学习,使待识别特征向量对音频的表征更加准确,从而提高音频识别的准确性与效率。
请参见图9,为本申请提供的一种计算机设备的结构示意图。如图9所示,所述计算机设备可以包括:处理器910,网络接口920和存储器930。其中,其中,处理器910、网络接口920及存储器930可通过总线或其他方式连接,本申请实施例以通过总线连接为例。
其中,处理器910(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其可以解析计算机设备内的各类指令以及处理计算机设备的各类数据,例如:CPU可以用于解析向计算机设备所发送的开关机指令,并控制计算机设备进行开关机操作;再如:CPU可以在计算机设备内部结构之间传输各类交互数据,等等。网络接口920可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等),受处理器910的控制用于收发数据。存储器930(Memory)是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器930既可以包括计算机设备的内置存储器,当然也可以包括计算机设备所支持的扩展存储器。存储器930提供存储空间,该存储空间存储了计算机设备的操作系统,可包括但不限于:Android系统、iOS系统、Windows Phone系统等等,本申请对此并不作限定。
在一种实现方式中,处理器910通过运行存储器930中的可执行程序代码,执行如下操作:
将待识别音频片段对应的待识别频谱图输入目标音频识别模型,得到目标音频模型输出的待识别特征向量;从曲库中确定与待识别特征向量满足预设条件的目标特征向量;将目标特征向量指向的目标音频确定为待识别音频片段的识别结果,识别结果指示待识别音频片段与目标音频为同一音频的不同版本。
可选地,处理器910通过运行存储器930中的可执行程序代码,还可以执行如下操作:将训练频谱图输入初始音频识别模型,得到第一任务模块输出的第一训练特征向量和第二任务模块输出的第二训练特征向量;根据第一训练特征向量确定第一损失参数;根据第二训练特征向量确定第二损失参数;根据第一损失参数和第二损失参数,确定调整参数。其中,第一训练特征向量与第二训练特征向量不同。
可选地,处理器910通过运行存储器930中的可执行程序代码,还可以执行如下操作:根据第一训练特征向量,确定训练频谱图的预测音频类别标签;确定预测音频类别标签对应的预测概率;根据所述预测概率,确定第一损失参数。
可选地,训练频谱图包括第一样本图、第二样本图和第三样本图,第一样本图与第二样本图的音频类别标签相同,第一样本图与第三样本图的音频类别标签不同;处理器910通过运行存储器930中的可执行程序代码,还可以执行如下操作:确定第一样本图对应的第二训练特征向量与第二样本图对应的第二训练特征向量之间的第一向量距离;确定第一样本图对应的第二训练特征向量与第三样本图对应的第二训练特征向量之间的第二向量距离;根据第一向量距离与第二向量距离,确定第二损失参数。
可选地,识别结果还包括待识别音频片段的音频类别标签;处理器910通过运行存储器930中的可执行程序代码,还可以执行如下操作:将待识别音频片段的音频类别标签与待识别特征向量之间的对应关系添加至曲库。
可选地,处理器910通过运行存储器930中的可执行程序代码,还可以执行如下操作:将曲库中的历史音频的频谱图输入目标音频识别模型中,得到目标音频识别模型输出的第三特征向量;历史音频具有音频类别标签;将历史音频的音频类别标签与第三特征向量之间的对应关系添加至曲库。
可选地,处理器910通过运行存储器930中的可执行程序代码,还可以执行如下操作:计算待识别特征向量与曲库中的第三特征向量的相似度;若待识别特征向量与第三特征向量的相似度满足预设条件,则确定第三特征向量为目标特征向量。
在另一种实现方式中,处理器910通过运行存储器930中的可执行程序代码,可以执行如下操作:
响应对哼唱音频片段的识别请求,获取所述哼唱音频片段的哼唱频谱图;将哼唱频谱图输入目标音频识别模型,生成待识别哼唱向量;目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的,初始音频识别模型包括第一任务模块及第二任务模块,调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的;从曲库中确定与待识别哼唱向量满足预设条件的相似特征向量,并将相似特征向量指向的音频确定为哼唱音频片段的相似音频;输出相似音频的音频信息,音频信息包括相似音频的音频名称和演唱者名称。
应当理解,本申请实施例中所描述的计算机设备可执行前文图2、图4和图6对应实施例中对上述音频识别方法的描述,也可执行前文图8所对应实施例中对上述音频识别装置的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的音频识别装置所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图2、图4和图6所对应实施例中对音频识别方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请提供了一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前文图2、图4和图6对应实施例中对上述音频识别方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程计算机设备的处理器以产生一个机器,使得通过计算机或其他可编程计算机设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程计算机设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程计算机设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种音频识别方法,其特征在于,所述方法包括:
将待识别音频片段对应的待识别频谱图输入目标音频识别模型,得到所述目标音频模型输出的待识别特征向量;其中,所述目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的,所述初始音频识别模型包括第一任务模块及第二任务模块,所述调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的;
从曲库中确定与所述待识别特征向量满足预设条件的目标特征向量;
将所述目标特征向量指向的目标音频确定为所述待识别音频片段的识别结果,所述识别结果指示所述待识别音频片段与所述目标音频为同一音频的不同版本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将训练频谱图输入初始音频识别模型,得到所述第一任务模块输出的第一训练特征向量和所述第二任务模块输出的第二训练特征向量;所述第一训练特征向量与所述第二训练特征向量不同;
根据所述第一训练特征向量确定所述第一损失参数;
根据所述第二训练特征向量确定所述第二损失参数;
根据所述第一损失参数和所述第二损失参数,确定所述调整参数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一训练特征向量确定所述第一损失参数,包括:
根据所述第一训练特征向量,确定所述训练频谱图的预测音频类别标签;
确定所述预测音频类别标签对应的预测概率;
根据所述预测概率,确定所述第一损失参数。
4.根据权利要求2所述的方法,其特征在于,所述训练频谱图包括第一样本图、第二样本图和第三样本图,所述第一样本图与所述第二样本图的音频类别标签相同,所述第一样本图与所述第三样本图的音频类别标签不同;
所述根据所述第二训练特征向量确定所述第二损失参数,包括:
确定所述第一样本图对应的第二训练特征向量与所述第二样本图对应的第二训练特征向量之间的第一向量距离;
确定所述第一样本图对应的第二训练特征向量与所述第三样本图对应的第二训练特征向量之间的第二向量距离;
根据所述第一向量距离与所述第二向量距离,确定所述第二损失参数。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述识别结果还包括所述待识别音频片段的音频类别标签;
所述方法还包括:
将所述待识别音频片段的音频类别标签与所述待识别特征向量之间的对应关系添加至所述曲库。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
将所述曲库中的历史音频的频谱图输入所述目标音频识别模型中,得到所述目标音频识别模型输出的第三特征向量;所述历史音频具有音频类别标签;
将所述历史音频的音频类别标签与所述第三特征向量之间的对应关系添加至所述曲库。
7.根据权利要求6所述的方法,其特征在于,所述从曲库中确定与所述待识别特征向量满足预设条件的目标特征向量,包括:
计算所述待识别特征向量与所述曲库中的第三特征向量的相似度;
若所述待识别特征向量与所述第三特征向量的相似度满足预设条件,则确定所述第三特征向量为所述目标特征向量。
8.一种音频识别方法,其特征在于,所述方法包括:
响应对哼唱音频片段的识别请求,获取所述哼唱音频片段的哼唱频谱图;
将所述哼唱频谱图输入目标音频识别模型,生成待识别哼唱向量;所述目标音频识别模型是利用调整参数对初始音频识别模型的模型参数进行调整得到的,所述初始音频识别模型包括第一任务模块及第二任务模块,所述调整参数是根据第一任务模块生成的第一损失参数以及第二任务模块生成的第二损失参数确定的;
从曲库中确定与所述待识别哼唱向量满足预设条件的相似特征向量,并将所述相似特征向量指向的音频确定为所述哼唱音频片段的相似音频;
输出所述相似音频的音频信息,所述音频信息包括所述相似音频的音频名称和演唱者名称。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、网络接口和存储装置,所述处理器、所述网络接口和所述存储装置相互连接,其中,所述网络接口受所述处理器的控制用于收发数据,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,用于执行如权利要求1-8任一项所述的音频识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,所述计算机程序被处理器执行时用于实现如权利要求1-8任一项所述的音频识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210719204.5A CN115101052A (zh) | 2022-06-23 | 2022-06-23 | 音频识别方法及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210719204.5A CN115101052A (zh) | 2022-06-23 | 2022-06-23 | 音频识别方法及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115101052A true CN115101052A (zh) | 2022-09-23 |
Family
ID=83293554
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210719204.5A Pending CN115101052A (zh) | 2022-06-23 | 2022-06-23 | 音频识别方法及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115101052A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725402A (zh) * | 2023-12-21 | 2024-03-19 | 北京谛声科技有限责任公司 | 一种基于设备运行音频的设备异常状态确定方法及系统 |
-
2022
- 2022-06-23 CN CN202210719204.5A patent/CN115101052A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117725402A (zh) * | 2023-12-21 | 2024-03-19 | 北京谛声科技有限责任公司 | 一种基于设备运行音频的设备异常状态确定方法及系统 |
CN117725402B (zh) * | 2023-12-21 | 2024-05-28 | 北京谛声科技有限责任公司 | 一种基于设备运行音频的设备异常状态确定方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11544565B2 (en) | Processing system for generating a playlist from candidate files and method for generating a playlist | |
US8392414B2 (en) | Hybrid audio-visual categorization system and method | |
CN111444967B (zh) | 生成对抗网络的训练方法、生成方法、装置、设备及介质 | |
CN111309965B (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
CN113813609B (zh) | 游戏音乐风格分类方法、装置、可读介质及电子设备 | |
KR20080030922A (ko) | 정보처리 장치 및 방법, 프로그램, 및 기록 매체 | |
Xia et al. | Construction of music teaching evaluation model based on weighted naïve bayes | |
CN111444379B (zh) | 音频的特征向量生成方法及音频片段表示模型的训练方法 | |
WO2024021882A1 (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
CN113704506A (zh) | 一种媒体内容排重方法和相关装置 | |
CN115101052A (zh) | 音频识别方法及计算机设备 | |
CN111445922A (zh) | 音频匹配方法、装置、计算机设备及存储介质 | |
Yin et al. | Measuring when a music generation algorithm copies too much: The originality report, cardinality score, and symbolic fingerprinting by geometric hashing | |
Zhang | [Retracted] Research on Music Classification Technology Based on Deep Learning | |
CN111026908B (zh) | 歌曲标签确定方法、装置、计算机设备以及存储介质 | |
CN115734024A (zh) | 音频数据处理方法、装置、设备及存储介质 | |
CN111460215B (zh) | 音频数据处理方法、装置、计算机设备以及存储介质 | |
EP3161689B1 (en) | Derivation of probabilistic score for audio sequence alignment | |
Yan | [Retracted] Audience Evaluation and Analysis of Symphony Performance Effects Based on the Genetic Neural Network Algorithm for the Multilayer Perceptron (GA‐MLP‐NN) | |
Kai | Automatic recommendation algorithm for video background music based on deep learning | |
CN112885315B (zh) | 模型的生成方法、音乐合成的方法、系统、设备及介质 | |
Karydis et al. | Comparing content and context based similarity for musical data | |
CN114764470A (zh) | 获取用户画像的方法、装置和设备及存储介质 | |
Maršík et al. | Improving music classification using harmonic complexity | |
CN118093792B (zh) | 对象搜索的方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |