CN111400543B - 音频片段的匹配方法、装置、设备及存储介质 - Google Patents

音频片段的匹配方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111400543B
CN111400543B CN202010202158.2A CN202010202158A CN111400543B CN 111400543 B CN111400543 B CN 111400543B CN 202010202158 A CN202010202158 A CN 202010202158A CN 111400543 B CN111400543 B CN 111400543B
Authority
CN
China
Prior art keywords
audio
candidate
vector
segment
frequency domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010202158.2A
Other languages
English (en)
Other versions
CN111400543A (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010202158.2A priority Critical patent/CN111400543B/zh
Publication of CN111400543A publication Critical patent/CN111400543A/zh
Application granted granted Critical
Publication of CN111400543B publication Critical patent/CN111400543B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种音频片段的匹配方法、装置、设备及存储介质,所述方法应用于人工智能领域,所述方法包括:获取音频片段的目标音频向量和多个第一候选片段的候选片段向量;将所述多个第一候选片段的候选片段向量聚类为k个类簇,所述k是大于0的整数;确定所述k个类簇中与所述目标音频向量最接近的目标类簇;将属于所述目标类簇中的所述第一候选片段确定为第二候选片段;计算所述目标音频向量和所述第二候选片段的候选片段向量的相似度;将具有最高相似度的所述第二候选片段所属的候选音频,确定为与所述音频片段匹配的匹配音频。该方法可以提高对音频片段在音频库中匹配出所属音频时的匹配效率。

Description

音频片段的匹配方法、装置、设备及存储介质
技术领域
本申请涉及人工智能领域,特别涉及一种音频片段的匹配方法、装置、设备及存储介质。
背景技术
音频检索是根据一段已知音频从音频库中找到与已知音频相似或相匹配的目标音频的过程。
相关技术中,根据音频的“指纹”来检索目标音频。音频的“指纹”是从音频信号中选取比较显著的时间频率点,将其编码为数字,该数字即为该音频的“指纹”。例如,从音频信号中,选取幅度大于预定值的波峰点,记录波峰点的幅度和时间,将该音频中符合条件的多个波峰点编码为数字,生成该音频的“指纹”。
上述音频匹配方法,需要根据音频的“指纹”与音频库中的音频进行逐一匹配。当音频库中的音频非常多时,匹配次数过多,服务器负载大且匹配效率低。
发明内容
本申请实施例提供了一种音频片段的匹配方法、装置、设备及存储介质,可以提高对音频片段在音频库中匹配出所属音频时的匹配效率。所述技术方案如下:
根据本申请的一个方面,提供了一种音频片段的匹配方法,所述方法包括:
获取音频片段的目标音频向量和多个第一候选片段的候选片段向量;
将所述多个第一候选片段的候选片段向量聚类为k个类簇,所述k是大于0的整数;
确定所述k个类簇中与所述目标音频向量最接近的目标类簇;
将属于所述目标类簇中的所述第一候选片段确定为第二候选片段;
计算所述目标音频向量和所述第二候选片段的候选片段向量的相似度;
将具有最高相似度的所述第二候选片段所属的候选音频,确定为与所述音频片段匹配的匹配音频。
根据本申请的另一方面,提供了一种音频片段的匹配装置,所述装置包括:
获取模块,用于获取音频片段的目标音频向量和多个第一候选片段的候选片段向量;
聚类模块,用于将所述多个第一候选片段的候选片段向量聚类为k个类簇,所述k是大于0的整数;
确定模块,用于确定所述k个类簇中与所述目标音频向量最接近的目标类簇;
所述确定模块,还用于将属于所述目标类簇中的所述第一候选片段确定为第二候选片段;
计算模块,用于计算所述目标音频向量和所述第二候选片段的候选片段向量的相似度;
所述确定模块,还用于将具有最高相似度的所述第二候选片段所属的候选音频,确定为与所述音频片段匹配的匹配音频。
根据本申请的另一方面,提供了一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述音频片段的匹配方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上方面所述的音频片段的匹配方法。
本申请实施例提供的技术方案带来的有益效果至少包括:
通过根据第一候选片段的候选片段向量,将候选片段向量聚类为k个类簇,根据音频片段的目标音频向量从k个类簇中选出与目标音频向量最接近的目标类簇,把目标类簇中的第一候选片段确定为第二候选片段。再用第二候选片段与音乐片段进行逐一比较,计算他们的相似度,将相似度最高的第二候选片段对应的候选音频作为最终的输出结果——匹配音频。该方法先使用候选片段向量对候选音频进行分类,根据音频片段的目标音频向量选出与音频片段最接近的分类,再将该分类下的候选片段与音频片段进行逐一比较,减少逐一匹配的次数,提高服务器的音乐匹配效率,降低服务器负载。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个示例性实施例提供的服务器的实施环境框图;
图2是本申请一个示例性实施例提供的音频片段的匹配方法的流程图;
图3是本申请另一个示例性实施例提供的音频片段的匹配方法的在实施时的音频信号示意图;
图4是本申请另一个示例性实施例提供的音频片段的匹配方法的在实施时的频域信号示意图;
图5是本申请另一个示例性实施例提供的音频片段的匹配方法的在实施时的频谱图;
图6是本申请另一个示例性实施例提供的音频片段的匹配方法的流程图;
图7是本申请另一个示例性实施例提供的音频片段的匹配方法的流程图;
图8是本申请另一个示例性实施例提供的音频片段的匹配方法的流程图;
图9是本申请另一个示例性实施例提供的音频片段的匹配方法的流程图;
图10是本申请另一个示例性实施例提供的音频片段的匹配方法的流程图;
图11是本申请另一个示例性实施例提供的音频片段的匹配方法的流程图;
图12是本申请另一个示例性实施例提供的音频片段的匹配装置的框图;
图13是本申请另一个示例性实施例提供的服务器的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
图1示出了本申请一个示例性实施例提供的计算机系统的结构框图。该计算机系统100包括:终端120和服务器140。
终端120运行有支持运行音频的平台,该平台可以是音频播放程序或小程序(依赖宿主程序运行的程序)、音频播放网页、视频播放程序或小程序、视频播放网页中的任意一种。
终端120通过无线网络或有线网络与服务器140相连。
服务器包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示意性的,服务器包括处理器144和存储器142,存储器142又包括获取模块1421、聚类模块1422和计算模块1423。获取模块1421用于获取音频片段和候选片段在频域的向量,聚类模块1422用于根据候选片段的候选片段向量聚类为k个类簇,计算模块1423用于根据音频片段向量从k个类簇中确定与音频片段向量最近的类簇,并计算该类簇中每个候选片段与音频片段的相似度,根据相似度确定与音频片段匹配的匹配音频。在一些实施例中,服务器140从终端120中获取待匹配的音频片段的音频信号,或者从存储器142中获取待匹配的音频片段的音频信号。
终端120泛指一个或多个终端,比如,上述终端可以仅为一个,或者上述终端为十几个或几百个,或者更多数量,本申请实施例仅以终端120为例进行说明,终端的类型包括:智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。本申请实施例对终端的数量和类型不加以限定。
本申请实施例提供的音频片段的匹配方法可以应用于哼唱识别或歌曲识别场景,在该场景下,服务器采用本申请实施例提供的音频片段的匹配方法对用户哼唱或者录制的音频片段进行音频匹配,从音频库中找出用户哼唱或者录制的歌曲,得到匹配音频,从而帮助用户快速找到想要的歌曲。
本申请实施例提供的音频片段的匹配方法还可以应用于音乐推荐场景。在该场景下,服务器采用本申请实施例提供的音频片段的匹配方法对用户听过的音频片段进行音频匹配,从音频库中找出与音频片段旋律相近的歌曲,得到匹配音频,从而向用户推荐用户喜欢的音乐。
当然,上述应用场景仅为示意性说明,本申请实施例提供的方法可以应用于其他需要使用到音频片段匹配的场景(比如音频检索、音频比对等等),本实施例对此不作限定。
图2示出了本申请一个示例性实施例提供的音频片段的匹配方法的流程图。该方法可以由图1所示的服务器来执行。所述方法包括:
步骤203,获取音频片段的目标音频向量和多个第一候选片段的候选片段向量。
音频片段是待匹配的音频。服务器根据音频片段从多个候选音频中选出匹配音频。例如,当用户需要进行音频查找时,用户会提供一段音频,用户提供的音频就是音频片段,服务器根据音频片段从音频库中查找于音频片段相似的匹配音频。示例性的,音频片段可以是终端上传到服务器的音频,也可以是服务器中存储的音频。例如,在哼歌识曲场景下,用户会哼唱一段歌曲,将这段歌曲上传到服务器,服务器将这段歌曲作为音频片段,进行音频匹配,从音频库中查找到用户所唱的歌曲(匹配音频)。
第一候选片段是等待被匹配的音频。示例性的,第一候选片段是服务器中存有音频,或,第一候选片段是服务器从终端、其他服务器、数据库中的至少一个途径获取的音频。示例性的,第一音频片段是从服务器的音频库中获取的音频。示例性的,第一候选片的数量为至少两个。示例性的,第一候选片段是服务器从候选音频中截取的候选音频片段。示例性的,候选音频是服务器中存储的音频。
目标音频向量是音频片段的特征向量。候选片段向量是第一候选片段的特征向量。特征向量是用于表示音频的时域特征和频域特征中的至少一种特征的向量。特征向量是对音频信号的时域和频域的至少一个域进行特征提取操作所得到的向量。特征提取操作了包括沿时域方向进行卷积、沿频域方向进行卷积、延时域方向进行池化、沿频域方向进行池化中的至少一种。卷积处理操作可以是多尺度的卷积处理操作。
步骤206,将多个第一候选片段的候选片段向量聚类为k个类簇,k是大于0的整数。
服务器根据第一候选片段的候选片段向量可以将候选片段向量聚类为k个类簇。聚类所使用的聚类算法包括但不限于:k-means算法(k-means clustering algorithm,k均值聚类算法)、层次聚类算法、均值漂移聚类算法、基于密度的聚类算法、谱聚类算法、最大期望(Expectation-Maximization,EM)聚类算法、高斯混合模型(Mixture Of Gaussian,MOG)聚类算法、Clara(Clustering Large Applications,大型应用)算法、Clarans的算法中的至少一种。
示例性的,每个类簇中包括至少一个第一候选片段。
示例性的,通过聚类的方式,根据第一候选片段在候选片段向量的特征,可以将第一候选片段划分为k个类簇,每个类簇中包括一类第一候选片段。
步骤209,确定k个类簇中与目标音频向量最接近的目标类簇。
服务器确定k个类簇中与目标音频向量最接近的目标类簇。
服务器根据音频片段的目标音频向量从k个类簇中确定出与目标音频向量最接近的目标类簇。示例性的,服务器从k个类簇中找到与目标音频向量最类似的类簇。
目标类簇是服务器根据目标音频向量从k个类簇中确定出的,与目标音频向量最接近的类簇。
步骤212,将属于目标类簇中的第一候选片段确定为第二候选片段。
示例性的,服务器将目标类簇中候选片段向量对应的第一候选片段筛选出来,作为第二候选片段,然后根据从第二候选片段中进一步筛选与音频片段匹配的音频。
步骤215,计算目标音频向量和第二候选片段的候选片段向量的相似度。
示例性的,服务器将根据目标音频向量和候选片段向量,将音频片段逐一与第二候选片段进行匹配,计算相似度。
示例性的,相似度用于描述目标音频向量和候选片段向量的相似程度。根据相似度可以判断音频片段和第二候选片段是否是近似的音频。
示例性的,服务器计算两个向量的相似度的方式可以有很多种,例如,利用机器学习的分类模型来计算相似度、利用神经网络模型来计算相似度、利用两个向量间的距离来确定相似度等等。
步骤218,将具有最高相似度的第二候选片段所属的候选音频,确定为与音频片段匹配的匹配音频。
示例性的,服务器将与音乐片段相似度最高的第二候选片段所属的候选音频,输出为匹配结果(匹配音频)。匹配音频是第二候选片段中与音频片段相似度最高的候选片段对应的候选音频。匹配音频是第一候选片段中与音频片段最匹配的候选片段对应的候选音频。
第一候选片段和第二候选片段是从候选音频中截取出的候选音频片段。示例性的,服务器可以直接将相似度最高的第二候选片段作为匹配音频输出,也可以将相似度最高的第二候选片段对应的候选音频作为匹配音频输出。
示例性的,服务器确定匹配音频后,将匹配音频发送给终端,终端会显示匹配音频或播放匹配音频。
综上所述,本实施例提供的方法,通过根据第一候选片段的候选片段向量,将候选片段向量聚类为k个类簇,根据音频片段的目标音频向量从k个类簇中选出与目标音频向量最接近的目标类簇,把目标类簇中的第一候选片段确定为第二候选片段。再用第二候选片段与音乐片段进行逐一比较,计算他们的相似度,将相似度最高的第二候选片段对应的候选音频作为最终的输出结果——匹配音频。该方法先使用候选片段向量对候选音频进行分类,根据音频片段的目标音频向量选出与音频片段最接近的分类,再将该分类下的候选片段与音频片段进行逐一比较,减少逐一匹配的次数,提高服务器的音乐匹配效率,降低服务器负载。
示例性的,给出一种根据音频片段的频域信号得到目标音频向量的示例性实施例。
示例性的,目标音频向量是音频片段的频域向量,候选片段向量是第一候选片段的频域向量。频域向量是根据音频的至少一个频域序列生成的向量。频域向量是一种多维向量。本实施例对频域向量的维度不加以限制,频域向量的维度越多,匹配结果越准确。
服务器得到音频的频域序列的方式为:获取音频的音频信号(时间-幅度图),按照时间周期,将音频信号分为多个时域序列分组;然后按照采样时间间隔,对每个时域序列分组的音频信号进行采样得到多个采样点,组成该时域序列分组的时域序列;对每个时域序列分组的时域序列进行时频域转换得到频域信号(频率-幅度图);然后按照采样频率间隔,对频域信号进行采样得到多个采样点,组成该时域序列分组的频域序列。时频转换的方式包括但不限于:FFT(Fast Fourier Transform,快速傅里叶变换)、DFT(Discrete FourierTransform,离散傅里叶变换)、MFCC(Mel-scale Frequency Cepstral Coefficients,梅尔频率倒谱系数)中的至少一种。
例如,如图3所示是音频片段的时域信号图,该音频片段共长7s。
首先,按照时间周期为1.75s将音频片段分为四个时域序列分组:时域序列分组G1、时域序列分组G2、时域序列分组G3、时域序列分组G4
然后,对于每个时域序列分组,按照采样时间间隔0.25s,对时域信号进行采样。以时域序列分组G1为例,按照采样时间间隔0.25s采样得到6个采样点:A点、B点、C点、D点、E点、F点。6个采样点即构成了音频片段在时域序列分组G1的时域序列。
然后,对于每个时域序列分组,根据时域序列进行时频域转换得到频域信号。以时域序列分组G1为例,对A点、B点、C点、D点、E点、F点6个采样点进行时频域转换得到如图4所示的时域序列分组G1的频域信号。
最后,对于每个时域序列分组,根据采样频率间隔10Hz,对频域信号进行采样。以时域序列分组G1为例,如图4所示,对时域序列分组G1的频域信号进行采样,得到16个采样点,16个采样点构成了音频片段在时域序列分组G1的频域序列。示例性的,再进行频域采样时,会设置频率采样范围,例如,只对110Hz到3520Hz范围内的频域信号进行采样。
示例性的,服务器获取了音频在每个时域序列分组的频域序列后,可以生成音频的频谱图。例如,如图5所示,是根据如图3所示的音频片段生成的频谱图,频谱图是根据音频片段四个时域序列分组的频域序列生成的,频谱图中横轴为时间,对应有音频片段的四个时域序列分组,纵轴为频率,对应有每个时域序列分组的频域序列。频域序列用横线所在的位置表示频率数值,用横线颜色的深浅表示幅度大小。示例性的,时域序列分组G1的频谱图可以近似的视为将图4所示的频域序列图向左旋转90°后,将线设置为统一长度,用线的深浅来表示该频率对应的幅度大小。
示例性的,得到音频在每个时域序列分组的频域序列后,可以生成音频的频域向量。例如,如表一所示是音频片段在四个时域序列分组的频域序列。
表一
将四个时域序列分组的频域序列按照时域序列分组G1至时域序列分组G4的顺序生成频域向量为(0,0,1,5,10,1,6,0,8,3,10,0,0,0,2,1,0,1,8,9),即按照表一中横向的顺序生成频域向量。示例性的,也可以根据在10Hz到50Hz四个时域序列分组分别的取值来生成频域向量(0,1,10,1,0,6,0,0,1,0,0,1,5,8,0,8,10,3,2,9),即按照表一中竖向的顺序生成频域向量。
示例性的,目标音频向量还可以是音频片段的时域向量,候选片段向量还可以是第一候选片段的时域向量。时域向量是根据音频的时域序列生成的向量。时域向量是一种多维向量。本实施例对时域向量的维度不加以限制,时域向量的维度越高,匹配结果越准确。示例性的,基于频域序列的生成方式,可以获取音频的时域序列,基于与频域向量类似的生成方法,可以生成音频的时域向量。
示例性的,给出另一种生成音频的特征向量的示例性实施例。
步骤601,获取音频的特征序列;
音频的特征序列包括:按照时间顺序排列的i个频域向量。每个频域向量为M维,每个维度代表该音频在一个频率FM上的频率分布,相邻维度之间的频率差相同。其中,i和M均为大于1的整数。
采用采样时间间隔(比如每隔0.1秒)将音频在时间维度上进行采样,得到离散的时间序列T1~Tn,每个T值代表音频在该采样点上的大小。
按照时间周期(比如每个3秒时间段)进行分组,得到多个时间序列分组G1~Gi,每个时间序列分组Gx中包括多个采样点,比如3秒/0.1秒=30个采样点。
将属于同一时间序列分组Gx中的多个采样点变换成一个频域向量,得到按照时间顺序排列的i个频域向量。也即对上述每个时间序列分组做时域至频域的变换(包括但不限于:快速傅里叶变换FFT、梅尔倒谱系数MFCC、离散傅里叶变换DFT等等),得到每个时间序列分组Gx所对应的频域序列。每个频域序列代表同一组时间序列分组Gx里面包含的不同频率的分布。对于i个频域序列分别进行采样,得到i个频域向量。
按照时间顺序排列的i个频域向量构成一个M*i的二维矩阵。该二维矩阵上与i对应的轴代表时域方向,与M对应的轴代表频域方向。M是频率分布上下限与频率采样间隔之间的商。
步骤602,调用时间序列相关层对特征序列进行时域自相关处理,得到自相关特征向量序列;
音频的特征序列包括按照时间顺序排列的i个频域向量。对于i个频域向量中的第x个频域向量,时域自相关处理是衡量其他频域向量对第x个频域向量的相关性的处理操作。
调用时间序列相关层对按照时间顺序排列的i个频域向量进行时域自相关处理,得到自相关特征向量序列。该自相关特征向量序列包括i个第一特征向量。
其中,按照时间顺序排列的i个第一特征向量构成一个M*i的二维矩阵。该二维矩阵上与i对应的轴代表时域方向,与M对应的轴代表频域方向。M是频率分布上下限与频率采样间隔之间的商。
针对上述步骤602,计算机设备调用时间序列相关层执行如下步骤602a和步骤602b:
步骤602a,计算第x个频域向量和除第x个频域向量之外的其他频域向量之间的第x相关性分数,x为不大于i的整数;
设音频的特征序列包括:按照时间顺序排列的i个频域向量{G1,G2,...,Gi}。每个Gx都是一个频域向量。为了衡量特征序列中的其他频域向量和第x个频域向量之间的相关性,针对第x个频域向量引入如下的相关性计算公式。
score(Gx)=(Gx*Gx+G2*Gx...+Gi*Gx–Gx*Gx)/(G1^2+G2^2+...+Gi^2–Gx^2)
也即,计算机设备计算第x个频域向量和除第x个频域向量之外的其他频域向量的乘积和;计算除第x个频域向量之外的其他频域向量的平方和;将乘积和和平方和的商,确定为第x个频域向量和除第x个频域向量之外的其他频域向量之间的第x相关性分数。
需要注意的是,分子和分母都需要减掉Gx*Gx(或者说Gx^2),因为是要衡量其他频域向量对第x个频域向量Gx的影响。
步骤602b,以第x相关性分数作为第x个频域向量的相关性权重,计算i个频域向量的加权序列,得到自相关特征向量序列。
在计算得到每个Gx对应的score(Gx),以第x相关性分数作为第x个频域向量的相关性权重计算自相关特征向量序列{t1,...,ti},引入如下计算公式。
{t1,...,ti}={G1*score(G1),...,Gx*score(Gx),...,Gi*score(Gi)}
步骤603,调用时频域处理层对自相关特征向量序列进行时域特征提取处理和频域特征提取处理中的至少一种特征提取处理,得到音频的特征向量。
时域特征提取处理是指沿时间方向进行特征提取处理,频率特征提取处理是指沿频率方向进行特征提取处理。时域特征提取处理和频域特征提取处理是并列且不同的特征提取处理。
特征提取处理包括但不限于:卷积处理和池化处理中的至少一种。比如,特征提取处理包括卷积处理,又比如,特征提取处理包括卷积处理和池化处理。可选地,卷积处理是多尺度卷积处理。
在不同实施例中,卷积处理、池化处理的操作顺序可以有很多种组合:比如,先卷积、再池化;或者先池化、再卷积;或者先全连接层、再卷积、再全连接、再池化;也可以多次重复(比如ResNet,堆叠很多层卷积、池化)。
计算机设备调用时频域处理层对自相关特征向量序列进行时域特征提取处理,得到音频的特征向量;或,计算机设备调用时频域处理层对自相关特征向量序列进行频域特征提取处理,得到音频的特征向量;或,计算机设备调用时频域处理层对自相关特征向量序列进行时域特征提取处理和频域特征提取处理,得到音频的特征向量。
在本实施例中,以计算机设备调用时频域处理层对自相关特征向量序列进行时域特征提取处理和频域特征提取处理,得到音频的特征向量来举例说明。
综上所述,本实施例提供的方法,通过调用时间序列相关层对所述特征序列进行时域自相关处理得到自相关特征向量序列,以及调用时频域卷积模块对所述自相关特征向量序列进行时域特征提取处理和频域特征提取处理,得到音频的特征向量,综合考虑音频在时域和频域上的特性,同时提取到音频在时域和频域上的实质特征,提高音频的特征向量的提取有效性。
示例性的,本申请还给出一种从音频库中筛选出第一候选片段的示例性实施例。示例性的,本申请还给出一种计算类簇与目标音频向量的距离的示例性实施例。示例性的,本申请还给出一种使用音频匹配模型计算目标音频向量和候选片段向量的相似度的示例性实施例。
图6示出了本申请一个示例性实施例提供的音频片段的匹配方法的流程图。该方法可以由图1所示的服务器来执行。与图2所示的示例性实施例相比,图6所示的示例性实施例还包括步骤201和步骤202,步骤209还包括步骤2091和步骤2092,步骤215还包括步骤2151。
步骤201,计算音频片段的第一频域能量值。
示例性的,第一候选片段是服务器根据音频片段的第一频域能量值从音频库中筛选得到的音频片段。
第一频域能量值是音频片段的频域能量值。频域能量值是根据音频在每个时域序列分组的时域序列计算得到的。第一频域能量值用于描述音频片段的频域能量分布。
示例性的,如图7所示,步骤201还包括步骤2011至步骤2013。
步骤2011,根据时间周期将音频片段的音频信号分为i个时域序列,i是大于0的整数。
示例性的,时间周期用于分割音频片段。时间周期等于时域序列的时长。
时域序列是由时间、幅度坐标点组成的序列。音频信号(时域信号)的时域序列由音频信号上的至少两个点组成。示例性的,时域序列中的多个点按照时间顺序排列。
示例性的,服务器按照时间周期将音频片段的音频信号分为i个时域序列分组,得到i个时域序列分组的i个时域信号。然后按照采样时间间隔对每个时域序列分组的时域信号进行采样得到多个采样点,第x个时域序列分组的至少两个采样点组成了第x个时域序列分组Gx的时域序列。时间周期和采样时间间隔的时长设定可以是任意的,示例性的,音频片段的时长为第一音频时长,第一音频时长≥时间周期>采样时间间隔。
例如,如图3所示,按照时间周期为1.75s将音频片段的音频信号分为四个时域序列分组,四个时域序列分组对应有四个时域序列。
步骤2012,将i个时域序列采用时频域转换为i个频域序列,频域序列用于表征时域序列在不同采样频率上的频率分布。
频域序列是由频率、幅度坐标点组成的序列。音频信号的频域序列由频域信号上的至少两个点组成。示例性的,频域序列中的多个点按照频率大小顺序排列。
示例性的,对于第x个时域序列分组Gx,服务器将第x个时域序列分组Gx的时域序列进行时频域转换得到第x个时域序列分组Gx的频域信号,按照采样频率间隔对频域信号进行采样得到多个采样点组成频域序列。示例性的,按照上述方法,得到每个时域序列分组的频域序列。示例性的,时频域转换的方式包括但不限于:FFT、DFT、MFCC中的至少一种。
例如,如图3所示,将时域序列分组G1的时域序列进行时频域转换得到如图4所示的频域信号,对频域信号进行采样得到时域序列分组G1的频域序列。示例性的,获取图3中四个时域序列分组的频域序列后,组成如图5所示的频谱图,频谱图中记录有四个时域序列分组的频域序列。
步骤2013,将i个频域序列之和确定为第一频域能量值。
服务器将i个时域序列分组的频域序列卷积mask(掩膜)向量的卷积结果之和确定为第一频域能量值。mask向量中的数值非0即1。mask向量用于筛选频域系列中人耳可以听到的频率。例如,人耳可以听到的频段是20Hz到2000Hz,则利用mask向量去除频域序列中低于20Hz或高于2000Hz的部分。示例性的,将i个时域序列分组的频域序列卷积mask(掩膜)向量的卷积结果之和确定为第一频域能量值。即,第一频域能量值的计算公式为:
其中,PowerQ是第一频域能量值,Gx是第x个时域序列分组的频域序列,mask是mask向量。
例如,音频片段具有两个时域序列分组的两个频域序列,分别为:第一频域序列:频率10Hz幅度1、频率100Hz幅度2、频率1000Hz幅度3、频率10000Hz幅度4;第二频域序列:频率10Hz幅度5、频率100Hz幅度6、频率1000Hz幅度7、频率10000Hz幅度8,其中,10Hz和10000Hz对应的mask向量中的数值为0,100Hz和1000Hz对应的mask向量中的数值为1,则第一频域序列与mask向量的卷积结果为0×1+1×2+1×3+0×4=5,第二频域序列与mask向量的卷积结果为0×5+1×6+1×7+0×8=13,则音频片段的第一频域能量值为5+13=18。
再如,如表一所示,将音频片段在四个时域序列分组的四个频域序列的数值相加,0+0+1+5+10+1+6+0+8+3+10+0+0+0+2+1+0+1+8+9=65,得到音频片段的第一频域能量值为65。
步骤202,根据音频片段的第一频域能量值从音频库中筛选多个第一候选片段,频域能量值用于描述音频信号的频域能量。
服务器根据音频片段的第一频域能量值从音频库中筛选多个第一候选片段,频域能量值用于描述音频信号的频域能量。
示例性的,服务器根据第一频域能量值,从音频库中筛选出与频域能量值与第一频域能量值相似的候选片段。
示例性的,如图7所示,步骤202还包括步骤2021至步骤2024。
步骤2021,以音频片段的第一频域能量值为基准,确定频域能量值范围。
服务器以第一频域能量值为基准设置频域能量值的取值范围。例如,第一频域能量值是65,取值范围是第一频域能量值上下浮动30,则频域能量值的取值范围是65±30得到[35,95]。
频域能量值范围用于筛选第一候选片段。
步骤2022,根据音频片段的第一音频时长将多个候选音频,截取为多个候选音频片段,候选音频片段的音频时长为第一音频时长。
示例性的,服务器将音频库中的多个候选音频截取为与音频片段时长相同的候选音频片段。示例性的,服务器截取候选音频片段的方式可以是:将第一音频时长设置为时间窗口,用时间窗口在候选音频中滑动截取候选音频片段。例如,一个候选音频的时长为10s,第一音频时长为5s,最小滑动距离为1s,则该候选音频可以截取出0-5s、1-6s、2-7s、3-8s、4-9s、5-10s五个候选音频片段。
示例性的,步骤218中,服务器也可以将匹配音频对应的完整的候选音频发送至终端进行显示或播放。
步骤2023,计算候选音频片段的第二频域能量值。
服务器计算每个候选音频片段的第二频域能量值。第二频域能量值的计算方式与第一频域能量值的计算方式相同,在此不再赘述。
步骤2024,将第二频域能量值符合频域能量值范围的候选音频片段,确定为第一候选片段。
服务器根据频域能量值范围筛选第二频域能量值,将位于频域能量值范围内的第二频域能量值对应的候选音频片段确定为第一候选片段。
步骤2091,根据同一个类簇中的候选片段向量,计算得到类簇的中心向量。
示例性的,服务器计算音频片段的目标音频向量与每个类簇的中心向量的距离,将与目标音频向量距离最近的中心向量对应的类簇,确定为目标类簇。
中心向量用于表示类簇的聚类中心。中心向量是根据该类簇中的候选片段向量计算得到的。
示例性的,如图7所示,步骤2091还包括步骤2091-1。
步骤2091-1,计算同一个类簇中的候选片段向量的平均值,得到类簇的中心向量。
示例性的,中心向量是该类簇中所有候选片段向量的平均值。
步骤2092,分别计算目标音频向量与k个类簇的中心向量之间的向量距离,将向量距离最短的类簇确定为目标类簇,k是大于0的整数。
步骤2151,调用音频匹配模型计算目标音频向量和第二候选片段的候选片段向量的相似度,音频匹配模型是基于机器学习的分类模型。
音频匹配模型是使用有监督学习方式训练得到的分类模型。音频匹配模型可以输出目标音频向量和候选片段向量的相似度。
综上所述,本实施例提供的方法,利用音频片段的频域能量值进行粗筛,从音频库中筛选出频域能量值与第一频域能量值相近的第一候选片段。使用频域能量值来筛选第一候选片段,而不是根据音频信号中某些特征点生成的“指纹”进行筛选,由于频域能量值可以表征音频信号的频域分布情况,可以表征音频信号的连续地趋势,而不是以音频信号的特定点来表征音频信号的特征,使筛选结果更准确,筛选出的第一候选片段更贴近音频片段。
本实施例提供的方法,通过调用音频匹配模型来计算目标音频向量和候选片段向量的相似度,利用机器学习的分类模型来进行音频片段的匹配,可以提高匹配准确度。且在使用音频匹配模型进行逐一匹配之前,会使用音频片段的频域能量值和频域向量进行粗筛,对粗筛后的结果再进行逐一匹配,既可以提高音频片段的匹配效率,又可以保证音频片段匹配结果的准确性。
示例性的,给出一种训练得到音频匹配模型的示例性实施例。
步骤801,服务器根据音频属性特征对音频库中的音频进行聚类,得到音频类簇,音频属性特征包括至少两个不同维度的属性特征,且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度。
其中,音频库中存储有大量音频,该音频可以包括歌曲、纯音乐、交响曲、钢琴曲或其他演奏乐曲等等,本申请实施例并不对音频库中音频的类型进行限定。可选的,该音频库为音频播放应用程序的曲库。
可选的,音频具有各自的音频属性特征,该音频属性特征可以是音频自身的属性特征,也可以是人为赋予的属性特征,且同一段音频可以包含多个不同维度的属性特征。
在一种可能的实施方式中,音频的音频属性特征包括如下至少一种:文本特征、音频特征、情感特征和场景特征。可选的,文本特征可以包括音频本身的文本特征(比如歌词、作曲者、作词者、流派等等),也可以包括人为赋予的文本特征(比如评论);音频特征用于表征音频本身的旋律、节奏、时长等音频特性;情感特征用于表征音频所表达的情感;场景特征用于表征音频所使用的播放场景。当然,除了上述音频属性特征外,音频还可以包括其他维度的属性特征,本实施例对此不作限定。
本申请实施例中,基于音频属性特征进行音频聚类的过程可以被称为初筛,用于初步筛选出音频属性特征相似的音频。为了提高初筛质量,计算机设备根据至少两个不同维度的属性特征进行聚类,避免基于单一维度属性特征进行聚类造成的聚类偏差。
经过聚类后,计算机设备得到若干音频类簇,同一音频类簇中的音频具有相似的音频属性特征(与其它音频类簇中的音频相比)。其中,音频类簇的数量可以是在聚类阶段预先设置(可以基于经验值),避免聚类过于泛化或者过于细化。
步骤802,根据音频类簇中的音频生成候选音频对,候选音频对中包含两段音频,且两段音频属于同一音频类簇或不同音频类簇。
由于同一音频类簇中的音频具有相似音频属性特征,而不同音频类簇中的音频在音频属性特征上存在较大差异,因此服务器可以基于音频类簇初步生成音频样本,其中,每一条音频样本是由两首音频构成的候选音频对。
由于音频库中包含大量音频,因此基于音频类簇生成候选音频对的数量也十分庞大,比如,对于包含y段音频的音频库,生成的候选音频对的数量为C(y,2)。然而,虽然基于音频类簇能够生成海量候选音频对,但是并非所有候选音频对均能够用于后续模型训练。比如,当候选音频对中音频为同一歌曲(比如不同歌手演唱的同一歌曲),或者,候选音频对中的音频完全不同(比如一首英国民谣,一首唢呐曲)时,将该候选音频对作为模型训练样本过于简单,无法训练得到高质量的模型。
为了提高音频样本的质量,本申请实施例中,计算机设备通过精筛,进一步从候选音频对中筛选出高质量的音频对作为音频样本。
步骤803,服务器根据音频库中音频的历史播放记录,确定候选音频对中的音频正样本对和音频负样本对,其中,音频正样本对中的音频属于同一音频类簇,音频负样本对中的音频属于不同音频类簇。
通过分析发现,用户的音频播放行为与音频之间的相似度存在密切关系,比如用户经常会连续播放相似度较高,但是并不完全相同的音频。因此本申请实施例中,计算机设备基于音频的历史播放记录,对生成的候选音频对进行精筛,得到音频样本对。其中,精筛得到的音频样本对包括由相似音频构成的音频正样本对(从由同一音频类簇中音频构成的候选音频对中筛选得到),以及由差异音频构成的音频负样本对(从由不同音频类簇中音频构成的候选音频对中筛选得到)。
可选的,该历史播放记录为各个用户帐号下的音频播放记录,其可以是根据播放先后顺序形成的音频播放列表。比如,该历史播放记录可以是音频播放应用程序服务器收集的各个用户的歌曲播放记录。
在一些实施例中,基于历史播放记录筛选出的音频正样本对和音频负样本对之间的区分度较低,从而提高后续基于音频样本对训练得到模型的质量。
步骤804,服务器根据所述音频正样本对和所述音频负样本对训练得到所述音频匹配模型。
样本是用于模型训练和测试的对象,该对象包含标注信息,该标注信息为模型输出结果的参考值(或称为真值或监督值),其中,标注信息为1的样本为正样本,标注信息为0的样本为负样本。本申请实施例中的样本指用于训练音频匹配模型的音频样本,且该音频样本采用样本对的形式,即音频样本中包含两段音频。可选的,当音频样本(对)的标注信息为1时,表明音频样本对中的两段音频为相似音频,即音频正样本对;当音频样本(对)的标注信息为0时,表明音频样本对中的两段音频不是相似音频,即音频负样本对。
示例性的,将音频正样本对的相似度确定为1,将音频负样本对的相似度确定为0,然后用音频正样本对和音频负样本对训练得到音频匹配模型,使之可以根据输入的两个音频输出相似度。
或,根据音频正样本对中两个音频的特征向量的距离,确定该音频正样本对的相似度。根据音频负样本对中两个音频的特征向量的距离,确定该音频负样本对的相似度。然后用音频正样本对和音频负样本对训练得到音频匹配模型,使之可以根据输入的两个音频输出相似度。
综上所述,本申请实施例中,首先根据不同维度的音频属性特征,对音频库中具有相似特征的音频进行聚类得到音频类簇,然后对属于相同或不同音频类簇进行组合,得到若干候选音频对,进而基于音频的历史播放记录,从候选音频对中筛选出音频正样本对和音频负样本对,用于后续模型训练;通过融合音频多维度的属性特征进行聚类,并基于用户的音频播放记录筛选正负样本对,使生成音频样本对能够从多角度反映音频之间的相似性(包括音频本身属性和用户收听习惯),在实现自动生成音频样本对的同时,提高了生成的音频样本对的质量,进而提高了后续基于音频样本进行模型训练的质量。
图8示出了本申请一个示例性实施例提供的音频片段的匹配方法的流程图。该方法可以由图1所示的服务器来执行。如图8所示,该音频片段匹配方法的算法主要由三个部分组成,首先服务器将音频片段和音频库输入到粗粒度匹配401,利用音频信号的频域能量值从音频库中筛选出第一候选片段。然后将第一候选片段和音频片段输入到兴趣区域匹配402,利用音频信号的频域向量,将第一候选片段聚类为多个类簇,从中选出与音频片段最接近的类簇,将该类簇中的第一候选片段确定为第二候选片段。最后,将音频片段和第二候选片段输入排序输出403中,逐一计算音频片段与每个第二候选片段的相似度,并根据相似度对第二候选片段进行排序,将相似度最高的第二候选片段确定为匹配音频。
图9示出了本申请一个示例性实施例提供的音频片段的匹配方法的流程图。该方法可以由图1所示的服务器来执行。如图9所示,根据音频片段的第一音频时长从音频库中截取出若干个候选片段,将音频片段和后端片段输入基于频域能量值的快速匹配404中,根据音频片段的频域能量值从候选片段中筛选出第一候选片段。
图10示出了本申请一个示例性实施例提供的音频片段的匹配方法的流程图。该方法可以由图1所示的服务器来执行。如图10所示,得到第一候选片段后,将第一候选片段和音频片段输入聚类分析405中,根据第一候选片段的候选片段向量对候选片段向量进行聚类得到多个类簇,根据音频片段的目标音频向量选出距离最近的目标类簇,将目标类簇中的第一候选片段确定为第二候选片段,然后将第二候选片段和音频片段输入到音频匹配模型406,计算第二候选片段和音频片段的相似度,将相似度最高的第二候选片段确定为匹配音频。
图11示出了本申请一个示例性实施例提供的音频片段的匹配方法的流程图。该方法可以由图1所示的服务器来执行。如图11所示,将音频库中的候选音频407,根据音频片段的时长截取出多个第一候选片段后,与音频片段408一起输入聚类分析405中,将第一候选片段的候选片段向量聚类为多个区域集合(类簇)。然后根据音频片段408的目标音频向量从多个区域集合中选出距离最近的兴趣区域集合409(目标类簇),将兴趣区域集合409中的第一候选片段确定为第二候选片段。将兴趣区域集合409中的第二候选片段与音频片段408一起输入到音频匹配模型406中,得到每个第二候选片段与音频片段的最终得分410(相似度)。将最终得分最高的第二候选片段对应的候选音频确定为匹配音频。
综上所述,本实施例提供的方法,通过根据第一候选片段的候选片段向量,将候选片段向量聚类为k个类簇,根据音频片段的目标音频向量从k个类簇中选出与目标音频向量最接近的目标类簇,把目标类簇中的第一候选片段确定为第二候选片段。再用第二候选片段与音乐片段进行逐一比较,计算他们的相似度,将相似度最高的第二候选片段作为最终的输出结果——匹配音频。该方法先使用音频的向量对候选音频进行分类,根据音频片段的向量选出与音频片段最接近的分类,再将该分类下的候选片段与音频片段进行逐一比较,减少逐一匹配的次数,提高服务器的音乐匹配效率,降低服务器负载。
本实施例提供的方法,通过引入有监督学习得到的音频匹配模型,挖掘建模音频片段和第二候选片段的深层关系,深度挖掘它们的相似性,提高音频片段匹配的准确度。
本实施例提供的方法,通过利用音频的频域能量值和频域向量进行初筛,减少精确筛选的次数,加快音频匹配效率,提高音频匹配速度。
以下为本申请的装置实施例,对于装置实施例中未详细描述的细节,可以结合参考上述方法实施例中相应的记载,本文不再赘述。
图12示出了本申请的一个示例性实施例提供的音频片段的匹配装置的结构示意图。该装置可以通过软件、硬件或者两者的结合实现成为服务器的全部或一部分,该装置包括:
获取模块501,用于获取音频片段的目标音频向量和多个第一候选片段的候选片段向量;
聚类模块502,用于将所述多个第一候选片段的候选片段向量聚类为k个类簇,所述k是大于0的整数;
确定模块503,用于确定所述k个类簇中与所述目标音频向量最接近的目标类簇;
所述确定模块503,还用于将属于所述目标类簇中的所述第一候选片段确定为第二候选片段;
计算模块504,用于计算所述目标音频向量和所述第二候选片段的候选片段向量的相似度;
所述确定模块503,还用于将具有最高相似度的所述第二候选片段所属的候选音频,确定为与所述音频片段匹配的匹配音频。
在一个可选的实施例中,所述聚类模块502,还用于采用向量聚类算法将所述多个第一候选片段的候选片段向量聚类为k个类簇,所述k是大于0的整数;
所述计算模块504,还用于根据同一个类簇中的所述候选片段向量,计算得到所述类簇的中心向量;
所述计算模块504,还用于分别计算所述目标音频向量与所述k个类簇的中心向量之间的向量距离;
所述确定模块503,还用于将向量距离最短的类簇确定为所述目标类簇。
在一个可选的实施例中,所述计算模块504,还用于计算同一个类簇中的所述候选片段向量的平均值,得到所述类簇的中心向量。
在一个可选的实施例中,所述装置还包括:
所述计算模块504,还用于计算所述音频片段的第一频域能量值;
筛选模块505,用于根据所述音频片段的第一频域能量值从音频库中筛选所述多个第一候选片段,所述频域能量值用于描述音频信号的频域能量。
在一个可选的实施例中,所述音频库包括多个所述候选音频,所述音频片段的第一音频时长小于所述候选音频的第二音频时长;所述装置还包括:
所述确定模块503,还用于以所述音频片段的第一频域能量值为基准,确定频域能量值范围;
截取模块506,用于根据所述音频片段的第一音频时长将多个所述候选音频,截取为多个候选音频片段,所述候选音频片段的音频时长为所述第一音频时长;
所述计算模块504,还用于计算所述候选音频片段的第二频域能量值;
所述确定模块503,还用于将所述第二频域能量值符合所述频域能量值范围的候选音频片段,确定为所述第一候选片段。
在一个可选的实施例中,所述装置还包括:
时域模块507,用于根据时间周期将所述音频片段的音频信号分为i个时域序列,所述i是大于0的整数;
转换模块508,用于将所述i个时域序列采用时频域转换为i个频域序列,所述频域序列用于表征所述时域序列在不同采样频率上的频率分布;
所述确定模块503,还用于将所述i个频域序列之和确定为所述第一频域能量值。
在一个可选的实施例中,所述计算模块504,还用于调用音频匹配模型计算所述目标音频向量和所述第二候选片段的候选片段向量的相似度,所述音频匹配模型是基于机器学习的分类模型。
在一个可选的实施例中,所述装置还包括:所述聚类模块502,还用于根据音频属性特征对所述音频库中的音频进行聚类,得到音频类簇,所述音频属性特征包括至少两个不同维度的属性特征,且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度;
生成模块509,用于根据所述音频类簇中的音频生成候选音频对,所述候选音频对中包含两段音频,且所述两段音频属于同一音频类簇或不同音频类簇;
所述确定模块503,还用于根据所述音频库中音频的历史播放记录,确定所述候选音频对中的音频正样本对和音频负样本对,其中,所述音频正样本对中的音频属于同一音频类簇,所述音频负样本对中的音频属于不同音频类簇;
训练模块510,用于根据所述音频正样本对和所述音频负样本对训练得到所述音频匹配模型。
图13是本申请一个实施例提供的服务器的结构示意图。具体来讲:服务器1300包括中央处理单元(英文:Central Processing Unit,简称:CPU)1301、包括随机存取存储器(英文:Random Access Memory,简称:RAM)1302和只读存储器(英文:Read-Only Memory,简称:ROM)1303的系统存储器1304,以及连接系统存储器1304和中央处理单元1301的系统总线1305。服务器1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出(Input/Output,I/O)系统1306,和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。
基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中显示器1308和输入设备1309都通过连接到系统总线1305的输入/输出控制器1310连接到中央处理单元1301。基本输入/输出系统1306还可以包括输入/输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入/输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。大容量存储设备1307及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说,大容量存储设备1307可以包括诸如硬盘或者只读光盘(英文:Compact Disc Read-Only Memory,简称:CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(英文:Erasable Programmable Read-Only Memory,简称:EPROM)、电可擦除可编程只读存储器(英文:Electrically Erasable Programmable Read-Only Memory,简称:EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(英文:Digital Versatile Disc,简称:DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。
根据本申请的各种实施例,服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在系统总线1305上的网络接口单元1311连接到网络1312,或者说,也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。
本申请还提供一种计算机设备,该计算机设备包括:处理器和存储器,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的音频片段的匹配方法。
本申请还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的音频片段的匹配方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种音频片段的匹配方法,其特征在于,所述方法包括:
计算音频片段的第一频域能量值,频域能量值用于描述音频信号的频域能量;
以所述音频片段的所述第一频域能量值为基准,确定频域能量值范围;
根据所述音频片段的第一音频时长将多个候选音频,截取为多个候选音频片段,音频库包括所述多个候选音频,所述音频片段的所述第一音频时长小于所述候选音频的第二音频时长;所述候选音频片段的音频时长为所述第一音频时长;
计算所述候选音频片段的第二频域能量值;
将所述第二频域能量值符合所述频域能量值范围的候选音频片段,确定为第一候选片段;
获取所述音频片段的目标音频向量和多个第一候选片段的候选片段向量;
将所述多个第一候选片段的候选片段向量聚类为k个类簇,所述k是大于0的整数;
确定所述k个类簇中与所述目标音频向量最接近的目标类簇;
将属于所述目标类簇中的所述第一候选片段确定为第二候选片段;
计算所述目标音频向量和所述第二候选片段的候选片段向量的相似度;
将具有最高相似度的所述第二候选片段所属的候选音频,确定为与所述音频片段匹配的匹配音频。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个第一候选片段的候选片段向量聚类为k个类簇,确定所述k个类簇中与所述目标音频向量最接近的目标类簇,包括:
采用向量聚类算法将所述多个第一候选片段的候选片段向量聚类为k个类簇,所述k是大于0的整数;
根据同一个类簇中的所述候选片段向量,计算得到所述类簇的中心向量;
分别计算所述目标音频向量与所述k个类簇的中心向量之间的向量距离,将向量距离最短的类簇确定为所述目标类簇。
3.根据权利要求2所述的方法,其特征在于,所述根据同一个类簇中的所述候选片段向量,计算得到所述类簇的中心向量,包括:
计算同一个类簇中的所述候选片段向量的平均值,得到所述类簇的中心向量。
4.根据权利要求1所述的方法,其特征在于,所述计算所述音频片段的第一频域能量值,包括:
根据时间周期将所述音频片段的音频信号分为i个时域序列,所述i是大于0的整数;
将所述i个时域序列采用时频域转换为i个频域序列,所述频域序列用于表征所述时域序列在不同采样频率上的频率分布;
将所述i个频域序列之和确定为所述第一频域能量值。
5.根据权利要求1至3任一所述的方法,其特征在于,所述计算所述目标音频向量和所述第二候选片段的候选片段向量的相似度,包括:
调用音频匹配模型计算所述目标音频向量和所述第二候选片段的候选片段向量的相似度,所述音频匹配模型是基于机器学习的分类模型。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据音频属性特征对所述音频库中的音频进行聚类,得到音频类簇,所述音频属性特征包括至少两个不同维度的属性特征,且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度;
根据所述音频类簇中的音频生成候选音频对,所述候选音频对中包含两段音频,且所述两段音频属于同一音频类簇或不同音频类簇;
根据所述音频库中音频的历史播放记录,确定所述候选音频对中的音频正样本对和音频负样本对,其中,所述音频正样本对中的音频属于同一音频类簇,所述音频负样本对中的音频属于不同音频类簇;
根据所述音频正样本对和所述音频负样本对训练得到所述音频匹配模型。
7.一种音频片段的匹配装置,其特征在于,所述装置包括:
计算模块,用于计算音频片段的第一频域能量值,频域能量值用于描述音频信号的频域能量;
确定模块,用于以所述音频片段的所述第一频域能量值为基准,确定频域能量值范围;
截取模块,用于根据所述音频片段的第一音频时长将多个候选音频,截取为多个候选音频片段,音频库包括所述多个候选音频,所述音频片段的所述第一音频时长小于所述候选音频的第二音频时长;所述候选音频片段的音频时长为所述第一音频时长;
所述计算模块,用于计算所述候选音频片段的第二频域能量值;
所述确定模块,用于将所述第二频域能量值符合所述频域能量值范围的候选音频片段,确定为第一候选片段;
获取模块,用于获取所述音频片段的目标音频向量和多个第一候选片段的候选片段向量;
聚类模块,用于将所述多个第一候选片段的候选片段向量聚类为k个类簇,所述k是大于0的整数;
所述确定模块,用于确定所述k个类簇中与所述目标音频向量最接近的目标类簇;
所述确定模块,还用于将属于所述目标类簇中的所述第一候选片段确定为第二候选片段;
所述计算模块,用于计算所述目标音频向量和所述第二候选片段的候选片段向量的相似度;
所述确定模块,还用于将具有最高相似度的所述第二候选片段所属的候选音频,确定为与所述音频片段匹配的匹配音频。
8.根据权利要求7所述的装置,其特征在于,所述聚类模块,还用于采用向量聚类算法将所述多个第一候选片段的候选片段向量聚类为k个类簇,所述k是大于0的整数;
所述计算模块,还用于根据同一个类簇中的所述候选片段向量,计算得到所述类簇的中心向量;
所述计算模块,还用于分别计算所述目标音频向量与所述k个类簇的中心向量之间的向量距离;
所述确定模块,还用于将向量距离最短的类簇确定为所述目标类簇。
9.一种计算机设备,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如权利要求1至6任一项所述的音频片段的匹配方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行,以实现如权利要求1至6任一项所述的音频片段的匹配方法。
CN202010202158.2A 2020-03-20 2020-03-20 音频片段的匹配方法、装置、设备及存储介质 Active CN111400543B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010202158.2A CN111400543B (zh) 2020-03-20 2020-03-20 音频片段的匹配方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010202158.2A CN111400543B (zh) 2020-03-20 2020-03-20 音频片段的匹配方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111400543A CN111400543A (zh) 2020-07-10
CN111400543B true CN111400543B (zh) 2023-10-10

Family

ID=71428971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010202158.2A Active CN111400543B (zh) 2020-03-20 2020-03-20 音频片段的匹配方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111400543B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112118481B (zh) * 2020-09-18 2021-11-23 珠海格力电器股份有限公司 一种音频片段生成方法、装置、播放器及存储介质
CN112614478B (zh) * 2020-11-24 2021-08-24 北京百度网讯科技有限公司 音频训练数据处理方法、装置、设备以及存储介质
CN114724583A (zh) * 2021-01-05 2022-07-08 北京字跳网络技术有限公司 一种音乐片段的定位方法、装置、设备及存储介质
CN115150636B (zh) * 2021-03-30 2023-11-14 海南两心科技有限公司 视频处理方法、电子设备及存储介质
CN113408702B (zh) * 2021-06-23 2022-12-27 腾讯音乐娱乐科技(深圳)有限公司 音乐神经网络模型预训练方法及电子设备和存储介质
CN113889146A (zh) * 2021-09-22 2022-01-04 北京小米移动软件有限公司 音频识别方法、装置、电子设备和存储介质
CN114554655B (zh) * 2022-02-18 2024-10-15 青岛易来智能科技股份有限公司 灯光效果的执行方法和装置、存储介质及电子装置
CN115129932A (zh) * 2022-04-07 2022-09-30 腾讯科技(深圳)有限公司 视频片段的确定方法、装置、设备及存储介质
CN114465737B (zh) * 2022-04-13 2022-06-24 腾讯科技(深圳)有限公司 一种数据处理方法、装置、计算机设备及存储介质
CN117828511B (zh) * 2024-03-04 2024-05-10 中国中医科学院广安门医院 一种麻醉深度脑电信号数据处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079044A (zh) * 2006-05-25 2007-11-28 北大方正集团有限公司 一种音频片断之间相似度度量的方法
CN102332262A (zh) * 2011-09-23 2012-01-25 哈尔滨工业大学深圳研究生院 基于音频特征的歌曲智能识别方法
CN105868397A (zh) * 2016-04-19 2016-08-17 腾讯科技(深圳)有限公司 一种歌曲确定方法和装置
CN107293308A (zh) * 2016-04-01 2017-10-24 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN108268667A (zh) * 2018-02-26 2018-07-10 北京小米移动软件有限公司 音频文件聚类方法及装置
CN108763492A (zh) * 2018-05-29 2018-11-06 四川远鉴科技有限公司 一种音频模板提取方法及装置
CN110121118A (zh) * 2019-06-17 2019-08-13 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010086273A (ja) * 2008-09-30 2010-04-15 Kddi Corp 楽曲検索装置、楽曲検索方法、および楽曲検索プログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079044A (zh) * 2006-05-25 2007-11-28 北大方正集团有限公司 一种音频片断之间相似度度量的方法
CN102332262A (zh) * 2011-09-23 2012-01-25 哈尔滨工业大学深圳研究生院 基于音频特征的歌曲智能识别方法
CN107293308A (zh) * 2016-04-01 2017-10-24 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN105868397A (zh) * 2016-04-19 2016-08-17 腾讯科技(深圳)有限公司 一种歌曲确定方法和装置
CN108268667A (zh) * 2018-02-26 2018-07-10 北京小米移动软件有限公司 音频文件聚类方法及装置
CN108763492A (zh) * 2018-05-29 2018-11-06 四川远鉴科技有限公司 一种音频模板提取方法及装置
CN110121118A (zh) * 2019-06-17 2019-08-13 腾讯科技(深圳)有限公司 视频片段定位方法、装置、计算机设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chahid Ouali 等.Fast audio fingerprinting system using GPU and a clustering-based technique.ACM.2016,全文. *
柯育强 ; 康耀红 ; .Internet音频检索技术综述.海南大学学报(自然科学版).2008,(第01期),全文. *
王晖楠 ; 魏娇 ; .基于人工智能识别的音乐片段指纹检索技术研究.自动化与仪器仪表.2019,(第05期),全文. *

Also Published As

Publication number Publication date
CN111400543A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN111400543B (zh) 音频片段的匹配方法、装置、设备及存储介质
CN111444967B (zh) 生成对抗网络的训练方法、生成方法、装置、设备及介质
CN111309965B (zh) 音频匹配方法、装置、计算机设备及存储介质
Markov et al. Music genre and emotion recognition using Gaussian processes
Nalini et al. Music emotion recognition: The combined evidence of MFCC and residual phase
CN111445922B (zh) 音频匹配方法、装置、计算机设备及存储介质
KR20080030922A (ko) 정보처리 장치 및 방법, 프로그램, 및 기록 매체
CN111309966B (zh) 音频匹配方法、装置、设备及存储介质
CN111444379B (zh) 音频的特征向量生成方法及音频片段表示模型的训练方法
CN111445921B (zh) 音频特征的提取方法、装置、计算机设备及存储介质
Mokhsin et al. Automatic music emotion classification using artificial neural network based on vocal and instrumental sound timbres
Kostek et al. Creating a reliable music discovery and recommendation system
Bhatia et al. Music genre classification
Dhall et al. Music genre classification with convolutional neural networks and comparison with f, q, and mel spectrogram-based images
Sieu et al. Person identification from audio aesthetic
WO2016102738A1 (en) Similarity determination and selection of music
Grekow Audio features dedicated to the detection of four basic emotions
Prashanthi et al. Music genre categorization using machine learning algorithms
CN111460215B (zh) 音频数据处理方法、装置、计算机设备以及存储介质
Yang et al. Sound event detection in real-life audio using joint spectral and temporal features
West Novel techniques for audio music classification and search
Tsai et al. Clustering music recordings based on genres
Mirza et al. Residual LSTM neural network for time dependent consecutive pitch string recognition from spectrograms: a study on Turkish classical music makams
Deshpande et al. Mugec: Automatic music genre classification
Özseven et al. A Content Analysis of the Research Approaches in Music Genre Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025739

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant