CN111428078B - 音频指纹编码方法、装置、计算机设备及存储介质 - Google Patents

音频指纹编码方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111428078B
CN111428078B CN202010199768.1A CN202010199768A CN111428078B CN 111428078 B CN111428078 B CN 111428078B CN 202010199768 A CN202010199768 A CN 202010199768A CN 111428078 B CN111428078 B CN 111428078B
Authority
CN
China
Prior art keywords
audio signal
audio
target
spectrogram
target audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010199768.1A
Other languages
English (en)
Other versions
CN111428078A (zh
Inventor
缪畅宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010199768.1A priority Critical patent/CN111428078B/zh
Publication of CN111428078A publication Critical patent/CN111428078A/zh
Application granted granted Critical
Publication of CN111428078B publication Critical patent/CN111428078B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请是关于一种音频指纹编码方法、装置、计算机设备及存储介质。该方法包括:在对音频信号的初始频谱图进行特征点提取之前,首先通过权重矩阵对初始频谱图进行处理,得到处理后频谱图,然后在处理后的频谱图上进行特征点对的提取和编码,由于该权重矩阵是通过音频样本以及用户针对该音频样本的实际的用户行为特征训练得到的,而当训练样本足够时,用户行为特征可以体现不同音频受用户关注的情况,相应的,通过训练得到的权重矩阵对初始频谱图进行处理后,得到的处理后频谱图可以突出音频中用户可能重点关注的部分,得到的音频指纹能够更准确的体现出用户可能关注的特点,从而提高音频指纹的编码准确性。

Description

音频指纹编码方法、装置、计算机设备及存储介质
技术领域
本申请实施例涉及人工智能技术领域,特别涉及一种音频指纹编码方法、装置、计算机设备及存储介质。
背景技术
如今,随着网络音频服务的不断发展,越来越多的音频类应用向用户提供音频匹配服务。音频匹配是指将两个音频的音频指纹进行匹配,而音频指纹可以根据音频的频谱图进行编码得到。
在相关技术中,在对音频进行编码得到音频指纹时,可以首先获取音频的频谱图,从频谱图中提取频谱数值较大的特征点,再从提取的特征点中筛选出处于预设频率范围内的特征点,然后对筛选出的特征点进行匹配和编码,得到该音频的音频指纹。
然而,相关技术中的音频指纹的编码过程仅在频率范围上做了限制,对于不同的音频无法做适应性的调整,编码得到的音频指纹无法准确的体现不同音频的特点,导致音频指纹的编码准确性较差。
发明内容
本申请实施例提供了一种音频指纹编码方法、装置、计算机设备及存储介质,可以在对音频进行编码时,针对不同的音频做适应性的调整,从而提高音频指纹的编码准确性。该技术方案如下:
一方面,提供了一种音频指纹编码方法,所述方法包括:
对目标音频信号进行频谱提取,获得所述目标音频信号的初始频谱图;
通过权重矩阵对所述目标音频信号的初始频谱图进行处理,获得所述目标音频信号的处理后频谱图;所述权重矩阵是通过训练样本进行机器学习训练得到的,所述训练样本包括音频信号样本,以及所述音频信号样本实际的用户行为特征;所述用户行为特征用于指示对应的音频信号接收到的用户操作行为;
从所述目标音频信号的处理后频谱图中提取所述目标音频信号的特征点对;
对所述目标音频信号的特征点对进行编码,获得所述目标音频信号的音频指纹。
另一方面,提供了一种音频指纹编码装置,所述装置包括:
第一频谱图获取模块,用于对目标音频信号进行频谱提取,获得所述目标音频信号的初始频谱图;
第二频谱图获取模块,用于通过权重矩阵对所述目标音频信号的初始频谱图进行处理,获得所述目标音频信号的处理后频谱图;所述权重矩阵是通过训练样本进行机器学习训练得到的,所述训练样本包括音频信号样本,以及所述音频信号样本实际的用户行为特征;所述用户行为特征用于指示对应的音频信号接收到的用户操作行为;
特征点对提取模块,用于从所述目标音频信号的处理后频谱图中提取所述目标音频信号的特征点对;
音频指纹获取模块,用于对所述目标音频信号的特征点对进行编码,获得所述目标音频信号的音频指纹。
在一种可能的实现方式中,所述装置还包括:
第三频谱图获取模块,用于在第二频谱图获取模块对目标音频信号进行频谱提取,获得所述目标音频信号的处理后频谱图之前,对所述音频信号样本进行频谱提取,获得所述音频信号样本的初始频谱图;
预测特征获取模块,用于通过分类模型对所述音频信号样本的初始频谱图进行处理,获得所述分类模型输出的预测的用户行为特征;所述分类模型是模型参数中包含目标训练参数的机器学习模型,所述目标训练参数的矩阵结构与所述权重矩阵的矩阵结构相同;
模型参数更新模块,用于根据所述实际的用户行为特征与所述预测的用户行为特征,对所述分类模型的模型参数进行更新;
权重矩阵获取模块,用于响应于所述分类模型收敛,将所述分类模型的模型参数中的所述目标训练参数获取为所述权重矩阵。
在一种可能的实现方式中,所述分类模型包括频谱处理层、特征提取层以及分类层;所述目标训练参数位于所述频谱处理层;所述预测特征获取模块,包括:
频谱图获取子模块,用于通过所述频谱处理层对所述音频信号样本的初始频谱图进行处理,获得所述音频信号样本的处理后频谱图;所述音频信号样本的处理后频谱图是所述频谱处理层通过所述目标训练参数对所述音频信号样本的频谱图进行处理后得到的;
样本特征获取子模块,用于通过所述特征提取层对所述音频信号样本的处理后频谱图进行特征提取,获得所述音频信号样本的音频特征;
预测特征获取子模块,用于通过所述分类层对所述音频特征进行处理,获得所述分类层输出的所述预测的用户行为特征。
在一种可能的实现方式中,所述用户行为特征包括播放时长特征、播放次数特征以及用户评价特征中的至少一项;
所述用户行为特征用于指示对应的音频信号被各个用户播放的平均时长所属的时长区间;
所述播放次数特征用于指示对应的音频信号被各个用户播放平均次数所属的次数区间;
所述用户评价特征用于指示对应的音频信号被各个用户评价的平均分值所属的分值区间。
在一种可能的实现方式中,所述第二频谱图获取模块,用于将所述目标音频信号的初始频谱图与所述权重矩阵相乘,获得所述目标音频信号的处理后频谱图。
在一种可能的实现方式中,所述特征点对提取模块,包括:
特征点提取子模块,用于从所述目标音频信号的处理后频谱图中提取K个特征点;所述K个特征点是所述目标音频信号的处理后频谱图中的各个特征点按照频谱数值从大到小排列后的前K个特征点;K为大于或者等于2的整数;
特征点对获取子模块,用于对所述K个特征点进行配对处理,得到所述目标音频信号的特征点对。
在一种可能的实现方式中,所述装置还包括:
音频类型获取模块,用于在第二频谱图获取模块通过权重矩阵对所述目标音频信号的初始频谱图进行处理,获得所述目标音频信号的处理后频谱图之前,获取所述目标音频信号对应的目标音频类型;
权重矩阵确定模块,用于确定与所述目标音频类型相对应的所述权重矩阵;所述音频信号样本对应的音频类型与所述目标音频类型相同。
在一种可能的实现方式中,所述音频类型获取模块,包括:
第一类型获取子模块,用于响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,获取目标用户选择的所述目标音频类型;所述目标用户是触发音频匹配的用户。
在一种可能的实现方式中,所述音频类型获取模块,包括:
用户画像获取子模块,用于响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,获取目标用户的用户画像;所述目标用户是触发音频匹配的用户;
第二类型获取子模块,用于获取与所述用户画像相对应的所述目标音频类型。
在一种可能的实现方式中,所述装置还包括:
音频指纹存储模块,用于响应于所述目标音频信号是作为匹配样本的音频信号,将所述目标音频信号的音频指纹存储入指纹数据库。
在一种可能的实现方式中,所述装置还包括:
匹配结果获取模块,用于响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,将所述目标音频信号的音频指纹与指纹数据库中存储的匹配样本的音频指纹进行匹配,获得所述目标音频信号与所述匹配样本之间的匹配结果。
在一种可能的实现方式中,所述装置还包括:
音频类型确定模块,用于将所述目标音频信号的音频指纹与指纹数据库中存储的匹配样本的音频指纹进行匹配,获得所述目标音频信号与所述匹配样本之间的匹配结果之前,响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,获取所述目标音频信号对应的目标音频类型;
匹配样本确定模块,用于确定与所述目标音频类型相对应的所述匹配样本。
另一方面,提供了一种计算机设备,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上所述的音频指纹编码方法。
另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的音频指纹编码方法。
本申请提供的技术方案可以包括以下有益效果:
在对音频信号的初始频谱图进行特征点提取之前,首先通过权重矩阵对初始频谱图进行处理,得到处理后频谱图,然后在处理后的频谱图上进行特征点对的提取和编码,由于该权重矩阵是通过音频样本以及用户针对该音频样本的实际的用户行为特征训练得到的,而当训练样本足够时,用户行为特征可以体现不同音频受用户关注的情况,相应的,通过训练得到的权重矩阵对初始频谱图进行处理后,得到的处理后频谱图可以突出音频中用户可能重点关注的部分,通过处理后频谱图进行特征点对提取和编码后,得到的音频指纹能够更准确的体现出用户可能关注的特点,从而提高音频指纹的编码准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是本申请各个实施例涉及的一种音频指纹编码生成与音频匹配系统的系统构成图;
图2是本申请一个示例性实施例提供的音频片段对应的频谱图;
图3是根据一示例性实施例示出的一种音频指纹编码方法的示意图;
图4是根据一示例性实施例示出的一种通过权重矩阵训练更新对音频指纹进行编码以及音频匹配的方法流程图;
图5是根据一示例性实施例示出的一种音频指纹编码以及音频匹配方法的流程图;
图6是图5所示实施例涉及的一种训练模型结构示意图;
图7是图5所示实施例涉及的特征点提取示意图;
图8是根据一示例性实施例示出的一种音频指纹编码以及音频匹配方法的示意图;
图9是根据一示例性实施例示出的一种音频指纹编码装置的结构方框图;
图10是根据一示例性实施例示出的一种计算机设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
应当理解的是,在本文中提及的“若干个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本申请后续各个实施例所示的方案,可以借助于人工智能(ArtificialIntelligence,AI)实现对音频信号的频谱图中,更受用户关注的特征点对的提取。为了方便理解,下面对本公开实施例中涉及的名词进行说明。
1)人工智能AI
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服、智能视频服务等,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
2)机器学习(Machine Learning,ML)
ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请提供的方案涉及人工智能的机器学习等技术。
请参考图1,其示出了本申请各个实施例涉及的一种音频指纹编码生成与音频匹配系统的系统构成图。如图1所示,该系统包括服务器110、数据库120以及若干个终端130。
服务器120是一台服务器,或者由若干台服务器,或者是一个虚拟化平台,或者是一个云计算服务中心。
服务器120可以是为音频播放识别类应用程序提供后台支持的服务器。服务器120可以由一个或多个功能单元组成。
可选的,在一种可能的实现方式中,如图1所示,服务器110可以包括接口单元110a、编码单元110b以及匹配单元110c。
接口单元110a用于与终端130中安装的音频播放识别类应用程序进行信息交互,以获取终端130对应的用户的相关信息,比如,用户的历史音频播放信息、账号信息以及用户操作信息等等。
编码单元110b用于对音频信号进行编码,得到编码后的音频指纹,其中,音频指纹可以是多条音频指纹数据组成的集合。
匹配单元110c用于从数据库120中得到的各个音频指纹与通过终端130接收到的音频信号编码得到的音频指纹进行匹配,向各个用户对应的终端130发送匹配结果。
上述数据库120可以是Redis数据库,或者,也可以是其它类型数据库。其中,数据库120用于存储各类数据,比如,各个音频对应的音频特征集合信息等等,其中,音频特征集合信息可以包括音频信号、用户行为特征以及音频指纹。
比如,接口单元110a获取到各个终端接收到的音频信号后,编码单元110b对接收到的音频信号进行处理,得到编码后的音频指纹,匹配单元110c调用数据库中存储的各个样本音频信号对应的音频指纹与上述编码得到的音频指纹进行匹配,得到相应的匹配结果,并向对应的终端130发送匹配结果。
终端130可以是具有网络连接功能,且安装有上述服务器110对应的音频播放识别类应用程序的终端设备,比如,终端130可以是智能手机、平板电脑、电子书阅读器、智能眼镜、智能手表、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑等等。可选的,该终端130还可能被称为用户设备、便携式终端、膝上型终端、台式终端等。
在本申请实施例中,上述音频播放识别类应用程序可以包括任意提供音频识别的应用程序,比如,包括且不限于传统的音频播放应用程序等。
终端130与服务器110之间通过通信网络相连。可选的,该通信网络是有线网络或无线网络。
可选的,该系统还可以包括管理设备(图1未示出),该管理设备与服务器120之间通过通信网络相连。可选的,通信网络是有线网络或无线网络。
可选的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan Area Network,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible MarkupLanguage,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet ProtocolSecurity,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
随着人们对音乐播放、音乐推荐以及音乐检索等应用场景的需求的不断提高,应用在如上场景下的应用程序需要进行更加准确的音频片段(也可以称为音频信号或者音频信号片段)匹配功能。目前,音频片段匹配功能主要图通过音频片段的音频指纹的匹配来实现,其中,音频指纹可以用来指示音频片段中需要进行匹配的部分特征。
其中,音频指纹可以通过音频信号的频谱图来编码获得。图2是本申请一个示例性实施例提供的音频片段对应的频谱图,如图2所示,该频谱图是以时间为横坐标,以频率作为纵坐标进行绘制的。
比如,如图2所示,该音频片段时长共7s。首先,用于音频指纹提取的计算机设备按照时间周期为1.75s将音频片段分为四个时段。然后,对于每个时段,按照采样时间间隔0.25s,对时域信号进行采样。比如,每隔0.1s采样一个音频信号,得到离散的时间序列T1~Tn,每个值代表音频在该采样点上的大小,然后再按固定时间段进行组合,比如时间段长度为3s,采样间隔0.1s,那每组序列就包含了30个值,假设将T1~T30设置为一组,可以称为G1,T31~T60则可以称为G2,依次类推。接着对每组时间序列做频域变换,将得到频率信号,代表一组时间序列里面包含的不同频率的分布,对频率信号也进行采样,比如,以10hz为采样周期,可以得到一个离散的频率序列,若频率的上下限是0~f,那么每个频率序列的个数是f/10,其中,Gi可以表示成f/10个频率序列,不同Gi的同样频率的值大小不同。若对应到一段音乐上,如果该段音乐的某些部分低音很重,则该部分的Gi的低频值就很大,有些部分高音很高,则该部分的Gi的高频值就很大。所以Gi既可以表示为时间序列T1~T30,也可以表示为频率序列,将时间序列与频率序列统一起来,可以得到频谱图。
其中,频域变换的方式包括但不限于:FFT(Fast Fourier Transform,快速傅里叶变换)、DFT(Discrete Fourier Transform,离散傅里叶变换)、MFCC(Mel FrequencyCepstrum Coefficient,梅尔频率倒谱系数)中的至少一种。
在得到上述频谱图之后,计算机设备即可以从频谱图中进行峰值点提取,以得到特征点对,并对特征点对进行编码得到音频指纹。
本申请后续实施例提出一种音频指纹编码的方案,可以通过预先训练得到的权重矩阵对频谱图进行处理,以突出频谱图中可能受到用户重点关注的特征点,从而使得后续音频指纹编码的准确性更高,进一步的,可以使得通过音频指纹进行音频片段匹配的准确性更高。
请参考图3,其是根据一示例性实施例示出的一种音频指纹编码方法的示意图,该音频指纹编码方法可以由音频处理设备执行。其中,上述音频处理设备可以是上述图1所示系统中的服务器110。如图3所示,该音频指纹编码方法可以包括以下步骤:
在步骤301中,对目标音频信号进行频谱提取,获得该目标音频信号的初始频谱图。
在本申请实施例中,音频处理设备可以经过对目标音频信号进行时域采集与频域变换,然后将时域与频域统一,以生成目标音频信号的初始频谱图。
在步骤302中,通过权重矩阵对该目标音频信号的初始频谱图进行处理,获得该目标音频信号的处理后频谱图;该权重矩阵是通过训练样本进行机器学习训练得到的,该训练样本包括音频信号样本,以及该音频信号样本实际的用户行为特征;该用户行为特征用于指示对应的音频信号接收到的用户操作行为。
可选的,用户行为特征包括但不限于播放时长特征、播放次数特征以及用户评价特征中的至少一项。
其中,用户行为特征可以用于指示对应的音频信号被各个用户播放的平均时长所属的时长区间,播放次数特征可以用于指示对应的音频信号被各个用户播放平均次数所属的次数区间,用户评价特征可以用于指示对应的音频信号被各个用户评价的平均分值所属的分值区间。
在一种可能的实现方式中,音频处理设备可以将该目标音频信号的初始频谱图与该权重矩阵相乘,获得该目标音频信号的处理后频谱图。
在步骤303中,从该目标音频信号的处理后频谱图中提取该目标音频信号的特征点对。
在一种可能的实现方式中,音频处理设备从该目标音频信号的处理后频谱图中提取K个特征点,对该K个特征点进行配对处理,可以得到该目标音频信号的特征点对。
其中,K个特征点是该目标音频信号的处理后频谱图中的各个特征点按照频谱数值从大到小排列后的前K个特征点,K可以是大于或者等于2的整数。
在步骤304中,对该目标音频信号的特征点对进行编码,获得该目标音频信号的音频指纹。
可选的,音频处理设备可以通过哈希编码的方式对目标音频的特征点对进行编码,得到目标音频信号的音频指纹。各个特征点对编码生成的音频指纹可以通过键值的方式进行表示。
以音频信号样本是一首乐曲或者乐曲中的一个片段为例,该乐曲接受到的用户操作行为,可以直接反映该乐曲受到大众用户关注的程度,例如,大众用户播放某乐曲的平均时长越长、平均播放次数越多、用户评价的平均分值越高,说明该首乐曲越受到大众用户的关注。相应的,通过音频信号样本以及对应的实际的用户行为特征进行训练得到的权重矩阵,可以用于对音频信号的频谱图中,影响用户对音频信号关注程度的特征点进行增强,和/或,对不影响用户对音频信号关注程度的特征点进行抑制。
基于上述原理,通过上述权重矩阵对目标音频信号的初始频谱图进行处理后,能够突出目标音频信号的频谱图中,大众用户可能重点关注的部分;后续对处理后频谱图进行提特征点对提取以及音频指纹编码时,获得的音频指纹能够更准确的体现目标音频信号中的受到大众用户关注的部分。
综上所述,在本申请实施例所示的方案中,在对音频信号的初始频谱图进行特征点提取之前,首先通过权重矩阵对初始频谱图进行处理,得到处理后频谱图,然后在处理后的频谱图上进行特征点对的提取和编码,由于该权重矩阵是通过音频样本以及用户针对该音频样本的实际的用户行为特征训练得到的,而当训练样本足够时,用户行为特征可以体现不同音频受用户关注的情况,相应的,通过训练得到的权重矩阵对初始频谱图进行处理后,得到的处理后频谱图可以突出音频中用户可能重点关注的部分,通过处理后频谱图进行特征点对提取和编码后,得到的音频指纹能够更准确的体现出用户可能关注的特点,避免了生成的音频指纹集合不能根据不同音频做适应性的改变的问题,从而提高音频指纹的编码准确性。
此外,在本申请实施例所示的方案中,通过上述方案提高了音频指纹的编码准确性,进一步的,也可以提高基于音频指纹的应用的准确性,比如,可以提高基于音频指纹进行音频匹配的准确性。
在上述图3所示的方案中,生成目标音频信号对应的音频指纹的步骤,可以应用在任意需要生成音频指纹的场景中。例如,以用户输入一段查询音频,由服务器匹配得到该查询音频相对应的匹配样本为例,服务器可以预先通过图3所示的方案,对各个匹配样本编码得到音频指纹并存储,后续接收到查询音频时,可以通过图3所示的方案对查询音频编码其音频指纹。
请参考图4,其是根据一示例性实施例示出的一种通过权重矩阵训练更新对音频指纹进行编码以及音频匹配的方法流程图,该方法可以由计算机设备执行。其中,该计算机设备可以包括模型训练设备和音频处理设备,其中,音频处理设备可以是上述图1所示系统中的服务器110,模型训练设备可以是上述图1所示系统中的服务器110,或者,模型训练设备也可以是上述服务器110之外的其它设备。如图4所示,该方法可以包括如下内容:
S41,对音频信号样本进行频谱提取,获得该音频信号样本的初始频谱图。
S42,通过分类模型对该音频信号样本的初始频谱图进行处理,获得该分类模型输出的预测的用户行为特征。
其中,分类模型可以是模型参数中包含目标训练参数的机器学习模型,目标训练参数的矩阵结构与该权重矩阵的矩阵结构相同。
可选的,分类模型包括频谱处理层、特征提取层以及分类层;该目标训练参数位于该频谱处理层。
S43,根据该实际的用户行为特征与该预测的用户行为特征,对该分类模型的模型参数进行更新。
S44,当该分类模型收敛时,将该分类模型的模型参数中的目标训练参数获取为权重矩阵。
S45,获取由终端发送的音频片段,获取音频信号。
在一种可能的实现方式中,计算机设备可以按照预先设置的时长设定,对音频片段进行音频信号的截取。
S46,对音频信号进行时域采样,即进行时间维度的采样,并对各个时间序列做频域变换,经过时域和频域的分析后即可以得到音频信号的频谱图。
S47,根据权重矩阵对音频信号的频谱图进行处理,可以获得对各个频率点进行加权处理之后的频谱图。
S48,通过加权处理之后的频谱图进行峰值点提取,可以保留每个时间段上,频谱数值较大的那些特征点作为其中的峰值点。
S49,将提取的峰值点作为特征点,获取特征点对。
S410,对各个特征点对进行哈希编码。
其中,每个特征点对的哈希编码可以视为音频信号的一条音频指纹数据。
S411,将各个特征点对的哈希编码值进行集合,获得音频信号的音频指纹。
在本申请实施例中,音频信号的音频指纹可以是由该音频信号对应的各个特征点对的哈希编码所组成的集合。
通过相同的方式,计算机设备可以对应各个样本音频信号生成各自的样本音频指纹,并将样本音频指纹存储在数据库中。
S412,将音频信号的音频指纹与数据库中的各个样本音频指纹进行匹配,根据匹配程度输出对应的匹配结果。
综上所述,在本申请实施例所示的方案中,通过音频样本以及用户针对该音频样本的实际的用户行为特征训练得到的权重矩阵,通过权重矩阵对初始频谱图进行处理后,并通过处理后频谱图进行特征点对提取和编码后,得到的音频指纹能够更准确的体现出用户可能关注的特点,从而提高音频指纹的编码准确性,进一步可以提高基于音频指纹进行音频匹配的准确性。
在本申请实施例中,上述权重矩阵可以称为频谱图调整系数掩膜(mask)。请参考图5,其是根据一示例性实施例示出的一种音频指纹编码以及音频匹配方法的流程图,该音频指纹编码以及音频匹配方法可以由计算机设备执行。其中,该计算机设备可以包括模型训练设备和音频处理设备,其中,音频处理设备可以是上述图1所示系统中的服务器110,模型训练设备可以是上述图1所示系统中的服务器110,或者,模型训练设备也可以是上述服务器110之外的其它设备。如图5所示,该音频指纹编码以及音频匹配方法可以包括以下步骤:
在步骤501中,对该音频信号样本进行频谱提取,获得该音频信号样本的初始频谱图。
在本申请实施例中,模型训练设备可以通过对音频信号样本进行时域采样以及频域变换,得到音频信号样本的初始频谱图,并且将该音频信号样本的初始频谱图发送给用于模型训练的计算机设备。
在一种可能的实现方式中,模型训练设备也可以从其它设备(比如音频处理设备)收集音频信号样本的初始频谱图以及音频信号样本的实际的用户行为特征作为训练样本。
在步骤502中,通过分类模型对该音频信号样本的初始频谱图进行处理,获得该分类模型输出的预测的用户行为特征。
本申请实施例中,模型训练设备可以通过将音频信号样本的初始频谱图输入至分类模型,以得到音频信号样本对应的预测的用户行为特征。
可选的,分类模型包括频谱处理层、特征提取层以及分类层。其中,目标训练参数位于频谱处理层。
在一种可能的实现方式中,通过该频谱处理层对该音频信号样本的初始频谱图进行处理,获得该音频信号样本的处理后频谱图;该音频信号样本的处理后频谱图是该频谱处理层通过该目标训练参数对该音频信号样本的频谱图进行处理后得到的。通过该特征提取层对该音频信号样本的处理后频谱图进行特征提取,获得该音频信号样本的音频特征;通过该分类层对该音频特征进行处理,获得该分类层输出的该预测的用户行为特征。
在一种可能的实现方式中,用户行为特征可以包括播放时长特征、播放次数特征以及用户评价特征中的至少一项。
其中,用户行为特征用于指示对应的音频信号被各个用户播放的平均时长所属的时长区间;播放次数特征用于指示对应的音频信号被各个用户播放平均次数所属的次数区间;用户评价特征用于指示对应的音频信号被各个用户评价的平均分值所属的分值区间。
比如,用户行为特征可以用来指示用户针对于特定音频的行为特征,可以是用户针对于该音频的平均听歌时长、用户针对于该音频的平均好评分值或者是用户针对于该音频的平均搜索次数等。
例如,请参考图6,其示出了本申请实施例涉及的一种训练模型结构示意图。如图6所示,在歌曲识别的场景下,当用户行为特征是用户针对于一首歌曲的平均听歌时长时,模型训练设备可以通过频谱处理层61将音频信号样本的初始频谱图经过权重矩阵的处理获得处理后频谱图,然后,对处理后频谱图经过特征提取层62进行音频特征提取,获得音频信号样本的音频特征,再通过分类层63对音频特征进行处理,获得分类层输出的预测的用户时长,预测的用户时长可以是预测的用户针对于音频信号样本对应的歌曲的平均听歌时长。
在步骤503中,计算机设备根据该实际的用户行为特征与该预测的用户行为特征,对该分类模型的模型参数进行更新。
在本申请实施例中,计算机设备根据接收到的实际的用户行为特征与预测的用户行为特征进行损失函数计算,对分类模型的模型参数进行更新。
其中,模型参数中可以包括目标训练参数,目标训练参数的矩阵结构与所述权重矩阵的矩阵结构相同。
在步骤504中,当该分类模型收敛时,将该分类模型的模型参数中的该目标训练参数获取为该权重矩阵。
在一种可能的实现方式中,计算机设备可以通过初始的频谱图调整系数mask(即权重矩阵)对训练样本的频谱图进行调整后,通过分类模型中的特征提取模块进行特征提取,然后通过分类层分类得到分类用户行为,根据分类用户行为和实际用户行为的差异对频谱图调整系数mask进行调整,反复迭代上述过程,直至收敛。
例如,如图6所示,模型训练设备根据分类层63输出的预测的用户时长,与音频信号样本对应的平均听歌时长之间的差异,对频谱处理层61中的权重矩阵进行更新;模型训练设备迭代执行上述步骤,直至分类模型收敛,此时,频谱处理层61中的权重矩阵即可以被提取为音频指纹编码所使用的权重矩阵。
其中,频谱图调整系数mask可以是根据预先设定的固定时长以及频率区间大小确定的矩阵。
比如,预先设定的固定时长为T,频率区间大小为S时,频谱图调整系数mask可以是T×S的矩阵。
比如,在歌曲识别的场景下,当用户行为特征是用户针对于一首歌曲的平均听歌时长时,模型训练设备可以通过获取训练样本即各个作为训练样本的歌曲的频谱图以及各个歌曲对应的用户的平均听歌时长,将歌曲的频谱图输入分类模型,通过将该歌曲的频谱图对应的矩阵A<ti,fj>与当前频谱图调整系数mask对应的矩阵W<ti,fj>进行作用,得到经过mask处理过后的频谱图对应的新矩阵A'<ti,fj>=A<ti,fj>*W<ti,fj>,将该新矩阵输入到音频特征提取模块,将提取的特征输入到分类层,得到该歌曲对应的用户平均听歌预测时长,将该歌曲对应的用户平均听歌预测时长进行离散化处理,按照预先设定的分类标准,比如,可以是将时长划分为0~3min,3~10min以及10min以上的三类。其中,歌曲对应的用户平均听歌预测时长分类可以判断为上述分类中的一种。模型训练设备可以通过依次根据各个歌曲对应的用户的平均听歌时长分类与各个歌曲对应的用户平均听歌预测时长分类,对模型参数即频谱图调整系数mask进行迭代更新,获得训练完成的分类模型中的频谱图调整系数mask。
在一种可能的实现方式中,计算机设备可以通过将全部训练样本进行输入分类模型中,根据预测用户行为特征和实际用户行为特征的差异对频谱图调整系数mask进行统一的调整。
在另一种可能的实现方式中,计算机设备还可以通过将训练样本进行预先分类处理,对同音频类型的训练样本进行输入用户行为预测模型中,根据预测用户行为和实际用户行为的差异对不同音频类型的训练样本的频谱图调整系数mask分别进行的调整,最终得到每种音频类型对应的频谱图调整系数mask。
比如,当训练样本中的音频可以根据音频的基本信息预先分类成摇滚风、轻音乐、爵士以及嘻哈风,一共4种类型时,通过对4中音频类型的训练样本分别进行模型训练,可以得到摇滚风的音频对应的频谱图调整系数mask、轻音乐类的音频对应的频谱图调整系数mask、爵士类的音频对应的频谱图调整系数mask以及嘻哈风的音频对应的频谱图调整系数mask。后续音频处理设备可以对需要进行音频匹配的音频,按照音频类型进行音频匹配。通过这种方式得到的频谱图调整系数mask更加具有针对性,可以提高音频匹配的准确性。
在步骤505中,音频处理设备对目标音频信号进行频谱提取,获得该目标音频信号的初始频谱图。
在本申请实施例中,音频处理设备可以通过与音频信号样本的初始频谱图获取的相同的方式来获取目标音频信号的初始频谱图。
在一种可能的实现方式中,音频处理设备可以先对从终端或者数据库获取的音频信号进行预处理,即可以将音频信号截取为时长与频谱图调整系数mask对应长度相同的目标音频信号,然后将目标音频信号进行频谱提取,获得目标音频信号的初始频谱图。
在步骤506中,音频处理设备通过权重矩阵对该目标音频信号的初始频谱图进行处理,获得该目标音频信号的处理后频谱图。
在一种可能的实现方式中,音频处理设备可以将该目标音频信号的初始频谱图与该权重矩阵相乘,获得该目标音频信号的处理后频谱图。
其中,音频处理设备可以根据模型训练设备训练得到的频谱图调整系数mask,对目标音频信号的初始频谱图进行处理,获得处理后频谱图。
在步骤507中,音频处理设备通过确定的权重矩阵对目标音频信号的初始频谱图进行处理,获得目标音频信号的处理后频谱图。
在一种可能的实现方式中,音频处理设备可以将目标音频信号的初始频谱图与确定的该权重矩阵相乘,获得目标音频信号的处理后频谱图。
在一种可能的实现方式中,音频处理设备获取该目标音频信号对应的目标音频类型,并确定与该目标音频类型相对应的权重矩阵。
其中,当上述模型训练设备按照音频类型训练得到不同的权重矩阵时,在音频指纹编码过程中,音频处理设备也可以根据目标音频类型查询对应的权重矩阵,并通过与目标音频类型对应的权重矩阵进行音频指纹的编码。
在本申请实施例中,音频处理设备可以获取作为检索音频的音频信号对应的目标音频类型。
其中,计算机设备获取目标音频对应的目标音频类型可以分为如下两种情况:
1)响应于该目标音频信号是音频匹配时作为检索音频的音频信号,获取目标用户选择的该目标音频类型;该目标用户是触发音频匹配的用户。
可选的,检索音频是用户通过终端进行音频检索过程中,通过终端输入的,用于与网络侧的匹配样本进行匹配查询的音频,比如,该检索音频可以是用户自己哼唱或录制的一段音频。
在一种可能的实现方式中,用户通过终端发起音频检索请求时,可以通过音频检索界面选择需要检索的目标音频类型,比如,选择检索爵士乐,则终端向音频处理设备(比如服务器)发送音频检索请求,该音频检索请求可以包含用户通过终端录入的检索音频,以及选择的目标音频类型(即爵士乐);相应的,音频处理设备可以直接从该音频检索请求中提取目标音频信号(即检索音频)以及目标音频类型。
2)响应于该目标音频信号是音频匹配时作为检索音频的音频信号,获取目标用户的用户画像;该目标用户是触发音频匹配的用户,获取与该用户画像相对应的该目标音频类型。
在另一种可能的实现方式中,音频处理设备接收到为用户检索音频的音频检索请求时,一方面,音频处理设备可以从音频检索请求中提取目标音频信号,另一方面,音频处理设备可以获取用户的用户画像,比如,通过用户账号查询预先生成并存储用户画像,该用户画像中可以包含用户的基本属性(比如年龄、性别等)以及偏好信息(比如偏好哪一类型的音乐)等等,音频处理设备可以根据用户画像确定用户可能偏好的音频类型,并将用户可能偏好的音频类型确定为上述目标音频类型。
3)响应于该目标音频信号是作为匹配样本的音频信号,音频处理设备可以从目标音频信号对应的音频属性信息中提取上述目标音频类型。
其中,匹配样本是数据库中已经存储的,等待与用户输入的检索音频进行匹配的音频信号,比如,匹配样本可以是数据库中已有的乐曲或者已有的乐曲中的一个片段。通常来说,数据库中已经存储的音频信号通常对应有属性信息,比如,对应乐曲的作者、演唱/演奏者、乐曲时长、乐曲类型(即音频类型)、所属专辑等等,因此,当目标音频信号是作为匹配样本的音频信号,音频处理设备可以直接从目标音频信号的属性信息中查询目标音频类型。
在步骤508中,音频处理设备从该目标音频信号的处理后频谱图中提取该目标音频信号的特征点对。
在本申请实施例中,音频处理设备可以保留处理后频谱图中每个时间段上,值较大的点,即在频谱图中颜色较深的频率点,作为特征点,将特征点进行组合,得到若干个目标音频信号的特征点对。
请参考图7,其示出了本申请实施例涉及的一种特征点提取示意图,如图7所示,在进行处理后频谱图的特征点提取过程中,音频处理设备可以提取如图7所示的峰值点作为特征点。
在一种可能的实现方式中,音频处理设备可以在该目标音频信号的处理后频谱图中提取K个特征点;该K个特征点是该目标音频信号的处理后频谱图中的各个特征点按照频谱数值从大到小排列后的前K个特征点;K为大于或者等于2的整数;对该K个特征点进行配对处理,得到该目标音频信号的特征点对。
其中,在配对获得特征点对的过程中,音频处理设备可以获取该特征点中的任意一个特征点作为第一特征点,获取该第一特征点的固定时间范围内的n个特征点作为第二特征点,其中,该n为正整数,然后将该第一特征点与对应的该n个该第二特征点依次进行结合,得到该第一特征点对应的各个特征点对。
在步骤509中,音频处理设备对该目标音频信号的特征点对进行编码,获得该目标音频信号的音频指纹。
在本申请实施例中,音频处理设备可以将音频片段进行固定时长的截取,得到截取后的目标音频信号并将其对应的音频信号变换为初始频谱图,通过将初始频谱图与mask进行作用,生成处理后频谱图。对处理后频谱图进行峰值点提取,并且将提取到的峰值点作为特征点,将特征点组合成特征点对,对特征点对进行哈希编码,得到该检索音频片段对应的音频指纹。
在步骤510中,响应于该目标音频信号是作为匹配样本的音频信号,将该目标音频信号的音频指纹存储入指纹数据库。
在本申请实施例中,当目标音频信号是作为匹配样本的音频信号时,音频处理设备可以通过选取处理后频谱图中值最大的部分提取峰值点作为特征点,通过将特征点组成的特征点对进行哈希编码,得到作为匹配样本的音频信号的音频指纹。音频处理设备将作为匹配样本的音频信号的音频指纹存储在数据库中,可以供计算机设备进行调取。
在步骤511中,响应于该目标音频信号是音频匹配时作为检索音频的音频信号,将该目标音频信号的音频指纹与指纹数据库中存储的匹配样本的音频指纹进行匹配,获得该目标音频信号与该匹配样本之间的匹配结果。
在本申请实施例中,在音频检索的过程中,音频处理设备对输入的作为检索音频的音频信号,通过mask对初始频谱图进行处理之后,再进行峰值点提取,得到作为检索音频的音频信号对应的音频指纹,然后从数据库中调取作为匹配样本的音频信号的音频指纹与作为检索音频的音频信号对应的音频指纹进行匹配,得到匹配结果。
在一种可能的实现方式中,当音频处理设备可以获得各个种类对应的处理后的频谱图得到多个匹配结果时,通过比较各个匹配结果确定匹配度最高的音频为检索音频片段的所属音频。
在一种可能的实现方式中,响应于该目标音频信号是音频匹配时作为检索音频的音频信号,获取该目标音频信号对应的目标音频类型;确定与该目标音频类型相对应的该匹配样本。
其中,当上述模型训练设备按照音频类型训练得到不同的权重矩阵时,在音频指纹编码过程中,音频处理设备根据目标音频类型查询对应的权重矩阵,并通过与目标音频类型对应的权重矩阵进行音频指纹的编码后,还根据目标音频类型查询对应的匹配样本,并将目标音频信号的音频指纹,与对应相同的目标音频类型的匹配样本的音频指纹进行匹配,以提高匹配的准确性。
在一种可能的实现方式中,音频处理设备可以根据检索音频片段自身的种类,确定使用该种类对应的mask,通过将初始频谱图与对应的mask进行作用,对检索音频片段进行频谱图处理。
比如,当检索音频片段属于摇滚类,用户可以在终端侧选择摇滚类标签,终端在将检索音频片段发送给准确性的同时,终端可以通过音频检索请求通知音频处理设备该检索音频片段的种类为摇滚类,音频处理设备根据接收到的音频检索请求,获取摇滚类音频对应的mask,通过将该检索音频片段的频谱图与摇滚类音频对应的mask相乘,得到检索音频片段的处理后频谱图。
在另一种可能的实现方式中,若模型训练设备按照音频类型训练得到不同的权重矩阵,而音频处理设备未获取到检索音频片段对应的音频类型,则音频处理设备可以将检索音频片段的频谱图分别与各个音频类型对应的mask相乘,得到各个音频类型分别对应的处理后频谱图,进一步得到各个音频类型分别对应的音频指纹,然后将每一种音频类型对应的音频指纹,与对应类型的匹配样本的音频指纹进行匹配,得到对应各种音频类型的匹配结果。
综上所述,在本申请实施例所示的方案中,通过音频样本以及用户针对该音频样本的实际的用户行为特征训练得到的权重矩阵,通过权重矩阵对初始频谱图进行处理后,并通过处理后频谱图进行特征点对提取和编码后,得到的音频指纹能够更准确的体现出用户可能关注的特点,从而提高音频指纹的编码准确性,进一步可以提高基于音频指纹进行音频匹配的准确性。
此外,在本申请实施例所示的方案中,在权重矩阵训练阶段,按照不同的音频类型,分别训练得到不同的权重矩阵,在音频指纹编码阶段,根据目标音频信号的音频类型选择对应的权重矩阵进行音频指纹编码,从而提高音频指纹编码的准确性;此外,在音频匹配阶段,根据目标音频信号的音频类型,选择同类型的匹配样本进行匹配,以提高音频匹配的准确性。
请参考图8,其是根据一示例性实施例示出的一种音频指纹编码以及音频匹配方法的示意图,以权重样本的训练、音频指纹编码以及音频匹配由服务器执行为例,如图8所示,该音频指纹编码以及音频匹配方法可以包括以下步骤:
S81,在音频检索的应用场景下,可以至少存在一个音频数据库,该音频数据库中至少包含有乐曲样本、训练样本以及各个匹配样本对应的音频指纹,其中,在权重矩阵的训练阶段,服务器可以从音频数据库中提取训练样本,其中,训练样本可以包括音频信号样本以及用户行为特征。
S82,服务器根据从音频数据库中获取到的音频信号样本以及用户行为特征进行机器学习模型的训练,得到各个音频类型对应的权重矩阵。
其中,不同音频类型的音频信号样本可以分别进行机器学习模型训练,分别得到各个类型对应的权重矩阵。
S83,服务器将得到的各个音频类型对应的权重矩阵分类存储在服务器侧的权重数据库中,比如,各个音频类型对应的权重矩阵可以存储为权重矩阵1、权重矩阵2等形式。
其中,S81到S83中的过程是为各音频类型对应的权重矩阵训练并且存储的过程。
S84,服务器从音频数据库中提取乐曲样本,得到匹配样本以及该匹配样本的音频类型1。
其中,服务器可以对音频数据库中的各个乐曲样本,按照预设时长进行片段切割,得到匹配样本,并将对应乐曲的音频类型获取为匹配样本的音频类型1。
S85,服务器可以根据匹配样本对应的音频类型,从权重数据库中提取该音乐类型1对应的权重矩阵。
S86,服务器根据匹配样本对应的音频信号生成对应的频谱图,通过与从权重数据库中提取该音乐类型1对应的权重矩阵进行矩阵相乘,即频谱图处理,得到匹配样本的处理后频谱图。
S87,服务器对处理后频谱图进行特征点对提取以及进行哈希编码,即音频指纹编码,可以获得匹配样本的音频指纹。
S88,服务器将各匹配样本的音频指纹存储在音频数据库中。
其中,S84到S88中的内容是对匹配样本生成对应的音频指纹并且进行存储的过程。
S89,当终端侧的用户需要进行检索的过程时,终端侧的用户终端可以向服务器发送音频匹配请求,其中,音频匹配请求中可以包括检索音频以及该检索音频的音频类型,比如,检索音频的音频类型可以为音频类型2。
S810,服务器根据检索音频对应的音频类型,从权重数据库中提取该音乐类型2对应的权重矩阵。
S811,服务器根据检索音频对应的音频信号生成对应的频谱图,通过与从权重数据库中提取该音频类型2对应的权重矩阵进行矩阵相乘,即频谱图处理,可以得到检索音频的处理后频谱图。
S812,服务器对处理后频谱图进行特征点对提取以及进行哈希编码,即音频指纹编码,可以获得检索音频对应的音频指纹。
S813,服务器确定音频数据库中音频类型2的匹配样本,从音频数据库中调取音频类型2对应的匹配样本的音频指纹。
S814,服务器对检索音频的音频指纹以及确定的匹配样本的音频指纹进行指纹匹配,得到与各个匹配样本的匹配值,输出指纹匹配结果。
其中,S89到S814中的过程是通过音频指纹匹配检索音频的过程。
图9是根据一示例性实施例示出的一种音频指纹编码装置的结构方框图。该音频指纹编码装置可以执行图3或图5所示实施例中的全部或者部分步骤。该音频指纹编码装置可以包括:
第一频谱图获取模块910,用于对目标音频信号进行频谱提取,获得所述目标音频信号的初始频谱图;
第二频谱图获取模块920,用于通过权重矩阵对所述目标音频信号的初始频谱图进行处理,获得所述目标音频信号的处理后频谱图;所述权重矩阵是通过训练样本进行机器学习训练得到的,所述训练样本包括音频信号样本,以及所述音频信号样本实际的用户行为特征;所述用户行为特征用于指示对应的音频信号接收到的用户操作行为;
特征点对提取模块930,用于从所述目标音频信号的处理后频谱图中提取所述目标音频信号的特征点对;
音频指纹获取模块940,用于对所述目标音频信号的特征点对进行编码,获得所述目标音频信号的音频指纹。
在一种可能的实现方式中,所述装置还包括:
第三频谱图获取模块,用于在第二频谱图获取模块920对目标音频信号进行频谱提取,获得所述目标音频信号的处理后频谱图之前,对所述音频信号样本进行频谱提取,获得所述音频信号样本的初始频谱图;
预测特征获取模块,用于通过分类模型对所述音频信号样本的初始频谱图进行处理,获得所述分类模型输出的预测的用户行为特征;所述分类模型是模型参数中包含目标训练参数的机器学习模型,所述目标训练参数的矩阵结构与所述权重矩阵的矩阵结构相同;
模型参数更新模块,用于根据所述实际的用户行为特征与所述预测的用户行为特征,对所述分类模型的模型参数进行更新;
权重矩阵获取模块,用于响应于所述分类模型收敛,将所述分类模型的模型参数中的所述目标训练参数获取为所述权重矩阵。
在一种可能的实现方式中,所述分类模型包括频谱处理层、特征提取层以及分类层;所述目标训练参数位于所述频谱处理层;所述预测特征获取模块,包括:
频谱图获取子模块,用于通过所述频谱处理层对所述音频信号样本的初始频谱图进行处理,获得所述音频信号样本的处理后频谱图;所述音频信号样本的处理后频谱图是所述频谱处理层通过所述目标训练参数对所述音频信号样本的频谱图进行处理后得到的;
样本特征获取子模块,用于通过所述特征提取层对所述音频信号样本的处理后频谱图进行特征提取,获得所述音频信号样本的音频特征;
预测特征获取子模块,用于通过所述分类层对所述音频特征进行处理,获得所述分类层输出的所述预测的用户行为特征。
在一种可能的实现方式中,所述用户行为特征包括播放时长特征、播放次数特征以及用户评价特征中的至少一项;
所述用户行为特征用于指示对应的音频信号被各个用户播放的平均时长所属的时长区间;
所述播放次数特征用于指示对应的音频信号被各个用户播放平均次数所属的次数区间;
所述用户评价特征用于指示对应的音频信号被各个用户评价的平均分值所属的分值区间。
在一种可能的实现方式中,所述第二频谱图获取模块920,用于将所述目标音频信号的初始频谱图与所述权重矩阵相乘,获得所述目标音频信号的处理后频谱图。
在一种可能的实现方式中,所述特征点对提取模块930,包括:
特征点提取子模块,用于从所述目标音频信号的处理后频谱图中提取K个特征点;所述K个特征点是所述目标音频信号的处理后频谱图中的各个特征点按照频谱数值从大到小排列后的前K个特征点;K为大于或者等于2的整数;
特征点对获取子模块,用于对所述K个特征点进行配对处理,得到所述目标音频信号的特征点对。
在一种可能的实现方式中,所述装置还包括:
音频类型获取模块,用于在第二频谱图获取模块920通过权重矩阵对所述目标音频信号的初始频谱图进行处理,获得所述目标音频信号的处理后频谱图之前,获取所述目标音频信号对应的目标音频类型;
权重矩阵确定模块,用于确定与所述目标音频类型相对应的所述权重矩阵。
在一种可能的实现方式中,所述音频类型获取模块,包括:
第一类型获取子模块,用于响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,获取目标用户选择的所述目标音频类型;所述目标用户是触发音频匹配的用户。
在一种可能的实现方式中,所述音频类型获取模块,包括:
用户画像获取子模块,用于响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,获取目标用户的用户画像;所述目标用户是触发音频匹配的用户;
第二类型获取子模块,用于获取与所述用户画像相对应的所述目标音频类型。
在一种可能的实现方式中,所述装置还包括:
音频指纹存储模块,用于响应于所述目标音频信号是作为匹配样本的音频信号,将所述目标音频信号的音频指纹存储入指纹数据库。
在一种可能的实现方式中,所述装置还包括:
匹配结果获取模块,用于响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,将所述目标音频信号的音频指纹与指纹数据库中存储的匹配样本的音频指纹进行匹配,获得所述目标音频信号与所述匹配样本之间的匹配结果。
在一种可能的实现方式中,所述装置还包括:
音频类型确定模块,用于在所述匹配结果获取模块将所述目标音频信号的音频指纹与指纹数据库中存储的匹配样本的音频指纹进行匹配,获得所述目标音频信号与所述匹配样本之间的匹配结果之前,响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,获取所述目标音频信号对应的目标音频类型;
匹配样本确定模块,用于确定与所述目标音频类型相对应的所述匹配样本。
综上所述,在本申请实施例所示的方案中,在对音频信号的初始频谱图进行特征点提取之前,首先通过权重矩阵对初始频谱图进行处理,得到处理后频谱图,然后在处理后的频谱图上进行特征点对的提取和编码,由于该权重矩阵是通过音频样本以及用户针对该音频样本的实际的用户行为特征训练得到的,而当训练样本足够时,用户行为特征可以体现不同音频受用户关注的情况,相应的,通过训练得到的权重矩阵对初始频谱图进行处理后,得到的处理后频谱图可以突出音频中用户可能重点关注的部分,通过处理后频谱图进行特征点对提取和编码后,得到的音频指纹能够更准确的体现出用户可能关注的特点,避免了生成的音频指纹集合不能根据不同音频做适应性的改变的问题,从而提高音频指纹的编码准确性。
此外,在本申请实施例所示的方案中,通过上述方案提高了音频指纹的编码准确性,进一步的,也可以提高基于音频指纹的应用的准确性,比如,可以提高基于音频指纹进行音频匹配的准确性。
此外,在本申请实施例所示的方案中,在权重矩阵训练阶段,按照不同的音频类型,分别训练得到不同的权重矩阵,在音频指纹编码阶段,根据目标音频信号的音频类型选择对应的权重矩阵进行音频指纹编码,从而提高音频指纹编码的准确性;此外,在音频匹配阶段,根据目标音频信号的音频类型,选择同类型的匹配样本进行匹配,以提高音频匹配的准确性。
图10是根据一示例性实施例示出的一种计算机设备的结构示意图。该计算机设备可以实现为网络侧的服务器。该服务器可以为图1所示的服务器120。所述计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(RandomAccess Memory,RAM)1002和只读存储器(Read-Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。所述计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
所述大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。所述大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,所述大容量存储设备1007可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
不失一般性,所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、CD-ROM、数字视频光盘(Digital Video Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
计算机设备1000可以通过连接在所述系统总线1005上的网络接口单元1011连接到互联网或者其它网络设备。
所述存储器还包括一个或者一个以上的程序,所述一个或者一个以上程序存储于存储器中,中央处理器1001通过执行该一个或一个以上程序来实现图3或图5所示的方法的全部或者部分步骤。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括计算机程序(指令)的存储器,上述程序(指令)可由计算机设备的处理器执行以完成本申请各个实施例所示的方法的全部或者部分步骤。例如,所述非临时性计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (15)

1.一种音频指纹编码方法,其特征在于,所述方法包括:
对目标音频信号进行频谱提取,获得所述目标音频信号的初始频谱图;
通过权重矩阵对所述目标音频信号的初始频谱图进行处理,获得所述目标音频信号的处理后频谱图;所述权重矩阵是通过训练样本进行机器学习训练得到的,所述训练样本包括音频信号样本,以及所述音频信号样本实际的用户行为特征;所述用户行为特征用于指示对应的音频信号接收到的用户操作行为;
从所述目标音频信号的处理后频谱图中提取所述目标音频信号的特征点对;
对所述目标音频信号的特征点对进行编码,获得所述目标音频信号的音频指纹。
2.根据权利要求1所述的方法,其特征在于,所述对目标音频信号进行频谱提取,获得所述目标音频信号的处理后频谱图之前,还包括:
对所述音频信号样本进行频谱提取,获得所述音频信号样本的初始频谱图;
通过分类模型对所述音频信号样本的初始频谱图进行处理,获得所述分类模型输出的预测的用户行为特征;所述分类模型是模型参数中包含目标训练参数的机器学习模型,所述目标训练参数的矩阵结构与所述权重矩阵的矩阵结构相同;
根据所述实际的用户行为特征与所述预测的用户行为特征,对所述分类模型的模型参数进行更新;
响应于所述分类模型收敛,将所述分类模型的模型参数中的所述目标训练参数获取为所述权重矩阵。
3.根据权利要求2所述的方法,其特征在于,所述分类模型包括频谱处理层、特征提取层以及分类层;所述目标训练参数位于所述频谱处理层;
所述通过分类模型对所述音频信号样本的初始频谱图进行处理,获得所述分类模型输出的预测的用户行为特征,包括:
通过所述频谱处理层对所述音频信号样本的初始频谱图进行处理,获得所述音频信号样本的处理后频谱图;所述音频信号样本的处理后频谱图是所述频谱处理层通过所述目标训练参数对所述音频信号样本的频谱图进行处理后得到的;
通过所述特征提取层对所述音频信号样本的处理后频谱图进行特征提取,获得所述音频信号样本的音频特征;
通过所述分类层对所述音频特征进行处理,获得所述分类层输出的所述预测的用户行为特征。
4.根据权利要求1所述的方法,其特征在于,所述用户行为特征包括播放时长特征、播放次数特征以及用户评价特征中的至少一项;
所述用户行为特征用于指示对应的音频信号被各个用户播放的平均时长所属的时长区间;
所述播放次数特征用于指示对应的音频信号被各个用户播放平均次数所属的次数区间;
所述用户评价特征用于指示对应的音频信号被各个用户评价的平均分值所属的分值区间。
5.根据权利要求1所述的方法,其特征在于,所述通过权重矩阵对所述目标音频信号的初始频谱图进行处理,获得所述目标音频信号的处理后频谱图,包括:
将所述目标音频信号的初始频谱图与所述权重矩阵相乘,获得所述目标音频信号的处理后频谱图。
6.根据权利要求1所述的方法,其特征在于,所述从所述目标音频信号的处理后频谱图中提取所述目标音频信号的特征点对,包括:
从所述目标音频信号的处理后频谱图中提取K个特征点;所述K个特征点是所述目标音频信号的处理后频谱图中的各个特征点按照频谱数值从大到小排列后的前K个特征点;K为大于或者等于2的整数;
对所述K个特征点进行配对处理,得到所述目标音频信号的特征点对。
7.根据权利要求1所述的方法,其特征在于,所述通过权重矩阵对所述目标音频信号的初始频谱图进行处理,获得所述目标音频信号的处理后频谱图之前,还包括:
获取所述目标音频信号对应的目标音频类型;
确定与所述目标音频类型相对应的所述权重矩阵。
8.根据权利要求7所述的方法,其特征在于,所述获取所述目标音频信号对应的目标音频类型,包括:
响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,获取目标用户选择的所述目标音频类型;所述目标用户是触发音频匹配的用户。
9.根据权利要求7所述的方法,其特征在于,所述获取所述目标音频信号对应的目标音频类型,包括:
响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,获取目标用户的用户画像;所述目标用户是触发音频匹配的用户;
获取与所述用户画像相对应的所述目标音频类型。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述目标音频信号是作为匹配样本的音频信号,将所述目标音频信号的音频指纹存储入指纹数据库。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,将所述目标音频信号的音频指纹与指纹数据库中存储的匹配样本的音频指纹进行匹配,获得所述目标音频信号与所述匹配样本之间的匹配结果。
12.根据权利要求11所述的方法,其特征在于,所述将所述目标音频信号的音频指纹与指纹数据库中存储的匹配样本的音频指纹进行匹配,获得所述目标音频信号与所述匹配样本之间的匹配结果之前,还包括:
响应于所述目标音频信号是音频匹配时作为检索音频的音频信号,获取所述目标音频信号对应的目标音频类型;
确定与所述目标音频类型相对应的所述匹配样本。
13.一种音频指纹编码装置,其特征在于,所述装置包括:
第一频谱图获取模块,用于对目标音频信号进行频谱提取,获得所述目标音频信号的初始频谱图;
第二频谱图获取模块,用于通过权重矩阵对所述目标音频信号的初始频谱图进行处理,获得所述目标音频信号的处理后频谱图;所述权重矩阵是通过训练样本进行机器学习训练得到的,所述训练样本包括音频信号样本,以及所述音频信号样本实际的用户行为特征;所述用户行为特征用于指示对应的音频信号接收到的用户操作行为;
特征点对提取模块,用于从所述目标音频信号的处理后频谱图中提取所述目标音频信号的特征点对;
音频指纹获取模块,用于对所述目标音频信号的特征点对进行编码,获得所述目标音频信号的音频指纹。
14.一种计算机设备,其特征在于,所述计算机设备包含处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至12任一所述的音频指纹编码方法。
15.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一所述的音频指纹编码方法。
CN202010199768.1A 2020-03-20 2020-03-20 音频指纹编码方法、装置、计算机设备及存储介质 Active CN111428078B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010199768.1A CN111428078B (zh) 2020-03-20 2020-03-20 音频指纹编码方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010199768.1A CN111428078B (zh) 2020-03-20 2020-03-20 音频指纹编码方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN111428078A CN111428078A (zh) 2020-07-17
CN111428078B true CN111428078B (zh) 2023-05-23

Family

ID=71548366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010199768.1A Active CN111428078B (zh) 2020-03-20 2020-03-20 音频指纹编码方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111428078B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113051A (zh) * 2021-03-10 2021-07-13 深圳市声扬科技有限公司 音频指纹提取方法、装置、计算机设备和存储介质
CN113495969B (zh) * 2021-09-08 2022-02-08 腾讯科技(深圳)有限公司 数字指纹生成、媒体数据推荐方法、装置和计算机设备
CN114443891B (zh) * 2022-01-14 2022-12-06 北京有竹居网络技术有限公司 编码器的生成方法、指纹提取方法、介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016102737A1 (en) * 2014-12-22 2016-06-30 Nokia Technologies Oy Tagging audio data
CN106484837A (zh) * 2016-09-30 2017-03-08 腾讯科技(北京)有限公司 相似视频文件的检测方法和装置
US9659014B1 (en) * 2013-05-01 2017-05-23 Google Inc. Audio and video matching using a hybrid of fingerprinting and content based classification
CN106802960A (zh) * 2017-01-19 2017-06-06 湖南大学 一种基于音频指纹的分片音频检索方法
JP2017151872A (ja) * 2016-02-26 2017-08-31 沖電気工業株式会社 分類装置、分類方法、プログラム、及びパラメータ生成装置
CN109918539A (zh) * 2019-02-28 2019-06-21 华南理工大学 一种基于用户点击行为的音、视频互相检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102166423B1 (ko) * 2014-03-05 2020-10-15 삼성전자주식회사 디스플레이 장치, 서버 장치 및 디스플레이 장치의 이벤트 정보 제공 방법
US9772116B2 (en) * 2014-11-04 2017-09-26 Google Inc. Enhanced automated control scheduling
US9837101B2 (en) * 2014-11-25 2017-12-05 Facebook, Inc. Indexing based on time-variant transforms of an audio signal's spectrogram

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9659014B1 (en) * 2013-05-01 2017-05-23 Google Inc. Audio and video matching using a hybrid of fingerprinting and content based classification
WO2016102737A1 (en) * 2014-12-22 2016-06-30 Nokia Technologies Oy Tagging audio data
JP2017151872A (ja) * 2016-02-26 2017-08-31 沖電気工業株式会社 分類装置、分類方法、プログラム、及びパラメータ生成装置
CN106484837A (zh) * 2016-09-30 2017-03-08 腾讯科技(北京)有限公司 相似视频文件的检测方法和装置
CN106802960A (zh) * 2017-01-19 2017-06-06 湖南大学 一种基于音频指纹的分片音频检索方法
CN109918539A (zh) * 2019-02-28 2019-06-21 华南理工大学 一种基于用户点击行为的音、视频互相检索方法

Also Published As

Publication number Publication date
CN111428078A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
JP6855527B2 (ja) 情報を出力するための方法、及び装置
CN112784130B (zh) 孪生网络模型训练、度量方法、装置、介质和设备
CN111428078B (zh) 音频指纹编码方法、装置、计算机设备及存储介质
US8392414B2 (en) Hybrid audio-visual categorization system and method
US20180276540A1 (en) Modeling of the latent embedding of music using deep neural network
JP6785904B2 (ja) 情報プッシュ方法及び装置
US20160019671A1 (en) Identifying multimedia objects based on multimedia fingerprint
CN109582825B (zh) 用于生成信息的方法和装置
CN111444382B (zh) 一种音频处理方法、装置、计算机设备以及存储介质
CN111816170B (zh) 一种音频分类模型的训练和垃圾音频识别方法和装置
CN112015928A (zh) 多媒体资源的信息提取方法、装置、电子设备及存储介质
CN115618024A (zh) 多媒体推荐方法、装置及电子设备
CN111738010B (zh) 用于生成语义匹配模型的方法和装置
CN111444383B (zh) 一种音频数据处理方法、装置以及计算机可读存储介质
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
CN111026908B (zh) 歌曲标签确定方法、装置、计算机设备以及存储介质
CN111859008B (zh) 一种推荐音乐的方法及终端
Luque-Suárez et al. Efficient speaker identification using spectral entropy
CN113282509B (zh) 音色识别、直播间分类方法、装置、计算机设备和介质
CN114722234A (zh) 基于人工智能的音乐推荐方法、装置、存储介质
CN113806586B (zh) 数据处理方法、计算机设备以及可读存储介质
Fernandes de Araújo et al. Leveraging active learning to reduce human effort in the generation of ground‐truth for entity resolution
KR102625795B1 (ko) 인공지능 기반의 유사 음원 검색 시스템 및 방법
CN111429891B (zh) 一种音频数据处理方法、装置、设备及可读存储介质
US20240176815A1 (en) Artificial intelligence-based similar sound source search system and method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025816

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant