CN102262659B - 一种基于内容计算的音频标签传播方法 - Google Patents

一种基于内容计算的音频标签传播方法 Download PDF

Info

Publication number
CN102262659B
CN102262659B CN 201110197940 CN201110197940A CN102262659B CN 102262659 B CN102262659 B CN 102262659B CN 201110197940 CN201110197940 CN 201110197940 CN 201110197940 A CN201110197940 A CN 201110197940A CN 102262659 B CN102262659 B CN 102262659B
Authority
CN
China
Prior art keywords
music
label
mark
certain
marked
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 201110197940
Other languages
English (en)
Other versions
CN102262659A (zh
Inventor
蔡晶
郎波
李未
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN 201110197940 priority Critical patent/CN102262659B/zh
Publication of CN102262659A publication Critical patent/CN102262659A/zh
Application granted granted Critical
Publication of CN102262659B publication Critical patent/CN102262659B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种基于内容计算的音频标签传播方法,基于内容分析计算音频数据间相似距离;根据相似距离,利用pn率为每一个已标注音乐的最近邻为标注音乐计算其与该标注音乐具备相同曲风标签τ的概率。另外,如果有一为标注音乐α满足:距离L内,最多n个最近邻居中已标注音乐出现率高于P2,且某标签出现率高于P3,则将该标签传播给α。对于同一个P2值,进行多次迭代直到收敛。求出上述两种中被传播标签的交集,并以此交集补充进原始数据中重新进行上述过程,收敛后获得最终标签传播结果。本发明合并不同标签传播模型,在没有引入其他信息的情况下准确率比单个模型更高。

Description

一种基于内容计算的音频标签传播方法
技术领域
本发明为利用分析音频内容得到的音频相似性来自动为音乐数据集中未标注音乐标签进行标注。
背景技术
随着互联网上数字音乐的爆炸式增长,音乐标签的重要性越来越突出。音乐标签一般是对音乐语义进行描述的短文本,其在音乐的检索、管理与推荐中非常有用。
然而,当前面临的问题是如何高效地获取准确的音乐标注。现阶段能获取音乐标注的方法可以归纳为:1、专家标注;2、分类模型训练;3、社会化标注。但是这些方法都有其优劣:专家标注能获得准确的标签,但其标注成本巨大且所获得的语义信息不够丰富;分类模型的训练虽然是自动化方法,但现阶段其标注准确率使其还不能进行推广;而社会化标注能够获得较为准确且丰富的标注,并且成本低廉,但其存在大量噪音和长尾效应。
如何能在标注成本、效率、准确性与丰富程度,减少长尾效应上寻求平衡,帮助用户自动获取到音乐的标注具有重要意义。
发明内容
本发明要解决的问题:通过对音乐内容分析相似计算,进行现有标签的传播,在较好的标注准确性基础上自动获取未标注音乐的标签,减轻了人工标注的工作。
本发明采用的技术方案:一种基于内容计算的音频标签传播方法描述如下:
(1)基于密度的标签传播:基于内容相似计算出音频的相似矩阵,构建音乐网络,扫描所有未标注音乐,当距离某个未标注音乐α的相似距离不超过L,且最多m个最邻近音乐上标注率达到P1时,如果某个标签τ的出现率达到P3,则将标签τ传播给α。该独立过程被称作基于密度的标签传播模型。
(2)基于概率的标签传播:对于全体音乐集中的已标注音乐部分集,计算出n*pn率,其中pn即percision at n,为某已标注音乐的n个最近邻居音乐与其具备相同标签的平均准确率,n∈N,N为自然数,n*pn表示某音乐的邻近音乐中与其具有相同标签的音乐个数期望,并将其近似为全体集的n*pn,根据所述期望,计算出某个已标注音乐周围的相似音乐与其具有相同标签概率,据此传播标签;此独立的过程被称作基于概率的标签传播模型;
(3)基于上述步骤(1)和(2)分别进行标签传播后,求出传播结果的交集,并将其作为已标注音乐,利用上述步骤(1)或(2)重新进行一次传播。
所述的步骤(3)进一步包括:
(3a)参数L的取值为,在所有音乐中最近的第m个邻居距离与最远的第m个邻居距离之间min{dim|i∈任意未标注音乐}<L<max{dim|i∈任意未标注音乐},其中,dim代表某未标注音乐i与第m个邻居的距离。
经过实验,利用两种模型的混合的传播方式,在对未标注音乐有相同召回率情况下,比使用任何一种单独的模型有更高的准确率,基于概率的传播准确率比基于密度的传播准确率略差。
附图说明
图1为基于标签密度的传播模型示意图;
图2为密度传播模型中距离阈值N取值对准确率影响曲线;
图3为基于标签密度与标签概率模型传播空间对比;
图4为本发明的总体流程图;
图5为基于标签概率传播模型流程图;
图6为基于标签密度传播模型流程图;
具体实施方式:
本发明的具体实施方式如下:
(1)输入数据为一个音频数据集,其中某些音乐带有外部标签,称其为“已标注音乐”,余下的为“未标注音乐”。提取出所有音频的20个MFCC特征,并利用单高斯方法对每个音频进行建模。再利用(Kullback-Leibler Divergence)即KL距离计算出两两音频之间的相似程度。所有音频的相似程度形成了一个相似矩阵,单元格[i,j]表示音乐i与音乐j之间的相似性。
(2)基于密度的传播模型:根据相似矩阵,所有音乐形成了一个关联的网络,越相似越接近,如附图1。接着,扫描所有的未标注音乐,当距离某个未标注音乐α相似距离不超过L,且最多m个最邻近音乐上标注率达到P1时,如果某个标签τ的出现率达到P3,则将标签τ传播给α。也就是α被标注上了标签τ,该次传播的标签称为“被传播标签”。在该过程中,被传播标签不能参与再次传播。
Figure BDA0000075957850000031
Figure BDA0000075957850000032
根据相似矩阵,其中标签出现率P3阈值固定为40%,参数m的取值根据不同的音频内容分析方法会有所区别。参数L的取值为在所有音乐中最近的第m个邻居距离与最远的第m个邻居距离之间,取合适的值比无此阈值有一定准确率提升,如附图2。
(3),在步骤(2)的过程中,当无法再找到一个满足要求的未标注音乐时,称为一次迭代收敛。此时,可以调整标注率P2阈值,进行再次迭代。再次迭代时,以往迭代产生的“被传播标签”被视作已标注标签,产于本次迭代。经过测试,较为有效的方法是7次迭代,每次迭代的阈值如下:
当所有迭代均收敛后,基于密度的传播过程结束。
(4)基于概率的传播模型:pn为某已标注音乐的n个最近邻居音乐与其具备相同标签的平均准确率。
从另一个角度看,对于所有已标注音乐构成的部分集的n*pn反映了根据某相似矩阵,一已标注音乐的n个最邻近中与其标签相同的音乐个数期望。由于数据集中已标注音乐的随机性与基于内容分析的无偏向性,该概率可以近似看作全体音乐集上的期望。另外,如果某音乐已标注标签τ,则将其的概率看作1。根据期望不变,可以依次推出每个已标注音乐的邻近音乐与其具有相同标签的概率。步骤如下:
(4.1)如果A有标签τ,B、C、D为其邻居,并且C与A有相同标注。p1、p2、p3分别为0.8、0.75、0.7。
(4.2)根据p1,B具备标签τ的概率为0.8。
(4.3)由于C为已标注音乐,所以其概率为1。
(4.4)根据p3,B、C、D中有标签τ的音乐数期望为2.1,而B、C的概率分别为0.8与1,所以D具备标签τ的概率为0.3。以此类推。
对于每个已标注音乐,可以预测与其最近的m个音乐的概率,当邻近音乐预测的概率高于P1时,将其标注上标签τ。
当所有已标注音乐均被扫描后,基于概率的传播过程结束。
(5)由图3可以看到,两个模型传播的方式截然不同。实心点代表已标注音乐,空心点代表未标注音乐。实线圈代表基于概率传播所影响的空间,虚线圈代表基于密度传播所影响的空间,两个空间具有交集。交集处得音乐标签被两个模型验证,具备很高的准确率。
由于在标签传播方法中,已标注数据比例越大,准确率与召回率就会越高。所以,我们可以将交集内的标签视作已标注标签,再次参与传播。这里选择了再次参与基于密度的传播。
本方法基于内容的音频分析技术,将其作为黑盒,利用其相似计算的结果进行音乐标签的传播。可以利用不同的基于内容分析,对于最终传播的效果也会有很大区别。但可以根据要进行传播的标签的类型来选择不同的基于内容分析技术。例如,如果要传播音乐的风格标签,则选用能反映曲风相似的计算方法,并只对属于音乐风格的标签进行传播,过滤其他不相关标签。
经过试验,由于两种模型的混合对于单个模型来说,在相同的召回率上准确率有明显的提升。
对于本领域的普通技术人员来说可显而易见的得出其他优点和修改。因此,具有更广方面的本发明并不局限于这里所示出的并且所描述的具体说明及示例性实施例。因此,在不脱离由随后权利要求及其等价体所定义的一般发明构思的精神和范围的情况下,可对其作出各种修改。

Claims (1)

1.一种基于内容计算的音频标签传播方法,其特征在于步骤如下:
(1)基于密度的标签传播:基于内容相似计算出音频的相似矩阵,构建音乐网络,扫描所有未标注音乐,当距离某个未标注音乐α的相似距离不超过L,且最多m个最邻近音乐的标注率达到Ρ1时,如果某个标签τ的出现率达到Ρ3,则将标签τ传播给α;所述P3为40%;
(2)基于概率的标签传播:对于全体音乐集中的已标注音乐部分集,计算出n*pn率,其中pn即percisionatn,为某已标注音乐的n个最近邻居音乐与其具备相同标签的平均准确率,n∈N,N为自然数,n*pn表示某音乐的邻近音乐中与其具有相同标签的音乐个数期望,并将其作为全体集的n*pn,根据所述期望,对于每个已标注标签τ的音乐,预测与其最近的m个邻近音乐的概率,当某邻近音乐预测的概率高于Ρ1时,将该邻近音乐标注上标签τ,当所有已标注音乐均被扫描后,基于概率的标签传播过程结束;
(3)基于上述步骤(1)和(2)分别进行标签传播后,求出传播结果的交集,并将其作为已标注音乐,利用上述步骤(1)或(2)重新进行一次传播;
所述的步骤(1)进一步包括:
(3a)参数L的取值为,在所有音乐中最近的第m个邻居距离与最远的第m个邻居距离之间,即min{dim|i∈任意未标注音乐}<L<max{dim|i∈任意未标注音乐},其中,dim代表某未标注音乐i与第m个邻居的距离。
CN 201110197940 2011-07-15 2011-07-15 一种基于内容计算的音频标签传播方法 Expired - Fee Related CN102262659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110197940 CN102262659B (zh) 2011-07-15 2011-07-15 一种基于内容计算的音频标签传播方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110197940 CN102262659B (zh) 2011-07-15 2011-07-15 一种基于内容计算的音频标签传播方法

Publications (2)

Publication Number Publication Date
CN102262659A CN102262659A (zh) 2011-11-30
CN102262659B true CN102262659B (zh) 2013-08-21

Family

ID=45009288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110197940 Expired - Fee Related CN102262659B (zh) 2011-07-15 2011-07-15 一种基于内容计算的音频标签传播方法

Country Status (1)

Country Link
CN (1) CN102262659B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106294563B (zh) * 2016-07-27 2019-09-17 海信集团有限公司 一种多媒体数据的处理方法和装置
CN106446135B (zh) * 2016-09-19 2019-12-10 北京搜狐新动力信息技术有限公司 一种多媒体数据标签生成方法和装置
CN110392314B (zh) * 2018-04-18 2021-10-15 武汉斗鱼网络科技有限公司 直播间内容标签扩散方法、存储介质、电子设备及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334796A (zh) * 2008-02-29 2008-12-31 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法
CN101763370A (zh) * 2008-12-08 2010-06-30 新奥特硅谷视频技术有限责任公司 视频音频资料建立标签的方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101116073A (zh) * 2005-12-05 2008-01-30 索尼株式会社 信息处理设备、信息处理方法及程序

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101334796A (zh) * 2008-02-29 2008-12-31 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法
CN101763370A (zh) * 2008-12-08 2010-06-30 新奥特硅谷视频技术有限责任公司 视频音频资料建立标签的方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于时基调制算法的音频密写标签技术研究;张瑾等;《杭州电子科技大学学报》;20081231;第28卷(第6期);95-98页 *
张瑾等.基于时基调制算法的音频密写标签技术研究.《杭州电子科技大学学报》.2008,第28卷(第6期),95-98页.
陈延梁.音乐结构分析及应用.《中国优秀硕士学位论文全文数据库》.2006,全文.
音乐结构分析及应用;陈延梁;《中国优秀硕士学位论文全文数据库》;20061231;全文 *

Also Published As

Publication number Publication date
CN102262659A (zh) 2011-11-30

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN112784130B (zh) 孪生网络模型训练、度量方法、装置、介质和设备
CN109582949A (zh) 事件元素抽取方法、装置、计算设备及存储介质
CN111125453B (zh) 基于子图同构的社交网络中意见领袖角色识别方法及存储介质
CN106062730A (zh) 用于主动构成内容以便在连续社交通信中使用的系统和方法
CN111309871B (zh) 一种基于文本语义分析需求与输出成果之间匹配度的方法
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN110458181A (zh) 一种基于宽度随机森林的句法依存模型、训练方法和分析方法
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
CN103793447A (zh) 音乐与图像间语义相识度的估计方法和估计系统
CN116127020A (zh) 生成式大语言模型训练方法以及基于模型的搜索方法
CN103678436A (zh) 信息处理系统和信息处理方法
CN109933792A (zh) 基于多层双向lstm和验证模型的观点型问题阅读理解方法
CN116049412B (zh) 文本分类方法、模型训练方法、装置及电子设备
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN102693321A (zh) 一种跨媒体间信息分析与检索的方法
CN109214407A (zh) 事件检测模型、方法、装置、计算设备及存储介质
CN102262659B (zh) 一种基于内容计算的音频标签传播方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN111199151A (zh) 数据处理方法、及数据处理装置
CN104572915A (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN114491149A (zh) 信息处理方法及装置、电子设备、存储介质、程序产品
CN114003682A (zh) 一种文本分类方法、装置、设备及存储介质
CN109657052A (zh) 一种论文摘要蕴含细粒度知识元的抽取方法及装置
CN110889029A (zh) 城市目标推荐方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130821

Termination date: 20140715

EXPY Termination of patent right or utility model