CN105718575B - 基于爬虫的贴音乐标签方法及系统 - Google Patents

基于爬虫的贴音乐标签方法及系统 Download PDF

Info

Publication number
CN105718575B
CN105718575B CN201610044080.XA CN201610044080A CN105718575B CN 105718575 B CN105718575 B CN 105718575B CN 201610044080 A CN201610044080 A CN 201610044080A CN 105718575 B CN105718575 B CN 105718575B
Authority
CN
China
Prior art keywords
label
music
song
record
crawler
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610044080.XA
Other languages
English (en)
Other versions
CN105718575A (zh
Inventor
郭泽豪
王振宇
戴瑾如
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201610044080.XA priority Critical patent/CN105718575B/zh
Publication of CN105718575A publication Critical patent/CN105718575A/zh
Application granted granted Critical
Publication of CN105718575B publication Critical patent/CN105718575B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明提供了一种基于爬虫的贴音乐标签的方法及系统,本发明在爬虫爬取多个音乐网站的音乐标签记录的基础上,通过对音乐标签记录进行预处理,提高了音乐标签记录的可用性,同时保证了来自不同音乐网站的音乐标签记录具有统一的格式;另外通过歌单标签可信值计算,将歌单标签转化为歌曲标签;利用编辑距离算法,将爬虫爬取到的音乐标签记录中的歌曲名与未贴标签的曲库中的歌曲名进行模糊匹配,建立对应关系,提高了爬虫音乐标签记录的利用率,在保证标签准确性的前提下,最大限度地给曲库贴上更多的音乐标签;同时根据多个音乐网站的音乐标签构建一套完整的音乐标签体系,以音乐标签体系的标签为基准,进行标签融合。

Description

基于爬虫的贴音乐标签方法及系统
技术领域
本发明属于数据获取和可信度计算技术领域,更具体涉及一种基于爬虫的贴音乐标签方法及系统。
背景技术
随着数字音乐市场的不断扩大,数字音乐的特征化标注成为现阶段研究的一个热点,而音乐标签则是最重要的特征化标注。音乐标签具有丰富的语义,但是这种标注方式的前提是有一个活跃的音乐社区,拥有大量较高黏性的用户;另一方面,音乐标签具有随意性和离散性,容易形成“冷启动”(Cold Start),新推出的音乐因缺乏标签将很难被用户检索到,导致“流行偏见”(Popularity Bias),受先标注用户的影响,后来用户的选择将追随之前的流行趋势,从而使得大多数用户只听了极少数热门音乐,而大部分音乐将处于长尾区而被忽略掉;大众的早期评价并不一定都符合后来者的感知,少数“灰色绵羊”的独特用户无法从这种大众潮流中获取满意的信息,且标签的随意性也带来了标签预处理的困难。
目前,国外主要的音乐社区包括lastfm、pandora,国内主要的音乐社区包括网易云音乐,QQ音乐,百度音乐,酷狗音乐,酷我音乐,虾米音乐等,这些音乐社区拥有大量的用户,同时拥有丰富的歌单标签以及歌曲标签。对于目前带有歌曲标签的音乐网站来说,基本上有两种贴标签的方法,一种是通过人工的方法为每首歌曲贴上标签,另一种是列出尽可能多的歌曲标签,然后让用户自己为自己的歌单选择合适的标签。这两种方法都有自己的优缺点,人工贴标签的方法准确度显然会比较高,但是工作量很大,消耗的成本很高,对于曲库来说一般歌曲数量比较大,显然无法采用这种方法;第二种方法的优点是成本非常低,但是缺点也很明显,就是准确度不高。
另外一种具有探究意义的贴标签的方法,是通过分类算法学习音乐的音频特征,音频特征是从歌曲本身提取的诸如音高、节拍、节奏等信息,能够客观反映歌曲要素。目前支持向量机分类算法比较好地拟合音乐特征的相似度,但是标签的质量也不是很高。
综上,音乐标签具有丰富的语义,具有很大的研究价值。国内外音乐社区拥有大量的黏性用户,同时拥有丰富的歌单标签或者歌曲标签,这些丰富的标签可以高效、高质量给未贴标签的曲库贴上标签。然而,在贴音乐标签中,现在还没有一种全面、高效、高质量地给曲库贴音乐标签的技术方案。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是如何全面、高效、高质量地给曲库贴音乐标签。
(二)技术方案
为了解决上述技术问题,本发明第一方面提供一种基于爬虫的贴音乐标签方法,所述方法包括以下步骤:
S1、针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;
S2、通过歌单标签可信值计算,将歌单标签转化为歌曲标签;
S3、利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;
S4、以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合。
优选的,所述步骤S2通过歌单标签可信值计算,将歌单标签转化为歌曲标签具体包括:
S21、针对每一小类标签,统计其在全部歌单标签记录中的出现频次;
S22、针对每一歌曲,统计其包含的小类标签以及对应的频次;
S23、针对每一歌曲,算出其每个歌单标签的可信值;
S24、筛选出该歌曲可信值较高的歌单标签作为该歌曲的歌曲标签;
S25、判断是否还有其他歌曲,若是执行步骤S23,否则结束。
优选的,所述步骤S3利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系具体包括:
S31、根据所述爬虫音乐标签记录中的歌手名搜索曲库;
S32、判断搜索结果是否为空,若是执行步骤S37,否则执行步骤S33;
S33、将该爬虫音乐标签记录中的歌曲名与搜索结果中的歌曲名进行模糊匹配,计算匹配相似值;
S34、判断匹配相似值是否大于门限阀值,若是执行步骤S35,否则执行步骤S36;
S35、构建该爬虫音乐标签记录与曲库该匹配上的音乐记录的对应关系;
S36、判断是否有下一条搜索结果,若是执行步骤S33,否则执行步骤S37;
S37、判断是否有下一条爬虫音乐标签记录,若是执行步骤S31,否则执行结束。
优选的,所述步骤S4以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合具体包括:
S41、根据音乐标签体系构建标签融合规则;
S42、根据模糊匹配对应关系,找到曲库音乐对应的音乐标签;
S43、判断该对应标签是否需要融合,若是执行步骤S44,否则执行步骤S45;
S44、根据标签融合规则进行标签融合;
S45、给曲库音乐贴上标签;
S46、判断是否有下一条对应关系,若是执行步骤S42,否则执行步骤S47;
S47、根据标签筛选规则,对全部贴上标签的曲库音乐进行标签筛选。
优选的,所述爬虫音乐标签记录是指通过爬虫爬取到的音乐记录,所述音乐记录的内容包括歌手名、歌曲名、大类标签、小类标签、歌单名称和网站来源,其中,所述大类标签包括语种、风格、心情、场景、主题,所述小类标签为隶属于所述大类标签的标签,包括英语、流行、伤感、学习、歌曲标签和歌单标签。
优选的,所述步骤S23中某一歌曲关于歌单标签的可信值的计算过程具体为:
设歌单标签记录包含n个小类标签,小类标签ti(i=1,2,3,...,n)在全部歌单标签记录中的频次为Fi,某一歌曲包含歌单标签tk,该歌曲被贴上该歌单标签的频次为fk,利用公式fk*(0.4+0.6*(Fi-Fmin)/(Fmax-Fmin)),其中Fmax是指F1,F2,...Fn的最大值,Fmin是指F1,F2,...Fn的最小值,计算该歌曲包含的歌单标签tk的可信值。
优选的,所述步骤S33、将该爬虫音乐标签记录中的歌曲名与搜索结果中的歌曲名进行模糊匹配,计算匹配相似值的具体过程为:
设爬虫音乐标签记录的歌曲名字符串为S1,曲库搜索结果的歌曲名字符串为S2,通过编辑距离算法计算出S1与S2的编辑距离L,通过(S1-L)/S1计算出S1与S2匹配相似值。
优选的,所述步骤S41根据音乐标签体系构建标签融合规则的具体过程为:
统计爬虫音乐标签记录中的全部小类标签的频次,剔除频次低的小众标签,根据筛选后的小类标签,通过人工的方式构建音乐标签体系,对表述不同但是意义相同的标签构建映射规则,生成音乐标签体系的小类标签。
优选的,所述标签筛选规则是指在每个所述大类标签下选择所述小类标签的规则。
为了解决上述技术问题,本发明第二方面提供一种基于爬虫的贴音乐标签系统,所述系统包括:
数据预处理模块,用于针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;
标签转化模块,用于通过歌单标签可信值计算,将歌单标签转化为歌曲标签;
标签模糊匹配模块,用于利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;
标签融合模块,用于以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合。
(三)有益效果
1、本发明在爬虫爬取多个音乐网站的音乐标签记录的基础上,对音乐标签记录进行预处理,提高了音乐标签记录的可用性,同时保证了来自不同音乐网站的音乐标签记录具有统一的格式。
2、另外通过歌单标签可信值计算,将歌单标签转化为歌曲标签,提高了标签的可信度。
3、利用编辑距离算法,将爬虫爬取到的音乐标签记录中的歌曲名与未贴标签的曲库中的歌曲名进行模糊匹配,建立对应关系,提高了爬虫音乐标签记录的利用率,在保证标签准确性的前提下,最大限度地给曲库贴上更多的音乐标签。
4、同时根据多个音乐网站的音乐标签构建一套完整的音乐标签体系,以音乐标签体系的标签为基准,构建标签融合规则进行标签融合,解决了来源不同的音乐标签的统一化问题。
5、本发明能够持续不断地为曲库中的音乐贴上全面、高质量的音乐标签,具有很好的可用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一个较佳实施例的基于爬虫的贴音乐标签方法流程图;
图2为本发明的将歌单标签转化为歌曲标签方法流程图。
图3为本发明的标签模糊匹配方法流程图。
图4为本发明的标签融合方法流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
实施例一
请参见图1至图4,图1是本实施例一中公开的基于爬虫的贴音乐标签方法及各个相应步骤的流程图。如图1至图4所示,所述方法包括以下步骤:
S1、针对来自不同音乐网站的爬虫音乐标签记录进行预处理;
S2、将歌单标签转化为歌曲标签;
其中所述步骤S2中歌单标签转化步骤具体为:
S21、针对每一小类标签,统计其在全部歌单标签记录中的出现频次;
S22、针对每一歌曲,统计其包含的小类标签以及对应的频次;
S23、针对每一歌曲,算出其每个歌单标签的可信值;
S24、筛选出该歌曲可信值较高的歌单标签作为该歌曲的歌曲标签;
S25、判断是否还有其他歌曲,若是执行步骤S23,否则结束。
S3、将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;其中所述步骤S3中模糊匹配步骤具体为:
S31、根据爬虫音乐标签记录中的歌手名搜索曲库;
S32、判断搜索结果是否为空,若是执行步骤S37,否则执行步骤S33;
S33、将该爬虫音乐标签记录中的歌曲名与搜索结果中的歌曲名进行模糊匹配,计算匹配相似值;
S34、判断匹配相似值是否大于0.8,若是执行步骤S35,否则执行步骤S36;
S35、构建该爬虫音乐标签记录与曲库该匹配上的音乐记录的对应关系;
S36、判断是否有下一条搜索结果,若是执行步骤S33,否则执行步骤S37;
S37、判断是否有下一条爬虫音乐标签记录,若是执行步骤S31,否则执行结束。
S4、根据对应关系按照标签融合规则进行标签融合;其中所述步骤S4中标签融合步骤具体为:
S41、根据音乐标签体系构建标签融合规则;
S42、根据模糊匹配对应关系,找到曲库音乐对应的音乐标签;
S43、判断该对应标签是否需要融合,若是执行步骤S44,否则执行步骤S45;
S44、根据标签融合规则进行标签融合;
S45、给曲库音乐贴上标签;
S46、判断是否有下一条对应关系,若是执行步骤S42,否则执行步骤S47;
S47、根据标签筛选规则,对全部贴上标签的曲库音乐进行标签筛选。
上述方法是在爬虫爬取多个音乐网站的音乐标签记录的基础上,对音乐标签记录进行预处理,提高了音乐标签记录的可用性,同时保证了来自不同音乐网站的音乐标签记录具有统一的格式;另外通过歌单标签可信值计算,将歌单标签转化为歌曲标签,提高了标签的可信度;利用编辑距离算法,将爬虫爬取到的音乐标签记录中的歌曲名与未贴标签的曲库中的歌曲名进行模糊匹配,建立对应关系,提高了爬虫音乐标签记录的利用率,在保证标签准确性的前提下,最大限度地给曲库贴上更多的音乐标签;同时根据多个音乐网站的音乐标签构建一套完整的音乐标签体系,以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合,解决了来源不同的音乐标签的统一化问题,本发明能够持续不断地为曲库中的音乐贴上全面、高质量的音乐标签,具有很好的可用性。
其中,爬虫音乐标签记录是指通过爬虫爬取到的音乐记录,音乐记录的内容包括歌手名、歌曲名、大类标签、小类标签、歌单名称和网站来源。
进一步地,所述大类标签包括语种、风格、心情、场景、主题等标签。
进一步地,所述小类标签是指属于所述大类标签的标签,包括英语、流行、伤感、学习等标签。所述歌曲标签和歌单标签都属于小类标签。
进一步地,所述预处理包括去除所述爬虫音乐标签记录中的无关字符,将多个歌手的连接符统一为加号等。其中,上述无关字符包括歌曲名中的书名号,$符号,~符号,html转义符号等。
进一步地,小类标签还包括歌单标签和歌曲标签,所述歌单标签是用户创建完歌单后,为歌单贴上的标签,而不是针对歌单内的每首歌曲,所述歌曲标签是指用户听完一首歌曲后,为歌曲贴上的标签。
某一首歌曲可能出现在多个歌单中,多个歌单可能会贴上相同的所述歌单标签,从而该歌曲会贴上多次相同的所述歌单标签,贴上相同的所述歌单标签越多,则该歌曲贴上该所述歌单标签的可信值越高。但是不同的所述歌单标签流行趋势不同,例如流行这个小类标签出现频次很高,由于该标签具有普适性,不足以说明该标签可信值高,所以需要统计所述歌单标签在全部小类标签的占比,对比重比较大的所述歌单标签做惩罚。
进一步地,计算某一歌曲关于歌单标签的可信值,具体步骤为:
设歌单标签记录包含n个小类标签,小类标签ti(i=1,2,3,...,n)在全部歌单标签记录中的频次为Fi,某一歌曲包含歌单标签tk,该歌曲被贴上该歌单标签的频次为fk,利用公式fk*(0.4+0.6*(Fi-Fmin)/(Fmax-Fmin)),其中Fmax是指F1,F2,...Fn的最大值,Fmin是指F1,F2,...Fn的最小值,计算该歌曲包含的歌单标签tk的可信值。
进一步地,所述曲库音乐记录是指存在某种存储介质中没有贴标签的音乐记录。
进一步地,所述模糊匹配采用编辑距离算法来计算歌曲名之间的匹配相似值。
进一步地,所述计算匹配相似值,具体步骤为:
设爬虫音乐标签记录的歌曲名字符串为S1,曲库搜索结果的歌曲名字符串为S2,通过编辑距离算法计算出S1与S2的编辑距离L,通过(S1-L)/S1计算出S1与S2匹配相似值。
示例性的,例如kitten转为sitting,需要将k转为s,e转为i,最后在末尾再添加g,故编辑距离为3。通过上述举例可知,所述编辑距离算法是指两个字符串中,其中一个字符串转化成另一个字符串的编辑次数,编辑次数越少,相似度越大。
进一步地,所述音乐标签体系包含大类标签,小类标签以及大类标签和小类标签之间的隶属关系。
进一步地,所述标签融合规则是指表述不同但是意义相同的标签之间的映射规则,包括快乐->开心,悲伤->伤感等。该步骤通过人工的方式建立映射规则。
进一步地,所述标签融合是指将不同表述但是意义相同的标签按照所述标签融合规则融合成统一的标签。
进一步地,所述根据音乐标签体系构建标签融合规则,具体步骤为:
统计所述爬虫音乐标签记录中的全部所述小类标签的频次,剔除一些频次比较低的小众标签,根据筛选后的所述小类标签,通过人工的方式构建所述音乐标签体系,对表述不同但是意义相同的标签构建映射规则生成所述音乐标签体系的所述小类标签。
其中,所述标签筛选规则是指在每个所述大类标签下选择所述小类标签的规则。
上述公开的基于爬虫的贴音乐标签方法可以持续不断地为曲库中的音乐贴上全面、高质量的音乐标签,具有很好的可用性。
实施例二
对应于上述方法存在一种基于爬虫的贴音乐标签系统,所述系统包括:
数据预处理模块,用于针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;包括去除所述无关字符,将多个歌手的连接符统一为加号等。
标签转化模块,用于通过歌单标签可信值计算,将歌单标签转化为歌曲标签。具体为:将一歌曲的所述歌单标签转化为所述歌曲标签,所述标签转化模块用于针对每一个所述小类标签,统计其在全部所述歌单标签记录中的出现频次,另外针对一歌曲,统计其包含的所述小类标签以及该标签对应的频次,计算该歌曲包含的每个所述歌单标签的可信值,根据可信值筛选出可信值较高的所述歌单标签作为该歌曲的所述歌曲标签。
标签模糊匹配模块,用于利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系。具体为:将所述爬虫音乐标签记录与所述曲库音乐记录根据歌曲名进行所述模糊匹配建立对应关系,所述标签模糊匹配模块用于根据一所述爬虫音乐标签记录的歌手名搜索曲库,判断搜索结果是否为空,若搜索结果为空,则所述标签模糊匹配模块还用于判断是否有下一条所述爬虫音乐标签记录,若搜索结果不为空,则将该爬虫音乐标签记录中的歌曲名与曲库每个搜索结果的歌曲名进行所述模糊匹配;所述标签模糊匹配模块还用于判断所述匹配相似值是否大于0.8,若大于0.8,则构建该爬虫音乐标签记录与曲库该匹配上的音乐记录的对应关系,若不大于0.8,则所述标签模糊匹配模块还用于判断是否有下一条搜索结果.
标签融合模块,用于以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合。具体为:将标签按照所述标签融合规则进行融合,所述标签融合模块用于根据所述音乐标签体系建立所述标签融合规则,根据一所述模糊匹配的对应关系,找到曲库音乐的对应的标签;所述标签融合模块还用于判断该对应标签是否需要融合,若需要融合,则根据所述标签融合规则进行所述标签融合后给曲库音乐贴上标签,若不需要融合,则给曲库音乐直接贴上标签;所述标签融合模块还用于判断是否有下一条对应关系,若有下一条对应关系,则根据下一条对应关系进行所述标签融合,若没有下一条对应关系,则根据所述标签筛选规则,对全部贴上标签的曲库音乐进行标签筛选。
进一步地,基于爬虫的贴音乐标签系统还包括:数据持久化模块,用于从持久化介质中根据歌手名查询曲库音乐记录,同时还用于数据持久化存储。
上述系统可以持续不断地为曲库中的音乐贴上全面、高质量的音乐标签,具有很好的可用性。
值得注意的是,上述系统实施例中,所包括的各个模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各装模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上实施方式仅用于说明本发明,而非对本发明的限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行各种组合、修改或者等同替换,都不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于爬虫的贴音乐标签的方法,其特征在于,所述方法包括以下步骤:
S1、针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;
S2、通过歌单标签可信值计算,将歌单标签转化为歌曲标签;
其中,所述步骤S2通过歌单标签可信值计算,将歌单标签转化为歌曲标签具体包括:
S21、针对每一小类标签,统计其在全部歌单标签记录中的出现频次;
S22、针对每一歌曲,统计其包含的小类标签以及对应的频次;
S23、针对每一歌曲,算出其每个歌单标签的可信值;
所述步骤S23中某一歌曲关于歌单标签的可信值的计算过程具体为:
设歌单标签记录包含n个小类标签,小类标签ti i=1,2,3,...,n在全部歌单标签记录中的频次为Fi,某一歌曲包含歌单标签tk,该歌曲被贴上该歌单标签的频次为fk,利用公式fk*(0.4+0.6*(Fi-Fmin)/(Fmax-Fmin)),其中Fmax是指F1,F2,...Fn的最大值,Fmin是指F1,F2,...Fn的最小值,计算该歌曲包含的歌单标签tk的可信值;
S24、筛选出该歌曲可信值较高的歌单标签作为该歌曲的歌曲标签;
S25、判断是否还有其他歌曲,若是执行步骤S23,否则结束;
S3、利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;
S4、以音乐标签体系的标签为基准,构建标签融合规则,对曲库音乐记录进行标签融合,其中,所述融合规则如下:
统计爬虫音乐标签记录中的全部小类标签的频次,剔除频次低的小众标签,根据筛选后的小类标签,通过人工的方式构建音乐标签体系,对表述不同但是意义相同的标签构建映射规则,生成音乐标签体系的小类标签。
2.根据权利要求1所述的基于爬虫的贴音乐标签的方法,其特征在于,所述步骤S3利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系具体包括:
S31、根据所述爬虫音乐标签记录中的歌手名搜索曲库;
S32、判断搜索结果是否为空,若是执行步骤S37,否则执行步骤S33;
S33、将该爬虫音乐标签记录中的歌曲名与搜索结果中的歌曲名进行模糊匹配,计算匹配相似值;
S34、判断匹配相似值是否大于门限阀值,若是执行步骤S35,否则执行步骤S36;
S35、构建该爬虫音乐标签记录与曲库该匹配上的音乐记录的对应关系;
S36、判断是否有下一条搜索结果,若是执行步骤S33,否则执行步骤S37;
S37、判断是否有下一条爬虫音乐标签记录,若是执行步骤S31,否则执行结束。
3.根据权利要求1所述的基于爬虫的贴音乐标签的方法,其特征在于,所述步骤S4以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合具体包括:
S41、根据音乐标签体系构建标签融合规则;
S42、根据模糊匹配对应关系,找到曲库音乐对应的音乐标签;
S43、判断该对应标签是否需要融合,若是执行步骤S44,否则执行步骤S45;
S44、根据标签融合规则进行标签融合;
S45、给曲库音乐贴上标签;
S46、判断是否有下一条对应关系,若是执行步骤S42,否则执行步骤S47;
S47、根据标签筛选规则,对全部贴上标签的曲库音乐进行标签筛选。
4.根据权利要求3所述的基于爬虫的贴音乐标签的方法,其特征在于,
所述爬虫音乐标签记录是指通过爬虫爬取到的音乐记录,所述音乐记录的内容包括歌手名、歌曲名、大类标签、小类标签、歌单名称和网站来源,其中,所述大类标签包括语种、风格、心情、场景、主题,所述小类标签为隶属于所述大类标签的标签,包括英语、流行、伤感、学习、歌曲标签和歌单标签。
5.根据权利要求2所述的基于爬虫的贴音乐标签的方法,其特征在于,所述步骤S33将该爬虫音乐标签记录中的歌曲名与搜索结果中的歌曲名进行模糊匹配,计算匹配相似值的具体过程为:
设爬虫音乐标签记录的歌曲名字符串为S1,曲库搜索结果的歌曲名字符串为S2,通过编辑距离算法计算出S1与S2的编辑距离L,通过(S1-L)/S1计算出S1与S2匹配相似值。
6.根据权利要求4所述的基于爬虫的贴音乐标签的方法,其特征在于,所述标签筛选规则是指在每个所述大类标签下选择所述小类标签的规则。
7.一种基于爬虫的贴音乐标签系统,其特征在于,所述系统包括:
数据预处理模块,用于针对来自不同音乐网站的爬虫音乐标签记录进行预处理使其具有统一的格式;
标签转化模块,用于通过歌单标签可信值计算,将歌单标签转化为歌曲标签;所述的标签转化模块工作过程如下:
针对每一小类标签,统计其在全部歌单标签记录中的出现频次;
针对每一歌曲,统计其包含的小类标签以及对应的频次;
针对每一歌曲,算出其每个歌单标签的可信值;
其中某一歌曲关于歌单标签的可信值的计算过程具体为:
设歌单标签记录包含n个小类标签,小类标签ti(i=1,2,3,...,n)在全部歌单标签记录中的频次为Fi,某一歌曲包含歌单标签tk,该歌曲被贴上该歌单标签的频次为fk,利用公式fk*(0.4+0.6*(Fi-Fmin)/(Fmax-Fmin)),其中Fmax是指F1,F2,...Fn的最大值,Fmin是指F1,F2,...Fn的最小值,计算该歌曲包含的歌单标签tk的可信值;
筛选出该歌曲可信值较高的歌单标签作为该歌曲的歌曲标签;
判断是否还有其他歌曲,若是继续针对每一歌曲,算出其每个歌单标签的可信值,否则结束;
标签模糊匹配模块,用于利用编辑距离算法,将爬虫音乐标签记录与曲库音乐记录进行模糊匹配建立对应关系;
标签融合模块,用于以音乐标签体系的标签为基准,构建标签融合规则对曲库音乐记录进行标签融合,其中,所述融合规则如下:
统计爬虫音乐标签记录中的全部小类标签的频次,剔除频次低的小众标签,根据筛选后的小类标签,通过人工的方式构建音乐标签体系,对表述不同但是意义相同的标签构建映射规则,生成音乐标签体系的小类标签。
CN201610044080.XA 2016-01-22 2016-01-22 基于爬虫的贴音乐标签方法及系统 Active CN105718575B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610044080.XA CN105718575B (zh) 2016-01-22 2016-01-22 基于爬虫的贴音乐标签方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610044080.XA CN105718575B (zh) 2016-01-22 2016-01-22 基于爬虫的贴音乐标签方法及系统

Publications (2)

Publication Number Publication Date
CN105718575A CN105718575A (zh) 2016-06-29
CN105718575B true CN105718575B (zh) 2019-01-29

Family

ID=56153752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610044080.XA Active CN105718575B (zh) 2016-01-22 2016-01-22 基于爬虫的贴音乐标签方法及系统

Country Status (1)

Country Link
CN (1) CN105718575B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077509B (zh) * 2016-11-25 2021-03-16 深圳前海达闼云端智能科技有限公司 一种改进浏览体验的方法、装置和设备
CN106844504B (zh) * 2016-12-27 2019-10-11 广州酷狗计算机科技有限公司 一种发送歌单标识的方法和装置
CN111611429B (zh) * 2019-02-25 2023-05-12 北京嘀嘀无限科技发展有限公司 数据标注方法、装置、电子设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654859B (zh) * 2011-03-01 2014-04-23 北京彩云在线技术开发有限公司 一种歌曲推荐方法及系统
CN105138670A (zh) * 2015-09-06 2015-12-09 天翼爱音乐文化科技有限公司 音频文件标签生成方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003019560A2 (en) * 2001-08-27 2003-03-06 Gracenote, Inc. Playlist generation, delivery and navigation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102654859B (zh) * 2011-03-01 2014-04-23 北京彩云在线技术开发有限公司 一种歌曲推荐方法及系统
CN105138670A (zh) * 2015-09-06 2015-12-09 天翼爱音乐文化科技有限公司 音频文件标签生成方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于情感向量空间模型的歌曲情感标签预测模型";李静 等;《中文信息学报》;20121130;第26卷(第6期);第45-50,58页

Also Published As

Publication number Publication date
CN105718575A (zh) 2016-06-29

Similar Documents

Publication Publication Date Title
CN103793537B (zh) 一种基于多维时间序列分析的个性化音乐推荐系统及其实现方法
CN104731954B (zh) 基于群透视音乐推荐方法与系统
Bogdanov et al. Semantic audio content-based music recommendation and visualization based on user preference examples
CN105718575B (zh) 基于爬虫的贴音乐标签方法及系统
US20120174006A1 (en) System, method, apparatus and computer program for generating and modeling a scene
CN108509534A (zh) 基于深度学习的个性化音乐推荐系统及其实现方法
CN106447346A (zh) 一种智能电力客服系统的构建方法及系统
CN108959256A (zh) 短文本的生成方法、装置、存储介质和终端设备
CN108829658A (zh) 新词发现的方法及装置
CN102654859A (zh) 一种歌曲推荐方法及系统
CN103136275A (zh) 个性化视频推荐系统及方法
CN107391678A (zh) 基于聚类的网页内容信息提取方法
CN109446376A (zh) 一种通过分词对语音进行分类的方法及系统
CN101630315B (zh) 一种快速检索方法及系统
CN108766451A (zh) 一种音频文件处理方法、装置和存储介质
CN101446896A (zh) Mib文件编辑器
CN110442670B (zh) 一种基于文本标引的消费者画像生成方法
CN104142952B (zh) 报表展示方法和装置
CN111931022A (zh) Ai热点内容智能编辑系统
Zhuo et al. Video background music generation: Dataset, method and evaluation
CN102591931B (zh) 基于树权值的网页数据记录识别和抽取方法
CN103488819A (zh) 一种实现对知识地图进行多维展现的多维模型设计器
CN111008285A (zh) 一种基于论文关键属性网络的作者消歧方法
CN103106001A (zh) 对输入法候选项进行流媒体编辑的方法、客户端及系统
CN114612071A (zh) 一种基于知识图谱的数据管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant