CN103714079A - 基于曲库的音乐文件的匹配方法及系统 - Google Patents

基于曲库的音乐文件的匹配方法及系统 Download PDF

Info

Publication number
CN103714079A
CN103714079A CN201210376717.7A CN201210376717A CN103714079A CN 103714079 A CN103714079 A CN 103714079A CN 201210376717 A CN201210376717 A CN 201210376717A CN 103714079 A CN103714079 A CN 103714079A
Authority
CN
China
Prior art keywords
music file
index
information
music
index information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210376717.7A
Other languages
English (en)
Other versions
CN103714079B (zh
Inventor
李啸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Taile Culture Technology Co.,Ltd.
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201210376717.7A priority Critical patent/CN103714079B/zh
Publication of CN103714079A publication Critical patent/CN103714079A/zh
Application granted granted Critical
Publication of CN103714079B publication Critical patent/CN103714079B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于曲库的音乐文件的匹配方法及系统。其中,方法包括以下步骤:获得曲库中的多个音乐文件,其中,每个音乐文件包括歌曲名;分别根据每个音乐文件的歌曲名确定对应的音乐文件的多个索引信息;根据多个索引信息建立曲库中多个音乐文件的索引字典;接收新上传的音乐文件;根据新上传的音乐文件的歌曲名生成新上传的音乐文件的多个新索引信息;以及根据新上传的音乐文件的多个新索引信息与索引字典进行匹配,以判断新上传的音乐文件是否已存在于曲库之中。根据本发明实施例的方法,通过建立曲库中音乐文件的索引字典和新上传的音乐文件的索引,并在索引字典中匹配对应索引,因此提高了匹配的效率。

Description

基于曲库的音乐文件的匹配方法及系统
技术领域
本发明涉及音乐文件的匹配技术领域,特别涉及一种基于曲库的音乐文件的匹配方法及系统。
背景技术
随着互联网技术以及文化产业的发展,可以非常方便的利用互联网获取这种信息,例如在曲库中匹配歌曲。
然而,在曲库设计早期,由于收集大量第三方曲目,因此聚集了大量质量参差不齐的歌曲信息,严重妨碍了版权覆盖率、曲库元数据KPI统计。
现有的解决方案是,根据歌曲和歌手直接进行基于编辑距离的相似度匹配返回匹配结果,并根据返回结果判断是否与曲库中的音乐文件相匹配。
现有技术的缺点:根据歌曲名和歌手直接确定编辑距离的相似度,在匹配过程中错误率比较高,同时无法识别同一歌手的译名和别名、同一汉字的拼音和数字的不同表达形式,进而降低了正确匹配的准确率。
发明内容
本发明的目的旨在至少解决上述的技术缺陷之一。
为达到上述目的,本发明一方面的实施例提出一种基于曲库的音乐文件的匹配方法,包括以下步骤:获得曲库中的多个音乐文件,其中,所述每个音乐文件包括歌曲名;分别根据所述每个音乐文件的歌曲名确定对应的音乐文件的多个索引信息,其中,所述多个索引信息分别针对所述歌曲名中的不同字段;根据所述多个索引信息建立所述曲库中所述多个音乐文件的索引字典;接收新上传的音乐文件,其中,所述新上传的音乐文件包括歌曲名;根据所述新上传的音乐文件的歌曲名生成所述新上传的音乐文件的多个新索引信息,其中,所述多个新索引信息分别针对所述新上传的音乐文件的歌曲名中的不同字段;以及根据所述新上传的音乐文件的多个新索引信息与所述索引字典进行匹配,以判断所述新上传的音乐文件是否已存在于所述曲库之中。
根据本发明实施例的基于曲库的音乐文件的匹配方法,通过建立曲库中音乐文件的索引字典和新上传的音乐文件的索引,并在索引字典中匹配对应索引,因此提高了匹配的准确性和匹配的效率。
为达到上述目的,本发明的实施例另一方面提出一种基于曲库的音乐文件的匹配系统,包括:第一获取模块,用于获得曲库中的多个音乐文件,其中,所述每个音乐文件包括歌曲名;确定模块,用于分别根据所述每个音乐文件的歌曲名确定对应的音乐文件的多个索引信息,其中,所述多个索引信息分别针对所述歌曲名中的不同字段;索引字典模块,用于根据所述多个索引信息建立所述曲库中所述多个音乐文件的索引字典;接收模块,用于接收新上传的音乐文件,其中,所述新上传的音乐文件包括歌曲名;索引生成模块,用于根据所述新上传的音乐文件的歌曲名生成所述新上传的音乐文件的多个新索引信息,其中,所述多个新索引信息分别针对所述新上传的音乐文件的歌曲名中的不同字段;以及第一匹配判断模块,用于根据所述新上传的音乐文件的多个新索引信息与所述索引字典进行匹配,以判断所述新上传的音乐文件是否已存在于所述曲库之中。
根据本发明实施例的基于曲库的音乐文件的匹配系统,通过建立曲库中音乐文件的索引字典和新上传的音乐文件的索引,并在索引字典中匹配对应索引,因此提高了匹配的效率。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明一个实施例的基于曲库的音乐文件的匹配方法的流程图;
图2为根据本发明另一个实施例的基于曲库的音乐文件的匹配方法的流程图;
图3为根据本发明又一个实施例的基于曲库的音乐文件的匹配方法的流程图;
图4为根据本发明再一个实施例的基于曲库的音乐文件的匹配方法的流程图;
图5为根据本发明一个实施例的基于曲库的音乐文件的匹配系统的结构框图;
图6为根据本发明另一个实施例的基于曲库的音乐文件的匹配系统的结构框图;
图7为根据本发明又一个实施例的基于曲库的音乐文件的匹配系统的结构框图;以及
图8为根据本发明再一个实施例的基于曲库的音乐文件的匹配系统的结构框图。
具体实施方式
下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
在本发明的描述中,需要理解的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图1为本发明实施例的基于曲库的音乐文件的匹配方法的流程图。如图1所示,根据本发明实施例的基于曲库的音乐文件的匹配方法,包括以下步骤:
步骤S101,获得曲库中的多个音乐文件,其中,每个音乐文件包括歌曲名。
具体地,曲库中存放着很多音乐文件,并且每个音乐文件都包括相对应的歌曲名。通过获取曲库中的多个音乐文件,进而得到相应音乐文件对应的歌曲名。
步骤S102,分别根据每个音乐文件的歌曲名确定对应的音乐文件的多个索引信息,其中,多个索引信息分别针对歌曲名中的不同字段。
具体地,多个索引信息为音乐文件的歌曲名的头部索引信息、尾部索引信息、部分头部索引信息和部分尾部索引信息联合组成的索引信息。例如,曲库中歌曲信息为“原来的我-王杰”、“回乡的我-王建杰”和“原来的你-古巨基”时,对应的头部索引信息、尾部索引信息、部分头部索引信息和部分尾部索引信息联合组成的索引信息分别为如下表。
歌曲名   头部索引信息   尾部索引信息   头部和尾部结合的索引信息
原来的我   原来的   来的我   原来我
回乡的我   回乡的   乡的我   回乡我
原来的你   原来的   来的你   原来你
步骤S103,根据多个索引信息建立曲库中多个音乐文件的索引字典。
具体地,根据上述所曲库中音乐文件所生成的索引信息建立索引字典。例如,根据曲库中歌曲信息为“原来的我-王杰”、“回乡的我-王建杰”和“原来的你-古巨基”的索引信息,所建立的索引字典为如下表。
索引信息   歌曲名
原来的   原来的我、原来的你
回乡的   回乡的我
来的你   原来的你
乡的我   回乡的我
原来你   原来的你
步骤S104,接收新上传的音乐文件,其中,新上传的音乐文件包括歌曲名。
具体地,新上传的音乐文件包括相对应的歌曲名,通过获取新上传音乐文件,进而得到相应音乐文件对应的歌曲名。
步骤S105,根据新上传的音乐文件的歌曲名生成新上传的音乐文件的多个新索引信息,其中,多个新索引信息分别针对新上传的音乐文件的歌曲名中的不同字段。
具体地,根据新上传音乐文件的歌曲名生成的多个索引信息为音乐文件的歌曲名的头部索引信息、尾部索引信息、部分头部索引信息和部分尾部索引信息联合组成的索引信息。例如,新上传到的音乐文件的歌曲信息为“原来的我-王杰”,则对应的头部索引信息、尾部索引信息、部分头部索引信息和部分尾部索引信息联合组成的索引信息分别为“原来的”、“来的我”和“原来我”。
步骤S106,根据新上传的音乐文件的多个新索引信息与索引字典进行匹配。
具体地,根据新上传音乐文件的索引信息与索引字典中进行匹配。例如,歌曲信息为“原来的我-王杰”的新上传的音乐文件,其对应的索引信息为“原来的”、“来的我”和“原来我”,并与步骤S103中所形成的曲库中多个音乐文件的索引字典进行匹配,如果匹配则得到相对应的索引列表。例如,索引信息为“原来的”所对应的索引列表为“原来的我、原来的你”。
步骤S107,判断新上传的音乐文件是否存在于曲库中。
具体地,将新上传音乐文件的歌曲信息与匹配得到的索引列表中曲库中音乐文件的歌曲信息进行比较,进而判断新上传的音乐文件是否存在于曲库中。
步骤S108,当新上传音乐文件存在与曲库中时,则新上传的音乐文件丢弃不存放到曲库中。
如果新上传音乐文件不存在与曲库中时,将新上传的音乐文件存放到曲库中,并且更新曲库音乐文件的索引字典。
根据本发明实施例的基于曲库的音乐文件的匹配方法,通过建立曲库中音乐文件的索引字典和新上传的音乐文件的索引,并在索引字典中匹配对应索引,因此提高了匹配的效率。
图2为根据本发明另一个实施例的基于曲库的音乐文件的匹配方法的流程图。如图2所示,根据本发明实施例的基于曲库的音乐文件的匹配方法,包括下述步骤:
步骤S201,获得曲库中的多个音乐文件,其中,每个音乐文件包括歌曲名和歌曲附属信息,且歌曲附属信息为歌手或者专辑中的至少一种。
步骤S202,分别根据每个音乐文件的歌曲名确定对应的音乐文件的多个索引信息,其中,多个索引信息分别针对歌曲名中的不同字段。
步骤S203,根据多个索引信息建立曲库中多个音乐文件的索引字典,其中,索引字典中还包括歌曲附属信息。
具体地,根据曲库中音乐文件所生成的索引信息建立索引字典。例如,根据曲库中歌曲信息为“原来的我-王杰”、“回乡的我-王建杰”和“原来的你-古巨基”的索引信息,所建立的索引字典为如下表所述。
索引信息   歌曲名   歌曲附属信息
原来的   原来的我、原来的你   王杰、古巨基
回乡的   回乡的我   王建杰
来的你   原来的你   古巨基
乡的我   回乡的我   王建杰
原来你   原来的你   古巨基
步骤S204,接收新上传的音乐文件,其中,新上传的音乐文件包括歌曲名和歌曲附属信息。
步骤S205,根据新上传的音乐文件的歌曲名生成新上传的音乐文件的多个新索引信息,其中,多个新索引信息分别针对新上传的音乐文件的歌曲名中的不同字段。
步骤S206,根据新上传的音乐文件的多个新索引信息与索引字典进行匹配。
具体地,首先根据音乐文件歌曲名和音乐文件歌曲附属信息确定相似度确定对象的组合,其中,组合方式为“歌曲名+歌手”、“歌曲名+专辑”和“歌曲名+歌手+专辑”中的一种。然后,确定新上传音乐文件的歌曲名和歌曲附属信息与曲库中对应的歌曲名和歌曲附属信息的相似度,其中,歌曲附属信息的相似度为歌手的相似度或专辑的相似度中的至少一种。最后,分别确定组合为“歌曲名+歌手”、“歌曲名+专辑”或“歌曲名+歌手+专辑”的音乐文件的第一相似度、第二相似度或第三相似度,其中,第一相似度是按照歌曲名权重、歌手权重分别和对应的相似度相乘并相加得到的相似度,第二相似度是按照歌曲名权重和专辑权重分别和对应的相似度相乘并相加得到相似度,第三相似度是按照歌曲名权重、歌手权重和专辑权重分别和对应的相似度相乘并相加得到的相似度。
步骤S207,判断新上传的音乐文件是否存在于曲库中。
步骤S208,当新上传的音乐文件存在与曲库中时,则新上传的音乐文件丢弃不存放到曲库中。
如果新上传音乐文件不存在与曲库中时,将新上传的音乐文件存放到曲库中,并且更新曲库音乐文件的索引字典。
根据本发明实施例的基于曲库的音乐文件的匹配方法,通过为音乐文件添加歌曲附属信息,避免了相同歌曲名无法进一步识别的情况,因此提高了匹配的准确性。
图3为根据本发明又一个实施例的基于曲库的音乐文件的匹配方法的流程图。如图3所示,根据本发明实施例的基于曲库的音乐文件的匹配方法,包括下述步骤:
步骤301,获得曲库中的多个音乐文件,其中,每个音乐文件包括歌曲名和歌曲附属信息,且歌曲附属信息为歌手或者专辑中的至少一种。
步骤S302,对曲库中多个音乐文件进行预处理。具体地,
首先,将曲库中音乐文件信息的全角转换成半角,并且音乐文件信息为繁体中文时将繁体转换为简体。然后,删除音乐文件信息中的多余空格,并将特殊符号进行删除或相应转换处理。之后,将音乐文件信息中阿拉伯数字转换为汉字。最后,对音乐文件信息中歌手别名进行语义分析,并将歌手的别名转换为译名。
步骤S303,分别根据每个音乐文件的歌曲名确定对应的音乐文件的多个索引信息,其中,多个索引信息分别针对歌曲名中的不同字段。
步骤S304,根据多个索引信息建立曲库中多个音乐文件的索引字典,其中,索引字典中还包括歌曲附属信息。
步骤S305,接收新上传的音乐文件,其中,新上传的音乐文件包括歌曲名和歌曲附属信息。
步骤S306,对新上传的音乐文件进行预处理。具体地,
首先,将新上传音乐文件信息的全角转换成半角,并且音乐文件信息为繁体中文时将繁体转换为简体。然后,删除音乐文件信息中的多余空格,并将特殊符号进行删除或相应转换处理。之后,将音乐文件信息中阿拉伯数字转换为汉字。最后,对音乐文件信息中歌手别名进行语义分析,并将歌手的别名转换为译名。
步骤S307,根据新上传的音乐文件的歌曲名生成新上传的音乐文件的多个新索引信息,其中,多个新索引信息分别针对新上传的音乐文件的歌曲名中的不同字段。
步骤S308,根据新上传的音乐文件的多个新索引信息与索引字典进行匹配。
步骤S309,判断新上传的音乐文件是否存在于曲库中。
步骤S310,当新上传音乐文件存在与曲库中时,则新上传的音乐文件丢弃不存放到曲库中。
如果新上传音乐文件不存在与曲库中时,将新上传的音乐文件存放到曲库中,并且更新曲库音乐文件的索引字典。
根据本发明实施例的基于曲库的音乐文件的匹配方法,通过对音乐文件进行预处理,避免了音乐文件信息不统一造成的漏匹配的现象,提高了匹配的准确性。
图4为根据本发明再一个实施例的基于曲库的音乐文件的匹配方法的流程图。如图4所示,根据本发明实施例的基于曲库的音乐文件的匹配方法,包括下述步骤:
步骤401,获得曲库中的多个音乐文件,其中,每个音乐文件包括歌曲名和歌曲附属信息,且歌曲附属信息为歌手或者专辑中的至少一种。
步骤S402,对曲库中多个音乐文件进行预处理。
步骤S403,对曲库中多个音乐文件的歌曲名的文字类型及长度进行判断并进行处理。具体地,
首先,分析音乐文件中歌曲名是否为中文。如果歌曲名为中文,则进一步判断歌曲名的字符串长度是否大于第一索引信息字节长度,其中,第一索引信息字节长度为6字节。如果小于第一索引信息字节长度,则不为音乐文件建立索引信息。
如果歌曲名为非中文,则进一步判断歌曲名的字符串长度是否大于第二索引信息字节长度,其中,第二索引信息字节长度为8字节。如果小于第二索引信息字节长度,则不为音乐文件建立索引信息。
步骤S404,分别根据每个音乐文件的歌曲名确定对应的音乐文件的多个索引信息,其中,多个索引信息分别针对歌曲名中的不同字段。
步骤S405,根据多个索引信息建立曲库中多个音乐文件的索引字典,其中,索引字典中还包括歌曲附属信息。
步骤S406,接收新上传的音乐文件,其中,新上传的音乐文件包括歌曲名和歌曲附属信息。
步骤S407,对新上传的音乐文件进行预处理。
步骤S408,对新上传的音乐文件的歌曲名的文字类型及长度进行判断并进行处理。具体地,
首先,分析音乐文件中歌曲名是否为中文。如果歌曲名为中文,则进一步判断歌曲名的字符串长度是否大于第一索引信息字节长度,其中,第一索引信息字节长度为6字节。如果小于第一索引信息字节长度,则不为音乐文件建立索引信息。
如果歌曲名为非中文,则进一步判断歌曲名的字符串长度是否大于第二索引信息字节长度,其中,第二索引信息字节长度为8字节。如果小于第二索引信息字节长度,则不为音乐文件建立索引信息。
步骤S409,根据新上传的音乐文件的歌曲名生成新上传的音乐文件的多个新索引信息,其中,多个新索引信息分别针对新上传的音乐文件的歌曲名中的不同字段。
步骤S410,根据新上传的音乐文件的多个新索引信息与索引字典进行匹配。
步骤S411,判断新上传的音乐文件是否存在于曲库中。
步骤S412,当新上传音乐文件存在与曲库中时,则新上传的音乐文件丢弃不存放到曲库中。
如果新上传音乐文件不存在与曲库中时,将新上传的音乐文件存放到曲库中,并且更新曲库音乐文件的索引字典。
根据本发明实施例的基于曲库的音乐文件的匹配方法,通过对索引信息的长度进行限定,避免了索引信息过短或过长造成的匹配数据过多或遗漏的情况,提高了匹配的准确性。
下面结合说明书附图详细描述根据本发明实施例的基于曲库的音乐文件的匹配系统。
图5为根据本发明一个实施例的基于曲库的音乐文件的匹配系统的结构框图。如图5所示,根据本发明实施例的基于曲库的音乐文件的匹配系统包括:第一获取模块100、确定模块200、索引字典模块300、接收模块400、索引生成模块500和第一匹配判断模块600。
具体地,第一获取模块100用于获得曲库中的多个音乐文件,其中,每个音乐文件包括歌曲名。
确定模块200用于分别根据每个音乐文件的歌曲名确定对应的音乐文件的多个索引信息,其中,多个索引信息分别针对歌曲名中的不同字段,并且多个索引信息为音乐文件的歌曲名的头部索引信息、尾部索引信息、部分头部索引信息和部分尾部索引信息联合组成的索引信息。例如,曲库中歌曲信息为“原来的我-王杰”、“回乡的我-王建杰”和“原来的你-古巨基”时,对应的头部索引信息、尾部索引信息、部分头部索引信息和部分尾部索引信息联合组成的索引信息分别为如下表。
歌曲名   头部索引信息   尾部索引信息   头部和尾部结合的索引信息
原来的我   原来的   来的我   原来我
回乡的我   回乡的   乡的我   回乡我
原来的你   原来的   来的你   原来你
索引字典模块300用于根据多个索引信息建立曲库中多个音乐文件的索引字典。例如,根据曲库中歌曲信息为“原来的我-王杰”、“回乡的我-王建杰”和“原来的你-古巨基”的索引信息,所建立的索引字典为如下表。
索引信息   歌曲名
原来的   原来的我、原来的你
回乡的   回乡的我
来的你   原来的你
乡的我   回乡的我
原来你   原来的你
接收模块400用于接收新上传的音乐文件,其中,新上传的音乐文件包括歌曲名。
索引生成模块500用于根据新上传的音乐文件的歌曲名生成新上传的音乐文件的多个新索引信息,其中,多个新索引信息分别针对新上传的音乐文件的歌曲名中的不同字段。
在本发明的另一个实施例中,根据新上传音乐文件的歌曲名生成的多个索引信息为音乐文件的歌曲名的头部索引信息、尾部索引信息、部分头部索引信息和部分尾部索引信息联合组成的索引信息。例如,新上传到的音乐文件的歌曲信息为“原来的我-王杰”,则对应的头部索引信息、尾部索引信息、部分头部索引信息和部分尾部索引信息联合组成的索引信息分别为“原来的”、“来的我”和“原来我”。
第一匹配判断模块600用于根据新上传的音乐文件的多个新索引信息与索引字典进行匹配,以判断新上传的音乐文件是否已存在于曲库之中。在本发明的另一个实施例中,根据新上传音乐文件的索引信息与索引字典中进行匹配。例如,歌曲信息为“原来的我-王杰”的新上传的音乐文件,其对应的索引信息为“原来的”、“来的我”和“原来我”,并与索引字典模块300中所形成的曲库中多个音乐文件的索引字典进行匹配,如果匹配则得到相对应的索引列表。例如,索引信息为“原来的”所对应的索引列表为“原来的我、原来的你”。
根据本发明实施例的基于曲库的音乐文件的匹配系统,通过建立曲库中音乐文件的索引字典和新上传的音乐文件的索引,并在索引字典中匹配对应索引,因此提高了匹配的效率。
图6为根据本发明另一个实施例的基于曲库的音乐文件的匹配系统的结构框图。如图6所示,根据本发明实施例的基于曲库的音乐文件的匹配系统还包括第二获取模块700和第二匹配判断模块800。
第二获取模块700用于获得曲库中的多个音乐文件和新上传的音乐文件的歌曲附属信息。在本发明的另一个实施例中,根据曲库中音乐文件所生成的索引信息建立索引字典。例如,根据曲库中歌曲信息为“原来的我-王杰”、“回乡的我-王建杰”和“原来的你-古巨基”的索引信息,所建立的索引字典为如下表所述。
索引信息   歌曲名   歌曲附属信息
原来的   原来的我、原来的你   王杰、古巨基
回乡的   回乡的我   王建杰
来的你   原来的你   古巨基
乡的我   回乡的我   王建杰
原来你   原来的你   古巨基
第二匹配判断模块800用于判断新上传音乐文件的歌曲附属信息与对应的音乐文件的歌曲附属信息是否匹配,以判断新上传的音乐文件是否已存在于曲库之中。
在本发明的另一个实施例中,第二匹配判断模块800首先根据音乐文件歌曲名和音乐文件歌曲附属信息确定相似度确定对象的组合,其中,组合方式为“歌曲名+歌手”、“歌曲名+专辑”或“歌曲名+歌手+专辑”中的一种。然后,确定新上传音乐文件的歌曲名和歌曲附属信息与曲库中对应的歌曲名和歌曲附属信息的相似度,其中,歌曲附属信息的相似度为歌手的相似度或专辑的相似度中的至少一种。之后,分别确定组合为“歌曲名+歌手”、“歌曲名+专辑”或“歌曲名+歌手+专辑”的音乐文件的第一相似度、第二相似度或第三相似度,其中,第一相似度是按照歌曲名权重、歌手权重分别和对应的相似度相乘并相加得到的相似度,第二相似度是按照歌曲名权重和专辑权重分别和对应的相似度相乘并相加得到相似度,第三相似度是按照歌曲名权重、歌手权重和专辑权重分别和对应的相似度相乘并相加得到的相似度。最后,根据第一相似度、第二相似度或第三相似度的数值,判断新上传的音乐文件是否已存在于曲库之中。
根据本发明实施例的基于曲库的音乐文件的匹配系统,通过为音乐文件添加歌曲附属信息,避免了相同歌曲名无法进一步识别的情况,因此提高了匹配的准确性。
图7为根据本发明又一个实施例的基于曲库的音乐文件的匹配系统的结构框图。如图7所示,根据本发明实施例的基于曲库的音乐文件的匹配系统还包括预处理模块900。
预处理模块900用于对多个音乐文件和新上传的音乐文件进行预处理。
在本发明的一个实施例中,预处理模块900具体包括:第一转换单元、处理单元、第二转换单元和第三转换单元。具体地,第一转换单元,用于将音乐文件信息的全角转换成半角,并且音乐文件信息为繁体中文时将繁体转换为简体。处理单元,用于删除音乐文件信息中的多余空格,并将特殊符号进行处理。第二转换单元,用于将音乐文件信息中阿拉伯数字转换为汉字。第三转换单元,用于对音乐文件信息中歌手别名进行语义分析并将歌手的别名转换为译名。
根据本发明实施例的基于曲库的音乐文件的匹配系统,通过对音乐文件进行预处理,避免了音乐文件信息不统一造成的漏匹配的现象,提高了匹配的准确性。
图8为根据本发明再一个实施例的基于曲库的音乐文件的匹配系统的结构框图。如图8所示,根据本发明实施例的基于曲库的音乐文件的匹配系统还包括第一处理模块1000和第二处理模块1100。
第一处理模块1000用于当音乐文件中歌曲名为中文时对其进行处理。
第二处理模块1100用于当音乐文件中歌曲名不是中文时对其进行处理。
在本发明的一个实施例中,第一处理模块1000具体包括:判断单元,用于判断歌曲名的字符串长度是否大于第一索引信息字节长度,其中,第一索引信息字节长度为6字节。处理单元,用于当歌曲名的字符串长度小于第一索引信息字节长度时,则不为音乐文件建立索引信息。
在本发明的一个实施例中,第二处理模块1100具体包括:判断单元,用于判断歌曲名的字符串长度是否大于第二索引信息字节长度,其中,第二索引信息字节长度为8字节。处理单元,用于当歌曲名的字符串长度小于第一索引信息字节长度时,则不为音乐文件建立索引信息。
根据本发明实施例的基于曲库的音乐文件的匹配系统,通过对索引信息的长度进行限定,避免了索引信息过短或过长造成的匹配数据过多或遗漏的情况,提高了匹配的准确性。
应当理解,本发明的系统实施例中的各个模块和单元的具体操作过程可与方法实施例中的描述相同,此处不再详细描述。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (15)

1.一种基于曲库的音乐文件的匹配方法,其特征在于,包括以下步骤:
获得曲库中的多个音乐文件,其中,所述每个音乐文件包括歌曲名;
分别根据所述每个音乐文件的歌曲名确定对应的音乐文件的多个索引信息,其中,所述多个索引信息分别针对所述歌曲名中的不同字段;
根据所述多个索引信息建立所述曲库中所述多个音乐文件的索引字典;
接收新上传的音乐文件,其中,所述新上传的音乐文件包括歌曲名;
根据所述新上传的音乐文件的歌曲名生成所述新上传的音乐文件的多个新索引信息,其中,所述多个新索引信息分别针对所述新上传的音乐文件的歌曲名中的不同字段;以及
根据所述新上传的音乐文件的多个新索引信息与所述索引字典进行匹配,以判断所述新上传的音乐文件是否已存在于所述曲库之中。
2.根据权利要求1所述的基于曲库的音乐文件的匹配方法,其特征在于,所述每个音乐文件和所述新上传的音乐文件还包括歌曲附属信息,所述索引字典中还包括所述歌曲附属信息,在判断所述多个新索引信息与所述索引字典中对应的音乐文件的多个索引信息分别匹配之后,进一步判断所述新上传音乐文件的歌曲附属信息与所述对应的音乐文件的歌曲附属信息是否匹配,如果判断匹配,则判断所述新上传的音乐文件已存在于所述曲库之中。
3.根据权利要求1所述的基于曲库的音乐文件的匹配方法,其特征在于,还包括:
对所述多个音乐文件和所述新上传的音乐文件进行预处理。
4.根据权利要求3所述的基于曲库的音乐文件的匹配方法,其特征在于,所述对多个音乐文件和所述新上传的音乐文件进行预处理进一步包括:
将所述音乐文件信息的全角转换成半角,并且所述音乐文件信息为繁体中文时将繁体转换为简体;
删除所述音乐文件信息中的多余空格,并将特殊符号进行处理;
将所述音乐文件信息中阿拉伯数字转换为汉字;以及
对所述音乐文件信息中歌手别名进行语义分析并将所述歌手的别名转换为译名。
5.根据权利要求1所述的基于曲库的音乐文件的匹配方法,其特征在于,在确定对应的音乐文件的多个索引信息之前,还包括:
分析所述音乐文件中歌曲名是否为中文;
如果所述歌曲名为中文,则进一步判断所述歌曲名的字符串长度是否大于第一索引信息字节长度;
如果小于所述第一索引信息字节长度,则不为所述音乐文件建立所述索引信息。
6.根据权利要求5所述的基于曲库的音乐文件的匹配方法,其特征在于,还包括:
如果所述歌曲名为非中文,则进一步判断所述歌曲名的字符串长度是否大于第二索引信息字节长度,其中,所述第二索引信息字节长度大于所述第一索引信息字节长度;
如果小于所述第二索引信息字节长度,则不为所述音乐文件建立所述索引信息。
7.根据权利要求1所述的基于曲库的音乐文件的匹配方法,其特征在于,所述多个索引信息为音乐文件的歌曲名的头部索引信息、尾部索引信息、部分头部索引信息和部分尾部索引信息联合组成的索引信息。
8.一种基于曲库的音乐文件的匹配系统,其特征在于,包括:
第一获取模块,用于获得曲库中的多个音乐文件,其中,所述每个音乐文件包括歌曲名;
确定模块,用于分别根据所述每个音乐文件的歌曲名确定对应的音乐文件的多个索引信息,其中,所述多个索引信息分别针对所述歌曲名中的不同字段;
索引字典模块,用于根据所述多个索引信息建立所述曲库中所述多个音乐文件的索引字典;
接收模块,用于接收新上传的音乐文件,其中,所述新上传的音乐文件包括歌曲名;
索引生成模块,用于根据所述新上传的音乐文件的歌曲名生成所述新上传的音乐文件的多个新索引信息,其中,所述多个新索引信息分别针对所述新上传的音乐文件的歌曲名中的不同字段;以及
第一匹配判断模块,用于根据所述新上传的音乐文件的多个新索引信息与所述索引字典进行匹配,以判断所述新上传的音乐文件是否已存在于所述曲库之中。
9.根据权利要求8所述的基于曲库的音乐文件的匹配系统,其特征在于,所述系统还包括:
第二获取模块,用于获得所述曲库中的多个音乐文件和新上传的音乐文件的歌曲附属信息;
第二匹配判断模块,用于判断所述新上传音乐文件的歌曲附属信息与所述对应的音乐文件的歌曲附属信息是否匹配,以判断所述新上传的音乐文件是否已存在于所述曲库之中。
10.根据权利要求8所述的基于曲库的音乐文件的匹配系统,其特征在于,所述系统还包括:
预处理模块,用于对所述多个音乐文件和所述新上传的音乐文件进行预处理。
11.根据权利要求10所述的基于曲库的音乐文件的匹配系统,其特征在于,所述预处理模块具体包括:
第一转换单元,用于将所述音乐文件信息的全角转换成半角,并且所述音乐文件信息为繁体中文时将繁体转换为简体;
处理单元,用于删除所述音乐文件信息中的多余空格,并将特殊符号进行处理;
第二转换单元,用于将所述音乐文件信息中阿拉伯数字转换为汉字;以及
第三转换单元,用于对所述音乐文件信息中歌手别名进行语义分析并将所述歌手的别名转换为译名。
12.根据权利要求8所述的基于曲库的音乐文件的匹配系统,其特征在于,所述系统还包括:
第一处理模块,用于当所述音乐文件中歌曲名为中文时对其进行处理;以及
第二处理模块,用于当所述音乐文件中歌曲名不是中文时对其进行处理。
13.根据权利要求12所述的基于曲库的音乐文件的匹配系统,其特征在于,所述第一处理模块具体包括:
判断单元,用于判断所述歌曲名的字符串长度是否大于第一索引信息字节长度;
处理单元,用于当所述歌曲名的字符串长度小于所述第一索引信息字节长度时,则不为所述音乐文件建立所述索引信息。
14.根据权利要求12所述的基于曲库的音乐文件的匹配系统,其特征在于,所述第二处理模块具体包括:
判断单元,用于判断所述歌曲名的字符串长度是否大于第二索引信息字节长度,其中,所述第二索引信息字节长度大于所述第一索引信息字节长度;
处理单元,用于当所述歌曲名的字符串长度小于所述第一索引信息字节长度时,则不为所述音乐文件建立所述索引信息。
15.根据权利要求8所述的基于曲库的音乐文件的匹配系统,其特征在于,所述多个索引信息为音乐文件的歌曲名的头部索引信息、尾部索引信息、部分头部索引信息和部分尾部索引信息联合组成的索引信息。
CN201210376717.7A 2012-09-29 2012-09-29 基于曲库的音乐文件的匹配方法及系统 Active CN103714079B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210376717.7A CN103714079B (zh) 2012-09-29 2012-09-29 基于曲库的音乐文件的匹配方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210376717.7A CN103714079B (zh) 2012-09-29 2012-09-29 基于曲库的音乐文件的匹配方法及系统

Publications (2)

Publication Number Publication Date
CN103714079A true CN103714079A (zh) 2014-04-09
CN103714079B CN103714079B (zh) 2016-12-21

Family

ID=50407065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210376717.7A Active CN103714079B (zh) 2012-09-29 2012-09-29 基于曲库的音乐文件的匹配方法及系统

Country Status (1)

Country Link
CN (1) CN103714079B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108495183A (zh) * 2018-04-09 2018-09-04 广州酷狗计算机科技有限公司 显示专辑信息的方法和装置
CN108595709A (zh) * 2018-05-10 2018-09-28 阿里巴巴集团控股有限公司 基于区块链的音乐原创性分析方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4117755B2 (ja) * 1999-11-29 2008-07-16 ヤマハ株式会社 演奏情報評価方法、演奏情報評価装置および記録媒体
CN101650738A (zh) * 2009-09-16 2010-02-17 福州星网视易信息系统有限公司 卡拉ok歌曲的全向智能检索方法
CN101916250B (zh) * 2010-04-12 2011-10-19 电子科技大学 一种基于哼唱的音乐检索方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108495183A (zh) * 2018-04-09 2018-09-04 广州酷狗计算机科技有限公司 显示专辑信息的方法和装置
CN108495183B (zh) * 2018-04-09 2020-12-04 广州酷狗计算机科技有限公司 显示专辑信息的方法和装置
CN108595709A (zh) * 2018-05-10 2018-09-28 阿里巴巴集团控股有限公司 基于区块链的音乐原创性分析方法和装置
US10628485B2 (en) 2018-05-10 2020-04-21 Alibaba Group Holding Limited Blockchain-based music originality analysis method and apparatus

Also Published As

Publication number Publication date
CN103714079B (zh) 2016-12-21

Similar Documents

Publication Publication Date Title
CN101179472B (zh) 一种网络资源搜索方法及搜索系统
CN101430714B (zh) 一种基于样式的内容结构化加工方法及系统
CN103618668A (zh) 微博推送、接收方法及装置
CN103473230A (zh) 服务范围确定方法、物流服务提供方推荐方法及相应装置
CN101416179A (zh) 用来向每个用户提供调整推荐字的系统和方法及记录用来执行上述方法的程序的计算机可读记录介质
CN103957275A (zh) 用户评论信息的推送方法、客户端、服务器及系统
CN101727502A (zh) 一种数据查询方法及装置、系统
CN103020281A (zh) 一种基于空间数据数值索引的数据存储与检索方法
CN110807002B (zh) 一种基于工作流的报表生成方法、系统及设备和存储介质
CN103914300A (zh) 一种软件开发事务的实现方法及电子设备
CN104035993A (zh) 电子书的存储检索方法、电子书管理系统、阅读系统
CN103942245A (zh) 基于元数据的数据抽取方法
CN103778137A (zh) 一种博客内容搜索方法及系统
CN103678682A (zh) 基于抽象模板的海量栅格数据处理及管理方法
CN102346765A (zh) 一种查询内存数据的方法及装置
CN103034740B (zh) 一种原理图驱动版图的生成层次版图方法
CN103714079A (zh) 基于曲库的音乐文件的匹配方法及系统
CN102486775A (zh) 业务数据的查询方法及装置
CN103544036A (zh) 页面加载方法、终端及系统
CN105824926A (zh) 一种动态选择调用外部系统接口的方法
CN103116653B (zh) 基于属性匹配的服务资源搜索方法及系统
CN103269521A (zh) 智能终端数据快速分享方法
CN103886039A (zh) 应用检索的优化方法和装置
CN103838774A (zh) 网页查询系统及其查询方法
CN104462206A (zh) 一种通用的数据库序列生成方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160317

Address after: 100027 Haidian District, Qinghe Qinghe East Road, No. 23, building two, floor 2108, No., No. 18

Applicant after: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.

Address before: 100085 Beijing, Haidian District, No. ten on the ground floor, No. 10 Baidu building, layer three

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220414

Address after: 518057 3305, floor 3, building 1, aerospace building, No. 51, Gaoxin South ninth Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen, Guangdong

Patentee after: Shenzhen Taile Culture Technology Co.,Ltd.

Address before: 2108, floor 2, building 23, No. 18, anningzhuang East Road, Qinghe, Haidian District, Beijing 100027

Patentee before: BEIJING YINZHIBANG CULTURE TECHNOLOGY Co.,Ltd.