CN105005610B - 一种专辑分类方法和装置 - Google Patents

一种专辑分类方法和装置 Download PDF

Info

Publication number
CN105005610B
CN105005610B CN201510398318.4A CN201510398318A CN105005610B CN 105005610 B CN105005610 B CN 105005610B CN 201510398318 A CN201510398318 A CN 201510398318A CN 105005610 B CN105005610 B CN 105005610B
Authority
CN
China
Prior art keywords
decomposition
track number
title
keyword
album
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510398318.4A
Other languages
English (en)
Other versions
CN105005610A (zh
Inventor
杨井
黄镇
李磊
杨财智
殳亚军
杨翠花
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuxi Tvmining Juyuan Media Technology Co Ltd
Original Assignee
Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuxi Tvmining Juyuan Media Technology Co Ltd filed Critical Wuxi Tvmining Juyuan Media Technology Co Ltd
Priority to CN201510398318.4A priority Critical patent/CN105005610B/zh
Publication of CN105005610A publication Critical patent/CN105005610A/zh
Application granted granted Critical
Publication of CN105005610B publication Critical patent/CN105005610B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种专辑分类方法和装置,用以对专辑内的音视频文件属性进行区分和判断,实现对专辑进行快速类别判定的目的。其中,该方法包括:步骤A:获取待分类专辑中的全部音视频文件,提取所述全部音视频文件的标题和关键词,所述关键词用于标识各个音视频文件的语言类型、音乐类型及演唱者。步骤B:对所述全部音视频文件的标题和关键词进行分词操作,获取分词后的分解标题和分解关键词;步骤C:将所述分词后的分解标题和分解关键词按照词义特征进行聚类操作;步骤D:将最大聚类量对应的词义特征作为所述待分类专辑的类别属性,根据得出的类别属性确定所述待分类专辑的类别并对其进行归类。

Description

一种专辑分类方法和装置
技术领域
本发明涉及多媒体技术领域,特别涉及一种专辑分类方法和装置。
背景技术
随着互联网的发展,视频的影响力正在逐步增强,互联网上的视频数量也与日俱增。为了便于查找和观看,一些视频网站提供了将多个相关视频制作成一个音、视频专辑的形式的方法,专辑即为多个音频和/或视频的集合,用户只要找到这个音、视频专辑,就可以观看该音、视频专辑中的全部视频,而不需要分别另外查找。
但是随着音、视频专辑数量的增加,音、视频专辑名称和标签重复的现象不可避免,因此当某个用户需要查找某个音、视频专辑时,结果中往往出现大量的同名音、视频专辑,让用户无从选择。更有甚者,由于专辑名相同,可能导致不同歌手、风格完全不同的同名专辑被分类在同一类别下,这为使用者搜寻音视频造成了不便。
随着电子产业的蓬勃发展,电脑运算或存取的速度以及所能储存的数据量也不断地提高。而倘若储存的专辑未进行分类,使用者需在庞大的数据中搜寻想要观看的专辑,如此一来相当不便。因此,在现有技术中,使用者多利用手动方式来确定专辑的类别,以人工分类的方法,将专辑逐一分类至目录中。
然而,现有技术中的专辑分类方法,不仅相当耗费时间,而且倘若使用者欲更改其分类方式,则重新分类时势必又要花上许多时间。因此,现有技术中缺少一种快速、有效的专辑分类方法,以实现种类庞杂的音视频专辑进行自动分类的目的。
发明内容
本发明提供一种专辑分类方法和装置,用以对专辑内的音视频文件属性进行区分和判断,实现对专辑进行快速类别判定的目的。
本发明提供一种专辑分类方法,包括:
步骤A:获取待分类专辑中的全部音视频文件,提取所述全部音视频文件的标题和关键词,所述关键词用于标识各个音视频文件的语言类型、音乐类型及演唱者;
步骤B:对所述全部音视频文件的标题和关键词进行分词操作,获取分词后的分解标题和分解关键词;
步骤C:将所述分词后的分解标题和分解关键词按照词义特征进行聚类操作;
步骤D:将最大聚类量对应的词义特征作为所述待分类专辑的类别属性,根据得出的类别属性确定所述待分类专辑的类别并对其进行归类。
本发明实施例的一些有益效果可以包括:
该实施例首先通过获取待分类的专辑中的全部音视频文件,并提取音视频文件的标题和关键词,标题可以是音视频文件的文件名或专辑名等,关键词的作用为标识不同音视频文件的语言类型(如中文或英文)、音乐类型(如流行乐、民俗、摇滚等)、演唱者信息等。然后对标题和关键词进行分词,并对分词后的分解标题和分解关键词进行聚类操作,该聚类操作可以是根据分解标题和/或分解关键词的属性或类别,例如10个音视频文件中,有6个分解标题和/或分解关键词中包含“王菲”,则以“王菲”作为该10个音视频文件组成的专辑的类别属性,将该专辑分类到王菲类别中。通过本实施例的方法,能够快速确定该专辑的类别属性,且易于操作,提高了专辑分类的工作效率。
在一个实施例中,还包括:
步骤E:遍历专辑内的全部音视频文件,获取所述音乐专辑内已有音轨号音视频文件的音轨号,所述音轨号用于标识音视频文件在专辑中的顺序;
步骤F:将预先设定的备选音轨号中与所获取音轨号相同的音轨号去除,得到可用音轨号;
步骤G:从所述可用音轨号中确定所述专辑内未有音轨号音视频文件的音轨号,并将所确定的音轨号分配给未有音轨号的音视频文件;
步骤H:根据所述步骤G中的音轨号分配结果对全部音视频文件进行排序。
该实施例通过获取专辑内所有音视频文件的音轨号,其中音轨号的作用是为了标注各个音视频文件在专辑中的顺序。例如在专辑的全部10个音视频文件中,其中8个均有自己的音轨号,简单表示为1、2、3、4、5、6、8、10,将上述各音轨号与预先设定的备选音轨号进行比对,得到可用的音轨号,例如可以是与上述各音轨号不重复的音轨号。然后将可用的音轨号(如7、9)分配给专辑内没有音轨号的2个音视频文件,最后根据全部10个音视频文件的音轨号对10个音视频文件进行排序。本实施例的方法能够对专辑内杂乱无章的音视频文件进行排列,便于用于根据需求进行提取。
在一个实施例中,在所述步骤B之后还包括:
步骤I:预先设置上下位词库,所述上下位词库包含多个上位词及分别与所述多个上位词对应的下位词;
步骤J:将所述分词后的分解标题和分解关键词与所述上下位词库进行匹配,判断所述分解标题和所述分解关键词是否存在上位词;
步骤K:根据步骤J中的判断结果分别进行聚类操作。
该实施例为根据音视频文件的标题和/或关键词进行聚类操作的优选方法,还可以预先设置上下位词库,在进行分词操作后,将分词后的分解标题和/或分解关键词与上下位词库进行比对,如果分解标题和/或分解关键词存在上位词,还可以根据该上位词进行聚类操作。该实施例的方法充分考虑到了对于音视频文件的标题和/或关键词有关联的相关词,并将相关词也作为聚类操作的依据,因此,该聚类操作后的词义特征划分更加准确,为确定专辑的类别属性提供了更加准确的判断依据。
在一个实施例中,所述步骤K具体包括:
当所述分解标题和所述分解关键词分别具有不同的上位词时,分别对所述不同的上位词进行聚类操作;
当所述分解标题和所述分解关键词具有相同的上位词时,对所述相同的上位词进行聚类操作;
当所述分解标题和所述分解关键词其中之一具有上位词时,对该上位词和不具有上位词的分解标题或分解关键词进行聚类操作;
当所述分解标题和所述分解关键词均不具有上位词时,分别对所述分解标题和所述分解关键词进行聚类操作。
该实施例主要对分解标题和/或分解关键词存在上位词的情形下,如何确定分类操作的依据进行限定。如果二者具有相同的上位词,则表明二者具有共同的上位词的词义特征,则直接以该上位词进行聚类操作即可;如果二者之中仅有一个存在上位词,则可以同时以上位词和无上位词的分解标题或分解关键词作为聚类操作的依据;如果二者均没有上位词,本领域技术人员应当了解,只能以二者作为聚类操作的依据。该实施例的方法对于在判断分解标题和/或分解关键词是否存在上位词后,根据不同的判断结果,聚类操作的依据也不同,为如何确定聚类操作的基础和依据提供了解决办法。
在一个实施例中,所述步骤G具体包括:
将所述专辑内未有音轨号的歌曲按其歌曲名标题的首字母在字母表中的顺序进行排序;
如果存在首字母相同的未有音轨号的音视频文件,则将首字母相同且未有音轨号的音视频文件按照其标题首字母之后的字母在字母表中的顺序进行排序。
按照自然数顺序对所述可用音轨号进行排序;
从排序后的可用音轨号中依次为排序后的未有音轨号的音视频文件分配音轨号。
该实施例提供了一种对没有音轨号的音视频文件如何分配音轨号的方法,例如,没有音轨号的音视频文件的标题名分别为:《匆匆那年》、《红豆》、《致青春》,则上述各标题名的首字母分别为C、H、Z,即按照C、H、Z在字母表中的顺序对上述音视频文件进行排序。本领域技术人员应当了解,如果首字母相同,则以第2个字母在字母表中的顺序进行排序,以此类推。然后将可用的音轨号按照自然数顺序依次对排序后的没有音轨号的音视频文件进行分配,如7分配给匆匆那年、9分配给红豆、11分配给致青春。该实施例对如何分配音轨号进行详细限定,为用户提高了一种在专辑内音视频文件缺少对应音轨号时的分配解决办法,以便于根据音轨号对音视频文件进行排序。
一种专辑分类装置,包括:
信息获取模块,用于获取待分类专辑中的全部音视频文件,提取所述全部音视频文件的标题和关键词,所述关键词用于标识各个音视频文件的语言类型、音乐类型及演唱者;
分词操作模块,用于对所述全部音视频文件的标题和关键词进行分词操作,获取分词后的分解标题和分解关键词;
聚类操作模块,用于将所述分词后的分解标题和分解关键词按照词义特征进行聚类操作;
类别判定模块,用于将最大聚类量对应的词义特征作为所述待分类专辑的类别属性,根据得出的类别属性确定所述待分类专辑的类别并对其进行归类。
在一个实施例中,还包括:
音轨获取模块,用于遍历专辑内的全部音视频文件,获取所述音乐专辑内已有音轨号音视频文件的音轨号,所述音轨号用于标识音视频文件在专辑中的顺序;
音轨筛选模块,用于将预先设定的备选音轨号中与所获取音轨号相同的音轨号去除,得到可用音轨号;
音轨分配模块,用于从所述可用音轨号中确定所述专辑内未有音轨号音视频文件的音轨号,并将所确定的音轨号分配给未有音轨号的音视频文件;
文件排序模块,用于根据所述音轨分配模块得出的音轨号分配结果对全部音视频文件进行排序。
在一个实施例中,还包括:
词库预设模块,用于预先设置上下位词库,所述上下位词库包含多个上位词及分别与所述多个上位词对应的下位词;
词库匹配模块,用于将所述分词后的分解标题和分解关键词与所述上下位词库进行匹配,判断所述分解标题和所述分解关键词是否存在上位词;
判断执行模块,用于根据词库匹配模块的判断结果分别进行聚类操作。
在一个实施例中,所述判断执行模块具体包括:
第一执行子模块,用于当所述分解标题和所述分解关键词分别具有不同的上位词时,分别对所述不同的上位词进行聚类操作;
第二执行子模块,用于当所述分解标题和所述分解关键词具有相同的上位词时,对所述相同的上位词进行聚类操作;
第三执行子模块,用于当所述分解标题和所述分解关键词其中之一具有上位词时,对该上位词和不具有上位词的分解标题或分解关键词进行聚类操作;
第四执行子模块,用于当所述分解标题和所述分解关键词均不具有上位词时,分别对所述分解标题和所述分解关键词进行聚类操作。
在一个实施例中,所述音轨分配模块具体包括:
第一排序子模块,用于将所述专辑内未有音轨号的歌曲按其标题的首字母在字母表中的顺序进行排序;
第二排序子模块,用于如果存在首字母相同的未有音轨号的音视频文件,则将首字母相同且未有音轨号的音视频文件按照其标题首字母之后的字母在字母表中的顺序进行排序;
音轨排序子模块,按照自然数顺序对所述可用音轨号进行排序;
依次分配子模块,用于从排序后的可用音轨号中依次为排序后的未有音轨号的音视频文件分配音轨号。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种专辑分类方法的流程图;
图2为本发明实施例中另一种专辑分类方法的流程图;
图3为本发明实施例中又一种专辑分类方法的流程图;
图4为本发明实施例中一种专辑分类方法的步骤S303的流程图;
图5为本发明实施例中一种专辑分类方法的步骤S203的流程图;
图6为本发明具体实施例中一种专辑分类方法的流程图;
图7为本发明实施例中一种专辑分类装置的框图;
图8为本发明实施例中一种专辑分类装置的判断执行模块711的框图;
图9为本发明实施例中一种专辑分类装置的音轨分配模块707的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明实施例中一种专辑分类方法的流程图,如图1所示,包括以下步骤S101-S104:
步骤S101:获取待分类专辑中的全部音视频文件,提取所述全部音视频文件的标题和关键词,所述关键词用于标识各个音视频文件的语言类型、音乐类型及演唱者;
步骤S102:对所述全部音视频文件的标题和关键词进行分词操作,获取分词后的分解标题和分解关键词;
步骤S103:将所述分词后的分解标题和分解关键词按照词义特征进行聚类操作;
步骤S104:将最大聚类量对应的词义特征作为所述待分类专辑的类别属性,根据得出的类别属性确定所述待分类专辑的类别并对其进行归类。
该实施例首先通过获取待分类的专辑中的全部音视频文件,并提取音视频文件的标题和关键词,标题可以是音视频文件的文件名或专辑名等,关键词的作用为标识不同音视频文件的语言类型(如中文或英文)、音乐类型(如流行乐、民俗、摇滚等)、演唱者信息等。然后对标题和关键词进行分词,并对分词后的分解标题和分解关键词进行聚类操作,该聚类操作可以是根据分解标题和/或分解关键词的属性或类别,例如10个音视频文件中,有6个分解标题和/或分解关键词中包含“王菲”,则以“王菲”作为该10个音视频文件组成的专辑的类别属性,将该专辑分类到王菲类别中。通过本实施例的方法,能够快速确定该专辑的类别属性,且易于操作,提高了专辑分类的工作效率。
在一个实施例中,如图2所示,该方法还包括步骤S201-S204:
步骤S201:遍历专辑内的全部音视频文件,获取所述音乐专辑内已有音轨号音视频文件的音轨号,所述音轨号用于标识音视频文件在专辑中的顺序;
步骤S202:将预先设定的备选音轨号中与所获取音轨号相同的音轨号去除,得到可用音轨号;
步骤S203:从所述可用音轨号中确定所述专辑内未有音轨号音视频文件的音轨号,并将所确定的音轨号分配给未有音轨号的音视频文件;
步骤S204:根据所述步骤S203中的音轨号分配结果对全部音视频文件进行排序。
该实施例通过获取专辑内所有音视频文件的音轨号,其中音轨号的作用是为了标注各个音视频文件在专辑中的顺序。例如在专辑的全部10个音视频文件中,其中8个均有自己的音轨号,简单表示为1、2、3、4、5、6、8、10,将上述各音轨号与预先设定的备选音轨号进行比对,得到可用的音轨号,例如可以是与上述各音轨号不重复的音轨号。然后将可用的音轨号(如7、9)分配给专辑内没有音轨号的2个音视频文件,最后根据全部10个音视频文件的音轨号对10个音视频文件进行排序。本实施例的方法能够对专辑内杂乱无章的音视频文件进行排列,便于用于根据需求进行提取。
在一个实施例中,如图3所示,在所述步骤S102之后还包括:
步骤S301:预先设置上下位词库,所述上下位词库包含多个上位词及分别与所述多个上位词对应的下位词;
步骤S302:将所述分词后的分解标题和分解关键词与所述上下位词库进行匹配,判断所述分解标题和所述分解关键词是否存在上位词;
步骤S303:根据步骤S302中的判断结果分别进行聚类操作。
该实施例为根据音视频文件的标题和/或关键词进行聚类操作的优选方法,还可以预先设置上下位词库,在进行分词操作后,将分词后的分解标题和/或分解关键词与上下位词库进行比对,如果分解标题和/或分解关键词存在上位词,还可以根据该上位词进行聚类操作。该实施例的方法充分考虑到了对于音视频文件的标题和/或关键词有关联的相关词,并将相关词也作为聚类操作的依据,因此,该聚类操作后的词义特征划分更加准确,为确定专辑的类别属性提供了更加准确的判断依据。
在一个实施例中,如图4所示,所述步骤S303可实施为以下步骤S401-S404:
步骤S401:当所述分解标题和所述分解关键词分别具有不同的上位词时,分别对所述不同的上位词进行聚类操作;
步骤S402:当所述分解标题和所述分解关键词具有相同的上位词时,对所述相同的上位词进行聚类操作;
步骤S403:当所述分解标题和所述分解关键词其中之一具有上位词时,对该上位词和不具有上位词的分解标题或分解关键词进行聚类操作;
步骤S404:当所述分解标题和所述分解关键词均不具有上位词时,分别对所述分解标题和所述分解关键词进行聚类操作。
该实施例主要对分解标题和/或分解关键词存在上位词的情形下,如何确定分类操作的依据进行限定。如果二者具有相同的上位词,则表明二者具有共同的上位词的词义特征,则直接以该上位词进行聚类操作即可;如果二者之中仅有一个存在上位词,则可以同时以上位词和无上位词的分解标题或分解关键词作为聚类操作的依据;如果二者均没有上位词,本领域技术人员应当了解,只能以二者作为聚类操作的依据。该实施例的方法对于在判断分解标题和/或分解关键词是否存在上位词后,根据不同的判断结果,聚类操作的依据也不同,为如何确定聚类操作的基础和依据提供了解决办法。
在一个实施例中,如图5所示,所述步骤S203可实施为以下步骤S501-S504:
步骤S501:将所述专辑内未有音轨号的歌曲按其歌曲名标题的首字母在字母表中的顺序进行排序;
步骤S502:如果存在首字母相同的未有音轨号的音视频文件,则将首字母相同且未有音轨号的音视频文件按照其标题首字母之后的字母在字母表中的顺序进行排序。
步骤S503:按照自然数顺序对所述可用音轨号进行排序;
步骤S504:从排序后的可用音轨号中依次为排序后的未有音轨号的音视频文件分配音轨号。
该实施例提供了一种对没有音轨号的音视频文件如何分配音轨号的方法,例如,没有音轨号的音视频文件的标题名分别为:《匆匆那年》、《红豆》、《致青春》,则上述各标题名的首字母分别为C、H、Z,即按照C、H、Z在字母表中的顺序对上述音视频文件进行排序。本领域技术人员应当了解,如果首字母相同,则以第2个字母在字母表中的顺序进行排序,以此类推。然后将可用的音轨号按照自然数顺序依次对排序后的没有音轨号的音视频文件进行分配,如7分配给匆匆那年、9分配给红豆、11分配给致青春。该实施例对如何分配音轨号进行详细限定,为用户提供了一种在专辑内音视频文件缺少对应音轨号时的分配解决办法,以便于根据音轨号对音视频文件进行排序。
下面通过具体实施例来说明本发明实施例提供的专辑分类方法的流程图,如图6所示,包括以下步骤S601-S617:
步骤S601:获取待分类专辑中的全部音视频文件,提取所述全部音视频文件的标题和关键词,所述关键词用于标识各个音视频文件的语言类型、音乐类型及演唱者。
步骤S602:对所述全部音视频文件的标题和关键词进行分词操作,获取分词后的分解标题和分解关键词;
步骤S603:预先设置上下位词库,所述上下位词库包含多个上位词及分别与所述多个上位词对应的下位词;
步骤S604:将所述分词后的分解标题和分解关键词与所述上下位词库进行匹配,判断所述分解标题和所述分解关键词是否存在上位词;
步骤S605:当所述分解标题和所述分解关键词分别具有不同的上位词时,分别对所述不同的上位词进行聚类操作;
步骤S606:当所述分解标题和所述分解关键词具有相同的上位词时,对所述相同的上位词进行聚类操作;
步骤S607:当所述分解标题和所述分解关键词其中之一具有上位词时,对该上位词和不具有上位词的分解标题或分解关键词进行聚类操作;
步骤S608:当所述分解标题和所述分解关键词均不具有上位词时,分别对所述分解标题和所述分解关键词进行聚类操作。
步骤S609:将所述分词后的分解标题和分解关键词按照词义特征进行聚类操作;
步骤S610:将最大聚类量对应的词义特征作为所述待分类专辑的类别属性,根据得出的类别属性确定所述待分类专辑的类别并对其进行归类。
步骤S611:遍历专辑内的全部音视频文件,获取所述音乐专辑内已有音轨号音视频文件的音轨号,所述音轨号用于标识音视频文件在专辑中的顺序;
步骤S612:将预先设定的备选音轨号中与所获取音轨号相同的音轨号去除,得到可用音轨号;
步骤S613:将所述专辑内未有音轨号的歌曲按其歌曲名标题的首字母在字母表中的顺序进行排序;
步骤S614:如果存在首字母相同的未有音轨号的音视频文件,则将首字母相同且未有音轨号的音视频文件按照其标题首字母之后的字母在字母表中的顺序进行排序。
步骤S615:按照自然数顺序对所述可用音轨号进行排序;
步骤S616:从排序后的可用音轨号中依次为排序后的未有音轨号的音视频文件分配音轨号。
步骤S617:根据所述步骤S616中的音轨号分配结果对全部音视频文件进行排序。
对应于上述实施例提供的一种专辑分类方法,本发明实施例还提供一种专辑分类装置,如图7所示,包括:
信息获取模块701,用于获取待分类专辑中的全部音视频文件,提取所述全部音视频文件的标题和关键词,所述关键词用于标识各个音视频文件的语言类型、音乐类型及演唱者;
分词操作模块702,用于对所述全部音视频文件的标题和关键词进行分词操作,获取分词后的分解标题和分解关键词;
聚类操作模块703,用于将所述分词后的分解标题和分解关键词按照词义特征进行聚类操作;
类别判定模块704,用于将最大聚类量对应的词义特征作为所述待分类专辑的类别属性,根据得出的类别属性确定所述待分类专辑的类别并对其进行归类。
音轨获取模块705,用于遍历专辑内的全部音视频文件,获取所述音乐专辑内已有音轨号音视频文件的音轨号,所述音轨号用于标识音视频文件在专辑中的顺序;
音轨筛选模块706,用于将预先设定的备选音轨号中与所获取音轨号相同的音轨号去除,得到可用音轨号;
音轨分配模块707,用于从所述可用音轨号中确定所述专辑内未有音轨号音视频文件的音轨号,并将所确定的音轨号分配给未有音轨号的音视频文件;
文件排序模块708,用于根据所述音轨分配模块707得出的音轨号分配结果对全部音视频文件进行排序。
词库预设模块709,用于预先设置上下位词库,所述上下位词库包含多个上位词及分别与所述多个上位词对应的下位词;
词库匹配模块710,用于将所述分词后的分解标题和分解关键词与所述上下位词库进行匹配,判断所述分解标题和所述分解关键词是否存在上位词;
判断执行模块711,用于根据词库匹配模块的判断结果分别进行聚类操作。
在一个实施例中,如图8所示,所述判断执行模块711具体包括:
第一执行子模块7111,用于当所述分解标题和所述分解关键词分别具有不同的上位词时,分别对所述不同的上位词进行聚类操作;
第二执行子模块7112,用于当所述分解标题和所述分解关键词具有相同的上位词时,对所述相同的上位词进行聚类操作;
第三执行子模块7113,用于当所述分解标题和所述分解关键词其中之一具有上位词时,对该上位词和不具有上位词的分解标题或分解关键词进行聚类操作;
第四执行子模块7114,用于当所述分解标题和所述分解关键词均不具有上位词时,分别对所述分解标题和所述分解关键词进行聚类操作。
在一个实施例中,如图9所示,所述音轨分配模块707具体包括:
第一排序子模块7071,用于将所述专辑内未有音轨号的歌曲按其标题的首字母在字母表中的顺序进行排序;
第二排序子模块7072,用于如果存在首字母相同的未有音轨号的音视频文件,则将首字母相同且未有音轨号的音视频文件按照其标题首字母之后的字母在字母表中的顺序进行排序;
音轨排序子模块7073,按照自然数顺序对所述可用音轨号进行排序;
依次分配子模块7074,用于从排序后的可用音轨号中依次为排序后的未有音轨号的音视频文件分配音轨号。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种专辑分类方法,其特征在于,包括:
步骤A:获取待分类专辑中的全部音视频文件,提取所述全部音视频文件的标题和关键词,所述关键词用于标识各个音视频文件的语言类型、音乐类型及演唱者;
步骤B:对所述全部音视频文件的标题和关键词进行分词操作,获取分词后的分解标题和分解关键词;
步骤C:将所述分词后的分解标题和分解关键词按照语义特征进行聚类操作;
步骤D:将最大聚类量对应的语义特征作为所述待分类专辑的类别属性,根据得出的类别属性确定所述待分类专辑的类别并对其进行归类;
在所述步骤B之后还包括:
步骤I:预先设置上下位词库,所述上下位词库包含多个上位词及分别与所述多个上位词对应的下位词;
步骤J:将所述分词后的分解标题和分解关键词与所述上下位词库进行匹配,判断所述分解标题和所述分解关键词是否存在上位词;
步骤K:根据步骤J中的判断结果分别进行聚类操作;
所述步骤K具体包括:
当所述分解标题和所述分解关键词分别具有不同的上位词时,分别对所述不同的上位词进行聚类操作;
当所述分解标题和所述分解关键词具有相同的上位词时,对所述相同的上位词进行聚类操作;
当所述分解标题和所述分解关键词其中之一具有上位词时,对该上位词和不具有上位词的分解标题或分解关键词进行聚类操作;
当所述分解标题和所述分解关键词均不具有上位词时,分别对所述分解标题和所述分解关键词进行聚类操作;
步骤E:遍历专辑内的全部音视频文件,获取所述专辑内已有音轨号音视频文件的音轨号,所述音轨号用于标识音视频文件在专辑中的顺序;
步骤F:将预先设定的备选音轨号中与所获取音轨号相同的音轨号去除,得到可用音轨号;
步骤G:从所述可用音轨号中确定所述专辑内未有音轨号音视频文件的音轨号,并将所确定的音轨号分配给未有音轨号的音视频文件;
步骤H:根据所述步骤G中的音轨号分配结果对全部音视频文件进行排序。
2.如权利要求1所述的专辑分类方法,其特征在于,所述步骤G具体包括:
将所述专辑内未有音轨号的歌曲按其歌曲名标题的首字母在字母表中的顺序进行排序;
如果存在首字母相同的未有音轨号的音视频文件,则将首字母相同且未有音轨号的音视频文件按照其标题首字母之后的字母在字母表中的顺序进行排序;
按照自然数顺序对所述可用音轨号进行排序;
从排序后的可用音轨号中依次为排序后的未有音轨号的音视频文件分配音轨号。
3.一种专辑分类装置,其特征在于,包括:
信息获取模块,用于获取待分类专辑中的全部音视频文件,提取所述全部音视频文件的标题和关键词,所述关键词用于标识各个音视频文件的语言类型、音乐类型及演唱者;
分词操作模块,用于对所述全部音视频文件的标题和关键词进行分词操作,获取分词后的分解标题和分解关键词;
聚类操作模块,用于将所述分词后的分解标题和分解关键词按照词义特征进行聚类操作;
类别判定模块,用于将最大聚类量对应的词义特征作为所述待分类专辑的类别属性,根据得出的类别属性确定所述待分类专辑的类别并对其进行归类;
还包括:
词库预设模块,用于预先设置上下位词库,所述上下位词库包含多个上位词及分别与所述多个上位词对应的下位词;
词库匹配模块,用于将所述分词后的分解标题和分解关键词与所述上下位词库进行匹配,判断所述分解标题和所述分解关键词是否存在上位词;
判断执行模块,用于根据词库匹配模块的判断结果分别进行聚类操作;
所述判断执行模块具体包括:
第一执行子模块,用于当所述分解标题和所述分解关键词分别具有不同的上位词时,分别对所述不同的上位词进行聚类操作;
第二执行子模块,用于当所述分解标题和所述分解关键词具有相同的上位词时,对所述相同的上位词进行聚类操作;
第三执行子模块,用于当所述分解标题和所述分解关键词其中之一具有上位词时,对该上位词和不具有上位词的分解标题或分解关键词进行聚类操作;
第四执行子模块,用于当所述分解标题和所述分解关键词均不具有上位词时,分别对所述分解标题和所述分解关键词进行聚类操作;
音轨获取模块,用于遍历专辑内的全部音视频文件,获取所述专辑内已有音轨号音视频文件的音轨号,所述音轨号用于标识音视频文件在专辑中的顺序;
音轨筛选模块,用于将预先设定的备选音轨号中与所获取音轨号相同的音轨号去除,得到可用音轨号;
音轨分配模块,用于从所述可用音轨号中确定所述专辑内未有音轨号音视频文件的音轨号,并将所确定的音轨号分配给未有音轨号的音视频文件;
文件排序模块,用于根据所述音轨分配模块得出的音轨号分配结果对全部音视频文件进行排序。
4.如权利要求3所述的专辑分类装置,其特征在于,所述音轨分配模块具体包括:
第一排序子模块,用于将所述专辑内未有音轨号的歌曲按其标题的首字母在字母表中的顺序进行排序;
第二排序子模块,用于如果存在首字母相同的未有音轨号的音视频文件,则将首字母相同且未有音轨号的音视频文件按照其标题首字母之后的字母在字母表中的顺序进行排序;
音轨排序子模块,按照自然数顺序对所述可用音轨号进行排序;
依次分配子模块,用于从排序后的可用音轨号中依次为排序后的未有音轨号的音视频文件分配音轨号。
CN201510398318.4A 2015-07-08 2015-07-08 一种专辑分类方法和装置 Expired - Fee Related CN105005610B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510398318.4A CN105005610B (zh) 2015-07-08 2015-07-08 一种专辑分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510398318.4A CN105005610B (zh) 2015-07-08 2015-07-08 一种专辑分类方法和装置

Publications (2)

Publication Number Publication Date
CN105005610A CN105005610A (zh) 2015-10-28
CN105005610B true CN105005610B (zh) 2019-09-13

Family

ID=54378286

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510398318.4A Expired - Fee Related CN105005610B (zh) 2015-07-08 2015-07-08 一种专辑分类方法和装置

Country Status (1)

Country Link
CN (1) CN105005610B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105631033B (zh) * 2015-12-31 2020-06-19 北京奇艺世纪科技有限公司 一种视频数据的挖掘方法和装置
CN105975513A (zh) * 2016-04-27 2016-09-28 天脉聚源(北京)传媒科技有限公司 一种批量设置视频资源的标识的方法及装置
CN106202562B (zh) * 2016-07-29 2020-01-31 厦门天锐科技股份有限公司 一种降低敏感信息误判率的方法
CN107193878B (zh) * 2017-04-24 2020-03-06 维沃移动通信有限公司 一种歌单的自动命名方法及移动终端
CN107180027B (zh) * 2017-05-17 2020-05-05 海信集团有限公司 语音控制业务分类方法及装置
CN110765115A (zh) * 2019-09-27 2020-02-07 上海麦克风文化传媒有限公司 一种多个排序类别组合方法
CN112749299A (zh) * 2019-10-31 2021-05-04 北京国双科技有限公司 确定视频类型的方法、装置、电子设备及可读存储介质
CN112612919A (zh) * 2020-12-16 2021-04-06 北京字节跳动网络技术有限公司 一种视频资源的关联方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN103247311A (zh) * 2013-03-19 2013-08-14 北京小米科技有限责任公司 为音乐专辑内歌曲生成音轨号的方法、装置及终端
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102831128A (zh) * 2011-06-15 2012-12-19 富士通株式会社 一种对互联网上的同名人物信息进行分类的方法及装置
CN103247311A (zh) * 2013-03-19 2013-08-14 北京小米科技有限责任公司 为音乐专辑内歌曲生成音轨号的方法、装置及终端
CN104090955A (zh) * 2014-07-07 2014-10-08 科大讯飞股份有限公司 一种音视频标签自动标注方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于视觉词模糊权重的视频语义标注";霍华 等;《计算机工程》;20120731;第38卷(第13期);第131-133页 *
"多标签数据挖掘技术:研究综述";李思男 等;《计算机科学》;20130430;第40卷(第4期);第14-21页 *

Also Published As

Publication number Publication date
CN105005610A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
CN105005610B (zh) 一种专辑分类方法和装置
US20200184152A1 (en) Automatic Semantic Rating and Abstraction of Literature
KR101648204B1 (ko) 콘텐트 아이템들의 컬렉션과 연관하여 메타데이터 생성
Leban et al. Event registry: learning about world events from news
JP5886733B2 (ja) 映像群再構成・要約装置、映像群再構成・要約方法及び映像群再構成・要約プログラム
US20130294746A1 (en) System and method of generating multimedia content
US20160227282A1 (en) Methods and systems for aggregation and organization of multimedia data acquired from a plurality of sources
US20130254209A1 (en) Consensus search device and method
CN101404036B (zh) PowerPoint电子演示文稿的关键词抽取方法
CN101727447A (zh) 基于url的正则表达式的生成方法和装置
CN107665217A (zh) 一种用于搜索业务的词汇处理方法及系统
JP2007041721A (ja) 情報分類方法およびプログラム、装置および記録媒体
CN103984741A (zh) 用户属性信息提取方法及其系统
CN102428467A (zh) 用于分类的基于相似度的特征集补充
CN105930423A (zh) 多媒体相似度确定方法、装置以及多媒体推荐方法
CN103412880A (zh) 一种用于确定多媒体资源间隐式关联信息的方法与设备
Choi et al. Chrological big data curation: A study on the enhanced information retrieval system
KR102281266B1 (ko) 영상 내 자막 키워드 추출 및 순위 산정 시스템 및 방법
CN105447073A (zh) 标签赋予装置及方法
Wang et al. Constructing learning maps for lecture videos by exploring wikipedia knowledge
Kesharwani et al. Movie rating prediction based on: twitter sentiment analysis
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
Tan et al. Placing videos on a semantic hierarchy for search result navigation
Ibrahim et al. Large-scale text-based video classification using contextual features
Messina et al. Creating rich metadata in the TV broadcast archives environment: The Prestospace project

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An album classification method and device

Effective date of registration: 20210104

Granted publication date: 20190913

Pledgee: Inner Mongolia Huipu Energy Co.,Ltd.

Pledgor: WUXI TVMINING MEDIA SCIENCE & TECHNOLOGY Co.,Ltd.

Registration number: Y2020990001517

PE01 Entry into force of the registration of the contract for pledge of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190913

Termination date: 20210708

CF01 Termination of patent right due to non-payment of annual fee