CN107656958B - 一种多数据源数据的归类方法及服务器 - Google Patents

一种多数据源数据的归类方法及服务器 Download PDF

Info

Publication number
CN107656958B
CN107656958B CN201710433356.8A CN201710433356A CN107656958B CN 107656958 B CN107656958 B CN 107656958B CN 201710433356 A CN201710433356 A CN 201710433356A CN 107656958 B CN107656958 B CN 107656958B
Authority
CN
China
Prior art keywords
data
tag along
along sort
multimedia information
information platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710433356.8A
Other languages
English (en)
Other versions
CN107656958A (zh
Inventor
余良灵
戴从建
方黄威
叶伟伟
李孝华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710433356.8A priority Critical patent/CN107656958B/zh
Priority to PCT/CN2017/099711 priority patent/WO2018223534A1/zh
Publication of CN107656958A publication Critical patent/CN107656958A/zh
Application granted granted Critical
Publication of CN107656958B publication Critical patent/CN107656958B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种多数据源数据的归类方法,用于解决现有多媒体信息平台分类标签标准不统一,信息归类混乱的问题。本发明提供的方法包括:根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;从所述各个目标数据中提取各个关键字;分别统计各个关键字在所述各个目标数据中标题位置出现的第一词频以及在内容位置出现的第二词频;根据所述第一词频、所述第二词频以及对应的第一权重、对应的第二权重分别计算各个所述关键字的词语热度值;将词语热度值最高的所述关键字确定为新的分类标签;采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。本发明还提供一种多数据源数据的归类服务器。

Description

一种多数据源数据的归类方法及服务器
技术领域
本发明涉及数据处理技术领域,尤其涉及一种多数据源数据的归类方法及服务器。
背景技术
随着互联网用户对信息的多元化要求越来越高。在构建、维护互联网产品时,需要花费大量的人力、资金来维护产品的多元化信息,以便可以尽可能快地将最新的咨询推送给互联网用户。
目前,多媒体信息平台,如音视频平台、文本信息平台等,一般采取整合来自第三方数据源的数据的方式为用户提供多元化的、及时的多媒体信息。在整合多家第三方数据源的数据时,往往需要对这些来自不同地方的数据进行归类,才能在平台上展示时,使得这些数据井然有序。
现有的多媒体信息平台一般直接根据第三方数据源提供数据时一并提供的标签对这些数据进行分类。然而,由于多家第三方数据源各自对数据的分类标准不统一,直接采用第三方数据源提供的标签进行分类,往往难以融合多家第三方数据源的数据在同一个平台上,使得平台上展现的多媒体信息产生混乱,难以达到归类的效果。
发明内容
本发明实施例提供了一种多数据源数据的归类方法及服务器,能够确定融合多媒体信息平台上的数据的分类标签,为多媒体信息平台对平台上数据的归类整理提供基础,使得多媒体信息平台归类后的数据井然有序,提高归类所追求的效果。
第一方面,提供了一种多数据源数据的归类方法,包括:
根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;
从所述各个目标数据中提取各个关键字;
分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;
分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;
根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;
将词语热度值最高的所述关键字确定为新的分类标签;
采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。
第二方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有多数据源数据的归类程序,所述多数据源数据的归类程序被至少一个处理器执行时,实现如下步骤:
根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;
从所述各个目标数据中提取各个关键字;
分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;
分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;
根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;
将词语热度值最高的所述关键字确定为新的分类标签;
采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。
第三方面,提供了一种服务器,所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多数据源数据的归类程序,所述处理器执行所述多数据源数据的归类程序时实现如下步骤:
根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;
从所述各个目标数据中提取各个关键字;
分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;
分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;
根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;
将词语热度值最高的所述关键字确定为新的分类标签;
采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明实施例中,首先,根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;然后,从所述各个目标数据中提取各个关键字;接着,分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;次之,根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;将词语热度值最高的所述关键字确定为新的分类标签;最后,采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。通过上述步骤,可以根据目标数据中各个关键字的词语热度,从中挑选出词语热度最高的关键字确定为新的分类标签,由于这个新的分类标签是根据多媒体信息平台上的数据确定出来的,其可以融合多媒体信息平台上的数据,不会受到第三方数据源分类标准的影响,从而为多媒体信息平台对平台上数据的归类整理提供了基础,可以使得多媒体信息平台归类后的数据井然有序,提高归类所追求的效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种多数据源数据的归类方法第一个实施例流程图;
图2为本发明实施例中一种多数据源数据的归类方法第二个实施例流程图;
图3是本发明实施例提供的多数据源数据的归类程序的运行环境示意图;
图4是本发明实施例提供的多数据源数据的归类程序的功能模块图。
具体实施方式
本发明实施例提供了一种多数据源数据的归类方法及服务器,用于解决现有多媒体信息平台分类标签标准不统一,信息归类混乱的问题。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明一部分实施例,而非全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例中一种多数据源数据的归类方法第一个实施例包括:
101、根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;
本实施例中所说的目标数据,是指所述归类方法生成新的归类标签所针对或者所指向的数据,这些目标数据是属于多媒体信息平台上展示的数据,其既可以是多媒体信息平台上已贴上其它标签的数据,也可以是未贴上标签的数据,但必须是多媒体信息平台已从第三方数据源中获取得到的数据。可以理解的是,多媒体信息平台从第三方数据源中获取到新的数据(一般为多媒体信息)之后,这些新的数据要么未贴上相应的标签,要么贴上的是第三方数据源提供数据之前已贴上的标签。因此,这些新的数据对于多媒体信息平台而言,是未经过整理归类的,可以将其确定为目标数据。
一般来说,在确定目标数据时,至少可以包括以下两种方式:第一种方式是,将所述多媒体信息平台展示的数据中最近获取的数据确定为所述目标数据,所述最近获取的数据为所述多媒体信息平台在距离当前时间的预设时间长度内从第三方数据源处获取的数据;第二种方式,将所述多媒体信息平台展示的数据中未贴有分类标签的数据确定为所述目标数据。
可以理解的是,对于上述第一种方式,即将多媒体信息平台最近一段时间按新获取到的数据确定为目标数据,对于信息归类而言,针对新的数据进行归类和整理相比归类旧数据的意义更大,在当今信息快速喷发的时代,平台的用户也往往更加关心全新的咨询、信息和数据。对于上述第二种方式,也即将未贴有分类标签的数据确定为目标数据,这里需要注意的是,这里所说的“未贴有分类标签”可以是指未贴有多媒体信息平台提供的标签,也可以是指未贴有任何标签(包括第三方数据源提供的标签),在实际应用中,具体选择哪种情境下的“未贴有分类标签”的数据作为目标数据,可以根据具体情况而定。
需要说明的是,上述的“各个目标数据”是指步骤101确定出的目标数据往往不止一个,一般来说是多个甚至巨量数目的目标数据,这些目标数据的表现形式可以是文件、数据包等,为便于理解和应用,在实际使用时,一般将一个多媒体文件作为一个目标数据来看待。因此,这里的“各个目标数据”往往包括多个多媒体文件。
102、从所述各个目标数据中提取各个关键字;
在确定各个目标数据之后,可以理解的是,可以从这些目标数据中提取出一个、两个或者多个关键字。一般来说,可以提取到多个关键字。这里的关键字可以为英文、数字、中文以及其它文字的任意结合,也可以是单个的字母、数字、符号,或者词语、单词,等等。
具体地,在提取关键字时,针对不同的目标数据的格式,可以采用不同的方法对这些目标数据进行处理和提取关键字,上述步骤102可以包括:若所述目标数据为音频数据,则对所述音频数据进行音频识别,得到音频文本信息;若所述目标数据为视频数据,则对所述视频数据进行图像识别,得到视频文本信息;若所述目标数据为文本数据,则对所述文本数据进行数据清洗,得到清洗后的文本信息;采用正向最大匹配算法从所述音频文本信息、所述视频文本信息和/或所述清洗后的文本信息中提取得到各个关键字。
可以理解的是,针对音频格式的目标数据或者视频格式的目标数据,可以采用音频识别技术或者图像识别技术将这些目标数据转换成文本信息;而对于原本就是本文信息的目标数据,为了提取的方便和高效,可以进行数据清洗。这些说的数据清洗可以具体包括:对文本信息进行必要的处理,比如大写转小写、全角转半角;检查数据一致性;处理无效值和缺失值;等等。在得到这些文本信息(音频文本信息、所述视频文本信息和/或所述清洗后的文本信息)之后,可以采用正向最大匹配算法从这些文本信息中提取得到各个关键字,具体可以是,对英文分词处理,识别出文本信息中的英文词;对中文数量词处理:用来识别文本信息中的中文数量词,比如"八斤","一两";对中文分词处理:识别出文本信息中的中文词,可以采用了机械分词法,比如按照机械分词法对"公路局"分词的提取结果是"公路局";等等。关于提取关键字的技术内容,本实施例中不做具体限定。
103、分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;
104、分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;
对于上述步骤103和步骤104,可以理解的是,对于多媒体信息而言,一般来说,标题位置出现的关键字比内容位置(摘要或正文)出现的关键字要更加重要,标题位置的信息也往往是一个多媒体信息或多媒体文件的主要信息和总结性的信息。因此,本实施例中,需要分别考量关键字在标题位置出现的词频和在内容位置出现的词频,分别统计为第一词频和第二词频。
105、根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;
对于步骤105,由上述内容可知,由于关键字出现在一个目标数据的标题位置和内容位置两种情况,这个关键字对于该目标数据来说在这两种情况下的重要程度是不一样的。一般而言,关键字出现在目标数据的标题位置时,其重要程度较高,而出现在内容位置时,其重要程度相对较低。因此,本实施例对于所述第一词频和第二词频分别设置了对应的第一权重和第二权重,该第一权重和第二权重分别用于表征第一词频和第二词频的重要程度,也即对于计算得出的词语热度值的贡献程度。在实际使用时,该第一权重和第二权重的值可以预先设定,且可以根据实际情况具体设定这两个值的大小。一般来说,第一权重要高于第二权重,例如可以设定第一权重为0.9,第二权重为0.1。
本实施例中,词语热度值用于表征各个关键字之间的相对重要程度,同时也是考量各个关键字在该多媒体信息平台上的热度,某个关键字的词语热度值越大,则表示这个关键字在多媒体信息平台上的热度越高,受到平台用户的关注度越高;反正,某个关键字的词语热度值越小,则表示这个关键字在多媒体信息平台上的热度越低,受到平台用户的关注度也越低。
106、将词语热度值最高的所述关键字确定为新的分类标签;
本实施例中,可以将词语热度值最高的那个关键字确定为新的分类标签,作为该多媒体信息平台的归类标准。
107、采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。
在确定出新的分类标签之后,可以采用这个新的分类标签对上述确定出的各个目标数据进行匹配。可以理解的是,匹配的方式也可以根据实际使用情况而定,例如可以将该新的分类标签的关键字与某个目标数据的标题位置的信息进行匹配,若这个目标数据标题位置存在与所述关键字相同的信息时,则认为该目标数据与新的分类标签匹配成功;或者,可以将该新的分类标签的关键字与某个目标数据的全文信息进行匹配,若这个目标数据的全文中存在与所述关键字相同的信息时,则认为该目标数据与新的分类标签匹配成功。
在目标数据匹配成功之后,即可以为匹配成功的目标数据贴上新的分类标签,也即完成了这个目标数据的归类,归为“新的分类标签”所属的一类。
需要说明的是,对于本实施例中的多媒体信息平台来说,其在进行归类时,除了通过上述步骤107采用新的分类标签进行归类以外,还可以采用多媒体信息平台上已有的其它分类标签进行数据的归类处理,比如,多媒体信息平台以前通过执行本实施例的多数据源数据的归类方法产生的分类标签,或者多媒体信息平台的管理人员认为设定的分类标签,如“新闻”、“科技”、“教育”等标签。另外,多媒体信息平台中的标签还可以由数据的类型来确定,比如“音频”标签、“视频”标签等。特别地,多媒体信息平台上还可以设置有“热点”标签,这个标签可以由管理人员主动设定,其可以将多媒体信息平台上统计播放次数较多、或者统计的评论数较多、或者统计的收藏数较多的数据归类到这个“热点”标签下,通过“热点”标签对上述举例的这些数据进行归类。
本实施例中,首先,根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;然后,从所述各个目标数据中提取各个关键字;接着,分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;次之,根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;将词语热度值最高的所述关键字确定为新的分类标签;最后,采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。通过上述步骤,可以根据目标数据中各个关键字的词语热度,从中挑选出词语热度最高的关键字确定为新的分类标签,由于这个新的分类标签是根据多媒体信息平台上的数据确定出来的,其可以融合多媒体信息平台上的数据,不会受到第三方数据源分类标准的影响,从而为多媒体信息平台对平台上数据的归类整理提供了基础,可以使得多媒体信息平台归类后的数据井然有序,提高归类所追求的效果。
为便于理解,下面将从另一方面对本发明中一种多数据源数据的归类方法进行更加详细的描述。请参阅图2,本发明实施例中一种多数据源数据的归类方法第二个实施例包括:
201、获取来自第三方数据源的新的数据;
第二实施例中,与上述第一实施例不同之处为,可以根据多媒体信息平台获取第三方数据源提供的新的数据之后,再根据需要判断是否确定出新的分类标签进行数据的归类处理。
因此,步骤201可以先获取来自第三方数据源的新的数据,该步骤的执行主体可以是上述的多媒体信息平台。
202、采用所述已设定的分类标签对获取到的所述新的数据进行匹配;
在获取到新的数据之后,可以认为这些新的数据均未贴上多媒体信息平台特有的标签(也即非第三方数据源提供的标签),因此可以先采用已设定的分类标签对这些新的数据进行匹配。
203、若所述新的数据匹配成功,则为匹配成功的所述新的数据贴上与所述新的数据对应匹配的所述已设定的分类标签;
当新的数据匹配成功时,则可以为匹配成功的所述新的数据贴上与所述新的数据对应匹配的所述已设定的分类标签。例如,多媒体信息平台上已设定的分类标签包括a、b、c三个,新的数据包括k、i、j三个多媒体文件,在将这些分类标签与这些多媒体文件匹配之后发现,分类标签b与多媒体文件i匹配,则为多媒体文件i贴上分类标签b。
204、若所述新的数据未匹配成功,则判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值,若是,则执行步骤205,若否,则执行步骤206;
当新的数据未匹配成功时,则表示新的数据与所有的已设定的分类标签均未匹配成功,此时,若要对新的数据进行归类,需要设定新的分类标签。本实施例中,为了严格控制多媒体信息平台上已设定的分类标签的数目,避免多媒体信息平台上的分类标签过多而导致平台上的数据更显凌乱,在设定新的分类标签之前,需要判断当前已有的分类标签的数量是否超过预设的数目阈值。例如,假设数目阈值为10,则表示该多媒体信息平台上最多只能同时存在10个分类标签,当分类标签已满10个时,需要删除一个旧的分类标签,才能设定另外一个新的分类标签。
205、从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;
当判断得知所述多媒体信息平台上已设定的分类标签的数目已达到预设的数目阈值时,则需要将多媒体信息平台上一个已设定的分类标签删除。可以理解的是,在删除分类标签的选择上,可以选择统计播放量最少的分类标签进行删除,因此一个分类标签下所有数据的统计播放量最少,则表示该分类标签归类的数据对于平台用户来说是相对不受欢迎的,因此该分类标签对多媒体信息平台的重要性就较低,从而可以删除这个分类标签。
206、根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;
上述步骤206与第一个实施例中的步骤101内容大致类似,此处不再赘述两者相同或相似部分的内容。
进一步地,本实施例中的步骤206与上述第一个实施例中步骤101的不同之处在于,步骤206还可以将所述播放量最少的分类标签下的所有数据确定为所述目标数据。可以理解的是,对于需要删除或不再使用的分类标签而言,其下的数据将成为没有标签的数据或者至少失去一个该分类标签的数据,因此,对于这些数据来说,可以将这些数据确定为本实施例中的目标数据,以便在后续确定出新的分类标签之后,对这些数据进行匹配、归类。
207、从所述各个目标数据中提取各个关键字;
上述步骤207与第一个实施例中的步骤102内容大致类似,此处不再赘述。
208、分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;
209、分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;
上述步骤208、209分别与第一个实施例中的步骤103、104内容大致类似,此处不再赘述。
210、根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;
上述步骤210与第一个实施例中的步骤105内容大致类似,此处不再赘述。
211、将词语热度值最高的所述关键字确定为新的分类标签;
上述步骤210与第一个实施例中的步骤106内容大致类似,此处不再赘述两者相同或相似部分的内容。
进一步地,需要说明的是,由上述内容可知,该多媒体信息平台可以设定有数目阈值,当平台上已设定的分类标签达到这个数目阈值时,在确定出新的分类标签之前,需要删除或不再使用另外一个已设定的分类标签,因此,本实施例中,在步骤211之前,可以先从所述多媒体信息平台上删除所述播放量最少的分类标签。
212、采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。
上述步骤212与第一个实施例中的步骤107内容大致类似,此处不再赘述。
为便于理解,根据图2所描述的实施例,下面以一个实际应用场景对本发明实施例中的一种多数据源数据的归类方法进行描述:
在一个应用场景下,某台小汽车上安装有车载的wifi设备,乘客可以通过该wifi设备接入至多媒体信息平台,乘客接入平台后,可以在该平台上进行音频、视频、文章等多媒体信息的阅览或播放。该多媒体信息平台通过三个第三方数据源提供多媒体数据,分别为数据源A、数据源B和数据源C。
某一时刻,多媒体信息平台从数据源B中抓取了一部分新的数据,需要对这些新的数据进行归类。通过多媒体信息平台上已设定有的10个分类标签与这些新的数据匹配后发现,没有一个分类标签与这些数据匹配成功。因此,多媒体信息平台需要确定一个新的分类标签,此时又判断得知,10个分类标签是该平台的标签数量上限,从而多媒体信息平台将其中的分类标签Z删除。然后根据这些新的数据确定出一个词语热度值最高的新的分类标签K,然后采用这个新的分类标签K与所述新的数据以及分类标签Z下的数据进行匹配,并为匹配成功的数据贴上该分类标签K。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
对应于上文实施例所述的多数据源数据的归类方法,图3示出了本发明实施例提供的多数据源数据的归类程序的运行环境示意图,为了便于说明,仅示出了与本发明实施例相关的部分。
在本实施例中,所述的多数据源数据的归类程序安装并运行于服务器3中。所述服务器3可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该服务器3可包括,但不仅限于,一个或多个存储器31(图中仅示出一个)、一个或多个处理器32(图中仅示出一个),上述存储器31和处理器32通过总线33连接。图3仅示出了具有组件31-33的服务器3,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
所述存储器31在一些实施例中可以是所述服务器3的内部存储单元,例如该服务器3的硬盘或内存。所述存储器31在另一些实施例中也可以是所述服务器3的外部存储设备,例如所述服务器3上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器31还可以既包括所述服务器3的内部存储单元也包括外部存储设备。所述存储器31用于存储安装于所述服务器3的应用软件及各类数据,例如所述多数据源数据的归类程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器32在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行所述存储器31中存储的程序代码或处理数据,例如执行所述多数据源数据的归类程序等。
请参阅图4,是本发明实施例提供的多数据源数据的归类程序的功能模块图。在本实施例中,所述的多数据源数据的归类程序可以被分割成一个或多个模块,所述一个或者多个模块被存储于所述存储器31中,并由一个或多个处理器(本实施例为所述处理器32)所执行,以完成本发明。例如,在图4中,所述的多数据源数据的归类程序可以被分割成目标数据确定模块401、关键字提取模块402、第一词频统计模块403、第二词频统计模块404、词语热度计算模块405、新标签确定模块406、数据匹配模块407。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述多数据源数据的归类程序在所述服务器3中的执行过程。以下描述将具体介绍所述模块401-407的功能。
目标数据确定模块401,用于根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;
关键字提取模块402,用于从所述各个目标数据中提取各个关键字;
第一词频统计模块403,用于分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;
第二词频统计模块404,用于分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;
词语热度计算模块405,用于根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;
新标签确定模块406,用于将词语热度值最高的所述关键字确定为新的分类标签;
数据匹配模块407,用于采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。
进一步地,所述目标数据确定模块可以包括:
最近获取数据确定单元,用于将所述多媒体信息平台展示的数据中最近获取的数据确定为所述目标数据,所述最近获取的数据为所述多媒体信息平台在距离当前时间的预设时间长度内从第三方数据源处获取的数据;
和/或
未贴标签数据确定单元,用于将所述多媒体信息平台展示的数据中未贴有分类标签的数据确定为所述目标数据。
进一步地,在根据预设方式从多媒体信息平台展示的数据中确定各个目标数据之前,所述的多数据源数据的归类程序还可以包括:
标签数目判断模块,用于判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值;
最少播放标签确定单元,用于若所述标签数目判断模块的判断结果为是,则从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;
所述目标数据确定模块可以包括:第一标签数据确定单元,用于将所述播放量最少的分类标签下的所有数据确定为所述目标数据;
在将词语热度值最高的所述关键字确定为新的分类标签之前,所述的多数据源数据的归类程序还可以包括:最少播放标签删除单元,用于从所述多媒体信息平台上删除所述播放量最少的分类标签。
进一步地,所述的多数据源数据的归类程序还可以包括:
新数据获取模块,用于获取来自第三方数据源的新的数据;
新数据匹配模块,用于采用所述已设定的分类标签对获取到的所述新的数据进行匹配;
第一贴标签模块,用于若所述新的数据匹配成功,则为匹配成功的所述新的数据贴上与所述新的数据对应匹配的所述已设定的分类标签;
阈值判断模块,用于若所述新的数据未匹配成功,则判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值;
第一处理模块,用于若所述阈值判断模块的判断结果为是,则从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;然后触发所述目标数据确定模块,并且在将词语热度值最高的所述关键字确定为新的分类标签之前,从所述多媒体信息平台上删除所述播放量最少的分类标签;
第二处理模块,用于若所述阈值判断模块的判断结果为否,则触发所述目标数据确定模块。
进一步地,所述关键字提取模块可以包括:
音频文本识别单元,用于若所述目标数据为音频数据,则对所述音频数据进行音频识别,得到音频文本信息;
视频文本识别单元,用于若所述目标数据为视频数据,则对所述视频数据进行图像识别,得到视频文本信息;
数据清洗单元,用于若所述目标数据为文本数据,则对所述文本数据进行数据清洗,得到清洗后的文本信息;
提取单元,用于采用正向最大匹配算法从所述音频文本信息、所述视频文本信息和/或所述清洗后的文本信息中提取得到各个关键字。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各实施例的模块、单元和/或方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种多数据源数据的归类方法,其特征在于,包括:
根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;所述各个目标数据包括多个多媒体文件;
从所述各个目标数据中提取各个关键字;
分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;
分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;
根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;
将词语热度值最高的所述关键字确定为新的分类标签;
采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。
2.根据权利要求1所述的多数据源数据的归类方法,其特征在于,所述根据预设方式从多媒体信息平台展示的数据中确定各个目标数据包括:
将所述多媒体信息平台展示的数据中最近获取的数据确定为所述目标数据,所述最近获取的数据为所述多媒体信息平台在距离当前时间的预设时间长度内从第三方数据源处获取的数据;
和/或
将所述多媒体信息平台展示的数据中未贴有分类标签的数据确定为所述目标数据。
3.根据权利要求1所述的多数据源数据的归类方法,其特征在于,在根据预设方式从多媒体信息平台展示的数据中确定各个目标数据之前,还包括:
判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值;
若所述多媒体信息平台上已设定的分类标签的数目达到预设的数目阈值,则从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;
所述根据预设方式从多媒体信息平台展示的数据中确定各个目标数据包括:将所述播放量最少的分类标签下的所有数据确定为所述目标数据;
在将词语热度值最高的所述关键字确定为新的分类标签之前,所述多数据源数据的归类方法还包括:从所述多媒体信息平台上删除所述播放量最少的分类标签。
4.根据权利要求1所述的多数据源数据的归类方法,其特征在于,所述多数据源数据的归类方法还包括:
获取来自第三方数据源的新的数据;
采用所述已设定的分类标签对获取到的所述新的数据进行匹配;
若所述新的数据匹配成功,则为匹配成功的所述新的数据贴上与所述新的数据对应匹配的所述已设定的分类标签;
若所述新的数据未匹配成功,则判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值;
若所述多媒体信息平台上已设定的分类标签的数目达到预设的数目阈值,则从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;然后执行根据预设方式从多媒体信息平台展示的数据中确定各个目标数据的步骤,并且在将词语热度值最高的所述关键字确定为新的分类标签之前,从所述多媒体信息平台上删除所述播放量最少的分类标签;
若所述多媒体信息平台上已设定的分类标签的数目未达到预设的数目阈值,则执行根据预设方式从多媒体信息平台展示的数据中确定各个目标数据的步骤。
5.根据权利要求1至4中任一项所述的多数据源数据的归类方法,其特征在于,所述从所述各个目标数据中提取各个关键字包括:
若所述目标数据为音频数据,则对所述音频数据进行音频识别,得到音频文本信息;
若所述目标数据为视频数据,则对所述视频数据进行图像识别,得到视频文本信息;
若所述目标数据为文本数据,则对所述文本数据进行数据清洗,得到清洗后的文本信息;
采用正向最大匹配算法从所述音频文本信息、所述视频文本信息和/或所述清洗后的文本信息中提取得到各个关键字。
6.一种计算机可读存储介质,所述计算机可读存储介质存储有多数据源数据的归类程序,其特征在于,所述多数据源数据的归类程序被至少一个处理器执行时,实现如权利要求1至5中任一项所述的多数据源数据的归类方法的步骤。
7.一种服务器,其特征在于,所述服务器包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多数据源数据的归类程序,所述处理器执行所述多数据源数据的归类程序时实现如下步骤:
根据预设方式从多媒体信息平台展示的数据中确定各个目标数据;所述各个目标数据包括多个多媒体文件;
从所述各个目标数据中提取各个关键字;
分别统计各个所述关键字在所述各个目标数据中标题位置出现的第一词频;
分别统计各个所述关键字在所述各个目标数据中内容位置出现的第二词频;
根据所述第一词频、所述第二词频以及与所述第一词频对应的预设第一权重、与所述第二词频对应的预设第二权重分别计算各个所述关键字的词语热度值;
将词语热度值最高的所述关键字确定为新的分类标签;
采用所述新的分类标签对所述各个目标数据进行匹配,并为匹配成功的所述目标数据贴上所述新的分类标签。
8.根据权利要求7所述的服务器,其特征在于,所述根据预设方式从多媒体信息平台展示的数据中确定各个目标数据包括:
将所述多媒体信息平台展示的数据中最近获取的数据确定为所述目标数据,所述最近获取的数据为所述多媒体信息平台在距离当前时间的预设时间长度内从第三方数据源处获取的数据;
和/或
将所述多媒体信息平台展示的数据中未贴有分类标签的数据确定为所述目标数据。
9.根据权利要求7或8所述的服务器,其特征在于,在根据预设方式从多媒体信息平台展示的数据中确定各个目标数据之前,还包括:
判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值;
若所述多媒体信息平台上已设定的分类标签的数目达到预设的数目阈值,则从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;
所述根据预设方式从多媒体信息平台展示的数据中确定各个目标数据包括:将所述播放量最少的分类标签下的所有数据确定为所述目标数据;
在将词语热度值最高的所述关键字确定为新的分类标签之前,所述处理器执行所述多数据源数据的归类程序时还包括:从所述多媒体信息平台上删除所述播放量最少的分类标签。
10.根据权利要求7或8所述的服务器,其特征在于,所述处理器执行所述多数据源数据的归类程序时还包括:
获取来自第三方数据源的新的数据;
采用所述已设定的分类标签对获取到的所述新的数据进行匹配;
若所述新的数据匹配成功,则为匹配成功的所述新的数据贴上与所述新的数据对应匹配的所述已设定的分类标签;
若所述新的数据未匹配成功,则判断所述多媒体信息平台上已设定的分类标签的数目是否达到预设的数目阈值;
若所述多媒体信息平台上已设定的分类标签的数目达到预设的数目阈值,则从所述已设定的分类标签中确定一个播放量最少的分类标签,所述播放量最少的分类标签是指其下所有数据的统计播放量最少的分类标签;然后执行根据预设方式从多媒体信息平台展示的数据中确定各个目标数据的步骤,并且在将词语热度值最高的所述关键字确定为新的分类标签之前,从所述多媒体信息平台上删除所述播放量最少的分类标签;
若所述多媒体信息平台上已设定的分类标签的数目未达到预设的数目阈值,则执行根据预设方式从多媒体信息平台展示的数据中确定各个目标数据的步骤。
CN201710433356.8A 2017-06-09 2017-06-09 一种多数据源数据的归类方法及服务器 Active CN107656958B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710433356.8A CN107656958B (zh) 2017-06-09 2017-06-09 一种多数据源数据的归类方法及服务器
PCT/CN2017/099711 WO2018223534A1 (zh) 2017-06-09 2017-08-30 一种多数据源数据的归类方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710433356.8A CN107656958B (zh) 2017-06-09 2017-06-09 一种多数据源数据的归类方法及服务器

Publications (2)

Publication Number Publication Date
CN107656958A CN107656958A (zh) 2018-02-02
CN107656958B true CN107656958B (zh) 2019-07-19

Family

ID=61126682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710433356.8A Active CN107656958B (zh) 2017-06-09 2017-06-09 一种多数据源数据的归类方法及服务器

Country Status (2)

Country Link
CN (1) CN107656958B (zh)
WO (1) WO2018223534A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837356A (zh) * 2018-08-15 2020-02-25 北京京东尚科信息技术有限公司 一种数据处理方法和装置
CN109359194B (zh) * 2018-09-30 2020-10-20 北京字节跳动网络技术有限公司 用于预测信息类别的方法和装置
CN109656999B (zh) * 2018-10-11 2024-03-15 平安科技(深圳)有限公司 大数据量的数据同步方法、设备、存储介质及装置
CN111191738A (zh) * 2018-11-16 2020-05-22 京东城市(南京)科技有限公司 跨平台的数据处理方法、装置、设备及可读存储介质
CN109493881B (zh) * 2018-11-22 2023-12-05 北京奇虎科技有限公司 一种音频的标签化处理方法、装置和计算设备
CN109684506B (zh) * 2018-11-22 2023-10-20 三六零科技集团有限公司 一种视频的标签化处理方法、装置和计算设备
CN110245170B (zh) * 2019-04-19 2021-11-16 联通数字科技有限公司 数据处理方法及系统
CN110134801A (zh) * 2019-04-28 2019-08-16 福建星网视易信息系统有限公司 一种作品名称与多媒体文件的匹配方法及存储介质
CN110083654A (zh) * 2019-04-30 2019-08-02 中国船舶工业综合技术经济研究院 一种面向国防科技领域的多源数据融合方法及系统
CN111125561A (zh) * 2019-11-28 2020-05-08 泰康保险集团股份有限公司 一种网络热度的展示方法及装置
CN112765979B (zh) * 2021-01-15 2023-05-09 西华大学 论文关键词提取系统及其方法
CN113076525A (zh) * 2021-03-15 2021-07-06 北京明略软件系统有限公司 人口属性值的计算方法及装置、存储介质、电子设备
CN113657110A (zh) * 2021-08-10 2021-11-16 阿波罗智联(北京)科技有限公司 信息处理方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
CN106682149A (zh) * 2016-12-22 2017-05-17 湖南科技学院 一种基于元搜索引擎的标签自动生成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7836010B2 (en) * 2003-07-30 2010-11-16 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services
CN102831131B (zh) * 2011-06-16 2015-02-11 富士通株式会社 构建标注网页语料库的方法及装置
CN104834686B (zh) * 2015-04-17 2018-12-28 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN106528894B (zh) * 2016-12-28 2019-11-15 北京小米移动软件有限公司 设置标签信息的方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103377258A (zh) * 2012-04-28 2013-10-30 索尼公司 用于对微博信息进行分类显示的方法和设备
CN103186675A (zh) * 2013-04-03 2013-07-03 南京安讯科技有限责任公司 一种基于网络热词识别的网页自动分类方法
CN106682149A (zh) * 2016-12-22 2017-05-17 湖南科技学院 一种基于元搜索引擎的标签自动生成方法

Also Published As

Publication number Publication date
WO2018223534A1 (zh) 2018-12-13
CN107656958A (zh) 2018-02-02

Similar Documents

Publication Publication Date Title
CN107656958B (zh) 一种多数据源数据的归类方法及服务器
CN109189991B (zh) 重复视频识别方法、装置、终端及计算机可读存储介质
CN109657054B (zh) 摘要生成方法、装置、服务器及存储介质
US20130283148A1 (en) Extraction of Content from a Web Page
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
Guo et al. LD-MAN: Layout-driven multimodal attention network for online news sentiment recognition
CN104077417A (zh) 社交网络中的人物标签推荐方法和系统
CN108108419B (zh) 一种信息推荐方法、装置、设备和介质
CN106445963A (zh) App平台的广告索引关键词自动生成方法和装置
CN112257452A (zh) 情感识别模型的训练方法、装置、设备和存储介质
CN104077385A (zh) 一种文件的分类及检索方法
CN111563382A (zh) 文本信息的获取方法、装置、存储介质及计算机设备
CN110458296A (zh) 目标事件的标记方法和装置、存储介质及电子装置
CN109815500A (zh) 非结构化公文的管理方法、装置、计算机设备及存储介质
CN112559903A (zh) 一种社区成员搜索方法、系统、装置及介质
CN112732949A (zh) 一种业务数据的标注方法、装置、计算机设备和存储介质
CN113360803A (zh) 基于用户行为的数据缓存方法、装置、设备及存储介质
CN103577476B (zh) 网页浏览记录的处理方法及网页浏览装置
Nahar et al. Detecting cyberbullying in social networks using multi-agent system
CN106161193A (zh) 一种邮件处理方法、装置和系统
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
Avigdor-Elgrabli et al. Structural clustering of machine-generated mail
CN110972086A (zh) 短信息处理方法、装置、电子设备及计算机可读存储介质
CN110502755A (zh) 基于融合模型的字符串识别方法及计算机存储介质
CN109783807A (zh) 一种针对app软件缺陷的用户评论挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant