CN109002522A - 一种影视数据库的更新方法和装置 - Google Patents

一种影视数据库的更新方法和装置 Download PDF

Info

Publication number
CN109002522A
CN109002522A CN201810766342.2A CN201810766342A CN109002522A CN 109002522 A CN109002522 A CN 109002522A CN 201810766342 A CN201810766342 A CN 201810766342A CN 109002522 A CN109002522 A CN 109002522A
Authority
CN
China
Prior art keywords
information
video display
movie data
display attribute
data collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810766342.2A
Other languages
English (en)
Inventor
陈其远
秦成鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Maoyan Cultural Media Co Ltd
Original Assignee
Beijing Maoyan Cultural Media Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Maoyan Cultural Media Co Ltd filed Critical Beijing Maoyan Cultural Media Co Ltd
Priority to CN201810766342.2A priority Critical patent/CN109002522A/zh
Publication of CN109002522A publication Critical patent/CN109002522A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种影视数据库的更新方法和装置,所述方法包括:获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;当第一影视属性信息与该第二影视属性信息匹配时,提取出第一影视数据集的第一简介信息及第一时间信息;判断第二简介信息与第一简介信息之间的相似度是否符合预设相似度;以及,判断所述第二时间信息与所述第一时间信息是否一致;当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并,避免全库匹配带来的时间浪费的问题,提高操作效率。

Description

一种影视数据库的更新方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种影视数据库的更新方法和一种影视数据库的更新装置。
背景技术
随着科技的发展,人们越来越需要满足精神上的需求,而观看电影或视频成为人们满足精神需求的主要途径之一,所以影视作品的数量是越来越多,现有的购票平台的影视数据库中通常会保存有众多的影视数据(即影视作品),但是,当要在影视数据库中保存一部新的影视作品时,通常需要与该影视数据库中所包含的已有影视作品进行匹配,若不存在重复的影视作品时,才能够把该新的影视作品保存至影视数据库中,但是,这样的影视作品保存操作会带来时间复杂度较高的问题。
发明内容
本发明实施例提供一种影视数据库的更新方法和相应的一种影视数据库的更新装置,以解决当影视数据库中不存在重复的影视作品时,才能够把该新的影视作品保存,造成影视作品保存操作的时间较长的上述问题。
为了解决上述问题,本发明实施例公开了一种影视数据库的更新方法,所述影视数据库包括至少一个第一影视数据集;每个所述第一影视数据集包括对应的第一影视属性信息、第一简介信息及第一时间信息;所述方法包括:
获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;
当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息;
判断所述第二简介信息与所述第一简介信息之间的相似度是否符合预设相似度;以及,判断所述第二时间信息与所述第一时间信息是否一致;
当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并。
优选地,所述第一影视属性信息包括第一演员信息、第一名称信息或第一导演信息;所述第二影视属性信息包括第二演员信息、第二名称信息或第二导演信息;所述当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息的步骤包括:
当所述第一演员信息与该第二演员信息匹配时,或,当所述第一名称信息与该第二名称信息匹配时,或,当所述第一导演信息与该第二导演信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息。
优选地,所述当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并的步骤包括:
当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,识别出所述第一影视属性信息中为空的第一影视属性信息;
将相应的第二影视属性信息添加至所述空的第一影视属性信息中。
优选地,所述当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并的步骤,还包括:
当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第一影视数据集中的第一影视属性信息与所述第二影视数据集中的第二影视属性信息进行比对,提取出所述第二影视数据集中的特定第二影视属性信息;
其中,所述特定第二影视属性信息为第一影视数据集中未包含的影视属性信息;
建立该特定第二影视属性信息相应数量的空的第一影视属性信息;
将所述特定第二影视属性信息添加到所述空的第一影视属性信息。
优选地,所述第一影视属性信息还包括第一网站标识、第一影视图像信息中的至少一种。
优选地,所述第一网站标识包括第一特定网站标识及第二特定网站标识;所述方法还包括:
获取特定网页信息;其中,所述特定网页信息包括所述第一特定网站标识及所述第二特定网站标识的映射关系;
根据所述映射关系针对所述影视数据库中第一影视数据集进行筛选。
本发明实施例公开了一种影视数据库的更新装置,所述影视数据库包括至少一个第一影视数据集;每个所述第一影视数据集包括对应的第一影视属性信息、第一简介信息及第一时间信息;所述装置包括:
第二影视数据集获取模块,用于获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;
提取模块,用于当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息;
判断模块,用于判断所述第二简介信息与所述第一简介信息之间的相似度是否符合预设相似度;以及,判断所述第二时间信息与所述第一时间信息是否一致;
合并模块,用于当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并。
优选地,所述第一影视属性信息包括第一演员信息、第一名称信息或第一导演信息;所述第二影视属性信息包括第二演员信息、第二名称信息或第二导演信息;所述提取模块包括:
提取子模块,用于当所述第一演员信息与该第二演员信息匹配时,或,当所述第一名称信息与该第二名称信息匹配时,或,当所述第一导演信息与该第二导演信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息。
优选地,所述合并模块包括:
识别子模块,用于当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,识别出所述第一影视属性信息中为空的第一影视属性信息;
第一添加子模块,用于将相应的第二影视属性信息添加至所述空的第一影视属性信息中。
本发明实施例公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的影视数据库的更新的步骤。
本发明实施例包括以下优点:
本发明实施例中,获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息;判断所述第二简介信息与所述第一简介信息之间的相似度是否符合预设相似度;以及,判断所述第二时间信息与所述第一时间信息是否一致;当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并;针对实体(演员/名称等)的各个属性信息逐个进行字段检查,在字段检查基础上基于大量的人工IF-ELSE规则确定冲突水平,确保可能的影视作品都能进入数据匹配环节;避免全库匹配带来的时间浪费的问题,提高操作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1是本发明实施例的一种影视数据库的更新方法实施例一的步骤流程图;
图2是本发明实施例的一种影视数据库的更新方法实施例二的步骤流程图;
图3是本发明实施例的一种影视数据库的更新装置实施例的结构框图。
具体实施方式
为了使本发明实施例所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明实施例进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,示出了本发明实施例的一种影视数据库的更新方法实施例一的步骤流程图,所述影视数据库包括至少一个第一影视数据集;每个所述第一影视数据集包括对应的第一影视属性信息、第一简介信息及第一时间信息;具体可以包括如下步骤:
步骤101,获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;
在具体实现中,本发明实施例可以应用在终端设备中,例如,手机、平板电脑、个人数字助理、穿戴设备(如眼镜、手表等)等等。
在本发明实施例中,终端设备的操作系统可以包括Android(安卓)、IOS、WindowsPhone、Windows等等。
本发明实施例中,所述影视数据库的储存位置可以位于服务器中,所述服务器可以包括PC(Personal Computer,个人电脑)服务器、大型机、小型机,还可以包括云服务器,本发明实施例对服务器的种类及数量不作具体的限制。
具体地,该终端设备可以与服务器连接,从服务器中获取该影视数据库中的一个或多个第一影视数据集;需要说明的是,每个所述第一影视数据集包含对应的第一影视属性信息、第一简介信息及第一时间信息;即该第一影视数据集与第一影视属性信息、第一简介信息及第一时间信息具有映射关系。
需要说明的是,该第一影视属性信息可以包括该影视作品的演员、导演、作品名称、类型等相关信息,如,该第一影视属性信息可以包括第一演员信息、第一名称信息或第一导演信息等,本发明实施例对此不作限制。
进一步地,该第一影视数据集对应的第一简介信息是指针对该影视作品的内容的简要介绍,该第一简介信息主要以文字数据组成。而第一时间信息可以包括上映时间或发行时间等。
另一方面,本发明实施例中的第二影视数据集可以是从网络上抓取的影视数据,举例而言,可以从豆瓣电影相关的网站上抓取到多个影视作品的数据,经过数据整理及归类后,作为第二影视数据集。
需要说明的是,该第二影视数据集可以包括对应的第二影视属性信息、第二简介信息及第二时间信息;该第二影视属性信息可以包括第二演员信息、第二名称信息或第二导演信息等。
步骤102,当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息;
进一步应用到本发明实施例中,可以将第一影视数据集中的第一影视属性信息与第二影视数据集中的第二影视属性信息进行比对;当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息。
步骤103,判断所述第二简介信息与所述第一简介信息之间的相似度是否符合预设相似度;以及,判断所述第二时间信息与所述第一时间信息是否一致;
实际应用到本发明实施例中,当所述第一影视属性信息与该第二影视属性信息匹配时,可以进一步计算第二简介信息与所述第一简介信息之间的相似度,以及判断述第二时间信息与所述第一时间信息是否一致。
具体应用到本发明实施例中,第一简介信息及第二简介信息都是由文字数据组成,可以计算出该第一简介信息及第二简介信息的文字相似度;将该文字相似度与预设相似度进行比较,当符合预设相似度时,可以认为第一简介信息及第二简介信息的文字数据是相同的。
具体地,可以计算出该第一简介信息及第二简介信息之间的余弦相似度;或者,可以计算出该第一简介信息及第二简介信息之间的杰卡德(Jaccard)相似性系数;当然,还可以采用其他的方式计算出该第一简介信息及第二简介信息之间的相似度;如采用欧几里得距离的方式进行计算,本发明实施例对此不作限制。
需要说明的是,该预设相似度可以是本领域技术人员根据实际情况而设定的任何数值,如80%或90%等,本发明实施例对此不作限制。
同时,还需要判断该第二时间信息与所述第一时间信息是否一致;具体地,可以判断第一影视数据集中的上映时间与第二影视数据集中的上映时间是否相同;或者,判断第一影视数据集中的发行时间与第二影视数据集中的发行时间是否相同;当然,也可以判断第一影视数据集中的拍摄时间与第二影视数据集中的拍摄时间信息是否相同,本发明实施例对此不作限制。
步骤104,当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并。
具体应用到本发明实施例中,当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度,以及所述第二时间信息与所述第一时间信息一致时,即两个影视数据集中的简介信息及时间信息都相同时,可以确定该两个影视数据集为同一个影视作品的数据,将所述第二影视数据集与所述第一影视数据集进行合并。
在本发明实施例中,在所述第一影视数据集的基础上,将第二影视数据集的相关信息添加合并至第一影视数据集。举例而言,当第一影视数据集缺少对应的导演信息,此时,可以提取出第二影视数据集的导演信息,将其添加至第一影视数据集中。
需要说明的是,当第二影视数据集与第一影视数据集的所有数据都不相同时,说明第二影视数据集与第一影视数据集代表两部不同的影视作品,将该第二影视数据集独立保存于影视数据库中;当第二影视数据集的信息缺失比较多时,可以通过人工审核的方式判断是否要将其保存到影视数据库中,确保可能的影视作品都能进入匹配环节;可以避免全库匹配带来的时间浪费的问题。
本发明实施例中,获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息;判断所述第二简介信息与所述第一简介信息之间的相似度是否符合预设相似度;以及,判断所述第二时间信息与所述第一时间信息是否一致;当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并;针对实体(演员/名称等)的各个属性信息逐个进行字段检查,在字段检查基础上基于大量的人工IF-ELSE规则确定冲突水平,确保可能的影视作品都能进入数据匹配环节;避免全库匹配带来的时间浪费的问题,提高操作效率。
参照图2,示出了本发明实施例的一种影视数据库的更新方法实施例二的步骤流程图,所述影视数据库包括至少一个第一影视数据集;每个所述第一影视数据集包括对应的第一影视属性信息、第一简介信息及第一时间信息;所述第一影视属性信息包括第一演员信息、第一名称信息或第一导演信息;具体可以包括如下步骤:
步骤201,获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;所述第二影视属性信息包括第二演员信息、第二名称信息或第二导演信息;
本发明实施例中,该第一影视属性信息可以包括第一演员信息、第一名称信息或第一导演信息等,该第一演员信息可以包括演员姓名,该第一名称信息可以包括影视作品的名称,如中文名称、译名或英文名称等,该第一导演信息可以包括导演姓名等。
同样地,每个所述第二影视数据集包括对应的第二影视属性信息;所述第二影视属性信息包括第二演员信息、第二名称信息或第二导演信息。
具体而言,可以建立影视作品ID(第一影视数据集)与演员ID(第一演员信息)的映射关系;还可以建立影视作品ID(第一影视数据集)与导演ID(第一导演信息)的映射关系;还可以建立影视作品ID(第一影视数据集)与作品名称(第一名称信息)的映射关系,建立上述的倒排索引,存入线上缓存,提高查询效率。
步骤202,当所述第一演员信息与该第二演员信息匹配时,或,当所述第一名称信息与该第二名称信息匹配时,或,当所述第一导演信息与该第二导演信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息;
进一步应用到本发明实施例中,可以将该第二影视数据集与第一影视数据集之间的演员信息、名称信息或导演信息逐个进行比较,当其中一个条件符合时,如第一演员信息与该第二演员信息相同时或第一导演信息与该第二导演信息相同时,即可以提取出所述第一影视数据集的第一简介信息及第一时间信息。
步骤203,当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,识别出所述第一影视属性信息中为空的第一影视属性信息;
具体应用到本发明实施例中,可以同时判断第二简介信息与第一简介信息的相似度是否符合预设相似度,及所述第二时间信息与所述第一时间信息是否一致。
当两者的条件都符合时,识别出所述第一影视属性信息中为空的第一影视属性信息。举例而言,每个第一影视属性信息包含选项信息及正文信息,如,第一影视属性信息中的第一演员信息为:演员(选项信息):小明(正文信息),当第一影视属性信息缺失正文信息时即为空的第一影视属性信息,若第一影视属性信息中的第一网站标识或第一影视图像信息为空时,则识别出所述第一影视属性信息中的第一网站标识或第一影视图像信息对应的选项信息。
步骤204,将所述第二影视属性信息添加至所述空的第一影视属性信息中;
进一步地,将第二影视数据集中对应的第二影视属性信息添加至所述空的第一影视属性信息中;即当第一影视属性信息中的第一网站标识或第一影视图像信息为空时,将第二影视数据集中对应第二网站标识或第二影视图像信息添加到该空的第一影视属性信息对应的正文信息中,完善影视作品的相关信息,提高用户体验。
步骤205,当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第一影视数据集中的第一影视属性信息与所述第二影视数据集中的第二影视属性信息进行比对,提取出所述第二影视数据集中的特定第二影视属性信息;其中,所述特定第二影视属性信息为第一影视数据集中未包含的影视属性信息;
实际应用到本发明实施例中,当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第一影视数据集中的第一影视属性信息与所述第二影视数据集中的第二影视属性信息逐一进行比对,提取出所述第二影视数据集中的特定第二影视属性信息;其中,所述特定第二影视属性信息为第一影视数据集中未包含的影视属性信息;
举例而言,该第一影视数据集中并未包含第二影视属性信息中的第二影视图像信息,可以确定该第二影视图像信息为特定第二影视属性信息。
步骤206,建立该特定第二影视属性信息相应数量的空的第一影视属性信息;
进一步地,可以建立该特定第二影视属性信息相应数量的空的第一影视属性信息;即新建对应数量的空的选项信息;当第一影视数据集中并未包含第二影视属性信息中的第二影视图像信息,新建一个第一影视图像信息对应的选项信息。
步骤207,将所述特定第二影视属性信息添加到所述空的第一影视属性信息。
实际应用到本发明实施例中,可以将该第一影视数据集未包含的第二影视属性信息添加到所述空的第一影视属性信息;举例而言,新建一个第一影视图像信息的选项信息后,可以将第二影视数据集对应的第二影视图像信息添加到该选项信息对应的正文信息中,完善影视作品的相关信息,提高用户体验。
本发明实施例的一种优选实施例中,所述第一影视属性信息还包括第一网站标识、第一影视图像信息中的至少一种;所述第一网站标识包括第一特定网站标识及第二特定网站标识;所述方法还包括:获取特定网页信息;其中,所述特定网页信息包括所述第一特定网站标识及所述第二特定网站标识的映射关系;根据所述映射关系针对所述影视数据库中第一影视数据集进行筛选;需要说明的是,第一网站标识还可以包括第三特定网站标识,本发明实施例对此不作限制。
本发明实施例中,还可以针对所述影视数据库中第一影视数据集进行筛选操作;举例而言,一部影视作品(即第一影视数据集)在某个网页信息上可以包含第一特定网站标识及所述第二特定网站标识的映射关系,该第一特定网站标识可以为豆瓣网站ID;而第二特定网站标识为IMDB(互联网电影资料库,Internet Movie Database)网站ID;而该豆瓣网站ID与IMDB网站ID具有映射关系,即两者均指向同一部影视作品。
现有某个第一影视数据集的第三特定网站标识为猫眼网站ID1,及另一个第一影视数据集的第三特定网站标识为猫眼网站ID2;而该猫眼网站ID1与豆瓣网站ID具有映射关系,与IMDB网站ID无映射关系;猫眼网站ID2与IMDB网站ID具有映射关系,与豆瓣网站ID无映射关系,因为该豆瓣网站ID与IMDB网站ID具有映射关系,两者均指向同一部影视作品,可以确定猫眼网站ID2及猫眼网站ID1对应的第一影视数据集为同一部影视作品的数据,将两者进行合并。
本发明实施例的一种优选实施例中,可以针对第二影视数据集的第二影视图像信息与第一影视数据集的第一影视图像信息进行对比,确定该两个影视数据集是否为同一个影视作品的数据,该第二影视图像信息及第一影视图像信息可以为影视作品的海报图像或视频截图、影片截图等,具体地,可以通过计算两个图像数据的相似度的方式进行比对;本发明实施例中,应用图像的相似度去判断实体的匹配程度;图像匹配具有唯一性,提供一种可靠判别手段。
本发明实施例中,获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;所述第二影视属性信息包括第二演员信息、第二名称信息或第二导演信息;当所述第一演员信息与该第二演员信息匹配时,或,当所述第一名称信息与该第二名称信息匹配时,或,当所述第一导演信息与该第二导演信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息;当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,识别出所述第一影视属性信息中为空的第一影视属性信息;将所述第二影视属性信息添加至所述空的第一影视属性信息中;当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第一影视数据集中的第一影视属性信息与所述第二影视数据集中的第二影视属性信息进行比对,提取出所述第二影视数据集中的特定第二影视属性信息;其中,所述特定第二影视属性信息为第一影视数据集中未包含的影视属性信息;建立该特定第二影视属性信息相应数量的空的第一影视属性信息;将所述特定第二影视属性信息添加到所述空的第一影视属性信息;针对实体(演员/名称等)的各个属性信息逐个进行字段检查,在字段检查基础上基于大量的人工IF-ELSE规则确定冲突水平,确保可能的影视作品都能进入数据匹配环节;避免全库匹配带来的时间浪费的问题,提高操作效率,提高影视数据融合的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明实施例的一种影视数据库的更新装置实施例的结构框图,所述影视数据库包括至少一个第一影视数据集;每个所述第一影视数据集包括对应的第一影视属性信息、第一简介信息及第一时间信息;具体可以包括如下模块:
第二影视数据集获取模块301,用于获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;
提取模块302,用于当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息;
判断模块303,用于判断所述第二简介信息与所述第一简介信息之间的相似度是否符合预设相似度;以及,判断所述第二时间信息与所述第一时间信息是否一致;
合并模块304,用于当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并。
优选地,所述第一影视属性信息包括第一演员信息、第一名称信息或第一导演信息;所述第二影视属性信息包括第二演员信息、第二名称信息或第二导演信息;所述提取模块包括:
提取子模块,用于当所述第一演员信息与该第二演员信息匹配时,或,当所述第一名称信息与该第二名称信息匹配时,或,当所述第一导演信息与该第二导演信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息。
优选地,所述合并模块包括:
识别子模块,用于当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,识别出所述第一影视属性信息中为空的第一影视属性信息;
第一添加子模块,用于将相应的第二影视属性信息添加至所述空的第一影视属性信息中。
优选地,所述合并模块还包括:
提取子模块,用于当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第一影视数据集中的第一影视属性信息与所述第二影视数据集中的第二影视属性信息进行比对,提取出所述第二影视数据集中的特定第二影视属性信息;其中,所述特定第二影视属性信息为第一影视数据集中未包含的影视属性信息;
建立子模块,用于建立该特定第二影视属性信息相应数量的空的第一影视属性信息;
第二添加子模块,用于将所述特定第二影视属性信息添加到所述空的第一影视属性信息。
优选地,,所述第一影视属性信息还包括第一网站标识、第一影视图像信息中的至少一种。
优选地,所述第一网站标识包括第一特定网站标识及第二特定网站标识;所述装置还包括:
特定网页信息获取模块,用于获取特定网页信息;其中,所述特定网页信息包括所述第一特定网站标识及所述第二特定网站标识的映射关系;
筛选模块,用于根据所述映射关系针对所述影视数据库中第一影视数据集进行筛选。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还公开了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的影视数据库的更新的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种影视数据库的更新方法和一种影视数据库的更新装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种影视数据库的更新方法,其特征在于,所述影视数据库包括至少一个第一影视数据集;每个所述第一影视数据集包括对应的第一影视属性信息、第一简介信息及第一时间信息;所述方法包括:
获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;
当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息;
判断所述第二简介信息与所述第一简介信息之间的相似度是否符合预设相似度;以及,判断所述第二时间信息与所述第一时间信息是否一致;
当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并。
2.根据权利要求1所述的方法,其特征在于,所述第一影视属性信息包括第一演员信息、第一名称信息或第一导演信息;所述第二影视属性信息包括第二演员信息、第二名称信息或第二导演信息;所述当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息的步骤包括:
当所述第一演员信息与该第二演员信息匹配时,或,当所述第一名称信息与该第二名称信息匹配时,或,当所述第一导演信息与该第二导演信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息。
3.根据权利要求1或2所述的方法,其特征在于,所述当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并的步骤包括:
当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,识别出所述第一影视属性信息中为空的第一影视属性信息;
将相应的第二影视属性信息添加至所述空的第一影视属性信息中。
4.根据权利要求1或2所述的方法,其特征在于,所述当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并的步骤,还包括:
当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第一影视数据集中的第一影视属性信息与所述第二影视数据集中的第二影视属性信息进行比对,提取出所述第二影视数据集中的特定第二影视属性信息;
其中,所述特定第二影视属性信息为第一影视数据集中未包含的影视属性信息;
建立该特定第二影视属性信息相应数量的空的第一影视属性信息;
将所述特定第二影视属性信息添加到所述空的第一影视属性信息。
5.根据权利要求4所述的方法,其特征在于,所述第一影视属性信息还包括第一网站标识、第一影视图像信息中的至少一种。
6.根据权利要求5所述的方法,其特征在于,所述第一网站标识包括第一特定网站标识及第二特定网站标识;所述方法还包括:
获取特定网页信息;其中,所述特定网页信息包括所述第一特定网站标识及所述第二特定网站标识的映射关系;
根据所述映射关系针对所述影视数据库中第一影视数据集进行筛选。
7.一种影视数据库的更新装置,其特征在于,所述影视数据库包括至少一个第一影视数据集;每个所述第一影视数据集包括对应的第一影视属性信息、第一简介信息及第一时间信息;所述装置包括:
第二影视数据集获取模块,用于获取到至少一个第二影视数据集;其中,每个所述第二影视数据集包括对应的第二影视属性信息、第二简介信息及第二时间信息;
提取模块,用于当所述第一影视属性信息与该第二影视属性信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息;
判断模块,用于判断所述第二简介信息与所述第一简介信息之间的相似度是否符合预设相似度;以及,判断所述第二时间信息与所述第一时间信息是否一致;
合并模块,用于当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,将所述第二影视数据集与所述第一影视数据集进行合并。
8.根据权利要求7所述的装置,其特征在于,所述第一影视属性信息包括第一演员信息、第一名称信息或第一导演信息;所述第二影视属性信息包括第二演员信息、第二名称信息或第二导演信息;所述提取模块包括:
提取子模块,用于当所述第一演员信息与该第二演员信息匹配时,或,当所述第一名称信息与该第二名称信息匹配时,或,当所述第一导演信息与该第二导演信息匹配时,提取出所述第一影视数据集的第一简介信息及第一时间信息。
9.根据权利要求7或8所述的装置,其特征在于,所述合并模块包括:
识别子模块,用于当所述第二简介信息与所述第一简介信息之间的相似度符合预设相似度及所述第二时间信息与所述第一时间信息一致时,识别出所述第一影视属性信息中为空的第一影视属性信息;
第一添加子模块,用于将相应的第二影视属性信息添加至所述空的第一影视属性信息中。
10.一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至6中任一项所述的影视数据库的更新的步骤。
CN201810766342.2A 2018-07-12 2018-07-12 一种影视数据库的更新方法和装置 Pending CN109002522A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810766342.2A CN109002522A (zh) 2018-07-12 2018-07-12 一种影视数据库的更新方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810766342.2A CN109002522A (zh) 2018-07-12 2018-07-12 一种影视数据库的更新方法和装置

Publications (1)

Publication Number Publication Date
CN109002522A true CN109002522A (zh) 2018-12-14

Family

ID=64599207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810766342.2A Pending CN109002522A (zh) 2018-07-12 2018-07-12 一种影视数据库的更新方法和装置

Country Status (1)

Country Link
CN (1) CN109002522A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929035A (zh) * 2019-11-27 2020-03-27 中国传媒大学 影视作品的信息预测方法及系统
CN113868444A (zh) * 2021-10-20 2021-12-31 四川长虹电器股份有限公司 同源影片查找方法
CN114782879A (zh) * 2022-06-20 2022-07-22 腾讯科技(深圳)有限公司 视频识别方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218879A1 (en) * 2009-05-15 2013-08-22 Hyundai Motor Company Update systems of space of interest data and methods thereof
CN103268345A (zh) * 2013-05-27 2013-08-28 慈文传媒集团股份有限公司 影视数据的检索方法及装置
CN106354827A (zh) * 2016-08-31 2017-01-25 Tcl集团股份有限公司 一种媒资数据整合方法及系统
CN107748799A (zh) * 2017-11-08 2018-03-02 四川长虹电器股份有限公司 一种多数据源影视数据实体对齐的方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218879A1 (en) * 2009-05-15 2013-08-22 Hyundai Motor Company Update systems of space of interest data and methods thereof
CN103268345A (zh) * 2013-05-27 2013-08-28 慈文传媒集团股份有限公司 影视数据的检索方法及装置
CN106354827A (zh) * 2016-08-31 2017-01-25 Tcl集团股份有限公司 一种媒资数据整合方法及系统
CN107748799A (zh) * 2017-11-08 2018-03-02 四川长虹电器股份有限公司 一种多数据源影视数据实体对齐的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110929035A (zh) * 2019-11-27 2020-03-27 中国传媒大学 影视作品的信息预测方法及系统
CN110929035B (zh) * 2019-11-27 2022-09-30 中国传媒大学 影视作品的信息预测方法及系统
CN113868444A (zh) * 2021-10-20 2021-12-31 四川长虹电器股份有限公司 同源影片查找方法
CN114782879A (zh) * 2022-06-20 2022-07-22 腾讯科技(深圳)有限公司 视频识别方法、装置、计算机设备和存储介质
CN114782879B (zh) * 2022-06-20 2022-08-23 腾讯科技(深圳)有限公司 视频识别方法、装置、计算机设备和存储介质

Similar Documents

Publication Publication Date Title
US9703859B2 (en) Keyword search queries on online social networks
US20170316105A1 (en) Blending by Query Classification on Online Social Networks
CN106202041B (zh) 一种解决知识图谱中的实体对齐问题的方法和装置
US20160379260A1 (en) Product recommendations based on analysis of social experiences
CN107168991B (zh) 一种搜索结果展示方法和装置
US10878044B2 (en) System and method for providing content recommendation service
US10896228B2 (en) Estimating article publication dates and authors based on social media context
AU2017204239A1 (en) Filtering suggested queries on online social networks
US20130243249A1 (en) Electronic device and method for recognizing image and searching for concerning information
US20200143238A1 (en) Detecting Augmented-Reality Targets
US10311063B2 (en) Context-based object retrieval in a social networking system
CN105284119B (zh) 关于嵌入式媒体提供补充内容
US9798742B2 (en) System and method for the identification of personal presence and for enrichment of metadata in image media
CN109002522A (zh) 一种影视数据库的更新方法和装置
CN104217008A (zh) 互联网人物视频交互式标注方法及系统
EP2896162A1 (en) Determining additional information associated with geographic location information
CN102595206A (zh) 基于体育赛事视频的数据同步方法及装置
CN109358898A (zh) 一种信息处理方法、装置、电子设备和存储介质
CN110072140A (zh) 一种视频信息提示方法、装置、设备及存储介质
US9665574B1 (en) Automatically scraping and adding contact information
US20200073925A1 (en) Method and system for generating a website from collected content
CN113301382B (zh) 视频处理方法、设备、介质及程序产品
CN110532404A (zh) 一种源多媒体确定方法、装置、设备及存储介质
JP6499763B2 (ja) ビデオ情報に対して検証を行うための方法及び装置
US9471939B1 (en) Product recommendations based on analysis of social experiences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181214