CN106484774B - 一种多源视频元数据的关联方法及系统 - Google Patents

一种多源视频元数据的关联方法及系统 Download PDF

Info

Publication number
CN106484774B
CN106484774B CN201610818094.2A CN201610818094A CN106484774B CN 106484774 B CN106484774 B CN 106484774B CN 201610818094 A CN201610818094 A CN 201610818094A CN 106484774 B CN106484774 B CN 106484774B
Authority
CN
China
Prior art keywords
video metadata
record
field
level
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610818094.2A
Other languages
English (en)
Other versions
CN106484774A (zh
Inventor
董原
鲁冬林
谢军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gehua Catv Network Co ltd
Original Assignee
Beijing Gehua Catv Network Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gehua Catv Network Co ltd filed Critical Beijing Gehua Catv Network Co ltd
Priority to CN201610818094.2A priority Critical patent/CN106484774B/zh
Publication of CN106484774A publication Critical patent/CN106484774A/zh
Application granted granted Critical
Publication of CN106484774B publication Critical patent/CN106484774B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本发明公开了一种多源视频元数据的关联方法及系统,属于数据处理技术领域。所述关联方法包括:获取不同数据源的视频,提取视频的视频元数据,设置每条视频元数据的唯一标识,将视频元数据及其唯一标识、数据源标识关联存储;对所提取的视频元数据进行预处理;所述预处理包括去重、元数据字段拆分和元数据字段的格式归一化,去重是指属于同一数据源的视频元数据的去重;确定视频元数据的字段重要度等级,根据字段重要度等级建立视频元数据之间的关联关系。该方法及系统,通过分析视频元数据的每个元素(字段)的重要性,并根据不同元素的重要程度实现不同源视频元数据的关联关系的建立,提升了多源视频元数据的关联准确率。

Description

一种多源视频元数据的关联方法及系统
技术领域
本发明涉及数据处理技术领域,具体涉及一种多源视频元数据的关联方法及系统。
背景技术
随着宽带互联网及移动互联网的高速发展,基础网络设施不断建设,互联网带宽能力在不断提升,催生了越来越多的基于高带宽的互联网应用,尤其是视频内容的应用,已经占到整个互联网总带宽的70%左右,高清、超清、1080P等已经成为当前主流的用户消费内容,4K、8K的内容也已经诞生并逐渐被用户接受。
当前视频应用范围非常广泛,互联网视频网站、IPTV(交互式网络电视)、OTT(OverThe Top,通过互联网向用户提供各种应用服务)、互联网电视等应用极大丰富了广大人民群众的业余生活。随着电视的互联网化,以及手机终端处理能力的增强,三屏互动业务成为一种友好的视频应用体验方式,另外当前互联网视频网站众多,网民希望在一个应用中搜索一个视频时能够同时看到多个具有该视频的网站的搜索结果,然后根据兴趣爱好选择一个网站观看,因此出现了内容聚合平台,该平台可以采集来自不同位置的视频内容元数据,然后将来自不同数据源的相同视频内容建立关联关系,最终满足用户一次搜索找到多个视频网站来源的需求。但PC、互联网电视、手机终端的视频内容是相互独立运营的,同时不同互联网视频网站对相同视频内容的再编辑也造成了视频元数据的差异较大,如果仅仅按照视频资源名称精确匹配来建立关联关系,成功率非常低。如果来自多源的相同视频元数据不能准确的关联在一起,内容聚合平台能够产生的最终效果将会大打折扣。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种多源视频元数据的关联方法及系统,通过给方法及系统,能够有效提高多源视频元数据关联的准确率。
为实现上述目的,本发明采用的技术方案如下:
一种多源视频元数据的关联方法,包括以下步骤:
(1)获取不同数据源的视频,提取视频的视频元数据,设置每条视频元数据的唯一标识,将视频元数据及其唯一标识、数据源标识关联存储;
(2)对所提取的视频元数据进行预处理;所述预处理包括去重、元数据字段拆分和元数据字段的格式归一化,去重是指属于同一数据源的视频元数据的去重;
(3)确定视频元数据的字段重要度等级,根据字段重要度等级建立视频元数据之间的关联关系。
进一步,如上所述的一种多源视频元数据的关联方法,步骤(1)中,所述不同数据源包括互联网视频网站、合作视频内容提供商、媒资系统和电子节目指南EPG系统;所述视频包括直播视频和点播视频。
进一步,如上所述的一种多源视频元数据的关联方法,步骤(2)中,所述预处理还包括确定视频元数据的必要保留字段,删除非必要保留字段,若视频元数据的必要保留字段不存在,则缺省处理。
进一步,如上所述的一种多源视频元数据的关联方法,所述必要保留字段包括影片名称、地区分类、上映时间、影视分类、导演、集数、时长和主演;所述影片名称包括影片正式名称和影片别名。
进一步,如上所述的一种多源视频元数据的关联方法,步骤(2)中,所述元数据字段拆分包括影片名称的拆分、导演的拆分和主演的拆分;所述元数据字段的格式归一化包括时长、上映时间、地区分类、导演和主演的数据格式统一。
进一步,如上所述的一种多源视频元数据的关联方法,步骤(2)中,元数据字段的格式归一化的方式为:
建立各字段的归一条件映射表,根据所述归一条件映射表进行字段的格式归一化。
进一步,如上所述的一种多源视频元数据的关联方法,所述字段重要度等级包括第一等级、第二等级和第三等级;第一等级字段包括影片名称,第二等级包括地区分类、上映时间、影视分类和导演,第三等级字段包括集数、时长和主演;
根据根据字段重要度等级建立视频元数据之间的关联关系,包括:
1)根据第一等级字段建立视频元数据的关联关系,建立方式为:确定一条视频元数据作为初始记录,以初始记录的第一等级字段作为关键字在其它数据源的视频元数据中进行模糊检索,查看检索结果中是否有与初始记录的第一等级字段完全相同的记录,若是,则该记录与初始记录关联,建立初始记录与该记录的视频元数据的关联关系,若否,则查看检索结果中是否有与初始记录的第一等级字段部分相同的记录,若是,则进入步骤2),若否,则确定没有与初始记录关联的视频元数据,关联结束;
2)根据第二等级字段建立视频元数据的关联关系,建立方式为:将与初始记录的第一等级字段部分相同的记录记为待匹配记录,判断待匹配记录的第二等级字段与初始记录的第二等级字段是否完全相同,若是,则进入步骤3),若否,则确定待匹配记录与初始记录不关联,关联结束;
3)根据第三等级字段建立视频元数据的关联关系,建立方式为:将待匹配记录的第三等级字段与初始记录的第三等级字段的匹配结果是否符合预设的匹配条件,若是,则待匹配记录与初始记录关联,建立初始记录与待匹配记录的视频元数据的关联关系,若否,则确定待匹配记录与初始记录不关联,关联结束。
进一步,如上所述的一种多源视频元数据的关联方法,步骤3)中,所述预设的匹配条件包括待匹配记录与初始记录至少存在一个相同的主演、待匹配记录与初始记录的集数的偏差小于第一设定阈值和待匹配记录与初始记录的时长的偏差小于第二设定阈值。
进一步,如上所述的一种多源视频元数据的关联方法,步骤2)中,若待匹配记录与初始记录的第二等级字段均不存在或不同时存在时,进入步骤3);步骤3)中,若待匹配记录与初始记录的第三等级字段均不存在或不同时存在时,确定待匹配记录与初始记录不关联,关联结束。
一种多源视频元数据的关联系统,包括:
多源视频元数据采集子系统,用于获取不同数据源的视频,提取视频的视频元数据,设置每条视频元数据的唯一标识,将视频元数据及其唯一标识、数据源标识关联存储;
管理子系统,用于提供用户交互界面,实现对多源视频元数据的关联系统的管理;所述管理子系统包括:
字段重要度等级确定模块,用于确定视频元数据的字段重要度等级;
视频元数据清洗子系统,用于对所提取的视频元数据进行预处理;所述视频元数据清洗子系统包括元数据去重模块、字段拆分模块和字段格式归一化模块;
视频元数据关联子系统,用于确定视频元数据的字段重要度等级,根据字段重要度等级建立视频元数据之间的关联关系。
本发明的有益效果在于:本发明所提供的多源视频元数据的关联方法及系统,通过分析视频元数据的每个元素(字段)的重要性,并根据不同元素的重要程度实现不同源视频元数据的关联关系的建立,解决了现有技术中对来自多源的视频元数据建立关联关系时准确率不高的问题,提升了多源视频元数据的关联准确率,使来自多个视频源的视频内容在内容聚合平台上能够建立正确的关联关系,更好的满足了用户的使用需求,提高了用户的体验。
附图说明
图1为具体实施方式中一种多源视频元数据的关联方法的流程图;
图2为具体实施方式中一种多源视频元数据的关联系统的结构框图;
图3为具体实施方式中提供的一种根据字段重要度等级建立视频元数据之间关联关系的流程图。
具体实施方式
下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。
本发明的基本思想是提供一种多源视频元数据的关联方法及系统,使用这种方法及系统,可以解决在对来自多源的视频元数据建立关联关系时准确率不高的问题,从而提升多源视频元数据关联准确率,使来自多个视频源的视频内容在内容聚合平台上能够正确关联起来,达到方便终端用户享受视频内容的目的。
图1示出了本发明具体实施方式中提供的一种多源视频元数据的关联方法的流程图,由图中可以看出,该方法主要包括以下几个步骤
步骤S100:获取不同数据源的视频,提取视频的视频元数据;
首先,获取不同数据源的视频,提取视频的视频元数据,并设置每条视频元数据的唯一标识,将视频元数据及其唯一标识、数据源标识关联存储。
本实施方式中,所述视频包括包括直播视频和点播视频。视频的来源包括但不限于以下互联网视频网站、合作视频内容提供商、媒资系统和电子节目指南EPG系统等。
对于不同数据源的视频元数据的采集获取可以根据实际应用情况来确定元数据的获取方式,一般的,互联网视频网站的视频元数据可以通过爬虫系统获得,通过适配爬虫系统的API接口从爬虫系统中获取来自互联网视频网站的视频元数据。合作视频内容提供商即合作CP有大量视频内容,CP视频元数据通过适配不同合作CP的API接口,通过API接口获取到合作CP的视频元数据。而对于媒资系统,使用内容聚合平台的用户自身具有不同的视频服务平台,每个平台有自己的媒资系统,可以通过API接口与媒资系统对接,获取媒资系统中的视频内容元数据。EPG(电子节目指南)系统管理视频内容的元数据,可以通过API接口从EPG系统中获取视频元数据。
视频元数据根据点播、直播的不同,包含的内容也有不同,例如点播的视频元数据包含影片名称、影片类型和集数(多集视频,如电视剧)等;直播的视频包含直播频道和时间等,可以根据需要设置具体提取哪些视频元数据。
完成不同数据源的视频元数据的提取后,需要设置每条视频元数据的唯一标识,并将视频元数据及其唯一标识、其数据源标识关联存储。视频元数据的存储方式并不是唯一的,可以根据实际应用常见确定存储方式,例如可以保存到数据库的元数据表meta-data-table表中,每条视频元数据由唯一metadataID(元数据唯一标识)标记,每条记录由providerID(数据源标识)标记数据来源。
步骤S200:对所提取的视频元数据进行去重、元数据字段拆分和元数据字段的格式归一化;
在完成视频元数据的初步提取后,为了提高后续数据处理的效率,需要对所提取的视频元数据进行预处理,即进行数据清洗。本实施方式中,所述预处理包括去重、元数据字段拆分、元数据字段的格式归一化以及非必要保留字段的删除,其中,去重是指属于同一数据源的视频元数据的去重。去重、元数据字段拆分、元数据字段的格式归一化以及非必要保留字段的删除这几种预处理方式的处理顺序并不是唯一的,为了提高处理效率,可优选去重-非必要保留字段删除-元数据字段拆分-格式归一化的顺序。
对于所述非必要保留字段的删除,首先需要根据需要确定出视频元数据的必要保留字段,然后删除非必要保留字段,减少对视频元数据建立关联关系的干扰,若视频元数据的必要保留字段不存在,则缺省处理。所述必要保留字段是根据需要进行设置的,本实施方式中,所述必要保留字段包括影片名称、地区分类、上映时间、影视分类、导演、集数、时长和主演等,所述影片名称包括影片正式名称和影片别名。
所述元数据字段拆分包括影片名称的拆分、导演的拆分和主演的拆分,具体的拆分方式根据预设的拆分规则进行,例如,对于影片名称,将汉字与数字、字母分开,比如将“风云年代37”拆分为“风云年代”和“37”两个字段,包含多个别名,将别名分别拆开,如果导演包含多个,分拆为多个记录保存,如果主演包含多个,分拆为多个记录。
所述元数据字段的格式归一化包括时长、上映时间、地区分类、导演和主演的数据格式统一。本实施方式中,通过建立各字段的归一条件映射表,根据所述归一条件映射表进行字段的格式归一化。比如:时长,归一单位为分钟,比如一个半小时,转换为90分钟;上映年代,如果是96年,统一为1996年;地区,如果是“内地”,统一为“大陆”,“Hong Kong”统一为“香港”等;导演,如果是“John Woo”,统一为“吴宇森”,如果是“Andy Lau”、“Lau Tak Wah”、“华仔”、“华Dee”、“华哥”等,统一为“刘德华”。各字段均有归一条件映射表,将常用的汉字或英文形成映射关系,在做归一化处理时从映射表中查询匹配,该表可以根据需要通过管理系统进行增删改。
本实施方式中,完成视频元数据的预处理,可以将清洗后的数据保存在数据库的清洗数据表clean-data-table表中,清洗后数据通过视频元数据唯一标记metadataID与meta-data-table表中的视频元数据进行关联。
步骤S300:确定视频元数据的字段重要度等级,根据字段重要度等级建立视频元数据之间的关联关系。
本实施方式中,所述字段重要度等级是指在建立不同数据源的视频元数据之间的关联关系时,视频元数据的各字段的重要度或优先度,
本实施方式中,所述字段重要度等级包括第一等级、第二等级和第三等级;其中,第一等级字段包括影片名称,第二等级包括地区分类、上映时间、影视分类和导演,第三等级字段包括集数、时长和主演。其中,字段的重要度等级可以根据实际情况进行调整。
本实施方式中,根据根据字段重要度等级建立视频元数据之间的关联关系的具体方式为:
1)根据第一等级字段建立视频元数据的关联关系,建立方式为:确定一条视频元数据作为初始记录,以初始记录的第一等级字段作为关键字在其它数据源的视频元数据中进行模糊检索,查看检索结果中是否有与初始记录的第一等级字段完全相同的记录,若是,则该记录与初始记录关联,建立初始记录与该记录的视频元数据的关联关系,若否,则查看检索结果中是否有与初始记录的第一等级字段部分相同的记录,若是,则进入步骤2),若否,则确定没有与初始记录关联的视频元数据,关联结束;
2)根据第二等级字段建立视频元数据的关联关系,建立方式为:将与初始记录的第一等级字段部分相同的记录记为待匹配记录,判断待匹配记录的第二等级字段与初始记录的第二等级字段是否完全相同,若是,则进入步骤3),若否,则确定待匹配记录与初始记录不关联,关联结束;
3)根据第三等级字段建立视频元数据的关联关系,建立方式为:将待匹配记录的第三等级字段与初始记录的第三等级字段的匹配结果是否符合预设的匹配条件,若是,则待匹配记录与初始记录关联,建立初始记录与待匹配记录的视频元数据的关联关系,若否,则确定待匹配记录与初始记录不关联,关联结束。
本实施方式中,步骤3)中,所述预设的匹配条件包括待匹配记录与初始记录至少存在一个相同的主演、待匹配记录与初始记录的集数的偏差小于第一设定阈值和待匹配记录与初始记录的时长的偏差小于第二设定阈值。其中,所述第一设定阈值、第二设定阈值可以通过管理子系统提供界面进行设置和修改。
其中,步骤2)中,若待匹配记录与初始记录的第二等级字段均不存在或不同时存在时,进入步骤3);步骤3)中,若待匹配记录与初始记录的第三等级字段均不存在或不同时存在时,确定待匹配记录与初始记录不关联,关联结束。具体的,本实施方式中,当待匹配记录和初始记录的地区、上映年代、影视分类、导演字段都不存在时或者地区、上映年代、影视分类、导演字段不同时存在时,则执行第三等级字段的判断。
本实施方式中,影片名称作为第一等级字段即最重要因素,以影片名称作为关键字在其它数据源的视频元数据中进行模糊检索时,包括以影片正式名称、拆分后的各个子名称、各个别名分别进行检索,以保证检索结果的尽可能完整。与初始记录的影片名称部分相同的记录是指检索到的记录的影片名称与初始记录的影片名称有相同的部分但不完全相同,还可以设置相同的部分具体有多少可以算是符合部分相同,例如至少两个字符相同。
如果检索到的记录与初始记录的影片名称完全相同,则直接建立这两条记录的关联关系,在用户观看或检索初始记录时,可以将与其具有关联关系的记录也呈现给用户,满足用户一次搜索到多个视频源的视频。当影片名称只有部分相同时,再将检索到部分相同的记录的第二等级字段与初始记录的第二等级字段进行比对,如果两个记录的第二等级字段完全相同,则继续进行第三等级字段的匹配,如果两个记录的第二等级字段不完全相同,则两条记录无关联,两条记录不匹配,比对结束。
如图3所示,为本实施方式中提供的根据字段重要度等级建立视频元数据之间关联关系的一种流程图,具体步骤如下:
1)首先在clean-data-table表中选择一条记录作为初始记录,以该条记录的“影片名称”为关键字进行检索,影片名称包括完整影片名称、拆分后影片名称、影片别名,如果搜索到不同来源的其他记录,继续执行后续流程,否则完成;
2)如果“影片名称”完全相同,则建立关联关系,比对结束;否则执行后续比对流程;
3)如果“影片名称”部分比对成功,则执行后续比对流程;否则两条记录没有关联关系,比对结束;
4)选择初始记录的“影视分类”作为关键字进行比对,如果两条记录的“影视分类”字段都存在值且不一致,标记为不匹配即无关联,比对结束;否则继续后续比对流程;
5)选择初始记录的“地区”作为关键字进行比对,如果两条记录的地区字段都存在值且不一致,标记为不匹配,比对结束,标记两条记录不匹配;否则继续后续比对流程;
6)选择初始记录的“上映年代”作为关键字进行比对,如果两条记录的上映年代都存在值并且不一致,结束比对,标记两条记录不匹配;否则继续后续比对流程;
7)选择初始记录的“导演”作为关键字进行比对,如果两条记录的导演都存在值并且不一致,结束比对,标记两条记录不匹配;否则继续后续比对流程;
其中,步骤4)-7)中,如果初始记录与检索到的记录的“地区”、“上映年代”、“影视分类”、“导演”字段都不存在值或者每个字段在两条记录中不同时有值时,执行后续比对流程;否则标记两条记录相同即所有第二等级字段都相同,建立关联关系,比对结束;
9)选择初始记录的“主演”作为关键字进行比对,如果两条记录的主演都存在值并且完全不一致,标记两条记录不匹配,结束比对;否则继续后续比对流程;
10)选择初始记录的“集数”作为关键字进行比对,如果两条记录的集数都存在值并且偏差超过某个阈值(该阈值可配置),标记两条记录不匹配,结束比对;否则继续后续比对流程;
11)选择初始记录的“时长”作为关键字进行比对,如果两条记录的时长都存在值并且偏差超过某个阈值(该阈值可配置),标记两条记录不匹配,结束比对;否则继续后续比对流程;
其中,步骤8)-10)中,如果初始记录与检索到的记录的“主演”、“集数”、“时长”字段都不存在值或者每个字段在两条记录中不同时有值时,标记两条记录没有关联关系;否则建立关联关系,比对结束。
与图1中所示的方法相对应,本发明还提供了一种多源视频元数据的关联系统,如图2所示,该系统包括多源视频元数据采集子系统100、管理子系统200、视频元数据清洗子系统300和视频元数据关联子系统400。其中:
多源视频元数据采集子系统100,用于获取不同数据源的视频,提取视频的视频元数据,设置每条视频元数据的唯一标识,将视频元数据及其唯一标识、数据源标识关联存储。
管理子系统200,用于提供用户交互界面,实现对多源视频元数据的关联系统的管理;所述管理子系统包括,用于确定视频元数据的字段重要度等级的字段重要度等级确定模块201;
视频元数据清洗子系统300,用于对所提取的视频元数据进行预处理;所述视频元数据清洗子系统包括元数据去重模块301、字段拆分模块302和字段格式归一化模块303,元数据去重模块301用于对属于同一数据源的视频元数据进行去重处理;
视频元数据关联子系统400,用于确定视频元数据的字段重要度等级,根据字段重要度等级建立视频元数据之间的关联关系。
本实施方式中所提供的多源视频元数据的关联系统,管理子系统200负责管理其他子系统所需的配置参数,映射关系,执行策略等,支持增删改查功能,视频元数据关联子系统400通过接口从管理子系统200中查询相关配置,在对记录进行关联比对时应用这些配置参数。数据清洗子系统300在对数据进行归一化处理时,通过接口查询映射关系(归一化条件映射表)后,对视频元数据进行归一化处理,增加后续视频元数据关联子系统400比对时的成功率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种多源视频元数据的关联方法,包括以下步骤:
(1)获取不同数据源的视频,提取视频的视频元数据,设置每条视频元数据的唯一标识,将视频元数据及其唯一标识、数据源标识关联存储;
(2)对所提取的视频元数据进行预处理;所述预处理包括去重、元数据字段拆分和元数据字段的格式归一化,去重是指属于同一数据源的视频元数据的去重;所述元数据字段拆分包括影片名称的拆分、导演的拆分和主演的拆分;所述元数据字段的格式归一化包括时长、上映时间、地区分类、导演和主演的数据格式统一;
(3)确定视频元数据的字段重要度等级,根据字段重要度等级建立视频元数据之间的关联关系;所述字段重要度等级包括第一等级、第二等级和第三等级;第一等级字段包括影片名称,第二等级包括地区分类、上映时间、影视分类和导演,第三等级字段包括集数、时长和主演;
根据字段重要度等级建立视频元数据之间的关联关系,包括:
1)根据第一等级字段建立视频元数据的关联关系,建立方式为:确定一条视频元数据作为初始记录,以初始记录的第一等级字段作为关键字在其它数据源的视频元数据中进行模糊检索,查看检索结果中是否有与初始记录的第一等级字段完全相同的记录,若是,则该记录与初始记录关联,建立初始记录与该记录的视频元数据的关联关系,进入步骤2);若否,则确定没有与初始记录关联的视频元数据,关联结束,查看检索结果中是否有与初始记录的第一等级字段部分相同的记录;
若待匹配记录与初始记录的第二等级字段均不存在或不同时存在时,进入步骤3);步骤3)中,若待匹配记录与初始记录的第三等级字段均不存在或不同时存在时,确定待匹配记录与初始记录不关联,关联结束;
2)根据第二等级字段建立视频元数据的关联关系,建立方式为:将与初始记录的第一等级字段部分相同的记录记为待匹配记录,判断待匹配记录的第二等级字段与初始记录的第二等级字段是否完全相同,若是,则进入步骤3),若否,则确定待匹配记录与初始记录不关联,关联结束;
3)根据第三等级字段建立视频元数据的关联关系,建立方式为:将待匹配记录的第三等级字段与初始记录的第三等级字段的匹配结果是否符合预设的匹配条件,若是,则待匹配记录与初始记录关联,建立初始记录与待匹配记录的视频元数据的关联关系,若否,则确定待匹配记录与初始记录不关联,关联结束。
2.根据权利要求1所述的一种多源视频元数据的关联方法,其特征在于:步骤(1)中,所述不同数据源包括互联网视频网站、合作视频内容提供商、媒资系统和电子节目指南EPG系统;所述视频包括直播视频和点播视频。
3.根据权利要求1所述的一种多源视频元数据的关联方法,其特征在于:步骤(2)中,所述预处理还包括确定视频元数据的必要保留字段,删除非必要保留字段,若视频元数据的必要保留字段不存在,则缺省处理。
4.根据权利要求3所述的一种多源视频元数据的关联方法,其特征在于:所述必要保留字段包括影片名称、地区分类、上映时间、影视分类、导演、集数、时长和主演;所述影片名称包括影片正式名称和影片别名。
5.根据权利要求1所述的一种多源视频元数据的关联方法,其特征在于:步骤(2)中,元数据字段的格式归一化的方式为:
建立各字段的归一条件映射表,根据所述归一条件映射表进行字段的格式归一化。
6.根据权利要求1所述的一种多源视频元数据的关联方法,其特征在于:步骤3)中,所述预设的匹配条件包括待匹配记录与初始记录至少存在一个相同的主演、待匹配记录与初始记录的集数的偏差小于第一设定阈值和待匹配记录与初始记录的时长的偏差小于第二设定阈值。
7.一种多源视频元数据的关联系统,包括:
多源视频元数据采集子系统,用于获取不同数据源的视频,提取视频的视频元数据,设置每条视频元数据的唯一标识,将视频元数据及其唯一标识、数据源标识关联存储;
管理子系统,用于提供用户交互界面,实现对多源视频元数据的关联系统的管理;所述管理子系统包括:
字段重要度等级确定模块,用于确定视频元数据的字段重要度等级;
视频元数据清洗子系统,用于对所提取的视频元数据进行预处理;所述视频元数据清洗子系统包括元数据去重模块、字段拆分模块和字段格式归一化模块;所述字段拆分模块用于影片名称的拆分、导演的拆分和主演的拆分;所述字段格式归一化模块用于时长、上映时间、地区分类、导演和主演的数据格式统一;
视频元数据关联子系统,用于确定视频元数据的字段重要度等级,根据字段重要度等级建立视频元数据之间的关联关系;所述字段重要度等级包括第一等级、第二等级和第三等级;第一等级字段包括影片名称,第二等级包括地区分类、上映时间、影视分类和导演,第三等级字段包括集数、时长和主演;根据字段重要度等级建立视频元数据之间的关联关系,包括:
1)根据第一等级字段建立视频元数据的关联关系,建立方式为:确定一条视频元数据作为初始记录,以初始记录的第一等级字段作为关键字在其它数据源的视频元数据中进行模糊检索,查看检索结果中是否有与初始记录的第一等级字段完全相同的记录,若是,则该记录与初始记录关联,建立初始记录与该记录的视频元数据的关联关系,进入步骤2);若否,则确定没有与初始记录关联的视频元数据,关联结束,查看检索结果中是否有与初始记录的第一等级字段部分相同的记录;
若待匹配记录与初始记录的第二等级字段均不存在或不同时存在时,进入步骤3);步骤3)中,若待匹配记录与初始记录的第三等级字段均不存在或不同时存在时,确定待匹配记录与初始记录不关联,关联结束;
2)根据第二等级字段建立视频元数据的关联关系,建立方式为:将与初始记录的第一等级字段部分相同的记录记为待匹配记录,判断待匹配记录的第二等级字段与初始记录的第二等级字段是否完全相同,若是,则进入步骤3),若否,则确定待匹配记录与初始记录不关联,关联结束;
3)根据第三等级字段建立视频元数据的关联关系,建立方式为:将待匹配记录的第三等级字段与初始记录的第三等级字段的匹配结果是否符合预设的匹配条件,若是,则待匹配记录与初始记录关联,建立初始记录与待匹配记录的视频元数据的关联关系,若否,则确定待匹配记录与初始记录不关联,关联结束。
CN201610818094.2A 2016-09-12 2016-09-12 一种多源视频元数据的关联方法及系统 Active CN106484774B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610818094.2A CN106484774B (zh) 2016-09-12 2016-09-12 一种多源视频元数据的关联方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610818094.2A CN106484774B (zh) 2016-09-12 2016-09-12 一种多源视频元数据的关联方法及系统

Publications (2)

Publication Number Publication Date
CN106484774A CN106484774A (zh) 2017-03-08
CN106484774B true CN106484774B (zh) 2020-10-20

Family

ID=58273544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610818094.2A Active CN106484774B (zh) 2016-09-12 2016-09-12 一种多源视频元数据的关联方法及系统

Country Status (1)

Country Link
CN (1) CN106484774B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107783950B (zh) * 2017-04-11 2021-05-14 平安医疗健康管理股份有限公司 药品说明书处理方法及装置
CN107918657B (zh) * 2017-11-20 2021-10-08 腾讯科技(深圳)有限公司 一种数据源的匹配方法和装置
CN110942078B (zh) * 2018-09-22 2024-01-12 北京微播视界科技有限公司 聚合兴趣点数据的方法、装置、媒体文件服务器及存储介质
CN110618982B (zh) * 2018-12-26 2022-09-30 北京时光荏苒科技有限公司 一种多源异构数据的处理方法、装置、介质及电子设备
CN109889865B (zh) * 2019-03-12 2020-06-30 四川长虹电器股份有限公司 一种视频播放源推荐方法
CN113268634A (zh) * 2021-04-27 2021-08-17 广州骏伯网络科技有限公司 一种视频数据关联方法、装置、计算机设备及存储介质
CN114915807B (zh) * 2022-07-14 2022-12-13 飞狐信息技术(天津)有限公司 一种信息处理方法及装置
CN117493641B (zh) * 2024-01-02 2024-03-22 中国电子科技集团公司第二十八研究所 一种基于语义元数据的二次模糊搜索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193948A (zh) * 2010-03-16 2011-09-21 华为技术有限公司 特征匹配方法和装置
CN102486800A (zh) * 2010-12-01 2012-06-06 财团法人工业技术研究院 视频搜索方法、系统及建立视频数据库的方法
CN104540006A (zh) * 2012-02-24 2015-04-22 青岛海信电器股份有限公司 数字电视节目相关信息的搜索方法及数字电视接收终端
CN105224576A (zh) * 2014-07-01 2016-01-06 上海视畅信息科技有限公司 一种影视智能推荐方法
CN105528338A (zh) * 2014-09-30 2016-04-27 上海触乐信息科技有限公司 智能预测的输入方法和系统
CN105786857A (zh) * 2014-12-24 2016-07-20 Tcl集团股份有限公司 一种提高视频聚合效率的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9024961B2 (en) * 2011-12-19 2015-05-05 Dolby Laboratories Licensing Corporation Color grading apparatus and methods

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102193948A (zh) * 2010-03-16 2011-09-21 华为技术有限公司 特征匹配方法和装置
CN102486800A (zh) * 2010-12-01 2012-06-06 财团法人工业技术研究院 视频搜索方法、系统及建立视频数据库的方法
CN104540006A (zh) * 2012-02-24 2015-04-22 青岛海信电器股份有限公司 数字电视节目相关信息的搜索方法及数字电视接收终端
CN105224576A (zh) * 2014-07-01 2016-01-06 上海视畅信息科技有限公司 一种影视智能推荐方法
CN105528338A (zh) * 2014-09-30 2016-04-27 上海触乐信息科技有限公司 智能预测的输入方法和系统
CN105786857A (zh) * 2014-12-24 2016-07-20 Tcl集团股份有限公司 一种提高视频聚合效率的方法及系统

Also Published As

Publication number Publication date
CN106484774A (zh) 2017-03-08

Similar Documents

Publication Publication Date Title
CN106484774B (zh) 一种多源视频元数据的关联方法及系统
CN106331778B (zh) 视频推荐方法和装置
US10271111B2 (en) Automated video logging methods and systems
US10515133B1 (en) Systems and methods for automatically suggesting metadata for media content
CN110704411B (zh) 适用于艺术领域的知识图谱搭建方法及装置、电子设备
US8064641B2 (en) System and method for identifying objects in video
WO2017096877A1 (zh) 一种推荐方法和装置
US8145648B2 (en) Semantic metadata creation for videos
CN109684513B (zh) 一种低质量视频识别方法及装置
CN106354827B (zh) 一种媒资数据整合方法及系统
CN105653700A (zh) 视频检索方法及系统
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
US8600969B2 (en) User interest pattern modeling server and method for modeling user interest pattern
CN111327955B (zh) 基于用户画像的点播方法、存储介质及智能电视
CN111008321A (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
CN104809117A (zh) 视频数据聚合处理方法、聚合系统及视频搜索平台
WO2015096609A1 (zh) 视频资源的倒排索引文件建立方法及其系统
EP2691845A2 (en) Semantic enrichment by exploiting top-k processing
JP2008283412A (ja) コメント収集解析装置およびそのプログラム
KR101654151B1 (ko) 컨텐츠 검색을 위한 자동 완성 문장 제공 방법 및 시스템
US20200257724A1 (en) Methods, devices, and storage media for content retrieval
US10949773B2 (en) System and methods thereof for recommending tags for multimedia content elements based on context
TW201435627A (zh) 搜索優化系統及方法
CN113378000B (zh) 一种视频标题生成方法及装置
CN116028669A (zh) 一种基于短视频的视频搜索方法、装置、系统和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant