CN103902723A - 一种媒体文件编目元数据聚合方法及装置 - Google Patents

一种媒体文件编目元数据聚合方法及装置 Download PDF

Info

Publication number
CN103902723A
CN103902723A CN201410142932.XA CN201410142932A CN103902723A CN 103902723 A CN103902723 A CN 103902723A CN 201410142932 A CN201410142932 A CN 201410142932A CN 103902723 A CN103902723 A CN 103902723A
Authority
CN
China
Prior art keywords
media file
catalogue data
catalogue
data
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410142932.XA
Other languages
English (en)
Inventor
丁文华
顾军
杨磊
雒勇
邹娟
杜伟
王付生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Central TV Station
Beijing Dayang Technology Development Inc
Original Assignee
China Central TV Station
Beijing Dayang Technology Development Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Central TV Station, Beijing Dayang Technology Development Inc filed Critical China Central TV Station
Priority to CN201410142932.XA priority Critical patent/CN103902723A/zh
Publication of CN103902723A publication Critical patent/CN103902723A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata

Abstract

本发明提供了一种媒体文件编目元数据聚合方法及装置,包括:获取编目数据,获取编目数据的方式为以下中的一种或任意几种的组合:从第一媒体文件的任务工单信息、附件信息、内容信息、管理信息中获取关于第一媒体文件主题、播出的编目数据、制作编目数据、技术编目数据、处理控制编目数据;以及当确定存在与第一媒体文件相关联的第二媒体文件时,从第二媒体文件的编目数据中获取第二媒体文件的与第一媒体文件相对应的编目数据;对获取的编目数据进行识别和处理,并聚合以形成结构化的第一媒体文件编目元数据。本发明有效地提高了媒体文件编目元数据的处理效率,从多个维度聚合的媒体文件元数据更为全面。

Description

一种媒体文件编目元数据聚合方法及装置
技术领域
本发明涉及媒体文件数据处理技术领域,尤其涉及一种媒体文件编目元数据聚合方法及装置。
背景技术
编目是媒体文件资料管理中一项重要的内容,是对媒体文件资料的外部特征和内容特征进行分析、选择、描述,并予以处理成为元数据的过程,编目可以有效简化媒体文件资料的查询。元数据的应用目的包括:(1)确认和检索,用于帮助人们检索和确认所需要的资源,数据元素往往限于作者、标题、主题、位置等简单信息;(2)著录描述,用于对数据单元进行详细、全面的著录描述,数据元素囊括内容、载体、位置与获取方式、制作与利用方法、甚至相关数据单元方面等,数据元素数量往往较多;(3)资源管理,支持资源的存储和使用管理,数据元素除比较全面的著录描述信息外,还往往包括权利管理、电子签名、资源评鉴、使用管理、支付审计等方面的信息;(4)资源保护与长期保存,支持对资源进行长期保存,数据元素除对资源进行描述和确认外,往往包括详细的格式信息、制作信息、保护条件、转换方式、保存责任等内容。
传统的媒体文件资料编目由专门的媒体文件编目工作人员在计算机平台上用编目软件将媒体文件资料按一定要求进行切分、归类、著录、标引,并著录文字信息对节目内容进行处理,提取关键词,还需要将节目内容按标题字幕、黑屏、主题内容或片头、片花等进行准确切分,形成节目层、片段层、场景层和镜头层,还包括编目结果的质检。
上述传统的媒体文件资料编目方式,主要由人工完成,工作效率较低,且编目考虑的维度较为固化,不利于媒体文件的再利用。
发明内容
本发明针对上述问题,提出了一种媒体文件编目元数据聚合方法及装置,其能自动化地从多个维度获取媒体文件的编目数据并进行识别、分类、处理,进而聚合成结构化的媒体文件元数据。
在一个方面,本发明提供了一种媒体文件编目元数据聚合方法,包括:
第一步骤,获取编目数据,获取编目数据的方式为以下中的一种或任意几种的组合:
(1)从第一媒体文件任务工单信息中获取关于第一媒体文件主题、播出的编目数据;
(2)从第一媒体文件附件信息中获取第一媒体文件的制作编目数据;
(3)从第一媒体文件内容信息中获取第一媒体文件的技术编目数据;
(4)从第一媒体文件管理信息中获取第一媒体文件的处理控制编目数据;和
(5)当确定存在与第一媒体文件相关联的第二媒体文件时,从第二媒体文件的编目数据中获取所述第二媒体文件的与所述第一媒体文件相对应的编目数据;
以及
第二步骤,对获取的编目数据进行识别和处理,并聚合以形成结构化的第一媒体文件编目元数据。
在另一个方面,本发明提供了一种媒体文件编目元数据聚合装置,其包括:
编目数据获取单元,用于获取编目数据,获取编目数据的方式为以下中的一种或任意几种的组合:
(1)从媒体文件任务工单信息中获取关于第一媒体文件主题、播出的编目数据;
(2)从媒体文件附件信息中获取第一媒体文件的制作编目数据;
(3)从媒体文件内容信息中获取第一媒体文件的技术编目数据;
(4)从媒体文件管理信息中获取第一媒体文件的处理控制编目数据;和
(5)当确定存在与第一媒体文件相关联的第二媒体文件时,从第二媒体文件的编目数据中获取所述第二媒体文件的与所述第一媒体文件相对应的编目数据;
聚合单元,用于对获取的编目数据进行识别和处理,并聚合以形成结构化的第一媒体文件编目元数据。
本发明提供了一种媒体文件编目元数据聚合方法及装置,通过从媒体文件的多个维度自动获取媒体文件的编目数据,并对获取的编目数据进行识别和处理,聚合为媒体文件编目元数据,提高了媒体文件编目元数据的处理效率,从多个维度聚合的媒体文件元数据更为全面。
附图说明
下面将参照附图描述本发明的具体实施例,其中:
图1为本发明实施例提供的一种媒体文件编目元数据聚合方法的流程图。
图2为本发明实施例提供的一种媒体文件编目元数据聚合装置的构成示意图。
具体实施方式
为了使本发明的技术方案及优点更加清楚明白,以下结合附图对本发明的示例性实施例进行进一步详细的说明,显然,所描述的实施例仅是本发明的一部分实施例,而不是所有实施例的穷举。
如图1所示,本发明的实施例提供了一种媒体文件编目元数据聚合方法,可以从多个维度自动提取媒体文件的编目数据,经识别、处理后,聚合成媒体文件的元数据。其包括:
S101:第一步骤,获取编目数据,获取编目数据的方式为以下中的一种或任意几种的组合:(1)从第一媒体文件任务工单信息中获取关于第一媒体文件主题、播出的编目数据;(2)从第一媒体文件附件信息中获取第一媒体文件的制作编目数据;(3)从第一媒体文件内容信息中获取第一媒体文件的技术编目数据;(4)从第一媒体文件管理信息中获取第一媒体文件的处理控制编目数据;和(5)当确定存在与第一媒体文件相关联的第二媒体文件时,从第二媒体文件的编目数据中获取所述第二媒体文件的与所述第一媒体文件相对应的编目数据。
从接收到的媒体文件任务工单信息中获取第一媒体文件主题、播出的编目数据,例如,可以从上游系统下发的各种任务类工单中提取相应的媒体文件编目数据,这些任务类工单包括节目入库任务单,外购素材/引进节目入库任务单,委托制作类节目入库任务,节目播出编排单等,从这些任务类工单可以提取节目选题,播出等方面的元数据信息。节目入库任务单中的“节目制作年份”,“节目类别”,“节目正标题”,“节目副标题”,“题名说明”,“系列分集题名”等元数据字段,可以被提取出来,作为媒体文件编目数据项的一部分。
从媒体文件附件信息中获取第一媒体文件制作系统提供的编目数据。从媒体自身附带的附件类文件提取相应元数据,这些附件类文件包括由制作系统提供的一次编目数据文件,如场记单文件、新闻串联单文件、新闻通稿文件等,从这些文件中可以提取制作系统提交的原始数据项,如新闻创意、选题、串联单、文稿、体育场记等相关数据项,新闻串联单一般会包含多个新闻条目,这些条目都带有入出点,可自动切分成片段,这些条目信息包括“标题”,“正文”,“记者”,“编辑”等。可以根据新闻串联单对媒体文件进行自动切分片段层,根据体育场记自动切分场景和镜头层。
从媒体文件内容信息中获取第一媒体文件技术编目数据。分析媒体文件的内容文件信息,提取相应的编目数据:对于视音频文件,可以分析其文件头,分析过程包括对视音频文件的封装格式、编码格式、码率、高标清标志、节目时长、节目大小、自动幅型比等信息进行提取;对图片类文件的图片格式、幅面、分辨率、位深度、拍摄时间、文件大小等信息进行提取;对文档类文件的格式、大小等信息进行提取,形成媒体文件的技术类编目数据信息。
从媒体文件管理信息中获取第一媒体文件处理控制编目数据。从媒体文件的管理信息提取有价值的编目数据,媒体文件最终为用户所用需要进行一系列处理过程,会经过若干处理环节,如上载、QC(Quality Control,质量控制)、编目、审核等,这个过程中的一些控制信息本身就可以作为媒体文件的编目数据,如“上载人”、“上载完成时间”、“QC人”、“QC完成时间”、“编目人”、“编目完成时间”等信息,也可作为编目元数据项。
当确定存在与第一媒体文件相关的第二媒体文件时,从第二媒体文件的编目数据中进行信息挖掘,获取与第一媒体文件相对应的编目数据。对第二媒体文件,即系统中已有的媒体文件进行信息挖掘,确定出其与当前媒体文件的关联关系,自动通过关联关系获取相应的元数据:例如对于同一系列的节目,其部分编目数据项是相同的,比如该系列节目的导演,原创音乐等责任者信息均相同,其中运用了相应的挖掘技术,推理机,关联算法,可以挖掘出将当前资料与系统中已有资料的关系,并提取相应信息作为其编目数据项。对于系列节目的部分元数据项具有共性,如《舌尖上的中国》栏目共有7集节目,系统会根据其栏目类别(纪录片)自动将其编目数据字段分为两部分,一部分是具有共性的,如导演,原创音乐,摄像等,一部分是每集节目所独有的,如正题名,内容介绍等。当第一集节目入库时,系统将获取其“系列题名”字段,当发现其属于系列节目中的一集,自动根据知识学习的挖掘技术获取其可以被提取出来的共性字段,这样当该系列的其他集节目入库时,系统将自动将共性元数据字段注入。
S102:对获取的编目数据进行识别和处理,并聚合以形成结构化的第一媒体文件编目元数据。获取完这些原始的编目数据之后,对其进行识别,分类和处理,对不同的编目数据项处理方式也不同,有些编目数据项是单值的,如节目正标题,节目类型等;有些编目数据项是多值的,如节目分类,节目播出栏目等,有些编目数据项以一个群组的形式,如资料的责任者信息,还有些编目数据可以衍生出子对象层(片段层,场景层,镜头层)来,比如新闻的串联单信息,场记信息等。处理之后,就形成了第一媒体文件的结构化编目元数据。
从第二媒体文件中进行信息挖掘具体包括:分析第一媒体文件的编目数据,确定出所述第一媒体文件与所述第二媒体文件相同的编目数据项,第一媒体文件直接从第二媒体文件继承该相同的编目数据项。例如,在媒体文件编目时,可以对同属一个系列的媒体文件设置通用编目数据项,同属一个系列的媒体文件的通用编目数据项是相同,某一系列节目中的第一个媒体文件的通用编目数据项获得后,后续的媒体文件可直接继承该相同的编目数据项,可以直接拷贝或复制作为第一媒体文件的编目数据。
编目数据为单值数据或多值数据,且各个编目数据的长度、类型或数量可扩展,即具体的编目数据的长度、类型、数量可依据实际获取的数据情况增加或减少。编目数据包括从第一媒体文件的制作编目数据对第一媒体文件自动切分的片段层、场景或镜头层编目数据。例如,可以从媒体文件的新闻串联单对媒体文件进行自动切分片段层,根据体育场记自动切分场景和镜头层。
本发明实施例提供的媒体文件编目元数据聚合方法,还包括依据提取的第一媒体文件的制作编目数据对第一媒体文件自动切分片段层、场景或镜头层。例如,根据新闻串联单对媒体文件进行自动切分片段层,根据体育场记自动切分场景和镜头层。
本发明实施例提供的媒体文件编目元数据聚合方法,通过多个维度获取媒体文件的编目数据信息并经处理聚合形成结构化的媒体文件的编目元数据,有效减少了人工著录工作量,同时提高了媒体文件编目处理的效率。
如图2所示,本发明的实施例还提供了一种媒体文件编目元数据聚合装置,其包括:编目数据获取单元201,用于获取编目数据,获取编目数据的方式为以下中的一种或任意几种的组合:(1)从媒体文件任务工单信息中获取关于第一媒体文件主题、播出的编目数据;(2)从媒体文件附件信息中获取第一媒体文件的制作编目数据;(3)从媒体文件内容信息中获取第一媒体文件的技术编目数据;(4)从媒体文件管理信息中获取第一媒体文件的处理控制编目数据;和(5)当确定存在与第一媒体文件相关联的第二媒体文件时,从第二媒体文件的编目数据中获取所述第二媒体文件的与所述第一媒体文件相对应的编目数据;聚合单元202,用于对获取的编目数据进行识别和处理,并聚合以形成结构化的第一媒体文件编目元数据。
编目数据获取单元201还包括,通用编目数据项挖掘单元,用于分析第一媒体文件的编目数据,确定出所述第一媒体文件与所述第二媒体文件相同的编目数据项,从第二媒体文件继承所述相同的编目数据项作为第一媒体文件的编目数据。编目数据获取单元201获取的编目数据为单值或多值,且各个编目数据的长度、类型或数量可扩展。
本发明实施例提供的媒体文件编目元数据聚合装置中的编目数据获取单元201还包括切分单元,用于从第一媒体文件的制作编目数据对第一媒体文件自动切分获取片段层、场景或镜头层编目数据。
本发明实施例提供的媒体文件编目元数据聚合装置,通过该装置,可从多个维度获取媒体文件的编目数据信息并经处理聚合形成结构化的媒体文件的编目元数据,有效减少了人工著录工作量,同时提高了媒体文件编目处理的效率。
以上实施例仅用以说明本发明的技术方案,而非对其进行限制。因此,在不背离本发明的精神及其实质的情况下,本领域技术人员可作出各种改变、替换和变型。很显然,但这些改变、替换和变型都应涵盖于本发明权利要求的保护范围之内。

Claims (8)

1.一种媒体文件编目元数据聚合方法,其特征在于,包括:
第一步骤,获取编目数据,获取编目数据的方式为以下中的一种或任意几种的组合:
(1)从第一媒体文件任务工单信息中获取关于第一媒体文件主题、播出的编目数据;
(2)从第一媒体文件附件信息中获取第一媒体文件的制作编目数据;
(3)从第一媒体文件内容信息中获取第一媒体文件的技术编目数据;
(4)从第一媒体文件管理信息中获取第一媒体文件的处理控制编目数据;和
(5)当确定存在与第一媒体文件相关联的第二媒体文件时,从第二媒体文件的编目数据中获取所述第二媒体文件的与所述第一媒体文件相对应的编目数据;
以及
第二步骤,对获取的编目数据进行识别和处理,并聚合以形成结构化的第一媒体文件编目元数据。
2.如权利要求1所述的方法,其特征在于,从第二媒体文件的编目数据中获取所述第二媒体文件的与所述第一媒体文件相对应的编目数据,具体包括:分析第一媒体文件的编目数据,确定出所述第一媒体文件与所述第二媒体文件相同的编目数据项,第一媒体文件从第二媒体文件继承相同的编目数据项。
3.如权利要求1或2任一所述的方法,其特征在于,所述编目数据为单值数据或多值数据,且各个编目数据的长度、类型或数量可扩展。
4.如权利要求1所述的方法,其特征在于,所述编目数据包括从第一媒体文件的制作编目数据对第一媒体文件自动切分的片段层、场景或镜头层编目数据。
5.一种媒体文件编目元数据聚合装置,其包括:
编目数据获取单元,用于获取编目数据,获取编目数据的方式为以下中的一种或任意几种的组合:
(1)从媒体文件任务工单信息中获取关于第一媒体文件主题、播出的编目数据;
(2)从媒体文件附件信息中获取第一媒体文件的制作编目数据;
(3)从媒体文件内容信息中获取第一媒体文件的技术编目数据;
(4)从媒体文件管理信息中获取第一媒体文件的处理控制编目数据;和
(5)当确定存在与第一媒体文件相关联的第二媒体文件时,从第二媒体文件的编目数据中获取所述第二媒体文件的与所述第一媒体文件相对应的编目数据;
聚合单元,用于对获取的编目数据进行识别和处理,并聚合以形成结构化的第一媒体文件编目元数据。
6.如权利要求5所述的装置,其特征在于,所述编目数据获取单元还包括,通用编目数据项挖掘单元,用于分析第一媒体文件的编目数据,确定出所述第一媒体文件与所述第二媒体文件相同的编目数据项,从第二媒体文件继承所述相同的编目数据项作为第一媒体文件的编目数据。
7.如权利要求5所述的装置,其特征在于,所述编目数据获取单元获取的编目数据为单值或多值,且各个编目数据的长度、类型或数量可扩展。
8.如权利要求5所述的装置,其特征在于,所述编目数据获取单元还包括切分单元,用于从第一媒体文件的制作编目数据对第一媒体文件自动切分获取片段层、场景或镜头层编目数据。
CN201410142932.XA 2014-04-10 2014-04-10 一种媒体文件编目元数据聚合方法及装置 Pending CN103902723A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410142932.XA CN103902723A (zh) 2014-04-10 2014-04-10 一种媒体文件编目元数据聚合方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410142932.XA CN103902723A (zh) 2014-04-10 2014-04-10 一种媒体文件编目元数据聚合方法及装置

Publications (1)

Publication Number Publication Date
CN103902723A true CN103902723A (zh) 2014-07-02

Family

ID=50994045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410142932.XA Pending CN103902723A (zh) 2014-04-10 2014-04-10 一种媒体文件编目元数据聚合方法及装置

Country Status (1)

Country Link
CN (1) CN103902723A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915389A (zh) * 2015-05-25 2015-09-16 成都视达科信息技术有限公司 一种栏目内容编目并分类绑定的系统及方法
CN105468614A (zh) * 2014-09-01 2016-04-06 方正国际软件(北京)有限公司 一种编目的方法及装置
CN108509577A (zh) * 2018-03-28 2018-09-07 上海数据交易中心有限公司 一种数据编目方法及装置
CN108549699A (zh) * 2018-04-16 2018-09-18 李学文 面向对象的信息编目方法及系统
CN110012349A (zh) * 2019-06-04 2019-07-12 成都索贝数码科技股份有限公司 一种端到端的新闻节目结构化方法及其结构化框架体系
CN113542820A (zh) * 2021-06-30 2021-10-22 北京中科模识科技有限公司 一种视频编目方法、系统、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236778A1 (en) * 1999-08-26 2004-11-25 Matsushita Electric Industrial Co., Ltd. Mechanism for storing information about recorded television broadcasts
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040236778A1 (en) * 1999-08-26 2004-11-25 Matsushita Electric Industrial Co., Ltd. Mechanism for storing information about recorded television broadcasts
CN101021857A (zh) * 2006-10-20 2007-08-22 鲍东山 基于内容分析的视频搜索系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468614A (zh) * 2014-09-01 2016-04-06 方正国际软件(北京)有限公司 一种编目的方法及装置
CN104915389A (zh) * 2015-05-25 2015-09-16 成都视达科信息技术有限公司 一种栏目内容编目并分类绑定的系统及方法
CN108509577A (zh) * 2018-03-28 2018-09-07 上海数据交易中心有限公司 一种数据编目方法及装置
CN108509577B (zh) * 2018-03-28 2023-07-14 上海数据交易中心有限公司 一种数据编目方法及装置
CN108549699A (zh) * 2018-04-16 2018-09-18 李学文 面向对象的信息编目方法及系统
CN108549699B (zh) * 2018-04-16 2022-04-29 李学文 面向对象的信息编目方法及系统
CN110012349A (zh) * 2019-06-04 2019-07-12 成都索贝数码科技股份有限公司 一种端到端的新闻节目结构化方法及其结构化框架体系
CN110012349B (zh) * 2019-06-04 2019-09-20 成都索贝数码科技股份有限公司 一种端到端的新闻节目结构化方法
CN113542820A (zh) * 2021-06-30 2021-10-22 北京中科模识科技有限公司 一种视频编目方法、系统、电子设备及存储介质
CN113542820B (zh) * 2021-06-30 2023-12-22 北京中科模识科技有限公司 一种视频编目方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN103902723A (zh) 一种媒体文件编目元数据聚合方法及装置
US20200183977A1 (en) Providing relevant cover frame in response to a video search query
KR101609088B1 (ko) 검색 부하들에 따라 균형이 맞춰지는 지문 데이터베이스를 갖는 미디어 식별 시스템
CN109561326B (zh) 一种数据查询方法及装置
US20140222831A1 (en) Method and system for personalized delivery of media content
CN104978421A (zh) 基于知识点的视频教学资源编辑方法及装置
CN103177022A (zh) 一种恶意文件搜索方法及装置
US20150339325A1 (en) Method, an apparatus for labelling images, and a non-transitory computer-readable medium
CN106899879B (zh) 一种多媒体数据的处理方法和装置
CN107241618B (zh) 收录方法和收录装置
US20130002889A1 (en) Method and System for Managing The Lifecycles of Media Assets
CN103530311A (zh) 对元数据进行优先次序排序的方法和装置
CN104025465A (zh) 包括帧匹配的记录媒体文件中的事件
CN104462282A (zh) 信息搜索方法和装置
Raimond et al. Using the past to explain the present: interlinking current affairs with archives via the semantic web
CN107526747A (zh) 一种多媒体编目方法及系统
CN113053393B (zh) 音频标注处理装置
US20170323015A1 (en) Automated metadata cleanup and distribution platform
CN113011363B (zh) 隐私安全的音频标注处理方法
CN108062333B (zh) 劣质题目数据的处理方法和装置
Raimond et al. Automated semantic tagging of speech audio
CN103886028B (zh) 从存储设备拷贝文件到广告机的方法和装置
EP2817744A2 (en) Method and system for searches of digital content using a time interval
CN103534695A (zh) 记录媒体文件中的事件
Araujo et al. Real-time query-by-image video search system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20140702

RJ01 Rejection of invention patent application after publication