CN105191333A - 用于文件的分类的方法和装置 - Google Patents

用于文件的分类的方法和装置 Download PDF

Info

Publication number
CN105191333A
CN105191333A CN201480022467.4A CN201480022467A CN105191333A CN 105191333 A CN105191333 A CN 105191333A CN 201480022467 A CN201480022467 A CN 201480022467A CN 105191333 A CN105191333 A CN 105191333A
Authority
CN
China
Prior art keywords
file
classification
expression
semantic analysis
conversion script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201480022467.4A
Other languages
English (en)
Inventor
O.坎普亨克尔
T.布龙
A.弗赖曼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN105191333A publication Critical patent/CN105191333A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

描述了一种用于文件(13)或文件(13)的部分的分类的方法以及一种被配置为执行这样的分类的装置(10)。通过第一输入(17)获取(20)所述文件(13);而通过第二输入(18)获得(21)对于所述文件(13)的转换脚本(12),该转换脚本(12)使得能够将文件(13)的内容映射到仅包含适用于文件(13)的分类的信息的文件(13)的表示。语法分析单元(11)使用所述转换脚本(12)对所述文件(13)或所述文件(13)的部分执行语法分析(22)来生成所述文件(13)的表示。将这种文件(13)的表示提供给对文件(13)的表示执行语义分析(23)的语义分析单元(14)。通过输出(19)使得从语义分析(23)得到的结构分类(15)和/或时间分类(16)变得可用。

Description

用于文件的分类的方法和装置
技术领域
本发明涉及用于文件或文件的部分的分类的方法和装置。更具体地,描述了允许在时间域和结构域中对文件或文件的部分进行分类的方法和装置。
背景技术
在数字媒体内容的产生期间,生成各种文件,例如内容媒体文件和元数据文件。这些文件一般具有多个时间和/或结构关系。
仅具有结构信息的文件的示例是电影制作脚本。这样的电影制作脚本包含关于电影的场景和镜头序列的结构信息,但一般没有可利用的时间信息。相反,记录的摄像机拍摄(take)的媒体文件仅包含时间参考,即当已经拍下拍摄时的信息,但典型地没有具有结构参考的可利用的元数据。可以提供此信息例如作为一天中的时间和/或作为SMPTE时间码(SMPTE:电影与电视工程师协会)。包含结构和时间信息的文件的示例是记录报告。这样的记录报告包含关于当已经拍下场景的一个或多个镜头的拍摄时的信息。
典型地,单独拍摄的每个文件仅包含以各种不同格式表示的有限程度的信息。例如,电影脚本可以是简单的文本文件(doc、pdf、...),媒体内容通常被提供作为媒体文件(avi、mpg、mov、...),并且记录报告可以是采用标记格式的文件(sgml、xml、...)。通常,专用的解释器(interpreter)能够显示每个文件的内容。然而,检测任意文件的内部结构并且在较高级别上下文中对其进行分类是非常困难的。这是一方面由于文件的不同表示,另一方面由于文件或文件的部分可能与其有关系的多个域的不同级别。例如,记录报告可以是手动编辑文件或者由例如摄像机、拍板(clapperboards)或平板这样的电子设备以及对应的应用自动生成的文件。
除其它外,US2010/0042650公开了一种视频编辑应用。由解析器选择并且解析包含与视频剪辑相关联的元数据的文件。在存储器中存储由解析器提取的元数据。解析器是仅能够处理XML文件的XML解析器。
因此,期望具有一种用于在结构域和时间域中对内容和数据(元数据)文件进行分类、排序和链接的、更通用的并且面向未来的解决方案。
发明内容
本发明的目的是提供一种用于在结构域和时间域中对文件或文件的部分进行分类的解决方案。
根据本发明的一个方面,一种用于文件或文件的部分的分类的方法包括以下步骤:
-获取文件;
-获取对于文件的转换脚本,该转换脚本使得能够将文件的内容映射到仅包含适用于文件的分类的信息的文件的表示;
-使用转换脚本对文件或文件的部分执行语法分析来生成文件的表示;
-对文件的表示执行语义分析;以及
-输出从语义分析得到的结构分类和/或时间分类。
相应地,一种被配置为执行文件或文件的部分的分类的装置包括:
-第一输入端,其被配置为获取文件;
-第二输入端,其被配置为获取对于文件的转换脚本,该转换脚本使得能够将文件的内容映射到仅包含适用于文件的分类的信息的文件的表示;
-语法分析单元,其被配置为使用转换脚本对文件或文件的部分执行语法分析来生成文件的表示;
-语义分析单元,其被配置为对文件的表示执行语义分析;以及
-输出端,其被配置为输出从语义分析得到的结构分类和/或时间分类。
类似地,一种计算机可读存储介质存储有使能文件或文件的部分的分类的指令,该指令在由计算机运行时导致计算机:
-获取文件;
-获取对于文件的转换脚本,该转换脚本使得能够将文件的内容映射到仅包含适用于文件的分类的信息的文件的表示;
-使用转换脚本对文件或文件的部分执行语法分析来生成文件的表示;
-对文件的表示执行语义分析;以及
-输出从语义分析得到的结构分类和/或时间分类。
本发明提出在结构域和时间域中对文件或文件的部分进行分类。要被分类的文件例如是采用各种格式的数据文件、元数据文件或多媒体文件,诸如文本文件、a/v文件或采用标记格式的文件。分类取决于被包含在文件的内容中的信息。可配置语法分析单元检测任意文件的类型,并且在转换脚本的帮助下将文件的内容映射到仅包含用于分类的信息的内部表示。映射有利地使用文本映射、视觉内容到文本的映射、以及从二进制文件中数据提取中的至少一个。
在时间域和/或结构域中文件或这种文件的部分的分类和排序使得能够自动检测和建立文件和所包含的信息之间的关系。可配置语法分析单元允许在不改变语义分析单元的情况下的多个文件格式的处理。对于每个文件类型,转换脚本将输入文件映射到内部表示。将输入文件的内容映射到简化的内部表示具有语义分析单元可以仅致力于分类所需的信息的优点。
为了更好的理解,现将在参照附图的以下描述中更详细地说明本发明。可以理解的是,正如在所附权利要求中所限定的,本发明不限于此示例性实施例,并且在不脱离本发明的范围的情况下还可以方便地组合和/修改指定的特征。
附图说明
图1描述了根据本发明的分类单元;
图2示出了在时间域和结构域中文件的分类;
图3描述了仅在结构域中文件的分类;
图4示出了仅在时间域中文件的分类;
图5示意性地示出了用于文件的分类的根据本发明的方法;以及
图6更详细地描述了图1的分类单元。
具体实施方式
图1描述了实现根据本发明的解决方案的分类单元10。为了检测和分类文件的内容和结构,语法分析单元11将一组配置文件或映射脚本12中的至少一个应用于例如数据文件、元数据文件或媒体文件这样的文件13,以便产生时间域和/或结构域中的文件的内部表示。输入文件13的内容被映射到仅包含在时间域和/或结构域中分类文件13所必要的信息的内部表示。然后,语义分析单元14生成输入文件的内容的结构分类15和时间分类16。通过例如简单的文本映射、可视内容到文本的映射(OCR)、从二进制文件中数据提取等来产生内部表示。映射脚本12负责将输入文件13的语法映射到内部表示的语法。
图2说明了对于文件包含与时间域相关的信息以及与结构域相关的信息的情况下分类单元10的行为。在该图中,被分析的文件13是记录报告。将记录报告作为XML文件提供给分类单元10。语法分析单元11将XQuery脚本应用到输入文件13,并且产生被转发到语义分析单元14的文件内容的内部表示。语义分析单元14生成包含SMPTE时间码和一天中的时间的时间分类16以及包含关于场景、镜头、拍摄等的信息的结构分类15。语义分析单元14还生成正如由虚线所指示的这些域之间的适当映射。
在例如电影的制作脚本这样的文件仅包含结构信息的情况下,分类单元10如图3中所描述地行动。由于在这种情况下文件的内容仅能够被映射到包含结构信息的表示15,因此时间分类结果是空的。
类似地,正如在图4中所示出的,对于仅包含时间域中的信息的文件13,文件仅能够被映射到包含时间信息的表示16。结构分类结果是空的。
在图5中示意性地示出了用于文件13或文件13的部分的分类的根据本发明的方法。在获取20文件13之后,获取21对于文件13的转换脚本12(例如,配置文件或映射脚本),该转换脚本12使得能够将文件13的内容映射到仅包含适用于文件13的分类的信息的文件13的表示。使用转换脚本12,对文件13或文件的部分执行语法分析22以生成文件13的表示。当这种表示是可用的时候,对文件13的表示执行语义分析23。最后,从语义分析23得到的结构分类15和/或时间分类16被输出24以用于进一步处理。
图6描述了被配置为实现图5的方法的装置10。装置10具有用于获取20文件13的第一输入端17以及用于例如从网络或从本地存储器获取21对于文件13的转换脚本12的第二输入端18。语法分析单元11使用转换脚本12对文件13或文件的部分执行语法分析22来生成文件13的表示。将这种文件13的表示提供给对文件13的表示执行语义分析23的语义分析单元14。在装置10的输出端19处使得从语义分析23得到的结构分类15和/或时间分类16变得可用。当然,可以同样将第一输入端17、第二输入端18组合成单一的输入端和/或与输出端19一起组合成双向通信接口。此外,可以同样将装置10的各种单元组合或部分组合成单一的单元或者实现为在处理器上运行的软件。
虽然上文已经参考具体实施例描述了本发明,但本发明不限于此实施例,并且毫无疑问的是,本领域技术人员将想到在如所要求保护的本发明的范围内的另外替代品。

Claims (8)

1.一种用于文件(13)或文件(13)的部分的分类的方法,所述方法包括以下步骤:
-获取(20)所述文件(13);
-获取(21)对于所述文件(13)的转换脚本(12),所述转换脚本(12)使得能够将文件(13)的内容映射到仅包含适用于文件(13)的分类的信息的文件(13)的表示;
-使用所述转换脚本(12)对所述文件(13)或所述文件(13)的部分执行语法分析(22)来生成所述文件(13)的表示;
-对所述文件(13)的表示执行语义分析(23);以及
-输出(24)从所述语义分析(23)得到的结构分类(15)和/或时间分类(16)。
2.如权利要求1所述的方法,还包括生成所述结构分类(15)和所述时间分类(16)之间的映射的步骤。
3.如权利要求1或2所述的方法,其中,通过文本映射、可视内容到文本的映射、以及从二进制文件中的数据提取中的至少一个来产生所述文件(13)的表示。
4.如前述权利要求之一所述的方法,其中,所述文件(13)包括数据、元数据或多媒体内容中的至少一个。
5.如前述权利要求之一所述的方法,其中,所述文件(13)是文本文件、a/v文件或采用标记格式的文件。
6.如前述权利要求之一所述的方法,其中,所述结构分类(15)包括关于场景、镜头或拍摄的信息,并且所述时间分类(16)包括时间码或关于一天中的时间的信息。
7.一种被配置为执行文件(13)或文件(13)的部分的分类的装置(10),所述装置(10)包括:
-第一输入端(17),其被配置为获取(20)所述文件(13);
-第二输入端(18),其被配置为获取(21)对于所述文件(13)的转换脚本(12),所述转换脚本(12)使得能够将文件(13)的内容映射到仅包含适用于文件(13)的分类的信息的文件(13)的表示;
-语法分析单元(11),其被配置为使用所述转换脚本(12)对所述文件(13)或所述文件(13)的部分执行语法分析(22)来生成所述文件(13)的表示;
-语义分析单元(14),其被配置为对所述文件(13)的表示执行语义分析(23);以及
-输出端(19),其被配置为输出(24)从所述语义分析(23)得到的结构分类(15)和/或时间分类(16)。
8.一种计算机可读存储介质,在其中存储有使能文件(13)或文件(13)的部分的分类的指令,该指令在由计算机运行时导致所述计算机:
-获取(20)所述文件(13);
-获取(21)对于所述文件(13)的转换脚本(12),所述转换脚本(12)使得能够将文件(13)的内容映射到仅包含适用于文件(13)的分类的信息的文件(13)的表示;
-使用所述转换脚本(12)对所述文件(13)或所述文件(13)的部分执行语法分析(22)来生成所述文件(13)的表示;
-对所述文件(13)的表示执行语义分析(23);以及
-输出(24)从所述语义分析(23)得到的结构分类(15)和/或时间分类(16)。
CN201480022467.4A 2013-05-27 2014-05-16 用于文件的分类的方法和装置 Pending CN105191333A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13305690.3A EP2809077A1 (en) 2013-05-27 2013-05-27 Method and apparatus for classification of a file
EP13305690.3 2013-05-27
PCT/EP2014/060090 WO2014191239A1 (en) 2013-05-27 2014-05-16 Method and apparatus for classification of a file

Publications (1)

Publication Number Publication Date
CN105191333A true CN105191333A (zh) 2015-12-23

Family

ID=48578985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480022467.4A Pending CN105191333A (zh) 2013-05-27 2014-05-16 用于文件的分类的方法和装置

Country Status (6)

Country Link
US (1) US20160117381A1 (zh)
EP (2) EP2809077A1 (zh)
JP (1) JP2016524753A (zh)
KR (1) KR20160013039A (zh)
CN (1) CN105191333A (zh)
WO (1) WO2014191239A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106878676A (zh) * 2017-01-13 2017-06-20 吉林工商学院 一种用于智能监控视频数据的存储方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8788931B1 (en) * 2000-11-28 2014-07-22 International Business Machines Corporation Creating mapping rules from meta data for data transformation utilizing visual editing
KR100912984B1 (ko) * 2002-04-12 2009-08-20 미쓰비시덴키 가부시키가이샤 메타데이터 편집 장치, 메타데이터 재생 장치, 메타데이터 배신 장치, 메타데이터 검색 장치, 메타데이터 재생성 조건 설정 장치, 콘텐츠 배신 장치, 메타데이터 배신 방법, 메타데이터 재생성 장치, 메타데이터 재생성 방법
US8819014B2 (en) * 2008-08-15 2014-08-26 Apple Inc. Digital slate
US20110087703A1 (en) * 2009-10-09 2011-04-14 Satyam Computer Services Limited Of Mayfair Center System and method for deep annotation and semantic indexing of videos

Also Published As

Publication number Publication date
JP2016524753A (ja) 2016-08-18
EP2809077A1 (en) 2014-12-03
EP3005721A1 (en) 2016-04-13
WO2014191239A1 (en) 2014-12-04
KR20160013039A (ko) 2016-02-03
US20160117381A1 (en) 2016-04-28

Similar Documents

Publication Publication Date Title
US9946924B2 (en) System and method for automating information abstraction process for documents
CN105447099A (zh) 日志结构化信息提取方法及装置
CN106446235B (zh) 视频的搜索方法和装置
US9406018B2 (en) Systems and methods for semantic data integration
US20140195532A1 (en) Collecting digital assets to form a searchable repository
CN111279335A (zh) 基于文档结构提取检索多语言文档
US20150347353A1 (en) Document layering platform
CN105354236A (zh) 一种对账信息生成方法及系统
Kurz et al. Semantic enhancement for media asset management systems: Integrating the Red Bull Content Pool in the Web of Data
US20240137608A1 (en) Partial frame replacement enabling multiple versions in an integrated video package
CN114239535A (zh) 一种基于网页页面的Word文档自动生成方法及系统
CN105447016B (zh) 一种组件的快速搜索及重用的办法
CN113033177B (zh) 一种电子病历数据的解析方法及装置
CA2932310C (en) System and method for automating information abstraction process for documents
CN109359202B (zh) 基于音频视频记录的电子运维工单自动生成方法及系统
CN105191333A (zh) 用于文件的分类的方法和装置
EP3104285A1 (en) System and method for automating information abstraction process for documents
CN101996161B (zh) 一种电子文档的历史版本数据处理方法及装置
US20120192046A1 (en) Generation of a source complex document to facilitate content access in complex document creation
CN111401005B (zh) 文本转换方法、装置及可读存储介质
US20150286616A1 (en) Method For Generating A Document Using An Electronic Clipboard
CN116226053B (zh) 一种文本处理方法、装置及设备
US20200117852A1 (en) Method for tracking in office file conversion and modification processes
CN113297849B (zh) 基于区块链技术的财务预提费用管理方法
US8161086B2 (en) Recording device, recording method, computer program, and recording medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151223