CN104424214B - 一种自定义提取目录内容的方法和装置 - Google Patents

一种自定义提取目录内容的方法和装置 Download PDF

Info

Publication number
CN104424214B
CN104424214B CN201310370392.6A CN201310370392A CN104424214B CN 104424214 B CN104424214 B CN 104424214B CN 201310370392 A CN201310370392 A CN 201310370392A CN 104424214 B CN104424214 B CN 104424214B
Authority
CN
China
Prior art keywords
label
content
data
directory
catalogue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310370392.6A
Other languages
English (en)
Other versions
CN104424214A (zh
Inventor
周炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder Information Industry Holdings Co Ltd, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Founder Information Industry Holdings Co Ltd
Priority to CN201310370392.6A priority Critical patent/CN104424214B/zh
Publication of CN104424214A publication Critical patent/CN104424214A/zh
Application granted granted Critical
Publication of CN104424214B publication Critical patent/CN104424214B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/189Automatic justification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及自定义提取目录内容的方法和装置,其中的方法包括:按照特定的结构化规则,形成符合规范的设置有多个标签的结构化数据文档,提取结构化数据文档中的与目录级别相对应的标签,将目录级别与提取的标签相对应;针对目录级别对应的标签的附加内容,从结构化数据文档中提取相应的标签作为附加内容;从结构化数据文档中提取各目录级别对应的标签的数据内容,并按照目录的设置信息将数据内容组织成为目录数据;在提取的标签的数据内容发生变化时,根据各目录级别与标签的对应关系自动更新所述目录数据。采用本发明所述的方法和装置可以将多种内容同时添加到目录中,还可以支持目录全部内容的自动更新,特别适用于科技期刊等出版物的排版过程。

Description

一种自定义提取目录内容的方法和装置
技术领域
本发明属于数据处理技术领域,具体涉及一种自定义提取目录内容的方法和装置。
背景技术
目前的排版系统或办公软件,在提取目录内容时,只能根据单一的目录项域、大纲级别或者样式级别提取内容,再将这些内容与页码相对应做成目录。
然而在期刊中,除了稿件标题以及章节级别之外,可能还会需要将稿件作者等其他元素也提取到目录中去。目前在制作包含稿件作者这样类型的目录时,只能先单独地根据稿件标题以及章节级别进行提取,之后再手工地将稿件作者等内容填写到目录中去。一旦稿件标题或者页码发生了变化需要更新目录时,前次手工添加的稿件作者等内容就会被清除掉,从而需要再次将稿件作者等内容手工添加进去。由此可知,目前的这种目录制作方式费时费力,目录中的内容不能全部自动更新,容易产生错误。
发明内容
针对现有技术中存在的缺陷,本发明的目的是提供自定义提取目录内容的方法和装置。采用本发明所述的方法和装置,克服了需要手工添加稿件作者等内容的局限,可以将多种内容同时添加到目录中,还可以支持目录全部内容的自动更新。特别适用于科技期刊等出版物的排版过程。
为了实现以上目的,本发明提供的自定义提取目录内容的方法包括以下步骤:按照特定的结构化规则,形成符合规范的结构化数据文档,所述结构化数据文档中设置有多个标签;提取结构化数据文档中的与目录级别相对应的标签内容,并将所述目录级别与所述提取的标签相对应;从结构化数据文档中提取相应的标签,以作为所述目录级别对应的附加内容;从结构化数据文档中提取各目录级别对应的标签的数据内容,并按照目录的设置信息将所述数据内容组织成为目录数据;在所述提取的标签的数据内容发生变化时,根据各目录级别与标签的对应关系自动更新所述目录数据。
本发明提供的自定义提取目录内容的装置包括:形成模块,用于按照特定的结构化规则,形成符合规范的结构化数据文档,所述结构化数据文档中设置有多个标签;提取模块,用于提取结构化数据文档中的与目录级别相对应的标签,并将所述目录级别与所述提取的标签相对应;附加模块,用于针对所述目录级别对应的标签的附加内容,从结构化数据文档中提取相应的标签,以作为所述附加内容;目录模块,用于从结构化数据文档中提取各目录级别对应的标签的数据内容,并按照目录的设置信息将所述数据内容组织成为目录数据;更新模块,用于在所述提取的标签的数据内容发生变化时,根据各目录级别与标签的对应关系自动更新所述目录数据。
本发明的效果在于:基于结构化的标签数据,从标签数据中选择需要陈列在目录上的内容,有效地解决了稿件作者等信息需要手工添加、不能自动更新目录的问题。本发明可以广泛适用于目录编排的要求,特别适用于科技期刊等出版物的排版过程。
附图说明
图1是本发明方法实施例的流程图;
图2是本发明实施例的结构化文档所含标签的示意图;
图3是本发明实施例的设置与目录级别相对应的标签的示意图;
图4是本发明实施例的生成的目录数据的示意图;
图5是本发明实施例的目录数据自动更新后的示意图;
图6是本发明实施例的装置的结构示意图。
具体实施方式
本发明实施例提供了一种自定义提取目录内容的方法和装置,通过该方法和装置可自定义提取到目录中的内容,并可将多种内容同时添加到目录中,而且还可以支持目录中全部内容的同时自动更新。
下面结合附图及具体实施例对本发明的方法和装置作进一步的描述:
如图1所示流程图,一种自定义提取目录内容的方法,包括以下步骤:
(1)按照特定的结构化规则,形成符合规范的结构化数据文档。该特定的结构化规则可以是用户根据实际需求预先设定的。该结构化数据文档中包含有多个标签,图2是结构化数据文档中包含的标签的一个示意图。
在形成结构化数据文档之后,可以根据对结构化数据文档进行规范性验证,以确保结构化数据文档具有严格的规范性;在实际应用中,可以利用Schema或者DTD对上述形成的结构化数据进行规范性验证。
(2)提取结构化数据文档中的与目录级别相对应的标签,将目录级别与从结构化数据文档中的标签相对应,从而形成目录级别与标签的对应关系信息。提取结构化数据文档中的与目标级别的级别1相对应的标签的一个具体例子如图3所示。
上述对应关系信息可以以表或者数据库或者文档等形式存储,如将目录级别与提取的标签形成数据表,且数据表中的目录级别与提取的标签具有相互关联的关系。
为了便于用户的操作,也可以将上述提取的标签以段落样式的形式表示,如将提取的标签与段落样式相对应,从而可以使用段落样式的方式来体现标签,这样,本步骤可以描述为设置段落样式与目录级别的对应关系。
(3)针对目录级别对应的标签的附加内容,从结构化数据文档中提取相应的标签,以作为目录级别对应的标签的附加内容,本步骤中提取的标签可以称为附加标签;如图3中的“中文作者”这一标签是“中文标题”这一标签的附加内容。另外,本步骤提取的附加标签可以添加到相应的目录级别对应的标签的后面。
需要说明的是,作为附加内容的标签(即附加标签)通常是结构化数据文件中不具有目录级别特征的标签。
(4)从结构化数据文档中提取各目录级别对应的标签的数据内容,并按照目录的设置信息将上述数据内容组织成为目录数据。也就是说,从各个目录级别对应的标签中提取出标签的数据内容,然后按照目录的设置信息将数据内容组织成为目录数据。上述目录的设置信息可以包括:标签、附加标签(可以有多个)、目录级别及其各自的设置位置等。通过本步骤形成的目录数据的一个具体例子如图4所示。
需要说明的是,在提取数据内容的过程中,可以按照目录级别的顺序(如级别1、级别2......,级别N)依次从结构化数据文档中提取目录级别对应的标签的数据内容,之后,可以按照目录的设置信息对提取的数据内容进行层次上的组织,以最终形成目录数据。上述层次可以包括目录数据的布局格式等。
(5)判断目录数据中的内容是否有变化,如果没有变化,则不进行目录数据更新操作;如果有变化,则返回到步骤(4),根据上述成功建立的目录级别与标签的对应关系,从结构化数据文档中再次提取各目录级别对应的标签的数据内容,并按照目录的设置信息将再次提起的数据内容组织成为目录数据,从而实现了对目录数据的自动同步更新。通过本步骤更新后的目录数据的一个具体例子如图5所示。
本发明实施例提供的自定义提取目录内容的装置如图6所示。
图6中,该装置主要包括:形成模块、提取模块、附加模块、目录模块以及更新模块,且该装置还可以包括验证模块。
形成模块主要用于形成符合某种规范的结构化数据文档;即形成模块可以将文档按照特定的结构化规则,形成符合规范的结构化数据文档,且该结构化数据文档中设置有多个标签。该特定的结构化规则可以是用户根据实际需求预先设定的。该结构化数据文档可以存储于形成模块中,也可以存储于其他存储单元中。
提取模块主要用于提取上述结构化数据文档中的与目录级别相对应的标签,并将目录级别与提取的标签相对应。
提取模块所形成的对应关系信息可以以表或者数据库或者文档等形式存储,如提取模块将目录级别与提取的标签形成数据表,且数据表中的目录级别与提取的标签具有相互关联的关系。为了便于用户的操作,提取模块也可以将上述提取的标签以段落样式的形式表示,如提取模块将提取的标签与段落样式相对应,从而可以使用段落样式的方式来体现标签,这样,提取模块其实是设置了段落样式与目录级别的对应关系。
附加模块主要用于从结构化数据文档中提取相应的标签,该提取出的附加标签可以作为目录级别对应的标签的附加内容。附加模块提取的标签可以称为附加标签;且附加模块提取的附加标签可以添加到相应的目录级别对应的标签的后面。
目录模块主要用于从结构化数据文档中提取各目录级别对应的标签的数据内容,并按照预先设定的目录的设置信息将上述数据内容组织成为目录数据。具体的,目录模块可以按照目录级别的顺序(如级别1、级别2......,级别N)依次从结构化数据文档中提取目录级别对应的标签的数据内容,之后,目录模块可以按照目录的设置信息对提取的数据内容进行层次上的组织,以最终形成目录数据。上述层次可以包括目录数据的布局格式等。
更新模块主要用于在前述提取的标签的数据内容发生变化时,根据各目录级别与标签的对应关系自动更新上述已形成的目录数据。
具体的,更新模块可以在提取的标签的数据内容发生变化时,调用目录模块,使目录模块根据其成功建立的目录级别与标签的对应关系,从结构化数据文档中再次提取各目录级别对应的标签的数据内容,并按照目录的设置信息将再次提起的数据内容组织成为目录数据,从而实现了对目录数据的自动同步更新。
验证模块主要用于对形成模块所形成的结构化数据文档进行规范性验证,且规范性验证后的结构化数据文档可以替换形成模块所形成的结构化数据文档,以供其他模块对结构化数据文档的使用。
具体的,验证模块可以利用Schema或者DTD对形成模块所形成的结构化数据进行规范性验证。
本发明所述的方法并不限于具体实施方式中所述的实施例,本领域技术人员根据本发明的技术方案得出其他的实施方式,同样属于本发明的技术创新范围。

Claims (9)

1.一种自定义提取目录内容的方法,其特征在于,包括:
A、按照特定的结构化规则,形成符合规范的结构化数据文档,所述结构化数据文档中设置有多个标签;
B、提取结构化数据文档中的与目录级别相对应的标签,并将所述目录级别与所述提取的标签相对应;
C、针对所述目录级别对应的标签的附加内容,从结构化数据文档中提取相应的标签,以作为所述附加内容;
D、从结构化数据文档中提取各目录级别对应的标签的数据内容,并按照目录的设置信息将所述数据内容组织成为目录数据;
E、在所述提取的标签的数据内容发生变化时,根据各目录级别与标签的对应关系自动更新所述目录数据。
2.如权利要求1所述的一种自定义提取目录内容的方法,其特征在于,所述方法还包括:
对所述步骤A形成的结构化数据文档进行规范性验证。
3.如权利要求2所述的一种自定义提取目录内容的方法,其特征在于,所述对所述结构化数据文档进行规范性验证包括:
利用Schema或者DTD对所述结构化数据文档进行规范性验证。
4.如权利要求1所述的一种自定义提取目录内容的方法,其特征在于,所述步骤B包括:
将所述目录级别与所述提取的标签形成数据表,且所述目录级别与所述提取的标签具有关联关系。
5.如权利要求1或2或3或4所述的一种自定义提取目录内容的方法,其特征在于,所述提取的标签采用段落样式的方式表示。
6.如权利要求1或2或3或4所述的一种自定义提取目录内容的方法,其特征在于,作为所述附加内容的标签包括:结构化数据文件中不具有目录级别特征的标签。
7.如权利要求1或2或3或4所述的一种自定义提取目录内容的方法,其特征在于,所述步骤D包括:
按照目录级别的顺序依次从结构化数据文档中提取目录级别对应的标签的数据内容,并按照目录的设置信息对所述数据内容进行层次上的组织,最终形成目录数据。
8.一种自定义提取目录内容的装置,其特征在于,包括:
形成模块,用于按照特定的结构化规则,形成符合规范的结构化数据文档,所述结构化数据文档中设置有多个标签;
提取模块,用于提取结构化数据文档中的与目录级别相对应的标签,并将所述目录级别与所述提取的标签相对应;
附加模块,用于针对所述目录级别对应的标签的附加内容,从结构化数据文档中提取相应的标签,以作为所述附加内容;
目录模块,用于从结构化数据文档中提取各目录级别对应的标签的数据内容,并按照目录的设置信息将所述数据内容组织成为目录数据;
更新模块,用于在所述提取的标签的数据内容发生变化时,根据各目录级别与标签的对应关系自动更新所述目录数据。
9.如权利要求8所述的一种自定义提取目录内容的装置,其特征在于,所述装置还包括:
验证模块,用于对所述结构化数据文档进行规范性验证。
CN201310370392.6A 2013-08-22 2013-08-22 一种自定义提取目录内容的方法和装置 Expired - Fee Related CN104424214B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310370392.6A CN104424214B (zh) 2013-08-22 2013-08-22 一种自定义提取目录内容的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310370392.6A CN104424214B (zh) 2013-08-22 2013-08-22 一种自定义提取目录内容的方法和装置

Publications (2)

Publication Number Publication Date
CN104424214A CN104424214A (zh) 2015-03-18
CN104424214B true CN104424214B (zh) 2017-10-27

Family

ID=52973212

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310370392.6A Expired - Fee Related CN104424214B (zh) 2013-08-22 2013-08-22 一种自定义提取目录内容的方法和装置

Country Status (1)

Country Link
CN (1) CN104424214B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649227A (zh) * 2015-10-30 2017-05-10 方正国际软件(北京)有限公司 一种目录更新方法及装置
CN109670149A (zh) * 2018-12-04 2019-04-23 江苏中威科技软件系统有限公司 电子表单与附件文件合成及生成标签的方法、终端
CN111144069B (zh) * 2019-12-30 2021-12-03 北大方正集团有限公司 一种基于表格的目录排版方法、装置及存储介质
CN112783400B (zh) * 2020-06-08 2022-09-02 北京金山办公软件股份有限公司 文档内容选中方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102486769A (zh) * 2010-12-02 2012-06-06 北大方正集团有限公司 文档目录处理方法和装置
CN102541929A (zh) * 2010-12-22 2012-07-04 北大方正集团有限公司 提取版式文档目录的方法及装置
CN102929890A (zh) * 2011-08-11 2013-02-13 汉王科技股份有限公司 一种基于目录的书签标记方法及装置
CN103186621A (zh) * 2011-12-30 2013-07-03 北大方正集团有限公司 一种目录生成方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003091344A (ja) * 2001-09-19 2003-03-28 Sony Corp 情報処理装置および情報処理方法、記録媒体、データ構造、並びにプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102486769A (zh) * 2010-12-02 2012-06-06 北大方正集团有限公司 文档目录处理方法和装置
CN102541929A (zh) * 2010-12-22 2012-07-04 北大方正集团有限公司 提取版式文档目录的方法及装置
CN102929890A (zh) * 2011-08-11 2013-02-13 汉王科技股份有限公司 一种基于目录的书签标记方法及装置
CN103186621A (zh) * 2011-12-30 2013-07-03 北大方正集团有限公司 一种目录生成方法和装置

Also Published As

Publication number Publication date
CN104424214A (zh) 2015-03-18

Similar Documents

Publication Publication Date Title
CN105447174B (zh) 一种报表生成方法及装置
CN104424214B (zh) 一种自定义提取目录内容的方法和装置
CN104346319B (zh) 检查文档样式的方法及系统
CN103955345B (zh) 一种数据打印方法及系统
CN103970833B (zh) 一种基于日志的异构数据库同步系统中双向同步数据循环的解决方法
CN103198074A (zh) 一种动态发布网站页面的设计方法及系统
JP5930496B2 (ja) レイアウトファイルにおける構造化情報の取得方法及び装置
CN105589842A (zh) 数字出版物的排版方法及装置
CN104462421A (zh) 基于键-值数据库的多租户扩展方法
CN107092652A (zh) 目标页面的导航方法及装置
CN104462036B (zh) 一种同步编辑文档的格式信息的方法及系统
CN108073562A (zh) 基于云平台的出版物处理方法及装置
CN104298705A (zh) 一种关系型数据和非结构化数据的转换方法
CN105512096B (zh) 一种基于文档中内嵌字体的优化方法及装置
CN104699664B (zh) 一种模板独立的排版系统及方法
CN106648618B (zh) 虚拟应用的文本信息生成方法和装置
CN108984498A (zh) 文档的排版处理方法及装置
CN104424185B (zh) 同步提取中英文目录的方法及系统
CN103838903A (zh) 一种通过用自定义字体库创建Label的方法
CN105095173B (zh) 基于排版结果的排版装置和排版方法
CN104572605B (zh) 脚注排版的实现方法和装置
CN102855316B (zh) 从swf文件导出swf文件格式的矢量图的方法和装置
JP6790712B2 (ja) 形状抽出プログラム、形状抽出方法及び形状抽出装置
CN104407875B (zh) 一种动态更新的网站内容制作方法
CN105867885B (zh) 一种幻灯片文件的存储方法与装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171027

Termination date: 20190822

CF01 Termination of patent right due to non-payment of annual fee