CN104424185A - 同步提取中英文目录的方法及系统 - Google Patents

同步提取中英文目录的方法及系统 Download PDF

Info

Publication number
CN104424185A
CN104424185A CN201310362185.6A CN201310362185A CN104424185A CN 104424185 A CN104424185 A CN 104424185A CN 201310362185 A CN201310362185 A CN 201310362185A CN 104424185 A CN104424185 A CN 104424185A
Authority
CN
China
Prior art keywords
data
catalogue
english
label
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310362185.6A
Other languages
English (en)
Other versions
CN104424185B (zh
Inventor
周炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Pku Founder Information Industry Group Co ltd
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Founder Information Industry Holdings Co Ltd
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Founder Information Industry Holdings Co Ltd, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Founder Information Industry Holdings Co Ltd
Priority to CN201310362185.6A priority Critical patent/CN104424185B/zh
Publication of CN104424185A publication Critical patent/CN104424185A/zh
Application granted granted Critical
Publication of CN104424185B publication Critical patent/CN104424185B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种同步提取中英文目录的方法。在该方法中,导入描述特定出版物结构的结构化数据的文档,同时对结构化数据进行转化,以生成结构化排版数据;从结构化排版数据中提取结构标签,将结构标签与目录级别相对应;从与各目录级别相对应的结构标签中提取出结构标签的数据内容,并且按照目录的层次关系对数据内容进行组织,从而显示出中英文目录的内容。

Description

同步提取中英文目录的方法及系统
技术领域
本发明涉及计算机数据处理领域,具体地涉及一种在排版过程中同步提取中英文目录的方法及系统。
背景技术
目前的排版系统,大多只能单独地提取中文目录或英文目录,或者在提取出中文目录数据后,再通过修改为英文目录的设置提取出英文目录。这样虽然两个中文和英文的目录数据都产生了,但是会导致前面提取的中文的目录数据与排版数据发生脱节,后续需要更新中文目录的目录数据时,就只能手工修改数据。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种同步提取中英文目录的方法及系统,该方法和系统能够在提取目录时,克服现有目录提取方法和系统中的局限,可以高效地同步提取中英文目录,并且中文和英文的目录数据都可以与排版数据关联更新。
根据本发明的一个方面,提供了一种同步提取中英文目录的方法,该方法包括:
1)导入描述特定出版物结构的结构化数据的文档,同时对结构化数据进行转化,以生成结构化排版数据;
2)从结构化排版数据中提取结构标签,将结构标签与目录级别相对应;
3)从与各目录级别相对应的结构标签中提取出结构标签的数据内容,并且按照目录的层次关系对数据内容进行组织,从而显示出中英文目录的内容。
该方法还包括:根据特定出版物的结构,按照特定的结构化规则来形成结构化数据的文档。
该方法还包括:在形成结构化数据的文档之后,可以利用Schema或DTD对结构化数据进行规范性验证。
该方法还包括:通过维护结构标签与目录级别的对应关系,在标签的数据内容变化时,可以同步对中英文目录的内容进行更新。
其中,在步骤2)中,可以将结构标签与段落样式相对应,从而设置段落样式与目录级别的对应关系。
其中,对结构化数据进行转化时,对结构化数据的文档中的关键元素数据进行转化,已形成对版面排版结果进行描述的结构化排版数据。
根据本发明的第二方面,提供了一种同步提取中英文目录的系统,该系统包括:
结构化数据输入与转化单元,将描述特定出版物结构的结构化数据的文档导入排版软件中,同时对结构化数据进行转化,以生成结构化排版数据;
对应关系设置单元,从结构化排版数据中提取结构标签,将结构标签与目录级别相对应;
数据输出单元,从与各目录级别相对应的结构标签中提取出结构标签的数据内容,并且按照目录的层次关系对数据内容进行组织,从而显示出中英文目录的内容。
该系统还包括:结构化数据形成单元,根据特定出版物的结构,按照特定的结构化规则来形成结构化数据的文档。
该系统还包括:规范性验证单元,在形成结构化数据的文档之后,可以利用Schema或DTD对结构化数据进行规范性验证。
该系统还包括:更新单元,通过维护结构标签与目录级别的对应关系,在标签的数据内容变化时,可以同步对中英文目录的内容进行更新。
其中,对应关系设置单元可以将结构标签与段落样式相对应,从而设置段落样式与目录级别的对应关系。
其中,结构化数据输入与转化单元对结构化数据进行转化时,对结构化数据的文档中的关键元素数据进行转化,已形成对版面排版结果进行描述的结构化排版数据。
本发明的效果在于:从结构化的标签数据入手,有效地解决了排版文件版面中同时需要制作中、英文目录的问题。系统输出的目录具有数据关联性,可保障后续内容的同步更新。本发明可以广泛适用于目录编排的要求,特别适用于科技期刊、中英文对照图书等出版物的排版过程。
附图说明
图1是根据本发明实施方式的同步提取中英文目录的方法的流程图;
图2是结构化文档所含标签的示意图;
图3是标签与目录级别对应关系的示意图;
图4是生成的中英文目录的示意图;
图5是目录数据更新示意图;以及
图6是根据本发明实施方式的同步提取中英文目录的系统的流程图。
具体实施方式
下面结合附图对根据本发明实施方式的生成字形字库的方法和系统进行详细描述。
参照图1,示出了根据本发明的实施方式的同步提取中英文目录的方法。
在步骤101中,形成结构化数据文档。结构化数据的文档可以是符合某种规范的文档。可以根据与特定出版物结构相关的特定结构化规则来形成符合规范的结构化数据文档。
在本发明的一个实施方式中,在必要时,可以对结构化数据进行规范性验证,例如通过Schema或DTD等。
在步骤102中,将描述特定出版物结构的结构化数据的文档导入到排版软件中,导入的同时对数据进行转化,形成结构化排版数据;
在对结构化数据进行转化以生成结构化排版数据时,可以对文档中的关键元素数据进行转化,例如对文字、图片、表格、公式、版面布局等数据进行转化。从而形成对版面排版结果进行描述的排版文档。并且转化后的数据中要保持关键元素数据的结构化特征。
在步骤103中,在排版软件中以排版版面的形式展现结构化数据结果。
在步骤104中,从结构化排版数据中提取结构标签,并且将这些结构标签与目录级别相对应,从而形成结构化标签与目录级别的对应表。在形成对应表时,可以将需要在目录中体现的标签相对自由地与目录级别发生关联。其中,在图2中示意性地示出了结构化数据中可以办好的结构标签。
此外,在本发明的另一个实施方式中,为了便于使用者操作,可以将标签与段落样式相对应,使用段落样式的方式来体现标签。这样,就可以变化为设置段落样式与目录级别之间的对应关系。
在步骤105中,从各个目录级别对应的标签中提取标签的数据内容。按照目录的层次关系对数据内容进行组织,以在版面中显示出中英文目录的内容。在图3中示意性地示出了结构标签与目录级别的对应关系。
在本发明的又一个实施方式中,可以依次按照目录的级别从对应的标签中提取出标签的数据内容,然后对数据内容进行层次上的组织。最终可以例如以文字块的方式在版面上显示中英文目录的内容。例如,中英文目录分别为一个独立的文字块。图4中示意性地示出了中英文目录。
由于建立了目录级别与结构化标签的对应关系,因此标签与目录级别之间的对应关系被自动维护。在步骤206中,判断标签内容是否发生变化。当标签内容发生变化时,对中英文目录的内容进行更新。在图5中示意性地示出了更新后的中英文目录数据。
本领域的技术人员应当理解,在实现根据本发明第一实施方式的中英文目录的同步显示时,可以省略上述步骤中的一个或多个。
在根据本发明的实施方式的同步提取中英文目录的方法中,可以同步生成中英文目录,并且同时保持两个目录的目录数据与排版数据的关联性,可以同步更新来保持数据的一致性。
参照图6,示出了根据本发明的实施方式的同步提取中英文目录的系统。
结构化数据形成单元601形成结构化数据文档。结构化数据的文档可以是符合某种规范的文档。可以根据与特定出版物结构相关的特定结构化规则来形成符合规范的结构化数据文档。
在必要时,可以使用规范性验证单元602对结构化数据进行规范性验证,例如通过Schema或DTD等。
通过结构化数据输入和转化单元603将描述特定出版物结构的结构化数据的文档导入到排版软件中,导入的同时对数据进行转化,形成结构化排版数据。并且可以以排版结果的形式展现数据。
在对结构化数据进行转化以生成结构化排版数据时,可以对文档中的关键元素数据进行转化,例如对文字、图片、表格、公式、版面布局等数据进行转化。从而形成对版面排版结果进行描述的排版文档。并且转化后的数据中要保持关键元素数据的结构化特征。
对应关系设置单元604从结构化排版数据中提取结构标签,并且将这些结构标签与目录级别相对应,从而形成结构化标签与目录级别的对应表。在形成对应表时,可以将需要在目录中体现的标签相对自由地与目录级别发生关联。
此外,为了便于使用者操作,可以将标签与段落样式相对应,使用段落样式的方式来体现标签。这样,就可以变化为设置段落样式与目录级别之间的对应关系。
数据输出单元605从各个目录级别对应的标签中提取标签的数据内容。按照目录的层次关系对数据内容进行组织,以在版面中显示出中英文目录的内容。
根据本发明的优选实施方式,可以依次按照目录的级别从对应的标签中提取出标签的数据内容,然后对数据内容进行层次上的组织。最终可以例如以文字块的方式在版面上显示中英文目录的内容。例如,中英文目录分别为一个独立的文字块。。
由于建立了目录级别与结构化标签的对应关系,因此标签与目录级别之间的对应关系被自动维护。更新单元606判断标签内容是否发生变化。当标签内容发生变化时,对中英文目录的内容进行更新。
本领域的技术人员应当理解,在实现根据本发明第一实施方式的中英文目录的同步显示时,可以省略上述单元中的一个或多个。
应当理解,本文以上实施方式仅仅是示例性的,而非在于限制本发明的范围。对于本领域的技术人员而言,在不脱离本发明的精神和食指的情况下,可以做出各种变型和改进,但是这些变型和改进也应视为落入本发明的保护范围之中。

Claims (12)

1.一种同步提取中英文目录的方法,所述方法包括:
1)导入描述特定出版物结构的结构化数据的文档,同时对所述结构化数据进行转化,以生成结构化排版数据;
2)从所述结构化排版数据中提取结构标签,将所述结构标签与目录级别相对应;
3)从与各所述目录级别相对应的所述结构标签中提取出所述结构标签的数据内容,并且按照目录的层次关系对所述数据内容进行组织,从而显示出中英文目录的内容。
2.如权利要求1所述的方法,其中,所述方法还包括:
根据特定出版物的结构,按照特定的结构化规则来形成所述结构化数据的文档。
3.如权利要求2所述的方法,其中,所述方法还包括:
在形成所述结构化数据的文档之后,可以利用Schema或DTD对所述结构化数据进行规范性验证。
4.如权利要求1所述的方法,其中,所述方法还包括:
通过维护所述结构标签与所述目录级别的对应关系,在所述标签的数据内容变化时,可以同步对所述中英文目录的内容进行更新。
5.如权利要求1所述的方法,其中,在所述步骤2)中,可以将所述结构标签与段落样式相对应,从而设置所述段落样式与所述目录级别的对应关系。
6.如权利要求1所述的方法,其中,对所述结构化数据进行转化时,对所述结构化数据的文档中的关键元素数据进行转化,以形成对版面排版结果进行描述的所述结构化排版数据。
7.一种同步提取中英文目录的系统,所述系统包括:
结构化数据输入与转化单元,将描述特定出版物结构的结构化数据的文档导入排版软件中,同时对所述结构化数据进行转化,以生成结构化排版数据;
对应关系设置单元,从所述结构化排版数据中提取结构标签,将所述结构标签与目录级别相对应;
数据输出单元,从与各所述目录级别相对应的所述结构标签中提取出所述结构标签的数据内容,并且按照目录的层次关系对所述数据内容进行组织,从而显示出中英文目录的内容。
8.如权利要求7所述的系统,其中,还包括:
结构化数据形成单元,根据特定出版物的结构,按照特定的结构化规则来形成所述结构化数据的文档。
9.如权利要求8所述的系统,其中,还包括:
规范性验证单元,在形成所述结构化数据的文档之后,可以利用Schema或DTD对所述结构化数据进行规范性验证。
10.如权利要求7所述的系统,其中,还包括:
更新单元,通过维护所述结构标签与所述目录级别的对应关系,在所述标签的数据内容变化时,可以同步对所述中英文目录的内容进行更新。
11.如权利要求7所述的系统,其中,所述对应关系设置单元可以将所述结构标签与段落样式相对应,从而设置所述段落样式与所述目录级别的对应关系。
12.如权利要求7所述的系统,其中,所述结构化数据输入与转化单元对所述结构化数据进行转化时,对所述结构化数据的文档中的关键元素数据进行转化,以形成对版面排版结果进行描述的所述结构化排版数据。
CN201310362185.6A 2013-08-19 2013-08-19 同步提取中英文目录的方法及系统 Expired - Fee Related CN104424185B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310362185.6A CN104424185B (zh) 2013-08-19 2013-08-19 同步提取中英文目录的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310362185.6A CN104424185B (zh) 2013-08-19 2013-08-19 同步提取中英文目录的方法及系统

Publications (2)

Publication Number Publication Date
CN104424185A true CN104424185A (zh) 2015-03-18
CN104424185B CN104424185B (zh) 2018-10-16

Family

ID=52973189

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310362185.6A Expired - Fee Related CN104424185B (zh) 2013-08-19 2013-08-19 同步提取中英文目录的方法及系统

Country Status (1)

Country Link
CN (1) CN104424185B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649227A (zh) * 2015-10-30 2017-05-10 方正国际软件(北京)有限公司 一种目录更新方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101164039A (zh) * 2005-03-02 2008-04-16 谷歌公司 生成结构化信息
US20090172528A1 (en) * 2007-12-31 2009-07-02 Ramprasad S System and method for dynamically presenting a software system landscape
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102566945A (zh) * 2010-12-24 2012-07-11 北大方正集团有限公司 一种实现图书自动组稿按需印刷的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101164039A (zh) * 2005-03-02 2008-04-16 谷歌公司 生成结构化信息
US20090172528A1 (en) * 2007-12-31 2009-07-02 Ramprasad S System and method for dynamically presenting a software system landscape
CN102346730A (zh) * 2010-07-30 2012-02-08 汉王科技股份有限公司 电子阅读器中显示目录的方法和装置
CN102566945A (zh) * 2010-12-24 2012-07-11 北大方正集团有限公司 一种实现图书自动组稿按需印刷的方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649227A (zh) * 2015-10-30 2017-05-10 方正国际软件(北京)有限公司 一种目录更新方法及装置

Also Published As

Publication number Publication date
CN104424185B (zh) 2018-10-16

Similar Documents

Publication Publication Date Title
Diab et al. Tharwa: A Large Scale Dialectal Arabic-Standard Arabic-English Lexicon.
JP6606304B2 (ja) プレビューにおけるネイティブ・ドキュメントのコメントの修正
US20130174024A1 (en) Method and device for converting document format
US20130174011A1 (en) Automated Document Conversion Testing
US10146746B2 (en) Method and system for converting a document
CN105786921B (zh) 一种非结构化文档的数据模块转化方法和装置
Pagé-Perron et al. Machine translation and automated analysis of the Sumerian language
WO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
US9811505B2 (en) Techniques to provide processing enhancements for a text editor in a computing environment
RU2014101123A (ru) Универсальное представление текста с возможностью поддержки различных форматов документов и текстовая подсистема
CN114827752A (zh) 视频生成方法、视频生成系统、电子设备及存储介质
US9141867B1 (en) Determining word segment boundaries
Klahold et al. Computer aided writing
US11003849B2 (en) Technologies for valid dependency parsing in casual text
CN103986765B (zh) 一种利用网络同步android多国语言的方法
US20140279842A1 (en) Inferring a sequence of editing operations to facilitate merging versions of a shared document
US10157238B2 (en) Transformation of marked-up content to a reversible file format for automated browser based pagination
CN105069001A (zh) 计算机辅助翻译方法
CN104424185A (zh) 同步提取中英文目录的方法及系统
CN104424214A (zh) 一种自定义提取目录内容的方法和装置
CN109960812B (zh) 语言处理方法及设备
KR20200045814A (ko) 창작물 통합 관리 서버
CN104536948A (zh) 版式文档的处理方法及装置
CN106484380B (zh) 一种产品文档的生成方法和装置
JP2014199476A (ja) 機械翻訳装置、機械翻訳方法およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 5 floor

Patentee after: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee after: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: FOUNDER INFORMATION INDUSTRY HOLDINGS Co.,Ltd.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220915

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, Beijing, Haidian District, Cheng Fu Road, No. 298, Zhongguancun Fangzheng building, 5 floor

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: PKU FOUNDER INFORMATION INDUSTRY GROUP CO.,LTD.

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181016