CN106777404A - 从LaTeX格式到XML格式的转换系统及转换方法 - Google Patents

从LaTeX格式到XML格式的转换系统及转换方法 Download PDF

Info

Publication number
CN106777404A
CN106777404A CN201710196087.8A CN201710196087A CN106777404A CN 106777404 A CN106777404 A CN 106777404A CN 201710196087 A CN201710196087 A CN 201710196087A CN 106777404 A CN106777404 A CN 106777404A
Authority
CN
China
Prior art keywords
latex
module
data
document
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710196087.8A
Other languages
English (en)
Inventor
李小伟
龙迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yi Ke Tianyuan Information Technology Co Ltd
Original Assignee
Beijing Yi Ke Tianyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yi Ke Tianyuan Information Technology Co Ltd filed Critical Beijing Yi Ke Tianyuan Information Technology Co Ltd
Priority to CN201710196087.8A priority Critical patent/CN106777404A/zh
Publication of CN106777404A publication Critical patent/CN106777404A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种从LaTeX格式到XML格式的转换系统,包括LaTeX文件存储区、LaTeX语法定义文件数据库、LaTeX文件拆分模块、LaTeX转换器模块、特殊符号转换器模块、临时文件存储区、文档规范转换器模块和XML存储区;规范化的XML文件输出至XML存储区内。本发明从LaTeX格式到XML格式的转换系统及转换方法可以将LaTeX格式文件转换为符合国际规范的结构化数据,从而使得许多专业期刊的文献与国外专业文献网站进行对接,可以实现跨平台进行数据展示,以及对文章能够统一进行内容管理。

Description

从LaTeX格式到XML格式的转换系统及转换方法
技术领域
本发明涉及文件格式转换技术,特别涉及一种从LaTeX到XML格式的文件转换系统及其转换方法。
背景技术
在现有技术中,出版行业许多专业期刊的文献是用LaTeX(音译“拉泰赫”)格式来书写,LaTeX格式虽然利于印刷出版,但是不利于阅读。LaTeX文件是非结构化数据,不能在互联网环境下很好的存储,展示;不能与国外专业文献网站进行对接;不利于在互联网的各个平台间进行数据交互,数据共享。
发明内容
针对上述现有技术中的缺点和不足,本发明的目的在于提供一种能够实现LaTeX文件到符合国际规范的结构化数据(XML)转换的系统以及对应此系统的转换方法。
本发明的目的是通过以下技术方案实现的:
一种从LaTeX格式到XML格式的转换系统,包括LaTeX文件存储区、LaTeX语法定义文件数据库、LaTeX文件拆分模块、LaTeX转换器模块、特殊符号转换器模块、临时文件存储区、文档规范转换器模块和XML存储区;LaTeX文件存储区输出数据至LaTeX文件拆分模块进行文件拆分,LaTeX转换器模块按照LaTeX语法定义文件的规则,将LaTeX格式解释成XML格式的数据,将LaTeX格式的公式转换成MathML格式的数据;特殊符号转换器模块根据特殊符号定义文件将LaTeX文中的转义符识别成特殊符号,输出到临时文件存储区,文档规范转换器模块将临时文件存储区的XML内容进行标准化规范,规范化的XML文件输出至XML存储区内。
优选地,所述LaTeX文件拆分模块内包括正文前内容识别模块、正文内容识别模块、图表内容识别模块和参考文献识别模块。
优选地,所述LaTeX语法定义文件数据库内存储有正文前语法定义数据,正文语法定义数据,图表语法定义数据和参考文献语法定义数据。
优选地,LaTeX转换器模块包括LaTeX语法分析器和MathML公式转换器,所述LaTeX语法分析器模块将LaTeX格式解释成XML数据,所述MathML公式转换器模块将LaTeX中的公式内容转换成MathML标准的数据。
优选地,还包括特殊符号定义文件数据库,所述特殊符号定义文件数据库内存储有特殊符号定义文件。
优选地,所述文档规范转换器包括ATA文档规范模块、DITA文档规范模块、DOCBOOK文档规范模块、JATS文档规范模块、NLM文档规范模块、S1000D文档规范模块和其他待开发文档规范模块。
一种从LaTeX格式到XML格式的转换方法,包括如下步骤:
S1,将LaTeX文件输入到LaTeX文件存储区存储,等待转换;
S2,LaTex文件拆分模块将LaTeX文件分解成正文前,正文,图表,参考文献数据块;
S3,LaTeX转换器中的LaTeX语法分析器读取LaTeX语法定义文件得到语法解释规则,LaTeX语法分析器模块将正文前,正文,图表,参考文献数据块解释成XML格式的数据;将LaTeX格式的公式转换成MathML格式的数据;
S4,特殊符号转换器模块将各数据中的特殊符号转义符替换成特殊符号,放入临时文件存储区;
S5,当待转换文件完全转换为临时的XML格式数据后,LaTeX转换器将临时的XML格式数据传送至文档规范编辑模块,对临时的XML格式数据进行规范化编辑,使临时的XML格式文件形成符合文档规范的XML格式数据;
S6,将符合文档规范的XML格式数据生成XML文件。
与现有技术相比,本发明实施例至少具有以下优点:
本发明从LaTeX格式到XML格式的转换系统及转换方法可以将LaTeX格式文件转换为符合国际规范的结构化数据,从而使得许多专业期刊的文献与国外专业文献网站进行对接,可以实现跨平台进行数据展示,以及对文章能够统一进行内容管理。
附图说明
图1为本发明实施例从LaTeX到XML格式的文件转换系统的功能框图;
图2为本发明从LaTeX格式到XML格式的转换方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
图1为本发明实施例从LaTeX到XML格式的文件转换系统的功能框图。
如图1所示,该从LaTeX到XML格式的文件转换系统,读入LaTeX文件,将LaTeX文中预定义LaTeX命令进行替换,将特殊符号的LaTeX表达式替换成内部编码,将LaTeX文件分解成文前,正文,图表,参考文献四个LaTeX文件,将各LaTeX文件进行格式化,LaTeX文件按照各自类型调用各自的LaTeX转换器,将文件转换成XML格式并生成临时XML文件,各临时XML文件中的内部编码变换成字符实体符号,各XML内容转换成规范化的XML格式,各临时文件合并成一个XML文件。
所述LaTeX文件拆分模块内包括正文前内容识别模块、正文内容识别模块、图表内容识别模块和参考文献识别模块。
所述LaTeX语法定义文件数据库内存储有正文前语法定义数据,正文语法定义数据,图表语法定义数据和参考文献语法定义数据。
LaTeX转换器模块包括LaTeX语法分析器和MathML公式转换器,所述LaTeX语法分析器模块将LaTeX格式解释成XML数据,所述MathML公式转换器模块将LaTeX中的公式内容转换成MathML标准的数据。
还包括特殊符号定义文件数据库,所述特殊符号定义文件数据库内存储有特殊符号定义文件。
所述文档规范转换器包括ATA文档规范模块、DITA文档规范模块、DOCBOOK文档规范模块、JATS文档规范模块、NLM文档规范模块、S1000D文档规范模块和其他待开发文档规范模块。
一种从LaTeX格式到XML格式的转换方法,包括如下步骤:
S1,将LaTeX文件输入到LaTeX文件存储区存储,等待转换;
S2,LaTex文件拆分模块将LaTeX文件分解成正文前,正文,图表,参考文献数据块;
S3,LaTeX转换器中的LaTeX语法分析器读取LaTeX语法定义文件得到语法解释规则,LaTeX语法分析器模块将正文前,正文,图表,参考文献数据块解释成XML格式的数据;将LaTeX格式的公式转换成MathML格式的数据;
S4,特殊符号转换器模块将各数据中的特殊符号转义符替换成特殊符号,放入临时文件存储区;
S5,当待转换文件完全转换为临时的XML格式数据后,LaTeX转换器将临时的XML格式数据传送至文档规范编辑模块,对临时的XML格式数据进行规范化编辑,使临时的XML格式文件形成符合文档规范的XML格式数据;
S6,将符合文档规范的XML格式数据生成XML文件。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种从LaTeX格式到XML格式的转换系统,其特征在于,包括LaTeX文件存储区、LaTeX语法定义文件数据库、LaTeX文件拆分模块、LaTeX转换器模块、特殊符号转换器模块、临时文件存储区、文档规范转换器模块和XML存储区;LaTeX文件存储区输出数据至LaTeX文件拆分模块进行文件拆分,LaTeX转换器模块按照LaTeX语法定义文件的规则,将LaTeX格式解释成XML格式的数据,将LaTeX格式的公式转换成MathML格式的数据;特殊符号转换器模块根据特殊符号定义文件将LaTeX文中的转义符识别成特殊符号,输出到临时文件存储区,文档规范转换器模块将临时文件存储区的XML内容进行标准化规范,规范化的XML文件输出至XML存储区内。
2.根据权利要求1所述的从LaTeX格式到XML格式的转换系统,其特征在于,所述LaTeX文件拆分模块内包括正文前内容识别模块、正文内容识别模块、图表内容识别模块和参考文献识别模块。
3.根据权利要求1所述的从LaTeX格式到XML格式的转换系统,其特征在于,所述LaTeX语法定义文件数据库内存储有正文前语法定义数据,正文语法定义数据,图表语法定义数据和参考文献语法定义数据。
4.根据权利要求1所述的从LaTeX格式到XML格式的转换系统,其特征在于,LaTeX转换器模块包括LaTeX语法分析器和MathML公式转换器,所述LaTeX语法分析器模块将LaTeX格式解释成XML数据,所述MathML公式转换器模块将LaTeX中的公式内容转换成MathML标准的数据。
5.根据权利要求1所述的从LaTeX格式到XML格式的转换系统,其特征在于,还包括特殊符号定义文件数据库,所述特殊符号定义文件数据库内存储有特殊符号定义文件。
6.根据权利要求1所述的从LaTeX格式到XML格式的转换系统,其特征在于,所述文档规范转换器包括ATA文档规范模块、DITA文档规范模块、DOCBOOK文档规范模块、JATS文档规范模块、NLM文档规范模块和S1000D文档规范模块。
7.一种从LaTeX格式到XML格式的转换方法,其特征在于,包括如下步骤:
S1,将LaTeX文件输入到LaTeX文件存储区存储,等待转换;
S2,LaTex文件拆分模块将LaTeX文件分解成正文前,正文,图表,参考文献数据块;
S3,LaTeX转换器中的LaTeX语法分析器读取LaTeX语法定义文件得到语法解释规则,LaTeX语法分析器模块将正文前,正文,图表,参考文献数据块解释成XML格式的数据;将LaTeX格式的公式转换成MathML格式的数据;
S4,特殊符号转换器模块将各数据中的特殊符号转义符替换成特殊符号,放入临时文件存储区;
S5,当待转换文件完全转换为临时的XML格式数据后,LaTeX转换器将临时的XML格式数据传送至文档规范编辑模块,对临时的XML格式数据进行规范化编辑,使临时的XML格式文件形成符合文档规范的XML格式数据;
S6,将符合文档规范的XML格式数据生成XML文件。
CN201710196087.8A 2017-03-29 2017-03-29 从LaTeX格式到XML格式的转换系统及转换方法 Pending CN106777404A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710196087.8A CN106777404A (zh) 2017-03-29 2017-03-29 从LaTeX格式到XML格式的转换系统及转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710196087.8A CN106777404A (zh) 2017-03-29 2017-03-29 从LaTeX格式到XML格式的转换系统及转换方法

Publications (1)

Publication Number Publication Date
CN106777404A true CN106777404A (zh) 2017-05-31

Family

ID=58966841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710196087.8A Pending CN106777404A (zh) 2017-03-29 2017-03-29 从LaTeX格式到XML格式的转换系统及转换方法

Country Status (1)

Country Link
CN (1) CN106777404A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765743A (zh) * 2019-09-25 2020-02-07 青岛励图高科信息技术有限公司 用于数学公式在HTML中编辑显示和导出到Word文档中的系统
CN111144071A (zh) * 2019-12-25 2020-05-12 小船出海教育科技(北京)有限公司 一种跨平台的MathType公式转换方法及装置
CN113448563A (zh) * 2021-08-24 2021-09-28 中奥智能工业研究院(南京)有限公司 一种LaTeX在线协作平台
CN115293114A (zh) * 2022-10-08 2022-11-04 成都西南财大交子金融科技创新研究院有限公司 一种基于目标期刊智能格式修订方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055577A (zh) * 2006-04-12 2007-10-17 龙搜(北京)科技有限公司 可扩展标记语言集中器
CN101281544A (zh) * 2008-05-13 2008-10-08 北大方正集团有限公司 一种将小样文件转换为扩展标记语言文件的方法和系统
CN105718554A (zh) * 2016-01-19 2016-06-29 深圳市天朗时代科技有限公司 文档的协同转换方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055577A (zh) * 2006-04-12 2007-10-17 龙搜(北京)科技有限公司 可扩展标记语言集中器
CN101281544A (zh) * 2008-05-13 2008-10-08 北大方正集团有限公司 一种将小样文件转换为扩展标记语言文件的方法和系统
CN105718554A (zh) * 2016-01-19 2016-06-29 深圳市天朗时代科技有限公司 文档的协同转换方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
崔林卫: "Web数学公式提取方法的研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
科普卡 等: "《LATEX实用教程》", 30 April 2005 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765743A (zh) * 2019-09-25 2020-02-07 青岛励图高科信息技术有限公司 用于数学公式在HTML中编辑显示和导出到Word文档中的系统
CN111144071A (zh) * 2019-12-25 2020-05-12 小船出海教育科技(北京)有限公司 一种跨平台的MathType公式转换方法及装置
CN111144071B (zh) * 2019-12-25 2024-06-11 小船出海教育科技(北京)有限公司 一种跨平台的MathType公式转换方法及装置
CN113448563A (zh) * 2021-08-24 2021-09-28 中奥智能工业研究院(南京)有限公司 一种LaTeX在线协作平台
CN115293114A (zh) * 2022-10-08 2022-11-04 成都西南财大交子金融科技创新研究院有限公司 一种基于目标期刊智能格式修订方法及装置

Similar Documents

Publication Publication Date Title
CN106777404A (zh) 从LaTeX格式到XML格式的转换系统及转换方法
CN100501740C (zh) 将不同格式的文本数据转换为统一格式的方法及其系统
Hana et al. Error-tagged learner corpus of Czech
CN109284145A (zh) 多语言配置文件的生成和展示方法及装置、设备和介质
CN106446072B (zh) 网页内容的处理方法和装置
CN104699714A (zh) 将书版格式文件转换为epub格式文件的方法及装置
CN105975446A (zh) 手机端分模块显示word文档内容的方法及系统
CN101859295B (zh) 具标记提示的简繁字词转换系统及其方法
CN105630747A (zh) 一种应用于特种设备行业的检验报告专业化系统及方法
CN103336706A (zh) 将伪代码转换为编程语言的系统和方法
CN102467496B (zh) 用于将流式排版内容转换为块式排版文档的方法和装置
CN102110108B (zh) 一种对小样文件的处理方法及装置
CN113033162A (zh) 一种可控制编辑规则的电子文档转换方法
CN109614143B (zh) Ietm浏览器中自动生成故障流程图的开发方法
CN112506488A (zh) 一种基于sql创建语句生成编程语言类的方法
CN101866331A (zh) 不同语种xml文档的转换方法及装置
CN113392217B (zh) 一种电力设备故障缺陷实体关系的抽取方法及装置
CN105653516A (zh) 平行语料对齐的方法和装置
CN114973798A (zh) 一种单词学习卡生成方法及装置
CN115130437A (zh) 一种文档智能填写方法、装置及存储介质
CN115146634A (zh) 应急预案转化待办流程图的处理方法及相关装置
CN110853327B (zh) 一种基于单片机的船舶机舱设备数据现场调试采集方法及装置
CN113849173A (zh) 一种基于json的动态表单生成方法及系统
CN112597741A (zh) 一种数据适配方法及装置
CN104536945B (zh) 一种基于xml建模的印刷出版中多元组合符号自动生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531

RJ01 Rejection of invention patent application after publication