CN111046637A - 一种科学公式正确性检验方法和装置 - Google Patents

一种科学公式正确性检验方法和装置 Download PDF

Info

Publication number
CN111046637A
CN111046637A CN201911360663.3A CN201911360663A CN111046637A CN 111046637 A CN111046637 A CN 111046637A CN 201911360663 A CN201911360663 A CN 201911360663A CN 111046637 A CN111046637 A CN 111046637A
Authority
CN
China
Prior art keywords
formula
data format
format
scientific formula
scientific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911360663.3A
Other languages
English (en)
Inventor
张翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiaochuanchuhai Education Technology Beijing Co ltd
Original Assignee
Xiaochuanchuhai Education Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiaochuanchuhai Education Technology Beijing Co ltd filed Critical Xiaochuanchuhai Education Technology Beijing Co ltd
Priority to CN201911360663.3A priority Critical patent/CN111046637A/zh
Publication of CN111046637A publication Critical patent/CN111046637A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明提供了一种科学公式正确性检验方法和装置,所述科学公式正确性检验方法获取并识别科学公式,根据科学公式初始数据格式转换为目标数据格式;判断科学公式是否已经被录入、审核过,如果当前公式未被录入且审核过,则核对初始数据格式所表示的内容与目标数据格式所表示的内容是否一致。块。所述方法以MathML格式数据为核心,利用MathML的标记式结构解决了当前科学公式数据在Windows、Linux和Mac OS操作系统之间跨平台转换过程中易出现错误的问题,同时还可以对已经在纠错模块中进行完纠错的科学公式数据进行保存,对已输入并经过校对的科学公式素材进行重复使用。

Description

一种科学公式正确性检验方法和装置
技术领域
本发明涉及电子文档编辑出版领域,尤其涉及一种科学公式正确性检验方法和装置。
背景技术
在出版物领域,尤其是教材出版领域中,各种科学公式的素材是必不可少的。随着信息化的不断推进,电子化出版和教学工具不断的发展演进,导致各种录入科学公式的软件以及文档格式不断增多。在当前的出版行业中,在编辑科学公式环节中,使用的软件主要有Word、MathType等;而在印刷环节中,以Tex软件为主。由于应用场景不同,其录入的科学公式的数据格式不同,不同的数据格式又不是100%的相互兼容、个别国外录入软件运行时还需要特殊干预。为充分地利用现有的不同数据格式的科学公式,避免重复劳动,需要一个可实现不同平台、不同软件录入的科学公式相互正确转换的方法。
发明内容
鉴于上述原因,本发明的目的是提供一种科学公式正确性检验方法。该方法以MathML格式数据为核心,兼容不同录入平台和录入软件,实现不同平台和软件之间科学公式的正确转换。
为实现上述目的,本发明采用以下技术方案:一种科学公式正确性检验方法法,它包括如下步骤:
获取并识别科学公式,根据科学公式初始数据格式转换为目标数据格式;
判断科学公式是否已经被录入、审核过,如果当前公式未被录入且审核过,则核对初始数据格式所表示的内容与目标数据格式所表示的内容是否一致。
进一步地,所述“核对初始数据格式所表示的内容与目标数据格式所表示的内容是否一致”包括:
将初始数据格式、目标数据格式渲染为图片;或者,将初始数据格式和/或目标数据格式转换为第三数据格式,由第三数据格式渲染成图片;
将图片中的内容转换为文本;
对比图片转换后的文本差异值,判断差异值是否处于设置的判断结果区间。
进一步地,所述“渲染成图片”之前还包括:判断图片渲染结果,如渲染成功,则将图片中的内容转换为文本。
进一步地,所述“渲染成图片”包括:获取待审核公式格式的矢量图,将所述矢量图转换为RGB通道的图片;
优选地,所述“获取待审核公式格式的矢量图”包括:SVG数据公式格式转为RGB通道图片,将SVG图像转换为PDF,再将PDF转换为图片。
进一步地,所述“将图片中的内容转换为文本”包括:采用OCR识别将图片中的内容转换为文本。
进一步地,所述“对比图片转换后的文本差异值”包括使用最小编辑距离算法进行对比;
优选地,如核对结果为内容不一致时,进行人工纠错。
进一步地,所述“根据科学公式初始数据格式转换为目标数据格式”包括:
获取待转换科学公式的初始数据格式和目标数据格式,对待转换公式进行解析,验证内容的合法性;
根据目标数据格式,进行格式转换;
对转换后的公式数据进行格式化,生产统一标准的数据。
本发明还提供了一种正确转换科学公式装置,它包括:公式处理模块,所述公式处理模块获取并识别科学公式,根据科学公式初始数据格式转换为目标数据格式;
判断模块,所述判断模块判断科学公式是否已经被录入、审核过,如果当前公式未被录入且审核过,则核对初始数据格式所表示的内容与目标数据格式所表示的内容是否一致;
优选地,还包括纠错模块,当核对内容不一致时,所述纠错模块为人工纠错提供入口。
进一步地,所述判断模块包括:
第一子模块,所述第一子模块将初始数据格式、目标数据格式渲染为图片;或者,将初始数据格式和/或目标数据格式转换为第三数据格式,由第三数据格式渲染成图片;
第二子模块,所述第二子模块将图片中的内容转换为文本;
第三子模块,所述第三子模块对比图片转换后的文本差异值,判断差异值是否处于设置的判断结果区间。
进一步地,所述公式处理模块包括:内容解析模块、转换模块和格式化模块;
所述内容解析模块:获取待转换的科学公式的初始数据格式和目标数据格式,对公式进行解析,验证内容的合法性;
所述转换模块:设置有转换关系匹配表,依据科学公式转换关系匹配表,结构化公式数据,将初始格式的科学公式数据转换为目标格式;
所述格式化模块:用于格式化公式数据,生产统一标准的数据。
本发明以MathML格式数据为核心,利用MathML的标记式结构解决了当前对科学公式数据在Windows、Linux和Mac OS操作系统之间的跨平台转换过程中易出现错误的问题,同时还可以对转换过程中出现的错误进行纠错,并将纠错后的科学公式数据进行保存,对已输入并经过校对的科学公式素材进行重复使用。
附图说明
图1为本发明方法流程图;
图2为本发明的一个实施例流程图;
图3为本发明的功能模块构成图;
图4为本发明科学公式格式转换方法流程图;
图5为本发明科学公式格式转换装置模块构成图;
图6为本发明转换关系匹配表中的各格式间转换逻辑图。
具体实施方式
下面结合附图对本发明中的科学公式正确性检验方法和装置做进一步的详细说明。
本发明的一个方面提供了一种科学公式正确性检验方法,包括:
获取并识别科学公式,根据科学公式初始数据格式转换为目标数据格式;
所述获取识别科学公式可以包括以下几种途径:
a)提供数据的录入功能。提供一个公式录入编辑器,用户可以使用latex方式,或者可视化的方法录入公式。
b)从Word文档格式导入功能。从现有的文档提取MathType公式或者word自有格式的公式。
c)从tex文件导入的功能,根据latex格式的语义,从文件中提取数学公式。
参考图4,所述“根据科学公式初始数据格式转换为目标数据格式”包括:
获取待转换科学公式的初始数据格式和目标数据格式,对待转换公式进行解析,验证内容的合法性;
根据目标数据格式,进行格式转换;
对转换后的公式数据进行格式化,生产统一标准的数据。
第一步,先获取待转换科学公式的初始数据格式和目标数据格式,对待转换公式进行解析,验证内容的合法性;
在一个实施例中,所述获取待转换科学公式的初始数据格式包括:通过提取文档中的公式内容,或通过提供一个公式录入编辑器录入,或利用编程方式操作*.tex文件来实现获取公式。*.tex文件的内容为纯文本,其中公式的latex码会使用$符号进行包裹,程序只需要提取文档内容中使用$符号包裹的内容作为公式的latex码即可。
所述“对待转换公式数据进行解析,验证内容的合法性”包括:检验待转换科学公式中是否存在非法字符,如存在非法字符,则对非法字符进行处理,使待转换科学公式符合设置的合法标准。在一个实施例中,所述的非法字符是指计算机中的控制字符。在一个实施例中,所述设置的合法标准包括:直至待转换科学公式中不存在非法字符,如不存在非法字符,则进行格式转换;在其他实施例中,合法标准也可以是允许部分公式内非实质性内容的非法字符存在,这些非实质性内容并不影响公式表达的内容。
第二步,根据目标数据格式,进行格式转换;在本步骤之前还包括,设置转换关系匹配表;在转换关系匹配表中对初始数据格式和目标数据格式进行匹配,如查找到匹配项,则按照转换关系匹配表中设置的转换关系进行科学公式的格式转换。
所述转换关系匹配表中的数据格式至少包括:SVG数据格式,LaTex数据格式,MathML数据格式,OMML数据格式和MathType数据格式;所述关系匹配表中至少设置有两种数据格式之间的转换匹配关系。
参考图6,在一个实施例中,所述转换关系匹配表中设置的转换关系为:
MathML数据格式和Latex数据格式分别单向转换为SVG数据格式;
MathML数据格式与Latex数据格式相互转换;
MathML数据格式与OMML数据格式相互转换;
MathML数据格式与MathType数据格式相互转换。
在一个实施例中,匹配了5种格式之间的相互转换,至少包括了以下多种转换情况:
1、Latex=>MathML,在一个实施例中,可使用MathJax进行格式的转换;
2、Latex、MathML=>SVG:在一个实施例中,可使用MathJax进行格式的转换;
3、MathML=>Latex:在一个实施例中,可使用自定义的XSLT将MathML转换为Latex;
4、MathML OMML:在一个实施例中,可使用word定义好的OMML2MML.xslt进行转换;
5、MathML MathType:在一个实施例中,可使用MathType官方SDK进行转换;
6、OMML、Latex转MathType:
a)将Latex、OMML先转换为MathML
b)在一个实施例中,可使用MathType SDK将MathML转换为MathType
7、MathType=>MathML:在一个实施例中,可使用MathType SDK进行转换;
8、MathType=>Latex、OMML:
a)在一个实施例中,可使用MathType SDK转换为MathML;
b)再将MathML转换为Latex、OMML。
同时,本实施例根据各数据格式的特性,还存在以下有益效果:
a)将web端生产的较大的MathML数据,转换为简短的latex码进行数据存储,减少存储空间,方便数据维护。
b)将数据存储的latex转换为可供web端直接展示及编辑的SVG或MathML格式。
在一个实施例中,当初始数据格式为:Latex、OMML、MathType时,进行格式转换之前还包括:结构化公式数据,
所述“结构化公式数据”包括:将待转换科学公式转化为MathML数据格式的公式结构,通过MathML数据格式转换为目标数据格式。由于MathML格式的公式数据对于公式的样式及结构描述的完整清晰,因此会将初始格式优先转换为MathML格式的公式数据,再由MathML格式的数据转换到目标格式,以实现了Latex、OMML、MathType和MathML之间的相互转换,Latex、OMML、MathType和MathML与SVG的相互转换,以及Latex、MathML与SVG的单向转换,达到了公式在web网页操作端、word文档编辑端以及排版印刷端多端之间的、多格式之间的互相转换。
另外,由于MathType官方SDK对latex中存在中文的转换后中文为乱码,且对于很多latex命令无法支持,但是MathML由于标记型语言的特殊性,对于公式的结构描述清晰且中文字符采用Unicode码的形式存储,MathType SDK对于MathML格式的转换效果很好,因此其他公式格式在转换到MathType公式时,都会先将公式格式统一转换为MathML格式后再使用MathtType SDK进行转换。此方法解决了MathType对latex支持有限的问题。
第三步,对转换后的公式数据进行格式化,生产统一标准的数据。所述“对转换后的公式数据进行格式化”包括:
对完成格式转换的科学公式数据进行整理,检验是否存在非法字符和/或不支持字符,如存在非法字符,则删除非法字符后重新整理,使其符合设置的格式化标准;
在一个实施例中,所述格式化标准可以设置为:直至完成格式转换的科学公式中不存在非法字符,如存在不支持字符,则替换不支持字符后重新整理,直至不存在不支持字符。在其他实施例中,也可以根据需要设置其他标准。
在一个实施例中,所述非法字符至少包括:计算机中的控制字符;所述不支持字符包括:目标格式中不支持的Unicode码。每种格式的数据支持的Unicode码的字符集不完全相同,同一种公式符号的Unicode码会有多种,公式转换会将目标格式中不支持的Unicode码替换为对应的可以支持的Unicode码。
判断科学公式是否已经被录入、审核过,如果当前公式未被录入且审核过,则核对初始数据格式所表示的内容与目标数据格式所表示的内容是否一致。
进一步地,所述“核对初始数据格式所表示的内容与目标数据格式所表示的内容是否一致”包括:
将初始数据格式、目标数据格式渲染为图片;或者,将初始数据格式和/或目标数据格式转换为第三数据格式,由第三数据格式渲染成图片;
将图片中的内容转换为文本;
对比图片转换后的文本差异值,判断差异值是否处于设置的判断结果区间。
进一步地,所述“渲染成图片”之前还包括:判断图片渲染结果,如渲染成功,则将图片中的内容转换为文本。
进一步地,所述“渲染成图片”包括:获取待审核公式格式的矢量图,将所述矢量图转换为RGB通道的图片;
优选地,所述“获取待审核公式格式的矢量图”包括:SVG数据公式格式转为RGB通道图片,将SVG图像转换为PDF,再将PDF转换为图片。
进一步地,所述“将图片中的内容转换为文本”包括:采用OCR识别将图片中的内容转换为文本。
进一步地,所述“对比图片转换后的文本差异值”包括使用最小编辑距离算法进行对比;
优选地,如核对结果为内容不一致时,进行人工纠错。
本发明还提供了一种正确转换科学公式装置,它包括:公式处理模块,所述公式处理模块获取并识别科学公式,根据科学公式初始数据格式转换为目标数据格式;
判断模块,所述判断模块判断科学公式是否已经被录入、审核过,如果当前公式未被录入且审核过,则核对初始数据格式所表示的内容与目标数据格式所表示的内容是否一致;
优选地,还包括纠错模块,当核对内容不一致时,所述纠错模块为人工纠错提供入口。
进一步地,所述判断模块包括:
第一子模块,所述第一子模块将初始数据格式、目标数据格式渲染为图片;或者,将初始数据格式和/或目标数据格式转换为第三数据格式,由第三数据格式渲染成图片;
第二子模块,所述第二子模块将图片中的内容转换为文本;
第三子模块,所述第三子模块对比图片转换后的文本差异值,判断差异值是否处于设置的判断结果区间。
参考图5,所述公式处理模块包括:内容解析模块、转换模块和格式化模块;
所述内容解析模块:获取待转换的科学公式的初始数据格式和目标数据格式,对公式进行解析,验证内容的合法性;
所述转换模块:设置有转换关系匹配表,依据科学公式转换关系匹配表,结构化公式数据,将初始格式的科学公式数据转换为目标格式;
所述格式化模块:用于格式化公式数据,生产统一标准的数据。
所述内容解析模块:获取待转换的科学公式的初始数据格式和目标数据格式,对公式进行解析,验证内容的合法性;
所述转换模块:设置有转换关系匹配表,依据科学公式转换关系匹配表,结构化公式数据,将初始格式的科学公式数据转换为目标格式;
所述格式化模块:用于格式化公式数据,生产统一标准的数据。
所述转换模块根据所述转换关系匹配表对LaTex,SVG,MathML,OMML和MathType的数据格式中至少两种数据格式进行转换;
进一步地,所述转换模块包括多个子模块:
第一子模块,所述第一转换模块将MathML数据格式单向转换为SVG数据格式;
第二子模块,所述第二转换模块将Latex数据格式单向转换为SVG数据格式;
第三子模块,所述第三转换模块将MathML数据格式与Latex数据格式相互转换;
第四子模块,所述第四转换模块将MathML数据格式与OMML数据格式相互转换;
第五子模块,所述第五转换模块将MathML数据格式与MathType数据格式相互转换;
进一步地,所述转换模块还包括:结构化模块,当初始数据格式为:LaTex、OMML、MathType时,进行格式转换之前,结构化模块将待转换科学公式转化为MathML数据格式的公式结构,先转换为MathML数据格式再转换为目标数据格式。
所述解析模块中设置合法性验证模块,所述合法性验证模块检验待转换科学公式中是否存在非法字符,如存在非法字符,则对非法字符进行处理,使待转换科学公式符合设置的合法标准;
所述格式化模块对完成格式转换的科学公式数据进行整理,检验是否存在非法字符和不支持字符,如存在非法字符,则删除非法字符后重新整理,使其符合设置的格式化标准。
具体地,还提供了以下几个实施例:
实施例1:在线公式编辑器
当出版物或教学教案内容在Web端制作和审校时,其中的科学公式格式为MathML格式或SVG格式。按照用户习惯,会使用Office Word软件来进行文字编辑,在Windows平台下,OMML格式和MathType格式的科学公式数据对Office软件的兼容性比较好。在印刷场景下,用户大多使用Tex系统进行排版印刷;同时,为了对旧版书籍进行编辑后再版,也需要将Tex系统下Latex格式的科学数据转换为OMML、MathType格式进行处理,或转换成MathML或SVG格式进行展示。
当用户在Web端利用可视化界面编辑科学公式时,所生成的科学公式数据格式为MathML格式,对完成编辑的科学公式,也可以将公式渲染为SVG格式进行展示。当用户需要将完成编辑的科学公式进行保存时,出于节约存储空间等考虑,选择将科学公式的数据保存为Latex格式。
参考图2-图4所示,当用户在Web端完成对科学公式的编辑后,内容解析模块获取待转换的科学公式的初始数据格式和目标数据格式,对公式进行解析,检测待转换科学公式的MathML数据中是否存在非法字符。在本实施例中,所述非法字符为控制字符。因此,需要查找待转换科学公式数据中的所有字符是否与US-ASCII控制字符表中的字符相同。若在待转换科学公式数据中存在控制字符,则直接删除该字符。
完成上述步骤后,在转换模块中预置的转换关系匹配表中查找科学公式的原始数据格式与目标格式,以查找出合理的格式转换方式。
本实施例中的转换关系匹配表(参见图5)如下所示:
1.Latex=>MathML:使用MathJax进行转换;
2.Latex、MathML=>SVG:使用MathJax进行转换;
3.MathML=>Latex:使用自定义的XSLT将MathML转换为Latex;
4.MathML OMML:使用word定义好的OMML2MML.xslt进行转换;
5.MathML MathType:使用MathType官方SDK进行转换;
6.OMML、Latex转MathType:
a)将Latex、OMML转换为MathML
b)使用MathType SDK将MathML转换为MathType
7.MathType=>MathML:使用MathType SDK进行转换;
8.MathType=>Latex、OMML:
a)使用MathType SDK转换为MathML;
b)将MathML转换为Latex、OMML。
本实施例的转换关系为MathML单向转换为Latex格式,与转换关系匹配表中第3行中的内容匹配,按照该映射关系转换。
由于MathML本质上是一种标记形语言,具有对于公式的结构描述清晰,且中文字符采用Unicode码的形式存储的优势,因此可以使用XSLT解析器规定字符编码替换的内容。其配置流程为:
1.根据MathML标签指定对应的Latex命令;
2.将MathML中的Unicode字符转换为对应的Latex命令。
在本实施例中,XSLT解析器的核心代码段举例如下:
<xsl:template match="m:math[not(@mode)or@mode='inline'][not(@display)]|m:math[@display='inline']">
<xsl:text>&#x00024;</xsl:text>
<xsl:apply-templates/>
<xsl:text>&#x00024;</xsl:text>
</xsl:template>
上述代码段对XSLT解析器进行了配置。转换模块中的第三子模块完成了MathML格式的科学公式数据转换为Latex格式的工作。
由于MathML格式的公式数据对于公式的样式及结构描述完整清晰,因此本发明将初始格式优先转换为MathML格式的公式数据,再由MathML格式的数据转换到目标格式,这一操作定义为结构化公式数据。
完成上述步骤后,在格式化模块中,将会进一步对Latex格式的科学数据进行删除非法字符操作和替换不支持字符的操作。在本实施例中,非法字符为控制字符,支持字符为MathType软件中支持的Unicode字符,在本实施例中根据MTEF V.5文件中的规定进行处理。
在本发明的一个实施例中:
在Windows平台下,当用户需要将先前生成的Word文档转换为latex格式的数据,使用tex系统进行排版印刷时,如果直接使用第三方软件将含有科学公式的Word文档转换为latex格式文件时,科学公式中的中文字符会出现乱码,个别数学符号也会出现转换错误的现象。此时如果使用人工方式对发生乱码的科学公式进行手动调节,必将耗费大量时间,同时也会导致校对结果仍然可能出现错误的结果。
如图1-3所示,首先,用户可以采用两种方式进行科学公式原始信息的录入:
(1)借助公式录入编辑器:在编辑器录入模式下,用户可以按照Latex语言规定的语法,以文本方式录入公式信息。如,当需要录入公式“a+b=c”时,可在编辑器文本框中键入“$a+b=c$”。同时,用户还可以用使用可视化的方式,在录入界面中选择公式所需的数学符号、上下标数字或字母等,生成一个完整的科学公式。
(2)由Office word文档导入:采用此方式时,所提取的科学公式数据格式为MathType格式,借助于微软公司为Office软件所开发的标准格式规范OOXML进行提取。在本实施例中,提取科学公式时,通过录制并调用宏的方式进行提取。
典型java代码如下:
ActiveXComponent word=new ActiveXComponent("Word.Application");
Dispatch documents=word.getProperty("Documents").toDispatch();
Dispatch document=Dispatch.call(documents,"Open","d:/test1.doc").toDispatch();//在d盘根目录下指定名为“test1.doc”的文档并且打开它;
Dispatch.call(word,"Run",new Variant("macro1"));//在这个文档上运行宏;除使用java语言实现外,也可借助其他的计算机语言或调用SDK实现上述功能。
当数据录入模块获取到科学公式的原始信息后,会先保存所述科学公式的原始信息。通常情况下,保存科学公式信息的方式是建立数据库,为每个公式分配ID号。利用数据库管理系统的操作管理所存储的科学公式原始信息及转换后的各种格式数据。
然后,转换模块查找数据库中,是否已经保存有本次录入的MathType数据,根据检索的结果对本批次录入的各个科学公式进行不同的处理:
a)如果在数据库中未查找到本次录入的科学公式,则根据本次录入的科学公式的MathType数据,将公式转化为MathML格式的数据。由于MathML数据本质上是XML语言的一个子集,在Windows、Mac OS和Linux平台下具有通用性。因此,通过将包含科学公式信息的数据转化为MathML数据后再进行处理,可以避免科学公式,尤其是包含中文字符科学公式在进行格式转换过程中出现的乱码或转换错误现象。
获得MathML数据后,转换模块按照下列逻辑进行公式格式转换:
如果科学公式数据源为Word文档,则判定需要对数据进行印刷出版,将公式数据转化为Latex格式;
如果科学公式数据源为tex文档,则判定需要对数据在Word等文字编辑软件中进行排版或保存,将公式数据转化为MathType格式。
在获得编辑和印刷两种用途格式的科学公式数据后,本实施例对转换的正确性进行机器审核,审核的步骤如下:
(1)根据Latex数据生成科学公式的bmp图片,并通过ocr识别出bmp图片中的文本信息1。
(2)对MathType数据中包含的wmf位图进行ocr识别,获得文本信息2。
(3)计算文本信息1和文本信息2的最小编辑距离L。
如果L=0,则认为转换成功,为本次录入的科学公式分配ID号,并保存MathType、MathML和latex格式数据。
如果0<L≤0.5,则认为需要人工纠错,在借助人工核对MathType数据和latex数据的公式后,为本次录入的科学公式分配ID号,并保存MathType、MathML和latex格式数据。
如果L>0.5,则认为所输入的科学公式转化失败,重复步骤(1)-(3)的内容。
其中,在人工纠错中,审核员需根据公式转换的错误情况,对所审核的科学公式进行手工修正。
b)如果在数据库中查找到本次录入的科学公式,则需进一步判断该科学公式是否已经进行过审核。根据是否进行过审核的情况,分为两种情况:
b1:已进行过审核:
按照本装置的功能,如果某一公式已进行过审核,则表明该公式已经被审核无误(如审核不通过,按照a)中的流程,需借助人工进行修改或重新进行机器转换,并最终形成核对无误的科学公式),且具有编辑和印刷两种类型的科学公式数据格式。因此可直接返回已录入并通过审核的科学公式ID号。
b2:如已录入但未进行审核,则将所查找的科学数据送至审核模块,按照前述情况a)中的步骤对所查找的科学公式进行审核。
在本发明的目标个实施例中,当用户需要在Word软件中对tex文件中的内容,尤其是科学公式进行编辑时,则需要在录入模块中对tex文件中包含的科学公式信息进行提取。其中,所述tex文件是由排版系统Tex生成的电子文档,其保存格式后缀名为tex。tex文件实质为一种纯文本文件,利用“$”符号对公式数据进行了包裹。与tex文件相关的Latex语言也是基于“$”符号对公式数据的包裹而开发的一种描述性计算机语言。
在录入模块获取了tex文档中包含的科学公式数据后,保存所述科学公式的原始信息。通常情况下,保存科学公式信息的方式是建立数据库,为每个公式分配ID号。利用数据库管理系统的操作管理所存储的科学公式原始信息及转换后的各种格式数据。
转换模块查找数据库中,是否已经保存有本次录入的科学公式,根据检索的结果对本批次录入的各个科学公式进行不同的处理:
a)如果在数据库中未查找到本次录入的科学公式,则转换模块根据tex文档中的公式字符内容,将tex文档中包含的字符科学公式数据转换为MathML格式的数据。然后,转换模块按照MathType数据格式,将MathML数据转换为MathType格式。
由于MathType软件与Windows平台有着良好的兼容性,并且能够嵌入至Word软件中。因此,Latex格式的科学公式数据在经由MathML数据的过渡下,能够被准确转换为与Word软件兼容的MathType数据,避免了中文字符被转换为乱码的问题。
在获得MathML和MathType两种用途格式的科学公式数据后,本实施例对转换的正确性进行机器审核,审核的步骤如下:
(1)根据Latex数据生成科学公式的bmp图片,并通过ocr识别出bmp图片中的文本信息1。
(2)对MathType数据中包含的wmf位图进行ocr识别,获得文本信息2。
(3)计算文本信息1和文本信息2的最小编辑距离L。
如果L=0,则认为转换成功,为本次录入的科学公式分配ID号,并保存MathType、MathML和latex格式数据。
如果0<L≤0.5,则认为需要人工纠错,在借助人工核对MathType数据和latex数据的公式后,为本次录入的科学公式分配ID号,并保存MathType、MathML和latex格式数据。
如果L>0.5,则认为所输入的科学公式转化失败,重复步骤(1)-(3)的内容。
其中,在人工纠错中,审核员需根据公式转换的错误情况,对所审核的科学公式进行手工修正。
b)如果在数据库中查找到本次录入的科学公式,则需进一步判断该科学公式是否已经进行过审核。根据是否进行过审核的情况,分为两种情况:
b1:已进行过审核:
按照本装置的功能,如果某一公式已进行过审核,则表明该公式已经被审核无误(如审核不通过,按照a)中的流程,需借助人工进行修改或重新进行机器转换,并最终形成核对无误的科学公式。),且具有编辑和印刷两种类型的科学公式数据格式。因此可直接返回已录入并通过审核的科学公式ID号。
b2:如已录入但未进行审核,则将所查找的科学数据送至审核模块,按照前述情况a)中的步骤对所查找的科学公式进行审核。
以上对本发明所提供的一种科学公式正确性检验方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书内容不应理解为对本发明技术方案的限制。

Claims (10)

1.一种科学公式正确性检验方法,其特征在于,它包括如下步骤:
获取并识别科学公式,根据科学公式初始数据格式转换为目标数据格式;
判断科学公式是否已经被录入、审核过,如果当前公式未被录入且审核过,则核对初始数据格式所表示的内容与目标数据格式所表示的内容是否一致。
2.根据权利要求1所述的科学公式正确性检验方法,其特征在于,所述“核对初始数据格式所表示的内容与目标数据格式所表示的内容是否一致”包括:
将初始数据格式、目标数据格式渲染为图片;或者,将初始数据格式和/或目标数据格式转换为第三数据格式,由第三数据格式渲染成图片;
将图片中的内容转换为文本;
对比图片转换后的文本差异值,判断差异值是否处于设置的判断结果区间。
3.根据权利要求2所述的科学公式正确性检验方法,其特征在于,所述“渲染成图片”之前还包括:判断图片渲染结果,如渲染成功,则将图片中的内容转换为文本。
4.根据权利要求2或3所述的科学公式正确性检验方法,其特征在于,所述“渲染成图片”包括:获取待审核公式格式的矢量图,将所述矢量图转换为RGB通道的图片;
优选地,所述“获取待审核公式格式的矢量图”包括:SVG数据公式格式转为RGB通道图片,将SVG图像转换为PDF,再将PDF转换为图片。
5.根据权利要求4所述的科学公式正确性检验方法,其特征在于,所述“将图片中的内容转换为文本”包括:采用OCR识别将图片中的内容转换为文本。
6.根据权利要求5所述的科学公式正确性检验方法,其特征在于,所述“对比图片转换后的文本差异值”包括使用最小编辑距离算法进行对比;
优选地,如核对结果为内容不一致时,进行人工纠错。
7.根据权利要求1-6任一所述的科学公式正确性检验方法,其特征在于,所述“根据科学公式初始数据格式转换为目标数据格式”包括:
获取待转换科学公式的初始数据格式和目标数据格式,对待转换公式进行解析,验证内容的合法性;
根据目标数据格式,进行格式转换;
对转换后的公式数据进行格式化,生产统一标准的数据。
8.一种科学公式正确性检验装置,其特征在于,
公式处理模块,所述公式处理模块获取并识别科学公式,根据科学公式初始数据格式转换为目标数据格式;
判断模块,所述判断模块判断科学公式是否已经被录入、审核过,如果当前公式未被录入且审核过,则核对初始数据格式所表示的内容与目标数据格式所表示的内容是否一致;
优选地,还包括纠错模块,当核对内容不一致时,所述纠错模块为人工纠错提供入口。
9.根据权利要求8所述的科学公式正确性检验装置,其特征在于,所述判断模块包括:
第一子模块,所述第一子模块将初始数据格式、目标数据格式渲染为图片;或者,将初始数据格式和/或目标数据格式转换为第三数据格式,由第三数据格式渲染成图片;
第二子模块,所述第二子模块将图片中的内容转换为文本;
第三子模块,所述第三子模块对比图片转换后的文本差异值,判断差异值是否处于设置的判断结果区间。
10.根据权利要求8或9所述的科学公式正确性检验装置,其特征在于,所述公式处理模块包括:内容解析模块、转换模块和格式化模块;
所述内容解析模块:获取待转换的科学公式的初始数据格式和目标数据格式,对公式进行解析,验证内容的合法性;
所述转换模块:设置有转换关系匹配表,依据科学公式转换关系匹配表,结构化公式数据,将初始格式的科学公式数据转换为目标格式;
所述格式化模块:用于格式化公式数据,生产统一标准的数据。
CN201911360663.3A 2019-12-25 2019-12-25 一种科学公式正确性检验方法和装置 Pending CN111046637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911360663.3A CN111046637A (zh) 2019-12-25 2019-12-25 一种科学公式正确性检验方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911360663.3A CN111046637A (zh) 2019-12-25 2019-12-25 一种科学公式正确性检验方法和装置

Publications (1)

Publication Number Publication Date
CN111046637A true CN111046637A (zh) 2020-04-21

Family

ID=70239851

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911360663.3A Pending CN111046637A (zh) 2019-12-25 2019-12-25 一种科学公式正确性检验方法和装置

Country Status (1)

Country Link
CN (1) CN111046637A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040141192A1 (en) * 2003-01-17 2004-07-22 Rodolfo Jodra Proof-document formatting to enable full-capability remote proofing in a completely standard proofing station
CN104408020A (zh) * 2014-10-30 2015-03-11 北京思特奇信息技术股份有限公司 一种公式解析计算系统及方法
CN106294480A (zh) * 2015-06-04 2017-01-04 北京新唐思创教育科技有限公司 一种文件格式转换方法、装置及试题导入系统
CN106537402A (zh) * 2014-08-01 2017-03-22 索尼公司 内容格式转换验证
CN108920437A (zh) * 2018-07-12 2018-11-30 中国工程物理研究院计算机应用研究所 基于xsl将xml文档转换为html格式文档的方法
CN109543614A (zh) * 2018-11-22 2019-03-29 厦门商集网络科技有限责任公司 一种全文本差异比对方法及设备
CN111079385A (zh) * 2019-12-25 2020-04-28 小船出海教育科技(北京)有限公司 一种科学公式格式转换的方法和装置
CN111126006A (zh) * 2019-12-25 2020-05-08 小船出海教育科技(北京)有限公司 导出带MathType公式的Word文档方法、装置、电子设备及存储介质
CN111144071A (zh) * 2019-12-25 2020-05-12 小船出海教育科技(北京)有限公司 一种跨平台的MathType公式转换方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040141192A1 (en) * 2003-01-17 2004-07-22 Rodolfo Jodra Proof-document formatting to enable full-capability remote proofing in a completely standard proofing station
CN106537402A (zh) * 2014-08-01 2017-03-22 索尼公司 内容格式转换验证
CN104408020A (zh) * 2014-10-30 2015-03-11 北京思特奇信息技术股份有限公司 一种公式解析计算系统及方法
CN106294480A (zh) * 2015-06-04 2017-01-04 北京新唐思创教育科技有限公司 一种文件格式转换方法、装置及试题导入系统
CN108920437A (zh) * 2018-07-12 2018-11-30 中国工程物理研究院计算机应用研究所 基于xsl将xml文档转换为html格式文档的方法
CN109543614A (zh) * 2018-11-22 2019-03-29 厦门商集网络科技有限责任公司 一种全文本差异比对方法及设备
CN111079385A (zh) * 2019-12-25 2020-04-28 小船出海教育科技(北京)有限公司 一种科学公式格式转换的方法和装置
CN111126006A (zh) * 2019-12-25 2020-05-08 小船出海教育科技(北京)有限公司 导出带MathType公式的Word文档方法、装置、电子设备及存储介质
CN111144071A (zh) * 2019-12-25 2020-05-12 小船出海教育科技(北京)有限公司 一种跨平台的MathType公式转换方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张婷: "网络数学公式转换的研究与实现", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 12, 15 December 2009 (2009-12-15), pages 138 - 72 *

Similar Documents

Publication Publication Date Title
US7315867B2 (en) Document processing apparatus, document processing method, document processing program, and recording medium
CN101443790B (zh) 数字图像中的非回流内容的有效处理
RU2358311C2 (ru) Документ текстовой обработки, хранящийся в едином файле xml, которым могут манипулировать приложения, понимающие язык xml
US20160055376A1 (en) Method and system for identification and extraction of data from structured documents
US20060285746A1 (en) Computer assisted document analysis
CN108595389A (zh) 一种将Word文档转换为txt纯文本文档的方法
US20070150494A1 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
US9286272B2 (en) Method for transformation of an extensible markup language vocabulary to a generic document structure format
CN116740723A (zh) 一种基于开源Paddle框架的PDF文档识别方法
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
CN112418813B (zh) 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质
CN113723063A (zh) 一种rtf转html并在pdf文件实现效果的方法
CN113626561A (zh) 一种元器件的型号识别方法、装置、介质和设备
CN111079385A (zh) 一种科学公式格式转换的方法和装置
CN111046637A (zh) 一种科学公式正确性检验方法和装置
CN113283231B (zh) 获取签章位的方法、设置系统、签章系统及存储介质
CN108984676B (zh) 一种基于xml的电子书跨终端自适应显示系统及方法
CN112965772A (zh) web页面显示方法、装置和电子设备
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质
CN116563872B (zh) 一种基于深度学习的图表提取方法及系统
Dudczak et al. Creation of custom recognition profiles for historical documents
US11416671B2 (en) Device dependent rendering of PDF content
CN113627134A (zh) 数据标注系统及数据标注方法
CN112800719A (zh) 一种电子文档结构化方法
CN115390773A (zh) 档号标签生成方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination