CN113326675A - 一种用于教育资源库的公式处理方法及系统 - Google Patents

一种用于教育资源库的公式处理方法及系统 Download PDF

Info

Publication number
CN113326675A
CN113326675A CN202110889179.0A CN202110889179A CN113326675A CN 113326675 A CN113326675 A CN 113326675A CN 202110889179 A CN202110889179 A CN 202110889179A CN 113326675 A CN113326675 A CN 113326675A
Authority
CN
China
Prior art keywords
formula
format
latex
editor
style
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110889179.0A
Other languages
English (en)
Other versions
CN113326675B (zh
Inventor
郑文娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Wind Vane Intelligent Technology Co ltd
Original Assignee
Jiangxi Vaneducation Technology Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Vaneducation Technology Inc filed Critical Jiangxi Vaneducation Technology Inc
Priority to CN202110889179.0A priority Critical patent/CN113326675B/zh
Publication of CN113326675A publication Critical patent/CN113326675A/zh
Application granted granted Critical
Publication of CN113326675B publication Critical patent/CN113326675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及一种用于教育资源库的公式处理方法及系统,所述方法包括以下步骤:公式的识别;将识别的公式转化为Latex表达式,将Latex格式转化为高分辨率且背景为透明的图片;构造编辑器,所述构造编辑器基于Latex表达式在线实时编辑;在线编辑纠错提示;编辑完成后,按接收的风格样式要求,返回图片,并保存编辑后的Latex格式;在需要导出Word文档时,将选取题目中公式的Latex格式转化为Office Word中自带编辑器所需格式或Mathtype编辑器所需格式。本发明通过实现对录入公式的在线编辑及实时渲染,便利了入库题目的在线更改,增加题库建设的效率;渲染效果可以自定义设置,且分辨率高,大大增加了用户体验,也提高了公式应用效果。

Description

一种用于教育资源库的公式处理方法及系统
技术领域
本发明涉及计算机信息处理技术领域,尤其涉及一种用于教育资源库的公式处理方法及系统。
背景技术
目前在题库建设领域,公式的处理与在线上系统的展示是录题工作的重难点,现有技术中常用的做法有三种,第一种是将公式转为图片,再上传到题库,公式在题库中则以图片形式进行展示。第二种是基于数学公式标记语言MathML来显示数学公式。第三种是利用MathJax数学符号渲染引擎来在浏览器中显示数学公式。
但这三种方法均没有考虑到从公式录入到在线编辑及导出的整个流程的一个可编辑的处理。这样对于题库系统中的试题,如果用户无法有效编辑,无法兼容在各个设备端上的显示,且经试题组卷后下载下来的Word文档公式显示有问题,也无法实现对公式进行二次编辑,就会造成用户体验不佳。
现有技术中采用的将公式转换为图片时,常常存在分辨率低、风格样式不太好看、且无法调整的缺点,影响整个文本的美观协调性。而 MathML标记的数学公式则需要支持MathML的浏览器中才可以显示,无法兼容在各个设备端上的显示,且不易人工编辑。MathJax虽然可以在很多浏览器中用来显示数学公式,但不易在题库系统试题编辑时再次修改操作,且经MathJax渲染公式的试题也无法直接导出到Word中正常显示且能再次编辑公式。
另外虽然网上存在可在线编辑公式的小插件,但还存在很多公式无法编辑的情况,且渲染效果比较差,无法达到精良题库建设要求。
发明内容
本发明的目的在于提供一种用于教育资源库的公式处理方法及系统,实现对录入公式的在线编辑及实时渲染,渲染效果、分辨率都可以自定义设置,且当编辑时出现错误会有纠错提示,实现对用户组卷后的试题下载下来的文档既保证公式显示正常且可以再次对其动态编辑,可以解决背景技术中的问题,使公式从录入到在线编辑及导出的整个流程中都处于可编辑的状态,且在各个设备端兼容性均较好,不需要增加额外的开发成本,既节约了成本,提高了题库建设的效率,也提升了用户的体验效果。
为了解决上述技术问题,本发明提供的用于教育资源库的公式处理方法及系统的技术方案具体如下:
本发明实施例公开了一种用于教育资源库的公式处理方法,所述方法包括以下步骤:
第一方面,步骤1,公式的识别,其包括从Word、pdf、图片中提取公式,针对自动录题过程中各种格式的试卷,如Word、pdf、图片等格式,需要将试卷中的公式转化为Latex表达式或域代码格式,同时将公式转为清晰的图片,先初步设置一种默认的入库题目中公式渲染风格,如dpi设为800,背景设为透明,字号设置为5号字体等;
步骤2,将识别的公式转化为Latex表达式,将Latex格式转化为高分辨率且背景为透明的图片;
步骤3,构造编辑器,所述构造编辑器基于Latex表达式在线实时编辑;
步骤4,在线编辑纠错提示;
步骤5,编辑完成后按接收的风格样式要求,返回图片,并保存编辑后的Latex格式;
步骤6,在需要导出Word文档时,将选取题目中公式的Latex格式转化为OfficeWord中自带编辑器所需格式或Mathtype编辑器所需格式。
在上述任一方案中优选的是,将试卷中的公式转化为Latex表达式或域代码格式的处理方法,包括从Word中提取Mathtype公式、OMML公式、域公式等,这三种公式基本囊括了Word中常出现的公式格式。其中对于Mathtype公式、OMML公式,采取转为Latex格式的处理方案,而对于域公式则从Word底层自动获取其域代码。同时,将这三种公式再转为图片,由于此三种公式的格式差异比较大,考虑自身格式特点及转化速度、准确率、稳定性等要求分别采取不同的方法进行转化操作,比如图片转化工具、Latex渲染、复制粘贴、公式识别与切割等。
在上述任一方案中优选的是,将试卷中的公式转化为Latex表达式或域代码格式的处理方法,包括通过图像识别技术对pdf、图片类试卷中的公式进行定位并切割出来,同时识别为Latex格式,或将公式直接识别为Latex,再将Latex渲染为图片。
在上述任一方案中优选的是,公式的识别包括以下步骤:
步骤11,预处理,所述预处理包括对Word、pdf、图片中的公式进行噪声滤除、图像倾斜矫正和图像二值化,其中,所述噪声滤除包括以下步骤:利用中值滤波器处理图像对图像中的任意一点
Figure 227078DEST_PATH_IMAGE001
将以该点为中心设计中值滤波器窗口
Figure 754005DEST_PATH_IMAGE002
,然后对窗口内像素点按从小到大的顺序进行排列,取排列中值作为
Figure 851186DEST_PATH_IMAGE001
点的滤波结果,即
Figure 184078DEST_PATH_IMAGE003
其中
Figure 936134DEST_PATH_IMAGE004
,为滤波器处理后的图像,
Figure 194815DEST_PATH_IMAGE002
为以
Figure 133952DEST_PATH_IMAGE001
点为中心的圆形邻域,
Figure 457486DEST_PATH_IMAGE005
为输入图像,中值滤波器对Word、pdf、图片中的噪声有很好的去噪效果。
在上述任一方案中优选的是,所述的用于教育资源库的公式处理方法,为了方便对Word、pdf、图片中的噪声去噪,因此还需要对Word、pdf、图片中噪声进行检测,其中,噪声检测的步骤:
1)以任意一个像素点
Figure 562583DEST_PATH_IMAGE001
为中心创建一个
Figure 431313DEST_PATH_IMAGE006
的检测窗口,其中,
Figure 654484DEST_PATH_IMAGE007
为半径,取值4cm;
2)检测窗口内中心像素的灰度值:如果其灰度值为0或255,则此像素点被标记为疑似噪声点,如果其灰度值为其他值,则此点被标记为正常图像点;
3)对疑似像素点继续进行分析:在疑似像素点的窗口内(
Figure 493958DEST_PATH_IMAGE008
),计算灰度值为0或255的像素点个数N,依据已知椒盐噪声的密度,设置一个阈值T,阈值的选择随着噪声密度的增加而增加。
步骤12,公式的定位,公式的定位包括独立公式定位和内嵌公式定位,独立公式是指单独位于一行的数学公式,内嵌公式是指与其它文字共存于一行的数学公式,独立公式与普通文字行在版式上存在较大差异,很多内嵌公式也包含根式、分式、上、下标等二维结构,根据这些版式结构上的区别,不需要利用识别信息就可以定位独立公式以及部分内嵌公式,因为二维结构会影响针对一维结构设计的字符切分和识别算法,所以必须在识别前定位出这些公式。
在上述任一方案中优选的是,所述的用于教育资源库的公式处理方法,还包括将定位到的公式进行字符切分,即把公式分割成独立的字符,以便后续提取各字符的特征进行匹配识别,常用的字符切分方法有投影法和连通域法,投影法是在水平或垂直方向上对字符进行纵向或横向扫描来得到目标的累积直方图,然后利用直方图的分布规律确定切分化,连通域法是基于字符笔画之间的连通性,查找彼此连通的像素点,这些像素点构成的集合就是一个字符。
步骤13,公式的识别,其包括从定位的Word、pdf、图片中提取公式;基于图像ocr技术识别pdf和图片中的公式;利用第三方工具提取Word中的公式,公式的识别其包括字符切分和字符识别两个部分,其中,字符包括正体英文字母、斜体英文字母、数字、标点、希腊字母、运算符号和关系符号等等,识别单个符号时,采用统计特征与结构特征相结合,先粗识别再验证,粗识别利用的是统计特征,候选验证利用的是结构特征,在粗识别阶段,计算待识别符号的特征与所有标准符号的特征之间的距离,选择若干距离最小的符号作为候选识别结果,在验证阶段,使用反映候选字之间差异的特征点序列去匹配待识别符号,具有最少失配点的候选字就是识别结果,识别整个公式时,首先用连通体分析的方法得到孤立的字符块,并识别每个字符块,识别可信度很低的符号就怀疑是粘连字符块,对于粘连字符块,沿着竖直、正对角线、水平、反对角线四个方向,计算像素投影,并寻找上轮廓的下凹点和下轮廓的上凸点,然后遍历所有可能的切分路径,根据识别结果确定最佳切分方式。
在上述任一方案中优选的是,对于公式识别来说,确定供识别用的数学公式字符集是必须的,其中,用人工的方法统计出在数学公式中出现的字符与符号以及它们出现的频率,然后筛选出作为经常使用的数学公式字符和符号集。
在上述任一方案中优选的是,所述的用于教育资源库的公式处理方法,还包括对字符特征的提取,对公式字符进行归一化处理后,得到清晰、大小一致的字符点阵图像,提取点阵图像的宽高比、孔洞数、网格特征和穿越线特征构成特征向量。
在上述任一方案中优选的是,对于处理好后的试卷自动录入题库时,公式在题库中以图片格式进行展示,而Latex格式或域代码格式作为其属性信息,并用特殊记号进行标识。支持Latex格式和域代码格式可以方便熟悉Latex语法和熟悉域代码语法的用户可以按自己所长选择进行编辑,适用性更广。域公式是Word中早期版本就出现的一种公式格式,目前高版本Word也支持。
在上述任一方案中优选的是,在步骤3中,构造编辑器,基于Latex表达式和域代码在线实时编辑,构造一种在线编辑器工具作为插件应用在题库系统中,包含“输入框”、“分辨率”、“字体”、“颜色”、“大小”、“输出格式”及“加粗”、“斜体”等风格样式以及键盘不易输入的一些复杂数学符号等,输出格式包含png、jpg、jpeg、bmp、gif等。
在上述任一方案中优选的是,在步骤4中,在线编辑纠错提示,给入库试题中的公式定义点击事件,在线编辑工具根据鼠标点击位置触发,自动弹出编辑输入框,输入框里根据当前公式属性类别显示当前公式的Latex表达式或域代码,编辑完点击确定按钮,若不想保存可点击取消按钮。在线编辑工具连接公式纠错系统,公式纠错系统连接公式渲染系统。确定按钮被点击后触发编辑输入框的文本直接发送到公式纠错系统进行错误判断,并将编辑器中其他被用户选中的按钮中的信息参数发送到公式渲染系统暂存。没有纠错提示时,公式纠错系统则将文本继续发送到公式渲染系统,与渲染系统暂存池中的风格样式及输出格式等信息参数一起作为输入参数进行定向渲染操作。渲染完以选定的图片格式进行输出,并保存到用户可访问的地址上,同时将本公式编辑后的新Latex文本或域代码替换原来的属性信息。
在上述任一方案中优选的是,公式纠错系统基于深度学习模型利用大量公式样本训练完成的一个自动化公式纠错系统,纠错完后返回一个错误提示以及一个供用户参考的正确的Latex表达式或域代码格式。
在上述任一方案中优选的是,公式被再次编辑时,若编辑器中的复杂数学符号选框被选中时则自动显示该符号的Latex或域代码格式框架,并以特殊标记来指导数字编辑及填充部位,比如分式结构被选中,如果本公公式的原始属性信息类别是Latex,则输出\frac{}{},其中“{}”用一些特殊标记如颜色、小框框等来引导输入。如果本公式的原始属性信息类别是域代码,则输出\f( , ),其中空格部分可以用小框框来引导输入。
在上述任一方案中优选的是,对于初始的不同属性类别的公式,在二次编辑时,可以重新选择另外一种格式进行编辑。这里的公式属性类别主要包含Latex格式和域代码等两种格式。用户按照自己需要选定其中一种格式进行编辑,公式纠错系统和公式渲染系统自动根据文本判断公式的类别再进行对应的纠错和渲染操作。
在上述任一方案中优选的是,在将题库中的试题导出Word文档时,若选取的题目中公式类别属于Latex格式,则将其Latex格式转化为Office Word中自带编辑器所需格式或Mathtype编辑器所需格式。若选取的题目中公式类别属于域代码格式,则将其域代码转化为Office Word中的公式域对象。
在上述任一方案中优选的是,选取题库中的试题进行组卷后可选择导出为Word文档,在导出Word文档时若试题含有Latex格式的公式类别则有2个针对公式的格式选择:Office Word公式和Mathtype公式。Office Word自带公式是由Equation Editor 6.0创建的OMML公式。导出为Mathtype公式则要求用户本地电脑需额外安装有Mathtype软件,才能对导出的试题中的公式再通过Mathtype进行编辑。按所选公式格式要求生成所选试题的Word文档,供用户下载。
在上述任一方案中优选的是,导出Word文档时,若试题中含有公式,则将公式先导入格式转换系统。若公式类型是Latex,选择“Office Word公式”时,则将公式的Latex格式转化为OMML格式;选择“Mathtype公式”时,则将公式的Latex格式转换为Mathtype兼容的对象。若公式类型是域代码格式,则将其域代码默认转化为Office Word中的公式域对象。导出的Word试卷,用户不仅可以继续编辑试题文字部分,还能编辑公式部分,提升了用户的体验效果。而且对于含公式的学科试题,从入库到在线编辑及下载使用的整个过程中形成了一个可以对公式进行再次编辑操作的良性闭环。
在上述任一方案中优选的是,题库中保存公式的Latex表达式或域代码,而不是OMML格式或MML格式的目的是Latex表达式和域代码的字符串文本显示相对比较简单,且足以区分开不同的公式,对后续针对含公式试题的一些字符类文本处理工作如题目查重、分类、标注等提供了更便利的可操作性,这是智能题库的重要基础。
在上述任一方案中优选的是,通过实现对录入公式的在线编辑及实时渲染,便利了入库题目的在线更改,增加题库建设的效率;渲染效果可以自定义设置,大大提升了用户体验,提高了公式应用效果;在线公式编辑的纠错提示使得入库公式的格式更加规范,为后面从题库下载的Word文档可以再次编辑公式提供了基础,提高了后续的可操作性;从带公式的题目上传到题库在线编辑再到最后用户下载后还可以对公式再次编辑,形成了一个有效的公式上传、下载并始终保持可编辑状态的闭环,对题库建设和试题产品应用都带来了很大的便利,也大大增加了用户的体验。
第二方面,一种用于教育资源库的公式处理系统,包括:
识别模块,用于公式的识别,其包括从定位的Word、pdf、图片中提取公式;
转换模块,用于将识别的公式转化为Latex表达式,将Latex格式转化为高分辨率且背景为透明的图片;
构造模块,用于构造编辑器,所述构造编辑器基于Latex表达式在线实时编辑;
纠错模块,用于在线编辑纠错提示;
保存模块,用于编辑完成后,按接收的风格样式要求,返回图片,并保存编辑后的Latex格式;
导出模块,用于在需要导出Word文档时,将选取题目中公式的Latex格式转化为Office Word中自带编辑器所需格式或Mathtype编辑器所需格式。
本发明与现有技术相比,具有如下有益效果:通过实现对录入公式的在线编辑及实时渲染,便利了入库题目的在线更改,增加题库建设的效率;渲染效果可以自定义设置,且分辨率高,大大增加了用户体验,也提高了公式应用效果;在线公式编辑的纠错提示使得入库公式的格式更加规范,为后面从题库下载的Word文档可以再次编辑公式提供了基础,提高了后续的可操作性;从带公式的题目上传到题库在线编辑再到最后用户下载后还可以对公式再次编辑,形成了一个有效的公式上传、下载并始终保持可编辑状态的闭环,对题库建设和试题产品应用都带来了很大的便利,也大大增加了用户的体验。
附图说明
附图用于对本发明的进一步理解,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
图1是用于教育资源库的公式处理方法流程示意图。
图2是用于教育资源库的公式处理系统结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了更好地理解上述技术方案,下面将结合说明书附图及具体实施方式对本发明技术方案进行详细说明。
实施例:
第一方面,如图1所示,本发明实施例公开了一种用于教育资源库的公式处理方法,所述方法包括以下步骤:
步骤1,公式的识别,其包括从Word、pdf、图片中提取公式;
步骤2,将识别的公式转化为Latex表达式,将Latex格式转化为高分辨率且背景为透明的图片;针对自动录题过程中各种格式的试卷,如Word、pdf、图片等格式,需要将试卷中的公式转化为Latex表达式或域代码格式,同时将公式转为清晰的图片,先初步设置一种默认的入库题目中公式渲染风格,如dpi设为800,背景设为透明,字号设置为5号字体等;
步骤3,构造编辑器,所述构造编辑器基于Latex表达式在线实时编辑;
步骤4,在线编辑纠错提示;
步骤5,编辑完成后,按接收的风格样式要求,返回图片,并保存编辑后的Latex格式;
步骤6,在需要导出Word文档时,将选取题目中公式的Latex格式转化为OfficeWord中自带编辑器所需格式或Mathtype编辑器所需格式。
在本发明步骤1中,公式的识别包括以下步骤:
步骤11,预处理,所述预处理包括对Word、pdf、图片中的公式进行噪声滤除、图像倾斜矫正和图像二值化,其中,所述噪声滤除包括以下步骤:利用中值滤波器处理图像对图像中的任意一点
Figure 627130DEST_PATH_IMAGE001
将以该点为中心设计中值滤波器窗口
Figure 227614DEST_PATH_IMAGE002
,然后对窗口内像素点按从小到大的顺序进行排列,取排列中值作为
Figure 203660DEST_PATH_IMAGE001
点的滤波结果,即
Figure 416467DEST_PATH_IMAGE003
其中
Figure 997621DEST_PATH_IMAGE004
,为滤波器处理后的图像,
Figure 503426DEST_PATH_IMAGE002
为以
Figure 170031DEST_PATH_IMAGE001
点为中心的圆形邻域,
Figure 186528DEST_PATH_IMAGE005
为输入图像,中值滤波器对Word、pdf、图片中的噪声有很好的去噪效果。
在本发明实施例所述的用于教育资源库的公式处理方法中,为了方便对Word、pdf、图片中的噪声去噪,因此还需要对Word、pdf、图片中噪声进行检测,其中,噪声检测的步骤:
1)以任意一个像素点
Figure 356610DEST_PATH_IMAGE001
为中心创建一个
Figure 298896DEST_PATH_IMAGE006
的检测窗口,其中,
Figure 187217DEST_PATH_IMAGE007
为半径,取值为4cm;
2)检测窗口内中心像素的灰度值:如果其灰度值为0或255,则此像素点被标记为疑似噪声点,如果其灰度值为其他值,则此点被标记为正常图像点;
3)对疑似像素点继续进行分析:在疑似像素点的窗口内(
Figure 866460DEST_PATH_IMAGE008
),计算灰度值为0或255的像素点个数N,依据已知椒盐噪声的密度,设置一个阈值T,阈值的选择随着噪声密度的增加而增加。
步骤12,公式的定位,公式定位包括独立公式定位和内嵌公式定位,独立公式是指单独位于一行的数学公式,内嵌公式是指与其它文字共存于一行的数学公式,独立公式与普通文字行在版式上存在较大差异,很多内嵌公式也包含根式、分式、上、下标等二维结构,根据这些版式结构上的区别,不需要利用识别信息就可以定位独立公式以及部分内嵌公式,因为二维结构会影响针对一维结构设计的字符切分和识别算法,所以必须在识别前定位出这些公式。
在本发明实施例所述的用于教育资源库的公式处理方法中,还包括将定位到的公式进行字符切分,即把公式分割成独立的字符,以便后续提取各字符的特征进行匹配识别,常用的字符切分方法有投影法和连通域法,投影法是在水平或垂直方向上对字符进行纵向或横向扫描来得到目标的累积直方图,然后利用直方图的分布规律确定切分化,连通域法是基于字符笔画之间的连通性,查找彼此连通的像素点,这些像素点构成的集合就是一个字符。
步骤13,公式的识别,包括从定位的Word、pdf、图片中提取的公式,将Word、pdf、图片中的公式符号提取出来,并转化为Latex格式;基于图像ocr技术识别pdf和图片中的公式;利用第三方工具提取Word中的公式,公式的识别其包括字符切分和字符识别两个部分,其中,字符包括正体英文字母、斜体英文字母、数字、标点、希腊字母、运算符号和关系符号等等,识别单个符号时,采用统计特征与结构特征相结合,先粗识别再验证,粗识别利用的是统计特征,候选验证利用的是结构特征,在粗识别阶段,计算待识别符号的特征与所有标准符号的特征之间的距离,选择若干距离最小的符号作为候选识别结果,在验证阶段,使用反映候选字之间差异的特征点序列去匹配待识别符号,具有最少失配点的候选字就是识别结果,识别整个公式时,首先用连通体分析的方法得到孤立的字符块,并识别每个字符块,识别可信度很低的符号就怀疑是粘连字符块,对于粘连字符块,沿着竖直、正对角线、水平、反对角线四个方向,计算像素投影,并寻找上轮廓的下凹点和下轮廓的上凸点,然后遍历所有可能的切分路径,根据识别结果确定最佳切分方式。
在本发明实施例所述的用于教育资源库的公式处理方法中,对于公式识别来说,确定供识别用的数学公式字符集是必须的,其中,用人工的方法统计出在数学公式中出现的字符与符号以及它们出现的频率,然后筛选出作为经常使用的数学公式字符和符号集,其中,在实际的应用当中,主要使用了以下常用字符和符号集包括:
1)公式中常用字符包括:
①10个阿拉伯数字:0,1,2,3,4,5,6,7,8,9;
②罗马数字:Ⅰ,Ⅱ,Ⅲ,Ⅳ,Ⅴ,Ⅵ,Ⅶ,Ⅷ,Ⅸ,Ⅹ;
③大小写英文字母:
a,b,c,d,e,f,g,h,i,j,k,l,m,n,o,p,q,r,s,t,u,v,w,x,y,z;A,B,C,D,E,F,G,H,i,j,K,L,M,N,O,P,Q,R,S,T,U,V,W,X,Y,Z;
④部分希腊字母:α,β,γ,δ,ε,ζ,η,θ,ι,λ,μ,ξ,π,ρ,σ,τ,φ,ω,ψ,χ,Δ,Σ,χ,Π;
2)公式中的数学常用运算符号和表示符号包括:
①初等数学符号:
运算符号:+,-,×,÷,/,﹪,±,∪,∩等;
表示符号:<,>,≤,≥,=,≠,≈,≡,≮,≯,∷,∧,∨,∈,⊥,∠,≌,∽,∵,∴,∥,⊙,Rt,sin,cos,tan,cot,
sec,csc,arcsin,arccos,arctan,arccot,ch,sh等。
②高等数学符号:
运算符号:dy,dx,Δy,Δx,δy等;
表示符号:∑,∏,∫,∮,f,∈,∝,∞,lim,sup,inf,[],max,min,lim等。
在本发明实施例所述的用于教育资源库的公式处理方法中,还包括对字符特征的提取,对公式字符进行归一化处理后,得到清晰、大小一致的字符点阵图像,提取点阵图像的宽高比、孔洞数、网格特征和穿越线特征构成特征向量。
在本发明步骤2中,将识别的公式转化为Latex表达式,将Latex格式转化为高分辨率且背景为透明的图片,这是初步默认设置的一种入库题目渲染风格,也可以设置为其他风格。
在本发明步骤3中,构造编辑器,基于Latex表达式在线实时编辑,根据Latex格式转化的高分辨率且背景为透明的图片,构造一种在线编辑器工具,包含“输入框”、“分辨率”、“字体”、“颜色”、“大小”、“输出格式”及“加粗”、“斜体”等风格样式以及键盘不好输入的一些复杂数学符号等,输出格式包含png、jpg、jpeg、bmp、gif等。
在本发明步骤4中,在线编辑纠错提示,在线编辑工具根据鼠标点击位置触发,并检测周边是否含有工具,如有则弹出输入框,输入框里显示当前公式的Latex表达式,编辑完触发完成按钮,编辑器将输入框的文本先发送到公式纠错系统,该公式纠错系统基于深度学习利用大量公式样本训练完成的一个自动化公式纠错系统,纠错完并返回一个提示供用户参考。没有纠错提示时则将文本继续发送到公式渲染系统,同时渲染系统也接收在线编辑器中选中的风格样式及输出格式要求等,作为公式渲染系统输入参数,最后输出图片,并保存修改的Latex表达式文本。若编辑器中的复杂数学符号选框被选中时则自动显示该符号的Latex格式框架,指导编辑格式及部位。
在本发明步骤5中,编辑完成后,按接收的风格样式要求,返回图片,并保存编辑后的Latex格式,公式渲染系统利用Latex排版工具,先生成tex文件,再编译为dvi格式,最后生成所需图片格式。各种风格样式的自定义设置则在tex文件中自动编辑所需风格样式。
在本发明步骤6中,在需要导出Word文档时,将选取题目中公式的Latex格式转化为Office Word中自带编辑器所需格式或Mathtype编辑器所需格式,题库中带公式题目可导出为Word文档,在导出时有2个针对公式的格式选择:Office Word公式和Mathtype公式。Office Word自带公式是由Equation Editor 6.0创建的OMML公式。导出为Mathtype公式要求本地电脑需额外安装有Mathtype软件。Mathtype软件编辑公式体验效果要比Word自带公式好很多,特别是对复杂公式的编辑及风格样式设置,Mathtype编辑很方便。这样对从题库中组卷后下载为Word文档还能二次编辑公式,对用户体验效果很好,也形成了公式从输入到线上再到导出的时时可操作的一个良性的闭环。
将带公式题目导出为Word文档选择“Office Word公式”时,将公式的Latex格式转化为OMML公式,选择“Mathtype公式”时,则将公式的Latex格式转换为Mathtype兼容的格式属性。
题库中保存公式的Latex表达式,而不是OMML格式或MML格式(MML格式也可以转为OMML格式)的目的是Latex表达式的字符串文本显示相对比较简单,对后续基于带公式题目做的一些字符类文本处理工作如题目查重、分类、标注等提供了更便利的可操作性,这是智能题库的重要基础。且Latex表达式是一种强大的符号排版格式,目前相关技术比较成熟,基于Latex转化为图片效果好且速度快。
第二方面,如图2所示,一种用于教育资源库的公式处理系统,包括:
识别模块,用于公式的识别,其包括从定位的Word、pdf、图片中提取公式;
转换模块,用于将识别的公式转化为Latex表达式,将Latex格式转化为高分辨率且背景为透明的图片;
构造模块,用于构造编辑器,所述构造编辑器基于Latex表达式在线实时编辑;
纠错模块,用于在线编辑纠错提示;
保存模块,用于编辑完成后,接收的风格样式要求,返回图片,并保存编辑后的Latex格式;
导出模块,用于在需要导出Word文档时,将选取题目中公式的Latex格式转化为Office Word中自带编辑器所需格式或Mathtype编辑器所需格式。
本发明通过实现对录入公式的在线编辑及实时渲染,便利了入库题目的在线更改,增加题库建设的效率;渲染效果可以自定义设置,且分辨率高,大大增加了用户体验,也提高了公式应用效果;在线公式编辑的纠错提示使得入库公式的格式更加规范,为后面从题库下载的Word文档可以再次编辑公式提供了基础,提高了后续的可操作性;从带公式的题目上传到题库在线编辑再到最后用户下载后还可以对公式再次编辑,形成了一个有效的公式上传、下载并始终保持可编辑状态的闭环,对题库建设和试题产品应用都带来了很大的便利,也大大增加了用户的体验。
以上仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于教育资源库的公式处理方法,其特征在于:所述方法包括以下步骤:
公式的识别,其包括从Word、pdf、图片中提取公式;
将识别的公式转化为Latex表达式,将Latex格式转化为高分辨率且背景为透明的图片;
构造编辑器,所述构造编辑器基于Latex表达式在线实时编辑;
在线编辑纠错提示;
编辑完成后,按接收的风格样式要求,返回图片,并保存编辑后的Latex格式;
在需要导出Word文档时,将选取题目中公式的Latex格式转化为Office Word中自带编辑器所需格式或Mathtype编辑器所需格式。
2.根据权利要求1所述的用于教育资源库的公式处理方法,其特征在于:所述构造编辑器包括根据Latex格式转化的高分辨率且背景为透明的图片,构造一种在线编辑器工具,在线编辑器工具内包含“输入框”、“分辨率”、“字体”、“颜色”、“大小”、“输出格式”及“加粗”、“斜体”风格样式以及复杂数学符号,输出格式包含png、jpg、jpeg、bmp、gif。
3.根据权利要求2所述的用于教育资源库的公式处理方法,其特征在于:所述在线编辑器工具根据鼠标点击位置触发,并检测周边是否含有工具,如有则弹出输入框,输入框里显示当前公式的Latex表达式,编辑完触发完成按钮,编辑器将输入框的文本先发送到公式纠错系统,该公式纠错系统基于深度学习利用大量公式样本训练完成的一个自动化公式纠错系统,纠错完并返回一个提示供用户参考。
4.根据权利要求3所述的用于教育资源库的公式处理方法,其特征在于:若没有纠错提示时,则将文本继续发送到公式渲染系统,同时渲染系统也接收在线编辑器中选中的风格样式及输出格式要求,作为公式渲染系统输入参数,输出图片,并保存修改的Latex表达式文本;若编辑器中的复杂数学符号选框被选中时则自动显示该符号的Latex格式框架,指导编辑格式及部位。
5.根据权利要求4所述的用于教育资源库的公式处理方法,其特征在于:公式渲染系统利用Latex排版工具,先生成tex文件,再编译为dvi格式,最后生成所需图片格式,风格样式的自定义设置则在tex文件中自动编辑所需风格样式。
6.根据权利要求5所述的用于教育资源库的公式处理方法,其特征在于:题库中带公式题目可导出为Word文档,在导出时有2个针对公式的格式选择:Office Word公式和Mathtype公式,Office Word自带公式是由Equation Editor 6.0创建的OMML公式,导出为Mathtype公式要求本地电脑需额外安装有Mathtype软件。
7.根据权利要求6所述的用于教育资源库的公式处理方法,其特征在于:将带公式题目导出为Word文档选择“Office Word公式”时,将公式的Latex格式转化为OMML公式,选择“Mathtype公式”时,则将公式的Latex格式转换为Mathtype兼容的格式属性。
8.根据权利要求7所述的用于教育资源库的公式处理方法,其特征在于:包括对字符特征的提取,其包括,对公式字符进行归一化处理后,得到清晰、大小一致的字符点阵图像,提取点阵图像的宽高比、孔洞数、网格特征和穿越线特征构成特征向量。
9.根据权利要求8所述的用于教育资源库的公式处理方法,其特征在于:公式的识别其包括字符识别,采用统计特征与结构特征相结合,先粗识别再验证,计算待识别符号的特征与所有标准符号的特征之间的距离,选择若干距离最小的符号作为候选识别结果。
10.一种用于教育资源库的公式处理系统,其特征在于:包括:
识别模块,用于公式的识别,其包括从定位的Word、pdf、图片中提取公式;
转换模块,用于将识别的公式转化为Latex表达式,将Latex格式转化为高分辨率且背景为透明的图片;
构造模块,用于构造编辑器,所述构造编辑器基于Latex表达式在线实时编辑;
纠错模块,用于在线编辑纠错提示;
保存模块,用于编辑完成后,按接收的风格样式要求,返回图片,并保存编辑后的Latex格式;
导出模块,用于在需要导出Word文档时,将选取题目中公式的Latex格式转化为OfficeWord中自带编辑器所需格式或Mathtype编辑器所需格式。
CN202110889179.0A 2021-08-04 2021-08-04 一种用于教育资源库的公式处理方法及系统 Active CN113326675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110889179.0A CN113326675B (zh) 2021-08-04 2021-08-04 一种用于教育资源库的公式处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110889179.0A CN113326675B (zh) 2021-08-04 2021-08-04 一种用于教育资源库的公式处理方法及系统

Publications (2)

Publication Number Publication Date
CN113326675A true CN113326675A (zh) 2021-08-31
CN113326675B CN113326675B (zh) 2022-09-13

Family

ID=77427040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110889179.0A Active CN113326675B (zh) 2021-08-04 2021-08-04 一种用于教育资源库的公式处理方法及系统

Country Status (1)

Country Link
CN (1) CN113326675B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110194770A1 (en) * 2010-02-05 2011-08-11 Samsung Electronics Co., Ltd. Document editing apparatus and method
KR101458581B1 (ko) * 2013-04-25 2014-11-05 서울대학교산학협력단 수식-문자열 변환 시스템 및 이를 이용한 수식-문자열 변환 방법
CN104317779A (zh) * 2014-09-27 2015-01-28 昆明钢铁集团有限责任公司 一种基于浏览器的Word公式拷贝上传控件与方法
CN106294480A (zh) * 2015-06-04 2017-01-04 北京新唐思创教育科技有限公司 一种文件格式转换方法、装置及试题导入系统
CN106874250A (zh) * 2017-02-15 2017-06-20 中车株洲电机有限公司 一种基于word域的自动运算方法及系统
CN107832270A (zh) * 2017-10-17 2018-03-23 金炜 基于LaTeX的公式编辑方法和公式编辑器
CN108241604A (zh) * 2016-12-26 2018-07-03 亿度慧达教育科技(北京)有限公司 一种实现拉泰赫格式公式的交互编辑方法及其装置
CN108255841A (zh) * 2016-12-28 2018-07-06 北京新唐思创教育科技有限公司 一种题目搜索的方法及其装置
CN110007918A (zh) * 2019-04-03 2019-07-12 上海乂学教育科技有限公司 自适应教育系统中个性化公式编辑器的制造方法
CN110147534A (zh) * 2019-02-27 2019-08-20 中国地质大学(武汉) 一种LaTeX文档向Word文档转换的方法及系统
CN110442630A (zh) * 2019-08-05 2019-11-12 国家电网有限公司技术学院分公司 一种题库试题格式快速转化系统、方法、介质及电子设备
CN110442851A (zh) * 2019-07-23 2019-11-12 南京国睿信维软件有限公司 基于Office Word的文档自动模块化及多终端独立限权编辑的方法
CN110765743A (zh) * 2019-09-25 2020-02-07 青岛励图高科信息技术有限公司 用于数学公式在HTML中编辑显示和导出到Word文档中的系统
CN111126006A (zh) * 2019-12-25 2020-05-08 小船出海教育科技(北京)有限公司 导出带MathType公式的Word文档方法、装置、电子设备及存储介质
CN111191647A (zh) * 2019-12-26 2020-05-22 常州工学院 一种基于图像处理的标准公式识别方法
CN111753503A (zh) * 2020-06-19 2020-10-09 兰州大学 一种面向盲人的数学公式编辑方法及装置
CN112926571A (zh) * 2021-04-06 2021-06-08 中教云智数字科技有限公司 一种基于深度学习的公式图片识别判题系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110194770A1 (en) * 2010-02-05 2011-08-11 Samsung Electronics Co., Ltd. Document editing apparatus and method
KR101458581B1 (ko) * 2013-04-25 2014-11-05 서울대학교산학협력단 수식-문자열 변환 시스템 및 이를 이용한 수식-문자열 변환 방법
CN104317779A (zh) * 2014-09-27 2015-01-28 昆明钢铁集团有限责任公司 一种基于浏览器的Word公式拷贝上传控件与方法
CN106294480A (zh) * 2015-06-04 2017-01-04 北京新唐思创教育科技有限公司 一种文件格式转换方法、装置及试题导入系统
CN108241604A (zh) * 2016-12-26 2018-07-03 亿度慧达教育科技(北京)有限公司 一种实现拉泰赫格式公式的交互编辑方法及其装置
CN108255841A (zh) * 2016-12-28 2018-07-06 北京新唐思创教育科技有限公司 一种题目搜索的方法及其装置
CN106874250A (zh) * 2017-02-15 2017-06-20 中车株洲电机有限公司 一种基于word域的自动运算方法及系统
CN107832270A (zh) * 2017-10-17 2018-03-23 金炜 基于LaTeX的公式编辑方法和公式编辑器
CN110147534A (zh) * 2019-02-27 2019-08-20 中国地质大学(武汉) 一种LaTeX文档向Word文档转换的方法及系统
CN110007918A (zh) * 2019-04-03 2019-07-12 上海乂学教育科技有限公司 自适应教育系统中个性化公式编辑器的制造方法
CN110442851A (zh) * 2019-07-23 2019-11-12 南京国睿信维软件有限公司 基于Office Word的文档自动模块化及多终端独立限权编辑的方法
CN110442630A (zh) * 2019-08-05 2019-11-12 国家电网有限公司技术学院分公司 一种题库试题格式快速转化系统、方法、介质及电子设备
CN110765743A (zh) * 2019-09-25 2020-02-07 青岛励图高科信息技术有限公司 用于数学公式在HTML中编辑显示和导出到Word文档中的系统
CN111126006A (zh) * 2019-12-25 2020-05-08 小船出海教育科技(北京)有限公司 导出带MathType公式的Word文档方法、装置、电子设备及存储介质
CN111191647A (zh) * 2019-12-26 2020-05-22 常州工学院 一种基于图像处理的标准公式识别方法
CN111753503A (zh) * 2020-06-19 2020-10-09 兰州大学 一种面向盲人的数学公式编辑方法及装置
CN112926571A (zh) * 2021-04-06 2021-06-08 中教云智数字科技有限公司 一种基于深度学习的公式图片识别判题系统

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
O. OKSUZ;U. GUDUKBAY;E. CETIN: ""Computer vision based text and equation editor for LATEX"", 《2004 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO (ICME)》 *
刘国华: "《HALCON编程及工程应用》", 8 November 2019 *
张弘,李嘉锋: "《数字图像处理与分析》", 31 March 2020 *
翟光: "《空间目标相对导航与滤波技术》", 29 February 2020 *
高恩勇;梁连吉: ""Word中的域及其应用"", 《沧州师范专科学校学报》 *
黄沙日娜;赵国亮: ""基于MathJax在线考试系统的题库构建与实现"", 《高师理科学刊》 *

Also Published As

Publication number Publication date
CN113326675B (zh) 2022-09-13

Similar Documents

Publication Publication Date Title
JP3822277B2 (ja) 文字テンプレートセット学習マシン動作方法
US5956419A (en) Unsupervised training of character templates using unsegmented samples
US5706364A (en) Method of producing character templates using unsegmented samples
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
US5689585A (en) Method for aligning a text image to a transcription of the image
JP3425408B2 (ja) 文書読取装置
CA2077313C (en) Methods and apparatus for selecting semantically significant images in a document image without decoding image content
CN114005123A (zh) 一种印刷体文本版面数字化重建系统及方法
Shatri et al. Optical music recognition: State of the art and major challenges
CN114119949A (zh) 一种增强文本合成图像的生成方法和系统
Van Phan et al. A nom historical document recognition system for digital archiving
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
Kemajou et al. Wellbore schematics to structured data using artificial intelligence tools
George Visual perception of music notation: on-line and off-line recognition
KR101118628B1 (ko) 지능형 인식 라이브러리 및 관리 도구를 활용한 고문서 이미지 데이터 인식 및 처리 방법
CN113326675B (zh) 一种用于教育资源库的公式处理方法及系统
Fornés et al. On the use of textural features for writer identification in old handwritten music scores
CN114241490A (zh) 基于笔画扰动与后处理的手写体识别模型性能的提升方法
WO2007070010A1 (en) Improvements in electronic document analysis
CN115457580A (zh) 数字化档案表格转换方法及系统
Asi et al. User-assisted alignment of arabic historical manuscripts
Bellini et al. Optical music recognition: Architecture and algorithms
Mehta et al. Optical music notes recognition for printed piano music score sheet
Kanai Automated performance evaluation of document image analysis systems: Issues and practice
Mulyana et al. Optimization of Text Mining Detection of Tajweed Reading Laws Using the Yolov8 Method on the Qur'an

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 330000 Building 1, maiyuan Road, Nanchang Economic and Technological Development Zone, Jiangxi Province

Patentee after: Jiangxi wind vane Intelligent Technology Co.,Ltd.

Address before: 330000 Building 1, maiyuan Road, Nanchang Economic and Technological Development Zone, Nanchang City, Jiangxi Province

Patentee before: JIANGXI VANEDUCATION TECHNOLOGY Inc.

CP03 Change of name, title or address