CN114973278A - 一种语法制导的端到端可训练联机手写数学公式识别方法 - Google Patents
一种语法制导的端到端可训练联机手写数学公式识别方法 Download PDFInfo
- Publication number
- CN114973278A CN114973278A CN202210714830.5A CN202210714830A CN114973278A CN 114973278 A CN114973278 A CN 114973278A CN 202210714830 A CN202210714830 A CN 202210714830A CN 114973278 A CN114973278 A CN 114973278A
- Authority
- CN
- China
- Prior art keywords
- mathematical formula
- formula
- grammar
- online
- library
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种语法制导的端到端可训练联机手写数学公式识别方法,包括:生成用于训练模型的数据库,并对模型进行训练;用训练好的模型,解析手写数学公式。本发明通过联机手写数学公式样本与数学公式样本合成大量联机手写数学公式样本,并把用于解析LL(1)语法的预测分析法与集束搜索结合起来完成数学公式解码过程,解决手写数学公式难以准确识别的问题。
Description
技术领域
本发明涉及模式识别技术领域,具体涉及一种语法制导的端到端可训练联机手写数学公式识别方法。
背景技术
联机手写数学公式识别是一种把手写数学公式的动态笔迹转换为结构化格式(如MathML)的技术,由于数学公式是一种常见于各类文档的重要信息载体,随着笔式输入设备的普及,这种技术在有广阔的应用前景,与自然语言文本识别相比,数学公式识别由于要面临更复杂和紧凑的平面结构而更为困难;与印刷体识别相比,手写识别也由于要应付因人而异的书写习惯而更为困难;与脱机识别相比,联机识别则由于有额外的时序信息和较少的背景噪声而更有希望达到较高的准确性,目前来说,有两类已知方法都能够达到当前最高级别的准确率:
第一类方法有明确划分的符号识别模块和结构分析模块,前者通过笔划序列进行切分和识别来取得候选符号集合,后者则通过分析符号间的位置关系并解析二维随机上下文无关语法来重组数学公式,两者相辅相成完成手写数学公式识别,使用这类方法的公司包括MyScript(原Vision Objects)和Samsung,这类方法的优点在于中间结果有较佳的可解释性,因而便于设计支持各种编辑操作的交互式用户界面和在训练后定制识别范围,不过,由于这类方法更多地利用了人的先验知识,实现它们时会涉及较多的细节问题。
第二类方法基于带注意力机制的编码器-解码器模型,使用这类方法的公司包括科大讯飞,这类方法的优点是容易实现,因为有关模型是端到端可训练的,不必依赖于大量难以维护的启发式规则,然而,由于有关模型在很大程度上是个黑盒,这类方法过往的一个通病是在运行期缺乏可定制性,此外,这类模型一般需要大量训练数据才能达到较高的准确性。
由此可见,基于较少的手写数学公式样本去建立一个灵活的联机手写数学公式识别系统是一个需要解决的问题。
发明内容
针对现有技术存在的问题,本发明提一种语法制导的端到端可训练联机手写数学公式识别方法。
为实现上述目的,本发明的具体方案如下:
本发明提供一种语法制导的端到端可训练联机手写数学公式识别方法,包括如下步骤:
S1,合成训练集,对模型进行训练;
S2,用训练好的模型,解析手写数学公式;
其中,步骤S2具体包括:
S21,初始化状态;
S211,把由公式的字符串表示、置信度、解码器状态和预测分析栈组成的假设的集合H初始化为{(λ,1,h,(w0,<start>))},其中λ表示空字符串,h为编码器的输出,<start>为语法G的开始符号;
S212,把由公式的字符串表示和置信度组成的识别候选的集合Y初始化为空集;
S22,重复以下步骤至假设集合为空:
S221,令
其中,下一个片段分别为(w0,...,wn)的置信度p0,...,pn,还有更新后状态h′;是解码器根据中间状态h和已识别出的字符串y计算的
S222,对每个(y,p,h,t)∈H,重复以下步骤:
S2221,记t=(Z1,...,Zm,X)而w为字符串y的最后一个终结符;
S2222,若X为终结符:
若X=w,则令t←(Z1,...,Zm);否则把当前假设从H移除再考虑其它假设;
S2223,若X非终结符:
若LL(1)语法G的预测分析表中,把以终结符w开始的字符串解析为非终结符X时有可用的产生式“X←X1...Xl”,则令t←(Z1,...,Zm,Xl,...,X1);否则把当前假设从H移除再考虑其它假设;
S2224,若w=w0,则把当前假设从H移除再令Y←Y∪{(y,p)}和k←k-1;
S223,仅保留H中分数最高的k个假设。
进一步的,步骤S1具体包括:
S11,扩充联机手写数学公式库;
S12,扩充结构化数学公式库;
S13,对每条结构化数学公式,合成对应的手写笔迹;
S14,用合成训练集,对模型进行训练。
进一步的,步骤S11具体包括:
S111,把联机手写数学公式库中每条手写公式的所有子公式都加入到联机手写数学公式库中;
S112,对每条图片形式的数学公式进行笔划提取再加入到联机手写数学公式库中。
进一步的,步骤S12具体包括S121:按照随机上下文无关语法生成一批MathML格式的数学公式并加入结构化数学公式库中。
进一步的,步骤S13具体包括如下步骤:
S131,把结构化数学公式渲染为印刷体形式,同时记下每个符号的外接方框;
S132,在联机手写数学公式库中寻找有相同结构的极大子公式,找到的话按手写样本调整其中符号的外接方框的位置;
S133,把每个符号替换为联机手写数学公式库中其中一个对应的手写符号,再进行轻微的随机仿射变换;
S134,对合成的手写笔迹进行随机旋转和缩放。
进一步的,用于训练模型的数据库包括:联机手写数学公式样本、脱机手写数学公式样本、印刷体数学公式样本、数学公式语料和随机生成的数学公式。
进一步的,训练基于以下形式的数据源:
联机手写数学公式样本库,其中每条联机手写数学公式以InkML格式保存,其中也包含用MathML格式保存的标注;
脱机手写和印刷体数学公式样本库,其中每条脱机手写数学公式分别带用PNG格式保存的图片和用MathML格式保存的标注;
数学公式语料库,其中每条公式以MathML格式保存。
进一步的,解码过程中确保识别出的数学公式有符合给定语法的字符串表示;把用于解析LL(1)语法的预测分析法与集束搜索结合起来完成数学公式解码过程。
采用本发明的技术方案,具有以下有益效果:
通过联机手写数学公式样本与数学公式样本合成大量联机手写数学公式样本,并把用于解析LL(1)语法的预测分析法与集束搜索结合起来完成数学公式解码过程,解决手写数学公式难以准确识别的问题。
附图说明
图1为本发明整体流程图;
图2为合成训练集,对模型进行训练流程图;
图3为用训练好的模型,解析手写数学公式流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”、“固定”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本实施例的描述中,术语“上”、“下”、“前”、“后”、“左”、“右”等方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化操作,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅仅用于在描述上加以区分,并没有特殊的含义。
如图1-3所示,本发明提一种语法制导的端到端可训练联机手写数学公式识别方法,包括如下步骤:
S1,合成训练集,对模型进行训练;
S2,用训练好的模型,解析手写数学公式;
其中,步骤S1具体包括:
S11,扩充联机手写数学公式库;
S111,把联机手写数学公式库中每条手写公式的所有子公式都加入到联机手写数学公式库中;
S112,对每条图片形式的数学公式进行笔划提取再加入到联机手写数学公式库中。
S12,扩充结构化数学公式库;
S121:按照随机上下文无关语法生成一批MathML格式的数学公式并加入结构化数学公式库中。
S13,对每条结构化数学公式,合成对应的手写笔迹;
S131,把结构化数学公式渲染为印刷体形式,同时记下每个符号的外接方框;
S132,在联机手写数学公式库中寻找有相同结构的极大子公式,找到的话按手写样本调整其中符号的外接方框的位置;
S133,把每个符号替换为联机手写数学公式库中其中一个对应的手写符号,再进行轻微的随机仿射变换;
S134,对合成的手写笔迹进行随机旋转和缩放。
S14,用合成训练集,对模型进行训练。
S2,用训练好的模型,解析出k条符合给定LL(1)语法G的手写数学公式并给出相应的置信度。
S21,初始化状态;
S211,把由公式的字符串表示、置信度、解码器状态和预测分析栈组成的假设的集合H初始化为{(λ,1,h,(w0,<start>))},其中λ表示空字符串,h为编码器的输出,<start>为语法G的开始符号,w0为结束符;
S212,把由公式的字符串表示和置信度组成的识别候选的集合Y初始化为空集;
S22,重复以下步骤至假设集合为空:
S221,令
其中,下一个片段分别为(w0,...,wn)的置信度p0,...,pn,还有更新后状态h′;是解码器根据中间状态h和已识别出的字符串y计算的
S222,对每个(y,p,h,t)∈H,重复以下步骤:
S2221,记t=(Z1,...,Zm,X)而w为字符串y的最后一个终结符;
S2222,若X为终结符:
若X=w,则令t←(Z1,...,Zm);否则把当前假设从H移除再考虑其它假设;
S2223,若X非终结符:
若LL(1)语法G的预测分析表中,把以终结符w开始的字符串解析为非终结符X时有可用的产生式“X←X1...Xl”,则令t←(Z1,...,Zm,Xl,...,X1);否则把当前假设从H移除再考虑其它假设;
S2224,若w=w0,则把当前假设从H移除再令Y←Y∪{(y,p)}和k←k-1;
S223,仅保留H中分数最高的k个假设。
用于训练模型的数据库包括:联机手写数学公式样本、脱机手写数学公式样本、印刷体数学公式样本、数学公式语料和随机生成的数学公式。
联机手写数学公式样本库,其中每条联机手写数学公式以InkML格式保存,其中也包含用MathML格式保存的标注;脱机手写和印刷体数学公式样本库,其中每条脱机手写数学公式分别带用PNG格式保存的图片和用MathML格式保存的标注;数学公式语料库,其中每条公式以MathML格式保存。
解码过程中确保识别出的数学公式有符合给定语法的字符串表示;把用于解析LL(1)语法的预测分析法与集束搜索结合起来完成数学公式解码过程。
本发明的原理如下:
在解码过程中加入语法制导机制后,可以确保识别结果的合法性,避免序列到序列模型生成不合法的LaTeX或MathML串,例如出现标记应配对而不配对或缺失必要子公式的情况;
通过用语法限制识别结果的范围,训练一套模型即可适用于多种应用场景,例如一个手写计算器可能需支持函数“sin”但不容许单独的符号“s”,这时就可以用语法来实现这种限制并区分高度相似的符号。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的保护范围内。
Claims (8)
1.一种语法制导的端到端可训练联机手写数学公式识别方法,其特征在于包括如下步骤:
S1,合成训练集,对模型进行训练;
S2,用训练好的模型,解析手写数学公式;
其中,步骤S2具体包括:
S21,初始化状态;
S211,把由公式的字符串表示、置信度、解码器状态和预测分析栈组成的假设的集合H初始化为{(λ,1,h,(w0,<start>))},其中λ表示空字符串,h为编码器的输出,<start>为语法G的开始符号;
S212,把由公式的字符串表示和置信度组成的识别候选的集合y初始化为空集;
S22,重复以下步骤至假设集合为空:
S221,令
其中,下一个片段分别为(w0,...,wn)的置信度p0,...,pn,还有更新后状态h'是解码器根据中间状态h和已识别出的字符串y计算的;
S222,对每个(y,p,h,t)∈H,重复以下步骤:
S2221,记t=(Z1,...,Zm,X)而w为字符串y的最后一个终结符;
S2222,若X为终结符:
若X=w,则令t←(Z1,…,Zm);否则把当前假设从H移除再考虑其它假设;
S2223,若X非终结符:
若LL(1)语法G的预测分析表中,把以终结符w开始的字符串解析为非终结符X时有可用的产生式“X←X1…Xl”,则令t←(Z1,…,Zm,Xl,…,X1);
否则把当前假设从H移除再考虑其它假设;
S2224,若w=w0,则把当前假设从H移除再令Y←Y∪{(y,p)}和k←k-1;
S223,仅保留H中分数最高的k个假设。
2.根据权利要求1所述的语法制导的端到端可训练联机手写数学公式识别方法,其特征在于,步骤S1具体包括:
S11,扩充联机手写数学公式库;
S12,扩充结构化数学公式库;
S13,对每条结构化数学公式,合成对应的手写笔迹;
S14,用合成训练集,对模型进行训练。
3.根据权利要求2所述的语法制导的端到端可训练联机手写数学公式识别方法,其特征在于,步骤S11具体包括:
S111,把联机手写数学公式库中每条手写公式的所有子公式都加入到联机手写数学公式库中;
S112,对每条图片形式的数学公式进行笔划提取再加入到联机手写数学公式库中。
4.根据权利要求2所述的语法制导的端到端可训练联机手写数学公式识别方法,其特征在于,步骤S12具体包括S121:按照随机上下文无关语法生成一批MathML格式的数学公式并加入结构化数学公式库中。
5.根据权利要求2所述的语法制导的端到端可训练联机手写数学公式识别方法,其特征在于,步骤S13具体包括如下步骤:
S131,把结构化数学公式渲染为印刷体形式,同时记下每个符号的外接方框;
S132,在联机手写数学公式库中寻找有相同结构的极大子公式,找到的话按手写样本调整其中符号的外接方框的位置;
S133,把每个符号替换为联机手写数学公式库中其中一个对应的手写符号,再进行轻微的随机仿射变换;
S134,对合成的手写笔迹进行随机旋转和缩放。
6.根据权利要求1所述的语法制导的端到端可训练联机手写数学公式识别方法,其特征在于,用于训练模型的数据库包括:联机手写数学公式样本、脱机手写数学公式样本、印刷体数学公式样本、数学公式语料和随机生成的数学公式。
7.根据权利要求6所述的语法制导的端到端可训练联机手写数学公式识别方法,其特征在于,训练基于以下形式的数据源:
联机手写数学公式样本库,其中每条联机手写数学公式以InkML格式保存,其中也包含用MathML格式保存的标注;
脱机手写和印刷体数学公式样本库,其中每条脱机手写数学公式分别带用PNG格式保存的图片和用MathML格式保存的标注;
数学公式语料库,其中每条公式以MathML格式保存。
8.根据权利要求1所述的语法制导的端到端可训练联机手写数学公式识别方法,其特征在于,解码过程中确保识别出的数学公式有符合给定语法的字符串表示;把用于解析LL(1)语法的预测分析法与集束搜索结合起来完成数学公式解码过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210714830.5A CN114973278A (zh) | 2022-06-23 | 2022-06-23 | 一种语法制导的端到端可训练联机手写数学公式识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210714830.5A CN114973278A (zh) | 2022-06-23 | 2022-06-23 | 一种语法制导的端到端可训练联机手写数学公式识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114973278A true CN114973278A (zh) | 2022-08-30 |
Family
ID=82964831
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210714830.5A Pending CN114973278A (zh) | 2022-06-23 | 2022-06-23 | 一种语法制导的端到端可训练联机手写数学公式识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114973278A (zh) |
-
2022
- 2022-06-23 CN CN202210714830.5A patent/CN114973278A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kang et al. | Convolve, attend and spell: An attention-based sequence-to-sequence model for handwritten word recognition | |
US7660466B2 (en) | Natural language recognition using distributed processing | |
CN107085585B (zh) | 用于图像搜索的准确的标签相关性预测 | |
Mao et al. | Document structure analysis algorithms: a literature survey | |
Awal et al. | A global learning approach for an online handwritten mathematical expression recognition system | |
CN110795543A (zh) | 基于深度学习的非结构化数据抽取方法、装置及存储介质 | |
US10133965B2 (en) | Method for text recognition and computer program product | |
US20060245641A1 (en) | Extracting data from semi-structured information utilizing a discriminative context free grammar | |
Jemni et al. | Out of vocabulary word detection and recovery in Arabic handwritten text recognition | |
Vidal et al. | A probabilistic framework for lexicon-based keyword spotting in handwritten text images | |
CN111680684B (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
CN111382567B (zh) | 一种中文分词和汉字多音字识别的方法及装置 | |
Hládek et al. | Learning string distance with smoothing for OCR spelling correction | |
Chen et al. | Integrating natural language processing with image document analysis: what we learned from two real-world applications | |
CN113761843A (zh) | 语音编辑方法、电子设备及计算机可读存储介质 | |
US20150186738A1 (en) | Text Recognition Based on Recognition Units | |
Chowdhury et al. | A weighted finite-state transducer (WFST)-based language model for online Indic script handwriting recognition | |
Truong et al. | A survey on handwritten mathematical expression recognition: The rise of encoder-decoder and GNN models | |
Calvo-Zaragoza et al. | Recognition of pen-based music notation with finite-state machines | |
CN116776876A (zh) | 一种基于InterFormer-BERT模型和插入特殊标记的中文命名实体识别方法 | |
Andrés et al. | Search for hyphenated words in probabilistic indices: a machine learning approach | |
Ma et al. | Bootstrapping structured page segmentation | |
CN114973278A (zh) | 一种语法制导的端到端可训练联机手写数学公式识别方法 | |
Calvo-Zaragoza et al. | Music symbol sequence indexing in medieval plainchant manuscripts | |
CN115359486A (zh) | 一种文档图像中自定义信息的确定方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |