CN112651353A

CN112651353A - 一种基于自定义标签的目标口算的定位识别方法

Info

Publication number: CN112651353A
Application number: CN202011607604.4A
Authority: CN
Inventors: 田博帆
Original assignee: Nanjing Hongsong Information Technology Co ltd
Current assignee: Nanjing Hongsong Information Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-13
Anticipated expiration: 2040-12-30
Also published as: CN112651353B

Abstract

本发明涉及一种基于自定义标签的目标口算的定位识别方法，包括步骤：S1根据预先定义的字符标签，对口算公式进行标注；S2对标注后的原始图像进行裁剪；S3采用可变卷积神经网络进行目标公式的训练和检测，经过可变卷积神经网络处理后，得到特征图像；再训练得出独立的公式定位模型，从而获得公式坐标；S4对每个字符进行定位检测，再对检测出的多个字符候选框的结果做非极大值的抑制处理，获得每个字符框的坐标可信的类别，再获得字符坐标；S5选取坐标范围界定的参考基准，再筛选出中心点落在公式坐标范围内的字符，得到字符集合；再将字符集合进行分类，并排除干扰字符；S6根据字符坐标，结合字符标签的类别，组装公式得到完整的公式。

Description

一种基于自定义标签的目标口算的定位识别方法

技术领域

本发明涉及图像识别处理技术领域，尤其涉及一种基于自定义标签的目标口算的定位识别方法。

背景技术

口算识别作为一门重要的图像识别技术，近年来得到了广泛关注。而随着人工智能的飞速发展，在自动化批阅场景中，有关口算识别的自动批阅产品层出不穷。

然而，口算拍照的实际场景较为复杂，存在诸多干扰因素，人工智能产品虽能够在一定程度上减轻繁重的人力劳作，提供有效的帮助，但它距离真正拥有“智慧”，还有很长的一段路要走。例如，在文本识别领域，当前计算机还无法做到绝对可信的识别，对二义性文本字符仍无法判断其真正含义；在目标检测领域，计算机难以做到每个目标的精确捕获，同样存在目标检测的误判现状等；尤其，口算拍照识别涉及众多图像处理技术，不仅有字符的文本识别技术，而且有字符的定位检测技术。众所周知，人工智能技术在不同的应用领域中，有着不同程度的影响，但拥有这种“智慧”的高低取决于所提供学习资源的优劣程度，它通过不间断地学习使其获得更高的“智慧”。如：文本识别技术在自动化批阅方面的表现，完全取决于印刷体和手写体样本集。

中国专利文献(申请号201811125657.5)公开了一种批改试卷中口算题的方法及装置，利用口算引擎对待搜索试卷进行处理，同时根据各个待搜索题目的题干的文字内容获得待搜索题目的特征向量，然后利用各个待搜索题目的特征向量从题库中查找与待搜索试卷相匹配的目标试卷，而对于题目类型为口算题的待搜索题目，在目标试卷内部基于题目的特征向量进行二次查找，查找的标准为最短编辑距离最小，若匹配到的目标题目的题目类型也是口算题，则确认待搜索题目为待批改口算题目，将口算引擎在待批改口算题目区域对应的计算结果作为待批改口算题目的答案，并将口算引擎在所有待批改口算题目区域以外的计算结果丢弃。该方法中需要与题库进行匹配，方法比较复杂；而口算识别涉及多个技术难点，主要包括：手写字符的多样性、手写干扰的复杂性、以及公式排列的不确定性等，它们成为人工智能口算识别研究领域的首要问题。为了能够解决口算问题带来的困扰，在此，本申请对口算的自动化批阅方法做出了进一步研究。

因此，本发明提出了一种基于自定义标签的目标口算的定位识别方法，通过该方法能够自动批改复杂场景中的口算公式，且识别正确率高，提高自动批改效率。

发明内容

本发明要解决的技术问题是，提供一种基于自定义标签的目标口算的定位识别方法，通过该方法能够自动批改复杂场景中的口算公式，且识别正确率高，提高自动批改效率。

为了解决上述技术问题，本发明采用的技术方案是：基于自定义标签的目标口算的定位识别方法，具体包括以下步骤：

S1口算标注：根据预先定义的字符标签，对口算公式进行标注，获得标注后的原始图像；

S2图像处理：对标注后的原始图像进行裁剪；

S3公式定位：采用可变卷积神经网络进行目标公式的训练和检测，经过可变卷积神经网络处理后，得到特征图像；再训练得出独立的公式定位模型，获得公式的检测结果，从而获得公式坐标；

S4字符定位：对每个字符进行定位检测，再对检测出的多个字符候选框的结果作非极大值的抑制处理，获得每个字符框的坐标可信的类别，再根据每个字符的字符框的坐标计算出字符框的中心点，从而获得字符坐标；

S5字符提取：选取坐标范围界定的参考基准，再根据判断条件筛选出中心点落在公式坐标范围内的字符，得到筛选后的字符集合；再将字符集合进行分类，并排除干扰字符；

S6公式组装：根据步骤S4得出公式的字符坐标，结合字符标签的类别，组装公式，得到完整的公式。

采用上述技术方案，首先采用基于公式的定位识别方法，实现拍照图像中口算公式的定位；再利用公式的字符类别以及位置信息，提取公式中关键的字符，排除无关的手写体干扰，提高公式识别的正确率；接着对字符识别的结果进行组装整合，获得完整的公式，实现对口算公式的自动批阅。

作为本发明的优选技术方案，该基于自定义标签的目标口算的定位识别方法还包括步骤S7解析判断：先对步骤S6获得的公式进行排序，再对等式前后的公式做双向检查，补全存在缺失的数学运算符，验证公式的合理性，再进行自定义标签公式的解析和正误判断。根据组装结果做公式的解析判断，验证公式的合理性以及进行正误判断，从而达到口算公式批改的目的。

作为本发明的优选技术方案，所述步骤S1中对口算公式进行标注时的标注对象包括表达式和字符，所述表达式包括子表达式和公式(formula)，所述子表达式包括分式(fenshi)和余式(yushi)；所述字符包括数字(0-9)和操作符(+、-、*、/、＝)；根据预先定义的字符标签，使用labelImge标注工具对口算公式的每个字符和表达式进行标注，获得标注结果。关于公式内子表达式的标注最为重要，需要将整个子表达式完整标注，完整性关乎后续组装的范围界定。

作为本发明的优选技术方案，所述步骤S3中的具体步骤为：采用可变卷积神经网络，其中骨干网络使用全卷积神经网络FCN作目标公式的训练和检测，模型训练采用的输入经步骤S2处理后的图像，经过多层卷积神经网络处理后，得到特征图像；整个训练过程是针对图像中的每个字符目标中心点做预测，训练的整体损失函数如公式(1)，训练得出独立的公式定位模型，再获得公式坐标；

L_det＝L_k+λ_sizeL_size+λ_offL_off (1)；

其中，L_k为字符类别损失、L_size为字符大小损失，以及L_off为字符偏置损失；λ_size为字符框大小的权重；λ_off为偏置损失的权重。优选地，经过34层卷积神经网络处理后，得到大小为128*128的特征图像。

作为本发明的优选技术方案，所述步骤S4包括以下步骤：

S41：先对每个字符进行定位检测时采用所述步骤S3中的公式定位模型进行字符定位检测，检测出多个字符和多个字符候选框；

S42：再采用soft-nms算法对检测出的多个字符候选框做非极大值的抑制处理，从而获得了字符框的坐标和字符框的可信类别；

S421：soft-nms算法的处理过程包括：首先，从检测出的所有字符候选框集合中选出置信度最高的字符候选框，其中字符候选框集合记作B＝{b₁，…，b_N}，字符候选框置信度得分集合记作S＝{s₁，…，s_N}；

S422：将选出置信度最高的字符候选框M从字符候选框集合B中剔除掉，接着将集合中剩下的字符候选框b_i(1≤i≤N)分别与置信度最高的字符候选框M做重叠框交并比计算，得出每个字符的IOU值；最后，将IOU值大于等于0.5的输入至加权函数中得出新的置信度得分，如公式(2)所示，其中，s_i为第i个字符候选框的置信度得分；从而获得了字符框的坐标和字符框的可信类别；

s_i＝s_i(1-iou(M，b_i)) (2)；

S43：再根据每个字符的字符框的坐标计算出字符框的中心点，记作C＝{c₀，c₁，c₂，…，c_n}，其中c_i＝(x_i，y_i)，0≤i≤n，从而获得字符坐标。

作为本发明的优选技术方案，所述步骤S5包括以下步骤：

S51：根据公式坐标、字符坐标和标注结果，并以公式定位的左上角点坐标(x₁，y₁)和右下角点坐标(_x2，y₂)作为范围界定的参考基准；

S52：再按照左上角点和右下角点的横纵坐标，结合判断条件：x₁＜x_i＜x₂和y₁＜y_i＜y₂，筛选出中心点落在公式坐标范围内的字符，得到筛选后的字符集合，记作C′，其中C′∈C；

S53：从筛选到的字符集合C′中，根据所有被检测的字符类别，将字符集合C′分成操作符集合opSign和操作数集合opNum，

S54：再以等号操作符作为口算等式重要的参考标志，将等号操作符的坐标作为参考点，可使操作数集合opSign分成两个操作数子集合，分别为等号前的操作数子集opBeforeNum和等号后的操作数子集opAfterNum；

S55：再以操作符集合opSign的坐标作为参考，从操作数集合opNum中选出与操作符共线的操作数，排除分布于操作符上下且非共线的干扰字符，从而提取出字符。

作为本发明的优选技术方案，所述步骤S6具体为：根据获得的字符坐标和子表达式，再根据子表达式的标签类别，组装不同形式的子表达式；再对组装完成的子表达式依据从内至外、从左至右的原则进行公式组装，最终得到完整的公式。组装不同形式的子表达式包括分式结合其分子和分母做上下组装，余式结合商和余数做左右组装等。

作为本发明的优选技术方案，所述步骤S7具体包括以下步骤：

S71：根据识别的字符标签类别结果，以及字符检测的坐标先后顺序，按照x轴正方向进行排序；

S72：对等式前后的公式做双向检查，补全存在缺失的数学运算符，验证公式合理性；

S721：首先，若公式判断含括号字符，则对公式中的括号做对称性检测，确定括号的层级关系；

S722：其次，若公式判断不含括号字符，直接判断整个公式是否同时满足含数字和操作符两个必备要素，且操作符的左右为数字；若存在括号字符，递归找到公式的最内层嵌套的括号字符并确定其限定范围，判断其中的字符是否同时满足含数字和操作符两个必备要素，且操作符的左右为数字；

S723：最后，检测公式中是否满足存在且仅有一个等号操作符的条件，若确定满足该条件且不存在括号字符，则公式验证通过；若确定满足该条件且存在括号字符，需再判断等号右边是否含括号字符，确定没有，则公式验证通过；确定有，则公式验证不通过；

S73：按照全排列公式的字符优先级顺序完成自定义标签公式的解析和正误判断。

作为本发明的优选技术方案，所述步骤S3中的公式(1)中将字符框大小的权重λ_size设定为0.2，偏置损失的权重λ_off设定为1，从而训练出独立的公式定位模型；所述步骤S42中采用soft-nms算法对检测出的多个字符候选框做了非极大值的抑制处理时的交并比IOU设定为0.5，类别置信度设定为0.9。

作为本发明的优选技术方案，所述步骤S2中图像处理具体步骤为：若原始图像的尺寸宽和高均大于512*512，则在标注完成的口算公式原始图像上，使用512*512像素大小的滑动窗做固定步长的上下平移并裁剪将原始图像裁剪成512*512像素大小的图像作为步骤S3的输入图像；若原始图像的尺寸的宽或高小于512像素，则在宽与高中较长的边上做随机滑动并裁剪将原始图像裁剪成512*512像素大小的图像作为步骤S3的输入图像；若原始图像的尺寸的宽和高均小于512像素，则将原始图像直接贴到512*512的图片上获得512*512像素大小的图像作为步骤S3的输入图像。进行图像处理的目的是为了保证公式批改的准确性，避免公式的遗漏。

与现有技术相比，本发明具有的有益效果是：该基于自定义标签的目标口算的定位识别方法实现了拍照图像中口算公式的定位，通过该方法自动批改复杂场景中的口算公式，且识别的准确率显著提高，同时提高了自动批阅的效率。

附图说明

下面结合附图进一步描述本发明的技术方案：

图1是本发明的基于自定义标签的目标口算的定位识别方法的流程图；

图2是本发明的基于自定义标签的目标口算的定位识别方法中的口算公式标注示例1；

图3是本发明的基于自定义标签的目标口算的定位识别方法中的口算公式标注示例2；

图4是本发明的基于自定义标签的目标口算的定位识别方法中的步骤S3的公式定位效果图；

图5是本发明的基于自定义标签的目标口算的定位识别方法中的步骤S4字符定位效果图。

具体实施方式

为了加深对本发明的理解，下面将结合附图和实施例对本发明做进一步详细描述，该实施例仅用于解释本发明，并不对本发明的保护范围构成限定。

实施例：如图1所示，该基于自定义标签的目标口算的定位识别方法，具体包括以下步骤：

S1口算标注：根据预先定义的字符标签，对口算公式进行标注，获得标注后的原始图像；所述步骤S1中对口算公式进行标注时的标注对象包括表达式和字符，所述表达式包括子表达式和公式(formula)，所述子表达式包括分式(fenshi)和余式(yushi)；所述字符包括数字(0-9)和操作符(+、-、*、/、＝)；根据预先定义的字符标签，使用labelImge标注工具对口算公式的每个字符和表达式进行标注，获得标注结果；关于公式内子表达式的标注最为重要，需要将整个子表达式完整标注，完整性关乎后续组装的范围界定；如图2所示；

S2图像处理：为了保证公式批改的准确性，避免公式的遗漏，在此采用了图像处理的增益技术，对标注后的原始图像进行裁剪；所述步骤S2中图像处理具体步骤为：若原始图像的尺寸宽和高均大于512*512，则在标注完成的口算公式原始图像上，使用512*512像素大小的滑动窗做固定步长(如：64dpi、100dpi等)的上下平移并裁剪将原始图像裁剪成512*512像素大小的图像作为步骤S3的输入图像；若原始图像的尺寸的宽或高小于512像素，则在宽与高中较长的边上做随机滑动并裁剪将原始图像裁剪成512*512像素大小的图像作为步骤S3的输入图像；若原始图像的尺寸的宽和高均小于512像素，则将原始图像直接贴到512*512的图片上获得512*512像素大小的图像作为步骤S3的输入图像；

S3公式定位：采用可变卷积神经网络进行目标公式的训练和检测，经过可变卷积神经网络处理后，得到特征图像；再训练得出独立的公式定位模型，获得公式的检测结果，从而获得公式坐标；所述步骤S3中的具体步骤为：采用可变卷积神经网络，其中骨干网络使用全卷积神经网络FCN作目标公式的训练和检测，模型训练采用的输入经步骤S2处理后的图像，经过34层卷积神经网络处理后，得到大小为128*128的特征图像；整个训练过程是针对图像中的每个字符目标中心点做预测，训练的整体损失函数如公式(1)，训练得出独立的公式定位模型，再获得公式坐标；定位结果如图4所示；

L_det＝L_k+λ_sizeL_size+λ_offL_off (1)；

其中，L_k为字符类别损失、L_size为字符大小损失，以及L_off为字符偏置损失；λ_size为字符框大小的权重；λ_off为偏置损失的权重；将字符框大小的权重λ_size设定为0.2，偏置损失的权重λ_off设定为1；

S4字符定位：对每个字符进行定位检测，再对检测出的多个字符框的结果作非极大值的抑制处理，获得每个字符框的坐标可信的类别，再根据每个字符的字符框的坐标计算出字符框的中心点，从而获得字符坐标；所述步骤S4包括以下步骤：

S41：先对每个字符进行定位检测时采用所述步骤S3中的公式定位模型进行字符定位检测，检测出多个字符和多个字符框；

S42：再采用soft-nms算法对检测出的多个字符候选框做非极大值的抑制处理，交并比IOU设定为0.5，类别置信度设定为0.9；从而获得了字符框的坐标和字符框的可信类别；检测结果如图5所示；

s_i＝s_i(1-iou(M，b_i)) (2)；

S43：再根据每个字符的字符框的坐标计算出字符框的中心点，记作C＝{c₀，c₁，c₂，…，c_n}，其中c_i＝(x_i，y_i)，0≤i≤n，从而获得字符坐标；

S5字符提取：选取坐标范围界定的参考基准，再根据判断条件筛选出中心点落在公式坐标范围内的字符，得到筛选后的字符集合；再将字符集合进行分类，并排除干扰字符；所述步骤S5包括以下步骤：

S51：根据公式坐标、字符坐标和标注结果，并以公式定位的左上角点坐标(x₁，y₁)和右下角点坐标(x₂，y₂)作为范围界定的参考基准；

S55：再以操作符集合opSign的坐标作为参考，从操作数集合opNum中选出与操作符共线的操作数，排除分布于操作符上下且非共线的干扰字符，从而提取出字符；

S6公式组装：根据公式的字符坐标，结合字符标签的类别，组装公式，得到完整的公式；所述步骤S6具体为：根据获得的字符坐标和子表达式，再根据子表达式的标签类别，组装不同形式的子表达式；再对组装完成的子表达式依据从内至外、从左至右的原则进行公式组装，最终得到完整的公式。组装不同形式的子表达式包括分式结合其分子和分母做上下组装，余式结合商和余数做左右组装等；如图2所示，公式的相关字符包括数字字符和操作符字符以及特殊字符，其中数字字符为：1、3、3、4、1，操作符字符为：/、＝，特殊字符为：yuhao，子表达式为：yushi；如图3所示，其中数字字符为：5、7、3、4、1、5、2、8，操作符字符为：*、＝，特殊字符为：line，子表达式为：fenshi，分子标签为：fenzi，分母标签为：fenmu；再根据子表达式的具体标签类别(如：fenshi或yushi)，采用不同形式的组装策略，其中，子表达式分式则结合其分子和分母做上下组装，而子表达式余式则结合商和余数做左右组装等；

S7解析判断：先对步骤S6获得的公式进行排序，再对等式前后的公式做双向检查，补全存在缺失的数学运算符，验证公式的合理性，再进行自定义标签公式的解析和正误判断；根据组装结果做公式的解析判断，验证公式的合理性以及进行正误判断，从而达到口算公式批改的目的；具体包括以下步骤：

S72：采用智能解析树系统对等式前后的公式做双向检查，具体实施过程是将排序后的字符，按照操作数、操作符和特殊字符做分类，再根据分类字符的前后顺序智能插入至排序的二叉树数据结构中，形成树的根结点和子结点，并根据等高的叶子结点，补全可能存在缺失的数学运算符，验证公式合理性；

对于本领域的普通技术人员而言，具体实施例只是对本发明进行了示例性描述，显然本发明具体实现并不受上述方式的限制，只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围之内。

Claims

1.一种基于自定义标签的目标口算的定位识别方法，其特征在于，具体包括以下步骤：

S2图像处理：对标注后的原始图像进行裁剪；

S4字符定位：对每个字符进行定位检测，再对检测出的多个字符框的结果作非极大值的抑制处理，获得每个字符框的坐标可信的类别，再根据每个字符的字符框的坐标计算出字符框的中心点，从而获得字符坐标；

S6公式组装：根据公式的字符坐标，结合字符标签的类别，组装公式，得到完整的公式。

2.根据权利要求1所述的基于自定义标签的目标口算的定位识别方法，其特征在于，该基于自定义标签的目标口算的定位识别方法还包括步骤S7解析判断：先对步骤S6获得的公式进行排序，再对等式前后的公式做双向检查，补全存在缺失的数学运算符，验证公式的合理性，再进行自定义标签公式的解析和正误判断。

3.根据权利要求2所述的基于自定义标签的目标口算的定位识别方法，其特征在于，所述步骤S1中对口算公式进行标注时的标注对象包括表达式和字符，所述表达式包括子表达式和公式，所述子表达式包括分式和余式；所述字符包括数字和操作符。

4.根据权利要求3所述的基于自定义标签的目标口算的定位识别方法，其特征在于，所述步骤S3中的具体步骤为：采用可变卷积神经网络，其中骨干网络使用全卷积神经网络FCN作目标公式的训练和检测，模型训练采用的输入经步骤S2处理后的图像，经过多层卷积神经网络处理后，得到特征图像；整个训练过程是针对图像中的每个字符目标中心点做预测，训练的整体损失函数如公式(1)，训练得出独立的公式定位模型，再获得公式坐标；

L_det＝L_k+L_sizeL_size+λ_offL_off (1)：

其中，L_k为字符类别损失、L_size为字符大小损失，以及L_off为字符偏置损失；λ_size为字符框大小的权重；λ_off为偏置损失的权重。

5.根据权利要求4所述的基于自定义标签的目标口算的定位识别方法，其特征在于，所述步骤S4包括以下步骤：

S42：再采用soft-nms算法对检测出的多个字符候选框做非极大值的抑制处理；

S_i＝S_i(1-iou(M，b_i)) (2)；

S43：再根据每个字符的字符框的坐标计算出字符框的中心点，记作C＝{c₀，c₁，c₂，…；c_n}，其中c_i＝(x_i，y_i)，0≤i≤n，从而获得字符坐标。

6.根据权利要求5所述的基于自定义标签的目标口算的定位识别方法，其特征在于，所述步骤S5包括以下步骤：

7.根据权利要求6所述的基于自定义标签的目标口算的定位识别方法，其特征在于，所述步骤S6具体为：根据获得的字符坐标和子表达式，再根据子表达式的标签类别，组装不同形式的子表达式；再对组装完成的子表达式依据从内至外、从左至右的原则进行公式组装，最终得到完整的公式。

8.根据权利要求6所述的基于自定义标签的目标口算的定位识别方法，其特征在于，所述步骤S7具体包括以下步骤：

9.根据权利要求5所述的基于自定义标签的目标口算的定位识别方法，其特征在于，所述步骤S3中的公式(1)中将字符框大小的权重λ_size设定为0.2，偏置损失的权重λ_off设定为1，从而训练出独立的公式定位模型；所述步骤S42中采用soft-nms算法对检测出的多个字符候选框做了非极大值的抑制处理时的交并比IOU设定为0.5，类别置信度设定为0.9。

10.根据权利要求5所述的基于自定义标签的目标口算的定位识别方法，其特征在于，所述步骤S2中图像处理具体步骤为：若原始图像的尺寸宽和高均大于512*512，则在标注完成的口算公式原始图像上，使用512*512像素大小的滑动窗做固定步长的上下平移并裁剪将原始图像裁剪成512*512像素大小的图像作为步骤S3的输入图像；若原始图像的尺寸的宽或高小于512像素，则在宽与高中较长的边上做随机滑动并裁剪将原始图像裁剪成512*512像素大小的图像作为步骤S3的输入图像；若原始图像的尺寸的宽和高均小于512像素，则将原始图像直接贴到512*512的图片上获得512*512像素大小的图像作为步骤S3的输入图像。