CN111832550A - 数据集制作方法、装置、电子设备及存储介质 - Google Patents
数据集制作方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111832550A CN111832550A CN202010670291.0A CN202010670291A CN111832550A CN 111832550 A CN111832550 A CN 111832550A CN 202010670291 A CN202010670291 A CN 202010670291A CN 111832550 A CN111832550 A CN 111832550A
- Authority
- CN
- China
- Prior art keywords
- character
- character image
- images
- image
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本申请提出一种数据集制作方法、装置、电子设备及存储介质。具体实现方案为:将字符图像输入字符位置检测模型进行检测,得到字符图像中的单字符的字符位置信息;根据单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像;将单字符图像输入字符识别模型进行识别,得到识别结果;将识别结果与字符图像的内容标注信息相比对,根据比对结果对字符图像进行筛选;利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集。本申请实施例使用少量内容标注信息得到大量用于字符图像相似度评估模型的高质量训练数据,节省了大量的人工标注成本,并且利用高质量训练数据可提高字符图像相似度评估模型的预测能力。
Description
技术领域
本申请涉及信息技术领域,尤其涉及一种数据集制作方法、装置、电子设备及存储介质。
背景技术
字符图像相似度评估是图像相似度评估的特定问题。字符图像包括内容是字符、数字或符号的图像。字符图像相似度评估在很多问题中都有非常重要的价值。例如在笔迹对比的应用场景下,可利用字符图像相似度评估模型来鉴别字符图像中的签名笔迹与预留的签名笔迹是否一致。使用神经网络模型等机器学习算法进行字符图像相似度评估的情况下,采用高质量的训练数据集是提高模型的预测能力的关键因素。目前多采用人工标注的方式,获得用于字符图像相似度评估模型训练的数据集。但是人工标注的成本过高,而且人工标注的数据的质量也很难保证。
发明内容
本申请实施例提供一种数据集制作方法、装置、电子设备及存储介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本申请实施例提供了一种数据集制作方法,包括:
将字符图像输入字符位置检测模型进行检测,得到字符图像中的单字符的字符位置信息;
根据单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像;
将单字符图像输入字符识别模型进行识别,得到识别结果;
将识别结果与字符图像的内容标注信息相比对,根据比对结果对字符图像进行筛选;
利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集。
在一种实施方式中,根据单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像,还包括:
根据字符位置检测模型检测得到的单字符数量和字符图像的内容标注信息中的单字符数量是否相等,确定字符位置检测模型的检测结果是否正确;
基于正确的检测结果执行在字符图像上截图的步骤。
在一种实施方式中,根据单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像,包括:
将单字符的字符位置信息进行排序;
根据排序后的单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像。
在一种实施方式中,将单字符图像输入字符识别模型进行识别,得到识别结果,还包括:
按照指定类别对单字符图像进行筛选;
将筛选出的指定类别的单字符图像输入字符识别模型。
在一种实施方式中,将识别结果与字符图像的内容标注信息相比对,根据比对结果对字符图像进行筛选,包括:
筛选出符合预设条件的字符图像,预设条件包括:从字符图像中截图得到的所有单字符图像的识别结果均正确。
在一种实施方式中,利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集,还包括:
利用筛选出的字符图像得到组合字符图像;
利用组合字符图像制作用于字符图像相似度评估模型的数据集;
其中,组合字符图像包括筛选出的字符图像、从筛选出的字符图像中截图得到的单字符图像,以及排列字符图像;排列字符图像由至少两个单字符图像组成,并且组成排列字符图像的任意一个单字符图像是从筛选出的字符图像中截图得到的单字符图像。
在一种实施方式中,利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集,包括:
将组合字符图像中的内容标注信息相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的正训练样本;
将组合字符图像中的内容标注信息不相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的负训练样本。
在一种实施方式中,字符位置检测模型包括EAST模型。
在一种实施方式中,字符识别模型包括Le-Net模型。
第二方面,本申请实施例提供了一种数据集制作装置,包括:
检测单元,用于将字符图像输入字符位置检测模型进行检测,得到字符图像中的单字符的字符位置信息;
截图单元,用于根据单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像;
识别单元,用于将单字符图像输入字符识别模型进行识别,得到识别结果;
筛选单元,用于将识别结果与字符图像的内容标注信息相比对,根据比对结果对字符图像进行筛选;
制作单元,用于利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集。
在一种实施方式中,截图单元还用于:
根据字符位置检测模型检测得到的单字符数量和字符图像的内容标注信息中的单字符数量是否相等,确定字符位置检测模型的检测结果是否正确;
基于正确的检测结果执行在字符图像上截图的步骤。
在一种实施方式中,截图单元用于:
将单字符的字符位置信息进行排序;
根据排序后的单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像。
在一种实施方式中,识别单元还用于:
按照指定类别对单字符图像进行筛选;
将筛选出的指定类别的单字符图像输入字符识别模型。
在一种实施方式中,筛选单元用于:
筛选出符合预设条件的字符图像,预设条件包括:从字符图像中截图得到的所有单字符图像的识别结果均正确。
在一种实施方式中,制作单元用于:
利用筛选出的字符图像得到组合字符图像;
利用组合字符图像制作用于字符图像相似度评估模型的数据集;
其中,组合字符图像包括筛选出的字符图像、从筛选出的字符图像中截图得到的单字符图像,以及排列字符图像;排列字符图像由至少两个单字符图像组成,并且组成排列字符图像的任意一个单字符图像是从筛选出的字符图像中截图得到的单字符图像。
在一种实施方式中,制作单元用于:
将组合字符图像中的内容标注信息相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的正训练样本;
将组合字符图像中的内容标注信息不相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的负训练样本。
在一种实施方式中,字符位置检测模型包括EAST模型。
在一种实施方式中,字符识别模型包括Le-Net模型。
第三方面,本申请实施例提供了一种电子设备,该设备包括:存储器和处理器。其中,该存储器和该处理器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,并且当该处理器执行该存储器存储的指令时,使得该处理器执行上述各方面任一种实施方式中的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储计算机程序,当计算机程序在计算机上运行时,上述各方面任一种实施方式中的方法被执行。
上述技术方案中的优点或有益效果至少包括:在仅使用少量内容标注信息的情况下,能够得到大量用于字符图像相似度评估模型的高质量训练数据,节省了大量的人工标注成本,并且利用高质量训练数据进行训练可提高字符图像相似度评估模型的预测能力。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本申请进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本申请公开的一些实施方式,而不应将其视为是对本申请范围的限制。
图1为根据本申请实施例的数据集制作方法的流程图;
图2为根据本申请另一实施例的数据集制作方法的截图步骤的流程图;
图3为根据本申请又一实施例的数据集制作方法的截图步骤的流程图;
图4为根据本申请另一实施例的数据集制作方法的识别步骤的流程图;
图5为根据本申请另一实施例的数据集制作方法的数据集制作步骤的流程图;
图6为根据本申请另一实施例的数据集制作方法的流程图;
图7为根据本申请实施例的数据集制作装置的结构示意图;
图8为用来实现本申请实施例的电子设备的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1为根据本申请实施例的数据集制作方法的流程图。如图1所示,该数据集制作方法可以包括:
步骤S110,将字符图像输入字符位置检测模型进行检测,得到字符图像中的单字符的字符位置信息;
步骤S120,根据单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像;
步骤S130,将单字符图像输入字符识别模型进行识别,得到识别结果;
步骤S140,将识别结果与字符图像的内容标注信息相比对,根据比对结果对字符图像进行筛选;
步骤S150,利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集。
字符图像相似度评估在很多问题中都有非常重要的价值。例如,在拍照批改试题和拍照搜题等应用场景中,由于书写者的笔迹与标准体之间的差距,识别题目答案的难度大。以数学题为例,数字字符图像相似度评估可以将识别的数字结果与其可能的标准数字字符图像进行比较,从而得到两者之间的相似度,为后续的判题和搜索等操作提供有力的先验知识。在以上应用场景中,可使用神经网络模型等机器学习算法进行字符图像相似度评估。以神经网络模型为例,通常需要使用大量的训练数据对神经网络模型进行训练,而且训练数据的数量和质量是制约神经网络模型预测能力的关键因素。
本申请实施例提供一种数据集制作方法,使用字符位置检测模型、字符识别模型和大量带有内容标注信息的字符图像,可利用大量带有内容标注信息的字符图像组成用于字符图像相似度评估模型的训练数据集。
在一种方式中,可预先收集大量带有内容标注信息的字符图像,并且收集的大量字符图像中有少量的字符图像即带有内容标注信息又带有字符位置标注信息。
在另一种方式中,可预先收集大量带有内容标注信息的字符图像。然后从收集的大量字符图像中随机选取极少量字符图像,人工标注字符图像中每个字符的位置信息,得到字符位置标注信息。
本申请实施例中,通过以上方式收集到带有字符位置标注信息的字符图像。在收集的大量字符图像中,可将这部分字符图像及其字符位置标注信息组成训练数据集用于训练字符位置检测模型,然后在步骤S110中,将其他的字符图像输入到训练好的字符位置检测模型中进行检测,输出每个字符图像中的每个单字符的字符位置信息。在一种实施方式中,字符位置检测模型输出的单字符的字符位置信息可以包括单字符的文本框坐标。例如,字符A在图像中的字符位置信息包括字符A的文本框左上角的坐标(x1,y1)、左下角的坐标(x2,y2)、右上角的坐标(x3,y3)、右下角的坐标(x4,y4)。
在步骤S120中,根据单字符的字符位置信息和字符图像的内容标注信息,可截图得到字符图像中每个单字符对应的单字符图像。如前述,预先收集的字符图像是带有内容标注信息的。例如,某一张字符图像的内容标注信息为“3+5=8”。字符位置检测模型对该字符图像进行检测后输出了该字符图像中每个单字符的文本框坐标。则根据每个单字符的文本框坐标和字符图像的内容标注信息,可截图得到的以下5个单字符图像:“3”、“+”、“5”、“=”和“8”。
从步骤S120得到的单字符图像中,可随机挑选出少部分单字符图像,根据内容标注信息训练字符识别模型。在一种实施方式中,由于单字符图像是从字符图像中截图得到的,因此可根据单字符图像所属的字符图像的内容标注信息得到单字符图像的内容标注信息。但是,字符位置检测模型检测出的字符位置信息可能有出现偏差的情况,例如可能出现文本框位置检测不准确、字符图像中存在的单字符没有检测到等情况。因此在另一种实施方式中,可针对随机挑选出少部分单字符图像重新进行内容标注,根据重新标注的单字符图像的内容标注信息训练字符识别模型。然后在步骤S130中,用训练好的字符识别模型对步骤S120得到的单字符图像进行识别,得到识别结果。
在步骤S140中,将字符识别模型的识别结果与字符图像的内容标注信息相比对,在二者相符的情况下可确定字符识别模型的识别结果是正确的。根据比对结果对字符图像进行筛选,将识别结果正确的字符图像筛选出,用于在后续步骤中制作数据集。
在步骤S150中,可直接利用步骤S140得到的字符图像制作用于字符图像相似度评估模型的数据集。也可将步骤S140得到的字符图像按照一定规律组合起来,得到用于字符图像相似度评估模型的数据集。
上述技术方案中的优点或有益效果至少包括:在仅使用少量内容标注信息的情况下,能够得到大量用于字符图像相似度评估模型的高质量训练数据,节省了大量的人工标注成本,并且利用高质量训练数据进行训练可提高字符图像相似度评估模型的预测能力。
图2为根据本申请另一实施例的数据集制作方法的截图步骤的流程图。如图2所示,在上述实施例的基础上,在一种实施方式中,图1中的步骤S120,根据单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像,还包括:
步骤S121,根据字符位置检测模型检测得到的单字符数量和字符图像的内容标注信息中的单字符数量是否相等,确定字符位置检测模型的检测结果是否正确;
步骤S122,基于正确的检测结果执行在字符图像上截图的步骤。
根据步骤S110得到的每个字符图像中单字符的字符位置信息可以得到每个字符图像中被检测出的单字符数量。如前述,预先收集的字符图像可以是带有内容标注信息的,内容标注信息中包含字符图像的单字符数量。将字符位置检测模型检测出的单字符数量与字符图像的内容标注信息中的单字符数量进行比较,如果二者数量相等,则认为该字符图像的检测结果是正确的。将检测结果正确的字符图像筛选出来,针对筛选后的字符图像执行步骤S120,根据单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像。
本申请实施例中,通过将字符位置检测模型检测得到的单字符数量和字符图像的内容标注信息中的单字符数量相比较,筛选出结果正确的字符图像,进而为后续制作数据集的步骤提供了高质量的数据。
图3为根据本申请又一实施例的数据集制作方法的截图步骤的流程图。如图3所示,在上述实施例的基础上,在一种实施方式中,图1中的步骤S120,根据单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像,包括:
步骤S123,将单字符的字符位置信息进行排序;
步骤S124,根据排序后的单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像。
在一个示例中,某一张字符图像的内容标注信息为“3+5=8”。从该字符图像中截图得到的以下5个单字符图像:“3”、“+”、“5”、“=”和“8”。由于采用多线程操作的方式,字符位置检测模型输出的上述5个单字符图像的字符位置信息可能不是按照从左到右的顺序输出。例如字符位置检测模型首先输出的可能是单字符图像“8”的字符位置信息。由此需要将单字符的字符位置信息进行排序。
在步骤S123中,将步骤S110得到的单字符的字符位置信息进行排序。例如字符位置检测模型输出了单字符的文本框坐标,则在横向排版的文本中,将文本框坐标按照横坐标从左到右的顺序对单字符的文本框坐标进行排序。
在步骤S124中,根据步骤S123中排序后的单字符的字符位置信息和字符图像的内容标注信息,将单字符从字符图像上截取下来,得到单字符图像。在一种实施方式中,可使用OpenCV(Open Source Computer Vision Library,开源计算机视觉库)提供的截图方法进行截图操作。
图4为根据本申请另一实施例的数据集制作方法的识别步骤的流程图。如图4所示,在上述实施例的基础上,在一种实施方式中,图1中的步骤S130,将单字符图像输入字符识别模型进行识别,得到识别结果,还包括:
步骤S131,按照指定类别对单字符图像进行筛选;
步骤S132,将筛选出的指定类别的单字符图像输入字符识别模型。
本申请实施例中,可根据应用场景设置单字符图像的指定类别。指定类别可包括数字、字母、符号、汉字和盲文等类别中的至少一种。例如,在小学数学拍照批改试题和拍照搜题等应用场景中,利用字符图像相似度评估模型评估数字字符图像的相似度,则制作用于训练的字符图像相似度评估模型的数据集中仅保留内容标注信息为数字的单字符图像,丢弃内容标注信息为除数字之处的其他类别的单字符图像。再如,在英语学科拍照批改试题和拍照搜题等应用场景中,利用字符图像相似度评估模型评估英文字母字符图像的相似度,则制作用于训练的字符图像相似度评估模型的数据集中仅保留内容标注信息为英文字母的单字符图像,丢弃内容标注信息为除英文字母之处的其他类别的单字符图像。
本申请实施例中按照指定类别对单字符图像进行筛选,使得筛选出的单字符图像更加适合于特定的应用场景,进而为后续制作数据集的步骤提供了适用的高质量的数据。
在一种实施方式中,图1中的步骤S140,将识别结果与字符图像的内容标注信息相比对,根据比对结果对字符图像进行筛选,包括:
筛选出符合预设条件的字符图像,预设条件包括:从字符图像中截图得到的所有单字符图像的识别结果均正确。
从步骤S120得到的单字符图像中,可随机挑选出少部分单字符图像,根据单字符图像的内容标注信息,训练字符识别模型。然后在步骤S130中用训练好的字符识别模型对步骤S120得到的单字符图像进行识别。由于单字符图像是从字符图像中截图得到的,可获取每个单字符图像与其对应的字符图像及字符图像的内容标注信息。将字符识别模型的识别结果与字符图像的内容标注信息进行对比校验,如果从某张字符图像上截取出来的所有单字符图像的识别结果与字符图像的内容标注信息完全一致,那么则认为该字符图像上的单字符检测结果完全正确。例如,某一张字符图像的内容标注信息为“3+5=8”。从该字符图像中截图得到的5个单字符图像:“3”、“+”、“5”、“=”和“8”。将以上5个单字符图像分别输入字符识别模型进行识别,如果识别得到的5个单字符连接起来也是“3+5=8”,则确定从字符图像中截图得到的所有单字符图像的识别结果均正确,也就是说该字符图像符合筛选的预设条件。保留符合预设条件的字符图像及从其上截图得到的所有单字符图像,丢弃掉不符合预设条件的字符图像和从其上截图得到的所有单字符图像。
本申请实施例中,将从字符图像上截取出来的所有单字符图像的识别结果与字符图像的内容标注信息进行对比校验,筛选出所有单字符图像的识别结果均正确的字符图像,进而为后续制作数据集的步骤提供了高质量的数据。
图5为根据本申请另一实施例的数据集制作方法的数据集制作步骤的流程图。如图5所示,在上述实施例的基础上,在一种实施方式中,图1中的步骤S150,利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集,还包括:
步骤S151,利用筛选出的字符图像得到组合字符图像;
步骤S152,利用组合字符图像制作用于字符图像相似度评估模型的数据集;
其中,组合字符图像包括筛选出的字符图像、从筛选出的字符图像中截图得到的单字符图像,以及排列字符图像;排列字符图像由至少两个单字符图像组成,并且组成排列字符图像的任意一个单字符图像是从筛选出的字符图像中截图得到的单字符图像。
在步骤S151中,可利用筛选出的字符图像进一步扩展,得到组合字符图像。例如,筛选出的字符图像的内容标注信息为“3+5=8”。从该字符图像中截图得到的5个单字符图像:“3”、“+”、“5”、“=”和“8”。根据字符图像进一步扩展得到的组合字符图像可以包括字符图像“3+5=8”,以及字符图像“3+5=8”中截图得到的单字符图像“3”、“+”、“5”、“=”和“8”。另外,组合字符图像还可以包括排列字符图像。排列字符图像可通过以上5个单字符图像排列组合而得到,其中每个单字符图像可以多次重复使用,最后得到的排列字符图像可以是:“35”、“58”、“33+55”、“8888”等。
本申请实施例中,利用筛选出的字符图像进一步扩展,得到组合字符图像,在保证质量的前提下,使得可用于制作数据集的字符图像的内容更加丰富,进而为后续制作数据集的步骤提供了丰富的高质量的数据。
在上述实施例的基础上,在一种实施方式中,图1中的步骤S150,利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集,包括:
将组合字符图像中的内容标注信息相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的正训练样本;
将组合字符图像中的内容标注信息不相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的负训练样本。
对步骤S140得到的字符图像按照内容标注信息,进行随机的排列组合,两张内容标注信息相同的字符图像为相似图像对样本,即用于字符图像相似度评估模型的正训练样本。两张内容标注信息不相同的字符图像为不相似图像样本对,即用于字符图像相似度评估模型的负训练样本。结合实际场景下的应用需求,根据不同的正负样本比例,可得到不同特性的字符图像相似度评估模型的训练数据集。
在一种实施方式中,字符位置检测模型包括EAST模型(An EfficientandAccurate Scene Text Detector,高效准确的场景文本检测模型)。
本申请实施例中需要使用字符位置检测模型对收集到的字符图像进行处理。在不同的应用场景下可选择适用的字符位置检测模型。例如,在小学数学拍照批改试题和拍照搜题等应用场景中,需要处理的字符图像多数情况下是算式图像。算式图像中的文本一般较短,长宽变化不大,因此可选用滑动窗口类模型EAST进行字符检测。在EAST模型中,使用全卷积网络(Fully ConvolutionalNetworks,FCN)直接预测文本行和单词的位置信息,例如预测文本行和单词的文本框坐标。然后使用非极大值抑制(Non-Maximum Suppression,NMS)合并坐标框。使用EAST模型可减少文本检测的中间过程,极大地减少了检测时间。
在一种实施方式中,字符识别模型包括Le-Net模型。
仍以小学数学拍照批改试题和拍照搜题等应用场景为例,该应用场景下需要识别的数字字符图像比较简单,并且Le-Net模型能够达到非常高的准确率,在该应用场景下可选择Le-Net模型进行数字字符识别。在拍照批改试题的应用场景中,可选择Le-Net模型进行手写数字字符识别。
综上,在小学数学拍照批改试题和拍照搜题等应用场景中,因为小学算式图像背景变化较少,图像内容相对简单,而且图像中数字字符的位置相对变化不大,所以对于EAST模型和Le-Net模型来说,只需要标注少量字符图像,就可以在大量的数据集上取得不错的泛化能力。其中,泛化能力是指机器学习算法对新鲜样本的适应能力。机器学习的目的是学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出的能力称为泛化能力。
本申请实施例利用EAST模型对字符图像中的单字符位置进行检测,然后使用前述方法和Le-Net识别模型对检测结果进行校验,在仅使用少量带有内容标注信息的字符图像情况下,能够生产大量的用于字符相似度评估模型的高质量训练数据,从而节省了大量的人工标注成本。
图6为根据本申请另一实施例的数据集制作方法的流程图。图6示出了应用于小学数学拍照批改试题和拍照搜题的数据集制作方法,在该应用场景下,字符图像通常包括算式图像。一个示例性的应用于小学数学拍照批改试题和拍照搜题的数据集制作方法可包括以下步骤:
步骤1)收集已标注过的大量的小学数学算式图像。
步骤2)从步骤1)中收集的算式图像中挑选出极少部分算式图像,人工标注每个算式图像中每个单字符的字符位置信息。
步骤3)使用标注过字符位置的数据组成数据集训练检测模型EAST。
步骤4)使用训练好的检测模型EAST对其他小学数学算式图像进行字符位置检测。
步骤5)判断每张图像中检测到的字符位置框数量与这个算式的标注字符数是否相等,若判断结果为不相等则丢弃检测结果。
步骤6)若判断结果为相等,则保留该算式图像的检测结果。
步骤7)得到每张算式图像中的每个字符的字符位置坐标,例如每个字符对应的文本框坐标。
步骤8)对每个字符对应的文本框坐标按照横坐标从左到右排序。
步骤9)根据算式图像的内容标注信息,按照文本框坐标的顺序得到每个字符对应的标注信息,从而得到单个数字字符。
步骤10)按照每个数字字符的文本框坐标在算式图像上截图,得到单字符图像。
步骤11)从步骤10)中得到的单字符图像中挑选出极少的数字单字符图像训练数字字符识别模型。
步骤12)将所有的单字符图像全部输入到识别模型进行识别,并将识别结果与算式图像的内容标注信息比对。只保留算式图像上截图得到的全部单字符图像的识别结果均正确的算式图像及其截图结果。
步骤13)根据算式图像及其内容标注信息,构建数据集。
步骤14)将任意两张内容标注信息相同的算式图像作为相似图像样本对,将任意两张内容标注信息不相同的算式图像作为不相似图像样本对。
步骤15)按照不同正负样本比例构建不同特性的字符图像相似度评估模型训练数据集。
图7为根据本申请实施例的数据集制作装置的结构示意图。如图7所示,该装置可以包括:
检测单元100,用于将字符图像输入字符位置检测模型进行检测,得到字符图像中的单字符的字符位置信息;
截图单元200,用于根据单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像;
识别单元300,用于将单字符图像输入字符识别模型进行识别,得到识别结果;
筛选单元400,用于将识别结果与字符图像的内容标注信息相比对,根据比对结果对字符图像进行筛选;
制作单元500,用于利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集。
在一种实施方式中,截图单元200还用于:
根据字符位置检测模型检测得到的单字符数量和字符图像的内容标注信息中的单字符数量是否相等,确定字符位置检测模型的检测结果是否正确;
基于正确的检测结果执行在字符图像上截图的步骤。
在一种实施方式中,截图单元200用于:
将单字符的字符位置信息进行排序;
根据排序后的单字符的字符位置信息和字符图像的内容标注信息,在字符图像上截图,得到单字符图像。
在一种实施方式中,识别单元300还用于:
按照指定类别对单字符图像进行筛选;
将筛选出的指定类别的单字符图像输入字符识别模型。
在一种实施方式中,筛选单元400用于:
筛选出符合预设条件的字符图像,预设条件包括:从字符图像中截图得到的所有单字符图像的识别结果均正确。
在一种实施方式中,制作单元500用于:
利用筛选出的字符图像得到组合字符图像;
利用组合字符图像制作用于字符图像相似度评估模型的数据集;
其中,组合字符图像包括筛选出的字符图像、从筛选出的字符图像中截图得到的单字符图像,以及排列字符图像;排列字符图像由至少两个单字符图像组成,并且组成排列字符图像的任意一个单字符图像是从筛选出的字符图像中截图得到的单字符图像。
在一种实施方式中,制作单元500用于:
将组合字符图像中的内容标注信息相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的正训练样本;
将组合字符图像中的内容标注信息不相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的负训练样本。
在一种实施方式中,字符位置检测模型包括EAST模型。
在一种实施方式中,字符识别模型包括Le-Net模型。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图8为用来实现本申请实施例的电子设备的框图。如图8所示,该电子设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。处理器920执行该计算机程序时实现上述实施例中的数据集制作方法。存储器910和处理器920的数量可以为一个或多个。
该电子设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(PeripheralComponentInterconnect,PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本申请实施例中提供的方法。
本申请实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本申请实施例提供的方法。
本申请实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行申请实施例提供的方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(fieldprogrammablegate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(advancedRISC machines,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(read-onlymemory,ROM)、可编程只读存储器(programmableROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic random accessmemory,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (20)
1.一种数据集制作方法,其特征在于,包括:
将字符图像输入字符位置检测模型进行检测,得到所述字符图像中的单字符的字符位置信息;
根据所述单字符的字符位置信息和所述字符图像的内容标注信息,在所述字符图像上截图,得到单字符图像;
将所述单字符图像输入字符识别模型进行识别,得到识别结果;
将所述识别结果与所述字符图像的内容标注信息相比对,根据比对结果对所述字符图像进行筛选;
利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集。
2.根据权利要求1所述的方法,其特征在于,根据所述单字符的字符位置信息和所述字符图像的内容标注信息,在所述字符图像上截图,得到单字符图像,还包括:
根据所述字符位置检测模型检测得到的单字符数量和所述字符图像的内容标注信息中的单字符数量是否相等,确定所述字符位置检测模型的检测结果是否正确;
基于正确的检测结果执行所述在所述字符图像上截图的步骤。
3.根据权利要求1所述的方法,其特征在于,根据所述单字符的字符位置信息和所述字符图像的内容标注信息,在所述字符图像上截图,得到单字符图像,包括:
将所述单字符的字符位置信息进行排序;
根据排序后的单字符的字符位置信息和所述字符图像的内容标注信息,在所述字符图像上截图,得到单字符图像。
4.根据权利要求1所述的方法,其特征在于,将所述单字符图像输入字符识别模型进行识别,得到识别结果,还包括:
按照指定类别对所述单字符图像进行筛选;
将筛选出的指定类别的单字符图像输入字符识别模型。
5.根据权利要求1至4中任一项所述的方法,其特征在于,将所述识别结果与所述字符图像的内容标注信息相比对,根据比对结果对所述字符图像进行筛选,包括:
筛选出符合预设条件的字符图像,所述预设条件包括:从所述字符图像中截图得到的所有单字符图像的识别结果均正确。
6.根据权利要求1至4中任一项所述的方法,其特征在于,利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集,还包括:
利用筛选出的字符图像得到组合字符图像;
利用所述组合字符图像制作用于字符图像相似度评估模型的数据集;
其中,所述组合字符图像包括筛选出的字符图像、从筛选出的字符图像中截图得到的单字符图像,以及排列字符图像;所述排列字符图像由至少两个单字符图像组成,并且组成所述排列字符图像的任意一个单字符图像是从筛选出的字符图像中截图得到的单字符图像。
7.根据权利要求6所述的方法,其特征在于,利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集,包括:
将所述组合字符图像中的内容标注信息相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的正训练样本;
将所述组合字符图像中的内容标注信息不相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的负训练样本。
8.根据权利要求1至4中任一项所述的方法,其特征在于,所述字符位置检测模型包括EAST模型。
9.根据权利要求1至4中任一项所述的方法,其特征在于,所述字符识别模型包括Le-Net模型。
10.一种数据集制作装置,其特征在于,包括:
检测单元,用于将字符图像输入字符位置检测模型进行检测,得到所述字符图像中的单字符的字符位置信息;
截图单元,用于根据所述单字符的字符位置信息和所述字符图像的内容标注信息,在所述字符图像上截图,得到单字符图像;
识别单元,用于将所述单字符图像输入字符识别模型进行识别,得到识别结果;
筛选单元,用于将所述识别结果与所述字符图像的内容标注信息相比对,根据比对结果对所述字符图像进行筛选;
制作单元,用于利用筛选出的字符图像制作用于字符图像相似度评估模型的数据集。
11.根据权利要求10所述的装置,其特征在于,所述截图单元还用于:
根据所述字符位置检测模型检测得到的单字符数量和所述字符图像的内容标注信息中的单字符数量是否相等,确定所述字符位置检测模型的检测结果是否正确;
基于正确的检测结果执行所述在所述字符图像上截图的步骤。
12.根据权利要求10所述的装置,其特征在于,所述截图单元用于:
将所述单字符的字符位置信息进行排序;
根据排序后的单字符的字符位置信息和所述字符图像的内容标注信息,在所述字符图像上截图,得到单字符图像。
13.根据权利要求10所述的装置,其特征在于,所述识别单元还用于:
按照指定类别对所述单字符图像进行筛选;
将筛选出的指定类别的单字符图像输入字符识别模型。
14.根据权利要求10至13中任一项所述的装置,其特征在于,所述筛选单元用于:
筛选出符合预设条件的字符图像,所述预设条件包括:从所述字符图像中截图得到的所有单字符图像的识别结果均正确。
15.根据权利要求10至13中任一项所述的装置,其特征在于,所述制作单元用于:
利用筛选出的字符图像得到组合字符图像;
利用所述组合字符图像制作用于字符图像相似度评估模型的数据集;
其中,所述组合字符图像包括筛选出的字符图像、从筛选出的字符图像中截图得到的单字符图像,以及排列字符图像;所述排列字符图像由至少两个单字符图像组成,并且组成所述排列字符图像的任意一个单字符图像是从筛选出的字符图像中截图得到的单字符图像。
16.根据权利要求15所述的装置,其特征在于,所述制作单元用于:
将所述组合字符图像中的内容标注信息相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的正训练样本;
将所述组合字符图像中的内容标注信息不相同的字符图像,作为用于训练字符图像相似度评估模型的数据集的负训练样本。
17.根据权利要求10至13中任一项所述的装置,其特征在于,所述字符位置检测模型包括EAST模型。
18.根据权利要求10至13中任一项所述的装置,其特征在于,所述字符识别模型包括Le-Net模型。
19.一种电子设备,其特征在于,包括处理器和存储器,所述存储器中存储指令,所述指令由处理器加载并执行,以实现如权利要求1至9任一项所述的方法。
20.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010670291.0A CN111832550B (zh) | 2020-07-13 | 2020-07-13 | 数据集制作方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010670291.0A CN111832550B (zh) | 2020-07-13 | 2020-07-13 | 数据集制作方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111832550A true CN111832550A (zh) | 2020-10-27 |
CN111832550B CN111832550B (zh) | 2022-06-07 |
Family
ID=72922806
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010670291.0A Active CN111832550B (zh) | 2020-07-13 | 2020-07-13 | 数据集制作方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111832550B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488094A (zh) * | 2020-12-18 | 2021-03-12 | 北京字节跳动网络技术有限公司 | 光学字符识别方法、装置和电子设备 |
JP2023541527A (ja) * | 2021-08-13 | 2023-10-03 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150137752A (ko) * | 2014-05-30 | 2015-12-09 | 삼성에스디에스 주식회사 | 문자 인식 방법 및 그 장치 |
CN107403130A (zh) * | 2017-04-19 | 2017-11-28 | 北京粉笔未来科技有限公司 | 一种字符识别方法及字符识别装置 |
CN110210478A (zh) * | 2019-06-04 | 2019-09-06 | 天津大学 | 一种商品外包装文字识别方法 |
CN110533057A (zh) * | 2019-04-29 | 2019-12-03 | 浙江科技学院 | 一种单样本与少样本场景下的汉字验证码识别方法 |
CN110569830A (zh) * | 2019-08-01 | 2019-12-13 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-07-13 CN CN202010670291.0A patent/CN111832550B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150137752A (ko) * | 2014-05-30 | 2015-12-09 | 삼성에스디에스 주식회사 | 문자 인식 방법 및 그 장치 |
CN107403130A (zh) * | 2017-04-19 | 2017-11-28 | 北京粉笔未来科技有限公司 | 一种字符识别方法及字符识别装置 |
CN110533057A (zh) * | 2019-04-29 | 2019-12-03 | 浙江科技学院 | 一种单样本与少样本场景下的汉字验证码识别方法 |
CN110210478A (zh) * | 2019-06-04 | 2019-09-06 | 天津大学 | 一种商品外包装文字识别方法 |
CN110569830A (zh) * | 2019-08-01 | 2019-12-13 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112488094A (zh) * | 2020-12-18 | 2021-03-12 | 北京字节跳动网络技术有限公司 | 光学字符识别方法、装置和电子设备 |
JP2023541527A (ja) * | 2021-08-13 | 2023-10-03 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | テキスト検出に用いる深層学習モデルトレーニング方法及びテキスト検出方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111832550B (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112100063B (zh) | 界面语言的显示测试方法、装置、计算机设备和存储介质 | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CN111767228B (zh) | 基于人工智能的界面测试方法、装置、设备和介质 | |
EP3989104A1 (en) | Facial feature extraction model training method and apparatus, facial feature extraction method and apparatus, device, and storage medium | |
CN109918523B (zh) | 一种基于yolo9000算法的电路板元器件检测方法 | |
CN109284355B (zh) | 一种批改试卷中口算题的方法及装置 | |
CN112990180B (zh) | 判题方法、装置、设备及存储介质 | |
CN107886082B (zh) | 图像中数学公式检测方法、装置、计算机设备及存储介质 | |
CN111310613B (zh) | 一种图像检测方法、装置以及计算机可读存储介质 | |
CN111832550B (zh) | 数据集制作方法、装置、电子设备及存储介质 | |
CN111429482A (zh) | 目标跟踪方法、装置、计算机设备和存储介质 | |
CN112396047B (zh) | 训练样本生成方法、装置、计算机设备和存储介质 | |
CN110705596A (zh) | 白屏检测方法、装置、电子设备及存储介质 | |
CN112347997A (zh) | 一种试题检测识别方法、装置、电子设备及介质 | |
US8787702B1 (en) | Methods and apparatus for determining and/or modifying image orientation | |
CN115661836A (zh) | 一种自动批改方法、装置、系统及可读存储介质 | |
CN117351505A (zh) | 信息码的识别方法、装置、设备及存储介质 | |
CN116704508A (zh) | 信息处理方法及装置 | |
CN116343007A (zh) | 目标检测方法、装置、设备和存储介质 | |
CN116884006A (zh) | 结合视觉扫描识别与纠正的数学解题方法和系统 | |
Jasmin et al. | Detection of Forged Handwriting Through Analyzation of Handwritten Characters Using Support Vector Machine | |
CN111191578B (zh) | 一种自动评分方法、装置、设备及存储介质 | |
CN110751140A (zh) | 字符批量识别方法、装置和计算机设备 | |
CN118278385B (zh) | 一种基于篇章卷面分析的测试方法、装置及可读存储介质 | |
CN111104881B (zh) | 一种图像处理的方法和相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |