CN110135407A

CN110135407A - 样本标注方法及计算机存储介质

Info

Publication number: CN110135407A
Application number: CN201810134135.5A
Authority: CN
Inventors: 兴百桥
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2019-08-16
Anticipated expiration: 2038-02-09
Also published as: CN110135407B

Abstract

本发明提供了一种样本标注方法及计算机存储介质。该样本标注方法，包括：通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框；针对每个字符框，判断当前字符框是否满足以下条件中的至少两个：当前字符框的宽度大于第一预设值，当前字符框的宽高比大于第二预设值，当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值；若是，则将当前字符框对应的字符标注为分式线，并进行分式线处理。该样本标注方法的标注效果更好。

Description

样本标注方法及计算机存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种样本标注方法及计算机存储介质。

背景技术

随着人工智能和机器学习技术的发展，越来越多的领域开始采用机器学习方法训练设备，使之具有一定的智能性。随之而来的是对训练样本的需求增长。例如，在训练光学字符检测模型和识别模型时都需要大量的标注样本，标注样本是指在真实样本上通过人工标注出用于指示字符位置的字符框和字符类别。现有的在获取真实样本时利用纯手工标注的方法，存在着效率低的问题，而且因为人工标注会有一定的精度损失，例如存在人工失误造成字符位置标注不准确，字符内容标注错误的情况，这使得标注后的样本在进行机器学习方法训练设备时效果不能发挥最好。

现有的字符检测模型可以实现自动化字符检测，并可以通过字符框的方式对字符进行标识，但也存在着一些问题，例如，在包含公式的样本图像中，可能存在一些公式符号，例如分式线、根号、加号和减号等，这些公式符号通过现有的字符检测模型可能被误检测为其他字形类似的字符或者根本不能被检测，使得字符检测的准确度下降，需要人工进行大量修正，增加了人工的劳动强度。在通过人工修正时，又存在着前述的人工标注精度低的问题。总之，现有的通过字符标注方法存在着效率低、精度不好的问题。

发明内容

有鉴于此，本发明实施例提供一种样本标注方法及计算机存储介质，以解决现有技术中真实样本标注准确率低的问题。

本发明实施例提供一种样本标注方法，其包括：通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框；针对每个字符框，判断当前字符框是否满足以下条件中的至少两个：当前字符框的宽度大于第一预设值，当前字符框的宽高比大于第二预设值，当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值；若是，则将当前字符框对应的字符标注为分式线，并进行分式线处理。

根据本发明的另一方面，提供一种计算机存储介质，该计算机存储介质存储有：用于通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框的指令；用于针对每个字符框，判断当前字符框是否满足以下条件中的至少两个的指令，其中，以下条件包括：当前字符框的宽度大于第一预设值，当前字符框的宽高比大于第二预设值，当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值；用于当满足至少两个条件时，将当前字符框对应的字符标注为分式线，并进行分式线处理的指令。

本发明实施例提供的一种样本标注方案，通过字符检测模型对待标注的样本图像进行检测，并能够根据检测结果确定用于指示样本图像中各个字符位置的字符框。通过确定并标注分式线对应的字符框，并对确定的字符框进行分式线处理，使得通过该样本标注方法标注的样本图像可以有效避免分式线对应的字符框影响后续机器学习模型训练效果的问题。此外，该样本标注方法可以对分式线对应的字符框进行自动处理，减少了人工校对的工作量，且保证了样本标注的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的一种样本标注方法的流程示意图；

图2为本发明实施例二提供的一种样本标注方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

图1示出了根据本发明的实施例一提供的一种样本标注方法的流程示意图。如图1所示，该样本标注方法包括：

S101：通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框。

待标注的样本图像用于后续进行机器学习模型的训练，作为训练样本图像。本发明实施例中，训练样本图像为包括字符信息的图像，其中，字符包括但不限于：文字、字母、数字、符号。

字符检测模型用于检测待标注的样本图像中的字符。字符检测模型可以由本领域技术人员根据实际需求采用适当的模型，本发明实施例对此不作限制。例如，字符检测模型可以包括但不限于连通域分析模型、和神经网络模型等。

字符框用于指示待标注的样本图像中的各字符的字符位置。字符框的位置和大小可以根据需求采用适当的方式进行表示，例如，字符框为矩形，字符框可以通过定位点坐标、宽度和高度的方式进行表示；或者，通过四个顶点的坐标对字符框进行表示；或者通过两个对角点的坐标对字符框进行表示。

S102：针对每个字符框，判断当前字符框是否满足设定条件中的至少两个，若满足设定条件中的至少两个，则确定当前字符框对应的字符为分式线，执行步骤S103；若不满足设定条件中的至少两个，则确定当前字符框对应的字符不为分式线，结束本次流程。

其中，设定条件包括：设定条件一：当前字符框的宽度大于第一预设值。设定条件二：当前字符框的宽高比大于第二预设值。设定条件三：当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值。

对于包括分式的样本图像，由于分式线与减号、“一”、下划线等字符的结构相似，针对根据检测结果确定的字符框，若不做处理，直接生成标注文件，并使用这一标注文件和样本图像对机器学习模型进行训练，会对训练效果产生不利影响，致使训练效果不好。为此，需要在对样本图像进行标注时，对分式线对应的字符框进行处理。其中一种可行的处理方式例如，判断各个字符框是否为分式线对应的字符框，若是分式线对应的字符框，则执行步骤S103。反之，则结束对当前字符框的判断，对下一个字符框进行判断，直至对所有字符框都判断完成。

对于本领域技术人员而言，其可以选择合适的方式判断各个字符框是否为与分式线对应的字符框。例如，判断当前字符框是否满足以下条件(即设定条件)中的至少两个：当前字符框的宽度大于第一预设值(即设定条件一)，当前字符框的宽高比大于第二预设值(即设定条件二)，当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值(即设定条件三)。

S103：将当前字符框对应的字符标注为分式线，并进行分式线处理。

各个字符框中，若当前字符框满足上述的条件中的至少两个，则表示该当前字符框对应的字符是分式线，则对当前字符框进行分式线处理。本领域技术人员可以根据需要采取合适的方式对当前字符框进行处理。例如，删除该当前字符框。或者，对该当前字符框进行标示，以指示该当前字符框为对应分式线的字符框。

该样本标注方法，通过字符检测模型对待标注的样本图像进行检测，并能够根据检测结果确定用于指示样本图像中各个字符位置的字符框。通过确定分式线对应的字符框，并对确定的字符框进行分式线处理，使得通过该样本标注方法标注的样本图像可以有效避免分式线对应的字符框影响后续机器学习模型训练效果的问题。此外，该样本标注方法可以对分式线对应的字符框进行自动处理，减少了人工校对的工作量，且保证了样本标注的准确性。

实施例二

图2示出了根据本发明的实施例二提供的一种样本标注方法的流程示意图。如图2所示，该样本标注方法包括：

S201：获取待标注的样本图像。

S202：确定是否存在对应于待标注的样本图像的标注完成的数据文件；若存在，则加载标注完成的数据文件，结束本次流程；若不存在，则执行步骤S203。

首先需要说明的是，本步骤为可选步骤。

标注完成的数据文件包括待标注的样本图像的标注完成的字符框和标注完成的各个字符框对应的字符类别的信息。标注完成的字符框用于指示待标注的样本图像中的各个字符的字符位置。各个字符框对应的字符类别的信息用于指示各个字符框对应的字符的内容(如“8”、“好”等)，还可以用于指示各个字符的类别(如“汉字”、“数字”、“字母”等)。

若存在标注完成的数据文件，则可以根据该数据文件生成待标注的样本图像的标注信息。或者，将该数据文件和待标注的样本图像加载至校对工具中，将样本图像和数据文件中的字符框和字符类别的信息在校对工具中进行显示，以方便后续进行人工校对，并结束本次流程。通过确定是否存在标注完成的数据文件可以避免同一样本图像进行重复标注，可以提升标注效率。

若不存在标注完成的数据文件，则执行步骤S203。

S203：通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框。

本领域技术人员能够根据需要选择合适的模型进行检测，例如，字符检测模型可以包括连通域分析模型和/或神经网络检测模型。在本实施例中，设定字符检测模型包括连通域分析模型和神经网络检测模型。通过连通域分析模型和神经网络检测模型分别对待标注的样本图像进行检测，可以提升对样本图像检测的准确度，进而提升样本图像标注的准确度，减少对噪点、图表等的误标注。在检测时，先通过连通域分析模型和神经网络检测模型分别对待标注的样本图像进行检测，再综合两个模型的检测结果确定用于指示样本图像中的各个字符的字符位置的字符框，以提升标注的准确性。

此种情况下，即当字符检测模型包括连通域分析模型和神经网络检测模型时，通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框可以包括以下子步骤：

子步骤1：通过连通域分析模型对待标注的样本图像进行连通域分析，根据连通域分析的分析结果确定用于指示样本图像中各个字符的字符位置的第一候选字符框。

其中，连通域一般是指图像中具有相同像素值且位置相邻的像素点组成的图像区域。连通域分析是一种将图像中的各个连通区域找出并标记的分析方法。本发明实施例中，连通域分析方法可以由本领域技术人员根据实际需求采用任意适当的方式实现，如采用openVC二值图像连通域分析方法等。

通过对图像中的像素进行连通域分析，可以确定相邻的像素的颜色是否相同，从而确定字符边界，进而确定各个字符的位置，实现字符分割。通过对待标注的样本图像进行连通域分析，可以获得分析结果，并根据分析结果确定出待标注的样本图像中的各个字符，确定各个字符的位置，并生成用于指示各个字符的位置的第一候选字符框。

子步骤2：通过神经网络模型对待标注的样本图像进行字符检测，根据字符检测结果确定用于指示样本图像中各个字符的字符位置的第二候选字符框。

神经网络模型可以是任意适当的模型，例如可以是卷积神经网络模型，将待标注的样本图像作为输入，输入到能够实现字符检测的神经网络模型，并获得字符检测结果，根据字符检测结果确定用于指示各个字符位置的第二候选字符框。

子步骤3：根据第一候选字符框、第二候选字符框和预设的字符框取舍规则生成检测结果，根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框。

对于本领域技术人员而言，其可以根据需求确定合适的取舍规则。例如，在一种可行方式中，取舍规则包括第一取舍规则、第二取舍规则和第三取舍规则。其中，第一取舍规则为：针对各个第一候选字符框，确定是否存在与当前第一候选字符框存在重叠、且重叠面积大于或等于预设重叠值的第二候选字符框。第二取舍规则为：针对各个第一候选字符框，确定是否存在与当前第一候选字符框存在重叠、且重叠面积小于预设重叠值的第二候选字符框。第三取舍规则为：针对各个第一候选字符框，若不存在与当前第一候选字符框重叠的第二候选字符框，则确定是否存在与当前第一候选字符框的水平距离小于设定距离值的第二候选字符框。其中，预设重叠值可以根据需要确定，例如80％、90％或100％等。

针对第一取舍规则，对各个第一候选字符框进行取舍时，若各个第二候选字符框中存在与当前第一候选字符框重叠、且重叠面积大于或等于预设重叠值的第二候选字符框，则删除该当前第一候选字符框，保留与当前第一候选字符框重叠、且重叠面积大于或等于预设重叠值的第二候选字符框。适应性地，可以删除字符类别的信息中与该当前第一候选字符框对应的字符内容和/或类别。

可选地，为了进一步提升标注的准确性，可以判断与保留的第二候选字符框对应的字符类别是否为其他类(other类)，其他类是指未能识别该第二候选字符框所指示的字符位置处的字符，因此该字符类别为其他类。若为其他类，则可以对该保留的第二候选字符框进行标识，以备后续步骤中对该第二候选字符框对应的字符类别和/或字符内容进行修正。

针对第二取舍规则，对各个第一候选字符框进行取舍时，若各个第二候选字符框中存在与当前第一候选字符框重叠、且重叠面积小于预设重叠值的第二候选字符框，则保留该当前第一候选字符框，并保留与当前第一候选字符框重叠、且重叠面积小于预设重叠值的第二候选字符框。

针对第三取舍规则，针对各个第一候选字符框，若不存在与当前第一候选字符框重叠的第二候选字符框，则确定是否存在与当前第一候选字符框的水平距离小于设定距离值的第二候选字符框。其中，设定距离值可以由本领域技术人员根据实际情况适当设置，本发明实施例对此不作限制。

若存在小于设定距离值的第二候选字符框，则保留该当前第一候选字符框。若不存在小于设定距离值的第二候选字符框，则删除该当前第一候选字符框。需要说明的是，由于待标注的样本图像中的字符排列方式通常是水平排列，因此判断是否存在与当前第一候选字符框的水平距离小于设定距离值的第二候选字符框。若待标注的样本图像的字符排列方式为竖直排列，则可以根据具体情况，判断是否存在与当前第一候选字符框的垂直距离小于设定距离值的第二候选字符框。

这种通过对当前第一候选字符框在水平方向上查找是否存在与之相邻的第二候选字符框，若存在则保留，否则舍弃的方式，可以删除连通域分析检测过程中没有去掉的噪声框，或者保留神经网络模型漏检的字符框，最大限度提升字符检测及识别的精度。

在通过取舍规则对各个第一候选字符框和第二候选字符框进行取舍之后，可以综合保留的第一候选字符框和第二候选字符框生成检测结果，并根据该检测结果确定最终的用于指示样本图像中各个字符位置的字符框。

此外，在根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框的基础上，还可以根据检测结果确定各个字符框对应的字符类别的信息。字符类别的信息包括与各个字符框对应的字符内容和/或字符类别，以进一步提升自动化标注样本图像的能力，减少人工工序，降低劳动强度。

S204：确定待标注的样本图像中是否包括公式；若包括公式，则执行步骤S205-S207；若不包括公式，则执行步骤S208-S209。

需要说明的是，本步骤为可选步骤。

本领域技术人员可以采取任意适当的方式确定样本图像中是否包括公式。例如，通过训练完成的公式与非公式的二分类器确定。或者预先在待标注的样本图像中添加标记，以指示该待标注的样本图像中是否包括公式。

S205：针对每个字符框，判断当前字符框是否满足设定条件中的至少两个，若满足设定条件中的至少两个，则确定当前字符框对应的字符为分式线，执行步骤S206；若不满足设定条件中的至少两个，则确定当前字符框对应的字符不为分式线，执行步骤S207。

其中，一种可行的判断当前字符框是否满足当前字符框的宽度大于第一预设值的方式包括：根据所有字符框的数量和各个字符框的宽度确定字符框平均宽度；根据字符框平均宽度，判断当前字符框是否满足字符框的宽度大于第一预设值。

其中，字符框平均宽度等于各个字符框的宽度之和除以所有字符框的数量。

可选地，根据字符框平均宽度，判断当前字符框是否满足字符框的宽度大于第一预设值包括：根据字符框平均宽度和第一预设比例获取第一预设值；判断当前字符框是否满足字符框的宽度大于第一预设值。其中，第一预设比例可以根据需要设定，例如，第一预设比例可以是2、3、4、5、或6等。在本实施例中，第一预设比例为4。根据该第一预设比例获取的第一预设值为4倍的字符框平均宽度。

但不限于上述根据第一预设值对当前字符框进行判断的方式，在实际应用中，也可以将第一预设值设置为字符框平均宽度等。

在判断当前字符框是否满足字符框的宽高比大于第二预设值时，一种可行方式包括：针对各个字符框，获取当前字符框的宽度和高度；根据当前字符框的宽度和高度，确定当前字符框的宽高比；判断当前字符框的宽高比是否大于第二预设值。

其中，第二预设值可以根据需要设定，例如，根据经验设置或者根据多个字符框的统计结果设置等等，如，第二预设值可以是2、3、4、5、或6等。在本实施例中，第二预设值为5。

一种可行的判断当前字符框是否满足当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值的方式包括：将待标注的样本图像转换为黑白二值图像，其中，将黑色像素作为第一设定像素，将白色像素作为第二设定像素；针对各个字符框，获取当前字符框对应的图像中的第一设定像素的像素数量和第二设定像素的像素数量；确定第一设定像素的像素数量与第二设定像素的像素数量的比值；判断比值是否大于第三预设值。

需要说明的是，在实际应用中，不限于将待标注的样本图像转换为黑白二值图像的方式，也可以直接获取字符框中相应像素的像素数量进而确定两者的比值。

第三预设值可以根据需要设定，例如，第三预设值可以是0.1、0.3、0.5、0.6或0.9等。在本实施例中，第三预设值为0.9。

S206：将当前字符框对应的字符确定为分式线，并进行分式线处理。

根据步骤S205的判断，可以确定当前字符框对应的字符是否为分式线，若为分式线，则进行相应的分式线处理。例如，删除分式线对应的字符框，或者，对该分式线对应的字符框进行设定标记。

基于上述分式线处理，可选地，还可以进行以下可选处理中的一种或多种，如，进行步骤S207的根号处理、步骤S208的合并处理、步骤S209的异常字符框处理中的一个或多个。为了便于说明，本实施例中顺序对以上处理进行了说明，但本领域技术人员应当明了，在实际应用中，可以仅采用其中的部分处理，处理顺序也可以不同于本实施例中的顺序。

S207：针对分式线处理后的各个字符框，确定当前字符框对应的字符是否为根号符号，若为根号符号，则对根号符号对应的字符框进行根号处理，然后执行步骤S208；若不为根号符号，则直接执行步骤S208。

在一种可行方式中，通过训练完成的根号与非根号的二分类器判断当前字符框对应的字符是否为根号符号。例如，可以将样本图像中与各个字符框对应的字符输入到二分类器中，通过二分类器判断各个字符是否为根号符号，以对根号符号进行准确判断。

可选地，在将各个字符框对应的字符输入二分类器之前，可以对各个字符框对应的字符进行预判断，确定各个字符框对应的字符是否可能为根号符号。例如，获得各个字符框对应的字符的字符像素在对应的连通域区块中的总像素数量，以及，在连通域区块的第一设定区域的第一像素数量和第二设定区域的第二像素数量。根据总像素数量、第一像素数量和第二像素数量，确定各个字符框对应的字符是否可能为根号字符。

其中，待标注的样本图像经过连通域分析，获取的分析结果中包括连通域区块信息，连通域区块信息用于指示各个字符对应的连通域区块、以及各个连通域区块的相关信息，例如，像素数量、像素颜色等。

各个字符的字符像素在对应的连通域区块中的总像素数量可以根据连通域区块信息形成的黑白二值图确定总像素数量。该总像素数量可以是连通域区块中的相互连通的黑色像素的总数量。

第一设定区域为距离连通域区块的顶部边沿第一预设距离内的区域；第二设定区域为距离连通域区块的左侧边沿第二预设距离内的区域。对于根号符号而言，其可以分为处于左侧的折线部分和处于上部的横线部分，因此，在判断是否为根号符号时，需要获取位于距离连通域区块的顶部边沿第一预设距离内的区域的字符像素的像素数量和距离连通域区块的左侧边沿第二预设距离内的区域的字符像素的像素数量。本领域技术人员可以根据需要适当选取合适的预设距离，例如，第一预设距离为字符框的高度的30％、或者50％等。第二预设距离为字符框的宽度的30％或者50％等。

第一设定区域的第一像素数量可以是字符框的最上部的30％区域内的黑色像素数量。第二设定区域的第二像素数量可以是字符框最左侧的30％区域内的黑色像素数量。

根据总像素数量、第一像素数量和第二像素数量，确定各个字符框对应的字符是否可能为根号字符包括：根据总像素数量和第一预设参考比例确定第一参照值，根据总像素数量和第二预设参考比例确定第二参照值；确定第一像素数量是否大于第一参照值；若大于，则比较第一像素数量与第二像素数量之和是否大于第二参照值，并根据比较结果确定当前字符是否为根号字符。

需要说明的是，本实施例中仅是例举了一种确定第一参照值和第二参照值的方式，在其他实施例中，可以通过其他任何合适的方式确定第一参照值和第二参照值，例如，由本领域技术人员根据经验，预设第一参照值和第二参照值。

其中，第一预设参考比例和第二预设参考比例可以根据需求设置。例如，第一预设参考比例可以是30％、40％、50％等，第二预设参考比例可以是80％、90％等。第一参照值可以是0.3倍的总像素数量。第二参照值可以是0.9倍的总像素数量。

若第一像素数量大于第一参照值，即当前字符框对应的字符的位于连通域区块的最上部的30％区域内的像素数量大于总像素数量的30％，则进一步比较第一像素数量与第二像素数量之和是否大于第二参照值，即当前字符框对应的字符的位于连通域区块的最上部的30％区域内的像素数量与位于连通域区块的左侧的30％区域内的像素数量之和是否大于总像素数量的90％，并生成比较结果。

根据比较结果确定该当前字符框对应的字符是否可能为根号符号。例如，若第一像素数量与第二像素数量之和大于第二参照值，则将当前字符确定为候选根号字符；之后将候选根号字符作为输入，输入到二分类器的输入中，并通过二分类器确定候选根号字符是否为根号字符。

若第一像素数量与第二像素数量之和不大于第二参照值，则直接确定该当前字符框对应的字符不是根号符号，直接进行下一字符判定。这样可以利用连通域分析结果，根据分析结果对各个字符进行预判断，将预判断出的候选根号字符输入二分类器中进行判断，从而提升字符判断效率。

通过判断，若存在对应的字符为根号符号的字符框，则对根号符号对应的字符框进行根号处理。

本领域技术人员可以根据需要选取合适的根号处理方式。例如，根据连通域分析的分析结果确定根号符号对应的字符框的左边界的横坐标、上边界的纵坐标，并确定根号符号的每个像素点对应的坐标，针对各个像素点，根据当前像素点的横坐标和左边界的横坐标计算当前像素点与左边界的距离，根据当前像素点的纵坐标和上边界的纵坐标计算当前像素点与上边界的距离，进而确定距离和。从所有像素点对应的多个距离之和中，确定最小的距离之和，将最小的距离之和的像素点对应的横坐标设置为字符框的右边界的横坐标，并根据右边界的横坐标更新字符框。

通过本步骤，实现了对根号符号的识别和处理，进一步提升了检测出的字符框的准确度。

S208：针对各个字符框，确定当前字符框是否为需要合并的字符框，若为需要合并的字符框，则对字符框进行合并处理，然后执行步骤S209；若不为需要合并的字符框，则直接执行步骤S209。

确定当前字符框是否为需要合并的字符框包括需要上下合并的字符框和/或需要左右合并的字符框。

由于待标注的样本图像中的字符种类较多，因此，可能存在获得的字符框所指示的字符位置处的字符并非完整字符，而是完整字符的局部的情况。

例如，在汉字中存在左右结构的汉字，如：“林”“咱”、等；还存在上下结构的汉字，如，“吕”、“二”等。这些汉字在通过字符检测模型进行字符检测时，可能将汉字的一分部检测成独立的字符，例如，将“林”的两个“木”检测成单独的字符而获得两个单独的字符框；或者将“吕”的两个“口”检测成单独的字符而获得两个单独的字符框。

前述的这些情况的存在会使得字符框指示的字符位置不准确，致使最终生成的标注后的样本图像的标注不准确，影响这些样本图像的使用效果。为了提升样本标注的准确度，需要对获取的字符框进行合并处理。

例如，针对进行上下合并，一种可行的处理方式如下：

根据字符框的数量和各个字符框的高度，确定字符框平均高度。从各字符对应的字符框中，根据字符框平均高度确定第一候选合并字符框。在竖直方向上，确定与第一候选合并字符框距离最小的字符框作为第二候选合并字符框，在水平方向上，确定与第一候选合并字符框距离最小且高度大于第一预设选取值的字符框作为参照字符框。若在水平方向上，第二候选合并字符框的水平中线穿过参照字符框，则确定第一候选合并字符框和第二候选合并字符框为候选待合并字符框。若候选待合并字符框中的第一候选合并字符框和第二候选合并字符框的高度之和小于第三预设选取值，则将第一候选合并字符框和第二候选合并字符框合并。

下面对进行上下合并的步骤进行详细说明：

针对根据字符框的数量和各个字符框的高度，确定字符框平均高度。在一种可行方式中，字符框平均高度可以为各个字符框的高度之和除以字符框的数量。

针对从各字符对应的字符框中，根据字符框平均高度确定第一候选合并字符框。

第一候选合并字符框用于指示各个字符框中高度过小的字符框。需要说明的是，本领域技术人员能够根据具体需求设置适当的判断字符框是否高度过小的条件。

在一种可行方式中，可以通过判断字符框的高度是否小于字符框平均高度，确定该字符框是否为第一候选合并字符框。

在另一种可行方式中，可以根据字符框平均高度和一个预设数值确定第二预设选取值；从各字符对应的字符框中，确定高度小于第二预设选取值的字符框作为第一候选合并字符框。

其中，预设数值可以由本领域技术人员根据需要确定。例如，30％、50％、80％等。

第二预设选取值可以是字符框平均高度与预设数值的乘积。当预设数值为0.5时，第二预设选取值为字符框平均高度的一半。若字符框的高度低于第二预设选取值，则表示该字符框的高度过小，故而，将该字符框作为第一候选合并字符框。由于第一候选合并字符框的高度过小，因此，第一候选合并字符框所指示的字符位置处的字符可能是完整字符的一部分，而非完整的字符，故而需要对第一候选合并字符框和其他字符框进行合并处理。

可选地，为了便于对高度小于第一预设选取值的字符框进行处理，提高标注效率，在确定第一候选合并字符框之后，可以将所有第一候选合并字符框生成候选字符框列表，以便能够依据候选字符框列表逐个对候选字符框列表中的字符框进行处理。

针对在竖直方向上，确定与第一候选合并字符框距离最小的字符框作为第二候选合并字符框，在水平方向上，确定与第一候选合并字符框距离最小且高度大于第一预设选取值的字符框作为参照字符框。

对于上下结构的字符而言，若第一候选合并字符框所指示的字符位置处的字符是上下结构的字符的一部分，那么其相关部分位于该第一候选合并字符框的上方或者下方，故而，在竖直方向上，确定与第一候选合并字符框距离最小的字符框作为第二候选合并字符框。

参照字符框作为判断第一候选合并字符框和第二候选合并字符框所指示的字符位置处对应的字符是否属于同一完整字符的参照。对于上下结构的字符而言，由于待标注的样本图像中的字符排列方式通常都是水平排列，故而，确定在水平方向上与第一候选合并字符框距离最小且高度大于第一预设选取值的字符框作为参照字符框。本领域技术人员能够根据需要设定第一预设选取值的具体数值。例如，第一预设选取值为0.8倍的字符框平均高度。

需要说明的是：当在第一候选合并字符框的竖直方向上查找不到对应的第二候选合并字符框，或者第二候选合并字符框与第一候选合并字符框之间的距离大于第一预设阈值，或者在水平方向上查找不到相应的参照字符框时，对第一候选合并字符框不做处理。为了便于后续人工校对，可以通过适合的方式标记该第一候选合并字符框，以便提示校对人员关注。例如，通过改变字符框颜色的方式标记该第一候选合并字符框。

针对若在水平方向上，第二候选合并字符框的水平中线穿过参照字符框，则确定第一候选合并字符框和第二候选合并字符框为候选待合并字符框。

若第二候选合并字符框的水平中线穿过参照字符框，则表示第二候选合并字符框与第一候选合并字符框所指示的字符位置的字符属于同一完整字符的概率较大，因此将第一候选合并字符框和第二候选合并字符框确定为候选待合并字符框。

针对若候选待合并字符框中的第一候选合并字符框和第二候选合并字符框的高度之和小于第三预设值，则将第一候选合并字符框和第二候选合并字符框合并。

其中，本领域技术人员可以根据实际需求确定第三预设选取值。例如，第三预设选取值为1.5倍字符框平均高度。

若第一候选合并字符框和第二候选合并字符框的高度和小于第三预设选取值，则确定第一候选合并字符框和第二候选合并字符框所指示的字符属于同一完整字符，则将第一候选合并字符框和第二候选合并字符框合并，以提升样本标注的准确性。

在一种可行的方式中，可以通过建立第一候选合并字符框和第二候选合并字符框的外接矩形，并获取该外接矩形的高度的方式获取第一候选合并字符框和第二候选合并字符框的高度和，进而判断是否将第一候选合并字符框和第二候选合并字符框合并。

可选地，若第一候选合并字符框与第二候选合并字符框合并，且在前述步骤中生成了候选字符框列表，则执行确定候选字符框列表中是否包括第二候选合并字符框的步骤。

在执行样本标注时，为了提升准确性，可以遍历候选字符框列表中的所有候选字符框。此种情况下，当第一候选合并字符框与第二候选合并字符框合并后生成了新的字符框，而第一候选合并字符框和第二候选合并字符框被删除。因此，需判断第二候选合并字符框是否在候选字符框列表中，若是，则在候选字符列表中删除第二候选合并字符框，无需再对该第二候选合并字符框进行后续处理，以提升标注效率，且避免错误产生。

针对进行左右合并，处理方式与上下合并类似，区别在于确定第一候选合并字符框时，根据字符框平将宽度确定。第二候选合并字符框在第一候选合并字符框的水平方向查找距离最小的字符框。在第一候选合并字符框的竖直方向确定参照字符框。若在竖直方向上，第二候选合并字符框的竖直中线穿过参照字符框，则确定第一候选合并字符框和第二候选合并字符框为候选待合并字符框。若候选待合并字符框中的第一候选合并字符框和第二候选合并字符框的宽度之和小于第三预设选取值，则将第一候选合并字符框和第二候选合并字符框合并。

需要说明的是，在进行左右合并时，第一预设选取值、第二预设选取值和第三预设选取值均是根据字符框平均宽度确定，具体确定方式可以由本领域技术人员根据需求选择合适的确定方式。

通过本步骤，实现了需要合并的字符框的合并，进一步提升了检测出的字符框的准确度。

S209：针对各个字符框，确定当前字符框的面积是否满足面积取值范围，若不满足，则删除当前字符框；若满足，则结束本次流程。

面积取值范围可以根据需要预先设定，也可以根据各个字符框的面积计算平均面积确定。

对于面积小于面积取值范围的字符框，属于面积过小的字符框，可能是样本图像的噪点，这对机器学习模型的训练无用，因此需要删除面积过小的字符框。

对于面积大于面积取值范围的字符框，属于面积过大的字符框，可能是样本图像中的图表等，这对机器学习模型的训练无用，因此需要删除面积过大的字符框。

通过本步骤，实现了异常字符框的识别和处理，进一步提升了检测出的字符框的准确度。

根据本实施例的样本标注方法，通过字符检测模型对待标注的样本图像进行检测，并能够根据检测结果确定用于指示样本图像中各个字符位置的字符框。通过确定对应的字符为分式线的字符框，并对确定的字符框进行分式线处理，使得通过该样本标注方法标注的样本图像可以有效避免分式线对应的字符框影响后续机器学习模型训练效果的问题。此外，该样本标注方法可以对分式线对应的字符框进行自动处理，减少了人工校对的工作量，且保证了样本标注的准确性。

并且，本实施例还可以对其它需要处理的字符框，如需要进行根号处理的字符框、需要合并的字符框、异常字符框等进行进一步的处理，从而进一步减少了人工校对的工作量，提高了样本标注的准确性。

实施例三

根据本发明的实施例，提供一种计算机存储介质，计算机存储介质存储有：用于通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框的指令；用于针对每个字符框，判断当前字符框是否满足以下条件中的至少两个的指令，其中，以下条件包括：当前字符框的宽度大于第一预设值，当前字符框的宽高比大于第二预设值，当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值；用于当满足至少两个条件时，将当前字符框对应的字符标注为分式线，并进行分式线处理的指令。

可选地，将当前字符框对应的字符标注为分式线，并进行分式线处理的指令中的进行分式线处理包括：删除分式线对应的字符框。

可选地，用于针对每个字符框，判断当前字符框是否满足以下条件中的至少两个的指令中，用于判断当前字符框是否满足当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值的指令包括：用于针对各个字符框，获取当前字符框对应的图像中的第一设定像素的像素数量和第二设定像素的像素数量的指令；用于确定第一设定像素的像素数量与第二设定像素的像素数量的比值的指令；用于判断比值是否大于第三预设值的指令。

可选地，计算机存储介质还存储有：用于在判断当前字符框是否满足当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值之前，将待标注的样本图像转换为黑白二值图像的指令，其中，将黑色像素作为第一设定像素，将白色像素作为第二设定像素。

可选地，用于针对每个字符框，判断当前字符框是否满足以下条件中的至少两个的指令中，用于判断当前字符框是否满足当前字符框的宽度大于第一预设值的指令包括：用于根据所有字符框的数量和各个字符框的宽度确定字符框平均宽度的指令；用于根据字符框平均宽度，判断当前字符框是否满足字符框的宽度大于第一预设值的指令。

可选地，用于根据字符框平均宽度，判断当前字符框是否满足字符框的宽度大于第一预设值的指令包括：用于根据字符框平均宽度和第一预设比例获取第一预设值的指令；用于判断当前字符框是否满足字符框的宽度大于第一预设值的指令。

可选地，用于针对每个字符框，判断当前字符框是否满足以下条件中的至少两个的指令中，用于判断当前字符框是否满足字符框的宽高比大于第二预设值的指令包括：用于针对各个字符框，获取当前字符框的宽度和高度的指令；用于根据当前字符框的宽度和高度，确定当前字符框的宽高比的指令；用于判断当前字符框的宽高比是否大于第二预设值的指令。

可选地，字符检测模型包括连通域分析模型和/或神经网络检测模型。

可选地，当字符检测模型包括连通域分析模型和神经网络检测模型时，用于通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框的指令包括：用于通过连通域分析模型对待标注的样本图像进行连通域分析，根据连通域分析结果确定用于指示样本图像中各个字符的字符位置的第一候选字符框的指令；用于通过神经网络模型对待标注的样本图像进行字符检测，根据字符检测结果确定用于指示样本图像中各个字符的字符位置的第二候选字符框的指令；用于根据第一候选字符框、第二候选字符框和预设的字符框取舍规则生成检测结果，根据检测结果确定用于指示样本图像中各个字符的字符位置的字符框的指令。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机存储介质中，所述计算机存储介质包括用于以计算机(例如计算机)可读的形式存储或传送信息的任何机制。例如，机器可读介质包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储介质、电、光、声或其他形式的传播信号(例如，载波、红外信号、数字信号等)等，该计算机软件产品包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种样本标注方法，其特征在于，包括：

通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示所述样本图像中各个字符的字符位置的字符框；

针对每个字符框，判断当前字符框是否满足以下条件中的至少两个：当前字符框的宽度大于第一预设值，当前字符框的宽高比大于第二预设值，当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值；

若是，则将当前字符框对应的字符标注为分式线，并进行分式线处理。

2.根据权利要求1所述的方法，其特征在于，所述进行分式线处理，包括：

删除所述分式线对应的字符框。

3.根据权利要求1或2所述的方法，其特征在于，所述判断当前字符框是否满足当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值，包括：

针对各个字符框，获取当前字符框对应的图像中的第一设定像素的像素数量和第二设定像素的像素数量；

确定所述第一设定像素的像素数量与所述第二设定像素的像素数量的比值；

判断所述比值是否大于所述第三预设值。

4.根据权利要求3所述的方法，其特征在于，在所述判断当前字符框是否满足当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值之前，所述方法还包括：

将所述待标注的样本图像转换为黑白二值图像，其中，将黑色像素作为所述第一设定像素，将白色像素作为所述第二设定像素。

5.根据权利要求1或2所述的方法，其特征在于，所述判断当前字符框是否满足当前字符框的宽度大于第一预设值，包括：

根据所有字符框的数量和各个字符框的宽度确定字符框平均宽度；

根据所述字符框平均宽度，判断当前字符框是否满足所述字符框的宽度大于第一预设值。

6.根据权利要求5所述的方法，其特征在于，根据所述字符框平均宽度，判断当前字符框是否满足所述字符框的宽度大于第一预设值，包括：

根据所述字符框平均宽度和第一预设比例获取所述第一预设值；

判断所述当前字符框是否满足所述字符框的宽度大于第一预设值。

7.根据权利要求1所述的方法，其特征在于，判断当前字符框是否满足所述字符框的宽高比大于第二预设值，包括：

针对各个所述字符框，获取当前字符框的宽度和高度；

根据所述当前字符框的宽度和高度，确定所述当前字符框的宽高比；

判断所述当前字符框的宽高比是否大于所述第二预设值。

8.根据权利要求1或2所述的方法，其特征在于，所述字符检测模型包括连通域分析模型和/或神经网络检测模型。

9.根据权利要求8所述的方法，其特征在于，当所述字符检测模型包括连通域分析模型和神经网络检测模型时，所述通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示所述样本图像中各个字符的字符位置的字符框，包括：

通过连通域分析模型对所述待标注的样本图像进行连通域分析，根据连通域分析结果确定用于指示所述样本图像中各个字符的字符位置的第一候选字符框；

通过神经网络模型对所述待标注的样本图像进行字符检测，根据字符检测结果确定用于指示所述样本图像中各个字符的字符位置的第二候选字符框；

根据所述第一候选字符框、第二候选字符框和预设的字符框取舍规则生成检测结果，根据所述检测结果确定用于指示所述样本图像中各个字符的字符位置的字符框。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有：用于通过字符检测模型对待标注的样本图像进行检测，根据检测结果确定用于指示所述样本图像中各个字符的字符位置的字符框的指令；用于针对每个字符框，判断当前字符框是否满足以下条件中的至少两个的指令，其中，以下条件包括：当前字符框的宽度大于第一预设值，当前字符框的宽高比大于第二预设值，当前字符框中的第一设定像素的数量与第二设定像素的数量的比值大于第三预设值；用于当满足至少两个条件时，将当前字符框对应的字符标注为分式线，并进行分式线处理的指令。