CN110135426A - 样本标注方法及计算机存储介质 - Google Patents

样本标注方法及计算机存储介质 Download PDF

Info

Publication number
CN110135426A
CN110135426A CN201810134926.8A CN201810134926A CN110135426A CN 110135426 A CN110135426 A CN 110135426A CN 201810134926 A CN201810134926 A CN 201810134926A CN 110135426 A CN110135426 A CN 110135426A
Authority
CN
China
Prior art keywords
character
frame
candidate characters
current
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810134926.8A
Other languages
English (en)
Other versions
CN110135426B (zh
Inventor
兴百桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN201810134926.8A priority Critical patent/CN110135426B/zh
Publication of CN110135426A publication Critical patent/CN110135426A/zh
Application granted granted Critical
Publication of CN110135426B publication Critical patent/CN110135426B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种样本标注方法及计算机存储介质。样本标注方法包括:获取样本图像;通过字符检测模型对样本图像进行字符检测,获取样本图像中各字符的字符位置的字符框;根据字符框的数量和各个字符框的宽度确定字符框平均宽度;根据字符框平均宽度筛选出至少一个第一候选字符框;在水平方向上确定与当前第一候选字符框距离最小的字符框作为当前第二候选字符框,在竖直方向上确定与当前第一候选字符框距离最小且宽度大于第一参照值的字符框作为参照字符框;若在竖直方向上当前第二候选字符框的竖直中线穿过参照字符框,则确定当前第一候选字符框和当前第二候选字符框为候选待合并字符框;根据对候选待合并字符框的处理,生成样本图像的标注信息。

Description

样本标注方法及计算机存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种样本标注方法及计算机存储介质。
背景技术
随着人工智能和机器学习技术的发展,越来越多的领域开始采用机器学习方法训练设备,使之具有一定的智能性。随之而来的是对训练样本的需求增长。例如,在训练光学字符检测模型和识别模型时都需要大量的标注样本,标注样本是指在真实样本上通过人工标注出用于指示字符位置的字符框和字符类别。现有的在获取真实样本时利用纯手工标注的方法,存在着效率低的问题,而且因为人工标注会有一定的精度损失,例如存在人工失误造成字符位置标注不准确,字符内容标注错误的情况,这使得标注后的样本在进行机器学习方法训练设备时效果不能发挥最好。
现有的字符检测模型可以实现自动化字符检测,并可以通过字符框的方式对字符进行标识,但也存在着一些问题,例如,由于汉字可能是左右结构、上下结构等,且一些汉字可以是独立的字,也可以是另一个字中的偏旁,使得字符检测模型可能将一个字的两个部分识别成单独的两个字符,使得字符检测的准确度下降,需要人工进行大量修正,增加了人工的劳动强度。在通过人工修正时,又存在着前述的人工标注精度低的问题。总之,现有的通过字符标注方法存在着效率低、精度不好的问题。
发明内容
有鉴于此,本发明实施例提供一种样本标注方法及计算机存储介质,以解决现有技术中真实样本标注准确率低的问题。
本发明实施例提供一种样本标注方法,包括:获取待标注的样本图像;通过字符检测模型对所述待标注的样本图像进行字符检测,并获取用于指示所述待标注的样本图像中各字符的字符位置的字符框;根据字符框的数量和各个字符框的宽度,确定字符框平均宽度;根据所述字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框;针对每个第一候选字符框,在水平方向上,确定与当前第一候选字符框距离最小的字符框作为当前第二候选字符框,在竖直方向上,确定与当前第一候选字符框距离最小且宽度大于第一参照值的字符框作为参照字符框;若在竖直方向上,当前第二候选字符框的竖直中线穿过所述参照字符框,则确定当前第一候选字符框和当前第二候选字符框为候选待合并字符框;若在竖直方向上,当前第二候选字符框的竖直中线未穿过所述参照字符框,则确定当前第一候选字符框和当前第二候选字符框不需要进行合并;根据对所述候选待合并字符框的处理,生成所述样本图像的标注信息。
本发明实施例还提供一种计算机存储介质,所述计算机存储介质存储有:用于获取待标注的样本图像的指令;用于通过字符检测模型对所述待标注的样本图像进行字符检测,并获取用于指示所述待标注的样本图像中各字符的字符位置的字符框的指令;用于根据字符框的数量和各个字符框的宽度,确定字符框平均宽度的指令;用于根据所述字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框的指令;用于针对每个第一候选字符框,在水平方向上,确定与当前第一候选字符框距离最小的字符框作为当前第二候选字符框,在竖直方向上,确定与当前第一候选字符框距离最小且宽度大于第一参照值的字符框作为参照字符框的指令;用于若在竖直方向上,当前第二候选字符框的竖直中线穿过所述参照字符框,则确定当前第一候选字符框和当前第二候选字符框为候选待合并字符框的指令;用于若在竖直方向上,当前第二候选字符框的竖直中线未穿过所述参照字符框,则确定当前第一候选字符框和当前第二候选字符框不需要进行合并的指令;用于根据对所述候选待合并字符框的处理,生成所述样本图像的标注信息的指令。
本发明实施例提供的一种样本标注方案,通过字符检测模型对待标注的样本图像进行字符检测,能够获取用于指示各字符的字符位置的字符框,实现对待标注的样本图像的标注。通过确定第一候选字符框、第二候选字符框和参照字符框,并根据第二候选字符框的竖直中线是否穿过参照字符框,确定第一候选字符框和第二候选字符框是否为候选待合并字符框,以备后续字符框合并处理,可以解决现有的标注方法对左右结构的文字、符号的字符框标注不准确的问题,提升样本标注的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种样本标注方法的流程示意图;
图2为本发明实施例二提供的一种样本标注方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
图1为本发明实施例一提供的一种样本标注方法的流程示意图。如图1所示,该样本标注方法包括:
S101:获取待标注的样本图像。
待标注的样本图像可以用于后续进行机器学习模型的训练,作为训练样本图像使用。本发明实施例中,训练样本图像为包括字符的图像,其中,字符包括但不限于:文字、字母、数字、符号。
S102:通过字符检测模型对待标注的样本图像进行字符检测,并获取用于指示待标注的样本图像中各字符的字符位置的字符框。
字符检测模型用于检测待标注的样本图像中的字符。字符检测模型可以由本领域技术人员根据实际需求采用适当的模型,本发明实施例对此不作限制。例如,字符检测模型可以包括但不限于连通域分析模型、神经网络模型等。
字符框用于指示待标注的样本图像中的各字符的字符位置。在本发明实施例中,字符框可以通过定位点坐标、宽度和高度的方式进行表示。当然,在其他实施例中,本领域技术人员可以根据需求采用其他适当的方式对字符框进行表示。例如,通过四个顶点的坐标对字符框进行表示,或者通过两个对角点的坐标对字符框进行表示。
在通过字符检测模型对待标注的样本图像中进行字符检测时,由于待标注的样本图像中的字符种类较多,因此,可能存在获得的字符框所指示的字符位置处的字符并非完整字符,而是完整字符的局部的情况。
例如,在汉字中存在左右结构的汉字,如:“川”、“林”“咱”、等。这些汉字在通过字符检测模型进行字符检测时,可能将汉字的一分部检测成独立的字符,例如,将“林”的两个“木”检测成单独的字符而获得两个单独的字符框。
前述的这些情况的存在会使得字符框指示的字符位置不准确,致使最终生成的标注后的样本图像的标注不准确,影响这些样本图像的使用效果。为了提升样本标注的准确度,需要对获取的字符框进行处理。
其中一种可行的处理方式如下:
S103:根据字符框的数量和各个字符框的宽度,确定字符框平均宽度。
例如,有a、b、c三个字符框,对应的宽度分别为:a字符框的宽度为10个像素、b字符框的宽度为11个像素、c字符框的宽度为9个像素,那么字符框平均宽度等于三个字符框的宽度和除以三,即30÷3=10个像素。
S104:根据字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框。
第一候选字符框用于指示各个字符框中宽度过小的字符框。需要说明的是,本领域技术人员能够根据具体需求设置适当的判断字符框是否宽度过小的条件。例如,若字符框的宽度小于字符框平均宽度则确定该字符框为第一候选字符框。或者,若字符框的宽度小于字符框平均宽度的一半则确定该字符框为第一候选字符框。
S105:针对每个第一候选字符框,在水平方向上,确定与当前第一候选字符框距离最小的字符框作为当前第二候选字符框,在竖直方向上,确定与当前第一候选字符框距离最小且宽度大于第一参照值的字符框作为参照字符框。
第二候选字符框位于第一候选字符框的左侧或者右侧。参照字符框作为确定第一候选字符框和第二候选字符框是否指示同一完整字符的参照。参照字符框的宽度大于第一参照值,以保证确定出的参照字符框所指示的字符位置处的字符是完整字符。
S106:若在竖直方向上,当前第二候选字符框的竖直中线穿过参照字符框,则确定当前第一候选字符框和当前第二候选字符框为候选待合并字符框。
若在竖直方向上,第二候选字符框的竖直中线穿过参照字符框,则表示第一候选字符框所指示的字符位置对应的字符和第二候选字符框所指示的字符位置处的字符可能属于同一完整字符,故而将第一候选字符框和第二候选字符框确定为候选待合并字符框,以备后续进行字符框合并处理使用。
若在竖直方向上,当前第二候选字符框的竖直中线未穿过参照字符框,则确定当前第一候选字符框和当前第二候选字符框不需要进行合并,可以结束对当前第一候选字符框和当前第二候选字符框的处理。
S107:根据对候选待合并字符框的处理,生成样本图像的标注信息。
针对每个第一候选字符框进行处理后,可以根据对候选待合并字符框的处理后的字符框生成样本图像的标注信息,该标注信息中至少包括所有字符框的信息。
该样本标注方法,通过字符检测模型对待标注的样本图像进行字符检测,能够获取用于指示各字符的字符位置的字符框,实现对待标注的样本图像的标注。通过确定第一候选字符框、第二候选字符框和参照字符框,并根据第二候选字符框的竖直中线是否穿过参照字符框,确定第一候选字符框和第二候选字符框是否为候选待合并字符框,以备后续字符框合并处理,可以解决现有的标注方法对左右结构的文字、符号的字符框标注不准确的问题,提升样本标注的准确性。
实施例二
如图2所示,示出了根据本发明的实施例二的样本标注方法的流程示意图。该样本标注方法包括:
S201:获取待标注的样本图像。
待标注的样本图像可以用于后续进行机器学习模型的训练,作为训练样本图像使用。本发明实施例中,训练样本图像为包括字符的图像,其中,字符包括但不限于:文字、字母、数字、符号。
S202:通过字符检测模型对待标注的样本图像进行字符检测,并获取用于指示待标注的样本图像中各字符的字符位置的字符框。
字符检测模型用于检测待标注的样本图像中的字符。字符检测模型可以由本领域技术人员根据实际需求采用适当的模型,本发明实施例对此不作限制。例如,字符检测模型可以包括但不限于连通域分析模型、神经网络模型等。在实际使用中,可以选择两者中任意一者进行字符检测。可选地,为了提高字符检测的准确度,可以两者均选用,根据两者的结果互做比较和修正,以获得最为准确的结果。
在一种可行方式中,当字符检测模型包括连通域分析模型和神经网络模型时,通过字符检测模型进行字符检测的过程如下:
通过连通域分析模型对待标注的样本图像进行字符检测,生成用于指示待标注的样本图像中各个字符的字符位置的第一预选字符框;通过神经网络模型对待标注的样本图像进行字符检测,生成用于指示待标注的样本图像中各个字符的字符位置的第二预选字符框;分别比对第一预选字符框和第二预选字符框,根据比对结果确定用于指示待标注的样本图像中各字符的字符位置的字符框。
连通域一般是指图像中具有相同像素值且位置相邻的像素点组成的图像区域。连通域分析是一种将图像中的各个连通区域找出并标记的分析方法。本发明实施例中,连通域分析方法可以由本领域技术人员根据实际需求采用任意适当的方式实现,如采用openVC二值图像连通域分析方法等。通过对图像中的像素进行连通域分析,可以确定相邻的像素的颜色是否相同,从而确定字符边界,进而确定各个字符的位置,实现字符分割,并生成第一预选字符框。
神经网络模型可以是任意适当的模型,例如可以是卷积神经网络模型,将待标注的样本图像作为输入,经过能够实现字符检测的卷积神经网络模型,获得用于指示待标注的样本图像中的各个字符的字符位置的第二预选字符框。
在获得了每个字符的第一预选字符框和第二预选字符框后进行比对,根据比对结果可确定当前字符的字符框。通过综合各字符对应的第一预选字符框和第二预选字符框,可以提升对待标注的样本图像的字符检测准确度,从而提升标注准确度。
在一种可行方式中,分别比对第一预选字符框和第二预选字符框,根据比对结果确定用于指示待标注的样本图像中各字符的字符位置的字符框,包括:
针对每个字符,判断是否存在与当前字符的第一预选字符框存在重叠、且重叠面积大于或等于预设重叠值的第二预选字符框,若存在,则将第二预选字符框确定为当前字符的字符框。由于第一预选字符框和第二预选字符框的重叠面积大于或等于预设重叠值,因此可以认为第一预选字符框所指示字符位置和第二预选字符框所指示字符位置是同一个区域,故而可以删除一个字符框,以减少字符框的数量和标注的复杂度。其中,预设重叠值可以由本领域技术人员根据实际情况适当设置,如可以设置为80%,本发明实施例对此不作限制。若不存在,可以直接保留该第一预选字符框,并结束针对该第一预选字符框的处理;或者,可以继续执行下述的判断过程。
针对每个字符,判断是否存在与当前字符的第一预选字符框存在重叠、且重叠面积小于预设重叠值的第二预选字符框,若存在,则将第一预选字符框和第二预选字符框均确定为当前字符的字符框。当第一预选字符框和第二预选字符框的重叠面积小于预设重叠值时,保留第一预选字符框和第二预选字符框,以备后续处理。若不存在,可以直接保留该第一预选字符框,并结束针对该第一预选字符框的处理;或者,可以继续执行下述的判断过程。
针对每个字符,判断是否存在与当前字符的第一预选字符框重叠的第二预选字符框后,若判断结果为不存在,则判断是否存在与当前字符的第一预选字符框的水平距离小于设定距离值的第二预选字符框;若存在,则将第一预选字符框确定为当前字符的字符框。若不存在与当前字符的第一预选字符框的水平距离小于设定距离值的第二预选字符框,则删除第一预选字符框。其中,设定距离值可以由本领域技术人员根据实际情况适当设置,本发明实施例对此不作限制。
由于待标注的样本图像中的字符排列方式通常是水平排列,因此判断是否存在与当前字符的第一预选字符框的水平距离小于设定距离值的第二预选字符框。若待标注的样本图像的字符排列方式为竖直排列,则可以根据具体情况,判断是否存在与当前字符的第一预选字符框的垂直距离小于设定距离值的第二预选字符框。
通过在水平方向上查找是否存在与第一预选字符框相邻第二预选字符框,若存在则保留,否则舍弃的方式,可以删除连通域分析检测过程中没有去掉的噪声框,或者保留神经网络模型漏检的字符框,最大限度提升字符检测的精度。
需要说明的是,若字符检测模型仅包括连通域分析模型或者仅包括神经网络模型,则无需比对,直接将模型的字符检测结果作为各个字符的字符框即可,在此不再赘述。
S203:根据字符框的数量和各个字符框的宽度,确定字符框平均宽度。
字符框平均宽度可以为各个字符框的宽度之和除以字符框的数量。
S204:根据字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框。
第一候选字符框用于指示各个字符框中宽度过小的字符框。需要说明的是,本领域技术人员能够根据具体需求设置适当的判断字符框是否宽度过小的条件。
在一种可行方式中,可以通过判断字符框的宽度是否小于字符框平均宽度,确定该字符框是否为第一候选字符框。
在另一种可行方式中,可以根据字符框平均宽度和预设比例确定第二参照值;从各字符对应的字符框中,确定宽度小于第二参照值的字符框作为第一候选字符框。
其中,预设比例可以由本领域技术人员根据需要确定。例如,30%、50%、80%等。
第二参照值可以是字符框平均宽度与预设比值的乘积。当预设比值为0.5时,第二参照值为字符框平均宽度的一半。若字符框的宽度低于第二参照值,则表示该字符框的宽度过小,故而,将该字符框作为第一候选字符框。由于第一候选字符框的宽度过小,因此,第一候选字符框所指示的字符位置处的字符可能是完整字符的一部分,而非完整的字符,故而需要对第一候选字符框和其他字符框进行合并处理。
可选地,为了便于对宽度小于第二参照值的字符框进行处理,提高标注效率,在确定第一候选字符框之后,可以将所有第一候选字符框生成候选字符框列表,以便能够依据候选字符框列表逐个对候选字符框列表中的字符框进行处理。
S205:针对每个第一候选字符框,在水平方向上,确定与当前第一候选字符框距离最小的字符框作为当前第二候选字符框,在竖直方向上,确定与当前第一候选字符框距离最小且宽度大于第一参照值的字符框作为参照字符框。
对于左右结构的字符而言,若第一候选字符框所指示的字符位置处的字符是左右结构的字符的一部分,那么其相关部分位于该第一候选字符框的左侧或者右侧,故而,在水平方向上,确定与第一候选字符框距离最小的字符框作为第二候选字符框。
参照字符框作为判断第一候选字符框和第二候选字符框所指示的字符位置处对应的字符是否属于同一完整字符的参照。对于左右结构的字符而言,由于待标注的样本图像中的字符排列方式通常都是水平排列,故而,确定在竖直方向上与第一候选字符框距离最小且宽度大于第一参照值的字符框作为参照字符框。本领域技术人员能够根据需要设定第一参照值的具体数值。例如,第一参照值为0.8倍的字符框平均宽度。
需要说明的是:当在第一候选字符框的水平方向上查找不到对应的第二候选字符框,或者第二候选字符框与第一候选字符框之间的距离大于第一预设阈值,或者在竖直方向上查找不到相应的参照字符框时,对第一候选字符框不做处理。为了便于后续人工校对,可以通过适合的方式标记该第一候选字符框,以便提示校对人员关注。例如,通过改变字符框颜色的方式标记该第一候选字符框。
S206:若在竖直方向上,当前第二候选字符框的竖直中线穿过参照字符框,则确定当前第一候选字符框和当前第二候选字符框为候选待合并字符框。
若第二候选字符框的竖直中线穿过参照字符框,则表示第二候选字符框与第一候选字符框所指示的字符位置的字符属于同一完整字符的概率较大,因此将第一候选字符框和第二候选字符框确定为候选待合并字符框。
反之,若在竖直方向上,当前第二候选字符框的竖直中线未穿过参照字符框,则确定当前第一候选字符框和当前第二候选字符框不需要进行合并,可以结束对当前第一候选字符框的处理。
S207:若候选待合并字符框中的第一候选字符框和第二候选字符框的宽度之和小于第三参照值,则将第一候选字符框和第二候选字符框合并。
其中,本领域技术人员可以根据实际需求确定第三参照值。例如,第三参照值可以根据字符框平均宽度和预设数值确定。以第三参照值为字符框平均宽度与预设数值的乘积,预设数值为1.5为例,第三参照值为1.5倍字符框平均宽度。
若第一候选字符框和第二候选字符框的宽度和小于第三参照值,则确定第一候选字符框和第二候选字符框所指示的字符属于同一完整字符,则将第一候选字符框和第二候选字符框合并,以提升样本标注的准确性。
在一种可行的方式中,可以通过建立第一候选字符框和第二候选字符框的外接矩形,并获取该外接矩形的宽度的方式获取第一候选字符框和第二候选字符框的宽度和,进而根据该宽度和确定是否将第一候选字符框和第二候选字符框合并。
S208:确定候选字符框列表中是否包括当前第二候选字符框。
需要说明的是,本步骤为可选步骤。若在步骤S204中生成了候选字符框列表,则执行本步骤。
在执行样本标注时,为了提升准确性,可以遍历候选字符框列表中的所有候选字符框。此种情况下,当当前第一候选字符框与当前第二候选字符框合并后生成了新的字符框,而当前第一候选字符框和当前第二候选字符框被删除。因此,需判断当前第二候选字符框是否在候选字符框列表中,若是,则在候选字符列表中删除当前第二候选字符框,无需再对该当前第二候选字符框进行后续处理,以提升标注效率,且避免错误产生。若不存在,则不作处理。
S209:根据对候选待合并字符框的处理,生成样本图像的标注信息。
针对每个第一候选字符框进行处理后,可以根据对候选待合并字符框的处理后的字符框生成样本图像的标注信息,该标注信息中至少包括所有字符框的信息。
本实施例中的样本标注方法,分别通过连通域分析和神经网络模型对待标注的样本图像进行字符检测,并综合第一预选字符框和第二预选字符框生成用于指示各个字符位置的字符框,减少了单一的连通域检测或神经网络模型检测存在的问题,使字符检测准确度更高。通过确定第一候选字符框、第二候选字符框和参照字符框,并根据第一候选字符框和第二候选字符框的宽度和确定是否合并第一候选字符框和第二候选字符框,避免了左右结构的字符被标注多个字符框的情况,提升了样本图像的标注效率和精度。通过该样本标注方法可以利用计算设备实现对待标注的样本图像进行自动标注,避免了现有技术中采用人工进行样本标注存在的工作量大、效率低的问题,同时能够避免人工标注存在的精度损失的问题。
实施例三
根据本发明的实施例,提供一种计算机存储介质,所述计算机存储介质存储有:用于获取待标注的样本图像的指令;用于通过字符检测模型对所述待标注的样本图像进行字符检测,并获取用于指示所述待标注的样本图像中各字符的字符位置的字符框的指令;用于根据字符框的数量和各个字符框的宽度,确定字符框平均宽度的指令;用于根据所述字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框的指令;用于针对每个第一候选字符框,在水平方向上,确定与当前第一候选字符框距离最小的字符框作为当前第二候选字符框,在竖直方向上,确定与当前第一候选字符框距离最小且宽度大于第一参照值的字符框作为参照字符框的指令;用于若在竖直方向上,当前第二候选字符框的竖直中线穿过所述参照字符框,则确定当前第一候选字符框和当前第二候选字符框为候选待合并字符框的指令;用于若在竖直方向上,当前第二候选字符框的竖直中线未穿过所述参照字符框,则确定当前第一候选字符框和当前第二候选字符框不需要进行合并的指令;用于根据对所述候选待合并字符框的处理,生成所述样本图像的标注信息的指令。
可选地,用于根据所述字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框的指令,包括:用于根据所述字符框平均宽度和预设比例确定第二参照值的指令;用于从所有字符框中,确定宽度小于所述第二参照值的至少一个字符框,将确定出的字符框作为所述第一候选字符框的指令。
可选地,所述计算机存储介质还包括:用于在根据对所述候选待合并字符框的处理,生成所述样本图像的标注信息之前,若候选待合并字符框中的所述第一候选字符框和所述第二候选字符框的宽度之和小于第三参照值,则将所述第一候选字符框和所述第二候选字符框合并的指令;用于若候选待合并字符框中的所述第一候选字符框和所述第二候选字符框的宽度之和不小于第三参照值,则不对所述第一候选字符框和所述第二候选字符框进行合并处理的指令。
可选地,所述第三参照值根据所述字符框平均宽度和预设数值确定。
可选地,所述计算机存储介质还包括:用于在所述根据所述字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框之后,将所有第一候选字符框生成候选字符框列表的指令;用于在所述将当前第一候选字符框和当前第二候选字符框合并之后,所述方法还包括:确定所述候选字符框列表中是否包括当前第二候选字符框;若是,则在所述候选字符列表中删除当前第二候选字符框的指令。
可选地,所述字符检测模型包括连通域分析模型和/或神经网络模型。
可选地,当所述字符检测模型包括连通域分析模型和神经网络模型时,所述用于通过字符检测模型对所述待标注的样本图像进行字符检测,并获取用于指示所述待标注的样本图像中各字符的字符位置的字符框的指令,包括:用于通过所述连通域分析模型对所述待标注的样本图像进行字符检测,生成用于指示所述待标注的样本图像中各个字符的字符位置的第一预选字符框的指令;用于通过所述神经网络模型对所述待标注的样本图像进行字符检测,生成用于指示所述待标注的样本图像中各个字符的字符位置的第二预选字符框的指令;用于分别比对所述第一预选字符框和所述第二预选字符框,根据比对结果确定用于指示所述待标注的样本图像中各字符的字符位置的字符框的指令。
可选地,用于分别比对所述第一预选字符框和所述第二预选字符框,根据比对结果确定用于指示所述待标注的样本图像中各字符的字符位置的字符框的指令,包括:用于针对每个字符,判断是否存在与当前字符的所述第一预选字符框存在重叠、且重叠面积大于或等于预设重叠值的第二预选字符框,若存在,则将所述第二预选字符框确定为当前字符的字符框的指令。
可选地,用于分别比对所述第一预选字符框和所述第二预选字符框,根据比对结果确定用于指示所述待标注的样本图像中各字符的字符位置的字符框的指令,包括:用于针对每个字符,判断是否存在与当前字符的所述第一预选字符框存在重叠、且重叠面积小于预设重叠值的第二预选字符框,若存在,则将所述第一预选字符框和所述第二预选字符框均确定为当前字符的字符框的指令。
可选地,用于分别比对所述第一预选字符框和所述第二预选字符框,根据比对结果确定用于指示所述待标注的样本图像中各字符的字符位置的字符框的指令,包括:用于针对每个字符,判断是否存在与当前字符的所述第一预选字符框重叠的第二预选字符框的指令;用于若不存在重叠的第二预选字符框,则判断是否存在与当前字符的所述第一预选字符框的水平距离小于设定距离值的第二预选字符框的指令;用于若存在水平距离小于设定距离值的第二预选字符框,则将所述第一预选字符框确定为当前字符的字符框的指令。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机存储介质中,所述计算机存储介质包括用于以计算机(例如计算机)可读的形式存储或传送信息的任何机制。例如,机器可读介质包括只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪速存储介质、电、光、声或其他形式的传播信号(例如,载波、红外信号、数字信号等)等,该计算机软件产品包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (11)

1.一种样本标注方法,其特征在于,包括:
获取待标注的样本图像;
通过字符检测模型对所述待标注的样本图像进行字符检测,并获取用于指示所述待标注的样本图像中各字符的字符位置的字符框;
根据字符框的数量和各个字符框的宽度,确定字符框平均宽度;
根据所述字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框;
针对每个第一候选字符框,在水平方向上,确定与当前第一候选字符框距离最小的字符框作为当前第二候选字符框,在竖直方向上,确定与当前第一候选字符框距离最小且宽度大于第一参照值的字符框作为参照字符框;
若在竖直方向上,当前第二候选字符框的竖直中线穿过所述参照字符框,则确定当前第一候选字符框和当前第二候选字符框为候选待合并字符框;
若在竖直方向上,当前第二候选字符框的竖直中线未穿过所述参照字符框,则确定当前第一候选字符框和当前第二候选字符框不需要进行合并;
根据对所述候选待合并字符框的处理,生成所述样本图像的标注信息。
2.根据权利要求1所述的方法,其特征在于,根据所述字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框,包括:
根据所述字符框平均宽度和预设比例确定第二参照值;
从所有字符框中,确定宽度小于所述第二参照值的至少一个字符框,将确定出的字符框作为所述第一候选字符框。
3.根据权利要求1所述的方法,其特征在于,在根据对所述候选待合并字符框的处理,生成所述样本图像的标注信息之前,所述方法还包括:
若候选待合并字符框中的所述第一候选字符框和所述第二候选字符框的宽度之和小于第三参照值,则将所述第一候选字符框和所述第二候选字符框合并;
若候选待合并字符框中的所述第一候选字符框和所述第二候选字符框的宽度之和不小于第三参照值,则不对所述第一候选字符框和所述第二候选字符框进行合并处理。
4.根据权利要求3所述的方法,其特征在于,所述第三参照值根据所述字符框平均宽度和预设数值确定。
5.根据权利要求3所述的方法,其特征在于,
在所述根据所述字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框之后,所述方法还包括:将所有第一候选字符框生成候选字符框列表;
在所述将当前第一候选字符框和当前第二候选字符框合并之后,所述方法还包括:确定所述候选字符框列表中是否包括当前第二候选字符框;若是,则在所述候选字符列表中删除当前第二候选字符框。
6.根据权利要求1所述的方法,其特征在于,所述字符检测模型包括连通域分析模型和/或神经网络模型。
7.根据权利要求6所述的方法,其特征在于,当所述字符检测模型包括连通域分析模型和神经网络模型时,所述通过字符检测模型对所述待标注的样本图像进行字符检测,并获取用于指示所述待标注的样本图像中各字符的字符位置的字符框,包括:
通过所述连通域分析模型对所述待标注的样本图像进行字符检测,生成用于指示所述待标注的样本图像中各个字符的字符位置的第一预选字符框;
通过所述神经网络模型对所述待标注的样本图像进行字符检测,生成用于指示所述待标注的样本图像中各个字符的字符位置的第二预选字符框;
分别比对所述第一预选字符框和所述第二预选字符框,根据比对结果确定用于指示所述待标注的样本图像中各字符的字符位置的字符框。
8.根据权利要求7所述的方法,其特征在于,分别比对所述第一预选字符框和所述第二预选字符框,根据比对结果确定用于指示所述待标注的样本图像中各字符的字符位置的字符框,包括:
针对每个字符,判断是否存在与当前字符的所述第一预选字符框存在重叠、且重叠面积大于或等于预设重叠值的第二预选字符框,若存在,则将所述第二预选字符框确定为当前字符的字符框。
9.根据权利要求7所述的方法,其特征在于,分别比对所述第一预选字符框和所述第二预选字符框,根据比对结果确定用于指示所述待标注的样本图像中各字符的字符位置的字符框,包括:
针对每个字符,判断是否存在与当前字符的所述第一预选字符框存在重叠、且重叠面积小于预设重叠值的第二预选字符框,若存在,则将所述第一预选字符框和所述第二预选字符框均确定为当前字符的字符框。
10.根据权利要求7所述的方法,其特征在于,分别比对所述第一预选字符框和所述第二预选字符框,根据比对结果确定用于指示所述待标注的样本图像中各字符的字符位置的字符框,包括:
针对每个字符,判断是否存在与当前字符的所述第一预选字符框重叠的第二预选字符框;
若不存在重叠的第二预选字符框,则判断是否存在与当前字符的所述第一预选字符框的水平距离小于设定距离值的第二预选字符框;
若存在水平距离小于设定距离值的第二预选字符框,则将所述第一预选字符框确定为当前字符的字符框。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有:用于获取待标注的样本图像的指令;用于通过字符检测模型对所述待标注的样本图像进行字符检测,并获取用于指示所述待标注的样本图像中各字符的字符位置的字符框的指令;用于根据字符框的数量和各个字符框的宽度,确定字符框平均宽度的指令;用于根据所述字符框平均宽度,从所有字符框中筛选出至少一个第一候选字符框的指令;用于针对每个第一候选字符框,在水平方向上,确定与当前第一候选字符框距离最小的字符框作为当前第二候选字符框,在竖直方向上,确定与当前第一候选字符框距离最小且宽度大于第一参照值的字符框作为参照字符框的指令;用于若在竖直方向上,当前第二候选字符框的竖直中线穿过所述参照字符框,则确定当前第一候选字符框和当前第二候选字符框为候选待合并字符框的指令;用于若在竖直方向上,当前第二候选字符框的竖直中线未穿过所述参照字符框,则确定当前第一候选字符框和当前第二候选字符框不需要进行合并的指令;用于根据对所述候选待合并字符框的处理,生成所述样本图像的标注信息的指令。
CN201810134926.8A 2018-02-09 2018-02-09 样本标注方法及计算机存储介质 Active CN110135426B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810134926.8A CN110135426B (zh) 2018-02-09 2018-02-09 样本标注方法及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810134926.8A CN110135426B (zh) 2018-02-09 2018-02-09 样本标注方法及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110135426A true CN110135426A (zh) 2019-08-16
CN110135426B CN110135426B (zh) 2021-04-30

Family

ID=67567798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810134926.8A Active CN110135426B (zh) 2018-02-09 2018-02-09 样本标注方法及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110135426B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738326A (zh) * 2020-06-16 2020-10-02 中国工商银行股份有限公司 句粒度标注训练样本生成方法及装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210197A (ja) * 1994-01-14 1995-08-11 Nippondenso Co Ltd 話者識別方法
CN102129560A (zh) * 2010-01-18 2011-07-20 富士通株式会社 字符识别的方法和设备
CN102169542A (zh) * 2010-02-25 2011-08-31 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
JP4779041B2 (ja) * 2009-11-26 2011-09-21 株式会社日立製作所 画像撮影システム、画像撮影方法、および画像撮影プログラム
CN103093228A (zh) * 2013-01-17 2013-05-08 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
CN103268481A (zh) * 2013-05-29 2013-08-28 焦点科技股份有限公司 一种复杂背景图像中的文本提取方法
CN103310211A (zh) * 2013-04-26 2013-09-18 四川大学 一种基于图像处理的填注标记识别方法
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN105046252A (zh) * 2014-11-21 2015-11-11 华中科技大学 一种人民币冠字码识别方法
CN105117706A (zh) * 2015-08-28 2015-12-02 小米科技有限责任公司 图像处理方法和装置、字符识别方法和装置
CN105184292A (zh) * 2015-08-26 2015-12-23 北京云江科技有限公司 自然场景图像中手写体数学公式结构分析与识别方法
CN105630368A (zh) * 2014-11-03 2016-06-01 夏普株式会社 手写内容划分方法和设备、以及手写内容编辑设备
CN105740860A (zh) * 2016-01-28 2016-07-06 河南大学 自然场景中商铺标牌汉字区域自动检测方法
CN106228157A (zh) * 2016-07-26 2016-12-14 江苏鸿信系统集成有限公司 基于图像识别技术的彩色图像文字段落分割与识别方法
CN106255979A (zh) * 2014-04-16 2016-12-21 工业研究与信息服务处 行分割方法
CN107346420A (zh) * 2017-06-19 2017-11-14 中国科学院信息工程研究所 一种基于深度学习的自然场景下文字检测定位方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07210197A (ja) * 1994-01-14 1995-08-11 Nippondenso Co Ltd 話者識別方法
JP4779041B2 (ja) * 2009-11-26 2011-09-21 株式会社日立製作所 画像撮影システム、画像撮影方法、および画像撮影プログラム
CN102129560A (zh) * 2010-01-18 2011-07-20 富士通株式会社 字符识别的方法和设备
CN102169542A (zh) * 2010-02-25 2011-08-31 汉王科技股份有限公司 文字识别中粘连字符的切分方法和装置
CN103093228A (zh) * 2013-01-17 2013-05-08 上海交通大学 一种在自然场景图像中基于连通域的中文检测方法
CN103310211A (zh) * 2013-04-26 2013-09-18 四川大学 一种基于图像处理的填注标记识别方法
CN103268481A (zh) * 2013-05-29 2013-08-28 焦点科技股份有限公司 一种复杂背景图像中的文本提取方法
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN106255979A (zh) * 2014-04-16 2016-12-21 工业研究与信息服务处 行分割方法
CN105630368A (zh) * 2014-11-03 2016-06-01 夏普株式会社 手写内容划分方法和设备、以及手写内容编辑设备
CN105046252A (zh) * 2014-11-21 2015-11-11 华中科技大学 一种人民币冠字码识别方法
CN105184292A (zh) * 2015-08-26 2015-12-23 北京云江科技有限公司 自然场景图像中手写体数学公式结构分析与识别方法
CN105117706A (zh) * 2015-08-28 2015-12-02 小米科技有限责任公司 图像处理方法和装置、字符识别方法和装置
CN105740860A (zh) * 2016-01-28 2016-07-06 河南大学 自然场景中商铺标牌汉字区域自动检测方法
CN106228157A (zh) * 2016-07-26 2016-12-14 江苏鸿信系统集成有限公司 基于图像识别技术的彩色图像文字段落分割与识别方法
CN107346420A (zh) * 2017-06-19 2017-11-14 中国科学院信息工程研究所 一种基于深度学习的自然场景下文字检测定位方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
SHASHANK SHETTY 等: "Ote-OCR based text recognition and extraction from video frames", 《2014 IEEE 8TH INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS AND CONTROL (ISCO)》 *
张灿龙 等: "一种印刷体数学公式优化提取策略", 《计算机工程与应用》 *
李钊: "中英文混排文字识别系统的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
林晓燕等: "中文电子文档的数学公式定位研究", 《北京大学学报(自然科学版)》 *
蔡文哲 等: "基于双门限梯度模式的图像文字检测方法", 《计算机科学》 *
闫建鹏 等: "一种基于多模态特征的新闻视频语义提取框架", 《计算机应用研究》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738326A (zh) * 2020-06-16 2020-10-02 中国工商银行股份有限公司 句粒度标注训练样本生成方法及装置

Also Published As

Publication number Publication date
CN110135426B (zh) 2021-04-30

Similar Documents

Publication Publication Date Title
CN110135417A (zh) 样本标注方法及计算机存储介质
CN104517110B (zh) 一种二维码图像的二值化方法及系统
CN105654072B (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
US20230418250A1 (en) Operational inspection system and method for domain adaptive device
CN109685199B (zh) 创建包含关于池化类型的信息的表的方法和装置及使用其的测试方法和测试装置
Farag et al. Edge linking by sequential search
CN109919934B (zh) 一种基于多源域深度迁移学习的液晶面板缺陷检测方法
CN106228528B (zh) 一种基于决策图与稀疏表示的多聚焦图像融合方法
CN104239909B (zh) 一种图像的识别方法和装置
JP2006059351A (ja) 劣化辞書生成プログラム、方法および装置
CN109598223A (zh) 基于视频获取目标人物的方法和装置
CN110135407A (zh) 样本标注方法及计算机存储介质
CN110674808A (zh) 一种变电站压板状态智能识别方法及装置
Joseph Processing of engineering line drawings for automatic input to CAD
CN110135225A (zh) 样本标注方法及计算机存储介质
CN112560816A (zh) 一种基于YOLOv4的设备指示灯识别方法及系统
CN106339984A (zh) 基于k均值驱动卷积神经网络的分布式图像超分辨方法
CN107945210A (zh) 基于深度学习和环境自适应的目标跟踪算法
CN101865859A (zh) 一种图像划痕的检测方法及装置
CN113095441A (zh) 一种猪群扎堆检测方法、装置、设备及可读存储介质
CN114359938A (zh) 一种表格识别方法及装置
CN113780342A (zh) 一种基于自监督预训练的智能检测方法、装置及机器人
CN110135426A (zh) 样本标注方法及计算机存储介质
CN110310295A (zh) 一种焊缝轮廓提取方法及系统
CN110135425A (zh) 样本标注方法及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant