CN112418217A - 用于识别字符的方法、装置、设备和介质 - Google Patents

用于识别字符的方法、装置、设备和介质 Download PDF

Info

Publication number
CN112418217A
CN112418217A CN202011309357.XA CN202011309357A CN112418217A CN 112418217 A CN112418217 A CN 112418217A CN 202011309357 A CN202011309357 A CN 202011309357A CN 112418217 A CN112418217 A CN 112418217A
Authority
CN
China
Prior art keywords
image
detection
character
corrected
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011309357.XA
Other languages
English (en)
Inventor
杜宇宁
杨烨华
李晨霞
郭若愚
赵乔
刘其文
毕然
胡晓光
于佃海
马艳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011309357.XA priority Critical patent/CN112418217A/zh
Publication of CN112418217A publication Critical patent/CN112418217A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了用于识别字符的方法、装置、设备和介质,涉及人工智能尤其深度学习、图像处理领域。该识别字符方法包括获取图像,图像包括字符。该方法还包括检测图像以确定与图像上的字符相对应的检测框。该方法还包括响应于确定检测框被校正,确定图像中的、与经校正的检测框相对应的图像部分中的字符。通过该方法,可以显著的提升图像中字符的标注速率,节省了大量的时间和人力成本,提高了图像处理速度。

Description

用于识别字符的方法、装置、设备和介质
技术领域
本公开的实施例主要涉及人工智能领域,并且更具体地,涉及深度学习和图像处理领域的用于识别字符的方法、装置、设备和介质。
背景技术
图像处理是利用计算机对图像进行分析,以获得所需结果。随着人工智能的发展,图像成为计算机获取信息的重要途径。为了更好的处理图像,在机器学习领域中各种处理图像的方法得到了快速的发展。
深度学习(Deep Learning,DL)是机器学习领域中一个新的研究方向。深度学习是机器学习的一种,其可以用于处理各种图像。深度学习技术在对图像处理以执行各种任务时,不仅需要好的算法模型,还需要对原始的图片和数据的进行高质量标注。
发明内容
本公开提供了一种用于识别字符的方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种用于识别字符的方法。该方法包括获取图像,图像包括字符。该方法还包括检测图像以确定与图像上的字符相对应的检测框。该方法还包括响应于确定检测框被校正,确定图像中的、与经校正的检测框相对应的图像部分中的字符。
根据本公开的第二方面,提供了一种用于识别字符的装置。该装置包括图像获取模块,被配置为获取图像,图像包括字符;图像检测模块,被配置为检测图像以确定与图像上的字符相对应的检测框;以及第一字符确定模块,被配置为响应于确定检测框被校正,确定图像中的、与经校正的检测框相对应的图像部分中的字符。
根据本公开的第三方面,提供了一种电子设备。该电子设备包括至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行根据本公开的第一方面的方法。
根据本公开的第四方面,提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据本公开的第一方面的方法。
根据本申请的技术解决了图像中字符标注的问题,提高了字符标注的效率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1示出了本公开的多个实施例能够在其中实现的环境100的示意图;
图2示出了根据本公开的一些实施例的用于识别字符的方法200的流程图;
图3A示出了用于本公开的一些实施例的图像300的示例;
图3B示出了用于本公开的一些实施例的确定了检测框的图像300的示例;
图4示出了根据本公开的一些实施例的用于确定经校正的检测框内的字符及校正字符的方法400的流程图;
图5示出了根据本公开的一些实施例的用于识别字符的过程500的流程图;
图6示出了根据本公开的一些实施例的用于识别字符的装置600的框图;以及
图7示出了能够实施本公开的多个实施例的设备700的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
采用深度学习技术处理图像,不仅依赖于算法模型,同时也依赖于用于训练算法模型的原始图片的标注。对于目前的有监督的深度学习算法,标注图片的数量和质量对于最终深度学习技术会有很大的影响。因此,数据标注一直是人工智能技术发展的重要任务之一。
对于数据标注,传统方法都是采用全人力标注,需要消耗大量的人力成本,同时标注过程也是非常辛苦。尤其是对于字符识别(例如,光学字符识别(optical characterrecognition,OCR))任务标注,标注过程包括两步:第一步把图片上的字符逐个标注出检测框,第二步需要把检测框里面的字符进行识别,标注为字符串。
然而,利用手工对每个标注框进行标注存在许多问题。对于图片中有大量的字符串的文档场景,无论是检测框的标注,还是字符的识别,耗费的时间和人力成本都是巨大的。此外,字符识别需要的数据又非常庞大,人工标注经常成为制约图像标注的瓶颈。此外,手工标注的过程,一旦数据量过大需要多人协作分工,对于标注框的边缘,模糊字符的判断,字段的分割,由于不同的标注人员的主观差异,最终的标注结果也会有一些不一致。进一步地,手工标注的过程,因为工作量比较大,出错误的可能性也会比较大。这些错误对于后续模型的训练,也会有比较大的影响。
为了至少解决上述问题,根据本公开的实施例,提出一种的改进方案。在该方案中,计算设备获取包括字符的图像,然后检测图像以确定与图像上的字符相对应的检测框。如果确定检测框被校正,确定图像中的、与经校正的检测框相对应的图像部分中的字符。通过该方法,可以显著的提升图片中字符的标注速率,节省了大量的时间和人力成本,提高了图像处理速度。
图1示出了本公开的多个实施例能够在其中实现的环境100的示意图。该示例环境100包括计算设备106。计算设备106可以对图像102中包括字符的图像部分进行处理来获得确定的字符112。
计算设备106可用于获取图像102以对图像102中的字符进行识别和标注。计算设备106可以被实现为任何类型的计算设备,包括但不限于个人计算机、服务器计算机、手持或膝上型设备、移动设备(诸如移动电话、个人数字助理(PDA)、媒体播放器等)、多处理器系统、消费电子产品、小型计算机、大型计算机、包括上述系统或设备中的任意一个的分布式计算环境等。
图像102为包括字符的图像,其可以用于作为训练机器学习模型的样本。图像102的图像格式可以为JPEG、TIFF、RAW及其他任意合适的图像格式。图1中仅示了计算设备106处理一个图像102,其仅是示例,而非对本公开的具体限定。在一些实施例中,计算设备106可以处理任意数目的图像。
图像102包括具有字符的图像部分104。在一些实施例中,图像部分 104包括的字符为汉字。在一些实施例中,图像部分104包括的字符为英文单词。在一些实施例中,图像部分104包括汉字和英文单词的组合。上述示例仅是用于描述本公开,而非对本公开的具体限定。图像部分104中可以包括任意语言的字符或不同言的字符的组合。
在一些实施例中,图像部分104中的字符为单个字符。在一些实施例中,图像部分104中的字符为多个字符。上述示例仅是用于描述本公开,而非对本公开的具体限定。图1中示出了图像102包括一个具有字符的图像部分104,其仅是示例,图像102可以包括任意数目的包括字符的图像部分。
计算设备106在获取到图像102后,会确定与图像102中的字符相对应的检测框108。在一些实施例中,计算设备106利用导入的用于标注图像中的字符的预训练模型确定检测框108。备选地或附加,该预训练模型还可以确定出检测框内108的字符。在一些实施例中,该预训练模型是神经网络模型。备选地,该神经网络模型包括两个子模型,一个子模型用于确定检测框,另一个子模型用于确定检测框内的字符。在一些实施例中,计算设备106可以运行任意合适的算法来确定检测框。上述示例仅是用于描述本公开,而非对本公开的具体限定。
计算设备106在检测出检测框108后,会将检测框108呈现给用户。备选地或附加地,计算设备106还将识别的检测框108内的字符呈现给用户。用户可以确定检测框108是否需要校正。检测框的校正包括删除检测框、增加检测框和调整检测框等。
在一些实施例中,如果检测框108没有与要检测的包括字符的图像部分104正确的对应,例如检测框108只包括了一行字符的部分字符,则用户可以校正检测框108使其包括合适的字符。
计算设备106可以对经校正的检测框110相对应的图像部分104进行处理来识别与经校正的检测框110相对应的字符112。
如果识别的字符112正确,则可以将该字符112与经校正的检测框110 相关联地进行存储。如果识别出的字符112不正确,则用户可以将其校正的正确的字符,例如增加、删除或修改字符。然后将修改后的字符与经校正的检测框相关联地进行存储。
如果检测框108正确,则用户只需确定检测框108中的字符是否正确。如果检测框108中的字符不正确,则可以校正检测框108中的字符,然后将校正的字符和检测框108相关联地进行存储。如果检测框108中的字符正确,则可以直接将检测框108和其中的字符相关联地进行存储。
通过存储该图像102的检测框和检测框中的字符来完成对图像102的字符标注。此时的图像102及其对应的标注数据可用于训练神经网络模型,例如进一步预训练上述用于获取图像102的检测框和检测框内的字符的预训练模型。
通过该方法,可以显著的提升图像中字符的标注速率,节省了大量的时间和人力成本,提高了图像处理速度。
上面图1示出了本公开的多个实施例的能够在其中实现的环境100的示意图。下面结合图2描述根据本公开的一些实施例的用于识别字符的方法200的流程图。
在框202处,获取图像,图像包括字符。例如,图1中的计算设备106 获取图像102,所获取的图像102包括字符。
在一些实施例中,计算设备106从与其相连的存储装置获取图像102。在一些实施例中,计算设备106从与其相连的其他计算设备获得图像102。在一些实施例中,计算设备106可以从计算设备106的本地存储设备中获取图像102。上述示例仅是用于描述本公开,而非对本公开的具体限定。如图3A所示,图像300是获取的图像102的一个具体示例,图像300上面具有字符。
返回到图2,在框204处,检测图像以确定与图像上的字符相对应的检测框。例如,图1中的计算设备106检测图像102以确定与图像102上的字符相对应的检测框108。
在一些实施例中,计算设备106利用加载的预训练模型来确定图像 102上的检测框。在一个示例中,该预训练模型可以为OCR模型,诸如中英文超轻量OCR模型、中英文通用OCR模型、中英文超轻量压缩OCR 模型或任意其他合适的OCR模型。备选地或附加地,该预训练模型是神经网络模型。在另一个示例,该预训练模型是可以确定与图像上的字符对应的检测框的任意合适的模型或算法。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在一些实施例中,计算设备106利用框检测模型处理图像102以确定检测框108,框检测模型是用于从图像中标识检测框的机器学习模型。备选地或附加地,该框检测模型是预训练模型的子模型。通过该方式,可以快速的确定好图像的多数检测框,提高了检测框的确定效率,节省了检测框的确定时间。如图3B所示,图像300上的检测框包括检测框302、检测框304和检测框306。每个检测框内均包括有部分字符。
在一些实施例中,计算设备106在确定了检测框后,还会利用字符识别模型确定检测框中的字符,字符识别模型是用于识别图像中的字符的机器学习模型。备选地或附加在,该字符识别模型是预训练模型的子模型。通过该方式,可以快速的确定出检测框内的字符,提高了字符的处理效率,节省了确定字符的时间。
返回到图2,在框206处,确定检测框是否被校正。例如,图1中的计算设备106确定检测框108是否被校正为经校正的检测框110。如果检测框108未被校正,则可以存储检测框108。在一些实施例中,如果确定检测框未被校正,则可以确定与检测框相对应的文字是否需要校正。如果文字也不需要校正,则可以直接存储检测框及对应的文字。如果文字需要校正,则可以对文字进行校正,然后存储检测框和校正的文字。上述示例仅是用于描述本公开,而非对本公开的具体限定。
如果检测框被校正,则在框208处,确定图像中的、与经校正的检测框相对应的图像部分104中的字符。例如,图1中的计算设备106响应于确定检测框108被校正,确定图像102中的、与经校正的检测框110相对应的图像部分104中的字符。确定经校正的检测框110内的字符的过程在图4中进行了详细的描述。
在一些实施例中,在计算设备106确定的检测框的校正至少包括以下中的至少一项:增加检测框、删除检测框、修改检测框或对检测框的其他的调整操作。例如图3B所示,检测框304并没有完全包括对应的字符“图片中细节的处理和标注”。因此,需要校正检测框304以包括“图片中细节的处理和标注”。在一个示例中,用户手动调整检测框304以包括对应的字符。上述示例仅是用于描述本公开,而非对本公开的具体限定。通过上述方式,可以使得检测框能够准确的包括要识别的字符,提高了字符识别的准确性。
通过该方法,可以显著的提升图像中字符的标注速率,节省了大量的时间和人力成本,提高了图像处理速度。
上面结合图2和图3描述了根据本公开的一些实施例的用于识别字符的方法200的流程图。下面结合图4详细描述确定经校正的检测框内的字符及校正字符的过程。图4示出了根据本公开的一些实施例的用于确定经校正的检测框内的字符及校正字符的方法400的流程图。
在框402处,确定经校正的检测框。例如,图1中的计算设备106确定检测框中那些检测框被校正,例如确定出经校正的检测框110。
在一些实施例中,用户校正的检测框可以采用预定的字段进行标识。例如设置锁定字段,利用锁定字段标识校正过的检测框。在一些实施例中,可以设置任意合适的方式标识校正过的检测框。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在一些实施例中,对检测框的校正至少包括删除框、增加框、修改框或其他的框校正操作中的至少一项。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在框404处,获取与经校正的检测框相对应的图像部分。例如,图1 中的计算设备106获取与经校正的检测框110相对应的图像部分104。该图像部分104包括了用户想要识别的字符。
在一些实施例中,经过调整的检测框通过预定的指示值来确定。例如,可以针对检测框设置预定字段,诸如锁定字段,该字段内的值用于指用于指示检测框是否被调整过。
在框406处,对图像部分执行字符识别以确定图像部分中的字符。例如图1中的计算设备106对图像部分104执行字符识别以确定图像部分 104中的字符112。在一些实施例中,该字符识别过程可利用预训练模型的用于识别字符的子模型来实现。在一些实施例中,可以采用单独的字符识别模型来实现。上述示例仅是用于描述本公开,而非对本公的具本限定,可以采用任意合适的方式来识别图像部分中的字符。
通过上述方式,可以准确的校正检测框并确定出对应的字符,提高了确定检测框内的字符的准确性和效率,节省了时间。
在框408处,显示与经校正的检测框相对应的字符。在一些实施例中,图1中的计算设备106显示与经校正的检测框110相对应的字符。在一些实施例中,计算设备106将字符发送到与计算设备106相连的计算设备或显示设备上显示。上述示例仅是用于描述本公开,而非对本公开的具体限定。
在框410处确定字符是否被校正。例如图1中的计算设备106确定字符是否被校正。在一些实施例中,对字符的校正包括增加字符、删除字符、修改字符或其他对字符的操作中的至少一项。上述示例仅是用于描述本公开,而非对本公开的具体限定。如果确定字符未被校正,则可以相关联地存储校正的检测框和重新确定的字符。
如果确定字符被校正,在框412处,将经校正的检测框与经校正的字符相关联地进行存储。例如,图1中的计算设备106将经校正的检测框110 与经校正的字符相关联地进行存储。
通过上述方法,可以快速准确地确定出准确的检测框和准确的文本,提高了字符确定的准确率,提高了效率,节省了时间。
上面结合图4描述了用于确定经校正的检测框内的字符及校正字符的方法400。下面结合图5描述用于识别字符的过程500的示例。
如图5所示,过程500在框502处开始。然后,在框504处,计算设备106启动用于处理图像的软件。在框506处,计算设备106确定是否调整默认参数。此处的参数调整是用于选择不同类型的预处理模型,例如参数可以确定选择处理哪种语言的模型或使用哪种量级的模型,诸如性能差些但是标注快些的轻量级模型或性能好但是标注慢些的通用模型。默认参数通常置为选择常用的模型,例如使用处理中英文的模型和/或选择经量级的模型。如果用户调整默认参数,则在框508处,计算设备106确定配置参数。在确定使用默认参数或配置参数后,在框510处,导入预训练模型。该预训练模型是OCR模型,诸如中英文超轻量OCR模型、中英文通用OCR模型、中英文超轻量压缩OCR模型或任意其他合适的OCR模型。
然后在框512处,在计算设备106中导入图像。在框514处,启动全流程自动标注。在该过程中,预训练模型不仅标出检测框,还识别出检测框内的字符。然后将标注的检测框及对应的字符呈现给用户。在516处确定检测框是否被校正。如果用户查看到检测框不正确,则会在框518处校正检测结果,即校正检测框。在校正完检测框后,然后在框520处启动半流程自动标注,此时只对经校正的检测框内的图像部分进行字符识别,备选地或附加地,如果存在多个需要校正的检测框,在518处需对所有检测框校正完成后进行到框520。在框520中,启动半流程自动标注。可以使用预训练模型中识别检测框内的字符的子模型来识别校正的检测框内的文字。
如果没有需要校正的检测框或者在启动半流程自动标注后,将识别结果呈现给用户。在522处,确定识别结果是否需要被校正。如果不需要校正,则进行到框526。如果需要校正,则在框524处校正识别结果,例如用户校正识别结果,诸增加、删除或修改字符。然后进行框526,将检测框和识别的字符相关联地进行存储。在存储时,可以存储检测框的位置,例如检测框的四个顶点的位置,以及与该检测框相对应的文字。然后在框 528处,该过程结束。
通过上述方法,可以显著的提升图像中字符的标注速率,节省了大量的时间和人力成本,提高了图像处理速度。
图6示出了根据本公开实施例的用于识别字符的装置600的示意性框图。如图6所示,装置600包括图像获取模块602,被配置为获取图像,图像包括字符。装置600还包括图像检测模块604,被配置为检测图像以确定与图像上的字符相对应的检测框。装置600还包括第一字符确定模块 606,被配置为响应于确定检测框被校正,确定图像中的、与经校正的检测框相对应的图像部分中的字符。
在一些实施例中,图像检测模块包括:检测框确定模块,被配置为利用框检测模型处理图像以确定检测框,框检测模型是用于从图像中标识检测框的机器学习模型。
在一些实施例中,图像检测模块还包括第二字符确定模块,被配置为利用字符识别模型确定检测框中的字符,字符识别模型是用于识别图像中的字符的机器学习模型。
在一些实施例中,第一字符确定模块包括经校正的检测框确定模块,被配置为确定经校正的检测框;图像部分获取模块,被配置为获取与经校正的检测框相对应的图像部分;以及字符识别模块,被配置为对图像部分执行字符识别以确定图像部分中的字符。
在一些实施例中,装置600还包括字符显示模块,被配置为显示与经校正的检测框相对应的字符;以及存储模块,被配置为响应于确定字符被校正,将经校正的检测框与经校正的字符相关联地进行存储。
在一些实施例中,其中检测框的校正包括以下中的至少一项:增加检测框、删除检测框或修改检测框。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
图7示出了可以用来实施本公开的实施例的电子设备700的示意性框图。设备700可以用于实现图1中的计算设备106。如图所示,设备700 包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序指令或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序指令,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如方法200和400。例如,在一些实施例中,方法200和400 可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM702 和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的方法200和 400的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法200和 400。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (15)

1.一种用于识别字符的方法,包括:
获取图像,所述图像包括字符;
检测所述图像以确定与所述图像上的字符相对应的检测框;以及
响应于确定所述检测框被校正,确定所述图像中的、与经校正的所述检测框相对应的图像部分中的字符。
2.根据权利要求1所述的方法,其中检测所述图像包括:
利用框检测模型处理所述图像以确定所述检测框,所述框检测模型是用于从图像中标识检测框的机器学习模型。
3.根据权利要求2所述的方法,其中检测所述图像还包括:
利用字符识别模型确定所述检测框中的字符,所述字符识别模型是用于识别图像中的字符的机器学习模型。
4.根据权利要求1所述的方法,其中确定所述字符包括:
确定经校正的所述检测框;
获取与经校正的所述检测框相对应的所述图像部分;以及
对所述图像部分执行字符识别以确定所述图像部分中的所述字符。
5.根据权利要求1所述的方法,还包括:
显示与经校正的所述检测框相对应的所述字符;以及
响应于确定所述字符被校正,将经校正的所述检测框与经校正的所述字符相关联地进行存储。
6.根据权利要求1所述的方法,其中所述检测框的所述校正包括以下中的至少一项:
增加检测框、删除检测框或修改检测框。
7.一种用于识别字符的装置,包括:
图像获取模块,被配置为获取图像,所述图像包括字符;
图像检测模块,被配置为检测所述图像以确定与所述图像上的字符相对应的检测框;以及
第一字符确定模块,被配置为响应于确定所述检测框被校正,确定所述图像中的、与经校正的所述检测框相对应的图像部分中的字符。
8.根据权利要求7所述的装置,其中所述图像检测模块包括:
检测框确定模块,被配置为利用框检测模型处理所述图像以确定所述检测框,所述框检测模型是用于从图像中标识检测框的机器学习模型。
9.根据权利要求8所述的装置,其中所述图像检测模块还包括:
第二字符确定模块,被配置为利用字符识别模型确定所述检测框中的字符,所述字符识别模型是用于识别图像中的字符的机器学习模型。
10.根据权利要求7所述的装置,其中所述第一字符确定模块包括:
经校正的检测框确定模块,被配置为确定经校正的所述检测框;
图像部分获取模块,被配置为获取与经校正的所述检测框相对应的所述图像部分;以及
字符识别模块,被配置为对所述图像部分执行字符识别以确定所述图像部分中的所述字符。
11.根据权利要求7所述的装置,还包括:
字符显示模块,被配置为显示与经校正的所述检测框相对应的所述字符;以及
存储模块,被配置为响应于确定所述字符被校正,将经校正的所述检测框与经校正的所述字符相关联地进行存储。
12.根据权利要求7所述的装置,其中所述检测框的所述校正包括以下中的至少一项:
增加检测框、删除检测框或修改检测框。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202011309357.XA 2020-11-20 2020-11-20 用于识别字符的方法、装置、设备和介质 Pending CN112418217A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011309357.XA CN112418217A (zh) 2020-11-20 2020-11-20 用于识别字符的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011309357.XA CN112418217A (zh) 2020-11-20 2020-11-20 用于识别字符的方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN112418217A true CN112418217A (zh) 2021-02-26

Family

ID=74773861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011309357.XA Pending CN112418217A (zh) 2020-11-20 2020-11-20 用于识别字符的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN112418217A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862980A (zh) * 2023-06-12 2023-10-10 上海玉贲智能科技有限公司 图像边缘的目标检测框位置优化校正方法、系统、介质及终端

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014130415A (ja) * 2012-12-28 2014-07-10 Nidec Sankyo Corp 文字認識装置、文字認識方法、及び文字認識プログラム
CN110674876A (zh) * 2019-09-25 2020-01-10 北京猎户星空科技有限公司 一种字符检测方法、装置、电子设备及计算机可读介质
CN111476210A (zh) * 2020-05-11 2020-07-31 上海西井信息科技有限公司 基于图像的文本识别方法、系统、设备及存储介质
CN111563502A (zh) * 2020-05-09 2020-08-21 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111598091A (zh) * 2020-05-20 2020-08-28 北京字节跳动网络技术有限公司 图像识别方法、装置、电子设备及计算可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014130415A (ja) * 2012-12-28 2014-07-10 Nidec Sankyo Corp 文字認識装置、文字認識方法、及び文字認識プログラム
CN110674876A (zh) * 2019-09-25 2020-01-10 北京猎户星空科技有限公司 一种字符检测方法、装置、电子设备及计算机可读介质
CN111563502A (zh) * 2020-05-09 2020-08-21 腾讯科技(深圳)有限公司 图像的文本识别方法、装置、电子设备及计算机存储介质
CN111476210A (zh) * 2020-05-11 2020-07-31 上海西井信息科技有限公司 基于图像的文本识别方法、系统、设备及存储介质
CN111598091A (zh) * 2020-05-20 2020-08-28 北京字节跳动网络技术有限公司 图像识别方法、装置、电子设备及计算可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116862980A (zh) * 2023-06-12 2023-10-10 上海玉贲智能科技有限公司 图像边缘的目标检测框位置优化校正方法、系统、介质及终端
CN116862980B (zh) * 2023-06-12 2024-01-23 上海玉贲智能科技有限公司 图像边缘的目标检测框位置优化校正方法、系统、介质及终端

Similar Documents

Publication Publication Date Title
CN108229303B (zh) 检测识别和检测识别网络的训练方法及装置、设备、介质
CN108038474B (zh) 人脸检测方法、卷积神经网络参数的训练方法、装置及介质
CN108073910B (zh) 用于生成人脸特征的方法和装置
CN112561080B (zh) 样本筛选方法、样本筛选装置及终端设备
CN113313111B (zh) 文本识别方法、装置、设备和介质
KR102002024B1 (ko) 객체 라벨링 처리 방법 및 객체 관리 서버
CN110555096A (zh) 用户意图识别方法、系统、终端及介质
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN115063875A (zh) 模型训练方法、图像处理方法、装置和电子设备
CN114419035A (zh) 产品识别方法、模型训练方法、装置和电子设备
CN112839185B (zh) 用于处理图像的方法、装置、设备和介质
CN108992033B (zh) 一种视觉测试的评分装置、设备和存储介质
CN112418217A (zh) 用于识别字符的方法、装置、设备和介质
CN111414889B (zh) 基于文字识别的财务报表识别方法及装置
CN110210314B (zh) 人脸检测方法、装置、计算机设备及存储介质
CN112464927A (zh) 一种信息提取方法、装置及系统
CN110826616A (zh) 信息处理方法及装置、电子设备、存储介质
CN111753618A (zh) 图像识别方法、装置、计算机设备及计算机可读存储介质
CN115861809A (zh) 杆状物检测及其模型的训练方法、装置、电子设备、介质
CN114842476A (zh) 水印检测方法及装置、模型训练方法及装置
CN114663886A (zh) 文本识别方法、模型的训练方法及装置
CN114549904A (zh) 视觉处理及模型训练方法、设备、存储介质及程序产品
CN111798376A (zh) 图像识别方法、装置、电子设备及存储介质
CN111274369A (zh) 一种英文单词的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination