CN106446899A - 文字检测方法和装置、及文字检测训练方法和装置 - Google Patents

文字检测方法和装置、及文字检测训练方法和装置 Download PDF

Info

Publication number
CN106446899A
CN106446899A CN201610842572.3A CN201610842572A CN106446899A CN 106446899 A CN106446899 A CN 106446899A CN 201610842572 A CN201610842572 A CN 201610842572A CN 106446899 A CN106446899 A CN 106446899A
Authority
CN
China
Prior art keywords
suggestion areas
convolutional neural
neural networks
region
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610842572.3A
Other languages
English (en)
Inventor
向东来
郭强
夏炎
梁鼎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sensetime Technology Development Co Ltd
Original Assignee
Beijing Sensetime Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sensetime Technology Development Co Ltd filed Critical Beijing Sensetime Technology Development Co Ltd
Priority to CN201610842572.3A priority Critical patent/CN106446899A/zh
Publication of CN106446899A publication Critical patent/CN106446899A/zh
Priority to PCT/CN2017/102679 priority patent/WO2018054326A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

公开了文字检测方法和装置及文字检测训练方法和装置。示例性的文字检测方法包括:使用卷积神经网络从包括文字区域的图像提取特征图;采用多个锚矩形对所述特征图分别进行横向截取,得到多个建议区域;将每个建议区域通过所述卷积神经网络进行分类和回归,其中,通过所述分类来确定每个建议区域是否对应于包括文字的区域,通过所述回归来确定每个建议区域对应所述图像中的位置;以及将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接,以得到文字区域检测结果。根据上述方法,网络仅需看到与文字区域的横向一部分对应的锚矩形附近的区域即可,减小了网络设计的难度。

Description

文字检测方法和装置、及文字检测训练方法和装置
技术领域
本申请涉及文字检测,具体地,涉及基于卷积神经网络的文字检测方法和装置、及文字检测训练方法和装置,更具体地,涉及基于区域建议神经网络的文字检测方法和装置、及文字检测训练方法和装置。
背景技术
近年来,基于卷积神经网络的通用物体检测方法被尝试用于文字检测领域,并取得了较好的效果。区域建议神经网络(Region Proposal Network,RPN)是卷积神经网络中性能最好的算法之一,如何将区域建议神经网络应用到文字检测中,目前引起了业内人士的广泛关注和研究热情。
发明内容
本申请提供了用于文字检测的技术方案。
一方面,本申请提供了一种文字检测方法,包括:使用卷积神经网络从包括文字区域的图像提取特征图;采用多个锚矩形对所述特征图分别进行横向截取,得到多个建议区域;将每个建议区域通过所述卷积神经网络进行分类和回归,其中,通过所述分类来确定每个建议区域是否对应于包括文字的区域,通过所述回归来确定每个建议区域对应所述图像中的位置;以及将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接,以得到文字区域检测结果。
根据一个实施方式,区域横向拼接可包括:根据通过回归确定的各建议区域分别对应图像中的位置,将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接,由此得到文字区域检测结果。
根据一个实施方式,文字检测方法还可包括预先对卷积神经网络进行训练,其中,对卷积神经网络的训练包括:使用卷积神经网络从包括文字区域的训练图像提取特征图;采用多个锚矩形对训练图像的特征图进行横向截取,得到多个建议区域;将每个锚矩形截取的建议区域通过卷积神经网络进行分类和回归,其中分类确定每个建议区域是否对应于包括文字的区域,回归确定每个建议区域的位置;以及根据已知的与训练图像对应的真实文字区域以及分类和回归得到的预测文字区域的差异,迭代训练卷积神经网络直至训练结果满足预定收敛条件。
根据一个实施方式,在卷积神经网络的每次迭代训练中,可根据预测文字区域与对应的真实文字区域在竖直方向上的交并比,确定真实文字区域和预测文字区域之间的差异。
根据一个实施方式,在卷积神经网络的每次迭代训练中,可根据smooth L1损失函数确定真实文字区域和预测文字区域之间的差异。
根据一个实施方式,当预测文字区域与对应的真实文字区域在竖直方向上的交并比大于预先设定的阈值时,该预测文字区域对应的建议区域可被确定为正样本;否则,该预测文字区域对应的建议区域可被确定为负样本。
根据一个实施方式,锚矩形的宽度可以是固定的。
根据一个实施方式,锚矩形的宽度可根据卷积神经网络的步长确定。
根据一个实施方式,锚矩形的宽度可等于或大于卷积神经网络的步长。
另一方面,本申请提供了一种文字检测训练方法,包括:使用卷积神经网络从包括文字区域的训练图像提取特征图;采用多个锚矩形对所述训练图像的特征图进行横向截取,得到多个建议区域;将每个锚矩形截取的建议区域通过所述卷积神经网络进行分类和回归,其中所述分类确定每个建议区域是否对应于包括文字的区域,所述回归确定每个建议区域的位置;以及根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异,迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。
根据一个实施方式,在卷积神经网络的每次迭代训练中,可根据预测文字区域与对应的真实文字区域在竖直方向上的交并比,确定真实文字区域和预测文字区域之间的差异。
根据一个实施方式,在卷积神经网络的每次迭代训练中,可根据smooth L1损失函数确定真实文字区域和预测文字区域之间的差异。
根据一个实施方式,当预测文字区域与对应的真实文字区域在竖直方向上的交并比大于预先设定的阈值时,该预测文字区域对应的建议区域可被确定为正样本;否则,该预测文字区域对应的建议区域可被确定为负样本。
根据一个实施方式,锚矩形的宽度可以是固定的。
根据一个实施方式,锚矩形的宽度可根据卷积神经网络的步长确定。
根据一个实施方式,锚矩形的宽度可等于或大于卷积神经网络的步长。
又一方面,本申请提供了一种文字检测装置,包括:图像特征提取模块,使用卷积神经网络从包括文字区域的图像提取特征图;建议区域截取模块,采用多个锚矩形对所述特征图分别进行横向截取,得到多个建议区域;分类模块,将每个建议区域通过所述卷积神经网络进行分类,以确定每个建议区域是否对应于包括文字的区域;回归模块,将每个建议区域通过所述卷积神经网络进行回归,以确定每个建议区域对应所述图像中的位置;以及检测结果拼接模块,将所述分类模块确定的对应于包括文字的区域的各建议区域根据所述回归模块确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接,以得到文字区域检测结果。
根据一个实施方式,区域横向拼接可包括:根据通过回归确定的各建议区域分别对应图像中的位置,将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接,由此得到文字区域检测结果。
根据一个实施方式,文字检测装置还可包括预先对卷积神经网络进行训练的训练模块,其中,在对卷积神经网络的预先训练过程中:图像特征提取模块从包括文字区域的训练图像提取特征图;建议区域截取模块采用多个锚矩形对训练图像的特征图进行横向截取,得到多个建议区域;分类模块将每个建议区域通过卷积神经网络进行分类,以确定每个建议区域是否对应于包括文字的区域,回归模块将每个建议区域通过卷积神经网络进行回归,以确定每个建议区域对应图像中的位置;以及训练模块根据已知的与训练图像对应的真实文字区域以及分类和回归得到的预测文字区域的差异,迭代训练卷积神经网络直至训练结果满足预定收敛条件。
根据一个实施方式,在卷积神经网络的每次迭代训练中,可根据预测文字区域与对应的真实文字区域在竖直方向上的交并比,确定真实文字区域和预测文字区域之间的差异。
根据一个实施方式,在卷积神经网络的每次迭代训练中,可根据smooth L1损失函数确定真实文字区域和预测文字区域之间的差异。
根据一个实施方式,当预测文字区域与对应的真实文字区域在竖直方向上的交并比大于预先设定的阈值时,该预测文字区域对应的建议区域可被确定为正样本;否则,该预测文字区域对应的建议区域可被确定为负样本。
根据一个实施方式,锚矩形的宽度可以是固定的。
根据一个实施方式,锚矩形的宽度可根据卷积神经网络的步长确定。
根据一个实施方式,锚矩形的宽度可等于或大于卷积神经网络的步长。
再一方面,本申请提供了一种文字检测训练装置,包括:图像特征提取模块,使用卷积神经网络从包括文字区域的训练图像提取特征图;建议区域截取模块,采用多个锚矩形对所述训练图像的特征图进行横向截取,得到多个建议区域;分类模块,将每个建议区域通过所述卷积神经网络进行分类,以确定每个建议区域是否对应于包括文字的区域;回归模块,将每个建议区域通过所述卷积神经网络进行回归,以确定每个建议区域对应所述训练图像中的位置;以及训练模块,根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异,迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。
根据一个实施方式,在卷积神经网络的每次迭代训练中,可根据预测文字区域与对应的真实文字区域在竖直方向上的交并比,确定真实文字区域和预测文字区域之间的差异。
根据一个实施方式,在卷积神经网络的每次迭代训练中,可根据smooth L1损失函数确定真实文字区域和预测文字区域之间的差异。
根据一个实施方式,当预测文字区域与对应的真实文字区域在竖直方向上的交并比大于预先设定的阈值时,该预测文字区域对应的建议区域可被确定为正样本;否则,该预测文字区域对应的建议区域可被确定为负样本。
根据一个实施方式,锚矩形的宽度可以是固定的。
根据一个实施方式,锚矩形的宽度可根据卷积神经网络的步长确定。
根据一个实施方式,锚矩形的宽度可等于或大于卷积神经网络的步长。
再一方面,本申请提供了一种文字检测装置,存储器,存储有可执行指令;以及一个或多个处理器,与所述存储器通信以执行所述可执行指令从而执行以下操作:使用卷积神经网络从包括文字区域的图像提取特征图;采用多个锚矩形对所述特征图分别进行横向截取,得到多个建议区域;将每个建议区域通过所述卷积神经网络进行分类和回归,其中,通过所述分类来确定每个建议区域是否对应于包括文字的区域,通过所述回归来确定每个建议区域对应所述图像中的位置;以及将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接,以得到文字区域检测结果。
再一方面,本申请提供了一种文字检测训练装置,包括:存储器,存储有可执行指令;以及一个或多个处理器,与所述存储器通信以执行所述可执行指令从而执行以下操作:使用卷积神经网络从包括文字区域的训练图像提取特征图;采用多个锚矩形对所述训练图像的特征图进行横向截取,得到多个建议区域;将每个锚矩形截取的建议区域通过所述卷积神经网络进行分类和回归,其中所述分类确定每个建议区域是否对应于包括文字的区域,所述回归确定每个建议区域的位置;以及根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异,迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。
本申请还提供了一种计算机可读介质,其中存储有计算机可执行指令,当处理器执行存储于该计算机可读介质中的计算机可执行指令时,处理器执行本申请实施例提供的任一种文字检测方法和/或文字检测训练方法。
通过采用了多个横向拼接的锚矩形来执行特征提取以及之后的分类和回归,每个锚矩形仅截取与图像中的待检测区域的横向一部分对应的建议区域来进行处理,因此对于用来进行文字检测的卷积神经网络而言,在对具有较大宽度文字区域进行检测时,仅需看到与待检测区域的横向一部分对应的单个锚矩形附近的区域即可,而无需具有很大的感受野,由此,减小了网络设计的难度。
附图说明
通过阅读参照附图所作出的以下详细描述,本申请的其它特征、目的和有益效果将会变得更明显,在附图中:
图1是示出了根据本申请实施例的文字检测方法的流程图;
图2示出了根据示例性实施方式的文字检测装置的架构图;
图3示出了根据本申请示例性应用实例的示意图;
图4示出了根据示例性实施方式对卷积神经网络的训练方法的流程图;
图5示出了根据示例性实施方式的文字检测训练装置的架构图;以及
图6是示出了适合实施本申请实施例的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施方式对本申请作进一步的详细说明。可以理解的是,在本文中所描述的具体实施方式仅仅用于解释本申请,而非对本申请进行限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分。下面将参照附图并结合实施方式来详细说明本申请。
图1是示出了根据本申请实施例的文字检测方法的流程图1000。首先,在步骤S1010,使用卷积神经网络从包括文字区域的图像提取特征图(feature map)。通过卷积得到的特征图包含了图像的特征信息。在步骤S1030,采用多个锚矩形(anchor)对特征图分别进行横向截取,得到多个建议区域。由于采用多个锚矩形对特征图分别进行横向截取,因此得到的每个建议区域仅与待检测图像的横向一部分对应,而不是对应于待检测区域的整个横向长度。在步骤S1050,将每个建议区域通过卷积神经网络进行分类和回归,其中,通过分类来确定每个建议区域是否对应于包括文字的区域,通过回归来确定每个建议区域对应待检测图像中的位置。在步骤S1070,将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接,以得到文字区域检测结果。具体地,例如,根据通过回归确定的所述各建议区域分别对应待检测图像中的位置,将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接,由此得到文字区域检测结果。
由于分类和回归的处理对象是由锚矩形截取的对应于待检测图像的横向一部分对应的建议区域,因此对于用来进行文字检测的卷积神经网络而言,在对具有较大宽度文字区域进行检测时,仅需看到与文字区域的横向一部分对应的单个锚矩形附近的区域即可,而无需具有很大的感受野,由此,减小了网络设计的难度。
在上述文字检测方法中,多个锚矩形可以是在横向方向(即,宽度方向)上连续拼接的锚矩形,由此,各锚矩形截取的各建议区域正好对应于待检测图像的整个宽度。可选地,多个锚矩形之间在宽度方向可以略微重叠,由此,各锚矩形截取的各建议区域对应于待检测图像的整个宽度并具有少量重叠部分,以避免由于实际使用中的误差而在相邻锚矩形或相邻的建议区域之间产生间隙,从而遗漏待检测图像的某些中间宽度。
图2示出了根据示例性实施方式的文字检测装置2000的架构图。具体地,文字检测装置2000以RPN的形式实现。如图所示,文字检测装置2000包括图像特征提取模块2010、建议区域截取模块2030、分类模块2040、回归模块2050和检测结果拼接模块2070,其中,图像特征提取模块2010使用卷积神经网络从包括文字区域的图像提取特征图,建议区域截取模块2030采用多个锚矩形对所述特征图分别进行横向截取以得到多个建议区域,分类模块2040将每个建议区域通过所述卷积神经网络进行分类,以确定每个建议区域是否对应于包括文字的区域,回归模块2050将每个建议区域通过所述卷积神经网络进行回归,以确定每个建议区域对应所述图像中的位置,检测结果拼接模块2070检测结果拼接模块,将所述分类模块确定的对应于包括文字的区域的各建议区域根据所述回归模块确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接,以得到文字区域检测结果。
具体地,结合上文所述,在对图像中的文字进行检测时,首先将包括文字的图像输入图像特征提取模块2010,在图像特征模块2010使用卷积神经网络从包括文字区域的图像提取特征图。通过卷积得到的特征图包含了图像的特征信息。然后,在图像特征模块2010提取到的特征图被输入建议区域截取模块2030,在建议区域截取模块2030中,采用多个锚矩形对所述特征图分别进行横向截取,得到多个建议区域。获得的建议区域分别输入分类模块2040和回归模块2050,进行分类和回归,通过分类确定每个建议区域是否对应于包括文字的区域,通过回归确定每个建议区域对应所述图像中的位置。检测结果拼接模块2070将所述分类模块确定的对应于包括文字的区域的各建议区域根据所述回归模块确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接,以得到文字区域检测结果。具体地,例如,根据通过回归确定的所述各建议区域分别对应所述图像中的位置,将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接,由此得到所述文字区域检测结果。
下面结合上述文字检测方法和文字检测装置对示例性的应用实例进行描述。图3示出了根据本申请示例性应用实例的示意图。
如图3所示,包含文字区域的图像10是待检测的对象。在现有的RPN中,采用的锚矩形例如为图示的与待检测文字区域的整个横向宽度对应的单个锚矩形110。只有在采用的锚矩形的横向宽度对应于待检测文字区域的整个横向宽度时,才能实现对该文字区域的检测。这样,在文字宽度较大的情况下,RPN往往需要很大的感受野才能进行处理,由此给网络的设计带来很大的难度。因此,区域建议神经网络往往并不适于直接应用于文字检测。
如图3所示,根据本申请的示例性实施方式,采用多个横向拼接的锚矩形120代替单个锚矩形110,多个横向拼接的锚矩形120的宽度之和对应于待检测文字区域的整个横向宽度。例如,多个横向拼接的锚矩形120的宽度之和可以等于待检测文字区域的整个横向宽度,或者略大于待检测文字区域的整个横向宽度。在多个横向拼接的锚矩形120的宽度之和可以等于待检测文字区域的整个横向宽度的情况下,多个锚矩形120彼此邻接,从而与待检测文字区域的整个横向宽度相对应。在多个横向拼接的锚矩形120的宽度之和可以等于待检测文字区域的整个横向宽度的情况下,多个锚矩形120中的至少一部分相邻锚矩形之间具有部分重合,多个锚矩形120连接形成的区域的宽度与待检测文字区域的整个横向宽度相对应。在上述文字检测方法中,首先由卷积神经网络中的图像特征提取模块对待检测图像10进行特征图提取。图3示例性示出了得到的特征图的一部分20。在建议区域截取模块,采用多个横向拼接的锚矩形对所述特征图进行截取以获得多个建议区域,以便对每个锚矩形截取的建议区域分别进行处理。每个锚矩形截取的建议区域例如为图3所示的滑动窗的形式。可选地,对于锚矩形截取的建议区域,可以通过一个或多个卷积层40进一步处理。经卷积层40处理后的建议区域(或者未经卷积层处理的建议区域)输入到分类器50和回归器60。在分类器50处识别每个建议区域是否为文字区域。在回归器60处确定每个建议区域的位置。最后,在检测结果拼接模块将分类器确定的对应于文字区域的建议区域根据在回归器处确定的位置进行拼接,以形成检测的文字检测结果。如上文所述,拼接的具体方式例如是将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接,由此得到所述文字区域检测结果。
根据示例性实施方式,在上述文字检测方法1000中,进一步包括预先对卷积神经网络进行训练的步骤。通过下文将描述的训练,获得经训练的文字检测装置,例如上述文字检测装置2000。
图4示出了根据示例性实施方式对卷积神经网络的训练方法4000。具体地,如图4所示,对卷积神经网络的训练方法4000可包括:在步骤S4010,从包括文字区域的训练图像提取特征图;在步骤S4030,采用多个锚矩形对所述训练图像的特征图进行横向截取,得到多个建议区域;在步骤S4050,将每个锚矩形截取的建议区域通过所述卷积神经网络进行分类和回归,其中所述分类确定每个建议区域是否对应于包括文字的区域,所述回归确定每个建议区域的位置;以及在步骤S4070,根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异,迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。预定的收敛条件例如可以是:迭代训练最近一次的误差值落入容许范围、或者误差值小于预定值、或者误差值最小、或者迭代次数达到预定次数,等等。
根据本申请的实施方式,在所述卷积神经网络的每次迭代训练中,根据所述预测文字区域与所述对应的真实文字区域在竖直方向上的交并比,确定所述真实文字区域和所述预测文字区域之间的差异。例如,在所述卷积神经网络的每次迭代训练中,根据smoothL1损失函数确定所述真实文字区域和所述预测文字区域之间的差异。差异的一种表现形式可以是误差。
根据本申请的实施方式,当预测文字区域与对应的真实文字区域在竖直方向上的交并比大于预先设定的阈值时,该预测文字区域对应的建议区域被确定为正样本;否则,该预测文字区域对应的建议区域被确定为负样本。
具体地,分类器例如采用softmax损失函数,用来对是否为文字区域进行预测。根据示例性实施方式,在训练过程中,在计算卷积神经网络的误差值时,分类器根据建议区域与对应的真实文字区域的横向一部分在竖直方向上的交并比,确定各个建议区域是正样本还是负样本。回归器可采用RPN网络中的smooth L1损失函数作为训练目标函数来使真实文字区域和预测文字区域之间的差异最小化。经过迭代训练所述卷积神经网络直至训练结果满足预定收敛条件,卷积神经网络的参数被调整为适应于利用多个横向拼接的锚矩形来对图像中的文字区域进行识别。
具体地,当采用RPN网络中的smooth L1损失函数作为训练目标函数时,真实文字区域和预测文字区域之间的差异由以下公式确定:
其中,L是目标误差函数,i是锚矩形截取的建议区域的序号,ci为第i个建议区域的类别标记,ri为第i个建议区域的位置向量,上标为*的表示相应变量的目标真实值,Lcls为分类损失函数,Lreg为回归位置的损失函数,Ncls和Nreg分别代表被选择的分类和回归训练样本数目,λ是预先设定的经验值,j为x、y、w和h中的任一,其中x和y分别是对应建议区域的中心点的横坐标和纵坐标,w和h分别是对应建议区域的宽度和高度。
当第i个建议区域与对应的真实文字区域的横向一部分在竖直方向上的交并比大于预先设定的阈值时,ci等于1,代表第i个建议区域为正样本;以及,当第i个建议区域与对应的真实文字区域的横向一部分在竖直方向上的交并比小于或等于预先设定的阈值时,ci等于1,代表第i个建议区域为负样本。
由于上述训练过程中,分类器根据锚矩形截取的建议区域和真实区域的交并比来确定每个建议区域是对应于包括文字的区域(正样本),还是对应于不包括文字的区域(负样本),因此,当一个锚矩形在竖直方向和真实区域重合、但在水平方向只占了真实区域的一小部分时,这个锚矩形将被认为是对应于文字区域,从而被选为正样本。而在现有的RPN中,这种情况虽然的确是文字区域,但其将不会被选为正样本。
通过在迭代的训练过程对系统参数进行调整以减小由训练目标函数表示真实文字区域和预测文字区域的差异,得到训练好的卷积神经网络,即,上述文字检测装置2000。
经此训练后,在后续的检测过程中,可采用多个横向拼接的锚矩形来执行特征提取以及之后的分类和回归,每个锚矩形(或锚矩形截取的建议区域)仅对应于待检测区域的横向一部分,由于在对卷积神经网络的训练过程中只考虑了竖直方向上的特征,因此在检测过程中,卷积神经网络中的分类器也考虑建议区域竖直方向的特征来预测每个建议区域是否对应于文字区域。在将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接后,得到文字区域检测结果。基于这样的技术方案,避免了在锚矩形宽度小于真实区域宽度时,对实际对应于文字区域的部分真实区域不能正确识别的问题。
图5示出了根据示例性实施方式的文字检测训练装置5000的架构图。文字检测训练装置5000的各个模块执行上述文字检测训练方法4000的各个步骤。具体地,文字检测装置5000以RPN的形式实现。如图所示,文字检测装置5000包括图像特征提取模块5010、建议区域截取模块5030、分类模块5040、回归模块5050和训练模块5060,其中,图像特征提取模块5010使用卷积神经网络从包括文字区域的训练图像提取特征图,建议区域截取模块5030采用多个锚矩形对训练图像的特征图分别进行横向截取以得到多个建议区域,分类模块5040将每个建议区域通过所述卷积神经网络进行分类,以确定每个建议区域是否对应于包括文字的区域,回归模块5050将每个建议区域通过所述卷积神经网络进行回归,以确定每个建议区域对应训练图像中的位置,训练模块5060根据已知的与训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异,迭代训练卷积神经网络直至训练结果满足预定收敛条件。
具体地,结合上文所述,在对图像中的文字进行检测时,首先将包括文字的图像输入图像特征提取模块5010,在图像特征模块5010使用卷积神经网络从包括文字区域的训练图像提取特征图。通过卷积得到的特征图包含了训练图像的特征信息。然后,在图像特征模块5010提取到的特征图被输入建议区域截取模块5030,在建议区域截取模块5030中,采用多个锚矩形对所述特征图分别进行横向截取,得到多个建议区域。获得的建议区域分别输入分类模块5040和回归模块5050,进行分类和回归,通过分类确定每个建议区域是否对应于包括文字的区域,通过回归确定每个建议区域对应所述训练图像中的位置。训练模块5060根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异,迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。预定的收敛条件例如可以是:迭代训练最近一次的误差值落入容许范围、或者误差值小于预定值、或者误差值最小、或者迭代次数达到预定次数,等等。
此外,上文结合图4描述的文字检测训练方法4000的各个特征均适用于图5所示的文字检测训练装置5000。在不同的实施方式中,上文结合图4描述的文字检测训练方法4000的各个特征的任意数量的各种组合可结合于图5所示的文字检测训练装置5000中。
根据示例性实施方式,在以上所述的训练和文字检测中,采用的锚矩形的宽度可以是固定,由此减少了进行匹配所需的锚矩形的尺寸和数量,从而减少了计算量。
根据示例性实施方式,在以上所述的训练和文字检测中,采用的锚矩形的宽度可等于卷积神经网络的步长,由此,将检测结果横向拼接后形成检测结果正好对应于检测区域的整个宽度。可选地,采用的锚矩形的宽度可略大于卷积神经网络的步长,由此,将检测结果横向拼接后形成检测结果对应于检测区域的整个宽度并具有少量重叠部分,以避免由于实际使用中的误差等因素而在相邻锚矩形之间产生间隙,从而遗漏检测区域的某些中间宽度。
参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置可通过计算机系统来实施。该计算机系统可包括存储有可执行指令的存储器以及处理器。处理器与存储器通信以执行可执行指令从而实施参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置。可替代地或附加地,参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置可通过非暂时性计算机存储介质来实施。该介质存储计算机可读指令,当这些指令被执行时使处理器执行参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置。
现参照图6,图6是示出了适合实施本申请实施例的计算机系统6000的结构示意图。
如图6所示,计算机系统6000可包括处理单元(如中央处理单元(CPU)6001、图像处理单元(GPU)等),其可根据存储在只读存储器(ROM)6002中的程序或从存储部分6008加载至随机存取存储器(RAM)6003中的程序而执行各种适当的动作和过程。在RAM 6003中,还可存储有系统6000操作所需要的各种程序和数据。CPU 6001、ROM 6002和RAM 6003通过总线6004彼此连接。输入/输出I/O接口6005也与总线6004连接。
以下为可与I/O接口6005连接的部件:包括键盘、鼠标等的输入部分6006;包括阴极射线管CRT、液晶显示设备LCD和扬声器等的输出部分6007;包括硬盘等的存储部分6008;以及包括网络接口卡(如LAN卡和调制解调器等)的通信部分6009。通信部分6009可通过诸如因特网等网络执行通信处理。根据需要,驱动器6010也可与I/O接口6005连接。如磁盘、光盘、磁光盘、半导体存储器等的可拆卸介质6011可安装在驱动器6010上,以便于从其上读出的计算机程序根据需要被安装入存储部分6008。
具体地,根据本公开的实施例,以上参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置可实施为计算机软件程序。例如,本公开的实施例可包括计算机程序产品,该产品包括有形地体现在机器可读介质中的计算机程序。该计算机程序包括用于执行参照图1至图5描述的文字检测方法和装置及文字检测训练方法和装置。在这种实施例中,计算机程序可通过通信部分6009从网络上下载并进行安装,和/或可从可拆卸介质6011安装。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本申请的实施例所涉及的单元或模块可通过软件或硬件实施。所描述的单元或模块也可设置在处理器中。这些单元或模块的名称不应被视为限制这些单元或模块。
以上描述仅为本申请的示例性实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不背离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种文字检测方法,包括:
使用卷积神经网络从包括文字区域的图像提取特征图;
采用多个锚矩形对所述特征图分别进行横向截取,得到多个建议区域;
将每个建议区域通过所述卷积神经网络进行分类和回归,其中,通过所述分类来确定每个建议区域是否对应于包括文字的区域,通过所述回归来确定每个建议区域对应所述图像中的位置;以及
将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接,以得到文字区域检测结果。
2.根据权利要求1所述的文字检测方法,所述区域横向拼接包括:根据通过回归确定的所述各建议区域分别对应所述图像中的位置,将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接,由此得到所述文字区域检测结果。
3.一种文字检测训练方法,包括:
使用卷积神经网络从包括文字区域的训练图像提取特征图;
采用多个锚矩形对所述训练图像的特征图进行横向截取,得到多个建议区域;
将每个锚矩形截取的建议区域通过所述卷积神经网络进行分类和回归,其中所述分类确定每个建议区域是否对应于包括文字的区域,所述回归确定每个建议区域的位置;以及
根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异,迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。
4.根据权利要求3所述的文字检测训练方法,其中,在所述卷积神经网络的每次迭代训练中,根据所述预测文字区域与所述对应的真实文字区域在竖直方向上的交并比,确定所述真实文字区域和所述预测文字区域之间的差异。
5.一种文字检测装置,包括:
图像特征提取模块,使用卷积神经网络从包括文字区域的图像提取特征图;
建议区域截取模块,采用多个锚矩形对所述特征图分别进行横向截取,得到多个建议区域;
分类模块,将每个建议区域通过所述卷积神经网络进行分类,以确定每个建议区域是否对应于包括文字的区域;
回归模块,将每个建议区域通过所述卷积神经网络进行回归,以确定每个建议区域对应所述图像中的位置;以及
检测结果拼接模块,将所述分类模块确定的对应于包括文字的区域的各建议区域根据所述回归模块确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接,以得到文字区域检测结果。
6.根据权利要求5所述的文字检测装置,所述区域横向拼接包括:根据通过回归确定的所述各建议区域分别对应所述图像中的位置,将位置相邻的和/或有交集的建议区域或者建议区域对应的锚矩形进行连接,由此得到所述文字区域检测结果。
7.一种文字检测训练装置,包括:
图像特征提取模块,使用卷积神经网络从包括文字区域的训练图像提取特征图;
建议区域截取模块,采用多个锚矩形对所述训练图像的特征图进行横向截取,得到多个建议区域;
分类模块,将每个建议区域通过所述卷积神经网络进行分类,以确定每个建议区域是否对应于包括文字的区域;
回归模块,将每个建议区域通过所述卷积神经网络进行回归,以确定每个建议区域对应所述训练图像中的位置;以及
训练模块,根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异,迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。
8.根据权利要求7所述的文字检测训练装置,其中,在所述卷积神经网络的每次迭代训练中,根据所述预测文字区域与所述对应的真实文字区域在竖直方向上的交并比,确定所述真实文字区域和所述预测文字区域之间的差异。
9.一种文字检测装置,包括:
存储器,存储有可执行指令;以及
一个或多个处理器,与所述存储器通信以执行所述可执行指令从而执行以下操作:
使用卷积神经网络从包括文字区域的图像提取特征图;
采用多个锚矩形对所述特征图分别进行横向截取,得到多个建议区域;
将每个建议区域通过所述卷积神经网络进行分类和回归,其中,通过所述分类来确定每个建议区域是否对应于包括文字的区域,通过所述回归来确定每个建议区域对应所述图像中的位置;以及
将通过分类确定的对应于包括文字的区域的各建议区域根据通过回归确定的所述各建议区域分别对应所述图像中的位置进行区域横向拼接,以得到文字区域检测结果。
10.一种文字检测训练装置,包括:
存储器,存储有可执行指令;以及
一个或多个处理器,与所述存储器通信以执行所述可执行指令从而执行以下操作:
使用卷积神经网络从包括文字区域的训练图像提取特征图;
采用多个锚矩形对所述训练图像的特征图进行横向截取,得到多个建议区域;
将每个锚矩形截取的建议区域通过所述卷积神经网络进行分类和回归,其中所述分类确定每个建议区域是否对应于包括文字的区域,所述回归确定每个建议区域的位置;以及
根据已知的与所述训练图像对应的真实文字区域以及所述分类和回归得到的预测文字区域的差异,迭代训练所述卷积神经网络直至训练结果满足预定收敛条件。
CN201610842572.3A 2016-09-22 2016-09-22 文字检测方法和装置、及文字检测训练方法和装置 Pending CN106446899A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201610842572.3A CN106446899A (zh) 2016-09-22 2016-09-22 文字检测方法和装置、及文字检测训练方法和装置
PCT/CN2017/102679 WO2018054326A1 (zh) 2016-09-22 2017-09-21 文字检测方法和装置、及文字检测训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610842572.3A CN106446899A (zh) 2016-09-22 2016-09-22 文字检测方法和装置、及文字检测训练方法和装置

Publications (1)

Publication Number Publication Date
CN106446899A true CN106446899A (zh) 2017-02-22

Family

ID=58166338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610842572.3A Pending CN106446899A (zh) 2016-09-22 2016-09-22 文字检测方法和装置、及文字检测训练方法和装置

Country Status (2)

Country Link
CN (1) CN106446899A (zh)
WO (1) WO2018054326A1 (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN108229299A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN108229303A (zh) * 2017-11-14 2018-06-29 北京市商汤科技开发有限公司 检测识别和检测识别网络的训练方法及装置、设备、介质
CN108229469A (zh) * 2017-11-22 2018-06-29 北京市商汤科技开发有限公司 文字的识别方法、装置、存储介质、程序产品和电子设备
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108564084A (zh) * 2018-05-08 2018-09-21 北京市商汤科技开发有限公司 文字检测方法、装置、终端及存储介质
CN108664971A (zh) * 2018-05-22 2018-10-16 中国科学技术大学 基于2d卷积神经网络的肺结节检测方法
CN109740585A (zh) * 2018-03-28 2019-05-10 北京字节跳动网络技术有限公司 一种文本定位方法及装置
CN109961068A (zh) * 2017-12-26 2019-07-02 阿里巴巴集团控股有限公司 图像识别、训练、搜索方法和装置及设备、介质
CN110163202A (zh) * 2019-04-03 2019-08-23 平安科技(深圳)有限公司 文字区域的定位方法、装置、终端设备及介质
CN110321892A (zh) * 2019-06-04 2019-10-11 腾讯科技(深圳)有限公司 一种图片筛选方法、装置及电子设备
CN110321886A (zh) * 2018-03-30 2019-10-11 高德软件有限公司 一种文字区域识别方法及装置
CN110619325A (zh) * 2018-06-20 2019-12-27 北京搜狗科技发展有限公司 一种文本识别方法及装置
CN111339341A (zh) * 2018-12-19 2020-06-26 顺丰科技有限公司 模型的训练方法及装置、定位方法及装置、设备
CN111340023A (zh) * 2020-02-24 2020-06-26 创新奇智(上海)科技有限公司 文本识别方法及装置、电子设备、存储介质
CN112464925A (zh) * 2020-11-11 2021-03-09 湖北省楚建易网络科技有限公司 基于机器学习的移动端开户资料银行信息自动提取方法
CN113033269A (zh) * 2019-12-25 2021-06-25 华为技术服务有限公司 一种数据处理方法及装置
WO2023279186A1 (en) * 2021-07-06 2023-01-12 Orbiseed Technology Inc. Methods and systems for extracting text and symbols from documents

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111615702B (zh) * 2018-12-07 2023-10-17 华为云计算技术有限公司 一种从图像中提取结构化数据的方法、装置和设备
CN111325194B (zh) * 2018-12-13 2023-12-29 杭州海康威视数字技术股份有限公司 一种文字识别方法、装置及设备、存储介质
CN109840524B (zh) * 2019-01-04 2023-07-11 平安科技(深圳)有限公司 文字的类型识别方法、装置、设备及存储介质
GB2595412B8 (en) * 2019-03-28 2023-10-11 Nielsen Consumer Llc Methods and apparatus to detect a text region of interest in a digital image using machine-based analysis
CN110210478A (zh) * 2019-06-04 2019-09-06 天津大学 一种商品外包装文字识别方法
CN112541489A (zh) * 2019-09-23 2021-03-23 顺丰科技有限公司 图像检测方法、装置、移动终端及存储介质
CN110991440B (zh) * 2019-12-11 2023-10-13 易诚高科(大连)科技有限公司 一种像素驱动的手机操作界面文本检测方法
CN111046866B (zh) * 2019-12-13 2023-04-18 哈尔滨工程大学 一种结合ctpn和svm的人民币冠字号区域检测方法
CN111191695B (zh) * 2019-12-19 2023-05-23 杭州安恒信息技术股份有限公司 一种基于深度学习的网站图片篡改检测方法
CN113012029B (zh) * 2019-12-20 2023-12-08 北京搜狗科技发展有限公司 一种曲面图像的矫正方法、装置及电子设备
CN111339995B (zh) * 2020-03-16 2024-02-20 合肥闪捷信息科技有限公司 一种基于神经网络的敏感图像识别方法
CN111444908B (zh) * 2020-03-25 2024-02-02 腾讯科技(深圳)有限公司 图像识别方法、装置、终端和存储介质
CN111461304B (zh) * 2020-03-31 2023-09-15 北京小米松果电子有限公司 分类神经网络的训练方法、文本分类方法、装置及设备
CN111639566B (zh) * 2020-05-19 2024-08-09 浙江大华技术股份有限公司 一种提取表单信息的方法及装置
CN111738326B (zh) * 2020-06-16 2023-07-11 中国工商银行股份有限公司 句粒度标注训练样本生成方法及装置
CN111767867B (zh) * 2020-06-30 2022-12-09 创新奇智(北京)科技有限公司 文本检测方法、模型训练方法及对应装置
CN111967391A (zh) * 2020-08-18 2020-11-20 清华大学 医学化验单的文本识别方法和计算机可读存储介质
CN112418216B (zh) * 2020-11-18 2024-01-05 湖南师范大学 一种复杂自然场景图像中的文字检测方法
CN112861045A (zh) * 2021-02-20 2021-05-28 北京金山云网络技术有限公司 文案的显示方法和装置、存储介质、电子装置
CN112966690B (zh) * 2021-03-03 2023-01-13 中国科学院自动化研究所 基于无锚框和提议框的场景文字检测方法
CN113158862B (zh) * 2021-04-13 2023-08-22 哈尔滨工业大学(深圳) 一种基于多任务的轻量级实时人脸检测方法
CN113313066A (zh) * 2021-06-23 2021-08-27 Oppo广东移动通信有限公司 图像识别方法、装置、存储介质以及终端
CN113762109B (zh) * 2021-08-23 2023-11-07 北京百度网讯科技有限公司 一种文字定位模型的训练方法及文字定位方法
CN113887282B (zh) * 2021-08-30 2024-07-26 中国科学院信息工程研究所 一种面向场景图像中任意形状邻近文本的检测系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1737822A (zh) * 2004-05-20 2006-02-22 微软公司 用于照相机获得的文件的低分辨率光学字符识别
CN104463209A (zh) * 2014-12-08 2015-03-25 厦门理工学院 一种基于bp神经网络的pcb板上数字代码识别方法
CN105447529A (zh) * 2015-12-30 2016-03-30 商汤集团有限公司 一种服饰检测及其属性值识别的方法和系统
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608454B (zh) * 2015-12-21 2019-08-09 上海交通大学 基于文字结构部件检测神经网络的文字检测方法及系统
CN105809164B (zh) * 2016-03-11 2019-05-14 北京旷视科技有限公司 文字识别方法和装置
CN106446899A (zh) * 2016-09-22 2017-02-22 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1737822A (zh) * 2004-05-20 2006-02-22 微软公司 用于照相机获得的文件的低分辨率光学字符识别
CN104463209A (zh) * 2014-12-08 2015-03-25 厦门理工学院 一种基于bp神经网络的pcb板上数字代码识别方法
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN105447529A (zh) * 2015-12-30 2016-03-30 商汤集团有限公司 一种服饰检测及其属性值识别的方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHI TIAN 等: "Detecting Text in Natural Image with Connectionist Text Proposal Network", 《EUROPEAN CONFERENCE ON COMPUTER VISION》 *
唐有宝 等: "多层次MSER自然场景文本检测", 《浙江大学学报(工学版)》 *

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018054326A1 (zh) * 2016-09-22 2018-03-29 北京市商汤科技开发有限公司 文字检测方法和装置、及文字检测训练方法和装置
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN106980858B (zh) * 2017-02-28 2020-08-18 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN108229299A (zh) * 2017-10-31 2018-06-29 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN108229299B (zh) * 2017-10-31 2021-02-26 北京市商汤科技开发有限公司 证件的识别方法和装置、电子设备、计算机存储介质
CN108229303A (zh) * 2017-11-14 2018-06-29 北京市商汤科技开发有限公司 检测识别和检测识别网络的训练方法及装置、设备、介质
CN108229469A (zh) * 2017-11-22 2018-06-29 北京市商汤科技开发有限公司 文字的识别方法、装置、存储介质、程序产品和电子设备
CN109961068A (zh) * 2017-12-26 2019-07-02 阿里巴巴集团控股有限公司 图像识别、训练、搜索方法和装置及设备、介质
CN109740585A (zh) * 2018-03-28 2019-05-10 北京字节跳动网络技术有限公司 一种文本定位方法及装置
CN110321886A (zh) * 2018-03-30 2019-10-11 高德软件有限公司 一种文字区域识别方法及装置
CN108549893B (zh) * 2018-04-04 2020-03-31 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN108564084A (zh) * 2018-05-08 2018-09-21 北京市商汤科技开发有限公司 文字检测方法、装置、终端及存储介质
CN108664971A (zh) * 2018-05-22 2018-10-16 中国科学技术大学 基于2d卷积神经网络的肺结节检测方法
CN108664971B (zh) * 2018-05-22 2021-12-14 中国科学技术大学 基于2d卷积神经网络的肺结节检测方法
CN110619325B (zh) * 2018-06-20 2024-03-08 北京搜狗科技发展有限公司 一种文本识别方法及装置
CN110619325A (zh) * 2018-06-20 2019-12-27 北京搜狗科技发展有限公司 一种文本识别方法及装置
CN111339341A (zh) * 2018-12-19 2020-06-26 顺丰科技有限公司 模型的训练方法及装置、定位方法及装置、设备
CN110163202B (zh) * 2019-04-03 2024-06-04 平安科技(深圳)有限公司 文字区域的定位方法、装置、终端设备及介质
CN110163202A (zh) * 2019-04-03 2019-08-23 平安科技(深圳)有限公司 文字区域的定位方法、装置、终端设备及介质
CN110321892B (zh) * 2019-06-04 2022-12-13 腾讯科技(深圳)有限公司 一种图片筛选方法、装置及电子设备
CN110321892A (zh) * 2019-06-04 2019-10-11 腾讯科技(深圳)有限公司 一种图片筛选方法、装置及电子设备
CN113033269A (zh) * 2019-12-25 2021-06-25 华为技术服务有限公司 一种数据处理方法及装置
CN113033269B (zh) * 2019-12-25 2023-08-25 华为技术服务有限公司 一种数据处理方法及装置
CN111340023B (zh) * 2020-02-24 2022-09-09 创新奇智(上海)科技有限公司 文本识别方法及装置、电子设备、存储介质
CN111340023A (zh) * 2020-02-24 2020-06-26 创新奇智(上海)科技有限公司 文本识别方法及装置、电子设备、存储介质
CN112464925A (zh) * 2020-11-11 2021-03-09 湖北省楚建易网络科技有限公司 基于机器学习的移动端开户资料银行信息自动提取方法
WO2023279186A1 (en) * 2021-07-06 2023-01-12 Orbiseed Technology Inc. Methods and systems for extracting text and symbols from documents

Also Published As

Publication number Publication date
WO2018054326A1 (zh) 2018-03-29

Similar Documents

Publication Publication Date Title
CN106446899A (zh) 文字检测方法和装置、及文字检测训练方法和装置
CN112529178B (zh) 一种适用于无预选框检测模型的知识蒸馏方法及系统
CN109145713A (zh) 一种结合目标检测的小目标语义分割方法
CN106682633B (zh) 基于机器视觉的粪便镜检图像有形成分的分类识别方法
CN107368787A (zh) 一种面向深度智驾应用的交通标志识别算法
CN110287960A (zh) 自然场景图像中曲线文字的检测识别方法
CN106096670A (zh) 级联卷积神经网络训练和图像检测方法、装置及系统
CN106778835A (zh) 融合场景信息和深度特征的遥感图像机场目标识别方法
CN106980858A (zh) 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN106845530A (zh) 字符检测方法和装置
CN109902798A (zh) 深度神经网络的训练方法和装置
CN109558902A (zh) 一种快速目标检测方法
CN107273836A (zh) 一种行人检测识别方法、装置、模型和介质
CN107437099A (zh) 一种基于机器学习的特定服饰图像识别与检测方法
CN110414559A (zh) 智能零售柜商品目标检测统一框架的构建方法及商品识别方法
CN107203606A (zh) 基于卷积神经网络的自然场景下文本检测与识别方法
CN110378297A (zh) 一种基于深度学习的遥感图像目标检测方法
CN107358182A (zh) 行人检测方法及终端设备
CN104050319B (zh) 一种实时在线验证复杂交通控制算法的方法
CN109711401A (zh) 一种基于Faster Rcnn的自然场景图像中的文本检测方法
CN110245545A (zh) 一种文字识别方法及装置
CN108776777A (zh) 一种基于Faster RCNN的遥感影像对象间空间关系的识别方法
CN106529415A (zh) 结合特征和模型的道路检测方法
CN108230354A (zh) 目标跟踪、网络训练方法、装置、电子设备和存储介质
CN110532914A (zh) 基于精细特征学习的建筑物检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170222