CN111680691B - 文字检测方法、装置、电子设备和计算机可读存储介质 - Google Patents
文字检测方法、装置、电子设备和计算机可读存储介质 Download PDFInfo
- Publication number
- CN111680691B CN111680691B CN202010365284.XA CN202010365284A CN111680691B CN 111680691 B CN111680691 B CN 111680691B CN 202010365284 A CN202010365284 A CN 202010365284A CN 111680691 B CN111680691 B CN 111680691B
- Authority
- CN
- China
- Prior art keywords
- word
- character
- connection relation
- detection
- single word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 201
- 230000000007 visual effect Effects 0.000 claims abstract description 64
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000004927 fusion Effects 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 238000013527 convolutional neural network Methods 0.000 abstract description 18
- 238000013461 design Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 13
- 238000012015 optical character recognition Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000011895 specific detection Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了一种文字检测方法、装置、电子设备和计算机可读存储介质,所述方法包括:对待检测图像进行单字检测,得到单字视觉特征和单字位置信息,根据所述单字视觉特征和所述单字位置信息,确定单字连接关系,根据所述单字连接关系确定序列化的文字检测结果。本申请通过借助卷积神经网络的强大特征表征能力,能够自动学习到单字之间的连接关系,避免了复杂的规则设计,提高了文字检测模型的泛化能力,同时将单字检测和单字连接关系的预测统一到一个框架,复用单字检测过程中生成的视觉特征等信息,避免了低效的人工特征选择方式。
Description
技术领域
本申请涉及文字检测技术领域,具体涉及一种文字检测方法、装置、电子设备和计算机可读存储介质。
背景技术
光学字符识别(Optical Character Recognition,简称OCR)指的是通过视觉技术,对图像中的文字进行检测、提取和识别的一系列技术,是计算机视觉领域的一个重要研究方向。一套完整的OCR识别方案不仅应该能够有效识别图片中的文字,还应当有能力将字符识别的结果进行结构化输出。
现有的OCR识别方案主要包括两种:(1)串识别:以文字行为检测和识别对象,是目前的主流技术方案;(2)单字识别:以单字为检测和识别对象,目前较少使用。
发明人发现,现有的两种识别方案无法很好的处理非限定场景下的图片,例如,基于文字行的识别方案难以处理文字行之间存在交叠的情况,而基于单字的识别方案难以做到结构化输出。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的文字检测方法、装置、电子设备和计算机可读存储介质。
依据本申请的第一方面,提供了一种文字检测方法,包括:
对待检测图像进行单字检测,得到单字视觉特征和单字位置信息;
根据所述单字视觉特征和所述单字位置信息,确定单字连接关系;
根据所述单字连接关系确定序列化的文字检测结果。
可选地,所述根据所述单字视觉特征和所述单字位置信息,确定单字连接关系包括:
利用文字检测模型的卷积层对所述单字位置信息进行卷积处理,得到单字空间特征;
根据所述单字空间特征和所述单字视觉特征,确定所述单字连接关系。
可选地,所述根据所述单字视觉特征和所述单字位置信息,确定单字连接关系包括:
利用所述文字检测模型的融合层对所述单字空间特征和所述单字视觉特征进行融合;
利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系。
可选地,所述利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系包括:
利用所述文字检测模型的全连接层确定各单字节点之间的二元连接关系,得到多个二元连接关系对;
确定多个所述二元连接关系对之间的相同单字节点;
根据所述相同单字节点生成各所述单字节点之间的三元连接关系对,根据所述三元连接关系对得到所述单字连接关系。
可选地,所述根据所述单字连接关系确定序列化的文字检测结果包括:
对各所述二元连接关系对进行遍历;
根据遍历结果输出序列化的所述文字检测结果。
可选地,所述文字检测模型通过如下方法训练得到:
获取原始图像并将所述原始图像输入所述文字检测模型的卷积层,得到所述原始图像的单字空间特征和单字视觉特征;
将所述单字空间特征和单字视觉特征融合后输入所述文字检测模型的全连接层进行分类,得到所述单字连接关系和对应的分类损失;
根据所述分类损失对所述文字检测模型的参数进行优化。
可选地,所述方法还包括:
对所述序列化的文字检测结果进行文字识别,得到文字识别结果。
依据本申请的第二方面,提供了一种文字检测装置,所述装置包括:
检测单元,用于对待检测图像进行单字检测,得到单字视觉特征和单字位置信息;
第一确定单元,用于根据所述单字视觉特征和所述单字位置信息,确定单字连接关系;
第二确定单元,用于根据所述单字连接关系确定序列化的文字检测结果。
可选地,所述第一确定单元还用于:
利用文字检测模型的卷积层对所述单字位置信息进行卷积处理,得到单字空间特征;
根据所述单字空间特征和所述单字视觉特征,确定所述单字连接关系。
可选地,所述第一确定单元还用于:
利用所述文字检测模型的融合层对所述单字空间特征和所述单字视觉特征进行融合;
利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系。
可选地,所述第一确定单元还用于:
利用所述文字检测模型的全连接层确定各单字节点之间的二元连接关系,得到多个二元连接关系对;
确定多个所述二元连接关系对之间的相同单字节点;
根据所述相同单字节点生成各所述单字节点之间的三元连接关系对,根据所述三元连接关系对得到所述单字连接关系。
可选地,所述第二确定单元还用于:
对各所述二元连接关系对进行遍历;
根据遍历结果输出序列化的所述文字检测结果。
可选地,所述文字检测模型通过如下方法训练得到:
获取原始图像并将所述原始图像输入所述文字检测模型的卷积层,得到所述原始图像的单字空间特征和单字视觉特征;
将所述单字空间特征和单字视觉特征融合后输入所述文字检测模型的全连接层进行分类,得到所述单字连接关系和对应的分类损失;
根据所述分类损失对所述文字检测模型的参数进行优化。
可选地,所述装置还包括:
对所述序列化的文字检测结果进行文字识别,得到文字识别结果。
依据本申请的第三方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的文字检测方法。
依据本申请的第四方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的文字检测方法。
由上述可知,本申请的技术方案,对待检测图像进行单字检测,得到单字视觉特征和单字位置信息,根据所述单字视觉特征和所述单字位置信息,确定单字连接关系,根据所述单字连接关系确定序列化的文字检测结果。通过本申请,借助卷积神经网络的强大特征表征能力,能够自动学习到单字之间的连接关系,避免了复杂的规则设计,提高了文字检测模型的泛化能力,同时将单字检测和单字连接关系的预测统一到一个框架,复用单字检测过程中生成的视觉特征等信息,避免了低效的人工特征选择方式。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了现有技术中的两种文字识别方案的示例图;
图2示出了现有技术中的一种改进的文字识别方案的示例图;
图3示出了根据本申请一个实施例的文字识别方法的流程示意图;
图4示出了根据本申请一个实施例的确定单字连接关系的流程示意图;
图5示出了根据本申请另一个实施例的确定单字连接关系的流程示意图;
图6示出了根据本申请一个实施例的文字识别效果比较图;
图7示出了根据本申请一个实施例的文字识别装置的结构示意图;
图8示出了根据本申请一个实施例的电子设备的结构示意图;
图9示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
现有技术主要提供了两种OCR识别方案,包括串识别和单字识别两种,如图1所示,提供了现有技术中两种OCR识别方案的示例图,可以看出,基于文字行的串识别技术方案难以处理文字行之间存在交叠的情况(如图1(a)所示位于图像中上位置处的两个矩形框),而基于单字识别的技术方案(如图1(b))难以做到结构化输出。
另外一种技术方案是在单字检测的基础上,设计一系列复杂的规则,完成单字检测结果的结构化输出。如图2所示,提供了一种该技术方案的流程框架图,该方案包括两个核心步骤:1)候选文字行提取:单字检测结果两两组合,基于人工设计的特征和规则(如两个字之间的夹角超过设定的阈值)得到候选文字行;2)文字行内连接关系修正:基于人工设计的视觉特征和空间特征,对文字行内的连接关系进行筛检,仅保留有效连接。但该技术方案也至少存在如下问题:
1)最终检测结果强依赖于候选文字行提取的结果;
2)非特定场景图片的排版复杂多变,人工选择特征与设置的规则强耦合,泛化性差;
3)单字检测的流程中,天然包含了视觉特征和位置特征,而现有方案并没有利用。
基于此,本申请实施例提供了一种文字检测方法,如图3所示,所述方法包括如下的步骤S310至步骤S330:
步骤S310,对待检测图像进行单字检测,得到单字视觉特征和单字位置信息。
在进行文字检测时,首先可以获取待检测的图像,针对具体检测场景的不同,待检测图像的具体形式也可以不同。现有的文字检测场景通常分为两种,一种是简单场景,另一种是复杂场景,其中,简单场景的文字检测较为简单,例如像书本扫描、屏幕截图,或者清晰度高、规整的照片等;而复杂场景,主要是指自然场景,情况比较复杂,例如像街边的广告牌、门店招牌、产品包装盒、设备上的说明、商标等等,存在着背景复杂、光线忽明忽暗、角度倾斜、扭曲变形、清晰度不足等各种情况,这种场景下的文字检测难度通常更大。
在根据实际的检测任务获取到相应的待检测图像后,可以利用现有技术中的单字检测模型对待检测图像进行单字检测,这里的单字检测模型可采用Faster-RCNN和SSD等模型,Faster-RCNN(Faster Region-based Convolutional Neural Networks,更快速的区域卷积神经网络)是一种目标检测算法,是在基于区域的卷积神经网络(Region-basedConvolutional Neural Networks,简称R-CNN)的基础上演变而来的,在目标检测领域,Faster R-CNN表现出了极强的生命力,是许多目标检测算法的基础。此外,Faster R-CNN还被应用到更多的领域中,比如人体关键点检测、目标追踪、实例分割以及图像描述等。SSD(Single Shot MultiBox Detector,暂无中文译名),是ECCV(European Conference onComputer Vision,欧洲计算机视觉国际会议)2016会议上提出的一种目标检测算法,截至目前仍是主要的目标检测框架之一,相比一般的检测算法来说具有明显的速度优势。
在利用单字检测模型对待检测图像进行单字检测的过程中,可以得到各单字的视觉特征和相应的位置信息,现有技术中的文字检测方法并未充分利用单字检测阶段所得到的这些有用信息,而在本申请实施例中,单字的视觉特征和位置信息将作为后续确定单字间连接关系的重要依据。
步骤S320,根据所述单字视觉特征和所述单字位置信息,确定单字连接关系。
本申请实施例的单字视觉特征主要用于表征每个单字在图像中的颜色特征、纹理特征、形状特征、大小特征、字体特征等各种视觉信息,而单字位置信息则表征了每个单字在图像中的具体位置信息以及单字之间的相对位置关系等。利用各单字的视觉特征和位置信息就可以确定单字之间的连接关系了,这里的连接关系可以包括二元连接关系也可以包括二元以上的多元连接关系,例如单字A与单字B连接,单字B与单字C连接即为二元连接关系,单字A与单字B与单字C连接即为三元连接关系。
步骤S330,根据所述单字连接关系确定序列化的文字检测结果。
在得到单字之间的连接关系后,将各连接关系按照序列化的方式输出,即得到最终的文字检测结果。这里的序列化是指将检测到的单字在图像中的位置、单字之间的相对位置以及单字之间的连接关系进行结构化输出。例如,检测到的连接关系为单字A与单字B连接,单字C与单字D连接,单字E与单字F连接,则可以将单字A与单字B看作为一个位置块1,单字C与单字D看作为一个位置块2,单字E与单字F看作为一个位置块3,根据位置块之间的连接关系或位置关系可以输出位置块3-位置块1-位置块2这样的位置串。
文字检测结果的结构化输出是文字检测的最终目的,传统的文字检测方法通常基于人工设计的特征和规则来得到结构化的文字检测结果,这样不仅导致检测结果的准确性严重依赖于人工设计规则的好坏,还会导致人工设计规则费时费力。而本申请实施例通过上述过程能够得到各单字之间的连接关系,进而可以根据该连接关系将文字检测结果按照结构化格式输出,提高了文字检测的效率和准确率。
在本申请的一个实施例中,所述根据所述单字视觉特征和所述单字位置信息,确定单字连接关系包括:利用文字检测模型的卷积层对所述单字位置信息进行卷积处理,得到单字空间特征;根据所述单字空间特征和所述单字视觉特征,确定所述单字连接关系。
在利用单字检测模型得到各单字的位置信息后,为了能够充分利用位置信息来确定单字连接关系,可以将单字位置信息转换成与单字视觉特征处于同一分析维度的特征维度上。具体地,可以利用文字检测模型的卷积层对得到的单字位置信息进行卷积处理,进而可以提取出单字空间特征。单字空间特征可用于表征图像中分割出来的多个单字之间的相互的空间位置或相对方向关系,这些关系也可分为连接/邻接关系、交叠/重叠关系和包含/包容关系等。通常空间位置信息可以分为两类:相对空间位置信息和绝对空间位置信息。前一种关系强调的是单字之间的相对情况,如上下左右关系等,后一种关系强调的是单字之间的距离大小以及方位。
提取的特征的稳定性及有效性,决定了检测的性能,本申请实施例在视觉特征的基础上还进一步提取了空间特征,之后结合单字空间特征和单字视觉特征就可以更加准确的确定单字连接关系了。
在本申请的一个实施例中,所述根据所述单字视觉特征和所述单字位置信息,确定单字连接关系包括:利用所述文字检测模型的融合层对所述单字空间特征和所述单字视觉特征进行融合;利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系。
在根据单字空间特征和单字视觉特征确定单字连接关系时,可以先利用文字检测模型的融合层(concatenate)对单字空间特征和单字视觉特征进行特征融合。concatenate又可以称为特征合并层,即将多个特征合并在一起形成更长的特征向量,concatenate操作是网络结构设计中很重要的一种操作,经常用于将特征联合,多个卷积特征提取框架提取的特征融合或者是将输出层的信息进行融合,Concatenate可以减少网络层数,有利于网络的训练。在本申请实施例中,将单字视觉特征和单字空间特征进行融合处理则可以提高文字检测模型的检测效率。
之后利用文字检测模型的全连接层对融合后的特征进行分类处理,得到各单字之间的连接关系。全连接层(fully connected layers,简称FC)在整个卷积神经网络中通常起到“分类器”的作用。如果说卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间的话,全连接层则起到将学到的“分布式特征表示”映射到样本标记空间的作用。此外,全连接层还可以大大减少特征位置对分类带来的影响。本申请实施例通过全连接层输出的分类结果可以指单字连接关系的二分类结果,如单字A与单字B有连接关系/单字A与单字B无连接关系。
在本申请的一个实施例中,所述利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系包括:利用所述文字检测模型的全连接层确定各单字节点之间的二元连接关系,得到多个二元连接关系对;确定多个所述二元连接关系对之间的相同单字节点;根据所述相同单字节点生成各所述单字节点之间的三元连接关系对,根据所述三元连接关系对得到所述单字连接关系。
具体实施时,如前所述,本申请实施例的单字连接关系可以包括二元连接关系如单字A与单字B,单字B与单字C,通过利用文字检测模型的全连接层对融合后的单字视觉特征和单字空间特征进行分类处理,可以输出各单字之间是否有无连接关系的分类结果,进而根据分类结果得到多个二元连接关系对,如单字A与单字B连接,单字B与单字C连接。如图4所示,为本申请实施例提供的一种确定二元连接关系对的流程示意图。
之后根据上述分类得到的多个二元连接关系对,可以进一步确定多个三元连接关系对乃至N元连接关系对。例如,通过分类得到二元连接关系对包括单字A与单字B连接,单字B与单字C连接,可以看出两个二元连接关系对存在相同的单字节点B,因此可以基于该相同单字节点B将两个二元连接关系对组合成一个三元连接关系对,即单字A与单字B与单字C连接。
为了进一步提高文字检测结果的准确度,还可以将该基于二元连接关系对确定的三元连接关系对与通过文字检测模型的全连接层直接分类得到的三元连接关系对进行匹配,如果无法匹配,则不再将前者对应的二元连接关系对纳入单字连接关系中。如图5所示,为本申请实施例提供的一种直接确定三元连接关系对的流程示意图。
在本申请的一个实施例中,所述根据所述单字连接关系确定序列化的文字检测结果包括:对各所述二元连接关系对进行遍历;根据遍历结果输出序列化的所述文字检测结果。
通过文字检测模型的全连接层输出的二元连接关系对会有多个,为了保证输出的文字检测结果的准确性,可以对所有的二元连接关系对进行遍历,以根据所有二元连接关系对确定所有可能的三元连接关系对或是三元以上的N元连接关系对,进而根据遍历结果输出最终序列化的文字检测结果。
在本申请的一个实施例中,所述文字检测模型通过如下方法训练得到:获取原始图像并将所述原始图像输入所述文字检测模型的卷积层,得到所述原始图像的单字空间特征和单字视觉特征;将所述单字空间特征和单字视觉特征融合后输入所述文字检测模型的全连接层进行分类,得到所述单字连接关系和对应的分类损失;根据所述分类损失对所述文字检测模型的参数进行优化。
本申请实施例的文字检测模型除了包括文字检测模型的基础框架外,还复用了现有技术中的单字检测模型框架,进而构成了一个整体的文字检测模型。具体实施时,首先可以获取用于训练的原始图像,利用单字检测模型对原始图像进行单字检测,进而可以得到单字视觉特征和单字位置信息,之后利用文字检测模型的卷积层对单字位置信息进行特征提取,得到单字空间特征,利用文字检测模型的融合层将单字视觉特征和单字空间特征进行融合后输入模型的全连接层进行分类,进而得到各单字连接关系的分类结果以及模型对应的损失函数,通过减小模型损失来不断优化模型参数,进而得到最终的文字检测模型。
在本申请的一个实施例中,所述方法还包括:对所述序列化的文字检测结果进行文字识别,得到文字识别结果。
文字检测是文字识别过程中的一个非常重要的环节,文字检测的主要目标是将图片中的文字区域位置检测出来,以便于进行后面的文字识别,只有找到了文本所在区域,才能对其内容进行识别,也即文字检测侧重于检测图像中文字所在的位置,而文字识别则侧重于图像中文字的具体内容。因此本申请实施例在得到序列化的文字检测结果后,还可以进一步地对文字检测结果中的具体文字内容进行识别,同样可以采用现有技术中的文字识别模型如LSTM+CTC识别模型,LSTM(Long Short Term Memory,长短期记忆网络)是一种特殊结构的循环神经网络,用于解决循环神经网络随着输入信息的时间间隔不断增大,出现“梯度消失”或“梯度爆炸”的长期依赖问题。CTC(Connectionist Temporal Classifier,联接时间分类器),主要用于解决输入特征与输出标签的对齐问题。由于字符变形等原因,分块识别时,相邻块可能会识别为同个结果,字符重复出现。通过CTC来解决对齐问题,模型训练后,对结果中去掉间隔字符、去掉重复字符。
如图6所示,提供了本申请实施例的文字检测效果图(如图6(b)所示)与现有技术方案的文字检测效果图(如图6(a)所示)的比较,可以看出,本申请实施例的文字检测方法能够有效处理图像中文字行之间存在交叠或者排列不规则的情况,能够得到比现有技术方案更为准确的识别结果。
本申请实施例提供了一种文字检测装置700,如图7所示,所述装置700包括:检测单元710、第一确定单元720和第二确定单元730。
本申请实施例的检测单元710,用于对待检测图像进行单字检测,得到单字视觉特征和单字位置信息。
在进行文字检测时,首先可以获取待检测的图像,针对具体检测场景的不同,待检测图像的具体形式也可以不同。现有的文字检测场景通常分为两种,一种是简单场景,另一种是复杂场景,其中,简单场景的文字检测较为简单,例如像书本扫描、屏幕截图,或者清晰度高、规整的照片等;而复杂场景,主要是指自然场景,情况比较复杂,例如像街边的广告牌、门店招牌、产品包装盒、设备上的说明、商标等等,存在着背景复杂、光线忽明忽暗、角度倾斜、扭曲变形、清晰度不足等各种情况,这种场景下的文字检测难度通常更大。
在根据实际的检测任务获取到相应的待检测图像后,可以利用现有技术中的单字检测模型对待检测图像进行单字检测,这里的单字检测模型可采用Faster-RCNN和SSD等模型,Faster-RCNN(Faster Region-based Convolutional Neural Networks,更快速的区域卷积神经网络)是一种目标检测算法,是在基于区域的卷积神经网络(Region-basedConvolutional Neural Networks,简称R-CNN)的基础上演变而来的,在目标检测领域,Faster R-CNN表现出了极强的生命力,是许多目标检测算法的基础。此外,Faster R-CNN还被应用到更多的领域中,比如人体关键点检测、目标追踪、实例分割以及图像描述等。SSD(Single Shot MultiBox Detector,暂无中文译名),是ECCV(European Conference onComputer Vision,欧洲计算机视觉国际会议)2016会议上提出的一种目标检测算法,截至目前仍是主要的目标检测框架之一,相比一般的检测算法来说具有明显的速度优势。
在利用单字检测模型对待检测图像进行单字检测的过程中,可以得到各单字的视觉特征和相应的位置信息,现有技术中的文字检测方法并未充分利用单字检测阶段所得到的这些有用信息,而在本申请实施例中,单字的视觉特征和位置信息将作为后续确定单字间连接关系的重要依据。
本申请实施例的第一确定单元720,用于根据所述单字视觉特征和所述单字位置信息,确定单字连接关系。
本申请实施例的单字视觉特征主要用于表征每个单字在图像中的颜色特征、纹理特征、形状特征、大小特征、字体特征等各种视觉信息,而单字位置信息则表征了每个单字在图像中的具体位置信息以及单字之间的相对位置关系等。利用各单字的视觉特征和位置信息就可以确定单字之间的连接关系了,这里的连接关系可以包括二元连接关系也可以包括二元以上的多元连接关系,例如单字A与单字B连接,单字B与单字C连接即为二元连接关系,单字A与单字B与单字C连接即为三元连接关系。
本申请实施例的第二确定单元730,用于根据所述单字连接关系确定序列化的文字检测结果。
在得到单字之间的连接关系后,将各连接关系按照序列化的方式输出,即得到最终的文字检测结果。这里的序列化是指将检测到的单字在图像中的位置、单字之间的相对位置以及单字之间的连接关系进行结构化输出。例如,检测到的连接关系为单字A与单字B连接,单字C与单字D连接,单字E与单字F连接,则可以将单字A与单字B看作为一个位置块1,单字C与单字D看作为一个位置块2,单字E与单字F看作为一个位置块3,根据位置块之间的连接关系或位置关系可以输出位置块3-位置块1-位置块2这样的位置串。
文字检测结果的结构化输出是文字检测的最终目的,传统的文字检测方法通常基于人工设计的特征和规则来得到结构化的文字检测结果,这样不仅导致检测结果的准确性严重依赖于人工设计规则的好坏,还会导致人工设计规则费时费力。而本申请实施例通过上述过程能够得到各单字之间的连接关系,进而可以根据该连接关系将文字检测结果按照结构化格式输出,提高了文字检测的效率和准确率。
在本申请的一个实施例中,所述第一确定单元720还用于:利用文字检测模型的卷积层对所述单字位置信息进行卷积处理,得到单字空间特征;根据所述单字空间特征和所述单字视觉特征,确定所述单字连接关系。
在本申请的一个实施例中,所述第一确定单元720还用于:利用所述文字检测模型的融合层对所述单字空间特征和所述单字视觉特征进行融合;利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系。
在本申请的一个实施例中,所述第一确定单元720还用于:利用所述文字检测模型的全连接层确定各单字节点之间的二元连接关系,得到多个二元连接关系对;确定多个所述二元连接关系对之间的相同单字节点;根据所述相同单字节点生成各所述单字节点之间的三元连接关系对,根据所述三元连接关系对得到所述单字连接关系。
在本申请的一个实施例中,所述第二确定单元730还用于:对各所述二元连接关系对进行遍历;根据遍历结果输出序列化的所述文字检测结果。
在本申请的一个实施例中,所述文字检测模型通过如下方法训练得到:获取原始图像并将所述原始图像输入所述文字检测模型的卷积层,得到所述原始图像的单字空间特征和单字视觉特征;将所述单字空间特征和单字视觉特征融合后输入所述文字检测模型的全连接层进行分类,得到所述单字连接关系和对应的分类损失;根据所述分类损失对所述文字检测模型的参数进行优化。
在本申请的一个实施例中,所述装置还包括:识别单元,用于对所述序列化的文字检测结果进行文字识别,得到文字识别结果。
需要说明的是,上述各装置实施例的具体实施方式可以参照前述对应方法实施例的具体实施方式进行,在此不再赘述。
综上所述,本申请的技术方案,对待检测图像进行单字检测,得到单字视觉特征和单字位置信息,根据所述单字视觉特征和所述单字位置信息,确定单字连接关系,根据所述单字连接关系确定序列化的文字检测结果。通过本申请,借助卷积神经网络的强大特征表征能力,能够自动学习到单字之间的连接关系,避免了复杂的规则设计,提高了文字检测模型的泛化能力,同时将单字检测和单字连接关系的预测统一到一个框架,复用单字检测过程中生成的视觉特征等信息,避免了低效的人工特征选择方式。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的文字检测装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图8示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备800包括处理器810和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器820。存储器820可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器820具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码831的存储空间830。例如,用于存储计算机可读程序代码的存储空间830可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码831。计算机可读程序代码331可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图9所示的计算机可读存储介质。图9示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质900存储有用于执行根据本申请的方法步骤的计算机可读程序代码831,可以被电子设备800的处理器810读取,当计算机可读程序代码831由电子设备800运行时,导致该电子设备800执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码831可以执行上述任一实施例中示出的方法。计算机可读程序代码831可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (7)
1.一种文字检测方法,其特征在于,包括:
对待检测图像进行单字检测,得到单字视觉特征和单字位置信息;
利用文字检测模型的卷积层对所述单字位置信息进行卷积处理,得到单字空间特征;
利用所述文字检测模型的融合层对所述单字空间特征和所述单字视觉特征进行融合;
利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到单字连接关系;
根据所述单字连接关系确定序列化的文字检测结果;其中,
所述利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系包括:
利用所述文字检测模型的全连接层确定各单字节点之间的二元连接关系,得到多个二元连接关系对;
确定多个所述二元连接关系对之间的相同单字节点;
根据所述相同单字节点生成各所述单字节点之间的三元连接关系对,根据所述三元连接关系对得到所述单字连接关系。
2.根据权利要求1所述的文字检测方法,其特征在于,所述根据所述单字连接关系确定序列化的文字检测结果包括:
对各所述二元连接关系对进行遍历;
根据遍历结果输出序列化的所述文字检测结果。
3.根据权利要求1所述的文字检测方法,其特征在于,所述文字检测模型通过如下方法训练得到:
获取原始图像并将所述原始图像输入所述文字检测模型的卷积层,得到所述原始图像的单字空间特征和单字视觉特征;
将所述单字空间特征和单字视觉特征融合后输入所述文字检测模型的全连接层进行分类,得到所述单字连接关系和对应的分类损失;
根据所述分类损失对所述文字检测模型的参数进行优化。
4.根据权利要求1至3任一项所述的文字检测方法,其特征在于,所述方法还包括:
对所述序列化的文字检测结果进行文字识别,得到文字识别结果。
5.一种文字检测装置,其特征在于,包括:
检测单元,用于对待检测图像进行单字检测,得到单字视觉特征和单字位置信息;
第一确定单元,用于利用文字检测模型的卷积层对所述单字位置信息进行卷积处理,得到单字空间特征;
利用所述文字检测模型的融合层对所述单字空间特征和所述单字视觉特征进行融合;
利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到单字连接关系;其中,
所述利用所述文字检测模型的全连接层对融合后的特征进行分类处理,得到所述单字连接关系包括:
利用所述文字检测模型的全连接层确定各单字节点之间的二元连接关系,得到多个二元连接关系对;
确定多个所述二元连接关系对之间的相同单字节点;
根据所述相同单字节点生成各所述单字节点之间的三元连接关系对,根据所述三元连接关系对得到所述单字连接关系;
第二确定单元,用于根据所述单字连接关系确定序列化的文字检测结果。
6.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1至4中任一项所述的文字检测方法。
7.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1至4中任一项所述的文字检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365284.XA CN111680691B (zh) | 2020-04-30 | 2020-04-30 | 文字检测方法、装置、电子设备和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010365284.XA CN111680691B (zh) | 2020-04-30 | 2020-04-30 | 文字检测方法、装置、电子设备和计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111680691A CN111680691A (zh) | 2020-09-18 |
CN111680691B true CN111680691B (zh) | 2023-06-02 |
Family
ID=72451686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010365284.XA Active CN111680691B (zh) | 2020-04-30 | 2020-04-30 | 文字检测方法、装置、电子设备和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111680691B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114842474B (zh) * | 2022-05-09 | 2023-08-08 | 北京百度网讯科技有限公司 | 文字识别方法、装置、电子设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109615006A (zh) * | 2018-12-10 | 2019-04-12 | 北京市商汤科技开发有限公司 | 文字识别方法及装置、电子设备和存储介质 |
CN110032998A (zh) * | 2019-03-18 | 2019-07-19 | 华南师范大学 | 自然场景图片的文字检测方法、系统、装置和存储介质 |
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
-
2020
- 2020-04-30 CN CN202010365284.XA patent/CN111680691B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019174130A1 (zh) * | 2018-03-14 | 2019-09-19 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109615006A (zh) * | 2018-12-10 | 2019-04-12 | 北京市商汤科技开发有限公司 | 文字识别方法及装置、电子设备和存储介质 |
CN110032998A (zh) * | 2019-03-18 | 2019-07-19 | 华南师范大学 | 自然场景图片的文字检测方法、系统、装置和存储介质 |
CN110569846A (zh) * | 2019-09-16 | 2019-12-13 | 北京百度网讯科技有限公司 | 图像文字识别方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
基于改进Faster R-CNN的自然场景文字检测算法;杨宏志等;《重庆邮电大学学报(自然科学版)》;20191215(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111680691A (zh) | 2020-09-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Luo et al. | Traffic sign recognition using a multi-task convolutional neural network | |
CN107133622B (zh) | 一种单词的分割方法和装置 | |
US10896357B1 (en) | Automatic key/value pair extraction from document images using deep learning | |
Haloi | Traffic sign classification using deep inception based convolutional networks | |
CN111476067A (zh) | 图像的文字识别方法、装置、电子设备及可读存储介质 | |
US20090285482A1 (en) | Detecting text using stroke width based text detection | |
CN111460927B (zh) | 对房产证图像进行结构化信息提取的方法 | |
CN110175609B (zh) | 界面元素检测方法、装置及设备 | |
CN113963147B (zh) | 一种基于语义分割的关键信息提取方法及系统 | |
CN113435319B (zh) | 一种联合多目标跟踪和行人角度识别的分类方法 | |
CN112434690A (zh) | 动态解析文本图像特征现象的元素自动捕获理解方法、系统及存储介质 | |
CN113221770B (zh) | 基于多特征混合学习的跨域行人重识别方法及系统 | |
CN116311310A (zh) | 一种结合语义分割和序列预测的通用表格识别方法和装置 | |
CN111160395A (zh) | 图像识别方法、装置、电子设备和存储介质 | |
CN111274981A (zh) | 目标检测网络构建方法及装置、目标检测方法 | |
He et al. | Aggregating local context for accurate scene text detection | |
CN113591719A (zh) | 一种自然场景任意形状文本检测方法、装置和训练方法 | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
Ayesh et al. | A robust line segmentation algorithm for Arabic printed text with diacritics | |
CN114120345A (zh) | 信息提取方法、装置、设备及存储介质 | |
CN112784932B (zh) | 一种字体识别方法、装置和存储介质 | |
CN111680691B (zh) | 文字检测方法、装置、电子设备和计算机可读存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
Guo et al. | Pedestrian detection via multi-scale feature fusion convolutional neural network | |
Castillo et al. | Object detection in digital documents based on machine learning algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |