CN116092087A - Ocr识别方法、系统、存储介质及电子设备 - Google Patents
Ocr识别方法、系统、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116092087A CN116092087A CN202310370808.8A CN202310370808A CN116092087A CN 116092087 A CN116092087 A CN 116092087A CN 202310370808 A CN202310370808 A CN 202310370808A CN 116092087 A CN116092087 A CN 116092087A
- Authority
- CN
- China
- Prior art keywords
- text box
- image
- neural network
- text
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000012015 optical character recognition Methods 0.000 title abstract description 39
- 238000013528 artificial neural network Methods 0.000 claims abstract description 110
- 238000013527 convolutional neural network Methods 0.000 claims description 58
- 238000000605 extraction Methods 0.000 claims description 54
- 238000004590 computer program Methods 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 8
- 230000005764 inhibitory process Effects 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000004807 localization Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19113—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种OCR识别方法、系统、存储介质及电子设备,所述方法包括以下步骤:获取包含文本的待识别图像;基于目标定位神经网络获取所述待识别图像的第一文本框区域,基于像素级分类神经网络获取所述待识别图像的第二文本框区域,基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域;在所述待识别图像上截取所述最终文本框区域对应的文本框图像;当所述文本框图像的边框像素个数小于预设像素个数时,基于Seq2Seq神经网络识别所述文本框图像中的文本;否则基于CTC神经网络识别所述文本框图像中的文本。本发明的目OCR识别方法、系统、存储介质及电子设备通过采用多任务的神经网络实现准确的OCR识别。
Description
技术领域
本发明属于文本识别的技术领域,特别是涉及一种OCR识别方法、系统、存储介质及电子设备。
背景技术
光学字符识别(Optical Character Recognition,OCR)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
现有技术中,OCR任务一般包含以下两个步骤。
(1)获取文本框。
(2)识别文本框图像出现的文字。
上述每个步骤通常只用单一的任务来进行设计。例如,获取文本框时,采用回归坐标框的形式(即目标定位任务)。识别文本框图像出现的文字时,采用CTC(ConnectionistTemporal Classification)算法解码。然而,回归坐标框的形式导致坐标位置不准确,需要后处理来进行调整。在文本框图像宽度过短时CTC算法会无效。因此,仅采用一种任务来设计的神经网络结构,无法互补各自任务的缺点。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种OCR识别方法、系统、存储介质及电子设备,通过采用多任务的神经网络实现准确的OCR识别。
第一方面,本发明提供一种OCR识别方法,所述方法包括以下步骤:获取包含文本的待识别图像;基于目标定位神经网络获取所述待识别图像的第一文本框区域,基于像素级分类神经网络获取所述待识别图像的第二文本框区域,基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域;在所述待识别图像上截取所述最终文本框区域对应的文本框图像;当所述文本框图像的边框像素个数小于预设像素个数时,基于Seq2Seq神经网络识别所述文本框图像中的文本;否则基于CTC神经网络识别所述文本框图像中的文本。
在第一方面的一种实现方式中,基于目标定位神经网络获取所述待识别图像的第一文本框区域包括以下步骤:
构建所述目标定位神经网络,所述目标定位神经网络包括依次相连的2层CNN、2层特征抽取网络、1层CNN和非极大值抑制的CNN;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu;
将所述待识别图像输入所述目标定位神经网络,获取输出的所述第一文本框区域。
在第一方面的一种实现方式中,基于像素级分类神经网络获取所述待识别图像的第二文本框区域包括以下步骤:
构建所述像素级分类神经网络,所述像素级分类神经网络包括依次相连的2层CNN、2层特征抽取网络、1层CNN、1层转置卷积、3层CNN和softmax层;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu;
将所述待识别图像输入所述像素级分类神经网络,获取输出的第二文本框区域。
在第一方面的一种实现方式中,基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域包括以下步骤:
获取所述第一文本框区域在所述待识别图像上的横向坐标最大值和横向坐标最小值;
获取所述第二文本框区域在所述待识别图像上的纵向坐标最大值和纵向坐标最小值;
将所述横向坐标最大值和所述横向坐标最小值所在的两条纵向线、所述纵向坐标最大值和所述纵向坐标最小值所在的两条横向线围成的长方形作为所述最终文本框区域。
在第一方面的一种实现方式中,基于Seq2Seq神经网络识别所述文本框图像中的文本包括以下步骤:
构建所述Seq2Seq神经网络,所述Seq2Seq神经网络包括依次相连的2层CNN、3层BiLSTM、2层特征抽取网络、全局平均池化层和4层LSTM;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu;
将所述文本框图像输入所述Seq2Seq神经网络,获取输出的文本。
在第一方面的一种实现方式中,基于CTC神经网络识别所述文本框图像中的文本包括以下步骤:
构建所述CTC神经网络,所述CTC神经网络包括依次相连的2层CNN、3层BiLSTM、2层特征抽取网络和CTC解码器;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu;
将所述文本框图像输入所述CTC神经网络,获取输出的文本。
在第一方面的一种实现方式中,所述预设像素个数为20个。
第二方面,本发明提供一种OCR识别系统,所述系统包括获取模块、区域识别模块、截取模块和文本识别模块;
所述获取模块用于获取包含文本的待识别图像;
所述区域识别模块用于基于目标定位神经网络获取所述待识别图像的第一文本框区域,基于像素级分类神经网络获取所述待识别图像的第二文本框区域,基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域;
所述截取模块用于在所述待识别图像上截取所述最终文本框区域对应的文本框图像;
所述文本识别模块用于当所述文本框图像的边框像素个数小于预设像素个数时,基于Seq2Seq神经网络识别所述文本框图像中的文本;否则基于CTC神经网络识别所述文本框图像中的文本。
第三方面,本发明提供一种电子设备,所述电子设备包括:处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的OCR识别方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现上述的OCR识别方法。
如上所述,本发明所述的OCR识别方法、系统、存储介质及电子设备,具有以下有益效果。
本发明所述的OCR识别方法、系统、存储介质及电子设备通过采用多任务的神经网络实现准确的OCR识别,其中采用目标定位和像素级分类相结合的方式,弥补了坐标位置不准确的缺陷;采用CTC识别和 Seq2Seq识别相结合的方式,弥补了CTC识别无效的缺陷,从而极大地扩展了OCR识别的应用场景。
附图说明
图1显示为本发明的电子设备于一实施例中的场景示意图。
图2显示为本发明实施例所述的OCR识别方法于一实施例中的流程图。
图3显示为本发明实施例所述的OCR识别系统于一实施例中的结构示意图。
图4显示为本发明的电子设备于一实施例中的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明以下实施例提供了OCR识别方法,其可应用于如图1所示的电子设备。本发明中所述电子设备可以包括具备无线充电功能的手机11、平板电脑12、笔记本电脑13、可穿戴设备、车载设备、增强现实(Augmented Reality,AR)/虚拟现实(Virtual Reality,VR)设备、超级移动个人计算机(Ultra-Mobile Personal Computer,UMPC)、上网本、个人数字助理(Personal Digital Assistant,PDA)等,本发明实施例对电子设备的具体类型不作任何限制。
例如,所述电子设备可以是具备无线充电功能的 WLAN 中的站点(STAION,ST),可以是具备无线充电功能的蜂窝电话、无绳电话、会话启动协议(SessionInitiationProtocol,SIP)电话、无线本地环路(WirelessLocal Loop,WLL)站、个人数字处理(Personal Digital Assistant,PDA)设备、具备无线充电功能的手持设备、计算设备或其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、和/或用于在无线系统上进行通信的其它设备以及下一代通信系统,例如,5G 网络中的移动终端、未来演进的公共陆地移动网络(PublicLand Mobile Network,PLMN)中的移动终端或者未来演进的非地面网络(Non-terrestrial Network,NTN)中的移动终端等。
例如,所述电子设备可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobilecommunication,GSM)、通用分组无线服务(General Packet RadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE))、电子邮件、短消息服务(Short Messaging Service,SMS)、BT,GNSS,WLAN,NFC,FM,和/或 IR 技术等。所述 GNSS可以包括全球卫星定位系统 (Global Positioning System,GPS),全球导航卫星系统(Global Navigation Satellite System,GLONASS),北斗卫星导航系统(BeiDounavigation Satellite System,BDS),准天顶卫星系统(Quasi-Zenith SatelliteSystem,QZSS)和/或星基增强系统(Satellite Based Augmentation Systems,SBAS)。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细描述。
如图1所示,于一实施例中,本发明的OCR识别方法包括以下步骤。
步骤S1、获取包含文本的待识别图像。
具体地,本发明的电子设备从图像采集装置、网络等获取包含文本的待识别图像。其中,所述图像采集装置与所述电子设备可采用有线或无线方式通信连接。
步骤S2、基于目标定位神经网络获取所述待识别图像的第一文本框区域,基于像素级分类神经网络获取所述待识别图像的第二文本框区域,基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域。
具体地,本发明结合目标定位神经网络和像素级分类神经网络来识别所述待识别图像中的文本框区域,从而兼具二者的优点,保证了文本框区域的准确性。
于一实施例中,基于目标定位神经网络获取所述待识别图像的第一文本框区域包括以下步骤。
211)构建所述目标定位神经网络,所述目标定位神经网络包括依次相连的2层CNN、2层特征抽取网络、1层CNN和非极大值抑制的CNN;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu。
其中,所述2层CNN的卷积核大小与移动的步幅相等,从而保证卷积抽取图像特征时区域不重叠。所述2层特征抽取网络用于抽取特征,每层特征抽取网络包括依次连接的Self-Attention、LayerNorm和Relu。所述1层CNN用于进行一倍的下采样,从而将输入图像大小缩小为原来的二分之一。所述非极大值抑制的CNN在非极大值抑制后获取文本框坐标值,作为目标定位分支结果。
212)将所述待识别图像输入所述目标定位神经网络,获取输出的所述第一文本框区域。
于一实施例中,基于像素级分类神经网络获取所述待识别图像的第二文本框区域包括以下步骤。
221)构建所述像素级分类神经网络,所述像素级分类神经网络包括依次相连的2层CNN、2层特征抽取网络、1层CNN、1层转置卷积、3层CNN和softmax层;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu。
其中,所述2层CNN的卷积核大小与移动的步幅相等,从而保证卷积抽取图像特征时区域不重叠。所述2层特征抽取网络用于抽取特征,每层特征抽取网络包括依次连接的Self-Attention、LayerNorm和Relu。所述1层CNN用于进行一倍的下采样,从而将输入图像大小缩小为原来的二分之一。所述1层转置卷积(Transposed CNN)用于进行一倍的上采样,从而将输入特征图放大到原始输入图像的大小。所述3层CNN的输出通道为2,所述softmax层与所述3层CNN的输出相连,将所有的值归一化到0~1之间,并将大于0.6的像素作为文本框区域,从而得到像素级分类分支结果。
222)将所述待识别图像输入所述像素级分类神经网络,获取输出的第二文本框区域。
优选地,所述目标定位神经网络和所述像素级分类神经网络可共用部分结构。例如,二者可共用2层CNN、2层特征抽取网络、1层CNN,从而节省了系统开销。
于一实施例中,基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域包括以下步骤。
231)获取所述第一文本框区域在所述待识别图像上的横向坐标最大值和横向坐标最小值。
232)获取所述第二文本框区域在所述待识别图像上的纵向坐标最大值和纵向坐标最小值。
233)将所述横向坐标最大值和所述横向坐标最小值所在的两条纵向线、所述纵向坐标最大值和所述纵向坐标最小值所在的两条横向线围成的长方形作为所述最终文本框区域。
步骤S3、在所述待识别图像上截取所述最终文本框区域对应的文本框图像。
具体地,根据所述最终文本框区域的坐标信息在所述待识别图像上截取对应的文本框图像,从而得到包含有文本的文本框图像。
步骤S4、当所述文本框图像的边框像素个数小于预设像素个数时,基于Seq2Seq神经网络识别所述文本框图像中的文本;否则基于CTC神经网络识别所述文本框图像中的文本。
具体地,本发明结合Seq2Seq神经网络和CTC神经网络来识别所述文本框图像中的文本,从而兼具二者的优点,避免了文本的无效识别。优选地,所述预设像素个数为20个。
于一实施例中,基于Seq2Seq神经网络识别所述文本框图像中的文本包括以下步骤。
411)构建所述Seq2Seq神经网络,所述Seq2Seq神经网络包括依次相连的2层CNN、3层BiLSTM、2层特征抽取网络、全局平均池化层和4层LSTM;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu。
其中,所述2层CNN用于进行2倍的下采样,从而将所述文本框图像大小缩小为原来的四分之一。所述3层BiLSTM用于融合时序信息。所述2层特征抽取网络用于抽取特征,每层特征抽取网络包括依次连接的Self-Attention、LayerNorm和Relu。所述全局平均池化层(Global Average Pooling)将输入的二维矩阵变为一个长度为768个值的向量。所述4层LSTM会一直循环输出,每一次的输入就是上一次的输出,直到遇到EOS特殊字符后停止。最后将每一次输出合并到一起,即得到Seq2Seq神经网络的文本识别结果。
412)将所述文本框图像输入所述Seq2Seq神经网络,获取输出的文本。
于一实施例中,基于CTC神经网络识别所述文本框图像中的文本包括以下步骤。
421)构建所述CTC神经网络,所述CTC神经网络包括依次相连的2层CNN、3层BiLSTM、2层特征抽取网络和CTC解码器;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu。
其中,所述2层CNN用于进行2倍的下采样,从而将所述文本框图像大小缩小为原来的四分之一。所述3层BiLSTM用于融合时序信息。所述2层特征抽取网络用于抽取特征,每层特征抽取网络包括依次连接的Self-Attention、LayerNorm和Relu。所述CTC解码器对所述2层特征抽取网络的输出进行解码,即可得到CTC神经网络的文本识别结果。
422)将所述文本框图像输入所述CTC神经网络,获取输出的文本。
优选地,所述Seq2Seq神经网络和所述CTC神经网络可共用部分结构。例如,二者可共用2层CNN、3层BiLSTM、2层特征抽取网络,从而节省了系统开销。
本发明实施例所述的OCR识别方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本发明实施例还提供一种OCR识别系统,所述OCR识别系统可以实现本发明所述的OCR识别方法,但本发明所述的OCR识别系统的实现装置包括但不限于本实施例列举的OCR识别系统的结构,凡是根据本发明的原理所做的现有技术的结构变形和替换,都包括在本发明的保护范围内。
如图3所示,于一实施例中,本发明的OCR识别系统包括获取模块31、区域识别模块32、截取模块33和文本识别模块34。
所述获取模块31用于获取包含文本的待识别图像。
具体地,本发明的电子设备从图像采集装置、网络等获取包含文本的待识别图像。其中,所述图像采集装置与所述电子设备可采用有线或无线方式通信连接。
所述区域识别模块32与所述获取模块31相连,用于基于目标定位神经网络获取所述待识别图像的第一文本框区域,基于像素级分类神经网络获取所述待识别图像的第二文本框区域,基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域。
具体地,本发明结合目标定位神经网络和像素级分类神经网络来识别所述待识别图像中的文本框区域,从而兼具二者的优点,保证了文本框区域的准确性。
于一实施例中,基于目标定位神经网络获取所述待识别图像的第一文本框区域包括以下步骤。
211)构建所述目标定位神经网络,所述目标定位神经网络包括依次相连的2层CNN、2层特征抽取网络、1层CNN和非极大值抑制的CNN;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu。
其中,所述2层CNN的卷积核大小与移动的步幅相等,从而保证卷积抽取图像特征时区域不重叠。所述2层特征抽取网络用于抽取特征,每层特征抽取网络包括依次连接的Self-Attention、LayerNorm和Relu。所述1层CNN用于进行一倍的下采样,从而将输入图像大小缩小为原来的二分之一。所述非极大值抑制的CNN在非极大值抑制后获取文本框坐标值,作为目标定位分支结果。
212)将所述待识别图像输入所述目标定位神经网络,获取输出的所述第一文本框区域。
于一实施例中,基于像素级分类神经网络获取所述待识别图像的第二文本框区域包括以下步骤。
221)构建所述像素级分类神经网络,所述像素级分类神经网络包括依次相连的2层CNN、2层特征抽取网络、1层CNN、1层转置卷积、3层CNN和softmax层;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu。
其中,所述2层CNN的卷积核大小与移动的步幅相等,从而保证卷积抽取图像特征时区域不重叠。所述2层特征抽取网络用于抽取特征,每层特征抽取网络包括依次连接的Self-Attention、LayerNorm和Relu。所述1层CNN用于进行一倍的下采样,从而将输入图像大小缩小为原来的二分之一。所述1层转置卷积(Transposed CNN)用于进行一倍的上采样,从而将输入特征图放大到原始输入图像的大小。所述3层CNN的输出通道为2,所述softmax层与所述3层CNN的输出相连,将所有的值归一化到0~1之间,并将大于0.6的像素作为文本框区域,从而得到像素级分类分支结果。
222)将所述待识别图像输入所述像素级分类神经网络,获取输出的第二文本框区域。
优选地,所述目标定位神经网络和所述像素级分类神经网络可共用部分结构。例如,二者可共用2层CNN、2层特征抽取网络、1层CNN,从而节省了系统开销。
于一实施例中,基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域包括以下步骤。
231)获取所述第一文本框区域在所述待识别图像上的第一左上角坐标和第一右下角坐标。
232)获取所述第二文本框区域在所述待识别图像上的第二左上角坐标和第二右下角坐标。
233)由所述第一左上角坐标和所述第二左上角坐标的最小值、所述第一右下角坐标和所述第二右下角坐标的最大值组成所述最终文本框区域。
所述截取模块33与所述区域识别模块32相连,用于在所述待识别图像上截取所述最终文本框区域对应的文本框图像。
具体地,根据所述最终文本框区域的坐标信息在所述待识别图像上截取对应的文本框图像,从而得到包含有文本的文本框图像。
所述文本识别模块34与所述截取模块33相连,用于当所述文本框图像的边框像素个数小于预设像素个数时,基于Seq2Seq神经网络识别所述文本框图像中的文本;否则基于CTC神经网络识别所述文本框图像中的文本。
具体地,本发明结合Seq2Seq神经网络和CTC神经网络来识别所述文本框图像中的文本,从而兼具二者的优点,避免了文本的无效识别。优选地,所述预设像素个数为20个。
于一实施例中,基于Seq2Seq神经网络识别所述文本框图像中的文本包括以下步骤。
411)构建所述Seq2Seq神经网络,所述Seq2Seq神经网络包括依次相连的2层CNN、3层BiLSTM、2层特征抽取网络、全局平均池化层和4层LSTM;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu。
其中,所述2层CNN用于进行2倍的下采样,从而将所述文本框图像大小缩小为原来的四分之一。所述3层BiLSTM用于融合时序信息。所述2层特征抽取网络用于抽取特征,每层特征抽取网络包括依次连接的Self-Attention、LayerNorm和Relu。所述全局平均池化层(Global Average Pooling)将输入的二维矩阵变为一个长度为768个值的向量。所述4层LSTM会一直循环输出,每一次的输入就是上一次的输出,直到遇到EOS特殊字符后停止。最后将每一次输出合并到一起,即得到Seq2Seq神经网络的文本识别结果。
412)将所述文本框图像输入所述Seq2Seq神经网络,获取输出的文本。
于一实施例中,基于CTC神经网络识别所述文本框图像中的文本包括以下步骤。
421)构建所述CTC神经网络,所述CTC神经网络包括依次相连的2层CNN、3层BiLSTM、2层特征抽取网络和CTC解码器;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu。
其中,所述2层CNN用于进行2倍的下采样,从而将所述文本框图像大小缩小为原来的四分之一。所述3层BiLSTM用于融合时序信息。所述2层特征抽取网络用于抽取特征,每层特征抽取网络包括依次连接的Self-Attention、LayerNorm和Relu。所述CTC解码器对所述2层特征抽取网络的输出进行解码,即可得到CTC神经网络的文本识别结果。
422)将所述文本框图像输入所述CTC神经网络,获取输出的文本。
优选地,所述Seq2Seq神经网络和所述CTC神经网络可共用部分结构。例如,二者可共用2层CNN、3层BiLSTM、2层特征抽取网络,从而节省了系统开销。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置或方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,模块/单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或单元可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块/单元可以是或者也可以不是物理上分开的,作为模块/单元显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块/单元来实现本发明实施例的目的。例如,在本发明各个实施例中的各功能模块/单元可以集成在一个处理模块中,也可以是各个模块/单元单独物理存在,也可以两个或两个以上模块/单元集成在一个模块/单元中。
本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本发明实施例还提供了一种计算机可读存储介质。本领域普通技术人员可以理解实现上述实施例的方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(magnetic tape),软盘(floppy disk),光盘(optical disc)及其任意组合。上述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,DVD))、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
本发明实施例还提供了一种电子设备。所述电子设备包括处理器和存储器。
所述存储器用于存储计算机程序。
所述存储器包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述电子设备执行上述的OCR识别方法。
优选地,所述处理器可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
如图4所示,本发明的电子设备以通用计算设备的形式表现。电子设备的组件可以包括但不限于:一个或者多个处理器或者处理单元41,存储器42,连接不同系统组件(包括存储器42和处理单元41)的总线43。
总线43表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器42可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)421和/或高速缓存存储器422。电子设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统423可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM ,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线43相连。存储器42可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块4241的程序/实用工具424,可以存储在例如存储器42中,这样的程序模块4241包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块4241通常执行本发明所描述的实施例中的功能和/或方法。
电子设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该电子设备交互的设备通信,和/或与使得该电子设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口44进行。并且,电子设备还可以通过网络适配器45与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器45通过总线43与电子设备的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种OCR识别方法,其特征在于,所述方法包括以下步骤:
获取包含文本的待识别图像;
基于目标定位神经网络获取所述待识别图像的第一文本框区域,基于像素级分类神经网络获取所述待识别图像的第二文本框区域,基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域;
在所述待识别图像上截取所述最终文本框区域对应的文本框图像;
当所述文本框图像的边框像素个数小于预设像素个数时,基于Seq2Seq神经网络识别所述文本框图像中的文本;否则基于CTC神经网络识别所述文本框图像中的文本。
2.根据权利要求1所述的OCR识别方法,其特征在于:基于目标定位神经网络获取所述待识别图像的第一文本框区域包括以下步骤:
构建所述目标定位神经网络,所述目标定位神经网络包括依次相连的2层CNN、2层特征抽取网络、1层CNN和非极大值抑制的CNN;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu;
将所述待识别图像输入所述目标定位神经网络,获取输出的所述第一文本框区域。
3.根据权利要求1所述的OCR识别方法,其特征在于:基于像素级分类神经网络获取所述待识别图像的第二文本框区域包括以下步骤:
构建所述像素级分类神经网络,所述像素级分类神经网络包括依次相连的2层CNN、2层特征抽取网络、1层CNN、1层转置卷积、3层CNN和softmax层;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu;
将所述待识别图像输入所述像素级分类神经网络,获取输出的第二文本框区域。
4.根据权利要求1所述的OCR识别方法,其特征在于:基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域包括以下步骤:
获取所述第一文本框区域在所述待识别图像上的横向坐标最大值和横向坐标最小值;
获取所述第二文本框区域在所述待识别图像上的纵向坐标最大值和纵向坐标最小值;
将所述横向坐标最大值和所述横向坐标最小值所在的两条纵向线、所述纵向坐标最大值和所述纵向坐标最小值所在的两条横向线围成的长方形作为所述最终文本框区域。
5.根据权利要求1所述的OCR识别方法,其特征在于:基于Seq2Seq神经网络识别所述文本框图像中的文本包括以下步骤:
构建所述Seq2Seq神经网络,所述Seq2Seq神经网络包括依次相连的2层CNN、3层BiLSTM、2层特征抽取网络、全局平均池化层和4层LSTM;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu;
将所述文本框图像输入所述Seq2Seq神经网络,获取输出的文本。
6.根据权利要求1所述的OCR识别方法,其特征在于:基于CTC神经网络识别所述文本框图像中的文本包括以下步骤:
构建所述CTC神经网络,所述CTC神经网络包括依次相连的2层CNN、3层BiLSTM、2层特征抽取网络和CTC解码器;所述特征抽取网络包括依次连接的自Self-Attention、LayerNorm和Relu;
将所述文本框图像输入所述CTC神经网络,获取输出的文本。
7.根据权利要求1所述的OCR识别方法,其特征在于:所述预设像素个数为20个。
8.一种OCR识别系统,其特征在于,所述系统包括获取模块、区域识别模块、截取模块和文本识别模块;
所述获取模块用于获取包含文本的待识别图像;
所述区域识别模块用于基于目标定位神经网络获取所述待识别图像的第一文本框区域,基于像素级分类神经网络获取所述待识别图像的第二文本框区域,基于所述第一文本框区域和所述第二文本框区域获取所述待识别图像的最终文本框区域;
所述截取模块用于在所述待识别图像上截取所述最终文本框区域对应的文本框图像;
所述文本识别模块用于当所述文本框图像的边框像素个数小于预设像素个数时,基于Seq2Seq神经网络识别所述文本框图像中的文本;否则基于CTC神经网络识别所述文本框图像中的文本。
9.一种电子设备,其特征在于,所述电子设备包括:处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行权利要求1至7中任一项所述的OCR识别方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被电子设备执行时实现权利要求1至7中任一项所述的OCR识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310370808.8A CN116092087B (zh) | 2023-04-10 | 2023-04-10 | Ocr识别方法、系统、存储介质及电子设备 |
PCT/CN2023/128095 WO2024212485A1 (zh) | 2023-04-10 | 2023-10-31 | Ocr识别方法、系统、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310370808.8A CN116092087B (zh) | 2023-04-10 | 2023-04-10 | Ocr识别方法、系统、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116092087A true CN116092087A (zh) | 2023-05-09 |
CN116092087B CN116092087B (zh) | 2023-08-08 |
Family
ID=86210553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310370808.8A Active CN116092087B (zh) | 2023-04-10 | 2023-04-10 | Ocr识别方法、系统、存储介质及电子设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116092087B (zh) |
WO (1) | WO2024212485A1 (zh) |
Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017118356A1 (zh) * | 2016-01-05 | 2017-07-13 | 腾讯科技(深圳)有限公司 | 文本图像处理方法和装置 |
CN111079480A (zh) * | 2018-10-19 | 2020-04-28 | 北京金山云网络技术有限公司 | 身份证信息的识别方法、装置及终端设备 |
US10671878B1 (en) * | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
CN111340035A (zh) * | 2020-03-24 | 2020-06-26 | 山东浪潮通软信息科技有限公司 | 一种火车票识别方法、系统、设备以及介质 |
WO2021017998A1 (zh) * | 2019-07-26 | 2021-02-04 | 第四范式(北京)技术有限公司 | 文本位置定位方法和系统以及模型训练方法和系统 |
CN112508011A (zh) * | 2020-12-02 | 2021-03-16 | 上海逸舟信息科技有限公司 | 一种基于神经网络的ocr识别方法及设备 |
WO2021147219A1 (zh) * | 2020-01-22 | 2021-07-29 | 平安科技(深圳)有限公司 | 基于图像的文本识别方法、装置、电子设备及存储介质 |
WO2021147221A1 (zh) * | 2020-01-22 | 2021-07-29 | 平安科技(深圳)有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN113498521A (zh) * | 2020-01-21 | 2021-10-12 | 京东方科技集团股份有限公司 | 文本检测方法及装置、存储介质 |
WO2022019747A1 (en) * | 2020-07-24 | 2022-01-27 | Mimos Berhad | System and method for identification of text region in video |
US20220129621A1 (en) * | 2020-10-26 | 2022-04-28 | Adobe Inc. | Bert-based machine-learning tool for predicting emotional response to text |
CN114581646A (zh) * | 2021-12-07 | 2022-06-03 | 深圳集智数字科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
US20220230061A1 (en) * | 2021-01-20 | 2022-07-21 | Adobe Inc. | Modality adaptive information retrieval |
CN114782951A (zh) * | 2022-04-02 | 2022-07-22 | 携程旅游信息技术(上海)有限公司 | 文字识别方法、系统、设备及存储介质 |
CN114842478A (zh) * | 2022-04-22 | 2022-08-02 | 平安国际智慧城市科技股份有限公司 | 文本区域的识别方法、装置、设备及存储介质 |
CN115331246A (zh) * | 2022-08-18 | 2022-11-11 | 中国银行股份有限公司 | 纸质流水文件识别的方法、装置、设备和存储介质 |
CN115527023A (zh) * | 2022-08-31 | 2022-12-27 | 北京结慧科技有限公司 | 图像检测方法、装置、电子设备及存储介质 |
CN115641594A (zh) * | 2022-12-23 | 2023-01-24 | 广州佰锐网络科技有限公司 | 基于ocr技术的身份证识别方法、存储介质及装置 |
CN115909378A (zh) * | 2022-11-09 | 2023-04-04 | 国网河北省电力有限公司信息通信分公司 | 单据文本检测模型的训练方法及单据文本检测方法 |
CN115937887A (zh) * | 2022-10-08 | 2023-04-07 | 上海弘玑信息技术有限公司 | 文档结构化信息的提取方法及装置、电子设备、存储介质 |
-
2023
- 2023-04-10 CN CN202310370808.8A patent/CN116092087B/zh active Active
- 2023-10-31 WO PCT/CN2023/128095 patent/WO2024212485A1/zh unknown
Patent Citations (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017118356A1 (zh) * | 2016-01-05 | 2017-07-13 | 腾讯科技(深圳)有限公司 | 文本图像处理方法和装置 |
CN111079480A (zh) * | 2018-10-19 | 2020-04-28 | 北京金山云网络技术有限公司 | 身份证信息的识别方法、装置及终端设备 |
US10671878B1 (en) * | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
WO2021017998A1 (zh) * | 2019-07-26 | 2021-02-04 | 第四范式(北京)技术有限公司 | 文本位置定位方法和系统以及模型训练方法和系统 |
CN113498521A (zh) * | 2020-01-21 | 2021-10-12 | 京东方科技集团股份有限公司 | 文本检测方法及装置、存储介质 |
WO2021147219A1 (zh) * | 2020-01-22 | 2021-07-29 | 平安科技(深圳)有限公司 | 基于图像的文本识别方法、装置、电子设备及存储介质 |
WO2021147221A1 (zh) * | 2020-01-22 | 2021-07-29 | 平安科技(深圳)有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN111340035A (zh) * | 2020-03-24 | 2020-06-26 | 山东浪潮通软信息科技有限公司 | 一种火车票识别方法、系统、设备以及介质 |
WO2022019747A1 (en) * | 2020-07-24 | 2022-01-27 | Mimos Berhad | System and method for identification of text region in video |
US20220129621A1 (en) * | 2020-10-26 | 2022-04-28 | Adobe Inc. | Bert-based machine-learning tool for predicting emotional response to text |
CN112508011A (zh) * | 2020-12-02 | 2021-03-16 | 上海逸舟信息科技有限公司 | 一种基于神经网络的ocr识别方法及设备 |
US20220230061A1 (en) * | 2021-01-20 | 2022-07-21 | Adobe Inc. | Modality adaptive information retrieval |
CN114581646A (zh) * | 2021-12-07 | 2022-06-03 | 深圳集智数字科技有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN114782951A (zh) * | 2022-04-02 | 2022-07-22 | 携程旅游信息技术(上海)有限公司 | 文字识别方法、系统、设备及存储介质 |
CN114842478A (zh) * | 2022-04-22 | 2022-08-02 | 平安国际智慧城市科技股份有限公司 | 文本区域的识别方法、装置、设备及存储介质 |
CN115331246A (zh) * | 2022-08-18 | 2022-11-11 | 中国银行股份有限公司 | 纸质流水文件识别的方法、装置、设备和存储介质 |
CN115527023A (zh) * | 2022-08-31 | 2022-12-27 | 北京结慧科技有限公司 | 图像检测方法、装置、电子设备及存储介质 |
CN115937887A (zh) * | 2022-10-08 | 2023-04-07 | 上海弘玑信息技术有限公司 | 文档结构化信息的提取方法及装置、电子设备、存储介质 |
CN115909378A (zh) * | 2022-11-09 | 2023-04-04 | 国网河北省电力有限公司信息通信分公司 | 单据文本检测模型的训练方法及单据文本检测方法 |
CN115641594A (zh) * | 2022-12-23 | 2023-01-24 | 广州佰锐网络科技有限公司 | 基于ocr技术的身份证识别方法、存储介质及装置 |
Non-Patent Citations (2)
Title |
---|
ZENG-233: "李宏毅机器学习23-Transformer", pages 1 - 14, Retrieved from the Internet <URL:https://blog.csdn.net> * |
李俊林等: "基于改进区域候选网络的场景文本检测", 《计算机科学》, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
WO2024212485A1 (zh) | 2024-10-17 |
CN116092087B (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116912353B (zh) | 多任务图像处理方法、系统、存储介质及电子设备 | |
CN109919600A (zh) | 一种虚拟卡片调用方法、装置、设备及存储介质 | |
US10477220B1 (en) | Object segmentation in a sequence of color image frames based on adaptive foreground mask upsampling | |
CN111709414A (zh) | Ar设备及其文字识别方法、装置和计算机可读存储介质 | |
CN118135571B (zh) | 图像语义分割方法、系统、存储介质及电子设备 | |
CN116092087B (zh) | Ocr识别方法、系统、存储介质及电子设备 | |
CN108353210A (zh) | 处理方法与终端 | |
CN116630633B (zh) | 语义分割自动标注方法、系统、存储介质及电子设备 | |
US20230100305A1 (en) | System and process for repainting of planar objects in video | |
CN113065480B (zh) | 书法作品风格的识别方法、装置、电子装置和存储介质 | |
CN116701708B (zh) | 多模态增强的视频分类方法、系统、存储介质及电子设备 | |
CN118196695B (zh) | 视频语义分割方法、系统、存储介质及电子设备 | |
CN114429628A (zh) | 图像处理方法、装置、可读存储介质及电子设备 | |
CN118154883B (zh) | 目标语义分割方法、系统、存储介质及电子设备 | |
CN118296186B (zh) | 视频广告检测方法、系统、存储介质及电子设备 | |
CN116542880B (zh) | 图像自动修复方法、系统、存储介质及电子设备 | |
CN118411511A (zh) | 实例分割方法、系统、存储介质及电子设备 | |
CN118314409B (zh) | 多模态图像分类方法、系统、存储介质及电子设备 | |
CN118314445B (zh) | 图像多任务处理方法、系统、存储介质及电子设备 | |
CN116361493A (zh) | Logo识别方法、系统、存储介质及电子设备 | |
CN116912871B (zh) | 身份证信息抽取方法、系统、存储介质及电子设备 | |
CN118840254A (zh) | 图像模糊处理方法及电子设备 | |
CN118351544A (zh) | 印章识别方法、系统、存储介质及电子设备 | |
CN117079198A (zh) | 液滴阴阳性识别方法、系统、存储介质及电子设备 | |
CN118485865A (zh) | 任意关注目标分类方法、系统、介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: Room 301ab, No.10, Lane 198, zhangheng Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai 201204 Patentee after: Shanghai Mido Technology Co.,Ltd. Address before: Room 301ab, No. 10, Lane 198, zhangheng Road, Pudong New Area pilot Free Trade Zone, Shanghai, China, 201204 Patentee before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. |
|
CP03 | Change of name, title or address |