CN110991440A - 一种像素驱动的手机操作界面文本检测方法 - Google Patents
一种像素驱动的手机操作界面文本检测方法 Download PDFInfo
- Publication number
- CN110991440A CN110991440A CN201911266203.4A CN201911266203A CN110991440A CN 110991440 A CN110991440 A CN 110991440A CN 201911266203 A CN201911266203 A CN 201911266203A CN 110991440 A CN110991440 A CN 110991440A
- Authority
- CN
- China
- Prior art keywords
- text
- operation interface
- mobile phone
- detection
- phone operation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000012937 correction Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000008859 change Effects 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 102100032202 Cornulin Human genes 0.000 claims description 3
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 abstract description 3
- 230000002950 deficient Effects 0.000 abstract 1
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000149 penetrating effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
一种像素驱动的手机操作界面文本检测方法,包括以下步骤:1)手机操作界面图像生成;2)文本检测模型改进:3)基于投影法的检测框误差修正。本发明的像素驱动的手机操作界面文本检测方法,解决了目前手机操作界面文本标记数据匮乏的问题;生成的数据的位置,字体大小在一定范围内随机,用于训练可以提升模型的泛化性;针对ResNet50的输出重新设计了上采样层,提高了深层特征占比;针对手机操作界面场景几乎不存在角度偏移的情况,移除检测框回归部分的角度回归分支并对应地修改损失函数,提升网络收敛速度;基于投影法的检测框误差修正方法能够辅助校正纯色背景下的检测框偏差,尽可能地减少文字检测不全或空白区域较大等问题。
Description
技术领域
本发明涉及图像处理技术领域。
背景技术
手机操作界面包含文本,图标,图片三种元素,为了让计算机能够自下而上地理解界面中所有元素的语义,需要先将界面分割成具有独立语义的若干小块。因为文本区域纹理复杂而且长宽比不定,使用通用的目标检测方法通常会无法完整地识别出文字区域,所以针对文本的分割需要使用特定的文本检测方法。
目前,文本检测方法分为基于图像底层特征方法和基于深度学习的方法。基于图像自身特征的方法(例如MSER,ECCV2008和SWT,CVPR2010)通过分析图像中的斑点区域和笔划的分布检测文字。基于深度学习的方法使用卷积神经网络提取图像深度特征,再通过回归的方式得到预测的检测框。这类方法分为锚点驱动和像素驱动两种,前者需要生成大量不同尺度的锚点,然后基于锚点回归检测框,代表方法为CTPN(ECCV2016)。后者直接在每个像素点回归检测框四条边距离该点的绝对距离,以EAST(CVPR2017)为代表。最近研究者提出的方法(例如PSENet,CVPR2019)主要集中在自然场景中文字的扭曲和投射变换问题上,使用注意力机制,实例分割,和多尺度等方法尽可能保证对变形文本的检测。
基于图像底层特征的方法在简单背景的场景下能够实现文本检测,但当背景复杂时鲁棒性较差。而且算法本身包含大量手工设置的参数,需要随着测试环境的变化不断调整参数,实用性较差。基于深度学习方法具有较强的鲁棒性,但对长文本的检测仍存在一定问题,而手机界面出现贯穿整个界面的长文本的概率较高。最近研究者提出的方法主要集中在自然场景中文字的扭曲和投射变换问题上,但手机操作界面中的文本几乎不存在这种问题,也不适用本方案的应用场景。
发明内容
为了获得既能在简单背景下准确检测不同长度的文本区域,又能对复杂背景具有较强鲁棒性的模型,实现手机操作界面的文本分割,本发明提出了一种像素驱动的手机操作界面文本检测方法。
本发明为实现上述目的所采用的技术方案是:一种像素驱动的手机操作界面文本检测方法,包括以下步骤:
1)手机操作界面图像生成,基于手机操作界面模板的随机文本生成方法使用手工标注的手机操作界面图像数据获取语料库,然后在预设模板上生成新的图片:
1.1)文本库建立:
1.1.1)使用截屏的方式获得手机操作界面图像;
1.1.2)人工标注文本区域并使用文字识别方法获得该区域的文字;
1.1.3)使用中文文本分词方法获得手机操作界面语料库;
1.2)操作界面模板预设:截取具有代表性的手机操作界面,将界面中的文字抹去后作为模板,并记录原文字所在区域和字体大小;
1.3)随机文本生成:在语料库中选取合适长度的文本,经过随机的字体大小改变和位置移动后粘贴在模板上,生成用于训练的手机操作界面图像;
2)文本检测模型改进:基于改良EAST架构的文本检测网络改进:
2.1)使用ResNet50作为特征提取网络部分的骨架网络;
2.2)在上采样之前对最深层特征进行通道维度的特征整合;
3)基于投影法的检测框误差修正,方法如下:
3.1)检测框合并:
3.1.1)对于已知的检测框[x1,y1,x2,y2]和[x3,y3,x4,y4],计算二者交并比IoU:
Sintersect=(min(x2,x4)-max(x1,x3))*(min(y2,y4)-max(y1,y3))
3.1.2)若交并比大于标准值,则视为二者框选区域为相同的文本区域,进行合并,新的检测框为二者的最小外接矩形,即[min(x1,x3),min(y1,y3),max(x2,x4),max(y2,y4)];
3.2)使用投影法对检测框进行收缩。
所述步骤1.1.2)中,文字识别方法为CRNN。
所述步骤1.1.3)中,中文文本分词方法为基于HMM的分词方法。
所述步骤2.2)中通道维度特征降为倒数第二层通道数的一半。
所述步骤2)中,还包括步骤2.3),移除EAST网络中的旋转角度预测分支。
所述步骤3.1.2中,若交并比大于0.9,则视为二者框选区域为相同的文本区域,进行合并。
所述步骤3.2)中检测框收缩方法为:
3.2.1)裁剪出检测框框选的文字区域并灰度化;
3.2.2)分别计算行方向和列方向的方差;
3.2.3)统计方差超过阈值的行标号,选取连续的最长序列视作文字存在的区域,并将序列长度作为字体大小;
3.2.4)统计方差超过阈值的列标号,从左到右计算列标号的距离,若距离小于字体大小则视为连续的标号,得出最长的序列的范围视为文字所在的区域。
本发明的像素驱动的手机操作界面文本检测方法,基于手机操作界面模板的随机文本生成方法解决了目前手机操作界面文本标记数据匮乏的问题;生成的数据的位置,字体大小在一定范围内随机,用于训练可以提升模型的泛化性;同时,该方法也可用于图像文字识别(OCR)等其它任务。网络以EAST架构为基础,使用ResNet50作为骨架网络,增大了感受野,提升了对长文本的识别能力;针对ResNet50的输出重新设计了上采样层,提高了深层特征占比;针对手机操作界面场景几乎不存在角度偏移的情况,移除检测框回归部分的角度回归分支并对应地修改损失函数,提升网络收敛速度;基于投影法的检测框误差修正方法能够辅助校正纯色背景下的检测框偏差,尽可能地减少文字检测不全或空白区域较大等问题。
附图说明
图1是手机操作界面模板示意图。
图2是本发明改进的文本检测网络结构图。
具体实施方式
本方案提出了一种像素驱动的手机操作界面文本检测方法,该方法对现有的EAST文本检测模型进行改进,并以随机生成的手机操作界面图像辅助真实图像用于训练,最后通过后处理的方式针对应用场景优化检测结果。其中手机操作界面图像生成部分见步骤1,模型改进部分见步骤2,后处理方案见步骤3。
1.基于手机操作界面模板的随机文本生成方法使用手工标注的少量手机操作界面图像数据获取语料库,然后在预设模板上生成新的图片,具体步骤如下:
1.1文本库建立:
1.1.1使用截屏的方式获得手机操作界面图像;
1.1.2人工标注文本区域并使用文字识别方法(例如,CRNN,PAMI2017)获得该区域的文字,标注的数据也可用于网络训练;
1.1.3使用中文文本分词方法(例如基于HMM的分词方法)获得手机操作界面语料库;
1.2操作界面模板预设:截取具有代表性的手机操作界面,将界面中的文字抹去后作为模板,并记录原文字所在区域和字体大小,样例如图1所示,左图为原始界面,右图为对应的模板,绿色框为文本生成区域;
1.3随机文本生成:在语料库中选取合适长度的文本,经过随机的字体大小改变和位置移动后粘贴在模板上,生成用于训练的手机操作界面图像;
2.基于改良EAST架构的文本检测网络在原有模型的基础上进行了如下改进,改进后的网络结构图见图2,其中CONV表示卷积层:
2.1受VGG16的感受野限制,初始版本的EAST网络对长文本的检测效果较差。在本方案中任务中,经常会将与图像几乎等长的文本区域划分为若干个互不相交的子区域,导致长文本检测失效。本方案使用ResNet50取代VGG16作为特征提取网络部分的骨架网络,解决了手机操作界面的长文本检测问题;
2.2原EAST网络的上采样部分直接将最深层特征上采样,之后与倒数第二层进行特征融合。本方案中最深层特征通道数过高,直接进行上采样和特征融合会导致网络参数过多,而且过多地引入深层特征导致网络对单字的检测效果变差。因此本方案在上采样之前对最深层特征进行了通道维度的特征整合,降为倒数第二层通道数的一半;
2.3由于手机操作界面中的文本几乎没有旋转,扭曲和投射变换,因此本方案移除了EAST网络中的旋转角度预测分支。移除后的网络收敛更快而且异常检测框数量明显减少;
3.于投影法的检测框误差修正方法:
3.1检测框合并
3.1.1对于已知的检测框[x1,y1,x2,y2]和[x3,y3,x4,y4],计算二者交并比IoU:
Sintersect=(min(x2,x4)-max(x1,x3))*(min(y2,y4)-max(y1,y3))
3.1.2若交并比大于0.9,则视为二者框选区域为相同的文本区域,可以进行合并。新的检测框为二者的最小外接矩形,即[min(x1,x3),min(y1,y3),max(x2,x4),max(y2,y4)];
3.2合并后的检测框能够保证框选完整文字区域,但是不可避免地框选其它区域,因此需要对检测框进行收缩,此处可以使用投影法:
3.2.1裁剪出检测框框选的文字区域并灰度化;
3.2.2分别计算行方向和列方向的方差,手机操作界面为了保证文字的可读性,文字区域附近的背景多为纯色,因此没有文字的区域行/列方向的方差会小于一定阈值;
3.2.3统计方差超过阈值的行标号,选取连续的最长序列视作文字存在的区域,并将序列长度作为字体大小;
3.2.4统计方差超过阈值的列标号,从左到右计算列标号的距离,若距离小于字体大小则视为连续的标号。由此得出最长的序列的范围视为文字所在的区域。
本发明是通过实施例进行描述的,本领域技术人员知悉,在不脱离本发明的精神和范围的情况下,可以对这些特征和实施例进行各种改变或等效替换。另外,在本发明的教导下,可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此,本发明不受此处所公开的具体实施例的限制,所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。
Claims (7)
1.一种像素驱动的手机操作界面文本检测方法,其特征在于:包括以下步骤:
1)手机操作界面图像生成,基于手机操作界面模板的随机文本生成方法使用手工标注的手机操作界面图像数据获取语料库,然后在预设模板上生成新的图片:
1.1)文本库建立:
1.1.1)使用截屏的方式获得手机操作界面图像;
1.1.2)人工标注文本区域并使用文字识别方法获得该区域的文字;
1.1.3)使用中文文本分词方法获得手机操作界面语料库;
1.2)操作界面模板预设:截取具有代表性的手机操作界面,将界面中的文字抹去后作为模板,并记录原文字所在区域和字体大小;
1.3)随机文本生成:在语料库中选取合适长度的文本,经过随机的字体大小改变和位置移动后粘贴在模板上,生成用于训练的手机操作界面图像;
2)文本检测模型改进:基于改良EAST架构的文本检测网络:
2.1)使用ResNet50作为特征提取网络部分的骨架网络;
2.2)在上采样之前对最深层特征进行通道维度的特征整合;
3)基于投影法的检测框误差修正,方法如下:
3.1)检测框合并:
3.1.1)对于已知的检测框[x1,y1,x2,y2]和[x3,y3,x4,y4],计算二者交并比IoU:
Sintersect=(min(x2,x4)-max(x1,x3))*(min(y2,y4)-max(y1,y3))
3.1.2)若交并比大于标准值,则视为二者框选区域为相同的文本区域,进行合并,新的检测框为二者的最小外接矩形,即[min(x1,x3),min(y1,y3),max(x2,x4),max(y2,y4)];
3.2)使用投影法对检测框进行收缩。
2.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法,其特征在于:所述步骤1.1.2)中,文字识别方法为CRNN。
3.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法,其特征在于:所述步骤1.1.3)中,中文文本分词方法为基于HMM的分词方法。
4.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法,其特征在于:所述步骤2.2)中通道维度特征降为倒数第二层通道数的一半。
5.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法,其特征在于:所述步骤2)中,还包括步骤2.3),移除EAST网络中的旋转角度预测分支。
6.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法,其特征在于:步骤3.1.2中,若交并比大于0.9,则视为二者框选区域为相同的文本区域,进行合并。
7.根据权利要求1所述的一种像素驱动的手机操作界面文本检测方法,其特征在于:所述步骤3.2)中检测框收缩方法为:
3.2.1)裁剪出检测框框选的文字区域并灰度化;
3.2.2)分别计算行方向和列方向的方差;
3.2.3)统计方差超过阈值的行标号,选取连续的最长序列视作文字存在的区域,并将序列长度作为字体大小;
3.2.4)统计方差超过阈值的列标号,从左到右计算列标号的距离,若距离小于字体大小则视为连续的标号,得出最长的序列的范围视为文字所在的区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911266203.4A CN110991440B (zh) | 2019-12-11 | 2019-12-11 | 一种像素驱动的手机操作界面文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911266203.4A CN110991440B (zh) | 2019-12-11 | 2019-12-11 | 一种像素驱动的手机操作界面文本检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110991440A true CN110991440A (zh) | 2020-04-10 |
CN110991440B CN110991440B (zh) | 2023-10-13 |
Family
ID=70092359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911266203.4A Active CN110991440B (zh) | 2019-12-11 | 2019-12-11 | 一种像素驱动的手机操作界面文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991440B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522951A (zh) * | 2020-04-26 | 2020-08-11 | 成都思维世纪科技有限责任公司 | 一种基于图像识别的敏感数据识别与分类的技术方法 |
CN112990204A (zh) * | 2021-05-11 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN114067237A (zh) * | 2021-10-28 | 2022-02-18 | 清华大学 | 视频数据处理方法、装置及设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107067002A (zh) * | 2017-03-09 | 2017-08-18 | 华东师范大学 | 一种动态视频中道路车牌识别方法 |
WO2018054326A1 (zh) * | 2016-09-22 | 2018-03-29 | 北京市商汤科技开发有限公司 | 文字检测方法和装置、及文字检测训练方法和装置 |
CN109117836A (zh) * | 2018-07-05 | 2019-01-01 | 中国科学院信息工程研究所 | 一种基于焦点损失函数的自然场景下文字检测定位方法和装置 |
CN109919060A (zh) * | 2019-02-26 | 2019-06-21 | 上海七牛信息技术有限公司 | 一种基于特征匹配的身份证内容识别系统及方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110532537A (zh) * | 2019-08-19 | 2019-12-03 | 温州大学 | 一种基于二分阈值法和投影法多阶段切割文字的方法 |
-
2019
- 2019-12-11 CN CN201911266203.4A patent/CN110991440B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018054326A1 (zh) * | 2016-09-22 | 2018-03-29 | 北京市商汤科技开发有限公司 | 文字检测方法和装置、及文字检测训练方法和装置 |
CN107067002A (zh) * | 2017-03-09 | 2017-08-18 | 华东师范大学 | 一种动态视频中道路车牌识别方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109117836A (zh) * | 2018-07-05 | 2019-01-01 | 中国科学院信息工程研究所 | 一种基于焦点损失函数的自然场景下文字检测定位方法和装置 |
CN109919060A (zh) * | 2019-02-26 | 2019-06-21 | 上海七牛信息技术有限公司 | 一种基于特征匹配的身份证内容识别系统及方法 |
CN110532537A (zh) * | 2019-08-19 | 2019-12-03 | 温州大学 | 一种基于二分阈值法和投影法多阶段切割文字的方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522951A (zh) * | 2020-04-26 | 2020-08-11 | 成都思维世纪科技有限责任公司 | 一种基于图像识别的敏感数据识别与分类的技术方法 |
CN112990204A (zh) * | 2021-05-11 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN114067237A (zh) * | 2021-10-28 | 2022-02-18 | 清华大学 | 视频数据处理方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110991440B (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111723585B (zh) | 一种风格可控的图像文本实时翻译与转换方法 | |
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN109948510B (zh) | 一种文档图像实例分割方法及装置 | |
CN110969129B (zh) | 一种端到端税务票据文本检测与识别方法 | |
WO2023083280A1 (zh) | 一种场景文本识别方法和装置 | |
CN110991440B (zh) | 一种像素驱动的手机操作界面文本检测方法 | |
CN113158977B (zh) | 改进FANnet生成网络的图像字符编辑方法 | |
CN113435240B (zh) | 一种端到端的表格检测和结构识别方法及系统 | |
CN113673338A (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
CN111259878A (zh) | 一种检测文本的方法和设备 | |
CN112381057A (zh) | 手写文字识别方法及装置、存储介质、终端 | |
CN114005123A (zh) | 一种印刷体文本版面数字化重建系统及方法 | |
CN112418216A (zh) | 一种复杂自然场景图像中的文字检测方法 | |
CN111914698A (zh) | 图像中人体的分割方法、分割系统、电子设备及存储介质 | |
CN110443235B (zh) | 一种智能纸质试卷总分识别方法及系统 | |
CN112364834A (zh) | 一种基于深度学习和图像处理的表格识别的还原方法 | |
CN113095239B (zh) | 一种关键帧提取方法、终端及计算机可读存储介质 | |
CN113591831A (zh) | 一种基于深度学习的字体识别方法、系统及存储介质 | |
CN106295627A (zh) | 用于识别文字牛皮癣图片的方法及装置 | |
CN113780276A (zh) | 一种结合文本分类的文本检测和识别方法及系统 | |
JP5906788B2 (ja) | 文字切り出し方法、およびこの方法を用いた文字認識装置およびプログラム | |
CN115953744A (zh) | 一种基于深度学习的车辆识别追踪方法 | |
CN111274863A (zh) | 一种基于文本山峰概率密度的文本预测方法 | |
JP2008011135A (ja) | 画像処理装置および画像処理プログラム | |
CN111104944A (zh) | 一种基于r-fcn的车牌字符检测及分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A pixel driven text detection method for mobile phone operation interface Granted publication date: 20231013 Pledgee: Dalian Branch of Shanghai Pudong Development Bank Co.,Ltd. Pledgor: YICHENG GAOKE (DALIAN) TECHNOLOGY Co.,Ltd. Registration number: Y2024980038970 |