CN110516554A - 一种多场景多字体中文文字检测识别方法 - Google Patents

一种多场景多字体中文文字检测识别方法 Download PDF

Info

Publication number
CN110516554A
CN110516554A CN201910700482.4A CN201910700482A CN110516554A CN 110516554 A CN110516554 A CN 110516554A CN 201910700482 A CN201910700482 A CN 201910700482A CN 110516554 A CN110516554 A CN 110516554A
Authority
CN
China
Prior art keywords
text
image
model
picture
recognition methods
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910700482.4A
Other languages
English (en)
Inventor
吕岱霖
李智星
孙玲玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910700482.4A priority Critical patent/CN110516554A/zh
Publication of CN110516554A publication Critical patent/CN110516554A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种多场景多字体中文文字检测识别方法,本发明采用EAST和CRNN深度学习网络,根据图像数据的尺度,方向进行分类训练EAST文字定位网络模型和CRNN文字识别网络模型,通过两种网络结合,对多场景下多种中文文字检测识别,取得了理想的效果。一方面该检测方法能提高多场景下文字识别及录入的工作效率,大大降低人力成本;另一方面,在全球化、电子化的今天,利用多场景下多种中文文字的检测识别方法及系统,能实时、准确、自动地识别出非楷书书法文字,对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。

Description

一种多场景多字体中文文字检测识别方法
技术领域
本发明涉及深度学习领域,涉及一种多场景多字体中文文字检测识别方法。
背景技术
数字图像的使用和获取在当今时代随着手持照相机和智能手机的普及变得更加的轻松容易,图像中往往包含着大量的文字信息,例如出现在建筑物的标识、路标.车牌以及路边的公告、广告牌中。拍摄这些图像的手持设备本身或者拍摄场景的限制,包含这些文字的图像分辨率可能很低,或者可能因拍摄时的强光照射,图像会有一定的模糊。这些因素会使目前的文字识别技术的准确度大大下降。
书法文字是中华文明历经漫长岁月留下的艺术精华,在博物馆里的字画作品、旅游景点里的碑刻、建筑上的题词、对联、牌匾、甚至寻常家居里也会悬挂带有书法艺术的字画,但是由于古代书法字体越来越难以识别,一些由这些书法文字承载的传统文化无法顺利传承。在全球化、电子化的今天,利用先进的技术,实时、准确、自动地识别出这些书法文字,对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。利用人工智能技术,现在的中文识别已经有了很大的突破和极高的准确率。但是对于各种真实场景下(比如国画背景、建筑背景)的非楷书书法识别效果还不是很好。
自然场景文字是图像高层语义的一种重要载体,近些年自然场景图像中的文本检测与识别技术越来越引起人们的重视。文本检测作为文本识别、机器翻译等后续过程的前提条件,其核心是区分文本和背景。传统方法使用手动设计特征以获得文本属性,而现在基于深度学习直接从训练数据中学习有效特征,可获得更加鲁棒的高级特征。
发明内容
本发明所要解决的技术问题是克服现有文字识别的技术不足,提供了一种多场景多字体中文文字检测识别方法。
为解决以上技术问题,本发明应用系统开发方法包括如下步骤:
步骤一:准备数据集,标签包括文字图片的区域位置、区域文字信息,数据集采用ICDAR2015比赛公共数据集和DCIC2019汉字书法多场景识别大赛的比赛公共数据集。
步骤二:为解决多场景下色彩不均衡导致定位精度偏差较大的问题,我们使用色彩恒常化预处理算法,随机对训练集图像的50%进行处理。
步骤三:由于在统一网络训练中数据的规格时,不同尺度和不同方向的图片里的待检测内容会有较大差异,所以在训练时我们对不同尺度和不同方向的数据做了分类,以便之后分类训练使用。
步骤四:根据步骤三中的分类数据集,使用深度神经网络RSTD训练出三个不同的模型,并对模型进行评估。每个模型的输入是一张图片,输出是检测出的文字四边形区域坐标:以原图左上角为零点,X1、Y1为文本框左上角坐标,X2、Y2为文本框右上角坐标,X3、Y3为文本框右下角坐标,X4、Y4为文本框左下角坐标。
步骤五:根据训练时文字定位label(文字四边形区域坐标)对图片进行裁剪,同时使用图像锐化算法以30%概率随机处理数据图像。若裁剪图像中文字为纵向排列,则对图像行逆时针90°旋转操作。
步骤六:根据步骤五的分类数据集,使用深度神经网络CRNN训练出两个不同的横纵文字识别模型,并对模型进行评估。输入内容为文字定位区域,输出内容为对应文字信息。
步骤七:对于待识别图片,首先按照不同方向和尺度对图像进行分类,然后根据分类情况调用步骤四中对应的定位模型进行预测,得到待识别图片的文字定位区域坐标,并对坐标区域进行裁剪,将裁剪图像进行横纵向分类和旋转校正。
步骤八:对于校正后图像,根据类别调用文字识别模型,识别出对应的文字信息,并返回识别信息。同时,为了解决复杂环境下大量文字密集排布导致框选信息重叠的问题,在识别前,我们对图像进行了稀疏处理,待检测完成后进行等比例还原,保证了密集文字框选的准确性。
作为优选,所述步骤三中,先根据图像长宽比,将图像以1.2,0.8为阈值,分为三类X(x1,x2,x3)。再根据图像size,以448作为最长边长max(h,w)的阈值,再次将数据集划分为384,512两个尺度Y(y1,y2),最终我们根据两次分类情况训练出六种不同类别的模型M(m1,m2,…,m6),m1(x1,y1)、m2(x1,y2)、m3(x2,y1)、…、m6(x3,y2)。
作为优选,所述步骤四中,深度神经网络RSTD的构建:基于深度学习网络EAST,将原网络结构中的VGG16卷积网络用ResNet50卷积网络代替,利用残差网络解决原EAST网络中VGG因网络深度导致的梯度消失的问题,使模型的尺寸更小,计算复杂度更低,能更有效的提取复杂环境中的文字定位信息,同时更加满足分类多模型训练和使用的需求。
作为优选,所述步骤五中,对横竖排文字进行分类的标准:以1为阈值,分为横纵向两类F(f1,f2),对纵向图片f2进行逆时针90°翻转。
作为优选,所述步骤七中,对裁剪后图像旋转矫正的具体方法是:首先获取左上角坐标X1、Y1,右上角坐标X2、Y2,根据公式:
得出文字偏转的角度θ,然后以(X1,Y1)为中心点顺时针旋转裁剪后图像,角度为θ。
作为优选,所述步骤八中,对图像稀疏处理的具体方法是:对垂直于文字阅读方向的像素采用线性插值算法进行扩增,以达到减小框选信息重叠的效果。
本发明的有益效果是:
1、本发明提出的多场景多字体中文文字检测识别方法,针对DCIC2019汉字书法多场景识别大赛数据集能有效提高各种真实场景下(比如国画背景、建筑背景)的非楷书书法识别效果,利用先进的技术,实时、准确、自动地识别出这些书法文字,对于记录整理书法艺术和传播书法背后的中国文化有着重要的社会价值。
2、本发明提出的多场景多字体中文文字检测识别方法,通过RSTD文字定位模型,可以定位图片中的文字区域,通过CRNN识别模型,可以识别定位区域图片的文字信息,RSTD+CRNN双模型可以实现图片中的文字信息识别,能广泛运用在文字录入和文字翻译工作中。
3、本发明提出的多场景多字体中文文字检测识别方法,可以减少人工识别文字并录入的成本,减小人工误差,充分发挥了深度学习的自我学习的优势,利用深层网络提取到增强型的高级特征。
附图说明
图1为本发明中多种中文文字的检测识别方法及系统基本流程图;
图2为本发明中RSTD网络框架图,虚线框中是对原网络做出的改动;
图3为本发明中使用图像增强色彩恒常化算法预处理前后效果对比图;
图4为本发明中数据集图像的训练标签生成效果图;
图5为本发明中RSTD网络模型纵向文字定位结果示意图;
图6为本发明中CRNN网络模型预测结果示意图;
图7为本发明中系统实现流程示意图。
具体实施方式
如图1、7所示,利用ICDAR2015比赛公共数据集和DCIC2019汉字书法多场景识别大赛的比赛公共数据集作为训练集,这些数据集包含了文字图片与文字图片中的文字区域坐标、文字区域信息。数据通过人工标注和多字体自动生成获得,都进行了严格的对照审核,保证了模型训练的稳定性。
我们使用色彩恒常化预处理算法,随机对训练集图像的50%进行处理,使图像拥有统一的光线,背景颜色,让模型关注于更深层次的特征,排除了图像处理方面对网络的干扰,解决多场景下色彩不均衡导致定位精度偏差较大的问题。
对于训练数据标注,我们根据文字区域坐标,进行数据集图像的训练标签生成。
根据文字图像的尺度和方向,设计了一套分类训练方案,以1.2,0.8为阈值,分为三类X(x1,x2,x3)。再根据图像size,以448作为最长边长max(h,w)的阈值,再次将数据集划分为384,512两个尺度Y(y1,y2),最终我们根据两次分类情况训练出六种不同类别的模型M(m1,m2,…,m6),m1(x1,y1)、m2(x1,y2)、m3(x2,y1)、…、m6(x3,y2)。
基于深度学习网络EAST,将原网络结构中的VGG16卷积网络用ResNet50卷积网络代替,相较于原EAST神经网络所用的VGG网络,因为多场景文字识别图像的干扰问题,保证在各种情况下文字框选特征的提取,我们采用了网络深度更深的Resnet50网络的模型设计思路,利用残差网络解决原EAST网络中VGG因网络深度导致的梯度消失的问题,使模型的尺寸更小,计算复杂度更低,能更有效的提取复杂环境中的文字定位信息,同时更加满足分类多模型训练和使用的需求。
如图5所示,为了保证训练出可用的RSTD模型,针对初期训练出的模型,我们需要进行进一步的评估优化,对预测不理想的分布情况,进行数据扩增和模型再训练,直到训练出可用的RSTD模型。
如图6所示,基于深度学习网络CRNN文字识别模型,训练出两个不同的横纵文字识别模型,并对模型进行评估。
对于待识别图片,首先按照不同方向和尺度对图像进行分类,然后根据分类情况调用步骤四中对应的定位模型进行预测,得到待识别图片的文字定位区域坐标,并对坐标区域进行裁剪,将裁剪图像进行横纵向分类和旋转校正。同时,为了解决大量文字密集排布导致框选信息重叠的问题,在识别前,我们对图像进行了稀疏处理,待检测完成后进行还原,保证了密集文字框选的准确性,对于校正后图像,根据类别调用CRNN文字识别模型,识别出对应的文字信息,并返回识别信息。
如图3所示,所述步骤2使用色彩恒常化预处理算法,使图像拥有统一的光线,背景颜色,解决多场景下色彩不均衡导致定位精度偏差较大的问题。
如图4所示,所述步骤3中对训练数据进行数据集图像的训练标签生成,先对标注信息进行头尾区域识别,在对识别区域像素进行分类标注。
如图2所示,所述步骤5中,RSTD模型中网络用ResNet50卷积网络,在网络尽可能的加深的情况下仍然保证准确率不下降甚至提升,使模型能够提取到更深层次的特征。

Claims (6)

1.一种多场景多字体中文文字检测识别方法,其特征在于,包括如下步骤:
步骤一:准备数据集,标签包括文字图片的区域位置、区域文字信息;
步骤二:使用色彩恒常化预处理算法,随机对训练集图像的50%进行处理;
步骤三:在训练时对不同尺度和不同方向的数据做了分类,根据不同方向将数据集分为三类,根据不同尺寸将数据集分为两类,以便之后分类训练使用;
步骤四:根据步骤三中的分类数据集,使用深度神经网络RSTD训练出六个不同的模型,并对模型进行评估;每个模型的输入是一张图片,输出是检测出的文字四边形区域坐标:以原图左上角为零点,X1、Y1为文本框左上角坐标,X2、Y2为文本框右上角坐标,X3、Y3为文本框右下角坐标,X4、Y4为文本框左下角坐标;
步骤五:根据训练时文字定位标签,即文本框的坐标,对图片进行裁剪,同时使用图像锐化算法以30%概率随机处理数据图像;将剪裁后的图像根据横竖标准分为两类,若裁剪图像中文字为纵向排列,则对图像行逆时针90°旋转操作;
步骤六:根据步骤五的分类数据集,使用深度神经网络CRNN训练出两个不同的横纵文字识别模型,并对模型进行评估;输入内容为文字定位区域,输出内容为对应文字信息;
步骤七:对于待识别图片,首先按照步骤三将待识别图片进行分类,然后根据分类情况调用步骤四中对应的定位模型进行预测,得到待识别图片的文字定位区域坐标,并对坐标区域进行裁剪,将裁剪图像进行横纵向分类和旋转校正;
步骤八:对于校正后图像,根据类别调用文字识别模型,识别出对应的文字信息,并返回识别信息;同时,为了解决大量复杂环境下文字密集排布导致框选信息重叠的问题,在识别前,我们对图像进行了稀疏处理,待检测完成后进行等比例还原,保证了密集文字框选的准确性。
2.如权利要求1所述的一种多场景多字体中文文字检测识别方法,其特征在于:具体分类方法为:先根据图像长宽比,将图像以1.2,0.8为阈值,其中将图像长宽比X>1.2作为一类,将图像长宽,0.8≤X≤1.2作为一类,将图像长宽比X<0.8作为一类,分为三类X(x1,x2,x3);再根据图像尺寸,以448作为最长边长max(h,w)的阈值,将max(h,w)>448的数据集划分为512,将max(h,w)≤448的数据集划分为384,分为两个尺度Y(y1,y2),最终我们根据两次分类情况训练出六种不同类别的模型M(m1,m2,…,m6),m1(x1,y1)、m2(x1,y2)、m3(x2,y1)、…、m6(x3,y2)。
3.如权利要求1所述的一种多场景多字体中文文字检测识别方法,其特征在于:所述步骤四中,构建的RSTD模型,将原网络结构中的VGG16卷积网络用ResNet50卷积网络代替。
4.如权利要求1所述的一种多场景多字体中文文字检测识别方法,其特征在于:所述步骤五中,对横竖排文字进行分类的标准:以1为阈值,分为横纵向两类F(f1,f2),对纵向图片f2进行逆时针90°翻转。
5.如权利要求1所述的一种多场景多字体中文文字检测识别方法,其特征在于:所述步骤七中,对裁剪后图像旋转矫正的具体方法是:首先获取左上角坐标X1、Y1,右上角坐标X2、Y2,根据公式:
得出文字偏转的角度θ,然后以(X1,Y1)为中心点顺时针旋转裁剪后图像,角度为θ。
6.如权利要求1所述的一种多场景多字体中文文字检测识别方法,其特征在于:所述步骤八中,稀疏处理的具体方法是:对垂直于文字阅读方向的像素采用线性插值算法进行扩增,以达到减小框选信息重叠的效果。
CN201910700482.4A 2019-07-31 2019-07-31 一种多场景多字体中文文字检测识别方法 Pending CN110516554A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910700482.4A CN110516554A (zh) 2019-07-31 2019-07-31 一种多场景多字体中文文字检测识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910700482.4A CN110516554A (zh) 2019-07-31 2019-07-31 一种多场景多字体中文文字检测识别方法

Publications (1)

Publication Number Publication Date
CN110516554A true CN110516554A (zh) 2019-11-29

Family

ID=68623774

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910700482.4A Pending CN110516554A (zh) 2019-07-31 2019-07-31 一种多场景多字体中文文字检测识别方法

Country Status (1)

Country Link
CN (1) CN110516554A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797827A (zh) * 2020-05-18 2020-10-20 冠群信息技术(南京)有限公司 一种文字方向混排的自动化ocr识别方法
CN112200184A (zh) * 2020-10-10 2021-01-08 福州大学 一种自然场景下的书法区域检测及作者识别方法
CN112418206A (zh) * 2020-11-20 2021-02-26 平安普惠企业管理有限公司 基于位置检测模型的图片分类方法及其相关设备
CN112632905A (zh) * 2020-12-30 2021-04-09 广州凡科互联网科技股份有限公司 一种基于Web应用的字体裁剪方法
CN113033380A (zh) * 2021-03-23 2021-06-25 建信览智科技(北京)有限公司 一种文本标注方法
WO2021135985A1 (zh) * 2019-12-30 2021-07-08 上海肇观电子科技有限公司 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质
CN113298167A (zh) * 2021-06-01 2021-08-24 北京思特奇信息技术股份有限公司 一种基于轻量级神经网络模型的文字检测方法及系统
CN113836982A (zh) * 2020-06-24 2021-12-24 阿里巴巴集团控股有限公司 图像处理方法、装置、存储介质及计算机设备
CN117649672A (zh) * 2024-01-30 2024-03-05 湖南大学 基于主动学习与迁移学习的字体类别视觉检测方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016033710A1 (en) * 2014-09-05 2016-03-10 Xiaoou Tang Scene text detection system and method
CN108960087A (zh) * 2018-06-20 2018-12-07 中国科学院重庆绿色智能技术研究院 一种基于多维度评估标准的人脸图像质量评估方法及系统
CN109034155A (zh) * 2018-07-24 2018-12-18 百卓网络科技有限公司 一种文字检测及识别的方法及系统
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109598185A (zh) * 2018-09-04 2019-04-09 阿里巴巴集团控股有限公司 图像识别翻译方法、装置、设备及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016033710A1 (en) * 2014-09-05 2016-03-10 Xiaoou Tang Scene text detection system and method
CN108960087A (zh) * 2018-06-20 2018-12-07 中国科学院重庆绿色智能技术研究院 一种基于多维度评估标准的人脸图像质量评估方法及系统
CN109034155A (zh) * 2018-07-24 2018-12-18 百卓网络科技有限公司 一种文字检测及识别的方法及系统
CN109598185A (zh) * 2018-09-04 2019-04-09 阿里巴巴集团控股有限公司 图像识别翻译方法、装置、设备及可读存储介质
CN109492643A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 基于ocr的证件识别方法、装置、计算机设备及存储介质
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
PPANOPTICON: "east-crnn", 《GITHUB》 *
TIANXIAOMO: "Cultural_Inheritance-Recognizing_Chinese_Calligraphy_in_Multiple_Scenarios", 《GITHUB》 *
张鹏: "文本图像超分辨率算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 *
远洋之行: "文本多任务分类", 《CSDN》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102472821B1 (ko) * 2019-12-30 2022-12-01 넥스트브이피유 (상하이) 코포레이트 리미티드 혼합 조판 문자를 인식하는 방법, 기기, 칩 회로 및 컴퓨터 프로그램 제품
WO2021135985A1 (zh) * 2019-12-30 2021-07-08 上海肇观电子科技有限公司 识别混合排版文字的方法、设备、芯片电路和计算机可读存储介质
KR20210086980A (ko) * 2019-12-30 2021-07-09 넥스트브이피유 (상하이) 코포레이트 리미티드 혼합 조판 문자를 인식하는 방법, 기기, 칩 회로 및 컴퓨터 프로그램 제품
JP2021111394A (ja) * 2019-12-30 2021-08-02 ネクストブイピーユー (シャンハイ) カンパニー リミテッド 混合組版された文字を認識する方法、装置、チップ回路及びコンピュータプログラム製品
JP7097099B2 (ja) 2019-12-30 2022-07-07 ネクストブイピーユー (シャンハイ) カンパニー リミテッド 混合組版された文字を認識する方法、装置、チップ回路及びコンピュータプログラム製品
CN111797827A (zh) * 2020-05-18 2020-10-20 冠群信息技术(南京)有限公司 一种文字方向混排的自动化ocr识别方法
CN113836982A (zh) * 2020-06-24 2021-12-24 阿里巴巴集团控股有限公司 图像处理方法、装置、存储介质及计算机设备
CN112200184A (zh) * 2020-10-10 2021-01-08 福州大学 一种自然场景下的书法区域检测及作者识别方法
CN112418206A (zh) * 2020-11-20 2021-02-26 平安普惠企业管理有限公司 基于位置检测模型的图片分类方法及其相关设备
CN112418206B (zh) * 2020-11-20 2024-02-27 上海昇晔网络科技有限公司 基于位置检测模型的图片分类方法及其相关设备
CN112632905A (zh) * 2020-12-30 2021-04-09 广州凡科互联网科技股份有限公司 一种基于Web应用的字体裁剪方法
CN113033380A (zh) * 2021-03-23 2021-06-25 建信览智科技(北京)有限公司 一种文本标注方法
CN113033380B (zh) * 2021-03-23 2024-03-26 金科览智科技(北京)有限公司 一种文本标注方法
CN113298167A (zh) * 2021-06-01 2021-08-24 北京思特奇信息技术股份有限公司 一种基于轻量级神经网络模型的文字检测方法及系统
CN117649672A (zh) * 2024-01-30 2024-03-05 湖南大学 基于主动学习与迁移学习的字体类别视觉检测方法和系统
CN117649672B (zh) * 2024-01-30 2024-04-26 湖南大学 基于主动学习与迁移学习的字体类别视觉检测方法和系统

Similar Documents

Publication Publication Date Title
CN110516554A (zh) 一种多场景多字体中文文字检测识别方法
CN111160352B (zh) 一种基于图像分割的工件金属表面文字识别方法及系统
CN109190722B (zh) 基于满文字符图片的字体风格迁移变换方法
US10902283B2 (en) Method and device for determining handwriting similarity
CN106384094A (zh) 一种基于书写风格建模的中文字库自动生成方法
CN110674815A (zh) 基于深度学习关键点检测的发票图像畸变校正方法
CN111242024A (zh) 基于机器学习识别图纸内图例及文字的方法及系统
CN113762269B (zh) 基于神经网络的中文字符ocr识别方法、系统及介质
CN106934767A (zh) 一种试卷生成及评分方法及系统
CN110969129A (zh) 一种端到端税务票据文本检测与识别方法
CN110689000B (zh) 一种基于生成复杂环境下车牌样本的车辆车牌识别方法
CN112036406B (zh) 一种图像文档的文本抽取方法、装置及电子设备
CN109446929A (zh) 一种基于增强现实技术的简笔画识别系统
CN107358184A (zh) 文档文字的提取方法及提取装置
CN109886257B (zh) 一种ocr系统中采用深度学习矫正发票图片分割结果的方法
CN112446262A (zh) 文本分析方法、装置、终端和计算机可读存储介质
CN111985470A (zh) 一种自然场景下的船牌矫正识别方法
CN113592735A (zh) 文本页面图像还原方法及系统、电子设备和计算机可读介质
CN111814576A (zh) 一种基于深度学习的购物小票图片识别方法
CN112529989A (zh) 一种基于票据模板的图片重构方法
CN115393872A (zh) 一种训练文本分类模型的方法、装置、设备及存储介质
CN117496521A (zh) 一种表格关键信息抽取方法、系统、装置及可读存储介质
CN102929387A (zh) 一种基于普通纸笔的人机交互方法及人机交互系统
CN111666882A (zh) 一种手写体试题答案提取方法
CN108062548B (zh) 一种盲文方自适应定位方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191129