CN110674332A - 基于ocr与文本挖掘的机动车数字电子档案分类方法 - Google Patents

基于ocr与文本挖掘的机动车数字电子档案分类方法 Download PDF

Info

Publication number
CN110674332A
CN110674332A CN201910706580.9A CN201910706580A CN110674332A CN 110674332 A CN110674332 A CN 110674332A CN 201910706580 A CN201910706580 A CN 201910706580A CN 110674332 A CN110674332 A CN 110674332A
Authority
CN
China
Prior art keywords
header
ocr
database
text mining
motor vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910706580.9A
Other languages
English (en)
Other versions
CN110674332B (zh
Inventor
沈国安
熊奎
李霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Wei Ke Lian Information Technology Co Ltd
Original Assignee
Nanchang Wei Ke Lian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Wei Ke Lian Information Technology Co Ltd filed Critical Nanchang Wei Ke Lian Information Technology Co Ltd
Priority to CN201910706580.9A priority Critical patent/CN110674332B/zh
Publication of CN110674332A publication Critical patent/CN110674332A/zh
Application granted granted Critical
Publication of CN110674332B publication Critical patent/CN110674332B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于OCR与文本挖掘的机动车数字电子档案分类方法,包括以下步骤:S1,建立机动车业务电子档案表头数据库;S2,对待分类数字图像进行图像二值化处理;S3,对待分类数字照片进行截取,截取需要识别的表头区域;S4,利用tesseract‑OCR文字识别引擎识别步骤S3中截取的图片区域,并利用文本挖掘技术处理得到的识别结果,得到文字序列;S5,计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度;S6,选择相似度最大对应的数据库表头作为待分类数字照片的分类结果。本发明可以对机动车业务电子档案进行智能分类,实现机动车业务的信息化,从而提高机动车业务的办事效率、降低人工成本。

Description

基于OCR与文本挖掘的机动车数字电子档案分类方法
技术领域
本发明涉及电子信息技术领域,特别是涉及一种基于OCR与文本挖掘的机 动车数字电子档案分类方法。
背景技术
据公安部交通管理局官方发布统计数据,截至2019年1月全国机动车保有 量已达3.27亿辆,机动车驾驶人达4.09亿人,且每年以5%-7%的速度增长。交 警支队车辆管理所作为机动车和驾驶人业务管理部门,承担着庞大的业务办理 和档案管理工作。
目前后台的档案分类、审核与管理工作基本采用人工操作模式,人工逐张 分类、审核机动车与驾驶人员的相关信息。由于电子化的档案照片需要人工逐 张识别照片名称,这一办事方式普遍存在效率低下,工作强度大、处理周期长、 人工成本高等诸多问题。随着机动车数量的增加,这种处理方式将不能满足机 动车业务办理的需要。
发明内容
本发明的目的在于提出一种基于OCR与文本挖掘的机动车数字电子档案分 类方法,以提高机动车业务的办事效率、降低人工成本。
一种基于OCR与文本挖掘的机动车数字电子档案分类方法,包括以下步骤:
S1,建立机动车业务电子档案表头数据库;
S2,对待分类数字图像进行图像二值化处理;
S3,对待分类数字照片进行截取,截取需要识别的表头区域;
S4,利用tesseract-OCR文字识别引擎识别步骤S3中截取的图片区域,并利 用文本挖掘技术处理得到的识别结果,得到文字序列;
S5,计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度;
S6,选择相似度最大对应的数据库表头作为待分类数字照片的分类结果。
上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S1 中,建立的表头数据库采用mysql数据库,对所有业务种类照片表头进行存储。
上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S2 中,图像二值化处理采用Bernsen局部二值化方法。
上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S3 中,数字照片表头截取采用矩阵分析法进行切取。
上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S5 中,相似度计算采用改进的Jaccard系数计算方法。
上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S2 具体包括:
设图像在像素点(i,j)处的灰度值f(i,j),以像素点(i,j)为中心的(2ω+1)×(2ω+1) 窗口,其中2ω+1表示窗口的边长,则Bernsen算法描述为:
Figure BDA0002152317100000021
采用下式对图像中个像素点(i,j)用b(i,j)值逐点进行二值化:
上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S3 具体包括:
步骤S2中二值化后的图像为二维数组,用二维数组X表示;
首先,求出数组X的高与宽,记为size_X,即
size_X=[h,w]
其中w,h分别表示数组X的宽度与高度大小;
构造维度大小为[w,1]的全1向量V:
V=[1,1,……,1]1×w
计算矩阵乘积:
R=XVT=[r1,r2,……,rh]T
对R中的数据利用下式进行归一化操作:
Figure BDA0002152317100000031
其中M=max{r1,r2,……,rh},表示“记为”;
其次,统计R中数据分布,并依据分布规律,选择一个阈值H,使得该阈值 能将空白区行与含有相当文字的行区别开来;
当ri 1>H(i∈{1,2……,h})时,行i几乎空白;当
Figure BDA0002152317100000034
时, 行i含有相当多的黑色像素;表头文字出现在表单的开头,找到R1中第一次不少 于连续四次小于H的区域记为表头出现的区域,设R1中从n1到n2第一次连续出现 小于H区域,则截取的区域HR为X的n1到n2行。
上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S4 具体包括:
搭建tesseract文字识别引擎,对步骤S3中截取的表头区域HR进行文字识 别,设识别结果为W;
W=a1a2……an
将识别结果分割成单个字符序列,记为W1,即W1={a1,a2,……,an}。
上述基于OCR与文本挖掘的机动车数字电子档案分类方法,其中,步骤S5 具体包括:
采用与分别计算数据库中各表头数据与步骤S4中W1的相似度,以数据库中 相似度最高的表头作为待分类图片的表头,以数据库中表头W1=b1b2……bm进行 相似度的计算;
首先,将W1处理成W1的形式,不放仍然记为W1,即
W1={b1,b2,……,bm}
然后,计算W1与W1中共同文字的个数|W1∩W1|,W1∩W1为集合 W1={b1,b2,……,bm}与W1={a1,a2,……,an}交集;
通过以下改进的Jaccard系数计算相似系数l1
Figure BDA0002152317100000033
其中|W1|表示表头W1的字符长度;
对数据库中所有表头数据进行同样操作,得到相似系数序列S;
S={l1,l2,……,lk}
其中k为数据库中表头的个数。
根据本发明提供的基于OCR与文本挖掘的机动车数字电子档案分类方法, 将tesseract文字识别引擎与文本挖掘技术结合,利用Bernsen算法进行局部二值 化,避免全局二值化而影响局部性质,大大提高了二值化后的图像的清晰度, 通过矩阵分析方法实现精准截取,提高了图片的分类效率,节省了处理时间, 并在一定程度上提高了匹配准确率,利用改进的Jaccard系数计算识别结果与数 据库中表头的相似性,以适应不同Jaccard系数的比较问题,其结果可以用来对 机动车业务电子档案进行智能分类,实现机动车业务的信息化,使得本发明提 供的方法能够提高机动车业务的办事效率、降低人工成本,对于机动车业务办 理的信息化、智能化有一定的推动作用。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描 述中将变得明显和容易理解,其中:
图1为本发明实施例提供的基于OCR与文本挖掘的机动车数字电子档案分 类方法的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明 实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然, 所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例,都属于本发明保护的范围。
请参阅图1,对本实施例提供的基于OCR与文本挖掘的机动车数字电子档 案分类方法,包括:
S1:建立机动车业务电子档案表头数据库。
其中,获取机动车业务所有类型的表单,将其表单表头存储到mysql数据库, 为后续数据获取与存储提供数据基础。
S2:对待分类数字图像进行图像二值化处理。
首先对图像进行灰度化处理,然后利用Bernsen算法将图片二值化处理。 Bernsen算法是一种典型的局部阈值算法,其将窗口中各个像素灰度级最大最小 值得平均值作为一个窗口的中心像素的阈值。
具体地,设图像在像素点(i,j)处的灰度值f(i,j),考虑以像素点(i,j)为中心的(2ω+1)×(2ω+1)窗口,其中2ω+1表示窗口的边长,则Bernsen算法可以描述为:
Figure BDA0002152317100000051
对图像中个像素点(i,j)用b(i,j)值逐点进行二值化
Figure BDA0002152317100000052
S3:对待分类数字照片进行截取,精准截取需要识别的表头区域。
对于待分类的数字照片,图片较大,所含的文字较多,直接进行文字识别, 需要较长的时间,同时多余的文字对于文本分类会产生一定的干扰,为此,有 必要精准提取需要识别的表头区域。步骤S2中二值化后的图像为二维数组,用 二维数组X表示。
首先,求出数组X的高与宽,记为size_X,即
size_X=[h,w]
其中w,h分别表示数组X的宽度与高度大小。
构造维度大小为[w,1]的全1向量V,
V=[1,1,……,1]1×w
计算矩阵乘积
R=XVT=[r1,r2,……,rh]T
并对R中的数据利用下式进行归一化操作、
Figure RE-GDA0002301678560000053
其中M=max{r1,r2,……,rh},
Figure BDA0002152317100000054
表示“记为”。
其次,统计R中数据分布,并依据分布规律,选择一个阈值H,使得该阈值 能将空白区行与含有相当文字的行区别开来。
具体地,当ri 1>H(i∈{1,2……,h})时,行i几乎空白;当
Figure BDA0002152317100000062
时,行i含有相当多的黑色像素。表头文字出现在表单的开头,找到R1中第一次 不少于连续四次小于H的区域记为表头出现的区域,不妨设R1中从n1到n2第一次 连续出现小于H区域,则截取的区域HR为X的n1到n2行。
S4:利用tesseract-OCR引擎进行文字识别步骤S3中截取的图片区域HR,并处 理成文字序列。
首先搭建tesseract文字识别引擎,对步骤S3中截取的表头区域HR进行文 字识别,不妨设识别结果为W
W=a1a2……an
为了后续进行相似度计算,将识别结果分割成单个字符序列。记为W1,即
W1={a1,a2,……,an}。
S5:计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度。
由于文字识别都存在一定的错误概率,因此不能直接以步骤S4中的识别结 果作为最终分类名称。采用与分别计算数据库中各表头数据与步骤S4中W1的相 似度,以数据库中相似度最高的表头作为待分类图片的表头。下面以数据库中 表头W1=b1b2……bm为例进行相似度的计算说明。
首先,将W1处理成W1的形式,不放仍然记为W1,即
W1={b1,b2,……,bm}
然后,计算W1与W1中共同文字的个数|W1∩W1|,W1∩W1为集合 W1={b1,b2,……,bm}与W1={a1,a2,……,an}交集。
通过以下改进的Jaccard系数计算相似系数l1
Figure BDA0002152317100000061
其中|W1|表示表头W1的字符长度。
对数据库中所有表头数据进行同样操作,得到相似系数序列S
S={l1,l2,……,lk}
其中k为数据库中表头的个数。
S6:选择相似系数最大对应的数据库表头作为待分类数字照片的分类结果。
选择步骤S5中相似系数最大数据库中对应的表头作为待分类表单的分类结 果。通过软件开发机动车电子档案分类系统,输入数据待分类表单图片,实现 快速对机动车电子档案分类。
需要指出的是,本实施例中步骤S2~S5可以通过Python,C++等软件实现。
根据本实施例提供的基于OCR与文本挖掘的机动车数字电子档案分类方 法,将tesseract文字识别引擎与文本挖掘技术结合,利用Bernsen算法进行局部 二值化,避免全局二值化而影响局部性质,大大提高了二值化后的图像的清晰 度,通过矩阵分析方法实现精准截取,提高了图片的分类效率,节省了处理时 间,并在一定程度上提高了匹配准确率,利用改进的Jaccard系数计算识别结果 与数据库中表头的相似性,以适应不同Jaccard系数的比较问题,其结果可以用 来对机动车业务电子档案进行智能分类,实现机动车业务的信息化,使得本发 明提供的方法能够提高机动车业务的办事效率、降低人工成本,对于机动车业 务办理的信息化、智能化有一定的推动作用。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特 征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明 书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描 述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中 以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解: 在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、 替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (9)

1.一种基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,包括以下步骤:
S1,建立机动车业务电子档案表头数据库;
S2,对待分类数字图像进行图像二值化处理;
S3,对待分类数字照片进行截取,截取需要识别的表头区域;
S4,利用tesseract-OCR文字识别引擎识别步骤S3中截取的图片区域,并利用文本挖掘技术处理得到的识别结果,得到文字序列;
S5,计算步骤S4中的文字序列与步骤S1中数据库中表头的相似度;
S6,选择相似度最大对应的数据库表头作为待分类数字照片的分类结果。
2.根据权利要求1所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S1中,建立的表头数据库采用mysql数据库,对所有业务种类照片表头进行存储。
3.根据权利要求2所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S2中,图像二值化处理采用Bernsen局部二值化方法。
4.根据权利要求3所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S3中,数字照片表头截取采用矩阵分析法进行切取。
5.根据权利要求4所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S5中,相似度计算采用改进的Jaccard系数计算方法。
6.根据权利要求1所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S2具体包括:
设图像在像素点(i,j)处的灰度值f(i,j),以像素点(i,j)为中心的(2ω+1)×(2ω+1)窗口,其中2ω+1表示窗口的边长,则Bernsen算法描述为:
Figure FDA0002152317090000011
采用下式对图像中个像素点(i,j)用b(i,j)值逐点进行二值化:
Figure FDA0002152317090000012
7.根据权利要求6所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S3具体包括:
步骤S2中二值化后的图像为二维数组,用二维数组X表示;
首先,求出数组X的高与宽,记为size_X,即
size_X=[h,w]
其中w,h分别表示数组X的宽度与高度大小;
构造维度大小为[w,1]的全1向量V:
V=[1,1,……,1]1×w
计算矩阵乘积:
R=XVT=[r1,r2,……,rh]T
对R中的数据利用下式进行归一化操作:
Figure FDA0002152317090000021
其中M=max{r1,r2,……,rh},
Figure FDA0002152317090000022
表示“记为”;
其次,统计R中数据分布,并依据分布规律,选择一个阈值H,使得该阈值能将空白区行与含有相当文字的行区别开来;
当ri 1>H(i∈{1,2……,h})时,行i几乎空白;当ri 1<H(i∈{1,2……,h})时,行i含有相当多的黑色像素;表头文字出现在表单的开头,找到R1中第一次不少于连续四次小于H的区域记为表头出现的区域,设R1中从n1到n2第一次连续出现小于H区域,则截取的区域HR为X的n1到n2行。
8.根据权利要求7所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S4具体包括:
搭建tesseract文字识别引擎,对步骤S3中截取的表头区域HR进行文字识别,设识别结果为W;
W=a1a2……an
将识别结果分割成单个字符序列,记为W1,即W1={a1,a2,……,an}。
9.根据权利要求8所述的基于OCR与文本挖掘的机动车数字电子档案分类方法,其特征在于,步骤S5具体包括:
采用与分别计算数据库中各表头数据与步骤S4中W1的相似度,以数据库中相似度最高的表头作为待分类图片的表头,以数据库中表头W1=b1b2……bm进行相似度的计算;
首先,将W1处理成W1的形式,不放仍然记为W1,即
W1={b1,b2,……,bm}
然后,计算W1与W1中共同文字的个数|W1∩W1|,W1∩W1为集合W1={b1,b2,……,bm}与W1={a1,a2,……,an}交集;
通过以下改进的Jaccard系数计算相似系数l1
Figure FDA0002152317090000031
其中|W1|表示表头W1的字符长度;
对数据库中所有表头数据进行同样操作,得到相似系数序列S;
S={l1,l2,……,lk}
其中k为数据库中表头的个数。
CN201910706580.9A 2019-08-01 2019-08-01 基于ocr与文本挖掘的机动车数字电子档案分类方法 Active CN110674332B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910706580.9A CN110674332B (zh) 2019-08-01 2019-08-01 基于ocr与文本挖掘的机动车数字电子档案分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910706580.9A CN110674332B (zh) 2019-08-01 2019-08-01 基于ocr与文本挖掘的机动车数字电子档案分类方法

Publications (2)

Publication Number Publication Date
CN110674332A true CN110674332A (zh) 2020-01-10
CN110674332B CN110674332B (zh) 2022-11-15

Family

ID=69068847

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910706580.9A Active CN110674332B (zh) 2019-08-01 2019-08-01 基于ocr与文本挖掘的机动车数字电子档案分类方法

Country Status (1)

Country Link
CN (1) CN110674332B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860524A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种数字档案智能分类的装置及方法
CN112686258A (zh) * 2020-12-10 2021-04-20 广州广电运通金融电子股份有限公司 体检报告信息结构化方法、装置、可读存储介质和终端
CN115392845A (zh) * 2022-06-13 2022-11-25 杭州京胜航星科技有限公司 基于档案智能化的档案挂接管理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687252A (en) * 1995-05-16 1997-11-11 Kabushiki Kaisha Toshiba Image processing apparatus
CN102945244A (zh) * 2012-09-24 2013-02-27 南京大学 基于句号特征字串的中文网页重复文档检测和过滤方法
CN106372043A (zh) * 2016-09-07 2017-02-01 福建师范大学 一种基于改进的Jaccard系数确定文档相似度的方法
CN107133621A (zh) * 2017-05-12 2017-09-05 江苏鸿信系统集成有限公司 基于ocr的格式化传真的分类和信息提取方法
CN107610091A (zh) * 2017-07-31 2018-01-19 阿里巴巴集团控股有限公司 车险图像处理方法、装置、服务器及系统
WO2018037355A1 (en) * 2016-08-24 2018-03-01 Bhagavant Rajkumar A system and method for automated vehicle and face detection and their classification
CN109062926A (zh) * 2018-06-06 2018-12-21 成都中通信通科技有限公司 一种车辆保险数据采集系统
CN109118471A (zh) * 2018-06-26 2019-01-01 广东工业大学 一种适用于复杂环境下的打磨工件缺陷检测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5687252A (en) * 1995-05-16 1997-11-11 Kabushiki Kaisha Toshiba Image processing apparatus
CN102945244A (zh) * 2012-09-24 2013-02-27 南京大学 基于句号特征字串的中文网页重复文档检测和过滤方法
WO2018037355A1 (en) * 2016-08-24 2018-03-01 Bhagavant Rajkumar A system and method for automated vehicle and face detection and their classification
CN106372043A (zh) * 2016-09-07 2017-02-01 福建师范大学 一种基于改进的Jaccard系数确定文档相似度的方法
CN107133621A (zh) * 2017-05-12 2017-09-05 江苏鸿信系统集成有限公司 基于ocr的格式化传真的分类和信息提取方法
CN107610091A (zh) * 2017-07-31 2018-01-19 阿里巴巴集团控股有限公司 车险图像处理方法、装置、服务器及系统
CN109062926A (zh) * 2018-06-06 2018-12-21 成都中通信通科技有限公司 一种车辆保险数据采集系统
CN109118471A (zh) * 2018-06-26 2019-01-01 广东工业大学 一种适用于复杂环境下的打磨工件缺陷检测方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860524A (zh) * 2020-07-28 2020-10-30 上海兑观信息科技技术有限公司 一种数字档案智能分类的装置及方法
CN112686258A (zh) * 2020-12-10 2021-04-20 广州广电运通金融电子股份有限公司 体检报告信息结构化方法、装置、可读存储介质和终端
CN115392845A (zh) * 2022-06-13 2022-11-25 杭州京胜航星科技有限公司 基于档案智能化的档案挂接管理方法及系统
CN115392845B (zh) * 2022-06-13 2024-04-26 杭州京胜航星科技有限公司 基于档案智能化的档案挂接管理方法及系统

Also Published As

Publication number Publication date
CN110674332B (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN110674332B (zh) 基于ocr与文本挖掘的机动车数字电子档案分类方法
CN110909725B (zh) 识别文本的方法、装置、设备及存储介质
CN104881770A (zh) 一种快递单信息识别系统和方法
AU2005201257A1 (en) Model of documents and method for automatically classifying a document
US20090123090A1 (en) Matching Advertisements to Visual Media Objects
CN113837151B (zh) 表格图像处理方法、装置、计算机设备及可读存储介质
CN111625687B (zh) 一种在媒资视频库中通过人脸快速搜索人物的方法及系统
CN110991403A (zh) 一种基于视觉深度学习的文档信息碎片化抽取方法
CN110610230A (zh) 一种台标检测方法、装置及可读存储介质
CN110889341A (zh) 基于ai的表单图像识别方法、装置、计算机设备和存储介质
CN117423121A (zh) 一种基于区块链的族谱数据智能化管理系统及方法
CN115116068A (zh) 一种基于ocr的档案智能归档系统
CN110991442A (zh) 一种高速公路车牌云端高精准识别方法
CN114494994A (zh) 车辆异常聚集监控方法、装置、计算机设备及存储介质
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
CN111414917B (zh) 一种低像素密度文本的识别方法
CN112464015B (zh) 一种基于深度学习的图像电子证据筛选方法
CN116226412A (zh) 一种基于深度学习文字识别的多媒体数据检索方法
CN115862028A (zh) 一种基于ocr的废钢再回收磅单自动识别系统
CN106709502A (zh) 一种基于投票方法的多特征融合识别方法
CN113094567A (zh) 一种基于文本聚类的恶意投诉识别方法及系统
CN112861800B (zh) 基于改进的Faster R-CNN模型的快递识别方法
CN117371533B (zh) 一种生成数据标签规则的方法及装置
CN115098596B (zh) 政务相关数据梳理方法、装置、设备及可读存储介质
CN116303747B (zh) 一种基于航空气象四维数据集的可视化系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant