CN114092690A - 对象边缘识别和处理方法、系统及计算机可读存储介质 - Google Patents
对象边缘识别和处理方法、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114092690A CN114092690A CN202010784883.5A CN202010784883A CN114092690A CN 114092690 A CN114092690 A CN 114092690A CN 202010784883 A CN202010784883 A CN 202010784883A CN 114092690 A CN114092690 A CN 114092690A
- Authority
- CN
- China
- Prior art keywords
- vertex
- edge
- input image
- line
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 20
- 230000015654 memory Effects 0.000 claims description 27
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 24
- 238000012360 testing method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 238000003708 edge detection Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000009533 lab test Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/60—Rotation of whole images or parts thereof
- G06T3/608—Rotation of whole images or parts thereof by skew deformation, e.g. two-pass or three-pass rotation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种对象边缘识别和处理方法、系统及计算机可读存储介质,方法包括:获取输入图像,其中,所述输入图像包括具有边缘的对象,所述对象的边缘包括多个对象顶点;通过对象顶点识别模型对所述输入图像进行识别,得到每一所述对象顶点与其对应的图像顶点的相对位置;根据每一所述对象顶点与其对应的图像顶点的相对位置,确定各个所述对象顶点在所述输入图像中的实际位置;根据各个所述对象顶点在所述输入图像中的实际位置,顺序连接相邻所述对象顶点形成边缘线条,得到所述具有边缘的对象在所述输入图像中的边缘。应用本发明提供的方案可以检测具有边缘的物体在图像中的边缘。
Description
技术领域
本发明涉及数字图像处理技术领域,特别涉及一种对象边缘识别和处理方法、系统及计算机可读存储介质。
背景技术
目前,人们经常对物体(例如,物体可以为名片、试卷、化验单、文档等)进行拍照,并希望对拍照得到的图像进行相应处理以获得图像中的物体的相关信息。然而,拍照得到的图像中不仅包含物体,同时还不可避免地包含物体所在的外部环境。而图像中的外部环境对应的部分对于识别图像中物体的相关信息而言是多余的,因此,在对图像进行处理以获得图像中物体的相关信息时,需要从图像中检测物体的边缘,以便根据物体的边缘将物体从图像中提取出来。
发明内容
本发明的目的在于提供一种对象边缘识别和处理方法、系统及计算机可读存储介质,以检测具有边缘的物体在图像中的边缘。具体技术方案如下:
为达到上述目的,本发明提供一种对象边缘识别和处理方法,包括:
获取输入图像,其中,所述输入图像包括具有边缘的对象,所述对象的边缘包括多个对象顶点;
通过对象顶点识别模型对所述输入图像进行识别,得到每一所述对象顶点与其对应的图像顶点的相对位置;
根据每一所述对象顶点与其对应的图像顶点的相对位置,确定各个所述对象顶点在所述输入图像中的实际位置;
根据各个所述对象顶点在所述输入图像中的实际位置,顺序连接相邻所述对象顶点形成边缘线条,得到所述具有边缘的对象在所述输入图像中的边缘。
可选的,在所述对象边缘识别和处理方法中,所述得到每一所述对象顶点与其对应的图像顶点的相对位置,包括:
针对每一所述对象顶点,得到该对象顶点与所述输入图像中距离该对象顶点最近的图像顶点的相对位置。
可选的,在所述对象边缘识别和处理方法中,所述根据每一所述对象顶点与其对应的图像顶点的相对位置,确定各个所述对象顶点在所述输入图像中的实际位置,包括:
针对每一所述对象顶点,将该对象顶点与所述输入图像中距离该对象顶点最近的图像顶点的相对位置转换为该对象顶点在目标坐标系中的坐标,得到该对象顶点在所述输入图像中的实际位置。
可选的,在所述对象边缘识别和处理方法中,所述目标坐标系的原点为所述输入图像的一位置点。
可选的,在所述对象边缘识别和处理方法中,还包括:
利用所述边缘线条对所述具有边缘的对象进行校正。
可选的,在所述对象边缘识别和处理方法中,所述对象顶点的数量为4个,所述边缘线条为4条,依次为第一线条、第二线条、第三线条和第四线条,所述第一线条与所述第三线条沿第一方向排列,所述第二线条与所述第四线条沿第二方向排列,所述第一方向与所述第二方向相垂直。
可选的,在所述对象边缘识别和处理方法中,所述利用所述边缘线条对所述具有边缘的对象进行校正,包括:
分别获取所述第一线条和所述第三线条在所述第二方向上的投影长度,以及分别获取所述第二线条和所述第四线条在所述第一方向上的投影长度;
计算所述第一线条和所述第三线条在所述第二方向上的投影长度的平均值,作为校正后的所述具有边缘的对象沿所述第二方向上的长度;
计算所述第二线条和所述第四线条在所述第一方向上的投影长度的平均值,作为校正后的所述具有边缘的对象沿所述第一方向上的长度。
可选的,在所述对象边缘识别和处理方法中,所述对象顶点识别模型为神经网络模型。
基于同一发明构思,本发明还提供了一种对象边缘识别和处理系统,所述系统包括处理器和存储器,所述存储器上存储有指令,当所述指令被所述处理器执行时,实现对象边缘识别和处理方法的步骤,所述方法包括:获取输入图像,其中,所述输入图像包括具有边缘的对象,所述对象的边缘包括多个对象顶点;通过对象顶点识别模型对所述输入图像进行识别,得到每一所述对象顶点与其对应的图像顶点的相对位置;根据每一所述对象顶点与其对应的图像顶点的相对位置,确定各个所述对象顶点在所述输入图像中的实际位置;根据各个所述对象顶点在所述输入图像中的实际位置,顺序连接相邻所述对象顶点形成边缘线条,得到所述具有边缘的对象在所述输入图像中的边缘。
基于同一发明构思,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令被执行时,实现对象边缘识别和处理方法的步骤,所述方法包括:获取输入图像,其中,所述输入图像包括具有边缘的对象,所述对象的边缘包括多个对象顶点;通过对象顶点识别模型对所述输入图像进行识别,得到每一所述对象顶点与其对应的图像顶点的相对位置;根据每一所述对象顶点与其对应的图像顶点的相对位置,确定各个所述对象顶点在所述输入图像中的实际位置;根据各个所述对象顶点在所述输入图像中的实际位置,顺序连接相邻所述对象顶点形成边缘线条,得到所述具有边缘的对象在所述输入图像中的边缘。
与现有技术相比,本发明提供的对象边缘识别和处理方法、系统及计算机可读存储介质具有以下优点:在该对象边缘识别和处理方法中,采用机器学习的方法识别输入图像中的对象顶点以及各对象顶点与其对应的图像顶点的相对位置,进而可以确定各对象顶点在所述输入图像中的实际位置,然后顺序连接相邻所述对象顶点即可形成边缘线条,得到所述具有边缘的对象在所述输入图像中的边缘。本发明能够快速定位输入图像中的对象顶点的位置,实现了对输入图像中的具有边缘的对象的边缘检测,此外还提高了边缘检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的对象边缘识别和处理方法的流程示意图;
图2为本发明的一具体示例的输入图像;
图3为本发明的另一具体示例的输入图像;
图4为对输入图像中的对象进行校正的示意图;
图5是本发明一实施例提供的对象边缘识别和处理系统的结构示意图。
具体实施方式
以下结合附图和具体实施例对本发明提出的一种对象边缘识别和处理方法、系统及计算机可读存储介质作进一步详细说明。根据下面说明,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。须知,本说明书所附图式所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容能涵盖的范围内。
图1示出了根据本发明一示例性实施例的对象边缘识别和处理方法的流程图,该方法可以在例如手机、平板电脑等智能终端上安装的应用程序(app)中实现。如图1所示,该方法可以包括:
步骤S101,获取输入图像,其中,所述输入图像包括具有边缘的对象,所述对象的边缘包括多个对象顶点。
例如,所述输入图像为用户对某一对象进行拍照所得的图像,对象例如可以是名片、试卷、化验单、文档、发票等。如图2所示,在一些实施例中,所述输入图像可以为对名片进行拍照所得的图像。如图3所示,在一些实施例中,所述输入图像可以为对化验单进行拍照所得的图像。
例如,所述输入图像中的对象的形状可以为规则形状(如矩形等),也可以为不规则形状,相应的,在所述输入图像中所述对象的边缘也就具有多个对象顶点。如图2所示的输入图像,名片的形状为矩形,其具有四个边缘(即线条)A1~A4,这四个边缘中相邻两个边缘的连接处构成一个对象顶点,即所述输入图像中该名片具有四个对象顶点a~d。如图3所示的输入图像,化验单的形状为矩形,然而由于输入图像并未将整个化验单的区域拍摄进来,因此,该化验单的左下角顶点和右上角顶点并未包含在所述输入图像中,针对这种情况,可以对所述输入图像中该化验单的4个边缘线条B1~B4进行延伸,得到该化验单的左下角顶点和右上角顶点,从而得到该化验单的4个对象顶点b1~b4。
所述输入图像的形状也可以为矩形等,所述输入图像的形状和尺寸等可以由用户根据实际情况自行设定。例如,所述输入图像可以为通过数码相机或手机拍摄的图像,所述输入图像可以为灰度图像,也可以为彩色图像。例如,所述输入图像可以为图像采集装置直接采集到的原始图像,也可以是对原始图像进行预处理之后获得的图像。例如,为了避免所述输入图像的数据质量、数据不均衡等对于对象边缘检测的影响,在处理所述输入图像前,该对象边缘识别和处理还可以包括对所述输入图像进行预处理的操作。预处理可以消除所述输入图像中的无关信息或噪声信息,以便于更好地对所述输入图像进行处理。
步骤S102,通过对象顶点识别模型对所述输入图像进行识别,得到每一所述对象顶点与其对应的图像顶点的相对位置。
例如,所述对象顶点识别模型可以采用机器学习技术实现并且例如运行在通用计算装置或专用计算装置上。所述对象顶点识别模型为预先训练得到的神经网络模型。例如,所述对象顶点识别模型可以采用深度卷积神经网络(DEEP-CNN)等神经网络实现。在一些实施例中,将所述输入图像输入所述对象顶点识别模型,所述对象顶点识别模型可以识别出所述输入图像中的对象顶点,以得到每个所述对象顶点与其对应的图像顶点的相对位置。所述输入图像的图像顶点指的是图像边缘的顶点,例如在图2中,所述输入图像为矩形,故图像顶点有四个分别为1~4。
下面再对所述对象顶点识别模型进行详细介绍。
首先,通过机器学习训练来建立所述对象顶点识别模型,所述对象顶点识别模型的训练步骤可以包括:
步骤a,获取训练样本集,所述训练样本集中的每一样本图像标注有图像中对象的各个对象顶点,以及各个对象顶点与其对应的图像顶点的相对位置;
步骤b,获取测试样本集,所述测试样本集中的每一样本图像也标注有图像中对象的各个对象顶点,以及各个对象顶点与其对应的图像顶点的相对位置,其中,所述测试样本集不同于所述训练样本集;
步骤c,基于所述训练样本集对所述对象顶点识别模型进行训练;
步骤d,基于所述测试样本集对所述对象顶点识别模型进行测试;
步骤e,在所述测试结果指示所述对象顶点识别模型的识别准确率小于预设准确率时,增加所述训练样本集中的样本数量进行再次训练;以及
步骤f,在所述测试结果指示所述对象顶点识别模型的识别准确率大于或等于所述预设准确率时,完成训练。
如前所述,对象的类型可以为多种,例如名片、试卷、化验单、文档、发票等。针对每种对象类型,均获取一定数量的标注有对应信息的样本图像,为每种对象类型准备的样本图像的数量可以相同也可以不同。每个样本图像中可以包含对象的全部区域(如图2所示),也可以仅包含对象的部分区域(如图3所示)。为每种对象类型获取的样本图像可以尽可能包括不同拍摄角度、不同光照条件下拍摄的图像。在这些情况下,为每个样本图像标注的对应信息还可以包括该样本图像的拍摄角度、光照等信息。
可以将经过上述标注处理的样本图像划分为用于训练所述对象顶点识别模型的训练样本集和用于对训练结果进行测试的测试样本集。通常训练样本集内的样本的数量明显大于测试样本集内的样本的数量,例如,测试样本集内的样本的数量可以占总样本图像数量的5%到20%,而相应的训练样本集内的样本的数量可以占总样本图像数量的80%到95%。本领域技术人员应该理解的是,训练样本集和测试样本集内的样本数量可以根据需要来调整。
可以利用训练样本集对所述对象顶点识别模型进行训练,并利用测试样本集对经过训练的所述对象顶点识别模型的识别准确率进行测试。若识别准确率不满足要求,则增加训练样本集中的样本图像的数量,并利用更新的训练样本集重新对所述对象顶点识别模型进行训练,直到经过训练的所述对象顶点识别模型的识别准确率满足要求为止。若识别准确率满足要求,则训练结束。在一个实施例中,可以基于识别准确率是否小于预设准确率来判断训练是否可以结束。如此,输出准确率满足要求的经过训练的所述对象顶点识别模型可以用于进行所述输入图像中对象顶点的识别。
需要说明的是,若采用如图3所示的图像作为样本图像,在标注时,除了将样本图像内的对象顶点b2、b4标注出来,还可以对相邻的边缘线条进行延长以获得样本图像外的对象顶点b1、b3,并将对象顶点b1、b3也标注出来,同时还分别标注对象顶点b1~b4与其对应的图像顶点的相对位置。
如此,将按照上述标注方式进行标注后的样本图像用于训练所述对象顶点识别模型,则所述对象顶点识别模型在识别类似图3的输入图像时,不仅能够识别出位于输入图像内的对象顶点,还能识别出位于输入图像外的对象顶点,以及识别出各个对象顶点与其对应的图像顶点的相对位置。需要说明的是,在标注样本图像时是通过延长相邻的边缘线条来获取位于图像外部的对象顶点的,但是训练完成后的所述对象顶点识别模型在识别输入图像时,并不需要延长边缘线条来获取图像外部的对象顶点,而是能够直接获得外部的对象顶点与其对应的图像顶点的坐标。
优选的,在所述对象顶点识别模型的训练步骤中,步骤a,在标注样本图像中对象的各个对象顶点与其对应的图像顶点的相对位置时,优选标注每一所述对象顶点距离该对象顶点最近的图像顶点的相对位置。以图2所示图像为样本图像为例,对象顶点a与图像顶点1的距离最近,因此标注对象顶点a与图像顶点1的相对位置,即针对对象顶点a,将对象顶点a的坐标转换为以图像顶点1为原点的坐标,同理,针对对象顶点b,将对象顶点b的坐标转换为以图像顶点2为原点的坐标,针对对象顶点c,将对象顶点c的坐标转换为以图像顶点3为原点的坐标,针对对象顶点d,将对象顶点d的坐标转换为以图像顶点4为原点的坐标。
如此,将按照上述标注方式进行标注后的样本图像用于训练所述对象顶点识别模型,则所述对象顶点识别模型的识别结果是识别出所述输入图像中每一对象顶点相对于与所述输入图像距离该对象顶点最近的图像顶点的相对位置。以图2所示的图像为输入图像为例,通过所述对象顶点识别模型识别后,可以得到对象顶点a相对于图像顶点1的相对位置(即以图像顶点1为原点时对象顶点a的坐标),对象顶点b相对于图像顶点2的相对位置(即以图像顶点2为原点时对象顶点b的坐标),对象顶点c相对于图像顶点3的相对位置(即以图像顶点3为原点时对象顶点c的坐标),对象顶点d相对于图像顶点4的相对位置(即以图像顶点4为原点时对象顶点d的坐标)。
步骤S103,根据每一所述对象顶点与其对应的图像顶点的相对位置,确定各个所述对象顶点在所述输入图像中的实际位置。
例如,将各个对象顶点与所述输入图像中距离该对象顶点最近的图像顶点的相对位置转换为该对象顶点在目标坐标系中的坐标,得到各个对象顶点在所述输入图像中的实际位置,优选的,所述目标坐标系的原点为所述输入图像中的一位置点。
以图2所示的输入图像为例,在步骤S102中获得了以图像顶点1为原点时对象顶点a的坐标,以图像顶点2为原点时对象顶点b的坐标,以图像顶点3为原点时对象顶点c的坐标,以图像顶点4为原点时对象顶点d的坐标。由于此时获得的各个对象顶点的坐标不是同一坐标系内的坐标,因此需要对各个对象顶点的坐标进行转换,转换为在同一坐标系中的坐标,具体的,在步骤S103中,可以将上述4个对象顶点的坐标转换为以同一个位置点作为共同的坐标系原点的坐标,从而便于确定各个对象顶点在所述输入图像中的实际位置。
由于所述的同一个位置点是所述输入图像中的一个特定位置,因此所述输入图像的各个图像顶点与该位置点的相对坐标是已知的,进而可以求得各个对象顶点以该位置点为坐标系原点时的相对坐标。
例如,所述目标坐标系的原点可以为所述输入图像的中心点。优选的,所述目标坐标系的原点为所述输入图像的某一图像顶点。以图2所示的图像为输入图像为例,所述目标坐标系的原点可以为图像顶点1,因此可以获得在以所述图像顶点1为坐标系原点时,对象顶点a、b、c、d的坐标值,进而也就得知对象顶点a、b、c、d在所述输入图像中的实际位置。
步骤S104,根据各个所述对象顶点在所述输入图像中的实际位置,顺序连接相邻所述对象顶点形成边缘线条,得到所述具有边缘的对象在所述输入图像中的边缘。
如图2所示的输入图像,由步骤S103可以得到4个对象顶点a、b、c、d在所述输入图像中的实际位置,因此顺序连接相邻所述对象顶点形成即可得到边缘线条,即连接a、b得到边缘线条A1,连接b、c得到边缘线条A2,连接c、d得到边缘线条A3,连接d、a得到边缘线条A4,这四个边缘线条构成了所述名片在所述输入图像中的边缘。
在确定所述具有边缘的对象在所述输入图像中的边缘后,所述边缘所限定的内部区域即为所述对象所在的区域,因此可根据对所述对象所在的区域进行裁剪,以去除所述输入图像中与所述对象不相关的背景区域,得到所述对象的切片图像。当然,在其他实施例中,也可以不进行切片,而是将所述对象所在的区域以标注框的形式标注出来。
进一步的,在实际应用中,由于拍照所得的图像中,对象的真实形状在图像中发生了变化,即产生了几何畸变。如图3所示的图像,化验单的形状本来为矩形,但是图像中化验单的形状发生了变化,变为了平行四边形。因此,需要对输入图像中的对象进行校正,校正后的对象更容易查看以及便于后续处理,例如OCR识别对象中的字符等。
具体的,可利用所述边缘线条对所述输入图像中的所述对象进行校正。
在一种实施例中,所述具有边缘的对象为矩形,然而在所述输入图像中所述对象并不是矩形。可以理解的是,在所述输入图像中,所述对象顶点的数量可以为4个,所述边缘线条为4条,依次为第一线条、第二线条、第三线条和第四线条,所述第一线条与所述第三线条沿第一方向排列,所述第二线条与所述第四线条沿第二方向排列,所述第一方向与所述第二方向相垂直。
所述利用所述边缘线条对所述具有边缘的对象进行校正,具体可以包括:
分别获取所述第一线条和所述第三线条在所述第二方向上的投影长度,以及分别获取所述第二线条和所述第四线条在所述第一方向上的投影长度;
计算所述第一线条和所述第三线条在所述第二方向上的投影长度的平均值,作为校正后的所述具有边缘的对象沿所述第二方向上的长度;
计算所述第二线条和所述第四线条在所述第一方向上的投影长度的平均值,作为校正后的所述具有边缘的对象沿所述第一方向上的长度。
通过上述的校正方法,可以得到所述输入图像中所述具有边缘的对象在相互垂直的两个方向上的长度,从而可以将所述输入图像中所述对象的形状由非矩形校正为矩形。
举例而言,如图4所示的坐标系中,ABCD为输入图像的四个图像顶点,其中图像顶点A为坐标系原点,所述输入图像中的对象具有4个对象顶点,分别为a、b、c、d,4个边缘线条分别为第一线条ab、第二线条bc、第三线条cd和第四线条da,所述第一线条ab与所述第三线条cd沿第一方向(即X轴方向)排列,所述第二线条bc与所述第四线条da沿第二方向(即Y轴方向)排列。
通过前述步骤可知各个对象顶点在该坐标系中的坐标,进而可以计算对象顶点a、d的X轴坐标差值以及对象顶点b、c的X轴坐标差值,从而获得两个宽度数据L1和L2,校正后的所述对象的宽度可以根据这两个宽度数据的平均值确定,即校正后的所述对象的宽度L=1/2(L1+L2)。
还可以计算对象顶点a、b的Y轴坐标差值以及对象顶点c、d的Y轴坐标差值,从而获得两个高度数据H1和H2,校正后的所述对象的高度可以根据这两个高度数据的平均值确定,即校正后的所述对象的高度H=1/2(H1+H2)。
在得到校正后的所述对象的宽度和高度后,可以进行插值处理,将所述输入图像中所述对象所在区域内的像素都调整到校正后的所述对象中的正确位置,具体方法可以参考现有技术,在此不做赘述。
综上所述,在本发明的对象边缘识别和处理方法中,采用机器学习识别输入图像中的对象顶点以及各对象顶点与其对应的图像顶点的相对位置,进而可以确定各对象顶点在所述输入图像中的实际位置,然后顺序连接相邻所述对象顶点即可形成边缘线条,得到所述具有边缘的对象在所述输入图像中的边缘。本发明能够快速定位输入图像中的对象顶点的位置,实现了对输入图像中的具有边缘的对象的边缘检测,此外,还提高了边缘检测的准确性。
需要说明的是,在本发明中,首先通过所述对象顶点识别模型识别各个对象顶点以及每一对象顶点相对于所述输入图像中距离该对象顶点最近的图像顶点的相对位置,再对所获得的相对位置进行转换以确定各个所述对象顶点在所述输入图像中的实际位置,这种处理方式可以使得识别出的每一对象顶点相对位置相对来说更加准确,因此获得的各对象顶点的实际位置也更加准确,有效提高了边缘检测的准确性。
基于同一发明构思,本发明还提供了一种对象边缘识别和处理系统。如图5所示,对象边缘识别和处理系统200可以包括处理器210和存储器220,存储器220上存储有指令,当指令被处理器210执行时,可以实现如上文所描述的对象边缘识别和处理方法中的步骤。
其中,处理器210可以根据存储在存储器220中的指令执行各种动作和处理。具体地,处理器210可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是X86架构或者是ARM架构等。
存储器220存储有可执行指令,该指令在被处理器210执行上文所述的对象边缘识别和处理方法。存储器220可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、同步动态随机存取存储器(SDRAM)、双倍数据速率同步动态随机存取存储器(DDRSDRAM)、增强型同步动态随机存取存储器(ESDRAM)、同步连接动态随机存取存储器(SLDRAM)和直接内存总线随机存取存储器(DR RAM)。应注意,本文描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
基于同一发明构思,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有指令,当指令被执行时,可以实现上文所描述的对象边缘识别和处理方法中的步骤。
类似地,本发明实施例中的计算机可读存储介质可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。应注意,本文描述的计算机可读存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
需要说明的是,附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
一般而言,本发明的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本发明的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。
需要说明的是,本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统、计算机可读存储介质而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
上述描述仅是对本发明较佳实施例的描述,并非对本发明范围的任何限定,本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰,均属于权利要求书的保护范围。
Claims (10)
1.一种对象边缘识别和处理方法,其特征在于,包括:
获取输入图像,其中,所述输入图像包括具有边缘的对象,所述对象的边缘包括多个对象顶点;
通过对象顶点识别模型对所述输入图像进行识别,得到每一所述对象顶点与其对应的图像顶点的相对位置;
根据每一所述对象顶点与其对应的图像顶点的相对位置,确定各个所述对象顶点在所述输入图像中的实际位置;
根据各个所述对象顶点在所述输入图像中的实际位置,顺序连接相邻所述对象顶点形成边缘线条,得到所述具有边缘的对象在所述输入图像中的边缘。
2.如权利要求1所述的对象边缘识别和处理方法,其特征在于,所述得到每一所述对象顶点与其对应的图像顶点的相对位置,包括:
针对每一所述对象顶点,得到该对象顶点与所述输入图像中距离该对象顶点最近的图像顶点的相对位置。
3.如权利要求2所述的对象边缘识别和处理方法,其特征在于,所述根据每一所述对象顶点与其对应的图像顶点的相对位置,确定各个所述对象顶点在所述输入图像中的实际位置,包括:
针对每一所述对象顶点,将该对象顶点与所述输入图像中距离该对象顶点最近的图像顶点的相对位置转换为该对象顶点在目标坐标系中的坐标,得到该对象顶点在所述输入图像中的实际位置。
4.如权利要求3所述的对象边缘识别和处理方法,其特征在于,所述目标坐标系的原点为所述输入图像的一位置点。
5.如权利要求1所述的对象边缘识别和处理方法,其特征在于,还包括:
利用所述边缘线条对所述具有边缘的对象进行校正。
6.如权利要求5所述的对象边缘识别和处理方法,其特征在于,所述对象顶点的数量为4个,所述边缘线条为4条,依次为第一线条、第二线条、第三线条和第四线条,所述第一线条与所述第三线条沿第一方向排列,所述第二线条与所述第四线条沿第二方向排列,所述第一方向与所述第二方向相垂直。
7.如权利要求6所述的对象边缘识别和处理方法,其特征在于,所述利用所述边缘线条对所述具有边缘的对象进行校正,包括:
分别获取所述第一线条和所述第三线条在所述第二方向上的投影长度,以及分别获取所述第二线条和所述第四线条在所述第一方向上的投影长度;
计算所述第一线条和所述第三线条在所述第二方向上的投影长度的平均值,作为校正后的所述具有边缘的对象沿所述第二方向上的长度;
计算所述第二线条和所述第四线条在所述第一方向上的投影长度的平均值,作为校正后的所述具有边缘的对象沿所述第一方向上的长度。
8.如权利要求1所述的对象边缘识别和处理方法,其特征在于,所述对象顶点识别模型为神经网络模型。
9.一种对象边缘识别和处理系统,其特征在于,所述系统包括处理器和存储器,所述存储器上存储有指令,当所述指令被所述处理器执行时,实现如权利要求1至8中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令被执行时,实现如权利要求1至8中任一项所述的方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784883.5A CN114092690A (zh) | 2020-08-06 | 2020-08-06 | 对象边缘识别和处理方法、系统及计算机可读存储介质 |
PCT/CN2021/107516 WO2022028247A1 (zh) | 2020-08-06 | 2021-07-21 | 对象边缘识别和处理方法、系统及计算机可读存储介质 |
US17/641,436 US20220335704A1 (en) | 2020-08-06 | 2021-07-21 | Method and system of recognizing and processing object edges and computer-readable storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010784883.5A CN114092690A (zh) | 2020-08-06 | 2020-08-06 | 对象边缘识别和处理方法、系统及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114092690A true CN114092690A (zh) | 2022-02-25 |
Family
ID=80116932
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010784883.5A Pending CN114092690A (zh) | 2020-08-06 | 2020-08-06 | 对象边缘识别和处理方法、系统及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220335704A1 (zh) |
CN (1) | CN114092690A (zh) |
WO (1) | WO2022028247A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112132163B (zh) * | 2020-09-21 | 2024-04-02 | 杭州睿琪软件有限公司 | 识别对象边缘的方法、系统及计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6396494B1 (en) * | 1999-06-08 | 2002-05-28 | Microsoft Corporation | Method for virtual clipping a three-dimensional graphics image |
JP2007181146A (ja) * | 2005-12-28 | 2007-07-12 | Casio Comput Co Ltd | 画像投影装置、画像投影装置の投影画像補正方法及びプログラム |
CN108805124A (zh) * | 2018-04-18 | 2018-11-13 | 北京嘀嘀无限科技发展有限公司 | 图片处理方法及装置、计算机可读存储介质 |
CN110287950A (zh) * | 2019-06-05 | 2019-09-27 | 北京字节跳动网络技术有限公司 | 目标检测及目标检测模型的训练方法、装置和电子设备 |
CN110866871A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市华云中盛科技股份有限公司 | 文本图像矫正方法、装置、计算机设备及存储介质 |
CN111325197A (zh) * | 2018-11-29 | 2020-06-23 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107516095A (zh) * | 2016-06-16 | 2017-12-26 | 阿里巴巴集团控股有限公司 | 一种图像识别方法及装置 |
US10706318B2 (en) * | 2017-12-12 | 2020-07-07 | Intel Corporation | Systems, apparatus, and methods to improve object recognition |
CN108320290B (zh) * | 2017-12-29 | 2021-10-22 | 中国银联股份有限公司 | 目标图片提取矫正方法及装置、计算机设备和记录介质 |
CN111243011A (zh) * | 2018-11-29 | 2020-06-05 | 北京市商汤科技开发有限公司 | 关键点检测方法及装置、电子设备和存储介质 |
BG112856A (bg) * | 2018-12-28 | 2020-06-30 | "Ecomagic" Оод | Система и метод за разпознаване на геометрични форми |
US11138423B2 (en) * | 2019-07-29 | 2021-10-05 | Intuit Inc. | Region proposal networks for automated bounding box detection and text segmentation |
CN110738602B (zh) * | 2019-09-12 | 2021-01-01 | 北京三快在线科技有限公司 | 图像处理方法、装置、电子设备及可读存储介质 |
CN112132163B (zh) * | 2020-09-21 | 2024-04-02 | 杭州睿琪软件有限公司 | 识别对象边缘的方法、系统及计算机可读存储介质 |
-
2020
- 2020-08-06 CN CN202010784883.5A patent/CN114092690A/zh active Pending
-
2021
- 2021-07-21 US US17/641,436 patent/US20220335704A1/en active Pending
- 2021-07-21 WO PCT/CN2021/107516 patent/WO2022028247A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6396494B1 (en) * | 1999-06-08 | 2002-05-28 | Microsoft Corporation | Method for virtual clipping a three-dimensional graphics image |
JP2007181146A (ja) * | 2005-12-28 | 2007-07-12 | Casio Comput Co Ltd | 画像投影装置、画像投影装置の投影画像補正方法及びプログラム |
CN108805124A (zh) * | 2018-04-18 | 2018-11-13 | 北京嘀嘀无限科技发展有限公司 | 图片处理方法及装置、计算机可读存储介质 |
CN111325197A (zh) * | 2018-11-29 | 2020-06-23 | 北京搜狗科技发展有限公司 | 数据处理方法和装置、用于数据处理的装置 |
CN110287950A (zh) * | 2019-06-05 | 2019-09-27 | 北京字节跳动网络技术有限公司 | 目标检测及目标检测模型的训练方法、装置和电子设备 |
CN110866871A (zh) * | 2019-11-15 | 2020-03-06 | 深圳市华云中盛科技股份有限公司 | 文本图像矫正方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
朱万意;程晓荣;张鹏;黎孟晨;: "图像处理技术在车牌识别中的应用研究", 信息与电脑(理论版), no. 16, 23 August 2017 (2017-08-23) * |
Also Published As
Publication number | Publication date |
---|---|
US20220335704A1 (en) | 2022-10-20 |
WO2022028247A1 (zh) | 2022-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112132163B (zh) | 识别对象边缘的方法、系统及计算机可读存储介质 | |
CN111951290B (zh) | 一种图像中物体的边缘检测方法及装置 | |
CN110414507B (zh) | 车牌识别方法、装置、计算机设备和存储介质 | |
CN111832371B (zh) | 文本图片矫正方法、装置、电子设备及机器可读存储介质 | |
CN109479082B (zh) | 图象处理方法及装置 | |
WO2018233055A1 (zh) | 保单信息录入的方法、装置、计算机设备及存储介质 | |
JP6055228B2 (ja) | 形状計測装置 | |
CN114143519A (zh) | 投影图像自动匹配幕布区域的方法及装置,投影仪 | |
CN111914597A (zh) | 一种文档对照识别方法、装置、电子设备和可读存储介质 | |
CN108335266B (zh) | 一种文档图像畸变的矫正方法 | |
CN115937003A (zh) | 图像处理方法、装置、终端设备和可读存储介质 | |
CN111950554A (zh) | 一种身份证识别方法、装置、设备及存储介质 | |
CN111783763A (zh) | 基于卷积神经网络的文本定位框校正方法及其系统 | |
CN114092690A (zh) | 对象边缘识别和处理方法、系统及计算机可读存储介质 | |
CN113221897A (zh) | 图像矫正方法、图像文本识别方法、身份验证方法及装置 | |
CN114170613A (zh) | 图像检测方法、装置、电子设备及计算机可读存储介质 | |
CN111340040B (zh) | 一种纸张字符识别方法、装置、电子设备及存储介质 | |
US11610291B2 (en) | Image processing method, image processing device, electronic device and storage medium | |
CN112396057A (zh) | 一种字符识别方法、装置及电子设备 | |
US11134170B2 (en) | Correction of feed skewed images | |
US11783458B2 (en) | Image processing method, image processing device, electronic device and storage medium | |
CN115527215A (zh) | 包含文本的图像处理方法、系统及存储介质 | |
CN109215068B (zh) | 图像放大率测量方法及装置 | |
CN113762244A (zh) | 文档信息的提取方法及装置 | |
CN112380957A (zh) | 他项权证信息识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |