CN112926683A - 一种对象识别方法和装置 - Google Patents

一种对象识别方法和装置 Download PDF

Info

Publication number
CN112926683A
CN112926683A CN202110334066.4A CN202110334066A CN112926683A CN 112926683 A CN112926683 A CN 112926683A CN 202110334066 A CN202110334066 A CN 202110334066A CN 112926683 A CN112926683 A CN 112926683A
Authority
CN
China
Prior art keywords
image
given image
frame
positioning
positioning mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110334066.4A
Other languages
English (en)
Inventor
李虎
冯程
郑邦东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202110334066.4A priority Critical patent/CN112926683A/zh
Publication of CN112926683A publication Critical patent/CN112926683A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种对象识别方法和装置,涉及图像识别技术领域。该方法的一具体实施方式包括:确定给定图像中定位标的位置,定位标用于定位给定图像中的待识别对象;根据定位标的位置,从给定图像中切分出待识别对象对应的区域,以得到切片图像;将切片图像输入分类器,以得到待识别对象的识别结果。该实施方式能够在对象内容多样的情况下准确识别对象,无需进行模糊匹配,简化了识别步骤。

Description

一种对象识别方法和装置
技术领域
本发明涉及图像识别技术领域,尤其涉及一种对象识别方法和装置。
背景技术
由于对象的内容的多样性,会导致对同一对象识别出多样的结果,以行政区划识别为例,首先人们在进行行政区划填写时,有的最小单位写到县,有的最小单位写到村;其次国家行政区划也经常会变化,例如“北京市宣武区”变为“北京市西城区”。在行政区划栏位的识别中,有着以下特殊性,一是用户填写不规范,有的写到区,有的写到县,有的省略了省直接写市等,二是国家行政区划的经常变更,造成填写的结果的多样性。为了统一,一般会将识别的中文结果转换成对应的6位行政区划代码存在系统中。
传统的行政区划栏位识别方法通常包括文字识别和字符串模糊匹配两个步骤。第一步中的文字识别包括文字定位和文字识别两步,而文字定位一直是OCR识别(光学字符识别)中的难点,容易定位不准,且该文字识别属于手写体识别,手写体识别不同于印刷体识别,由于书写不规范问题以及个人书写习惯的差异,会出现识别率不高的问题。第二步中的字符串模糊匹配是计算句子相似度的方法,包括编辑距离算法和模糊查询算法等,通常是利用词语间的相似关系进行匹配,其最大问题是国家行政区划时常会变更,而地名变更往往不像同义词替换具有相似性,例如“北京市宣武区”变更为“北京市西城区”,宣武和西城并没有相似性联系,所以造成匹配准确率低。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
由于对象内容的多样性而导致识别准确率不高,且识别步骤繁琐。
发明内容
有鉴于此,本发明实施例提供一种对象识别方法和装置,能够在对象内容多样的情况下准确识别对象,无需进行模糊匹配,简化了识别步骤。
为实现上述目的,根据本发明实施例的一个方面,提供了一种对象识别方法。
一种对象识别方法,包括:确定给定图像中定位标的位置,所述定位标用于定位所述给定图像中的待识别对象;根据所述定位标的位置,从所述给定图像中切分出所述待识别对象对应的区域,以得到切片图像;将所述切片图像输入分类器,以得到所述待识别对象的识别结果。
可选地,所述根据所述定位标的位置,从所述给定图像中切分出所述待识别对象对应的区域,包括:获取模板图像,所述模板图像包括定位标框和切片框,所述定位标框用于定位所述切片框;确定所述模板图像中定位标框与所述给定图像中定位标之间的第一相对位置关系,根据所述第一相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
可选地,所述给定图像的定位标和所述模板图像的定位标框的数量均为预设数量,且所述定位标框与所述定位标一一对应;所述确定所述模板图像中定位标框与所述给定图像中定位标之间的第一相对位置关系,根据所述第一相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域,包括:计算所述模板图像中每个定位标框与所述给定图像中对应的定位标之间的第二相对位置关系;利用各所述第二相对位置关系,计算所述给定图像的所有定位标与所述模板图像的所有定位标框之间的最优相对位置关系;根据所述最优相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
可选地,所述利用各所述第二相对位置关系,计算所述给定图像的所有定位标与所述模板图像的所有定位标框之间的最优相对位置关系,包括:对所述模板图像中各定位标框与所述给定图像中对应的定位标之间的位置偏移量计算均值,得到平均位置偏移量,以所述平均位置偏移量作为所述最优相对位置关系。
可选地,所述确定所述模板图像中定位标框与所述给定图像中定位标之间的第一相对位置关系,根据所述第一相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域,包括:确定所述模板图像中定位标框的基准点与所述给定图像中定位标的基准点之间的第三相对位置关系;根据所述第三相对位置关系、所述给定图像与所述模板图像之间的缩放比例、所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
可选地,将所述切片图像输入基于深度残差网络得到的分类器,以得到所述待识别对象的识别结果。
可选地,所述基于深度残差网络得到的分类器包括所述深度残差网络主干网络、两层全连接层、归一化层,其中最后一层所述全连接层为输出层,所述深度残差网络主干网络用于对所述切片图像进行卷积以提取图像特征。
可选地,所述待识别对象为行政区划地址,所述切片图像为行政区划栏位图像。
可选地,所述待识别对象的识别结果为所述待识别对象的编码,根据对象集合中所有对象的编码个数确定所述分类器中所述输出层的维度数。
可选地,通过预设的目标检测算法,识别所述给定图像中的一个或多个特定字符集合,以确定所述给定图像中的定位标,一个特定字符集
根据本发明实施例的另一方面,提供了一种对象识别装置。
一种对象识别装置,包括:定位标确定模块,用于确定给定图像中定位标的位置,所述定位标用于定位所述给定图像中的待识别对象;图像切分模块,用于根据所述定位标的位置,从所述给定图像中切分出所述待识别对象对应的区域,以得到切片图像;对象识别模块,用于将所述切片图像输入分类器,以得到所述待识别对象的识别结果。
可选地,所述图像切分模块还用于:获取模板图像,所述模板图像包括定位标框和切片框,所述定位标框用于定位所述切片框;确定所述模板图像中定位标框与所述给定图像中定位标之间的第一相对位置关系,根据所述第一相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
可选地,所述给定图像的定位标和所述模板图像的定位标框的数量均为预设数量,且所述定位标框与所述定位标一一对应;所述图像切分模块还用于:计算所述模板图像中每个定位标框与所述给定图像中对应的定位标之间的第二相对位置关系;利用各所述第二相对位置关系,计算所述给定图像的所有定位标与所述模板图像的所有定位标框之间的最优相对位置关系;根据所述最优相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
可选地,所述图像切分模块还用于:对所述模板图像中各定位标框与所述给定图像中对应的定位标之间的位置偏移量计算均值,得到平均位置偏移量,以所述平均位置偏移量作为所述最优相对位置关系。
可选地,所述图像切分模块还用于:确定所述模板图像中定位标框的基准点与所述给定图像中定位标的基准点之间的第三相对位置关系;根据所述第三相对位置关系、所述给定图像与所述模板图像之间的缩放比例、所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
可选地,所述对象识别模块还用于:将所述切片图像输入基于深度残差网络得到的分类器,以得到所述待识别对象的识别结果。
可选地,所述基于深度残差网络得到的分类器包括所述深度残差网络主干网络、两层全连接层、归一化层,其中最后一层所述全连接层为输出层,所述深度残差网络主干网络用于对所述切片图像进行卷积以提取图像特征。
可选地,所述待识别对象为行政区划地址,所述切片图像为行政区划栏位图像。
可选地,所述待识别对象的识别结果为所述待识别对象的编码,根据对象集合中所有对象的编码个数确定所述分类器中所述输出层的维度数。
可选地,所述定位标确定模块还用于通过预设的目标检测算法,识别所述给定图像中的一个或多个特定字符集合,以确定所述给定图像中的定位标,一个特定字符集合对应一个定位标,且一个特定字符集合中包括至少一个特定字符。
根据本发明实施例的又一方面,提供了一种电子设备。
一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明实施例所提供的对象识别方法。
根据本发明实施例的又一方面,提供了一种计算机可读介质。
一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例所提供的对象识别方法。
上述发明中的一个实施例具有如下优点或有益效果:确定给定图像中定位标的位置,定位标用于定位给定图像中的待识别对象;根据定位标的位置,从给定图像中切分出待识别对象对应的区域,以得到切片图像;将切片图像输入分类器,以得到待识别对象的识别结果。能够在对象内容多样的情况下准确识别对象,无需进行模糊匹配,简化了识别步骤。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明一个实施例的对象识别方法的主要步骤示意图;
图2是根据本发明一个实施例的行政区划栏位地址识别流程示意图;
图3是根据本发明一个实施例的ResNet的网络结构示意图;
图4是根据本发明一个实施例的归一化层的原理示意图;
图5是根据本发明一个实施例的行政区域栏位的手写体地址示意图;
图6是根据本发明一个实施例的对象识别装置的主要模块示意图;
图7是本发明实施例可以应用于其中的示例性系统架构图;
图8是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1是根据本发明一个实施例的对象识别方法的主要步骤示意图。
如图1所示,本发明一个实施例的对象识别方法主要包括如下的步骤S101至步骤S103。
步骤S101:确定给定图像中定位标的位置,定位标用于定位给定图像中的待识别对象;
步骤S102:根据定位标的位置,从给定图像中切分出待识别对象对应的区域,以得到切片图像;
步骤S103:将切片图像输入分类器,以得到待识别对象的识别结果。
在一个实施例中,待识别对象为行政区划地址,切片图像为行政区划栏位图像。行政区划栏位即用于填写行政区划地址的栏位,行政区划栏位图像包括待识别的具体行政区划地址,例如北京市东城区朝阳门街道,该地址例如为手写体形式。
在一个实施例中,可通过预设的目标检测算法,识别给定图像中的一个或多个特定字符集合,以确定给定图像中的定位标,一个特定字符集合对应一个定位标,且一个特定字符集合中包括至少一个特定字符。
在一个实施例中,预设的目标检测算法具体可以是YOLO目标检测法(You OnlyLook Once,一种对象检测算法)。
特定字符集合可以是文字、字母、数字等一种或多种字符的集合。以待识别对象为行政区划地址为例,定位标例如待识别单据或文件(本发明实施例不仅限于单据或文件等载体)上的“行政区划”四个字符,该四个字符即构成特定字符集合,“行政区划”这四个字与单据上所填写的具体地址的位置的相对位置关系通常是固定的,即定位标与待识别对象的相对位置是固定的。因此,根据“行政区划”这四个字即可定位到填写的地址的位置,即待识别对象的位置,从而进一步切分出填写的地址对应的区域,即切片图像。
在一个实施例中,根据定位标的位置,从给定图像中切分出待识别对象对应的区域,包括:获取模板图像,模板图像包括定位标框和切片框,定位标框用于定位切片框;确定模板图像中定位标框与给定图像中定位标之间的第一相对位置关系,根据第一相对位置关系以及模板图像中切片框的位置,确定并切分出给定图像中待识别对象对应的区域。
在一个实施例中,模板图像可以是与给定图像等比例大小的,且与给定图像相对应的图像,例如给定图像是某种票据,那么模板图像也为同一种票据。以下通过实施例一和实施例二进一步说明。
实施例一:
定位标为一个,定位标框与定位标是一一对应的,即定位标框在模板图像中的位置与定位标在给定图像中的位置相同,模板图像中定位标框、切片框的位置以及给定图像中定位标的位置均为已知量,且定位标与图像中对象的相对位置是固定的,那么模板图像中定位标框与切片框之间,以及与给定图像中定位标与待识别对象对应的区域之间,有同样的位置关系。由模板图像中定位标框、给定图像的定位标之间的相对位置关系(即第一相对位置关系),和模板图像中切片框的位置,即可以计算出给定图像中切片图像的位置,即确定并切分出给定图像中待识别对象对应的区域。
第一相对位置关系具体可以是坐标偏移量,具体包括横坐标轴(X轴)的偏移量、纵坐标轴(Y轴)的偏移量。例如,给定图像中定位标的两个对角(例如左上角、右下角)的坐标分别为(x1,y1)、(x2,y2),模板图像中定位标框的两个对角(左上角、右下角)的坐标分别为(x1+a,y1+b)、(x2+a,y2+b),其中a、b分别为横坐标轴偏移量、纵坐标轴偏移量,模板图像中切片框的的两个对角(左上角、右下角)的坐标分别为(x3,y3)、(x4,y4),那么待识别对象对应的区域的两个对角(左上角、右下角)的坐标分别为(x3-a,y3-b)、(x4-a,y4-b),这样,由模板图像中定位标框、给定图像的定位标之间的坐标偏移量,和模板图像中切片框的坐标,即可计算出给定图像中待识别对象对应的区域的坐标。需要说明的是,在进行上述坐标运算时不仅限于选取左上角、右下角坐标,还可以选取其他位置的坐标。
实施例二:
给定图像的定位标和模板图像的定位标框的数量均为预设数量,且定位标框与定位标一一对应。
确定模板图像中定位标框与给定图像中定位标之间的第一相对位置关系,根据第一相对位置关系以及模板图像中切片框的位置,确定并切分出给定图像中待识别对象对应的区域,具体可以包括:计算模板图像中每个定位标框与给定图像中对应的定位标之间的第二相对位置关系;利用各第二相对位置关系,计算给定图像的所有定位标与模板图像的所有定位标框之间的最优相对位置关系;根据最优相对位置关系以及模板图像中切片框的位置,确定并切分出给定图像中待识别对象对应的区域。
利用各第二相对位置关系,计算给定图像的所有定位标与模板图像的所有定位标框之间的最优相对位置关系,具体可以包括:对模板图像中各定位标框与给定图像中对应的定位标之间的位置偏移量计算均值,得到平均位置偏移量,以平均位置偏移量作为最优相对位置关系。
即,在多个定位标的情况下,可以计算模板图像的每个定位标框与给定图像的对应的定位标之间的坐标偏移量,然后对这些坐标偏移量求平均,将得到的平均位置偏移量作为最终用于计算的最优坐标偏移量,再参照实施例一种介绍的基于模板图像中定位标框、给定图像的定位标之间的坐标偏移量,和模板图像中切片框的坐标,计算出给定图像中待识别对象对应的区域的坐标的方法,利用实施例二中的模板图像中定位标框、给定图像的定位标之间的平均坐标偏移量(即最优坐标偏移量),和模板图像中切片框的坐标,计算出给定图像中待识别对象对应的区域的坐标。
在另一个实施例中,在定位标的数量为多个的情况下,还可利用最小二乘法来计算上述的最优相对位置关系。
在一个实施例中,模板图像可以是与给定图像直接成一定比例,以下通过实施例三进一步说明。
实施例三:
确定模板图像中定位标框与给定图像中定位标之间的第一相对位置关系,根据第一相对位置关系以及模板图像中切片框的位置,确定并切分出给定图像中待识别对象对应的区域,包括:确定模板图像中定位标框的基准点与给定图像中定位标的基准点之间的第三相对位置关系;根据第三相对位置关系、给定图像与模板图像之间的缩放比例、模板图像中切片框的位置,确定并切分出给定图像中待识别对象对应的区域。具体地,第三相对位置关系可以是模板图像中定位标框的基准点与给定图像中定位标的基准点的坐标偏移量,具体包括X轴的偏移量、Y轴的偏移量。
那么可以在参照上述实施例一中的计算方法的基础上,另外需要考虑给定图像与模板图像之间的缩放比例,假设模板图像中定位标框的基准点相对于给定图像中定位标的基准点的X轴偏移量为a、Y轴偏移量为b,则切片框的基准点的坐标相对于给定图像中待识别对象对应的区域的基准点的坐标的X轴偏移量需要利用模板图像中定位标框的基准点相对于给定图像中定位标的基准点的X轴偏移量a、模板图像中定位标框的基准点相对于切片框的基准点的X轴偏移量d来计算,切片框的基准点的坐标相对于给定图像中待识别对象对应的区域的基准点的坐标的Y轴偏移量需要利用模板图像中定位标框的基准点相对于给定图像中定位标的基准点的Y轴偏移量b、模板图像中定位标框的基准点相对于切片框的基准点的Y轴偏移量c来计算。例如模板图像在给定图像基础上放大2倍,那么模板图像中切片框的基准点相对于给定图像中待识别对象对应的区域的基准点的坐标的X轴偏移量、Y轴偏移量分别为a-(d/2)、b-(c/2)。由于切片框的基准点的坐标已知,从而能够计算出给定图像中待识别对象对应的区域的基准点的坐标,再结合切片框的其他坐标以及上述缩放比例,可进一步计算给定图像中待识别对象对应的区域的其他点坐标。上述各基准点可以为选定的某个点,例如左上角的点。
在一个实施例中,将切片图像输入基于深度残差网络得到的分类器,以得到待识别对象的识别结果。
基于深度残差网络得到的分类器具体包括:深度残差网络主干网络、两层全连接层、归一化层,其中最后一层全连接层为输出层,深度残差网络主干网络用于对切片图像进行卷积以提取图像特征。
在一个实施例中,待识别对象的识别结果为待识别对象的编码,根据对象集合中所有对象的编码个数确定分类器中输出层的维度数。
下面以行政区划地址识别为例,详细介绍本发明实施例的对象识别方法。本发明一个实施例的行政区划栏位地址识别流程如图2所示,首先进行训练数据采集,采集图像样本中的行政区划栏位地址切片图像样本,得到切片图像样本集,作为训练集,然后利用制作好的训练集进行模型训练,得到分类模型,即本发明实施例的分类器,将待识别行政区划栏位地址的切片图像作为预测数据放入分类模型中,即可得到分类结果,分类结果对应的标签即为最终的行政区划代码。
本发明实施例可以对单据、票据、文件等各种形式图像中的行政区划地址进行识别,下面对行政区划栏位地址识别流程进行详细介绍。
首先进行训练数据采集,这一步需要将图像样本中行政区划地址(或称行政区划栏位地址)对应的区域切分出来,形成切片图像样本。本发明实施例采用模板相对坐标法,即选用一个图像作为模板,即模板图像,在模板图像中选择一些定位标(即模板图像中的定位标框)以及查找到行政区划栏位的框(即模板图像中的切片框),记录下定位标框、切片框的坐标。
对一张图像样本,可以利用YOLO目标检测法在图像样本上找到对应的定位标,利用模板图像和图像样本中定位标的相对坐标关系,计算出在图像样本中与模板图像中切片框对应的坐标,按坐标切分出对应的区域,即得到切片图像样本,作为训练数据。
然后进行模型训练,本发明实施例的网络模型(即分类器)主要包括ResNet(深度残差网络)主干网络、两层全连接层和Softmax(归一化)层。ResNet主干网络的作用是对图像进行卷积,以提取图像特征,全连接层的作用是降维,为后序的分类做准备,Softmax层的作用是将全连接层的输出转化为概率输出,每一行政区划栏位地址有各自的行政区划代码,该概率即行政区划栏位地址对应各行政区划代码的概率,训练目标是输出的概率最大的行政区划代码与切片图像样本的预先标注的标签一致。
本发明实施例的分类器的上述两层全连接层的最后一层全连接层为输出层,在确定该层的维度数时,利用最新的行政区划表,通过本发明实施例的分类器能够得到行政区划栏位地址的类别个数,该类别个数作为该层的维度数。
ResNet(Residual Neural Network,深度残差网络)通过使用ResNet Unit(单元)成功训练出了152层的神经网络,错误率为3.57%,同时参数量比VGGNet低(VGG,视觉几何组,Visual Geometry Group),效果非常突出。ResNet的结构可以极快地加速神经网络的训练,模型的准确率也有比较大的提升。同时ResNet的推广性非常好,甚至可以直接用到InceptionNet网络(一种经典卷积神经网络)中。ResNet的主要思想是在网络中增加了直连通道,即Highway Network(高速网络)的思想。其网络结构如图3所示,此前的网络结构是性能输入做一个非线性变换,而Highway Network则允许保留之前网络层的一定比例的输出。ResNet的思想和Highway Network的思想也非常类似,允许原始输入信息直接传到后面的层中。
本发明是从softmax(归一化)函数之后的概率矩阵结果开始的,因此需要介绍softmax函数。softmax用于多分类任务过程中,它将输出映射到(0,1)区间内,输出的是概率,从而来进行多分类。假设有一个数组V,Vi表示V中的第i个元素,那么这个元素的softmax值表示为
Figure BDA0002997462560000121
归一化层的原理示意图如图4所示,以三类别的分类器来介绍归一化层的原理,softmax的输入为z1,z2,z3,图4的分类算法会将softmax作为最后一层,即将原来输出z1,z2,z3分别是3,1,-3,通过softmax函数作用后,映射成为(0,1)的值y1,y2,y3
Figure BDA0002997462560000122
Figure BDA0002997462560000123
Figure BDA0002997462560000124
1>yi>0,∑iyi=1,y1,y2,y3分别为:0.88、0.12、0,而这些值的累和为1(满足概率的性质),那么可以将它理解成概率,在最后选取输出结点的时候,就可以选取概率最大(也就是值对应最大的)结点,作为得到的分类结果。
在预测阶段,将预测图像即待识别行政区划栏位地址的图像,可按照上文介绍的对图像样本的处理方法,对预测图像进行处理,得到行政区划地址对应区域的切片图像,将切片图像输入上述的已训练好的分类器进行预测,输出的分类结果对应的代码即为行政区划代码。行政区划是行政区域划分的简称,是为了进行分级管理而实行的区域划分,例如分为4个级别:省、市、县(或区)、乡镇(或街道)。而行政区划栏位的识别有着其特殊性造成了填写结果的多样性。行政区划代码是为了便于统一管理而设定的行政区划6位数字代码,例如某行政区划地址的行政区划代码为“429004”。本发明实施例可以对图像中行政区域栏位的手写体的地址进行识别,图5为行政区域栏位的手写体的地址的一个示例。本发明实施例的识别方法,对于同一行政区划地址的多种多样的书写或表达方式,都能识别得到同一识别结果,即该行政区划地址对应的行政区划代码。
本发明实施例的对象识别方法相比于现有技术有诸多优点。现有技术中的行政区划栏位识别包括文字识别和模糊匹配两个步骤,其中,文字识别网络又包括文字定位网络和模糊匹配网络,文字定位一直是OCR识别中的难题,定位的准确性直接影响到最终的识别结果(例如,如果文字都漏检则无法识别出正确结果),如果定位的区域小了,则会漏掉文字,如果定位的区域大了,则会把其他栏位的文字包括进来,从而导致下一步的文字识别结果不准确。且文字识别应用与行政区划地址识别时属于手写体识别,手写体识别不同于印刷体识别,由于书写不规范问题以及个人书写习惯的差异,天然的会出现识别率不高的问题。现有技术所采用的模糊匹配是基于词语的相似性计算,包括编辑距离算法和模糊查询算法等,通常是利用词语间的相似关系进行匹配,由于行政区划可能会变更,而地名的文字变更并不具有相似性,例如,“北京市宣武区”变更为“北京市西城区”,宣武和西城并没有相似性联系。因此,现有技术基于模糊匹配就会导致匹配准确率低,从而使得识别结果不准确。
本发明实施例的对象识别方法基于深度学习图像分类算法,能够处理行政区划栏位识别中内容多样性问题,具有准确率高且步骤简单的优点。由于本发明实施例采用图像分类网络进行识别,不需要进行文字定位,而可以直接利用相对坐标法,将行政区划栏位对应的区域切分出来,作为预测数据,分类网络由于其鲁棒性强,切片图像中漏掉少量文字或者额外包括了其他文字,均不会影响分类结果,从而保证了识别结果的准确率。
另外,本发明实施例不同于现有技术方案的两步法(文字识别和模糊匹配),本发明实施例的对象识别方法相对于现有技术,不涉及文字识别和模糊匹配步骤,而只需要一步图像分类步骤,步骤更简单,不需要进行模糊匹配,由于省去了模糊匹配步骤能进一步提高识别结果的准确率。
图6是根据本发明一个实施例的对象识别装置的主要模块示意图。
如图6所示,本发明一个实施例的对象识别装置600主要包括:定位标确定模块601、图像切分模块602、对象识别模块603。
定位标确定模块601,用于确定给定图像中定位标的位置,所述定位标用于定位所述给定图像中的待识别对象;
图像切分模块602,用于根据所述定位标的位置,从所述给定图像中切分出所述待识别对象对应的区域,以得到切片图像;
对象识别模块603,用于将所述切片图像输入分类器,以得到所述待识别对象的识别结果。
图像切分模块602具体用于:获取模板图像,所述模板图像包括定位标框和切片框,所述定位标框用于定位所述切片框;确定所述模板图像中定位标框与所述给定图像中定位标之间的第一相对位置关系,根据所述第一相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
在一个实施例中,所述给定图像的定位标和所述模板图像的定位标框的数量均为预设数量,且所述定位标框与所述定位标一一对应。
所述图像切分模块602具体用于:计算所述模板图像中每个定位标框与所述给定图像中对应的定位标之间的第二相对位置关系;利用各所述第二相对位置关系,计算所述给定图像的所有定位标与所述模板图像的所有定位标框之间的最优相对位置关系;根据所述最优相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
所述图像切分模块602可以对所述模板图像中各定位标框与所述给定图像中对应的定位标之间的位置偏移量计算均值,得到平均位置偏移量,以所述平均位置偏移量作为所述最优相对位置关系。
在另一实施例中,所述图像切分模块602用于确定所述模板图像中定位标框的基准点与所述给定图像中定位标的基准点之间的第三相对位置关系;根据所述第三相对位置关系、所述给定图像与所述模板图像之间的缩放比例、所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
在一个实施例中,所述对象识别模块603具体可以用于:将所述切片图像输入基于深度残差网络得到的分类器,以得到所述待识别对象的识别结果。
基于深度残差网络得到的分类器包括所述深度残差网络主干网络、两层全连接层、归一化层,其中最后一层所述全连接层为输出层,所述深度残差网络主干网络用于对所述切片图像进行卷积以提取图像特征。
在一个实施例中,待识别对象为行政区划地址,所述切片图像为行政区划栏位图像。
所述待识别对象的识别结果为所述待识别对象的编码,例如行政区划代码,可根据对象集合中所有对象的编码个数确定所述分类器中所述输出层的维度数。
在一个实施例中,所述定位标确定模块还用于通过预设的目标检测算法,识别所述给定图像中的一个或多个特定字符集合,以确定所述给定图像中的定位标,一个特定字符集合对应一个定位标,且一个特定字符集合中包括至少一个特定字符。
另外,在本发明实施例中对象识别装置的具体实施内容,在上面所述对象识别方法中已经详细说明了,故在此重复内容不再说明。
图7示出了可以应用本发明实施例的对象识别方法或对象识别装置的示例性系统架构700。
如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,例如对用户利用终端设备701、702、703所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的对象识别方法一般由服务器705执行,相应地,对象识别装置一般设置于服务器705中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图8,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统800的结构示意图。图8示出的终端设备或服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括定位标确定模块、图像切分模块、对象识别模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,定位标确定模块还可以被描述为“用于确定给定图像中定位标的位置的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:确定给定图像中定位标的位置,所述定位标用于定位所述给定图像中的待识别对象;根据所述定位标的位置,从所述给定图像中切分出所述待识别对象对应的区域,以得到切片图像;将所述切片图像输入分类器,以得到所述待识别对象的识别结果。
根据本发明实施例的技术方案,确定给定图像中定位标的位置,定位标用于定位给定图像中的待识别对象;根据定位标的位置,从给定图像中切分出待识别对象对应的区域,以得到切片图像;将切片图像输入分类器,以得到待识别对象的识别结果。能够在对象内容多样的情况下准确识别对象,无需进行模糊匹配,简化了识别步骤。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (15)

1.一种对象识别方法,其特征在于,包括:
确定给定图像中定位标的位置,所述定位标用于定位所述给定图像中的待识别对象;
根据所述定位标的位置,从所述给定图像中切分出所述待识别对象对应的区域,以得到切片图像;
将所述切片图像输入分类器,以得到所述待识别对象的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述定位标的位置,从所述给定图像中切分出所述待识别对象对应的区域,包括:
获取模板图像,所述模板图像包括定位标框和切片框,所述定位标框用于定位所述切片框;
确定所述模板图像中定位标框与所述给定图像中定位标之间的第一相对位置关系,根据所述第一相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
3.根据权利要求2所述的方法,其特征在于,所述给定图像的定位标和所述模板图像的定位标框的数量均为预设数量,且所述定位标框与所述定位标一一对应;
所述确定所述模板图像中定位标框与所述给定图像中定位标之间的第一相对位置关系,根据所述第一相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域,包括:
计算所述模板图像中每个定位标框与所述给定图像中对应的定位标之间的第二相对位置关系;
利用各所述第二相对位置关系,计算所述给定图像的所有定位标与所述模板图像的所有定位标框之间的最优相对位置关系;
根据所述最优相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
4.根据权利要求3所述的方法,其特征在于,所述利用各所述第二相对位置关系,计算所述给定图像的所有定位标与所述模板图像的所有定位标框之间的最优相对位置关系,包括:
对所述模板图像中各定位标框与所述给定图像中对应的定位标之间的位置偏移量计算均值,得到平均位置偏移量,以所述平均位置偏移量作为所述最优相对位置关系。
5.根据权利要求2所述的方法,其特征在于,所述确定所述模板图像中定位标框与所述给定图像中定位标之间的第一相对位置关系,根据所述第一相对位置关系以及所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域,包括:
确定所述模板图像中定位标框的基准点与所述给定图像中定位标的基准点之间的第三相对位置关系;
根据所述第三相对位置关系、所述给定图像与所述模板图像之间的缩放比例、所述模板图像中切片框的位置,确定并切分出所述给定图像中所述待识别对象对应的区域。
6.根据权利要求1所述的方法,其特征在于,将所述切片图像输入基于深度残差网络得到的分类器,以得到所述待识别对象的识别结果。
7.根据权利要求6所述的方法,其特征在于,所述基于深度残差网络得到的分类器包括所述深度残差网络主干网络、两层全连接层、归一化层,其中最后一层所述全连接层为输出层,所述深度残差网络主干网络用于对所述切片图像进行卷积以提取图像特征。
8.根据权利要求7所述的方法,其特征在于,所述待识别对象为行政区划地址,所述切片图像为行政区划栏位图像。
9.根据权利要求8所述的方法,其特征在于,所述待识别对象的识别结果为所述待识别对象的编码,根据对象集合中所有对象的编码个数确定所述分类器中所述输出层的维度数。
10.根据权利要求1所述的方法,其特征在于,通过预设的目标检测算法,识别所述给定图像中的一个或多个特定字符集合,以确定所述给定图像中的定位标,一个特定字符集合对应一个定位标,且一个特定字符集合中包括至少一个特定字符。
11.根据权利要求10所述的方法,其特征在于,通过YOLO目标检测法识别所述给定图像中的一个或多个特定字符集合。
12.根据权利要求10所述的方法,其特征在于,所述特定字符集合是文字、字母、数字中的一种或多种字符的集合。
13.一种对象识别装置,其特征在于,包括:
定位标确定模块,用于确定给定图像中定位标的位置,所述定位标用于定位所述给定图像中的待识别对象;
图像切分模块,用于根据所述定位标的位置,从所述给定图像中切分出所述待识别对象对应的区域,以得到切片图像;
对象识别模块,用于将所述切片图像输入分类器,以得到所述待识别对象的识别结果。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-12中任一所述的方法。
15.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-12中任一所述的方法。
CN202110334066.4A 2021-03-29 2021-03-29 一种对象识别方法和装置 Pending CN112926683A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110334066.4A CN112926683A (zh) 2021-03-29 2021-03-29 一种对象识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110334066.4A CN112926683A (zh) 2021-03-29 2021-03-29 一种对象识别方法和装置

Publications (1)

Publication Number Publication Date
CN112926683A true CN112926683A (zh) 2021-06-08

Family

ID=76176379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110334066.4A Pending CN112926683A (zh) 2021-03-29 2021-03-29 一种对象识别方法和装置

Country Status (1)

Country Link
CN (1) CN112926683A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679164A (zh) * 2012-09-21 2014-03-26 阿里巴巴集团控股有限公司 一种基于移动终端的标志识别处理方法和系统
CN107067399A (zh) * 2017-02-13 2017-08-18 杭州施强教育科技有限公司 一种试卷图像分割处理方法
CN111582273A (zh) * 2020-05-09 2020-08-25 中国工商银行股份有限公司 图像文本识别方法及装置
CN111598091A (zh) * 2020-05-20 2020-08-28 北京字节跳动网络技术有限公司 图像识别方法、装置、电子设备及计算可读存储介质
CN111680688A (zh) * 2020-06-10 2020-09-18 创新奇智(成都)科技有限公司 字符识别方法及装置、电子设备、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103679164A (zh) * 2012-09-21 2014-03-26 阿里巴巴集团控股有限公司 一种基于移动终端的标志识别处理方法和系统
CN107067399A (zh) * 2017-02-13 2017-08-18 杭州施强教育科技有限公司 一种试卷图像分割处理方法
CN111582273A (zh) * 2020-05-09 2020-08-25 中国工商银行股份有限公司 图像文本识别方法及装置
CN111598091A (zh) * 2020-05-20 2020-08-28 北京字节跳动网络技术有限公司 图像识别方法、装置、电子设备及计算可读存储介质
CN111680688A (zh) * 2020-06-10 2020-09-18 创新奇智(成都)科技有限公司 字符识别方法及装置、电子设备、存储介质

Similar Documents

Publication Publication Date Title
Chen et al. Coverless information hiding method based on the Chinese mathematical expression
CN110688449A (zh) 基于深度学习的地址文本处理方法、装置、设备及介质
US9384389B1 (en) Detecting errors in recognized text
CN109685870B (zh) 信息标注方法及装置、标注设备及存储介质
US20120054601A1 (en) Methods and systems for automated creation, recognition and display of icons
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN1936892A (zh) 图像内容语义标注方法
US20210357710A1 (en) Text recognition method and device, and electronic device
Chiang et al. Automatic and accurate extraction of road intersections from raster maps
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
US11275934B2 (en) Positional embeddings for document processing
US20210240932A1 (en) Data extraction and ordering based on document layout analysis
CN112801099A (zh) 一种图像处理方法、装置、终端设备及介质
CN112418206B (zh) 基于位置检测模型的图片分类方法及其相关设备
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN113177542A (zh) 识别印章文字的方法、装置、设备和计算机可读介质
CN112926683A (zh) 一种对象识别方法和装置
CN112395834B (zh) 基于图片输入的脑图生成方法、装置、设备及存储介质
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN115565177A (zh) 文字识别模型训练、文字识别方法、装置、设备及介质
CN114419613A (zh) 图像样本生成方法、文本识别方法、装置、设备和介质
CN114445833A (zh) 文本识别方法、装置、电子设备和存储介质
CN113486148A (zh) Pdf文件的转换方法、装置、电子设备以及计算机可读介质
CN113283233A (zh) 文本纠错方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination