CN100550038C - 图片内容识别方法及识别系统 - Google Patents

图片内容识别方法及识别系统 Download PDF

Info

Publication number
CN100550038C
CN100550038C CNB2007103042044A CN200710304204A CN100550038C CN 100550038 C CN100550038 C CN 100550038C CN B2007103042044 A CNB2007103042044 A CN B2007103042044A CN 200710304204 A CN200710304204 A CN 200710304204A CN 100550038 C CN100550038 C CN 100550038C
Authority
CN
China
Prior art keywords
image content
primary image
similarity
picture
key parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2007103042044A
Other languages
English (en)
Other versions
CN101196994A (zh
Inventor
王晖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tencent Computer Systems Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CNB2007103042044A priority Critical patent/CN100550038C/zh
Publication of CN101196994A publication Critical patent/CN101196994A/zh
Application granted granted Critical
Publication of CN100550038C publication Critical patent/CN100550038C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种图片内容识别方法和系统。包括:预先在实例库中存储基本图像内容实例及其对应的标注信息。在进行识别时,由拆分模块从待识别的图片中拆分出一个或一个以上基本图像内容;由相似度比较模块将拆分出的基本图像内容与所述实例库中的基本图像内容实例进行比较,得到对应的相似度;由结果输出模块确定与所述每一基本图像内容相似度最高的基本图像内容实例,并将所述基本图像内容实例对应的标注信息作为图片内容识别结果输出。利用本发明,可以降低计算机的计算开销和对系统资源的占用,并可以扩大可识别的内容种类。

Description

图片内容识别方法及识别系统
技术领域
本发明涉及计算机信息处理技术,尤其涉及一种对计算机图片内容进行自动识别的识别系统及识别方法。
背景技术
目前的计算机互联网身份验证控制系统中,往往采用图片验证码技术来实现客户身份验证和使用频率控制。图1为一种通过图片验证码实现身份验证登录的界面示意图。参见图1,用户不但需要输入正确的帐号101和密码102,而且还需从所述验证码图片100中正确读出验证码字符103,并输入到系统,才能通过验证并登录到系统。
在对验证码系统的测试过程中,为了评估验证码系统的风险,需要一种自动从验证码图片中识别出验证码信息并输入到系统中的测试系统,以自动模拟真实用户的输入行为,并根据验证码系统的反应对整个验证码系统进行风险评估。在这种测试系统中,首先需要计算机自动对验证码图片中的内容进行识别分析,识别出其中的验证码字符,然后再进行后续处理。
目前的验证码图片内容识别技术一般是采用内容识别提取技术,例如文字识别(OCR)方式。其主要方案是包括一个图片内容识别单元,采用人工智能算法实现,如手机中常见的手写识别系统需要对每种文字的写法进行学习训练,根据大规模的训练集得到可应用的识别模型,在识别时需要利用人工智能算法根据区别出每个文字的笔划、笔顺、连笔写法等特征,给出候选集合,人工挑选后得到识别字输出,整个处理过程需要进行大量复杂的计算。另外,对于验证码图片中具有波浪线、噪点等干扰信息时,还需要包括一个辅助的噪声干扰消除单元,用于去除波浪线、噪点等干扰信息,经过噪声干扰消除处理后的图片内容比较干净,图片内容识别单元较容易识别出正确的文字信息。
但是,目前的这种内容识别提取技术有以下缺点:
1)所述图片内容识别单元需要综合多种统计算法和人工智能算法来实现,计算处理过程复杂,计算量非常巨大,需要耗费大量的计算机CPU运算开销和系统资源。
2)只能从图片中识别出特定的文字,对于图像信息的识别存在较大的难度。例如,如果图片中还包括某些特定的图案,例如包括一只羊的图案,则对应的验证码输入可能是“羊”这个字,对于这种情况,现有的识别技术是无法进行识别的。
发明内容
有鉴于此,本发明所要解决的技术问题在于提供一种图片内容识别方法,以降低计算机的计算开销和对系统资源的占用,并可以扩大可识别的内容种类。
本发明所要解决的另一技术问题在于提供一种图片内容识别系统,以降低计算机的计算开销和对系统资源的占用,并可以扩大可识别的内容种类。
为了实现上述发明目的,本发明的主要技术方案为:
一种图片内容识别方法,该方法预先存储基本图像内容实例及其对应的标注信息;
在进行识别时,包括:
A、从待识别的验证码图片中拆分出一个或一个以上基本图像内容;
B、提取拆分出的基本图像内容和所述实例库中的基本图像内容实例的关键参数,比较确定双方关键参数的相似指数,根据所述关键参数的相似指数确定所述基本图像内容及其对比的基本图像内容实例之间的相似度;所述关键参数至少包括以下任一参数或任意参数的组合:原始图片大小、原始色彩矩阵或灰度矩阵、经变换的色彩矩阵或灰度矩阵、图片明度分布信息、图片特殊效果统计参数、以及原始图片格式和内嵌信息;
C、确定与所述每一基本图像内容相似度最高的基本图像内容实例,并将所述基本图像内容实例对应的标注信息作为图片内容识别结果输出。
优选的,所述存储基本图像内容实例及其对应的标注信息的具体方法为:
对实例图片进行拆分,从中拆分出一个或一个以上基本图像内容实例并分别存储;
为所述每一个基本图像内容实例标注对应的标注信息并存储。
优选的,所述实例图片为验证码系统中的验证码实例图片。
优选的,步骤B中所述提取关键参数之前进一步包括:对所述基本图像内容和/或其对比的基本图像内容实例进行归一化处理,统一双方的格式指标。
优选的,步骤B中所述提取的关键参数为一个;步骤B中所述根据关键参数的相似指数确定相似度具体为:将该关键参数的相似指数作为所述基本图像内容及其对比的基本图像内容实例之间的相似度。
优选的,步骤B中所述提取的关键参数为一个以上;步骤B中所述根据关键参数的相似指数确定相似度具体为:对所述基本图像内容及其对比的基本图像内容实例之间的所有关键参数的相似指数进行加权计算,将计算结果作为双方最终的相似度。
优选的,该方法进一步统计所述实例库中的基本图像内容实例的出现概率;并在步骤B得到所述每一基本图像内容与其对比基本图像内容实例的相似度之后,进一步根据每一对比基本图像内容实例的出现概率对相关的相似度进行加权计算,将加权计算后的相似度作为步骤C的确定依据。
一种图片内容识别系统,包括:
实例库,用于存储基本图像内容实例及其对应的标注信息;
第一拆分模块,用于从待识别的验证码图片中拆分出一个或一个以上基本图像内容;
相似度比较模块包括关键参数相似指数确定模块和相似度确定模块,其中,关键参数相似指数确定模块用于针对第一拆分模块拆分出的基本图像内容及其对比的所述实例库中的基本图像内容实例,提取双方的关键参数,比较确定所述关键参数的相似指数;相似度确定模块用于根据所述关键参数的相似指数确定所述基本图像内容及其对比的基本图像内容实例之间的相似度;所述关键参数至少包括以下任一参数或任意参数的组合:原始图片大小、原始色彩矩阵或灰度矩阵、经变换的色彩矩阵或灰度矩阵、图片明度分布信息、图片特殊效果统计参数、以及原始图片格式和内嵌信息;
结果输出模块,用于根据所述图片相似度比较模块的比较结果,选择与所述每一基本图像内容相似度最高的基本图像内容实例,并将所述基本图像内容实例对应的标注信息作为图片内容识别结果输出。
优选的,所述系统进一步包括:
第二拆分模块,用于从实例图片中拆分出一个或一个以上基本图像内容实例,并将所述基本图像实例存入所述实例库中;
标注模块,用于提供标注接口,通过标注接口接收用户输入的针对每一基本图像内容实例的标注信息,将所述基本图像内容对应的标注信息存入所述实例库中。
优选的,所述相似度比较模块进一步包括:归一化模块,用于将所述第一拆分模块拆分的基本图像内容归一化为与所述实例库中的实例格式指标相一致的基本图像内容。
优选的,所述的关键参数相似指数确定模块包括以下任一种模块或任意种模块的组合:
用于确定原始图片大小相似指数的确定模块;
用于确定原始色彩矩阵或灰度矩阵相似指数的确定模块;
用于确定经变换的色彩矩阵或灰度矩阵相似指数的确定模块;
用于确定图片明度相似指数的确定模块;
用于确定图片特殊效果相似指数的确定模块;
用于确定原始图片格式和内嵌信息相似指数的确定模块。
相对于现有技术,本发明采用基于图片实例的相似度比较方式来识别图片内容,不需要利用人工智能算法进行内容提取计算,具有应用简单、更新简单、运算复杂度低的特点,可以降低计算机CPU的计算开销,并减少对计算机系统资源的占用。同时,本发明由于收集存储的是基本图像内容及其标注信息,所述基本图像内容可以是文字内容,也可以是图形内容,输出的是基本图像内容实例的标注信息,因此既可以识别出图片中的文字内容,又可以识别出图片中的图形内容,可以扩大可识别的内容种类。
本发明应用到验证码图片的识别时,可以预先收集验证码图片实例,拆分成基本图像内容实例并进行标注,组成一个验证码图片的实例库,由于图片验证码系统一般都使用有限个数的文字集,如字母组合、数字组合、汉字组合等组成验证码图片,因此本发明可以较容易地收集到一个经常出现的文字等基本图像内容实例的集合,从而很容易搭建出针对某一个图片验证码系统的识别环境,并在图片验证码系统进行验证码更新后可以很容易地完成对应的实例库的更新,整个识别系统的维护所需的人工和计算机资源开销均较小,不需要专业人员操作。
附图说明
图1为一种通过图片验证码实现身份验证登录的界面示意图;
图2为本发明所述在实例库中收集存储基本图形内容实例及其对应标注信息的流程图;
图3为本发明所述将一个验证码实例图片拆分成多个基本图像内容实例的示意图;
图4为本发明所述对图片内容进行识别的一种具体实施例的流程图;
图5为本发明所述图片内容识别系统的一种主要结构示意图;
图6为本发明所述图片内容识别系统中包括实例收集子系统的一种结构示意图;
图7为本发明所述相似度比较模块的结构示意图。
具体实施方式
下面通过具体实施例和附图对本发明做进一步详细说明。
以下实施例以本发明所述的图片内容识别系统应用到验证码图片识别中为例进行说明。
本发明所述的方法需要预先设置实例库,其中预先收集存储基本图像内容实例及其对应的标注信息。图2为本发明所述在实例库中收集存储基本图形内容实例及其对应标注信息的流程图。参见图2,该流程具体包括:
步骤200、输入待处理的实例图片集合。所述待处理的图片集合为验证码生成系统产生的各种验证码实例图片。
步骤201、对所述验证码实例图片进行拆分,根据文字和图形的最小内容元素将实例图片拆分成一个或一个以上基本图像内容实例。例如,图3为将一个验证码实例图片拆分成多个基本图像内容实例的示意图。参见图3,所述验证码实例图片300中包括“K”“Z”“X”“N”四个字母,经过拆分后,得到如图所述的四个基本图像内容实例301、302、303、304。将所述拆分出的基本图像内容实例存储实例库中。
本步骤所述的拆分过程可以利用常用的边界识别方法实现,例如所述具体的拆分方法可以是:按图片的像素数定长对图片进行拆分,例如每隔20×30像素为一个基本图像内容实例;或者按照完全、部分连续背景色的方法进行分割,例如存在条状的连续背景色时,则按照竖向分割的字与字的间隙进行拆分。
步骤202、将步骤201所得到的基本图像内容实例进行标注,其中对所有同类的基本图形内容实例标注相同的标注信息,并将标注信息对应存入实例库中。例如,将类似于所述基本图形内容实例301的所有含有“K”字的变形图片均标注为字符“K”;将类似于所述基本图像内容实例304的所有含有“N”字的变形图片均标注为字符“N”。除了对含有字符内容的基本图像内容实例进行标注,本发明还可以对含有图形的基本图像内容实例进行标注,例如某一个基本图像内容实例中为一只羊的图形,则可以对应标注为“羊”这个字符。此步骤202需人工辅助实现。
步骤203、判断是否处理完成所述待处理图片集合中的所有图片,如果是,则结束本流程;否则返回步骤201继续处理。
通过图2所述的步骤,可以在实例库中收集存储一系列的验证码实例图片所分解的基本图像内容实例及其标注信息的集合,所有类似于这些验证码实例图片的待识别图片,利用本发明都可以进行识别。
图4为本发明所述对图片内容进行识别的一种具体实施例的流程图。本实施例中,所述待识别的图片是一张验证码系统生成的验证码图片,该流程具体包括:
步骤400、输入待识别的验证码图片。
步骤401、对待识别的验证码图片进行拆分,根据文字和图形的最小内容元素将实例图片拆分成一个或一个以上基本图像内容。具体的拆分方法可以参见步骤201。
步骤402、针对每一个拆分出的基本图像内容,与所述实例库中的每一个基本图像内容实例进行比较,得到该基本图像内容和所述实例库中每一个基本图像内容实例间的相似度。
步骤403、确定与所述每一基本图像内容相似度最高的基本图像内容实例,从所述实例库中读取所述每一个基本图像内容实例对应的标注信息,将所述标注信息作为图片内容识别结果输出。
如果所述待识别的验证码图片拆分成一个以上基本图像内容,则需要按照所述基本图像内容在原验证码图片中的顺序输出所述对应的标注信息。
在所述步骤402中,确定一个基本图像内容及其对比的基本图像内容实例之间相似度的具体方法实质上是采用图片相似程度比较技术,此处用相似指数来表示相似程度,即使用[0,1]区间的小数来表示相似程度。对于所述的两个给定的图片,即一个基本图像内容(即拆分出的一张包含基本内容的图片)及其对比的基本图像内容实例(即一张包含基本内容的实例图片),相似度的比较过程包括如下步骤421至步骤423:
步骤421、将所述基本图像内容和/或其对比的基本图像内容实例进行归一化处理,统一对比双方的格式指标。即对双方的图片大小、色彩分布等指标进行变换,得到技术指标统一的图片作为待处理图片。例如,指定统一的图片尺寸为12×12像素,采用256级灰度图表示,完成双方的水平和纵向矫正等归一化处理。如果双方的格式指标已经统一,则跳过本步骤421。
步骤422、提取所述基本图像内容及其对比基本图像内容实例的关键参数,逐一得到双方关键参数的相似指数。
步骤423、根据所述对比双方关键参数的相似指数确定所述对比双方之间的相似度。此处,如果所述对比的关键参数只有一个,则将该关键参数的相似指数作为所述基本图像内容及其对比的基本图像内容实例之间的相似度。如果所述对比的关键参数为一个以上,则需要对所述基本图像内容及其对比的基本图像内容实例之间的所有关键参数的相似指数进行加权计算,将计算结果作为双方最终的相似度。
所述的关键参数为用于计算相似度的关键比较参数,至少包括下列关键参数之一或以下任意种关键参数的组合:
a)原始图片大小;b)原始色彩矩阵,如果采用灰度图片,则为灰度矩阵;c)经变换的色彩矩阵或灰度矩阵,其中可以丢弃掉一些琐碎信息,例如采用小波变换等算法或图形压缩算法等算法对色彩矩阵或灰度矩阵进行变换处理;d)图片明度分布信息;e)图片特殊效果统计参数,例如为突出前景文字,背景色往往采用和前景文字有明显区别的色彩,否则人眼较难识别出真正的文字信息,则可以对有明显冲突的颜色做分布统计,将统计结果作为关键参数;f)原始图片格式和图片中的内嵌信息(meta-data)。
对于上述每种关键参数,采用现有成熟的比较算法即可确定所述对比双方的该种关键参数的相似指数,具体可以为:
对于对比双方的原始图片大小,其相似指数的具体确定方法可以为:
(a)原始图片大小比较由长、宽比较两部分组成,假设2个待比较图片p1、p2的长宽分别是X1、Y1和X2、Y2,则一个常用的大小相似指数计算方法如下:
SIM(p1,p2)=W1*(X1+X2)/(2*max(X1,X2))+W2*(Y1-Y2)/(2*max(Y1,Y2))。
其中W1、W2为长、宽加权指数,一般都设为0.5。
(b)对于对比双方的原始色彩矩阵或灰度矩阵,此处以256级灰度矩阵为例说明其相似指数的算法。假设2个待比较的灰度矩阵均为由20×30大小的对应图像统计得来,则可以看作一个有20×30见方的点阵组成的灰度图块,每一个点的灰度值有256级变化。则相似指数的获得可以采用如下常用办法:依次比较2个矩阵对应位置的灰度级别值,若灰度级别值的差异度小于某一个指定阈值(如200,205之间的差值为5),则对应位置的相似计数记为1,遍历完全后,统计相似计数可得到相似指数。
(c)对于对比双方的经过变换的色彩、灰度矩阵,变换的目的是减少矩阵的尺寸,如直接比较100000×10000000大小的矩阵,计算开销显然较高。此处首先采用图像处理和人工智能等算法,将一些琐碎信息丢弃,则可以得到信息损失相对较小的矩阵,如采用小波变换算法或其他图像压缩算法变换后得到大小为256×256的矩阵。变换后的相似度计算方法与上述(b)的方法相同。
(d)对于对比双方的图片的明度分布信息,可以将明度分布信息存储于矩阵中,可以采用类似色彩矩阵的计算方法获得相似指数。
(e)对于对比双方的特殊效果统计参数,一般用来辅助比较,非一定必要的比较参数。这里以冲突色彩计数来举例。所谓色彩冲突,是指肉眼观察时,色彩表现有显著冲突的邻近像素的色彩对计数,如红蓝色相邻放在一起较容易区分开,粉红和红色相邻放置则不容易区分。根据事先定义好的冲突色彩对统计集合,分别扫描2个图像,可以获得对应的计数,由此可以获得对应的相似指数。
(f)对于对比双方的原始图片格式,就是将相同类型的图片格式视为一致,相似指数为1;不同类型的图片格式视为不相似,相似指数为0,例如bmp格式和jpg格式为不相似。图片的内嵌信息是图片的可选内容,如jpg类型的内嵌信息(meta-data)包括:该图片的处理软件名称和版本信息;生成日期;图片版权信息;光圈、快门等相机参数资料;色彩空间参数等等。对于内嵌信息,可以采用对比上述内嵌信息是否一致,并将一致性的概率作为内嵌信息相似指数。
以下通过具体的计算公式说明所述相似度的计算过程:
SIM(P1,P2)=W1×S1+W2×S2+W3×S3+...+Wn×Sn
上述公式中,所述P1为从待识别图片中拆分出的一个基本图像内容图片,P2为实例库中的一个基本图像内容实例图片,SIM(P1,P2)为P1的P2之间的相似度,S1、S2、......、Sn为不同的关键参数的相似指数,W1、W2、......、Wn为每个关键参数对应的加权指数,可以采用小数或整数,视具体系统实现而定。
假设现使用三种关键数据,并设定W1=W2=W3=1/3,S1代表原始图像大小相似程度,S2代表基于色彩矩阵计算出的色彩分布相似程度,S3代表有明显视觉冲突色彩的计数。其中,每个相似指数的计算可以采用任何图像处理领域中的算法,唯一的要求是计算速度要能达到实时性应用的最低要求,例如在若干ms内完成。例如,此时得到S1=0.9,S2=0.8,S3=0.9,则最终SIM(P1,P2)=1/3*0.9+1/3*0.8+1/3*0.9=0.86为2个图片的最终相似度。
通过上述相似度的比较方法,可以对所述待比较的基本图像内容和所述实例库中的所有实例图片进行比较得出相应的相似度,按照相似度的高低对所述实例图片对应的标注信息进行排序,取其中相似度最高的实例图片对应的标注信息作为所述基本图像内容对应的识别内容。如果上述P2为实例库中与所述P1最相似的实例图片,其标识为字母A,则可以得到P1为字母A的概率是86%,其他拆分部分的识别以此类推。
下面给出一个上述识别方法的实际应用举例,对于一个有5个文字(即5个基本图像内容)的验证码图片,通过拆分得到5个待比较图片,对这5个图片逐一和实例库中的基本图像内容实例图片比较,可获得5列按照相似度排列的标注信息队列,每个标注信息队列分别按照相似程度从高到底的顺序排列,并按照某一相似阈值截断或简单取前十个作为待处理集合,一般选择5列标注信息队列中相似度最高的标注信息作为最终的识别结果。更进一步的,本发明还可以统计所应用验证码系统的具体验证码的出现概率,并存储该出现概率,在得出所述5列标注信息队列后,还可以根据具体验证码的出现概率对每个标注信息对应的相似度分别做加权计算,再按照经过加权计算后的相似度对所述5个标注信息队列重新排列,取出所述每一标注队列中的相似度最高的标注信息作为最终识别结果。
图5为本发明所述图片内容识别系统的一种主要结构示意图。参见图5,该图片内容识别系统包括:
实例库501,用于存储基本图像内容实例及其对应的标注信息。
第一拆分模块502,用于从待识别图片中拆分出一个或一个以上基本图像内容。
相似度比较模块503,用于将第一拆分模块502拆分出的基本图像内容和所述实例库501中的基本图像内容实例进行比较,得到对应的相似度。
结果输出模块504,用于根据所述图片相似度比较模块503的比较结果,选择与所述每一基本图像内容相似度最高的基本图像内容实例,并将所述基本图像内容实例对应的标注信息作为图片内容识别结果输出。
为了方便从实例图片中收集存储基本图像内容实例,参见图6,所述系统的一种实施例中还进一步包括实例收集子系统,该实例收集子系统具体包括第二拆分模块505和标注模块506。
所述第二拆分模块505用于从实例图片中拆分出一个或一个以上基本图像内容实例,并将所述基本图像实例存入所述实例库501中。
所述标注模块506用于提供标注接口,通过标注接口接收用户输入的针对每一基本图像内容实例的标注信息,将所述基本图像内容对应的标注信息存入所述实例库501中。
图7为所述相似度比较模块的结构示意图。参见图7,相似度比较模块503对待对比的基本图像内容和基本图像内容实例进行相似度分析计算,具体包括:
归一化模块701,用于将所述第一拆分模块502拆分的基本图像内容归一化为与所述实例库501中的实例格式指标相一致的基本图像内容。如果所述基本图像内容和其对比的基本图像内容实例的格式指标已经统一,则可以将本归一化模块701省略。
关键参数相似指数确定模块702,用于针对一个基本图像内容及其对比的基本图像内容实例,提取双方的关键参数,比较确定所述关键参数的相似指数。
相似度确定模块703,用于根据所述关键参数的相似指数确定所述基本图像内容及其对比的基本图像内容实例之间的相似度。如果所述对比的关键参数只有一个,则将该关键参数的相似指数作为所述基本图像内容及其对比的基本图像内容实例之间的相似度输出。如果所述对比的关键参数为一个以上,则需要对所述基本图像内容及其对比的基本图像内容实例之间的所有关键参数的相似指数进行加权计算,将计算结果作为双方最终的相似度输出。
所述的关键参数为用于计算相似度的关键比较参数,与上述识别方法对应,所述的关键参数相似指数确定模块可以包括以下任一种模块或任意种模块的组合:
用于确定原始图片大小相似指数的确定模块;
用于确定原始色彩矩阵或灰度矩阵相似指数的确定模块;
用于确定经变换的色彩矩阵或灰度矩阵相似指数的确定模块;
用于确定图片明度相似指数的确定模块;
用于确定图片特殊效果相似指数的确定模块;
用于确定原始图片格式和内嵌信息相似指数的确定模块。
当然,所述相似度确定模块703还可以采用其它关键参数确定对比图片之间的相似度,对此本发明并不作限定。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (11)

1、一种图片内容识别方法,其特征在于,该方法预先存储基本图像内容实例及其对应的标注信息;
在进行识别时,包括:
A、从待识别的验证码图片中拆分出一个或一个以上基本图像内容;
B、提取拆分出的基本图像内容和所述实例库中的基本图像内容实例的关键参数,比较确定双方关键参数的相似指数,根据所述关键参数的相似指数确定所述基本图像内容及其对比的基本图像内容实例之间的相似度;所述关键参数至少包括以下任一参数或任意参数的组合:原始图片大小、原始色彩矩阵或灰度矩阵、经变换的色彩矩阵或灰度矩阵、图片明度分布信息、图片特殊效果统计参数、以及原始图片格式和内嵌信息;
C、确定与所述每一基本图像内容相似度最高的基本图像内容实例,并将所述基本图像内容实例对应的标注信息作为图片内容识别结果输出。
2、根据权利要求1所述的图片内容识别方法,其特征在于,所述存储基本图像内容实例及其对应的标注信息的具体方法为:
对实例图片进行拆分,从中拆分出一个或一个以上基本图像内容实例并分别存储;
为所述每一个基本图像内容实例标注对应的标注信息并存储。
3、根据权利要求2所述的图片内容识别方法,其特征在于,所述实例图片为验证码系统中的验证码实例图片。
4、根据权利要求1所述的图片内容识别方法,其特征在于,步骤B中所述提取关键参数之前进一步包括:对所述基本图像内容和/或其对比的基本图像内容实例进行归一化处理,统一双方的格式指标。
5、根据权利要求1所述的图片内容识别方法,其特征在于,步骤B中所述提取的关键参数为一个;步骤B中所述根据关键参数的相似指数确定相似度具体为:将该关键参数的相似指数作为所述基本图像内容及其对比的基本图像内容实例之间的相似度。
6、根据权利要求1所述的图片内容识别方法,其特征在于,步骤B中所述提取的关键参数为一个以上;步骤B中所述根据关键参数的相似指数确定相似度具体为:对所述基本图像内容及其对比的基本图像内容实例之间的所有关键参数的相似指数进行加权计算,将计算结果作为双方最终的相似度。
7、根据权利要求1所述的图片内容识别方法,其特征在于,该方法进一步统计所述实例库中的基本图像内容实例的出现概率;并在步骤B得到所述每一基本图像内容与其对比基本图像内容实例的相似度之后,进一步根据每一对比基本图像内容实例的出现概率对相关的相似度进行加权计算,将加权计算后的相似度作为步骤C的确定依据。
8、一种图片内容识别系统,其特征在于,包括:
实例库,用于存储基本图像内容实例及其对应的标注信息;
第一拆分模块,用于从待识别的验证码图片中拆分出一个或一个以上基本图像内容;
相似度比较模块包括关键参数相似指数确定模块和相似度确定模块,其中,关键参数相似指数确定模块用于针对第一拆分模块拆分出的基本图像内容及其对比的所述实例库中的基本图像内容实例,提取双方的关键参数,比较确定所述关键参数的相似指数;相似度确定模块用于根据所述关键参数的相似指数确定所述基本图像内容及其对比的基本图像内容实例之间的相似度;所述关键参数至少包括以下任一参数或任意参数的组合:原始图片大小、原始色彩矩阵或灰度矩阵、经变换的色彩矩阵或灰度矩阵、图片明度分布信息、图片特殊效果统计参数、以及原始图片格式和内嵌信息;
结果输出模块,用于根据所述图片相似度比较模块的比较结果,选择与所述每一基本图像内容相似度最高的基本图像内容实例,并将所述基本图像内容实例对应的标注信息作为图片内容识别结果输出。
9、根据权利要求8所述的图片内容识别系统,其特征在于,所述系统进一步包括:
第二拆分模块,用于从实例图片中拆分出一个或一个以上基本图像内容实例,并将所述基本图像实例存入所述实例库中;
标注模块,用于提供标注接口,通过标注接口接收用户输入的针对每一基本图像内容实例的标注信息,将所述基本图像内容对应的标注信息存入所述实例库中。
10、根据权利要求8所述的图片内容识别系统,其特征在于,所述相似度比较模块进一步包括:归一化模块,用于将所述第一拆分模块拆分的基本图像内容归一化为与所述实例库中的实例格式指标相一致的基本图像内容。
11、根据权利要求8所述的图片内容识别系统,其特征在于,所述的关键参数相似指数确定模块包括以下任一种模块或任意种模块的组合:
用于确定原始图片大小相似指数的确定模块;
用于确定原始色彩矩阵或灰度矩阵相似指数的确定模块;
用于确定经变换的色彩矩阵或灰度矩阵相似指数的确定模块;
用于确定图片明度相似指数的确定模块;
用于确定图片特殊效果相似指数的确定模块;
用于确定原始图片格式和内嵌信息相似指数的确定模块。
CNB2007103042044A 2007-12-26 2007-12-26 图片内容识别方法及识别系统 Active CN100550038C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007103042044A CN100550038C (zh) 2007-12-26 2007-12-26 图片内容识别方法及识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007103042044A CN100550038C (zh) 2007-12-26 2007-12-26 图片内容识别方法及识别系统

Publications (2)

Publication Number Publication Date
CN101196994A CN101196994A (zh) 2008-06-11
CN100550038C true CN100550038C (zh) 2009-10-14

Family

ID=39547386

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007103042044A Active CN100550038C (zh) 2007-12-26 2007-12-26 图片内容识别方法及识别系统

Country Status (1)

Country Link
CN (1) CN100550038C (zh)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635763A (zh) * 2008-07-23 2010-01-27 深圳富泰宏精密工业有限公司 图片分类系统及方法
CN101859368B (zh) * 2009-04-09 2013-12-04 普诚科技股份有限公司 影像辨别装置及其方法
CN102467653A (zh) * 2010-10-29 2012-05-23 方正国际软件(北京)有限公司 一种图文识别方法及系统
CN102890761B (zh) * 2011-08-24 2015-06-10 北京文海思创科技有限公司 一种通过图形验证码验证的方法
CN103186781A (zh) * 2011-12-31 2013-07-03 北京新媒传信科技有限公司 文本识别方法
CN103258280A (zh) * 2012-02-17 2013-08-21 盛趣信息技术(上海)有限公司 价格比较方法及系统
JP5817639B2 (ja) * 2012-05-15 2015-11-18 ソニー株式会社 映像フォーマット判別装置及び映像フォーマット判別方法、並びに映像表示装置
CN103426191B (zh) * 2012-05-26 2016-04-27 百度在线网络技术(北京)有限公司 一种图片标注方法及系统
CN102867025A (zh) * 2012-08-23 2013-01-09 百度在线网络技术(北京)有限公司 一种获取图片标注数据的方法和装置
CN104252446A (zh) * 2013-06-27 2014-12-31 鸿富锦精密工业(深圳)有限公司 计算装置、文件内容一致性验证系统及方法
CN104462152B (zh) * 2013-09-23 2019-04-09 深圳市腾讯计算机系统有限公司 一种网页的识别方法及装置
CN104834839B (zh) 2014-02-11 2019-08-23 阿里巴巴集团控股有限公司 一种条码生成方法、基于条码的鉴权方法及相关终端
CN103914996B (zh) * 2014-04-24 2016-11-23 广东小天才科技有限公司 一种从图片获取文字学习资料的方法和装置
CN105094760B (zh) * 2014-04-28 2019-10-29 小米科技有限责任公司 一种图片标记方法及装置
CN105138867A (zh) * 2014-06-09 2015-12-09 北大方正集团有限公司 图片版权保护的方法和设备
CN105225103B (zh) * 2014-07-02 2020-05-22 中国银联股份有限公司 继续支付系统和方法
CN104200204B (zh) * 2014-09-02 2017-10-03 福建富士通信息软件有限公司 一种图片处理装置及方法
CN105809096A (zh) * 2014-12-31 2016-07-27 中兴通讯股份有限公司 人物标注方法和终端
CN105046140A (zh) * 2015-06-09 2015-11-11 苏州德锐朗智能科技有限公司 一种用于字符验证码的自动输入方法
CN105160236B (zh) * 2015-08-31 2018-04-06 小米科技有限责任公司 一种输入验证码的方法和装置
CN106529380B (zh) * 2015-09-15 2019-12-10 阿里巴巴集团控股有限公司 图像的识别方法及装置
CN106845323B (zh) * 2015-12-03 2020-04-28 阿里巴巴集团控股有限公司 一种打标数据的收集方法、装置以及证件识别系统
CN106155994B (zh) * 2016-06-30 2019-04-26 广东小天才科技有限公司 一种页面内容的比较方法及装置、终端设备
CN106203435A (zh) * 2016-07-13 2016-12-07 广州安望信息科技有限公司 图文识别方法及其装置
CN110019898A (zh) * 2017-08-08 2019-07-16 航天信息股份有限公司 一种动漫图像处理系统
CN107958264A (zh) * 2017-11-20 2018-04-24 奕响(大连)科技有限公司 一种图片相似判定方法
CN108052944A (zh) * 2017-12-27 2018-05-18 深圳市大熊动漫文化有限公司 一种图像识别方法和装置
CN110414645B (zh) * 2018-04-28 2023-05-30 深圳果力智能科技有限公司 一种基于元素匹配的图案识别方法
CN108734556A (zh) * 2018-05-18 2018-11-02 广州优视网络科技有限公司 推荐应用的方法及装置
US10817596B2 (en) * 2018-06-13 2020-10-27 Nanning Fugui Precision Industrial Co., Ltd. Image based authentication code method, server, and authentication code system
CN109376746A (zh) * 2018-10-25 2019-02-22 黄子骞 一种图片识别方法及系统
CN110796715B (zh) * 2019-08-26 2023-11-24 腾讯科技(深圳)有限公司 电子地图标注方法、装置、服务器及存储介质
CN110780789B (zh) * 2019-10-25 2023-01-06 腾讯科技(深圳)有限公司 游戏应用启动方法和装置、存储介质及电子装置
CN111259366B (zh) * 2020-01-22 2021-06-18 支付宝(杭州)信息技术有限公司 一种基于自监督学习的验证码识别器的训练方法和装置
CN114996785A (zh) * 2022-06-13 2022-09-02 华侨大学 一种石板排版的智能选材方法及石板的排版方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6744935B2 (en) * 2000-11-02 2004-06-01 Korea Telecom Content-based image retrieval apparatus and method via relevance feedback by using fuzzy integral
CN101034442A (zh) * 2006-03-08 2007-09-12 刘欣融 基于图像识别技术的商品的外观设计相同和相近似判断系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6744935B2 (en) * 2000-11-02 2004-06-01 Korea Telecom Content-based image retrieval apparatus and method via relevance feedback by using fuzzy integral
CN101034442A (zh) * 2006-03-08 2007-09-12 刘欣融 基于图像识别技术的商品的外观设计相同和相近似判断系统

Also Published As

Publication number Publication date
CN101196994A (zh) 2008-06-11

Similar Documents

Publication Publication Date Title
CN100550038C (zh) 图片内容识别方法及识别系统
CN110363252B (zh) 趋向于端到端的场景文字检测与识别方法以及系统
CN103955660B (zh) 一种批量二维码图像识别方法
CN113283446B (zh) 图像中目标物识别方法、装置、电子设备及存储介质
CN106845513B (zh) 基于条件随机森林的人手检测器及方法
CN104809481A (zh) 一种基于自适应色彩聚类的自然场景文本检测的方法
CN111552966A (zh) 一种基于信息融合的恶意软件同源性检测方法
CN109086772A (zh) 一种扭曲粘连字符图片验证码的识别方法及系统
CN112215236B (zh) 文本识别方法、装置、电子设备及存储介质
CN112926379A (zh) 一种构建人脸识别模型的方法及装置
CN110399760A (zh) 一种批量二维码定位方法、装置、电子设备及存储介质
CN111105443A (zh) 一种基于特征关联的视频群体人物运动轨迹跟踪方法
CN111680669A (zh) 一种试题分割方法、系统及可读存储介质
CN103886319A (zh) 一种基于机器视觉的举牌智能识别方法
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN115690635A (zh) 视频的处理方法、装置、计算机存储介质及智能交互平板
CN111079749B (zh) 一种带姿态校正的端到端商品价签文字识别方法和系统
Bains et al. Dynamic features based stroke recognition system for signboard images of Gurmukhi text
CN110766010A (zh) 一种信息识别方法、模型训练方法和相关装置
CN108334602B (zh) 数据标注方法和装置、电子设备、计算机存储介质
CN115601768A (zh) 书写文字的判断方法、装置、设备及存储介质
CN111626313A (zh) 一种特征提取模型训练方法、图像处理方法及装置
CN115439850A (zh) 基于审单的图文字符识别方法、装置、设备及存储介质
CN110414471B (zh) 基于双模型的视频识别方法及系统
CN109871910B (zh) 一种手写字符识别方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20151223

Address after: The South Road in Guangdong province Shenzhen city Fiyta building 518057 floor 5-10 Nanshan District high tech Zone

Patentee after: Shenzhen Tencent Computer System Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.