发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基于外观设计专利的多模态图像检索方法。
为了实现上述发明目的,本发明采用的技术方案如下:
一种基于外观设计专利的多模态图像检索方法,包括以下步骤:
步骤1):提出图像有效内容提取算法IECE(ImageEffectiveContentExtractionAlgorithm)提取图像有效内容,并根据图像直方图范围动态选择对图像进行灰度拉伸预处理操作;
其中,所述图像有效内容是指属于图像信息且在专利审查中对比的图像内容;
步骤2):提取图像文本特征;
步骤3):提取图像快速局部方向模式视觉特征FLDP(FastLocalDirectionalPattern);
步骤4):将图像文本特征与视觉特征融合,对图像进行多模态检索。
进一步地,所述步骤1)具体为:
步骤A:初步确定图像无关内容范围;
其中,所述图像无关内容是指属于图像信息但在专利审查中忽略的图像内容;
步骤B:利用基于一阶微分法判断有效边界;
其中,所述有效边界指有效内容与无关内容邻接处属于图像有效内容对应的行或列所在区域,具有唯一性和不变性;
步骤C:利用回溯确定有效边界。
进一步地,所述步骤A具体为:
步骤A1:在列方向判断图像有效内容,如公式(1)和公式(2)所示;
num=num+1,if(abs(pi,j-pi+1,j)≤threshold_rate)(1)
其中,num为统计的每列相邻像素值差值大于阈值的像素点数目,初始值为0,i取值范围为[0,Hmax];threshold_rate为差值阈值;
步骤A2:在行方向判断图像有效内容,如公式(3)和公式(4)所示;
num=num+1,abs(pi,j-pi,j+1)>threshold_rate(3)
其中,num为统计的每列相邻像素值差值大于阈值的像素点数目,初始值为0,i取值范围为[0,Wmax];threshold_rate为差值阈值。
进一步地,所述步骤B具体如公式(5)和公式(6)所示:
其中,Gx和Gy求取方式如公式(7)和公式(8)所示:
Gx=|f(x+1,y)-f(x,y)|(7)
Gy=|f(x,y+1)-f(x,y)|(8)
进一步地,所述步骤C具体为:
步骤C1:根据方向设置滑动窗口:垂直方向滑动窗口应设置为height*2大小,水平方向滑动窗口大小应为2*width;
步骤C2:初始化滑动窗口;
步骤C3:判断外边缘是否为有效边界,如果是则转向步骤C5,否则转向步骤C4;
步骤C4:根据方向以1个像素点为步长向外移动滑动窗口;
步骤C5:结束回溯。
进一步地,所述步骤1)中所述的根据图像直方图范围动态选择对图像进行灰度拉伸预处理操作具体如公式(9)所示:
其中,Rmin与Rmax分别为整幅图像灰度值中的最小值与最大值,若Rmin与Rmax之间宽度小于设定阈值,则对图像进行灰度拉伸预处理。
进一步地,所述步骤2)具体为:
步骤A:提取外观设计专利摘要信息中的类别信息;其中,所述类别信息指外观设计产品的名称信息;
步骤B:利用哈工大版《同义词词林》对提取的类别信息进行扩展。
进一步地,所述步骤3)具体为:
步骤A:计算方向边缘响应:将图像分别按Kirsch边缘模板进行卷积运算,进而得到8个边缘响应矩阵M0,M1,......,M7;其中,将正的边缘响应编码设为1,负的边缘响应编码设为0;
步骤B:构造编码图像:对于图像中每一像素点,构造其对应的8位FLDP描述子,获取8位二进制串,并将其转换为十进制值,且该值为编码图像的灰度值;
步骤C:提取图像的FLDP特征:将步骤B构造的编码图像的直方图作为原图像的FLDP特征。
进一步地,所述步骤4)具体为:
融合文本特征和图像特征,计算图像间的相似性,返回相似的图像。
本发明提供的基于外观设计专利的多模态图像检索方法,将文本特征与底层视觉特征进行融合,充分发挥了不同模态特征的优点,提高了检索准确率,该方法优于已有的单模态检索方法,可以很好地满足实际应用的需要。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
如图1所示,一种基于外观设计专利的多模态图像检索方法,包括以下步骤:
步骤1):提出图像有效内容提取算法IECE(ImageEffectiveContentExtractionAlgorithm)提取图像有效内容,并根据图像直方图范围动态选择对图像进行灰度拉伸预处理操作;
定义1:图像有效内容:属于图像信息且在专利审查中对比的图像内容。
定义2:图像无关内容:属于图像信息但在专利审查中忽略的图像内容。
根据外观设计专利图像相似性判断标准可知,专利审查对比外观设计专利图像的形状、图案和色彩等信息。外观设计专利的图案是指通过设计构思产生线条、符号、文字等,对其排列或组合所呈现在专利表面的视觉能感受到的图形,图像边缘的空白区域不属于外观设计专利的图案内容,因此,在检索之前需获取图像有效内容。图2中,(a)的图案为边框内的信息,空白区域虽属于图像内容,但不属于专利审查对象。因此,图(a)中图像有效内容为边框内图像内容,而边框外内容属于图像无关内容。图(b)中图像有效内容为边框内信息,边框则属于图像无关内容。
步骤2):提取图像文本特征;
步骤3):提取图像快速局部方向模式视觉特征FLDP(FastLocalDirectionalPattern);
步骤4):将图像文本特征与视觉特征融合,对图像进行多模态检索。
其中,所述步骤1)具体为:
步骤A:初步确定图像无关内容范围;
步骤B:利用基于一阶微分法判断有效边界;
其中,所述有效边界指有效内容与无关内容邻接处属于图像有效内容对应的行或列所在区域,具有唯一性和不变性;
步骤C:利用回溯确定有效边界。
分析外观设计专利图像数据的特点可知,外观设计专利图像有效内容为包含图像形状、图案等信息的部分,这些有效内容分布在图像的中心区域。图像无关内容为图像的边缘空白信息或边框信息,即图像的边缘区域。因此,无关内容判定可转化为图像边缘内容有效性判断。因图像无关内容属于图像中不太重要的信息,只占整幅图像很小一部分,在无关内容初步判定过程中,设置图像无关内容宽度与高度阈值分别为Hmax与Wmax。
图像的形状或图案一般不具有规律性,因此图像有效内容对应像素值的分布也应呈现随机性,即每行或每列像素值应分布在较大的数值范围内。但外观设计专利图像的无关内容为边缘空白区域或边框信息,这些图像信息呈现相同的视觉感受,因此对应的像素值也应该相等,即每行或每列像素值应比较接近。
通过分析图像有效内容和无关内容的特点,本发明通过统计每行或每列像素值的变化判断图像内容是否有效。所述步骤A具体为:
步骤A1:在列方向判断图像有效内容,如公式(1)和公式(2)所示;
num=num+1,if(abs(pi,j-pi+1,j)≤threshold_rate)(1)
其中,num为统计的每列相邻像素值差值大于阈值的像素点数目,初始值为0,若相邻像素点差值小于设置的阈值,则对计数器num加1,i取值范围为[0,Hmax];threshold_rate为差值阈值;
步骤A2:在行方向判断图像有效内容,如公式(3)和公式(4)所示;
num=num+1,abs(pi,j-pi,j+1)>threshold_rate(3)
其中,num为统计的每列相邻像素值差值大于阈值的像素点数目,初始值为0,i取值范围为[0,Wmax];threshold_rate为差值阈值。
定义3:当前图像有效内容判定过程中,有效内容与无关内容邻接处属于图像无关内容对应的行或列所在区域,记为图像内边缘。
定义4:当前图像有效内容判定过程中,有效内容与无关内容邻接处属于图像有效内容对应的行或列所在区域,记为图像外边缘。
因图像有效内容需要逐行或逐列判定,因此,在判定过程中,内边缘或外边缘不断变化。
定义5:图像有效内容判定完成后,图像外边缘定义为有效边界,即图像有效内容与无关内容的确定边界。有效边界具有唯一性和不变性。
外观设计专利中部分图像某些行或列可能存在像素值分布接近的情况。若据式(3)对图像有效内容的定义,图3整幅图像都应判定为无关内容,但从视觉角度分析,整幅图像应为有效内容。因此,在行或列方向满足式(3)或式(4)是判断图像内容是否有效的必要条件,并非充分条件。为避免将图像有效内容误判为无关内容,本发明通过回溯确定有效边界。由于图像有效内容与无关内容在视觉上具有较大的差异性,邻接处会产生较强的灰度变化,因此,本发明提出基于一阶微分法判断有效边界。
一阶微分通过梯度法实现。对于函数f(x,y),在其坐标(x,y)上的梯度定义如下:
向量的模值计算方法如下:
当对整幅图像进行梯度计算时运算量较大,因此,在实际操作中常用绝对值代替平方与平方根运算近似求梯度的模值:
在判定图像内容是否有效时,只需考虑与邻近行或列对应像素点值的变化,即只考虑像素值在一个方向的变化。判定上、下有效边界时,在垂直方向对比像素点的变化,判定左、右有效边界时,在水平方向对比像素点的变化。因此,本发明在判定有效边界时,沿着两个空间轴分别求取偏微分。式(7)可以简化为:
其中,Gx和Gy求取方式如式(9-10)所示:
Gx=|f(x+1,y)-f(x,y)|(9)
Gy=|f(x,y+1)-f(x,y)|(10)
有效边界判定公式如式(11-12)所示:
回溯流程图如图4所示。
垂直方向判断图像的左、右有效边界时,滑动窗口应设置为height*2大小,在水平方向判断上、下有效边界时,滑动窗口大小应为2*width。并通过初步判定过程中确定的内、外边缘对滑动窗口初始化。在判断过程中以1个像素点为步长向外移动滑动窗口。
因图像质量不等,部分图像对比度较低,导致图像部分细节特征被忽略。图5中(b)为(a)对应直方图,因(a)图颜色对比度低,直方图分布在较窄范围内,部分细节信息被模糊。因此,本发明在提取图像特征前,根据图像直方图范围动态选择对图像进行灰度拉伸预处理操作。具体如公式(13)所示:
其中,Rmin与Rmax分别为整幅图像灰度值中的最小值与最大值,当Rmin与Rmax之间宽度小于设定阈值时,表示整幅图像的灰度值分布在较窄的范围内,对应在视觉上为对比度较低的图像,因此,需对图像进行灰度拉伸预处理,提高图像整体亮度。
所述步骤2)具体为:
步骤A:提取外观设计专利摘要信息中的类别信息;其中,所述类别信息指外观设计产品的名称信息;
步骤B:利用哈工大版《同义词词林》对提取的类别信息进行扩展
外观设计专利数据以多模态形式存储。如图6所示为一项外观设计专利数据,包括文本和图像两部分,文本数据包括专利申请号、申请日期、申请人和摘要等信息。图像数据为外观设计专利保护内容。
传统基于关键字的检索方法虽存在文字描述能力不足的缺点,但与人的检索意图相符,不存在语义鸿沟问题。通过对外观设计专利文本数据分析可知,外观设计专利摘要信息中包含专利名称、用途等描述信息,因此,本发明将摘要中专利的名称作为专利的文本特征,确定图像的所属类别。
因外观设计专利数据的特殊性,文本信息排列具有规律性,其中摘要信息格式为“1.外观设计产品的名称:XX。2.外观设计产品的用途:XX。3.外观设计的设计要点:XX。4.……”。通过分析外观设计摘要信息可得,外观设计产品名称即为类别,因此,通过摘要信息直接提取外观设计专利的类别信息。
通过摘要信息只获得一个类别词语作为文本特征,类别信息单一,为扩展外观设计专利图像的文本特征,本发明通过哈工大版同义词词林对提取的类别信息进行扩展。哈工大同义词词林对所有词分五级,第五级分类结果包含同义词、相关词和单独一个词三种,将同义词与相关词加入文本特征库,并为同义词赋予较高的权重,相关词赋予相对较低的权重。
局部二进制模式(LBP)是一种理论简单、计算高效的非参数局部纹理特征描述子,具有较高的特征鉴别力和较低的计算复杂度,在图像处理和计算机视觉领域受到越来越多的关注。LBP描述子通过邻域像素点与中心像素值比较获取一定长度的二进制编码,转换为十进制后即为中心点特征值,整幅图像的直方图即为对应图像的特征向量。公式如式(14)所示:
虽LBP特征有良好的特征表达能力,但因灰度值易受随机噪声、非单调光照变化等的影响,进而影响特征提取。为解决这一问题,Jabid等人提出对像素邻域8方向的边缘响应编码构造描述子,即LDP。LDP在一定程度上增强了LBP对随机噪声及非单调光照变化的抗干扰能力。
Jabid等人计算LDP纹理特征时采用Kirsch模板计算图像8个方向的边缘,并对边缘响应的绝对值进行排序,排名前n的响应编码为1,其余编码为0,然后生成LDP响应图像,其直方图作为LDP特征。图7为Kirsch8方向模板(M0-M7)。
LDP算子只对边缘响应绝对值位于前n位的方向编码为1,而梯度排名前n位的方向不太可能由于噪声的影响改变位置,因此LDP具有一定抗噪性。然而,构造LDP描述子时要进行8个方向的卷积与排序操作,算法的时间消耗较大,因此刘海军等人提出两种改进LDP的方案:FLDP和MLDP。本发明利用FLDP纹理特征对图像进行检索.
提取FLDP算子过程中仍然采用Kirsch边缘模板,但为了提高运算速度,不再对响应值排序,而是直接按边缘响应的符号编码,即正的边缘响应编码为1,负的边缘响应编码为0。所述步骤3)具体为:
步骤A:计算方向边缘响应:将图像分别按Kirsch边缘模板进行卷积运算,进而得到8个边缘响应矩阵M0,M1,......,M7;其中,将正的边缘响应编码设为1,负的边缘响应编码设为0;
步骤B:构造编码图像:对于图像中每一像素点,构造其对应的8位FLDP描述子,获取8位二进制串,并将其转换为十进制值,且该值为编码图像的灰度值;
步骤C:提取图像的FLDP特征:将步骤B构造的编码图像的直方图作为原图像的FLDP特征。
所述步骤4)具体为:
融合文本特征和图像特征,计算图像间的相似性,返回相似的图像。
本发明采用以下两种性能评价指标评价本发明的有效性。
1).同类检准率SCPN
本发明中将所属类别相同的图像定义为同类图像。如图8所示,虽图(a)与图(b)内容不同,但两幅图像所属类别相同,都为壁纸类图像。SCPN表示返回的前N张图像中与被检索图像所属相同类别的图像所占百分比。SCPN体现了检索算法对同类图像检索的准确率,值越大,返回的同类别图像数目越多,检索效果越好;反之,检索效果越差。式(15)为SCPN的计算公式。
其中,N为返回图像数目,SameClassNum为返回图像中与被检索图像同类被图像数目。
2).相似图像检准率SIPN
本发明中将灰度化操作后纹理相似的图像定义为相似图像。如图9所示,图(a)与图(b)内容虽不完全相同,但纹理相似。SIPN表示返回的N中图像中与被检索图像相似的图像所占百分比。SIPN体现了检索算法的准确率,值越大,表示检索到的相似图像越靠前,检索效果越好。式(16)为SIPN的计算公式。
其中N表示检索返回的图像数目,SimilarNum表示返回图像中与被检索图像相似的图像数目。
去除图像无关内容时,阈值设置要合理。若值过大,易把图像无关内容误判为真实内容,影响图像有效内容的正确提取;若阈值过小,会误删图像的真实内容。因此,通过对图像无关内容像素值的统计和实验分析,本发明将rate值置为0.9。
本发明分别提取外观设计专利的文本与底层视觉特征,其中,将外观设计专利文本数据中的类别信息作为文本特征,并通过同义词林对类别信息进行扩展,提取FLDP特征作为视觉特征。进而实现外观设计专利图像的多模态检索。源图像库为从专利局申请05-06类部分图像,共计15000张。为验证本发明提取图像有效内容及多模态检索算法的有效性,将本发明提出的方法与已有的检索方法进行对比。
首先,为验证本发明提取图像有效内容算法的有效性,分别对图像进行提取有效内容预处理与不进行预处理操作,对比不同图像库中图像检准率。首先利用本发明提出的IEIC算法对源图像库中所有图像提取有效内容,生成新图像库,然后分别针对源图像库与新图像库提取特征进行检索,并统计SIPN(N=30)。其中,特征1:GLCM特征;特征2:图像滤波后提取GLCM及全局特征;特征3:FLDP特征。
表1:不同图像库SIPN相似图像检索准确率统计表
从表1可以看出,在检索相似图像时,对于特征1,特征2和特征3,提取有效内容后检索比直接对图像进行检索准确率高。因图像无关内容在图像相似性判断中不起作用,图像相似性判定对象为图像有效内容。因此在提取特征之前去除图像无关内容,去除了伪特征向量,避免图像无关内容对对检索产生的干扰,使得提取出的特征是对图像真实有效内容的描述,从而提高相似图像检准率。
通过表1可知,在同一图像库下进行检索,特征3对应检索效果最好,特征2对应的检索效果次之,特征1对应的检索效果最差。特征1为提取的灰度共生矩阵特征,灰度共生矩阵表示灰度的空间依赖性,即纹理模式下的像素灰度的空间关系。但因其没有完全抓住局部灰度的图形特点,因此检索效果不佳。特征2为融合特征,首先对图像进行小波变换,提取图像的整体信息,然后提取灰度共生矩阵,全局特征与全局特征融合实现多特征检索,因此检索效果优于特征1对应的检索方法。本发明提取的FLDP特征利用8个方向的边缘信息来描述纹理,并将对检索重要的边缘编码赋值为1,不重要的边缘响应编码为0,从而突出重要边缘信息,因此检索准确率比特征1和2对应的检索效果都要好。
为验证本发明提出的多模态检索算法的有效性,在新图像库下,将本发明提出的方法与现有的检索方法分别在单、多模态下进行对比实验,并统计SCPN(N=30)。其中,单模态检索提取的特征为上文3种特征,多模态检索方法提取特征为文本特征与3种特征的融合。
表2:不同模态检索方法SCPN统计表
表3:不同模态检索方法SIPN统计表
从表2可以看出在多模态检索下,同类图像检准率达到100%,检索效果远优于单模态检索。底层视觉特征能描述图像内容,但因存在语义鸿沟问题,视觉特征与人们的上层理解之间不能建立一一对应关系,从而导致同类图像检索准确率低。文本特征虽不能准确描述复杂图像的全部内容,但本发明提取的文本特征并不是对图像内容的标注,而是根据图像已有文本数据提取类别信息,是对图像所属类别信息的准确描述。因此融合图像的文本和视觉特征,实现图像的多模态检索,大大提高同类图像检索准确率。
从表3可以看出,在检索相似图像时,多模态检索方法效果优于单模态检索方法。因同类别图像图像描述内容相似,因此,本发明首先根据图像的文本特征确定图像所属类别,在同类别图像中根据视觉特征进行相似性计算,排除了非同类图像的干扰,提高了相似图像检索准确率。
为验证本发明提出多模态检索算法对同类图像检索效果的稳定性,在新图像库下,分别取不同N值,统计SCPN。其中,提取特征3为图像的视觉特征。
表4:N取不同值对应SCPN统计表
分析表4可得,在多模态检索下,随着N取值的增大,同类图像检索准确率不变。多模态检索时,根据图像文本特征确定图像类别,因图像文本特征是对图像类别的正确描述,因此,多模态检索方法可以正确检索出与被检索图像类别相同的图像,且准确率与N值无关。
本发明提供的基于外观设计专利的多模态图像检索方法,将文本特征与底层视觉特征进行融合,充分发挥了不同模态特征的优点,提高了检索准确率,该方法优于已有的单模态检索方法,可以很好地满足实际应用的需要。
以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。