CN116978027A - 图像处理方法、装置、计算机、可读存储介质及程序产品 - Google Patents
图像处理方法、装置、计算机、可读存储介质及程序产品 Download PDFInfo
- Publication number
- CN116978027A CN116978027A CN202310130048.3A CN202310130048A CN116978027A CN 116978027 A CN116978027 A CN 116978027A CN 202310130048 A CN202310130048 A CN 202310130048A CN 116978027 A CN116978027 A CN 116978027A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- detected
- feature
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 124
- 238000003860 storage Methods 0.000 title claims abstract description 29
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 78
- 238000001514 detection method Methods 0.000 claims description 105
- 238000000605 extraction Methods 0.000 claims description 93
- 238000011176 pooling Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 23
- 238000005070 sampling Methods 0.000 claims description 22
- 230000009466 transformation Effects 0.000 claims description 19
- 238000012549 training Methods 0.000 claims description 18
- 230000004927 fusion Effects 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000007499 fusion processing Methods 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012512 characterization method Methods 0.000 abstract description 24
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 7
- 238000010606 normalization Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 241000238413 Octopus Species 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/19007—Matching; Proximity measures
- G06V30/19093—Proximity measures, i.e. similarity or distance measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例公开了一种图像处理方法、装置、计算机、可读存储介质及程序产品,适用于人工智能领域,该方法包括:获取待检测图像,采用第一注意力参数对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;采用第二注意力参数对第一增强特征进行第二维度特征增强,得到第二增强特征;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;从待检测图像中检测文本数据及文本数据在待检测图像中的文本位置信息,对文本数据及文本位置信息进行特征提取,确定待检测图像的目标文本特征;第二增强特征与目标文本特征用于共同表征待检测图像。采用本申请,可以提高图像表征的准确性。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种图像处理方法、装置、计算机、可读存储介质及程序产品。
背景技术
图像相似度在实际业务中具有广泛应用,如图像检索或内容推荐等,现在的技术一般是通过用于对图像进行特征识别的模型,识别需要检测的图像对分别对应的特征,再基于识别出的特征之间的相似度,确定图像对的相似度。而这一方式,过于依赖该用于对图像进行特征识别的模型的训练准确性,容易造成结果的准确性较低。或者,是将需要检测的图像对输入一个用于进行图像相似度检测的模型进行预测,得到该图像对之间的相似度,然而在图像数量较多时,一个图像需要与多少个图像进行相似度检测,就需要在该用于进行图像相似度检测的模型中进行多少次特征提取转换,从而导致图像检测效率较低。
发明内容
本申请实施例提供了一种图像处理方法、装置、计算机、可读存储介质及程序产品,可以提高图像表征的准确性。
本申请实施例一方面提供了一种图像处理方法,该方法包括:
获取待检测图像,采用第一注意力参数对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;
采用第二注意力参数对第一增强特征进行第二维度特征增强,得到第二增强特征;第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;
从待检测图像中检测文本数据及文本数据在待检测图像中的文本位置信息,对文本数据及文本位置信息进行特征提取,确定待检测图像的目标文本特征;第二增强特征与目标文本特征用于共同表征待检测图像。
本申请实施例一方面提供了一种图像处理方法,该方法包括:
获取图像样本及图像样本所包括的样本文本;
基于图像样本对初始图像检测模型进行参数调整,直至初始图像检测模型参数收敛,得到初始图像检测模型对应的图像检测模型;图像检测模型包括第一注意力参数及第二注意力参数;第一注意力参数用于对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;第二注意力参数用于对第一增强特征进行第二维度特征增强,得到第二增强特征;第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;
基于样本文本对初始文本信息抽取模型进行参数调整,直至初始文本信息抽取模型参数收敛,得到初始文本信息抽取模型所对应的文本信息抽取模型;文本信息抽取模型用于对待检测图像中的文本数据及文本数据的文本位置信息进行特征提取,得到待检测图像的目标文本特征。
本申请实施例一方面提供了一种图像处理装置,该装置包括:
图像获取模块,用于获取待检测图像;
第一增强模块,用于采用第一注意力参数对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;
第二增强模块,用于采用第二注意力参数对第一增强特征进行第二维度特征增强,得到第二增强特征;第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;
信息检测模块,用于从待检测图像中检测文本数据及文本数据在待检测图像中的文本位置信息;
特征识别模块,用于对文本数据及文本位置信息进行特征提取,确定待检测图像的目标文本特征;第二增强特征与目标文本特征用于共同表征待检测图像。
其中,该第一增强模块,包括:
特征提取单元,用于对待检测图像进行特征提取,得到待检测图像的初始图像特征;
图像采样单元,用于获取图像处理尺寸,基于图像处理尺寸对初始图像特征进行采样处理,得到待检测图像的图像采样特征;
特征增强单元,用于采用第一注意力参数对图像采样特征进行第一维度特征增强,得到待检测图像的第一增强特征。
其中,该信息检测模块,包括:
区域检测单元,用于对待检测图像进行文本识别,确定待检测图像中的文本预测区域及文本预测区域在待检测图像中的文本位置信息;
文本识别单元,用于对文本预测区域进行文本识别,得到文本预测区域中的文本数据。
其中,文本预测区域的数量为t个,t为正整数;该特征识别模块,包括:
第一检测单元,用于对t个文本预测区域分别对应的文本数据及文本位置信息进行特征提取,得到t个文本预测区域分别对应的初始文本特征,基于t个文本预测区域分别与待检测图像之间的关联度,确定t个文本预测区域分别对应的区域权重,基于t个文本预测区域分别对应的区域权重,对t个文本预测区域分别对应的初始文本特征进行加权求和,得到待检测图像的目标文本特征;或者,
第二检测单元,用于对t个文本预测区域分别对应的文本数据及文本位置信息进行特征拼接,得到待检测图像的文本输入特征,对文本输入特征进行特征提取,确定待检测图像的目标文本特征。
其中,该信息检测模块,包括:
该区域检测单元,还用于从待检测图像中检测文本预测区域及文本预测区域在待检测图像中的区域位置;
该文本识别单元,还用于识别文本预测区域中所包括的文本内容;
文本分词单元,用于对文本内容进行分词处理,得到组成文本内容的M个文本数据,基于M个文本数据分别在文本内容中的词组位置及区域位置,确定M个文本数据分别对应的文本位置信息。
其中,该特征识别模块,包括:
参数获取单元,用于获取文本处理参数;
文本调整单元,用于基于文本处理参数对M个文本数据进行调整,得到N个文本调整数据;
位置确定单元,用于基于M个文本数据分别对应的文本位置信息,确定N个文本调整数据分别对应的调整位置信息;N为文本处理参数;N为正整数;
特征检测单元,用于基于N个文本调整数据及N个文本调整数据分别对应的调整位置信息,确定N个待检测初始特征;
特征预测单元,用于将N个待检测初始特征输入文本信息抽取模型进行预测,得到待检测图像的目标文本特征。
其中,该文本调整单元,包括:
文本删减子单元,用于若M大于文本处理参数,则检测M个文本数据分别对应的词组词性及信息含量,基于M个文本数据分别对应的词组词性及信息含量,对M个文本数据中的无效数据进行删除,得到N个文本调整数据,或者,将M个文本数据中的前N个文本数据,确定为文本调整数据,或者,检测M个文本数据中连续的文本数据之间的数据关联性,将M个文本数据中存在数据关联性的连续的文本数据进行拼接,得到N个文本调整数据;
文本填充子单元,用于若M小于文本处理参数,则在M个文本数据中添加默认填充参数,得到N个文本调整数据。
其中,该特征识别模块,包括:
标准处理单元,用于将文本数据与文本位置信息进行特征融合,得到待检测初始特征,对待检测初始特征进行标准化处理,得到第一标准特征;
线性变换单元,用于对第一标准特征进行s种线性变换,得到s个变换向量;s为正整数,s种线性变换用于将第一标准特征映射到s个特征空间中;
文本增强单元,用于对s个变换向量中除值向量之外的变换向量进行特征融合处理,得到注意权重,基于注意权重对值向量进行特征增强,得到文本增强特征;
该标准处理单元,还用于对文本增强特征进行标准化处理,得到第二标准特征,对第二标准特征进行全连接化处理,得到待检测图像的目标文本特征。
其中,待检测图像的数量为p,p为正整数;该装置还包括:
图像相似检测模块,用于基于p个待检测图像分别对应的第二增强特征,确定p个待检测图像中任意两个待检测图像之间的图像距离;
文本相似检测模块,用于基于p个待检测图像分别对应的目标文本特征,确定p个待检测图像中任意两个待检测图像之间的文本距离;
相似融合模块,用于对任意两个待检测图像之间的图像距离,以及任意两个待检测图像之间的文本距离进行融合,得到任意两个待检测图像之间的目标距离;
图像聚类模块,用于基于任意两个待检测图像之间的目标距离,对p个待检测图像进行聚类处理,得到图像集合。
其中,待检测图像包括第一图像及第二图像;该装置还包括:
该图像相似检测模块,还用于对第一图像的第二增强特征与第二图像的第二增强特征进行距离检测,得到第一图像与第二图像之间的第一距离;
该文本相似检测模块,还用于对第一图像的目标文本特征与第二目标文本特征进行距离检测,得到第一图像与第二图像之间的第二距离;
该相似融合模块,还用于对第一距离及第二距离进行融合,确定第一图像与第二图像之间的第三距离;
图像比较模块,用于若第三距离小于或等于图像相似阈值,则确定第一图像与第二图像相似;
该图像比较模块,还用于若第三距离大于图像相似阈值,则确定第一图像与第二图像不相似。
本申请实施例一方面提供了一种图像处理装置,该装置包括:
样本获取模块,用于获取图像样本及图像样本所包括的样本文本;
第一训练模块,用于基于图像样本对初始图像检测模型进行参数调整,直至初始图像检测模型参数收敛,得到初始图像检测模型对应的图像检测模型;图像检测模型包括第一注意力参数及第二注意力参数;第一注意力参数用于对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;第二注意力参数用于对第一增强特征进行第二维度特征增强,得到第二增强特征;第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;
第二训练模块,用于基于样本文本对初始文本信息抽取模型进行参数调整,直至初始文本信息抽取模型参数收敛,得到初始文本信息抽取模型所对应的文本信息抽取模型;文本信息抽取模型用于对待检测图像中的文本数据及文本数据的文本位置信息进行特征提取,得到待检测图像的目标文本特征。
其中,第一维度为通道,第二维度为空间;
该第一训练模块,包括:
特征提取单元,用于在第i轮参数调整中,将图像样本i输入初始图像检测模型中,检测图像样本i的初始样本特征i;i为正整数;图像样本包括图像样本i;
第一池化单元,用于对初始样本特征i在C个通道中分别对应的第一子特征进行池化处理,得到C个通道分别对应的第一池化特征;
全连接单元,用于对C个第一池化特征进行全连接处理,得到在第i轮参数调整中的第一池化参数i;
第一调整单元,用于基于在第(i-1)轮参数调整中的第一更新参数(i-1)及第一池化参数i,确定在第i轮参数调整中的第一更新参数i;
样本增强单元,用于采用第一更新参数i对初始样本特征进行第一维度特征增强,得到图像样本在第i轮参数调整中的第一样本增强特征i;
第二池化单元,用于对第一样本增强特征i在每一个像素点上分别对应的第二子特征进行池化处理,得到每一个像素点所对应的第二池化特征;
卷积处理单元,用于对每一个像素点所对应的第二池化特征进行卷积处理,得到在第i轮参数调整中的第二池化参数i;
第二调整单元,用于基于在第(i-1)轮参数调整中的第二更新参数(i-1)及第二池化参数i,确定在第i轮参数调整中的第二更新参数i,得到检测更新模型i;
参数确定单元,用于若第一更新参数i收敛,则将第一更新参数i确定为第一注意力参数;若第二更新参数i收敛,则将第二更新参数i确定为第二注意力参数;
模型确定单元,用于当得到第一注意力参数及第二注意力参数时,将包括第一注意力参数及第二注意力参数的检测更新模型确定为图像检测模型。
本申请实施例一方面提供了一种计算机设备,包括处理器、存储器、输入输出接口;
处理器分别与存储器和输入输出接口相连,其中,输入输出接口用于接收数据及输出数据,存储器用于存储计算机程序,处理器用于调用该计算机程序,以使包含该处理器的计算机设备执行本申请实施例一方面中的图像处理方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,该计算机程序适于由处理器加载并执行,以使得具有该处理器的计算机设备执行本申请实施例一方面中的图像处理方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例一方面中的各种可选方式中提供的方法。换句话说,该计算机指令被处理器执行时实现本申请实施例一方面中的各种可选方式中提供的方法。
实施本申请实施例,将具有如下有益效果:
在本申请实施例中,获取待检测图像,采用第一注意力参数对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;采用第二注意力参数对第一增强特征进行第二维度特征增强,得到第二增强特征;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;从待检测图像中检测文本数据及文本数据在待检测图像中的文本位置信息,对文本数据及文本位置信息进行特征提取,确定待检测图像的目标文本特征;第二增强特征与目标文本特征用于共同表征待检测图像。通过以上过程,使用待检测图像以及待检测图像中的文本对待检测图像共同进行特征表征,使得待检测图像的图像自身特征与所包括的文本的特征可以互相作为补充或修正,可以增加待检测图像表征所包含的信息量,而且在其中一种特征存在误差时,也可以由另一种特征进行补充修正,从而提高图像表征的准确性。再加上,对待检测图像进行局部信息增强,实现对待检测图像在第一维度及第二维度下的特征增强,提高待检测图像的信息含量,进一步增加图像表征的准确性及鲁棒性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种图像处理的网络交互架构图;
图2a是本申请实施例提供的一种图像处理场景示意图;
图2b是本申请实施例提供的另一种图像处理场景示意图;
图3是本申请实施例提供的一种图像处理的方法流程图;
图4是本申请实施例提供的一种局部增强示意图;
图5是本申请实施例提供的一种文本检测场景示意图;
图6是本申请实施例提供的一种文本检测架构示意图;
图7是本申请实施例提供的一种模型训练的方法流程图;
图8是本申请实施例提供的一种图像处理装置示意图;
图9是本申请实施例提供的另一种图像处理装置示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
其中,若在本申请中需要收集对象(如用户等)数据,则在收集前、收集中,显示提示界面或者弹窗,该提示界面或者弹窗用于提示用户当前正在搜集XXXX数据,仅仅在获取到用户对该提示界面或者弹窗发出确认操作后,开始执行数据获取的相关的步骤,否则结束。而且,对于获取到的用户数据,会在合理合法的场景或用途等上进行使用。可选的,在一些需要使用用户数据但未得到用户授权的场景中,还可以向用户请求授权,在授权通过时,再使用用户数据。
其中,本申请涉及人工智能领域及计算机视觉技术等,通过这些技术,实现对本申请实施例所实现的方案的细化及技术支持,提高图像处理的效率。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。如通过人工智能,使用或训练本申请中所涉及的各个模型,使得本申请中所涉及的各个模型可以以人类智能相似的方法做出反应,也就是以人类智能相似的观感等得到所处理的图像的表征。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请可以通过机器学习/深度学习等技术,实现对模型的训练,得到用于进行图像检测的模型,如用于对待检测图像进行图像检测的模型,以及对待检测图像中所包括的文本数据进行检测的模型等。
其中,计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、检测和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
在本申请实施例中,请参见图1,图1是本申请实施例提供的一种图像处理的网络交互架构图,如图1所示,计算机设备101可以从计算机设备101中获取待检测图像,也可以从任意一个业务设备中获取待检测图像,例如,计算机设备101从计算机设备101的存储空间中获取待检测图像,或者,可以从任意一个业务设备中请求获取待检测图像,或者,可以获取任意一个业务设备所发送的待检测图像,或者,可以从互联网等(如互联网、区块链网络或云存储空间等)中获取待检测图像等,在此不做闲置。其中,存在的业务设备的数量可以为一个或至少两个,如图1中所示的业务设备102a、业务设备102b或业务设备102c等。计算机设备101可以对获取到的待检测图像进行检测,得到待检测图像自身图像的特征,以及待检测图像中所包括的文本数据的特征等。
具体的,请参见图2a及图2b,其中,图2a是本申请实施例提供的一种图像处理场景示意图。如图2a所示,计算机设备可以获取待检测图像201,采用第一注意力参数对待检测图像201进行第一维度特征增强,得到待检测图像201的第一增强特征;采用第二注意力参数对待检测图像201进行第二维度特征增强,得到待检测图像201的第二增强特征。其中,第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者,第一维度为空间,第二维度为通道,也就是可以先对待检测图像201进行通道信息增强,再进行空间信息增强,或者也可以先对待检测图像201进行空间信息增强,再进行通道信息增强,在此不做限制。通过对待检测图像201进行局部信息增强,实现对待检测图像201信息量的增强,使得提高待检测图像201的特征的信息含量,再一定程度上提高图像表征的准确性及鲁棒性。其中,计算机设备可以对待检测图像201中的文本数据及文本数据的文本位置信息进行特征提取,确定待检测图像201的目标文本特征。通过第二增强特征与目标文本特征共同表征待检测图像,使得待检测图像的图像自身特征与所包含的文本的特征可以互相进行补充修正,从而增加图像表征所包含的信息量,且在其中一种特征存在误差时,也可以由另一种特征进行补充修正,从而提高图像表征的准确性。
可选的,可以参见图2b,图2b是本申请实施例提供的另一种图像处理场景示意图。如图2b所示,计算机设备可以通过特征提取模块,获取待检测图像203的图像提取特征204,通过信息增强模块对图像提取特征204进行局部信息增强,得到第二增强特征,该过程可以参见图2a所示的第一维度特征增强及第二维度特征增强。计算机设备可以通过文本信息抽取模型,对待检测图像203中的文本数据及该文本数据的文本位置信息进行特征提取,确定待检测图像的目标文本特征。
可以理解的是,本申请实施例中所提及的计算机设备或业务设备包括但不限于终端设备或服务器。换句话说,计算机设备可以是服务器或终端设备,也可以是服务器和终端设备组成的系统。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(AugmentedReality/Virtual Reality,AR/VR)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,MID),或者火车、轮船、飞行等场景下的终端设备等。如图1中所示,终端设备可以是一种笔记本电脑(如业务设备102b所示)、手机(如业务设备102c所示)或车载设备(如业务设备102a所示)等,图1仅例举出部分的设备,可选的,该业务设备102a是指位于交通工具103中的设备,业务设备102a可以用于显示图像或向其他设备(如计算机设备101等)发送图像等。其中,以上所提及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、车路协同、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选的,本申请实施例中所涉及的数据可以存储在计算机设备中,或者可以基于云存储技术或区块链网络等对该数据进行存储,在此不做限制。
进一步地,请参见图3,图3是本申请实施例提供的一种图像处理的方法流程图。如图3所示,该图像处理过程包括如下步骤:
步骤S301,获取待检测图像,采用第一注意力参数对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征。
在本申请实施例中,计算机设备可以获取待检测图像,对待检测图像进行特征提取,得到图像提取特征fx,采用第一注意力参数对图像提取特征进行第一维度特征增强,得到待检测图像的第一增强特征。具体的,可以直接对待检测图像进行特征提取,得到待检测图像的初始图像特征x,将初始图像特征x确定为图像提取特征fx。
或者,可以对待检测图像进行特征提取,得到待检测图像的初始图像特征;获取图像处理尺寸,基于图像处理尺寸对初始图像特征进行采样处理,得到待检测图像的图像采样特征,此时,该图像采样特征为图像提取特征。举例来说,对待检测图像进行特征提取,得到初始图像特征x,x∈RC'*H'*W',其中,C'是指初始图像特征所包括的通道数,例如,若该待检测图像为RGB图像,则C'为3,C'个通道包括红色(Red,R)通道、绿色(Green,G)通道及蓝色(Blue,B)通道等,也就是C'的值是基于待检测图像的图像格式所确定的,该图像格式包括但不限于RGB格式、位图格式或灰度格式等;H'*W'是指初始图像特征的像素尺寸。基于图像处理尺寸对初始图像特征x进行采样处理,得到待检测图像的图像采样特征,此时,图像采样特征为图像提取特征,fx∈RC*H*W,其中,C是指图像采样特征所包括的通道数,C为正整数,H*W是指图像采样特征的像素尺寸。其中,若该初始图像特征的尺寸大于图像处理尺寸,则该采样处理可以认为是降采样处理;若该初始图像特征的尺寸小于图像处理尺寸,则该采样处理可以认为是上采样处理。进一步,可以采用第一注意力参数对图像采样特征进行第一维度特征增强,得到待检测图像的第一增强特征。
其中,图像提取特征的通道数可以认为是C,像素尺寸可以认为是H*W,可以记作fx∈RC*H*W。当该图像提取特征为初始图像特征时,此时H=H',W=W';当该图像提取特征为图像采样特征时,此时H与H'可能不相等,W与W'可能不相等,其中,当初始图像特征的尺寸等于图像处理尺寸时,H=H',W=W'。
可选的,计算机设备可以将待检测图像输入特征提取模块,在特征提取模块中对待检测图像进行特征提取,具体参见上段中所说,得到图像提取特征。其中,该特征提取模块可以是卷积神经网络(Convolutional Neural Networks,CNN)、视觉几何组(VisualGeometry Group,VGG)网络、高效模型(efficientnet)或残差网络(ResNet,如ResNet-50等)等,在此不做限制,例如,假定在特征提取模块中对初始图像特征进行16倍的降采样,此时,可以认为H=H'/16,W=W'/16。进一步,计算机设备可以将图像提取特征输入信息增强模块中,在信息增强模块中,采用第一注意力参数对图像提取特征fx进行第一维度特征增强,得到第一增强特征gx,可选的,可以将第一注意力参数/>与图像提取特征fx进行特征相乘,得到第一增强特征gx。其中,可以认为特征提取模块与信息增强模块属于图像检测模型,即图像检测模型包括特征提取模块与信息增强模块。可选的,该第一增强特征gx的获取方式可以参见公式①所示:
如公式①所示,gx是指第一增强特征,⊙用于表示特征相乘。
其中,本申请可以认为存在第一维度和第二维度,该第一维度为通道,第二维度为空间;或者,第一维度为空间,第二维度为通道。也就是说,可以认为信息增强模块包括通道注意力机制及空间注意力机制。例如,以第一维度为通道,第二维度为空间为例,此时,该第一注意力参数为通道注意力参数,用于表示各个通道的重要程度,第二注意力参数为空间注意力参数,用于表示各个像素点的重要程度,可以参见图4,图4是本申请实施例提供的一种局部增强示意图,如图4所示,计算机设备可以采用第一注意力参数402对图像提取特征401进行第一维度特征增强,得到第一增强特征403。此时,第一注意力参数402可以记作用于表示C个通道分别对应的重要程度,可以通过第一注意力参数402强化重要的局部通道。当然,若第一维度为空间,则第一注意力参数为空间注意力参数,可以记作用于表示H*W个像素点分别对应的重要程度,也就是在空间位置上的权重,可以通过第一注意力参数强化在空间位置上的局部区域。
步骤S302,采用第二注意力参数对第一增强特征进行第二维度特征增强,得到第二增强特征。
在本申请实施例中,第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道。可选的,可以在信息增强模块中,采用第二注意力参数对第一增强特征gx进行第二维度特征增强,得到第二增强特征hx,可选的,可以将第二注意力参数/>与第一增强特征gx进行特征相乘,得到第二增强特征hx。可选的,该第二增强特征hx的获取方式可以参见公式②所示:
如公式②所示,hx是指第二增强特征,⊙用于表示特征相乘。
其中,在第一维度为通道时,该第二维度为空间,此时,第二注意力参数为空间注意力参数,可以记作用于表示H*W个像素点分别对应的重要程度,也就是在空间位置上的权重,可以通过第二注意力参数强化在空间位置上的局部区域。例如,参见图4,计算机设备可以采用第二注意力参数404,对第一增强特征403进行第二维度特征增强,得到第二增强特征405。在第一维度为空间时,该第二维度为通道,此时,第二注意力参数为通道注意力参数,可以记作/>用于表示C个通道分别对应的重要程度,可以通过第二注意力参数强化重要的局部通道。
其中,通过上述步骤S301至步骤S302,实现了对待检测图像的局部信息增强,可以捕捉待检测图像不同视觉区域的重要性,通过在通道和空间两个维度上,对待检测图像进行局部信息增强,来强化待检测图像中的重要区域,并抑制待检测图像中不重要区域的特征激活,从而增加待检测图像的特征信息含量,提高图像表征的准确性。其中,上述所提及的R用于表示值域,也就是特征维度,例如,RC用于表示对应的特征的特征维度为C。
步骤S303,从待检测图像中检测文本数据及文本数据在待检测图像中的文本位置信息,对文本数据及文本位置信息进行特征提取,确定待检测图像的目标文本特征。
在本申请实施例中,第二增强特征与目标文本特征用于共同表征待检测图像。其中,计算机设备可以对待检测图像进行文本识别,确定待检测图像中的文本预测区域及文本预测区域在待检测图像中的文本位置信息;对文本预测区域进行文本识别,得到文本预测区域中的文本数据。或者可以说,可以从待检测图像中检测文本预测区域及文本预测区域在待检测图像中的区域位置,识别文本预测区域中所包括的文本内容,将该文本内容确定为文本数据,将文本预测区域的区域位置,确定为该文本数据的文本位置信息。例如,参见图5,图5是本申请实施例提供的一种文本检测场景示意图,如图5所示,计算机设备可以对待检测图像501进行文本检测,得到待检测图像501中所包括的文本内容及内容位置502,如,文本内容“pettok”及内容位置“坐标1”、文本内容“案例分享”及内容位置“坐标2”、文本内容“当狗狗出现咳嗽等”及内容位置“坐标3”,及文本内容“该注意是否心脏出现问题”及内容位置“坐标4”等。其中,将文本内容确定为文本数据,将文本内容的内容位置确定为文本数据的文本位置信息。或者,可以将文本内容进行分词处理,得到组成文本内容的文本数据,将文本内容的内容位置确定为该文本内容所包括的文本数据的文本位置信息,如图5,基于文本内容及文本内容的内容位置,确定文本数据及文本数据的文本位置信息503,例如,对文本内容“pettok”进行分词处理,得到文本数据“pettok”,将文本内容“pettok”的内容位置“坐标1”,确定为组成该文本内容“pettok”的文本数据的文本位置信息;将文本内容“案例分享”的内容位置“坐标2”,确定为组成该文本内容“案例分享”的文本数据“案例”及文本数据“分享”的文本位置信息等。其中,一个文本预测区域中可以包括一个文本内容,此时,该文本内容的内容位置为该文本内容所在文本预测区域的区域位置;或者,一个文本预测区域中可以包括一个或至少两个文本内容,此时,可以基于文本内容在文本预测区域中的相对位置及区域位置,确定该文本内容的内容位置,通过该方式可以确定任意一个文本内容的内容位置。可选的,以一个文本预测区域为例,可以将文本预测区域的区域质心坐标,确定为该文本预测区域的区域位置;或者,可以将文本预测区域的区域顶点坐标,确定为文本预测区域的区域位置等,在此不做限制。
其中,上述文本识别可以是通过文本识别算法进行的,该文本识别算法可以是但不限于文本识别模型、光学文字识别算法(optical character recognition,OCR)或文本识别工具等。
可选的,一种特征预测方式(1),计算机设备可以从待检测图像中检测文本预测区域及文本预测区域在待检测图像中的区域位置,识别文本预测区域中所包括的文本内容。可以对文本内容进行分词处理,得到组成文本内容的M个文本数据,基于M个文本数据分别在文本内容中的词组位置及区域位置,确定M个文本数据分别对应的文本位置信息。将M个文本数据及M个文本数据分别对应的文本信息位置进行预测,得到待检测图像的目标文本特征。
可选的,一种特征预测方式(2),计算机设备可以获取文本处理参数,基于文本处理参数对M个文本数据进行调整,得到N个文本调整数据,基于M个文本数据分别对应的文本位置信息,确定N个文本调整数据分别对应的调整位置信息;N为文本处理参数;N为正整数。基于N个文本调整数据及N个文本调整数据分别对应的调整位置信息,确定N个待检测初始特征;将N个待检测初始特征输入文本信息抽取模型进行预测,得到待检测图像的目标文本特征。
其中,在基于文本处理参数对M个文本数据进行调整,得到N个文本调整数据时,若M大于文本处理参数,则检测M个文本数据分别对应的词组词性及信息含量,基于M个文本数据分别对应的词组词性及信息含量,对M个文本数据中的无效数据进行删除,得到N个文本调整数据,即,基于M个文本数据分别对应的词组词性及信息含量,确定M个文本数据中的无效数据,对M个文本数据中的无效数据进行删除,得到N个文本调整数据,其中,无效数据可以认为是信息含量较少或者说无意义的文本数据,如语气助词等;其中,任意一个文本调整数据所对应的调整位置信息,为该文本调整数据所对应的文本数据的文本位置信息。或者,若M大于文本处理参数,则将M个文本数据中的前N个文本数据,确定为文本调整数据;其中,任意一个文本调整数据所对应的调整位置信息,为该文本调整数据所对应的文本数据的文本位置信息。或者,若M大于文本处理参数,则检测M个文本数据中连续的文本数据之间的数据关联性,将M个文本数据中存在数据关联性的连续的文本数据进行拼接,得到N个文本调整数据,例如,存在文本数据“章鱼”、文本数据“小”及文本数据“丸子”之间存在数据关联性,可以将这几个文本数据进行组合,得到文本调整数据“章鱼小丸子”等;其中,以一个文本调整数据为例,若该文本调整数据属于M个文本数据,则该文本调整数据的调整位置信息,为该文本调整数据所对应的文本数据的文本位置信息;若该文本调整数据不属于M个文本数据,即由两个或两个以上文本数据拼接得到,则可以基于组成该文本调整数据的文本数据的文本位置信息,确定该文本调整数据的调整位置信息;同理,可以得到N个文本调整数据分别对应的调整位置信息。
进一步,若M小于文本处理参数,则在M个文本数据中添加默认填充参数,得到N个文本调整数据,其中,N个文本调整数据中属于M个文本数据的文本调整数据的调整位置信息,为该文本调整数据所对应的文本数据的文本位置信息;N个文本调整数据中为默认填充参数的调整位置信息,为空位置,例如图5所示的“None”等。其中,该默认填充参数可以是一个字符串等,如图5所示的“PAD”或“00000”等,在此不做限制。
可选的,文本预测区域的数量为t个,t为正整数。一种多区域预测方法(1),对t个文本预测区域分别对应的文本数据及文本位置信息进行特征提取,得到t个文本预测区域分别对应的初始文本特征,基于t个文本预测区域分别与待检测图像之间的关联度,确定t个文本预测区域分别对应的区域权重,基于t个文本预测区域分别对应的区域权重,对t个文本预测区域分别对应的初始文本特征进行加权求和,得到待检测图像的目标文本特征。或者,一种多区域预测方法(2),对t个文本预测区域分别对应的文本数据及文本位置信息进行特征拼接,得到待检测图像的文本输入特征,对文本输入特征进行特征提取,确定待检测图像的目标文本特征。可选的,上述对t个文本预测区域分别对应的文本数据及文本位置信息进行特征提取,或者对文本输入特征进行特征提取的过程等,均可以认为是在文本信息抽取模型中实现的。例如,可以将t个文本预测区域分别对应的文本数据及文本位置信息,分别输入文本信息抽取模型中进行预测,得到t个文本预测区域分别对应的初始文本特征;或者,可以将文本输入特征输入文本信息抽取模型中进行预测,得到待检测图像的目标文本特征,如图5所示,将文本数据及文本数据的文本位置信息503输入文本信息抽取模型中进行预测,确定待检测图像的目标文本特征504。
可选的,在存在t个文本预测区域时,一种多区域预测方法(1),可以对每一个文本预测区域所对应的文本内容进行分词处理,得到每一个文本预测区域的M个文本数据,其中,各个文本预测区域所对应的M的值可能相同,也可能不同。在特征预测方式(1)中,可以对第j个文本预测区域的M个文本数据及每个文本数据的文本位置信息进行预测处理,得到第j个文本预测区域的初始文本特征,直至得到t个文本预测区域分别对应的初始文本特征,j为小于或等于t的正整数;在特征预测方式(2)中,可以对第j个文本预测区域的M个文本数据进行调整,确定N个文本调整数据,对第j个文本预测区域的N个文本调整数据及每个文本调整数据的调整位置信息进行预测处理,得到第j个文本预测区域的初始文本特征,直至得到t个文本预测区域分别对应的初始文本特征。同理,一种多区域预测方法(2),对t个文本预测区域分别对应的文本数据及文本位置信息进行特征拼接,得到待检测图像的文本输入特征,该文本输入特征包括M个文本数据,此时,将t个文本预测区域所包括的所有的文本数据记作M个文本数据;或者,将t个文本预测区域所包括的所有的文本数据进行调整,得到N个文本调整数据,将N个文本调整数据与每个文本调整数据的调整位置信息进行调整拼接,得到待检测图像的文本输入特征。也就是说,M用于表示进行一次特征提取时所需处理的文本数据的数量。
可选的,计算机设备可以将文本数据与文本位置信息进行特征融合,得到待检测初始特征,其中,该待检测初始特征可以是上述需要进行特征检测的任意一个特征,如一种特征预测方式(1)中,由M个文本数据及M个文本数据分别对应的文本信息位置进行特征融合得到的待检测初始特征;或者一种特征预测方式(2)中的N个待检测初始特征;或者一种多区域预测方法(1)中,任意一个文本预测区域所对应的初始文本特征;或者一种多区域预测方法(2)中的文本输入特征等。也就是说,该待检测初始特征用于表示进行文本特征检测的特征。进一步地,计算机设备可以对待检测初始特征进行标准化处理,得到第一标准特征;对第一标准特征进行s种线性变换,得到s个变换向量;s为正整数,s种线性变换用于将第一标准特征映射到s个特征空间中。对s个变换向量中除值向量之外的变换向量进行特征融合处理,得到注意权重,基于注意权重对值向量进行特征增强,得到文本增强特征。对文本增强特征进行标准化处理,得到第二标准特征,对第二标准特征进行全连接化处理,得到待检测图像的目标文本特征。
举例来说,参加图6,图6是本申请实施例提供的一种文本检测架构示意图。如图6所示,计算机设备可以将待检测初始特征601输入文本信息抽取模型中,可选的,该文本信息抽取模型可以包括层归一化模块、多层感知机及注意力机制模块等,其中,任意一种模块的数量可以为一个或至少两个。可以在归一化模块中对待检测初始特征601进行标准化处理,得到第一标准特征。可选的,该待检测初始特征601包括N个输入,每个输入对应一个文本数据,或者可以认为是待检测初始特征的数量为N,可以获取N个输入的统计特征,该统计特征为N个输入的方差或均值等,基于N个输入的统计特征对N个输入进行标准化处理,得到第一标准特征,该第一标准特征包括N个输入分别对应的第一标准子特征。进一步地,可以在注意力机制模块中,对第一标准特征进行文本特征增强,得到文本增强特征。可选地,可以基于上述s种线性变换相关的过程,得到文本增强特征。或者,可以获取第一标准特征的键向量(key,K)、值向量(value,V)及查询向量(query,Q),具体的,可以是获取每个第一标准子特征的K、V及Q,一个第一标准子特征的K、V及Q可以是相同的,也可以是第一标准子特征在不同特征空间中的映射结果,对第d个第一标准子特征的K及Q进行特征融合,得到注意权重,基于注意权重对V进行特征增强,得到第d个第一标准子特征的文本增强子特征,d为小于或等于N的正整数,同理,得到N个第一标准子特征分别对应的文本增强子特征,该N个文本增强子特征组成文本增强特征。例如,任意一个文本增强子特征可以参见公式③所示:
如公式③所示,Attention用于表示文本特征增强,softmax用于表示归一化算法,用于表示对应第一标准子特征的注意权重,其中,该/>可以表示收敛参数,是指对应第一标准子特征的Q的维度。以第d个第一标准子特征为例,通过第d个第一标准子特征的收敛参数,对第d个第一标准子特征的Q及K进行向量收敛,得到收敛特征,通过该处理,可以防止Q与KT的点乘结果过大,从而提高权重计算的准确性,进一步,可以对收敛特征进行归一化处理,得到第d个第一标准子特征的注意权重。同理,可以得到N个第一标准子特征分别对应的注意权重。
或者,可以获取第一标准特征的K及Q,对第一标准特征的K及Q进行特征融合处理,得到注意权重矩阵,基于注意权重矩阵对第一标准特征中的N个第一标准子特征分别进行特征增强,得到N个第一标准子特征分别对应的文本增强子特征等。
进一步,可以基于层归一化模块对文本增强特征进行标准化处理,得到第二标准特征,该第二标准特征可以包括N个文本增强子特征分别对应的第二标准子特征,具体可以参见上述第一标准特征的获取过程,在此不再进行赘述。进一步,通过多层感知机对N个第二标准子特征进行全连接处理,得到待检测图像的目标文本特征602。其中,该多层感知机可以包括一个或至少两个全连接层。将每一个全连接层的输入记作X',X'={x1,x2,…,xn},一个全连接层的计算公式可以记作f(X')=WX'+b,其中,W和b为对应全连接层中的参数,该全连接层的处理过程可以参见公式④所示:
如公式④所示,a用于表示对应全连接层的输出,包括a1至au;W及b表示对应全连接层中的参数,W包括W11至WuN,b包括b1至bu。其中,u可以与N相等,也可以小于N,u小于N时可以对对应全连接层进行降维处理,逐步减少需要处理的数据量,提高数据处理效率。其中,如公式④所示,第一个全连接层的输入X'为第二标准特征;其他全连接层的输入为该全连接层的上一个全连接层的输出。当多层感知机运行完成时,即最后一个全连接层的输出为待检测图像的目标文本特征。
可选的,在存在t个文本预测区域,且对t个文本预测区域分别进行处理时,可以基于上述图6相关的过程,得到t个文本预测区域分别对应的初始文本特征。
进一步可选的,本申请可以用于进行图像分类。具体的,待检测图像的数量为p,p为正整数。计算机设备可以基于p个待检测图像分别对应的第二增强特征,确定p个待检测图像中任意两个待检测图像之间的图像距离;基于p个待检测图像分别对应的目标文本特征,确定p个待检测图像中任意两个待检测图像之间的文本距离。对任意两个待检测图像之间的图像距离,以及任意两个待检测图像之间的文本距离进行融合,得到任意两个待检测图像之间的目标距离。基于任意两个待检测图像之间的目标距离,对p个待检测图像进行聚类处理,得到图像集合,该图像集合的数量为一个或多个,每个图像集合包括一个或多个待检测图像。其中,多个是指至少两个。
进一步可选的,本申请可以用于进行图像相似度检测。例如,待检测图像包括第一图像及第二图像。计算机设备可以对第一图像的第二增强特征与第二图像的第二增强特征进行距离检测,得到第一图像与第二图像之间的第一距离;对第一图像的目标文本特征与第二目标文本特征进行距离检测,得到第一图像与第二图像之间的第二距离。对第一距离及第二距离进行融合,确定第一图像与第二图像之间的第三距离。若第三距离小于或等于图像相似阈值,则确定第一图像与第二图像相似;若第三距离大于图像相似阈值,则确定第一图像与第二图像不相似。
可选的,本申请可以用于进行图像检索等。例如,计算机设备可以响应针对第三图像的相似图像查询请求,将第三图像作为待检测图像,得到第三图像的第二增强特征及目标文本特征。获取候选图像,该候选图像是指可以供目标用户进行选择的图像,即该相似图像查询请求所检索到的图像,目标用户是指触发针对第三图像的相似图像查询请求的用户,将候选图像作为待检测图像,基于上述图3所示的各个步骤,得到候选图像的第二增强特征及目标文本特征。基于第三图像的第二增强特征及目标文本特征,以及候选图像的第二增强特征及目标文本特征,确定第三图像与候选图像之间的候选距离,将候选距离小于或等于图像相似阈值的候选图像,确定为第三图像的相似图像。基于相似图像响应针对第三图像的相似图像查询请求。
其中,上述距离检测是指该距离检测所针对的两个特征之间的欧氏距离等。本申请可以应用于任意一个需要检测图像特征的场景,在此不做限制。其中,两个特征之间的距离越小,表示这两个特征越相似。
在本申请实施例中,可以获取待检测图像,采用第一注意力参数对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;采用第二注意力参数对第一增强特征进行第二维度特征增强,得到第二增强特征;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;从待检测图像中检测文本数据及文本数据在待检测图像中的文本位置信息,对文本数据及文本位置信息进行特征提取,确定待检测图像的目标文本特征;第二增强特征与目标文本特征用于共同表征待检测图像。通过以上过程,使用待检测图像以及待检测图像中的文本对待检测图像共同进行特征表征,使得待检测图像的图像自身特征与所包括的文本的特征可以互相作为补充或修正,可以增加待检测图像表征所包含的信息量,而且在其中一种特征存在误差时,也可以由另一种特征进行补充修正,从而提高图像表征的准确性。再加上,对待检测图像进行局部信息增强,实现对待检测图像在第一维度及第二维度下的特征增强,提高待检测图像的信息含量,进一步增加图像表征的准确性及鲁棒性。
进一步地,请参见图7,图7是本申请实施例提供的一种模型训练的方法流程图。如图7所示,该图像处理过程包括如下步骤:
步骤S701,获取图像样本及图像样本所包括的样本文本。
在本申请实施例中,可以获取图像样本及图像样本所包括的样本文本,可选的,可以获取样本文本在图像样本中的样本位置信息。
步骤S702,基于图像样本对初始图像检测模型进行参数调整,直至初始图像检测模型参数收敛,得到初始图像检测模型对应的图像检测模型。
在本申请实施例中,图像检测模型包括第一注意力参数及第二注意力参数;第一注意力参数用于对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;第二注意力参数用于对第一增强特征进行第二维度特征增强,得到第二增强特征;第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道。
其中,以第一维度为通道,第二维度为空间为例,计算机设备可以在第i轮参数调整中,将图像样本i输入初始图像检测模型中,检测图像样本i的初始样本特征i;i为正整数;图像样本包括图像样本i。对初始样本特征i在C个通道中分别对应的第一子特征进行池化处理,得到C个通道分别对应的第一池化特征,对C个第一池化特征进行全连接处理,从而捕捉不同通道的重要性,得到在第i轮参数调整中的第一池化参数i,基于在第(i-1)轮参数调整中的第一更新参数(i-1)及第一池化参数i,确定在第i轮参数调整中的第一更新参数i;例如,可以将第(i-1)轮参数调整的第一更新参数(i-1)与第一池化参数i的均值,确定为第i轮参数调整的第一更新参数i;或者,将第一轮参数调整的第一更新参数至第(i-1)轮参数调整的第一更新参数(i-1),以及第一池化参数i的均值,确定为第i轮参数调整的第一更新参数i。或者,可以对第(i-1)轮参数调整中的第一更新参数(i-1)进行微调,得到第i轮参数调整的第一更新参数i。
进一步,采用第一更新参数i对初始样本特征进行第一维度特征增强,得到图像样本在第i轮参数调整中的第一样本增强特征i;对第一样本增强特征i在每一个像素点上分别对应的第二子特征进行池化处理,得到每一个像素点所对应的第二池化特征,对每一个像素点所对应的第二池化特征进行卷积处理,从而捕捉各个像素点的重要性,得到在第i轮参数调整中的第二池化参数i,基于在第(i-1)轮参数调整中的第二更新参数(i-1)及第二池化参数i,确定在第i轮参数调整中的第二更新参数i;例如,可以将第(i-1)轮参数调整的第二更新参数(i-1)与第二池化参数i的均值,确定为第i轮参数调整的第二更新参数i;或者,将第一轮参数调整的第二更新参数至第(i-1)轮参数调整的第二更新参数(i-1),以及第二池化参数i的均值,确定为第i轮参数调整的第二更新参数i。或者,可以对第(i-1)轮参数调整中的第二更新参数(i-1)进行微调,得到第i轮参数调整的第二更新参数i。此时,得到检测更新模型i。进一步,若第一更新参数i收敛,则将第一更新参数i确定为第一注意力参数;若第二更新参数i收敛,则将第二更新参数i确定为第二注意力参数。当得到第一注意力参数及第二注意力参数时,将包括第一注意力参数及第二注意力参数的检测更新模型确定为图像检测模型。
可选的,在第一维度为空间,第二维度为通道时,在确定第一池化参数i时,是对初始样本特征i在每一个像素点上分别对应的第三子特征进行池化处理,得到每一个像素点所对应的第三池化特征,对每一个像素点所对应的第三池化特征进行卷积处理,得到在第i轮参数调整中的第一池化参数i。在确定第二池化参数i时,对第一样本增强特征i在C个通道中分别对应的第四子特征进行池化处理,得到C个通道分别对应的第四池化特征,对C个第四池化特征进行全连接处理,得到在第i轮参数调整中的第二池化参数i。其他部分与上述“以第一维度为通道,第二维度为空间为例”中的过程相同,在此不再进行赘述。
步骤S703,基于样本文本对初始文本信息抽取模型进行参数调整,直至初始文本信息抽取模型参数收敛,得到初始文本信息抽取模型所对应的文本信息抽取模型。
在本申请实施例中,文本信息抽取模型用于对待检测图像中的文本数据及文本数据的文本位置信息进行特征提取,得到待检测图像的目标文本特征。具体的,可以是将样本文本及样本位置信息输入初始文本信息抽取模型中,得到样本预测结果,基于样本预测结果及图像样本的预测标签,对初始文本信息抽取模型进行参数调整,直至初始文本信息抽取模型参数收敛,得到初始文本信息抽取模型所对应的文本信息抽取模型。
在本申请实施例中,通过以上过程,训练得到上述用于对图像进行检测的各个模型,由于该第一注意力参数与第二注意力参数是基于图像样本自身的特征进行训练得到,使得一个注意力参数可以用于强化图像的重要通道的特征,抑制图像的不重要通道的特征,一个注意力参数可以用于强化图像在空间位置上的重要像素点的特征,抑制图像的不重要像素点的特征,从而提高图像检测的准确性及鲁棒性。同时对图像进行图像及文本均进行模型训练,使得两个模型可以相互进行补充修正,提高图像检测的准确性。
进一步地,请参见图8,图8是本申请实施例提供的一种图像处理装置示意图。该图像处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该图像处理装置可以为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该图像处理装置800可以用于图3所对应实施例中的计算机设备,具体的,该装置可以包括:图像获取模块11、第一增强模块12、第二增强模块13、信息检测模块14及特征识别模块15。
图像获取模块11,用于获取待检测图像;
第一增强模块12,用于采用第一注意力参数对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;
第二增强模块13,用于采用第二注意力参数对第一增强特征进行第二维度特征增强,得到第二增强特征;第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;
信息检测模块14,用于从待检测图像中检测文本数据及文本数据在待检测图像中的文本位置信息;
特征识别模块15,用于对文本数据及文本位置信息进行特征提取,确定待检测图像的目标文本特征;第二增强特征与目标文本特征用于共同表征待检测图像。
其中,该第一增强模块12,包括:
特征提取单元12a,用于对待检测图像进行特征提取,得到待检测图像的初始图像特征;
图像采样单元12b,用于获取图像处理尺寸,基于图像处理尺寸对初始图像特征进行采样处理,得到待检测图像的图像采样特征;
特征增强单元12c,用于采用第一注意力参数对图像采样特征进行第一维度特征增强,得到待检测图像的第一增强特征。
其中,该信息检测模块14,包括:
区域检测单元14a,用于对待检测图像进行文本识别,确定待检测图像中的文本预测区域及文本预测区域在待检测图像中的文本位置信息;
文本识别单元14b,用于对文本预测区域进行文本识别,得到文本预测区域中的文本数据。
其中,文本预测区域的数量为t个,t为正整数;该特征识别模块15,包括:
第一检测单元15a,用于对t个文本预测区域分别对应的文本数据及文本位置信息进行特征提取,得到t个文本预测区域分别对应的初始文本特征,基于t个文本预测区域分别与待检测图像之间的关联度,确定t个文本预测区域分别对应的区域权重,基于t个文本预测区域分别对应的区域权重,对t个文本预测区域分别对应的初始文本特征进行加权求和,得到待检测图像的目标文本特征;或者,
第二检测单元15b,用于对t个文本预测区域分别对应的文本数据及文本位置信息进行特征拼接,得到待检测图像的文本输入特征,对文本输入特征进行特征提取,确定待检测图像的目标文本特征。
其中,该信息检测模块14,包括:
该区域检测单元14a,还用于从待检测图像中检测文本预测区域及文本预测区域在待检测图像中的区域位置;
该文本识别单元14b,还用于识别文本预测区域中所包括的文本内容;
文本分词单元14c,用于对文本内容进行分词处理,得到组成文本内容的M个文本数据,基于M个文本数据分别在文本内容中的词组位置及区域位置,确定M个文本数据分别对应的文本位置信息。
其中,该特征识别模块15,包括:
参数获取单元15c,用于获取文本处理参数;
文本调整单元15d,用于基于文本处理参数对M个文本数据进行调整,得到N个文本调整数据;
位置确定单元15e,用于基于M个文本数据分别对应的文本位置信息,确定N个文本调整数据分别对应的调整位置信息;N为文本处理参数;N为正整数;
特征检测单元15f,用于基于N个文本调整数据及N个文本调整数据分别对应的调整位置信息,确定N个待检测初始特征;
特征预测单元15g,用于将N个待检测初始特征输入文本信息抽取模型进行预测,得到待检测图像的目标文本特征。
其中,该文本调整单元15d,包括:
文本删减子单元151d,用于若M大于文本处理参数,则检测M个文本数据分别对应的词组词性及信息含量,基于M个文本数据分别对应的词组词性及信息含量,对M个文本数据中的无效数据进行删除,得到N个文本调整数据,或者,将M个文本数据中的前N个文本数据,确定为文本调整数据,或者,检测M个文本数据中连续的文本数据之间的数据关联性,将M个文本数据中存在数据关联性的连续的文本数据进行拼接,得到N个文本调整数据;
文本填充子单元152d,用于若M小于文本处理参数,则在M个文本数据中添加默认填充参数,得到N个文本调整数据。
其中,该特征识别模块15,包括:
标准处理单元15h,用于将文本数据与文本位置信息进行特征融合,得到待检测初始特征,对待检测初始特征进行标准化处理,得到第一标准特征;
线性变换单元15i,用于对第一标准特征进行s种线性变换,得到s个变换向量;s为正整数,s种线性变换用于将第一标准特征映射到s个特征空间中;
文本增强单元15j,用于对s个变换向量中除值向量之外的变换向量进行特征融合处理,得到注意权重,基于注意权重对值向量进行特征增强,得到文本增强特征;
该标准处理单元15h,还用于对文本增强特征进行标准化处理,得到第二标准特征,对第二标准特征进行全连接化处理,得到待检测图像的目标文本特征。
其中,待检测图像的数量为p,p为正整数;该装置800还包括:
图像相似检测模块16,用于基于p个待检测图像分别对应的第二增强特征,确定p个待检测图像中任意两个待检测图像之间的图像距离;
文本相似检测模块17,用于基于p个待检测图像分别对应的目标文本特征,确定p个待检测图像中任意两个待检测图像之间的文本距离;
相似融合模块18,用于对任意两个待检测图像之间的图像距离,以及任意两个待检测图像之间的文本距离进行融合,得到任意两个待检测图像之间的目标距离;
图像聚类模块19,用于基于任意两个待检测图像之间的目标距离,对p个待检测图像进行聚类处理,得到图像集合。
其中,待检测图像包括第一图像及第二图像;该装置还包括:
该图像相似检测模块16,还用于对第一图像的第二增强特征与第二图像的第二增强特征进行距离检测,得到第一图像与第二图像之间的第一距离;
该文本相似检测模块17,还用于对第一图像的目标文本特征与第二目标文本特征进行距离检测,得到第一图像与第二图像之间的第二距离;
该相似融合模块18,还用于对第一距离及第二距离进行融合,确定第一图像与第二图像之间的第三距离;
图像比较模块20,用于若第三距离小于或等于图像相似阈值,则确定第一图像与第二图像相似;
该图像比较模块20,还用于若第三距离大于图像相似阈值,则确定第一图像与第二图像不相似。
本申请实施例提供了一种图像处理装置,该装置可以获取待检测图像,采用第一注意力参数对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;采用第二注意力参数对第一增强特征进行第二维度特征增强,得到第二增强特征;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;从待检测图像中检测文本数据及文本数据在待检测图像中的文本位置信息,对文本数据及文本位置信息进行特征提取,确定待检测图像的目标文本特征;第二增强特征与目标文本特征用于共同表征待检测图像。通过以上过程,使用待检测图像以及待检测图像中的文本对待检测图像共同进行特征表征,使得待检测图像的图像自身特征与所包括的文本的特征可以互相作为补充或修正,可以增加待检测图像表征所包含的信息量,而且在其中一种特征存在误差时,也可以由另一种特征进行补充修正,从而提高图像表征的准确性。再加上,对待检测图像进行局部信息增强,实现对待检测图像在第一维度及第二维度下的特征增强,提高待检测图像的信息含量,进一步增加图像表征的准确性及鲁棒性。
进一步地,请参见图9,图9是本申请实施例提供的另一种图像处理装置示意图。该图像处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码等),例如该图像处理装置可以为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该图像处理装置900可以用于图7所对应实施例中的计算机设备,具体的,该装置可以包括:样本获取模块31、第一训练模块32及第二训练模块33。
样本获取模块31,用于获取图像样本及图像样本所包括的样本文本;
第一训练模块32,用于基于图像样本对初始图像检测模型进行参数调整,直至初始图像检测模型参数收敛,得到初始图像检测模型对应的图像检测模型;图像检测模型包括第一注意力参数及第二注意力参数;第一注意力参数用于对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;第二注意力参数用于对第一增强特征进行第二维度特征增强,得到第二增强特征;第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;
第二训练模块33,用于基于样本文本对初始文本信息抽取模型进行参数调整,直至初始文本信息抽取模型参数收敛,得到初始文本信息抽取模型所对应的文本信息抽取模型;文本信息抽取模型用于对待检测图像中的文本数据及文本数据的文本位置信息进行特征提取,得到待检测图像的目标文本特征。
其中,第一维度为通道,第二维度为空间;
该第一训练模块32,包括:
特征提取单元32a,用于在第i轮参数调整中,将图像样本i输入初始图像检测模型中,检测图像样本i的初始样本特征i;i为正整数;图像样本包括图像样本i;
第一池化单元32b,用于对初始样本特征i在C个通道中分别对应的第一子特征进行池化处理,得到C个通道分别对应的第一池化特征;C为正整数;
全连接单元32c,用于对C个第一池化特征进行全连接处理,得到在第i轮参数调整中的第一池化参数i;
第一调整单元32d,用于基于在第(i-1)轮参数调整中的第一更新参数(i-1)及第一池化参数i,确定在第i轮参数调整中的第一更新参数i;
样本增强单元32e,用于采用第一更新参数i对初始样本特征进行第一维度特征增强,得到图像样本在第i轮参数调整中的第一样本增强特征i;
第二池化单元32f,用于对第一样本增强特征i在每一个像素点上分别对应的第二子特征进行池化处理,得到每一个像素点所对应的第二池化特征;
卷积处理单元32g,用于对每一个像素点所对应的第二池化特征进行卷积处理,得到在第i轮参数调整中的第二池化参数i;
第二调整单元32h,用于基于在第(i-1)轮参数调整中的第二更新参数(i-1)及第二池化参数i,确定在第i轮参数调整中的第二更新参数i,得到检测更新模型i;
参数确定单元32i,用于若第一更新参数i收敛,则将第一更新参数i确定为第一注意力参数;若第二更新参数i收敛,则将第二更新参数i确定为第二注意力参数;
模型确定单元32j,用于当得到第一注意力参数及第二注意力参数时,将包括第一注意力参数及第二注意力参数的检测更新模型确定为图像检测模型。
参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,本申请实施例中的计算机设备可以包括:一个或多个处理器1001、存储器1002和输入输出接口1003。该处理器1001、存储器1002和输入输出接口1003通过总线1004连接。存储器1002用于存储计算机程序,该计算机程序包括程序指令,输入输出接口1003用于接收数据及输出数据,如用于计算机设备与业务设备之间进行数据交互等;处理器1001用于执行存储器1002存储的程序指令。
其中,该处理器1001用于进行图像检测时,可以执行如下操作:
获取待检测图像,采用第一注意力参数对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;
采用第二注意力参数对第一增强特征进行第二维度特征增强,得到第二增强特征;第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;
从待检测图像中检测文本数据及文本数据在待检测图像中的文本位置信息,对文本数据及文本位置信息进行特征提取,确定待检测图像的目标文本特征;第二增强特征与目标文本特征用于共同表征待检测图像。
或者,该处理器1001用于进行模型训练时,可以执行如下操作:
获取图像样本及图像样本所包括的样本文本;
基于图像样本对初始图像检测模型进行参数调整,直至初始图像检测模型参数收敛,得到初始图像检测模型对应的图像检测模型;图像检测模型包括第一注意力参数及第二注意力参数;第一注意力参数用于对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;第二注意力参数用于对第一增强特征进行第二维度特征增强,得到第二增强特征;第一注意力参数是指针对第一维度的注意力参数,第二注意力参数是指针对第二维度的注意力参数;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;
基于样本文本对初始文本信息抽取模型进行参数调整,直至初始文本信息抽取模型参数收敛,得到初始文本信息抽取模型所对应的文本信息抽取模型;文本信息抽取模型用于对待检测图像中的文本数据及文本数据的文本位置信息进行特征提取,得到待检测图像的目标文本特征。
在一些可行的实施方式中,该处理器1001可以是中央处理单元(centralprocessing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digitalsignal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器1002可以包括只读存储器和随机存取存储器,并向处理器1001和输入输出接口1003提供指令和数据。存储器1002的一部分还可以包括非易失性随机存取存储器。例如,存储器1002还可以存储设备类型的信息。
具体实现中,该计算机设备可通过其内置的各个功能模块执行如该图3或图7中各个步骤所提供的实现方式,具体可参见该图3或图7中各个步骤所提供的实现方式,在此不再赘述。
本申请实施例通过提供一种计算机设备,包括:处理器、输入输出接口、存储器,通过处理器获取存储器中的计算机程序,执行该图3中所示方法的各个步骤,进行图像处理操作。本申请实施例实现了获取待检测图像,采用第一注意力参数对待检测图像进行第一维度特征增强,得到待检测图像的第一增强特征;采用第二注意力参数对第一增强特征进行第二维度特征增强,得到第二增强特征;第一维度为通道,第二维度为空间,或者第一维度为空间,第二维度为通道;从待检测图像中检测文本数据及文本数据在待检测图像中的文本位置信息,对文本数据及文本位置信息进行特征提取,确定待检测图像的目标文本特征;第二增强特征与目标文本特征用于共同表征待检测图像。通过以上过程,使用待检测图像以及待检测图像中的文本对待检测图像共同进行特征表征,使得待检测图像的图像自身特征与所包括的文本的特征可以互相作为补充或修正,可以增加待检测图像表征所包含的信息量,而且在其中一种特征存在误差时,也可以由另一种特征进行补充修正,从而提高图像表征的准确性。再加上,对待检测图像进行局部信息增强,实现对待检测图像在第一维度及第二维度下的特征增强,提高待检测图像的信息含量,进一步增加图像表征的准确性及鲁棒性。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序适于由该处理器加载并执行图3或图7中各个步骤所提供的图像处理方法,具体可参见该图3或图7中各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,计算机程序可被部署为在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行。
该计算机可读存储介质可以是前述任一实施例提供的图像处理装置或者该计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行图3或图7中的各种可选方式中所提供的方法,实现了使用待检测图像以及待检测图像中的文本对待检测图像共同进行特征表征,使得待检测图像的图像自身特征与所包括的文本的特征可以互相作为补充或修正,可以增加待检测图像表征所包含的信息量,而且在其中一种特征存在误差时,也可以由另一种特征进行补充修正,从而提高图像表征的准确性。再加上,对待检测图像进行局部信息增强,实现对待检测图像在第一维度及第二维度下的特征增强,提高待检测图像的信息含量,进一步增加图像表征的准确性及鲁棒性。
本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象,而非用于描述特定顺序。此外,术语“包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在该说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程图像处理设备的处理器以产生一个机器,使得通过计算机或其他可编程图像处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程图像处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程图像处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (17)
1.一种图像处理方法,其特征在于,所述方法包括:
获取待检测图像,采用第一注意力参数对所述待检测图像进行第一维度特征增强,得到所述待检测图像的第一增强特征;
采用第二注意力参数对所述第一增强特征进行第二维度特征增强,得到第二增强特征;所述第一注意力参数是指针对第一维度的注意力参数,所述第二注意力参数是指针对第二维度的注意力参数;所述第一维度为通道,所述第二维度为空间,或者所述第一维度为所述空间,所述第二维度为所述通道;
从所述待检测图像中检测文本数据及所述文本数据在所述待检测图像中的文本位置信息,对所述文本数据及所述文本位置信息进行特征提取,确定所述待检测图像的目标文本特征;所述第二增强特征与所述目标文本特征用于共同表征所述待检测图像。
2.如权利要求1所述的方法,其特征在于,所述采用第一注意力参数对所述待检测图像进行第一维度特征增强,得到所述待检测图像的第一增强特征,包括:
对所述待检测图像进行特征提取,得到所述待检测图像的初始图像特征;
获取图像处理尺寸,基于所述图像处理尺寸对所述初始图像特征进行采样处理,得到所述待检测图像的图像采样特征;
采用第一注意力参数对所述图像采样特征进行第一维度特征增强,得到所述待检测图像的第一增强特征。
3.如权利要求1所述的方法,其特征在于,所述从所述待检测图像中检测文本数据及所述文本数据在所述待检测图像中的文本位置信息,包括:
对所述待检测图像进行文本识别,确定所述待检测图像中的文本预测区域及所述文本预测区域在所述待检测图像中的文本位置信息;
对所述文本预测区域进行文本识别,得到所述文本预测区域中的文本数据。
4.如权利要求3所述的方法,其特征在于,所述文本预测区域的数量为t个,t为正整数;所述对所述文本数据及所述文本位置信息进行特征提取,确定所述待检测图像的目标文本特征,包括:
对t个文本预测区域分别对应的文本数据及文本位置信息进行特征提取,得到所述t个文本预测区域分别对应的初始文本特征,基于所述t个文本预测区域分别与所述待检测图像之间的关联度,确定所述t个文本预测区域分别对应的区域权重,基于所述t个文本预测区域分别对应的区域权重,对所述t个文本预测区域分别对应的初始文本特征进行加权求和,得到所述待检测图像的目标文本特征;或者,
对所述t个文本预测区域分别对应的文本数据及文本位置信息进行特征拼接,得到所述待检测图像的文本输入特征,对所述文本输入特征进行特征提取,确定所述待检测图像的目标文本特征。
5.如权利要求1所述的方法,其特征在于,所述从所述待检测图像中检测文本数据及所述文本数据在所述待检测图像中的文本位置信息,包括:
从所述待检测图像中检测文本预测区域及所述文本预测区域在所述待检测图像中的区域位置,识别所述文本预测区域中所包括的文本内容;
对所述文本内容进行分词处理,得到组成所述文本内容的M个文本数据,基于所述M个文本数据分别在所述文本内容中的词组位置及所述区域位置,确定所述M个文本数据分别对应的文本位置信息。
6.如权利要求5所述的方法,其特征在于,所述对所述文本数据及所述文本位置信息进行特征提取,确定所述待检测图像的目标文本特征,包括:
获取文本处理参数,基于所述文本处理参数对所述M个文本数据进行调整,得到N个文本调整数据,基于所述M个文本数据分别对应的文本位置信息,确定所述N个文本调整数据分别对应的调整位置信息;N为所述文本处理参数;N为正整数;
基于所述N个文本调整数据及所述N个文本调整数据分别对应的调整位置信息,确定N个待检测初始特征;
将所述N个待检测初始特征输入文本信息抽取模型进行预测,得到所述待检测图像的目标文本特征。
7.如权利要求6所述的方法,其特征在于,所述基于所述文本处理参数对所述M个文本数据进行调整,得到N个文本调整数据,包括:
若M大于所述文本处理参数,则检测所述M个文本数据分别对应的词组词性及信息含量,基于所述M个文本数据分别对应的词组词性及信息含量,对所述M个文本数据中的无效数据进行删除,得到N个文本调整数据,或者,将所述M个文本数据中的前N个文本数据,确定为文本调整数据,或者,检测所述M个文本数据中连续的文本数据之间的数据关联性,将所述M个文本数据中存在数据关联性的连续的文本数据进行拼接,得到N个文本调整数据;
若M小于所述文本处理参数,则在所述M个文本数据中添加默认填充参数,得到N个文本调整数据。
8.如权利要求1所述的方法,其特征在于,所述对所述文本数据及所述文本位置信息进行特征提取,确定所述待检测图像的目标文本特征,包括:
将所述文本数据与所述文本位置信息进行特征融合,得到待检测初始特征,对所述待检测初始特征进行标准化处理,得到第一标准特征;
对所述第一标准特征进行s种线性变换,得到s个变换向量;s为正整数,所述s种线性变换用于将所述第一标准特征映射到s个特征空间中;
对所述s个变换向量中除值向量之外的变换向量进行特征融合处理,得到注意权重,基于所述注意权重对所述值向量进行特征增强,得到文本增强特征;
对所述文本增强特征进行标准化处理,得到第二标准特征,对所述第二标准特征进行全连接化处理,得到所述待检测图像的目标文本特征。
9.如权利要求1所述的方法,其特征在于,所述待检测图像的数量为p,p为正整数;所述方法还包括:
基于p个待检测图像分别对应的第二增强特征,确定所述p个待检测图像中任意两个待检测图像之间的图像距离;
基于所述p个待检测图像分别对应的目标文本特征,确定所述p个待检测图像中任意两个待检测图像之间的文本距离;
对所述任意两个待检测图像之间的图像距离,以及所述任意两个待检测图像之间的文本距离进行融合,得到所述任意两个待检测图像之间的目标距离;
基于所述任意两个待检测图像之间的目标距离,对所述p个待检测图像进行聚类处理,得到图像集合。
10.如权利要求1所述的方法,其特征在于,所述待检测图像包括第一图像及第二图像;所述方法还包括:
对所述第一图像的第二增强特征与所述第二图像的第二增强特征进行距离检测,得到所述第一图像与第二图像之间的第一距离;
对所述第一图像的目标文本特征与所述第二目标文本特征进行距离检测,得到所述第一图像与所述第二图像之间的第二距离;
对所述第一距离及所述第二距离进行融合,确定所述第一图像与所述第二图像之间的第三距离;
若所述第三距离小于或等于图像相似阈值,则确定所述第一图像与所述第二图像相似;
若所述第三距离大于所述图像相似阈值,则确定所述第一图像与所述第二图像不相似。
11.一种图像处理方法,其特征在于,所述方法包括:
获取图像样本及所述图像样本所包括的样本文本;
基于所述图像样本对初始图像检测模型进行参数调整,直至所述初始图像检测模型参数收敛,得到所述初始图像检测模型对应的图像检测模型;所述图像检测模型包括第一注意力参数及第二注意力参数;所述第一注意力参数用于对待检测图像进行第一维度特征增强,得到所述待检测图像的第一增强特征;所述第二注意力参数用于对所述第一增强特征进行第二维度特征增强,得到第二增强特征;所述第一注意力参数是指针对第一维度的注意力参数,所述第二注意力参数是指针对第二维度的注意力参数;所述第一维度为通道,所述第二维度为空间,或者所述第一维度为所述空间,所述第二维度为所述通道;
基于所述样本文本对所述初始文本信息抽取模型进行参数调整,直至所述初始文本信息抽取模型参数收敛,得到所述初始文本信息抽取模型所对应的文本信息抽取模型;所述文本信息抽取模型用于对所述待检测图像中的文本数据及所述文本数据的文本位置信息进行特征提取,得到所述待检测图像的目标文本特征。
12.如权利要求11所述的方法,其特征在于,所述第一维度为通道,所述第二维度为空间;
所述基于所述图像样本对初始图像检测模型进行参数调整,直至所述初始图像检测模型参数收敛,得到所述初始图像检测模型对应的图像检测模型,包括:
在第i轮参数调整中,将所述图像样本i输入初始图像检测模型中,检测所述图像样本i的初始样本特征i;i为正整数;所述图像样本包括所述图像样本i;
对所述初始样本特征i在C个通道中分别对应的第一子特征进行池化处理,得到所述C个通道分别对应的第一池化特征,对C个第一池化特征进行全连接处理,得到在所述第i轮参数调整中的第一池化参数i,基于在第(i-1)轮参数调整中的第一更新参数(i-1)及所述第一池化参数i,确定在所述第i轮参数调整中的第一更新参数i;C为正整数;
采用所述第一更新参数i对所述初始样本特征进行第一维度特征增强,得到所述图像样本在所述第i轮参数调整中的第一样本增强特征i;
对所述第一样本增强特征i在每一个像素点上分别对应的第二子特征进行池化处理,得到每一个像素点所对应的第二池化特征,对所述每一个像素点所对应的第二池化特征进行卷积处理,得到在所述第i轮参数调整中的第二池化参数i,基于在所述第(i-1)轮参数调整中的第二更新参数(i-1)及所述第二池化参数i,确定在所述第i轮参数调整中的第二更新参数i,得到检测更新模型i;
若所述第一更新参数i收敛,则将所述第一更新参数i确定为所述第一注意力参数;若所述第二更新参数i收敛,则将所述第二更新参数i确定为所述第二注意力参数;
当得到所述第一注意力参数及所述第二注意力参数时,将包括所述第一注意力参数及所述第二注意力参数的检测更新模型确定为图像检测模型。
13.一种图像处理装置,其特征在于,所述装置包括:
图像获取模块,用于获取待检测图像;
第一增强模块,用于采用第一注意力参数对所述待检测图像进行第一维度特征增强,得到所述待检测图像的第一增强特征;
第二增强模块,用于采用第二注意力参数对所述第一增强特征进行第二维度特征增强,得到第二增强特征;所述第一注意力参数是指针对第一维度的注意力参数,所述第二注意力参数是指针对第二维度的注意力参数;所述第一维度为通道,所述第二维度为空间,或者所述第一维度为所述空间,所述第二维度为所述通道;
信息检测模块,用于从所述待检测图像中检测文本数据及所述文本数据在所述待检测图像中的文本位置信息;
特征识别模块,用于对所述文本数据及所述文本位置信息进行特征提取,确定所述待检测图像的目标文本特征;所述第二增强特征与所述目标文本特征用于共同表征所述待检测图像。
14.一种图像处理装置,其特征在于,所述装置包括:
样本获取模块,用于获取图像样本及所述图像样本所包括的样本文本;
第一训练模块,用于基于所述图像样本对初始图像检测模型进行参数调整,直至所述初始图像检测模型参数收敛,得到所述初始图像检测模型对应的图像检测模型;所述图像检测模型包括第一注意力参数及第二注意力参数;所述第一注意力参数用于对待检测图像进行第一维度特征增强,得到所述待检测图像的第一增强特征;所述第二注意力参数用于对所述第一增强特征进行第二维度特征增强,得到第二增强特征;所述第一注意力参数是指针对第一维度的注意力参数,所述第二注意力参数是指针对第二维度的注意力参数;所述第一维度为通道,所述第二维度为空间,或者所述第一维度为所述空间,所述第二维度为所述通道;
第二训练模块,用于基于所述样本文本对所述初始文本信息抽取模型进行参数调整,直至所述初始文本信息抽取模型参数收敛,得到所述初始文本信息抽取模型所对应的文本信息抽取模型;所述文本信息抽取模型用于对所述待检测图像中的文本数据及所述文本数据的文本位置信息进行特征提取,得到所述待检测图像的目标文本特征。
15.一种计算机设备,其特征在于,包括处理器、存储器、输入输出接口;
所述处理器分别与所述存储器和所述输入输出接口相连,其中,所述输入输出接口用于接收数据及输出数据,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-10任一项所述的方法,或者执行权利要求11-12任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-10任一项所述的方法,或者执行权利要求11-12任一项所述的方法。
17.一种计算机程序产品,包括计算机程序/指令,其特征在于,所述计算机程序/指令被处理器执行时实现权利要求1-10任一项所述的方法,或者实现权利要求11-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310130048.3A CN116978027A (zh) | 2023-02-01 | 2023-02-01 | 图像处理方法、装置、计算机、可读存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310130048.3A CN116978027A (zh) | 2023-02-01 | 2023-02-01 | 图像处理方法、装置、计算机、可读存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116978027A true CN116978027A (zh) | 2023-10-31 |
Family
ID=88477288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310130048.3A Pending CN116978027A (zh) | 2023-02-01 | 2023-02-01 | 图像处理方法、装置、计算机、可读存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116978027A (zh) |
-
2023
- 2023-02-01 CN CN202310130048.3A patent/CN116978027A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
CN109558832B (zh) | 一种人体姿态检测方法、装置、设备及存储介质 | |
CN111950424B (zh) | 一种视频数据处理方法、装置、计算机及可读存储介质 | |
KR101887637B1 (ko) | 로봇 시스템 | |
CN112037142B (zh) | 一种图像去噪方法、装置、计算机及可读存储介质 | |
CN111310770A (zh) | 目标检测方法和装置 | |
CN114241459B (zh) | 一种驾驶员身份验证方法、装置、计算机设备及存储介质 | |
CN114549369B (zh) | 数据修复方法、装置、计算机及可读存储介质 | |
CN114282013A (zh) | 一种数据处理方法、装置及存储介质 | |
CN114550051A (zh) | 一种车损检测方法、装置、计算机设备及存储介质 | |
CN111950570A (zh) | 目标图像提取方法、神经网络训练方法及装置 | |
CN118096924B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN115115910A (zh) | 图像处理模型的训练方法、使用方法、装置、设备及介质 | |
CN113128526B (zh) | 图像识别方法、装置、电子设备和计算机可读存储介质 | |
CN114677611B (zh) | 数据识别方法、存储介质及设备 | |
CN113159053A (zh) | 图像识别方法、装置及计算设备 | |
CN117037102A (zh) | 对象跟随方法、装置、计算机设备和存储介质 | |
CN117392488A (zh) | 一种数据处理方法、神经网络及相关设备 | |
CN117011416A (zh) | 一种图像处理方法、装置、设备、介质及程序产品 | |
CN116978027A (zh) | 图像处理方法、装置、计算机、可读存储介质及程序产品 | |
CN115988260A (zh) | 一种图像处理方法、装置及电子设备 | |
CN113516148A (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN115082873A (zh) | 基于通路融合的图像识别方法、装置及存储介质 | |
WO2024174583A1 (zh) | 一种模型训练方法、装置、设备、存储介质及产品 | |
CN117238006A (zh) | 一种图像元素近似方法和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40098097 Country of ref document: HK |