CN114943639B - 图像获取方法、相关装置及存储介质 - Google Patents
图像获取方法、相关装置及存储介质 Download PDFInfo
- Publication number
- CN114943639B CN114943639B CN202210578376.5A CN202210578376A CN114943639B CN 114943639 B CN114943639 B CN 114943639B CN 202210578376 A CN202210578376 A CN 202210578376A CN 114943639 B CN114943639 B CN 114943639B
- Authority
- CN
- China
- Prior art keywords
- weight vector
- data
- image
- updating
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 239000013598 vector Substances 0.000 claims abstract description 264
- 238000012545 processing Methods 0.000 claims description 42
- 230000015654 memory Effects 0.000 claims description 24
- 238000004590 computer program Methods 0.000 claims description 10
- 230000006870 function Effects 0.000 description 41
- 238000010586 diagram Methods 0.000 description 22
- 230000008569 process Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 18
- 238000013135 deep learning Methods 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 13
- 238000004891 communication Methods 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000005457 optimization Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 8
- 241000282414 Homo sapiens Species 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 230000001413 cellular effect Effects 0.000 description 6
- 230000008878 coupling Effects 0.000 description 6
- 238000010168 coupling process Methods 0.000 description 6
- 238000005859 coupling reaction Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000000717 retained effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及计算机视觉领域,提供一种图像获取方法、相关装置及存储介质。该方法包括:获取原始图像及权重向量;基于原始图像和权重向量,获取加权图像、第一数据和第二数据;若所述第一数据小于第一预设阈值,或所述第二数据小于第二预设阈值,则更新所述权重向量、所述第一数据和所述第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值;基于最后一个时间步长更新得到的权重向量,从所述原始图像中获取关键图像。本申请实施例的图像获取方法通过对权重向量的更新,得到符合预设条件的权重向量,根据所述权重向量对原始图像进行处理,能够使得到的关键图像中原始图像的关键信息尽可能的保留,同时使非关键信息尽可能的去除。
Description
技术领域
本申请实施例涉及计算机视觉领域,更具体地涉及图像获取方法、相关装置及存储介质。
背景技术
深度学习网络通常是以黑盒的形式被使用,只能向深度学习网络输入图像,获得深度学习网络输出的识别结果,无法得知深度学习网络在图像识别过程中关注的信息是否与图像中真正的关键信息相同,从而无法对深度学习网络进行有针对性的优化调整。
目前,通过类激活映射图(Class Activation Mapping,CAM)的技术可以对深度学习网络的不同通道中提取的特征图进行加权融合、归一化、图像尺寸缩放以及热力图转换等操作,得到能够表示深度学习网络在识别过程中关注区域的热力图。热力图中的关注区域可以被看作深度学习网络输出识别结果的依据,即图像识别过程中的重点信息。根据这些重点信息可以对深度神经网络进行优化调整,以使深度神经网络得到的图像识别结果更加准确。然而,热力图中表示出的重点信息可能是图像中的关键信息,也可能是图像中的非关键信息,单独基于热力图又无法区分重点信息中哪些是关键信息,哪些是非关键信息,在基于热力图对深度学习网络进行优化调整时,如果使用错误的依据,产生错误的判断,进而执行了错误的优化调整操作,比如使用热力图中的非关键信息对深度学习网络进行优化调整,则会降低输出的图像识别结果的准确性。
发明内容
本申请实施例提供一种图像获取方法、相关装置及存储介质,通过原始图像和权重向量,获取加权图像、第一数据和第二数据,其中,第一数据表示所述加权图像中保留的原始图像的关键信息与所述原始图像中全部关键信息的比例,所述第二数据表示所述加权图像中去除的原始图像的信息与所述原始图像中全部信息的比例,通过更新权重向量,使第二数据最大,且在第二数据最大的同时使第一数据最大,由于信息去除包括了关键信息去除和非关键信息去除两部分,在对权重向量更新的过程中,第一数据是增大的,从而所去除的信息则主要为非关键信息。
第一方面,本申请实施例提供一种图像获取方法,包括:
获取原始图像以及权重向量;
基于所述原始图像和所述权重向量,获取加权图像、第一数据和第二数据,其中,所述加权图像为所述原始图像基于权重向量加权而得,所述第一数据表示所述加权图像中保留的原始图像的关键信息与所述原始图像中全部关键信息的比例,所述第二数据表示所述加权图像中去除的原始图像的信息与所述原始图像中全部信息的比例;
若所述第一数据小于第一预设阈值,或所述第二数据小于第二预设阈值,则更新所述权重向量、所述第一数据和所述第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值;
基于最后一个时间步长更新得到的权重向量,从所述原始图像中获取关键图像。
第二方面,本申请实施例提供一种图像获取装置,包括:
输入输出模块,用于获取原始图像以及权重向量;
处理模块,用于基于所述原始图像和所述权重向量,获取加权图像、第一数据和第二数据,其中,所述加权图像为所述原始图像基于权重向量加权而得,所述第一数据表示所述加权图像中保留的原始图像的关键信息与所述原始图像中全部关键信息的比例,所述第二数据表示所述加权图像中去除的原始图像的信息与所述原始图像中全部信息的比例;以及
若所述第一数据小于第一预设阈值,或所述第二数据小于第二预设阈值,则更新所述权重向量、所述第一数据和所述第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值;
所述处理模块,还用于基于最后一个时间步长更新得到的权重向量,从所述原始图像中获取关键图像。
第三方面,本申请实施例提供一种处理设备,所述处理设备包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行第一方面中所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行第一方面中所述的方法。
相较于现有技术,根据本申请实施例的图像获取方法、相关装置及存储介质,可以基于原始图像和权重向量,得到加权图像、第一数据和第二数据,其中,第一数据表示所述加权图像中保留的原始图像的关键信息与所述原始图像中全部关键信息的比例,所述第二数据表示所述加权图像中去除的原始图像的信息与所述原始图像中全部信息的比例,通过对权重向量进行更新,使第二数据逐渐增大,同时使第一数据增大。信息去除过程包括了关键信息去除和非关键信息去除两部分,而在权重向量更新迭代的过程中,根据所述权重向量得到的加权图像的第二数据是增大的,第一数据也是增大的。即基于最后一个时间步长更新得到的权重向量得到的加权图像的第一数据(关键信息保留比例)最大且第二数据(信息去除比例)最大。本申请实施例的图像获取方法,通过对权重向量的更新,得到符合预设条件的权重向量,根据所述权重向量对原始图像进行加权处理,能够使加权得到的加权图像中原始图像的关键信息尽可能的保留,同时使非关键信息尽可能的去除,从而使得获取原始图像的关键信息的准确度更高。本申请实施例获取的原始图像的关键信息,对模型如何做出识别结果给出了准确依据,使得优化调整模型结构更加准确。
附图说明
通过参考附图阅读本申请实施例的详细描述,本申请实施例的目的、特征和优点将变得易于理解。其中:
图1为本申请实施例提供的一种图像获取系统的示意图;
图2为本申请实施例提供的一种图像获取方法的流程示意图;
图3为本申请实施例提供的一种获取第一数据的流程示意图;
图4为本申请实施例提供的一种获取原始人脸图像特征图及加权人脸图像特征图的流程示意图;
图5为本申请实施例提供的一种根据第一损失值和第二损失值对权重向量进行更新的流程示意图;
图6为本申请实施例提供的一种采用MI-FGSM基于动量的快速梯度符号法对权重向量进行更新的流程示意图;
图7为本申请实施例提供的一种根据所述第一损失值、第二损失值以及第三损失值对所述权重向量进行更新的流程示意图;
图8a为本申请实施例提供的一个原始图像的示意图;
图8b为本申请实施例提供的一种对原始图像进行加权得到的加权图像的示意图;
图8c为本申请实施例提供的一种对原始图像进行加权得到的加权图像的示意图;
图9为本申请实施例提供的一种图像获取方法的流程图;
图10为本申请实施例提供的一种图像获取装置的结构示意图;
图11为本申请实施例的一种处理设备的结构示意图。
图12为本申请实施例提供的一种终端设备相关的手机的部分结构示意图;
图13为本申请实施例提供的一种服务器的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如第一数据和第二数据分别表示为不同的数据,其他类似),而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
本申请实施例提出了一种图像获取方法、相关装置及存储介质,可以运用于计算机视觉领域,例如图像识别模型的分析、优化调整等场景。
本申请实施例提供的方案涉及人工智能(Artificial Intelligence,AI)、自然语言处理(Nature Language processing,NLP)、机器学习(Machine Learning,ML)等技术,具体通过如下实施例进行说明:
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习(Deep Learning,DL)通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
接下来,结合具体的应用场景,对本申请技术方案进行阐述,在一些实施方式中,如图1所示,图1为本申请实施例中提供的一种图像获取系统的示意图。该图像获取系统可以包括终端设备10和图像获取装置20。
终端设备10用于获取原始图像(例如通过图像采集装置实时采集或从本地或云端存储的数据库中获取),并将获取到的原始图像输入至图像获取装置20,获取到的原始图像可以为包含待识别目标的图像,如包含人脸、行人、车辆或建筑物等的图像,对此,本申请实施例不做限定。
图像获取装置20用于基于原始图像和权重向量获取加权图像以及第一数据和第二数据,然后基于第一数据和第二数据对权重向量进行迭代更新,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值,基于最后一个时间步长更新得到的权重向量,从所述原始图像中获取关键图像。另外,图像获取装置20中可以部署图像识别模型。图像识别模型能够对原始图像和加权图像进行处理。在图像处理的过程中,图像识别模型可以获取到原始图像的原始特征图以及加权图像的加权特征图,以便获取第一数据和第二数据。
图像获取装置20可以是服务器,终端设备10与服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
可选地,终端设备10和图像获取装置20之间通过网络进行通信。
需要说明的是,本申请实施例涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
本申请实施例涉及的终端设备,可以是指向用户提供语音和/或数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。例如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。例如,个人通信业务(英文全称:Personal Communication Service,英文简称:PCS)电话、无绳电话、会话发起协议(SIP)话机、无线本地环路(Wireless Local Loop,英文简称:WLL)站、个人数字助理(英文全称:Personal Digital Assistant,英文简称:PDA)等设备。
下面,将结合若干实施例对本申请技术方案进行详细的介绍说明。
示例性方法
下面结合图1、图2来描述本申请实施例的图像获取方法,该方法可以应用于图1所示的图像获取系统中的图像获取装置,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施例在此方面不受任何限制。相反,本申请的实施例可以应用于适用的任何场景。请参阅图2,该方法包括以下步骤:
步骤S110:获取原始图像以及权重向量。
本申请实施例中,原始图像比如为待获取关键信息的图像,原始图像可以为图像采集设备实时采集到的图像,也可以为存储或获取到的历史图像,原始图像中可以包含待识别的目标,待识别的目标可以为人脸、行人、车辆或动物等,对此,本申请实施例不做限定。
本申请实施例中,权重向量可以预先设置,预设的权重向量与原始图像之间的大小、尺寸以及维度可以相同,从而原始图像可以与预设的权重向量进行运算,得到加权图像。
例如,权重向量中可以包含多个权重向量元素,且权重向量中包含的多个权重向量元素可以与原始图像中包含的像素一一对应,即每一个权重向量元素可以对应原始图像中唯一的一个像素,且任意两个权重向量元素对应的像素均不相同。
本申请实施例中,预设的权重向量与原始图像的尺寸和维度可以都相同,例如权重向量可以是一个与原始图像的尺寸和维度均相同的二维向量或矩阵;以及,可以预先设定权重向量的初始值(如初始值为1等),具体来说,权重向量中包含的每个权重向量元素都可以有一个权重值,例如权重向量中的每个权重向量元素都可以设置为初始值。
步骤S120:基于所述原始图像和所述权重向量,获取加权图像、第一数据和第二数据。
在本申请实施例中,加权图像为所述原始图像基于权重向量加权得到。比如,可以基于步骤S110中获取的原始图像和权重向量,通过将权重向量中各个权重向量元素与所述原始图像中对应的像素相乘,得到所述加权图像。根据加权处理过程可知,原始图像中的各个像素加权处理之后,都可能产生变化,与初始像素值不同,例如有些像素可能会消失,有些像素可能会保留。本申请实施例的最终目的是保证原始图像加权处理之后得到的加权图像中保留了最多的关键信息且去除了最多的非关键信息。
关键信息为图像中的目标主体的特征信息,比如对于人脸图像而言,目标主体为人脸,那么关于人脸的特征信息则为该人脸图像的关键信息,例如各个人脸关键点的信息;又比如,对于汽车图像而言,目标主体为汽车,那么关于汽车的特征信息则为汽车图像的关键信息,例如汽车轮廓关键点信息。
与关键信息的示例相对应,非关键信息的定义一目了然,即对于任一图像而言,除了包含关于目标主体的关键信息之外,还包括除了目标主体之外的非关键信息(例如背景图像),关键信息和非关键信息组成了该图像的信息。
第一数据可以表示原始图像经过处理之后得到的图像(例如原始图像经过权重向量加权之后得到的加权图像)中保留的原始图像的关键信息与原始图像中的全部关键信息的比例,即加权图中对于原始图像的关键信息的保留量。
第二数据可以表示原始图像经过加权处理之后,对于原始图像中的信息去除的情况,包括了关键信息去除和非关键信息去除两部分。
根据第一数据和第二数据的含义可知,若第一数据和第二数据均达到最大值,则加权图像中的非关键信息去除量和关键信息保留量均达到最大值,即可以认为加权图像中保留了原始图像的大量关键信息,且去除了原始图像中的大量非关键信息。可以理解的是,在一些情况下,例如原始图像中的主体对象和背景区分明确,易于分离,若第一数据和第二数据均达到最大值,则加权图像中仅保留了原始图像的全部关键信息,且去除了原始图像中的全部非关键信息。
在介绍了第一数据和第二数据的定义之后,接下来对如何获取第一数据和第二数据进行示例性说明。
对于第一数据:
在本申请实施例中,如图3所示,可以通过如下步骤S121~S124得到第一数据:
步骤S121:基于原始图像获取原始特征图。
如图4所示,在本申请实施例中,原始特征图可以从原始图像中提取图像特征得到。提取原始图像中的图像特征可以通过预先构建的图像识别模型实现,例如将原始图像输入至图像识别模型中,图像识别模型可以对输入的原始图像进行特征提取,得到所述原始特征图。所述原始特征图即为图像识别模型输出识别结果的依据,例如人脸识别模型可以根据人脸的关键点特征进行人脸识别,在人脸图像中,人脸图像的特征图可以是人脸关键点图像。
以原始图像为人脸图像为例,在本申请实施例中,可以通过图像采集设备实时采集人脸图像(原始图像),然后将人脸图像输入至人脸识别模型中进行提取人脸图像中的人脸特征图,即原始特征图。需要说明的是,本申请实施例中提出的图像获取方法所针对的是基于以深度学习为代表的人工智能所构建的图像识别模型,包括但不限于特征提取、目标识别、人脸识别等各个适用不同应用场景的图像识别模型。
步骤S122:基于所述加权图像获取加权特征图。
如图4所示,加权特征图可以从加权图像中提取图像特征得到。提取加权图像中的图像特征可以通过预先构建的图像识别模型实现;例如将加权图像输入至图像识别模型中,图像识别模型可以对输入的加权图像进行特征提取,得到所述加权特征图。
在本申请实施例中,原始特征图和加权特征图可以通过同一个图像识别模型进行提取得到的,保证图像识别模型对于加权图像和原始图像具有相同关注点。
步骤S123:获取所述加权特征图和所述原始特征图的相似度。
对于步骤S123中所述加权特征图和所述原始特征图的相似度,可以通过下述方法A获取:
方法A:
在本申请实施例中,可以基于所述加权特征图和所述原始特征图的特征位置关系计算加权特征图和原始特征图之间的相似度,在计算加权特征图和原始特征图的特征位置关系时,可以用加权特征图和原始特征图的特征之间的距离(例如欧式距离、切比雪夫距离或余弦相似度)来计算。
对于步骤S123中所述加权特征图和所述原始特征图的相似度,还可以通过下述方法B获取:
方法B:
在本申请实施例中,还可以构建关于所述加权特征图和所述原始特征图之间相似度的第一损失函数,以第一损失函数求得的第一损失值来代表加权特征图和原始特征图的相似度。其中,所述第一损失值与所述相似度呈反比,第一损失值越小,所述加权特征图和所述原始特征图之间的相似度越高,即加权图像与原始图像的相似度越高,那么加权图像的第一数据越高。
举例来说,如果原始特征图的像素与加权特征图的像素之间存在一一对应的关系,且原始特征图的每一个像素代表不同的原始特征图的特征,以及加权特征图的每一个像素代表不同的加权特征图的特征。此时,可以认为原始特征图中包含的特征与加权特征图中包含的特征也存在一一对应的关系,第一损失函数loss1的计算方式可以为:
其中,feature1为原始特征图的特征,feature2为加权特征图的特征,i和j分别为原始图像的任意一个像素的横坐标和纵坐标,m和n分别为原始图像的最大横坐标和最大纵坐标。
本申请实施例中以方法A和方法B为例介绍了如何计算得到加权特征图和所述原始特征图的相似度,本领域的技术人员还可以根据实际需要或具体场景采用其他可行的相似度计算方式,确定加权特征图和原始特征图的相似度,例如结构相似性度量、直方图法或者指纹信息法等,本申请实施例对此不做限制。
由于原始图像与权重向量的尺寸和维度都相同,因此根据原始图像和权重向量得到加权图像的尺寸和维度与原始图像也可以对应或相同,进而从加权图像提取的加权特征图的尺寸和维度与从原始图像提取的原始特征图也可以对应或相同,那么在计算加权图像的第一数据时,可以根据原始特征图与加权特征图之间的相似度进行确定,即步骤S124:根据所述相似度确定所述第一数据。
上述实施例对如何获取第一数据进行了示例性介绍,下面对如何获取第二数据进行示例性介绍。
对于第二数据:
第二数据可以基于权重向量中各个权重向量元素的数值进行计算得到。比如,在本申请实施例中,可以基于所述权重向量中各个权重向量元素数值的平均值构建第二损失函数,基于第二损失函数求得的第二损失值代表所述加权图像中去除的原始图像的信息的程度,第二损失值越小,加权图像中原始图像的信息去除的越多。
在本申请实施例中,第二损失函数loss2的计算方式可以为:
其中,W为权重向量,Wi,j可以为原始图像中坐标为(i,j)的像素在权重向量中对应的权重向量元素。
其中,loss2越小,第二数据越大,代表加权图像中去除的原始图像的特征越多;loss2越大,第二数据越小,代表加权图像中去除的原始图像的特征越少。
在介绍了如何获取第二数据的方式之后,接下来继续说明如何根据第一数据和第二数据更新权重向量,以便获取关键图像。
步骤S130:若所述第一数据小于第一预设阈值,或所述第二数据小于第二预设阈值,则更新所述权重向量、所述第一数据和所述第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值。
考虑到预设的权重向量可能是随机初始化得到的,基于随机初始化得到的权重向量无法从原始图像中提取所述关键图像,即根据预设的权重向量从原始图像提取出的可能并不是能够表示原始图像关键信息的关键图像,由此,需要对基于加权图像确定的第一数据和第二数据进行分析,确定用于得到所述加权图像的权重向量是否为目标权重向量,即所述加权图像是否为关键图像。
在步骤S120中已经详细阐述了加权图像的第一数据和第二数据的计算方法,在步骤S130中,则通过比较第一数据是否达到第一预设阈值,以及第二数据是否达到第二预设阈值,来判断得到所述加权图像的权重向量是否为目标权重向量,即所述加权图像是否为关键图像,以便确定是否还需要对权重向量进行更新。如果第一数据没有达到第一预设阈值,或者第二数据没有达到第二预设阈值,则需要对权重向量进行更新。其中,所述目标权重向量即为可以帮助从原始图像中获取到关键图像的权重向量,例如可以是更新权重向量以使第一数据不小于第一预设阈值且第二数据不小于第二预设阈值的过程中,最后一个时间步更新得到的权重向量。
在本申请实施例中,可以通过下述方法①-方法④来判断所述第一数据是否达到第一预设阈值且所述第二数据是否达到第二预设阈值,以更新所述权重向量、所述第一数据和所述第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值:
方法①:
根据所述第一损失值以及第二损失值对所述权重向量中进行更新,并基于更新后的权重向量重新获取第一损失值和第二损失值,直至重新获取的第一损失值与第二损失值之和达到最小,当重新获取的第一损失值与第二损失值之和达到最小即可认为加权图像的第一数据达到第一预设阈值,同时第二数据达到第二预设阈值。
由于第一损失值可以确定第一数据,第二损失值可以确定第二数据,由此,可以通过第一损失值和第二损失值之和是否达到最小,来确定第一数据和第二数据是否均达到各自的预设阈值,以便确定是否需要对权重向量进行更新,从而得到符合预设条件的目标权重向量。在本申请实施例中,如图5所示,可以根据第一损失值和第二损失值对预设的权重向量进行更新,以得到符合预设条件的目标权重向量,即方法①可以包括如下步骤S131~S133:
步骤S131:根据第一损失值和第二损失值之和计算所述权重向量的梯度。
在本实施例中,可以基于第一损失函数和第二损失函数构建第一总损失函数,所述第一总损失函数为所述第一损失值与所述第二损失值之和。
第一总损失函数以lossA表示,其计算方式如下:
lossA=loss1+loss2;
得到第一总损失函数lossA后,可以关于权重向量进行求导,得到的导数可以确定为权重向量对应的梯度,其中梯度可以表示为grad,计算方式如下:
步骤S132:利用所述梯度确定每个权重向量元素的更新量和更新方向。
在本申请实施例中,在计算得到权重向量的梯度后,可以基于优化算法和所述梯度得到每个权重向量元素每次迭代的更新量和更新方向。优化算法例如为FGSM快速梯度符号法。采用优化算法可以快速的确定每个权重向量元素迭代的方向(更新方向)和迭代的大小(更新量),其中,更新方向包括正更新方向和负更新方向。
在本申请实施例中,可以按照在步骤S131中计算得到的梯度,利用FGSM优化算法计算得到的每次更新的更新量和更新方向。需要说明的是,在计算对权重向量中的各个权重向量元素的更新量和更新方向时,需要朝着令lossA减小的方向进行,即向第一损失值和第二损失值之和变小的方向。
步骤S133:针对每个权重向量元素,采用对应的更新量和更新方向进行更新。
在本申请实施例中,可以采用如下公式对权重向量进行更新:
Wn=Wn-1-α·sign(grad)。
其中,sign(·)为符号函数,α为符号函数的系数,可以根据经验值确定,sign(gard)为“+1”或者“-1”,代表更新方向,α·sign(gard)为包含了更新方向的更新量,Wn-1为上一次更新后的权重向量,Wn为本次更新后的权重向量。
在得到每个权重向量元素的更新量和更新方向后,就可以使所述权重向量中各个权重向量元素的数值按照对应的更新量和更新方向进行更新。在更新方向为正更新方向时,采用对应的更新量调大对应权重向量元素的值;在所述更新方向为负更新方向时,采用对应的更新量调小对应权重向量元素的值。
对权重向量的每个权重向量元素进行更新后,可以基于更新后的权重向量重新计算得到第一损失值及第二损失值之和,与更新前的第一损失值及第二损失值之和进行比较。
若更新后的第一损失值与第二损失值之和与更新前的第一损失值与第二损失值之和存在差值或差值不符合预定范围,则说明重新获取的加权图像的第一数据还未达到第一预设阈值和/或加权图像的第二数据还未达到第二预设阈值。
若更新后的第一损失值与第二损失值之和与更新前的第一损失值与第二损失值之和不存在差值;或即使存在差值,所述差值也符合预定范围,即lossA达到了最小,此时可以视为重新获取的加权图像的第一数据达到了第一预设阈值且第二数据达到了第二预设阈值。在本申请实施例中,对于上述步骤S133,为了更加快速准确地迭代更新得到最终的权重向量,可采用MI-FGSM基于动量的快速梯度符号法对权重向量进行更新,具体可以通过如下步骤S1331-S1333(参照图6)对每个权重向量元素进行更新:
步骤S1331:获取上一时间步长更新每个权重向量元素时,各个权重向量元素的第一更新量。
步骤S1332:根据所述梯度以及每个所述第一更新量,确定对应权重向量元素的第二更新量和更新方向。
步骤S1333:针对每个权重向量元素,采用对应的第二更新量和更新方向进行更新。
具体来说,在本申请实施例中,可以获取预设的动量和动量衰减系数,通过对动量进行更新,从而确定每次对权重向量进行更新的更新量和更新方向,可以加快权重向量迭代的速度,使权重向量更快的收敛。
比如,可以预先设置动量和动量衰减系数,动量的初始值可以为0,动量衰减系数的初始值可以为0.01,对此,本申请实施例不做限定。每次对权重向量进行更新时,可以先对动量进行更新,对动量g进行更新的方式可以为:
gn=μ*gn-1+grad;或
gn=μ*gn-1+||grad||;
其中,μ为动量衰减系数,grad为权重向量对应的梯度,gn-1为第n-1次更新权重向量时的动量,gn为第n次更新权重向量时的动量。
根据更新后的动量g对权重向量W进行更新,具体更新方式可以为:
Wn=Wn-1-α·sign(gn)。
其中,sign(·)为符号函数,α为符号函数的系数,可以根据经验值确定,α·sign(gn)为第n次更新时的更新量,Wn-1为上一次更新后的权重向量,Wn为本次更新后的权重向量。
方法①中,基于第一总损失函数lossA进行判断第一数据和第二数据是否达到各自的预设阈值时,loss1越小则说明从加权图像中获取的关键信息与从原始图像中获取的关键信息相似度越高,即加权图像的第一数据越高,反之loss1越大则第一数据越低。对于loss2而言,loss2越小,则说明原始图像的各个像素经过加权后所去除的越多,反之loss2越大则去除的越少。将loss1和loss2相结合,计算lossA的最小值,在第二数据最高的同时,第一数据也最高,由于第二数据较高,而且第一数据也较高,那么显然原始图像经过加权后所去除的信息主要为非关键信息。
方法②:
基于所述加权特征图和所述原始特征图之间的相似度确定第一损失值,其中,所述第一损失值与所述相似度呈反比。
基于所述权重向量中各个权重向量元素数值的平均值确定第二损失值。
基于所述权重向量中相邻权重向量元素数值之间差值的平均值,确定第三损失值,所述第三损失值代表基于所述权重向量计算得到的加权图像中相邻像素之间的平顺度。
根据所述第一损失值、第二损失值以及第三损失值对所述权重向量中的每个权重向量元素进行更新,并基于更新后的权重向量重新获取第一损失值、第二损失值以及第三损失值,直至重新获取的第一损失值与第二损失值以及第三损失值之和达到最小,当重新获取的第一损失值与第二损失值以及第三损失值之和达到最小时,即可认为第一数据达到第一预设阈值,同时第二数据达到第二预设阈值。
其中,第一损失值和第二损失值的计算过程参照步骤S120,在此不一一赘述。第三损失值可以通过预设的第三损失函数loss3计算得到:
其中,第三损失值越小则说明加权图像中各个像素之间平顺度越高,反之则说明加权图像中各个像素之间的平顺度越低,所述平顺度表示各个像素之间的过渡是否平滑,即图像整体表示的主体信息是否完整、自然。
在分别得到第一损失值、第二损失值、第三损失值后,根据所述第一损失值、第二损失值以及第三损失值对所述权重向量中的每个权重向量元素进行更新,包括如下步骤S231-S233(如图7所示):
步骤S231:根据第一损失值与第二损失值以及第三损失值之和计算所述权重向量的梯度。
在本申请实施例中,可以基于第一损失函数、第二损失函数以及第三损失函数构建第二总损失函数,所述第二总损失函数为所述第一损失值与所述第二损失值以及第三损失值之和。
第二总损失函数可以表示为LossB,计算方式如下:
lossB=loss1+loss2+loss3;
得到第二总损失函数lossB后,可以关于权重向量求导,得到的导数可以确定为权重向量对应的梯度,梯度可以表示为grad,计算方式如下:
步骤S232:利用所述梯度确定每个权重向量元素的更新量和更新方向。
步骤S233:针对每个权重向量元素,采用对应的更新量和更新方向进行更新。
步骤S231-步骤S233,可以利用优化算法,对所述权重向量中各个权重向量元素进行更新,以使所述第二总损失函数向最小化的方向迭代,直至lossB达到最小,此时可以视为所述第一数据不小于第一预设阈值且所述第二数据不小于第二预设阈值。
其中,步骤S231-步骤S233具体的计算过程可以参照步骤S131-步骤133,在此不一一赘述。
方法②基于第二总损失函数lossB进行判断第一数据和第二数据是否达到各自的预设阈值时,由于其不仅包含了loss1和loss2,还包含loss3,那么最终得到权重向量,除了能够保证加权图像保留原始图像中较多的关键信息,去除较多的非关键信息之外,还能保证加权图像各个像素之间更加的平滑,从而使主体(关键信息)更加明显。
方法③:
在一些实施方式中,也可以通过比较更新前后的两个权重向量的相似度来确定根据更新后的权重向量计算得到的第一数据和第二数据是否达到各自的预设阈值。
比如设置代表更新后的权重向量与更新前的权重向量的相似度的第三预设阈值;在每次权重向量更新后,计算更新前后的权重向量的相似度,并与第三预设阈值比较;若达到第三预设阈值,则可以停止更新,此时即可认为根据更新后的权重向量计算得到的第一数据和第二数据均达到各自的预设阈值。
方法③中,当更新后的权重向量与前一次的权重向量的相似度达到一定程度时,即可认为加权图像基本不再变化,并停止更新,从而可以在保证具有较高关键信息提取准确度的前提下尽可能的缩短处理时间。其中,更新前后的两个权重向量的相似度的第三预设阈值可以根据经验设置。
方法④:
通过预设最大迭代次数来确定根据更新后的权重向量计算得到的第一数据和第二数据是否达到各自的预设阈值。比如预设最大迭代次数为100次(第四预设阈值)。
对于lossA和lossB而言,在计算得到各自权重向量的梯度后,利用优化算法,按照各自的梯度计算方式进行迭代100次即可停止迭代。此时即可认为加权图像的第一数据达到了第一预设阈值且第二数据达到了第二预设阈值,并将最后一个时间步长迭代得到的权重向量作为最终权重向量。在根据lossA和lossB对权重向量进行迭代时,当迭代到一定次数后,权重向量几乎不变,因此可以设置最大迭代次数(第四预设阈值),只需达到最大迭代次数即可停止,而无需使lossA或lossB达到最小值时才结束迭代,从而可以在保证具有较高关键信息提取准确度的前提下尽可能的缩短处理时间。其中,最大迭代次数可以根据经验设置。
上述方法①-④分别结合不同的实施例阐述了如何确定第一数据和第二数据是否达到各自的预设阈值,那么在明确如何判断第一数据和第二数据是否达到各自的预设阈值后,即可进行步骤S140。
步骤S140:基于最后一个时间步长更新得到的权重向量,从所述原始图像中获取关键图像。
请一并参阅图8a、图8b、图8c以及图9,图8a为本申请实施例提供的一个原始图像的示意图;图8b为本申请实施例提供的一个对原始图像进行加权得到的加权图像的示意图;图8c为本申请实施例提供的另一个对原始图像进行加权得到的加权图像的示意图。
其中,根据图8b计算得到加权图像的第一数据没有达到第一预设阈值,且第二数据也没有达到第二预设阈值;因此需要对权重向量进行更新,并根据更新后的权重向量重新获取加权图像,以及重新获取的加权图像的第一数据和第二数据,直至重新获取的加权图像的第一数据达到第一预设阈值且重新获取的加权图像的第二数据达到第二预设阈值,此时得到最终权重向量;图8c即为基于最终权重向量得到的加权图像,从图8c可以看出,原始图像中的背景像素已经几乎全部被隐藏,只剩下人脸区域像素。因此图8c中人脸区域的像素可以认为是原始图像的关键信息。
在本申请实施例中,能够基于原始图像与预设的权重向量进行计算得到加权图像,基于加权图像中得到加权特征图,进而可以计算得到加权图像的第一数据和第二数据。其中,第一数据越高,表示原始图像与权重向量计算得到的加权图像中原始图像的关键信息损失越小;第二数据越高,表示原始图像与权重向量计算得到的加权图像中原始图像的信息整体去除的越多。因此,可以以第一数据最大、第二数据最大为目标,利用优化算法对于权重向量进行迭代更新,就可以使权重向量中关键像素对应的权重向量元素值更大,非关键像素对应的权重向量元素的元素值更小,从而基于最后一个时间步长更新得到的权重向量,获取的原始图像的关键信息的准确度更高。
本申请实施例中的图像获取方法,通过对权重向量的更新,得到符合预设条件的权重向量,根据所述权重向量对原始图像进行加权处理,能够使加权得到的加权图像中原始图像的关键信息尽可能的保留,同时使非关键信息尽可能的去除,从而使得获取原始图像的关键信息的准确度更高。根据本申请实施例获取的原始图像的关键信息,对模型如何做出识别结果给出了准确依据,使得优化调整模型结构更加准确。
示例性装置
在介绍了本申请实施例中的方法之后,接下来,参考图10对本申请实施例中的一种图像获取装置60进行说明,该装置包括:
输入输出模块600,用于获取原始图像以及权重向量;
处理模块610,用于基于所述原始图像和所述权重向量,获取加权图像、第一数据和第二数据,其中,所述加权图像为所述原始图像基于权重向量加权而得,所述第一数据表示所述加权图像中保留的原始图像的关键信息与所述原始图像中全部关键信息的比例,所述第二数据表示所述加权图像中去除的原始图像的信息与所述原始图像中全部信息的比例;以及
若所述第一数据小于第一预设阈值,或所述第二数据小于第二预设阈值,所述处理模块610还用于,更新所述权重向量、所述第一数据和所述第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值;
所述处理模块610,还用于基于最后一个时间步长更新得到的权重向量,从所述原始图像中获取关键图像。
在本申请实施例中,所述处理模块610还用于:
基于所述加权图像获取加权特征图;
获取所述加权特征图和原始特征图的相似度,所述原始特征图基于所述原始图像获取;
根据所述相似度确定所述第一数据;以及
基于所述权重向量中各个权重向量元素的数值,获取所述第二数据。
在本申请实施例中,所述处理模块610还用于:基于所述加权特征图和所述原始特征图之间的相似度确定第一损失值,其中,所述第一损失值与所述相似度呈反比;
基于所述权重向量中各个权重向量元素数值的平均值确定第二损失值;
根据所述第一损失值以及所述第二损失值对所述权重向量进行更新,并基于更新后的权重向量重新获取第一损失值和第二损失值,直至重新获取的第一损失值与第二损失值之和达到最小;
其中,在所述第一损失值与所述第二损失值之和最小时,所述加权图像的第一数据不小于第一预设阈值且第二数据不小于第二预设阈值。
在本申请实施例中,所述处理模块610还用于:
基于所述加权特征图和所述原始特征图之间的相似度确定第一损失值,其中,所述第一损失值与所述相似度呈反比;
基于所述权重向量中各个权重向量元素数值的平均值确定第二损失值;
基于所述权重向量中相邻权重向量元素数值之间差值的平均值,确定第三损失值,所述第三损失值代表基于所述权重向量计算得到的加权图像中相邻像素之间的平顺度;
根据所述第一损失值、所述第二损失值以及所述第三损失值对所述权重向量进行更新,并基于更新后的权重向量重新获取第一损失值、第二损失值和第三损失值,直至重新获取的第一损失值、第二损失值以及第三损失值之和达到最小;
其中,在所述第一损失值、所述第二损失值以及所述第三损失值之和最小时,所述加权图像的第一数据不小于第一预设阈值且第二数据不小于第二预设阈值。
在本申请实施例中,在基于原始图像以及权重向量确定各个损失值之后,所述处理模块610还用于:
根据各个损失值对所述权重向量进行更新,并基于更新后的权重向量重新获取各个损失值,直至更新后的权重向量与更新前的权重向量的相似度大于第三预设阈值;
或者,根据各个损失值对所述权重向量进行更新,并基于更新后的权重向量重新获取各个损失值,直至权重向量的更新次数大于第四预设阈值。
在本申请实施例中,所述处理模块610还用于:根据各个损失值之和计算所述权重向量的梯度;
利用所述梯度确定每个权重向量元素的更新量和更新方向;
针对每个权重向量元素,采用对应的更新量和更新方向进行更新;
其中,所述更新方向包括正更新方向和负更新方向;
在所述更新方向为正更新方向时,采用对应的更新量调大对应权重向量元素的值;
在所述更新方向为负更新方向时,采用对应的更新量调小对应权重向量元素的值。
在本申请实施例中,所述处理模块610还用于:获取上一时间步长更新每个权重向量元素时,各个权重向量元素的第一更新量;
根据所述梯度以及每个所述第一更新量,确定对应权重向量元素的第二更新量和更新方向;
针对每个权重向量元素,采用对应的第二更新量和更新方向进行更新。
本申请实施例中的图像获取装置,通过对权重向量的更新,得到符合预设条件的权重向量,根据所述权重向量对原始图像进行加权处理,能够使加权得到的加权图像中原始图像的关键信息尽可能的保留,同时使非关键信息尽可能的去除,从而使得获取原始图像的关键信息的准确度更高。本申请实施例获取的原始图像的关键信息,对模型如何做出识别结果给出了准确依据,使得优化调整模型结构更加准确
示例性介质
在介绍了本申请实施例中的方法和装置之后,接下来对本申请实施例中的计算机可读存储介质进行说明,在本申请实施例中计算机可读存储介质为光盘,其上存储有计算机程序(即程序产品或指令),所述计算机程序在被计算机运行时,会实现上述方法实施例中所记载的各步骤,例如,获取原始图像以及权重向量;基于所述原始图像和所述权重向量,获取加权图像、第一数据和第二数据;若所述第一数据小于第一预设阈值,或所述第二数据小于第二预设阈值,则更新所述权重向量、所述第一数据和第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值;基于最后一个时间步长更新得到的权重向量,从所述原始图像中获取关键图像。各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
示例性处理设备
上面从模块化功能实体的角度对本申请实施例中的图像获取装置60进行了描述,下面从硬件处理的角度分别对本申请实施例中的执行图像获取方法的服务器、终端设备进行描述。
需要说明的是,在本申请图像获取装置实施例的图10所示的输入输出模块600对应的实体设备可以为输入/输出单元、收发器、射频电路、通信模块和输入/输出(I/O)接口等,处理模块610对应的实体设备可以为处理器。图10所示的图像获取装置60可以具有如图11所示的结构,当图10所示的图像获取装置60具有如图11所示的结构时,图11中的处理器和收发器能够实现前述对应该装置的装置实施例提供的处理模块610和输入输出模块600相同或相似的功能,图11中的存储器存储处理器执行上述图像获取方法时需要调用的计算机程序。
本申请实施例还提供了一种终端设备,如图12所示,为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(Personal Digital Assistant,PDA)、销售终端设备(Point of Sales,POS)、车载电脑等任意终端设备,以终端设备为手机为例:
图12示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图12,手机包括:射频(Radio Frequency,RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(wireless fidelity,WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解,图12中示出的手机结构并不构成对手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图12对手机的各个构成部件进行具体的介绍:
RF电路1010可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1080处理;另外,将设计上行的数据发送给基站。通常,RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(LowNoiseAmplifier,LNA)、双工器等。此外,RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(GlobalSystem of Mobile communication,GSM)、通用分组无线服务(General PacketRadioService,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器1020可用于存储软件程序以及模块,处理器1080通过运行存储在存储器1020的软件程序以及模块,从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1020可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
输入单元1030可用于接收输入的数字或字符信息,以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器1080,并能接收处理器1080发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031,输入单元1030还可以包括其他输入设备1032。具体地,其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041,可选的,可以采用液晶显示器(LiquidCrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板1041。进一步的,触控面板1031可覆盖显示面板1041,当触控面板1031检测到在其上或附近的触摸操作后,传送给处理器1080以确定触摸事件的类型,随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图12中,触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能,但是在某些实施例中,可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。
手机还可包括至少一种传感器1050,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度,接近传感器可在手机移动到耳边时,关闭显示面板1041和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1060、扬声器1061,传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号,传输到扬声器1061,由扬声器1061转换为声音信号输出;另一方面,传声器1062将收集的声音信号转换为电信号,由音频电路1060接收后转换为音频数据,再将音频数据输出处理器1080处理后,经RF电路1010以发送给比如另一手机,或者将音频数据输出至存储器1020以便进一步处理。
WiFi属于短距离无线传输技术,手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块1070,但是可以理解的是,其并不属于手机的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1080是手机的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1020内的软件程序和/或模块,以及调用存储在存储器1020内的数据,执行手机的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1080可包括一个或多个处理单元;可选的,处理器1080可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1080中。
手机还包括给各个部件供电的电源1090(比如电池),可选的,电源可以通过电源管理系统与处理器1080逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该手机所包括的处理器1080还具有控制执行以上发送原始图像的步骤流程。
本申请实施例还提供了一种服务器,请参阅图13,图13是本申请实施例提供的一种服务器结构示意图,该服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(英文全称:central processing units,英文简称:CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储设备)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图13中未示出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1120,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
上述实施例中由服务器所执行的步骤可以基于该图13所示的服务器1100的结构。例如,例如上述实施例中由图10所示的图像获取装置60所执行的步骤可以基于该图13所示的服务器结构。例如,所述中央处理器1122通过调用存储器1132中的指令,执行以下操作:
通过输入输出接口1158获取原始图像以及权重向量;
中央处理器1122基于所述原始图像和所述权重向量,获取加权图像;
通过输入输出接口1158将所述原始图像和所述加权图像传输至图像识别模型,以识别所述加权图像中保留的原始图像的关键信息,以及去除的非关键信息,得到第一数据和第二数据;
若第一数据不小于第一预设阈值,且第二数据不小于第二预设阈值,中央处理器1122则将所述权重向量作为最终的权重向量。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。
Claims (10)
1.一种图像获取方法,包括:
获取原始图像以及权重向量;
基于所述原始图像和所述权重向量,获取加权图像、第一数据和第二数据,其中,所述加权图像为所述原始图像基于权重向量加权而得,所述第一数据表示所述加权图像中保留的原始图像的关键信息与所述原始图像中全部关键信息的比例,所述第二数据表示所述加权图像中去除的原始图像的信息与所述原始图像中全部信息的比例;
若所述第一数据小于第一预设阈值,或所述第二数据小于第二预设阈值,则更新所述权重向量、所述第一数据和所述第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值;
基于最后一个时间步长更新得到的权重向量,从所述原始图像中获取关键图像。
2.如权利要求1所述的图像获取方法,其中,所述第一数据通过如下方式获得:
基于所述加权图像获取加权特征图;
获取所述加权特征图和原始特征图的相似度,所述原始特征图基于所述原始图像获取;
根据所述相似度确定所述第一数据;
所述第二数据通过如下方式获得:
基于所述权重向量中各个权重向量元素的数值,获取所述第二数据。
3.根据权利要求2所述的图像获取方法,所述更新所述权重向量、所述第一数据和所述第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值,包括:
基于所述加权特征图和所述原始特征图之间的相似度确定第一损失值,其中,所述第一损失值与所述相似度呈反比;
基于所述权重向量中各个权重向量元素数值的平均值确定第二损失值;
根据所述第一损失值以及所述第二损失值对所述权重向量进行更新,并基于更新后的权重向量重新获取第一损失值和第二损失值,直至第一损失值与第二损失值之和达到最小;
其中,在所述第一损失值与所述第二损失值之和最小时,所述加权图像的第一数据不小于第一预设阈值且第二数据不小于第二预设阈值。
4.如权利要求2所述的图像获取方法,其中,更新所述权重向量、所述第一数据和所述第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值,包括:
基于所述加权特征图和所述原始特征图之间的相似度确定第一损失值,其中,所述第一损失值与所述相似度呈反比;
基于所述权重向量中各个权重向量元素数值的平均值确定第二损失值;
基于所述权重向量中相邻权重向量元素数值之间差值的平均值,确定第三损失值,所述第三损失值代表基于所述权重向量计算得到的加权图像中相邻像素之间的平顺度;
根据所述第一损失值、所述第二损失值以及所述第三损失值对所述权重向量进行更新,并基于更新后的权重向量重新获取第一损失值、第二损失值和第三损失值,直至第一损失值、第二损失值以及第三损失值之和达到最小;
其中,在所述第一损失值、所述第二损失值以及所述第三损失值之和最小时,所述加权图像的第一数据不小于第一预设阈值且第二数据不小于第二预设阈值。
5.如权利要求3或4所述的图像获取方法,其中,在基于原始图像以及权重向量确定各个损失值之后,所述方法还包括:
根据各个损失值对所述权重向量进行更新,并基于更新后的权重向量重新获取各个损失值,直至更新后的权重向量与更新前的权重向量的相似度大于第三预设阈值;
或者,根据各个损失值对所述权重向量进行更新,并基于更新后的权重向量重新获取各个损失值,直至权重向量的更新次数大于第四预设阈值。
6.如权利要求3或4所述的图像获取方法,其中,根据各个损失值对所述权重向量进行更新,包括:
根据各个损失值之和计算所述权重向量的梯度;
利用所述梯度确定每个权重向量元素的更新量和更新方向;
针对每个权重向量元素,采用对应的更新量和更新方向进行更新;
其中,所述更新方向包括正更新方向和负更新方向;
在所述更新方向为正更新方向时,采用对应的更新量调大对应权重向量元素的值;
在所述更新方向为负更新方向时,采用对应的更新量调小对应权重向量元素的值。
7.如权利要求6所述的图像获取方法,根据各个损失值之和计算所述权重向量的梯度之后,所述方法还包括:
获取上一时间步长更新每个权重向量元素时,各个权重向量元素的第一更新量;
根据所述梯度以及每个所述第一更新量,确定对应权重向量元素的第二更新量和更新方向;
针对每个权重向量元素,采用对应的第二更新量和更新方向进行更新。
8.一种图像获取装置,包括:
输入输出模块,用于获取原始图像以及权重向量;
处理模块,用于基于所述原始图像和所述权重向量,获取加权图像、第一数据和第二数据,其中,所述加权图像为所述原始图像基于权重向量加权而得,所述第一数据表示所述加权图像中保留的原始图像的关键信息与所述原始图像中全部关键信息的比例,所述第二数据表示所述加权图像中去除的原始图像的信息与所述原始图像中全部信息的比例;以及
若所述第一数据小于第一预设阈值,或所述第二数据小于第二预设阈值,则更新所述权重向量、所述第一数据和所述第二数据,直至第一数据不小于第一预设阈值且第二数据不小于第二预设阈值;
所述处理模块,还用于基于最后一个时间步长更新得到的权重向量,从所述原始图像中获取关键图像。
9.一种处理设备,所述处理设备包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~7中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578376.5A CN114943639B (zh) | 2022-05-24 | 2022-05-24 | 图像获取方法、相关装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210578376.5A CN114943639B (zh) | 2022-05-24 | 2022-05-24 | 图像获取方法、相关装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114943639A CN114943639A (zh) | 2022-08-26 |
CN114943639B true CN114943639B (zh) | 2023-03-28 |
Family
ID=82909828
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210578376.5A Active CN114943639B (zh) | 2022-05-24 | 2022-05-24 | 图像获取方法、相关装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114943639B (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014132830A1 (ja) * | 2013-02-28 | 2014-09-04 | 株式会社 日立メディコ | 画像処理装置、磁気共鳴イメージング装置および画像処理方法 |
US9754182B2 (en) * | 2015-09-02 | 2017-09-05 | Apple Inc. | Detecting keypoints in image data |
JP6915473B2 (ja) * | 2017-09-22 | 2021-08-04 | 沖電気工業株式会社 | 符号化装置及びプログラム、復号装置及びプログラム、並びに、画像処理システム |
CN108629743B (zh) * | 2018-04-04 | 2022-03-25 | 腾讯科技(深圳)有限公司 | 图像的处理方法、装置、存储介质和电子装置 |
CN111583097A (zh) * | 2019-02-18 | 2020-08-25 | 北京三星通信技术研究有限公司 | 图像处理方法、装置、电子设备及计算机可读存储介质 |
WO2021151276A1 (zh) * | 2020-05-20 | 2021-08-05 | 平安科技(深圳)有限公司 | 基于oct图像的图像识别方法、装置、设备及存储介质 |
CN111898751B (zh) * | 2020-07-29 | 2022-11-25 | 苏州浪潮智能科技有限公司 | 一种数据处理的方法、系统、设备及可读存储介质 |
WO2022057837A1 (zh) * | 2020-09-16 | 2022-03-24 | 广州虎牙科技有限公司 | 图像处理和人像超分辨率重建及模型训练方法、装置、电子设备及存储介质 |
CN112183496B (zh) * | 2020-11-06 | 2023-06-20 | 平安科技(深圳)有限公司 | 人脸识别信息的二次加密方法、装置、设备及存储介质 |
-
2022
- 2022-05-24 CN CN202210578376.5A patent/CN114943639B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114943639A (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321965B (zh) | 物体重识别模型的训练方法、物体重识别的方法及装置 | |
CN111985265B (zh) | 图像处理方法和装置 | |
CN114297730B (zh) | 对抗图像生成方法、装置及存储介质 | |
CN110059652B (zh) | 人脸图像处理方法、装置及存储介质 | |
CN111209423B (zh) | 一种基于电子相册的图像管理方法、装置以及存储介质 | |
CN114387647B (zh) | 对抗扰动生成方法、装置及存储介质 | |
WO2017088434A1 (zh) | 人脸模型矩阵训练方法、装置及存储介质 | |
CN113822427A (zh) | 一种模型训练的方法、图像匹配的方法、装置及存储介质 | |
CN115937638A (zh) | 模型训练方法、图像处理方法、相关装置及存储介质 | |
CN116486463B (zh) | 图像处理方法、相关装置及存储介质 | |
CN112818733B (zh) | 信息处理方法、装置、存储介质及终端 | |
CN110135329B (zh) | 从视频中提取姿势的方法、装置、设备及存储介质 | |
CN115081643B (zh) | 对抗样本生成方法、相关装置及存储介质 | |
CN115171196B (zh) | 人脸图像处理方法、相关装置及存储介质 | |
CN114943639B (zh) | 图像获取方法、相关装置及存储介质 | |
CN113569822B (zh) | 图像分割方法、装置、计算机设备及存储介质 | |
CN115392405A (zh) | 模型训练方法、相关装置及存储介质 | |
CN115239941A (zh) | 对抗图像生成方法、相关装置及存储介质 | |
CN114612531A (zh) | 一种图像处理方法、装置、电子设备及存储介质 | |
CN111597823B (zh) | 中心词提取方法、装置、设备及存储介质 | |
CN111737415A (zh) | 实体关系抽取方法、实体关系学习模型的获取方法及设备 | |
CN116580268B (zh) | 图像目标定位模型的训练方法、图像处理方法及相关产品 | |
CN114743081B (zh) | 模型训练方法、相关装置及存储介质 | |
CN117218506A (zh) | 用于图像识别的模型训练方法、图像识别方法及相关装置 | |
CN116884049A (zh) | 一种人脸的识别方法、装置以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |