CN116821399A - 照片处理方法及相关设备 - Google Patents
照片处理方法及相关设备 Download PDFInfo
- Publication number
- CN116821399A CN116821399A CN202311072262.4A CN202311072262A CN116821399A CN 116821399 A CN116821399 A CN 116821399A CN 202311072262 A CN202311072262 A CN 202311072262A CN 116821399 A CN116821399 A CN 116821399A
- Authority
- CN
- China
- Prior art keywords
- photo
- photos
- feature
- hardware
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 52
- 230000015654 memory Effects 0.000 claims description 96
- 238000001514 detection method Methods 0.000 claims description 93
- 230000006870 function Effects 0.000 claims description 37
- 238000004138 cluster model Methods 0.000 claims description 8
- 238000012856 packing Methods 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 38
- 230000006854 communication Effects 0.000 description 38
- 238000007726 management method Methods 0.000 description 23
- 230000001133 acceleration Effects 0.000 description 20
- 230000008569 process Effects 0.000 description 19
- 238000004422 calculation algorithm Methods 0.000 description 18
- 238000010586 diagram Methods 0.000 description 15
- 230000005236 sound signal Effects 0.000 description 13
- 238000010295 mobile communication Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 9
- 210000000887 face Anatomy 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 6
- 238000012549 training Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000001360 synchronised effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 229920001621 AMOLED Polymers 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000002096 quantum dot Substances 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 238000013529 biological neural network Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000000988 bone and bone Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 210000004709 eyebrow Anatomy 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000005855 radiation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/30—Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供一种照片处理方法及相关设备,所述方法包括:通过电子设备的框架层获取电子设备的图库应用程序中的多个照片,并通过框架层将多个照片发送至电子设备的硬件抽象层;通过调用第一硬件资源,硬件抽象层运行特征提取模型提取多个照片的目标特征;通过调用第二硬件资源,硬件抽象层运行特征聚类模型对多个照片的目标特征进行聚类,获取多个照片的目标特征的聚类特征;根据聚类特征对所述图库应用程序中的所述多个照片进行存储。本申请实施例图库应用程序通过框架层与硬件抽象层通信,通过硬件抽象层调用硬件资源运行图像处理模型,进行照片特征的提取和聚类,缩短照片处理时间,有效提高电子设备的照片处理效率。
Description
技术领域
本申请涉及终端技术领域,属于图像处理技术,尤其涉及一种照片处理方法及相关设备。
背景技术
随着终端技术的发展,具有拍摄功能的智能手机、平板电脑等智能终端设备使得用户可以通过拍摄照片或拍摄视频的方式记录各类场景。随着智能终端设备的使用,拍摄并存储的照片越来越多,或者,在用户外出游玩时,可能在短时间内拍摄大量照片,并且随着照片数量的增多,用户往往需要花费大量时间对照片进行整理,例如,在将包含相同人像的多个照片添加到对应的相册中时,用户需要手动查找照片并归类,操作较为繁琐,并且分类效率较低,导致用户体验不佳。
发明内容
鉴于以上内容,有必要提供一种照片处理方法及相关设备,解决上述用户手动查找照片并归类的操作繁琐、分类效率低的问题。
第一方面,本申请提供一种照片处理方法,应用于电子设备,所述方法包括:通过所述电子设备的框架层获取所述电子设备的图库应用程序中的多个照片,并通过所述框架层将所述多个照片发送至所述电子设备的硬件抽象层;通过调用第一硬件资源,所述硬件抽象层运行特征提取模型提取所述多个照片的目标特征;通过调用第二硬件资源,所述硬件抽象层运行特征聚类模型对所述多个照片的目标特征进行聚类,获取所述多个照片的目标特征的聚类特征;根据所述聚类特征对所述图库应用程序中的所述多个照片进行存储。
通过上述技术方案,图库应用程序通过框架层与硬件抽象层通信,通过硬件抽象层调用硬件资源运行图像处理模型,进行照片分类,缩短照片处理时间,有效提高电子设备的照片分类效率。
在一种可能的实现方式中,所述硬件抽象层包括硬件算力开放框架,所述通过调用第一硬件资源,所述硬件抽象层运行特征提取模型提取所述多个照片的目标特征,包括:所述硬件算力开放框架根据所述特征提取模型确定待调用的所述第一硬件资源;所述硬件算力开放框架通过调用所述第一硬件资源运行所述特征提取模型,提取每个照片的目标特征。
通过上述技术方案,将特征提取模型集成在硬件抽象层的硬件算力开放框架,硬件算力开放框架可以访问硬件资源对特征提取模型的运行进行硬件加速,从而提高照片的特征提取效率。
在一种可能的实现方式中,所述目标特征为人脸特征,所述通过调用第一硬件资源,所述硬件抽象层运行特征提取模型提取所述多个照片的目标特征,包括:硬件算力开放框架通过调用第一硬件资源运行特征提取模型,确定照片中的人脸矩形框;检测人脸矩形框中的多个特征点;提取多个特征点的坐标;输出多个特征点的坐标。
通过上述技术方案,将特征提取模型集成在硬件抽象层的硬件算力开放框架,硬件算力开放框架可以访问硬件资源对特征提取模型的运行进行硬件加速,从而提高照片的人脸特征提取效率。
在一种可能的实现方式中,所述硬件算力开放框架包括多个预设模型,每个预设模型具有对应的硬件资源,所述硬件算力开放框架根据所述特征提取模型确定待调用的所述第一硬件资源,包括:所述硬件算力开放框架根据多个预设模型与所述硬件资源之间的对应关系确定所述特征提取模型对应的第一硬件资源。
通过上述技术方案,硬件算力开放框架可以访问特征提取模型对应的硬件资源,从而对特征提取模型的运行进行加速。
在一种可能的实现方式中,所述方法还包括:检测每个照片是否具有人脸信息;若所述照片不具有人脸信息,检测所述照片是否经过人脸检测;若所述照片未经过人脸检测,所述硬件算力开放框架通过调用第三硬件资源运行人脸检测模型,检测所述照片是否包括人脸;若所述照片具有所述人脸信息,或通过所述人脸检测模型检测得到所述人脸信息,确定所述照片包括人脸;若所述照片不具有所述人脸信息且经过人脸检测,或通过所述人脸检测模型未检测得到所述人脸信息,确定所述照片不包括人脸。
通过上述技术方案,将人脸检测模型集成在硬件抽象层的硬件算力开放框架,硬件算力开放框架可以访问硬件资源对人脸检测模型的运行进行硬件加速,从而提高照片的人脸检测效率。
在一种可能的实现方式中,所述硬件算力开放框架通过调用第三硬件资源运行人脸检测模型,检测所述照片是否包括人脸,包括:通过所述人脸检测模型检测所述照片的人脸矩形框,若未从所述照片检测到所述人脸矩形框,确定所述照片不包括人脸;若从所述照片检测到所述人脸矩形框,输出所述人脸信息。
根据上述技术方案,通过人脸检测模型是否检测到照片中的人脸矩形框来确定照片是否包括人脸,检测速度较快,有效提高了检测效率。
在一种可能的实现方式中,所述检测每个照片是否具有人脸信息,包括:获取所述照片的照片标识,根据所述照片标识在图库数据库中查找所述照片标识对应的照片信息;若在所述图库数据库中查找到所述照片标识对应的人脸信息,确定所述照片具有所述人脸信息;若未在所述图库数据库中查找到所述照片标识对应的人脸信息,确定所述照片不具有所述人脸信息。
通过上述技术方案,根据照片标识在图库数据库中查找照片信息,提高了照片信息的查找效率,从而可以快速地确定照片是否包括人脸信息。
在一种可能的实现方式中,所述检测照片是否经过人脸检测,包括:根据所述照片标识在所述图库数据库中查找所述照片标识对应的检测标识;若所述照片标识对应的检测标识为第一标识,确定所述照片经过人脸检测;若所述照片标识对应的检测标识为第二标识,确定所述照片未经过人脸检测。
根据上述技术方案,通过给照片添加检测标识,可以快速地确定照片是否经过人脸检测。
在一种可能的实现方式中,所述通过调用第二硬件资源,所述硬件抽象层运行特征聚类模型对所述多个照片的目标特征进行聚类,获取所述多个照片的目标特征的聚类特征,包括:所述硬件抽象层的硬件算力开放框架根据所述特征聚类模型确定待调用的所述第二硬件资源;所述硬件算力开放框架通过调用所述第二硬件资源运行所述特征聚类模型,设置多个照片的类别数量K,并随机选择K个初始聚类中心;计算每个照片的目标特征与每个聚类中心之间的距离;确定与每个照片的目标特征距离最小的聚类中心,并将所述照片的目标特征的类别确定为距离最小的聚类中心对应的类别;若所述特征聚类模型的损失函数的输出值小于或等于预设值,确定所述多个照片的目标特征完成聚类,将每个类别的聚类中心作为每个类别的目标特征对应的聚类特征;或若所述特征聚类模型的损失函数的输出值大于预设值,更新每个类别的聚类中心,计算每个照片的目标特征与每个更新的聚类中心之间的距离,并将所述照片的目标特征的类别确定为所述距离最小的更新聚类中心对应的类别。
通过上述技术方案,将特征聚类模型集成在硬件抽象层的硬件算力开放框架,硬件算力开放框架可以访问硬件资源对特征聚类模型的运行进行硬件加速,从而提高照片的特征聚类效率。
在一种可能的实现方式中,所述根据所述聚类特征对所述图库应用程序中的所述多个照片进行存储,包括:根据关联的所述目标特征的聚类特征与所述多个照片的照片信息将每个聚类特征对应的多个照片打包为文件夹,并存储至所述电子设备的图库数据库。
通过上述技术方案,根据聚类得到的聚类特征对照片进行分类存储,提高了照片的分类效率。
在一种可能的实现方式中,所述方法还包括:根据所述目标特征的聚类特征创建对应的照片合集;根据每个照片合集中的照片数量对多个所述照片合集进行排序显示。
通过上述技术方案,根据聚类得到的聚类特征创建照片合集,便于用户查看不同类别的目标对象的照片。
在一种可能的实现方式中,所述方法还包括:响应用户开启相机应用程序的操作和拍摄操作,控制摄像头拍摄照片;通过所述电子设备的图像处理模块获取所述摄像头当前拍摄的照片,并将所述当前拍摄的照片发送至所述硬件抽象层的硬件算力开放框架;通过调用第四硬件资源,所述硬件算力开放框架运行目标检测模型,识别所述当前拍摄的照片中的目标对象的位置和类型;根据所述当前拍摄的照片中的所述目标对象的位置和类型更新拍摄参数,并根据更新的拍摄参数拍摄所述目标对象的照片。
通过上述技术方案,可以在硬件抽象层对摄像头拍摄的照片进行特征提取和识别,根据识别的目标对象类型调整摄像头的拍摄参数,以优化照片的拍摄效果。
在一种可能的实现方式中,所述方法还包括:响应用户开启相机应用程序的操作,硬件算力开放框架获取预览图像;通过调用第一硬件资源,硬件算力开放框架运行特征提取模型,提取预览图像的目标特征;确定预览图像的目标特征对应的照片合集,并根据预览图像的目标特征对应的照片合集中的照片数量对所述目标特征对应的目标对象进行对焦。
通过上述技术方案,在拍摄照片时,可以自动选择对焦对象。
在一种可能的实现方式中,所述根据所述预览图像的目标特征对应的所述照片合集中的照片数量对所述目标特征对应的目标对象进行对焦,包括:若所述预览图像中的目标对象数量等于一个,对所述目标对象进行对焦;或若所述预览图像中的目标对象数量大于一个,对所述预览图像的多个目标对象的多个目标特征分别对应的照片合集的照片数量进行比对,确定所述照片合集的照片数量最多的目标特征;对所述照片合集的照片数量最多的目标特征对应的目标对象进行对焦。
通过上述技术方案,在拍摄照片时,可以优先对照片合集中特征数量较多的目标对象进行对焦,使得拍摄得到的照片符合用户需求,有效提升用户体验。
第二方面,本申请提供一种电子设备,所述电子设备包括存储器和处理器:其中,所述存储器,用于存储程序指令;所述处理器,用于读取并执行所述存储器中存储的所述程序指令,当所述程序指令被所述处理器执行时,使得所述电子设备执行上述的照片处理方法。
第三方面,本申请提供一种芯片,与电子设备中的存储器耦合,所述芯片用于控制所述电子设备的处理器执行上述的照片处理方法。
第四方面,本申请提供一种计算机存储介质,所述计算机存储介质存储有程序指令,当所述程序指令在电子设备上运行时,使得所述电子设备的处理器执行上述的照片处理方法。
另外,第二方面至第四方面所带来的技术效果可参见上述方法部分各设计的方法相关的描述,此处不再赘述。
附图说明
图1是本申请一实施例提供的图库应用程序界面的示意图。
图2是本申请一实施例提供的另一图库应用程序界面的示意图。
图3是本申请一实施例提供的另一图库应用程序界面的示意图。
图4是本申请一实施例提供的电子设备的软件架构图。
图5是本申请一实施例提供的照片处理方法的流程图。
图6是本申请一实施例提供的电子设备的另一软件架构图的示意图。
图7是本申请一实施例提供的特征提取的流程图。
图8是本申请一实施例提供的提取照片的目标特征的流程图。
图9是本申请一实施例提供的人脸检测的流程图。
图10是本申请一实施例提供的特征聚类的流程图。
图11是本申请另一实施例提供的照片处理方法的流程图。
图12是本申请一实施例提供的电子设备的另一软件架构图的示意图。
图13是本申请另一实施例提供的照片处理方法的流程图。
图14是本申请另一实施例提供的照片处理方法的流程图。
图15是本申请一实施例提供的人脸特征提取的处理时序图。
图16是本申请一实施例提供的人脸特征聚类的处理时序图。
图17是本申请一实施例提供的电子设备的硬件架构图。
具体实施方式
在本申请的一实施例中所涉及的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。在本申请实施例的描述中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。在本申请的一实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请中的技术领域的技术人员通常理解的含义相同。本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。应理解,本申请中除非另有说明,“/”表示或的意思。例如,A/B可以表示A或B。本申请中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B三种情况。“至少一个”是指一个或者多个。“多个”是指两个或多于两个。例如,a、b或c中的至少一个,可以表示:a,b,c,a和b,a和c,b和c,a、b和c七种情况。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
随着终端技术的发展,具有拍摄功能的智能手机、平板电脑等智能终端设备使得用户可以通过拍摄照片或拍摄视频的方式记录各类场景。随着智能终端设备的使用,拍摄并存储的照片越来越多,或者,在用户外出游玩时,可能在短时间内拍摄大量照片,并且随着照片数量的增多,用户往往需要花费大量时间对照片进行整理。例如,用户可以将包含相同人像的多个照片添加到对应的相册中,以便于后续查看一人像(例如儿子、女儿、丈夫等)对应的多个照片。而在将包含相同人像的多个照片添加到对应的相册中时,用户需要手动查找照片并归类,操作较为繁琐,并且分类效率较低,导致用户体验不佳。
电子设备可以采用各种图像处理模型(例如图像特征提取算法、图像特征聚类算法等)自动对照片进行分类,无需人工操作。然而,图像处理模型的高性能运行通常依赖于数字信号处理器(Digital Signal Processor,DSP)等电子设备的底层硬件资源的加速,照片存储于图库应用程序对应的图库数据库中,在图像处理模型集成在图库应用程序的情况下,由于图库应用程序无法直接访问电子设备的底层硬件资源,图像处理模型的运行得不到硬件加速,如果照片数量较多,即使采用图像处理模型进行照片分类,仍需要花费大量时间,导致分类效率较低。
照片处理方法的详细实现过程可参考下文各个实施例中的描述。
为了更好地理解本申请实施例提供的照片处理方法,下面结合图1、图2、图3对本申请实施例提供的照片处理方法的应用场景进行描述。参阅图1所示,为本申请一实施例提供的图库应用程序界面的示意图。用户开启电子设备的相机应用程序(即开启摄像头)拍摄照片时,拍摄的照片可以自动存储在图库数据库中,并显示在图库应用程序界面。图库应用程序界面上显示的照片存储于图库数据库中,图库数据库为电子设备的存储器中用于存储照片及/或视频的存储区域。在图库应用程序界面,照片通常可以自动根据拍摄时间进行排序,拍摄时间包括年份、月份、日期、具体时刻,以便于用户根据拍摄时间查看照片。然而,随着电子设备使用时长的增加,图库数据库中的照片越来越多,用户通常倾向于查看当前或近期拍摄的照片,由于照片仅根据拍摄时间排序,查找拍摄时间较长的照片需要花费一定的时间。
参阅图2所示,为本申请一实施例提供的另一图库应用程序界面的示意图。图库应用程序可以根据不同的类型或主题(例如人像、风景、美食、宠物等)在图库数据库中创建多个文件夹,每个文件夹用于存储对应类型或主题的照片合集,照片合集在图库应用程序中以相册的形式呈现。照片合集的类型或主题包括,但不限于,人像、宠物、美食、风景,人像照片合集包括图库数据库中包含人像的照片,宠物照片合集包括图库数据库中包含宠物的照片,美食照片合集包括图库数据库中包含食物的照片,风景照片合集包括图库数据库中包含自然景观的照片。根据不同的类型或主题将图库数据库中的照片划分为不同的照片合集,可以方便用户查看不同类型或不同主题的多个照片,无需在所有照片中进行翻阅查找。
参阅图3所示,为本申请一实施例提供的另一图库应用程序界面的示意图。图库应用程序还可以在人像照片合集中包括不同人物的子人像照片合集,例如电子设备机主儿子的子人像照片合集、女儿的子人像照片合集等。根据不同的人物将图库数据库中的照片划分为不同的照片合集,可以方便用户查看各个人物的多个照片,无需在所有照片中进行翻阅查找。
然而,在需要分类的照片数量较多的情况下,用户手动查找照片并归类的操作较为繁琐,并且分类效率较低,导致用户体验不佳。而在无法访问硬件资源进行硬件加速的情况下,图库应用程序中的图像处理模型也无法快速完成照片分类,导致照片分类效率较低。
为了避免由于用户手动查找照片并归类的操作繁琐,以及图库应用程序无法直接访问硬件资源进行图像处理模型运行的硬件加速,导致照片的分类效率低,本申请实施例提供一种照片处理方法,图库应用程序通过框架层与硬件抽象层通信,通过硬件抽象层调用硬件资源运行图像处理模型,进行照片分类,缩短照片处理时间,有效提高电子设备的照片分类效率。
参阅图4所示,为本申请实施例提供的电子设备的软件架构图。分层架构将软件分成若干个层,每一层都有清晰的角色和分工。层与层之间通过软件接口通信。例如,安卓系统从上至下分别为应用程序层101,框架层102,安卓运行时(Android runtime)和系统库103,硬件抽象层104,内核层105,硬件层106。
应用程序层101可以包括一系列应用程序包。例如,应用程序包可以包括相机,图库,日历,通话,地图,导航,WLAN,蓝牙,音乐,视频,短信息,设备控制服务等应用程序。
框架层102为应用程序层的应用程序提供应用编程接口(ApplicationProgramming Interface,API)和编程框架。应用程序框架层包括一些预先定义的函数。例如,应用程序框架层可以包括窗口管理器,内容提供器,视图系统,电话管理器,资源管理器,通知管理器等。
其中,窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小,判断是否有状态栏,锁定屏幕,截取屏幕等。内容提供器用来存放和获取数据,并使这些数据可以被应用程序访问。所述数据可以包括视频,图像,音频,拨打和接听的电话,浏览历史和书签,电话簿等。视图系统包括可视控件,例如显示文字的控件,显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如,包括短信通知图标的显示界面,可以包括显示文字的视图以及显示图片的视图。电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通,挂断等)。资源管理器为应用程序提供各种资源,比如本地化字符串,图标,图片,布局文件,视频文件等。通知管理器使应用程序可以在状态栏中显示通知信息,可以用于传达告知类型的消息,可以短暂停留后自动消失,无需用户交互。比如通知管理器被用于告知下载完成,消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知,例如后台运行的应用程序的通知,还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息,发出提示音,电子设备振动,指示灯闪烁等。
Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。核心库包含两部分:一部分是java语言需要调用的功能函数,另一部分是安卓的核心库。
应用程序层101和框架层102运行在虚拟机中。虚拟机将应用程序层和框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理,堆栈管理,线程管理,安全和异常的管理,以及垃圾回收等功能。
系统库103可以包括多个功能模块。例如,表面管理器(surface manager),媒体库(Media Libraries),三维图形处理库(例如:OpenGL ES),2D图形引擎(例如SGL)等。
其中,表面管理器用于对显示子系统进行管理,并且为多个应用程序提供了2D和3D图层的融合。媒体库支持多种常用的音频,视频格式回放和录制,以及静态图像文件等。媒体库可以支持多种音视频编码格式,例如: MPEG4,H.264,MP3,AAC,AMR,JPG,PNG等。三维图形处理库用于实现三维图形绘图,图像渲染,合成,和图层处理等。2D图形引擎是2D绘图的绘图引擎。
硬件抽象层104运行于用户空间,对内核层驱动进行封装,向上层提供调用接口。
内核层105是硬件和软件之间的层。内核层105至少包含显示驱动,触控驱动,音频驱动,传感器驱动。
内核层105是电子设备的操作系统的核心,是基于硬件的第一层软件扩充,提供操作系统最基本的功能,是操作系统工作的基础,负责管理系统的进程、内存、设备驱动程序、文件和网络系统,决定了系统的性能和稳定性。例如,内核层可以决定一个应用程序对某部分硬件的操作时间。
内核层105包括与硬件紧密相关的程序,例如中断处理程序、设备驱动程序等,还包括基本的、公共的、运行频率较高的模块,例如时钟管理模块、进程调度模块等,还包括关键性的数据结构。内核层可以设置于处理器中,或固化在内部存储器。
硬件层106包括电子设备的硬件,例如显示屏、按键、摄像头等。
参阅图5所示,为本申请一实施例提供的照片处理方法的流程图。所述方法应用于电子设备中,所述照片处理方法包括:
S101,通过电子设备的框架层获取图库应用程序中的多个照片,并通过框架层将获取的多个照片发送至硬件抽象层。
参阅图6所示,电子设备的应用程序层101包括图库应用程序1011,用于对电子设备的照片进行存储、管理及显示,图库应用程序1011包括图库数据库,用于对电子设备的照片进行存储。框架层102包括媒体处理中心模块1021,媒体处理中心模块1021为媒体后处理中台,可以通过接口定义语言(Android Interface Definition Language,AIDL)与其他软件架构层通信,在不同软件架构层之间进行数据交互。硬件抽象层104包括照片处理模块1040,照片处理模块1040包括相机资源服务1041和硬件算力开放框架1042。
相机资源服务1041用于实现相机的硬件接口功能和软件接口功能,对相机资源进行管理,包括对相机硬件进行初始化、配置、图像采集、图像处理等,也为应用程序提供了统一的接口,使得相机应用程序和图库应用程序可以访问电子设备的摄像头,例如,允许相机应用程序使用摄像头拍摄照片等。
硬件算力开放框架1042是一种软件工具,可以利用硬件设备的计算能力,加速并优化特定任务的执行。硬件算力开放框架1042提供对底层硬件资源的访问和控制,以便进行并行计算、向量化计算或特定领域的硬件加速,使数学算法或深度学习模型能够更高效地利用硬件资源,实现更快速、更复杂的计算任务。硬件算力开放框架包括CUDA(ComputeUnified Device Architecture,统一计算设备架构)、OpenCL(Open Computing Language,开放计算语言)、TensorFlow(张量流图)等。硬件算力开放框架1042包括多个算法模块,用于调用硬件资源对摄像头拍摄的照片进行处理,多个算法模块包括但不限于:特征提取模型和特征聚类模型。媒体处理中心模块1021通过接口定义语言AIDL与应用程序层101的图库应用程序1011和硬件抽象层104的照片处理模块1040通信连接,使得图库应用程序1011与底层的照片处理模块1040进行数据交互。硬件层106包括硬件资源,硬件资源包括但不限于:中央处理器、图形处理器、显卡、微处理器、数字信号处理器、现场可编程门阵列(Field-Programmable Gate Array,FPGA)。
在本申请的一实施例中,图库应用程序1011将多个照片和每个照片的照片信息以及特征提取指令发送至电子设备的框架层,具体发送至框架层的媒体处理中心模块1021,媒体处理中心模块1021将多个照片和每个照片的照片信息、特征提取指令以及第一共享内存信息发送至照片处理模块1040,具体发送至照片处理模块1040的相机资源服务1041。其中,多个照片可以是图库应用程序1011中的所有照片,也可以是部分照片,部分照片可以是由用户批量选择的照片。照片信息包括但不限于:照片标识。
在本申请的一实施例中,第一共享内存信息包括共享内存的第一存储地址。共享内存是一种在多个进程之间共享数据的机制,允许多个进程访问相同的物理内存区域,从而实现了高效的数据交换和通信。通过将数据存储在共享内存中,不同的进程可以直接读取和写入这些数据,避免了复制数据的开销和通信的延迟。共享内存应用在本申请实施例中,不同的软件架构层(例如应用程序层、框架层、硬件抽象层)访问相同的物理内存区域,从而提高照片处理效率。
S102,通过调用第一硬件资源,硬件抽象层运行特征提取模型提取多个照片的目标特征。
在本申请的一实施例中,照片管理模块1040的相机资源服务1041接收多个照片和每个照片的照片信息、特征提取指令以及第一共享内存信息,响应特征提取指令,将多个照片和每个照片的照片信息发送至硬件算力开放框架1042中的特征提取模型,特征提取模型调用硬件资源提取多个照片的目标特征,将提取得到的目标特征与照片信息关联后发送至相机资源服务1041。相机资源服务1041根据第一共享内存信息,将关联的目标特征与照片信息存储至第一共享内存信息对应的共享内存区域,并将关联的目标特征与照片信息发送至媒体处理中心模块1021。媒体处理中心模块1021将关联的目标特征与照片信息发送至图库应用程序1011。
在本申请的一实施例中,媒体处理中心模块1021从第一共享内存信息对应的共享内存区域读取关联的多个照片的目标特征与照片信息,并将关联的多个照片的目标特征与照片信息发送至图库应用程序。在本申请的另一实施例中,媒体处理中心模块1021也可以将第一共享内存信息发送至图库应用程序,图库应用程序从第一共享内存信息对应的共享内存区域读取关联的多个照片的目标特征与照片信息。图库应用程序在接收或读取到关联的多个照片的目标特征与照片信息后,将关联的多个照片的目标特征与照片信息存储至图库数据库。此外,为避免共享内存的存储空间被占用,可以将共享内存中存储中的多个照片的目标特征与照片信息删除。
S103,通过调用第二硬件资源,硬件抽象层运行特征聚类模型对图库应用程序中多个照片的目标特征进行聚类,获取多个照片的目标特征的聚类特征。
在本申请的一实施例中,图库应用程序1011将多个照片和每个照片的照片信息以及特征聚类指令发送框架层,即,发送至媒体处理中心模块1021。媒体处理中心模块1021将多个照片和每个照片的照片信息存储至第二共享内存信息对应的共享内存区域,并将特征聚类指令以及第二共享内存信息发送至硬件抽象层,即,发送至硬件抽象层的照片处理模块1040。
在本申请的一实施例中,多个照片可以与多个照片相同,也可以是多个照片的子集。例如,多个照片可以是图库应用程序1011中的所有照片,或者是用户从多个照片中选择的多个照片。第二共享内存信息包括共享内存的第二存储地址,第二存储地址为多个照片和每个照片的照片信息在共享内存中的存储地址。
在本申请的一实施例中,照片处理模块1040的相机资源服务1041将特征聚类指令和第二共享内存信息发送至硬件算力开放框架1042。硬件算力开放框架1042从第二共享内存信息对应的共享内存区域读取多个照片和每个照片的照片信息,每个照片的照片信息从第一共享内存信息对应的共享内存区域读取多个照片的目标特征,通过调用第二硬件资源,硬件算力开放框架1042运行特征聚类模型,对多个照片的目标特征进行聚类,将聚类得到的目标特征的多个类别、每个类别对应的聚类特征与照片信息关联后发送至相机资源服务1041。相机资源服务1041将关联的目标特征的多个类别、每个类别对应的聚类特征与照片信息存储至第二共享内存信息对应的共享内存区域,并将第二共享内存信息发送至框架层的媒体处理中心模块1021。框架层的媒体处理中心模块1021将关联的目标特征的多个类别与照片信息发送至图库应用程序1011。
在本申请的一实施例中,聚类得到的目标特征的多个类别对应一类别ID,将属于一类别的多个目标特征对应的多个照片的聚类特征和照片标识与该类别的类别ID关联,得到目标特征的多个类别ID和每个类别ID对应的多个照片标识。
在本申请的一实施例中,媒体处理中心模块1021从第二共享内存信息对应的共享内存区域读取关联的目标特征的多个类别、每个类别对应的聚类特征与照片信息,并将关联的目标特征的多个类别、每个类别对应的聚类特征与照片信息发送至图库应用程序。在本申请的另一实施例中,媒体处理中心模块1021也可以将第二共享内存信息发送至图库应用程序,图库应用程序从第二共享内存信息对应的共享内存区域读取关联的目标特征的多个类别、每个类别对应的聚类特征与照片信息。图库应用程序在接收或读取到关联的目标特征的多个类别、每个类别对应的聚类特征与照片信息后,将关联的目标特征的多个类别、每个类别对应的聚类特征与照片信息存储至图库数据库。然后,为避免共享内存的存储空间被占用,可以将共享内存中存储中的目标特征的多个类别、每个类别对应的聚类特征与照片信息删除。
S104,根据聚类特征对图库应用程序中的多个照片进行存储。
在本申请的一实施例中,根据关联的目标特征的聚类特征与多个照片的照片信息将每个聚类特征对应的多个照片打包为文件夹,并存储至图库数据库。
在本申请的一实施例中,特征提取模型采用适合硬件加速的程序代码进行编写,由硬件算力开放框架运行。例如,适合硬件加速的程序代码可以高度并行化、适合密集型数据、减少数据传输、优化算法等。硬件加速通常利用并行处理的能力来提高性能,可以将计算任务划分为多个独立的子任务,以便在硬件上并行执行。硬件加速还可用于处理大规模数据集(例如,图库应用程序中的大量照片)或复杂的计算任务。因此,适合硬件加速的程序代码能够包含大量的数据操作和计算,以充分利用硬件资源。由于硬件加速通常涉及将数据从内存传输到硬件设备,并从硬件设备传输回内存,减少数据传输量可以提高性能。此外,适合硬件加速的程序代码使用优化的算法和数据结构,可以提高计算效率和资源利用率。适合硬件加速的程序代码可能因具体的硬件设备而异。不同的硬件平台可能有不同的架构和特性,因此程序代码的适应性也会有所不同。
通过上述实施例,将图像处理模型(例如特征提取模型和特征聚类模型,也可称为特征提取算法和特征聚类算法)集成在硬件抽象层,图库应用程序通过框架层与硬件抽象层通信,将照片发送至硬件抽象层进行处理,硬件抽象层可以访问和调用硬件资源运行图像处理模型提取照片特征和对照片特征进行分类,并确定每个分类的照片的聚类特征,从而对图像处理模型的运行进行硬件加速,并将提取的照片特征和照片特征的分类返回给图库应用程序,使得图库应用程序根据照片特征的分类和聚类特征对多个照片进行存储,有效提升了照片的分类效率,优化了用户的使用体验。
参阅图7所示,为本申请实施例提供的特征提取的流程图。
S201,硬件算力开放框架根据特征提取模型确定待调用的第一硬件资源。
在本申请的一实施例中,硬件算力开放框架可以包括多个预设模型,每个预设模型具有对应的硬件资源,用于在预设模型运行时进行硬件加速。例如,多个预设模型包括卷积神经网络模型和K均值聚类模型,卷积神经网络模型对应的硬件资源为图形处理器,K均值聚类模型对应的硬件资源为图形处理器或FPGA。若特征提取模型为卷积神经网络模型,硬件算力开放框架确定待调用的第一硬件资源为图形处理器。
在本申请的另一实施例中,特征提取模型包括多个预设运算操作,每个预设运算操作由对应的运算单元执行,运算单元包括,但不限于:图形处理器、张量计算核心(TensorCore)、应用特定集成电路(Application Specific Integrated Circuit,ASIC,也可称为“领域专用集成电路”)。在硬件算力开放框架获取多个照片和每个照片的照片信息后,确定特征提取模型的每个预设运算操作对应的运算单元,将确定的运算单元作为第一硬件资源,调用运算单元执行预设运算操作,从而提取每个照片的目标特征。
S202,硬件算力开放框架通过调用第一硬件资源运行特征提取模型,提取每个照片的目标特征。
在本申请的一实施例中,特征提取模型提取的目标特征类型与模型训练过程中采用的特征类型相同,例如,若特征提取模型在模型训练过程中采用的特征类型为人脸特征,则特征提取模型用于提取每个照片的人脸特征。又如,若特征提取模型在模型训练过程中采用的特征类型为宠物的图像特征,则特征提取模型用于提取每个照片的宠物特征。再如,若特征提取模型在模型训练过程中采用的特征类型为食物的图像特征,则特征提取模型用于提取每个照片的食物特征。
参阅图8所示,为本申请实施例提供的提取照片的目标特征的流程图。以特征提取模型提取照片的人脸特征为例对提取照片的目标特征的流程进行说明。
S2021,硬件算力开放框架通过调用第一硬件资源运行特征提取模型,确定照片中的人脸矩形框。
在本申请的一实施例中,特征提取模型可以是卷积神经网络模型,特征提取模型对应的卷积神经网络模型以人脸矩形框、人脸部位矩形框、人脸特征点位置为特征训练生成。在本申请的其他实施例中,特征提取模型也可以是基于Haar特征的级联分类器、Dlib人脸检测算法等。
在本申请的一实施例中,硬件算力开放框架通过调用第一硬件资源运行特征提取模型,通过特征提取模型将每个照片的尺寸转换为预设尺寸(例如800*600),并对照片进行灰度处理,然后确定照片中的人脸矩形框。在本申请的另一实施例中,也可以将照片的缩略图输入特征提取模型。在灰度处理的过程中,每个像素的RGB值被组合成一个单一的灰度值。常见的灰度化方法包括分量法、最大值法和平均值法等,本申请对此不作限制。
S2022,检测人脸矩形框中的多个特征点。
在本申请的一实施例中,通过特征提取模型在人脸矩形框中检测得到多个特征点。例如,多个特征点包括人脸矩形框中的两个眼睛的眼头和眼尾及鼻头。
S2023,提取多个特征点的坐标。
在本申请的一实施例中,通过特征提取模型确定多个特征点在照片中的像素坐标,作为每个特征点的坐标。
S2024,输出多个特征点的坐标。
在本申请的一实施例中,人脸特征提取算法以float(浮点)数值输出多个特征点的坐标对应的特征向量,例如,特征向量为points[(94,238),(98,271),(105,303),(113,334),(125,362)]。若照片中包括多个人脸,特征向量也有多个,包括target1,points[(100,200),(50,281),(60,305),(156,402),(95,320)];target2,points[(94,238),(98,271),(105,303),(113,334),(125,362)]。
在本申请的一实施例中,在对照片进行特征提取之前,可以先通过目标检测的方式判断照片是否包括目标对象,若照片包括目标对象,再提取照片中目标对象对应的目标特征。例如,目标对象为人脸,在通过人脸检测判定照片包括人脸后,再运行特征提取模型提取对应的人脸特征,以提高人脸特征提取效率。再如,目标对象为宠物,在通过宠物检测判定照片包括宠物后,再运行特征提取模型提取对应的宠物特征。
参阅图9所示,为本申请一实施例提供的人脸检测的流程图。
S301,检测照片是否具有人脸信息。若照片具有人脸信息,执行S304;若照片不具有人脸信息,执行S302。
在本申请的一实施例中,图库数据库存储有照片和对应的照片信息,照片信息包括,但不限于:照片标识和照片的人脸信息,其中,图库数据库中的每个照片在通过摄像头拍摄后存储在图库数据库时,自动生成对应照片的唯一标识符ID(Identifier),作为对应照片的照片标识。在本申请的一实施例中,照片标识可以根据照片的拍摄时间和拍摄顺序生成,例如,照片标识为“202306181”,其中,“20230618”是指照片的拍摄时间为2023年6月18日,“1”是指该照片为该日期拍摄的第一张照片。在本申请的其他实施例中,照片标识也可以是根据拍摄顺序确定的拍摄序号或随机生成的由数字或字母+数字组成的标识。
在本申请的一实施例中,获取照片的照片信息中的照片标识,根据照片标识在图库数据库中查找照片标识对应的照片信息。若在图库数据库中查找得到照片标识对应的人脸信息,确定照片具有人脸信息,若未在图库数据库中查找到照片标识对应的人脸信息,确定照片不具有人脸信息。
S302,检测照片是否经过人脸检测。若照片经过人脸检测,执行S305;若照片未经过人脸检测,执行S303。
在本申请的一实施例中,图库数据库还存储有照片的检测标识,检测标识可以包括两个标识:第一标识与第二标识,例如,第一标识表明照片经过检测,表示为1,第二标识表明照片未经过检测,表示为0。若检测到照片的检测标识为0,表示照片未经过检测,若检测到照片的检测标识为1,表示照片经过检测。承接上述实施例,若照片不具有人脸信息,可以根据照片标识在图库数据库中查找与照片标识对应的检测标识,若在图库数据库中查找得到的照片标识对应的检测标识为第一标识,即为1,确定照片经过人脸检测,若在图库数据库中查找得到的照片标识对应的检测标识为第二标识,即为0,确定照片未经过人脸检测。
在本申请的另一实施例中,照片的检测标识也可以包含在照片标识中,例如,位于照片标识的第一位。若照片不具有人脸信息,可以获取照片标识的第一位数值,若照片标识的第一位数值为1,则照片标识对应的检测标识为1,确定照片经过人脸检测,若照片标识的第一位数值为0,则照片标识对应的检测标识为0,确定照片未经过人脸检测。例如,照片标识为“0202306181”,第一位为0,则表示该照片未经过人脸检测。
S303,硬件算力开放框架通过调用第三硬件资源运行人脸检测模型,检测照片是否包括人脸。若通过人脸检测模型检测得到人脸信息,执行S304;若通过人脸检测模型未检测得到人脸信息,执行S305。
在本申请的一实施例中,硬件算力开放框架1042还包括人脸检测模型,人脸检测模型为卷积神经网络模型,人脸检测模型对应的卷积神经网络模型以人脸矩形框为特征训练生成,人脸矩形框为将人脸中的多个部位包含在内的最小矩形框,多个部位可以包括眉毛、眼睛、鼻子、嘴巴。在本申请的其他实施例中,多个部位也可以包括人脸的五官。
在本申请的一实施例中,人脸检测模型也采用适合硬件加速的程序代码进行编写,人脸检测模型对应的第三硬件资源也可以是图形处理器。
在本申请的一实施例中,将照片的缩略图输入人脸检测模型,人脸检测模型提取照片的人脸矩形框。在本申请的另一实施例中,将照片输入人脸检测模型,人脸检测模型将照片的尺寸转换为预设尺寸(例如1200*800),对照片进行灰度处理,并检测照片的人脸矩形框。若未检测到照片的人脸矩形框,确定照片不包括人脸,若检测到照片的人脸矩形框,输出人脸信息。其中,人脸信息包括但不限于人脸数量和人脸矩形框上至少一个顶点的坐标,人脸数量与矩形框数量相同,矩形框上至少一个顶点的坐标可以包括矩形框左上顶点和右下顶点的坐标,矩形框顶点坐标为像素坐标。例如,人脸检测算法输出的人脸信息为“2,target1 rect(500*40,600*80),target2 rect(700*200,800*240)”。
在本申请的其他实施例中,人脸检测模型也可以是基于Haar特征的级联分类器、Dlib人脸检测算法等。
S304,确定照片包括人脸。
S305,确定照片不包括人脸。
通过上述实施例,在照片具有人脸信息时,说明照片已经过人脸检测且检测到包括人脸,在照片经过人脸检测且不具有人脸信息时,说明照片已经过人脸检测且检测到不包括人脸,在照片未经过人脸检测且不具有人脸信息时,可以通过人脸检测算法检测照片是否包括人脸,从而可以快速且精确地确定照片是否包括人脸,提高根据照片包括人脸的结果创建照片相关的照片合集的效率。
参阅图10所示,为本申请一实施例提供的特征聚类的流程图。
S1021,硬件算力开放框架根据特征聚类模型确定待调用的第二硬件资源。
在本申请的一实施例中,特征聚类模型可以是K均值聚类模型,采用适合硬件加速的程序代码进行编写,K均值聚类模型对应的第二硬件资源为FPGA。
S1022,硬件算力开放框架通过调用第二硬件资源运行特征聚类模型,设置多个照片的类别数量K,并随机选择K个初始聚类中心。
在本申请的一实施例中,初始化多个照片的目标特征的类别数量K,并随机选择K个初始聚类中心,初始聚类中心可以为任一照片的目标特征,目标特征可以是人脸特征,类别数量K可根据用户需求进行设置。
S1023,计算每个照片的目标特征与每个聚类中心之间的距离。
在本申请的一实施例中,每个照片的目标特征与每个聚类中心之间的距离可以是欧式距离。其中,欧式距离的计算公式为:
(1)。
在计算公式(1)中,Ai为照片的目标特征中的第i个特征,例如,照片的第i个特征为照片的第i个人脸特征点坐标,Bi为其他照片的目标特征中的第i个特征,例如,其他照片的第i个特征为其他照片的第i个人脸特征点坐标。
S1024,确定与每个照片的目标特征距离最小的聚类中心,并将照片的目标特征的类别确定为距离最小的聚类中心对应的类别。
在本申请的一实施例中,照片的目标特征与聚类中心之间的距离越小,目标特征属于该聚类中心对应的类别的可能性越大,若照片的目标特征与聚类中心之间的距离最小,该照片的目标特征属于该聚类中心对应的类别的可能性最大,因此,将该照片的目标特征的类别确定为距离最小的聚类中心对应的类别。
S1025,判断特征聚类模型的损失函数的输出值是否小于或等于预设值。若特征聚类模型的损失函数的输出值小于或等于预设值,执行S1026;若特征聚类模型的损失函数的输出值大于预设值,执行S1027。
在本申请的一实施例中,聚类算法的损失函数为每个类别中的人脸特征的最小均方误差,若聚类算法的损失函数小于或等于预设值,表明聚类算法收敛,并将当前的每个类别和对应的照片确定为最终的聚类结果。
S1026,确定多个照片的目标特征完成聚类,并将每个类别的聚类中心确定为该类别的目标特征对应的聚类特征。
在本申请的一实施例中,若特征聚类模型的损失函数的输出值小于或等于预设值,确定特征聚类模型收敛,进而确定多个照片的目标特征完成聚类,并将每个类别的聚类中心确定为该类别的目标特征对应的聚类特征。
S1027,更新每个类别的聚类中心,并计算每个照片的目标特征与每个更新的聚类中心之间的距离,然后返回执行S1024。
在本申请的一实施例中,通过计算每个类别的目标特征的平均值,得到每个类别更新的聚类中心,然后计算每个照片的目标特征与每个更新的聚类中心之间的距离。
通过上述实施例,通过对前述提取的多个照片的目标特征进行聚类,可以将目标特征所属类别的聚类中心作为该类别的关键特征,用于代表该类别的目标特征,如此,可以降低多个照片的目标特征的数据量,提高照片中目标对象匹配的速度。例如,将多个照片的人脸特征所属类别的聚类中心作为该类别人脸的关键特征,用于代表该人脸类别的人脸特征,每个人脸类别对应一个人物(例如电子设备机主、儿子、女儿等),如此,可以降低多个照片的人脸特征的数据量,提高照片中人脸匹配的速度。
在本申请的另一实施例中,也可以在对照片进行特征提取过程中,通过目标检测模型检测照片中的多个目标对象,并对应每个目标对象,提取每个目标对象对应的目标特征,在特征聚类的过程中,确定同一目标对象对应的多个目标特征,并确定多个目标特征的聚类特征。其中,同一目标对象为目标特征的类别对应的目标对象,聚类特征该类别的多个目标特征的聚类中心。
在本申请的另一实施例中,也可以将每个照片中每个目标对象作为一个类别,设置对应的类别ID,提取每个目标对象的多个特征,并通过特征聚类的方式获取每个目标对象的聚类特征,在对目标对象进行匹配时,可以将待匹配的目标对象的特征与目标对象的聚类特征进行比对,判断待匹配的目标对象是否与目标对象相同,提高图像匹配效率。
参阅图11所示,为本申请另一实施例提供的照片处理方法的流程图。所述方法应用于电子设备中,所述照片处理方法包括:
S401,通过电子设备的框架层获取图库应用程序中的多个照片,并通过框架层将获取的多个照片发送至硬件抽象层。
S402,通过调用第一硬件资源,硬件抽象层运行特征提取模型提取多个照片的目标特征。
S403,通过调用第二硬件资源,硬件抽象层运行特征聚类模型对图库应用程序中多个照片的目标特征进行聚类,获取多个照片的目标特征的聚类特征。
S404,根据聚类特征对图库应用程序中的多个照片进行存储。
S405,根据聚类特征创建对应的照片合集。
在本申请的一实施例中,根据图库应用程序中存储的目标特征的多个类别和每个类别的聚类特征创建多个照片合集,并显示在图库应用程序界面。例如,将每个照片合集的封面照片显示在图库应用程序界面,在接收到用户对封面照片执行的触摸操作时,图库应用程序显示照片合集中所有照片的缩略图,封面照片为照片合集中任一照片的缩略图。
在本申请的一实施例中,所述方法还包括:根据每个照片合集中的照片数量对多个照片合集进行排序显示。例如,按照照片数量从多到少的顺序对多个照片合集进行排序显示,排序方式包括但不限于从上到下排序,或从左到右排序。例如,目标特征为人脸特征,目标特征的每个类别对应一类别ID,根据不同的类别ID创建对应的照片合集,每个照片合集包括一人物的多个照片,按照照片合集中的照片数量对多个照片合集进行排序显示,使得高频人脸的照片靠前显示。
参阅图12所示,在本申请的一实施例中,照片处理模块1040还包括3A(AutoFocus,自动对焦,Auto Exposure,自动曝光,Auto White Balance,自动白平衡)模块1043和图像处理模块1044。
参阅图13所示,为本申请另一实施例提供的照片处理方法的流程图。所述照片处理方法在S401-S405之后,还包括:
S501,响应用户开启相机应用程序的操作和拍摄操作,控制摄像头拍摄照片。
在本申请的一实施例中,用户可以在电子设备的桌面界面触控点击相机应用程序的图标,执行开启相机应用程序的操作,在相机应用程序开启后,相机应用程序界面显示拍摄控件,用户可以触控点击拍摄控件,执行拍摄操作,电子设备响应用户的拍摄操作,控制摄像头根据当前的拍摄参数拍摄当前场景的照片。
S502,通过电子设备的图像处理模块获取摄像头当前拍摄的照片,并将当前拍摄的照片发送至硬件算力开放框架。
在本申请的一实施例中,图像处理模块获取摄像头拍摄的原图,并将原图转换为预设格式的照片,得到摄像头当前拍摄的照片。其中,预设格式可以是JPG、BMP或PNG等。
S503,通过调用第四硬件资源,硬件算力开放框架运行目标检测模型,识别当前拍摄的照片中的目标对象的位置和类型。
在本申请的一实施例中,硬件算力开放框架还包括目标检测模型。通过调用第四硬件资源,硬件算力开放框架运行目标检测模型,对摄像头当前拍摄的照片进行分析,识别当前拍摄的照片中的目标对象的类型和位置,并在当前拍摄的照片中对目标对象的位置进行标识,例如通过矩形框进行标识。
在本申请的一实施例中,目标检测模型对应的第四硬件资源为图形处理器,调用图像处理器对目标检测模型的运行进行硬件加速,目标检测模型提取照片的目标对象的特征,根据目标对象的特征对目标对象进行分类,并输出照片中的目标对象的类型,以及确定目标对象的位置。其中,目标检测模型可以是快速区域卷积神经网络模型(Faster Region-based Convolutional Neural Networks,faster R-CNN)、YOLO目标检测模型等。
S504,根据当前拍摄的照片中的目标对象的位置和类型更新拍摄参数,并根据更新的拍摄参数拍摄目标对象的照片。
在本申请的一实施例中,在硬件算力开放框架通过目标检测模型确定当前拍摄的照片中的目标对象的位置和类型之后,当前拍摄的照片的特征数据(例如,特征数据包括目标对象的位置和类型)发送至3A模块,3A模块确定目标对象的位置和类型对应的拍摄参数,并将当前的拍摄参数更新为目标对象的位置和类型对应的拍摄参数。
在本申请的一实施例中,拍摄参数包括,但不限于:对焦位置、曝光时间、白平衡。电子设备预先存储有目标对象的类型与拍摄参数之间的对应关系,在识别出目标对象的类型后,根据该对应关系,可以确定目标对象的类型对应的拍摄参数,拍摄参数中的对焦位置为目标对象。
例如,目标对象的类型为人脸,对应的拍摄参数包括:对焦位置为人脸中的眼睛,曝光时间为1/200秒,白平衡为500。再例如,目标对象的类型为宠物,对焦位置为宠物的眼睛,曝光时间为1/1000秒,白平衡为6000。
参阅图14所示,为本申请另一实施例提供的照片处理方法的流程图。所述方法应用于电子设备中,所述照片处理方法包括:
S601,通过电子设备的框架层获取图库应用程序中的多个照片,并通过框架层将获取的多个照片发送至硬件抽象层。
S602,通过调用第一硬件资源,硬件抽象层运行特征提取模型提取多个照片的目标特征。
S603,通过调用第二硬件资源,硬件抽象层运行特征聚类模型对图库应用程序中多个照片的目标特征进行聚类,获取多个照片的目标特征的聚类特征。
S604,根据聚类特征对图库应用程序中的多个照片进行存储。
S605,响应用户开启相机应用程序的操作,硬件算力开放框架获取预览图像。
在本申请的一实施例中,在用户进行拍照时,可以通过在电子设备的桌面界面点击相机应用程序的图标,或在锁屏界面触发快捷键以开启相机应用程序,在相机应用程序开启后,电子设备的摄像头开启,将拍摄得到的图像显示在相机应用程序界面,此时,由于用户还未执行拍摄操作,例如,未点击拍摄控件,相机应用程序界面显示实时的预览图像,硬件抽象层的图像处理模块每隔预设时间获取预览图像,并将预览图像发送至硬件算力开放框架,使得硬件算力开放框架获取预览图像。例如,预设时间可以是0.3秒、0.5秒、1秒或其他时间。
S606,通过调用第一硬件资源,硬件算力开放框架运行特征提取模型,提取预览图像的目标特征。
在本申请的一实施例中,硬件算力开放框架获取预览图像后,通过如图7所示的流程提取预览图像中的目标特征。其中,目标特征可以是人脸特征、宠物特征、食物特征或其他类型的特征。
S607,确定预览图像的目标特征对应的照片合集,并根据预览图像的目标特征对应的照片合集中的照片数量对目标特征对应的目标对象进行对焦。
在本申请的一实施例中,硬件算力开放框架进一步调用第二硬件资源运行特征聚类模型,计算预览图像的目标特征与每个目标特征类别的聚类中心之间的距离,确定预览图像的目标特征对应的照片合集为与预览图像的目标特征聚距离最小的聚类中心对应的照片合集。
在本申请的一实施例中,根据预览图像的目标特征判断预览图像中的目标对象数量是否大于一个,若预览图像中的目标对象数量等于一个,对该目标对象进行对焦。若预览图像中的目标对象数量大于一个,对预览图像的多个目标对象的目标特征分别对应的照片合集的照片数量进行比对,确定照片合集的照片数量较多的目标特征,并对照片合集的照片数量较多的目标特征对应的目标对象进行对焦。例如,在预览图像中只有一个人脸时,直接对该人脸进行对焦,在预览图像中包括多个人脸时,优先对电子设备的图库应用程序中照片合集中的照片数量较多,即,在图库应用程序中出现次数较多的人脸进行对焦。
在本申请的一实施例中,对人脸进行对焦为将摄像头的焦点设置在人脸的任意位置,或设置在人脸的人眼位置。
参阅图15所示,为本申请一实施例提供的人脸特征提取的处理时序图。以人脸特征提取为例对特征提取的处理时序进行说明。
S701,应用程序层的图库应用程序将多个照片和每个照片的照片信息发送至框架层的媒体后处理中台。
S702,媒体后处理中台将多个照片和每个照片的照片信息及第一共享内存信息发送至硬件抽象层的相机资源服务。
在本申请的一实施例中,媒体处理中心模块将多个照片和每个照片的照片信息及第一共享内存信息通过AIDL接口发送至相机资源服务。
S703,相机资源服务将多个照片和每个的照片信息及第一共享内存信息发送至硬件算力开放框架。
S704,硬件算力开放框架访问硬件资源运行人脸特征提取模型,提取每个照片的人脸特征,并将提取的人脸特征存储至第一共享内存信息对应的共享内存信息。
S705,硬件算力开放框架将每个照片的人脸特征发送至相机资源服务。
S706,相机资源服务每个照片的人脸特征发送至媒体后处理中台。
在本申请的一实施例中,若照片中包括多个人脸,人脸特征提取模型可以提取出多个人脸的人脸特征,相机资源服务将多个人脸的人脸特征返回至媒体处理中心模块。在本申请的另一实施例中,相机资源服务也可以将人脸特征的发送指令发送至媒体处理中心模块。
S707,媒体后处理中台将每个照片的人脸特征发送至图库应用程序1011。
在本申请的一实施例中,媒体处理中心模块可以响应人脸特征的发送指令,从第一共享内存信息对应的共享内存区域读取每个照片的人脸特征,并将每个照片的人脸特征发送至图库应用程序。
参阅图16所示,为本申请一实施例提供的人脸特征聚类的处理时序图。以人脸特征聚类为例对特征聚类的处理时序进行说明。
S801,图库应用程序将多个照片和每个照片的人脸特征发送至媒体后处理中台。
S802,媒体后处理中台将多个照片和每个照片的人脸特征及第二共享内存信息发送至相机资源服务。
S803,相机资源服务多个照片和每个照片的人脸特征发送至硬件算力开放框架。
S804,通过访问硬件资源,硬件算力开放框架运行人脸特征聚类模型对多个照片的人脸特征进行聚类。
S805,硬件算力开放框架将聚类后的多个照片的人脸特征发送至相机资源服务。
S806,相机资源服务聚类后的多个照片的人脸特征发送至媒体后处理中台。
S807,媒体后处理中台将聚类后的多个照片的人脸特征发送至图库应用程序。
本申请实施例还提供一种电子设备100,参阅图17所示,所述电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)、上网本,以及蜂窝电话、个人数字助理(Personal Digital Assistant,PDA)、增强现实(Augmented Reality,AR)设备、虚拟现实(Virtual Reality,VR)设备、人工智能(Artificial Intelligence, AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备,本申请实施例对电子设备100的具体类型不作特殊限制。
电子设备100可以包括处理器110,外部存储器接口120,内部存储器121,通用串行总线(Universal Serial Bus,USB)接口130,充电管理模块140,电源管理模块141,电池142,天线1,天线2,移动通信模块150,无线通信模块160,音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,传感器模块180,按键190,马达191,指示器192,摄像头193,显示屏194,以及用户标识模块(Subscriber Identification Module,SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A,陀螺仪传感器180B,气压传感器180C,磁传感器180D,加速度传感器180E,距离传感器180F,接近光传感器180G,指纹传感器180H,温度传感器180J,触摸传感器180K,环境光传感器180L,骨传导传感器180M等。
可以理解的是,本发明实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中,电子设备100可以包括比图示更多或更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件,软件或软件和硬件的组合实现。
处理器110可以包括一个或多个处理单元,例如:处理器110可以包括应用处理器(Application Processor,AP),调制解调处理器,图形处理器(Graphics ProcessingUnit,GPU),图像信号处理器(Image Signal Processor,ISP),控制器,视频编解码器,数字信号处理器(Digital Signal Processor,DSP),基带处理器,和/或神经网络处理器(Neural-network Processing Unit,NPU)等。其中,不同的处理单元可以是独立的器件,也可以集成在一个或多个处理器中。
控制器可以根据指令操作码和时序信号,产生操作控制信号,完成取指令和执行指令的控制。
处理器110中还可以设置存储器,用于存储指令和数据。在本申请的一实施例中,处理器110中的存储器为高速缓冲存储器。存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用指令或数据,可从所述存储器中直接调用。避免了重复存取,减少了处理器110的等待时间,因而提高了系统的效率。
在本申请的一实施例中,处理器110可以包括一个或多个接口。接口可以包括集成电路(Inter-integrated Circuit,I2C)接口,集成电路内置音频(Inter-integratedCircuit Sound,I2S)接口,脉冲编码调制(Pulse Code Modulation,PCM)接口,通用异步收发传输器(universal asynchronous receiver/transmitter,UART)接口,移动产业处理器接口(Mobile Industry Processor Interface,MIPI),通用输入输出(General-PurposeInput/Output,GPIO)接口,用户标识模块(Subscriber Identity Module,SIM)接口,和/或通用串行总线(Universal Serial Bus,USB)接口等。
I2C接口是一种双向同步串行总线,包括一根串行数据线(Serial Data Line,SDA)和一根串行时钟线(Serial Clock Line,SCL)。在本申请的一实施例中,处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K,充电器,闪光灯,摄像头193等。例如:处理器110可以通过I2C接口耦合触摸传感器180K,使处理器110与触摸传感器180K通过I2C总线接口通信,实现电子设备100的触摸功能。
I2S接口可以用于音频通信。在本申请的一实施例中,处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合,实现处理器110与音频模块170之间的通信。在本申请的一实施例中,音频模块170可以通过I2S接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。
PCM接口也可以用于音频通信,将模拟信号抽样,量化和编码。在本申请的一实施例中,音频模块170与无线通信模块160可以通过PCM总线接口耦合。在本申请的一实施例中,音频模块170也可以通过PCM接口向无线通信模块160传递音频信号,实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。
UART接口是一种通用串行数据总线,用于异步通信。总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在本申请的一实施例中,UART接口通常被用于连接处理器110与无线通信模块160。例如:处理器110通过UART接口与无线通信模块160中的蓝牙模块通信,实现蓝牙功能。在本申请的一实施例中,音频模块170可以通过UART接口向无线通信模块160传递音频信号,实现通过蓝牙耳机播放音乐的功能。
MIPI接口可以被用于连接处理器110与显示屏194,摄像头193等外围器件。MIPI接口包括摄像头串行接口(Camera Serial Interface,CSI),显示屏串行接口(DisplaySerial Interface,DSI)等。在本申请的一实施例中,处理器110和摄像头193通过CSI接口通信,实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信,实现电子设备100的显示功能。
GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号,也可被配置为数据信号。在本申请的一实施例中,GPIO接口可以用于连接处理器110与摄像头193,显示屏194,无线通信模块160,音频模块170,传感器模块180等。GPIO接口还可以被配置为I2C接口,I2S接口,UART接口,MIPI接口等。
USB接口130是符合USB标准规范的接口,具体可以是Mini USB接口,Micro USB接口,USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电,也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机,通过耳机播放音频。接口还可以用于连接其他电子设备100,例如AR设备等。
可以理解的是,本发明实施例示意的各模块间的接口连接关系,只是示意性说明,并不构成对电子设备100的结构限定。在本申请另一些实施例中,电子设备100也可以采用上述实施例中不同的接口连接方式,或多种接口连接方式的组合。
充电管理模块140用于从充电器接收充电输入。其中,充电器可以是无线充电器,也可以是有线充电器。在一些有线充电的实施例中,充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中,充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时,还可以通过电源管理模块141为电子设备100供电。
电源管理模块141用于连接电池142,充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入,为处理器110,内部存储器121,显示屏194,摄像头193,和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量,电池循环次数,电池健康状态(漏电,阻抗)等参数。在其他一些实施例中,电源管理模块141也可以设置于处理器110中。在另一些实施例中,电源管理模块141和充电管理模块140也可以设置于同一个器件中。
电子设备100的无线通信功能可以通过天线1,天线2,移动通信模块150,无线通信模块160,调制解调处理器以及基带处理器等实现。
天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用,以提高天线的利用率。例如:可以将天线1复用为无线局域网的分集天线。在另外一些实施例中,天线可以和调谐开关结合使用。
移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器,开关,功率放大器,低噪声放大器(Low Noise Amplifier,LNA)等。移动通信模块150可以由天线1接收电磁波,并对接收的电磁波进行滤波,放大等处理,传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大,经天线1转为电磁波辐射出去。在本申请的一实施例中,移动通信模块150的至少部分功能模块可以被设置于处理器110中。在本申请的一实施例中,移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。
调制解调处理器可以包括调制器和解调器。其中,调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后,被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A,受话器170B等)输出声音信号,或通过显示屏194显示图像或视频。在本申请的一实施例中,调制解调处理器可以是独立的器件。在另一些实施例中,调制解调处理器可以独立于处理器110,与移动通信模块150或其他功能模块设置在同一个器件中。
无线通信模块160可以提供应用在电子设备100上的包括无线局域网(WirelessLocal Area Networks,WLAN)(如无线保真(Wireless Fidelity,Wi-Fi)网络),蓝牙(Bluetooth,BT),全球导航卫星系统(Global Navigation Satellite System,GNSS),调频(Frequency Modulation,FM),近距离无线通信技术(Near Field Communication,NFC),红外技术(Infrared,IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波,将电磁波信号调频以及滤波处理,将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号,对其进行调频,放大,经天线2转为电磁波辐射出去。
在本申请的一实施例中,电子设备100的天线1和移动通信模块150耦合,天线2和无线通信模块160耦合,使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(Global System For MobileCommunications,GSM),通用分组无线服务(General Packet Radio Service,GPRS),码分多址接入(Code Division Multiple Access,CDMA),宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA),时分码分多址(Time-Division Code DivisionMultiple Access,TD-SCDMA),长期演进(Long Term Evolution,LTE),BT,GNSS,WLAN,NFC,FM,和/或IR技术等。所述GNSS可以包括全球卫星定位系统(Global Positioning System,GPS),全球导航卫星系统(Global Navigation Satellite System,GLONASS),北斗卫星导航系统(Beidou Navigation Satellite System,BDS),准天顶卫星系统(Quasi-ZenithSatellite System,QZSS)和/或星基增强系统(Satellite Based Augmentation Systems,SBAS)。
电子设备100通过GPU,显示屏194,以及应用处理器等实现显示功能。GPU为照片处理的微处理器,连接显示屏194和应用处理器。GPU用于执行数学和几何计算,用于图形渲染。处理器110可包括一个或多个GPU,其执行程序指令以生成或改变显示信息。
显示屏194用于显示图像,视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(Liquid Crystal Display,LCD),有机发光二极管(Organic Light-EmittingDiode,OLED),有源矩阵有机发光二极体或主动矩阵有机发光二极体(Active-MatrixOrganic Light Emitting Diode的,AMOLED),柔性发光二极管(Flex Light-EmittingDiode,FLED),Miniled,Microled,Micro-OLED,量子点发光二极管(Quantum Dot LightEmitting Diodes,QLED)等。在本申请的一实施例中,电子设备100可以包括1个或N个显示屏194,N为大于1的正整数。
电子设备100可以通过ISP,摄像头193,视频编解码器,GPU,显示屏194以及应用处理器等实现拍摄功能。
ISP用于处理摄像头193反馈的数据。例如,拍照时,打开快门,光线通过镜头被传递到摄像头感光元件上,光信号转换为电信号,摄像头感光元件将所述电信号传递给ISP处理,转化为肉眼可见的图像。ISP还可以对图像的噪点,亮度,肤色进行算法优化。ISP还可以对拍摄场景的曝光,色温等参数优化。在本申请的一实施例中,ISP可以设置在摄像头193中。
摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(Charge Coupled Device,CCD)或互补金属氧化物半导体(Complementary Metal-Oxide-Semiconductor,CMOS)光电晶体管。感光元件把光信号转换成电信号,之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB,YUV等格式的图像信号。在本申请的一实施例中,电子设备100可以包括1个或N个摄像头193,N为大于1的正整数。
数字信号处理器用于处理数字信号,除了可以处理数字图像信号,还可以处理其他数字信号。例如,当电子设备100在频点选择时,数字信号处理器用于对频点能量进行傅里叶变换等。
视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样,电子设备100可以播放或录制多种编码格式的视频,例如:动态图像专家组(Moving Picture Experts Group,MPEG)1,MPEG2,MPEG3,MPEG4等。
NPU为神经网络(Neural-Network,NN)计算处理器,通过借鉴生物神经网络结构,例如借鉴人脑神经元之间传递模式,对输入信息快速处理,还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用,例如:图像识别,人脸识别,语音识别,文本理解等。
内部存储器121可以包括一个或多个随机存取存储器(Random Access Memory,RAM)和一个或多个非易失性存储器(Non-Volatile Memory,NVM)。
随机存取存储器可以包括静态随机存储器(Static Random-Access Memory,SRAM)、动态随机存储器(Dynamic Random Access Memory,DRAM)、同步动态随机存储器(Synchronous Dynamic Random Access Memory, SDRAM)、双倍资料率同步动态随机存取存储器(Double Data Rate Synchronous Dynamic Random Access Memory, DDR SDRAM,例如第五代DDR SDRAM一般称为DDR5 SDRAM)等;
非易失性存储器可以包括磁盘存储器件、快闪存储器(flash memory)。
快闪存储器按照运作原理划分可以包括NOR FLASH、NAND FLASH、3D NAND FLASH等,按照存储单元电位阶数划分可以包括单阶存储单元(Single-Level Cell, SLC)、多阶存储单元(Multi-Level Cell, MLC)、三阶储存单元(Triple-Level Cell, TLC)、四阶储存单元(Quad-Level Cell,QLC)等,按照存储规范划分可以包括通用闪存存储(UniversalFlash Storage,UFS)、嵌入式多媒体存储卡(embedded Multi Media Card,eMMC)等。
随机存取存储器可以由处理器110直接进行读写,可以用于存储操作系统或其他正在运行中的程序的可执行程序(例如机器指令),还可以用于存储用户及应用程序的数据等。
非易失性存储器也可以存储可执行程序和存储用户及应用程序的数据等,可以提前加载到随机存取存储器中,用于处理器110直接进行读写。
外部存储器接口120可以用于连接外部的非易失性存储器,实现扩展电子设备100的存储能力。外部的非易失性存储器通过外部存储器接口120与处理器110通信,实现数据存储功能。例如将音乐,视频等文件保存在外部的非易失性存储器中。
内部存储器121或外部存储器接口120用于存储一个或多个计算机程序。一个或多个计算机程序被配置为被处理器110执行。一个或多个计算机程序包括多个指令,多个指令被处理器110执行时,可实现上述实施例中在电子设备100上执行的屏幕显示检测方法,以实现电子设备100的屏幕显示检测功能。
电子设备100可以通过音频模块170,扬声器170A,受话器170B,麦克风170C,耳机接口170D,以及应用处理器等实现音频功能。例如音乐播放,录音等。
音频模块170用于将数字音频信息转换成模拟音频信号输出,也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在本申请的一实施例中,音频模块170可以设置于处理器110中,或将音频模块170的部分功能模块设置于处理器110中。
扬声器170A,也称“喇叭”,用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐,或收听免提通话。
受话器170B,也称“听筒”,用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时,可以通过将受话器170B靠近人耳接听语音。
麦克风170C,也称“话筒”,“传声器”,用于将声音信号转换为电信号。当拨打电话或发送语音信息时,用户可以通过人嘴靠近麦克风170C发声,将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中,电子设备100可以设置两个麦克风170C,除了采集声音信号,还可以实现降噪功能。在另一些实施例中,电子设备100还可以设置三个,四个或更多麦克风170C,实现采集声音信号,降噪,还可以识别声音来源,实现定向录音功能等。
耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130,也可以是3.5mm的开放移动电子设备100平台(Open Mobile Terminal Platform,OMTP)标准接口,美国蜂窝电信工业协会(Cellular Telecommunications Industry Association of theUSA,CTIA)标准接口。
按键190包括开机键,音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入,产生与电子设备100的用户设置以及功能控制有关的键信号输入。
马达191可以产生振动提示。马达191可以用于来电振动提示,也可以用于触摸振动反馈。例如,作用于不同应用(例如拍照,音频播放等)的触摸操作,可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作,马达191也可对应不同的振动反馈效果。不同的应用场景(例如:时间提醒,接收信息,闹钟,游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。
指示器192可以是指示灯,可以用于指示充电状态,电量变化,也可以用于指示消息,未接来电,通知等。
SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195,或从SIM卡接口195拔出,实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口,N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡,Micro SIM卡,SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同,也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互,实现通话以及数据通信等功能。在本申请的一实施例中,电子设备100采用eSIM,即:嵌入式SIM卡。eSIM卡可以嵌在电子设备100中,不能和电子设备100分离。本申请实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机指令,当计算机指令在电子设备100上运行时,使得电子设备100执行上述相关方法步骤实现上述实施例中的照片处理方法。
本申请实施例还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述相关步骤,以实现上述实施例中的照片处理方法。
另外,本申请的实施例还提供一种装置,这个装置具体可以是芯片,组件或模块,装置可包括相连的处理器和存储器;其中,存储器用于存储计算机执行指令,当装置运行时,处理器可执行存储器存储的计算机执行指令,以使芯片执行上述各方法实施例中的照片处理方法。
其中,本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者技术方案的全部或部分可以以软件产品的形式体现出来,软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是,以上实施例仅用以说明本申请的技术方案而非限制,尽管参照较佳实施例对本申请进行了详细说明,本领域的普通技术人员应当理解,可以对本申请的技术方案进行修改或等同替换,而不脱离本申请技术方案的精神和范围。
Claims (17)
1.一种照片处理方法,应用于电子设备,其特征在于,所述方法包括:
通过所述电子设备的框架层获取所述电子设备的图库应用程序中的多个照片,并通过所述框架层将所述多个照片发送至所述电子设备的硬件抽象层;
通过调用第一硬件资源,所述硬件抽象层运行特征提取模型提取所述多个照片的目标特征;
通过调用第二硬件资源,所述硬件抽象层运行特征聚类模型对所述多个照片的目标特征进行聚类,获取所述多个照片的目标特征的聚类特征;
根据所述聚类特征对所述图库应用程序中的所述多个照片进行存储。
2.如权利要求1所述的照片处理方法,其特征在于,所述硬件抽象层包括硬件算力开放框架,所述通过调用第一硬件资源,所述硬件抽象层运行特征提取模型提取所述多个照片的目标特征,包括:
所述硬件算力开放框架根据所述特征提取模型确定待调用的所述第一硬件资源;
所述硬件算力开放框架通过调用所述第一硬件资源运行所述特征提取模型,提取每个照片的目标特征。
3.如权利要求2所述的照片处理方法,其特征在于,所述目标特征为人脸特征,所述通过调用第一硬件资源,所述硬件抽象层运行特征提取模型提取所述多个照片的目标特征,包括:
所述硬件算力开放框架通过调用所述第一硬件资源运行所述特征提取模型,确定所述每个照片中的人脸矩形框;
检测所述人脸矩形框中的多个特征点;
提取所述多个特征点的坐标;
输出所述多个特征点的坐标。
4.如权利要求2所述的照片处理方法,其特征在于,所述硬件算力开放框架包括多个预设模型,每个预设模型具有对应的硬件资源,所述硬件算力开放框架根据所述特征提取模型确定待调用的所述第一硬件资源,包括:
所述硬件算力开放框架根据多个预设模型与所述硬件资源之间的对应关系确定所述特征提取模型对应的第一硬件资源。
5.如权利要求3所述的照片处理方法,其特征在于,所述方法还包括:
检测每个照片是否具有人脸信息;
若所述照片不具有人脸信息,检测所述照片是否经过人脸检测;
若所述照片未经过人脸检测,所述硬件算力开放框架通过调用第三硬件资源运行人脸检测模型,检测所述照片是否包括人脸;
若所述照片具有所述人脸信息,或通过所述人脸检测模型检测得到所述人脸信息,确定所述照片包括人脸;
若所述照片不具有所述人脸信息且经过人脸检测,或通过所述人脸检测模型未检测得到所述人脸信息,确定所述照片不包括人脸。
6.如权利要求5所述的照片处理方法,其特征在于,所述硬件算力开放框架通过调用第三硬件资源运行人脸检测模型,检测所述照片是否包括人脸,包括:
通过所述人脸检测模型检测所述照片的人脸矩形框,
若未从所述照片检测到所述人脸矩形框,确定所述照片不包括人脸;
若从所述照片检测到所述人脸矩形框,输出所述人脸信息。
7.如权利要求5所述的照片处理方法,其特征在于,所述检测每个照片是否具有人脸信息,包括:
获取所述照片的照片标识,根据所述照片标识在所述电子设备的图库数据库中查找所述照片标识对应的照片信息;
若在所述图库数据库中查找到所述照片标识对应的人脸信息,确定所述照片具有所述人脸信息;
若未在所述图库数据库中查找到所述照片标识对应的人脸信息,确定所述照片不具有所述人脸信息。
8.如权利要求7所述的照片处理方法,其特征在于,所述检测照片是否经过人脸检测,包括:
根据所述照片标识在所述图库数据库中查找所述照片标识对应的检测标识;
若所述照片标识对应的检测标识为第一标识,确定所述照片经过人脸检测;
若所述照片标识对应的检测标识为第二标识,确定所述照片未经过人脸检测。
9.如权利要求1所述的照片处理方法,其特征在于,所述通过调用第二硬件资源,所述硬件抽象层运行特征聚类模型对所述多个照片的目标特征进行聚类,获取所述多个照片的目标特征的聚类特征,包括:
所述硬件抽象层的硬件算力开放框架根据所述特征聚类模型确定待调用的所述第二硬件资源;
所述硬件算力开放框架通过调用所述第二硬件资源运行所述特征聚类模型,设置多个照片的类别数量K,并随机选择K个初始聚类中心;
计算每个照片的目标特征与每个聚类中心之间的距离;
确定与每个照片的目标特征距离最小的聚类中心,并将所述照片的目标特征的类别确定为距离最小的聚类中心对应的类别;
若所述特征聚类模型的损失函数的输出值小于或等于预设值,确定所述多个照片的目标特征完成聚类,将每个类别的聚类中心作为每个类别的目标特征对应的聚类特征;或
若所述特征聚类模型的损失函数的输出值大于预设值,更新每个类别的聚类中心,计算每个照片的目标特征与每个更新的聚类中心之间的距离,并将所述照片的目标特征的类别确定为所述距离最小的更新聚类中心对应的类别。
10.如权利要求1所述的照片处理方法,其特征在于,所述根据所述聚类特征对所述图库应用程序中的所述多个照片进行存储,包括:
根据关联的所述目标特征的聚类特征与所述多个照片的照片信息将每个聚类特征对应的多个照片打包为文件夹,并存储至所述电子设备的图库数据库。
11.如权利要求1所述的照片处理方法,其特征在于,所述方法还包括:
根据所述目标特征的聚类特征创建对应的照片合集;
根据每个照片合集中的照片数量对多个所述照片合集进行排序显示。
12.如权利要求1所述的照片处理方法,其特征在于,所述方法还包括:
响应用户开启相机应用程序的操作和拍摄操作,控制摄像头拍摄照片;
通过所述电子设备的图像处理模块获取所述摄像头当前拍摄的照片,并将所述当前拍摄的照片发送至所述硬件抽象层的硬件算力开放框架;
通过调用第四硬件资源,所述硬件算力开放框架运行目标检测模型,识别所述当前拍摄的照片中的目标对象的位置和类型;
根据所述当前拍摄的照片中的所述目标对象的位置和类型更新拍摄参数,并根据更新的拍摄参数拍摄所述目标对象的照片。
13.如权利要求1所述的照片处理方法,其特征在于,所述方法还包括:
响应用户开启相机应用程序的操作,所述硬件抽象层的硬件算力开放框架获取预览图像;
通过调用所述第一硬件资源,所述硬件算力开放框架运行所述特征提取模型,提取所述预览图像的目标特征;
确定所述预览图像的目标特征对应的照片合集,并根据所述预览图像的目标特征对应的所述照片合集中的照片数量对所述目标特征对应的目标对象进行对焦。
14. 如权利要求13所述的照片处理方法,其特征在于,所述根据所述预览图像的目标特征对应的所述照片合集中的照片数量对所述目标特征对应的目标对象进行对焦,包括:
若所述预览图像中的目标对象数量等于一个,对所述目标对象进行对焦;或
若所述预览图像中的目标对象数量大于一个,对所述预览图像的多个目标对象的多个目标特征分别对应的照片合集的照片数量进行比对,确定所述照片合集的照片数量最多的目标特征;
对所述照片合集的照片数量最多的目标特征对应的目标对象进行对焦。
15.一种电子设备,其特征在于,所述电子设备包括存储器和处理器:
其中,所述存储器,用于存储程序指令;
所述处理器,用于读取并执行所述存储器中存储的所述程序指令,当所述程序指令被所述处理器执行时,使得所述电子设备执行如权利要求1至14中任一项所述的照片处理方法。
16.一种芯片,与电子设备中的存储器耦合,其特征在于,所述芯片用于控制所述电子设备执行如权利要求1至14中任一项所述的照片处理方法。
17.一种计算机存储介质,其特征在于,所述计算机存储介质存储有程序指令,当所述程序指令在电子设备上运行时,使得所述电子设备的处理器执行如权利要求1至14中任一项所述的照片处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311072262.4A CN116821399A (zh) | 2023-08-24 | 2023-08-24 | 照片处理方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311072262.4A CN116821399A (zh) | 2023-08-24 | 2023-08-24 | 照片处理方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116821399A true CN116821399A (zh) | 2023-09-29 |
Family
ID=88118741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311072262.4A Pending CN116821399A (zh) | 2023-08-24 | 2023-08-24 | 照片处理方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821399A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355170A (zh) * | 2016-11-22 | 2017-01-25 | Tcl集团股份有限公司 | 照片分类方法及装置 |
CN110765819A (zh) * | 2018-07-27 | 2020-02-07 | 中兴通讯股份有限公司 | 一种照片分类的方法,设备及计算机可读介质和系统 |
CN114399622A (zh) * | 2022-03-23 | 2022-04-26 | 荣耀终端有限公司 | 图像处理方法和相关装置 |
-
2023
- 2023-08-24 CN CN202311072262.4A patent/CN116821399A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106355170A (zh) * | 2016-11-22 | 2017-01-25 | Tcl集团股份有限公司 | 照片分类方法及装置 |
CN110765819A (zh) * | 2018-07-27 | 2020-02-07 | 中兴通讯股份有限公司 | 一种照片分类的方法,设备及计算机可读介质和系统 |
CN114399622A (zh) * | 2022-03-23 | 2022-04-26 | 荣耀终端有限公司 | 图像处理方法和相关装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113163470A (zh) | 对特定路线上的特定位置进行识别的方法及电子设备 | |
WO2021258797A1 (zh) | 图像信息输入方法、电子设备及计算机可读存储介质 | |
CN114650363A (zh) | 一种图像显示的方法及电子设备 | |
US20220116497A1 (en) | Image Classification Method and Electronic Device | |
WO2021185232A1 (zh) | 一种条码识别方法以及相关设备 | |
CN115437601B (zh) | 图像排序方法、电子设备、程序产品及介质 | |
CN114943976B (zh) | 模型生成的方法、装置、电子设备和存储介质 | |
CN114489471B (zh) | 一种输入输出处理方法和电子设备 | |
CN114222187B (zh) | 视频编辑方法和电子设备 | |
CN115729684B (zh) | 输入输出请求处理方法和电子设备 | |
CN115661941A (zh) | 手势识别方法和电子设备 | |
CN114697543B (zh) | 一种图像重建方法、相关装置及系统 | |
CN116821399A (zh) | 照片处理方法及相关设备 | |
CN117499797B (zh) | 图像处理方法及相关设备 | |
CN114527903A (zh) | 一种按键映射方法、电子设备及系统 | |
CN114079642A (zh) | 一种邮件处理方法及电子设备 | |
CN113741911A (zh) | 功能包的加载方法、装置、服务器和电子设备 | |
CN114942741B (zh) | 数据传输方法及电子设备 | |
CN116993619B (zh) | 图像处理方法及相关设备 | |
WO2023071441A1 (zh) | 通信录字母的显示方法、装置和终端设备 | |
CN116193275B (zh) | 视频处理方法及相关设备 | |
WO2022179271A1 (zh) | 反馈搜索结果的方法、装置及存储介质 | |
WO2024082914A1 (zh) | 视频问答方法及电子设备 | |
CN115802144B (zh) | 视频拍摄方法及相关设备 | |
CN117131213A (zh) | 图像处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |