CN116383419A - 一种本地相册儿童照片智能筛选和时间线整理方法及系统 - Google Patents
一种本地相册儿童照片智能筛选和时间线整理方法及系统 Download PDFInfo
- Publication number
- CN116383419A CN116383419A CN202310242839.5A CN202310242839A CN116383419A CN 116383419 A CN116383419 A CN 116383419A CN 202310242839 A CN202310242839 A CN 202310242839A CN 116383419 A CN116383419 A CN 116383419A
- Authority
- CN
- China
- Prior art keywords
- face
- pictures
- picture
- group
- photos
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012216 screening Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000001914 filtration Methods 0.000 claims abstract description 30
- 230000008921 facial expression Effects 0.000 claims abstract description 19
- 239000013598 vector Substances 0.000 claims description 31
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000000605 extraction Methods 0.000 claims description 20
- 238000001514 detection method Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000014509 gene expression Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 6
- 238000011426 transformation method Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims 2
- 238000012549 training Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 210000000887 face Anatomy 0.000 description 4
- 230000001815 facial effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/51—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Library & Information Science (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明公开了一种本地相册儿童照片智能筛选和时间线整理方法及系统;其中方法包括:对标准人脸信息对比库进行初始化;根据图片拍摄时间从相册中筛选出人脸图片,并依次与标准人脸信息对比库中的人脸信息进行匹配;对匹配成功的人脸图片进行人脸3D空间特征点的提取,并基于此对人脸图片进行人脸表情分类和图片质量评分;根据人脸图片的拍摄时间和画面相似度,对匹配成功的人脸图片进行聚类分组;根据人脸信息和图片质量评分对聚类分组中的人脸图片进行过滤处理;之后对每一组人脸图片获取摘要描述,并从摘要描述中提取关键词作为该组图片的标签。该方法能够在大量照片中准确识别出宝宝在不同年龄段的照片,且对照片按照时间轴和场景进行分类。
Description
技术领域
本发明属于图像识别技术领域,特别是一种本地相册儿童照片智能筛选和时间线整理方法及系统。
背景技术
当前家长们逐渐注重起了宝宝的成长轨迹,希望按照时间线查看宝宝从刚出生到逐渐长大的照片,回顾宝宝成长过程。但是随着数码相机和手机的普及,大众的相册内堆满了日常拍照和网络下载的图片,导致家长们不能快速有效地查看宝宝的照片。在此背景下,如何从这些大量的图片中识别出目标图片并按照不同场景进行分类,成为当前研究的关键问题。
相册中混淆着各种各样的照片,在成长线上要准确地识别宝宝,且选取高质量的、整洁美观的展示图片,就需要考虑解决以下难点:
1.人脸的特征随年龄变化,如何准确识别宝宝照片?宝宝从出生到长大,针对人脸的特征是变化快的特点,如何解决宝宝在不同年龄段的识别问题?
2.对于相册中内容相似的照片,如何避免在相近的时间线上过多展示内容相似的照片影响浏览体验?
3.对于相册中的照片不同场景的照片,如何把的时间线相近且场景相同照片聚合在一起展示,并打上标签,方便内容搜索,以保持时间线展示的整洁?
现有技术中一般都是训练不同的场景模型,基于这些训练好的场景模型来对图像进行分类。但是现实生活中的场景有很多,一个系统中不可能针对每个场景模型进行训练,因此现有的图像分类系统无法实现对每张图像进行精准识别并分类。
因此,如何在大量照片中准确识别出宝宝在不同年龄段的照片,且对宝宝的照片按照时间轴和场景进行分类,成为当前研究的关键问题。
发明内容
鉴于上述问题,本发明提供一种至少解决上述部分技术问题的一种本地相册儿童照片智能筛选和时间线整理方法及系统,该方法能够从相册中高效、准确地找到该宝宝照片,并且结合了时间线与照片场景分组,组内去除了低质量的冗余照片,使得浏览高效、美观整洁,还给每个分组照片打上标签,方便回顾查找,大大提升的了使用者在时间线上浏览宝宝照片的体验。
一方面,本发明实施例提供了一种本地相册儿童照片智能筛选和时间线整理方法,包括:
S1、对目标儿童的标准人脸信息对比库进行初始化;
S2、根据图片拍摄时间从相册中筛选出人脸图片,并将筛选出的人脸图片的人脸信息依次与初始化后的标准人脸信息对比库中的人脸信息进行匹配;
S3、对匹配成功的人脸图片进行人脸3D空间特征点的提取,并根据所述人脸3D空间特征点,对人脸图片进行人脸表情分类和图片质量评分;
S4、根据所述人脸图片的拍摄时间和画面相似度,对匹配成功的人脸图片进行聚类分组;
S5、根据人脸信息和图片质量评分对聚类分组中的人脸图片进行过滤处理;
S6、对过滤处理后的聚类分组中的每一组人脸图片获取摘要描述,并从所述摘要描述中提取关键词作为该组图片的标签。
进一步地,所述S1具体包括:
S11、获取目标儿童的出生日期;
S12、对相册中预设时间范围内的待处理图片进行人脸检测和人脸特征点提取,并对图片中的人脸区域图片进行截取;
S13、根据提取出的人脸特征点的空间坐标,采用仿射变换法对截取的人脸区域图片进行人脸对齐处理;
S14、基于人脸对齐处理后的人脸区域图片,根据目标儿童的出生日期和对应图片的拍摄时间,检测出人脸区域图片所对应的年龄,并筛选出符合年龄范围的人脸区域图片;
S15、采用AIn-CNNs特征提取模型对筛选出来的人脸区域图片依次进行编码,生成对应的人脸特征向量;
S16、对生成的人脸特征向量进行聚类,并将人脸特征向量数量最多的一组聚类,作为目标儿童人脸特征向量;
S17、将目标儿童人脸特征向量,以及对应的检测年龄和对应图片的拍摄时间存储在临时的标准人脸信息对比库中,完成标准人脸信息对比库的初始化。
进一步地,所述S2具体包括:
S21、将相册中的图片按照拍摄时间进行降序排序,根据图片拍摄时间距当前时间由近及远的顺序对图片进行分组处理;
S22、对每组待处理图片进行人脸检测和人脸特征点提取,并对图片中的人脸区域图片进行截取;
S23、根据提取出的人脸特征点的空间坐标,采用仿射变换法对截取的人脸区域图片进行人脸对齐处理;
S24、基于人脸对齐处理后的人脸区域图片,根据目标儿童的出生日期和对应图片的拍摄时间,检测出人脸区域图片所对应的年龄,并筛选出符合年龄范围的人脸区域图片;
S25、采用AIn-CNNs特征提取模型对筛选出来的人脸区域图片依次进行编码,生成对应的人脸特征向量;
S26、将S25中生成的人脸特征向量与所述标准人脸信息对比库中拍摄时间相差预设时间范围内的目标儿童人脸特征向量进行余弦相似度计算,若相似度高于第一预设阈值,则匹配成功。
进一步地,所述S26还包括:
若相似度高于第二预设阈值,则将该人脸特征向量,以及对应的检测年龄和对应图片的拍摄时间更新至所述标准人脸信息对比库中,实现随时间对标准人脸信息对比库中的人脸信息进行更新;
所述第二预设阈值大于所述第一预设阈值。
进一步地,所述S3具体包括:
S31、对匹配成功的人脸图片进行人脸3D空间特征点的提取;
S32、从所述人脸3D空间特征点中选取左眼角、右眼角、鼻尖、左嘴角、右嘴角和下巴这六个3D空间特征点的坐标,基于此,通过PnP算法获得人脸姿态三维空间欧拉角;
S33、通过EfficientFace模型算法,获得人脸表情类别;
S34、统计每张人脸图片的亮度直方图、对比度和分块锐度,结合人脸姿态三维空间欧拉角和人脸表情类别,对每张人脸图片进行图片质量评分。
进一步地,所述S4包括:
S41、采用Kmeans算法对匹配成功的人脸图片的拍摄时间进行聚类分组;
S42、对每天的人脸图片进行主色调分析,若存在两张人脸图片的主色调分析相似度达到第三预设阈值,则将该两张人脸图片聚合到一个组内;
S43、根据主色调分析相似度分组的结果,将时间聚类分组进行合并。
进一步地,所述S43具体包括:如果相邻时间分组内的图片,处于同一主色调分析相似度分组的图片数达到各自时间聚类内图片数量的一半以上,则将相邻的时间分组进行合并。
进一步地,所述S5具体包括:
依次对每天内的多个分组进行筛选,如果每个分组内存在两张人脸图片的主色调分析相似度高于第四预设阈值,且这两张人脸图片中的人脸个数相同、人脸位置区域重叠度IOU超过第五预设阈值,人脸姿态三维空间欧拉角的差值在预设范围内、识别的人脸表情相同,则将其中一张图片质量评分偏低的人脸图片进行过滤。
进一步地,所述S6具体包括:
S61、将过滤处理后的聚类分组中的每一组人脸图片依次输入至SwinBERT模型中,输出对应组人脸图像的摘要描述;
S62、采用TF-IDF算法对所述摘要描述进行关键词提取,生成对应组人脸图片的标签。
另一方面,本发明实施例提供了一种本地相册儿童照片智能筛选和时间线整理系统,应用上述的方法,该系统包括:标准人脸信息对比库初始化子系统、相册图片筛选匹配子系统、图片表情分类识别子系统、图片时间与场景分类识别子系统、相似图片过滤子系统和图片组标签子系统;其中:
所述标准人脸信息对比库初始化子系统,用于对目标儿童的标准人脸信息对比库进行初始化;
所述相册图片筛选匹配子系统,用于根据图片拍摄时间从相册中筛选出人脸图片,并将筛选出的人脸图片的人脸信息依次与初始化后的标准人脸信息对比库中的人脸信息进行匹配;
所述图片表情分类识别子系统,用于对匹配成功的人脸图片进行人脸3D空间特征点的提取,并根据所述人脸3D空间特征点,对人脸图片进行人脸表情分类和图片质量评分;
所述图片时间与场景分类识别子系统,用于根据所述人脸图片的拍摄时间和画面相似度,对匹配成功的人脸图片进行聚类分组;
所述相似图片过滤子系统,用于根据人脸信息和图片质量评分对聚类分组中的人脸图片进行过滤处理;
所述图片组标签子系统,用于对过滤处理后的聚类分组中的每一组人脸图片获取摘要描述,并从所述摘要描述中提取关键词作为该组图片的标签。
与现有技术相比,本发明记载的一种本地相册儿童照片智能筛选和时间线整理方法及系统,具有如下有益效果:
1、本发明不需要用户指定宝宝的照片,利用相册中出现与宝宝年龄相同的人像较大可能性是宝宝照片的分布特点,自动分析识别出相册内容宝宝从小到大跨度时间长维度的所有照片。
2、现有技术中是按照地理,人物,风景等通过图片分类的方法把照片放到一个集合里,所以结果一个有限的类别集合;本发明使用的场景分组,与时间线有密切关联,目的是把相近时间段内的照片按照某些特征把聚合成不同组别,方便时间线上展示,并不需要关心这个组别描述的内容是什么,智能分组后的结果也会帮助用于照片的质量评定和筛选。
3、本发明将时间线和图片画面进行分组融合,用时间线回顾展示儿童照片的同时,保持照片展示的质量和整洁美观效果。与现有技术中单纯用时间线展示照片不同,也与单纯分类展示照片不同。
4、本发明结合照片分组与基于人脸信息的图像质量评价,删除冗余的、质量不好的照片,保障时间线上浏览照片的质量与浏览高效。
5、本发明结合照片分组、深度学习模型生成图片内容的文字摘要、TF-IDF算法提取照片内容的关键字作为照片组的标签,准确描述了照片分组的内容,方面搜索查找。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例提供的本地相册儿童照片智能筛选和时间线整理方法流程示意图。
图2为本发明实施例提供的本地相册儿童照片智能筛选和时间线整理方法结果示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
参见图1所示,本发明实施例提供了一种本地相册儿童照片智能筛选和时间线整理方法,具体包括如下步骤:
S1、对目标儿童的标准人脸信息对比库进行初始化;
S2、根据图片拍摄时间从相册中筛选出人脸图片,并将筛选出的人脸图片的人脸信息依次与初始化后的标准人脸信息对比库中的人脸信息进行匹配;
S3、对匹配成功的人脸图片进行人脸3D空间特征点的提取,并根据人脸3D空间特征点,对人脸图片进行人脸表情分类和图片质量评分;
S4、根据人脸图片的拍摄时间和画面相似度,对匹配成功的人脸图片进行聚类分组;
S5、根据人脸信息和图片质量评分对聚类分组中的人脸图片进行过滤处理;
S6、对过滤处理后的聚类分组中的每一组人脸图片获取摘要描述,并从摘要描述中提取关键词作为该组图片的标签。
下面分别对上述各个步骤进行详细的说明。
在上述步骤S1中,自动分析聚类识别儿童照片,完成标准人脸信息对比库的初始化。利用相册图片中出现与宝宝年龄相同、频率较高的人脸较大可能性是该宝宝人脸的统计特征,结合了人脸检测,人脸年龄估计,基于AIn-CNNs(AgeindependentConvolutionalneuralnetworks)模型的人脸特征提取及人脸聚类分析,可以准确地生成宝宝的标准人脸信息对比库。具体包括:
S11、获取读取本地相册的权限,并获取目标儿童的出生日期;
S12、对相册中预设时间范围内的待处理图片进行人脸检测和人脸特征点提取(双眼瞳孔,鼻尖和嘴角两端),并对图片中的人脸区域图片进行截取;
S13、根据提取出的人脸特征点的空间坐标,采用仿射变换法对截取的人脸区域图片进行人脸对齐处理;
S14、基于人脸对齐处理后的人脸区域图片,根据目标儿童的出生日期和对应图片的拍摄时间,检测出人脸区域图片所对应的年龄,并筛选出符合年龄范围的人脸区域图片;可以采用已经训练好的年龄检测模型对人脸区域图片进行年龄检测,并筛选出符合年龄范围的人脸区域图片;该年龄检测模型使用SSRNet,该模型将年龄回归问题分解成3个不同的阶段,通过多类分类来解决年龄估计问题,然后通过计算期望值将分类结果转化为回归,由粗到细的策略并执行多阶段的多类分类,每个阶段只负责完善其前一阶段的决策,以获得更准确的年龄估计;该模型可以基于SSRNet模型,通过自建图像数据库进行训练来获得;
S15、采用AIn-CNNs特征提取模型对筛选出来的人脸区域图片依次进行编码,生成对应的人脸特征向量;该AIn-CNNs特征提取模型针对已经标注好的婴幼儿数据训练优化,模型结构上将卷积块注意力网络结构和残差网络结构结合来提取面部特征,结合年龄回归提取出年龄干扰项,并改进损失函数到抑制年龄干扰,从而得到与年龄无关的面部特征。通过提取年龄无关的人脸特征,可大幅度提高跨年龄段识别的精度,并将符合年龄范围的人脸图片编码成人脸特征向量;该人脸特征向量实际上是与年龄无关的面部特征向量;该AIn-CNNs特征提取模型可以基于《基于深度学习的抗年龄干扰人脸识别》,并结合自建数据集进行训练来获得;
S16、依次提取完所有备选照片中的符合年龄的人脸特征向量后,利用相册中出现与宝宝年龄相同的人像较大可能性是宝宝照片的分布特点,对生成的人脸特征向量进行聚类,并将人脸特征向量数量最多的一组聚类,作为目标儿童人脸特征向量;
S17、将目标儿童人脸特征向量,以及对应的检测年龄和对应图片的拍摄时间存储在临时的标准人脸信息对比库中,完成标准人脸信息对比库的初始化。
在上述步骤S2中,具体包括:
S21、将相册中的图片按照拍摄时间进行降序排序,根据图片拍摄时间距当前时间由近及远的顺序对图片进行分组处理;
S22、对每组待处理图片进行人脸检测和人脸特征点提取,并对图片中的人脸区域图片进行截取;
S23、根据提取出的人脸特征点的空间坐标,采用仿射变换法对截取的人脸区域图片进行人脸对齐处理;
S24、基于人脸对齐处理后的人脸区域图片,根据目标儿童的出生日期和对应图片的拍摄时间,检测出人脸区域图片所对应的年龄,并筛选出符合年龄范围的人脸区域图片;
S25、采用AIn-CNNs特征提取模型对筛选出来的人脸区域图片依次进行编码,生成对应的人脸特征向量;
S26、将S25中生成的人脸特征向量与标准人脸信息对比库中拍摄时间相差预设时间范围内的目标儿童人脸特征向量进行余弦相似度计算,若相似度高于第一预设阈值T0,则匹配成功,可认为是目标儿童;由于婴幼儿人脸特征随变化快,年龄差距越大特征变化可能性变大,导致可能匹配效果不好,因此在本发明实施例中,将上述预设时间范围设为三个月。
若相似度高于第二预设阈值T1,则将该人脸特征向量,以及对应的检测年龄和对应图片的拍摄时间组成条目,更新至标准人脸信息对比库中,实现随时间对标准人脸信息对比库中的人脸信息进行更新;该第二预设阈值T1大于上述第一预设阈值T0。
基于上述内容,本发明实施例通过年龄检测过滤、渐进更新人脸标准库,年龄无关的人脸特征提取相结合的方法解决了宝宝在不同年龄段的识别问题。
在上述步骤S3中,具体包括:
S31、对匹配成功的人脸图片进行人脸3D空间特征点的提取;
S32、从人脸3D空间特征点中选取左眼角、右眼角、鼻尖、左嘴角、右嘴角和下巴这六个3D空间特征点的坐标,基于此,通过PnP(Perspective-n-Poin)算法获得人脸姿态三维空间欧拉角(pitch俯仰角、roll翻滚角和yaw偏航角);
S33、通过EfficientFace模型算法,获得人脸表情类别;可以将提取出的人脸图像输入至预训练好的表情识别模型中,输出人脸表情类别;表情包括“笑”、“哭”、“中性”和“未知”;该表情识别模型可以基于EfficientFace并结合自建数据集训练模型完成;具体可参考现有技术《RobustLightweight FacialExpressionRecognitionNetworkwithLabelDistributionTraining》;
S34、统计每张人脸图片的亮度直方图、对比度和分块锐度,结合人脸姿态三维空间欧拉角和人脸表情类别,对每张人脸图片进行图片质量评分;具体为结合人脸位置、人脸角度、人脸表情、人脸大小等信息计算得到图片质量评分,评分归一化到[0,1]。这些信息有利于后续过滤分组照片。
在上述步骤S4中,通过时间和主色调分析相似度聚类融合的算法,对同一天的照片基于拍摄时间和场景进行分类成组;具体包括:
S41、采用Kmeans算法对匹配成功的人脸图片的拍摄时间进行聚类分组;
S42、对每天的人脸图片进行主色调分析,若存在两张人脸图片的主色调分析相似度达到第三预设阈值T2,则将该两张人脸图片聚合到一个组内;
S43、根据主色调分析相似度分组的结果,将时间聚类分组进行合并:如果相邻时间分组内的图片,处于同一主色调分析相似度分组的图片数达到各自时间聚类内图片数量的一半以上,则将相邻的时间分组进行合并;依次处理完所有相邻的时间分组,从而获得最终的图片分组,实现将照片的拍摄时间和画面相似度进行分类成组的目的。
在上述步骤S5中,根据聚类分组、人脸信息、图像质量评分,对一天内的多个分组进行进一步筛选,过滤掉相似度过高的重复图片;具体包括:依次对每天内的多个分组进行筛选,过滤掉相似度过高的重复图片:如果每个分组内存在两张人脸图片的主色调分析相似度高于第四预设阈值T3(第四预设阈值T3大于上述第三预设阈值T2),且这两张人脸图片中的人脸个数相同、人脸位置区域重叠度IOU超过第五预设阈值T4,人脸姿态三维空间欧拉角的差值在预设范围内、识别的人脸表情相同,则将其中一张图片质量评分偏低的人脸图片进行过滤。根据上述方法依次对每天内的多个分组进行筛选,从每一类中选取一张保存,从而获得每天人脸图片的最终筛选和分组结果。由此,完成相似照片分组的低质量照片删除。
在上述步骤S6中,具体包括:
S61、将过滤处理后的聚类分组中的每一组人脸图片依次输入至SwinBERT模型中,进行多帧画面的内容摘要提取,输出对应组人脸图像的摘要描述;该SwinBERT模型可参见现有技术《SWINBERT:End-to-EndTransformerswith SparseAttentionforVideoCaptioning》;
S62、采用TF-IDF算法对所述摘要描述进行关键词提取,生成对应组人脸图片的标签。按照该方法依次对每一日的每一分组添加标签;具体效果图可参见图2所示。
本步骤并不是简单地按照场景模型对不同图片进行分类,而是将图片转化为文字来描述,之后再从文字描述中提取关键词,依次来实现最终的场景分类以及生成对应的标签。
该方法通过对人脸检测、年龄检测、人脸识别技术从相册中筛选出包含目标儿童的照片;通过照片的拍摄时间聚类和主色调分析相似度聚类,将照片按时间和背景进行了分组;再根据主色调分析相似度和人脸信息进行相似图片的过滤;以及通过多帧图像摘要提取和关键词识别的结束给每个分组打上标签。由此实现了对相册中目标儿童照片的智能筛选和时间线智能整理。
本发明实施例还提供了一种本地相册儿童照片智能筛选和时间线整理系统,应用上述的方法,该系统包括标准人脸信息对比库初始化子系统、相册图片筛选匹配子系统、图片表情分类识别子系统、图片时间与场景分类识别子系统、相似图片过滤子系统和图片组标签子系统;其中:
标准人脸信息对比库初始化子系统,用于对目标儿童的标准人脸信息对比库进行初始化;
相册图片筛选匹配子系统,用于根据图片拍摄时间从相册中筛选出人脸图片,并将筛选出的人脸图片的人脸信息依次与初始化后的标准人脸信息对比库中的人脸信息进行匹配;
图片表情分类识别子系统,用于对匹配成功的人脸图片进行人脸3D空间特征点的提取,并根据人脸3D空间特征点,对人脸图片进行人脸表情分类和图片质量评分;
图片时间与场景分类识别子系统,用于根据人脸图片的拍摄时间和画面相似度,对匹配成功的人脸图片进行聚类分组;
相似图片过滤子系统,用于根据人脸信息和图片质量评分对聚类分组中的人脸图片进行过滤处理;
图片组标签子系统,用于对过滤处理后的聚类分组中的每一组人脸图片获取摘要描述,并从摘要描述中提取关键词作为该组图片的标签。
该系统通过多算法的融合,可以从本地相册中挑选出高质量的目标儿童的照片,并按照时间线与智能分组结合进行展示,有效解决了如何实现儿童照片智能筛选,并在时间线上分组整理打标,整洁美观的展示照片的问题。
本发明实施例提供了一种本地相册儿童照片智能筛选和时间线整理方法及系统,融合传统图像分析,图像神经网络,和自然语言神经网络来对用户的相册进行识别、筛选、分组;采用了人脸检测、年龄检测、人脸识别,人脸3D特征点提取,人脸表情识别,图像相似度分析,图像质量分析,和多帧图片的摘要提取和关键词提取等神经网络模型;从用户纷杂的相册中,对图片进行识别、筛选、分组等处理最终整理出一条儿童从出生到长大的成长时间线;并把照片自动按场景分组、去除组内低质量的照片,给每个场景分组打好标签,能够给父母回顾孩子的成长带来美好的体验。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述得比较简单,相关之处参见方法部分说明即可。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种本地相册儿童照片智能筛选和时间线整理方法,其特征在于,包括:
S1、对目标儿童的标准人脸信息对比库进行初始化;
S2、根据图片拍摄时间从相册中筛选出人脸图片,并将筛选出的人脸图片的人脸信息依次与初始化后的标准人脸信息对比库中的人脸信息进行匹配;
S3、对匹配成功的人脸图片进行人脸3D空间特征点的提取,并根据所述人脸3D空间特征点,对人脸图片进行人脸表情分类和图片质量评分;
S4、根据所述人脸图片的拍摄时间和画面相似度,对匹配成功的人脸图片进行聚类分组;
S5、根据人脸信息和图片质量评分对聚类分组中的人脸图片进行过滤处理;
S6、对过滤处理后的聚类分组中的每一组人脸图片获取摘要描述,并从所述摘要描述中提取关键词作为该组图片的标签。
2.如权利要求1所述的一种本地相册儿童照片智能筛选和时间线整理方法,其特征在于,所述S1具体包括:
S11、获取目标儿童的出生日期;
S12、对相册中预设时间范围内的待处理图片进行人脸检测和人脸特征点提取,并对图片中的人脸区域图片进行截取;
S13、根据提取出的人脸特征点的空间坐标,采用仿射变换法对截取的人脸区域图片进行人脸对齐处理;
S14、基于人脸对齐处理后的人脸区域图片,根据目标儿童的出生日期和对应图片的拍摄时间,检测出人脸区域图片所对应的年龄,并筛选出符合年龄范围的人脸区域图片;
S15、采用AIn-CNNs特征提取模型对筛选出来的人脸区域图片依次进行编码,生成对应的人脸特征向量;
S16、对生成的人脸特征向量进行聚类,并将人脸特征向量数量最多的一组聚类,作为目标儿童人脸特征向量;
S17、将目标儿童人脸特征向量,以及对应的检测年龄和对应图片的拍摄时间存储在临时的标准人脸信息对比库中,完成标准人脸信息对比库的初始化。
3.如权利要求2所述的一种本地相册儿童照片智能筛选和时间线整理方法,其特征在于,所述S2具体包括:
S21、将相册中的图片按照拍摄时间进行降序排序,根据图片拍摄时间距当前时间由近及远的顺序对图片进行分组处理;
S22、对每组待处理图片进行人脸检测和人脸特征点提取,并对图片中的人脸区域图片进行截取;
S23、根据提取出的人脸特征点的空间坐标,采用仿射变换法对截取的人脸区域图片进行人脸对齐处理;
S24、基于人脸对齐处理后的人脸区域图片,根据目标儿童的出生日期和对应图片的拍摄时间,检测出人脸区域图片所对应的年龄,并筛选出符合年龄范围的人脸区域图片;
S25、采用AIn-CNNs特征提取模型对筛选出来的人脸区域图片依次进行编码,生成对应的人脸特征向量;
S26、将S25中生成的人脸特征向量与所述标准人脸信息对比库中拍摄时间相差预设时间范围内的目标儿童人脸特征向量进行余弦相似度计算,若相似度高于第一预设阈值,则匹配成功。
4.如权利要求3所述的一种本地相册儿童照片智能筛选和时间线整理方法,其特征在于,所述S26还包括:
若相似度高于第二预设阈值,则将该人脸特征向量,以及对应的检测年龄和对应图片的拍摄时间更新至所述标准人脸信息对比库中,实现随时间对标准人脸信息对比库中的人脸信息进行更新;
所述第二预设阈值大于所述第一预设阈值。
5.如权利要求3所述的一种本地相册儿童照片智能筛选和时间线整理方法,其特征在于,所述S3具体包括:
S31、对匹配成功的人脸图片进行人脸3D空间特征点的提取;
S32、从所述人脸3D空间特征点中选取左眼角、右眼角、鼻尖、左嘴角、右嘴角和下巴这六个3D空间特征点的坐标,基于此,通过PnP算法获得人脸姿态三维空间欧拉角;
S33、通过EfficientFace模型算法,获得人脸表情类别;
S34、统计每张人脸图片的亮度直方图、对比度和分块锐度,结合人脸姿态三维空间欧拉角和人脸表情类别,对每张人脸图片进行图片质量评分。
6.如权利要求5所述的一种本地相册儿童照片智能筛选和时间线整理方法,其特征在于,所述S4包括:
S41、采用Kmeans算法对匹配成功的人脸图片的拍摄时间进行聚类分组;
S42、对每天的人脸图片进行主色调分析,若存在两张人脸图片的主色调分析相似度达到第三预设阈值,则将该两张人脸图片聚合到一个组内;
S43、根据主色调分析相似度分组的结果,将时间聚类分组进行合并。
7.如权利要求6所述的一种本地相册儿童照片智能筛选和时间线整理方法,其特征在于,所述S43具体包括:如果相邻时间分组内的图片,处于同一主色调分析相似度分组的图片数达到各自时间聚类内图片数量的一半以上,则将相邻的时间分组进行合并。
8.如权利要求6所述的一种本地相册儿童照片智能筛选和时间线整理方法,其特征在于,所述S5具体包括:
依次对每天内的多个分组进行筛选,如果每个分组内存在两张人脸图片的主色调分析相似度高于第四预设阈值,且这两张人脸图片中的人脸个数相同、人脸位置区域重叠度IOU超过第五预设阈值,人脸姿态三维空间欧拉角的差值在预设范围内、识别的人脸表情相同,则将其中一张图片质量评分偏低的人脸图片进行过滤。
9.如权利要求1所述的一种本地相册儿童照片智能筛选和时间线整理方法,其特征在于,所述S6具体包括:
S61、将过滤处理后的聚类分组中的每一组人脸图片依次输入至SwinBERT模型中,输出对应组人脸图像的摘要描述;
S62、采用TF-IDF算法对所述摘要描述进行关键词提取,生成对应组人脸图片的标签。
10.一种本地相册儿童照片智能筛选和时间线整理系统,其特征在于,应用权利要求1-9任一项所述的方法,该系统包括:标准人脸信息对比库初始化子系统、相册图片筛选匹配子系统、图片表情分类识别子系统、图片时间与场景分类识别子系统、相似图片过滤子系统和图片组标签子系统;其中:
所述标准人脸信息对比库初始化子系统,用于对目标儿童的标准人脸信息对比库进行初始化;
所述相册图片筛选匹配子系统,用于根据图片拍摄时间从相册中筛选出人脸图片,并将筛选出的人脸图片的人脸信息依次与初始化后的标准人脸信息对比库中的人脸信息进行匹配;
所述图片表情分类识别子系统,用于对匹配成功的人脸图片进行人脸3D空间特征点的提取,并根据所述人脸3D空间特征点,对人脸图片进行人脸表情分类和图片质量评分;
所述图片时间与场景分类识别子系统,用于根据所述人脸图片的拍摄时间和画面相似度,对匹配成功的人脸图片进行聚类分组;
所述相似图片过滤子系统,用于根据人脸信息和图片质量评分对聚类分组中的人脸图片进行过滤处理;
所述图片组标签子系统,用于对过滤处理后的聚类分组中的每一组人脸图片获取摘要描述,并从所述摘要描述中提取关键词作为该组图片的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310242839.5A CN116383419A (zh) | 2023-03-14 | 2023-03-14 | 一种本地相册儿童照片智能筛选和时间线整理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310242839.5A CN116383419A (zh) | 2023-03-14 | 2023-03-14 | 一种本地相册儿童照片智能筛选和时间线整理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116383419A true CN116383419A (zh) | 2023-07-04 |
Family
ID=86970381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310242839.5A Pending CN116383419A (zh) | 2023-03-14 | 2023-03-14 | 一种本地相册儿童照片智能筛选和时间线整理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383419A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649692A (zh) * | 2023-10-24 | 2024-03-05 | 广州像素数据技术股份有限公司 | 基于多人脸图像特征图融合的人脸识别方法及相关设备 |
-
2023
- 2023-03-14 CN CN202310242839.5A patent/CN116383419A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649692A (zh) * | 2023-10-24 | 2024-03-05 | 广州像素数据技术股份有限公司 | 基于多人脸图像特征图融合的人脸识别方法及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9542419B1 (en) | Computer-implemented method for performing similarity searches | |
Duan et al. | Visual event recognition in videos by learning from web data | |
Kong et al. | Interactive phrases: Semantic descriptionsfor human interaction recognition | |
US9171013B2 (en) | System and method for providing objectified image renderings using recognition information from images | |
US7684651B2 (en) | Image-based face search | |
US7809192B2 (en) | System and method for recognizing objects from images and identifying relevancy amongst images and information | |
US8649572B2 (en) | System and method for enabling the use of captured images through recognition | |
CN109325148A (zh) | 生成信息的方法和装置 | |
Ding et al. | Inferring social relations from visual concepts | |
Chen et al. | What's in a name? First names as facial attributes | |
Shao et al. | What do you do? occupation recognition in a photo via social context | |
CN113435335B (zh) | 微观表情识别方法、装置、电子设备及存储介质 | |
CN111694959A (zh) | 基于面部表情和文本信息的网络舆情多模态情感识别方法及系统 | |
CN109635647B (zh) | 一种基于约束条件下的多图片多人脸的聚类方法 | |
CN105956631A (zh) | 一种面向电子图库的在线渐进式图像分类方法 | |
Dey et al. | Learning cross-modal deep embeddings for multi-object image retrieval using text and sketch | |
Wang et al. | A fine-grained facial expression database for end-to-end multi-pose facial expression recognition | |
Li et al. | Data-driven affective filtering for images and videos | |
Santhalingam et al. | Finehand: Learning hand shapes for american sign language recognition | |
CN108154156A (zh) | 基于神经主题模型的图像集成分类方法及装置 | |
CN116383419A (zh) | 一种本地相册儿童照片智能筛选和时间线整理方法及系统 | |
CN111666976A (zh) | 基于属性信息的特征融合方法、装置和存储介质 | |
Vadakkot et al. | Automatic one-hand gesture (mudra) identification in bharatanatyam using eigenmudra projections and convolutional neural networks | |
Wang et al. | Listen, look, and find the one: Robust person search with multimodality index | |
CN111223014B (zh) | 一种从大量细分教学内容在线生成细分场景教学课程的方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |