CN111767779A - 图像处理方法、装置、设备及计算机可读存储介质 - Google Patents
图像处理方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111767779A CN111767779A CN202010192033.6A CN202010192033A CN111767779A CN 111767779 A CN111767779 A CN 111767779A CN 202010192033 A CN202010192033 A CN 202010192033A CN 111767779 A CN111767779 A CN 111767779A
- Authority
- CN
- China
- Prior art keywords
- target
- key frame
- expression
- expression type
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 28
- 230000014509 gene expression Effects 0.000 claims abstract description 286
- 241000282414 Homo sapiens Species 0.000 claims abstract description 125
- 230000008921 facial expression Effects 0.000 claims abstract description 104
- 238000012545 processing Methods 0.000 claims abstract description 89
- 230000008451 emotion Effects 0.000 claims abstract description 35
- 238000000034 method Methods 0.000 claims abstract description 27
- 238000012216 screening Methods 0.000 claims description 9
- 238000005452 bending Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 20
- 238000013461 design Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 206010008748 Chorea Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 208000012601 choreatic disease Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000994 depressogenic effect Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 210000000115 thoracic cavity Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
Landscapes
- Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种图像处理方法、装置、设备及计算机可读存储介质,方法包括:获取终端设备发送的图像处理指令,图像处理指令中包括待处理视频;根据图像处理指令,在待处理视频中确定待处理的至少一个关键帧;对关键帧进行人脸表情识别以及人体表情识别,根据识别得到的人脸表情类型以及人体表情类型确定目标表情类型;根据目标表情类型对关键帧进行编辑操作,获得目标表情图像;将目标表情图像发送至终端设备。通过根据该人脸表情类型以及人体表情类型共同实现目标表情类型的确定,能够提高用户表情识别的精准度,进而根据该目标表情类型制作的目标表情图像能够更加精准地表征图像的真实情绪,提高目标表情图像的真实性以及适用性,提高用户体验。
Description
技术领域
本发明涉及图像处理领域,尤其涉及一种图像处理方法、装置、设备及计算机可读存储介质。
背景技术
随着生活水平的日益提高,人们的娱乐需求与日俱增。用户在社交应用上进行聊天的过程中,为了更加清晰地表达用户当前的情绪,一般都会在聊天过程中发送表情。而由于图像比文字可以更确切的阐述情感也兼具娱乐性,因此,相对于社交应用上预设的表情,用户更倾向于通过图像来自定义表情包。
为了实现自定义表情包的制作,一般都需要用户首先输入用于制作表情包的图像,通过预设的表情识别模型对该图像中人脸的表情进行识别,根据识别结果进行文字以及贴图的设置。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题,现有的表情包制作方法往往仅考虑到了人脸表情类型的因素,而人脸表情类型很多情况下无法表征用户真实的情绪。例如,用户情绪不佳苦笑时,表情识别模型对人脸进行表情识别的结果可能为开心、愉悦,因此,识别精度不佳,相应地根据该人脸表情类型制作的表情包的准确度也不高,无法表征用户真实的情绪。
发明内容
本发明提供一种图像处理方法、装置、设备及计算机可读存储介质,用于解决现有的表情包制作方法仅根据人脸表情类型进行表情包的制作,由于识别精度不佳,导致制作的表情包无法真实表针用户情绪的技术问题。
本发明的第一个方面是提供一种图像处理方法,包括:
获取终端设备发送的图像处理指令,其中,所述图像处理指令中包括待处理视频;
根据所述图像处理指令,在所述待处理视频中确定待处理的至少一个关键帧;
对所述关键帧进行人脸表情识别以及人体表情识别,根据识别得到的人脸表情类型以及人体表情类型确定目标表情类型;
根据所述目标表情类型对所述关键帧进行编辑操作,获得目标表情图像;
将所述目标表情图像发送至终端设备,以使用户对所述目标表情图像进行编辑操作。
在一种可能的设计中,所述对所述关键帧进行人脸表情类型识别以及人体表情类型识别,包括:
将所述关键帧输入至预设的人脸表情识别模型,获得所述关键帧对应的人脸表情类型;
根据所述关键帧对应的人脸表情类型对所述关键帧进行筛选操作,获得目标关键帧;
对所述目标关键帧进行人体表情类型识别操作,获得所述目标关键帧对应的人体表情类型。
在一种可能的设计中,所述根据所述关键帧对应的人脸表情类型对所述关键帧进行筛选操作,包括:
在所述关键帧中获取所述人脸表情类型对应的置信度超过预设的置信度阈值的候选关键帧;
将所述待处理视频中所述候选关键帧前后预设时间间隔内的关键帧作为所述目标关键帧。
在一种可能的设计中,所述对所述目标关键帧进行人体表情类型识别操作,获得所述目标关键帧对应的人体表情类型,包括:
将所述目标关键帧输入至预设的人体识别模型中,获得所述目标关键帧对应的姿势信息;
根据所述姿势信息以及预设的人体姿势情绪表,确定所述目标关键帧对应的人体表情类型,其中,所述人体姿势情绪表中包括预设的多个人体表情类型对应的关节弯曲角度。
在一种可能的设计中,所述对所述关键帧进行人脸表情类型识别以及人体表情类型识别之前,还包括:
通过预设的关键点识别模型对所述至少一个关键帧中人脸关键点进行识别,根据所述人脸关键点对所述至少一个关键帧进行人脸对齐操作。
在一种可能的设计中,所述对所述关键帧进行人脸表情类型识别以及人体表情类型识别之前,还包括:
获取用户预先输入的目标人脸图像;
确定所述关键帧中的人脸图像与所述目标人脸图像之间的相似度;
当相似度超过预设的相似度阈值时,对所述关键帧进行人脸表情类型识别以及人体表情类型识别。
在一种可能的设计中,所述根据所述目标表情类型对所述关键帧进行编辑操作,获得目标表情图像,包括:
根据所述目标表情类型从数据服务器中获取预设的与所述目标表情类型对应的文字和/或贴图;
根据所述目标表情类型对应的文字和/或贴图对所述关键帧进行编辑操作,获得目标表情图像。
本发明的另一个方面是提供一种图像处理装置,包括:
获取模块,用于获取终端设备发送的图像处理指令,其中,所述图像处理指令中包括待处理视频;
确定模块,用于根据所述图像处理指令,在所述待处理视频中确定待处理的至少一个关键帧;
处理模块,用于对所述关键帧进行人脸表情识别以及人体表情识别,根据识别的人脸表情类型以及人体表情类型获得目标表情类型;
编辑模块,用于根据所述目标表情类型对所述关键帧进行编辑操作,获得目标表情图像;
发送模块,用于将所述目标表情图像发送至终端设备,以使用户对所述目标表情图像进行编辑操作。
在一种可能的设计中,所述处理模块包括:
第一识别单元,用于将所述关键帧输入至预设的人脸表情识别模型,获得所述关键帧对应的人脸表情类型;
筛选单元,用于根据所述关键帧对应的人脸表情类型对所述关键帧进行筛选操作,获得目标关键帧;
第二识别单元,用于对所述目标关键帧进行人体表情类型识别操作,获得所述目标关键帧对应的人体表情类型。
在一种可能的设计中,所述第二识别单元用于:
在所述关键帧中获取所述人脸表情类型对应的置信度超过预设的置信度阈值的候选关键帧;
将所述待处理视频中所述候选关键帧前后预设时间间隔内的关键帧作为所述目标关键帧。
在一种可能的设计中,所述第二识别单元用于:
将所述目标关键帧输入至预设的人体识别模型中,获得所述目标关键帧对应的姿势信息;
根据所述姿势信息以及预设的人体姿势情绪表,确定所述目标关键帧对应的人体表情类型,其中,所述人体姿势情绪表中包括预设的多个人体表情类型对应的关节弯曲角度。
在一种可能的设计中,所述装置还包括:
预处理模块,用于通过预设的关键点识别模型对所述至少一个关键帧中人脸关键点进行识别,根据所述人脸关键点对所述至少一个关键帧进行人脸对齐操作。
在一种可能的设计中,所述装置还包括:
图像获取模块,用于获取用户预先输入的目标人脸图像;
相似度确定模块,用于确定所述关键帧中的人脸图像与所述目标人脸图像之间的相似度;
识别模块,用于当相似度超过预设的相似度阈值时,对所述关键帧进行人脸表情类型识别以及人体表情类型识别。
在一种可能的设计中,所述编辑模块,用于:
根据所述目标表情类型从数据服务器中获取预设的与所述目标表情类型对应的文字和/或贴图;
根据所述目标表情类型对应的文字和/或贴图对所述关键帧进行编辑操作,获得目标表情图像。
本发明的又一个方面是提供一种图像处理设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如第一方面所述的图像处理方法。
本发明的又一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的图像处理方法。
本发明提供的图像处理方法、装置、设备及计算机可读存储介质,通过根据终端设备发送的图像处理指令,在待处理视频中确定至少一个关键帧,确定各关键帧对应的人脸表情类型以及人体表情类型,根据人脸表情类型以及人体表情类型综合地确定关键帧中用户图像的目标表情类型,进而可以根据该目标表情类型对关键帧进行编辑处理,获得目标表情图像,将该目标表情图像发送至终端设备进行显示。通过分别确定人脸表情类型以及人体表情类型,并根据该人脸表情类型以及人体表情类型共同实现目标表情类型的确定,能够提高用户表情识别的精准度,进而根据该目标表情类型制作的目标表情图像能够更加精准地表征图像的真实情绪,提高目标表情图像的真实性以及适用性,提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于的系统架构示意图;
图2为本发明实施例一提供的图像处理方法的流程示意图;
图3为本发明实施例提供的人脸对齐示意图;
图4为本发明实施例二提供的图像处理方法的流程示意图;
图5为本发明实施例提供的经典表情示意图;
图6为本发明实施例提供的人脸检测模型的效果示意图;
图7为本发明实施例提供的人体识别模型的识别结果示意图;
图8为本发明实施例提供的人体姿势情绪表;
图9为本发明实施例三提供的图像处理方法的流程示意图;
图10为本发明实施例四提供的图像处理方法的流程示意图;
图11为本发明实施例所基于的又一系统架构图;
图12为本发明实施例五提供的图像处理装置的结构示意图;
图13为本发明实施例六提供的图像处理装置的结构示意图;
图14为本发明实施例七提供的图像处理装置的结构示意图;
图15为本发明实施例八提供的图像处理设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例所获得的所有其他实施例,都属于本发明保护的范围。
针对上述提及的现有的表情包制作方法仅根据人脸表情类型进行表情包的制作,由于识别精度不佳,导致制作的表情包无法真实表针用户情绪的技术问题,本发明提供了一种图像处理方法、装置、设备及计算机可读存储介质。
需要说明的是,本申请提供图像处理方法、装置、设备及计算机可读存储介质可运用在各种根据用户图像进行表情包制作的场景中。
现有的表情包制作方法一般都是在获取到包括人脸图像的表情包制作指令之后,通过预设的表情识别模型对人脸图像的人脸表情类型进行识别操作,根据人脸表情类型对人脸图像进行相应编辑处理,获得表情包。但是,人脸图像往往无法精准地表达用户的真实情绪,相应地,根据人脸表情类型制作的表情包的效果也无法满足用户的需求。
针对现有技术的缺陷,发明人在研究的过程中发现,由于人类在不同情绪下,有着不同的肢体活动,例如开心时可能会手舞足蹈,沮丧时可能会四肢较为蜷缩的状态,为了提高表情包的真实度以及适用性,可以考虑根据人脸表情类型以及人体表情类型两方面来确定用户的真实情绪。进而根据该真实情绪进行表情包的制作。
发明人进一步地研究发现,通过根据终端设备发送的图像处理指令,在待处理视频中确定至少一个关键帧,确定各关键帧对应的人脸表情类型以及人体表情类型,根据人脸表情类型以及人体表情类型综合地确定关键帧中用户图像的目标表情类型,进而可以根据该目标表情类型对关键帧进行编辑处理,获得目标表情图像,将该目标表情图像发送至终端设备进行显示。通过分别确定人脸表情类型以及人体表情类型,并根据该人脸表情类型以及人体表情类型共同实现目标表情类型的确定,能够提高用户表情识别的精准度,进而根据该目标表情类型制作的目标表情图像能够更加精准地表征图像的真实情绪,提高目标表情图像的真实性以及适用性,提高用户体验。
图1为本发明实施例基于的系统架构示意图,如图1所示,本发明基于的系统架构至少包括:终端设备1以及图像处理装置2。其中,图像处理装置2采用C/C++、Java、Shell或Python等语言编写;终端设备1则可例如台式电脑、平板电脑等。
图2为本发明实施例一提供的图像处理方法的流程示意图,如图2所示,所述方法包括:
步骤101、获取终端设备发送的图像处理指令,其中,所述图像处理指令中包括待处理视频。
本实施例的执行主体为图像处理装置,该图像处理装置与终端设备通信连接,从而能够与终端设备进行信息交互。需要说明的是,该图像处理装置可以设置在终端设备中,也可以为一个独立的装置,本发明对此不做限制。
在本实施方式中,为了实现对表情图像的制作,用户可以在终端设备上想图像处理装置发送图像处理指令。具体地,用户可以在终端设备上选择用于制作表情图像的待处理视频,并可以通过触发显示界面上预设的制作按钮实现图像处理指令的发送。相应地,图像处理装置可以接收该图像处理指令,其中,该图像处理指令中包括待处理视频。
具体地,图像处理指令中还可以包括待处理图像,从而图像处理装置可以根据该待处理图像实现对静态的表情图像。相应地,当图像处理指令中包括待处理视频时,图像处理装置可以根据该待处理视频实现对静态的表情图像的制作,还可以实现对动态的表情图像的制作。
步骤102、根据所述图像处理指令,在所述待处理视频中确定待处理的至少一个关键帧。
在本实施方式中,图像处理指令在获取到图像处理指令之后,可以根据该图像处理指令对待处理视频进行抽帧处理,获得待处理的至少一个关键帧。具体地,可以采用现有的任意一种能够实现视频抽帧的工具实现对关键帧的获取,本发明对此不做限制。在实际应用中,可以根据实际需求设置每秒的抽帧数量。
步骤103、对所述关键帧进行人脸表情识别以及人体表情识别,根据识别得到的人脸表情类型以及人体表情类型确定目标表情类型。
在本实施方式中,为了提高关键帧中用户图像情绪的精准确定,可以确定关键帧对应的人脸表情类型以及人体表情类型。具体地,可以对该关键帧进行人脸表情类型识别以及人体表情类型识别,分别获得人脸表情类型以及人体表情类型。从而可以结合人脸表情类型以及人体表情类型,实现对目标表情类型的确定。
区别于现有技术中仅根据人脸表情类型进行表情包制作的方案,通过分别确定关键帧对应的人脸表情类型以及人体表情类型,从而能够提高用户表情识别的精准度,进而根据该目标表情类型制作的目标表情图像能够更加精准地表征图像的真实情绪。
步骤104、根据所述目标表情类型对所述关键帧进行编辑操作,获得目标表情图像。
在本实施方式中,确定了关键帧对应的目标表情类型之后,图像处理装置即可以根据该目标表情类型对关键帧进行编辑操作,获得目标图像。例如,当目标表情类型为快乐时,可以在关键帧上添加表征快乐的花朵、彩带等贴纸;还可以在关键帧上添加愉快的话语;作为一种可以实施的方式,还可以对关键帧进行色彩的调整,将关键帧的色彩调节至更为明亮的色彩等。
步骤105、将所述目标表情图像发送至终端设备,以使用户对所述目标表情图像进行编辑操作。
在本实施方式中,在完成目标表情图像的制作之后,为了使用户能够对该目标表情类型进行查看以及编辑,可以将该目标表情图像发送至终端设备。相应地,终端设备在接收到该目标表情图像之后,可以在显示界面上显示该目标表情图像。从而用户可以根据实际需求对该目标表情图像进行进一步地修改或者设置使用等操作。
进一步地,在上述任一实施例的基础上,步骤103之前,还包括:
通过预设的关键点识别模型对所述至少一个关键帧中人脸关键点进行识别,根据所述人脸关键点对所述至少一个关键帧进行人脸对齐操作。
在本实施例中,由于关键帧中的部分人脸图像存在倾斜、旋转的情况,因此,为了提高目标表情图像的制作效率,需要对关键帧进行人脸对齐操作。具体地,可以通过预设的关键点识别模型对至少一个关键帧中人脸关键点进行识别,根据人脸关键点对至少一个关键帧进行人脸对齐操作。具体地,可以使用mtcnn回归的关键点坐标以及标准的人脸关键点位置进行人脸对齐操作。使用关键点进行仿射变换,将不规整的关键帧变换至标准的关键帧以待进行特征提取。标准的关键帧更有利于后续特征的识别和分类。
图3为本发明实施例提供的人脸对齐示意图,如图3所示,关键帧中人脸图像是向右倾斜的,为了方便后续对关键帧进行人脸表情类型的识别,可以对关键帧进行人脸对齐操作,得到人脸朝向居中的关键帧。
具体地,在上述任一实施例的基础上,所述人脸表情类型以及人体表情类型的数量为至少一个;
相应地,步骤103具体包括:
将所述人脸表情类型与人体表情类型中重合的表情作为所述目标表情类型。
在本实施例中,在对关键帧进行人脸表情类型识别以及人体表情类型识别之后,可能会得出多个不同的表情。例如,人脸表情类型识别之后,结果可能为快乐,悲伤,气愤;而人体表情类型识别之后,结果可能为气愤,恐惧,厌恶。其中,人脸表情类型与人体表情类型中均包括气愤,从而可以将气愤作为目标表情类型。
本实施例提供的图像处理方法,通过根据终端设备发送的图像处理指令,在待处理视频中确定至少一个关键帧,确定各关键帧对应的人脸表情类型以及人体表情类型,根据人脸表情类型以及人体表情类型综合地确定关键帧中用户图像的目标表情类型,进而可以根据该目标表情类型对关键帧进行编辑处理,获得目标表情图像,将该目标表情图像发送至终端设备进行显示。通过分别确定人脸表情类型以及人体表情类型,并根据该人脸表情类型以及人体表情类型共同实现目标表情类型的确定,能够提高用户表情识别的精准度,进而根据该目标表情类型制作的目标表情图像能够更加精准地表征图像的真实情绪,提高目标表情图像的真实性以及适用性,提高用户体验。
图4为本发明实施例二提供的图像处理方法的流程示意图,在实施例一的基础上,如图4所示,步骤103具体包括:
步骤201、将所述关键帧输入至预设的人脸表情识别模型,获得所述关键帧对应的人脸表情类型;
步骤202、根据所述关键帧对应的人脸表情类型对所述关键帧进行筛选操作,获得目标关键帧;
步骤203、对所述目标关键帧进行人体表情类型识别操作,获得所述目标关键帧对应的人体表情类型。
在本实施例中,为了实现对关键帧的人脸表情类型识别以及人体识别,首先,图像处理装置可以将关键帧输入至预设的人脸表情识别模型中,获得关键帧对应的人脸表情类型。其中,可以预先通过根据经典表情分类后的多个表情对应的图像对模型进行训练,获得表情识别模型,从而表情识别模型能够对关键帧的表情类型进行识别。图5为本发明实施例提供的经典表情示意图,如图5所示,从左至右分别为快乐,悲伤,气愤,恐惧,厌恶和惊讶,以及相对无明显情感表达的中立表情。
需要说明的是,为了实现对关键帧进行表情识别操作,在通过预设的表情识别模型进行表情类型识别之前,还需要通过预设的人脸检测模型对人脸区域进行检测。图6为本发明实施例提供的人脸检测模型的效果示意图,如图6所示,人脸检测模型可以对关键帧中的人脸区域进行检测,并采用矩形框对人脸区域进行标识。
实际应用中,为了提高表情图像的趣味性以及适用性,在制作表情图像时,一般都需要选取表情幅度较大、较为戏剧化的图像。因此,在对关键帧进行人脸表情类型识别之后,可以根据人脸表情类型对关键帧进行筛选操作,获得目标关键帧。进而可以对目标关键帧进行人体表情类型识别操作,获得目标关键帧对应的人体表情类型。
具体地,在上述任一实施例的基础上,步骤202具体包括:
在所述关键帧中获取所述人脸表情类型对应的置信度超过预设的置信度阈值的候选关键帧;
将所述待处理视频中所述候选关键帧前后预设时间间隔内的关键帧作为所述目标关键帧。
在本实施例中,为了能够提高目标表情图像的效果,首先需要确定人脸表情类型得分较高的关键帧。具体地,可以在关键帧中获取人脸表情类型对应的置信度超过预设的置信度阈值的候选关键帧,其中,该置信度可以为表情识别模型输出的数值。从而可以将候选关键帧前后预设时间间隔内的关键帧作为目标关键帧,例如,可以将候选关键帧前后5秒内的关键帧作为目标关键帧。
进一步地,在上述任一实施例的基础上,步骤203具体包括:
将所述目标关键帧输入至预设的人体识别模型中,获得所述目标关键帧对应的姿势信息;
根据所述姿势信息以及预设的人体姿势情绪表,确定所述目标关键帧对应的人体表情类型,其中,所述人体姿势情绪表中包括预设的多个人体表情类型对应的关节弯曲角度。
在本实施例中,为了实现对目标关键帧人体表情类型的识别,首先需要确定目标关键帧对应的姿势信息。具体地,可以通过预设的人体识别模型对目标关键帧的姿势信息进行识别。图7为本发明实施例提供的人体识别模型的识别结果示意图,如图7所示,人体姿势模型能够首先对目标关键帧中的人体进行检测,随后对检测出的人体框进行人体关键点的回归,得到人体的姿势信息。
在获得目标关键帧对应的姿势信息之后,可以根据该姿势信息以及预设的人体姿势情绪表确定目标关键帧对应的人体表情类型。图8为本发明实施例提供的人体姿势情绪表,如图8所示,人体姿势情绪表中包括预设的多个人体表情类型对应的关节弯曲角度,例如,愤怒的表情类型对应的胸腔弯曲度为20°~40°,头部弯曲度为-20°~25°,上臂伸展度为-80°~-60°,上臂摆动度为45°~90°,肘部弯曲度为50°~110°,重心倾斜方向为前移。从而在通过人体识别模型获得关键帧对应的姿势信息之后,即可以根据该姿势信息在人体姿势情绪表中查询对应的人体表情类型。
本实施例提供的图像处理方法,通过在确定关键帧对应的人脸表情类型之后,根据该人脸表情类型对关键帧进行筛选,获得目标关键帧,对目标关键帧的人体表情类型进行识别,并根据该人脸表情类型以及人体表情类型共同实现目标表情类型的确定,能够提高用户表情识别的精准度,进而根据该目标表情类型制作的目标表情图像能够更加精准地表征图像的真实情绪。此外,通过选取得分较高的人脸表情类型对应的关键帧进行人体表情类型的识别操作,从而能够进一步地提高目标表情图像的效果。
图9为本发明实施例三提供的图像处理方法的流程示意图,在上述任一实施例的基础上,如图9所示,步骤103之前,还包括:
步骤301、获取用户预先输入的目标人脸图像;
步骤302、确定所述关键帧中的人脸图像与所述目标人脸图像之间的相似度;
步骤303、当相似度超过预设的相似度阈值时,对所述关键帧进行人脸表情类型识别以及人体表情类型识别。
在本实施例中,由于图像处理指令中的待处理视频中可能同时存在多个不同的人物,相应地在进行关键帧截取过程中,关键帧中可能同时存在多个用户的图像。因此,为了实现对特定用户的表情图像的制作,在对关键帧进行表情识别之前,还需要对关键帧进行比对操作。具体地,可以获取用户预先输入的目标人脸图像,计算关键帧中的人脸图像与该目标人脸图像之间的相似度,当相似度超过预设的相似度阈值时,表征该关键帧为特定用户的图像,此时,可以继续进行人脸表情类型识别以及人体表情类型识别的操作。反之,若相似度没有超过预设的相似度阈值,则可以抛弃当前关键帧,或者选择关键帧中其他人脸图像进行计算,或者还可以向终端设备发送报错指令。
本实施例提供的图像处理方法,通过在对关键帧进行表情识别之前,通过预设的目标人脸图像对关键帧进行比对操作,从而能够实现对特定用户的表情图像的制作,使得制作的目标表情图像更加满足用户的需求,提高用户体验。
图10为本发明实施例四提供的图像处理方法的流程示意图,在上述任一实施例的基础上,如图10所示,步骤104具体包括:
步骤401、根据所述目标表情类型从数据服务器中获取预设的与所述目标表情类型对应的文字和/或贴图;
步骤402、根据所述目标表情类型对应的文字和/或贴图对所述关键帧进行编辑操作,获得目标表情图像。
图11为本发明实施例所基于的又一系统架构图,如图11所示,本发明所基于的系统架构图还可以包括数据服务器3,该数据服务器3与图像处理装置2通信连接,从而能够与图像处理装置2进行信息交互。其中,数据服务器3可为云端服务器或服务器集群,其内存储有大量的数据。
在本实施例中,确定了关键帧对应的目标表情类型之后,图像处理装置即可以根据该目标表情类型对关键帧进行编辑操作,获得目标图像。具体地,可以根据该目标表情类型从预设的数据服务器中获取预设的与该目标表情类型对应的文字和/或贴图,将该文字和/或贴图添加至关键帧中,获得目标表情图像。
需要说明的是,为了提高目标表情图像的效果,在根据文字和/或贴图对关键帧进行编辑的过程中,需要保证文字和/或贴图不能遮挡用户的脸部区域。
本实施例提供的图像处理方法,通过从预设的数据服务器中获取预设的与目标表情类型对应的文字和/或贴图,根据目标表情类型对应的文字和/或贴图对关键帧进行编辑操作,获得目标表情图像,从而能够提高目标表情图像的趣味性。
图12为本发明实施例五提供的图像处理装置的结构示意图,如图12所示,所述装置包括:获取模块51、确定模块52、处理模块53、编辑模块54以及发送模块55,其中,获取模块51,用于获取终端设备发送的图像处理指令,其中,所述图像处理指令中包括待处理视频;确定模块52,用于根据所述图像处理指令,在所述待处理视频中确定待处理的至少一个关键帧;处理模块53,用于对所述关键帧进行人脸表情识别以及人体表情识别,根据识别得到的人脸表情类型以及人体表情类型确定目标表情类型;编辑模块54,用于根据所述目标表情类型对所述关键帧进行编辑操作,获得目标表情图像;发送模块55,用于将所述目标表情图像发送至终端设备,以使用户对所述目标表情图像进行编辑操作。
进一步地,在实施例五的基础上,所述装置还包括:
预处理模块,用于通过预设的关键点识别模型对所述至少一个关键帧中人脸关键点进行识别,根据所述人脸关键点对所述至少一个关键帧进行人脸对齐操作。
进一步地,在实施例五的基础上,所述人脸表情类型以及人体表情类型的数量为至少一个;
相应地,所述处理模块用于:
将所述人脸表情类型与人体表情类型中重合的表情类型作为所述目标表情类型。
本实施例提供的图像处理装置,通过根据终端设备发送的图像处理指令,在待处理视频中确定至少一个关键帧,确定各关键帧对应的人脸表情类型以及人体表情类型,根据人脸表情类型以及人体表情类型综合地确定关键帧中用户图像的目标表情类型,进而可以根据该目标表情类型对关键帧进行编辑处理,获得目标表情图像,将该目标表情图像发送至终端设备进行显示。通过分别确定人脸表情类型以及人体表情类型,并根据该人脸表情类型以及人体表情类型共同实现目标表情类型的确定,能够提高用户表情识别的精准度,进而根据该目标表情类型制作的目标表情图像能够更加精准地表征图像的真实情绪,提高目标表情图像的真实性以及适用性,提高用户体验。
图13为本发明实施例六提供的图像处理装置的结构示意图,在实施例五的基础上,如图13所示,所述处理模块包括:第一识别单元61、筛选单元62以及第二识别单元63,其中,第一识别单元61,用于将所述关键帧输入至预设的人脸表情识别模型,获得所述关键帧对应的人脸表情类型;筛选单元62,用于根据所述关键帧对应的人脸表情类型对所述关键帧进行筛选操作,获得目标关键帧;第二识别单元63,用于对所述目标关键帧进行人体表情类型识别操作,获得所述目标关键帧对应的人体表情类型。
进一步地,在上述任一实施例的基础上,所述第二识别单元用于:
在所述关键帧中获取所述人脸表情类型对应的置信度超过预设的置信度阈值的候选关键帧;
将所述待处理视频中所述候选关键帧前后预设时间间隔内的关键帧作为所述目标关键帧。
进一步地,在上述任一实施例的基础上,所述第二识别单元用于:
将所述目标关键帧输入至预设的人体识别模型中,获得所述目标关键帧对应的姿势信息;
根据所述姿势信息以及预设的人体姿势情绪表,确定所述目标关键帧对应的人体表情类型,其中,所述人体姿势情绪表中包括预设的多个人体表情类型对应的关节弯曲角度。
本实施例提供的图像处理装置,通过在确定关键帧对应的人脸表情类型之后,根据该人脸表情类型对关键帧进行筛选,获得目标关键帧,对目标关键帧的人体表情类型进行识别,并根据该人脸表情类型以及人体表情类型共同实现目标表情类型的确定,能够提高用户表情识别的精准度,进而根据该目标表情类型制作的目标表情图像能够更加精准地表征图像的真实情绪。此外,通过选取得分较高的人脸表情类型对应的关键帧进行人体表情类型的识别操作,从而能够进一步地提高目标表情图像的效果。
图14为本发明实施例七提供的图像处理装置的结构示意图,在上述任一实施例的基础上,如图14所示,所述装置还包括:图像获取模块71、相似度确定模块72以及识别模块73,其中,图像获取模块71,用于获取用户预先输入的目标人脸图像;相似度确定模块72,用于确定所述关键帧中的人脸图像与所述目标人脸图像之间的相似度;识别模块73,用于当相似度超过预设的相似度阈值时,对所述关键帧进行人脸表情类型识别以及人体表情类型识别。
本实施例提供的图像处理装置,通过在对关键帧进行表情识别之前,通过预设的目标人脸图像对关键帧进行比对操作,从而能够实现对特定用户的表情图像的制作,使得制作的目标表情图像更加满足用户的需求,提高用户体验。
本发明又一实施例还提供一种图像处理装置,在上述任一实施例的基础上,所述编辑模块,用于:
根据所述目标表情类型从数据服务器中获取预设的与所述目标表情类型对应的文字和/或贴图;
根据所述目标表情类型对应的文字和/或贴图对所述关键帧进行编辑操作,获得目标表情图像。
本实施例提供的图像处理装置,通过从预设的数据服务器中获取预设的与目标表情类型对应的文字和/或贴图,根据目标表情类型对应的文字和/或贴图对关键帧进行编辑操作,获得目标表情图像,从而能够提高目标表情图像的趣味性。
图15为本发明实施例八提供的图像处理设备的结构示意图,如图15所示,所述图像处理设备,包括:存储器81,处理器82;
存储器81;用于存储所述处理器82可执行指令的存储器81;
其中,所述处理器82被配置为由所述处理器82执行如上述任一实施例所述的图像处理方法。
存储器81,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器81可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
其中,处理器82可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
可选的,在具体实现上,如果存储器81和处理器82独立实现,则存储器81和处理器82可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(PeripheralComponent,简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器81和处理器82集成在一块芯片上实现,则存储器81和处理器82可以通过内部接口完成相同间的通信。
本发明又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的图像处理方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (10)
1.一种图像处理方法,其特征在于,包括:
获取终端设备发送的图像处理指令,其中,所述图像处理指令中包括待处理视频;
根据所述图像处理指令,在所述待处理视频中确定待处理的至少一个关键帧;
对所述关键帧进行人脸表情识别以及人体表情识别,根据识别得到的人脸表情类型以及人体表情类型确定目标表情类型;
根据所述目标表情类型对所述关键帧进行编辑操作,获得目标表情图像;
将所述目标表情图像发送至终端设备,以使用户对所述目标表情图像进行编辑操作。
2.根据权利要求1所述的方法,其特征在于,所述对所述关键帧进行人脸表情类型识别以及人体表情类型识别,包括:
将所述关键帧输入至预设的人脸表情识别模型,获得所述关键帧对应的人脸表情类型;
根据所述关键帧对应的人脸表情类型对所述关键帧进行筛选操作,获得目标关键帧;
对所述目标关键帧进行人体表情类型识别操作,获得所述目标关键帧对应的人体表情类型。
3.根据权利要求2所述的方法,其特征在于,所述根据所述关键帧对应的人脸表情类型对所述关键帧进行筛选操作,包括:
在所述关键帧中获取所述人脸表情类型对应的置信度超过预设的置信度阈值的候选关键帧;
将所述待处理视频中所述候选关键帧前后预设时间间隔内的关键帧作为所述目标关键帧。
4.根据权利要求2所述的方法,其特征在于,所述对所述目标关键帧进行人体表情类型识别操作,获得所述目标关键帧对应的人体表情类型,包括:
将所述目标关键帧输入至预设的人体识别模型中,获得所述目标关键帧对应的姿势信息;
根据所述姿势信息以及预设的人体姿势情绪表,确定所述目标关键帧对应的人体表情类型,其中,所述人体姿势情绪表中包括预设的多个人体表情类型对应的关节弯曲角度。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述对所述关键帧进行人脸表情类型识别以及人体表情类型识别之前,还包括:
通过预设的关键点识别模型对所述至少一个关键帧中人脸关键点进行识别,根据所述人脸关键点对所述至少一个关键帧进行人脸对齐操作。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述对所述关键帧进行人脸表情类型识别以及人体表情类型识别之前,还包括:
获取用户预先输入的目标人脸图像;
确定所述关键帧中的人脸图像与所述目标人脸图像之间的相似度;
当相似度超过预设的相似度阈值时,对所述关键帧进行人脸表情类型识别以及人体表情类型识别。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述目标表情类型对所述关键帧进行编辑操作,获得目标表情图像,包括:
根据所述目标表情类型从数据服务器中获取预设的与所述目标表情类型对应的文字和/或贴图;
根据所述目标表情类型对应的文字和/或贴图对所述关键帧进行编辑操作,获得目标表情图像。
8.一种图像处理装置,其特征在于,包括:
获取模块,用于获取终端设备发送的图像处理指令,其中,所述图像处理指令中包括待处理视频;
确定模块,用于根据所述图像处理指令,在所述待处理视频中确定待处理的至少一个关键帧;
处理模块,用于对所述关键帧进行人脸表情识别以及人体表情识别,根据识别的人脸表情类型以及人体表情类型获得目标表情类型;
编辑模块,用于根据所述目标表情类型对所述关键帧进行编辑操作,获得目标表情图像;
发送模块,用于将所述目标表情图像发送至终端设备,以使用户对所述目标表情图像进行编辑操作。
9.一种图像处理设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1-7任一项所述的图像处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010192033.6A CN111767779B (zh) | 2020-03-18 | 2020-03-18 | 图像处理方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010192033.6A CN111767779B (zh) | 2020-03-18 | 2020-03-18 | 图像处理方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111767779A true CN111767779A (zh) | 2020-10-13 |
CN111767779B CN111767779B (zh) | 2024-10-22 |
Family
ID=72719441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010192033.6A Active CN111767779B (zh) | 2020-03-18 | 2020-03-18 | 图像处理方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767779B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140022331A (ko) * | 2012-08-14 | 2014-02-24 | 삼성전자주식회사 | 얼굴 감정 추론 방법 및 장치, 얼굴 감정 추론 시스템 및 컴퓨터 프로그램 제품 |
CN106060572A (zh) * | 2016-06-08 | 2016-10-26 | 乐视控股(北京)有限公司 | 视频播放方法及装置 |
CN108537160A (zh) * | 2018-03-30 | 2018-09-14 | 平安科技(深圳)有限公司 | 基于微表情的风险识别方法、装置、设备及介质 |
CN109190487A (zh) * | 2018-08-07 | 2019-01-11 | 平安科技(深圳)有限公司 | 人脸情绪识别方法、装置、计算机设备及存储介质 |
-
2020
- 2020-03-18 CN CN202010192033.6A patent/CN111767779B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140022331A (ko) * | 2012-08-14 | 2014-02-24 | 삼성전자주식회사 | 얼굴 감정 추론 방법 및 장치, 얼굴 감정 추론 시스템 및 컴퓨터 프로그램 제품 |
CN106060572A (zh) * | 2016-06-08 | 2016-10-26 | 乐视控股(北京)有限公司 | 视频播放方法及装置 |
CN108537160A (zh) * | 2018-03-30 | 2018-09-14 | 平安科技(深圳)有限公司 | 基于微表情的风险识别方法、装置、设备及介质 |
CN109190487A (zh) * | 2018-08-07 | 2019-01-11 | 平安科技(深圳)有限公司 | 人脸情绪识别方法、装置、计算机设备及存储介质 |
Non-Patent Citations (3)
Title |
---|
MING LI: "Facial Expression Recognition with Identity and Emotion Joint Learning", 《IEEE TRANSACTIONS ON AFFECTIVE COMPUTING》, 30 November 2018 (2018-11-30) * |
刘艳;刘鼎家;韩智攀;: "基于动作识别的情绪提取方法研究", 计算机工程, no. 05, 15 May 2015 (2015-05-15) * |
许宏;: "基于图像差分的关键帧检测技术", 计算机工程与设计, no. 12, 28 June 2010 (2010-06-28) * |
Also Published As
Publication number | Publication date |
---|---|
CN111767779B (zh) | 2024-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12039454B2 (en) | Microexpression-based image recognition method and apparatus, and related device | |
CN110532984B (zh) | 关键点检测方法、手势识别方法、装置及系统 | |
KR102124466B1 (ko) | 웹툰 제작을 위한 콘티를 생성하는 장치 및 방법 | |
KR20200054613A (ko) | 동영상 메타데이터 태깅 시스템 및 그 방법 | |
JP5361524B2 (ja) | パターン認識システム及びパターン認識方法 | |
JP2007072620A (ja) | 画像認識装置及びその方法 | |
CN111108508B (zh) | 脸部情感识别方法、智能装置和计算机可读存储介质 | |
CN107832736B (zh) | 实时人体动作的识别方法和实时人体动作的识别装置 | |
CN111414837A (zh) | 手势识别方法、装置、计算机设备及存储介质 | |
CN111680550A (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
US20200005086A1 (en) | Deep learning-based automatic gesture recognition method and system | |
CN112241667A (zh) | 图像检测方法、装置、设备及存储介质 | |
CN112329663A (zh) | 一种基于人脸图像序列的微表情时刻检测方法及装置 | |
Chanthaphan et al. | Facial emotion recognition based on facial motion stream generated by kinect | |
Beg et al. | Text writing in the air | |
CN113223125B (zh) | 一种虚拟形象的面部驱动方法、装置、设备和介质 | |
Pradhan et al. | A hand gesture recognition using feature extraction | |
CN113327320A (zh) | 三维模型重建方法、装置、设备及计算机可读存储介质 | |
WO2024060909A1 (zh) | 识别表情的方法、装置、设备及介质 | |
CN111368674B (zh) | 图像识别方法及装置 | |
CN113076916A (zh) | 基于几何特征加权融合的动态人脸表情识别方法及系统 | |
CN112328088A (zh) | 图像的呈现方法和装置 | |
CN111767779B (zh) | 图像处理方法、装置、设备及计算机可读存储介质 | |
Praneel et al. | Malayalam Sign Language Character Recognition System | |
CN113176827B (zh) | 基于表情的ar交互方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |