CN115943424A - 图像数据处理装置及系统 - Google Patents

图像数据处理装置及系统 Download PDF

Info

Publication number
CN115943424A
CN115943424A CN202180043417.4A CN202180043417A CN115943424A CN 115943424 A CN115943424 A CN 115943424A CN 202180043417 A CN202180043417 A CN 202180043417A CN 115943424 A CN115943424 A CN 115943424A
Authority
CN
China
Prior art keywords
face
image data
processing apparatus
data processing
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180043417.4A
Other languages
English (en)
Inventor
林大辅
江乡俊太
寺田昌弘
牧野研司
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of CN115943424A publication Critical patent/CN115943424A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Abstract

本发明提供一种能够从包含多个面部的图像中有效地检测面部的图像数据处理装置及系统。处理器执行如下处理:第一判别处理,使用第一判别模型从图像数据所表示的图像中检测人物的面部,并判别检测到的面部的属性;聚类处理,根据面部的属性的种类,对在图像数据所表示的图像内检测到面部的区域进行聚类;选择处理,基于所聚类的区域的面部的属性的种类信息,选择适用于区域的第二判别模型;及第二判别处理,使用适用于区域的第二判别模型从各区域的图像中检测人物的面部,并判别检测到的面部的属性。

Description

图像数据处理装置及系统
技术领域
本发明涉及一种图像数据处理装置及系统,尤其涉及一种对包含多个面部的图像的图像数据进行处理的图像数据处理装置及系统。
背景技术
在专利文献1中,记载有如下技术:检测图像中所包含的人物的面部,并且判别检测到的面部的表情等,从而估计各面部的人物的状态。
在专利文献2中,记载有如下技术:通过使用检测男性面部的识别器与检测女性面部的识别器这两个识别器,在检测面部的同时判别性别。
在专利文献3中,记载有如下技术:通过对图像适用运动分析,对存在运动的区域和不存在运动的区域进行分离,并在不同的条件下,按每个所分离的区域检测面部。
在专利文献4中,关于利用识别模型来识别特定用户的面部表情的技术,记载有如下技术:判定作为识别对象的用户的面部表情的表现倾向,并基于该判定结果,选择利用于识别的识别模型。
以往技术文献
专利文献
专利文献1:日本特开2019-219987号公报
专利文献2:日本特开2011-141799号公报
专利文献3:日本特开2018-142061号公报
专利文献4:日本特开2018-45350号公报
发明内容
本发明的技术所涉及的1个实施方式提供一种能够从包含多个面部的图像中有效地检测面部的图像数据处理装置及系统。
用于解决技术课题的手段
(1)一种图像数据处理装置,其处理图像数据,所述图像数据处理装置具备:存储器;及处理器,处理器执行如下处理:第一判别处理,使用第一判别模型从图像数据所表示的图像中检测人物的面部,并判别检测到的面部的属性;聚类处理,根据面部的属性的种类,对在图像数据所表示的图像内检测到面部的区域进行聚类;选择处理,基于所聚类的区域的面部的属性的种类信息,选择适用于区域的第二判别模型;及第二判别处理,使用适用于区域的第二判别模型从区域的图像中检测人物的面部,并判别检测到的面部的属性。
(2)根据(1)的图像数据处理装置,其中,
按多个面部的属性的种类而准备第二判别模型,在聚类处理中,根据准备有第二判别模型的面部的属性的种类而进行聚类。
(3)根据(2)的图像数据处理装置,其中,
根据由第一判别模型判别的面部的属性的种类而准备第二判别模型。
(4)根据(2)或(3)的图像数据处理装置,其中,
第二判别模型以比第一判别模型更高的精度检测对应种类的属性的面部。
(5)根据(1)至(4)中任一项的图像数据处理装置,其中,
第二判别模型在对应种类的属性的范围内进一步详细地对种类进行分类并判别面部的属性。
(6)根据(1)至(4)中任一项的图像数据处理装置,其中,
第二判别模型对是否为对应种类的属性的面部进行分类并判别面部的属性。
(7)根据(1)至(6)中任一项的图像数据处理装置,其中,
处理器以第一判别处理、聚类处理、选择处理、第二判别处理的顺序,对各处理各执行1次。
(8)根据(1)至(6)中任一项的图像数据处理装置,其中,
在处理器以第一判别处理、聚类处理、选择处理、第二判别处理的顺序,对各处理各执行1次之后,基于第二判别处理的结果,反复执行聚类处理、选择处理、第二判别处理。
(9)根据(1)至(8)中任一项的图像数据处理装置,其中,
第一判别模型及第二判别模型作为面部的属性,至少判别表情。
(10)根据(9)的图像数据处理装置,其中,
第一判别模型和/或第二判别模型作为面部的属性,进一步判别面部的朝向。
(11)根据(1)至(10)中任一项的图像数据处理装置,其中,
处理器还执行提取处理,在该提取处理中,从图像数据所表示的图像中提取存在人物的区域来作为处理对象区域,并对所提取的处理对象区域执行聚类处理、选择处理、第二判别处理。
(12)根据(11)的图像数据处理装置,其中,
在提取处理中,从图像中检测通路,并提取由通路划分出的区域来作为处理对象区域。
(13)根据(1)至(12)中任一项的图像数据处理装置,其中,
处理器还执行地图数据生成处理,在该地图数据生成处理中,生成将从图像数据所表示的图像内检测到的面部与图像内的位置与属性建立关联而记录的地图数据。
(14)根据(13)的图像数据处理装置,其中,
处理器还执行热图生成处理,在该热图生成处理中,基于地图数据生成热图。
(15)根据(14)的图像数据处理装置,其中,
处理器还执行显示控制处理,在该显示控制处理,使所生成的热图显示在显示器上。
(16)根据(14)或(15)的图像数据处理装置,其中,
处理器还执行输出控制处理,在该输出控制处理中,将所生成的热图向外部输出。
(17)根据(1)至(16)中任一项的图像数据处理装置,其中,
在存储器中,存储有第一判别模型及第二判别模型。
(18)一种图像数据处理系统,其具备:
摄影装置;及输入由摄影装置拍摄的图像数据并对其进行处理的(1)至(17)中任一项的图像数据处理装置。
附图说明
图1是表示图像数据处理装置的硬件结构的一例的框图
图2是图像数据处理装置所具有的主要功能的框图
图3是表示基于第一判别部的面部的检测结果的一例的图
图4是聚类处理的概念图
图5是区域提取的概念图
图6是第二判别部的功能框图
图7是表示基于第一检测部的面部的检测结果的一例的图
图8是表示基于检测结果整合部的检测结果的整合的一例的图
图9是表示基于图像数据处理装置的面部的检测动作的处理步骤的流程图
图10是表示基于变形例的面部的检测动作的处理步骤的流程图
图11是表示由第一判别模型判别的面部的属性与第二判别模型的种类之间的关系的一例的图
图12是表示使用第一判别模型的面部的检测结果的一例的图
图13是表示聚类处理的结果的一例的图
图14是表示区域设定的另一例的图
图15是表示情感测量系统的概略结构的图
图16是图像数据处理装置所实现的功能的框图
图17是表示热图的一例的图
图18是表示热图的另一例的图
图19是表示热图的另一例的图
图20是面部检测的处理的概念图
图21是表示所拍摄的图像的一例的概念图
图22是表示1个框内的聚类的一例的概念图
图23是表示面部检测动作的处理步骤的流程图
图24是具备自动提取处理对象区域的功能的图像数据处理装置的主要功能的框图
图25是处理对象区域提取的概念图
具体实施方式
以下,按照附图,对本发明的优选实施方式进行详细说明。
[第一实施方式]
在音乐会、戏剧表演、体育运动等活动中,通过活动举办过程中的所有时间来测量到场者的情感并进行收集,由此能够实现与举办活动相关的各种信息的分析。例如,在音乐会等中,能够根据所收集的信息来分析每个曲目的兴奋程度等。并且,通过与会场内的位置信息建立关联,并记录各到场者的情感的信息,能够分析会场内的兴奋状态的分布等。进而,通过根据兴奋分布的信息确定兴奋的中心,能够实现兴奋中的到场者的确定等。
情感的测量基于拍摄会场内的图像而进行。具体而言,通过从拍摄会场内的图像中检测到场者的面部,并判别其表情,来确定各到场者的情感。
近年来,通过提高相机的性能,能够实现以高分辨率一次性拍摄数百人、数千人规模的到场者。
另一方面,为了从包含大量的面部的图像中检测各面部,并判别其表情,需要大量的计算资源。因此,存在无法提供充分的检测速度的问题。
在本实施方式中,对即使是包含大量面部的图像,也能够有效地检测面部并判别表情的图像数据处理装置进行说明。表情为面部的属性的一例。
[装置结构]
图1是表示图像数据处理装置的硬件结构的一例的框图。
如图1所示,图像数据处理装置10具备:CPU(Central Processing Uni t:中央处理单元)11、RAM(Random Access Memory:随机存取存储器)12、ROM(Read Only Memory:只读存储器)13、辅助存储装置14、操作部15、显示器16、输入输出接口(Interface,I/F)17及通信接口18等。即,图像数据处理装置10由计算机构成,通过计算机执行规定的程序而作为图像数据处理装置10发挥功能。在构成图像数据处理装置10的计算机中,例如,能够使用个人电脑等通用的计算机。CPU11为处理器的一例。在ROM13和/或辅助存储装置14中,存储有CPU1 1所执行的程序及各种数据。ROM13和/或辅助存储装置14为存储器的一例。在辅助存储装置14中,采用HDD(Hard Disk Drive:硬盘驱动器)、闪存(Flash Memory)、SSD(SolidState Disk:固态硬盘)等。操作部15例如由键盘、鼠标、触摸面板等构成。显示器16例如由液晶显示器(Liquid Crystal Display,LCD)、有机EL显示器(Organic Light Em ittingDiode display,OLED display)等构成。
图2是图像数据处理装置所具有的主要功能的框图。
如图2所示,图像数据处理装置10主要具有图像数据获取部21、第一判别部22、聚类部23、第二判别模型选择部24、区域提取部25、第二判别部26及检测结果输出部27的功能。通过作为处理器的CPU11执行规定的程序(图像数据处理程序)来实现各部的功能。
图像数据获取部21获取作为处理对象的图像数据。图像数据经由输入输出接口17或通信接口18而输入到图像数据处理装置10。
第一判别部22从由图像数据获取部21获取的图像数据所表示的图像中检测人物的面部,并且判别检测到的人物的面部表情而输出。因此,输入到第一判别部22的图像数据是由图像数据获取部21获取的图像数据。确定图像内的位置并检测面部。因此,从第一判别部22输出检测到的面部的位置及表情的信息。
图像内的面部的位置例如通过边界框来确定。边界框是包围检测到的面部的矩形的框。边界框的位置例如通过边界框的中心坐标来确定。
对于表情,从预先设定的多种表情中确定1个。即,第一判别部22在预先设定的多种表情中分类出各人物的面部表情而输出。在本实施方式中,在“笑”、“怒”及“无表情”这3个种类的表情中,分类出各人物的面部表情而输出。
第一判别部22使用作为学习完成模型的第一判别模型,进行从图像中检测各人物的面部,并且判别检测到的各人物的面部表情的处理(第一判别处理)。第一判别模型通过机械学习生成包含面部的图像作为学习用数据。作为第一判别模型,例如,能够使用R-CNN(Regions with Convolutional Neural Networks:具有卷积神经网络的区域)、Fast R-CNN(Fast Regions with Convolutional Neural Networks:具有卷积神经网络的快速区域)、Faster R-CNN(Faster Regions with Convolut ional Neural Networks:具有卷积神经网络的更快区域)、Mask R-CNN(Mask Regions with Convolutional NeuralNetworks:具有卷积神经网络的屏蔽区域)、SSD(Single Shot Multibox Detector:单镜头多框检测器)、YOLO(You Only Look Once:只需看一眼)、YOLOv2(You Only Look Onceversion2:只需看一眼版本2)、YOLOv3(You 0nly Look Once version3:只需看一眼版本3)等物体检测用的CNN(Convolutional Neural Network:卷积神经网络)。第一判别模型存储在作为存储器的ROM13或辅助存储装置14中。
通常,在使用学习完成模型的表情识别中,各表情的准确度(表情分数)作为识别结果而被输出。输出各表情的准确度,以使合计成为1。因此,通过确定准确度最高的表情,能够确定检测到的面部表情。例如,在判别的面部表情为“笑”、“怒”及[无表情]这3种类的情况下,在各表情的准确度为笑:0.98、怒:0.01、无表情:0.01的情况下,将该面部表情确定为“笑”。
图3是表示基于第一判别部的面部的检测结果的一例的图。
在图3所示的例中,用边界框BB包围从图像Im中检测到的面部而表示。因此,未被边界框BB包围的面部是未能通过第一判别部22检测到的面部。
另外,在图3中,各边界框BB上附带的标签L表示针对检测到的面部进行判别的表情的种类。
聚类部23进行对在图像数据所表示的图像内检测到面部的区域进行聚类的处理(聚类处理)。在本实施方式中,根据在第二判别部26中使用的第二判别模型的种类,对检测到面部的区域进行聚类。例如,在按每个由第一判别部22判别的面部表情的种类来准备第二判别模型的情况下,根据由第一判别部22判别的面部表情的种类进行聚类。在本实施方式的图像数据处理装置10中,设为按每个由第一判别部22判别的面部表情的种类,准备有第二判别模型。因此,在本实施方式的图像数据处理装置10中,根据由第一判别部22判别的面部表情的种类进行聚类。如上所述,第一判别部22判别“笑”、“怒”及“无表情”这3个种类的表情。因此,聚类部23按每个“笑”、“怒”及“无表情”这3个种类的表情进行聚类。
图4是聚类处理的概念图。
首先,根据第二判别模型的种类,对从图像中检测到的面部进行聚类。在本实施方式中,由于按每个由第一判别部22判别的面部表情的种类来准备第二判别模型,因此根据由第一判别部22判别的面部表情的种类进行聚类。在图4中,被矩形的框包围的面部表示由第一判别部22检测到的面部。并且,各框上所附带的标签表示所分类的群集的种类。标签F1是分类为笑表情的群集的面部上所附带的标签。标签F2是分类为怒表情的群集的面部上所附带的标签。标签F3是分类为无表情的群集的面部上所附带的标签。
聚类采用公知的方法。例如,使用k平均法(k-means clustering)等聚类算法来实施。
聚类后,设定每个群集的区域。各区域被设定为包含所有属于各群集的面部的区域。例如,求出包含所有属于各群集的面部的最小的矩形的框而进行设定。该框作为在图像的横向(在图4中为x方向)及纵向(在图4中为y方向)上,与位于最外侧的面部外切的矩形的框而求出。所求出的矩形的框内的区域被设定为属于各群集的面部的区域。在图4中,用符号Z1表示的区域是笑表情的区域。用符号Z2表示的区域是怒表情的区域。用符号Z3表示的区域是无表情的区域。
如上所述,根据第二判别模型的种类,对从图像中检测到面部的区域进行聚类。在本实施方式中,由于按每个由第一判别部22判别的面部表情的种类来准备第二判别模型,因此根据由第一判别部22判别的面部表情的种类进行聚类。
第二判别模型选择部24基于所聚类的各区域的面部表情的种类信息,进行选择适用于各区域的第二判别模型的处理(选择处理)。所聚类的面部表情的种类与第二判别模型的种类一致。因此,选择与各区域的面部表情的种类相对应的第二判别模型。因此,例如,在图4中,在笑表情的区域Z1中,选择笑表情的第二判别模型。并且,在怒表情的区域Z2中,选择怒表情的第二判别模型。并且,在无表情的区域Z3中,选择无表情的第二判别模型。针对各区域所选择的第二判别模型的信息被应用到第二判别部26。
区域提取部25进行从由图像数据获取部21获取的图像数据所表示的图像中,提取所聚类的各区域的图像的处理。区域提取部25基于由聚类部23聚类的各区域的信息,提取各区域的图像。图5是区域提取的概念图。图5表示提取笑表情的区域Z1时的一例。如图5所示,各区域的图像中,生成对其他区域进行遮挡的图像,并提取各区域的图像。另外,在图5中,以斜线表示的区域是被遮挡的区域。在笑表情的区域Z1的图像Iml的情况下,该区域以外的区域被遮挡。区域提取部25提取与所聚类的区域的数量对应的图像。所提取的各区域的图像被应用于第二判别部26。
第二判别部26进行从所聚类的各区域的图像中检测人物的面部,并且判别检测到的人物的面部表情而输出的处理(第二判别处理)。因此,在第二判别部26中输入由区域提取部25提取的各区域的图像。与第一判别部22同样地,通过确定图像内的位置而检测面部。因此,从第二判别部26输出检测到的面部的位置及表情。
第二判别部26使用种类不同的多个第二判别模型,进行从图像中检测人物的面部,并且判别检测到的各人物的面部表情的处理。各第二判别模型为学习完成模型,通过机械学习生成包含面部的图像作为学习用数据。在各第二判别模型中,使用R-CNN、Fast R-CNN、Faster R-CNN、Mask R-CNN、SSD、YOLO、YOLOv2、YOLOv3等物体检测用的CNN。
按每个面部表情的种类准备多个第二判别模型。在本实施方式中,按每个由第一判别部22判别的面部表情的种类准备第二判别模型。因此,准备与笑表情相对应的第二判别模型(笑表情用的第二判别模型)、与怒表情相对应的第二判别模型(怒表情用的第二判别模型)及与无表情相对应的第二判别模型(无表情的第二判别模型)。
各第二判别模型由能够以比第一判别模型更高的精度检测分别对应的种类的表情的面部的判别模型构成。即,笑表情用的第二判别模型由以比第一判别模型更高的精度从输入图像中检测笑表情的面部的判别模型构成。并且,怒表情用的第二判别模型由以比第一判别模型更高的精度从输入图像中检测怒表情的面部的判别模型构成。并且,无表情用的第二判别模型由以比第一判别模型更高的精度从输入图像中检测无表情的面部的判别模型构成。
各第二判别模型的神经网络的结构比第一判别模型多层化,以使能够以比第一判别模型更高的精度检测相对应的表情的面部。具体而言,构成神经网络的隐藏层(中间层)的结构比第一判别模型多层化。如此,通过使神经网络的结构进一步多层化(深网络结构),第二判别模型能够以比第一判别模型更高的精度检测相对应的种类的表情的面部。另一方面,第一判别模型与第二判别模型相比,能够使检测的处理速度高速化。即,在本实施方式的图像数据处理装置中,第一判别模型与第二判别模型处于以下关系。虽然第一判别模型的检测精度差,但其以检测的处理速度优异的判别模型构成。另一方面,虽然第二判别模型的检测的处理速度差,但其以检测精度优异的判别模型构成。其结果,在使用第一判别模型的面部的检测中,从图像中自动地随机抽取各表情的面部。另一方面,在使用第二判别模型的面部的检测中,以高精度从图像中检测相对应的表情的面部。
第二判别模型对是否为对应种类的表情进行分类,并判别检测到的面部的表情。例如,笑表情用的第二判别模型判别检测到的面部表情是否为笑表情(是笑表情还是除了笑以外的表情)。并且,怒表情用的第二判别模型判别检测到的面部表情是否为怒表情(是怒表情还是除了怒以外的表情)。并且,无表情用的第二判别模型判别检测到的面部表情是否为无表情(是无表情还是除了无表情以外的表情)。
图6是第二判别部的功能框图。
第二判别部26主要具有第一检测部26a1、第二检测部26a2、第三检测部26a3及检测结果整合部26b等功能。
第一检测部26a1使用笑表情用的第二判别模型,进行从所输入的图像中检测人物的面部,并且判别检测到的人物的面部表情而输出的处理。因此,在第一检测部26a1中输入笑表情的区域的图像数据(提取笑表情的区域的图像的图像数据)。如上所述,判别是否为笑表情而输出表情。
图7是表示基于第一检测部的面部的检测结果的一例的图。
如图7所示,从笑表情的区域Z1的图像中检测面部,并且判别其表情。由于第二判别模型能够以比第一判别模型更高的精度检测相对应的表情的面部,因此能够检测出在第一判别模型中未能检测到的面部(参考图3)。
第二检测部26a2使用怒表情用的第二判别模型,进行从所输入的图像中检测人物的面部,并且判别检测到的人物的面部表情而输出的处理。因此,在第二检测部26a2中输入怒表情的区域的图像数据(提取怒表情的区域的图像的图像数据)。如上所述,判别是否为怒表情而输出表情。
第三检测部26a3使用无表情用的第二判别模型,进行从所输入的图像中检测人物的面部,并且判别检测到的人物的面部表情而输出的处理。因此,在第三检测部26a3中输入无表情的区域的图像数据(提取无表情的区域的图像的图像数据)。如上所述,判别是否为无表情而输出表情。
检测结果整合部26b进行整合基于各检测部的检测结果的处理。图8是表示基于检测结果整合部的检测结果的整合的一例的图。如图8所示,整合由第一检测部26a1~第三检测部26a3的各检测部检测到的面部的检测结果(面部的位置及表情的信息),并生成针对1张图像的面部的检测结果。所生成的面部的检测结果对应于由图像数据获取部21获取的图像数据所表示的图像中的面部的检测结果。
检测结果输出部27进行输出在一连串的处理中检测到的面部的检测结果的处理。面部的检测结果输出检测到的各面部的位置及表情的信息。
从检测结果输出部27输出的面部的检测结果的信息与图像数据建议关联而存储在辅助存储装置14中。或者,经由输入输出接口17及通信接口18而输出到外部。并且,根据需要,输出到显示器16上。在显示器16上,显示检测到的面部被边界框包围,且带有所判别的表情的标签的图像(参考图7)。
[检测动作]
图9是表示基于图像数据处理装置的面部的检测动作的处理步骤的流程图。
首先,获取成为处理对象的图像数据(步骤S1/基于图像数据获取部21的图像数据获取处理)。图像数据经由输入输出接口17或通信接口18而输入到图像数据处理装置10。
接着,对所获取的图像数据,进行使用第一判别模型来检测面部的处理(步骤S2/基于第一判别部22的第一判别处理)。从图像数据所表示的图像整体中检测面部。并且,确定图像内的位置及表情并检测面部。使用该第一判别模型的面部的检测为比使用第二判别模型的面部的检测更粗糙的检测。换言之,在使用第一判别模型的面部的检测中,从图像中自动地随机抽取各表情的面部。
接着,对从图像中检测到面部的区域进行聚类(步骤S3/基于聚类部23的聚类处理)。根据第二判别模型的种类进行聚类。在本实施方式中,按每个由第一判别模型判别的表情的种类准备第二判别处理。因此,根据由第一判别模型判别的表情的种类进行聚类。通过聚类设定各表情的区域。在本实施方式中,设定笑表情的区域、怒表情的区域及无表情的区域。
接着,选择适用于所聚类的各区域的第二判别模型(步骤S4/基于第二判别模型选择部24的选择处理)。该处理基于所聚类的各区域的面部表情的种类信息而进行。即,选择按每个区域相对应的表情种类的第二判别模型。因此,在笑表情的区域中选择笑表情用的第二判别模型,在怒表情的区域中选择怒表情用的第二判别模型,在无表情的区域中选择无表情用的第二判别模型。
接着,使用适用于各区域的第二判别模型,进行从各区域的图像中检测面部的处理(步骤S5/基于第二判别部26的第二判别处理)。因此,笑表情的区域使用笑表情用的第二判别模型检测面部,怒表情的区域使用怒表情用的第二判别模型检测面部,无表情的区域使用无表情用的第二判别模型检测面部。在各区域中,从各区域的图像内检测面部。并且,确定图像内的位置及表情并检测面部。关于相对应的表情,第二判别模型能够以比第一判别模型更高的精度检测面部。因此,这里的面部检测为比使用第一判别模型的面部检测精度更高的检测。整合各区域的面部的检测结果并从第二判别部26输出。
从第二判别部26输出的面部的检测结果作为针对输入图像的面部的检测结果,由检测结果输出部27输出(步骤S6)。检测结果输出检测到的各面部的位置及表情的信息。
如上所述,在本实施方式的图像数据处理装置10中,首先,使用通用的第一判别模型从图像整体中粗略地检测面部。接着,将检测成功的面部区域根据第二判别模型的种类进行聚类。接着,使用按每个所聚类的区域而专用的第二判别模型高精度地检测面部。由此,能够从包含多个面部的图像中有效地检测面部。
本实施方式的图像数据处理装置10尤其在戏剧、音乐会及体育运动等活动中,有效作用于检测到场者的面部。即,有效作用于检测由大量的人物构成的群体的面部。认为在戏剧、音乐会及体育运动等的活动中,各到场者在各场景中,与周围的到场者共享情感,并与周围的到场者做着相似的表情。因此,通过根据表情的种类进行聚类,并选择对应种类的判别器(第二判别器)来检测面部,即使是包含大量的面部的图像也能够精度良好地检测面部。如此,本实施方式的图像数据处理装置10能够通过利用群体情感的关联性,从包含大量的面部的图像中有效地检测面部。
[变形例]
[关于检测步骤的变形例]
在上述实施方式中,第一判别处理、聚类处理、选择处理及第二判别处理的各处理为以第一判别处理、聚类处理、选择处理及第二判别处理的顺序各执行1次的结构。在这种情况下,聚类仅根据基于第一判别部22的面部的检测结果进行。
面部的检测也由第二判别部26进行。因此,也能够利用基于第二判别部26的面部的检测结果进行聚类处理。在本例中,利用基于第二判别部26的面部的检测结果再次执行聚类处理,并执行使用第二判别模型的面部的检测处理。即,在以第一判别处理、聚类处理、选择处理、第二判别处理的顺序将各处理各执行1次之后,基于第二判别处理的结果,再次执行聚类处理、选择处理及第二判别处理。在本例中,仅以预先设定的次数反复执行对聚类处理、选择处理及第二判别处理。即,反复执行至达到预先设定的次数为止。预先设定的次数为规定的条件的一例。
图10是表示基于变形例的面部的检测动作的处理步骤的流程图。
首先,获取成为处理对象的图像数据(步骤S11/基于图像数据获取部21的图像数据获取处理)。
接着,将计数n设定为1。即,设为n=1(步骤S12)。
接着,对所获取的图像数据,进行使用第一判别模型来检测面部的处理(步骤S13/基于第一判别部22的第一判别处理)。
接着,对从图像中检测到面部的区域进行聚类(步骤S14/基于聚类部23的聚类处理)。这里的聚类基于使用第一判别模型的面部的检测结果而进行。
接着,选择适用于所聚类的各区域的第二判别模型(步骤S15/基于第二判别模型选择部24的选择处理)。
接着,使用适用于各区域的第二判别模型,进行从各区域的图像中检测面部的处理(步骤S16/基于第二判别部26的第二判别处理)。
接着,对计数n进行计数。即,设为n=n+1(步骤S17)。
接着,判定计数n是否超过了阈值(步骤S18)。阈值为预先设定的反复的次数。
在步骤S18中,若判定为计数n超过了阈值,则从第二判别部26输出的面部的检测结果作为针对输入图像的面部的检测结果,由检测结果输出部27输出(步骤S19)。
在步骤S18中,若判定为计数n没有超过阈值,则返回到步骤S14,进行聚类处理。这里的聚类基于使用第二判别模型的面部的检测结果而进行。因此,包含更多的面部。聚类处理之后,基于该聚类处理的结果,实施选择处理(步骤S15)、第二判别处理(步骤S16)。聚类处理(步骤S14)、选择处理(步骤S15)及第二判别处理(步骤S16)反复执行至计数n超过阈值为止。
如此,通过利用第二判别处理的结果,反复执行聚类处理、选择处理及第二判别处理,能够检测出更多的面部。即,在第二判别处理中,能够检测出在第一判别处理中未能检测到的面部。因此,通过使用该检测结果而再次执行聚类处理等,能够检测到更多的面部。
另外,在本例中,设为了以预先设定的次数反复执行聚类处理、选择处理及第二判别处理的各处理的结构,但对于结束上述各处理的反复的条件,并不限定于此。例如,能够设为反复执行至从图像中检测出预先设定的数量的面部的结构。并且,对于预先设定的次数,可以设为能够由用户任意设定的结构。经由操作部15进行设定。
[关于判别的面部的属性的变形例]
在上述实施方式中,对判别3种类的表情的情况为例进行了说明,但判别的表情的种类,并不限定于此。例如,也能够设为判别与“喜”、“怒”、“厌恶”、“惊讶”、“恐惧”、“悲伤”及“没有情感”这7种类的情感相对应的表情的结构。
并且,在上述实施方式中,设为作为面部的属性而判别表情的结构,但也能够设为代替面部表情或者除了面部表情之外,判别年龄、性别等其他面部的属性的结构。例如,也能够设为作为面部的属性除了表情之外还判别年龄和/或性别的结构。
而且,也能够设为作为面部的属性判别面部朝向的结构。在这种情况下,能够设为除了面部表情等之外还判别面部朝向的结构。
如此,能够设为对于判别的面部的属性组合多个种类而进行判别的结构。
另外,关于第二判别模型,不一定必须对应于由第一判别模型判别的所有种类的属性而准备。
图11是表示由第一判别模型判别的面部的属性与第二判别模型的种类之间的关系的一例的图。
图11表示由第一判别模型判别面部的表情与朝向时的例。在该例中,作为面部的表情,判别“笑”、“怒”及“无表情”这3种类的表情。并且,作为面部的朝向,判别“正面”、“右横向”及“左横向”这3个方向的朝向。因此,在这种情况下,通过第一判别模型判别9种类的属性的面部。即,判别朝向正面的笑表情的面部(正面×笑)、朝向右侧的笑表情的面部(右横向×笑)、朝向左侧的笑表情的面部(左横向×笑)、朝向正面的怒表情的面部(正面×怒)、朝向右侧的怒表情的面部(右横向×怒)、朝向左侧的怒表情的面部(左横向×怒)、朝向正面的无表情的面部(正面×无表情)、朝向右侧的无表情的面部(右横向×无表情)、朝向左侧的无表情的面部(左横向×无表情)。
第二判别模型准备笑表情用的判别模型、怒表情用的判别模型及无表情用的判别模型。关于相对应的面部的表情,构成第二判别模型的各表情的判别模型以比第一判别模型更高的精度检测面部。因此,关于相对应的面部的表情,能够检测多个朝向的面部。
图12是表示使用第一判别模型的面部的检测结果的一例的图。
在图12中,被矩形的框包围的面部为从图像Im中检测到的面部。在各框中,附有表示对框内的面部进行判别的面部的属性的标签。标签为9种类(面部表情的种类×面部朝向的种类)。各标签的内容如下。A1为朝向正面的笑表情的面部上所附带的标签(正面×笑)。A2为朝向右侧的笑表情的面部上所附带的标签(右横向×笑)。A3为朝向左侧的笑表情的面部上所附带的标签(左横向×笑)。B1为朝向正面的怒表情的面部上所附带的标签(正面×怒)。B2为朝向右侧的怒表情的面部上所附带的标签(右横向×怒)。B3为朝向左侧的怒表情的面部上所附带的标签(左横向×怒)。C1为朝向正面的无表情的面部上所附带的标签(正面×无表情)。C2为朝向右侧的无表情的面部上所附带的标签(右横向×无表情)。C3为朝向左侧的无表情的面部上所附带的标签(左横向×无表情)。
图13是表示聚类处理的结果的一例的图。
根据第二判别模型的种类进行聚类。因此,在该例中,与面部的朝向无关地,根据表情的种类进行聚类。即,分类为笑表情的群集、怒表情的群集、无表情的群集,并设定各表情的区域。在图13中,符号Z1所表示的区域为所聚类的笑表情的区域。符号Z2所表示的区域为所聚类的怒表情的区域。符号Z3所表示的区域为所聚类的无表情的区域。
如此,在使用第一判别模型检测面部时,通过增加能够判别的面部的属性的种类,能够检测出多个属性的面部。在本例中,对于各表情,能够检测出多个朝向的面部。
[关于基于第二判别模型的面部的检测的变形例]
在上述实施方式中,构成为在第二判别模型中判别检测到的面部表情是否为对应种类的表情。由第二判别模型判别的表情并不限定于此。例如,可以设为在对应种类的属性的范围内进一步详细地对种类进行分类并判别面部的属性的结构。例如,作为面部的属性,在判别面部表情的情况下,能够设为对对应种类的表情进一步详细地进行分类并判别的结构。在这种情况下,例如,与笑表情相对应的第二判别模型将笑表情分类为“大笑”、“中笑”、“小笑”等而判别。由此,能够进一步详细地检测表情。
[关于聚类的变形例]
在上述实施方式中,设定包含属于各群集的面部的矩形的框,并设定各群集的区域。关于设定各群集的区域的方法,并不限定于此。
图14是表示区域设定的另一例的图。
在图14所示的例中,对于属于各群集的面部,设定与位于最外侧的面部外切的多边形的框,并将该框内的区域设为各群集的区域。另外,在图14中,符号Z1所表示的区域为笑表情的区域。用符号Z2表示的区域是怒表情的区域。用符号Z3表示的区域是无表情的区域。
除此之外,对于属于各群集的面部,能够用直线连结位于最外侧的面部而设定多边形的框,并将该框内的区域设为各群集的区域。
[关于处理对象的图像数据]
设为处理对象的图像数据可以为运动图像的图像数据,也可以为静止图像的图像数据。以帧单位处理运动图像的图像数据。在这种情况下,不一定必须以所有帧为对象进行处理。能够设为以预先设定的帧的间隔进行处理的结构。
[第二实施方式]
如上所述,通过在音乐会、戏剧表演、体育运动等活动中,测量到场者的情感,并进行收集,能够分析各种各样的信息。
在本实施方式中,对在音乐会、戏剧表演、体育运动等活动中,测量到场者的情感的系统(情感测量系统)进行说明。
[系统结构]
图15是表示情感测量系统的概略结构的图。
本实施方式的情感测量系统100构成为在进行表演的活动会场内,测量会场内的观众(到场者)的情感,并进行收集的系统。基于拍摄了观众的图像来测量观众的情感。
如图15所示,本实施方式的情感测量系统100具备:拍摄会场内的观众的摄影装置110、对由摄影装置110拍摄的图像数据进行处理的图像数据处理装置120。本实施方式的情感测量系统100为图像数据处理系统的一例。
活动会场101具有:表演者102展示表演的舞台103、观众P观看表演的观看区域V。在观看区域V,座位104规则地配置。观众P坐在座位104上观看表演。各座位104的位置是固定的。
[摄影装置]
摄影装置110由具备运动图像的摄影功能的数码相机构成。在本实施方式中,通过1台摄影装置110拍摄观看区域V的整体。因此,摄影装置110由能够拍摄观看区域V整体的数码相机构成。能够拍摄观看区域V整体是指,能够将观看区域V的整体容纳在视角内,并且能够以能够从所拍摄的图像中判别存在于观看区域V中的各观众的面部表情的画质(分辨率)进行拍摄。摄影装置110从固定位置(固定点)拍摄观看区域V。
[图像数据处理装置]
图像数据处理装置120通过输入并处理从摄影装置110输出的图像数据,测量会场内的各观众的情感,并进行记录。从面部的表情来判别情感。因此,在本实施方式的系统中,判别面部表情是指,判别情感。在本实施方式中,判别“笑”、“怒”及“无表情”这3种类的表情。在这种情况下,“笑”的表情对应于喜或乐的情感。并且,“怒”的表情对应于怒的情感。并且,“无表情”对应于没有特定情感的状态。检测到的各面部的表情(情感)生成地图数据并进行记录。
并且,图像数据处理装置120根据来自用户的指示,生成表示各位置的观众的状态或属性的热图。所生成的热图根据来自用户的指示而显示于显示器。并且,根据来自用户的指示,输出到外部设备。
图像数据处理装置120的硬件结构与上述的第一实施方式的图像数据处理装置10实质上相同。即,由具备CPU、ROM、RAM、辅助存储装置、操作部、显示器及输入输出接口及通信接口等的计算机构成(参考图1)。
由摄影装置110拍摄的图像数据经由输入输出接口或通信接口而输入到图像数据处理装置120。
图16是图像数据处理装置所实现的功能的框图。
如图16所示,图像数据处理装置120主要具有面部检测部130、地图数据生成部140、热图生成部150、显示控制部160及输出控制部170等功能。各部的功能通过由CPU执行规定的程序而实现。CPU所执行的程序被存储于ROM或辅助存储装置等中。
面部检测部130从处理对象的图像数据所表示的图像中检测面部,并判别检测到的面部表情而输出。面部检测部130所具有的功能与上述的第一实施方式的图像数据处理装置10所具有的功能实质上相同。即,面部检测部具有图像数据获取部、第一判别部、聚类部、第二判别模型选择部、区域提取部、第二判别部及检测结果输出部的功能。各部的功能与上述的第一实施方式的图像数据处理装置10相同。因此,对于其详细内容,省略说明。
处理对象的图像数据是从摄影装置110输出的图像数据。从摄影装置110输出的图像数据是运动图像的图像数据。面部检测部130以帧单位对图像数据进行处理,并从图像中检测面部。确定图像内的位置并检测面部。因此,从面部检测部130以帧单位输出检测到的面部的位置及表情的信息。另外,检测不一定必须在所有帧实施,能够以预先设定的帧间隔进行实施。
地图数据生成部140进行生成地图数据的处理(地图数据生成处理)。地图数据生成部140基于由面部检测部130检测到的各面部的位置及表情的信息,生成地图数据。关于地图数据,通过将由面部检测部130检测到的各面部与图像内的位置信息及所判别的表情信息建立关联并记录而生成。关于地图数据,以与面部的检测相同的方式,以帧单位生成。所生成的地图数据与生成源的图像数据建立关联,并记录在数据库(database)200中。数据库200例如存储在辅助存储装置中。
热图生成部150进行生成热图的处理(热图生成处理)。热图生成部150基于地图数据,生成表示各观众的状态或属性的热图。热图是以色度或色度的浓淡来显现各位置的观众的状态或属性的图像。在本实施方式中,以色度或色度的浓淡来显现各位置的观众的情感(表情)的状态的图像制作成热图。
图17是表示热图的一例的图。
在图17中,利用活动会场的座位图而生成热图。座位图是将活动会场中的座位的配置平面展开而表示的图。座位的位置对应于各观众的位置。能够使座位图中的各座位的位置与地图数据上的各观众的坐标位置一对一对应。因此,通过在各座位的位置显示与坐在该座位的观众的情感(表情)相对应的色度或色度的浓度的点,能够制成显示各观众的情感(表情)的状态的热图。在图17所示的例中,对“笑”、“怒”、“无表情”、“不确定”的各表情分别分配色度(在图面上为浓度),从而显现各座位的观众的情感(表情)的状态。另外,所谓“不确定”,表示未能判别出特定表情的观众及未能检测到面部的观众。
由热图生成部150生成的热图的数据与生成源的数据建立关联,并记录在数据库200中。
显示控制部160根据经由操作部而输入的来自用户的显示指示,执行使由地图数据生成部140生成的数据显示于显示器的处理(显示控制处理)。并且,将由热图生成部150生成的热图显示在显示器上。
输出控制部170根据经由操作部而输入的来自用户的输出指示,执行将由地图数据生成部140生成的数据输出到外部设备的处理(输出控制处理)。并且,执行将由热图生成部150生成的热图的数据输出到外部设备的处理(输出控制处理)。
[作用]
在如上构成的本实施方式的情感测量系统中,如下测量观众的情感。
首先,通过摄影装置110拍摄观看区域V。通过活动举办中的整个期间实施拍摄。即,作为运动图像,从活动的开始到结束为止,持续拍摄。
由摄影装置110拍摄的图像数据被输入到图像数据处理装置120。可以实时进行图像数据的输入,也可以汇总拍摄结束后的数据而输入。
图像数据处理装置120以帧单位处理所输入的图像数据,并从各帧的图像中检测观众的面部。确定图像内的位置及表情并检测面部。对于面部的检测处理的内容,与上述第一实施方式的图像数据处理装置10中的处理的内容相同。因此,对于其详细内容,省略说明。
图像数据处理装置120基于面部的检测结果,以帧单位生成地图数据,并将所生成的地图数据记录在数据库200中。
通过处理设为对象的所有帧,完成了通过活动举办中的所有时间的所有观众的情感的测量。
图像数据处理装置120根据来自用户的指示,从所生成的数据中生成热图。并且,图像数据处理装置120根据来自用户的指示,将所生成的热图显示在显示器16上。并且,图像数据处理装置120根据来自用户的指示,将所生成的热图输出到外部设备。
如上所述,根据本实施方式的情感测量系统100,能够通过活动举办中的所有时间,测量所有观众的情感并且进行记录。
[变形例]
[关于拍摄的变形例]
在上述实施方式中,设为了由1台摄影装置拍摄所有观看区域的结构,但也能够使用多台摄影装置,对设为对象的区域进行分割而拍摄。在这种情况下,可以设为合成由各摄影装置拍摄的图像而生成1张图像,并从该1张图像中检测面部的结构。并且,可以设为从由各摄影装置拍摄的图像中分别检测面部的结构。在从由各摄影装置拍摄的图像中分别检测面部的情况下,整合或合成检测结果,从而获得整体的处理结果。
[关于地图数据的变形例]
关于地图数据,通过将从图像内检测到的各面部与图像内的位置信息及所判别的属性信息建立关联并记录而生成。因此,代替表情或者除了表情之外,还判别年龄、性别等的情况下,将所判别的这些信息等也建立关联并记录。
[关于热图的变形例]
对于热图,能够基于记录在地图数据上的信息,生成各种形态的热图。例如,在地图数据中,作为各观众的属性的信息,除了表情的信息之外,还记录有年龄的信息和/或性别的信息。在这种情况下,能够生成显示年龄和/或性别的信息的热图。关于年龄的热图,例如,在各观众的位置显示点,并将该点的色度以与年龄或年代对应的色度显示。并且,关于性别的热图,例如,在各观众的位置显示点,并将该点的色度以与性别对应的色度显示。关于年龄及性别的热图,例如,在各观众的位置显示点,并将该点的色度以与年龄及性别对应的色度显示。
并且,热图能够设为可视化从记录在地图数据中的信息估计的信息的结构,而不是生成直接可视化记录在地图数据中的信息的结构。例如,能够从记录在地图数据中的各观众的表情信息中估计各观众的兴奋状态,并生成所估计的兴奋状态的热图。在这种情况下,估计处理等由CPU执行。关于兴奋状态,例如,赋予与表情相应的点数并进行数值化。
并且,在上述实施方式中,利用活动会场的座位图而生成了热图,但对于热图的形态,并不限定于此。图18是表示热图的另一例的图。在图18所示的例中,在图像内检测到的面部的位置显示点,并将该点的色度以与情感对应的色度显示,从而生成热图。各点以与从图像中检测到的面部的尺寸对应的尺寸进行显示。例如,以与边界框内切的圆进行显示。图19是表示热图的另一例的图。在图19所示的例中,在图像上显示点,从而生成热图。各点在从图像中检测到的面部的位置上重叠显示,并且以与表情(情感)对应的色度进行显示。
[第三实施方式]
在形成有人的群体的情况下,群体内大多共享着相同的情感。另一方面,在形成有多个群体的情况下,各群体中的主导情感按每个群体而不同的情况较多。因此,可以认为在形成有多个群体的情况下,通过按每个群体而进行聚类的处理,能够更有效地检测面部。
在本实施方式中,对在形成有多个群体的情况下,按每个群体进行聚类的处理,从而检测面部的情况进行说明。另外,图像数据处理装置的基本结构与上述的第一实施方式的图像数据处理装置相同。因此,在这里,仅对不同的处理功能进行说明。
图20是面部检测的处理的概念图。
图20表示活动会场101的平面图。图20所示的活动会场101中,座位104被通路105被分割成6个框(第一框BL1~第6框BL6)。在这种情况下,以各框单位分别执行聚类的处理。即,在第一框BL1中,对在第一框BL1内检测到的面部的区域进行聚类。其他框也同样地对在框内检测到的面部的区域进行聚类。构成各框的区域为处理对象区域的一例。
图21是表示所拍摄的图像的一例的概念图。
在摄影装置从固定位置拍摄会场内的情况下,在所拍摄的图像Im内,各框BL1~BL6所占的区域被唯一确定。因此,能够事先求出图像Im内的各框BL1~BL6的位置、大小及形状。
聚类部基于事先求出的各框BL 1~BL6的区域的信息(位置、大小及形状),按每个框进行聚类的处理。
图22是表示1个框内的聚类的一例的概念图。图22表示第二框BL2的聚类的一例。
如图22所示,以在框内检测到的面部为对象进行聚类。另外,图22中,示出在第一判别部中,判别“笑”、“怒”及“无表情”这3个表情而检测面部时的例。并且,图22中,示出准备有与“笑”、“怒”及“无表情”的各表情相对应的判别模型作为第二判别模型时的例。在这种情况下,与“笑”、“怒”及“无表情”的各表情对应地,聚类为3个区域。在图22中,用符号Z1表示的区域是笑表情的区域。用符号Z3表示的区域是无表情的区域。另外,在图22所示的例中,由于未检测出“怒”的表情,因此聚类为笑表情的区域及无表情的区域。
如此,在形成群体的框内进行聚类的处理。
图23是表示面部检测动作的处理步骤的流程图。
首先,获取设为处理对象的图像数据(步骤S21)。图像数据经由输入输出接口17或通信接口18而输入到图像数据处理装置10。
接着,对所获取的图像数据,进行使用第一判别模型来检测面部的处理(步骤S22)。从图像数据所表示的图像整体中检测面部。
接着,在各框中,对在框内检测出面部的区域进行聚类(步骤S23)。根据第二判别模型的种类进行聚类。通过聚类,按每个框设定各表情的区域。在本实施方式中,按每个框设定笑表情的区域、怒表情的区域及无表情的区域。
接着,在各框中,选择适用于所聚类的各区域的第二判别模型(步骤S24)。
接着,各框中,使用适用于各区域的第二判别模型,进行从各区域的图像中检测面部的处理(步骤S25)。通过本处理,从各框的各区域中检测面部。在各框中从各区域检测到的面部的信息,按每个框进行整合。由此,按每个框检测面部。通过进一步整合按每个框检测到的面部的信息,作为图像整体的面部的检测结果而输出(步骤S26)。
如上所述,在本实施方式的图像数据处理装置中,按每个框进行聚类的处理。即,按每个群体进行聚类。由此,能够利用群体的情感的关联性,更有效地检测面部。
[变形例]
[关于处理对象区域的设定的变形例1]
对于图像内的处理对象区域,能够设为由用户手动进行设定的结构。例如,能够设为将框重叠显示在由摄影装置拍摄的图像上,并在该框设定图像内的处理对象区域的结构。由此,例如,在体育运动活动等中,在同一图像内包含助威团队不同的观众的群体的情况下,能够适当地区分处理对象区域。
[关于处理对象区域的设定的变形例2]
能够设为自动地提取出在图像内存在人的区域,并将所提取的区域设定为处理对象区域,从而按每个处理对象区域进行聚类的处理的结构。例如,能够设为在上述实施方式的例中,从摄影图像中自动地提取各框BL1~BL6的区域,并进行处理的结构。
图24是具备自动提取处理对象区域的功能的图像数据处理装置的主要功能的框图。
如图24所示,图像数据处理装置10还具有处理对象区域提取部28的功能。
处理对象区域提取部28对由图像数据获取部21获取的图像数据进行处理,并执行从图像数据所表示的图像中自动地提取存在人物的区域(处理对象区域)的处理(提取处理)。
图25是处理对象区域提取的概念图。
如图25所示,处理对象区域提取部28从图像中提取构成直线的区域(在图25中,用斜线表示的区域),并将以该直线划分出的区域作为处理对象区域而提取。即,构成直线的区域为通路105的区域,将被该通路105划分出的区域作为处理对象区域而提取。该处理能够利用公知的图像识别技术来执行。
聚类部23按每个从图像内提取的处理对象区域进行聚类的处理。
[其他实施方式]
在图像数据处理装置中,执行各种处理的处理部(processing unit)的硬件结构通过各种处理器(proce s sor)来实现。各种处理器中,包括:执行程序而作为各种处理部发挥功能的通用的处理器即CPU和/或GPU(Graphic Processing Unit:图形处理单元)、FPGA(Field Programmable Gate Array:现场可编程门阵列)等在制造后能够变更电路结构的处理器即可编程逻辑器件(Programmable Logic Device,PLD)、ASIC(ApplicationSpecific Integrated Circuit:专用集成电路)等具有为了执行特定的处理而专门设计的电路结构的处理器即专用电路等。程序与软件的含义相同。
1个处理部可以由这些各种处理器中的1个构成,也可以由相同种类或不同种类的2个以上的处理器构成。例如,1个处理部可以由多个FPGA、或者CPU与FPGA的组合而构成。并且,也可以由1个处理器构成多个处理部。作为由1个处理器构成多个处理部的例,第一,如以用于客户端或服务器等中的计算机为代表,有如下方式:由1个以上的CPU与软件的组合构成1个处理器,并由该处理器发挥多个处理部的功能。第二,如以片上系统(System onChip,SoC)等为代表,存在使用由一个IC(Integrated Circuit:集成电路)芯片来实现包括多个处理部的系统整体的功能的处理器的方式。如此,各种处理部使用1个以上的上述各种处理器来构成为硬件结构。
符号说明
10-图像数据处理装置,11-CPU,12-RAM,13-ROM,14-辅助存储装置,15-操作部,16-显示器,17-输入输出接口,18-通信接口,21-图像数据获取部,22-第一判别部,23-聚类部,24-第二判别模型选择部,25-区域提取部,26-第二判别部,26a1-第一检测部,26a2-第二检测部,26a3-第三检测部,26b-检测结果整合部,27-检测结果输出部,28-处理对象区域提取部,100-情感测量系统,101-活动会场,102-表演者,103-舞台,104-座位,105-通路,110-摄影装置,120-图像数据处理装置,130-面部检测部,140-地图数据生成部,150-热图生成部,160-显示控制部,170-输出控制部,200-数据库,BB-边界框,Im-图像,Im1-提取图像,L-标签,P-观众,V-观看区域,BL1~BL6-框,Z1-所聚类的笑表情的区域,Z2-所聚类的怒表情的区域,Z3-所聚类的无表情的区域,S1~S6-面部的检测动作的处理步骤,S11~S19-面部的检测动作的处理步骤,S21~S26-面部的检测动作的处理步骤。

Claims (18)

1.一种图像数据处理装置,其处理图像数据,所述图像数据处理装置具备:
存储器;及
处理器,
所述处理器执行如下处理:
第一判别处理,使用第一判别模型从所述图像数据所表示的图像中检测人物的面部,并判别检测到的面部的属性;
聚类处理,根据面部的属性的种类,对在所述图像数据所表示的图像内检测到面部的区域进行聚类;
选择处理,基于所聚类的区域的面部的属性的种类信息,选择适用于所述区域的第二判别模型;及
第二判别处理,使用适用于所述区域的所述第二判别模型从所述区域的图像中检测人物的面部,并判别检测到的面部的属性。
2.根据权利要求1所述的图像数据处理装置,其中,
按多个面部的属性的种类而准备所述第二判别模型,
在所述聚类处理中,根据准备有所述第二判别模型的面部的属性的种类而进行聚类。
3.根据权利要求2所述的图像数据处理装置,其中,
根据由所述第一判别模型判别的面部的属性的种类而准备所述第二判别模型。
4.根据权利要求2或3所述的图像数据处理装置,其中,
所述第二判别模型以比所述第一判别模型更高的精度检测对应种类的属性的面部。
5.根据权利要求1至4中任一项所述的图像数据处理装置,其中,
所述第二判别模型在对应种类的属性的范围内进一步详细地对种类进行分类并判别面部的属性。
6.根据权利要求1至4中任一项所述的图像数据处理装置,其中,
所述第二判别模型对是否为对应种类的属性的面部进行分类并判别面部的属性。
7.根据权利要求1至6中任一项所述的图像数据处理装置,其中,
所述处理器以所述第一判别处理、所述聚类处理、所述选择处理、所述第二判别处理的顺序,对各处理各执行1次。
8.根据权利要求1至6中任一项所述的图像数据处理装置,其中,
在所述处理器以所述第一判别处理、所述聚类处理、所述选择处理、所述第二判别处理的顺序,对各处理各执行1次之后,基于所述第二判别处理的结果,反复执行所述聚类处理、所述选择处理、以及所述第二判别处理。
9.根据权利要求1至8中任一项所述的图像数据处理装置,其中,
所述第一判别模型及所述第二判别模型作为面部的属性,至少判别表情。
10.根据权利要求9所述的图像数据处理装置,其中,
所述第一判别模型和/或所述第二判别模型作为面部的属性,进一步判别面部的朝向。
11.根据权利要求1至10中任一项所述的图像数据处理装置,其中,
所述处理器还执行提取处理,在该提取处理中,从所述图像数据所表示的图像中提取存在人物的区域,来作为处理对象区域,
所述处理器对所提取的所述处理对象区域执行所述聚类处理、所述选择处理、以及所述第二判别处理。
12.根据权利要求11所述的图像数据处理装置,其中,
在所述提取处理中,从所述图像中检测通路,并提取由通路划分出的区域来作为所述处理对象区域。
13.根据权利要求1至12中任一项所述的图像数据处理装置,其中,
所述处理器还执行地图数据生成处理,在该地图数据生成处理中,生成将从所述图像数据所表示的图像内检测到的面部与图像内的位置和属性建立关联而记录的地图数据。
14.根据权利要求13所述的图像数据处理装置,其中,
所述处理器还执行热图生成处理,在该热图生成处理中,基于所述地图数据生成热图。
15.根据权利要求14所述的图像数据处理装置,其中,
所述处理器还执行显示控制处理,在该显示控制处理中,使所生成的所述热图显示在显示器上。
16.根据权利要求14或15所述的图像数据处理装置,其中,
所述处理器还执行输出控制处理,在该输出控制处理中,将所生成的所述热图向外部输出。
17.根据权利要求1至16中任一项所述的图像数据处理装置,其中,
在所述存储器中,存储有:
所述第一判别模型;及
所述第二判别模型。
18.一种图像数据处理系统,其具备:
摄影装置;及
输入由所述摄影装置拍摄的图像数据并对其进行处理的权利要求1至17中任一项所述的图像数据处理装置。
CN202180043417.4A 2020-07-01 2021-06-25 图像数据处理装置及系统 Pending CN115943424A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2020114005 2020-07-01
JP2020-114005 2020-07-01
PCT/JP2021/024052 WO2022004569A1 (ja) 2020-07-01 2021-06-25 画像データ処理装置及びシステム

Publications (1)

Publication Number Publication Date
CN115943424A true CN115943424A (zh) 2023-04-07

Family

ID=79316027

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180043417.4A Pending CN115943424A (zh) 2020-07-01 2021-06-25 图像数据处理装置及系统

Country Status (4)

Country Link
US (1) US20230094896A1 (zh)
JP (1) JP7436668B2 (zh)
CN (1) CN115943424A (zh)
WO (1) WO2022004569A1 (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292092B2 (en) * 2007-10-30 2016-03-22 Hewlett-Packard Development Company, L.P. Interactive display system with collaborative gesture detection
JP5836095B2 (ja) * 2011-12-05 2015-12-24 キヤノン株式会社 画像処理装置、画像処理方法
JP2017188715A (ja) * 2016-04-01 2017-10-12 富士通フロンテック株式会社 映像表示システム及び映像表示方法

Also Published As

Publication number Publication date
JPWO2022004569A1 (zh) 2022-01-06
US20230094896A1 (en) 2023-03-30
JP7436668B2 (ja) 2024-02-21
WO2022004569A1 (ja) 2022-01-06

Similar Documents

Publication Publication Date Title
CN108334848B (zh) 一种基于生成对抗网络的微小人脸识别方法
Abd El Meguid et al. Fully automated recognition of spontaneous facial expressions in videos using random forest classifiers
US10984252B2 (en) Apparatus and method for analyzing people flows in image
JP6779641B2 (ja) 画像分類装置、画像分類システム及び画像分類方法
CN109284729A (zh) 基于视频获取人脸识别模型训练数据的方法、装置和介质
JPWO2010041377A1 (ja) 代表画像表示装置及び代表画像選択方法
CN106663196A (zh) 视频中的计算机显著人物识别
US11176679B2 (en) Person segmentations for background replacements
GB2402535A (en) Face recognition
CN115063482A (zh) 物品识别及追踪方法与系统
CN108229289B (zh) 目标检索方法、装置和电子设备
Iazzi et al. Fall detection based on posture analysis and support vector machine
CN115862113A (zh) 陌生人异常识别方法、装置、设备及存储介质
US8270731B2 (en) Image classification using range information
KR20200010658A (ko) 동일인 인식 방법, 이를 이용하는 컴퓨팅 시스템, 및 프로그램
JP2009289210A (ja) 重要物体認識装置および重要物体認識方法ならびにそのプログラム
KR101961462B1 (ko) 객체 인식 방법 및 장치
CN115937991A (zh) 人体摔倒识别方法、装置、计算机设备及存储介质
CN115943424A (zh) 图像数据处理装置及系统
Hwooi et al. Monitoring application-driven continuous affect recognition from video frames
Borji et al. Bottom-up attention, models of
WO2020237185A1 (en) Systems and methods to train a cell object detector
JP6764012B1 (ja) 画像処理装置、画像処理方法、及びプログラム
JP6768913B1 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7157784B2 (ja) 画像処理装置、画像処理方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination