CN111212220B

CN111212220B - 保存有图像处理程序的记录介质以及图像处理装置

Info

Publication number: CN111212220B
Application number: CN201911125731.8A
Authority: CN
Inventors: 冈崎智也
Original assignee: Konica Minolta Inc
Current assignee: Konica Minolta Inc
Priority date: 2018-11-22
Filing date: 2019-11-18
Publication date: 2022-03-15
Anticipated expiration: 2039-11-18
Also published as: JP7271915B2; US20200167947A1; EP3657513A1; JP2020086819A; US11170522B2; CN111212220B9; CN111212220A

Abstract

提供能够高精度地估计人物的行动的图像处理程序。该图像处理程序使计算机执行：步骤(a)，获取拍摄到的图像；步骤(b)，从所获取到的图像检测包含人物的人物区域和包含规定的物体的物体区域；步骤(c)，基于所检测到的所述人物区域来估计人物的关节点的位置；以及步骤(d)，基于所估计出的关节点的位置和在步骤(b)中检测到的物体区域来估计人物的行动。

Description

保存有图像处理程序的记录介质以及图像处理装置

技术领域

本发明涉及保存有图像处理程序的记录介质以及图像处理装置。

背景技术

我国因伴随着战后的高度经济成长的生活水平的提高、卫生环境的改善、以及医疗水平的提高等，人们的寿命显著变长。因此，与出生率的下降相结合，形成了老龄化率较高的老龄化社会。设想在如这样的老龄化社会中，因疾病、受伤、以及老化等而需要护理等应对措施的需要护理者等增加。

在医院、老人福利设施等设施中，存在需要护理者等在步行中跌倒或者从床上跌落而受伤的担忧。因此，为了使当需要护理者等处于如这样的状态时，护理人员、护士等工作人员立即赶到，正在推进开发用于从拍摄图像检测需要护理者等的行动的系统。

与从拍摄到的图像检测人物的行动的技术关联地，在下述专利文献1中公开了以下的技术。在所拍摄到的图像中，预先设定包含床等物体的物体区域与其他区域的边界，检测图像内的人物区域，根据该边界与人物区域的重叠宽度来辨别人物的起床等行动。

现有技术文献

专利文献

专利文献1：日本专利第6119938号公报

发明内容

发明要解决的课题

但是，专利文献1中公开的技术没有考虑人物的姿势等，因此无法抑制将如只不过是站在床旁边的行动误检测为上床等。此外，由于基于与固定的物体的关系来检测人物的行动，因此无法应对通过与移动的物体的关系来检测人物的行动的情况。因此，存在比较难以进一步地提高人物的行动的检测精度的问题。

本发明是为了解决如这样的问题而提出的。即，其目的在于，提供能够高精度地估计人物的行动的图像处理程序以及图像处理装置。

用于解决课题的手段

本发明的上述课题通过以下的手段来解决。

(1)一种图像处理程序，用于使计算机执行如下的处理，所述处理包括：步骤(a)，获取拍摄到的图像；步骤(b)，从在所述步骤(a)中获取到的所述图像检测包含人物的人物区域和包含规定的物体的物体区域；步骤(c)，基于在所述步骤(b)中检测到的所述人物区域来估计所述人物的关节点的位置；以及步骤(d)，基于在所述步骤(c)中估计出的所述关节点的位置和在所述步骤(b)中检测到的所述物体区域来估计所述人物的行动。

(2)如上述(1)所述的图像处理程序，其中，所述处理还包括步骤(e)，在所述步骤(e)中，基于在所述步骤(c)中估计出的所述关节点的位置来估计所述人物的姿势，在所述步骤(d)中，基于在所述步骤(c)中估计出的所述关节点的位置、在所述步骤(e)中估计出的所述姿势、在所述步骤(b)中检测到的所述物体区域，来估计所述人物的行动。

(3)如上述(1)或(2)所述的图像处理程序，其中，在所述步骤(b)中，通过反映了用于从所述图像检测所述人物区域和所述物体区域的词典的神经网络，从所述图像检测所述人物区域和所述物体区域。

(4)如上述(1)～(3)中的任一项所述的图像处理程序，其中，所述步骤(b)包括：步骤(b1)，从所述图像检测所述人物区域；步骤(b2)，从作为包含在所述步骤(b1)中检测到的所述人物区域且比所述图像小且比所述人物区域大的区域而被设定的候选区域，检测所述人物区域和所述物体区域。

(5)如上述(1)所述的图像处理程序，其中，在所述步骤(d)中，基于在所述步骤(c)中估计出的所述关节点的位置中的规定的关节点的位置与在所述步骤(b)中检测到的所述物体区域的位置关系，来估计所述行动。

(6)如上述(1)所述的图像处理程序，其中，在所述步骤(d)中，基于在所述步骤(c)中估计出的所述关节点的位置与在所述步骤(b)中检测到的所述物体区域的关系的随时间经过的变化，来估计所述行动。

(7)如上述(2)所述的图像处理程序，其中，在所述步骤(d)中，基于在所述步骤(c)中估计出的所述关节点的位置、在所述步骤(e)中估计出的所述姿势、与在所述步骤(b)中检测到的所述物体区域的关系的随时间经过的变化，来估计所述行动。

(8)如上述(1)～(7)中的任一项所述的图像处理程序，其中，所述处理还包括步骤(f)，在所述步骤(f)中，在所述步骤(d)中估计出的所述行动是规定的行动的情况下，输出用于使通知部进行通知的信息。

(9)一种图像处理装置，其中，包括：获取部，获取拍摄到的图像；检测部，从所获取到的所述图像检测包含人物的人物区域和包含规定的物体的物体区域；关节点估计部，基于所检测到的所述人物区域来估计人物的关节点的位置；以及行动估计部，基于所估计出的所述关节点的位置和所检测到的所述物体区域，来估计人物的行动。

发明效果

从所拍摄到的图像检测包含人物的人物区域和包含规定的物体的物体区域，基于从人物区域估计出的关节点的位置和物体区域来估计人物的行动。由此，能够高精度地估计人物的行动。

附图说明

图1是示出图像处理系统的概略结构的图。

图2是示出检测部的硬件结构的框图。

图3是控制部的功能框图。

图4是用于说明基于规定的关节点的位置和物体区域来估计对象者的行动的例子的说明图。

图5是示出便携式终端的硬件结构的框图。

图6是示出检测部的动作的流程图。

图7是控制部的功能框图。

图8是示出检测部的动作的流程图。

图9A、图9B是示出在时间上前后相邻的拍摄图像中，分别检测到了对象者的关节点的位置和物体区域的状态的图。

图10是示出检测部的动作的流程图。

图11是区域检测部的功能框图。

图12是用于说明候选区域的说明图。

图13是示出检测部的动作的流程图。

标号说明

10图像处理系统，

100检测部，

110控制部，

111图像获取部，

112区域检测部，

112a候选区域设定部，

112b详细区域检测部，

113关节点估计部，

114姿势估计部，

115行动估计部，

116通知信息输出部，

120通信部，

130照相机，

140体动传感器，

200通信网络，

210接入点，

300便携式终端，

500对象者，

510关节点，

510a、510b规定的关节点，

700床，

710物体区域，

800椅子，

810物体区域。

具体实施方式

以下，参照附图，针对本发明的实施方式所涉及的图像处理程序和图像处理装置进行说明。另外，在附图中，对同一要素标记同一标号，并省略重复的说明。此外，为了便于说明，附图的尺寸比例在有些情况下夸张表示，与实际的比例不同。

(第一实施方式)

[整体结构]

图1是示出图像处理系统10的概略结构的图。

图像处理系统10包括检测部100、通信网络200、以及便携式终端300。检测部100通过通信网络200经由接入点210与便携式终端300以彼此能够通信的方式连接。检测部100构成图像处理装置。检测部100可以是一个一体化的装置，也可以是分开配置的多个装置。另外，也可以设置能够经由通信网络200与检测部100和便携式终端300彼此通信的服务器(未图示)，并使该服务器实施检测部100的功能的一部分。便携式终端300构成通知部。

检测部100配设于对象者500的居室的天花板等。对象者500是例如需要由工作人员等护理或看护的人。检测部100通过拍摄规定的观察区域，获取图像(以下，简称为“拍摄图像131”(参照图4、图11))，检测拍摄图像131中包含的对象者500作为人物。如后文所述，检测部100检测在拍摄图像131上物体(对象)存在的区域(以下，称为“物体存在区域”)。检测部100通过检测物体存在区域中的、被估计为物体的类别是人物的物体存在区域(以下，称为“人物区域520”(参照图11))，来检测作为人物的对象者500。检测部100检测物体存在区域中的、物体的类别被估计为规定的物体的物体存在区域(以下，称为“物体区域810”(参照图4、图11))作为各个类别的物体区域810。规定的物体包括固定的物体和活动的物体。规定的物体的类别包括例如椅子、床、轮椅、以及步行器。检测部100从人物区域520检测关节点510(参照图4)的位置。关节点510的位置是例如拍摄图像131中的各关节点510的坐标。检测部100基于关节点510的位置和物体区域810，估计对象者500的行动。行动包括例如坐在椅子上的行动、坐在床上的行动、坐在地板上的行动、从床上起来的行动(起床)、从床离开的行动(离床)、从床落下的行动(跌落)、以及倒在地面等的行动(跌倒)。在所估计出的行动是规定的行动的情况下，检测部100向便携式终端300发送用于通知发生了与对象者500相关的事件的意思的事件通知。规定的行动包括从床上起来的行动(起床)、从床离开的行动(离床)、从床落下的行动(跌落)、以及倒在地面等上的行动(跌倒)。事件是指，与对象者500相关的检测部100所识别出的状态的变化，是例如起床、离床、跌倒、跌落、以及微体动异常等应该向工作人员通知(报告)的现象。

检测部100可以利用深度神经网络(以下，称为“DNN”)来估计对象者500的行动。作为基于DNN的对象物体的检测方法，例如，可以举出Fater R-CNN、Fast R-CNN、以及R-CNN这样的公知的方法。另外，检测部100也可以利用SVM(支持向量机，Support Vector Machine)等除DNN以外的机械学习来估计对象者500的行动。

便携式终端300由对对象者500进行包括护理和看护的照料的工作人员等携带。

[检测部100]

图2是示出检测部100的硬件结构的框图。如图2的例子所示，检测部100具备控制部110、通信部120、照相机130、以及体动传感器140，它们通过总线而彼此连接。

控制部110由CPU(中央处理器，Central Processing Unit)、以及RAM(随机存取存储器，Random Access Memory)、ROM(只读存储器，Read Only Memory)等存储器构成，并按照程序来进行检测部100的各部分的控制以及运算处理。针对控制部110的功能的详细情况，在后文描述。

通信部120是用于经由通信网络200与便携式终端300等进行通信的接口电路(例如LAN卡等)。

照相机130配置于例如对象者500的居室的天花板或墙壁的上部，并将包含对象者500的床700的区域作为规定的观察区域来拍摄，输出拍摄图像(图像数据)。拍摄图像包括含有对象者500以及上述的规定的物体的图像。拍摄图像131包括静态图像以及动态图像。照相机130是近红外线照相机，但也可以取代近红外线照相机而使用可见光照相机，还可以并用近红外线照相机和可见光照相机。

图3是控制部110的功能框图。控制部110发挥获取部111、区域检测部(检测部)112、关节点估计部113、行动估计部115、通知信息输出部116的功能。

获取部111从照相机130获取拍摄图像131。另外，获取部111也可以通过从除了照相机130以外的经由通信部120与检测部100连接的其他照相机(未图示)接收该其他照相机所拍摄到的拍摄图像131来获取拍摄图像131。

区域检测部112从拍摄图像131检测人物区域520和物体区域810。区域检测部112检测在拍摄图像131上物体(对象)存在的区域作为物体存在区域，并计算所检测出的物体存在区域中包含的各个物体类别的可靠度评分。区域检测部112检测人物类别的可靠度评分最高的物体存在区域作为人物区域520。同样地，检测规定的物体类别的可靠度评分最高的物体存在区域作为该可靠度评分最高的类别的物体区域810(例如，椅子的物体区域)。

区域检测部112可以通过反映了用于从拍摄图像131检测人物区域520和物体区域810的词典(参数)的DNN，从拍摄图像131检测人物区域和物体区域。

关节点估计部113基于人物区域来估计对象者70的关节点510。关节点估计部113可以通过反映了用于从人物区域520检测关节点510的词典的DNN，从人物区域520估计对象者70的关节点510。

行动估计部115基于规定的关节点510的位置和物体区域810，来估计对象者70的行动。

图4是用于说明基于规定的关节点510a、510b的位置和物体区域810来估计对象者500的行动的例子的说明图。

在图4的例子中，在区域检测部112中检测出椅子800作为椅子类别的规定的物体，并将物体区域810显示为单点划线的框内的区域。对象者500的关节点510中的、腰的关节点510a及510b的位置被包含在椅子的类别的物体区域810的内部。如这样的，腰的关节点510a及510b的位置与椅子的类别的物体区域810的位置关系是在对象者500进行了坐在椅子800上的行动时产生的。因此，在这种情况下，行动估计部115估计为对象者500进行了坐在椅子800上的行动。如此，行动估计部115基于规定的关节点510的位置与物体区域810的位置关系来估计对象者500的行动。规定的关节点510并不限定于腰的关节点510a及510b。例如，可以在将规定的关节点510设为全身的关节点(全部关节点)510，并使规定的关节点510被包含在作为规定的物体的床700的物体区域710的内部的情况下，估计为对象者500进行了进入床700的行动。

在由行动估计部115估计出的行动是规定的行动的情况下，通知信息输出部116向便携式终端300发送用于通知发生了与对象者500相关的事件的意思的事件通知。

[便携式终端300]

图5是示出便携式终端300的硬件结构的框图。便携式终端300具备控制部310、无线通信部320、显示部330、输入部340、以及声音输入输出部350，它们通过总线彼此连接。这些构成要素的基本结构与检测部100的对应的构成要素是同样的，因此省略重复的说明。便携式终端300能够由例如平板型计算机、智能手机或便携式电话等可携带的通信终端设备构成。

无线通信部320在与检测部100等装置之间进行利用了G4、Wi-Fi、Bluetooth(蓝牙，注册商标)等标准的无线通信。与检测部100等装置的无线通信经由接入点210进行或直接进行。无线通信部320从检测部100接收事件通知。

显示部330和输入部340是触摸面板，是使作为输入部340的触摸传感器与由液晶等构成的显示部330的显示面重叠而成的。通过显示部330、输入部340来对工作人员等显示各种信息、各种指示。显示部330将事件通知中包含的事件的内容显示于便携式终端300。如此，通过由便携式终端300来显示从检测部100发送的事件通知中包含的事件的内容，来向工作人员等通知事件的内容。事件通知构成用于使便携式终端300向工作人员等通知对象者500的规定的行动的信息。输入部340受理用于承诺应对事件的应答的输入等各种操作。

声音输入输出部350例如是扬声器和麦克风，并使得工作人员等能够经由无线通信部320在与其他工作人员终端之间进行语音通话。另外，在检测部100具备声音输入输出部的情况下，声音输入输出部350可以使得能够经由无线通信部320在与检测部100之间进行语音通话。

图6是示出检测部100的动作的流程图。本流程图由控制部110按照程序执行。

控制部110通过照相机130来获取拍摄图像131(S101)。

控制部110从拍摄图像131检测人物区域520和物体区域810(S102)。

控制部110基于人物区域520来估计对象者500的关节点510的位置(S103)。

控制部110基于关节点510的位置与物体区域810的位置关系，来估计作为对象者500的人物的行动(S104)。

(第二实施方式)

针对第二实施方式进行说明。本实施方式与第一实施方式的不同点如下。第一实施方式基于关节点510的位置与物体区域810的位置关系，来估计对象者500的行动。另一方面，本实施方式根据关节点510的位置估计对象者500的姿势，基于对象者500的关节点510的位置、对象者500的姿势、以及物体区域810来估计对象者500的行动。关于除此以外的点，本实施方式与第一实施方式是同样，因此省略或简化重复的说明。

图7是控制部11的功能框图。控制部11发挥获取部111、区域检测部112、关节点估计部113、姿势估计部114、行动估计部115、通知信息输出部116的功能。

获取部111获取拍摄图像131，区域检测部112从拍摄图像131检测人物区域520和物体区域810。关节点估计部113从人物区域520估计关节点510。

姿势估计部114基于由关节点估计部113检测到的关节点510的位置，来估计对象者500的姿势。姿势包括例如立姿、坐姿、以及卧姿。姿势估计部114可以通过反映了用于根据关节点510的位置检测人物的姿势的词典的DNN，根据关节点510的位置来估计对象者500的姿势。具体而言，在通过DNN，基于关节点510，作为姿势种类的概率而估计出立姿是5％，坐姿是87％，卧姿是8％的情况下，将概率最高的“坐姿”估计为对象者500的姿势。

行动估计部115根据物体区域810、对象者500的关节点510的位置、以及对象者500的姿势来估计对象者500的行动。例如，在对象者500的关节点510中的、腰的关节点510a及510b(参照图4)的位置被包含在椅子800的类别的物体区域810的内部，且，姿势是坐姿的姿势的情况下，行动估计部115估计为对象者500进行了坐在椅子800上的行动。如此，行动估计部115基于规定的关节点510的位置与物体区域810的位置关系、以及姿势，来估计对象者500的行动。例如，也存在如下的可能性，即，在拍摄图像131上，对象者500是立姿的姿势，而腰的关节点510a及510b的位置被包含在椅子800的类别的物体区域810的内部。在如这样的情况下，在第一实施方式中，会误检测为对象者500进行了坐在椅子800上的行动。另一方面，根据本实施方式，能够抑制如这样的误检测。

图8是示出检测部100的动作的流程图。

控制部110获取拍摄图像131(S201)，并从拍摄图像131检测人物区域520和物体区域810(S202)。

控制部110基于人物区域520来估计对象者500的关节点510的位置(S203)。

控制部110基于关节点510的位置来估计对象者500的姿势(S204)。

控制部110基于对象者500的规定的关节点510的位置与物体区域的关系、以及对象者500的姿势，来估计对象者500的行动(S205)。

(第三实施方式)

针对第三实施方式进行说明。本实施方式与第一实施方式的不同点如下。第一实施方式针对拍摄图像131的每一帧，基于关节点510的位置与物体区域810来估计对象者500的行动。另一方面，本实施方式的点在于，基于从拍摄图像131的多个帧分别检测到的关节点510的位置以及物体区域810，根据关节点510和物体区域810的随时间经过的变化，来估计对象者500的行动。关于除此以外的点，本实施方式与第一实施方式是同样的，因此省略或简化重复的说明。

图9A、图9B是示出在时间上前后相邻的拍摄图像131中，分别检测到了对象者500的关节点510的位置和物体区域810的状态的图。图9A是拍摄到对象者500以立姿的姿势朝向椅子800的方向步行的状态的拍摄图像131。图9B是在时间上比图9A的拍摄图像131的帧靠后的帧的拍摄图像131，是拍摄到对象者500在椅子800的座面上处于坐姿的姿势的状态的拍摄图像131。

在图9A的拍摄图像131中，椅子800作为规定的物体而被检测出，从而用包围椅子800的单点划线的矩形来显示物体区域810。此外，对象者500作为人物区域520而被检测出，并从人物区域520来估计关节点510的位置，从而显示关节点510的位置。

另一方面，在图9B的拍摄图像131中，对象者500坐在椅子800的座面上，从而椅子800被对象者500遮挡，椅子800的图像并不出现在拍摄图像131上，从而椅子800没有作为物体区域810而被检测出。由此，未显示物体区域810。因此，若仅根据图9B的拍摄图像131来估计对象者500的行动，则无法估计对象者500坐在椅子800上的准确的行动。另外，在这种情况下，可能得出对象者500坐在地板上的行动(地板坐姿)这样错误的估计。

在本实施方式中，基于从拍摄图像131的多个帧分别检测到的关节点510的位置和物体区域810，根据关节点510的位置和物体区域的随时间经过的变化，来估计对象者500的行动。具体而言，在检测到的规定的物体(例如，椅子800)不再出现在拍摄图像131上从而物体区域810消失了的情况下，估计为该物体区域810被对象者500等遮挡，应用在消失之前的帧的拍摄图像131中检测到的规定的物体的物体区域810作为消失之后的帧的拍摄图像131中的物体区域810。由此，例如，应用图9A的拍摄图像131中的椅子800的物体区域810作为图9B的拍摄图像131中的物体区域810。因此，在图9B的拍摄图像131中，对象者500的关节点510中的、规定的关节点510即腰的关节点510a及510b处于被包含在椅子800的物体区域810的内部中的状态，因此准确地检测到对象者500坐在椅子800中的行动。

本实施方式如第二实施方式那样，根据关节点510的位置来估计对象者500的姿势，并优选应用于基于对象者500的关节点510的位置、对象者500的姿势、以及物体区域810来估计对象者500的行动的情况。例如，设为，基于在时间上比较邻近的多个帧中的、在时间上靠前的帧的拍摄图像131，根据对象者500的关节点510而估计为立姿的姿势，基于靠后的帧的拍摄图像131，根据对象者500的关节点510而估计为坐姿的姿势。而且，设为，在两个帧的拍摄图像131中均未检测到椅子800等的物体区域810。在这种情况下，不估计为椅子800等的物体区域810被对象者500等遮挡，因此可以适当地检测对象者500在地板上跌倒的行动。

图10是示出检测部100的动作的流程图。

控制部110获取拍摄图像131(S301)，从拍摄图像131检测人物区域520和物体区域810(S302)。

控制部110基于人物区域520来估计对象者500的关节点510的位置(S303)。

控制部110基于对象者500的规定的关节点510的位置和物体区域810的随时间经过的变化，来估计对象者500的行动(S304)。

(第四实施方式)

针对第四实施方式进行说明。本实施方式与第一实施方式的不同点如下。第一实施方式从拍摄图像131整体检测人物区域520和物体区域810。另一方面，本实施方式的点在于，从拍摄图像131整体检测人物区域520，基于人物区域520来设定包含人物区域520且比人物区域520大的候选区域530(参照图12)，从候选区域530来检测物体区域810。关于除此以外的点，本实施方式与第一实施方式是同样的，因此省略或简化重复的说明。

图11是区域检测部212的功能框图。区域检测部212具有候选区域设定部212a和详细区域检测部212b。图12是用于说明候选区域530的说明图。

候选区域设定部212a从拍摄图像131检测人物区域520，基于人物区域520来设定候选区域530。候选区域设定部212a可以通过反映了用于从拍摄图像131检测人物区域520的词典的DNN，从拍摄图像131检测人物区域520。

候选区域设定部212a将包含人物区域520且比拍摄图像131小且比人物区域520大的区域作为候选区域530。候选区域530可以设为例如以人物区域520的重心为中心且具有规定的大小和规定的长宽比的矩形区域。规定的大小和规定的长宽比可以通过实验而设定为任意的适当的值。

详细区域检测部212b从候选区域530检测人物区域520和物体区域810。详细区域检测部212b可以通过反映了用于从候选区域530(拍摄图像的一部分)检测人物区域520和物体区域810的词典的DNN，从候选区域530检测人物区域520和物体区域810。由于候选区域530比拍摄图像131小，因此能够缩小物体区域810的检测范围。由此，能够缩短人物区域520和物体区域810的检测所需要的总的检测时间。另外，由于物体区域810的检测范围被限定为候选区域530，因此作为物体区域810被检测的规定的物体仅是距离人物区域520比较近的物体。

另外，详细区域检测部212b可以仅检测物体区域810。在这种情况下，人物区域520可以利用候选区域设定部212a检测人物区域520的检测结果。

图13是示出检测部100的动作的流程图。

控制部110获取拍摄图像131(S401)，从拍摄图像131检测人物区域520(S402)。

控制部110基于人物区域520来设定候选区域530(S403)。

控制部110从候选区域530检测人物区域520和物体区域810(S404)。

控制部110基于人物区域520来估计对象者500的关节点510的位置(S405)。

控制部110基于关节点510的位置和物体区域810来估计对象者500的行动(S406)。

(变形例)

在上述的实施方式中，对象者500是需要护理或看护的人等，基于由配设于对象者500的居室的天花板等的检测部100的照相机130所拍摄到的拍摄图像131来检测对象者500的行动。然后，在所检测到的行动是规定的行动的情况下，向便携式终端300发送事件通知，从而通知事件的发生。

另一方面，在本变形例中，将照相机130配设于便利店的天花板等，基于照相机130的拍摄图像131来检测便利店等的顾客的行动。在这种情况下，人物区域520作为包含顾客的图像的区域而被检测，物体区域810作为分别包含陈列在商品货架上的规定的商品的区域而被检测。而且，作为对象者500即顾客的行动，检测例如将放置于5号货架的最上层的酒类拿在手上的行动、将放置于5号货架的第二层的洗发水拿在手上的行动、以及面向5号货架站住的行动等。如这样的对象者500的行动可以作为营销信息而被利用在商品的重新配置、货架的布局变更等中。

本发明所涉及的实施方式具有以下的效果。

进一步地，基于所估计出的关节点的位置来估计人物的姿势，基于关节点的位置、姿势、以及物体区域来估计人物的行动。由此，能够进一步地高精度地估计人物的行动。

进一步地，通过反映了用于从图像检测人物区域和物体区域的词典的神经网络，来从图像检测人物区域和物体区域。由此，能够简单且高速地估计人物的行动，并且能够进一步地提高估计精度。

进一步地，从图像检测人物区域，将包含该人物区域且比该图像小且比该人物区域大的区域设定为候选区域，从候选区域检测人物区域和物体区域。由此，缩小候选区域的检测范围，从而能够高速且高精度地估计人物的行动。

进一步地，基于所估计出的关节点的位置中的规定的关节点的位置与物体区域的位置关系来估计行动。由此，能够更加简单且高精度地估计人物的行动。

进一步地，基于关节点的位置与物体区域的关系的随时间经过的变化来估计人物的行动。由此，即使在规定的物体被人物遮挡这样的情况下，也能够高精度地估计人物的行动。

进一步地，基于关节点的位置、姿势、与物体区域的关系的随时间经过的变化来估计行动。由此，通过检测基于在时间上相邻的拍摄图像的对象者的状态的变化，能够更加高精度地检测跌倒等重要度较高的对象者的行动。

进一步地，在所估计出的行动是规定的行动的情况下，输出用于使通知部进行通知的信息。由此，能够在事件发生时等简单且迅速地传达事件的发生。

以上说明了的图像处理系统的结构当说明上述的实施方式的特征时说明了其主要结构，但并不限于上述的结构，在权利要求书的范围内能够进行各种改变。此外，并不排除一般的图像处理系统所具备的结构。

例如，便携式终端也可以具备检测部所具有的功能的一部分。

此外，图像识别装置、拍摄装置、以及便携式终端可以分别由多个装置构成，也可以是其中任意多个装置被构成为单一的装置。

此外，上述的流程图可以省略一部分步骤，也可以追加其他步骤。此外，各步骤的一部分可以同时执行，也可以是一个步骤分成多个步骤来执行。

此外，在上述的实施方式中，说明了检测人物的行动的情况，但是行动的检测对象也可以是动物。

此外，进行上述的图像处理系统中的各种处理的手段以及方法能够通过专用的硬件电路或被编程的计算机中的任一者实现。上述程序可以由例如USB(通用串行总线，Universal Serial Bus)存储器、DVD(数字多功能盘，Digital Versatile Disc)-ROM等计算机可读取的记录介质提供，也可以经由互联网等网络在线提供。在这种情况下，计算机可读取的记录介质中记录的程序通常被转发至硬盘等存储部中并被存储。此外，上述程序可以作为单独的应用软件来提供，也可以作为一种功能而被纳入该检测部等装置的软件中。

Claims

1.一种保存有图像处理程序的计算机可读取的记录介质，其中，所述图像处理程序用于使计算机执行如下的处理，所述处理包括：

步骤(a)，获取拍摄到的图像；

步骤(b)，从在所述步骤(a)中获取到的所述图像检测包含人物的人物区域和包含规定的物体的物体区域；

步骤(c)，基于在所述步骤(b)中检测到的所述人物区域来估计所述人物的关节点的位置；

步骤(d)，基于在所述步骤(c)中估计出的所述关节点的位置和在所述步骤(b)中检测到的所述物体区域来估计所述人物的行动；以及

步骤(e)，基于在所述步骤(c)中估计出的所述关节点的位置来估计所述人物的姿势，

在所述步骤(d)中，基于在所述步骤(c)中估计出的所述关节点的位置、在所述步骤(e)中估计出的所述姿势、与在所述步骤(b)中检测到的所述物体区域的关系的随时间经过的变化，来估计所述行动，在已检测到的所述物体区域消失了的情况下，估计为所述物体区域被所述人物遮挡，应用在消失之前的所述图像中检测到的所述物体区域作为消失之后的所述图像中的所述物体区域，若基于在时间上临近的多个帧中的、在时间上靠前的帧的所述图像中的所述人物的所述关节点与靠后的帧的所述图像中的所述人物的所述关节点而分别估计的姿势不同，并且在两个帧的所述图像中均未检测到所述物体区域，则不估计为所述物体区域被所述人物遮挡。

2.如权利要求1所述的保存有图像处理程序的计算机可读取的记录介质，其中，

在所述步骤(d)中，基于在所述步骤(c)中估计出的所述关节点的位置、在所述步骤(e)中估计出的所述姿势、以及在所述步骤(b)中检测到的所述物体区域，来估计所述人物的行动。

3.如权利要求1或2所述的保存有图像处理程序的计算机可读取的记录介质，其中，

在所述步骤(b)中，通过反映了用于从所述图像检测所述人物区域和所述物体区域的词典的神经网络，来从所述图像检测所述人物区域和所述物体区域。

4.如权利要求1或2所述的保存有图像处理程序的计算机可读取的记录介质，其中，

所述步骤(b)包括：

步骤(b1)，从所述图像检测所述人物区域；以及

步骤(b2)，从作为包含在所述步骤(b1)中检测到的所述人物区域且比所述图像小且比所述人物区域大的区域而被设定的候选区域，检测所述人物区域和所述物体区域。

5.如权利要求1所述的保存有图像处理程序的计算机可读取的记录介质，其中，

在所述步骤(d)中，基于在所述步骤(c)中估计出的所述关节点的位置中的规定的关节点的位置与在所述步骤(b)中检测到的所述物体区域的位置关系，来估计所述行动。

6.如权利要求1或2所述的保存有图像处理程序的计算机可读取的记录介质，其中，

所述处理还包括步骤(f)，在所述步骤(f)中，在所述步骤(d)中估计出的所述行动是规定的行动的情况下，输出用于使通知部进行通知的信息。

7.一种图像处理装置，其中，包括：

获取部，获取拍摄到的图像；

检测部，从所获取到的所述图像检测包含人物的人物区域和包含规定的物体的物体区域；

关节点估计部，基于所检测到的所述人物区域来估计人物的关节点的位置；

行动估计部，基于所估计出的所述关节点的位置和所检测到的所述物体区域来估计人物的行动；以及

姿势估计部，基于由所述关节点估计部估计出的所述关节点的位置来估计所述人物的姿势，

所述行动估计部基于由所述关节点估计部估计出的所述关节点的位置、由所述姿势估计部估计出的所述姿势、与由所述检测部检测到的所述物体区域的关系的随时间经过的变化，来估计所述行动，在已检测到的所述物体区域消失了的情况下，所述行动估计部估计为所述物体区域被所述人物遮挡，应用在消失之前的所述图像中检测到的所述物体区域作为消失之后的所述图像中的所述物体区域，若基于在时间上临近的多个帧中的、在时间上靠前的帧的所述图像中的所述人物的所述关节点与靠后的帧的所述图像中的所述人物的所述关节点而分别估计的姿势不同，并且在两个帧的所述图像中均未检测到所述物体区域，则所述行动估计部估计不估计为所述物体区域被所述人物遮挡。

8.如权利要求7所述的图像处理装置，其中，

所述行动估计部基于由所述关节点估计部估计出的所述关节点的位置、由所述姿势估计部估计出的所述姿势、以及由所述检测部检测到的所述物体区域，来估计所述人物的行动。

9.如权利要求7或8所述的图像处理装置，其中，

所述检测部通过反映了用于从所述图像检测所述人物区域和所述物体区域的词典的神经网络，从所述图像检测所述人物区域和所述物体区域。

10.如权利要求7或8所述的图像处理装置，其中，

所述检测部包括：

第一检测部，从所述图像检测所述人物区域；以及

第二检测部，从作为包含由所述第一检测部检测到的所述人物区域且比所述图像小且比所述人物区域大的区域而被设定的候选区域检测所述人物区域和所述物体区域。

11.如权利要求7所述的图像处理装置，其中，

所述行动估计部基于由所述关节点估计部估计出的所述关节点的位置中的规定的关节点的位置与由所述检测部检测到的所述物体区域的位置关系，来估计所述行动。

12.如权利要求7或8所述的图像处理装置，其中，

还包括通知信息输出部，在由所述行动估计部估计出的所述行动是规定的行动的情况下，所述通知信息输出部输出用于使通知部进行通知的信息。