CN109949392A

CN109949392A - 动画发送系统

Info

Publication number: CN109949392A
Application number: CN201811417143.7A
Authority: CN
Inventors: 林伸树; 马场健; 佐藤彰矩; 市川慎一郎
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2017-12-18
Filing date: 2018-11-26
Publication date: 2019-06-28
Also published as: JP2019110421A; US20190188481A1

Abstract

本发明提供一种动画发送系统，其从摄像单元所摄像的动画中自动提取出包含预定的内容的影像。动画发送系统(1)具备：提取单元(11)，其实施从摄像单元(20)所摄像的动画中提取出与对象者的特定行为相关的一个或者多个场景的提取动作；生成单元(12)，其对所提取出的一个或者多个场景进行编辑且生成摘要动画；发送单元(13)，其对所生成的摘要动画进行发送。提取单元为了提升提取动作，而将拍摄到了人物的动画中的至少一部分作为输入数据来实施与特定行为相关的机器学习。

Description

动画发送系统

技术领域

本发明涉及一种动画发送系统的技术领域。

背景技术

在这种系统中，力图减少与编辑有关的工时。例如，在专利文献1中，记载了一种通过将画面上所显示的多个图像中的由用户选择出的图像按照用户所指定的顺序进行重新排列从而制作成编辑文件的系统。在专利文献2中，公开了一种系统，在该系统中，对拍摄对象附加无线标签，并将从该无线标签发送的信号中包含的该无线标签的识别信息与时刻相对应地进行记录，再利用该识别信息与时刻的对应信息而从摄像机所拍摄的影像中剪辑出与拍摄对象相关的影像并进行编辑。

在先技术文献

专利文献

专利文献1：日本特开2006-202045号公报

专利文献2：日本特开2004-312511号公报

发明内容

发明所要解决的课题

在专利文献1所记载的技术中，用户必须对包含在编辑文件中的图像进行选择，从而存在使用户的作业负担比较重的技术问题。在专利文献2所记载的技术中，由于必须对拍摄对象附加无线标签，并且按照与识别信息相对应的时刻而对影像进行剪辑，因此具有不清楚在编辑时被剪辑的影像的内容的技术问题。

本发明是鉴于上述问题点而完成的发明，其课题在于提供一种能够对特定行为所涉及的场景自动进行提取的动画发送系统。

用于解决课题的手段

本发明的一个方式所涉及的动画发送系统具备：提取单元，其实施从摄像单元所摄像的动画中提取出与对象者的特定行为有关的一个或者多个场景的提取动作；生成单元，其对所述被提取出的一个或者多个场景进行编辑并生成摘要动画；发送单元，其对所述被生成的摘要动画进行发送，所述提取单元为如下的单元，即，为了提升所述提取动作，而将拍摄到了与所述对象者相同或不同的人物的动画的至少一部分作为输入数据来实施与所述特定行为相关的机器学习。

附图说明

图1为表示实施方式所涉及的动画发送系统的结构的框图。

图2为表示实施方式所涉及的动画发送系统的优选的结构的框图。

图3为表示示教数据的概念的示意图。

图4为表示实施方式所涉及的动画生成发送处理的流程图。

图5为用于对参照了标签信息的示教数据的生成方法进行说明的示意图。

具体实施方式

参照图1至图5，对动画发送系统所涉及的实施方式进行说明。

(结构)

参照图1以及图2，对实施方式所涉及的动画发送系统的结构进行说明。图1以及图2分别为表示实施方式所涉及的动画发送系统的结构的框图。

在图1中，动画发送系统1被构成为具备：动画发送装置10、摄像机20以及终端装置30。另外，虽然在图1中仅记载了摄像机20和终端装置30各自为一台，但是优选为，动画发送系统1被构成为具备多台摄像机20以及多台终端装置30。

即，如图2所示，优选为，以在因特网等通信网200中收纳有多个摄像机20、多个终端装置30以及动画发送装置10的形式而构成动画发送系统1，所述多个摄像机20分别为固定摄像机、手持式摄像机、移动摄像机等，并且具有通信功能，所述多个终端装置30分别为智能手机、平板终端、个人计算机等，并且具有通信功能，所述动画发送装置10包括高性能处理装置、大容量存储装置等，并且具有通信功能。但是，多个摄像机20的至少一部分也可以被构成为能够经由不同于通信网200的专用的通信网而与动画发送装置10进行通信，此外也可以通过能够进行双向通信的电缆而与动画发送装置10直接连接。

在图1中，动画发送装置10在其内部作为逻辑上可实现的处理区块或者物理上可实现的处理电路而具备动画提取部11、动画生成部12、发送部13以及示教数据生成部14。动画提取部11具有从摄像机20所摄像的动画中提取出拍摄到了预先确定的特定行为的场景(动画)的动画提取功能、和用于使该动画提取功能提高或最优化的学习功能。动画生成部12被构成为，能够对动画提取部11所提取的场景进行编辑并生成摘要动画。发送部13被构成为，能够向终端装置30发送由动画生成部12所生成的摘要动画。关于示教数据生成部14，将在下文进行叙述。

终端装置30具有用于和动画发送装置10进行通信的通信功能、用于对动画进行播放的播放功能、以及用于对该播放的动画进行显示的显示功能。由于能够将现有的各种方式应用于摄像机20，因此省略其说明。

(机器学习处理)

参照图3，对通过动画提取部11的学习功能而实施的机器学习处理进行说明。图3为表示示教数据的概念的示意图。

首先，对在机器学习中使用的示教数据进行说明。如果将为了示教数据用而被摄像的动画数据(即，拍摄有进行机器学习的特定行为的动画数据)直接进行使用，则数据量会变得比较多，因此降低动画数据的帧频(换而言之，对帧图像进行细化)(参照图3(a))。在原动画数据的帧频例如为30fps(frames per second，帧每秒)的情况下，会被降低至例如5fps等。将帧频以何种程度降低只要通过如下方式来决定即可，即，依据帧频被降低了的动画，来对是否能够识别出由动画提取部11所提取的特定行为、是否能够从其他的行为中区别出该特定行为等进行判断。虽然从处理负荷的观点来看这样的帧频理想来说优选为低至充分必要的程度，但是也可以通过在最初以具有余量的方式而设定为略高的帧频并以反映之后的机器学习的结果的形式而适当降低的方法来决定。

接下来，针对构成帧频被降低了的动画数据的各个帧图像而对拍摄于帧图像中的人物(即，正在实施特定行为的人物)进行线框化(参照图3(b))。此外，对于线框化所涉及的技术，由于能够使用现有的各种方式，因此省略其说明。

图3(b)的空白圆圈表示在线框化时被关注的身体的部位。虽然该被关注的身体的部位的数量是任意的，但是典型而言，被设定为如下的数量，即，能够从其他的行为中区分出由动画提取部11所提取的特定行为的数量。例如，根据作为对象的特定行为而设定为十八个部位或五个部位等。此外，以下将被线框化的人物(即，如图3(b)所示那样的由线和空白圆圈所表示的图像)适当称为“线框图(Wireframe)”。以下将上述被关注的身体的部位(图3(b)的空白圆圈)适当称为“点”。

在帧图像中拍摄到了多个人物的情况下，被线框化的人数根据上述特定行为而发生变化。在特定行为是例如在预定区间内通行的情况下，被线框化的人数例如为“1”。在特定行为是例如向其他人问候的情况下，被线框化的人数例如为“2”。

接下来，将在时间上连续的第一预定时间(例如3秒)的帧图像各自的线框图所包含的多个点各自的坐标数据设为一组，并通过附加表示特定行为的标签数据(所谓，正例数据)而生成示教数据。

“在时间上连续的第一预定时间内的帧图像各自的线框图中所包含的多个点各自的坐标数据”可以说是表示线框图的坐标变化的数据。即，示教数据可以说是表示与特定行为相对应的线框图的坐标变化的数据。此外，优选地，“第一预定时间”为，能够通过机器学习而识别出特定行为的时间的下限值。这是因为，“第一预定时间”变得越大，则示教数据就变得越大，处理负荷将会增加。虽然这样的第一预定时间从处理负荷的观点来看优选为短至理想的情况下的充分必要程度，但是也可以通过在最初以具有余量的方式而设定为略长的时间，再通过反映之后的机器学习的结果的形式而适当缩短的方法来确定。

动画提取部11通过使用了如上文所述那样而生成的示教数据的、有示教的机器学习，来实施与拍摄有特定行为的场景的提取相关的参数(即，场景的提取所使用的算法中包含的参数)的最优化。此时，动画提取部11基于示教数据中包含的多个点各自的坐标变化(即，线框图的坐标变化)，来决定与应该进行学习的一个特定行为相对应的行为图案(例如，表示一个特定行为的特征性的坐标变化)。动画提取部11针对一个特定行为所涉及的多个示教数据的全部而对上述行为图案进行最优化(即，对上述参数进行最优化)，以使由该多个示教数据分别表示的线框图的坐标变化被判断为符合一个特定行为。以此方式，通过将与想要设为摘要的特定行为相对应的线框图的坐标变化设为示教数据的机器学习，而提取出使被确定的个人所涉及的线框图的坐标变化和与特定行为相对应的线框图的坐标变化重合的场景。换而言之，将在构成与示教数据相关的线框图的多维数据(例如，数十～数千维的数据)和构成与被确定的个人相关的线框图的多维数据之间相关性的高度超出预定阈值(即，用于判断行为的一致/不一致的阈值)的场景，从摄像机所拍摄的图像数据中提取出来。提取结果通过与被提取出的场景相关的图像数据的时间或者拍摄时间等来表示。

特定行为并不限定于一种，也可以为多种。在特定行为有多种的情况下，生成附加了每个特定行为的标签数据的示教数据。也就是说，在作为特定行为而具有行为A、行为B、行为C、……的情况下，生成附加了作为标签数据的标签A、标签B、标签C、……的示教数据。

(动画生成发送处理)

参照图4的流程图，对由动画发送装置10所实施的动画生成发送处理进行说明。

在图4中，首先，动画提取部11取得由摄像机20拍摄的动画数据(步骤S101)。动画提取部11对所取得的动画数据实施个人认证处理(步骤S102)。具体而言，动画提取部11预先存有作为摄像机20的拍摄对象的人物的各自的识别信息(例如人名、ID号码等)和与该识别信息相关联的脸部图像。动画提取部11实施基于该脸部图像的脸部认证处理，并根据与一致的脸部图像相关联的识别信息来对人物进行确定。

该步骤S102的处理的结果，例如，输出表示被确定的人物的识别信息、与拍摄有该被确定的人物的帧图像相关的时间(例如，时间戳)、该帧图像中的被确定的人物的脸部区域的中心坐标。

动画提取部11以与步骤S102的处理并行实施的方式而对所取得的动画数据中拍摄到的人物进行线框化(步骤S103)。具体而言，动画提取部11为了减轻处理负荷而降低动画数据的帧频。动画提取部11针对构成帧频被降低了的动画数据的各个帧图像而对帧图像中拍摄到的人物进行线框化。

该步骤S103的处理的结果，例如，输出包含多个点(参照图3(b)的空白圆圈)的各自的坐标数据的线框图、与帧图像相关的时间(例如，时间戳)。也就是说，步骤S103的处理的结果，输出时刻t_i的线框图、时刻t_i+1的线框图、时刻t_i+2的线框图、……、以及线框图的束(换言之，表示线框图的坐标变化的数据)被输出。

之后，动画提取部11通过基于步骤S102的处理的结果以及步骤S103的处理的结果而对线框图和识别信息进行关联，从而确定被线框化了的人物(步骤S104)。具体而言，动画提取部11参照与帧图像相关的时间而选择相对应的步骤S102的处理的结果和步骤S103的处理的结果。接下来，动画提取部11对脸部区域的中心坐标与线框图中包含的多个点的各自的坐标数据中的例如鼻子以及头部中的至少一个的坐标进行比较(例如，对脸部区域的中心坐标与鼻子以及头部中的至少一个的坐标之间的差值是否在预定值以内进行判断)，并对线框图和识别信息进行关联。

接下来，动画提取部11使用通过上述的机器学习处理而使参数被最优化了的算法来对特定行为进行提取(步骤S105)。对该步骤S105的处理进行概念性的说明时，若将线框图的坐标变化(即，该线框图中包含的多个点的各自的坐标变化)与通过上述的机器学习处理而学习了的特定行为所对应的行为图案(例如，表示特定行为的特征性的坐标变化)重合，则被判断为特定行为，若与该行为图案不重合则被判断为不是特定行为。动画提取部11通过从在上述步骤S103的处理中输出的表示线框图的坐标变化的数据中对与上述行为图案重合的线框图的坐标变化进行检测，而提取特定行为。

该步骤S105的处理的结果，例如，输出与符合特定行为的线框图建立了相关的识别信息、与符合特定行为的线框图相关的帧图像所涉及的时间。也就是说，通过步骤S105的处理而确定实施了特定行为的时间和实施了该特定行为的人物。

接下来，动画提取部11基于与步骤S105的处理的结果中包含的帧图像相关的时间，而从在步骤S101的处理中取得的动画数据(即，帧频未被降低的动画数据)中提取出拍摄有特定行为的场景。对于该被提取出的场景，附加在步骤S105的处理的结果中包含的识别信息。此外，在存在多个拍摄有特定行为的场景的情况下，提取出多个场景。

被提取出的场景的长度为，包含根据与符合上述特定行为的线框图所涉及的帧图像相关的时间而求出的期间在内，且长于该期间的第二预定时间(例如，20秒)。在此，“第二预定时间”被设定为，当用户观察被提取出的场景时能够辨别出正在实施特定行为的时间，或者与该时间相比长了预定值的时间。

接下来，动画生成部12为对在步骤S106的处理中提取出的一个或者多个场景进行编辑(步骤S107)。具体而言，动画生成部12首先对在步骤S106的处理中被提取出的一个或者多个场景，基于被附加于该场景上的识别信息而例如按照每个人物进行分类。接下来，动画生成部12对分类后的场景中所拍摄到的人物进行线框化。

接着，动画生成部12基于线框图中包含的多个点的各自的坐标数据的变化，而对例如是否存在被线框化的人物的活动比较小的期间、是否存在被线框化的人物重复实施同一行为的期间等进行判断。这是因为，在上述的步骤S106的处理中被提取出的场景的长度与上述的步骤S105的处理中所提取出的多个帧图像所涉及的期间相比而较长，未必跨及所提取出的场景的整个期间而拍摄到特定行为。而且，当被提取出的场景中存在未拍摄到特定行为的期间时，有可能会使观看到了摘要动画的用户感觉该场景较为冗长。

例如，在被判断为存在被线框化的人物的活动比较小的期间、存在被线框化的人物反复实施同一行为的期间等的情况下，动画生成部12将所提取的场景中的相当于例如被线框化的人物的活动比较小的期间、被线框化的人物反复实施同一行为的期间等的帧图像删除(即，剪切)。

接下来，动画生成部12通过将例如按照每个人物而被分类的场景例如按照时间序列进行排列，从而生成作为被编辑了的动画的摘要动画。被生成的摘要动画被存储于该动画发送装置10中。

接下来，发送部13向终端装置30发送摘要动画(步骤S108)。能够在摘要动画的发送方法中应用现有的各种方式，作为一个示例而列举出流媒体发送。发送部13在受到了终端装置30的访问的情况下，将与被存储在该动画发送装置10中的摘要动画相关的信息(例如，表示能够进行发送的摘要动画的列表等)发送至终端装置30。在经由终端装置30而指定了该终端装置30的用户所期望的摘要动画的情况下，发送部13向终端装置30流媒体发送被指定的摘要动画发送。

(示教数据生成处理)

终端装置30的用户能够对于被发送的摘要动画附加任意的标记。在用户对摘要动画附加了标记的情况下，与该被附加的标记相关的标记信息从终端装置30被发送到动画发送装置10中。动画发送装置10的示教数据生成部14基于标记信息而生成能够在上述的机器学习中使用的新的示教数据。

如图5(a)所示，以在摘要动画的时刻t1处附加了标记的情况为例进行具体说明。示教数据生成部14基于标记信息而对摘要动画所包含的场景A中的、包含时刻t1的预定范围(在图5(b)中，从时刻t1-dt1到时刻t1+dt2为止的范围)的动画数据进行提取。

接下来，示教数据生成部14降低所提取的动画数据的帧频(参照图3(a))。接着，示教数据生成部14针对构成帧频被降低了的动画数据的各个帧图像，而对帧图像中拍摄到的人物进行线框化。接着，示教数据生成部14通过将各个帧图像中的多个点的各自的坐标数据设为一组，从而生成新的示教数据。在生成了上述新的示教数据的情况下，动画提取部11实施使用了该被生成的示教数据的机器学习。

此外，由于摘要动画的场景A是什么样的场景例如被记录在动画生成部12的日志中，因此示教数据生成部14可以参考该日志而在上述新的示教数据中附加标签数据。也可以在上述新的示教数据中附加与附加有标记的用户相关的信息。

在此，多数情况下，标记被附加于终端装置30(进一步为动画发送系统1)的用户特别关心的动作(即，构成特定行为的动作的一部分)上。通过基于标记信息而生成新的示教数据，并实施使用了该被生成的示教数据的机器学习，从而能够使例如用户的感受等反映在被用于场景的提取的算法中。因此，随着基于标记信息的新的示教数据被积蓄(例如，用户使用该动画发送系统1的次数越是增加)，则越能够生成且发送更为适合于用户的摘要动画。

(技术效果)

在该动画发送系统1中，通过动画提取部11而自动提取出拍摄有特定行为的场景。除此之外，通过动画生成部12而自动对拍摄有特定行为的场景进行编辑并生成摘要动画。因此，不需要实施例如用户在对动画进行播放的同时对拍摄有特定行为的场景进行确认而对该场景进行提取、编辑这样的作业。

在该动画发送系统1中，基于标记信息而依次生成新的示教数据，并重复实施使用了该生成的示教数据的机器学习。因此，能够提高图像提取部11所进行的场景提取的精度。另外，由于多数情况下标记被附加于用户特别关心的动作上，因此能够通过重复实施使用了上述示教数据的机器学习而生成更适合于用户的摘要动画。

在该动画发送系统1所涉及的机器学习中所使用的示教数据作为表示线框图中包含的多个点的各自的坐标数据的变化的数据而构成。根据这样的结构，能够比较容易地使动画提取部11对特定行为进行机器学习。

<改变例>

(1)在图4所示的动画生成发送处理的步骤S102的处理中，除了脸部认证处理以外，还可以实施表情识别处理。在该情况下，步骤S102的处理的结果，例如，输出表示被确定的人物的识别信息、与被确定的人物的表情相关的表情信息、与拍摄有该被确定的人物的帧图像相关的时间、该帧图像中的被确定的人物的脸部区域的中心坐标。并且，在步骤S104的处理中，将线框图和识别信息以及表情信息建立关联。根据这样的结构，能够生成一个人物通过特定的表情而实施特定行为的摘要动画。

(2)在图4所示的动画生成发送处理的步骤S107的处理中，被提取的场景并不局限于按照每个人物的分类，也可以根据例如时间段或所属(在该情况下，需要在识别信息中包含表示所属的信息)等而被分类。根据这样的结构，例如能够按照每个时间段或者每个所属而生成实施了特定行为的人物的摘要动画。

<具体的应用例>

(1)对该动画发送系统1被使用在例如保育园内的保育园儿童的行为记录中的情况进行说明。在该情况下，作为特定行为而列举有：(ⅰ)进园(保育园儿童与其监护人靠近保育员，然后监护人离开保育员等)；(ⅱ)玩耍(多名保育园儿童一起跑步等)；(ⅲ)就餐(为了吃饭而使手接近嘴边，并在之后放下手等)；(ⅳ)睡午觉(躺在被褥中等)；(v)离园(监护人接近保育园儿童，然后监护人与保育园儿童一起步行等)等。

例如在保育园的园门附近(即，出入园的场所)、保育园的园舍内、保育园操场等被认为会发生上述特定行为的场所处设置有多台摄像机20。动画发送装置10的动画提取部11从由多个摄像机20各自拍摄的动画数据中提取出拍摄有特定行为的场景。动画生成部12按照每个保育园儿童而对该被提取的场景进行编辑，并生成每个保育园儿童的摘要动画。

如果该保育园儿童的摘要动画被发送到保育园儿童的监护人所持有的终端装置30中，则能够使监护人对从保育园的联络簿的记载中了解不到的保育园儿童的状况进行确认。另外，如果保育园儿童的摘要动画被发送到保育士所持有的终端装置30中发送，则保育员能够将摘要动画用于各个保育园儿童的保育计划的制定的辅助之中。

(2)对该动画发送系统1被使用在例如看护设施内的夜间的行为记录中的情况进行说明。在该情况下，作为特定行为而列举有：(ⅰ)夜间的各个房间的出入情况；(ⅱ)就寝(躺在被褥中等)；(ⅲ)起床(从被褥中起来等)等。

摄像机20被设置在各个房间中。动画发送装置10的动画提取部11从由多个摄像机20各自所摄像的动画数据中提取出拍摄有特定行为的场景。动画生成部12按照每个入院者而对该被提取的场景进行编辑，并生成每个入院者的摘要动画。

如果将入院者的摘要动画发送到看护设施的职员所持有的终端装置30中，则职员例如能够掌握夜间的入院者的行为。另外，如果入院者的摘要动画被发送到入院者的亲属所持有的终端装置30中，则例如能够知道入院者的夜间的状况。

(3)除此之外，例如，如果在工厂中设置摄像机20，并将工厂作业者的异常行为设为特定行为，则能够通过该动画发送系统1而生成并发送与工厂作业者的异常行为相关的摘要动画。或者，例如，如果在机场中设置摄像机20，并将乘客等的异常行为设为特定行为，则能够通过该动画发送系统1而生成并发送与乘客等的异常行为相关的摘要动画。

摄像机20也可以不被固定在预定的场所，例如也可以是能够携带移动的。具体而言，摄像机20可以为能够携带移动的家用的视频摄像机。除此之外，如上述的改变例(1)所记载的那样，在图4所示的动画生成发送处理的步骤S102的处理中，如果以实施脸部认证处理以及表情认证处理的方式而构成动画提取部11，则能够根据由上述视频摄像机所摄像的动画数据而生成并发送包含例如通过笑脸而实施特定行为的场景的摘要动画。

在下文中对从以上所说明的实施方式以及改变例而导出的发明的各种方式进行说明。

发明的一个方式所涉及的动画发送系统具备：提取单元，其实施从摄像单元所摄像的动画中提取出与对象者的特定行为相关的一个或者多个场景的提取动作；生成单元，其对所述提取出的一个或者多个场景进行编辑并生成摘要动画；发送单元，其对所述生成的摘要动画进行发送，其中，所述提取单元为，为了提升所述提取动作，而将拍摄到了与所述对象者相同或者不同的人物的动画的至少一部分作为输入数据并实施与所述特定行为相关的机器学习的单元。在上述的实施方式中，“动画提取部11”相当于提取单元的一个示例，“动画生成部12”相当于生成单元的一个示例，“发送部13”相当于发送单元的一个示例。

在该动画发送系统的提取单元中，实施与特定行为相关的机器学习。该机器学习的结果是，提取单元能够对与特定行为相关的场景进行适当识别。虽然在该机器学习中，将拍摄到了人物的动画中的至少一部分作为输入数据而使用，但是该“人物”也可以为不确定的人物(即，不需要“人物”与“对象者”相同)。

在该动画发送系统中，通过提取单元而自动提取出与对象者的特定行为相关的场景。并且，生成单元对该被提取出的场景进行编辑并生成摘要动画。因此，根据该动画发送系统，能够自动提取出与对象者的特定行为相关的场景，并生成摘要动画。

在该动画发送系统的一个方式中，具备取得单元，所述取得单元以在所述被发送的摘要动画上附加有标记为条件而取得被附加有所述标记的摘要动画，所述提取单元除了将拍摄到了所述人物的动画中的至少一部分作为所述输入数据之外，还将附加有所述标记的摘要动画中的至少一部分作为所述输入数据，而实施所述机器学习。在上述的实施方式中，“示教数据生成部14”相当于取得单元的一个示例。

在该方式中，被附加有标记的摘要动画中的至少一部分作为机器学习的输入数据而被使用。也就是说，在该方式中，即使该动画发送系统处于因预定的服务目的而为可动的阶段中，也能够将被附加有标记的摘要动画中的至少一部分作为输入数据而反复实施机器学习。因此，被附加有标记的摘要动画越是增加，则越能够提高与特定行为相关的场景的提取精度。

发明的其他的方式所涉及的动画编辑装置为具备以下各个单元的装置，即：摄像单元，其对人物进行拍摄并输出图像数据；脸部识别单元，其在所述被输出的图像数据上对所述人物的脸部区域进行识别；线框化单元，其对所述被输出的图像数据上的所述人物进行线框化；个人确定单元，其取得与所述被识别出的脸部区域相关的脸部中心坐标并取得与所述被线框化了的人物相关的头部坐标，且基于所述取得的脸部中心坐标以及所述取得的头部坐标之间的距离而确定与所述人物相关的个人；摘要图像制作单元，其通过将与想要设为摘要的特定行为相对应的线框图的坐标变化设为示教数据的机器学习，而从所述被输出的图像数据中提取出使与所述被确定的个人相关的线框图的坐标变化和与所述特定行为相关的线框图的坐标变化重合的场景，并基于所述提取出的场景而制作与所述被确定的个人相关的摘要图像。

在上述的实施方式中，“摄像机20”相当于摄像单元的一个示例，“动画提取部11”相当于脸部识别单元、线框化单元以及个人确定单元的一个示例，“动画提取部11”以及“动画生成部12”相当于图像制作单元的一个示例。

根据该动画编辑装置，“摄像单元”具有对成为摘要图像的元素的动画或者影像进行拍摄的摄像机的功能以及不仅是动画还对静止画面或者照片进行拍摄并进行脸部识别的照相机的功能，并且被构成为包含单个或者多个摄像机。

在其工作时，当通过摄像单元而摄像到一个或者多个人物时，另一方面通过脸部识别单元而在图像数据上识别人物的脸部区域。在此，例如实施基于脸部识别的个人认证(即，脸部认证)。此时，除了脸部识别之外，还可以实施表情识别。与此并行或相继前后，通过线框化单元而对图像数据上的人物进行线框化。然后，通过个人确定单元而基于和所述被识别出的脸部区域相关的脸部中心坐标与和被线框化的人物相关的头部坐标之间的距离，来确定与所述人物相关的个人。即，将脸部认证的结果和线框图作为数据而互相建立关联。由此，能够判别出谁正在实施什么样的活动。

接着，在摘要图像制作单元中，通过将与想要设为摘要的特定行为相对应的线框图的坐标变化作为示教数据的机器学习，而从图像数据中提取出使和预先确定的个人相关的线框图的坐标变化与和特定行为相对应的线框图的坐标变化重合的场景。

在此“重合”是指，以适合于作为相互一致或吻合的内容而看待的程度而相关性较高或关联性较强，或者，吻合或一致的意思。即，为不仅包含完全一致的情况，还包含在某种程度上一致的情况，即，被视为进行相同或者相同范畴内的特定行为的情况在内的意思。另外“场景”是指，在被拍摄到的动画(图像数据)中特定人物正在进行特定行为的时间段上所拍摄到的动画部分的意思。

之后，通过摘要图像制作单元而基于该被提取出的场景制作特定个人的摘要图像。

这样，能够基于与通过脸部识别而确定的特定个人相关的线框图的坐标变化和基于机器学习的线框图的坐标变化相重合的场景，而比较简单地制作特定个人或者特定人物的摘要图像。

发明的其他的方式所涉及的动画编辑装置为具备如下单元的装置，即：示教数据制作单元，其对拍摄到了人物的图像数据上的所述人物进行线框化，并制作示教数据，所述示教数据表示与预定时间的所述人物的特定行为相关的线框图的坐标变化；摄像单元，其对作为与所述人物相同或者不同的人物的对象者进行摄像并输出图像数据；线框化单元，其对所述被输出的图像数据上的所述对象者进行线框化；摘要图像制作单元，其通过实施使用了所述制作的示教数据的机器学习，而从与所述对象者相关的线框图的坐标变化中提取出符合所述特定行为的所述线框图的坐标变化，从而制作与所述对象者的所述特定行为相关的摘要动画。

在上述的实施方式中，“示教数据生成部14”相当于示教数据制作单元的一个示例，“摄像机20”相当于摄像单元的一个示例，“动画提取部11”相当于线框化单元的一个示例，“动画提取部11”以及“动画生成部12”相当于摘要图像制作单元的一个示例。

“人物”为不确定的人物，“人物”和“对象者”既可以是相同的，也可以是不同的。“预定时间”是指，作为使用该示教数据并通过机器学习来确定行为图案的基础之上所优选的时间，而在示教数据的制造之前预先设定的时间。这样的预定时间为，例如基于人类的动作速度及动作时间或者最终实施想要制作摘要动画的特定行为时的动作速度及动作时间，作为足以对特定行为的示教数据进行制作的值而预先通过实验或经验、模拟、运算而设定的时间。另外，作为预定时间，可以给出适当的初始值，并在之后的制作示教数据的过程中适当地进行改变。

示教数据制作单元根据例如3秒钟之类的上述预定时间内的线框图的坐标变化等而制作示教数据。对于示教数据，也可以在被生成时自动分配或人工附加识别编号、识别名称。

摘要图像制作单元通过实施使用了示教数据的机器学习，而确定作为想要设为摘要的特定行为的应该提取的行为图案。摘要图像制作单元通过从被线框化的对象者所涉及的线框图的坐标变化中提取出符合该行为图案的线框图的坐标变化，从而制作与对象者的特定行为相关的摘要动画。

如上文所述，通过采用本发明特有的使用了示教数据的机器学习，能够容易地学习想要设为摘要的特定行为，从而能够比较简单地制作与对象者相关的特定行为的摘要图像。

<计算机程序>

发明的其他的方式所涉及的计算机程序使计算机作为上述的动画编辑装置(也包括其各种方式)而发挥功能。

根据该计算机程序，如果从存储有该计算机程序的ROM(Read-Only Memory：只读存储器)、CD-ROM(Compact Disc Read-Only Memory：只读光盘)、DVD-ROM(Digital VideoDisc-Read Only Memory：只读型数字视盘)、硬盘等记录介质或者USB(Universal SerialBus：通用串行总线)存储器等相对于计算机系统而可拆装的固态存储装置中将该计算机程序读入到计算机系统中并执行，或者，如果将该计算机程序例如经由通信单元等而下载到计算机系统中并执行，则能够比较简单地实现上述的本实施方式所涉及的动画编辑装置(包括其各种方式)。

本发明并不限定于上述的实施方式，可以在不脱离从权利要求书以及说明书整体所解读出来的发明的主旨或思想的范围内适当进行改变，并且，随着这样的改变而形成的动画发送系统也包含在本发明的技术范围内。

符号说明

1…动画发送系统；10…动画发送装置；11…动画提取部；12…动画生成部；13…发送部；14…示教数据生成部；20…摄像机；30…终端装置。

Claims

1.一种动画发送系统，其特征在于，具备：

提取单元，其实施从摄像单元所拍摄的动画中提取出与对象者的特定行为相关的一个或者多个场景的提取动作；

生成单元，其对所提取出的所述一个或者多个场景进行编辑且生成摘要动画；以及

发送单元，其对所生成的所述摘要动画进行发送，

所述提取单元为了提升所述提取动作，而将拍摄到了与所述对象者相同或者不同的人物的动画中的至少一部分作为输入数据来实施与所述特定行为相关的机器学习。

2.如权利要求1所述的动画发送系统，其特征在于，

具备取得单元，所述取得单元以在所发送的所述摘要动画上附加有标记为条件而取得被附加有所述标记的摘要动画，

所述提取单元除了将拍摄到了所述人物的动画中的至少一部分作为所述输入数据之外，还将附加有所述标记的摘要动画中的至少一部分作为所述输入数据，而实施所述机器学习。