CN105814561B

CN105814561B - 影像信息处理系统

Info

Publication number: CN105814561B
Application number: CN201480067782.9A
Authority: CN
Inventors: 池田博和; 黄佳彬
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2014-01-17
Filing date: 2014-11-25
Publication date: 2019-08-09
Anticipated expiration: 2034-11-25
Also published as: SG11201604925QA; WO2015107775A1; CN105814561A; US20170040040A1

Abstract

一种影像信息处理系统，处理由时序的多个静止图像构成的运动图像，具有：对象识别部，通过利用第一阈值与检索对象的登录数据进行类似度判定，从所述多个静止图像中检测存在所述检索对象的静止图像；以及时间段判定部，在被判定为存在所述检索对象的所述静止图像的间隔为第二阈值以下时，判定为在被判定为存在所述检索对象的静止图像之间的静止图像中也存在所述检索对象，将被判定为存在所述检索对象的连续的所述静止图像的开始时间以及结束时间与该检索对象的所述登录数据创建对应地登录。

Description

影像信息处理系统

相关申请的参照引用

本申请主张平成26年(2014年)1月17日提交的日本申请即特愿2014－6384的优先权，通过参照其内容来引用到本申请中。

技术领域

本发明涉及解析、高速检索影像的影像信息处理系统。

背景技术

以往，广播完毕的影像内容与其素材影像以模拟形式在廉价的磁带设备中录像并进行长期保管(存档)。为了容易地再利用这样的存档，将存档影像变换为数字数据，以在线或与其接近的形态进行保管的情况正在增加。为了从存档中取出期望的影像，有效的是，将演出者或内容的数据作为附加信息以电子方式附加到影像中(索引化)。尤其，电视节目的编辑者有需求想要瞬间从存档中取出显示着特定的人物或物品的时间段的影像片段，赋予详细的附加信息(例如哪一时间段显示着什么)成为课题。

一般的面部检测的算法以静止图像(帧)为对象，为了使高负荷的处理更有效率，对帧(例如平均1秒30fps(帧/秒))事先进行间隔剔除，针对间隔剔除的结果的帧进行面部检测。在面部检测时，进行特定的人物的面部图像与名字(文本)成对的参照用的数据之间的模式匹配，在类似度高于规定的阈值时，判定为是该人物。

例如，在美国专利申请公开第2007/0274596号中，公开了一种图像处理装置，进行场景改变的检测，视频整体被区分为场景1至3共3个场景。此外，以构成视频的静止图像为对象来进行面部检测。利用对从构成面部场景的静止图像中检测出的面部的位置、检测出的面部的面积等的从构成面部场景的各个静止图像中得到的特征的时序建模而得的数据、以及从构成作为判别对象的场景的静止图像中被检测为面部的部分的位置、面积的信息进行模式识别，由此判别各个场景是否是显示着人面部的面部场景。

发明内容

发明要解决的问题

关于帧单位下的面部检测技术，若将阈值设定得高，则只能检测精度好的少数的帧，但另一方面存在如下缺点：需要进行操作来确定显示着特定人物的周边影像，漏检测的可能性高。与之相对，若将阈值设定得低，则漏检测减少，但另一方面误检测的帧则会增加，引起逐一进行判别的操作。此外，在美国专利申请公开第2007/0274596号中记载的技术中，只是针对影像整体赋予场景改变的定时，在多个人物同时显示时，不能对应于开始以及结束的定时按每位人物不同的情况。因此，期望用于适当地设定模式匹配用的阈值、且个别地设定显示着多个人物(或物品)的开始时间以及结束时间的技术(影像信息索引化)。

用于解决问题的手段

以下，示出了本申请公开的发明的代表性的一例。即，一种影像信息处理系统，处理由时序的多个静止图像构成的运动图像，具有：对象识别部，通过与检索对象的登录数据的利用第一阈值的类似度判定，从所述多个静止图像中检测存在所述检索对象的静止图像；以及时间段判定部，在被判定为存在所述检索对象的所述静止图像的间隔为第二阈值以下的情况下，判定为在被判定为存在所述检索对象的静止图像之间的静止图像中也存在所述检索对象；所述影像信息处理系统将被判定为存在所述检索对象的连续的所述静止图像的开始时间以及结束时间与该检索对象的所述登录数据创建对应地登录。

发明效果

根据本发明的代表性的方式，能够从大量的影像素材或存档中，容易地检索显示着特定的人物或特定的物品的时间段的影像片段。

附图说明

图1为表示影像信息索引化处理的概念的例子。

图2为表示本发明的一实施方式所涉及的影像信息处理系统的构成的一例的框图。

图3为识别帧数据生成处理的流程图。

图4为表示参照用词典数据的结构的一例的图。

图5为表示识别帧数据的数据结构的一例的图。

图6为识别时间段数据生成处理的流程图。

图7为表示校正后的识别帧数据的数据结构的一例的图。

图8为表示识别时间段数据的结构的一例的图。

图9为特别表示识别时间段数据校正处理的流程图。

图10为实施例2所涉及的影像信息索引化处理的流程图。

图11为实施例2所涉及的识别帧数据生成处理的流程图。

图12为表示实施例2所涉及的识别帧数据的数据结构的一例的图。

图13为表示实施例2所涉及的对象者同时识别时间段的个数的画面输出例的图。

图14为表示影像信息检索结果的画面输出例的图。

图15为表示再现影像片段的画面输出例的图。

具体实施方式

实施例1

以下说明本发明的实施方式。在以下的说明中，有时以“程序”为主语来说明处理，但程序由控制器所包含的处理器(例如CPU(Central Processing Unit：中央处理单元))执行，由此一边恰当地利用存储资源(例如存储器)和/或通信接口器件(例如通信端口)一边进行被决定的处理。因此，这些处理的主语也可以作为处理器。以某部或程序为主语来说明的处理也可以作为处理器或具有该处理器的管理系统(例如管理用计算机(例如服务器))所进行的处理。此外，控制器既可以是处理器本身，也可以包含进行控制器所进行的处理的一部分或全部的硬件电路。程序也可以从程序源被安装到各控制器中。程序源例如也可以是程序分发服务器或存储介质。

图2表示本实施例的影像信息处理系统的一实施方式。本系统具有存放影像数据251的外部存储装置050、以及计算机010、020、030。计算机无需分为3台，为具有以下说明的功能的构成即可。在此，外部存储装置050既可以是性能高且可靠性高的存储系统，也可以是不具有冗余功能的DAS(直连式存储)，还可以是将全部的数据存放到计算机010内的辅助存储装置013中的构成。

这些装置由网络090相互连接。一般而言，利用IP路由器的LAN连接，但在远程操作等情况下，也可以是经由WAN的广域分散构成。在编辑操作或影像分发等需要高速的I/O的情况下，外部存储装置050也可以对后端侧采用FC路由器的SAN连接。此外，影像编辑程序121或影像检索/再现程序131分别既可以是在计算机020、030上执行的构成，也能够在如笔记本电脑、平板终端、智能电话那样的瘦客户端上动作。

一般而言，影像数据251由多个影像文件组成，例如是由视频摄像机等摄影而得的影像素材或过去广播了的节目的存档数据，但也可以是其他影像数据。影像数据251以事先被变换成可由识别单元(对象识别程序111等)处理的格式(MPEG2等)为前提。从影像源070输入的影像数据251由后述的对象识别程序111按照帧单位识别对象人物或物品，并被附加识别帧数据252。进而，通过后述的识别时间段判定程序112，还被附加按每个时间段汇总帧单位的识别数据(识别帧数据252)而得的识别时间段数据253。

计算机010将对象识别程序111、识别时间段判定程序112、参照用词典数据211以及阈值数据212存放到辅助存储装置013中。对象识别程序111以及识别时间段判定程序112被读入到存储器012中并由处理器(CPU)011执行。参照用词典数据211以及阈值数据212也可以存放到外部存储装置050中。

利用图4说明参照用词典数据211的数据结构。参照用词典数据为事先按每个对象者或者对象物601登录(登记)的1个以上的电子数据(图像)603。一般而言，登录的图像为了进行高速的类似度计算而事先计算特征量602，并变换成矢量数据等。对象识别程序111只处理特征量602，因此也可以在特征量计算后删除图像。针对存在2个以上特征量的对象者，附加登录号604并登录。特征量也能够合并多个登录来汇总为单一数据进行登录。

阈值数据212保持由对象识别程序111利用的阈值。

进而，计算机020具有影像编辑程序121，由处理器执行影像编辑程序，从而构成影像编辑部。计算机030具有影像检索/再现程序131，由处理器执行影像检索/再现程序131，从而构成影像检索/再现部。

接着，针对从影像中仅检测单一人物的情况，说明影像信息索引化处理的一例。对象识别程序111将影像数据251所包含的多个影像文件依次读入到存储器012中。

图3表示根据读入的影像文件生成识别帧数据252的次序(S310)。

首先，针对影像文件内的全部帧(或者以均等间隔提取的帧)(S311)，进行与参照用词典数据211的模式匹配(或者特征量比较)，计算类似度(S312)。在此，类似度＝100意指为完全鉴定为特定人物(或物品)的情况，类似度＝0意指为完全不相似、即不同。接着，从阈值数据212读入阈值1，与计算的类似度进行比较(S313)。阈值1被事先设定，是以类似度判定是否是特定人物的定量的基准值。

若计算的类似度为阈值1以上，则判定为特定人物存在于该帧中(S314)。在该情况下，因为以单一人物为对象，所以利用参照用词典数据结构与该单一对象者(例如对象者A)的特征量进行比较即可。类似度作为识别帧数据存放到外部存储装置050中。针对全部帧进行从上述S311到S313，从S311到S314的步骤。

图5表示识别帧数据252的数据结构的一例。

将各帧与时间634随着时间经过进行管理。例如，帧1的时间为7时31分14秒40。针对这些帧635的每一帧，保存与作为检索对象的检索者(或检索物)631的登录数据的类似度633。进而，根据该类似度是否是阈值1以上，对识别标志632写入判定结果。识别标志632为1的帧意指判定为存在登录数据。针对全部对象帧进行以上的次序，记录帧的数据(S311)。

接着，识别时间段判定程序112考虑时序的类似度的变化来校正所生成的识别帧数据252，生成识别时间段数据253(S330)。

利用图6说明识别时间段数据生成处理的细节。首先，提取在识别帧数据结构中识别标志632为1的帧，按照时序顺序排列(S331)。接着，以提取的全部对象帧为判定处理的对象，按照时序顺序执行以下的次序(S332)。

首先，计算该帧与在S331中作为判定对象的下一帧之间的时间634的差分。将该时间差分与从阈值数据212读入的阈值2进行比较(S333)。并且，在时间差分小于阈值2时，将帧数据作为连续的帧进行校正(S334)。阈值2被事先设定，意指能够判定为显示着对象者的连续的帧的最长的时间差。也就是说，即使存在未显示对象者的帧，也能够允许这些帧并定义为同一影像片段。例如，在图5中，针对对象者A，第1个帧与第4个帧的时间差为1秒。在阈值2为5秒时，判定为第1个帧与第4个帧之间的帧是对象者A连续显示的连续的帧，设定识别标志，校正识别帧数据(参照图7的651)。针对提取的全部对象帧进行以上的次序(S332)。例如，在某人在台上演说的运动图像中，有时偶尔插入摄像机朝向观众的场景。根据本处理，即使插入未显示对象者的场景，也能够识别为1个场景。

最后，使用校正后的识别帧数据252，生成识别时间段数据253(S335)。在此，所谓“识别时间段”为对象者显示在影像中的开始时间与结束时间之间的时间。

图8表示识别时间段数据253的数据结构的一例。按每一对象者671，记录显示着该对象者的数据源672的时间段673。在此，参照识别帧数据(校正后)的识别标志632，将标志为1的连续的帧的开始时间以及结束时间674写入到识别时间段中(S334)。此时，若连续的帧少(例如时间上3秒以内)，则也可以判断为作为影像素材的利用价值低，执行不写入识别时间段的处理。

该时刻的识别时间段数据253以对象者(例如A)朝向正面清晰地显示的帧开始并结束。在实际的影像中，包括对象者朝向旁边或下方、或者显示结束的帧，类似度连续地上升或者下降。为了恰当地捕捉这样的前后的场面，而进行识别时间段数据253的校正处理(S350)。具体而言，从阈值数据212读入阈值3。阈值3为低于阈值1的值。据此，如果是在识别时间段的前后低于阈值1、但具有一定以上的类似度的帧，则判定为显示着对象者。为此的识别时间段判定程序112再次参照识别帧数据(校正后)的识别标志632以及识别时间段数据253，校正识别时间段数据253。

利用图9说明校正识别时间段数据的次序的细节。

首先，针对对象者，从识别时间段数据253中，按照时序参照识别时间段673(S351)。例如，若是第2个识别时间段的开始时间674，则从识别帧数据252中提取07时39分41秒20的紧前的数秒或者数帧(提取范围事先定义)(S352)，将与对象者的类似度和阈值3进行比较(S353)。并且，在类似度大于阈值3时，将识别帧数据作为连续的帧进行校正(S354)。例如，图5的第6帧635为接近识别时间段的末端帧(07时31分16秒20)的帧，但不包含于识别时间段。与之相对，若将阈值3设定得低于阈值1(例如50)，则能够将第6帧包含于识别时间段中(图7的652)。

结果，由于发生识别时间段之间的间隙变短的情况，因此再次使用阈值2，判定帧是否连续(S355)，校正识别帧数据(S356)。例如，在图5中，前后帧的判定的结果是，第6帧与第20帧的识别标志(635、636)被校正为“1”(图7的652、653)。再有，若将阈值2设定为5秒，则由于第7帧与第19帧能判定为连续的识别时间段数据，因此图5的637如图7的654那样地变更识别标志。结果，图8的识别时间段之中的接近的识别时间段作为1个识别时间段合并。针对全部的识别时间段进行上述的次序。

如上，根据本实施例，能够也包含周边帧地将被识别为特定的对象者或对象物的帧作为1个场景切出，并赋予属性信息。

实施例2

接着，针对从影像中检测多个人物的情况，说明影像信息索引化处理的一例。因为基本上与单一人物的检测相同，未特别进行说明的部分与实施例1所述的处理相同。

图1为概念性地表示本发明的例子。如在实施例1中所述，使用阈值1进行识别帧的一次检测(S501)，使用阈值2判定连续帧(S502)，使用阈值3判定是否包括识别时间段的前后接近帧(S503)。在存在多个对象者时，针对各对象者进行这些处理。

图10表示整体的处理的流程S400。

首先，生成识别帧数据，使用参照用词典数据211，确定显示在影像中的多个对象者(S401)。针对基于此确定的每一对象者(S402)，与实施例1同样地，生成识别时间段数据(S330)以及校正识别时间段数据(S350)。在作为结果而生成的识别时间段数据253中，如图8所示，登录多个对象者A、对象者B的结果。也就是说，针对确定的每一对象者671，将显示在哪一数据源672的哪一时间段673记录到识别时间段数据253中(S403)。

图11表示多人检测中的识别帧数据生成处理(S401)的细节。

在本处理中，例如，基本上针对在各帧中检测出的多个面部区域进行与存在于参照用词典数据的全部对象人物的比较，因此处理量变得庞大。为了避免这种情况，也可以设置根据面部区域的个数与用作检索对象的对象者(图4的601)的个数筛选对象者的步骤。例如，与和数据源672创建了关联的电子节目表数据(EPG)等的数据库链接，事前取得作为对象的号码的演出者的名字(S411)。并且，通过将与所取得的名字创建了对应的对象人物的词典数据用作检索对象从而大幅削减处理量。

接着，针对作为对象的数据源内的全部帧进行以下的处理(S412)。首先，检测面部区域，在帧内不存在1个以上的面部区域的情况下，跳过以下的处理，进入下一帧的处理(S413的“否”)。

图12表示识别帧数据结构的例子。在此，针对各静止图像，将检测出的面部区域的个数写入同时人数641中。并且，针对基于演出者信息筛选而得的每一对象人物(S414)，计算类似度(S415)。并且，在类似度大于阈值4时(S416的“是”)，将检测出面部区域的人识别为对象者p(S417)。在1个帧中显示着多个人时，随着时间经过，人物彼此重合的可能性高，若以通常的精度进行面部识别则有时会出现问题。为了避免这种情况，根据同时人数641，能够降低用于检测的阈值来降低面部识别的不稳定的风险(S416)。例如，若同时人数为规定值以上，则将阈值设为以规定比例变少的值即可。

在图12中，示出了利用阈值4(642)，在同时人数为1以下时设定识别标志为80(阈值1的默认值)，在同时人数为2时设定识别标志为75，在同时人数为3时设定识别标志为70......的例子。根据本构成，能够针对多个检索对象的每一对象管理登场的场景的开始时间以及结束时间。通过利用低于通常的阈值1的阈值，例如能够变更第2以及第3帧中的对象者A的识别标志643。

作为检测多个人物的特征之一，有时能够提取联合演出者成组出演节目时的影像片段。例如，在以对象者A、对象者B的组合为对象时，基于图12的识别帧数据252提取对象者A、对象者B这双方的识别标志为1的帧，对所提取的帧生成识别时间段数据330以及校正识别时间段数据350的处理，登录显示着对象者A、对象者B这双方的帧数即可。

图13示出了例如针对2个检索对象的组合，判定为存在该检索对象的识别时间段的个数的画面输出例。可知表示该静止图像数的数字691越多，则联合演出的次数越多。这些数字本身也可以成为向再现相应的影像片段的网页的链接。

最后，作为在实施例1、2中通用的构成，说明影像检索/再现程序131参照生成完毕的识别时间段数据253检索影像的例子。

图14为说明检索画面的例子的图。图14所示的检索画面的例子经由与计算机020、030连接的输入输出装置来实现。若将希望检索的对象人物的名字输入到关键字输入栏701中，则显示与图8所示的识别时间段数据253的该对象者671关联地登录的识别时间段的列表702。

如图14所示，也可以设置与列表创建关联地显示识别时间段所包含的1个帧(例如第1个帧)的影像显示区域703。作为参考信息，也能够根据识别帧数据252针对识别时间段内的全部帧计算对象人物的类似度的平均值704并进行显示。此时，也可以按照平均类似度从高到低的顺序重排列表并进行显示。

参照次数708表示本系统的利用者再现该识别时间段的影像的次数。再现次数多的影像能够判断为受欢迎的影像片段，因此也可以按照再现次数从多到少的顺序重排列表来进行显示。

再有，列表702也可以包括影像的再现时间705、表示原来的文件名的数据源706、识别时间段(影像片段)的开始时间以及结束时间707。

图15示出了使用影像检索/再现程序131再现识别时间段影像的画面800的例子。

在影像显示区域801中，基本上连续显示以检索关键字输入的人物802。开始时间803以及结束时间805分别为该识别时间段的开始时间以及结束时间。此外，也可以使用识别帧数据252显示各帧的类似度的时序变化806。影像检索/再现程序131也可以具有根据类似度变更再现速度和/或是否需要再现的功能。使用该功能，针对类似度低的帧跳过影像的显示或进行快进等，据此能够实现考虑了类似度的有效的视听。此外，也可以使用各帧的面部检测区域的信息，确定该人物被显示在的坐标，在该人物的面部802的附近显示名字。这对于多人同时显示时的人物识别以及视听是有效的。

另外，本发明并非限于上述的实施例，包括附加的权利要求书的主旨内的各种各样的变形例以及等同的构成。例如，上述的实施例是为了使本发明的说明易于理解而详细说明的例子，并非将本发明限定在具备说明了的所有构成的方式。此外，也可以将某一实施例的构成的一部分置换为其他实施例的构成。此外，也可以对某一实施例的构成追加其他实施例的构成。此外，也可以针对各实施例的构成的一部分进行其他构成的追加、删除、置换。

此外，关于上述的各构成、功能、处理部、处理单元等既可以例如通过在集成电路中进行设计等，通过硬件实现其一部分或者全部，也可以通过处理器解释并执行用于实现各个功能的程序，通过软件实现。

实现各功能的程序、表、文件等的信息能够存放在存储器、硬盘、SSD(Solid StateDrive：固态硬盘)等存储装置、或者IC卡、SD卡、DVD等记录介质中。

此外，控制线或信息线示出了设想为说明所需要的线，不限于示出安装上所需的全部的控制线或信息线。可以设想为在实际中几乎全部构成相互连接。

Claims

1.一种影像信息处理系统，处理由时序的多个静止图像构成的运动图像，其特征在于，具有：

对象识别部，通过利用第一阈值与检索对象的登录数据进行类似度判定，从所述多个静止图像中检测存在所述检索对象的静止图像；以及

时间段判定部，在被判定为存在所述检索对象的所述静止图像的间隔为第二阈值以下的情况下，判定为在被判定为存在所述检索对象的静止图像之间的静止图像中也存在所述检索对象，

将被判定为存在所述检索对象的连续的所述静止图像的开始时间以及结束时间与该检索对象的所述登录数据创建对应地登录，

针对距被判定为存在所述检索对象的静止图像在时序上的规定范围内包含的所述静止图像，利用与所述第一阈值相比更宽松的第三阈值来判定类似度，

所述对象识别部根据读入的影像文件生成识别帧数据，

所述时间段判定部在被判定为存在所述检索对象的所述静止图像的间隔为所述第二阈值以下的情况下，将所述识别帧数据作为连续的帧进行校正，并使用所述校正后的识别帧数据生成表示所述检索对象显示在所述影像文件中的开始时间与结束时间之间的时间的识别时间段数据，

所述时间段判定部从所述识别帧数据中提取所述开始时间的紧前的数秒，将所述类似度与所述第三阈值进行比较，在所述类似度大于所述第三阈值的情况下，将所述识别帧数据作为连续的帧进行校正。

2.如权利要求1所述的影像信息处理系统，其特征在于，

在所述检索对象为多个的情况下，针对同时包含有该多个检索对象的所述静止图像，利用与所述第一阈值相比更宽松的第四阈值判定类似度。

3.如权利要求1所述的影像信息处理系统，其特征在于，还具有：

再现部，输出与被输入的检索对象创建对应地登录的所述连续的静止图像，

所述再现部根据所述静止图像各自的与所述登录数据的类似度，变更该静止图像的再现速度以及能否再现的至少一方。

4.如权利要求1所述的影像信息处理系统，其特征在于，

取得在所述运动图像中登场的对象的数据，

从记录的多个所述登录数据之中，将在应处理的运动图像中登场的对象的登录数据用作检索对象的登录数据。