JP2020009300A - ラベル付与装置、ラベル付与方法およびプログラム - Google Patents

ラベル付与装置、ラベル付与方法およびプログラム Download PDF

Info

Publication number
JP2020009300A
JP2020009300A JP2018131457A JP2018131457A JP2020009300A JP 2020009300 A JP2020009300 A JP 2020009300A JP 2018131457 A JP2018131457 A JP 2018131457A JP 2018131457 A JP2018131457 A JP 2018131457A JP 2020009300 A JP2020009300 A JP 2020009300A
Authority
JP
Japan
Prior art keywords
label
feature
content
feature amount
pair
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018131457A
Other languages
English (en)
Other versions
JP6829226B2 (ja
Inventor
真暉 近藤
Masaki Kondo
真暉 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2018131457A priority Critical patent/JP6829226B2/ja
Priority to PCT/JP2019/008197 priority patent/WO2020012700A1/ja
Priority to CN201980045709.4A priority patent/CN112384911B/zh
Publication of JP2020009300A publication Critical patent/JP2020009300A/ja
Priority to US17/142,372 priority patent/US11531839B2/en
Application granted granted Critical
Publication of JP6829226B2 publication Critical patent/JP6829226B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/169Holistic features and representations, i.e. based on the facial image taken as a whole
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/908Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】コンテンツから抽出される特徴量に対するラベル付与を自動で行うことができるラベル付与装置、ラベル付与方法およびプログラムを提供する。【解決手段】実施形態のラベル付与装置は、ラベル候補生成部と、特徴量ペア検出部と、ラベル付与部と、を備える。ラベル候補生成部は、コンテンツに関連付けられた関連データからラベル候補を生成する。特徴量ペア検出部は、第1コンテンツから抽出された特徴量と第2コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する。ラベル付与部は、前記第1コンテンツに関連付けられた第1関連データと前記第2コンテンツに関連付けられた第2関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量に対してラベルとして付与する。【選択図】図2

Description

本発明の実施形態は、ラベル付与装置、ラベル付与方法およびプログラムに関する。
ストレージ性能や回線技術の進展に伴い、ローカルのストレージデバイスやネットワーク上のデータベースサーバなどに保有された多量のコンテンツの中から所望のものを検索して利用する機会が増えている。コンテンツの検索は、キーワード検索が最も単純で利便性が高い。コンテンツから抽出される特徴量にキーワード相当のラベルが付与されていれば、キーワード検索によって所望のコンテンツを高精度に検索できる。また、コンテンツが動画コンテンツなどであれば、例えばキーワードで指定した人物が映るシーンを探し出すといったシーン検索も可能になる。しかし、コンテンツから抽出された特徴量に人手でラベルを付与する作業は非常に煩雑であり、こうしたラベル付与を自動で行える技術が求められる。
特開2016−81265号公報 特許第3602765号公報
Common Subspace for Model and Similarity:Phrase Learning for Sentence Generation from Images(ICCV 2015) MeCab:Yet Another Part-of-Speech and Morphological Analyzer(http://mecab.sourceforge.net/) Efficient estimation of word representations in vectorspace(ICIL 2013) GloVe:Global Vectors for Word Representation(EMNLP 2014)
本発明が解決しようとする課題は、コンテンツから抽出される特徴量に対するラベル付与を自動で行うことができるラベル付与装置、ラベル付与方法およびプログラムを提供することである。
実施形態のラベル付与装置は、ラベル候補生成部と、特徴量ペア検出部と、ラベル付与部と、を備える。ラベル候補生成部は、コンテンツに関連付けられた関連データからラベル候補を生成する。特徴量ペア検出部は、第1コンテンツから抽出された特徴量と第2コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する。ラベル付与部は、前記第1コンテンツに関連付けられた第1関連データと前記第2コンテンツに関連付けられた第2関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量に対してラベルとして付与する。
図1は、実施形態の基本概念を説明する図である。 図2は、第1実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。 図3は、動画から顔特徴ベクトルを抽出して顔特徴代表ベクトルを生成する処理を説明する図である。 図4は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。 図5は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。 図6は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。 図7は、動画のメタデータを生成する処理を説明する図である。 図8は、第2実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。 図9は、第3実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。 図10は、第3実施例の処理の概要を説明する図である。 図11は、第3実施例の処理の概要を説明する図である。 図12は、第3実施例の処理の概要を説明する図である。 図13は、第4実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。 図14は、第4実施例の処理手順の一例を示すフローチャートである。 図15は、第4実施例の処理手順の一例を示すフローチャートである。 図16は、第4実施例の処理手順の一例を示すフローチャートである。 図17は、第4実施例の処理手順の一例を示すフローチャートである。 図18は、第5実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。 図19は、ラベル付与装置のハードウェア構成例を示すブロック図である。
以下、実施形態のラベル付与装置、ラベル付与方法およびプログラムについて、添付図面を参照して詳細に説明する。
<実施形態の概要>
本実施形態は、コンテンツから抽出される特徴量に対するラベル付与を自動で行うものである。本実施形態で想定するコンテンツは、例えば、動画、静止画、音声、センサデータなど、様々な形式のデータを含む。本実施形態では、これらのコンテンツに関連付けられた関連データを用いて、コンテンツから抽出した特徴量に付与するラベルの候補を生成する。関連データは、例えばコンテンツの説明文、字幕情報などのように、コンテンツに対して予め付与されたテキストデータであってもよいし、コンテンツに対して、音声認識や文字認識、画像説明文生成(キャプショニング)などの所定の処理を行うことで得られるテキストデータであってもよい。
コンテンツから抽出される特徴量と関連データから生成されるラベル候補が1つずつであれば、特徴量とラベルの対応関係は一意に特定できる。しかし、こうした状況は極めて稀であり、一般的には、コンテンツから複数の特徴量が抽出され、関連データからも複数のラベル候補が生成されることが多い。この場合、どの特徴量にどのラベル候補が対応するかを一意に特定できないため、特徴量に対するラベル付与を自動で行うことはできない。そこで、本実施形態では、コンテンツと関連データのデータセットを複数用い、データセット間の共通部分を手掛かりとして、特徴量とラベル候補の対応関係を特定できるようにする。
図1は、実施形態の基本概念を説明する図である。図1に示すように、関連データが関連付けられたコンテンツとして、コンテンツAとコンテンツBがあるとする。ここで、コンテンツAとコンテンツBからはそれぞれ3つの特徴量が抽出されるとする。また、コンテンツAの関連データからは「a」、「b」、「c」の3つのラベル候補が生成され、コンテンツBの関連データからは「a」、「d」、「e」の3つのラベル候補が生成されるとする。つまり、コンテンツAとその関連データのデータセットと、コンテンツBとその関連データのデータセットは、関連データから生成されるラベル候補が1つのみ共通する。本実施形態では、このように、関連データから生成されるラベル候補が1つのみ共通するデータセットの組み合わせを選択する。
本実施形態では、まず、コンテンツA,Bの各々から特徴量を抽出する処理と、それぞれの関連データからラベル候補を生成する処理を行う。その後、コンテンツAから抽出された特徴量とコンテンツBから抽出された特徴量とを共通の特徴量空間にマッピングする。そして、コンテンツAから抽出された特徴量とコンテンツBから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせ(例えば、特徴量間の距離が最も小さい組み合わせ)を特徴量ペアとして検出する。このように検出される特徴量ペアは、コンテンツAとコンテンツBの双方に含まれる共通の(同一の)対象を表している可能性が高い。そこで、この特徴量ペアを構成する各特徴量に対し、コンテンツAの関連データとコンテンツBの関連データの双方から生成された共通のラベル候補(図1の例ではラベル候補「a」)を、ラベルとして付与する。
以上の処理では、コンテンツAとコンテンツBとから1つの特徴量ペアを検出し、この特徴量ペアを構成する各特徴量に対してラベルを付与するため、コンテンツA,Bともにラベル未付与の特徴量が残る。しかし、コンテンツA,Bの双方とも、他のデータセットとの組み合わせを選択して以上の処理を繰り返すことにより、ラベル未付与の特徴量に対しても同様にラベルを付与することが可能となる。また、多数のデータセットを用いて以上の処理を繰り返し行い、多くの特徴量にラベルが付与されれば、関連データが関連付けられていないコンテンツから抽出される特徴量に対しても、最近傍探索により自動でラベルを付与することが可能となる。すなわち、関連データが関連付けられていないコンテンツから抽出される特徴量がラベル付与済みの特徴量に十分に近ければ、同じラベルを付与することができる。
以下では、分かり易い例として、コンテンツがTV番組(動画)であり、関連データがTV番組の内容を説明する番組説明文である場合を例に挙げて、本実施形態の概念を適用した具体的な実施例について詳しく説明する。なお、以下の説明において、同様の機能を持つ構成要素については同一の符号を付して、重複した説明を適宜省略する。
<第1実施例>
TV番組は、一般的に動画と番組説明文がセットとなって提供される。番組説明文はTV番組の内容を説明するテキストデータであり、TV番組に登場する主要登場人物の名前が記載されていることが多い。本実施例では、TV番組の動画から得られる主要登場人物の顔特徴代表ベクトル(代表特徴量の一例)に対して、番組説明文から得られる主要登場人物の名前をラベルとして自動で付与する。
まず、本実施例の処理の概要を説明する。本実施例では、TV番組の動画の各フレームに対して、顔検出・顔特徴ベクトル生成の処理を行う。このとき、TV番組の主要登場人物はそのTV番組において多く登場することから、動画から多くの顔特徴ベクトルが抽出される。また、動画から抽出された同一人物の顔特徴ベクトルは、特徴ベクトル空間において近くに存在する。すなわち、動画から多数抽出される主要登場人物の顔特徴ベクトルは、特徴ベクトル空間上に多く存在し、さらに密集していると考えられる。一方、主要登場人物以外の人物(非主要登場人物)は登場回数が少ないため、特徴ベクトル空間上では密集率が低いと考えられる。したがって、特徴ベクトル空間上でスパースな顔特徴ベクトルを外れ値とした上で、特徴ベクトル空間上の顔特徴ベクトル群に対し、K=主要登場人物数としてK−meansクラスタリングを行うと、主要登場人物の顔特徴代表ベクトルが得られる。
複数のTV番組の中には、主要登場人物が共通するものがある。複数のTV番組に共通して登場する主要登場人物をここでは共通登場人物と呼ぶ。このとき、TV番組の組み合わせを適切に選択することにより、共通登場人物を絞り込むことができる。例えば、主要登場人物として人物aと人物bが登場するTV番組Xと、主要登場人物として人物aと人物cが登場するTV番組Yとが存在するとき、これらTV番組XとTV番組Yとの組み合わせで得られる共通登場人物は人物aである。
本実施例では、まず、各TV番組の動画から抽出した顔特徴ベクトルに対して上述のK−meansクラスタリングを行うことで、TV番組ごとに主要登場人物の顔特徴代表ベクトルを生成する。このとき、1つのTV番組には複数の主要登場人物が登場することが多いため、顔特徴代表ベクトルと主要登場人物の名前を一意に対応付けることができない。そこで、共通登場人物が1名となる複数のTV番組の組み合わせを選択し、これらTV番組の動画から各々生成された顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。例えば、共通登場人物が1名となる2つのTV番組のうちの一方のTV番組の動画を第1動画、他方のTV番組の動画を第2動画としたとき、第1動画から生成された複数の顔特徴代表ベクトルと、第2動画から生成された複数の顔特徴代表ベクトルとを、共通の特徴ベクトル空間にマッピングする。
ここで、2つのTV番組の共通登場人物は1名であるため、第1動画から生成された顔特徴代表ベクトルと第2動画から生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の類似度が最も高い組み合わせ(特徴量ペアの一例。以下ではこれをベクトルペアと呼ぶ。)は、共通登場人物のものである可能性が高い。したがって、ベクトルペアを構成する各顔特徴代表ベクトルに対し、共通登場人物の名前をラベルとして付与することができる。なお、以下の説明においては、顔特徴代表ベクトル間の類似度を、顔特徴代表ベクトル間の距離(例えばユークリッド距離)を用いて判定する例を挙げるが、2つの顔特徴代表ベクトルの内積を用いて両者の類似度を判定してもよい。顔特徴代表ベクトル間の距離を用いて類似度を判定する場合は、距離が小さいほど類似度が高くなるが、2つの顔特徴代表ベクトルの内積を用いて類似度を判定する場合は、内積が大きいほど類似度が高くなる。
次に、本実施例に係るラベル付与装置の構成について説明する。図2は、本実施例に係るラベル付与装置10の機能的な構成例を示すブロック図である。このラベル付与装置10は、図2に示すように、ラベル候補生成部11と、特徴量抽出部12と、特徴量ペア検出部13と、ラベル付与部14と、メタデータ生成部15と、データ保持部16とを備える。
このラベル付与装置10は、コンテンツDB50に格納されたコンテンツ51から特徴量を抽出し、抽出した特徴量に対し、関連データ52から生成されるラベル候補のうちのいずれかをラベルとして付与する。本実施例では、上述のように、コンテンツ51と関連データ52との組み合わせからなるデータセット53がTV番組であり、コンテンツ51がTV番組の動画、関連データ52が番組説明文である場合を想定する。
ラベル候補生成部11は、コンテンツ51に関連付けられた関連データ52からラベル候補を生成する。例えば、関連データ52がTV番組の番組説明文である場合、ラベル候補生成部11は、この番組説明文に対して形態素解析を行い、その結果からTV番組に登場する主要登場人物の名前を取得してこれをラベル候補とする。なお、関連データ52は、ラベル候補となる主要登場人物の名前を取得できるテキストデータであればよく、例えば、動画にリンクする音声に対して音声認識処理を行った結果得られるテキストデータであってもよいし、動画を構成するフレーム画像に対して、例えば非特許文献1に示す画像説明文生成の技術を適用することで得られるテキストデータであってもよい。また、動画に対して付与された字幕情報のテキストデータを関連データ52として用いてもよい。
特徴量抽出部12は、コンテンツ51から特徴量を抽出する。例えば、コンテンツ51がTV番組の動画である場合、特徴量抽出部12は、動画の各フレームに対して、顔検出・顔特徴ベクトル生成の処理を行う。これにより、TV番組に登場する全ての登場人物の顔特徴ベクトルが網羅される。なお、画像から顔を検出してその特徴量(顔特徴ベクトル)を抽出する技術は広く知られているため、ここでは詳細な説明を省略する。
また、特徴量抽出部12は、処理対象のコンテンツ51が関連データ52と関連付けられている場合、このコンテンツ51から抽出した特徴量群をクラスタリングしてクラスタごとの代表特徴量を生成する。例えば、コンテンツ51がTV番組の動画であり、この動画に関連データ52として番組説明文が関連付けられている場合、特徴量抽出部12は、動画から抽出した顔特徴ベクトル群に対してK−meannsクラスタリングを行い、クラスタごとの顔特徴代表ベクトルを生成する。このK−meansクラスタリングのKの値は、ラベル候補生成部11により生成されたラベル候補の数、すなわち、TV番組に登場する主要登場人物の数である。これにより、主要登場人物の数と同じ数の顔特徴代表ベクトルが得られる。なお、コンテンツ51から抽出される特徴量の数がラベル候補の数と同等である場合は、特徴量に対するクラスタリング(代表特徴量の生成)は行わなくてもよい。
ラベル候補生成部11により生成されたラベル候補(主要登場人物名)の一覧、および、特徴量抽出部12により生成された複数の顔特徴代表ベクトル(代表特徴量)は、本実施例における処理の中間データとして、コンテンツ51(TV番組の動画)の識別情報と対応付けてデータ保持部16に保持される。
特徴量ペア検出部13は、コンテンツDB50に格納されたデータセット53のうち、関連データ52から生成されたラベル候補が1つのみ共通するデータセット53の組み合わせを用いて、特徴量ペアの検出を行う。例えば、コンテンツDB50に格納されたデータセット53がTV番組であり、コンテンツ51がTV番組の動画、関連データ52が番組説明文であるとする。そして、各データセット53について、ラベル候補生成部11によりラベル候補の一覧として主要登場人物の名前の一覧が生成され、特徴量抽出部12により代表特徴量として主要登場人物数と同じ数の顔特徴代表ベクトルが生成されているとする。この場合、特徴量ペア検出部13は、コンテンツDB50にデータセット53として格納されたTV番組のうち、主要登場人物が1名のみ共通するTV番組の組み合わせを選択する。そして、一方のTV番組の動画を第1動画、他方のTV番組の動画を第2動画とすると、特徴量ペア検出部13は、第1動画から生成された顔特徴代表ベクトルと第2動画から生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい(類似度が最も高い)顔特徴代表ベクトルの組み合わせを、ベクトルペアとして検出する。
なお、本実施例では、1つのコンテンツ51(TV番組の動画)から同一の対象(主要登場人物)を表す特徴量(顔特徴ベクトル)が多く抽出されることを想定し、特徴量抽出部12がコンテンツ51から抽出される特徴量をクラスタリングするようにしている。しかし、コンテンツ51から抽出される特徴量のそれぞれにラベルを付与する場合は、特徴量のクラスタリング(代表特徴量の生成)は不要である。このように、特徴量抽出部12が特徴量のクラスタリングを行わない場合は、特徴量ペア検出部13は、代表特徴量ではなく特徴量の組み合わせについて類似度を判定して、特徴量ペアを検出すればよい。
ラベル付与部14は、特徴量ペア検出部13により検出された特徴量ペアを構成する各特徴量に対し、上述のデータセット53の組み合わせに含まれる各関連データ52から生成された共通のラベル候補をラベルとして付与する。例えば、特徴量ペア検出部13によって上述のベクトルペアが検出された場合、このベクトルペアを構成する各顔特徴代表ベクトルに対し、共通の主要登場人物の名前をラベルとして付与する。
また、ラベル付与部14は、関連データ52が関連付けられていないコンテンツ51から抽出された特徴量(顔特徴ベクトル)が、特徴量ペア検出部13により検出された特徴量ペア(ベクトルペア)を構成する各特徴量(顔特徴代表ベクトル)と類似する場合、関連データ52が関連付けられていないコンテンツ51から抽出された特徴量に対し、特徴量ペアを構成する各特徴量に付与したラベルと共通のラベルを付与することができる。この処理は、例えば、後述の最近傍探索の手法により実現することができる。
メタデータ生成部15は、ラベルが付与された特徴量を用いてコンテンツ51のメタデータを生成する。例えば、特徴量抽出部12が上述のように動画の各フレームから顔特徴ベクトルを抽出した場合、抽出された顔特徴ベクトルとフレーム番号の対応関係を記録しておく。その後、ラベル付与部14により顔特徴ベクトルに対してラベルが付与された場合、顔特徴ベクトルに付与されたラベルをその顔特徴ベクトルが抽出されたフレーム番号に付与することができる。このフレーム番号に付与されたラベルは、TV番組の中から所望の主要登場人物が登場するシーンを検索するためのメタデータとなる。
次に、本実施例に係るラベル付与装置10による処理の具体例について説明する。まず、TV番組の主要登場人物の顔特徴代表ベクトルと主要登場人物一覧を生成する処理について、図3を参照して説明する。図3は、動画から顔特徴ベクトルを抽出して顔特徴代表ベクトルを生成する処理を説明する図である。
ラベル候補生成部11は、TV番組の番組説明文に対して形態素解析を行う。そして、この形態素解析の結果から、TV番組に登場する主要登場人物の名前をラベル候補として取得し、主要登場人物一覧を生成する。この主要登場人物一覧に含まれる主要登場人物の数がラベル候補数である。図3では、動画Aに関連付けられた番組説明文から、ラベル候補として人物a、人物b、人物cの3名の主要登場人物名が取得された例を示している。なお、番組説明文に対する形態素解析には、例えば非特許文献2に開示されるMeCabなどを用いることができる。
特徴量抽出部12は、図3に示すように、TV番組の動画Aの各フレームから登場人物の顔検出を行い、顔特徴ベクトルを生成する。これにより、1つの動画Aから複数人物および複数個の顔特徴ベクトル群が生成される。すなわち、TV番組中に登場する人物の顔特徴ベクトルが網羅される。
次に、特徴量抽出部12は、動画Aから生成した顔特徴ベクトル群に対しK−meansクラスタリングを行い、各クラスタのセントロイドを顔特徴代表ベクトルとする。このときのKの値は、ラベル候補生成部11により生成されたラベル候補数、つまり、主要登場人物一覧に含まれる主要登場人物名の数である。これによって、TV番組に登場する主要登場人物の数に対応する数の顔特徴代表ベクトルが得られる。図3では、3つの顔特徴代表ベクトルが得られている。これらの顔特徴代表ベクトルは、主要登場人物一覧に含まれるいずれかの主要登場人物を表す特徴量と考えられる。ただし、動画Aから生成した顔特徴ベクトル群には、主要登場人物以外の人物(非主要登場人物)も含まれている可能性がある。そこで、以下のような処理を行い、非主要登場人物の顔特徴ベクトルを除去する。
まず、顔特徴代表ベクトルと同一クラスタに属する全ての顔特徴ベクトル間の距離を計算する。ここで、距離が統計的に外れ値になるようなベクトルは、顔特徴代表ベクトルとは異なるラベルを持つ人物(非主要登場人物)と考えられる。そこで、このようなベクトルは「外れ値ベクトル」とみなす。
次に、外れ値ベクトルを除去した上で、再度K−meansクラスタリングを行う。
この処理を、クラスタリングの結果が収束するまで(外れ値ベクトルがなくなるまで)繰り返す。そして、クラスタリングの結果が収束したときのクラスタ内最大距離を、そのクラスタのセントロイドである顔特徴代表ベクトルと対応付けてデータ保持部16に記録する。この値は、後述のメタデータ生成時の最近傍探索において閾値として用いる値である。
ここまでの処理によって、動画中の主要登場人物の顔特徴代表ベクトルと主要登場人物一覧が生成される。ただし、この状態では、顔特徴代表ベクトルと主要登場人物が各1つしか存在しない特殊な場合を除き、顔特徴代表ベクトルと主要登場人物との対応付けができない。そのため、顔特徴ベクトルに対するラベル付与を自動で行うことができない。そこで、複数のデータセット53を組み合わせて用いることにより、顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行う。そのため、コンテンツDB50にデータセット53として格納された他のTV番組に対しても、上記(1)〜(3)の処理を行って、動画中の主要登場人物の顔特徴代表ベクトルと主要登場人物一覧を生成しておく。そして、共通登場人物が1名となるTV番組の組み合わせを選択する。
ここでは、3つのTV番組の動画A,B,Cからそれぞれ3つの顔特徴代表ベクトルが生成されたとする。また、動画Aに関連付けられた番組説明文からはラベル候補として人物a、人物b、人物c、動画Bに関連付けられた番組説明文からはラベル候補として人物a、人物d、人物e、動画Cに関連付けられた番組説明文からはラベル候補として人物b、人物d、人物fがそれぞれ生成されたとする。この場合、動画Aと動画Bの共通登場人物は人物aの1名であり、動画Aと動画Cの共通登場人物は人物bの1名であり、動画Bと動画Cの共通登場人物は人物dの1名である。
本実施例では、これら共通登場人物が1名となるTV番組の動画の組み合わせを用い、顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行う。なお、ここでは2つの動画の組み合わせ(以下、これを動画ペアと呼ぶ)を用いる例を説明するが、3つ以上の動画の組み合わせを用いてもよい。
以下では、上述の動画ペアを用いて顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行う処理について、図4乃至図6を参照して説明する。図4乃至図6は、動画ペアからベクトルペアを検出してラベルを付与する処理を説明する図である。
特徴量ペア検出部13は、まず図4に示すように、動画Aと動画Bからなる動画ペアを選択し、動画Aから生成された3つの顔特徴代表ベクトルと、動画Bから生成された3つの顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。そして、動画Aから生成された顔特徴代表ベクトルと動画Bから生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい組み合わせであるベクトルペアを検出する。一般的に、同一人物の顔特徴ベクトルは近くに存在する。したがって、動画Aと動画Bからなる動画ペアから検出されたベクトルペアを構成する2つの顔特徴代表ベクトルは、動画Aと動画Bの共通登場人物である人物aの顔特徴代表ベクトルであると推定できる。そこで、ラベル付与部14は、このベクトルペアを構成する2つの顔特徴代表ベクトルに対し、人物aのラベルを付与する。
特徴量ペア検出部13は、次に図5に示すように、動画Aと動画Cからなる動画ペアを選択し、動画Aから生成された3つの顔特徴代表ベクトルと、動画Cから生成された3つの顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。そして、動画Aから生成された顔特徴代表ベクトルと動画Cから生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい組み合わせであるベクトルペアを検出する。このように検出されたベクトルペアを構成する2つの顔特徴代表ベクトルは、動画Aと動画Cの共通登場人物である人物bの顔特徴代表ベクトルであると推定できる。そこで、ラベル付与部14は、このベクトルペアを構成する2つの顔特徴代表ベクトルに対し、人物bのラベルを付与する。また、動画Aについては、3つの顔特徴代表ベクトルのうちの2つに対してそれぞれ人物aと人物bのラベルが付与されたため、残りの顔特徴代表ベクトルは人物cのものと推定できる。そこで、ラベル付与部14は、この残りの顔特徴代表ベクトルに対し、人物cのラベルを付与する。
特徴量ペア検出部13は、次に図6に示すように、動画Bと動画Cからなる動画ペアを選択し、動画Bから生成された3つの顔特徴代表ベクトルと、動画Cから生成された3つの顔特徴代表ベクトルを共通の特徴ベクトル空間にマッピングする。そして、動画Bから生成された顔特徴代表ベクトルと動画Cから生成された顔特徴代表ベクトルとの組み合わせのうち、顔特徴代表ベクトル間の距離が最も小さい組み合わせであるベクトルペアを検出する。このように検出されたベクトルペアを構成する2つの顔特徴代表ベクトルは、動画Bと動画Cの共通登場人物である人物dの顔特徴代表ベクトルであると推定できる。そこで、ラベル付与部14は、このベクトルペアを構成する2つの顔特徴代表ベクトルに対し、人物dのラベルを付与する。また、動画Bについては、3つの顔特徴代表ベクトルのうちの2つに対してそれぞれ人物aと人物dのラベルが付与されたため、残りの顔特徴代表ベクトルは人物eのものと推定できる。そこで、ラベル付与部14は、この残りの顔特徴代表ベクトルに対し、人物eのラベルを付与する。また、動画Cについては、3つの顔特徴代表ベクトルのうちの2つに対してそれぞれ人物bと人物dのラベルが付与されたため、残りの顔特徴代表ベクトルは人物fのものと推定できる。そこで、ラベル付与部14は、この残りの顔特徴代表ベクトルに対し、人物fのラベルを付与する。
以上のように、共通登場人物が1名となる動画ペアを用いて顔特徴代表ベクトルと主要登場人物との対応関係の絞り込みを行うことで、各動画から生成される顔特徴代表ベクトルに対して主要登場人物名のラベルを自動で付与することができる。また、顔特徴代表ベクトルにラベルが付与されれば、このラベルが付与された顔特徴代表ベクトルを用いて、例えば動画のシーン検索用のメタデータを生成することができる。
以下では、ラベルが付与された顔特徴代表ベクトルを用いて動画のメタデータを生成する処理の具体例について、図7を参照して説明する。図7は、動画のメタデータを生成する処理を説明する図である。
メタデータ生成部15は、メタデータを生成したい動画DをコンテンツDB50から取り出して特徴量抽出部12に渡し、顔特徴ベクトルの生成を依頼する。この動画Dは、関連データ52が関連付けられていないコンテンツ51であってもよい。また、動画Dは、上述の処理によって顔特徴代表ベクトルに対するラベル付与が行われた動画(上述の動画A,B,Cなど)であってもよい。特徴量抽出部12は、図7に示すように、メタデータ生成部15から渡された動画Dに対して、上述の動画Aに対する処理と同様に、顔特徴ベクトルを生成する処理を行う。すなわち、動画Dの各フレームから登場人物の顔検出を行い、顔特徴ベクトルを生成する。このとき、メタデータ生成部15は、特徴量抽出部12により抽出された顔特徴ベクトルと、その顔特徴ベクトルを抽出したシーンのフレーム番号とを対応付けて、データ保持部16に記録しておく。
次に、メタデータ生成部15は、動画Dから生成された全ての顔特徴ベクトルをラベル付与部14に渡し、ラベルが付与された顔特徴代表ベクトルを用いた最近傍探索によるラベル付与を依頼する。ラベル付与部14は、メタデータ生成部15からの依頼に応じて、動画Dから生成された各顔特徴ベクトルをクエリベクトルとし、ラベルが付与された顔特徴代表ベクトル群に対して最近傍探索を行う。最近傍探索は、ベクトル群の中からクエリベクトルに最も近いベクトルを探索する処理である。この最近傍探索により、動画Dから生成された各顔特徴ベクトルについて、最も近い顔特徴代表ベクトルが特定される。
次に、ラベル付与部14は、動画Dから生成された各顔特徴ベクトルについて、最近傍として特定された顔特徴代表ベクトルとの間の距離を算出する。そして、算出した距離が上述の閾値以下の場合、つまり、顔特徴代表ベクトルのクラスタ内最大距離以下である場合に、顔特徴ベクトルに対して顔特徴代表ベクトルと同じラベルを付与する。これにより、動画Dから生成された顔特徴ベクトルに対して誤ったラベルが付与されることを抑制できる。
メタデータ生成部15は、以上のように動画Dから生成された顔特徴ベクトルに対してラベルが付与されると、データ保持部16に記録した顔特徴ベクトルとフレーム番号の対応関係を参照し、顔特徴ベクトルが抽出されたフレーム番号に対し、その顔特徴ベクトルに付与されたラベルを付与する。このフレーム番号に付与されたラベルは、TV番組の中から所望の主要登場人物が登場するシーンを検索するためのメタデータとなる。
以上のように、本実施例に係るラベル付与装置10によれば、コンテンツ51と関連データ52を含むデータセット53を複数組み合わせて用い、特徴量とラベル候補との対応関係を絞り込む処理を行うことにより、コンテンツ51から抽出される特徴量に対して自動でラベルを付与することができる。また、本実施例に係るラベル付与装置10によれば、ラベルが付与された特徴量を用いた簡単な最近傍探索を行うことにより、他のコンテンツ51から抽出される特徴量に対しても自動でラベルを付与することができ、例えばコンテンツ51のシーン検索用のメタデータなどを自動で生成することができる。
なお、以上の説明は、データセット53が複数存在することを前提としているが、1つのコンテンツ51を分割して用いることで、上述した処理と同様の処理により、特徴量に対する自動ラベル付与を実現することもできる。例えば、1つの動画を複数に分割して、分割後の動画のそれぞれを個別のコンテンツ51とみなす。このとき、分割された各動画のそれぞれが関連データ52と関連付けられている必要があるが、例えば動画に付与された字幕情報や動画とリンクする音声に対する音声認識結果などのテキストデータを関連データ52として採用することで、分割後の動画のそれぞれに関連データ52を関連付けることができる。なぜならば、字幕情報や音声認識結果のテキストデータは動画の各シーンに対応付けられており(時間情報を持っている)、動画を分割したときにそれらの情報も自動で分割されるためである。
また、以上はTV番組の動画をコンテンツ51とする場合を想定した説明であるが、処理対象のコンテンツ51が他の動画であっても同様に、特徴量に対するラベルの自動付与やメタデータの自動生成を行うことができる。TV番組以外の適用例としては、例えば動画配信サービスがある。また、例えば、関連データ52として工場の入出場記録を用いることで、工場内に設置されたカメラで撮影された工場内の映像から抽出される作業者の特徴量に対しても、作業者の名前や社員番号などをラベルとして自動で付与することができる。また、マイクやカメラといった複数モダリティを備えたホームロボットにおいても、例えば、マイクで取得した音声に対する音声認識結果のテキストデータと、カメラで撮影した映像を組み合わせることで、映像から抽出される人物の特徴量に対して音声認識結果のテキストデータから生成されるラベル候補をラベルとして自動付与(いわゆる概念習得)することが可能となる。
また、以上の説明では、コンテンツ51が動画である場合を例示したが、コンテンツ51が静止画、音声、センサデータであっても、上述の例と同様の処理により、コンテンツ51から抽出される特徴量に対する自動ラベル付与を実現することができる。以下にその例を挙げる。
まず、静止画の場合、例えば、複数の人物が映っている写真をコンテンツ51とし、写真のタイトルを関連データ52とする。この場合、写真に対して顔検出および顔特徴ベクトルの生成を行うことで、複数の顔特徴ベクトルが得られる。また、写真のタイトルから複数のラベル候補が得られる。これらを用いることで、上述の例と同様に、顔特徴ベクトルに対する自動ラベル付与を実現できる。
次に、音声の場合、例えば、ラジオドラマの音声をコンテンツ51とし、ドラマの説明文を関連データ52とする。この場合、音声データの波形から話者を特定する特徴ベクトルを生成し、ドラマの説明文から話者の名前などのラベル候補を生成する。これらを用いることで、上述の例と同様に、話者を特定する特徴ベクトルに対する自動ラベル付与を実現できる。
次に、センサデータの場合、例えば、監視対象のモータに取り付けられた回転センサが出力するモータ回転数の時系列データをコンテンツ51とする。また、ユーザがモータの状態を観測してこれを記録した文章が存在することを想定し、この記録文を関連データ52とする。この場合、記録文から例えば過剰回転、過小回転、正常回転などのキーワードを取り出してこれらをラベル候補とする。また、回転センサが出力するモータ回転数の時系列データから特徴量としてモータ回転数を抽出し、抽出したモータ回転数に対してキーワード数でK−meansクラスタリングを行うことで、過剰回転の代表特徴量、過小回転の代表特徴量、正常回転の代表特徴量が得られる。これらを用いることで、上述の例と同様に、モータ回転数に対して過剰回転、過小回転、正常回転などのラベルを自動で付与することができる。
<第2実施例>
次に、第2実施例について説明する。本実施例は、上述の第1実施例に対し、ラベル候補の表記ゆれを吸収する機能を付加したものである。その他の機能は上述の第1実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。
上述の第1実施例は、TV番組に登場する同一の主要登場人物については同一のラベル候補が生成されることを前提としていた。しかし、実際には同一人物であっても、本名と芸名など、異なる表記で番組説明文に記載されている場合もある。この場合、番組説明文から生成されるラベル候補に表記ゆれが発生するため、それを吸収する必要がある。そこで、本実施例では、ラベル候補の単語を意味ベクトル化し、意味ベクトルが類似するラベル候補同士を共通化することで、表記ゆれの対策を行う。
図8は、第2実施例に係るラベル付与装置10の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置10は、図2に示した第1実施例の構成に対し、ラベル候補修正部17が追加された構成である。
ラベル候補修正部17は、ラベル候補生成部11により関連データ52から生成されたラベル候補の意味ベクトルを生成し、意味ベクトル間の類似度が閾値以上のラベル候補同士を共通化する。意味ベクトルは単語の意味を表現するベクトルであり、例えば単語間の共起情報を用いて意味を表現する方法などが知られている。
ラベル候補修正部17は、まず、ラベル候補の意味ベクトルを生成するためのモデルの学習を行う。すなわち、ラベル候補修正部17は、まず、コンテンツDB50に格納された全ての関連データ52(テキストデータ)を収集し、収集したテキストデータに対し、上述のMecabなどを用いた形態素解析により、単語分割処理を行う。そして、ラベル候補修正部17は、単語分割によって得られた単語群を用い、意味ベクトルを生成するためのモデルを学習する。この学習には、例えば非特許文献3に開示されるWord2Vecなどを利用することができる。また、非特許文献4に開示されるGloVeなどを用いてもよい。
その後、ラベル候補修正部17は、ラベル候補生成部11によって関連データ52からラベル候補として主要登場人物の名前が生成されると、学習したモデルを用いて、主要登場人物を意味ベクトル化する。そして、ラベル候補修正部17は、意味ベクトルの全組み合わせについて、意味ベクトル間の類似度を算出する。このとき、類似度が閾値以上となる意味ベクトルの組み合わせは、類似する意味を持つと考えられる。そこで、このような意味ベクトルの組み合わせを抽出する。なお、閾値は超パラメタである。また、意味ベクトルの組み合わせは必ずしも2つの意味ベクトルの組み合わせに限らず、3つ以上の意味ベクトルを組み合わせてもよい。
ラベル候補修正部17は、以上のように抽出した意味ベクトルの組み合わせに対し、ラベル候補を共通化する処理を行う。ラベル候補の共通化とは、ラベル候補の表記を同じ表記にすることをいう。例えば、上述の単語分割処理の結果をもとに、ラベル候補ごとの単語出現数を計算することができる。ラベル候補修正部17は、この単語出現数が最も多いラベル候補の表記を用いて、意味ベクトルの類似度が閾値以上のラベル候補同士を共通化する。
以上説明したように、本実施例によれば、ラベル候補修正部17によってラベル候補の表記ゆれを吸収することができるので、同一人物が異なる表記で番組説明文に記載されている場合など、関連データ52から生成されるラベル候補に表記ゆれがあったとしてもそれを吸収した上で、上述の第1実施例と同様の処理を行うことができる。これにより、例えば同一人物であるにも関わらず異なるラベルが付与されるといった問題を解消できる。
<第3実施例>
次に、第3実施例について説明する。本実施例は、上述の第1実施例に対し、ラベルを自動付与できない特徴量に対する手動によるラベル付与を効率よく行うための機能を付加したものである。その他の機能は上述の第1実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。
上述の第1実施例は、共通登場人物が1名となる動画ペアを用いて、共通登場人物を表していると推定される顔特徴代表ベクトルに対し、共通登場人物の名前をラベルとして自動で付与している。しかし、コンテンツDB50内の動画の中には、他の動画との組み合わせを全て試しても共通登場人物を1名にできないものもあることが想定される。このような場合は、ユーザが手動でラベル付与する必要がある。しかし、自動でラベル付与ができない全てのパターンについて手動でラベルを付与する作業は手間がかかる。そこで、本実施例では、1つの顔特徴代表ベクトルに対して手動でラベルが付与されれば、他の顔特徴代表ベクトルに対するラベル付与を自動で行うことができるようなラベル候補を教示対象として選択して、ユーザに提示する。具体的には、共通登場人物が複数ある動画組み合わせを複数用い、これら複数の動画組み合わせにおける共通登場人物の重複をチェックすることにより、教示が行われたら消去法により他の人物のラベルも自動で決定されるような人物を特定する。そして、この人物についての教示操作をユーザに優先的に行わせることにより、少ない労力でのラベル付与を実現する。
図9は、第3実施例に係るラベル付与装置10の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置10は、図2に示した第1実施例の構成に対し、教示対象選択部18と、操作受付部19とが追加された構成である。
教示対象選択部18は、共通のラベル候補が複数存在し、ラベル候補と特徴量との関係が決定することにより他のラベル候補と特徴量との関係が決定する場合に、1つのラベル候補を教示対象として選択する。例えば教示対象選択部18は、共通登場人物が複数存在する動画組み合わせを複数用い、これら複数の動画組み合わせにおける共通登場人物の重複をチェックすることにより、教示対象となる人物を特定する。
操作受付部19は、教示対象選択部18により選択された教示対象のラベル候補と特徴量との関係を教示するユーザ操作を受け付ける。例えば操作受付部19は、教示対象のラベル候補である人物名を、動画組み合わせを構成する各動画から顔特徴代表ベクトルを生成したときの顔動画とともにユーザに提示し、教示対象のラベル候補である人物名に合致する顔画像を選択するユーザ操作を受け付ける。
以下、図10乃至図12を参照して、本実施例の処理の具体例について説明する。図10乃至図12は、本実施例の処理の概要を説明する図である。ここでは、図10に示すような3つの動画ペアα,β,γを用いる場合を例に挙げて説明する。動画ペアαの共通登場人物は人物a、人物b、人物cの3名であり、動画ペアβの共通登場人物は人物b、人物cの2名であり、動画ペアγの共通登場人物は人物a、人物c、人物dの3名であるとする。
教示対象選択部18は、まず、構築された動画ペアを共通登場人物の数で分類する。上記の例では、共通登場人物が2名の動画ペアβと、共通登場人物が3名の動画ペアα,γに分けられる。
次に、教示対象選択部18は、共通登場人物が少ない動画ペアと共通登場人物が多い動画ペアとの組み合わせについて、共通登場人物の重複をチェックする。そして、重複しない共通登場人物の数が少ない動画ペアの組み合わせ、つまり、共通登場人物の否定論理積(NOT AND)の結果が少ない動画ペアの組み合わせを選択する。上記の例では、図10に示すように、動画ペアαと動画ペアβの組み合わせで重複しない共通登場人物は1名(人物a)であり、動画ペアαと動画ペアγの組み合わせで重複しない共通登場人物は3名(人物a、人物b、人物d)であるため、動画ペアαと動画ペアβの組み合わせが選ばれる。
次に、教示対象選択部18は、選択した動画ペアの組み合わせのうち、共通登場人物の人数が最も少ない動画ペアを選択する。上記の例では、動画ペアαと動画ペアβの組み合わせのうち、動画ペアαの共通登場人物は人物a、人物b、人物cの3名、動画ペアβの共通登場人物は人物b、人物cの2名であるため、動画ペアβが選ばれる。
次に、教示対象選択部18は、選択した動画ペアの共通登場人物について、人数分存在するラベル候補を適当に1つ選択する。このラベル候補は、教示対象として主要登場人物一覧から選択された主要登場人物の名前である。そして、操作受付部19が、教示対象選択部18により選択されたラベル候補を、人数分存在する顔特徴代表ベクトルの各々に対応する顔画像の一覧とともにユーザに提示する。上記の例では、動画ペアβの共通登場人物である人物bまたは人物cの名前が、顔画像一覧とともにユーザに提示される。
ユーザは、操作受付部19によりラベル候補と顔画像一覧が提示されると、顔画像一覧の中からラベル候補に一致する顔画像を選択する。この操作は、提示されたラベル候補と共通登場人物の顔特徴代表ベクトルとの関係を教示する操作であり、この教示操作が操作受付部19により受け付けられると、ラベル付与部14が、その顔特徴代表ベクトルに対してラベル候補の人物名をラベルとして付与する。
ここで、動画ペアの共通登場人物が2名であれば、一方の共通登場人物についてラベル候補と顔特徴代表ベクトルとの対応関係が確定すれば、他方の共通登場人物についてもラベル候補と顔特徴代表ベクトルとの対応関係が確定する。したがって、ラベル未付与の顔特徴代表ベクトルに対しては、自動でラベルを付与することができる。また、動画ペアの共通登場人物が3名以上であれば、教示対象のラベル候補の選択と、選択したラベル候補を顔画像一覧とともに提示してユーザの教示操作を受け付ける処理を繰り返すことにより、動画ペアの全ての共通登場人物について、ラベル候補と顔特徴代表ベクトルの対応関係を確定させて、それぞれの顔特徴代表ベクトルに対してラベルを付与することができる。また、ラベル未付与の共通登場人物が1名となった段階で上述の第1実施例の処理を適用することで、ラベル未付与の顔特徴代表ベクトルに対して自動でラベルを付与することも可能である。
以上の手順により、選択した動画ペアの組み合わせのうちの一方の動画ペアについて、共通登場人物のラベル付与が完了する。上記の例では、動画ペアαと動画ペアβの組み合わせのうち、動画ペアβの共通登場人物である人物bと人物cのラベル付与が完了する。すなわち、図11に示すように、動画ペアβの一方の共通登場人物である人物bについて手動でラベル付与されることにより、他方の共通登場人物である人物cについては自動でラベル付与される。
次に、選択した動画ペアの組み合わせのうちの他方の動画ペアについて考える。まず、他方の動画ペアの共通登場人物のうち、すでにラベル付与が完了した一方の動画ペアと重複する共通登場人物を削除する。上記の例では、動画ペアαの共通登場人物である人物a、人物b、人物cのうち、ラベル付与が完了した人物bと人物cが削除される。ここで、削除されずに残った共通登場人物が1名であれば、ラベル候補と顔特徴代表ベクトルとの対応関係が確定するため、自動でラベル付与が可能である。上記の例では、動画ペアαの共通登場人物のうち、削除されずに残った共通登場人物は人物aのみであるため、図11に示すように、動画ペアαの共通登場人物である人物aについては自動でラベル付与される。また、仮に、動画ペアαの共通登場人物のうち、削除されずに残った共通登場人物が2名以上いる場合は、上述の動画ペアβに対する処理と同様に、教示対象のラベル候補の選択と、選択したラベル候補を顔画像一覧とともに提示してユーザの教示操作を受け付ける処理を行うことで、ラベル未付与の共通登場人物に対するラベル付与が可能となる。
また、選択した動画ペアの組み合わせに含まれない未処理の動画ペアについても同様に、すでにラベル付与が完了した共通登場人物を削除する。上記の例では、動画ペアγの共通登場人物である人物a、人物c、人物dのうち、ラベル付与が完了した人物aと人物cが削除される。ここで、削除されずに残った共通登場人物が1名であれば、ラベル候補と顔特徴代表ベクトルとの対応関係が確定するため、自動でラベル付与が可能である。上記の例では、動画ペアγの共通登場人物のうち、削除されずに残った共通登場人物は人物dのみであるため、図12に示すように、動画ペアγの共通登場人物である人物dについては自動でラベル付与される。また、仮に、動画ペアγの共通登場人物のうち、削除されずに残った共通登場人物が2名以上いる場合は、上述の動画ペアβに対する処理と同様に、教示対象のラベル候補の選択と、選択したラベル候補を顔画像一覧とともに提示してユーザの教示操作を受け付ける処理を行うことで、ラベル未付与の共通登場人物に対するラベル付与が可能となる。
以上説明したように、本実施例によれば、ユーザが手動でラベル付与する必要がある場合に、消去法によって効率的なラベル付与を可能にするラベル候補を教示対象として選択して、このラベル候補に対する教示操作を優先的に行わせるようにしているので、手動でラベル付与する際のユーザの労力を低減させて、効率よくラベル付与を行うことができる。
<第4実施例>
次に、第4実施例について説明する。本実施例は、上述の第1実施例に対し、特徴量に対するラベルの自動付与が期待通りに処理されているか否かを確認し、期待通りに処理されていない可能性がある場合にユーザによる手動確認および修正を行うための機能を付加したものである。その他の機能は上述の第1実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。
上述の第1実施例は、主要登場人物が動画中に多く登場し、非主要登場人物は動画中にほとんど登場しないという仮定に基づいて処理を行っている。したがって、この仮定が成り立たない事例においては、期待した処理が行われない懸念がある。すなわち、主要登場人物の顔特徴代表ベクトルが生成されず、非主要登場人物の顔特徴代表ベクトルが生成されてしまう場合である。そこで、本実施例では、上述のベクトルペアについて誤りスコアを算出し、この誤りスコアに基づいてそのベクトルペアを構成する顔特徴代表ベクトルが同一人物のものかどうかをチェックする。チェックの結果、顔特徴代表ベクトルが同一人物のものでない場合、非主要登場人物の顔特徴代表ベクトルが生成されている可能性が高い。そこで、ユーザによる手動チェックおよび修正を行う。これにより、非主要登場人物の顔特徴代表ベクトルが生成されたことが原因で顔特徴代表ベクトルに誤ったラベルが付与された場合に、その誤りを修正することができる。
図13は、第4実施例に係るラベル付与装置の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置10は、図2に示した第1実施例の構成に対し、特徴量ペア判定部20と、ラベル確認部21とが追加された構成である。また、本実施例では、データ保持部16内に、未チェック特徴量保持部16a、チェック済み特徴量保持部16b、要手動チェック特徴量ペア保持部16c、要手動チェック特徴量保持部16dおよび要手動指定特徴量保持部16eが構築されている。
未チェック特徴量保持部16aは、ラベル付与が正しく行われたことが確認できていない顔特徴代表ベクトルと、それに関連する情報(ラベル、顔画像、ベクトルペア構成情報のいずれか)を保持する。なお、ベクトルペア構成情報は、当該顔特徴代表ベクトルとともにベクトルペアを構成する他の顔特徴代表ベクトルを示す情報である。
チェック済み特徴量保持部16bは、ラベル付与が正しく行われたことが確認できた顔特徴代表ベクトルと、それに関連する情報(ラベル、顔画像)を保持する。
要手動チェック特徴量ペア保持部16cは、ユーザによる手動チェックが必要となるベクトルペアを構成する顔特徴代表ベクトルと、それに関連する情報(ラベル、顔画像、ベクトルペア構成情報)を保持する。
要手動チェック特徴量保持部16dは、ユーザによる手動チェックが必要となる顔特徴代表ベクトルと、それに関連する情報(ラベル、顔画像)を保持する。
要手動指定特徴量保持部16eは、ユーザが手動でラベルを指定する必要がある顔特徴代表ベクトルと、それに関連する情報(ラベル、顔画像)を保持する。
特徴量ペア判定部20は、未チェック特徴量保持部16aから取り出した顔特徴代表ベクトルのうち、他の顔特徴代表ベクトルとベクトルペアを構成できる顔特徴代表ベクトル、つまり、ベクトルペア構成情報を持つ顔特徴代表ベクトルを対象として、ベクトルペアの誤りスコアを算出する。そして、特徴量ペア判定部20は、算出した誤りスコアに基づいて、ベクトルペアが同一人物のものかどうかを判定する。例えば、ベクトルペアの誤りスコアが所定の閾値以下であれば、ベクトルペアが同一人物のものであると判定し、ベクトルペアの誤りスコアが閾値を超える場合は、ベクトルペアが同一人物のものではないと判定する。ベクトルペアの誤りスコアは、ベクトルペアを構成する2つの顔特徴代表ベクトルが同一人物のものであれば低く、異なる人物であれば高くなるものであり、例えば、2つの顔特徴代表ベクトル間の距離(ユークリッド距離)、あるいは2つの顔特徴代表ベクトルの内積の値を1から引いた値などを用いることができる。
ベクトルペアが同一人物のものである場合、顔特徴代表ベクトルが適切に生成されている、つまり、主要登場人物の顔特徴代表ベクトルとなっている可能性が非常に高い。なぜならば、主要登場人物が重複するように動画組み合わせが選択されたとき、それぞれの動画において非主要登場人物が主要登場人物よりも多く登場し、かつ、同じ非主要登場人物が複数の動画において重複して登場する可能性は極めて低いと考えられるためである。
ラベル確認部21は、誤りスコアが閾値を超えるベクトルペアを構成する各顔特徴代表ベクトル、または、ベクトルペアを構成できない顔特徴代表ベクトルに対して、正しいラベルが付与されているかをユーザに確認する。例えばラベル確認部21は、確認対象の顔特徴代表ベクトルに関連する顔画像とラベル(人物名)をユーザに提示し、両者が一致しているか否かの確認結果を取得する。
以下、図14乃至図17を参照して、本実施例の処理の流れを説明する。図14乃至図17は、本実施例の処理手順の一例を示すフローチャートである。本実施例の処理は、以下の処理(1)と処理(2)の2つの処理を含む。図14は処理(1)の手順を示しており、図15乃至図17は、処理(2)の手順を示している。
処理(1):顔特徴代表ベクトルが高確率で適切に生成されているかどうかを自動的に確認し、ユーザの手動チェックが必要な顔特徴代表ベクトルを要手動チェック特徴量ペア保持部16cまたは要手動チェック特徴量保持部16dに格納する。
処理(2):要手動チェック特徴量ペア保持部16cと要手動チェック特徴量保持部16dに格納された顔特徴代表ベクトルに対してラベルが適切に付与されているか否かをユーザの手動チェックにより確認し、必要があるときはユーザによる手動の修正を受け付ける。
まず、処理(1)について、図14のフローチャートを用いて説明する。処理(1)が開始されると、特徴量ペア判定部20が、未チェック特徴量保持部16aから顔特徴代表ベクトルを1つ取り出す(ステップS101)。そして、特徴量ペア判定部20は、ステップS101で取り出した顔特徴代表ベクトルが、ベクトルペアを構成できる顔特徴代表ベクトルであるか否かを判定する(ステップS102)。顔特徴代表ベクトルがベクトルペアを構成できるか否かは、例えば、その顔特徴代表ベクトルがベクトルペア構成情報を持つかどうかによって判定することができる。
ここで、ステップS101で取り出した顔特徴代表ベクトルがベクトルペアを構成できないと判定した場合(ステップS102:No)、特徴量ペア判定部20は、その顔特徴代表ベクトルを要手動チェック特徴量保持部16dに格納する(ステップS103)。一方、ステップS101で取り出した顔特徴代表ベクトルがベクトルペアを構成できると判定した場合は(ステップS102:Yes)、特徴量ペア判定部20は、その顔特徴代表ベクトルが構成するベクトルペアの誤りスコアを算出し(ステップS104)、算出した誤りスコアが閾値以下か否かを判定する(ステップS105)。
ステップS105の判定に用いる閾値は、例えば、全ベクトルペアの平均誤りスコアの2倍に設定される。これは、画像データが充分に存在するとき、ベクトルペアの大半は同一人物のものであり、平均値周辺は正しく対応付けられたベクトルペアであると考えられるためである。なお、ここでは便宜的に2倍としているが、チューニングによって閾値を決定してもよい。また、平均値ではなく中央値などを用いてもよい。
ここで、ベクトルペアの誤りスコアが閾値以下であれば(ステップS105:Yes)、そのベクトルペアは同一人物の顔特徴代表ベクトルから構成されているとみなす。この場合、ベクトルペアを構成する各顔特徴代表ベクトルはラベルが正しく付与されていると考えられるため、特徴量ペア判定部20は、このベクトルペアを構成する各顔特徴代表ベクトルをチェック済み特徴量保持部16bに格納する(ステップS106)。
一方、ベクトルペアの誤りスコアが閾値を超えている場合には(ステップS105:No)、特徴量ペア判定部20は、ステップS101で取り出した顔特徴代表ベクトルが別のベクトルペアを構成できるか否かを判定し(ステップS107)、別のベクトルペアを構成できる場合は(ステップS107:Yes)、ステップS104に戻ってそのベクトルペアの誤りスコア算出と閾値判定を繰り返す。つまり、ステップS101で取り出した顔特徴代表ベクトルが動画組み合わせを変更することで別のベクトルペアを構成できる場合は、そのベクトルペアの誤りスコアが閾値以下かどうかを確認する。そして、全ての動画組み合わせを試しても誤りスコアが閾値以下となるベクトルペアが見つからない場合は(ステップS107:No)、誤りスコアが最も小さかったベクトルペアを要手動チェック特徴量ペア保持部16cに格納する(ステップS108)。
その後、特徴量ペア判定部20は、未チェック特徴量保持部16aに未処理の顔特徴代表ベクトルが残っているかを判定する(ステップS109)。そして、未処理の顔特徴代表ベクトルが未チェック特徴量保持部16aに残っていれば(ステップS109:Yes)、ステップS101に戻って同様の処理を繰り返す。そして、未チェック特徴量保持部16aに保持された全ての顔特徴代表ベクトルに対する処理が終わると(ステップS109:No)、処理(1)が終了する。
次に、処理(2)について説明する。処理(2)は、要手動チェック特徴量ペア保持部16cに格納されたベクトルペアに対する処理と、要手動チェック特徴量保持部16dに格納された顔特徴代表ベクトルに対する処理と、要手動指定特徴量保持部16eに格納された顔特徴代表ベクトルに対する処理とを含む。
まず、要手動チェック特徴量ペア保持部16cに格納されたベクトルペアに対する処理について、図15のフローチャートを用いて説明する。この処理が開始されると、ラベル確認部21が、要手動チェック特徴量ペア保持部16cからベクトルペアを1つ取り出す(ステップS201)。そして、ラベル確認部21は、ベクトルペアを構成する2つの顔特徴代表ベクトルに各々関連する顔画像と共通のラベルとをユーザに提示し、それぞれの顔特徴代表ベクトルに対して正しいラベルが付与されているか否かを確認する(ステップS202)。例えば、ユーザは提示された顔画像が同一人物かどうかをチェックし、同一人物であれば、共通のラベルがその人物の名前であるかをチェックする。また、同一人物でなければ、共通のラベルどちらの人物の名前であるかをチェックする。
ここで、ベクトルペアを構成する各顔特徴代表ベクトルに対して正しいラベルが付与されていると判定した場合(ステップS202:Yes)、ラベル確認部21は、ベクトルペアを構成する各顔特徴代表ベクトルをチェック済み特徴量保持部16bに格納する(ステップS203)。一方、ベクトルペアを構成する顔特徴代表ベクトルの少なくとも一方に正しくラベルが付与されていないと判定した場合は(ステップS202:No)、ラベル確認部21は、正しいラベルが付与されていない顔特徴代表ベクトルを要手動チェック特徴量保持部16dに格納する(ステップS204)。
その後、ラベル確認部21は、要手動チェック特徴量ペア保持部16cに未処理のベクトルペアが残っているかを判定する(ステップS205)。そして、未処理のベクトルペアが要手動チェック特徴量ペア保持部16cに残っていれば(ステップS205:Yes)、ステップS201に戻って同様の処理を繰り返す。そして、要手動チェック特徴量ペア保持部16cに保持された全てのベクトルペアに対する処理が終わると(ステップS205:No)、一連の処理を終了する。
次に、要手動チェック特徴量保持部16dに格納された顔特徴代表ベクトルに対する処理について、図16のフローチャートを用いて説明する。この処理が開始されると、ラベル確認部21は、要手動チェック特徴量保持部16dから顔特徴代表ベクトルを1つ取り出す(ステップS301)。そして、ラベル確認部21は、顔特徴代表ベクトルに関連する顔画像とラベルとをユーザに提示し、その顔特徴代表ベクトルに対して正しいラベルが付与されているか否かを確認する(ステップS302)。例えば、ユーザは提示されたラベルが顔画像の人物の名前であるかをチェックする。
ここで、顔特徴代表ベクトルに対して正しいラベルが付与されていると判定した場合(ステップS302:Yes)、ラベル確認部21は、その顔特徴代表ベクトルをチェック済み特徴量保持部16bに格納する(ステップS305)。一方、顔特徴代表ベクトルに正しくラベルが付与されていないと判定した場合は(ステップS302:No)、ラベル確認部21は、その顔特徴代表ベクトルを生成した動画に対応する主要登場人物の一覧をユーザに提示し、その顔特徴代表ベクトルに対応するラベル候補が生成されているか否かを確認する(ステップS303)。例えば、ユーザは提示された顔画像の人物名が主要登場人物一覧に含まれているか否かをチェックする。そして、顔画像の人物名が主要登場人物一覧に含まれていれば、ユーザはその人物名を選択する操作を行う。
ここで、顔特徴代表ベクトルに対応するラベル候補が生成されている場合、つまり、提示した顔画像の人物名が主要登場人物一覧に含まれており、ユーザが主要登場人物一覧から顔画像の人物名を選択する操作を行った場合(ステップS303:Yes)、ラベル確認部21は、このユーザ操作に応じて顔特徴代表ベクトルのラベルを変更し(ステップS304)、その顔特徴代表ベクトルをチェック済み特徴量保持部16bに格納する(ステップS305)。一方、顔特徴代表ベクトルに対応するラベル候補が生成されていない場合は(ステップS303:No)、ラベル確認部21は、その顔特徴代表ベクトルを要手動指定特徴量保持部16eに格納する(ステップS306)。
その後、ラベル確認部21は、要手動チェック特徴量保持部16dに未処理の顔特徴代表ベクトルが残っているかを判定する(ステップS307)。そして、未処理の顔特徴代表ベクトルが要手動チェック特徴量保持部16dに残っていれば(ステップS307:Yes)、ステップS301に戻って同様の処理を繰り返す。そして、要手動チェック特徴量保持部16dに保持された全ての顔特徴代表ベクトルに対する処理が終わると(ステップS307:No)、一連の処理を終了する。
次に、要手動指定特徴量保持部16eに格納された顔特徴代表ベクトルに対する処理について、図17のフローチャートを用いて説明する。この処理が開始されると、ラベル確認部21は、要手動指定特徴量保持部16eから顔特徴代表ベクトルを1つ取り出す(ステップS401)。そして、ラベル確認部21は、顔特徴代表ベクトルに関連するラベルと、この顔特徴代表ベクトルを生成する際に「外れ値ベクトル」としてクラスタリングの対象から除外した顔特徴ベクトルに対応する顔画像の一覧とをユーザに提示し、ユーザ操作に応じてラベルに対応する顔特徴ベクトルを変更する(ステップS402)。
すなわち、ラベル確認部21は、処理対象の顔特徴代表ベクトルの生成時に「外れ値ベクトル」とした顔特徴ベクトルを修正候補とし、修正候補の顔特徴ベクトルに対応する顔画像の一覧を、処理対象の顔特徴代表ベクトルに付与されたラベルとともにユーザに提示する。このとき、顔画像一覧は、顔画像の大きさや、顔がどれだけ正面を向いているかなど、フレーム画像上で目立つ人物の顔画像ほど上位にくるようにソートしてもよい。ユーザは、提示されたラベルの人物名に合致する人物の顔画像を顔画像一覧の中から選択する操作を行う。ラベル確認部21は、このユーザ操作に応じて、ユーザに提示したラベルに対応する顔特徴ベクトルを変更する。そして、ラベル確認部21は、変更した顔特徴ベクトルをチェック済み特徴量保持部16bに格納する(ステップS403)。
その後、ラベル確認部21は、要手動指定特徴量保持部16eに未処理の顔特徴代表ベクトルが残っているかを判定する(ステップS404)。そして、未処理の顔特徴代表ベクトルが要手動指定特徴量保持部16eに残っていれば(ステップS404:Yes)、ステップS401に戻って同様の処理を繰り返す。そして、要手動指定特徴量保持部16eに保持された全ての顔特徴代表ベクトルに対する処理が終わると(ステップS404:No)、一連の処理を終了する。
以上説明したように、本実施例によれば、特徴量に対するラベルの自動付与が期待通りに処理されているか否かを確認し、期待通りに処理されていない可能性がある場合にユーザによる手動確認および修正を行うようにしているので、特徴量に対するラベル付与をより精度よく行うことができる。
<第5実施例>
次に、第5実施例について説明する。本実施例は、上述の第4実施例に対して、ユーザによる手動確認および修正を効率よく行うための機能を付加したものである。その他の機能は上述の第4実施例と同様であるため、以下では、本実施例に特有の機能についてのみ説明する。
上述の実施例4では、ベクトルペアの誤りスコアを算出した結果、顔特徴代表ベクトルが主要登場人物のものでない可能性が高いと判断される場合に、ユーザによる手動確認および修正を行うようにしている。しかし、コンテンツDB50に新たなコンテンツ51(動画)が追加されることにより、誤りスコアが閾値以下となる新たなベクトルペアが構築できる場合があり、この場合、新たなコンテンツ51が追加される前に必要とされていたユーザによる手動確認および修正が不要になる。
したがって、新たなコンテンツ51が追加されたときは再度同じ処理を行うことが有効であるが、コンテンツDB50内の全てのコンテンツ51を対象として再度同じ処理を行うと、処理時間が長くなる。そこで、本実施例では、新たなコンテンツ51から生成された特徴量とユーザによる手動確認および修正が必要とされていた特徴量とを対象として実施例4の処理を再度行うことにより、短い処理時間で、ユーザによる手動確認および修正が必要となる特徴量を絞り込む。
図18は、第5実施例に係るラベル付与装置10の機能的な構成例を示すブロック図である。本実施例に係るラベル付与装置10は、図13に示した第4実施例の構成に対し、確認対象絞り込み部22が追加された構成である。
確認対象絞り込み部22は、コンテンツDB50に新たなコンテンツ51が追加された場合に、新たなコンテンツ51から抽出された特徴量を用いて、誤りスコアが閾値を超える特徴量ペアを構成する各特徴量、または、特徴量ペアを構成できない特徴量のうち、ラベルが正しく付与されているか否かの確認が必要な特徴量を絞り込む。
以下、本実施例における処理の概要を説明する。本実施例では、まず、特徴量ペア判定部20が、上述の第4実施例の処理(1)を実行して、ユーザによる手動確認および修正が必要となる顔特徴代表ベクトルを要手動チェック特徴量ペア保持部16cや要手動チェック特徴量保持部16dに格納する。また、コンテンツDB50に新たなコンテンツ51として追加された動画に対して上述の第1実施例の処理を実行し、新たな顔特徴代表ベクトルを生成する。
次に、確認対象絞り込み部22が、新たなコンテンツ51として追加された動画から生成された新たな顔特徴代表ベクトルと、要手動チェック特徴量ペア保持部16cに保持されている顔特徴代表ベクトルと、要手動チェック特徴量保持部16dに保持されている顔特徴代表ベクトルとを、全て未チェック特徴量保持部16aに格納する。その後、特徴量ペア判定部20が上述の第4実施例の処理(1)を再度実行することで、要手動チェック特徴量ペア保持部16cや要手動チェック特徴量保持部16dに格納される顔特徴代表ベクトル、つまり、ユーザによる手動確認および修正が必要となる顔特徴代表ベクトルが絞り込まれる。
以上説明したように、本実施例によれば、新たなコンテンツ51が追加された場合に、新たなコンテンツから抽出された特徴量を用いてユーザによる手動確認および修正が必要となる特徴量を絞り込むようにしているので、ユーザによる手動確認および修正を効率よく行うことができる。
<補足説明>
上述した各実施例のラベル付与装置10は、一例として、一般的なコンピュータとしてのハードウェアを用いた実行環境で動作するプログラムによる実装が可能である。この場合、ラベル付与装置10における上述の各機能的な構成要素(ラベル候補生成部11、特徴量抽出部12、特徴量ペア検出部13、ラベル付与部14、メタデータ生成部15、データ保持部16、ラベル候補修正部17、教示対象選択部18、操作受付部19、特徴量ペア判定部20、ラベル確認部21、確認対象絞り込み部22)は、ハードウェアとソフトウェア(プログラム)との協働により実現される。
図19は、ラベル付与装置10のハードウェア構成例を示すブロック図である。ラベル付与装置10は、例えば図19に示すように、CPU(Central Processing Unit)101などのプロセッサ回路、ROM(Read Only Memory)102やRAM(Random Access Memory)103などの記憶装置、表示パネルや各種操作デバイスが接続される入出力I/F104、ネットワークに接続して通信を行う通信I/F105、各部を接続するバス106などを備えた、一般的なコンピュータを利用したハードウェア構成とすることができる。
また、上述した構成のハードウェア上で実行されるプログラムは、例えば、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。また、上述した構成のハードウェア上で実行されるプログラムを、インターネットなどのネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、上述した構成のハードウェア上で実行されるプログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。また、上述した構成のハードウェア上で実行されるプログラムを、ROM102などに予め組み込んで提供するように構成してもよい。
上述した構成のハードウェア上で実行されるプログラムは、ラベル付与装置10の各機能的な構成要素を含むモジュール構成となっており、例えば、CPU101(プロセッサ回路)が上記記録媒体からプログラムを読み出して実行することにより、上述した各部がRAM103(主記憶)上にロードされ、RAM103(主記憶)上に生成されるようになっている。なお、ラベル付与装置10の各機能的な構成要素は、複数のコンピュータに跨って実現される構成であってもよい。また、上述の機能的な構成要素の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
以上述べた少なくとも一つの実施形態によれば、コンテンツから抽出される特徴量に対するラベル付与を自動で行うことができる。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 ラベル付与装置
11 ラベル候補生成部
12 特徴量抽出部
13 特徴量ペア検出部
14 ラベル付与部
15 メタデータ生成部
16 データ保持部
17 ラベル候補修正部
18 教示対象選択部
19 操作受付部
20 特徴量ペア判定部
21 ラベル確認部
22 確認対象絞り込み部
50 コンテンツDB
51 コンテンツ
52 関連データ

Claims (15)

  1. コンテンツに関連付けられた関連データからラベル候補を生成するラベル候補生成部と、
    第1コンテンツから抽出された特徴量と第2コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する特徴量ペア検出部と、
    前記第1コンテンツに関連付けられた第1関連データと前記第2コンテンツに関連付けられた第2関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量に対してラベルとして付与するラベル付与部と、
    を備えるラベル付与装置。
  2. 前記ラベル付与部は、第3コンテンツから抽出された特徴量と前記特徴量ペアを構成する各特徴量との間の距離が閾値以下の場合に、前記第3コンテンツから抽出した特徴量に対して前記特徴量ペアを構成する各特徴量と共通のラベルを付与する
    請求項1に記載のラベル付与装置。
  3. コンテンツから特徴量を抽出する特徴量抽出部をさらに備える
    請求項1または2に記載のラベル付与装置。
  4. 前記特徴量抽出部は、コンテンツから抽出した特徴量群をクラスタリングしてクラスタごとの代表特徴量を生成し、
    前記特徴量ペア検出部は、前記第1コンテンツから生成された代表特徴量と前記第2コンテンツから生成された代表特徴量との組み合わせのうち、代表特徴量間の類似度が最も高い組み合わせを前記特徴量ペアとして検出する
    請求項3に記載のラベル付与装置。
  5. ラベルが付与された特徴量を用いてコンテンツのメタデータを生成するメタデータ生成部をさらに備える
    請求項1乃至4のいずれか一項に記載のラベル付与装置。
  6. 前記第1コンテンツと前記第2コンテンツは、1つのコンテンツを分割することで生成される
    請求項1乃至5のいずれか一項に記載のラベル付与装置。
  7. 前記ラベル候補の意味ベクトルを生成し、意味ベクトル間の類似度が閾値以上のラベル候補同士を共通化するラベル候補修正部をさらに備える
    請求項1乃至6のいずれか一項に記載のラベル付与装置。
  8. 前記共通のラベル候補が複数存在し、1つのラベル候補と特徴量との関係が決定することにより他のラベル候補と特徴量との関係が決定する場合、前記1つのラベル候補を教示対象として選択する教示対象選択部と、
    前記教示対象のラベル候補と特徴量との関係を教示するユーザ操作を受け付ける操作受付部と、をさらに備える
    請求項1乃至7のいずれか一項に記載のラベル付与装置。
  9. 前記特徴量ペアの誤りスコアを算出し、算出した誤りスコアに基づいて前記特徴量ペアが同一の対象を表しているか否かを判定する特徴量ペア判定部をさらに備える
    請求項1乃至8のいずれか一項に記載のラベル付与装置。
  10. 前記誤りスコアが閾値を超える特徴量ペアを構成する各特徴量、または、前記特徴量ペアを構成できない特徴量に対して正しくラベルが付与されているか否かをユーザに確認するラベル確認部をさらに備える
    請求項9に記載のラベル付与装置。
  11. 新たなコンテンツが追加された場合に、新たなコンテンツから抽出された特徴量を用いて、前記誤りスコアが閾値を超える特徴量ペアを構成する各特徴量、または、前記特徴量ペアを構成できない特徴量のうち、ラベルが正しく付与されているか否かの確認が必要な特徴量を絞り込む確認対象絞り込み部をさらに備える
    請求項10に記載のラベル付与装置。
  12. 前記コンテンツは、動画、静止画、音声、センサデータのいずれかである
    請求項1乃至11のいずれか一項に記載のラベル付与装置。
  13. 前記関連データは、前記コンテンツに対して予め付与されたテキストデータ、または、前記コンテンツに対して所定の処理を行うことで得られるテキストデータである
    請求項1乃至12のいずれか一項に記載のラベル付与装置。
  14. コンテンツに関連付けられた関連データからラベル候補を生成するステップと、
    第1コンテンツから抽出された特徴量と第2コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出するステップと、
    前記第1コンテンツに関連付けられた第1関連データと前記第2コンテンツに関連付けられた第2関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量のラベルとして決定するステップと、
    を含むラベル付与方法。
  15. コンピュータに、
    コンテンツに関連付けられた関連データからラベル候補を生成する機能と、
    第1コンテンツから抽出された特徴量と第2コンテンツから抽出された特徴量との組み合わせのうち、特徴量間の類似度が最も高い組み合わせである特徴量ペアを検出する機能と、
    前記第1コンテンツに関連付けられた第1関連データと前記第2コンテンツに関連付けられた第2関連データとの双方から生成された共通のラベル候補を、前記特徴量ペアを構成する各特徴量のラベルとして決定する機能と、
    を実現させるためのプログラム。
JP2018131457A 2018-07-11 2018-07-11 ラベル付与装置、ラベル付与方法およびプログラム Active JP6829226B2 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018131457A JP6829226B2 (ja) 2018-07-11 2018-07-11 ラベル付与装置、ラベル付与方法およびプログラム
PCT/JP2019/008197 WO2020012700A1 (ja) 2018-07-11 2019-03-01 ラベル付与装置、ラベル付与方法およびプログラム
CN201980045709.4A CN112384911B (zh) 2018-07-11 2019-03-01 标签赋予装置、标签赋予方法以及存储介质
US17/142,372 US11531839B2 (en) 2018-07-11 2021-01-06 Label assigning device, label assigning method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018131457A JP6829226B2 (ja) 2018-07-11 2018-07-11 ラベル付与装置、ラベル付与方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2020009300A true JP2020009300A (ja) 2020-01-16
JP6829226B2 JP6829226B2 (ja) 2021-02-10

Family

ID=69142307

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018131457A Active JP6829226B2 (ja) 2018-07-11 2018-07-11 ラベル付与装置、ラベル付与方法およびプログラム

Country Status (3)

Country Link
US (1) US11531839B2 (ja)
JP (1) JP6829226B2 (ja)
WO (1) WO2020012700A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021132281A (ja) * 2020-02-19 2021-09-09 Jcc株式会社 メタデータ生成システムおよびメタデータ生成方法
JP7523953B2 (ja) 2020-06-01 2024-07-29 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11645505B2 (en) * 2020-01-17 2023-05-09 Servicenow Canada Inc. Method and system for generating a vector representation of an image
TWI744000B (zh) * 2020-09-21 2021-10-21 財團法人資訊工業策進會 影像標記裝置、方法及其電腦程式產品
CN112328833B (zh) * 2020-11-09 2024-03-26 腾讯科技(深圳)有限公司 标签处理方法、装置及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275847A (ja) * 2004-03-25 2005-10-06 Fuji Photo Film Co Ltd 画像保管方法および画像保管装置
WO2013001893A1 (ja) * 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
JP2013105465A (ja) * 2011-11-16 2013-05-30 Panasonic Corp 医用同義語辞書作成装置および医用同義語辞書作成方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3602765B2 (ja) 1999-07-19 2004-12-15 株式会社リコー 映像検索方法、その方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体、映像検索処理装置、映像インデックス付与方法、その方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体、映像内容の説明文生成方法およびその方法をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US9177208B2 (en) * 2011-11-04 2015-11-03 Google Inc. Determining feature vectors for video volumes
JP6446987B2 (ja) 2014-10-16 2019-01-09 日本電気株式会社 映像選択装置、映像選択方法、映像選択プログラム、特徴量生成装置、特徴量生成方法及び特徴量生成プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005275847A (ja) * 2004-03-25 2005-10-06 Fuji Photo Film Co Ltd 画像保管方法および画像保管装置
WO2013001893A1 (ja) * 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
JP2013105465A (ja) * 2011-11-16 2013-05-30 Panasonic Corp 医用同義語辞書作成装置および医用同義語辞書作成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021132281A (ja) * 2020-02-19 2021-09-09 Jcc株式会社 メタデータ生成システムおよびメタデータ生成方法
JP7523953B2 (ja) 2020-06-01 2024-07-29 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
JP6829226B2 (ja) 2021-02-10
US11531839B2 (en) 2022-12-20
WO2020012700A1 (ja) 2020-01-16
US20210124997A1 (en) 2021-04-29
CN112384911A (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
JP6829226B2 (ja) ラベル付与装置、ラベル付与方法およびプログラム
US8107689B2 (en) Apparatus, method and computer program for processing information
US8930288B2 (en) Learning tags for video annotation using latent subtags
JP5353148B2 (ja) 画像情報検索装置、画像情報検索方法およびそのコンピュータプログラム
CN111274442B (zh) 确定视频标签的方法、服务器及存储介质
US8755603B2 (en) Information processing apparatus performing character recognition and correction and information processing method thereof
CN110287375B (zh) 视频标签的确定方法、装置及服务器
Bost et al. Remembering winter was coming: Character-oriented video summaries of TV series
JP6829740B2 (ja) データ検索方法及びそのデータ検索システム
CN112733654A (zh) 一种视频拆条的方法和装置
EP4273737A1 (en) Language labeling method and apparatus, and computer device and storage medium
CN111191591B (zh) 一种水印检测、视频处理方法和相关设备
JP2018169697A (ja) 映像データ処理装置、映像データ処理方法、及びコンピュータプログラム
WO2024188044A1 (zh) 视频标签生成方法、装置、电子设备及存储介质
KR101780412B1 (ko) 비디오 콘텐츠의 장면 단위 키워드 추출장치 및 이를 위한 키워드 가중치 산출장치
US20210342393A1 (en) Artificial intelligence for content discovery
KR20200063316A (ko) 각본 기반의 영상 검색 장치 및 방법
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
CN112384911B (zh) 标签赋予装置、标签赋予方法以及存储介质
US20180307669A1 (en) Information processing apparatus
CN113378000B (zh) 一种视频标题生成方法及装置
JP4755122B2 (ja) 画像辞書生成方法及び装置及びプログラム
KR102314990B1 (ko) 머신러닝 기반으로 비디오를 분류하는 장치, 방법 및 컴퓨터 프로그램
CN113609315A (zh) 一种媒资相似度的判定方法、装置、电子设备和存储介质
Tapu et al. TV news retrieval based on story segmentation and concept association

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190926

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210121

R150 Certificate of patent or registration of utility model

Ref document number: 6829226

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150