JP5576384B2 - データ処理装置 - Google Patents

データ処理装置 Download PDF

Info

Publication number
JP5576384B2
JP5576384B2 JP2011536678A JP2011536678A JP5576384B2 JP 5576384 B2 JP5576384 B2 JP 5576384B2 JP 2011536678 A JP2011536678 A JP 2011536678A JP 2011536678 A JP2011536678 A JP 2011536678A JP 5576384 B2 JP5576384 B2 JP 5576384B2
Authority
JP
Japan
Prior art keywords
data
feature
model
unidentified
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011536678A
Other languages
English (en)
Other versions
JPWO2011092793A1 (ja
Inventor
亮一 川西
上野山  努
明 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Priority to JP2011536678A priority Critical patent/JP5576384B2/ja
Publication of JPWO2011092793A1 publication Critical patent/JPWO2011092793A1/ja
Application granted granted Critical
Publication of JP5576384B2 publication Critical patent/JP5576384B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Description

本発明は、複数の画像を自動的に、予め定められたカテゴリに分類する画像処理の技術に関するものである。
近年、例えば被写体像を撮像するDSC(Digital Still Camera)や携帯電話カメラ及びデジタルムービーカメラが広く普及し、さらには、画像データ保存用の記録媒体は大規模化が進んでいる。そのため、個人ユーザでも膨大な量の画像や動画等のAV(AudioVideo)コンテンツを保有できる様になっている。しかし、ユーザが膨大な量の画像群や動画群から、ユーザにとって必要な画像や動画を探すことは、多大な時間と労力を必要とする。
そこで、ユーザの所望画像を効率的に探せる様に自動で画像にタグ付けし整理する事ができる画像インデキシング技術がある。
ここで、画像を自動的にタグ付けするための画像インデキシング技術として様々な手法が存在している。例えば、時間や場所情報を用いてイベントを推定する技術や顔検出技術等の特定物体の検出、または色やテクスチャ情報の類似度により類似画像を検出してタグ付けし検索時に利用する。しかし、様々な場所で撮影される画像には色々な物体や風景が存在する。そのため、一般物体を認識または分類する画像インデキシング技術が提案されている。
従来の一般物体認識技術としては、物体を輝度値等の画像における基本特徴量や局所的な特徴量群に基づいてモデル化し、画像から検出された特徴量とマッチングを行い認識している。この認識技術は、一般に多くのコンピュータビジョン・アプリケーションとして利用されている。また、従来の手法と比べて高速高精度に多数の画像を認識するために、入力イメージを表す特徴ベクトルを生成し、複数の異なる分類器を用いて処理した出力結果の組み合わせに基づいて入力イメージを自動分類する装置を提供する技術が知られている(例えば、特許文献1参照)。この手法により、物体の特徴をより高速に様々な観点で算出する事を可能としている。
そして、物体が様々な動きや変化をすることに着目し、物体が任意の方法で相互に相手を基準に移動可能ないくつかの部分からなる階層型の物体認識モデルを自動的に学習することで、物体を検索する方法が知られている(例えば、特許文献2参照)。
特開2008−97607号公報 特開2009−104666号公報
通常、上述した画像インデキシング技術では、ユーザデータに特化した分類ではなく、一般的な物体に有効なモデルを定義して分類することを前提としている。そのため、例えば、特許文献1で開示された構成では、画像から算出された特徴ベクトルを複数の分類器の重み付き組み合わせ出力に基づいて分類するので、定義可能なある範囲内の物体については有効に働くが、一般的な物体全てをカバーできる程の処理能力はなく、定義されていない物体の検出やユーザにとって重要な物体を検出することはできるとは限らない。
つまり、従来技術ではユーザデータに特化したオブジェクトを分類するとは限らないので、ユーザにとっては分類結果が満足するものではないという問題が生じる。
そこで、本発明は、上記の問題に鑑みて、ユーザデータに特化したオブジェクトが存在する場合においてもユーザが分類結果に満足することのできるデータ処理装置、画像処理方法、プログラム及び集積回路を提供することを目的とする。
上記目的を達成するために、本発明は、データ処理装置であって、複数の特徴量それぞれの検出頻度の組み合わせからなり、オブジェクトの分類に用いられる複数のモデルデータを保持する記憶手段と、前記複数のモデルデータと、分類対象のデータにおいて検出される2つ以上の特徴量それぞれの検出頻度とから、当該データに含まれるオブジェクトの分類の可否を特定する分類手段と、複数の分類対象のデータについて前記分類手段による処理を行った後、オブジェクトの分類が否と特定された未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上である特徴量を2つ以上特定する特定手段と、新たなモデルデータを、クラス作成手法により、特定された2つ以上の特徴量に基づいて作成し、前記記憶手段へ格納するモデル作成手段とを備えることを特徴とする。
この構成によると、データ処理装置は、複数の未識別データを用いて、検出される頻度が同一である未識別データが一定数以上となる特徴量を2つ以上特定している。このような特定は、複数の未識別データにおいて同じオブジェクトを含む未識別データが多いからこそできるものである。そのため、特定された2つ以上の特徴量から新たなモデルデータを作成することで、複数の未識別データから同じオブジェクトを含む未識別データの分類を可能とすることができる。
ここで、前記特定手段は、前記未識別データ毎に、前記複数の特徴量それぞれに対して当該特徴量に類似する特徴量が検出される検出頻度を取得し、前記未識別データそれぞれから取得された検出頻度から、前記複数の特徴量毎に検出頻度の分布度合を生成し、前記分布度合それぞれから、検出される頻度が同一である未識別データが一定数以上となる特徴量を2つ以上特定するとしてもよい。
この構成によると、データ処理装置は、検出頻度の分布度合から、検出される頻度が同一である未識別データが一定数以上となる特徴量を2つ以上、容易に特定することができる。
ここで、前記特定手段は、前記複数の未識別データを所定規則に従った区間毎にグループ化して複数のデータ群を生成し、前記データ群毎に、検出頻度の取得、分布度合の生成、及び特徴量の特定を行い、前記モデル作成手段は、前記データ群毎に新たなモデルデータを作成するとしてもよい。
この構成によると、データ処理装置は、所定規則に従った区間毎に、検出される頻度が同一である未識別データが一定数以上となる特徴量を特定するので、区間毎に含まれるオブジェクトの分類が可能となる。
ここで、前記未識別データそれぞれには、当該未識別データが作成された日時を示す時間情報が対応付けられており、前記所定規則に従った区間とは、一定の時間帯毎に区切られた期間であり、前記特定手段は、前記複数の未識別データを一定の時間帯に区切られた期間毎にグループ化して前記複数のデータ群を生成するとしてもよい。
この構成によると、データ処理装置は、一定の時間帯毎に区切られた区間毎に、2つ以上の特徴量を特定している。これは、通常、同じような時間帯では同じオブジェクトを含むデータが作成されることが多いため、このような区間に区切ることで、区間毎に含まれるオブジェクトの分類が容易にできる。
ここで、前記モデル作成手段は、複数の新たなモデルデータが作成された場合、一のデータ群において生成された一のモデルデータが、他のデータ群において生成された他のモデルデータと時間的推移による相関関係があるか否かを判定し、相関関係があると判定する場合には、当該一のモデルデータと当該他のモデルデータとを時間変化性をもつモデルデータとして対応付けるとしてもよい。
この構成によると、データ処理装置は、異なるデータ群において生成された各モデルデータが時間的推移による相関関係がある場合には、これらモデルデータを時間変化性をもつものとして対応付けるので、これらモデルデータから分類されるデータを同一のオブジェクトを含むものとすることができる。
ここで、前記モデル作成手段は、前記一のモデルデータを特徴付ける第1の特徴量の類似性の変化度と、前記他のモデルデータを特徴付ける第2の特徴量の類似性の変化度との間に比例関係がある場合に、相関関係があると判定するとしてもよい。
この構成によると、データ処理装置は、異なるデータ群において生成された各モデルデータの類似性の変化度に比例関係がある場合に相関関係があると判定するので、容易に相関関係の有無を特定することができる。
ここで、前記モデル作成手段は、一のデータ群において生成された一のモデルデータが、他のデータ群において生成された他のモデルデータと同一である場合又は残りのデータ群において当該一のモデルデータと同一のものが周期的に出現する場合には、当該一のモデルデータのみを前記記憶手段へ記憶するとしてもよい。
この構成によると、データ処理装置は、一のデータ群において作成されたモデルデータと他のデータ群で作成されたモデルデータとが同一である場合には、当該一のモデルデータのみを記憶することで、記憶すべきモデルデータの重複を防ぐことができる。
ここで、前記特定手段は、前記未識別データ全てを用いて、特徴量毎に対する算出頻度を取得し、取得した算出頻度が所定頻度以上である1つ以上の特徴量を特定し、前記オブジェクトの識別がされなかったデータ毎に、取得した1つ以上の特徴量それぞれに対する検出頻度を取得し、当該データ毎に取得された1つ以上の検出頻度から、前記分布度合を生成するとしてもよい。
この構成によると、データ処理装置は、複数の特徴量それぞれに対して取得した算出頻度のうち、取得した算出頻度が所定頻度以上である1つ以上の特徴量を特定し、特定した1つ以上の特徴量それぞれに対する検出頻度を取得するので、全特徴量それぞれの検出頻度を取得する場合と比べて処理負荷が軽減される。
ここで、前記データ処理装置は、さらに、前記複数の未識別データを表示する表示手段と、表示された未識別データから2つ以上のデータの指定をユーザから受け付ける指示受付手段を備え、前記特定手段は、前記指示受付手段で受け付けた前記2つ以上の未識別データそれぞれから取得される前記複数の特徴量毎の検出頻度から、または前記2つ以上のデータを除く残りのデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、前記複数の特徴量毎の前記分布度合を作成するとしてもよい。
この構成によると、データ処理装置は、所定数以上の未識別データのうち、ユーザから受け付けた2つ以上のデータから検出頻度を取得し、分布度合を作成するので、ユーザの意図が反映されたモデルデータを作成することができる。
ここで、前記指示受付手段は、新たなモデルデータが未だ作成されていないときに、前記指示を受け付けるとしてもよい。
この構成によると、データ処理装置は、新たなモデルデータが未だ作成されていないときに、ユーザからモデルデータを作成するためのデータを指定を受け付けるので、より確かなモデルデータを作成することができる。
ここで、前記特定手段は、前記指示受付手段で受け付けた前記2つ以上の未識別データそれぞれについて、当該未識別データの作成日時に基づいて、当該作成日時が複数の期間のうち何れかの期間に属するよう、前記2つ以上の未識別データそれぞれをグループ分けし、グループ毎に前記分布度合を作成するとしてもよい。
この構成によると、データ処理装置は、期間毎に分布度合を作成するので、モデル作成手段は期間毎のモデルデータを作成することができる。
ここで、前記データ処理装置は、さらに、前記モデルデータ作成手段で作成された前記新たなモデルデータにより識別されるオブジェクトを有するとみされる複数のデータを表示する表示手段と、表示された複数のデータから2つ以上のデータの指定をユーザから受け付ける指示受付手段を備え、前記特定手段は、前記指示受付手段で受け付けた前記2つ以上のデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、または前記2つ以上のデータを除く残りのデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、前記複数の特徴量毎に前記分布度合とは異なる分布度合を作成し、前記モデルデータ作成手段は、前記異なる分布度合から前記新たなモデルデータとは異なるモデルデータを作成する としてもよい。
この構成によると、データ処理装置は、作成された新たなモデルデータにより識別されるオブジェクトを有するとみされる複数のデータから、ユーザから受け付けた2つ以上のデータから、再度モデルデータを作成し、しかも先に作成された新たなモデルデータに識別されるオブジェクトを有するとみされる複数のデータのうち識別されるべきものでないデータを除外することで、精度の高いモデルデータを再度作成することができる。
ここで、前記データは画像であり、前記特定手段は、前記オブジェクトの識別がされなかった画像毎に、当該画像で検出される1つ以上の特徴量の類似度を用いて局所特徴群を生成し、各局所特徴群から前記検出頻度を取得するとしてもよい。
この構成によると、データ処理装置は、オブジェクトの識別がされなかった画像に対する新たなモデルデータを作成するので、当該新たなモデルデータが作成された以後においては、当該新たなモデルデータに特化された画像を分類することができる。
データ処理装置100の構成を示すブロック図である。 ある画像において抽出されたSIFT特徴量の一例を示す図である。 ある画像において抽出された各VisualWordの検出頻度の一例を示す図である。 分類されなかった全AVデータから抽出されたVisualWord毎の検出頻度値の検出数から作成される類似度分布の一例を示す図である。 第1基準パラメータテーブルT100のデータ構造の一例を示す図である。 第2基準パラメータテーブルT110のデータ構造の一例を示す図である。 同一特徴量を算出する処理のフローチャートである。 区間単位で同一特徴量を算出する処理のフローチャートである。 同一特徴における限定特徴量空間によりローカルモデルを抽出する際のイメージの一例を示す図である。 ローカルモデル作成部20の構成を示すブロック図である。 区間毎に存在する画像群の一例を示す図である。 区間情報を抽出する処理を示すフローチャートである。 区間毎に作成されたローカルモデルと時間継続性の一例を示す図である。 区間毎に作成されたローカルモデルと経年変化性の一例を示す図である。 ユーザインタラクション入力部30を追加した際の構成を示すブロック図である。 ユーザインタラクション入力部30により表示される画像G100の一例を示す図である。 ユーザインタラクション入力部30により表示される画像G200の一例を示す図である。 ユーザインタラクション入力部30により表示される画像G300の一例を示す図である。 フィードバック処理を示すフローチャートである。 データ処理装置100aの構成を示すブロック図である。 データ処理装置100bの構成を示すブロック図である。 データ処理装置100bにおいて同一特徴量を算出する処理のフローチャートである。 基準特徴量と全画像との一致度から作成される一致度分布の一例を示す図である。
以下本発明の実施の形態について、図面を参照しながら説明する。
1.第1の実施の形態
1.1 データ処理装置100の構成
以下、図面を参照して本発明に係る第1の実施の形態について説明する。本実施の形態は、家庭内等のローカルなAV(AudioVideo)データ群を自動整理するデータ処理装置100おいて、ローカルな分類モデルを生成し、AVデータ群に精度良く自動タグ付けする仕組みに関するものである。ここでは、AVデータとは、写真画像データや動画像データや音楽データ等を総称するものである。
図1は、データ処理装置100の構成を示すブロック図である。
図1において、データ処理装置100は、ローカルDB(DataBase:データベース)1、前処理部2、特徴量抽出部3、分類部4、基本辞書DB(データベース)5、検索インデクスDB(データベース)6、未分類特徴DB(データベース)7、同一特徴抽出部8、ローカルモデル作成部9、ローカル辞書DB(データベース)10及び基準パラメータDB(データベース)11とから構成されている。
ここで、各DBは、具体的には、HDD(Hard Disk Drive)やDVD(Digital Versatile Disk)等の大容量メディアディスクや半導体メモリ等のストレージデバイスである。
(1)ローカルDB1
ローカルDB1は、家庭内等のファイルデータとして、例えば写真画像データや動画像データや音楽データ等のAV(AudioVideo)データを記憶している。
(2)前処理部2
前処理部2は、AVデータの特徴量を抽出する前に行う処理である。具体的には、前処理部2は、特徴量を抽出し易くするために、AVデータの正規化処理、画像の領域分割処理による背景や物体領域を検出する処理、音声のパワー変化算出によるシーン区間を検出する処理を行う。
(3)特徴量抽出部3
特徴量抽出部3は、AVデータの特徴量を抽出する処理である。具体的には、AVデータが画像データである場合には、特徴量抽出部3は、エッジや色やテクスチャ等の低次特徴量から特徴的な点を中心に領域特徴量を現す特徴量記述子であるSURF(Speeded Up Robust Features)やSIFT(Scale−Invariant Feature Transform)等の特徴量、さらには物体の形状特徴を現すHOG(Histogram of oriented Gradient)等の高次特徴が存在する。なお、藤吉弘亘著の「Gradientベースの特徴抽出− SIFTとHOG −」(情報処理学会研究報告 CVIM 160, pp. 211−224, 2007)に詳細が記載されている。
AVデータが音声データである場合には、特徴量抽出部3は、音声パワー、ゼロクロス、スペクトラム関連特徴量や、ケプストラム関連特徴量や、クロマベクトルなどの特徴量がある。スペクトラム関連やケプストラム関連の特徴量としては、スペクトラムのロールオフ、MFCC(Mel Frequency Cepstrum Coefficient)等がある。その他にも、MPEG7(Moving Picture Experts Group Phase 7)の規格の中で、MPEG7−Audio Featuresとして記載されているものが多数ある。Lowレベルでの特徴量としては、Audio Power, Audio Spectrum Envelope, Audio Spectrum Centroid, Harmonic Spectral Deviation, Harmonic Spectral Spread等がある。なお、Hyoung−Gook Kim等著の「MPEG7 AUDIO AND BEYOND」(John Wiley & Sons Ltd, 2005)に詳細が記載されている。
ここで一例として、AVデータが画像データである場合の特徴量抽出部3の機能について、以下、説明する。
特徴量抽出部3は、特徴量を抽出するための基準特徴量であるVisualWordが複数記憶されている辞書を予め有している。
特徴量抽出部3は、画像内の特徴点を1つ以上抽出し、抽出した特徴点からSIFT特徴量を算出する。特徴量抽出部3は、算出した全SIFT特徴量と、辞書内に記憶されている複数のVisualWordとを用いて、1つ以上のBoF(Bag Of Features)を生成する。特徴量抽出部3は、生成した1つ以上のBoFを分類部4へ出力する。
ここで、VisualWordとは、様々なSIFT特徴量における代表的な中心モデルとして算出されたものであり、人や家や傘などの一般的な物体形状の部分パーツや全体を表すものである。なお、VisualWord、特徴点の抽出、SIFT特徴量の算出、BoFの生成については公知の技術であるので、ここでの説明は省略する。
(4)分類部4
分類部4は、AVデータから抽出された特徴量を用いて既存のモデルデータとのマッチング処理を行い、入力データがどのモデルと適合しているかの判定処理を行うものである。
ここで、判定処理には、例えば、機械学習手法である判別器が用いられる。一般的な判別器として、GMM(Gaussian mixture model)やSVM(Support Vector Machine)などが存在する。
判別器に予め分類すべきカテゴリ毎に準備している分類基準データ、例えば後述する基本辞書DB5及びローカル辞書DB10が蓄積しているモデル情報をセットし、サンプル入力情報(ここでは、AVデータの1つ以上の各BoF)を用いて分類項目の判別及びその判別信頼度としての尤度の算出を行う。ここで、尤度は一般的に値が大きいほど信頼度が高いことを意味する。
分類部4は、判別器において、入力したAVデータに対して分類部4で一のモデルと適合した際に、その適合した一のモデルの分類情報と入力データであるAVデータと関連付けて(タグ付け)、検索インデクスDB6へ蓄積する。
分類部4は、判別器において、入力したAVデータに対して何れのモデルとも適合しない場合に、当該AVデータに関連する未分類情報と関連付けて(タグ付け)、検索インデクスDB6へ蓄積する。ここで、未分類情報とは、AVデータを識別する識別子であり、例えばAVデータが画像である場合には画像に対応付けられた画像番号である。
(5)基本辞書DB5
基本辞書DB5は、予め分類部4で分類するためのカテゴリが定義されており、そのカテゴリを分類するために必要な各カテゴリのモデル情報が利用する特徴量に応じて蓄積されている。
(6)検索インデクスDB6
検索インデクスDB6は、入力したAVデータに対して分類部4で一のモデルと適合した際に、その適合したモデルの分類情報が入力データと関連付けられて蓄積される。
(7)未分類特徴DB7
未分類特徴DB7は、分類できなかったAVデータの未分類情報が蓄積される。
(8)同一特徴抽出部8
同一特徴抽出部8は、未分類特徴DB7に蓄積されている未分類情報に基づいて、分類されなかった複数のAVデータから特徴量の類似性及び特徴量の出現頻度等を算出し、一定の偏りが存在する際に同一物体から得られると推定される同一特徴を抽出するものである。
同一特徴抽出部8は、例えば分類部4で分類の処理がされた場合に開始される。分類の処理が開始されると、同一特徴抽出部8は、未分類特徴DB7に蓄積されている未分類情報の数が同一特徴の抽出処理を開始するのに必要な一定以上の数になっているかどうかを判定する。例えば、後述する基準パラメータDB11で記憶されている第1基準パラメータテーブルT100を用いて判定を行う。
抽出処理を行うと判断する場合には、同一特徴抽出部8は、未分類特徴DB7に蓄積されている未分類情報それぞれから、当該未分類情報が示すAVデータから抽出される全特徴量のうちその算出頻度が一定以上である基準特徴量(VisualWord)を抽出する。ここで、基準特徴量のある種別xの算出頻度F(x)は、例えば全AVデータ数をVall、特徴量xが1つ以上算出されたAVデータ数をVx,cal、特徴量xが存在する各AVデータから算出された特徴量xの平均数をVx,one、として、以下の数式1によって算出される。
Figure 0005576384

そして、同一特徴抽出部8は、算出したF(x)の値と、後述する基準パラメータDB11で記憶されている第2基準パラメータテーブルT110を用いて、算出頻度の大きい基準特徴量のみを1つ以上抽出する。
また、同一特徴抽出部8は、一のAVデータに対して基準特徴量それぞれに対する特徴量の類似度を算出する。例えば、基準特徴量がVisualWordである場合には各VisualWordのモデルに対する距離を類似度として算出する。具体的には、図2と図3を用いて説明する。図2は、ある人と家と傘の写っている写真において抽出されたSIFT特徴量を示すものである。SIFT特徴量は1枚の画像内における特徴的な点(図中に示す特徴点)が検出されその領域情報(図中のスケール)がSIFT記述子として算出される。また、回転は、特徴点の特徴領域(スケール)の回転方向を捕らえる向きを示すものである。なお、特徴点、スケール及び回転は、従来技術の定義と同様のものであるので、詳細な説明は省略する。また、類似度の算出には、例えば同一特徴群のもつ多変量データを基にユークリッド距離やマハラノビス距離やミンコフスキー距離等を算出してその距離の近さを類似度とする。基本的な距離としてユークリッド平方距離が存在し、n個体m変量の特徴の観測値が得られているときに個体iと個体jとの非類似性を表す量として非類似度dijは下記の数式2によって算出できる。
Figure 0005576384

同一特徴抽出部8は、図2に示すように、分類されなかった全てのAVデータ(画像)毎に、当該AVデータ内の全SIFT特徴量を算出する。そして、同一特徴抽出部8は、分類されなかった全てのAVデータに対して、図3に示すように各VisualWordに類似するSIFT特徴量として検出された数を検出頻度として算出する。
そして、同一特徴抽出部8は、頻度の大きい基準特徴量として抽出された1つ以上の基準特徴量それぞれに対して、分類されなかった全てのAVデータそれぞれにおける当該基準特徴量に検出頻度から図4に示す類似度分布を作成し、その分布内のピーク値を算出する。ここで、ピーク値とは、例えば類似度分布における極大値から最近傍の極小値を引いた差分として算出することができる。
以下に、図4に示すような各VisualWordの類似度分布におけるピーク値の算出方法を具体的に説明する。
同一特徴抽出部8は、全画像データ毎に図3に示すような検出頻度を算出し、各検出頻度値の検出数を算出することで、縦軸に検出頻度で横軸に検出数の類似度分布を作成する。ピーク値は、類似度分布における検出数の増減から極大値と極小値を算出し、各極大値から検出頻度が最も近い極小値の持つ検出数を用いて差分を取ることで算出する。
同一特徴抽出部8は、そのピーク値を用いて同一物体性を判定可能だと推定されるピーク値を持つ基準特徴量を判定し、抽出する。同一特徴抽出部8は、抽出した基準特徴量を同一特徴としてローカルモデル作成部9へ出力する。なお、ピーク値の判定基準は、例えば、後述する第2基準パラメータテーブルT110を用いる。
(9)ローカルモデル作成部9
ローカルモデル作成部9は、同一特徴抽出部8で抽出された同一特徴を用いて、あるローカルAVデータ群に特有な物体のカテゴリを定義し、そのモデル情報を算出処理するものである。
ローカルモデル作成部9は、具体的には、同一特徴抽出部8で抽出された同一特徴を用いて、k−means手法等のクラス作成手法を用いて、分類されなかった複数のAVデータのうち当該同一特徴が検出される1つ以上のAVデータからなる類似データ群から、カテゴリの定義及び、モデル生成を行う。k−means手法等のクラス作成手法は、既知の技術であるので、ここでの説明は省略する。
(10)ローカル辞書DB10
ローカル辞書DB10は、ローカルモデル作成部9で算出されたカテゴリ定義及びそのカテゴリを分類するために必要なモデル情報が、利用する特徴量に応じて蓄積される。蓄積DBは、例えばHDDやDVD等の大容量メディアディスクや半導体メモリ等のストレージデバイスである。
(11)基準パラメータDB11
基準パラメータDB11は、第1基準パラメータテーブルT100と、第2基準パラメータテーブルT110とを記憶している。
第1基準パラメータテーブルT100は、同一特徴抽出部8にける処理開始の基準を示すものである。また、第2基準パラメータテーブルT110は、頻度の大きい基準特徴量、及びピーク値に基づく基準特徴量を抽出するための基準を示すものである。
(11−1)第1基準パラメータテーブルT100
第1基準パラメータテーブルT100は、図5に示すように、データ種類と分類開始量基準パラメータからなる1つ以上の組からなる。
データ種類は、分類対象となるデータの種別を示すものである。具体的には、データ種類は、静止画像、動画像、音声などである。分類開始量基準パラメータは、さらに、基準1、基準2、基準3、・・・から構成されている。基準1、基準2、基準3、・・・は対応するデータ種類の分類開始となるデータの数(量)を示すものである。
同一特徴抽出部8は、例えば、分類対象が静止画像である場合には、分類されなかった静止画像において、基準1、基準2、・・・の何れかの基準が満たされると判断する場合に、分類を開始する。
(11−2)第2基準パラメータテーブルT110
第2基準パラメータテーブルT110は、図6に示すように、データ種類と各種基準パラメータからなる1つ以上の組からなる。
データ種類は、抽出対象となるデータの種別を示すものである。具体的には、データ種類は、静止画像、動画像、音声などである。各種基準パラメータは、頻度基準、ピーク値基準1、ピーク値基準2、・・・から構成されている。頻度基準は、対応するデータ種類において、算出頻度の大きい基準特徴量を抽出する際に用いられるものである。ピーク値基準1、ピーク値基準2、・・・は、対応するデータ種類において、同一物体性を判定可能だと推定される基準特徴量を判定する際に用いられるものである。
例えば、同一特徴抽出部8は、算出頻度の大きい基準特徴量を抽出する対象が静止画像である場合には、頻度基準(0.35)が以上となる1つ以上の基準特徴量を抽出する。また、同一物体性を判定可能だと推定される基準特徴量を判定する場合には、同一特徴抽出部8は、ピーク値基準1、ピーク値基準2、・・・の何れかの基準が満たされるときに、対応する基準特徴量は同一物体性を判定可能と判定する。
1.2 動作
ここでは、ユーザが保有するAVデータを整理するためにAVデータの自動タグ付けをする際のローカルモデルを作成する動作について詳細に説明する。
データ処理装置100は、ローカルモデルを生成するために、ユーザが保有するAVデータに含まれるローカルデータに頻出する被写体情報を検出可能な特徴量を抽出する必要がある。図7は、データ処理装置100がローカルデータから同一特徴を抽出する際の同一特徴抽出処理を示すフローチャートである。
同一特徴抽出処理は、例えば、分類部4で行われる分類処理がされた場合に開始される。
分類処理が開始されると、同一特徴抽出部8は、未分類特徴DB7に蓄積されている未分類情報数が処理開始するのに必要な一定以上の数になっているかどうかを判定する(ステップS1)。例えば、分類対象が静止画像である場合には、同一特徴抽出部8は、図5に示す第1基準パラメータテーブルT100における基準1、基準2、基準3、・・・何れかの基準を満たすかどうかを判定する。
処理開始するのに必要な一定以上の数になっていないと判断する場合(ステップS1における「No」)、同一特徴抽出部8は同一特徴抽出処理を終了する。
処理開始するのに必要な一定以上の数になっていると判断する場合(ステップS1における「Yes」)、同一特徴抽出部8は、数式1のF(x)の値に基づいて、AVデータから抽出された全特徴量のうちその算出頻度が一定以上である基準特徴量を抽出する(ステップS2)。
抽出された基準特徴量毎に、同一特徴抽出部8は、代表特徴量と全AVデータにおいて算出された基準特徴量の類似度を算出する(ステップS3)。具体的には、同一特徴抽出部8は、基準特徴量がVisualWordである場合には各VisualWordのモデルに対する距離を類似度(SIFT特徴量)として算出する。同一特徴抽出部8は、図3に示すように基準特徴量毎に、SIFT特徴量として検出された数を検出頻度として算出する。
同一特徴抽出部8は、頻度の大きい基準特徴量として抽出された1つ以上の基準特徴量それぞれに対して、分類されなかった全てのAVデータそれぞれにおける当該基準特徴量に検出頻度から図4に示す類似度分布を作成し、その分布内のピーク値を算出する(ステップS4)。
同一特徴抽出部8は、そのピーク値を用いて同一物体性を判定可能だと考えられるピーク値を持つ基準特徴量を判定して抽出し(ステップS5)、同一特徴としてローカルモデル作成部9に出力する。なお、ピーク値の判定は、上述したように、ピーク値基準1、ピーク値基準2、・・・の何れかの基準が満たされる否かである。
1.4 まとめ
上述したように、データ処理装置100は、分類できなかったAVデータ(画像)を用いて、これら画像に含まれる特徴量を基に、同一物体性を判定可能だと考えられるピーク値を持つ基準特徴量からモデルデータを生成している。
これにより、ローカル辞書DBにユーザに特化したモデルデータを蓄積することで、基本辞書DBでは分類できなかった画像を分類することができる。
1.5 変形例
上記実施の形態では、分類されなかった全AVデータから同一特徴を抽出したが、これに限定されない。分類されなかった全AVデータから同一特徴を抽出するのではなく、一定量や一定時間区間毎のAVデータから同一特徴を抽出してもよい。この場合の同一特徴抽出処理の手順について図8に示すフローチャートを用いて説明する。
なお、説明の便宜上、本変形例の同一特徴抽出部については符号“8a”を付与して説明する。
上記第1の実施の形態と同様に、図示していないが、分類処理が開始されると、同一特徴抽出部8aは、未分類特徴DB7に蓄積されている未分類情報数が処理開始するのに必要な一定以上の数になっているかどうかを判定する。処理開始するのに必要な一定以上の数になっていないと判断する場合、同一特徴抽出部8aは同一特徴抽出処理を終了する。
処理開始するのに必要な一定以上の数になっていると判断する場合、同一特徴抽出部8aは、未分類特徴DBから一定の時間帯毎に検出された特徴量を入力する(ステップS11)。
同一特徴抽出部8aは、一定時間帯毎の入力単位で局所特徴量であるBoFを算出する(ステップS12)。次に、同一特徴抽出部8aは、VisualWordの検出頻度を、ステップS12で算出した局所特徴量を用いて計算する(ステップS13)。
同一特徴抽出部8aは、算出された検出頻度を用いて、図3で示すようなVisualWord毎に検出数のヒストグラムを作成する(ステップS14)。
同一特徴抽出部8aは、各VisualWordにおける検出数のヒストグラムにピーク値が存在するかどうかを判定し、ピーク値基準以上のピーク値を持つ基準特徴量を判定し、その一定時間区間における同一特徴として抽出する(ステップS15)。
同一特徴抽出部8aは、全時間帯のデータに関して処理が完了しているかどうかを判定する(ステップS16)。完了していると判断する場合(ステップS16における「Yes」)、同一特徴抽出部8aは、処理を終了する。また、完了していないと判断する場合(ステップS16における「No」)、同一特徴抽出部8aは、ステップS11に戻り、全時間帯で処理が完了されるまで処理を繰り返す。
なお、上記のフローチャートでは、抽出対象を一定の時間帯で分割された画像群としたが、これに限定されない。一定枚数や一定領域や一定イベント毎等の様に画像を分割できる単位であればその種別は問わない。
これにより、例えば、当該変形例に係るデータ処理装置は、図9に示すように、全特徴量空間ではモデル化が難しかった、例えば、ある家族が飼っているペット犬や特殊な所有物の様なモデルを、同一特徴のみによる限定特徴量空間にすることで抽出することが可能となる。このようにして作成されたローカルモデルは、ローカルAVデータに特化されたモデルとなるため、精度良くそのモデルを分類することができる。
以上のように、全特徴量を用いた距離空間によってローカルモデルを作成するのではなく、利用する特徴量を同一被写体性の高い特徴量のみに限定してからその限定空間でローカルモデルを作成する構成にすることにより、一般的なモデルではなくローカル識別性が高いモデルとすることができるため、あるローカルAVデータ群に特有な物体のカテゴリを定義しそのモデル情報を精度良く抽出することが可能となる。
なお、未分類特徴DBに蓄積されている未分類情報を用いる単位としては、第1の実施の形態のように全ての未分類情報を用いて同一特徴を算出することが考えられるし、上記変形例のように所定の画像数毎に算出したり、あるイベント単位や時間単位や場所単位で未分類情報を分割して算出することも考えられる。
また、画像における同一特徴量の抽出方法として、特徴点における対応点マッチングにより同一物体が含まれているかどうかを判定して利用する手法や色ヒストグラムやエッジ量の分布の全体類似性を利用する方法を用いればよく、データベース内に存在する同一物体を抽出可能な特徴量を用いる方法であればその種別は問わない。
2.第2の実施の形態
以下、図面を参照して、本発明に係る第2の実施の形態について説明する。
第2の実施の形態は、情報量の多さや類似度だけではなく、ローカルモデル作成時にローカルAVデータが持つ特有の情報として時間的継続性を考慮することで、全データで最適なモデルではなく、時系列で最適なモデルを作成する方法に関するものである。
なお、本実施の形態において、第1の実施の形態と同じ機能を有する構成には同じ符号を付し、その説明を省略する。
また、特に記載のある場合を除いて、データ処理装置の原理的な構成を含めて、第1の実施の形態のそれと同じである。
本実施の形態では、よりユーザ独自のローカルDBに適したローカルモデルを生成する方法として、全AVデータを一律に扱ってローカルDBに特有なモデルを生成する方法ではなく、蓄積するAVデータの時系列的な遷移も考慮してローカルDBに特有なモデルを生成する方法を用いている。本実施の形態で利用されるデータとして主に画像を想定し、画像情報の解析結果を基にローカルモデルを生成する方法について具体的に説明する。
2.1 構成
ここでは、第2の実施の形態に係るデータ処理装置の構成について、第1の実施の形態と異なる点を中心に説明する。
第1の実施の形態とは、ローカルモデル作成部の機能構成が異なる。他の構成要素は、第1の実施の形態と同様であるので、ここでは、ローカルモデル作成部について説明する。
(1)ローカルモデル作成部20
以下、本実施の形態に係るローカルモデル作成部20の機能構成の一例について、図10を参照しつつ説明する。図10は、ローカルモデル作成部20の機能ブロック図である。ローカルモデル作成部20は、区間情報抽出部21と、区間モデル作成部22と、モデル継続性判定部23とから構成されている。
(1−1)区間情報抽出部21
区間情報抽出部21は、ローカルAVデータのまとまり情報として一定のデータ単位や時間単位や場所単位やイベント単位の区間情報を抽出する。例えば、画像情報としてEXIF(Exchangeable Image File Format)情報に含まれている撮影時間やGPS(Global Positioning System)情報を用いることで、自動的に一定の連続撮影区間情報を算出することが可能である。また、ユーザが作成したフォルダ単位情報等でデータを分割しその区間情報を抽出すること等も考えられる。
ここでは、区間情報抽出部21は、EXIF情報に含まれている撮影時間を基に一定の連続撮影区間情報を算出するものとする。具体的には、区間情報抽出部21は、未分類特徴DB7に格納されている未分類情報の内容からローカルDB1に格納されている処理対象となる全画像の時間情報をEXIF情報から抽出する。次に、区間情報抽出部21は、得られた時間情報に従って、最初に撮影された日時を基準に、例えば1時間毎の区間に対して撮影された画像の枚数を算出する。そして、区間情報抽出部21は、1時間毎に算出された画像枚数を基に処理中の始めの1時間の画像枚数を加算して累計画像枚数を算出する。累計画像枚数が500枚以上で且つ加算する画像枚数が0の区間が3時間以上連続した場合には、区間情報抽出部21は、その区間を抽出し、累計画像枚数を0にする。
区間情報抽出部21は、上記動作を処理対象の全画像に対して行う。
(1−2)区間モデル作成部22
区間モデル作成部22は、区間情報抽出部21で抽出された区間毎に、同一特徴抽出部8で算出された特徴量群を用いてローカルモデルを作成する。具体的なモデル生成方法については、第1の実施の形態と同様の方法で作成することができる。
なお、類似性の算出には、第1の実施の形態と同様に、多変量特徴量からモデル間の距離を算出すること等が考えられる。
(1−3)モデル継続性判定部23
モデル継続性判定部23は、区間毎に作成されたローカルモデルがどのぐらいの長さの区間で継続して作成されているかを算出し、ローカルDB1内での時間的継続性があるかどうかを判定する。モデル継続性判定部23は、時間的継続性の高いローカルモデル、つまり、出現頻度の高いローカルモデルから順次タグ付けを行う。
また、モデル継続性判定部23は、経年変化性として特徴量内の部分的な変化が存在するかどうかを算出し、一定の変化傾向性があるかどうかを判定する。一定の変化傾向性がある複数のローカルモデルに対して、モデル継続性判定部23は、同一の特徴を有する旨の関連付け(同一のタグ付け)を行う。
2.2 動作
以下では、AVデータが画像であった場合の具体的なローカルモデルの作成手法について詳しく説明する。図11は、画像において区間毎に存在する画像群の一例を示す図である。なお、ここでは、ローカルDB1には、横軸を時間軸、1時間毎の画像量を縦軸にした図11に示すような特定ユーザが時系列的に撮影した画像群が存在しているとする。
この場合における区間情報抽出部21の動作について、図12に示すフローチャートを用いて説明する。
まず、区間情報抽出部21は、未分類特徴DB7に格納されている未分類情報の内容からローカルDB1に格納されている処理対象となる全画像の時間情報をEXIF情報から抽出する(ステップS21)。
区間情報抽出部21は、得られた時間情報に従って、最初に撮影された日時を基準に、例えば1時間毎の区間に対して撮影された画像の枚数を算出する(ステップS22)。
区間情報抽出部21は、時間毎に算出された画像枚数を基に処理中の始めの1時間の画像枚数を加算して累計画像枚数を算出する(ステップS23)。
累計画像枚数が500枚以上で且つ加算する画像枚数が0の区間が3時間以上連続した場合には、区間情報抽出部21は、その区間を抽出し、累計画像枚数を0にする(ステップS24)。
区間情報抽出部21は、処理対象の全画像に対して処理が完了しているかを判定する(ステップS25)。完了していると判断する場合には(ステップS25における「Yes」)、区間情報抽出部21は区間情報抽出処理を完了する。完了していないと判断する場合には(ステップS25における「No」)、区間情報抽出部21は、ステップS23に戻り、全画像に対する処理が完了するまで処理を繰り返す。
2.3 具体例
上記の動作を行うことで、区間情報抽出部21は、例えば、図11に示すような区間1から6を抽出することができる。
そして、区間モデル作成部22は、区間情報抽出部21で抽出された全区間(区間1から6)に対して、ローカルモデルを生成する。図11に示す例では、区間1〜区間6までの6区間が抽出されているので、例えば、図13に示すように6区間に存在する全てのローカルモデルA、B、C、D、E、F、Gを生成する。
モデル継続性判定部23は、作成されたローカルモデルの時間的継続性や周期性や経年変化性があるかを判定する。図13の例では、区間毎のローカルモデルの全体的な類似性を算出し、一定以上の類似性を持つローカルモデルに対して同じラベルが付与されている。その結果、時間的継続性の高い、つまり出現頻度が高いモデルとしてローカルモデルCを抽出することができる。そこで、モデル継続性判定部23は、短期的に存在しているローカルモデル(例えば、ローカルモデルB、G)よりもローカル属性の高いモデルとして優先的にタグ付けをすることができる。
また、モデル継続性判定部23は、経年変化性を検出してモデル化する。例えば、モデル継続性判定部23は、図14で示すように局所類似性の変化度に比例関係が存在する場合には、ローカルモデルA、E、及びDは一定の経年変化性を持つローカルモデルとして抽出し、ローカル属性の高いモデルとして優先的にタグ付け、同一も物体として関連付けをする。具体的には、子供が成長する際の顔や体の変化度合いとしての経年変化性や物体における劣化や破損による変化性や流行による車等の物体の形状変化性などを抽出する。これにより、モデル継続性判定部23は、全体特徴を考えると違うモデルであるが、類似性の高いモデルとして抽出されたローカルモデル間の局所的な特徴量の類似性の変化度を算出し、その変化度に例えば主成分分析などの統計的処理を行うことで相関関係が得られた際に、それらのモデルは経年変化性のある1つのモデルであるとして抽出することができる。つまり、モデル間のある特徴量群は一定基準以上の類似性を持っており、別の特徴量群において類似性が低いけれどもその変化度合いに一定の傾向が存在する場合に経年変化性があるモデルとして抽出することが可能である。
2.4 まとめ
以上により、本実施の形態によると、データ処理装置は、各種作成されたローカルモデルのローカルDB1内での継続性を判定することで、短期間や単発的に有効なローカルモデルを作成したり、長期的にまたは周期的に有効なモデルを作成したり経年変化に合わせて適応的に変化するローカルモデルを作成することができる。
また、全AVデータを用いて全特徴量に対して最適なローカルモデルを作成するのではなく、AVデータ間のつながりとして例えば時間的な塊を抽出して区間毎のAVデータに限定してからローカルモデルを生成し、区間毎のモデル間継続性を判定してよりローカル属性の高いローカルモデルを作成する構成にすることにより、ユーザが取得しているAVデータの傾向性も加味したローカル識別性が高いモデルとすることができるため、ローカルAVデータ群に特有な物体のカテゴリを精度良く定義しそのモデル情報を抽出することが可能となる。
2.5 変形例
本実施の形態において、区間情報抽出部21は、処理対象となる全画像の時間情報をEXIF情報から抽出したが、データ生成時間情報から抽出してもよい。
なお、本実施例の構成では、同一特徴抽出部8を設けているが、特徴量抽出部3で算出される一般的な特徴量を利用する構成や全AVデータに対して特徴量を抽出して利用する構成としてもよい。
また、具体的説明には画像の時間的継続性のみの説明を行ったが、音声や映像データを使うことも考えられ、継続性としては場所的なつながりや時間と場所等の融合情報から得られるイベント性によるつながりを利用してもよい。
3.第3の実施の形態
以下、図面を参照して、本発明に係る第3の実施の形態について説明する。
本実施の形態は、同一特徴を抽出する際やローカルモデルを作成する際または作成したローカルモデルにより分類された結果を表示する際にユーザからのフィードバック(以後、ユーザインタラクション)を考慮することで、自動的に生成していた同一特徴及びローカルモデルに存在する間違いを修正したり、自動的には生成できなかった同一特徴やローカルモデルを生成したりする方法に関するものである。
なお、本実施の形態において、第1の実施の形態と同じ機能を有する構成には同じ符号を付し、その説明が適用できるため説明を省略する。
また、特に記載のある場合を除いて、データ処理装置の原理的な構成を含めて、第1の実施の形態のそれと同じである。
本実施の形態では、ユーザのローカルDB1に適した同一特徴の抽出及びローカルモデル生成を精度良く行う方法として、全ての処理を予め定めているプログラムにより自動的に行う方法ではなく、各種処理の入出力においてユーザインタラクションによるユーザの入力情報を考慮してローカルDB1に特有な特徴及びモデルを精度良く生成する方法を用いている。
本発明の実施の形態で利用されるデータとして主に画像を想定し、画像解析における入出力に際してユーザインタラクションを基に同一特徴及びローカルモデルを生成する方法について具体的に説明する。
3.1 構成
ここでは、第3の実施の形態に係るデータ処理装置の構成について、第1の実施の形態と異なる点を中心に説明する。
図15は、本実施の形態において図1の構成にユーザインタラクションの入力機能をもつユーザインタラクション入力部30を追加した際の構成を示すブロック図である。
以下、ユーザインタラクション入力部30の機能及び、同一特徴抽出部8やローカルモデル作成部9における更なる機能について説明する。
(1)ユーザインタラクション入力部30
ユーザインタラクション入力部30は、同一特徴抽出部8やローカルモデル作成部9で処理される内容の精度を改善するために、ユーザの持つAVデータまたはデータ処理装置により算出される出力結果に対して付加的な情報が入力される機能である。
具体的には、ユーザインタラクション入力部30は、図16で示す画像G100、図17で示す画像G200、及び図18に示す画像G300を表示し、ユーザからの指示を受け付ける。なお、本実施の形態では、画像を表示する画面は、タッチパネル機能を備えているものとする。
(画像G100)
図16で示す画像G100は、同一物体であることやタグ情報を画像に入力する際の一例を示すものである。
図16で示す画像G100には、表示中の画像の格納場所を示すライブラリG101、分類されなかった画像I100、I101、I102、I103、・・・、ボタンB100、B101、B102、B103、スクロールバーSB100が含まれる。
ライブラリG101では、表示中の各画像の格納先がユーザに分かるように、表示対象のライブラリが太枠で囲まれる。ここでは、アルバム1配下のA01ライブラリが太枠で囲まれているので、ユーザは表示中の各画像の格納先がA01であることが一目で分かる。
また、表示されている画像I100、I101、I102、I103、・・・のそれぞれは、表示対象のライブラリに含まれ、且つ分類されなかった画像であり、表示されている各画像の下方にはチェックボックスC100、C101、C102、C103、・・・が表示されている。ユーザは、表示中の画像のうち1つ以上の画像に対してチェックボックスにチェックを行うことで、処理対象の画像を指定することができる。例えば、図16では、画像I102、I103の他に3つの画像(計5つの画像)が指定されている。
ボタンB100は、処理指定した複数の画像に同一物体が含まれることを指示するものである。これが押下されると、同一特徴抽出部8は指定された複数の画像から同一物体に係る特徴量を抽出する。なお、以降の同一特徴抽出部8及びローカルモデル作成部9の動作は第1の実施の形態と同様であるので、ここでの説明は省略する。
ボタンB101は、処理指定した1つ以上の画像に対して、タグ情報を関連付けることを指示するものである。ユーザ操作によりこのボタンB101が押下されると、表示画面は画像G100から画像G200へ遷移する。
ボタンB102は、処理指定した1つ以上の画像に対して、特徴量を抽出する領域を指定するものである。このボタンB102を押下した後、ユーザはマウスの操作により抽出する領域を指定する。
ボタンB103は、ユーザインタラクションによる処理の終了を指示するためのものである。
スクロールバーSB100は、表示される画像をスクロールするためのものである。ユーザがマウスを用いて、この表示されるスクロールバーSB100を操作することで画像がスクロールされる。
(画像G200)
図17で示す画像G200は、画像G100においてボタンB101が押下された場合に、表示されるものである。ここでは、図16の画像I103が指定され、ボタンB101が押下された場合の表示態様を示す。
ユーザインタラクション入力部30は、指定された画像を表示し、その後、ユーザからタグ情報を関連付ける物体の指定を受け付ける。
具体的には、タッチパネル上で、タグ情報を関連付ける物体を取り囲むようにユーザが指で領域を指定する。例えば、物体O200に対してタグ情報を関連付けたい場合には、物体O200を取り囲むように領域O201を指定する。
ユーザインタラクション入力部30は、領域O201の指定を受け付けると、タグ名を入力するボックスT200を表示する。
ユーザは、ボックスT200にタグ情報(ここでは、タグ名として「イス」)を入力する。
ユーザインタラクション入力部30は、タグ情報が関連付けられた画像の未分類情報を取得し、ローカルモデル作成部9へタグ情報とともに通知する。
その後、ローカルモデル作成部9は、指定された物体O200に対して作成されたローカルモデルに、入力されたタグ情報(「イス」)を関連付ける。
(画像G300)
図18で示す画像G300は、データ処理装置によって分類された結果に基づく指示を入力する際の一例を示すものである。
図18で示す画像G300には、ライブラリG301、画像I300、I301、I302、I303、・・・、ボタンB300、B301、B302、B303、スクロールバーSB300が含まれる。
ライブラリG301では、同一特徴抽出部8、ローカルモデル作成部9により、検出された物体毎のライブラリ名を表示する。ここで、表示中のフォルダがユーザに分かるように、表示対象のライブラリ名が太枠で囲まれる。ここでは、ライブラリ名「X001」が太枠で囲まれている。
また、表示されている画像I100、I101、I102、I103、・・・のそれぞれは、表示対象のライブラリ「X001」に含まれる画像であり、表示されている各画像の下方にはチェックボックスC100、C101、C102、C103、・・・が表示されている。ユーザは、表示中の画像のうち1つ以上の画像に対してチェックボックスにチェックを行うことで、処理対象の画像を指定することができる。例えば、図18では、画像I302の他に3つの画像(計4つの画像)が指定されている。
ボタンB300は、処理指定した複数の画像を用いて、再度、ローカルモデル作成を行うことを指示するものである。これが押下されると、同一特徴抽出部8は指定された複数の画像から同一物体に係る特徴量を抽出する。なお、以降の同一特徴抽出部8及びローカルモデル作成部9の動作は第1の実施の形態と同様であるので、ここでの説明は省略する。
ボタンB301は、処理指定した1つ以上の画像を除く残りの画像を用いて、再度、ローカルモデル作成を行うことを指示するものである。これが押下されると、同一特徴抽出部8は指定された複数の画像から同一物体に係る特徴量を抽出する。なお、以降の同一特徴抽出部8及びローカルモデル作成部9の動作は第1の実施の形態と同様であるので、ここでの説明は省略する。例えば、図18では主に犬が写っている画像を集めているが、中には猫や風景だけの画像もあるため、それらをチェックボックスで指定して、ボタンB301を押下することで、犬が写っている画像のみから、再度ローカルモデルを作成することができる。
ボタンB302は、処理指定した複数の画像と残りの画像とに分割し、分割されたそれぞれの画像群に対して、ローカルモデルを作成することを指示するものである。このボタンB302が押下されると、同一特徴抽出部8及びローカルモデル作成部9により分割された画像群それぞれに対するローカルモデルが作成される。
ボタンB303は、2つ以上のライブラリを統合することを指示するものである。このボタンB303が押下されると、同一特徴抽出部8及びローカルモデル作成部9により2つ以上のライブラリを用いてローカルモデルが作成される。
スクロールバーSB300は、スクロールバーSB100と同様の機能であるので、ここでの説明は省略する。
ユーザインタラクション入力部30は、ボタンB300及びボタンB301が押下され、再度分類がされると、その結果を表示する。
また、ユーザインタラクション入力部30は、ボタンB302が押下され、表示中の画像群の分割がなされると、その結果を表示する。
また、ユーザインタラクション入力部30は、ボタンB303が押下され、指定された2つの画像群の統合がなされると、その結果を表示する。
このユーザインタラクション入力部30により、例えば、図18に示すように、ユーザがデータ処理装置によって分類された結果に関して、色々な物体が混在している際に主となる分類内容以外を指定して、ボタンB301を押下することで、その内容が修正される。具体的には、図18内のライブラリ「X001」には、主に犬が写っている画像を格納されているが、中には猫やシーンだけの画像もあるため、それらをチェックボックスで指定して間違っていることをデータ処理装置にフィードバックすることでその内容が修正され犬だけが検出されている画像群にすることができる。他にも、正しい内容だけを指定することや、犬の中でもさらに種類によって分けたい時には再分割をしたり、分割され過ぎている場合には統合する等の修正方法が可能となる。
3.2 動作
ユーザインタラクションによる指示の受付を用いることによって、同一特徴抽出処理及びローカルモデル作成処理の改善方法について具体的に説明する。図19は、その具体的なフィードバック処理の手順を示したフローチャートである。
ユーザ入力が開始されるとフィードバック処理を開始する。まず、ユーザがAVデータに関連した情報を入力した場合に、ユーザインタラクション入力部30は、その情報を取得する(ステップS31)。具体的には、図16で示す画像G100や図18で示す画像G300において、処理対象の画像が指定され、何れかのボタンが押下される際に指定されている画像の枚数と、押下されたボタンに対応する処理内容とを、入力情報として取得する。
その入力情報が画像処理内容を改善できる情報かどうかを判定する(ステップS32)。 なお、ここでの改善可能な情報としては、AVデータが画像の場合には画像に含まれる被写体の領域関連情報やタグ関連情報や画像群に関するイベント関連情報や指定された画像の枚数である。
具体的には、ユーザインタラクション入力部30は、ボタンB100及びボタンB300が押下された場合には指定された画像が2つ以上あるか否か、ボタンB101が押下された場合には指定された画像が1つ以上あるか否か、ボタンB301が押下された場合には、指定された画像を除く残りの画像が2つ以上存在するか否かを判断する。また、ボタンB302が押下された場合には分割された2つの画像群それぞれに、2つ以上の画像が含まれているか否か、ボタンB303が押下された場合には2つ以上のライブラリが指定されているか否かを判断する。
改善可能であると判断する場合(ステップS32における「Yes」)、ユーザインタラクション入力部30は、取得した入力情報を同一特徴抽出部8やローカルモデル作成部9で処理が可能な情報に変換する(ステップS33)。具体的には、ユーザインタラクション入力部30は、指定された1つ以上の画像それぞれに対する未分類情報(AVデータを識別する識別子)を取得する。また、例えば、家で飼っているペットに名前タグを付けた場合には、その名前が付けられた画像及び領域を、同一物体が存在する画像情報(未分類情報)に変換する。
同一特徴抽出部8及びローカルモデル作成部9で、変換された情報を基に各種改善可能な処理を行い結果内容を更新する(ステップS34)。更新がなされると、ユーザインタラクション入力部30は、ユーザ入力が完了したかどうかを判定する(ステップS35)。完了したと判断する場合には(ステップS34における「Yes」)、フィードバック処理を完了する。完了していないと判断する場合には(ステップS34における「No」)、処理はステップS31に戻り、ユーザ入力が完了するまで処理を繰り返す。
改善可能でないと判断する場合(ステップS32における「No」)、処理はステップS35へ移る。
3.3 まとめ
第1の実施の形態では、同一特徴抽出部8では、自動的に同一特徴を抽出していた際には同一物体かどうかは関係なく特徴の類似性のみを判断根拠として類似性によるクラスタリング手法を用いて同一特徴を抽出していた。そのため、不要な特徴量も混在することとなり、同一特徴の抽出の精度はあまり高くないものとなる。しかしながら、本実施の形態では、ユーザが同一物体を予め指定するので、データ処理装置は、同一物体だと情報が予め分かっている場合には、限定された同一物体の画像情報のみから類似性を算出して同一特徴を抽出できるため、精度の高い抽出を行うことができる。
また、ローカルモデル作成部9では、同一物体情報を直接入力された場合には、必要なローカルモデルを直接画像から学習して作成することができるため精度の良い分類モデルが生成可能となる。間接的な情報として、同一物体が含まれているかどうかだけの情報であっても間違って作成した分類モデルを修正することができる。
なお、ユーザインタラクションは1つ1つのユーザ入力単位でもよいし、一定の機能に関してまとめられた入力単位等であってもよい。
以上のように、データ処理装置によって全て自動的に処理を行って同一特徴やローカルモデルを作成するのではなく、ユーザインタラクションとしてユーザ入力によるフィードバック処理も考慮して修正しながら同一特徴やローカルモデルを作成する構成にすることにより、段階的に分類精度を改善していくローカルモデルとすることができるため、あるローカルAVデータ群に特有な物体のカテゴリを段階的に修正定義しそのモデル情報を確実に抽出することが可能となる。
4.第4の実施の形態
以下、図面を参照して、本発明に係る第4の実施の形態について説明する。
本実施の形態は、基本辞書DB5において予め分類部4で分類するためのカテゴリが定義されていない場合であっても、AVデータに含まれる一般的なカテゴリを分類するための類似特徴と、ローカルに特有な物体を分類するための同一特徴との両方を考慮することで、基本辞書DBとローカル辞書DBの両方を自動的に作成する方法に関するものである。
なお、本実施の形態において、実施の形態1と同じ機能を有する構成には同じ符号を付し、その説明が適用できるため説明を省略する。
本実施の形態では、ローカルDBに適した一般的なモデル及びローカルモデルを全て自動生成する方法として、予め定義したカテゴリのモデル情報を蓄積しておいて生成する方法ではなく、各モデルを生成するための特徴を別々に算出して利用することを考慮して、同一特徴に加えて一般的なモデルを分類するための類似特徴を生成して一般的なモデルも自動生成する方法を用いている。本発明の実施の形態で利用されるデータとして主に画像を想定し、画像解析において上記2種類の特徴(同一特徴及び類似特徴)を基に一般的なモデルとローカルモデルを生成する方法について具体的に説明する。
4.1 構成
図20は本発明のデータ処理装置100aの原理的な構成を示すブロック図である。図20において、データ処理装置100aは、ローカルDB1と、前処理部2と、特徴量抽出部3と、分類部40と、基本辞書DB5と、検索インデクスDB6と、同一特徴抽出部8と、ローカルモデル作成部9と、ローカル辞書DB10と、基準パラメータDB11と、全画像特徴DB(データベース)41と、類似特徴抽出部42と、グローバルモデル作成部43とから構成されている。ローカルDB1と、前処理部2と、特徴量抽出部3と、基本辞書DB5と、検索インデクスDB6と、同一特徴抽出部8と、ローカルモデル作成部9と、ローカル辞書DB10と、基準パラメータDB11とについては、第1の実施の形態に記載の内容と同じであるので、ここでの説明は省略する。
(1)全画像特徴DB41
全画像特徴DB41は、特徴量抽出部3で算出された全ての未分類情報が蓄積される。
(2)類似特徴抽出部42
類似特徴抽出部42は、全画像の特徴量から特定のモデル(例えば、犬)を分類するのではなく、色々な種類のモデル(例えば、犬)に共通な特徴量を抽出する。
類似特徴抽出部42は、同一特徴抽出部8と同様に、基準パラメータDB11に含まれる第1基準パラメータテーブルT100を用いて、全画像特徴DB41に蓄積されている未分類情報の数が類似特徴の抽出処理を開始するのに必要な一定以上の数になっているかどうかを判定する。
判定が肯定的な場合に、類似特徴抽出部42は、類似特徴の抽出処理を行う。判定は否定的な場合には、類似特徴抽出部42は、類似特徴の抽出処理は行わない。
ここで、類似特徴の抽出方法として、同一特徴の抽出時よりも特徴量の類似性を判定する基準を下げたり、同一特徴と一定レベル以上の類似する特徴を融合したり、同一特徴以外の特徴量を利用したり、予め利用特徴量を定義しておくことが考えられる。
(3)グローバルモデル作成部43
グローバルモデル作成部43は、類似特徴抽出部42で抽出された類似特徴を用いて、あるローカルAVデータ群における一般的な物体のカテゴリを定義しそのモデル情報を算出処理する。
これにより、データ処理装置100aは、ローカルAVデータ群の情報から一般的な分類モデルも作成するため、分類できない情報が減少し分類可能な情報を増やすことができる。
(4)分類部40
分類部40は、第1の実施の形態と同様に、AVデータから抽出された特徴量を用いて既存のモデルデータとのマッチング処理を行い、入力データがどのモデルと適合しているかの判定処理を行う。
しかしながら、分類部40は、基本辞書DB5及びローカル辞書DB10に予め定義されたモデルが存在しない場合には、処理を行うことなく、特徴量抽出部3で特徴量の算出対象となったAVデータの未分類情報を全画像特徴DB41に蓄積する。
その後、ローカルモデル作成部9及でローカルモデルが、グローバルモデル作成部43でグローバルモデルがそれぞれ作成されると、分類部4は判定処理を行い、AVデータに対するタグ情報等のメタデータを付与する。
4.2 まとめ
以上のように、予め分類モデルを定義して保持しておくのではなく、ローカルAVデータから得られる特徴量によって、同一被写体性の高い特徴量のみではなく類似被写体性の高い特徴量も抽出して全ての分類モデルを、データ処理装置100aは自動的に作成している。これにより、データ処理装置100aは、同一被写体性の高いローカルモデルだけではなく、類似被写体性の高いグローバルモデルも分類できるため、あるローカルAVデータ群に含まれる物体のカテゴリを全て自動的に定義しそのモデル情報を抽出することが可能となる。
5.第5の実施の形態
以下、図面を参照して、本発明に係る第5の実施の形態について説明する。
本実施の形態は、同一特徴を抽出する際やローカルモデルを作成する際に、ユーザから複数の画像の指定を受け付け、受け付けた複数の画像から同一特徴やローカルモデルを生成したりする方法に関するものである。
なお、本実施の形態において、第1の実施の形態や第3の実施の形態と同じ機能を有する構成には同じ符号を付し、その説明が適用できるため説明を省略する。
また、特に記載のある場合を除いて、データ処理装置の原理的な構成を含めて、第1の実施の形態又は第3の実施の形態のそれと同じである。
本実施の形態では、第3の実施の形態と同様に、各種処理の入出力においてユーザインタラクションによるユーザの入力情報を考慮してローカルDB1に特有な特徴及びモデルを精度良く生成する方法を用いている。
本発明の実施の形態で利用されるデータとして主に画像を想定し、画像解析における入出力に際してユーザインタラクションを基に同一特徴及びローカルモデルを生成する方法について具体的に説明する。
5.1 構成
ここでは、第5の実施の形態に係るデータ処理装置100bの構成について、第1の実施の形態及び第3の実施の形態と異なる点を中心に説明する。
データ処理装置100bは、図21に示すように、ローカルDB1、前処理部2、特徴量抽出部3、分類部4、基本辞書DB5、検索インデクスDB6、未分類特徴DB7、同一特徴抽出部58、ローカルモデル作成部59、ローカル辞書DB10、基準パラメータDB11及び登録部51とから構成されている。
以下、第1の実施の形態とは異なる登録部51の機能及び、同一特徴抽出部58やローカルモデル作成部59における更なる機能について説明する。
(1)登録部51
登録部51は、同一特徴抽出部58やローカルモデル作成部59で処理される内容の精度を高めるため、ユーザが分類したい複数の画像からなる画像群を選択してローカルモデルを生成するための指示を受け付ける機能である。
具体的には、登録部51は、例えば図16で示す画像G100、図17で示す画像G200、及び図18に示す画像G300と同様の画像を表示し、ユーザからの指示を受け付ける。なお、本実施の形態では、第3の実施の形態と同様にタッチパネル機能を備えているものとする。
また、以降の説明において、図16、17及び18のそれぞれで示す画像G100、G200及びG300を用いて説明する。
本実施の形態で表示される画像G100の画面構成は、第3の実施の形態で示すものと同一であり、表示対象となる画像が異なる。本実施の形態では、ローカルモデルは未だ作成されていない状態であって、表示対象となる画像は分類に用いられていないものであるとする。
他の画面構成、例えばライブラリG101、チェックボックスC100、C101、C102、C103、・・・、ボタンB100、B101、B102、B103、スクロールバーSB100については、第3の実施の形態と同様であるので、ここでの説明は省略する。
例えば、画像G100が表示されている間には、ユーザは、スクロールバーSB100を用いてスクロール操作を行いながら登録対象となる画像群を容易に選択することができる。
また、画像G300で示すボタンB300が押下されると、後述する同一特徴抽出部58及びローカルモデル作成部59の機能により生成されたローカルモデルがローカル辞書DB10に登録される。
(2)同一特徴抽出部58
同一特徴抽出部58は、登録部51で指定された画像群から同一の特徴を抽出するものである。
具体的には、同一特徴抽出部58は、例えば画像G100において、複数の画像がチェックされた後、ボタンB100が押下されると、チェックされた画像群に含まれる複数の画像を、撮影時期が近いもの、つまりイベント単位に分類する。
同一特徴抽出部58は、分類された複数の画像単位で、同一特徴を抽出する。抽出方法は、第1の実施の形態で示す同一特徴抽出部8と同様であるので、ここでの説明は省略する。
(3)ローカルモデル作成部59
ローカルモデル作成部59は、同一特徴抽出部58で分類された複数の画像単位で抽出された同一特徴毎に、ローカルモデルを作成する。
ローカルモデルの作成方法については、第1の実施の形態で示すローカルモデル作成部59と同様であるので、ここでの説明は省略する。
5.2 動作
ここでは、データ処理装置100がユーザ指定により指定された画像群から同一特徴抽出する際の処理について、図22に示すフローチャートを用いて説明する。
登録部51は、ユーザにより登録指示及び対象となる複数の画像の指定を受け付ける(ステップS100)。具体的には、登録部51は、画像G100において、複数の画像がチェックされた後、ボタンB100が押下されることで、登録指示及び画像の指定を受け付ける。
登録部51で登録指示及び画像の指定が受け付けられると、同一特徴抽出部58は、受け付けた画像が複数枚指定されているか否かを判断する(ステップS105)。
複数枚指定されていないと判断する場合(ステップS105における「No」)、処理は終了する。
複数枚指定されていると判断する場合(ステップS105における「Yes」)、同一特徴抽出部58は、イベント単位毎に分類する(ステップS110)。
同一特徴抽出部58は、1つのイベントを選択する(ステップS115)。
同一特徴抽出部58は、選択したイベントに含まれる画像数が一定数以上であるか否かを判断する(ステップS120)。
一定数以上であると判断する場合(ステップS120における「Yes」)、同一特徴抽出部58は、選択したイベントに含まれる複数画像から一定頻度以上算出される基準特徴量を抽出する(ステップS125)。特徴量の種別は、特徴量抽出部3で抽出される特徴量であれば何でもよく、色情報と高次特徴量のSIFTを組み合わせて利用する事なども考えられる。ここでは、SIFT特徴量を利用していると想定する。基準特徴量は、ある一定閾値以上の類似度を持つSIFT特徴量などが指定された全画像において過半数以上存在する等の条件によって識別して抽出することが可能である。
次に、抽出された基準特徴量毎に、同一特徴抽出部58は、代表特徴量と全頻出特徴量の類似度を算出する(ステップS130)。例えば、頻出特徴量がSIFT特徴量である場合には、全画像データの各SIFT特徴量に対する距離を類似度として算出する。同一特徴抽出部58は、基準特徴量毎に分類されなかった全ての画像内のSIFT特徴量との一致度合いを例えば0(全く一致せず)〜1(完全に一致)の間に正規化して類似度分布を算出する(ステップS135)。同一特徴抽出部58は、その一致度分布において0に近い割合が高く1に近い割合も高いような場合、例えば図23に示すような分布をしている場合には、同一物体性を判定可能だと考えられる頻出特徴量を判定して抽出し(ステップS140)、同一特徴としてローカルモデル作成部9に出力する。
同一特徴抽出部58は、未選択のイベントが存在するか否かを判断する(ステップS145)。
存在すると判断する場合(ステップS145における「Yes」)、同一特徴抽出部58は、次のイベントを選択し(ステップS150)、ステップS120へ戻る。
存在しないと判断する場合には(ステップS145における「No」)、処理は終了する。
以降、ローカルモデル作成部9では、抽出された同一特徴を用いて、イベント単位にローカルモデルを作成する。
5.3 第5の実施の形態における変形例
以上、本発明の一例として、第5の実施の形態に基づいて説明したが、これに限定されない。例えば、以下のような変形例が考えられる。
(1)上記第5の実施の形態において、同一特徴抽出部58は、指定された画像群を、イベント単位に分割したが、これに限定されない。
同一特徴抽出部は、指定された画像群をイベント単位に分割することなく、指定された画像群から複数の同一特徴を抽出してもよい。
このとき、ローカルモデル作成部は、抽出された複数の同一特徴をイベント単位に分類してもよいし、またはイベント単位に分類することなく、抽出された全ての同一特徴からローカルモデルを作成してもよい。
(2)上記第5の実施の形態において、ローカルモデル作成部59は、イベント単位にローカルモデルを作成するものとしたが、これに限定されない。
ローカルモデル作成部は、イベント単位に抽出された同一特徴全てを用いてローカルモデルを作成するとしてもよい。この場合、イベント毎に作成されたローカルモデルそれぞれに共通な特徴だけを抽出し、抽出した特徴からローカルモデルのコア部分を生成する。さらには、コア部分のローカルモデルと各ローカルモデルとの差分を算出することでこれらローカルモデルの傾向変化を抽出することやその変化傾向及び区間全体の画像傾向に適する新たなローカルモデルを生成してもよい。
または、ローカルモデル作成部は、イベント単位にローカルモデルを作成し、一のイベントと、他のイベントの間に存在し、ユーザが指定した画像から特定されていないイベント(未選択イベント)についてのローカルモデルを、前記一のイベントのローカルモデルと前記他のイベントのローカルもでるとから生成してもよい。例えば、ユーザから指定された画像群が、図11での区間1、3で示される2つのイベントに分割された場合、ローカルモデル作成部は、区間1、3それぞれにおけるローカルモデルを作成し、さらには、区間1、3それぞれにおけるローカルモデルから区間1、3の間に存在する区間2(ユーザから指定されていない区間)についてのローカルモデルを作成する。
また、ローカルモデル作成部は、利用する2つのイベントそれぞれにけるローカルモデルに重み付けをして、未選択イベントについてのローカルモデルを作成してもよい。例えば、上記と同様に、選択されたイベントが区間1、3であり、未選択イベントが区間2とした場合に、区間1と区間2との差分が2日であり、区間2と区間3との差分が3であるときについて考える。この場合、区間1のローカルモデル(X)と、区間3のローカルモデル(Y)とを用いて、区間2のローカルモデル(Z)を、数式“Z=X×(3/5)+Y×(2/5)”により算出する。
(3)上記第5の実施の形態において、ユーザは登録指示を行う際に、画像に含まれる物体の向き毎に選択してもよい。
例えば、ローカルモデルを作成する対象としてペットや人を選択したい場合、ユーザは、ペットや人の顔を正面から撮影した画像、右側面から撮影した画像、左側面から撮影した画像等に撮影角度に応じて選択を行う。
同一特徴抽出部は、撮影角度毎に同一特徴を抽出する。
(4)上記第5の実施の形態において、同一特徴抽出部58が画像群をイベント毎に分割するとしたが、これに限定されない。
ユーザが画像を指定する際に、イベント毎に分類して画像を指定してもよい。
(5)上記第5の実施の形態において、データ処理装置は、ローカルモデルが未だ作成されていない状態において、分類されていない画像のみを表示対象としたが、これに限定されない。
ローカルモデルが未だ作成されていない状態において、表示される画像は、分類されているか否かに関わらず、表示対象のライブラリに含まれるものであってもよい。
(6)上記第5の実施の形態及びこれら変形例を組み合わせてもよい。
5.4 まとめ
上述したように、ローカルモデル作成部59は、イベント単位毎(例えば、図11に示す区間単位毎)にローカルモデルを生成すると共にそのモデルの時間継続性をユーザにより指定された画像群で判定することができる。例えば、ユーザが指定した画像群が図11に示す区間1と2と6に含まれていた場合、区間1と2と6でユーザが指定した対象を含む画像群を基にそれぞれの区間についてローカルモデルを生成する事で、それぞれの区間全体の画像傾向(例えば画像の平均的な色ヒストグラムや特徴物体の含有度や背景種類等)に対して最適な登録対象となるローカルモデルを生成することができる。
また、例えば、ユーザが指定した画像群が図11に示す区間3のみに含まれていた場合、イベント的に撮影された可能性が高く、その区間のみで最適化されたローカルモデルを作成することもできる。さらに各区間で同一特徴を抽出し利用する特徴量自体を限定して利用することもできる。
6.変形例
以上、実施の形態に基づいて説明したが、本発明は上記の各実施の形態に限られない。例えば、以下のような変形例が考えられる。
(1)上記各実施の形態において、分類部4で行われる判定処理で用いられる判別器は機械学習手法によるものとしたが、これに限定されない。判別器は、ある判別基準に従って、ある特徴量を持った信号が属する、ある定義された分類項目を判別することができる方法であればよい。
(2)本発明において利用される基準特徴量は、特徴量抽出部3で抽出される特徴量においてAVデータ内の特徴を捉えられるものであればよい。
例えば、画像ではBoF(Bag Of Features)における各VisualWord等の部分パーツ特徴量が、音声では言語基本モデルとしての母音や子音の発話モデル等が考えられる。
(3)上記各実施の形態において、同一特徴の抽出処理の開始には、一例として第1基準パラメータテーブルT100を用いるものとしたが、このテーブルの内容に限定されない。
分類結果の増減に合わせて処理を開始可能な数であればその種別は問わない。例えば、簡易的には全てのデータ数の増減に応じてデータ処理装置は同一特徴抽出の処理を行っても良いし、第1基準パラメータテーブルT100の各基準のうち少なくとも2つ以上の基準を満たす場合に処理を行ってもよい。
(4)上記各実施の形態において、同一特徴抽出部8及び同一特徴抽出部58は、全画像データ毎に図3に示すような検出頻度を算出し、一定区間毎の検出頻度値の検出数を算出するとしてもよい。
(5)上記各実施の形態において、類似度分布の検出数の値を0〜1に正規化してもよい。これにより、することで計算処理を簡易化することができる。
(6)上記各実施の形態において、同一特徴抽出部8及び同一特徴抽出部58は、第2基準パラメータテーブルT110における複数のピーク値基準の何れかを満たす場合に、対応する基準特徴量は同一物体性を判定可能と判定したが、これに限定されない。
利用する基準特徴量毎に、ピーク値基準を対応付けてもよい。
(7)上記第3の実施の形態において、図16の例では、画像をチェックボックスを用いて選択するとしたが、これに限定されない。
画像を直接触る(タッチする)ことにより選択してもよい。
図17の例では、1つの物体(イス)を選択して、タグ入力したが、1枚の画像に複数の物体を選択して、各物体に対するタグをそれぞれ入力してもよい。
つまり、同一特徴抽出部8やローカルモデル9の処理結果を修正できるユーザインタラクションの内容であればその手法は問わない。
(8)上記第1の実施の形態において、未分類特徴DB7には、未分類情報としてAVデータを識別する識別子が格納されるとしたが、これに限定されない。
未分類特徴DB7には、未分類情報として特徴量抽出部3で算出されたAVデータに対する特徴量が格納されてもよい。
(9)上記各実施の形態において、画像を中心に説明したが、本発明の装置は、画像のみを対象にするものではない。
音声を基にローカルモデルを作成してもよい。
何かしらの特徴を基にローカルモデルを作成することのできるデータであればよい。
また、本発明の装置は、ローカルモデルを作成することのできるデータを蓄積することのできる装置、例えば、DVDレコーダー、TV、パソコンやデータサーバー等に組み込まれてもよい。
(10)上記各実施の形態では、特徴量抽出部は、エッジや色やテクスチャ等の低次特徴量から特徴的な点を中心に領域特徴量を現す特徴量記述子であるSURFやSIFT等の特徴量、さらには物体の形状特徴を現すHOG(Histogram of oriented Gradient)等の高次特徴を抽出したが、これに限定されない。
特徴量抽出部は、エッジや色やテクスチャ等において類似する局所特徴群を含む特徴群を生成してもよい。このとき、同一特徴抽出部は、生成された特徴群に含まれる各局所特徴群から特徴量の類似性及び特徴量の出現頻度等を算出する。
(11)上記の実施の形態で説明した手法の手順を記述したプログラムをメモリに記憶しておき、CPU(Central Processing Unit)などがメモリからプログラムを読み出して、読み出したプログラムを実行することによって、上記の手法が実現されるようにしてもよい。
また、当該手法の手順を記述したプログラムを記録媒体に格納して、頒布するようにしてもよい。
(12)上記の各実施の形態にかかる各構成は、集積回路であるLSI(Large Scale Integration)として実現されてもよい。これらの構成は、1チップ化されても良いし、一部又は全てを含むように1チップ化されてもよい。ここでは、LSIと表現したが、回路の集積度の違いによっては、IC(Integrated Circuit)、システムLSI、スーパーLSI、ウルトラLSIと称呼されることもある。また、集積回路化の手法は、LSIに限られるものではなく、専用回路または汎用プロセッサで集積回路化を行ってもよい。また、LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサー(ReConfigurable Processor)を用いてもよい。あるいは、これらの機能ブロックの演算は、例えば、DSP(Digital Signal Processor)やCPU(Central Processing Unit)などを用いて演算することもできる。さらに、これらの処理ステップはプログラムとして記録媒体に記録して実行することで処理することもできる。
さらには、半導体技術の進歩または派生する別技術によりLSIに置き換わる集積回路の技術が登場すれば、当然、その技術を用いて機能ブロックを集積化してもよい。バイオ技術の適応などが可能性としてあり得る。
(13)上記実施の形態及び変形例を組み合わせるとしてもよい。
本発明のデータ処理装置は、一般的なモデルでは識別できなかったデータを分類し、ユーザに特化したローカルモデルを作成するのに有用である。
また、本発明にかかるデータ処理装置は、主に全特徴量を用いた距離空間によってローカルモデルを作成するたけではなく、利用する特徴量を同一被写体性の高い特徴量のみに限定したり、一定区間毎に分割して時系列的継続性を考慮したモデル生成をすることにより、一般的な分類モデルではなくローカルAVデータに対して識別性が高いローカルな分類モデルとすることができる。そのため、ローカルAVデータ群に特有な物体情報を精度よく抽出してデータのインデクスとすることでユーザに手間のかからないAVデータ分類や検索が可能となる。例えば、写真の検索をする際に、一般的な分類モデルでは分類が不十分な場合でも、ユーザのローカル画像群に特有な分類モデルを作成し分類する画像処理機能を有し、様々な画像視聴端末機等として有用である。また、DVDレコーダーやTV(Television)やパソコンソフトやデータサーバー等の用途にも応用できる。
1 ローカルDB
2 前処理部
3 特徴量抽出部
4 分類部
5 基本辞書DB
6 検索インデクスDB
7 未分類特徴DB
8 同一特徴抽出部
9 ローカルモデル作成部
10 ローカル辞書DB
11 基準パラメータDB
20 ローカルモデル作成部
21 区間情報抽出部
22 区間モデル作成部
23 モデル継続性判定部
30 ユーザインタラクション入力部
40 分類部
41 全画像特徴DB
42 類似特徴抽出部
43 グローバルモデル作成部
100 データ処理装置

Claims (16)

  1. 複数の特徴量それぞれの検出頻度の組み合わせからなり、オブジェクトの分類に用いられる複数のモデルデータを保持する記憶手段と、
    前記複数のモデルデータと、分類対象のデータにおいて検出される2つ以上の特徴量それぞれの検出頻度とから、当該データに含まれるオブジェクトの分類の可否を特定する分類手段と、
    複数の分類対象のデータについて前記分類手段による処理を行った後、オブジェクトの分類が否と特定された未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上である特徴量を2つ以上特定する特定手段と、
    新たなモデルデータを、クラス作成手法により、特定された2つ以上の特徴量に基づいて作成し、前記記憶手段へ格納するモデル作成手段とを備える
    ことを特徴とするデータ処理装置。
  2. 前記特定手段は、
    前記未識別データ毎に、前記複数の特徴量それぞれに対して当該特徴量に類似する特徴量が検出される検出頻度を取得し、
    前記未識別データそれぞれから取得された検出頻度から、前記複数の特徴量毎に検出頻度の分布度合を生成し、
    前記分布度合それぞれから、検出される頻度が同一である未識別データが一定数以上となる特徴量を2つ以上特定する
    ことを特徴とする請求項1に記載のデータ処理装置。
  3. 前記特定手段は、
    前記複数の未識別データを所定規則に従った区間毎にグループ化して複数のデータ群を生成し、前記データ群毎に、検出頻度の取得、分布度合の生成、及び特徴量の特定を行い、
    前記モデル作成手段は、
    前記データ群毎に新たなモデルデータを作成する
    ことを特徴とする請求項2に記載のデータ処理装置。
  4. 前記未識別データそれぞれには、当該未識別データが作成された日時を示す時間情報が対応付けられており、
    前記所定規則に従った区間とは、一定の時間帯毎に区切られた期間であり、
    前記特定手段は、
    前記複数の未識別データを一定の時間帯に区切られた期間毎にグループ化して前記複数のデータ群を生成する
    ことを特徴とする請求項3に記載のデータ処理装置。
  5. 前記モデル作成手段は、
    複数の新たなモデルデータが作成された場合、一のデータ群において生成された一のモデルデータが、他のデータ群において生成された他のモデルデータと時間的推移による相関関係があるか否かを判定し、相関関係があると判定する場合には、当該一のモデルデータと当該他のモデルデータとを時間変化性をもつモデルデータとして対応付ける
    ことを特徴とする請求項4に記載のデータ処理装置。
  6. 前記モデル作成手段は、
    前記一のモデルデータを特徴付ける第1の特徴量の類似性の変化度と、前記他のモデルデータを特徴付ける第2の特徴量の類似性の変化度との間に比例関係がある場合に、相関関係があると判定する
    ことを特徴とする請求項5に記載のデータ処理装置。
  7. 前記モデル作成手段は、
    一のデータ群において生成された一のモデルデータが、他のデータ群において生成された他のモデルデータと同一である場合又は残りのデータ群において当該一のモデルデータと同一のものが周期的に出現する場合には、当該一のモデルデータのみを前記記憶手段へ記憶する
    ことを特徴とする請求項5に記載のデータ処理装置。
  8. 前記特定手段は、
    前記未識別データ全てを用いて、特徴量毎に対する算出頻度を取得し、取得した算出頻度が所定頻度以上である1つ以上の特徴量を特定し、前記オブジェクトの識別がされなかったデータ毎に、取得した1つ以上の特徴量それぞれに対する検出頻度を取得し、
    当該データ毎に取得された1つ以上の検出頻度から、前記分布度合を生成する
    ことを特徴とする請求項2に記載のデータ処理装置。
  9. 前記データ処理装置は、さらに、
    前記複数の未識別データを表示する表示手段と、
    表示された未識別データから2つ以上のデータの指定をユーザから受け付ける指示受付手段を備え、
    前記特定手段は、
    前記指示受付手段で受け付けた前記2つ以上の未識別データそれぞれから取得される前記複数の特徴量毎の検出頻度から、または前記2つ以上のデータを除く残りのデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、前記複数の特徴量毎の前記分布度合を作成する
    ことを特徴とする請求項2に記載のデータ処理装置。
  10. 前記指示受付手段は、新たなモデルデータが未だ作成されていないときに、前記指示を受け付ける
    ことを特徴とする請求項9に記載のデータ処理装置。
  11. 前記特定手段は、
    前記指示受付手段で受け付けた前記2つ以上の未識別データそれぞれについて、当該未識別データの作成日時に基づいて、当該作成日時が複数の期間のうち何れかの期間に属するよう、前記2つ以上の未識別データそれぞれをグループ分けし、グループ毎に前記分布度合を作成する
    ことを特徴とする請求項10に記載のデータ処理装置。
  12. 前記データ処理装置は、さらに、
    前記モデルデータ作成手段で作成された前記新たなモデルデータにより識別されるオブジェクトを有するとみされる複数のデータを表示する表示手段と、
    表示された複数のデータから2つ以上のデータの指定をユーザから受け付ける指示受付手段を備え、
    前記特定手段は、
    前記指示受付手段で受け付けた前記2つ以上のデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、または前記2つ以上のデータを除く残りのデータそれぞれから取得される前記複数の特徴量毎の検出頻度から、前記複数の特徴量毎に前記分布度合とは異なる分布度合を作成し、
    前記モデルデータ作成手段は、
    前記異なる分布度合から前記新たなモデルデータとは異なるモデルデータを作成する
    ことを特徴とする請求項2に記載のデータ処理装置。
  13. 前記データは画像であり、
    前記特定手段は、
    前記オブジェクトの識別がされなかった画像毎に、当該画像で検出される1つ以上の特徴量の類似度を用いて少なくとも局所特徴群を含む高次特徴群を生成し、各局所特徴群から前記検出頻度を取得する
    ことを特徴とする請求項2に記載のデータ処理装置。
  14. 複数の特徴量それぞれの検出頻度の組み合わせからなり、オブジェクトの分類に用いられる複数のモデルデータを保持する記憶手段を備えるデータ処理装置で用いられるデータ処理方法であって、
    前記複数のモデルデータと、分類対象のデータにおいて検出される2つ以上の特徴量それぞれの検出頻度とから、当該データに含まれるオブジェクトの分類の可否を特定する分類ステップと、
    複数の分類対象のデータについて前記分類ステップによる処理を行った後、オブジェクトの分類が否と特定された未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上である特徴量を2つ以上特定する特定ステップと、
    新たなモデルデータを、クラス作成手法により、特定された2つ以上の特徴量に基づいて作成し、前記記憶手段へ格納するモデル作成ステップとを含む
    ことを特徴とするデータ処理方法。
  15. 複数の特徴量それぞれの検出頻度の組み合わせからなり、オブジェクトの分類に用いられる複数のモデルデータを保持する記憶手段を備えるデータ処理装置で用いられるプログラムであって、
    前記データ処理装置に、
    前記複数のモデルデータと、分類対象のデータにおいて検出される2つ以上の特徴量それぞれの検出頻度とから、当該データに含まれるオブジェクトの分類の可否を特定する分類ステップと、
    複数の分類対象のデータについて前記分類ステップによる処理を行った後、オブジェクトの分類が否と特定された未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上である特徴量を2つ以上特定する特定ステップと、
    新たなモデルデータを、クラス作成手法により、特定された2つ以上の特徴量に基づいて作成し、前記記憶手段へ格納するモデル作成ステップとを実行させる
    ことを特徴とするプログラム。
  16. データ処理装置で用いられる集積回路であって、
    複数の特徴量それぞれの検出頻度の組み合わせからなり、オブジェクトの分類に用いられる複数のモデルデータを保持する記憶手段と、
    前記複数のモデルデータと、分類対象のデータにおいて検出される2つ以上の特徴量それぞれの検出頻度とから、当該データに含まれるオブジェクトの分類の可否を特定する分類手段と、
    複数の分類対象のデータについて前記分類手段による処理を行った後、オブジェクトの分類が否と特定された未識別データが複数存在する場合、検出される頻度が同一である未識別データが一定数以上である特徴量を2つ以上特定する特定手段と、
    新たなモデルデータを、クラス作成手法により、特定された2つ以上の特徴量に基づいて作成し、前記記憶手段へ格納するモデル作成手段とを備える
    ことを特徴とする集積回路。
JP2011536678A 2010-01-29 2010-12-24 データ処理装置 Active JP5576384B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011536678A JP5576384B2 (ja) 2010-01-29 2010-12-24 データ処理装置

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010018035 2010-01-29
JP2010018035 2010-01-29
PCT/JP2010/007518 WO2011092793A1 (ja) 2010-01-29 2010-12-24 データ処理装置
JP2011536678A JP5576384B2 (ja) 2010-01-29 2010-12-24 データ処理装置

Publications (2)

Publication Number Publication Date
JPWO2011092793A1 JPWO2011092793A1 (ja) 2013-05-30
JP5576384B2 true JP5576384B2 (ja) 2014-08-20

Family

ID=44318806

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011536678A Active JP5576384B2 (ja) 2010-01-29 2010-12-24 データ処理装置

Country Status (5)

Country Link
US (1) US8583647B2 (ja)
EP (1) EP2530605A4 (ja)
JP (1) JP5576384B2 (ja)
CN (1) CN102356393B (ja)
WO (1) WO2011092793A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5755046B2 (ja) * 2011-06-22 2015-07-29 キヤノン株式会社 画像認識装置、画像認識方法及びプログラム
US8874557B2 (en) 2011-09-02 2014-10-28 Adobe Systems Incorporated Object retrieval and localization using a spatially-constrained similarity model
US8781255B2 (en) 2011-09-17 2014-07-15 Adobe Systems Incorporated Methods and apparatus for visual search
JP5833880B2 (ja) * 2011-10-07 2015-12-16 キヤノンイメージングシステムズ株式会社 情報処理装置、デバイス制御装置、デバイス制御システム、およびその制御方法
JP5849819B2 (ja) * 2012-03-28 2016-02-03 富士通株式会社 音声データ検索装置、音声データ検索方法および音声データ検索プログラム
US9105073B2 (en) * 2012-04-24 2015-08-11 Amadeus S.A.S. Method and system of producing an interactive version of a plan or the like
US8880563B2 (en) 2012-09-21 2014-11-04 Adobe Systems Incorporated Image search by query object segmentation
CN104239315B (zh) * 2013-06-09 2018-03-30 北京三星通信技术研究有限公司 一种图片关联的方法
US10262462B2 (en) 2014-04-18 2019-04-16 Magic Leap, Inc. Systems and methods for augmented and virtual reality
US9336280B2 (en) 2013-12-02 2016-05-10 Qbase, LLC Method for entity-driven alerts based on disambiguated features
US9177262B2 (en) 2013-12-02 2015-11-03 Qbase, LLC Method of automated discovery of new topics
US9542477B2 (en) 2013-12-02 2017-01-10 Qbase, LLC Method of automated discovery of topics relatedness
US9922032B2 (en) 2013-12-02 2018-03-20 Qbase, LLC Featured co-occurrence knowledge base from a corpus of documents
WO2015084726A1 (en) 2013-12-02 2015-06-11 Qbase, LLC Event detection through text analysis template models
US9223833B2 (en) 2013-12-02 2015-12-29 Qbase, LLC Method for in-loop human validation of disambiguated features
WO2015084756A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Event detection through text analysis using trained event template models
US9223875B2 (en) 2013-12-02 2015-12-29 Qbase, LLC Real-time distributed in memory search architecture
US9230041B2 (en) 2013-12-02 2016-01-05 Qbase, LLC Search suggestions of related entities based on co-occurrence and/or fuzzy-score matching
US9424294B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Method for facet searching and search suggestions
KR20160124742A (ko) 2013-12-02 2016-10-28 큐베이스 엘엘씨 비정형 텍스트내의 특징들의 중의성을 해소하는 방법
US9355152B2 (en) 2013-12-02 2016-05-31 Qbase, LLC Non-exclusionary search within in-memory databases
US9619571B2 (en) 2013-12-02 2017-04-11 Qbase, LLC Method for searching related entities through entity co-occurrence
US9201744B2 (en) 2013-12-02 2015-12-01 Qbase, LLC Fault tolerant architecture for distributed computing systems
US9544361B2 (en) 2013-12-02 2017-01-10 Qbase, LLC Event detection through text analysis using dynamic self evolving/learning module
US9317565B2 (en) 2013-12-02 2016-04-19 Qbase, LLC Alerting system based on newly disambiguated features
US9424524B2 (en) 2013-12-02 2016-08-23 Qbase, LLC Extracting facts from unstructured text
US9208204B2 (en) 2013-12-02 2015-12-08 Qbase, LLC Search suggestions using fuzzy-score matching and entity co-occurrence
US9659108B2 (en) 2013-12-02 2017-05-23 Qbase, LLC Pluggable architecture for embedding analytics in clustered in-memory databases
US9984427B2 (en) 2013-12-02 2018-05-29 Qbase, LLC Data ingestion module for event detection and increased situational awareness
US9348573B2 (en) 2013-12-02 2016-05-24 Qbase, LLC Installation and fault handling in a distributed system utilizing supervisor and dependency manager nodes
US9025892B1 (en) 2013-12-02 2015-05-05 Qbase, LLC Data record compression with progressive and/or selective decomposition
US9430547B2 (en) 2013-12-02 2016-08-30 Qbase, LLC Implementation of clustered in-memory database
US9547701B2 (en) 2013-12-02 2017-01-17 Qbase, LLC Method of discovering and exploring feature knowledge
US9361317B2 (en) 2014-03-04 2016-06-07 Qbase, LLC Method for entity enrichment of digital content to enable advanced search functionality in content management systems
US10147015B2 (en) * 2014-05-07 2018-12-04 Nec Corporation Image processing device, image processing method, and computer-readable recording medium
KR102024867B1 (ko) * 2014-09-16 2019-09-24 삼성전자주식회사 예제 피라미드에 기초하여 입력 영상의 특징을 추출하는 방법 및 얼굴 인식 장치
JP6814981B2 (ja) * 2016-07-21 2021-01-20 パナソニックIpマネジメント株式会社 学習装置、識別装置、学習識別システム、及び、プログラム
WO2019012654A1 (ja) * 2017-07-13 2019-01-17 日本電気株式会社 分析システム、分析方法及び記憶媒体
WO2019065582A1 (ja) * 2017-09-29 2019-04-04 富士フイルム株式会社 画像データ判別システム、画像データ判別プログラム、画像データ判別方法、及び撮像システム
JP7047498B2 (ja) 2018-03-13 2022-04-05 富士通株式会社 学習プログラム、学習方法および学習装置
US10887656B2 (en) * 2018-07-14 2021-01-05 International Business Machines Corporation Automatic content presentation adaptation based on audience
CN109670267B (zh) * 2018-12-29 2023-06-13 北京航天数据股份有限公司 一种数据处理方法和装置
CN114781194B (zh) * 2022-06-20 2022-09-09 航天晨光股份有限公司 基于金属软管的数据库的构建方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185259A (ja) * 2002-12-03 2004-07-02 Renesas Technology Corp 蓄積画像管理装置及びプログラム
JP2008090698A (ja) * 2006-10-04 2008-04-17 Fujifilm Corp 画像分類装置および方法ならびにプログラム
JP2010003177A (ja) * 2008-06-20 2010-01-07 Secom Co Ltd 画像処理装置

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6741986B2 (en) * 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US6826576B2 (en) * 2001-05-07 2004-11-30 Microsoft Corporation Very-large-scale automatic categorizer for web content
US6993535B2 (en) * 2001-06-18 2006-01-31 International Business Machines Corporation Business method and apparatus for employing induced multimedia classifiers based on unified representation of features reflecting disparate modalities
ATE528724T1 (de) 2002-08-30 2011-10-15 Mvtec Software Gmbh Auf hierarchischen gliedern basierte erkennung von gegenständen
US7814089B1 (en) * 2003-12-17 2010-10-12 Topix Llc System and method for presenting categorized content on a site using programmatic and manual selection of content items
US8271495B1 (en) * 2003-12-17 2012-09-18 Topix Llc System and method for automating categorization and aggregation of content from network sites
US8037036B2 (en) * 2004-11-17 2011-10-11 Steven Blumenau Systems and methods for defining digital asset tag attributes
JP4472631B2 (ja) * 2005-12-28 2010-06-02 オリンパスメディカルシステムズ株式会社 画像処理装置および当該画像処理装置における画像処理方法
EP1969992B1 (en) 2005-12-28 2012-05-02 Olympus Medical Systems Corp. Image processing device and image processing method in the image processing device
EP1840764A1 (en) * 2006-03-30 2007-10-03 Sony France S.A. Hybrid audio-visual categorization system and method
TWI384413B (zh) * 2006-04-24 2013-02-01 Sony Corp An image processing apparatus, an image processing method, an image processing program, and a program storage medium
US7783085B2 (en) * 2006-05-10 2010-08-24 Aol Inc. Using relevance feedback in face recognition
US20080089591A1 (en) 2006-10-11 2008-04-17 Hui Zhou Method And Apparatus For Automatic Image Categorization
JP2008282085A (ja) * 2007-05-08 2008-11-20 Seiko Epson Corp シーン識別装置、及び、シーン識別方法
US8558952B2 (en) * 2007-05-25 2013-10-15 Nec Corporation Image-sound segment corresponding apparatus, method and program
JP2009004999A (ja) * 2007-06-20 2009-01-08 Panasonic Corp 映像データ管理装置
JP5166409B2 (ja) * 2007-11-29 2013-03-21 株式会社東芝 映像処理方法および映像処理装置
US8170280B2 (en) * 2007-12-03 2012-05-01 Digital Smiths, Inc. Integrated systems and methods for video-based object modeling, recognition, and tracking
US20120272171A1 (en) * 2011-04-21 2012-10-25 Panasonic Corporation Apparatus, Method and Computer-Implemented Program for Editable Categorization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185259A (ja) * 2002-12-03 2004-07-02 Renesas Technology Corp 蓄積画像管理装置及びプログラム
JP2008090698A (ja) * 2006-10-04 2008-04-17 Fujifilm Corp 画像分類装置および方法ならびにプログラム
JP2010003177A (ja) * 2008-06-20 2010-01-07 Secom Co Ltd 画像処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200700763025; 上東 太一 外1名: 'Bag-of-Keypoints表現を用いたWeb画像分類' 情報処理学会研究報告 第2007巻第42号, 20070515, p.201-208, 社団法人情報処理学会 *
JPN6014023444; 上東 太一 外1名: 'Bag-of-Keypoints表現を用いたWeb画像分類' 情報処理学会研究報告 第2007巻第42号, 20070515, p.201-208, 社団法人情報処理学会 *

Also Published As

Publication number Publication date
US20120117069A1 (en) 2012-05-10
CN102356393B (zh) 2014-04-09
US8583647B2 (en) 2013-11-12
EP2530605A1 (en) 2012-12-05
WO2011092793A1 (ja) 2011-08-04
JPWO2011092793A1 (ja) 2013-05-30
EP2530605A4 (en) 2013-12-25
CN102356393A (zh) 2012-02-15

Similar Documents

Publication Publication Date Title
JP5576384B2 (ja) データ処理装置
JP5934653B2 (ja) 画像分類装置、画像分類方法、プログラム、記録媒体、集積回路、モデル作成装置
TWI246664B (en) Camera meta-data for content categorization
US8520909B2 (en) Automatic and semi-automatic image classification, annotation and tagging through the use of image acquisition parameters and metadata
KR101346730B1 (ko) 화상 처리 시스템, 화상 처리 장치 및 방법, 프로그램, 및기록 매체
CN108476259B (zh) 基于用户行为的内容推荐的系统和方法
JP5385759B2 (ja) 画像処理装置及び画像処理方法
TWI223171B (en) System for classifying files of non-textual subject data, method for categorizing files of non-textual data and method for identifying a class for data file at a classification node
US20140093174A1 (en) Systems and methods for image management
EP2005364A2 (en) Image classification based on a mixture of elliptical color models
JP5346756B2 (ja) 画像分類装置
JP2014093058A (ja) 画像管理装置、画像管理方法、プログラム及び集積回路
JP2014092955A (ja) 類似コンテンツ検索処理装置、類似コンテンツ検索処理方法、およびプログラム
WO2008152556A1 (en) Method and apparatus for automatically generating summaries of a multimedia file
JP4692784B2 (ja) 画像記述システムにおける特徴量選択プログラム、特徴量選択方法および装置
Ardizzone et al. A novel approach to personal photo album representation and management
Zhang et al. Automatic preview frame selection for online videos
Cerosaletti et al. Approaches to consumer image organization based on semantic categories
WO2004008344A1 (en) Annotation of digital images using text
Pulc et al. Application of Meta-learning Principles in Multimedia Indexing
Liu et al. On the automatic online collection of training data for visual event modeling
CN117786137A (zh) 一种多媒体数据查询方法、装置、设备及可读存储介质
Zawbaa et al. Semi-automatic annotation system for home videos
Broilo et al. Personal photo album summarization for global and local photo annotation
Malini et al. Average mean based feature extraction for image retrieval

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130513

TRDD Decision of grant or rejection written
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20140606

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140610

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140703

R150 Certificate of patent or registration of utility model

Ref document number: 5576384

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250