JP2009048295A

JP2009048295A - 空間共起辞書作成装置及び空間共起辞書作成方法

Info

Publication number: JP2009048295A
Application number: JP2007211836A
Authority: JP
Inventors: Yu Miyazaki; 祐宮崎
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2007-08-15
Filing date: 2007-08-15
Publication date: 2009-03-05
Anticipated expiration: 2027-08-15
Also published as: JP4962961B2

Abstract

【課題】複数のアイテムが同時に同一の画像に出現する共起度と、画像のタイトルを構成する名詞と当該画像に含まれるアイテムとの相関度を、既存のＷｅｂページ上に存在する画像（動画像を含む）から収集したデータに基づき、集計計算する空間共起辞書作成装置及び空間共起辞書作成方法を提供すること。
【解決手段】空間共起辞書作成装置１は、Ｗｅｂ上から収集された画像を取得する画像取得部２と、前記画像から部分画像を取得する部分画像取得部３と、前記部分画像から特徴情報を抽出する特徴情報抽出部４と、画像辞書を用い、前記特徴情報に基づき前記部分画像に対応するアイテムを特定するアイテム特定部５と、前記特定したアイテムに基づき、同一画像に出現する複数のアイテムに係るアイテムの共起度を計算してアイテム共起辞書を作成するアイテム共起辞書作成部６と、を備える。
【選択図】図１

Description

本発明は、空間共起辞書作成装置及び空間共起辞書作成方法に関する。

インターネットに代表される近年のネットワーク技術及びコンピュータ技術の発達により大量の画像データを蓄積し、ユーザの要求に応じて蓄積した画像データを検索してユーザに所望の画像を提示する画像検索システムを構築する試みが行われている（例えば特許文献１）。このような画像検索システムでは、画像（キー画像）を検索キーとして入力し、入力された検索キー画像と類似した特徴を持つ画像を提示するものが多い。
また、ユーザの端末画面に３次元の仮想空間の画像を表示し、仮想空間内においてユーザが視点を移動することに応じて、仮想的な視野に入る仮想空間内のオブジェクトを画角や距離感の変化を伴ってユーザの端末画面に表示することにより、ユーザの興味を惹き、仮想空間に臨場感をもたせる試みが、例えばセカンドライフ等のサービスによって行われている（例えば非特許文献１）。
特開２００２−２４５０４８号公報マイケル・リマズイスキー（他）著中川蘭丸訳、セカンドライフ公式ガイド、インプレスＲ＆Ｄ版、２００７年０５月

画像検索の技術を活用し、入力された任意の画像をテキスト文で表現することができれば、セカンドライフ等のサービスに関連し、インターネットを用いた新たな利用分野を開拓することができる。具体的な方法としては、入力された画像からエッジ処理等により部分画像を切り出し、その部分画像を画像辞書で検索し、その部分画像に対応するテキスト情報を利用することが考えられるが、もともと画像検索においては、文字検索と異なり、完全一致することは稀であり、類似の概念が存在するために、切り出した部分画像に対応するテキスト情報を一意に決め難いという問題がある。

そこで画像辞書を用いた上記方法を補完するために、画像辞書に登録されたアイテムが同時に同一の画像に出現する共起度を、現在Ｗｅｂ上に存在する大量の画像情報から抽出蓄積するとともに、画像に付されたタイトルと、当該画像に含まれるアイテムとの関係についても、その相関度を、現在Ｗｅｂ上に存在する大量の画像情報から抽出蓄積することで、前記の問題、即ち、「入力された任意の画像をテキスト文で表現する」という問題に対応することができる。

そこで、本発明は、複数のアイテムが同時に同一の画像に出現する共起度と、画像のタイトルを構成する名詞と当該画像に含まれるアイテムとの相関度を、既存のＷｅｂページ上に存在する画像（動画像を含む）から収集したデータに基づき、集計計算する空間共起辞書作成装置及び空間共起辞書作成方法を提供することを目的とする。

本発明者は、既存のＷｅｂページから収集した画像のタイトルと、当該画像に含まれるアイテムについて、出現に係る相互の連関性を自動的に収集する装置及び方法を見出し、本発明を完成するに至った。本発明は、具体的には次のようなものを提供する。

（１）Ｗｅｂ上から収集された画像を取得する画像取得部と、前記画像から部分画像を取得する部分画像取得部と、前記部分画像から特徴情報を抽出する特徴情報抽出部と、画像辞書を用い、前記特徴情報に基づき前記部分画像に対応するアイテムを特定するアイテム特定部と、前記特定したアイテムに基づき、同一画像に出現する複数のアイテムに係るアイテムの共起度を計算してアイテム共起辞書を作成するアイテム共起辞書作成部と、を備える空間共起辞書作成装置。

この発明によれば、現実にＷｅｂページ上に存在する画像から、同一画像に出現する複数のアイテムの共起度を計算するので、信頼性の高い空間共起辞書を自動的に作成することができる。

（２）前記画像は動画像であり、前記共起度は、該動画像を構成する全静止画像（全フレーム画像）のうち少なくとも１つの静止画像に前記アイテムが出現するか否かにより判定することを特徴とする（１）に記載の空間共起辞書作成装置。

この発明によれば、１つの動画中の異なる場面における出現に係るアイテムの共起度を計算することができるので、共起関係を漏れなく拾うことができる。

（３）前記共起度は、同一の画像に出現する異なる２つのアイテムに係るものであることを特徴とする（１）または（２）に記載の空間共起辞書作成装置。

この発明によれば、異なる２つのアイテムの同時使用性、同時出現性を反映した共起度を求めることができるので実情に合わせたアイテム共起辞書を作成することができる。

（４）前記共起度は、同一の画像に出現する同一の複数のアイテムに係るものであることを特徴とする（１）または（２）に記載の空間共起辞書作成装置。

この発明によれば、同一の複数のアイテムの同時使用性、同時出現性を反映した共起度を求めることができるので実情に合わせたアイテム共起辞書を作成することができる。

（５）異なる２つのアイテムの前記共起度は、前記２つのアイテムがともに出現する画像の数を、前記２つのアイテムがそれぞれ出現する画像の数のうちいずれか小さい方で除したものであることを特徴とする（３）に記載の空間共起辞書作成装置。

この発明によれば、異なる２つのアイテムの共起度を、いずれのアイテムを基準とするかに影響されず決定するので、利用の際に簡便な利用が可能となる。

（６）異なる２つのアイテムの前記共起度は、前記２つのアイテムがともに出現する画像の数を、基準とするアイテムが出現する画像の数で除したものであることを特徴とする（３）に記載の空間共起辞書作成装置。

この発明によれば、異なる２つのアイテム名に係るアイテムの共起度を、基準とするアイテムを考慮して決定するので、利用の際にいずれのアイテムを基準とするかを考慮した精緻な利用が可能となる。

（７）前記画像のタイトルから、該タイトルに含まれる名詞を抽出するタイトル名詞抽出部と、前記抽出した名詞と、前記特定したアイテムの相関度を計算してタイトル／アイテム相関辞書を作成するタイトル／アイテム相関辞書作成部と、を備える（１）から（６）のいずれかに記載の空間共起辞書作成装置。

この発明によれば、画像のタイトル中にある名詞と、当該画像に含まれるアイテムとのすべての相関度を計算することができるので、アイテムと相関度の高い名詞を決定するのに役立つ。

（８）前記抽出した名詞を上位の概念とし、その名詞に関連したアイテムを下位の概念とし、さらにそのアイテムを名詞とみなし、それに関連する下位のアイテムをツリー状に構成していく空間オントロジー構成部をさらに備える請求項７に記載の空間共起辞書作成装置。

この発明によれば、このような空間オントロジーにより、画像に映し出されたアイテムの描写角度や描写の鮮明度が悪い場合でも、上位概念の情報により対象アイテムを絞り込み、より的確なアイテム認証が可能となる。たとえば居間に入ったという情報があれば、そこにある長い物体は、ベッドではなくソファーである確率が高いというような判断に利用できる。また、対応アイテムの上位概念、下位概念を把握することにより、その空間に広告情報等を掲載する場合、さまざまな関連性のある広告掲載を可能とすることができる。

（８）前記画像は動画像であり、前記相関度は、該動画像を構成する全静止画像のうち少なくとも１つの静止画像に前記アイテムが出現するか否かにより判定することを特徴とする（７）に記載の空間共起辞書作成装置。

この発明によれば、画像のタイトル中にある名詞と、１つの動画中の異なる場面における出現に係るアイテムとの相関度を計算することができるので、相関関係を漏らさず拾うことができる。

（９）コンピュータを用いて、画像に出現するアイテムの共起度に係る空間共起辞書を作成する方法であって、Ｗｅｂ上から収集された画像を取得する画像取得ステップと、前記画像から部分画像を取得する部分画像取得ステップと、前記部分画像から特徴情報を抽出する特徴情報抽出ステップと、画像辞書を用い、前記特徴情報に基づきアイテムを特定するアイテム特定ステップと、前記特定したアイテムに基づき、同一画像に出現する複数のアイテムに係るアイテムの共起度を計算してアイテム共起辞書を作成するアイテム共起辞書作成ステップと、を含む空間共起辞書作成方法。

この発明によれば、（１）に記載の発明が行う処理をコンピュータを用いて行うので、（１）に記載の発明と同様の効果を発揮することができる。

（１０）前記画像のタイトルから、該タイトルに含まれる名詞を抽出するタイトル名詞抽出ステップと、前記抽出した名詞と、前記特定したアイテムの相関度を計算してタイトル／アイテム相関辞書を作成するタイトル／アイテム相関辞書作成ステップと、を含む（９）に記載の空間共起辞書作成方法。

この発明によれば、（７）に記載の発明が行う処理をコンピュータを用いて行うので、（７）に記載の発明と同様の効果を発揮することができる。

この発明によれば、現実にＷｅｂページ上に存在する画像から、同一画像に出現する複数のアイテムの共起度と、画像のタイトル中にある名詞と当該画像に含まれるアイテムとの相関度を計算するので、信頼性の高い空間共起辞書を自動的に作成することができる。

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
（第１の実施形態）

［全体図］
図１は、空間共起辞書作成装置１が有する機能部分と、空間共起辞書作成装置１がアクセスするデータベース１０〜１３との関係を示した全体図である。空間共起辞書作成装置１は、Ｗｅｂ上から収集された画像（動画を含む）が蓄積された画像ＤＢ１１から画像を取得する画像取得部２と、画像取得部２によって取得された画像から部分画像を取得する部分画像取得部３と、部分画像取得部３によって取得された部分画像から特徴情報を抽出する特徴情報抽出部４と、特徴情報抽出部４によって抽出された特徴情報に基づき画像辞書ＤＢ１０に記録された画像辞書を参照し、当該部分画像に係るアイテムを特定し、アイテム名とアイテム番号を取得するアイテム特定部５と、アイテム特定部５により決定された部分画像のアイテムについて、複数のアイテムが同一画像に出現する共起度を計算してアイテム共起辞書ＤＢ１２上にアイテム共起辞書を作成するアイテム共起辞書作成部６と、画像取得部２で取得した画像のタイトルを取得するタイトル取得部７と、タイトル取得部７によって取得されたタイトルから当該タイトルに含まれる名詞を抽出するタイトル名詞抽出部８と、タイトル名詞抽出部８によって抽出された名詞とアイテム特定部５によって決定されたアイテムとの相関度を求めてタイトル／アイテム相関辞書ＤＢ１３上にタイトル／アイテム相関辞書を作成するタイトル／アイテム相関辞書作成部９とを備える。なお、画像取得部２は、画像辞書ＤＢ１０を介さずにＷｅｂ上から直接画像を取得してもよい。

［空間共起辞書作成装置１のハードウェア構成］
図２は、本実施形態に係る空間共起辞書作成装置１のハードウェア構成を示す図である。空間共起辞書作成装置１は、制御装置３０を構成するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３１（マルチプロセッサ構成ではＣＰＵ４２等複数のＣＰＵが追加されてもよい）、バスライン２０、通信Ｉ／Ｆ（Ｉ／Ｆ：インターフェイス）３３、メインメモリ３４、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）３５、表示装置３６、Ｉ／Ｏコントローラ３７、並びにキーボード及びマウス等の入力装置３８を備える。

通信Ｉ／Ｆ３３は、空間共起辞書作成装置１が、インターネット（図示せず）を介して画像が保有されているサーバ等（図示せず）にアクセスする場合に使用するネットワーク・アダプタである。通信Ｉ／Ｆ３３は、モデム、ケーブル・モデム及びイーサネット（登録商標）・アダプタを含んでよい。ＢＩＯＳ３５は、空間共起辞書作成装置１の起動時にＣＰＵ３１が実行するブートプログラムや、空間共起辞書作成装置１のハードウェアに依存するプログラム等を記録する。

表示装置３６は、空間共起辞書作成装置１による演算処理結果等の画面を表示するものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。Ｉ／Ｏコントローラ３７には、ハードディスク３９、及び半導体メモリ４０等の記憶装置４１を接続することができる。入力装置３８は、空間共起辞書作成装置１の管理者による入力の受け付けを行うものである。ハードディスク３９は、本ハードウェアを空間共起辞書作成装置１として機能させるための各種プログラム、本発明の機能を実行するプログラム及び後述するテーブルを記憶する。

以上の例は、空間共起辞書作成装置１のハードウェア構成について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータを空間共起辞書作成装置１として動作させることにより上記で説明した機能を実現することもできる。したがって、本発明において一実施形態として説明した空間共起辞書作成装置１により実現される機能は、上述の方法を当該コンピュータにより実行することによって、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。

なお、本発明でいうコンピュータとは、記憶装置、制御装置等を備えた情報処理装置をいい、空間共起辞書作成装置１は、記憶装置４１、制御装置３０等を備えた情報処理装置により構成され、この情報処理装置は、本発明のコンピュータの概念に含まれる。ここで、図１に示した、画像取得部２、部分画像取得部３、特徴情報抽出部４、アイテム特定部５、アイテム共起辞書作成部６、タイトル取得部７、タイトル名詞抽出部８、タイトル／アイテム相関辞書作成部９には主として制御装置３０が、画像辞書ＤＢ１０には記憶装置４１が、それぞれ対応する。なお、画像ＤＢ１１は、空間共起辞書作成装置１への入力として、アイテム共起辞書ＤＢ１２とタイトル／アイテム相関辞書１３は空間共起辞書作成装置１からの出力として位置づけられる。

［画像及び部分画像］
図３は、画像取得部２が取得する画像の一例である。なお、この画像には、「日曜日の我が家の居間」というタイトルがついているものとする。

図４は、部分画像取得部３が上記画像から取得した部分画像の例である。（ａ）は長椅子タイプのソファー、（ｂ）はテーブルである。

［画像辞書］
図５は、アイテム特定部５で参照する画像辞書を示す図である。部分画像の特徴情報を記録した検索用タグと、当該特徴情報を有するアイテムのアイテム名やアイテム番号等の属性情報が対応付けられて記録されている。特徴情報としては、例えば、アイテムの輪郭やアイテムを構成する色数等がある。画像辞書は、画像辞書ＤＢ１０上に記録されている。

［テーブル］
図６は、アイテム名テーブルであり、アイテム名とアイテム番号が記録されている。

図７は、抽出アイテムテーブルであり、アイテム特定部５が、部分画像取得部３により取得された部分画像について、画像辞書を参照して取得したアイテム名とアイテム番号が保有される。図７（ａ）は、アイテム３、アイテム５、アイテム９の３つのアイテムが取得されたことを示している。また、図７（ｂ）は、全部で５つのアイテムが取得され、それらのうちアイテム３が３個、アイテム５とアイテム９がそれぞれ１個であることを示している。

図８は、動画から部分画像が取得された例を示している。動画は、静止画の集合であるので、例えば、それをシーン１〜３として、それぞれのシーンから取得された部分画像について、アイテムが取得された例を示している。シーン１では３つのアイテム、シーン２では４つのアイテム、シーン３では３つのアイテムがそれぞれ取得されているが、取得されたアイテムはシーンによって異なっている。

このような場合、同一のアイテムが複数のシーンに出現することもあるので、これらを考慮し、各シーンに出現したアイテムの最大個数をそれぞれのシーンから集め、それをその動画に出現する全アイテムとして抽出アイテムテーブルを作成している。例えば、アイテム３は、シーン２において３個同時に出現しているので、少なくとも３個は存在することになる。同じようにアイテム５とアイテム１３についてはシーン３から、アイテム９についてはシーン１から集めている。このようにすると、この動画から取得したアイテムは、抽出アイテムテーブル（全体）に集められた７個のアイテムが同時に出現する静止画と同様の取り扱いが可能となる。

図９は、アイテム別出現度数テーブルである。Ｗｅｂ上から取得された画像に含まれる部分画像について、画像辞書を参照してアイテム名やアイテム番号が取得されたものについて、アイテム番号別に出現度数をカウントするためのテーブルである。ここで、本テーブルは行列形式になっており、１列目にアイテム番号、２列目に当該アイテムの出現した画像の数（アイテム出現度数）、３列目以降に異なる２つのアイテムが同一の画像に出現した画像の数（アイテム同時出現度数）をそれぞれ保有している。

例えば、アイテム３が出現した画像の数はｃ３であり、アイテム３とアイテム５がともに出現した画像の数はｃ３＿５である。なお、重複した情報の保有を省略するために３列目以降は上三角行列の形をしている。

図１０は、図９のアイテム別出現度数テーブルを用いて異なる２つのアイテム間で計算した共起度を保有するアイテム別共起度テーブルである。共起度の計算方法は、図中に示した計算方法で行う。この計算方法は種々考えられるが、本実施形態においては、（ａ）に示した計算方法を用いる。

この場合の２つのアイテム共起度は、当該２つのアイテムがともに出現した画像の数を、各アイテムが出現した画像の数のうちいずれか小さい方で除した商である。これは自然言語処理におけるシンプソン係数と呼ばれるものである。このようにすると、２つのアイテム間の区別がなくなるため、アイテム別共起度テーブル（図１０（ａ））は対称行列になる。ただし、同一アイテム間の共起度については別途対応するので、本テーブルにおける対角要素は意味を持たない。

図１１（ａ）は、同一のアイテムが同一の画像に複数個出現する場合の出現度数をカウントするアイテム別複数出現度数テーブルである。第２列のアイテム出現度数（ｄ１＿１、ｄ２＿１、…）は図９のアイテム別出現度数テーブルのアイテム出現度数（ｃ１、ｃ２、…）と同一内容である。第２列のｄｉ＿１は、１つの画像内に、アイテム番号ｉのアイテム（アイテムｉという）が１以上出現した画像数を表す。第３列のｄｉ＿２は、１つの画像内に、アイテムｉが２以上出現した画像数を表す。同様にｄｉ＿３は３以上、ｄｉ＿４は４以上、ｄｉ＿５は５以上出現した画像数を表す。但し、６個以上同時に出現する場合はカウントしない。何個までカウントするかは適宜決めればよい。

図１１（ｂ）は、アイテム別複数出現度数テーブルにおいて実際にカウントされた例である。アイテム１については、１個出現した画像が１つあったことを示している。アイテム２については、同時に２個出現した画像が１つあったことを示している。アイテム３については、同時に５個以上出現した画像が１つあったことを示している。この場合、６個上はカウントしないので、その画像にアイテム３が出現した個数は５個であったとは限らず、それ以上であったかもしれない。アイテム４については、１つだけ出現した画像、同時に２つだけ出現した画像、同時に３つだけ出現した画像がそれぞれ１つあったことを示している。アイテム５については、１個のみ出現した画像はなく、２個出現した画像が１００あったことを示しており、これはアイテム５が必ずペアで出現することを意味している。一方、アイテム６については、１個のみ出現した画像が９９個、２個同時に出現した画像が１つあったことを示しており、アイテム６は通常単独で出現することを意味している。

図１２は、同一のアイテムが同一の画像に複数個出現する場合の共起度を表したアイテム別複数共起度テーブルである。例えば、ｒｉ＿２は、アイテムｉが１個出現した場合に、２個目が出現する比率、ｒｉ＿３は、アイテムｉが２個出現した場合に、３個目が出現する比率をそれぞれ表す。つまり、アイテム番号ごとに、各アイテムがｎ個出現した場合に、（ｎ＋１）個目が出現する比率を（ｎ＋１）列目に表示している。この場合も、６個以上出現する場合については、表示の対象としていない。何個まで表示の対象とするかは適宜決めればよい。

図１３は、タイトル取得部７によって取得されたタイトルから当該タイトルに含まれる名詞を抽出するために、タイトル名詞抽出部８で参照する名詞テーブルである。名詞テーブルは、名詞とその名詞に対応する名詞番号から構成される。

図１４は、上記名詞テーブルを用いてタイトルから抽出された名詞を示す抽出名詞テーブルである。実際に抽出された名詞とその名詞に対応する名詞番号が保有される。図３の例によれば、対象とするタイトル（「日曜日の我が家の居間」）の中に、名詞番号５の「日曜日」と名詞番号１７の「我が家」と名詞番号４５の「居間」の３つの名詞が含まれることを意味している。

図１５は、抽出アイテムテーブル（図７）を拡張した拡張抽出アイテムテーブルである。同一アイテムの複数個同時出現がない場合は抽出アイテムテーブルと同じであるが、同一アイテムの複数個同時出現がある場合は、そのアイテムについて新たに付けられたアイテム番号が表示される。例えば、机（アイテム番号は７と仮定する）が３つ同時に同一画像に出現する場合は、「机３つ」を「机」とは異なる新たなアイテムとして、アイテム番号３０００００７を付ける。アイテム番号の付け方は予めルールを定めておけばよいが、この例では、最上位の桁を３として、「３つ」の意味を表し、それより下位の桁で下のアイテム番号を現している。このようにすると、例えば、教室のように多数の机が出現するような場合も統一的に取り扱えるようになる。そこで、このようにして新たなアイテム番号を加えたものをここでは拡張アイテム番号と呼ぶことにする。また、拡張アイテム番号に対応するアイテム名を拡張アイテム名と呼ぶ。例えば、アイテム３が３個の場合、「アイテム３」と区別し、「アイテム３が３個」が拡張アイテム名となる。

図１６は、上記の拡張アイテム番号を用いてアイテム名テーブル（図６）を拡張した拡張アイテム名テーブルである。拡張アイテム名と拡張アイテム番号が記録されている。

図１７は、各名詞を含むタイトルが画像のタイトルとして使用された数（タイトル名詞出現度数）と、その名詞を含むタイトルの画像に各アイテムが出現した数（タイトル名詞別アイテム出現度数）とを、各名詞と各アイテムについて集計したタイトル名詞別アイテム出現度数テーブルである。

なお、同一のアイテム（アイテム番号が同一）が複数個同時に同一画像に出現する場合は、これらの複数個のアイテムを新たな１つのアイテムとして捉え、新たなアイテム番号を付けることとする。図１７において、第３列以降は、拡張アイテム番号に基づいて集計した数を表示する。

例えば、ｔ３は名詞番号３の名詞を含むタイトルが画像のタイトルとして使用された数を示す。また、ｔ３＿１は、名詞番号３の名詞を含むタイトルの画像にアイテム１が出現した数を表す。

図１８は、タイトルから抽出された名詞と、そのタイトルに係る画像に出現したアイテムとの相関関係を示したタイトル名詞アイテム相関度テーブルである。図１８の各要素は、図１７の要素を用いて図中に記載したように計算される。つまり、タイトル名詞別アイテム出現度数を、対応するタイトル名詞出現度数で除した商である。これは、各名詞がタイトル中に含まれるとき、そのタイトルに係る画像にそれぞれのアイテムが出現する比率を示す。なお、この場合も、タイトル名詞とアイテムの相関度は拡張アイテム番号に基づいて計算されたものである。

［処理フロー］
図１９に従って、空間共起辞書作成装置１の処理フローについて説明する。特に断らない限り、以下の処理は、空間共起辞書作成装置１の制御装置３０が行うものとする。本実施形態では、空間共起辞書作成装置１が、Ｗｅｂ上から収集された画像（動画を含む）が蓄積された画像ＤＢ１１から画像を取得することを前提としている（Ｓ１０）。画像の取得は、静止画像の場合は１枚の静止画像、動画像の場合はその動画像を構成する複数枚の静止画像を１単位として行う。

次に、取得した画像から、エッジ処理により部分画像を切り出す（Ｓ２０）。静止画像であれば、１枚の画像から部分画像が切り出されるが、動画の場合は、１つの動画を構成する複数の静止画像のそれぞれから部分画像が切り出されることになる。したがって、動画を構成する少なくとも１枚の静止画像に含まれている部分画像は、その動画に含まれている部分画像となる。そして、切り出した部分画像から特徴情報を抽出する（Ｓ３０）。特徴情報としては、部分画像の輪郭や部分画像の色数等がある。このような技術は公知であり、（例えば、特開２００６−１１４０５３参照）、このようにすることによって、画像に写った家具が、例えばソファーであることが認識できる。この画像の特徴量はテキストとして送信可能なので画像そのものを送信することに比べてデータ量が大幅に減少できる。

次に、画像辞書（図５）を参照し、すでに実用化されている類似画像検索技術に基づき、特徴情報に合致するアイテムを特定し、アイテム名とアイテム番号を求める。その際、特徴情報が完全に一致するものがない場合には、類似度が最も大きいものを選ぶ（Ｓ４０）。類似画像検索では、検索の対象となる画像から視覚的な情報を数百次元の数値列データ（画像特徴量）で示し、データ同士の似ている度合い（類似度）を、画像特徴量ベクトル間の距離、即ち、この画像特徴量の違いとして評価する。

このようにして、切り出した１つの部分画像についてアイテム名とアイテム番号が特定されると、抽出アイテムテーブル（図７）に登録し、同一画像にさらに別の部分画像がある場合は（Ｓ５０：Ｙｅｓ）、ステップ２０に戻り、同様の処理を行う（Ｓ２０〜Ｓ４０）。そしてすべての部分画像について処理が終わると次の処理に移る（Ｓ５０：Ｎｏ）。

次に、切り出したアイテムをアイテム番号順に並べる（Ｓ６０）。図７（ａ）の例では、アイテム番号が３、５、９の３つのアイテムが切り出されて、アイテム番号順に並べられたことを示している。

次に、抽出アイテムテーブル（図７、図８）に基づき以下の要領でアイテム別出現度数テーブル（図９）とアイテム別複数出現度数テーブル（図１１（ａ））を更新する。抽出アイテムテーブルの最初のアイテム（図７（ａ）ではアイテム３）について、アイテム出現度数（この場合は図９のｃ３と図１１（ａ）のｄ３＿１）に１を加算する（Ｓ７０）。

次に、抽出アイテムテーブルの次のアイテム（図７（ａ）ではアイテム５）について、アイテム出現度数（図９のｃ５と図１１（ａ）のｄ５＿１）に１を加算する（Ｓ８０）とともに、最初のアイテム（アイテム３）と次のアイテム（アイテム５）が異なっているので（Ｓ９０：Ｎｏ）、アイテム別出現度数テーブル（図９）のアイテム同時出現度数（ｃ３＿５）に１を加算する（Ｓ１００）。

図７（ｂ）の例のように、抽出アイテムテーブルの次のアイテムが前のアイテムと同じアイテムの場合は（Ｓ９０：Ｙｅｓ）、同一アイテムが複数個同時に出現したことになるので、アイテム別出現度数テーブル（図９）のアイテム同時出現度数（ｃ３＿５）には加算せずに、アイテム別複数出現度数テーブル（図１１（ａ））のアイテム複数同時出現度数に加算する（Ｓ１１０）。この場合、アイテム３の２個目が抽出アイテムテーブル（図７（ｂ））にあることによりｄ３＿２に１を加算し、３個目が抽出アイテムテーブル（図７（ｂ））にあることによりｄ３＿３に１を加算する。

抽出アイテムテーブルに登録されたすべてのアイテムについて処理が終われば終了するが（Ｓ１２０：Ｙｅｓ）、まだアイテムが残っている場合は（Ｓ１２０：Ｎｏ）、上記の処理（Ｓ８０〜Ｓ１１０）を繰り返す。このとき、ステップ１００の処理は、現在処理中のアイテムと、そのアイテムより先に処理されたすべてのアイテムとの間のアイテム同時出現度数に１を加算する。

例えば、抽出アイテムテーブル（図７（ａ））に従い、３番目のアイテムであるアイテム９の処理を行うときは、ステップ１００においては、アイテム９より先に処理された、アイテム３とアイテム５のそれぞれと、アイテム９とのアイテム同時出現度数を加算する。したがって、この場合、ｃ３＿９とｃ５＿９に１が加算される。

以下の処理は、図２０に従って説明する。次に、アイテム別出現度数テーブル（図９）に基づいて、アイテム別共起度テーブル（図１０（ａ））を、アイテム別複数出現度数テーブル（図１１（ａ））に基づいて、アイテム別複数共起度テーブル（図１２）を、それぞれ生成する（Ｓ１３０）。要素間の計算方法についてはすでに説明したとおりである。

次に画像取得部２で取得した画像のタイトルを取得する（Ｓ１４０）。そして、取得したタイトル中に含まれる名詞を名詞テーブル（図１３）に基づいて抽出する（Ｓ１５０）。抽出した名詞は、名詞番号とともに抽出名詞テーブル（図１４）に登録し、その後の処理の便宜のために名詞番号順に並べ替えておく。

次に、抽出アイテムテーブル（図７）に基づいて、拡張抽出アイテムテーブル（図１５）を作成する（Ｓ１６０）。拡張抽出アイテムテーブル（図１５）は、抽出アイテムテーブル（図７）に同一アイテムが複数個ある場合に、これらをまとめて１つの新たなアイテム（拡張アイテム）として取り扱うために設けたテーブルである。次に、拡張アイテム名テーブル（図１６）に新たなアイテムの登録を行う（Ｓ１７０）。

次に、抽出名詞テーブル（図１４）に基づき以下の要領でタイトル名詞別アイテム出現度数テーブル（図１７）を更新する。まず、抽出名詞テーブル（図１４）の最初の名詞（図１４では名詞番号５の名詞）について、その名詞の名詞番号のタイトル名詞出現度数（図１７のｔ５）に１を加算する（Ｓ１８０）。

次に、拡張抽出アイテムテーブル（図１５の右側のテーブル）に登録されたアイテム（図１５（ａ）ではアイテム３、アイテム５、アイテム９）について、その名詞番号（この場合は５）のタイトル名詞別アイテム出現度数（この場合は図１７のｔ５＿３、ｔ５＿５、ｔ５＿９）に１を加算する（Ｓ１９０）。

拡張抽出名詞テーブル（図１５）に登録されたすべての名詞について処理が終われば終了するが（Ｓ２００：Ｙｅｓ）、まだアイテムが残っている場合は（Ｓ２００：Ｎｏ）、上記の処理（Ｓ１８０〜Ｓ１９０）を繰り返す。

次に、タイトル名詞別アイテム出現度数テーブル（図１７）に基づいて、タイトル名詞アイテム相関度テーブル（図１８）を生成する（Ｓ２１０）。要素間の計算方法についてはすでに説明したとおりである。

以上の処理（Ｓ１０〜Ｓ２１０）をＷｅｂ上から収集した画像について行う。対象とする画像の数が増えると、信頼度の高いアイテム別共起度テーブル（図１０）と、アイテム別複数共起度テーブル（図１２）と、タイトル名詞アイテム相関度テーブル（図１８）が形成される。アイテム別共起度テーブル（図１０）とアイテム別複数共起度テーブル（図１２）がアイテム共起辞書、タイトル名詞アイテム相関度テーブル（図１８）がタイトル／アイテム相関辞書となる。

また、前記タイトル名詞アイテム相関度テーブル（図１８）を用いて、ある名詞（たとえば家）を上位の概念とし、その名詞に関連したアイテム（たとえば、居間、トイレ）を下位の概念とし、さらにそのアイテム（たとえば居間）を名詞とみなし、それに関連する下位のアイテム（たとえばソファー、テーブル）をツリー状に構成していき、空間オントロジーとして表現することもできる。なお、名詞に関連したアイテムとは、当該名詞との相関度が一定値以上のアイテムをいうこととする。

このオントロジーとは日本語処理の意味解析技術で利用される情報表現形式であり、言葉の概念どうしの関係を表現したものであるが、本発明ではこの技術を空間上の概念表現に利用できるようにし、空間の意味をとらえることができるように辞書化したものである。
なお、日本語処理技術でのオントロジーについては「言語と計算５“情報検索と言語処理”、徳永健伸、東京大学出版会、１９９９年１１月」のP１０４を参照。

なお、上記の説明では、アイテム共起辞書とタイトル／アイテム相関辞書の元となるアイテム別出現度数テーブル（図９）、アイテム別複数出現度数テーブル（図１１（ａ））及びタイトル名詞別アイテム出現度数テーブル（図１７）の初期化については触れていない。ステップ１０からステップ２１０の処理は、１つの画像について行うものであるので、複数の画像の処理を行う前に上記の３つの度数テーブルを初期化するようにしてもよいが、初期化は最初の一度だけとし、上記の３つの度数テーブルを累積的に使用するようにしてもよい。この場合は、画像の日付等により、すでに処理した画像を除いて処理するようにすれば、多数の画像例に基づく信頼度の高いアイテム共起辞書とタイトル／アイテム相関辞書を作成することができる。

（第２の実施形態）
第２の実施形態は、アイテム別共起度テーブル（図１０（ｂ））の生成方法が異なるだけで、他は第１の実施形態と同様である。

［テーブル］
図１０（ｂ）は、図９のアイテム別出現度数テーブルを用いて行う共起度の計算方法が、図１０（ａ）と異なる。この場合の２つのアイテム共起度は、当該２つのアイテムがともに出現した画像の数を、基準とするアイテムが出現した画像の数で除した商である。このようにすると、２つのアイテムの共起度が、いずれのアイテムを基準とするかにより異なったものとなる。生成時においては、単に計算方法の違いに過ぎないが、利用時において、２つのアイテムのどちらを基準に共起度を利用するかが意味を持つような場合に違いが出る。この点以外は、第１の実施形態と同様である。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。

本発明の実施形態の一例に係る空間共起辞書作成装置１が有する機能部分と、空間共起辞書作成装置１がアクセスするデータベース１０〜１３との関係を示した全体図である。本発明の実施形態の一例に係る空間共起辞書作成装置１のハードウェア構成を示す図である。本発明の実施形態に係る画像取得部２が取得する画像の一例である。本発明の実施形態に係る部分画像取得部３が上記画像から取得した部分画像の例である。本発明の実施形態の一例に係るアイテム特定部５で参照する画像辞書を示す図である。本発明の実施形態の一例に係るアイテム名テーブルを示す図である。本発明の実施形態の一例に係る抽出アイテムテーブルを示す図である。本発明の実施形態の一例に係る動画から部分画像が取得された場合における抽出アイテムテーブルを示す図である。本発明の実施形態の一例に係るアイテム別出現度数テーブルを示す図である。本発明の実施形態の一例に係る異なる２つのアイテム間の共起度を保有するアイテム別共起度テーブルを示す図である。（（ａ）は第１の実施形態、（ｂ）は第２の実施形態に対応）本発明の実施形態の一例に係る同一のアイテムが同一の画像に複数個出現する場合の出現度数をカウントするアイテム別複数出現度数テーブルを示す図である。（（ａ）は一般的な形、（ｂ）は具体的な例）本発明の実施形態の一例に係る同一のアイテムが同一の画像に複数個出現する場合の共起度を表したアイテム別複数共起度テーブルを示す図である。本発明の実施形態の一例に係る名詞テーブルを示す図である。本発明の実施形態の一例に係るタイトルから抽出された名詞を示す抽出名詞テーブルを示す図である。本発明の実施形態の一例に係る拡張アイテム番号を用いて抽出アイテムテーブル（図７）を拡張した拡張抽出アイテムテーブルを示す図である。本発明の実施形態の一例に係る拡張アイテム名テーブルを示す図である。本発明の実施形態の一例に係る各名詞を含むタイトルが画像のタイトルとして使用された数（タイトル名詞出現度数）と、各アイテムについて、そのアイテムが出現した画像のうち、その画像のタイトルがある名詞を含むような画像の数（タイトル名詞別アイテム出現度数）とを、各名詞と各アイテムについて集計したタイトル名詞別アイテム出現度数テーブルを示す図である。本発明の実施形態の一例に係るタイトルから抽出された名詞と、そのタイトルに係る画像に出現したアイテムとの相関関係を示したタイトル名詞アイテム相関度テーブルを示す図である。本発明の実施形態の一例に係る空間共起辞書作成装置１の処理のフローチャート（その１）である。本発明の実施形態の一例に係る空間共起辞書作成装置１の処理のフローチャート（その２）である。

符号の説明

１空間共起辞書作成装置
２画像取得部
３部分画像取得部
４特徴情報抽出部
５アイテム特定部
６アイテム共起辞書作成部
７タイトル取得部
８タイトル名詞抽出部
９タイトル／アイテム相関辞書作成部
１０画像辞書ＤＢ
１１画像ＤＢ
１２アイテム共起辞書ＤＢ
１３タイトル／アイテム相関辞書ＤＢ
２０バスライン
３０制御装置
３１、３２ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）
３３通信Ｉ／Ｆ（Ｉ／Ｆ：インターフェイス）
３４メインメモリ
３５ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）
３６表示装置
３７Ｉ／Ｏコントローラ
３８入力装置
３９ハードディスク
４０半導体メモリ
４１記憶装置

Claims

Ｗｅｂ上から収集された画像を取得する画像取得部と、
前記画像から部分画像を取得する部分画像取得部と、
前記部分画像から特徴情報を抽出する特徴情報抽出部と、
画像辞書を用い、前記特徴情報に基づき前記部分画像に対応するアイテムを特定するアイテム特定部と、
前記特定したアイテムに基づき、同一画像に出現する複数のアイテムに係るアイテムの共起度を計算してアイテム共起辞書を作成するアイテム共起辞書作成部と、
を備える空間共起辞書作成装置。
前記画像は動画像であり、前記共起度は、該動画像を構成する全静止画像のうち少なくとも１つの静止画像に前記アイテムが出現するか否かにより判定することを特徴とする請求項１に記載の空間共起辞書作成装置。
前記共起度は、同一の画像に出現する異なる２つのアイテムに係るものであることを特徴とする請求項１または請求項２に記載の空間共起辞書作成装置。
前記共起度は、同一の画像に出現する同一の複数のアイテムに係るものであることを特徴とする請求項１または請求項２に記載の空間共起辞書作成装置。
異なる２つのアイテムの前記共起度は、前記２つのアイテムがともに出現する画像の数を、前記２つのアイテムがそれぞれ出現する画像の数のうちいずれか小さい方で除したものであることを特徴とする請求項３に記載の空間共起辞書作成装置。
異なる２つのアイテムの前記共起度は、前記２つのアイテムがともに出現する画像の数を、一方を基準として、前記基準としたアイテムが出現する画像の数で除したものであることを特徴とする請求項３に記載の空間共起辞書作成装置。
前記画像のタイトルから、該タイトルに含まれる名詞を抽出するタイトル名詞抽出部と、
前記抽出した名詞と、前記特定したアイテムの相関度を計算してタイトル／アイテム相関辞書を作成するタイトル／アイテム相関辞書作成部と、
を備える請求項１から請求項６のいずれかに記載の空間共起辞書作成装置。
前記抽出した名詞を上位の概念とし、その名詞に関連したアイテムを下位の概念とし、さらにそのアイテムを名詞とみなし、それに関連する下位のアイテムをツリー状に構成していく空間オントロジー構成部をさらに備える請求項７に記載の空間共起辞書作成装置。
前記画像は動画像であり、前記相関度は、該動画像を構成する全静止画像のうち少なくとも１つの静止画像に前記アイテムが出現するか否かにより判定することを特徴とする請求項７に記載の空間共起辞書作成装置。
コンピュータを用いて、画像に出現するアイテムの共起度に係る空間共起辞書を作成する方法であって、
Ｗｅｂ上から収集された画像を取得する画像取得ステップと、
前記画像から部分画像を取得する部分画像取得ステップと、
前記部分画像から特徴情報を抽出する特徴情報抽出ステップと、
画像辞書を用い、前記特徴情報に基づきアイテムを特定するアイテム特定ステップと、
前記特定したアイテムに基づき、同一画像に出現する複数のアイテムに係るアイテムの共起度を計算してアイテム共起辞書を作成するアイテム共起辞書作成ステップと、
を含む空間共起辞書作成方法。
前記画像のタイトルから、該タイトルに含まれる名詞を抽出するタイトル名詞抽出ステップと、
前記抽出した名詞と、前記特定したアイテムの相関度を計算してタイトル／アイテム相関辞書を作成するタイトル／アイテム相関辞書作成ステップと、
を含む請求項９に記載の空間共起辞書作成方法。