JP2007109067A

JP2007109067A - 情報統合方法及び装置及びプログラム

Info

Publication number: JP2007109067A
Application number: JP2005300286A
Authority: JP
Inventors: Yukio Uematsu; 幸生植松; Ryoji Kataoka; 良治片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-10-14
Filing date: 2005-10-14
Publication date: 2007-04-26

Abstract

【課題】Ｗｅｂ情報を言語に依存せず、統合する。
【解決手段】本発明は、画像情報記憶手段に格納されている前記画像情報の特徴量を比較し、一致する画像情報を検索し、テキスト情報記憶手段中の、一致した画像情報に関連付けられたテキスト情報を統合する。
【選択図】図１

Description

本発明は、情報統合方法及び装置及びプログラムに係り、特に、Ｗｅｂ上にある複数の情報提供者が提供した情報を統合するための情報統合方法及び装置及びプログラムに関する。

従来の情報統合装置とは、コンピュータ上で動作するＷｅｂ上の情報を統合するシステムのことであり、複数の情報提供者が提供した情報を統合して表示する。

統合方法としては、情報同士の類似度をテキスト情報を用いて算出し、閾値を超える情報を統合する。テキスト情報の類似度を判定する方法としては、単語の重みを利用してコサイン類似度を求める方法がある（例えば、非特許文献１参照）。

また、テキスト情報と類似したテキスト情報をシソーラスなどの辞書を利用して検索する装置で情報を統合することも考えられる（例えば、特許文献１参照）。
特開平３-１７２９６６号公報「類似文書検索装置」徳永健伸、"情報検索と言語処理"pp. 26-31、東京大学出版会、ISBN4-13-065405-5, 1999

しかしながら、従来技術では、ニュース記事等の情報を統合する際に出現する文字列のみを利用しているために、日本語で書かれた記事であれば日本語の情報のみを関連記事として統合することができても、関連する多言語の記事を統合することはできないという問題がある。

上記の特許文献１（特開平３−１７２９６６号）のようにシソーラス等の辞書で文字列を多言語に展開することも考えられるが、その場合は辞書を用意する必要があるために実現が困難である。

本発明は、上記の点に鑑みなされたもので、Ｗｅｂ上で配信されるニュース等の情報に関連付けられた画像情報に基づいて、一致する画像、もしくは部分一致する画像を使って情報を統合して提示することで、言語に依存せず、情報を統合することが可能な情報統合方法及び装置及びプログラムを提供することを目的とする。

図１は、本発明の原理を説明するための図である。

本発明（請求項１）は、Ｗｅｂ上から収集された情報のテキスト情報を抽出し、テキスト情報記憶手段に格納し、該テキスト情報に関連付けられた画像が存在する場合に、該画像の特徴量を抽出して画像情報と共に画像情報記憶手段に格納し、該画像情報が該テキスト情報と関連付けられて該テキスト情報記憶手段に格納されている場合に、該テキスト情報記憶手段に格納されている複数の情報を統合する情報統合方法であって、
画像情報記憶手段に格納されている複数の画像情報の特徴量を比較し、一致する画像情報を検索する比較ステップ（ステップ１）と、
テキスト情報記憶手段中の、比較ステップで一致した画像情報に関連付けられたテキスト情報を統合する統合ステップ（ステップ２）と、を行う。

また、本発明（請求項２）は、テキスト情報記憶手段中の、画像情報を持たないテキスト情報同士の類似度を算出するステップと、
類似度が所定の閾値を超えるテキスト情報同士を統合するステップと、を更に行う。

図２は、本発明の原理構成図である。

本発明（請求項３）は、Ｗｅｂ上から収集された情報のテキスト情報を抽出し、テキスト情報記憶手段１１０に格納し、該テキスト情報に関連付けられた画像が存在する場合に、該画像の特徴量を抽出して画像情報と共に画像情報記憶手段１２０に格納し、該画像情報が該テキスト情報と関連付けられて該テキスト情報記憶手段１１０に格納されている場合に、該テキスト情報記憶手段１１０に格納されている複数の情報を統合する情報統合装置であって、
画像情報記憶手段１２０に格納されている複数の画像情報の特徴量を比較し、一致する画像情報を検索する画像情報統合手段１４０と、
テキスト情報記憶手段１１９中の、画像情報統合手段１４０で一致した画像情報に関連付けられたテキスト情報を統合するテキスト情報統合手段１３０と、を有する。

また、本発明（請求項４）は、テキスト情報記憶手段１１０中の、画像情報を持たないテキスト情報同士の類似度を算出する手段と、
類似度が所定の閾値を超えるテキスト情報同士を統合する手段と、を更に有する。

本発明（請求項５）は、Ｗｅｂ上の情報を保存するテキスト情報記憶手段と、テキスト情報に関連付けられた画像の特徴量を保存する画像情報記憶手段と、を有するコンピュータを、
請求項３または４記載の情報統合装置として機能させる情報統合プログラムである。

上記のように本発明によれば、テキスト情報に関連付けられた画像の特徴量によって情報を統合することで、言語に依存せず、情報を統合することができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の一実施の形態における情報統合装置の構成を示す。

同図に示す情報統合装置１００は、テキスト情報データベース１１０、画像情報データベース１２０、テキスト情報統合部１３０、画像情報統合部１４０、及びクライアント出力部１５０から構成される。

情報統合装置１００には、クライアントの表示装置３００、情報抽出装置２３０が接続されている。

情報抽出装置２３０は、ネットワーク２１０を介して情報発信者が配信するＷｅｂページを収集するＷｅｂページ収集ロボット２２０により収集されたＷｅｂページからテキスト情報を抽出するテキスト情報抽出部２３１、Ｗｅｂページから画像情報（画像ＵＲＩ）を抽出する画像情報抽出部２３３、テキスト情報と画像情報を関連付ける関連付け部２３２から構成される。テキスト情報抽出部２３１は、抽出されたテキスト情報と関連付け部２３２により当該テキスト情報と関連付けられた画像情報をテキスト情報データベース１１０に格納する。

また、画像情報抽出部２３３は、画像の特徴量を抽出し、関連付け部２３２によりテキスト情報と関連付けられた画像情報を特徴量と共に、画像情報データベース１２０に格納する。画像特徴量を抽出する方法としては、特開２０００−２５０９４３「画像分類連携システム」、特開平１０−２４０７６５「類似オブジェクト検索方法」、特開平１１−２５２７１「画像内オブジェクト抽出方法」等がある。抽出された画像特徴量を画像ＵＲＩと共に画像情報データベース１２０に格納する。

上記の関連付け部２３２における、テキストと画像を関連付ける方法としては、例えば、特開２００４−２２０２５１「情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム」がある。このような情報で抽出されたブロックと同一ブロックにある画像情報をテキスト情報と関連付けてもよい。対応付けられた画像情報のＵＲＩをテキスト情報データベース１１０に格納する。

図４は、本発明の一実施の形態におけるテキスト情報データベースの内容の例を示す。

テキスト情報データベース１１０には、情報源の情報ＵＲＩ、当該ＵＲＩに関連付けられた情報画像ＵＲＩ、当該情報のカテゴリ情報、当該情報ＵＲＩに対応するテキスト情報、テキスト情報が登録された日時を表す情報配信時間が保存されている。

テキスト情報内には、タイトル情報や、要約情報、全てのテキスト情報など構造化された情報が格納されている。

図５は、本発明の一実施の形態における画像情報データベースの内容の例を示す。

画像情報データベース１２０には、画像ＵＲＩと当該画像ＵＲＩに対応する画像の特徴量が格納されている。

次に、上記の構成における動作の概要を説明する。

まず、画像情報統合部１３０の処理について説明する。

図６は、本発明の一実施の形態における情報統合装置の画像情報統合部の動作のフローチャートである。

以下のステップ１０１、ステップ１０２については、Ｗｅｂページ収集ロボット２２０、情報抽出装置２３０で行われる前処理である。

ステップ１０１）Ｗｅｂページ収集ロボット２２０がネットワーク２１０を介してＷｅｂよりページを収集する。

ステップ１０２）情報抽出装置２３０により、収集されたＷｅｂページ上のテキスト情報を抽出し、テキスト情報に対応付けられた画像の特徴量を抽出し、画像情報データベース１２０に格納しておく。

ステップ１０３）画像情報統合部１４０は、画像情報データベース１２０に格納されている複数の画像の中で一致する画像があるかを判定する。具体的には、画像情報データベース１２０に格納された画像の特徴量の類似度を求め、当該類似度が所定の閾値を超えるものが存在するか判定する。存在する場合は、これを一致する画像としてステップ１０４に移行し、存在しない場合はステップ１０５に移行する。

ステップ１０４）類似した画像の画像ＵＲＩに基づいて、テキスト情報データベース１１０に保存されているカテゴリ情報を取得し、これを付与して、テキスト情報データベース１１０に格納する。例えば、画像Ａに一致する画像Ｂがあった場合、画像Ａのカテゴリ情報を画像Ｂに付与する。これにより、後述するテキスト情報統合部１３０による処理において、カテゴリを参照することにより、このカテゴリが統合された一つの情報となる。

ステップ１０５）また、最も類似した画像との類似度が所定の閾値に満たない場合は新しいカテゴリ情報を比較対象の画像に追加してテキスト情報データベース１１０に格納する。

次に、テキスト情報統合部１３０の処理について説明する。

図７は、本発明の一実施の形態における情報統合装置のテキスト情報統合部の動作のフローチャートである。

ステップ２０１）テキスト情報統合部１３０は、事前に表示するための時間情報を保存しておく。例えば、ニュース情報などを対象とした場合は、“現在時刻から２４時間以内の情報”などのように時間情報を設定することもできる。

ステップ２０２）次にその指定された時間情報を元にテキスト情報データベース１１０の情報配信時間を参照する。

ステップ２０３）条件（時間情報）に該当するテキスト情報とカテゴリ情報を取得する。

ステップ２０４）次に、カテゴリ情報に基づいて、テキスト情報を用いて情報を統合する。例えば、前述の非特許文献１の類似度を用いて、テキスト情報データベース１１０に画像情報を格納していないテキスト情報に対して、カテゴリ内のテキスト情報との類似度が所定の閾値を超えるテキスト情報を統合する。あるカテゴリに対応するテキスト情報とテキスト情報データベース１１０中のテキスト情報との類似度が所定の閾値を超えるものが存在するかを判定し、存在する場合は、ステップ２０５に移行し、存在しない場合はステップ２０６に移行する。

ステップ２０５）類似したテキスト情報が所属するカテゴリを比較対象のテキスト情報に付与して、当該テキスト統合部１３０内の統合した情報を格納するためのメモリ（図示せず）に保存する。

ステップ２０６）類似度が所定の閾値以下の場合は、取得したテキスト情報に新たなカテゴリ情報を付与して、テキスト情報データベース１１０に格納する。

クライアント出力部１５０は、テキスト情報統合部１３０のメモリ（図示せず）から統合した情報を取得し、クライアント表示装置３００に表示する。表示例を図８に示す。表示画面では、予め画像で統合したカテゴリ毎に分類して表示される。例えば、カテゴリに所属するメンバ数の多い順に並べて表示してもよい。

また、それぞれのカテゴリの中でテキスト情報統合部１３０より統合された文書はまとめて表示してもよい。例えば、図８のＵＲＩ（１），ＵＲＩ（３），ＵＲＩ（５）は統合カテゴリ１の中で更に統合された例である。その中のＵＲＩ（１）が代表情報として表示されている例である。代表情報として選択する方法は、例えば、文書長が長い文章を選択することや、最も解像度が高い画像を持つ文章を選択することなどが考えられる。

なお、上記の実施の形態で示したテキスト情報統合部１３０と画像情報統合部１４０の処理をプログラムとして構築し、情報統合装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることも可能である。

なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、Ｗｅｂ上の情報を統合するための技術に適用可能である。

本発明の原理を説明するための図である。本発明の原理構成図である。本発明の一実施の形態における情報統合装置の構成図である。本発明の一実施の形態におけるテキスト情報データベースの内容の例である。本発明の一実施の形態における画像情報データベースの内容の例である。本発明の一実施の形態における情報統合装置の画像情報統合部の動作のフローチャートである。本発明の一実施の形態における情報統合装置のテキスト情報統合部の動作のフローチャートである。本発明の一実施の形態における表示例である。

符号の説明

１００情報統合装置
１１０テキスト情報記憶手段、テキスト情報データベース（ＤＢ）
１２０画像情報記憶手段、画像情報データベース（ＤＢ）
１３０テキスト情報統合手段、テキスト情報統合部
１４０画像情報統合手段、画像情報統合部
１５０クライアント出力部
２１０ネットワーク
２２０Ｗｅｂページ収集ロボット
２３０情報抽出装置
２３１テキスト情報抽出部
２３２関連付け部
２３３画像情報抽出部

Claims

Ｗｅｂ上から収集された情報のテキスト情報を抽出し、テキスト情報記憶手段に格納し、該テキスト情報に関連付けられた画像が存在する場合に、該画像の特徴量を抽出して画像情報と共に画像情報記憶手段に格納し、該画像情報が該テキスト情報と関連付けられて該テキスト情報記憶手段に格納されている場合に、該テキスト情報記憶手段に格納されている複数の情報を統合する情報統合方法であって、
前記画像情報記憶手段に格納されている複数の前記画像情報の特徴量を比較し、一致する画像情報を検索する比較ステップと、
前記テキスト情報記憶手段中の、前記比較ステップで一致した画像情報に関連付けられたテキスト情報を統合する統合ステップと、
を行うことを特徴とする情報統合方法。
前記テキスト情報記憶手段中の、画像情報を持たない前記テキスト情報同士の類似度を算出するステップと、
前記類似度が所定の閾値を超えるテキスト情報同士を統合するステップと、
を更に行う請求項１記載の情報統合方法。
Ｗｅｂ上から収集された情報のテキスト情報を抽出し、テキスト情報記憶手段に格納し、該テキスト情報に関連付けられた画像が存在する場合に、該画像の特徴量を抽出して画像情報と共に画像情報記憶手段に格納し、該画像情報が該テキスト情報と関連付けられて該テキスト情報記憶手段に格納されている場合に、該テキスト情報記憶手段に格納されている複数の情報を統合する情報統合装置であって、
前記画像情報記憶手段に格納されている複数の前記画像情報の特徴量を比較し、一致する画像情報を検索する画像情報統合手段と、
前記テキスト情報記憶手段中の、前記画像情報統合手段で一致した画像情報に関連付けられたテキスト情報を統合するテキスト情報統合手段と、
を有することを特徴とする情報統合装置。
前記テキスト情報記憶手段中の、画像情報を持たない前記テキスト情報同士の類似度を算出する手段と、
前記類似度が所定の閾値を超えるテキスト情報同士を統合する手段と、
を更に有する請求項３記載の情報統合装置。
Ｗｅｂ上の情報を保存するテキスト情報記憶手段と、テキスト情報に関連付けられた画像の特徴量を保存する画像情報記憶手段と、を有するコンピュータを、
請求項３または４記載の情報統合装置として機能させることを特徴とする情報統合プログラム。