JP2007109067A - 情報統合方法及び装置及びプログラム - Google Patents

情報統合方法及び装置及びプログラム Download PDF

Info

Publication number
JP2007109067A
JP2007109067A JP2005300286A JP2005300286A JP2007109067A JP 2007109067 A JP2007109067 A JP 2007109067A JP 2005300286 A JP2005300286 A JP 2005300286A JP 2005300286 A JP2005300286 A JP 2005300286A JP 2007109067 A JP2007109067 A JP 2007109067A
Authority
JP
Japan
Prior art keywords
information
image
text information
text
storage means
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005300286A
Other languages
English (en)
Inventor
Yukio Uematsu
幸生 植松
Ryoji Kataoka
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005300286A priority Critical patent/JP2007109067A/ja
Publication of JP2007109067A publication Critical patent/JP2007109067A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 Web情報を言語に依存せず、統合する。
【解決手段】 本発明は、画像情報記憶手段に格納されている前記画像情報の特徴量を比較し、一致する画像情報を検索し、テキスト情報記憶手段中の、一致した画像情報に関連付けられたテキスト情報を統合する。
【選択図】 図1

Description

本発明は、情報統合方法及び装置及びプログラムに係り、特に、Web上にある複数の情報提供者が提供した情報を統合するための情報統合方法及び装置及びプログラムに関する。
従来の情報統合装置とは、コンピュータ上で動作するWeb上の情報を統合するシステムのことであり、複数の情報提供者が提供した情報を統合して表示する。
統合方法としては、情報同士の類似度をテキスト情報を用いて算出し、閾値を超える情報を統合する。テキスト情報の類似度を判定する方法としては、単語の重みを利用してコサイン類似度を求める方法がある(例えば、非特許文献1参照)。
また、テキスト情報と類似したテキスト情報をシソーラスなどの辞書を利用して検索する装置で情報を統合することも考えられる(例えば、特許文献1参照)。
特開平3-172966号公報「類似文書検索装置」 徳永健伸、"情報検索と言語処理"pp. 26-31、東京大学出版会、ISBN4-13-065405-5, 1999
しかしながら、従来技術では、ニュース記事等の情報を統合する際に出現する文字列のみを利用しているために、日本語で書かれた記事であれば日本語の情報のみを関連記事として統合することができても、関連する多言語の記事を統合することはできないという問題がある。
上記の特許文献1(特開平3−172966号)のようにシソーラス等の辞書で文字列を多言語に展開することも考えられるが、その場合は辞書を用意する必要があるために実現が困難である。
本発明は、上記の点に鑑みなされたもので、Web上で配信されるニュース等の情報に関連付けられた画像情報に基づいて、一致する画像、もしくは部分一致する画像を使って情報を統合して提示することで、言語に依存せず、情報を統合することが可能な情報統合方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、Web上から収集された情報のテキスト情報を抽出し、テキスト情報記憶手段に格納し、該テキスト情報に関連付けられた画像が存在する場合に、該画像の特徴量を抽出して画像情報と共に画像情報記憶手段に格納し、該画像情報が該テキスト情報と関連付けられて該テキスト情報記憶手段に格納されている場合に、該テキスト情報記憶手段に格納されている複数の情報を統合する情報統合方法であって、
画像情報記憶手段に格納されている複数の画像情報の特徴量を比較し、一致する画像情報を検索する比較ステップ(ステップ1)と、
テキスト情報記憶手段中の、比較ステップで一致した画像情報に関連付けられたテキスト情報を統合する統合ステップ(ステップ2)と、を行う。
また、本発明(請求項2)は、テキスト情報記憶手段中の、画像情報を持たないテキスト情報同士の類似度を算出するステップと、
類似度が所定の閾値を超えるテキスト情報同士を統合するステップと、を更に行う。
図2は、本発明の原理構成図である。
本発明(請求項3)は、Web上から収集された情報のテキスト情報を抽出し、テキスト情報記憶手段110に格納し、該テキスト情報に関連付けられた画像が存在する場合に、該画像の特徴量を抽出して画像情報と共に画像情報記憶手段120に格納し、該画像情報が該テキスト情報と関連付けられて該テキスト情報記憶手段110に格納されている場合に、該テキスト情報記憶手段110に格納されている複数の情報を統合する情報統合装置であって、
画像情報記憶手段120に格納されている複数の画像情報の特徴量を比較し、一致する画像情報を検索する画像情報統合手段140と、
テキスト情報記憶手段119中の、画像情報統合手段140で一致した画像情報に関連付けられたテキスト情報を統合するテキスト情報統合手段130と、を有する。
また、本発明(請求項4)は、テキスト情報記憶手段110中の、画像情報を持たないテキスト情報同士の類似度を算出する手段と、
類似度が所定の閾値を超えるテキスト情報同士を統合する手段と、を更に有する。
本発明(請求項5)は、Web上の情報を保存するテキスト情報記憶手段と、テキスト情報に関連付けられた画像の特徴量を保存する画像情報記憶手段と、を有するコンピュータを、
請求項3または4記載の情報統合装置として機能させる情報統合プログラムである。
上記のように本発明によれば、テキスト情報に関連付けられた画像の特徴量によって情報を統合することで、言語に依存せず、情報を統合することができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における情報統合装置の構成を示す。
同図に示す情報統合装置100は、テキスト情報データベース110、画像情報データベース120、テキスト情報統合部130、画像情報統合部140、及びクライアント出力部150から構成される。
情報統合装置100には、クライアントの表示装置300、情報抽出装置230が接続されている。
情報抽出装置230は、ネットワーク210を介して情報発信者が配信するWebページを収集するWebページ収集ロボット220により収集されたWebページからテキスト情報を抽出するテキスト情報抽出部231、Webページから画像情報(画像URI)を抽出する画像情報抽出部233、テキスト情報と画像情報を関連付ける関連付け部232から構成される。テキスト情報抽出部231は、抽出されたテキスト情報と関連付け部232により当該テキスト情報と関連付けられた画像情報をテキスト情報データベース110に格納する。
また、画像情報抽出部233は、画像の特徴量を抽出し、関連付け部232によりテキスト情報と関連付けられた画像情報を特徴量と共に、画像情報データベース120に格納する。画像特徴量を抽出する方法としては、特開2000−250943「画像分類連携システム」、特開平10−240765「類似オブジェクト検索方法」、特開平11−25271「画像内オブジェクト抽出方法」等がある。抽出された画像特徴量を画像URIと共に画像情報データベース120に格納する。
上記の関連付け部232における、テキストと画像を関連付ける方法としては、例えば、特開2004−220251「情報抽出規則作成システム、情報抽出規則作成方法及び情報抽出規則作成プログラム」がある。このような情報で抽出されたブロックと同一ブロックにある画像情報をテキスト情報と関連付けてもよい。対応付けられた画像情報のURIをテキスト情報データベース110に格納する。
図4は、本発明の一実施の形態におけるテキスト情報データベースの内容の例を示す。
テキスト情報データベース110には、情報源の情報URI、当該URIに関連付けられた情報画像URI、当該情報のカテゴリ情報、当該情報URIに対応するテキスト情報、テキスト情報が登録された日時を表す情報配信時間が保存されている。
テキスト情報内には、タイトル情報や、要約情報、全てのテキスト情報など構造化された情報が格納されている。
図5は、本発明の一実施の形態における画像情報データベースの内容の例を示す。
画像情報データベース120には、画像URIと当該画像URIに対応する画像の特徴量が格納されている。
次に、上記の構成における動作の概要を説明する。
まず、画像情報統合部130の処理について説明する。
図6は、本発明の一実施の形態における情報統合装置の画像情報統合部の動作のフローチャートである。
以下のステップ101、ステップ102については、Webページ収集ロボット220、情報抽出装置230で行われる前処理である。
ステップ101) Webページ収集ロボット220がネットワーク210を介してWebよりページを収集する。
ステップ102) 情報抽出装置230により、収集されたWebページ上のテキスト情報を抽出し、テキスト情報に対応付けられた画像の特徴量を抽出し、画像情報データベース120に格納しておく。
ステップ103) 画像情報統合部140は、画像情報データベース120に格納されている複数の画像の中で一致する画像があるかを判定する。具体的には、画像情報データベース120に格納された画像の特徴量の類似度を求め、当該類似度が所定の閾値を超えるものが存在するか判定する。存在する場合は、これを一致する画像としてステップ104に移行し、存在しない場合はステップ105に移行する。
ステップ104) 類似した画像の画像URIに基づいて、テキスト情報データベース110に保存されているカテゴリ情報を取得し、これを付与して、テキスト情報データベース110に格納する。例えば、画像Aに一致する画像Bがあった場合、画像Aのカテゴリ情報を画像Bに付与する。これにより、後述するテキスト情報統合部130による処理において、カテゴリを参照することにより、このカテゴリが統合された一つの情報となる。
ステップ105) また、最も類似した画像との類似度が所定の閾値に満たない場合は新しいカテゴリ情報を比較対象の画像に追加してテキスト情報データベース110に格納する。
次に、テキスト情報統合部130の処理について説明する。
図7は、本発明の一実施の形態における情報統合装置のテキスト情報統合部の動作のフローチャートである。
ステップ201) テキスト情報統合部130は、事前に表示するための時間情報を保存しておく。例えば、ニュース情報などを対象とした場合は、“現在時刻から24時間以内の情報”などのように時間情報を設定することもできる。
ステップ202) 次にその指定された時間情報を元にテキスト情報データベース110の情報配信時間を参照する。
ステップ203) 条件(時間情報)に該当するテキスト情報とカテゴリ情報を取得する。
ステップ204) 次に、カテゴリ情報に基づいて、テキスト情報を用いて情報を統合する。例えば、前述の非特許文献1の類似度を用いて、テキスト情報データベース110に画像情報を格納していないテキスト情報に対して、カテゴリ内のテキスト情報との類似度が所定の閾値を超えるテキスト情報を統合する。あるカテゴリに対応するテキスト情報とテキスト情報データベース110中のテキスト情報との類似度が所定の閾値を超えるものが存在するかを判定し、存在する場合は、ステップ205に移行し、存在しない場合はステップ206に移行する。
ステップ205) 類似したテキスト情報が所属するカテゴリを比較対象のテキスト情報に付与して、当該テキスト統合部130内の統合した情報を格納するためのメモリ(図示せず)に保存する。
ステップ206) 類似度が所定の閾値以下の場合は、取得したテキスト情報に新たなカテゴリ情報を付与して、テキスト情報データベース110に格納する。
クライアント出力部150は、テキスト情報統合部130のメモリ(図示せず)から統合した情報を取得し、クライアント表示装置300に表示する。表示例を図8に示す。表示画面では、予め画像で統合したカテゴリ毎に分類して表示される。例えば、カテゴリに所属するメンバ数の多い順に並べて表示してもよい。
また、それぞれのカテゴリの中でテキスト情報統合部130より統合された文書はまとめて表示してもよい。例えば、図8のURI(1),URI(3),URI(5)は統合カテゴリ1の中で更に統合された例である。その中のURI(1)が代表情報として表示されている例である。代表情報として選択する方法は、例えば、文書長が長い文章を選択することや、最も解像度が高い画像を持つ文章を選択することなどが考えられる。
なお、上記の実施の形態で示したテキスト情報統合部130と画像情報統合部140の処理をプログラムとして構築し、情報統合装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることも可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、Web上の情報を統合するための技術に適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における情報統合装置の構成図である。 本発明の一実施の形態におけるテキスト情報データベースの内容の例である。 本発明の一実施の形態における画像情報データベースの内容の例である。 本発明の一実施の形態における情報統合装置の画像情報統合部の動作のフローチャートである。 本発明の一実施の形態における情報統合装置のテキスト情報統合部の動作のフローチャートである。 本発明の一実施の形態における表示例である。
符号の説明
100 情報統合装置
110 テキスト情報記憶手段、テキスト情報データベース(DB)
120 画像情報記憶手段、画像情報データベース(DB)
130 テキスト情報統合手段、テキスト情報統合部
140 画像情報統合手段、画像情報統合部
150 クライアント出力部
210 ネットワーク
220 Webページ収集ロボット
230 情報抽出装置
231 テキスト情報抽出部
232 関連付け部
233 画像情報抽出部

Claims (5)

  1. Web上から収集された情報のテキスト情報を抽出し、テキスト情報記憶手段に格納し、該テキスト情報に関連付けられた画像が存在する場合に、該画像の特徴量を抽出して画像情報と共に画像情報記憶手段に格納し、該画像情報が該テキスト情報と関連付けられて該テキスト情報記憶手段に格納されている場合に、該テキスト情報記憶手段に格納されている複数の情報を統合する情報統合方法であって、
    前記画像情報記憶手段に格納されている複数の前記画像情報の特徴量を比較し、一致する画像情報を検索する比較ステップと、
    前記テキスト情報記憶手段中の、前記比較ステップで一致した画像情報に関連付けられたテキスト情報を統合する統合ステップと、
    を行うことを特徴とする情報統合方法。
  2. 前記テキスト情報記憶手段中の、画像情報を持たない前記テキスト情報同士の類似度を算出するステップと、
    前記類似度が所定の閾値を超えるテキスト情報同士を統合するステップと、
    を更に行う請求項1記載の情報統合方法。
  3. Web上から収集された情報のテキスト情報を抽出し、テキスト情報記憶手段に格納し、該テキスト情報に関連付けられた画像が存在する場合に、該画像の特徴量を抽出して画像情報と共に画像情報記憶手段に格納し、該画像情報が該テキスト情報と関連付けられて該テキスト情報記憶手段に格納されている場合に、該テキスト情報記憶手段に格納されている複数の情報を統合する情報統合装置であって、
    前記画像情報記憶手段に格納されている複数の前記画像情報の特徴量を比較し、一致する画像情報を検索する画像情報統合手段と、
    前記テキスト情報記憶手段中の、前記画像情報統合手段で一致した画像情報に関連付けられたテキスト情報を統合するテキスト情報統合手段と、
    を有することを特徴とする情報統合装置。
  4. 前記テキスト情報記憶手段中の、画像情報を持たない前記テキスト情報同士の類似度を算出する手段と、
    前記類似度が所定の閾値を超えるテキスト情報同士を統合する手段と、
    を更に有する請求項3記載の情報統合装置。
  5. Web上の情報を保存するテキスト情報記憶手段と、テキスト情報に関連付けられた画像の特徴量を保存する画像情報記憶手段と、を有するコンピュータを、
    請求項3または4記載の情報統合装置として機能させることを特徴とする情報統合プログラム。
JP2005300286A 2005-10-14 2005-10-14 情報統合方法及び装置及びプログラム Pending JP2007109067A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005300286A JP2007109067A (ja) 2005-10-14 2005-10-14 情報統合方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005300286A JP2007109067A (ja) 2005-10-14 2005-10-14 情報統合方法及び装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2007109067A true JP2007109067A (ja) 2007-04-26

Family

ID=38034885

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005300286A Pending JP2007109067A (ja) 2005-10-14 2005-10-14 情報統合方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2007109067A (ja)

Similar Documents

Publication Publication Date Title
KR101450358B1 (ko) 구조형 지리적 데이터 검색
US7788262B1 (en) Method and system for creating context based summary
US8321396B2 (en) Automatically extracting by-line information
CN102053991B (zh) 用于多语言文档检索的方法及系统
US9031935B2 (en) Search system, search method, and program
US20120047172A1 (en) Parallel document mining
CN107844493B (zh) 一种文件关联方法及系统
EP1312039B1 (en) System and method for automatic preparation and searching of scanned documents
JP2003288362A (ja) 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
CN107870915B (zh) 对搜索结果的指示
US20030177115A1 (en) System and method for automatic preparation and searching of scanned documents
US20040261009A1 (en) Electronic document significant updating detection apparatus, electronic document significant updating detection method; electronic document significant updating detection program, and recording medium on which electronic document significant updating detection program is recording
CN109948154A (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
US7593844B1 (en) Document translation systems and methods employing translation memories
JP4873739B2 (ja) テキストの多重トピック抽出装置、テキストの多重トピック抽出方法、プログラム及び記録媒体
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
US20110252313A1 (en) Document information selection method and computer program product
US20040010556A1 (en) Electronic document information expansion apparatus, electronic document information expansion method , electronic document information expansion program, and recording medium which records electronic document information expansion program
JP2009277099A (ja) 類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2021144348A (ja) 情報処理装置及び情報処理方法
JP2007164635A (ja) 同義語彙獲得方法及び装置及びプログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
CN113449063B (zh) 一种构建文档结构信息检索库的方法及装置
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
US10606875B2 (en) Search support apparatus and method