JP2005063432A - マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法 - Google Patents

マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法 Download PDF

Info

Publication number
JP2005063432A
JP2005063432A JP2004228640A JP2004228640A JP2005063432A JP 2005063432 A JP2005063432 A JP 2005063432A JP 2004228640 A JP2004228640 A JP 2004228640A JP 2004228640 A JP2004228640 A JP 2004228640A JP 2005063432 A JP2005063432 A JP 2005063432A
Authority
JP
Japan
Prior art keywords
block
multimedia
main
text
structured document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004228640A
Other languages
English (en)
Inventor
金松 ▲劉▼
Jinsong Liu
Hao Yu
浩 于
Fumito Nishino
文人 西野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JP2005063432A publication Critical patent/JP2005063432A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/435Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ウェブページ、XMLファイル、新聞などといった構造化文書から画像、アニメーション、ビデオ、音声、表などといったマルチメディアオブジェクトの説明を分析するための装置および方法とを提供する。
【解決手段】マルチメディアオブジェクトと関連説明テキストの両者を含む構造化文書からマルチメディアオブジェクトを検索するためのマルチメディアオブジェクト検索装置および方法が提供される。本発明の装置および方法は、入力された構造化文書をDOMツリーといった構文解析結果に構文解析し、前記構文解析結果内の主ブロックを認識して主ブロック注釈付き構造化文書モデルを出力し、一対のマルチメディアオブジェクトとそれに対応する説明とを抽出し、XMLフォーマットインデックスといった構造化オブジェクトインデックスを出力し、目標オブジェクトリストを形成するように構造化オブジェクトインデックスを通して探索する。
【選択図】 図2

Description

本発明は、マルチメディアオブジェクト検索に関する。特に本発明は、ウェブページ、XMLファイル、新聞といった構造化文書から画像、アニメーション、ビデオ、音声、表といったマルチメディアオブジェクトの説明を分析するための装置および方法とに関する。
インターネット技術の発展は、インターネット上で画像、音楽、映画といった商業的オブジェクトを配布することを容易に、また収益性のあるものにしている。しかしこの反面、マルチメディアオブジェクトを不法にコピーし再配布することも便利にしている。いまやこのような不法なコピーはWWW上のほとんどいたるところで見られ、合法的な商業活動の収益を急激に減少させている。これらの不法オブジェクトを発見するためのインターネット警察システムの開発が強く要請されている。画像検索システムは、典型的なオブジェクト検索システムの一つである。
1970年代から画像検索は、非常に活発な研究分野になっている。一つの方法は、主としてテキストベースであって、1999年2月25〜26日、英国ニューキャッスル(Newcastle upon Tyne)での「画像検索会議の挑戦」(The Challenge of Image Retrieval Conference)における、1998年のAnna Bjarnestamによる「テキストに基づく階層的画像分類および貯蔵写真の検索」(Text−based Hierarchical Image Classification and Retrieval of Stock Photography)を参照のこと。もう一つの方法は、データの色、テクスチャ、形状といった視覚的性質に依存しており、内容に基づく画像検索と呼ばれており、1999年1月、「JISC技術応用計画報告」(Report to JISC Technology Applications Programme)における1999年のEakins,JPとGraham,MEによる「内容ベース画像検索」(Content−Based Image Retrieval)を参照のこと。
労力と時間が掛かる上に、これら二つの方法に、これらの方法がウェブページのフォーマットを利用していないという欠点がある。更に画像検索を試みるユーザの調査は、大抵の内容に基づく検索システムが提供する色、形状、その他の視覚的性質よりも画像と画像によって描写される動きとの識別にユーザは遥かに関心を持っていることを示している。C.Jorgensen,1998年,「記述タスクにおける画像の属性」(Attributes of Image in Describing Tasks),「情報の処理と管理」(Information Processing and Management),第34巻、2/3号、161〜174ページのを参照のこと。
無作為のウェブ写真の別の調査は、93%が一つ以上のキャプション(写真説明)を持っており、単に7%が目に見えるキャプションを持っていないことを示している。Neil C.Rowe,1999年,「キャプション付き画像の正確で効率的な検索」(Precise and Efficient Retrieval of Captioned Images),「MARIE計画」The MARIE Project)を参照のこと。
研究者らは最近、ウェブに基づく画像検索に次第に関心を持ちつつある。彼らは、WWWから画像を検索するために、図形的特徴と結びついたメタデータ、HTMLタイトル、画像URL、代替テキスト、アンカーテキストといった要素を使用する。Rong Zhao および William I.Grosky,2002年,「意味論的ギャップを狭めること−視覚的特徴を使用するテキストに基づくウェブ文書検索」(Narrowing the Semantic Gap−Improved Text−Based Web Document Retrieval Using Visual Features),IEEE 技術報告、マルチメディア、第4巻第2号、189〜200ページ、2002年を参照のこと。
良好な結果が得られており、商業的画像検索システム、例えばグーグル(Google)(登録商標)が構築されている。
図1は、従来のオブジェクト検索システムの構造の概略図である。入力は、ウェブページといった構造化文書101である。最初にシステムは、単純な構文解析ユニット102によって入力された構造化文書101を構文解析し、それから説明抽出ユニット104が単にマルチメディアオブジェクトとテキストとの間の距離を計算することによって構文解析ユニット102から出力される構文解析結果103から各マルチメディアオブジェクトに関する説明を抽出し、その結果マルチメディアオブジェクトインデックス105が出力される。最後にマルチメディアオブジェクト検索ユニット106が、このマルチメディアオブジェクトインデックス105をユーザによって入力された検索要件107と比較して、目標オブジェクトリスト108を返す。
そこで、従来のオブジェクト検索システムに幾つかの欠点があることを見ることができる。
第1に、従来のオブジェクトの説明は、オブジェクトとテキストとの間の距離を計算することによって抽出される。この距離が臨界値より小さければ、このテキストは関連オブジェクトの説明と設定され、そうでなければ違うと設定される。このアルゴリズムは、あまりに単純で多くの有用な情報を放棄し、それによってこのオブジェクト検索システムの性能を低下させてしまう。同時に、ウェブページが主テキストブロックまたは反復オブジェクトブロック(以後、主ブロックと呼ぶ)を含むことは極めて一般的である。マルチメディアオブジェクトの説明を抽出する前にページの主ブロックを識別できれば、オブジェクト検索の効率は大幅に改善できる。
第2に、HTMLタイトルがそのページ内のオブジェクトにある種の関係を持っていることは明らかである。しかし、全てのオブジェクトにではなく、そのページ内のオブジェクトの一部に関係しているだけである。従来のマルチメディアオブジェクト検索システムは、ウェブページの構造の詳細な分析を行わないので、無関係オブジェクトと関連オブジェクトとを区別することができない。タイトルを全てのオブジェクトに対する説明として設定するか、全てに関する説明でないと設定するかどちらかである。これは、明らかに不十分である。主ブロックが識別できれば、主ブロック内のオブジェクトだけに対する説明としてタイトルを設定でき、システム性能は改善できる。
第3に、二つ以上の内容オブジェクトを含むページには通常、各個別画像の説明に加えて全てのオブジェクトの共通の内容を記述する共通説明が存在するが、従来システムがこのようなケースを取り扱うことは不可能である。主テキストブロックと反復オブジェクトブロックとを識別し、説明を個別説明と共通説明とに分類して、それぞれ抽出することができれば、システム性能は大幅に改善できる。
英国ニューキャッスル(Newcastle upon Tyne)での「画像検索会議の挑戦」(The Challenge of Image Retrieval Conference)における、1998年のAnna Bjarnestamによる「テキストに基づく階層的画像分類および貯蔵写真の検索」(Text−based Hierarchical Image Classification and Retrieval of Stock Photography) 1999年1月、「JISC技術応用計画報告」(Report to JISC Technology Applications Programme)における1999年のEakins,JPとGraham,MEによる「内容ベース画像検索」(Content−Based Image Retrieval) C.Jorgensen,1998年,「記述タスクにおける画像の属性」(Attributes of Image in Describing Tasks),「情報の処理と管理」(Information Processing and Management),第34巻、2/3号、161〜174ページ Neil C.Rowe,1999年,「キャプション付き画像の正確で効率的な検索」(Precise and Efficient Retrieval of Captioned Images),「MARIE計画」The MARIE Project) Rong Zhao および William I.Grosky,2002年,「意味論的ギャップを狭めること−視覚的特徴を使用するテキストに基づくウェブ文書検索」(Narrowing the Semantic Gap−Improved Text−Based Web Document Retrieval Using Visual Features),IEEE 技術報告、マルチメディア、第4巻第2号、189〜200ページ、2002年
本発明の目的は、従来技術のマルチメディアオブジェクト検索に存在するこれらの問題を解決することと、ウェブページ、XMLファイル、新聞などといった構造化文書から画像、アニメーション、ビデオ、音声、表などといったマルチメディアオブジェクトの説明を分析するためのマルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法を提供することである。
本発明の目的を達成するために、マルチメディアオブジェクト検索装置の一態様では、マルチメディアオブジェクトと関連説明テキストの両者を含む構造化文書からマルチメディアオブジェクトを検索するためのマルチメディアオブジェクト検索装置であって、入力された構造化文書を所定の形式の構文解析結果に構文解析するための構文解析手段(図2に示す構文解析ユニットに対応する)と、前記構文解析結果内の主ブロックを認識して主ブロック注釈付き構造化文書モデルを出力するための主ブロック認識手段(図2に示す主ブロック認識ユニットに対応する)と、前記主ブロック注釈付き構造化文書から一対のマルチメディアオブジェクトとそれに対応する説明とを抽出し、前記マルチメディアオブジェクトの説明を分析し、前記マルチメディアの内容の説明を実際に行っているキーワードを抽出し、無効な説明を削除し、所定の形式の構造化オブジェクトインデックスを出力するためのオブジェクト説明抽出手段(図2に示すマルチメディアオブジェクト説明抽出ユニットに対応する)と、前記構造化オブジェクトインデックスを探索し、目標オブジェクトリストを形成するためのマルチメディアオブジェクト検索手段(図2に示すオブジェクト分析ユニットに対応する)と、を備えることを特徴とする。
本発明のマルチメディアオブジェクト検索装置によれば、入力された構造化文書を構文解析し、構文解析結果内の主ブロックを認識して主ブロック注釈付き構造化文書モデルを出力する。そして、主ブロック注釈付き構造化文書から構造化オブジェクトインデックスを出力し、目標オブジェクトリストが形成される。
好ましくは本発明のマルチメディアオブジェクト検索装置は更に、所定の共通説明抽出ルールにしたがってそれぞれの主ブロック内の各マルチメディアオブジェクトに関する共通説明を抽出するための共通説明抽出手段(図6に示す共通説明抽出ユニットに対応する)を備える。
本発明のマルチメディアオブジェクト検索装置によれば、共通説明抽出ルールに基づいて各マルチメディアオブジェクトに関する共通の説明が抽出される。
好ましくは本発明のマルチメディアオブジェクト検索装置の主ブロックは、主テキストブロックまたは反復オブジェクトブロックである。
本発明のマルチメディアオブジェクト検索装置によれば、構文解析結果から冗長な情報を除去されたうえで主テキスト注釈付き構造化文書モデルとして出力される。
また、本発明のマルチメディアオブジェクト検索装置によれば、反復オブジェクトパターン認識ルールに基づいて構文解析結果が探索され、探索結果が反復オブジェクト注釈付き構造化文書モデルとして出力される。
本発明のもう一つの態様では、マルチメディアオブジェクトと関連説明テキストの両者を含む構造化文書からマルチメディアオブジェクトを検索するためのマルチメディアオブジェクト検索方法であって、入力された構造化文書を所定の形式の構文解析結果に構文解析するステップと、前記入力構文解析結果内の主ブロックを認識して、主ブロック注釈付き構造化文書モデルを出力するステップと、一対の前記マルチメディアオブジェクトとそれに対応する説明とを抽出して、構造化オブジェクトインデックスを出力するステップと、目標オブジェクトリストを形成するように前記構造化オブジェクトインデックスを通して探索するステップと、を含むことを特徴とする。
本発明のマルチメディアオブジェクト検索方法によれば、入力された構造化文書を構文解析し、構文解析結果内の主ブロックを認識して主ブロック注釈付き構造化文書モデルを出力する。そして、主ブロック注釈付き構造化文書から構造化オブジェクトインデックスを出力し、目標オブジェクトリストが形成される。
好ましくは本発明のマルチメディアオブジェクト検索方法は更に、所定の共通説明抽出ルールによってそれぞれの主ブロック内の各マルチメディアオブジェクトに関する共通説明を抽出するための共通説明抽出ステップを含む。
本発明のマルチメディアオブジェクト検索方法によれば、共通説明抽出ルールに基づいて各マルチメディアオブジェクトに関する共通の説明が抽出される。
好ましくは本発明のマルチメディアオブジェクト検索方法の主ブロックは、主テキストブロックまたは反復オブジェクトブロックである。
本発明のマルチメディアオブジェクト検索方法によれば、構文解析結果から冗長な情報を除去されたうえで主テキスト注釈付き構造化文書モデルとして出力される。
また、本発明のマルチメディアオブジェクト検索方法によれば、反復オブジェクトパターン認識ルールに基づいて構文解析結果が探索され、探索結果が反復オブジェクト注釈付き構造化文書モデルとして出力される。
本発明のマルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法は、ほとんど全ての種類の構造化文書に適用可能である。説明を抽出するために主テキストブロックと反復オブジェクトブロックとを認識することによって、より正確にオブジェクトの説明を抽出できるだけでなく、1グループのオブジェクトの共通説明を認識してマルチメディアオブジェクトと構造化文書のタイトルとの間の関係を識別することができる。本発明のマルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法よれば、マルチメディアオブジェクト検索の性能は大幅に改善できる。
本発明のマルチメディアオブジェクト検索装置および方法は、図面を参照しながら詳細に説明され、これらの図面では同様な要素あるいはステップは同様な参照符号によって示されている。
図2は、本発明のオブジェクト検索装置(システム)の概略図である。本装置の入力は、ウェブページといった構造化文書201である。最初に構文解析ユニット(構文解析手段)202が、入力する構造化文書をDOM(ドキュメントオブジェクトモデル)ツリーといったある種の構文解析結果203に変換する。それから主ブロック認識ユニット(主ブロック認識手段)204が、構文解析結果203から構造化文書201の主ブロックを認識して主ブロック注釈付き構文解析結果205を出力する。それからマルチメディアオブジェクト説明抽出ユニット(オブジェクト説明抽出手段)206が、一対のマルチメディアオブジェクトと関連説明とを抽出して、XMLフォーマットオブジェクトインデックスといった構造化オブジェクトインデックス207を出力する。最後にオブジェクト分析ユニット(マルチメディアオブジェクト検索手段)208は、構造化オブジェクトインデックス207を検索(入力)要件209と比較することによって候補オブジェクトが目標オブジェクトであるかどうかを決定して、目標オブジェクトリスト210の形式で結果を返す。
HTMLソースコードといった入力する構造化文書201を直接処理することは困難なので、構造化文書を下記の処理に好都合にするために、ある種の構文解析結果203、例えばHTML DOMツリーとして入力する構造化文書201を表すためのHTMLパーサといった構文解析ユニット202が開発されている。図9は、構文解析結果203の一例であるHTML DOMツリーの例を示す。
図3は、入力する構造化文書の主ブロックを認識するための基本ステップ(主ブロック認識ユニットの構造を示すブロック図)である。主ブロック認識ユニット204は、主テキストブロック認識ユニット(主テキストブロック認識手段)302と反復オブジェクトブロック認識ユニット(反復オブジェクトブロック認識手段)303とを備えることができる。最初に入力する構文解析結果203は、それぞれ主テキストブロック認識ユニット302と反復オブジェクトブロック認識ユニット303とによって注釈付けされる。主テキストブロック認識ユニット302の出力は、主テキストブロック注釈付き構文解析結果304である。反復オブジェクトブロック認識ユニット303の出力は、反復オブジェクトブロック注釈付き構文解析結果305である。続いて注釈付き結果結合ユニット306は、これら二つの結果を結合して、主テキストブロックと反復オブジェクトブロックの両者が注釈付けされている主ブロック注釈付き構文解析結果205にする。
図4は、主テキストブロックを認識するための基本ステップ(主テキストブロック認識ユニットの構造を示すブロック図)である。入力は、構文解析ユニット202から出力される構文解析結果203である。第1に、構文解析結果203内の各ノードのテキスト長がテキスト長統計ユニット402によって計算される。第2に、中心テキストノードが、中心テキストノード探索ユニット403によって突き止められる。それから主テキストブロック計算ユニット404によって、主テキストブロックが認識される。主テキストブロックが認識された後に、その主テキストブロック内のマルチメディアオブジェクトは、主テキストブロック注釈付けユニット405内のオブジェクトで注釈付けされる。こうして主テキストブロック注釈付き構文解析結果304が取得される。
テキスト長統計ユニット402では、構文解析結果203内の各ノードのテキスト長が計算される。ノードのテキスト長は、それがテキストノードであるときは、長さがゼロと見なされる著作権宣言といった無効テキストノードである場合を除いて、その内容の長さである。テキストノードの内容の中の句読点は、最初に除去される。ノードがサブノードを持っていれば、このノードのテキスト長は、そのサブノードの合計長さである。
中心テキストノード探索ユニット403は、構文解析結果のノードの中心テキストノードを発見するための装置である。ノードが中心テキストノード持っているか否かは、下記のルールによって決定される。第1に、このノードのテキスト長が所定の値LEAST_MAIN_BLOCK_LENGTH(例えば50)より短ければ、あるいはこのノードがサブノードをまったく持たなければ、このノードは中心テキストノードを持つことができない。第2に、全てのサブノードを通覧して、サブノードが表であってそのテキスト長対このノードのテキスト長の比率が所定の値MAX_CENTER_NODE_RATE(例えば90%)より大きいか、あるいはこのテキスト長が所定の値MAIN_BLOCK_LENGTH(例えば200)より大きくて、サブノードのテキスト長対このノードのテキスト長の比率が所定の値LEAST_CENTER_NODE_RATE(例えば60%)より大きければ、このノードは中心テキストノードを持ち、対応するサブノードはこのノードの中心テキストノードである。
主テキストブロックは、入力する構造化文書201の主内容を記述するためのウェブページといった構造化文書201内のテキスト段落である。主テキストブロックは通常、構造化文書201のタイトルに関連している。通常、考えをより明確に表現したり、その考えを読者にとって更に魅力的にしたりするのを助けるために、このような段落には多くのマルチメディアオブジェクトが設定されている。これらのオブジェクトはまた、構造化文書201のタイトルにも関連している。図10は、一種の構造化文書201であるウェブページ内の主テキストブロックの一例である。
ここで主テキストブロック計算ユニット404を参照する。初めに、主としてテキスト長によって主テキストブロックを識別する。テキストが短すぎれば(テキスト長が所定の値LEAST_MAIN_TEXT_BLOCK_LENGTHより短ければ)、あるいはそれがリンクテキストブロックであれば、主テキストブロックではあり得ない。リンクテキストブロックは、リンクテキスト長が所定の値LEAST_LINK_BLOCK_LENGTH(例えば30)より長くて、テキスト長が所定の値MAIN_BLOCK_LENGTH(例えば200)より短く、リンク長対全テキスト長の比率が所定の値LINK_BLOCK_RATE(例えば80%)より大きいHTML DOMツリー(構文解析結果の一例)ノードである。テキスト長が所定の値MAIN_TEXT_BLOCK_LENGTH(例えば200)より長いか、テキスト長対ルートノードのテキスト長の比率が所定の値MAIN_TEXT_BLOCK_RATEより大きければ、主テキストブロックと認識できる。第2にキーワードであるが、十分に長くてHTMLタイトルといった構造化文書201のタイトルを含んだテキスト段落も、主テキストブロックとしてタグ付けされる。HTML<body>、サブノード内で主テキストブロックが認識されなければ、MAIN_TEXT_BLOCK_LENGTHより長いテキスト長を有する<body>は、主テキストブロックとして設定される。方向であるが、われわれが上から下にこのルールを使用すれば、トップタグは極めて容易にこれらのルールを満足させる。しかしそれは意味を成さないので、これらのルールを下から上に使用する。三つ以上のサブノードが主テキストブロックとして認識されると、このノードも主テキストブロックである。ノードが中心テキストノードを持っていれば、このノードが主テキストブロックであるかどうかは、このノードの中心テキストノードが主テキストブロックであるかどうかと等しい。
図5は、反復オブジェクトブロックを認識する基本ステップ(反復オブジェクトブロック認識ユニットの構造を示すブロック図)である。入力は、HTML DOMツリーといったある種の構文解析結果203である。第1に、図5の無効マルチメディアオブジェクト注釈付けユニット(オブジェクトフィルタリング手段)502といったオブジェクトフィルタリングユニットによって無効オブジェクトが注釈付けされる。それから、オブジェクト数統計ユニット503は、構文解析結果203内の各ノードのオブジェクト数をカウントする。第3に、HTML DOMツリーノードといった構文解析結果203内の各ノードの中心オブジェクトノードが中心オブジェクトノード探索ユニット504によって検索される。その後、反復オブジェクトパターン計算ユニット(反復オブジェクトブロック認識ユニット)505によって反復オブジェクトブロックが識別される。最後に反復オブジェクトブロック注釈付けユニット506内のオブジェクトは、反復オブジェクトブロック内の各オブジェクトにタグを付ける。このようにして反復オブジェクトブロック注釈付き構文解析結果305が取得される。
無効マルチメディアオブジェクト注釈付けユニット502において装飾画像といった無効オブジェクトは、自動的に注釈付けされる。ウェブページ内のオブジェクトは、内容オブジェクト(内容画像)、装飾オブジェクト(装飾画像)、メニューオブジェクト(画像メニュー)、広告オブジェクト(広告画像)という四つのカテゴリに分類できる。図8は、これら4種類全ての画像オブジェクト(マルチメディアオブジェクト)の一例を示す図である。内容オブジェクトは説明を持っているか、あるいは主テキストブロックまたは反復オブジェクトブロックに収められている。装飾オブジェクトは、ウェブページの内容には無関係であって、そのページをユーザにとって美しく魅力的に見せるためだけのものである。多くの装飾オブジェクトは、再帰的に現れる。メニューオブジェクト:多くのウェブページはオブジェクトのリストからなる画像メニュー(メニューオブジェクトの一例)を持っている。これらのオブジェクトは、ウェブページ、サブディレクトリ構造化文書(構造化文書)201、ウェブサイトのサブディレクトリウェブページといった他の構造化文書201をポイントするリンクを持っている。これらのオブジェクトは通常、入力する構造化文書201の左端か上端に配置される。広告オブジェクト:内容がウェブページの主要な考えとは無関係であって他の商業的ウェブサイトをポイントする多くのオブジェクトが存在し、このようなオブジェクトは広告オブジェクトと呼ばれる。これら4種類のオブジェクト全ての中で、内容オブジェクトだけがオブジェクト探索エンジンによってユーザに提供されるべきである。したがって他の3種類のオブジェクトは、無効オブジェクトとして分類される。内容オブジェクトと無効オブジェクトの両者は、説明フィールドが抽出されて主ブロックが識別されるまでは明確に定義できない。最初は、オブジェクトのサイズ、再帰的性質といった幾つかの特徴によって装飾オブジェクトの一部を見つけることができるだけである。この無効オブジェクト注釈付けユニット502において、下記のルールにしたがって無効オブジェクトを識別できる。装飾オブジェクト:オブジェクトが極めて長ければ、すなわち高さ/幅が所定の値RATE_OBJECT_TOO_LONG(例えば1/4)より小さければ、あるいはスリムであれば、すなわち高さ/幅が所定の値RATE_OBJECT_TOO_SLIM(例えば4)より大きければ、あるいはサイズが小さすぎれば、すなわち高さ×幅が所定の値SIZE_TOO_SMALL(例えば900)より小さければ、あるいはそれが再帰的に現れれば、すなわち2回以上現れれば、このオブジェクトは装飾オブジェクトである。他のオブジェクトは、一時的に候補オブジェクトとして設定される。あるオブジェクトのサイズが分からなければ、すなわち幅と高さの両者が分からなければ、そのオブジェクトも候補オブジェクトとして設定される。
オブジェクト数統計ユニット503は、HTML DOMツリーノードといった構文解析結果203内の各ノードのオブジェクト数をカウントするために使用される。あるノードがオブジェクトノードであってこのオブジェクトが候補オブジェクトであれば、オブジェクトの数は1であり、そうでなければ0である。ノードがサブノードを持っていれば、オブジェクトの数は各サブノードのオブジェクト数の合計である。
中心オブジェクトノード探索ユニット504は、現在ノードの中心オブジェクトノードを探し当てるために使用される。中心オブジェクトノードは、下記のルール、すなわち、ノードがオブジェクトを持たなければ中心オブジェクトノードを持たず、サブノードのオブジェクト数対現在ノードのオブジェクト数の比率が所定の値MAX_CENTER_NODE_RATE(例えば90%)より大きければ、このノードの中心オブジェクトノードであるというルールにしたがって認識される。
反復オブジェクトパターン計算ユニット505は、下記のルールによって反復オブジェクトパターンを認識する。オブジェクト数:あるノード内のオブジェクト数が2未満であればそのノードは反復オブジェクトブロックではあり得ない。構造化文書のタグ:一例としてHTML文書を取り、ノードが<body>または<table>または<tr>でなければ、反復オブジェクトブロックではあり得ない。サブノードのHTMLタグストリーム:ここでDOMツリーノードのタグストリームは、深さ優先方式によって検索されるHTMLタグのリストを意味する。図12は、反復画像ブロック(反復オブジェクトブロックの一例)のHTMLタグストリーム(構造化文書タグストリームの一例)の一例を示す図である。この表ノードのHTMLタグストリームは、「<table>、<tr>、<td>、<img>、<td>、<img>、<td>、<img>、<tr>、<td>、<txt>、<td>、<txt>、<td>、<txt>、<tr>、<td>、<img>、<td>、<img>、<td>、<img>、<tr>、<td>、<txt>、<td>、<txt>、<td>、<txt>」である。<img>は、オブジェクトノードの一例であるDOMツリーの画像ノードを表す。<txt>は、DOMツリーのテキストノードを表す。またこの場合、タグ<img>をタグ<txt>と同じであると考える。三つ以上のサブノードのタグストリームが同じであれば、このノードを反復オブジェクトブロックと見なす。このノードが<table>ノードであれば、反復パターンが<Tr>サブノード内に存在するはずであり、また二つ以上のオブジェクトまたはテキストを含むはずである。このノードが<tr>ノードであれば、反復パターンが<td>内に存在するはずである。前の<table>ノードは、これが<table>ノードであって、2行に6個のオブジェクトを含んでいるので、反復オブジェクトブロックである。そのサブノードは、同じタグストリームを持っている。方向:主テキストブロック認識の方向とは異なり、上から下に反復オブジェクトブロックを識別する。
図6は、オブジェクト説明抽出の基本ステップ(オブジェクト説明抽出ユニットの構造を示すブロック図)である。入力は、HTML DOMツリーといった主ブロック注釈付き構文解析結果307である。個別オブジェクト説明抽出ユニット602は、各候補オブジェクトの説明を抽出する。それから共通説明抽出ユニット(共通説明抽出手段)603は、候補オブジェクトの共通説明を抽出する。オブジェクトインデックス構成ユニット(画像インデックス構成ユニット)604は、全ての内容オブジェクトのXMLフォーマットインデックスといった構造化オブジェクトインデックス207を作成する。
個別オブジェクト説明抽出ユニット602は、構造化文書の絶対アドレス、例えばウェブページのURLと、構造化文書のタイトル、例えばウェブページのタイトルと、オブジェクトのファイル名と、代替フィールドと、個別説明と、共通説明と、環境と、そのオブジェクトが主テキストブロック内に存在するかどうかの表示と、そのオブジェクトが反復オブジェクトブロック内に存在するかどうかの表示とを含む、候補オブジェクトの9種類の説明を下記のルールにしたがって抽出する。ファイル名と代替テキスト:ファイル名と代替テキストは、オブジェクトの本来の説明であって、これらはオブジェクトの二つの性質であり、構文解析ユニットによって指定される。単一HTMLタグ:オブジェクトとテキストが単一の構造化文書タグ内に、例えば<A>、<td>、<center>といった単一のHTMLタグ内に配置されていれば、そのテキストはそのオブジェクトの説明と見なされる。1行内のオブジェクトとテキスト:オブジェクトとテキストが1行内に、例えば<tr>内の別の<td>に配置されていれば、このテキストは対応するオブジェクトの説明として設定される。反復オブジェクトブロック内のオブジェクトとテキスト:オブジェクトとテキストが1反復オブジェクトブロック内に配置されていれば、オブジェクトの説明は反復パターンにしたがって抽出される。一例として図12をとれば、ノード<table>は反復オブジェクトブロックである。反復パターンは、「<tr><td><img><td><img><td><img>」である(<txt>を<img>と同じと見なしていることに留意のこと)。したがって行2におけるtext11、text12、text13は、それぞれ画像オブジェクト11、画像オブジェクト12、画像オブジェクト13の説明である。また行4のtext21、text22、text23は、それぞれ画像オブジェクト21、画像オブジェクト22、画像オブジェクト23の説明である。説明として抽出された全てのテキストは、使用されたものとしてタグ付けされ、下記のプロセスで再び抽出されることはない。前の方法が全てオブジェクトの説明を探し当てることに失敗した場合、距離によって説明を抽出する。距離は、構造化文書のタグのタイプ、例えばHTMLタグのタイプによって計算される。異なるタグは、異なる距離値を持つ。オブジェクトの説明を検索することは、一般的な方法である。単一のHTMLタグ内、または1行内に二つ以上の候補オブジェクトとテキストが存在すれば、説明も距離によって抽出される。距離によって抽出された説明は、環境とタグ付けされる。
任意選択的に個別オブジェクト説明抽出ユニット602は、実際の説明キーワードを分析するための所定のルールによって、マルチメディアオブジェクトに関する説明を分析し、実際にマルチメディアオブジェクトを説明するキーワードを抽出し、無効説明を削除するためのキーワード抽出ユニット(キーワード抽出手段)を含んでいる。
共通説明抽出ユニット603は、候補オブジェクトの共通説明を抽出する。共通説明は、単一オブジェクトの代わりに1グループのオブジェクトの内容を記述するもう一つの種類のオブジェクト説明である。図11は、反復画像ブロック(反復オブジェクトブロックの一例)を含むウェブページの一例を示す図である。例えば図11の黒い楕円内のテキストは、共通説明の一例である。これは、このウェブページ内の7個全てのオブジェクトの内容を記述している。共通説明は、下記のルールにしたがって抽出される。第1に、主テキストブロックに関するHTML DOMツリーといった構文解析結果を通覧する。主テキストブロックが候補オブジェクトを含んでいれば、未だ使用されていないでそのオブジェクトの説明としてタグ付けされているテキストが抽出され、またノードのタグストリームが反復オブジェクトパターンであるときは、このノード内の全てのテキストは無視される。このテキストは、この主テキストブロック内の全ての候補オブジェクトの共通説明として設定される。第2に、反復オブジェクトブロックに関するHTML DOMツリーを通覧する。反復オブジェクトブロックがテキストで発見されれば、全ての未使用テキストと反復オブジェクトブロックからのテキストは、共通説明として抽出される。このテキストは、この反復オブジェクトブロックの反復パターンの間の候補オブジェクトの共通説明として設定される。反復オブジェクトブロック内にテキストが存在しない場合は、前のノードが別の反復オブジェクトブロックでも反復オブジェクトパターンでもマルチノードでも候補オブジェクトでもなければ、この反復オブジェクトブロックの前にあるテキストを共通説明として採用する。マルチノードは、候補オブジェクトとテキストの両者を含むHTML DOMツリーノードである。
このステップで候補オブジェクトの全ての説明は、抽出されている。ここでオブジェクトインデックス構成ユニット604は、入力する構造化文書201内の全てのマルチメディアオブジェクトのXMLフォーマットインデックスのような構造化オブジェクトインデックス207を作成する。図13は、構造化オブジェクトインデックス207の一例としてXMLフォーマットオブジェクトインデックスを示す。全てのオブジェクトの説明は、タグ<WebPage>とタグ</WebPage>との間に記録される。ウェブページのURL、そのページのローカルパス、HTMLタイトル、そのページ内の内容オブジェクトの総数を含むそのページ全体の情報は、<head>に記録される。<Body>には各オブジェクトに関する情報を記録したオブジェクトタグのリストが存在する。オブジェクトの情報は、オブジェクトのファイル名と、オブジェクトの絶対URLアドレスと、オブジェクトのサイズと、代替フィールドと、個別説明と、共通説明と、環境と、そのオブジェクトが主ブロック内にあるかどうかの表示とを含む。オブジェクトが主テキストブロック内に存在するときは、対応する項目<IsInMainTextBlock>が真であると設定され、そのオブジェクトが反復オブジェクトブロック内に存在するときは、対応する項目<IsInRepeatingObjectBlock>が真であると設定される。
図7は、オブジェクトインデックスによって目標オブジェクトを検索する基本ステップ(オブジェクト検索ユニットの構造を示すブロック図)である。入力は、XMLフォーマットオブジェクトインデックスといった構造化オブジェクトインデックスとキーワードといった検索要件209である。要件変換ユニット703は、入力検索要件を他のフォーマットに変換する。例えば入力キーワードに関する言葉について辞書を探索する。目標オブジェクト認識ユニット704は、オブジェクトが目標オブジェクトであるか否かを決定する。その結果は、目標オブジェクトリスト内に記録され、ユーザに返される。
本発明の装置および方法は、幾種類もの構造化文書に適用可能であり、高精度でオブジェクト説明を抽出できる。これらは、内容オブジェクトの共通説明を抽出できるだけでなく、文書のオブジェクトとタイトルとの間の関係を識別することもできる。
本発明は好ましい実施形態によって説明されてきたが、本発明がこれらの好ましい実施形態に限定されない。本発明の装置および方法は、ウェブページとXMLファイルとを含むがこれらに限定されないあらゆる種類の構造化文書に適用可能であり、また画像、アニメーション、音声、ビデオ、表を含むがこれらに限定されないあらゆる種類のマルチメディアオブジェクトを検索するために使用可能である。また一方、本発明は、上記に記録されたような如何なる細部にも限定されることなく、その代わりに本発明は、付属の請求項およびそれらの同等事項の範囲内に入るとされる本発明の修正と変形とを包含することが意図されている。
(付記1)マルチメディアオブジェクトと関連説明テキストの両者を同時に含む構造化文書からマルチメディアオブジェクトを検索するためのマルチメディアオブジェクト検索装置であって、
入力された構造化文書を所定の形式の構文解析結果に構文解析するための構文解析手段と、
前記構文解析結果内の主ブロックを認識して所定の形式の構造化文書モデルを出力するための主ブロック認識手段と、
前記主ブロック認識手段から出力された前記構造化文書モデルを処理して所定の形式の構造化オブジェクトインデックスを出力するためのオブジェクト説明抽出手段と、
前記オブジェクト説明抽出手段から出力された前記構造化オブジェクトインデックスを探索して目標オブジェクトリストを形成するためのマルチメディアオブジェクト検索手段と、を備えることを特徴とするマルチメディアオブジェクト検索装置。
(付記2)前記主ブロック認識手段は前記構文解析手段から出力される前記構文解析結果から冗長な情報を除去するとともに前記構文解析結果内の主テキストを認識し、主テキスト注釈付き構造化文書モデルとして前記マルチメディアオブジェクト検索手段に出力するための主テキストブロック認識手段を備えることを特徴とする付記1に記載のマルチメディアオブジェクト検索装置。
(付記3)前記主ブロック認識手段は、所定の反復オブジェクトパターン認識ルールに基づいて、反復オブジェクトブロックに関して前記構文解析手段から出力された構文解析結果を探索し、探索結果を反復オブジェクト注釈付き構造化文書モデルとして出力する反復オブジェクトブロック認識手段を備えることを特徴とする付記1または2に記載のマルチメディアオブジェクト検索装置。
(付記4)所定の共通説明抽出ルールに基づいてそれぞれの主ブロック内の各マルチメディアオブジェクトに関する共通の説明を抽出するための共通説明抽出手段を更に含むことを特徴とする付記1に記載のマルチメディアオブジェクト検索装置。
(付記5)主ブロック認識手段は、前記構造化文書モデルを、オブジェクトと説明とのペアとして抽出し、出力することを特徴とする付記1に記載のマルチメディアオブジェクト検索装置。
(付記6)残存オブジェクトが前記オブジェクト説明抽出手段によって抽出されるよう、所定の説明フィールド内の所定のキーワードによって前記構文解析結果から前記無効オブジェクトを除去するためのオブジェクトフィルタリング手段を更に備えることを特徴とする付記1に記載のマルチメディアオブジェクト検索装置。
(付記7)説明キーワードを分析するための所定のルールによって、前記マルチメディアオブジェクトに関する説明を分析するとともに前記マルチメディアオブジェクトを説明するキーワードを抽出し、無効な説明を削除するためのキーワード抽出手段を更に備えることを特徴とする付記1に記載のマルチメディアオブジェクト検索装置。
(付記8)マルチメディアオブジェクトと関連説明テキストの両者を同時に含む構造化文書からマルチメディアオブジェクトを検索するためのマルチメディアオブジェクト検索方法であって、
入力された構造化文書を所定の形式の構文解析結果に構文解析する第1のステップと、
前記構文解析結果内の主ブロックを認識して、所定の形式の構造化文書モデルを出力する第2のステップと、
前記出力された前記構造化文書モデルを処理して、所定の形式の構造化オブジェクトインデックスを出力する第3のステップと、
目標オブジェクトリストを形成するよう前記構造化オブジェクトインデックスを探索する第4のステップと、を含むことを特徴とするマルチメディアオブジェクト検索方法。
(付記9)前記主ブロックは主テキストブロックを含み、前記第2のステップは前記構文解析結果から冗長な情報を除去するとともに前記構文解析結果内の主テキストブロックを認識し、主テキスト注釈付き構造化文書モデルとして出力することを特徴とする付記8に記載のマルチメディアオブジェクト検索方法。
(付記10)前記主ブロックは反復オブジェクトブロックを含み、前記第2のステップは所定の反復オブジェクトパターン認識ルールに基づいて、反復オブジェクトブロックに関して前記構文解析結果を探索して、反復オブジェクト注釈付き構造化文書モデルとして出力することを特徴とする付記8または9に記載のマルチメディアオブジェクト検索方法。
(付記11)前記第3のステップは所定の共通の説明抽出ルールに基づいてそれぞれの主ブロック内の各マルチメディアオブジェクトに関する共通の説明を抽出する共通説明抽出ステップを更に含むことを特徴とする付記8に記載のマルチメディアオブジェクト検索方法。
(付記12)前記第2のステップは、所定の説明フィールド内の所定のキーワードによって無効オブジェクトを除去するオブジェクトフィルタリングステップを更に含むことを特徴とする付記8に記載のマルチメディアオブジェクト検索方法。
(付記13)前記第3のステップは更に、前記構造化文書モデルからオブジェクトと該オブジェクトに対応する説明とのペアを抽出することを特徴とする付記8に記載のマルチメディアオブジェクト検索方法。
(付記14)前記第3のステップは更に、説明キーワードを分析するための所定のルールによって前記マルチメディアオブジェクトに関する説明を分析するとともにマルチメディアオブジェクトを説明するキーワードを抽出し、無効な説明を削除することを特徴とする付記8に記載のマルチメディアオブジェクト検索方法。
従来のオブジェクト検索システムの構造のブロック図である。 本発明のオブジェクト検索装置の構造の概略図である。 主ブロック認識ユニットの構造を示すブロック図である。 主テキストブロック認識ユニットの構造を示すブロック図である。 反復オブジェクトブロック認識ユニットの構造を示すブロック図である。 オブジェクト説明抽出ユニットの構造を示すブロック図である。 オブジェクト検索ユニットの構造を示すブロック図である。 4種類の画像オブジェクトを含む入力ウェブページの一例を示す図である。 HTML DOMツリーの一例を示す図である。 主テキストブロックを含むウェブページの一例を示す図である。 反復画像ブロックを含むウェブページの一例を示す図である。 反復画像ブロックのHTMLタグストリームの一例を示す図である。 ウェブページから抽出された出力XMLフォーマットオブジェクトインデックスの一例を示す図である。
符号の説明
101 構造化文書
102 構文解析ユニット
103 構文解析結果
104 説明抽出ユニット
105 マルチメディアオブジェクトインデックス
106 マルチメディアオブジェクト検索ユニット
107 検索要件
108 目標オブジェクトリスト
201 構造化文書
202 構文解析ユニット
203 構文解析結果
204 主ブロック認識ユニット
205 主ブロック注釈付き構文解析結果
206 マルチメディアオブジェクト説明抽出ユニット
207 構造化オブジェクトインデックス
208 マルチメディアオブジェクト分析
209 検索要件
210 目標オブジェクトリスト
302 主テキストブロック認識ユニット
303 反復オブジェクトブロック認識ユニット
304 主テキストブロック注釈付き構文解析結果
305 反復オブジェクトブロック注釈付き構文解析結果
306 注釈付き結果結合ユニット
307 主ブロック注釈付き構文解析結果
402 テキスト長統計ユニット
403 中心テキストノード探索ユニット
404 主テキストブロック計算ユニット
405 主テキストブロック注釈付けユニット内のオブジェクト
502 無効マルチメディアオブジェクト注釈付けユニット
503 マルチメディアオブジェクト数統計ユニット
504 中心マルチメディアオブジェクトノード探索ユニット
505 反復オブジェクトパターン計算ユニット
506 反復オブジェクトブロック注釈付けユニット内のオブジェクト
602 個別オブジェクト説明抽出ユニット
603 共通説明抽出ユニット
604 画像インデックス構成ユニット
703 要件変換ユニット
704 目標オブジェクトリスト

Claims (10)

  1. マルチメディアオブジェクトと関連説明テキストの両者を同時に含む構造化文書からマルチメディアオブジェクトを検索するためのマルチメディアオブジェクト検索装置であって、
    入力された構造化文書を所定の形式の構文解析結果に構文解析するための構文解析手段と、
    前記構文解析結果内の主ブロックを認識して所定の形式の構造化文書モデルを出力するための主ブロック認識手段と、
    前記主ブロック認識手段から出力された前記構造化文書モデルを処理して所定の形式の構造化オブジェクトインデックスを出力するためのオブジェクト説明抽出手段と、
    前記オブジェクト説明抽出手段から出力された前記構造化オブジェクトインデックスを探索して目標オブジェクトリストを形成するためのマルチメディアオブジェクト検索手段と、を備えることを特徴とするマルチメディアオブジェクト検索装置。
  2. 前記主ブロック認識手段は前記構文解析手段から出力される前記構文解析結果から冗長な情報を除去するとともに前記構文解析結果内の主テキストを認識し、主テキスト注釈付き構造化文書モデルとして前記マルチメディアオブジェクト検索手段に出力するための主テキストブロック認識手段を備えることを特徴とする請求項1に記載のマルチメディアオブジェクト検索装置。
  3. 前記主ブロック認識手段は、所定の反復オブジェクトパターン認識ルールに基づいて、反復オブジェクトブロックに関して前記構文解析手段から出力された構文解析結果を探索し、探索結果を反復オブジェクト注釈付き構造化文書モデルとして出力する反復オブジェクトブロック認識手段を備えることを特徴とする請求項1または2に記載のマルチメディアオブジェクト検索装置。
  4. 所定の共通説明抽出ルールに基づいてそれぞれの主ブロック内の各マルチメディアオブジェクトに関する共通の説明を抽出するための共通説明抽出手段を更に含むことを特徴とする請求項1に記載のマルチメディアオブジェクト検索装置。
  5. 主ブロック認識手段は、前記構造化文書モデルを、オブジェクトと説明とのペアとして抽出し、出力することを特徴とする請求項1に記載のマルチメディアオブジェクト検索装置。
  6. マルチメディアオブジェクトと関連説明テキストの両者を同時に含む構造化文書からマルチメディアオブジェクトを検索するためのマルチメディアオブジェクト検索方法であって、
    入力された構造化文書を所定の形式の構文解析結果に構文解析する第1のステップと、
    前記構文解析結果内の主ブロックを認識して、所定の形式の構造化文書モデルを出力する第2のステップと、
    前記出力された前記構造化文書モデルを処理して、所定の形式の構造化オブジェクトインデックスを出力する第3のステップと、
    目標オブジェクトリストを形成するよう前記構造化オブジェクトインデックスを探索する第4のステップと、を含むことを特徴とするマルチメディアオブジェクト検索方法。
  7. 前記主ブロックは主テキストブロックを含み、前記第2のステップは前記構文解析結果から冗長な情報を除去するとともに前記構文解析結果内の主テキストブロックを認識し、主テキスト注釈付き構造化文書モデルとして出力することを特徴とする請求項6に記載のマルチメディアオブジェクト検索方法。
  8. 前記主ブロックは反復オブジェクトブロックを含み、前記第2のステップは所定の反復オブジェクトパターン認識ルールに基づいて、反復オブジェクトブロックに関して前記構文解析結果を探索して、反復オブジェクト注釈付き構造化文書モデルとして出力することを特徴とする請求項6または7に記載のマルチメディアオブジェクト検索方法。
  9. 前記第3のステップは所定の共通の説明抽出ルールに基づいてそれぞれの主ブロック内の各マルチメディアオブジェクトに関する共通の説明を抽出する共通説明抽出ステップを更に含むことを特徴とする請求項8に記載のマルチメディアオブジェクト検索方法。
  10. 前記第3のステップは更に、前記構造化文書モデルからオブジェクトと該オブジェクトに対応する説明とのペアを抽出することを特徴とする請求項8に記載のマルチメディアオブジェクト検索方法。
JP2004228640A 2003-08-08 2004-08-04 マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法 Withdrawn JP2005063432A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN03153179 2003-08-08

Publications (1)

Publication Number Publication Date
JP2005063432A true JP2005063432A (ja) 2005-03-10

Family

ID=34201020

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004228640A Withdrawn JP2005063432A (ja) 2003-08-08 2004-08-04 マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法

Country Status (2)

Country Link
US (1) US20050050086A1 (ja)
JP (1) JP2005063432A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100765784B1 (ko) 2006-05-23 2007-10-12 삼성전자주식회사 엔티티 검색 방법 및 장치
JP2012208743A (ja) * 2011-03-30 2012-10-25 Kyocera Communication Systems Co Ltd ページ変化判定装置

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4206673B2 (ja) * 2002-03-04 2009-01-14 セイコーエプソン株式会社 画像または音声の入出力制御
US20060031755A1 (en) * 2004-06-24 2006-02-09 Avaya Technology Corp. Sharing inking during multi-modal communication
US7284192B2 (en) * 2004-06-24 2007-10-16 Avaya Technology Corp. Architecture for ink annotations on web documents
GB2426101A (en) * 2005-05-14 2006-11-15 Hewlett Packard Development Co Document transfer between document editing software applications
KR100698324B1 (ko) * 2005-12-07 2007-03-26 엘지전자 주식회사 Wap 컨텐츠를 mms 메시지를 통해 전송하는 장치 및방법
US7949646B1 (en) 2005-12-23 2011-05-24 At&T Intellectual Property Ii, L.P. Method and apparatus for building sales tools by mining data from websites
US20070266309A1 (en) * 2006-05-12 2007-11-15 Royston Sellman Document transfer between document editing software applications
US8504909B2 (en) * 2008-04-04 2013-08-06 Microsoft Corporation Load-time memory optimization
WO2011000165A1 (en) * 2009-07-03 2011-01-06 Hewlett-Packard Development Company,L.P. Apparatus and method for text extraction
US8538896B2 (en) 2010-08-31 2013-09-17 Xerox Corporation Retrieval systems and methods employing probabilistic cross-media relevance feedback
US8447767B2 (en) 2010-12-15 2013-05-21 Xerox Corporation System and method for multimedia information retrieval
CN102646095B (zh) * 2011-02-18 2014-08-06 株式会社理光 一种基于网页分类信息的对象分类方法和系统
US20120284276A1 (en) * 2011-05-02 2012-11-08 Barry Fernando Access to Annotated Digital File Via a Network
CN103150307B (zh) * 2011-12-06 2016-02-10 株式会社理光 从网络中查找与主题词相关的名称的方法和设备
US9104730B2 (en) 2012-06-11 2015-08-11 International Business Machines Corporation Indexing and retrieval of structured documents
US9082047B2 (en) * 2013-08-20 2015-07-14 Xerox Corporation Learning beautiful and ugly visual attributes
JP6646395B2 (ja) 2015-09-28 2020-02-14 キヤノン株式会社 情報処理装置及びその方法、情報処理システム、コンピュータプログラム
CN105512107A (zh) * 2015-12-10 2016-04-20 天津海量信息技术有限公司 基于视觉的互联网正文页标题识别方法
US10409844B2 (en) * 2016-03-01 2019-09-10 Ching-Tu WANG Method for extracting maximal repeat patterns and computing frequency distribution tables

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728728B2 (en) * 2000-07-24 2004-04-27 Israel Spiegler Unified binary model and methodology for knowledge representation and for data and information mining
US7076728B2 (en) * 2000-12-22 2006-07-11 International Business Machines Corporation Method and apparatus for end-to-end content publishing system using XML with an object dependency graph
US7428697B2 (en) * 2002-07-31 2008-09-23 Hewlett-Packard Development Company, L.P. Preserving content or attribute information during conversion from a structured document to a computer program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100765784B1 (ko) 2006-05-23 2007-10-12 삼성전자주식회사 엔티티 검색 방법 및 장치
JP2012208743A (ja) * 2011-03-30 2012-10-25 Kyocera Communication Systems Co Ltd ページ変化判定装置

Also Published As

Publication number Publication date
US20050050086A1 (en) 2005-03-03

Similar Documents

Publication Publication Date Title
Gatterbauer et al. Towards domain-independent information extraction from web tables
JP2005063432A (ja) マルチメディアオブジェクト検索装置およびマルチメディアオブジェクト検索方法
US9514216B2 (en) Automatic classification of segmented portions of web pages
US9069855B2 (en) Modifying a hierarchical data structure according to a pseudo-rendering of a structured document by annotating and merging nodes
Mukherjee et al. Automatic annotation of content-rich html documents: Structural and semantic analysis
US20090248707A1 (en) Site-specific information-type detection methods and systems
CN102156737B (zh) 一种中文网页主题内容的提取方法
US20090070366A1 (en) Method and system for web document clustering
US20020078091A1 (en) Automatic summarization of a document
US20090300046A1 (en) Method and system for document classification based on document structure and written style
JP2006004417A (ja) 情報ファイルの特定のタイプを認識する方法及び装置
Al-Zaidy et al. Automatic summary generation for scientific data charts
CN100336061C (zh) 多媒体对象检索设备和方法
Fan et al. Article clipper: a system for web article extraction
Gali et al. Extracting representative image from web page
JP2007011973A (ja) 情報検索装置及び情報検索プログラム
CN111259143A (zh) 一种基于lda模型的新闻自动标签方法
CN112100500A (zh) 范例学习驱动的内容关联网站发掘方法
Lindholm Extracting content from online news sites
Lim et al. Generalized and lightweight algorithms for automated web forum content extraction
Harit et al. Ontology guided access to document images
ZHENG et al. Filtering noise in Web pages based on parsing tree
Vijayarani et al. Web Page Noise Removal-A Survey
Moscato et al. MOWIS: A System for Building Multimedia Ontologies from Web Information Sources.
Antonacopoulos et al. Web document analysis

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051222

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20080718