JP5103051B2

JP5103051B2 - 情報処理システム及び情報処理方法

Info

Publication number: JP5103051B2
Application number: JP2007108282A
Authority: JP
Inventors: 正和藤尾; 峰伸関; 勝美丸川
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2007-04-17
Filing date: 2007-04-17
Publication date: 2012-12-19
Anticipated expiration: 2027-04-17
Also published as: JP2008269069A

Description

本発明は、情報配信に用いることのできる情報処理システム及び情報処理方法に関する。

企業、官公庁等の機関は、顧客獲得や安心・安全な生活実現のための情報の提供を行っている。しかし膨大なコンテンツが存在する中、エンドユーザや知的労働者の多くは、必要な情報の取捨選択に多大な時間を費やし、途中で断念する場合が起きている。その結果、各機関はビジネスチャンスを逃し、調査などを行う知的労働者は必要な情報を得る機会を損ねるという問題が生じている。

そのため非特許文献１は、約款・マニュアル等の長い文書の場合や、スクロールが必要となる縦長のホームページについて、検索キーを含まない領域を省いて圧縮表示するインタフェースを提案している。また、モバイル端末等にコンテンツを配信する際に、既存のＷｅｂページをモバイル端末向けに変換して配信する技術が知られている（非特許文献３−６）。これらの技術では、ロゴやバナー広告、ナビゲーションバーを省略したり、文字情報を含む画像から文字を認識し、文字のみを送信する（非特許文献４）などの研究がなされている。

特開2003-288334号公報特開2000-155758号公報品川「ユーザプロファイルに基づくビューページの動的生成によるWWW閲覧支援」情報処理学会論文誌、データベース、Vol.41, No.SIG 6 (TOD7), pp.22-36 関「構造要約化による情報提供システム」FIT2006、I-047 Xiao-Dong Gu, Jinlin Chen, Wei-Ying Ma, Guo-Liang Chen, "Visual Based Content Understanding towards Ｗｅｂ Adaptation", In Proceedings of AH-2002, pp164-173 Jianying Hu, Amit Bagga, "Functionality-Based Ｗｅｂ Image Categorization", Proc. of the 10th International World Wide Ｗｅｂ Conference 2001, 587-596 塚本修一, 増田英孝, 中川裕志「携帯端末表示を目指したHTMLの表形式データの構造認識と変換」情報処理学会, 2003年情報学シンポジウム, pp.5-8 工藤拓、松本裕治「チャンキングの段階適用による日本語係り受け解析」情報処理学会論文誌、Vol.43，No.6，pp.1834-1842

しかし非特許文献１では、上記手法はいずれもキーワードを含むブロックもしくはキーワードと類似するブロックを元に表示する領域を決定しているため、適切なキーワードを与えられない場合は必要な情報が要約表示に含まれない。そのため個別にページを開いて内容を把握する手間は従来と変わらず、情報探索効率の低下は避けられない。

また、非特許文献３−５では、個別のＷｅｂページをどうコンパクトに変換して表示するかに焦点が絞られており、大量の検索結果をどう処理するかについては考慮されていない。特に携帯端末で情報を得る場合には、無駄なパケット送信を減らすことが、スピード及び価格面での通信コスト削減に繋がる。通信途中においても、要、不要が判断できれば、途中で無駄なパケット送信を止めることができる。

検索結果の文書中には、検索内容と無関係な情報も多く含まれている。そのため、欲しい内容のみを簡便に把握し、かつ閲覧漏れの危険を減らす手段として、検索キーと関連度が高い部分領域を表示し、非表示ブロックについては内容を表すラベルを表示することができるシステムを提供する。

検索キーと関連度の高い部分領域を表示するには、文書を部分領域（ブロック）に分割し、ブロック単位の類似検索を行う（一次検索）。次に、検索結果のブロック集合から、出現単語による特徴ベクトルを生成し、その特徴ベクトルと類似するブロックを追加検索する（二次検索）。二次検索結果のブロックは、ブロック全体の特徴度が増加する間、表示領域として順次追加する。

ブロックあるいはブロック集合から特徴度を持った特徴ベクトルを生成するには、検索結果の文書群から特徴用語を特徴度順に抽出する連想検索法（特開2000-155758号公報）が適用できる。

非表示ブロックの内容を表すラベルを生成するために、例えば非特許文献６による方法により、文中の単語や文字列に、その種類を現すラベル（タグ）を付与する。次に、単語、文字列、タグごとに、表示ブロックにおける特徴度と、非表示ブロックにおける特徴度を計算する（特開2000-155758号公報）。そしてその二つの値の和を重要度とし、重要度の高いものを非表示ブロックのラベルとして表示する。表示方法は、重要度ごとに文字のサイズをかえるタグクラウド形式（Flicker, http://www.flickr.com/photos/tags/）などが使える。

ラベルとして、単語bi-gramを用いてもよく、その場合bi-gramの関係は、タイトルと単語のbi-gram、表構造から得られる項目−値関係のbi-gram、文書の係り受け解析から得られる主語、目的語、動詞などの係り受け関係を用いてもよい。

ユーザは、表示されたラベルの組合せにより、要約文章がなくても非表示領域の内容を推測することができる。例えば、“人名”、“年齢”、“性別”、“日付”などのラベルを持つブロックがあれば、ある人物のプロフィールについてかかれているのだろうと推測できる。

携帯端末など表示領域が制限された媒体に文書を送信する際には、最初にラベル情報のみを送信する。ユーザは、ラベルの集合を見ることにより、書かれている内容を推測し、通信途中でも情報の取捨選択が可能となる。

文書内の領域のうち、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰することが容易になる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

また、携帯端末など表示領域が制限されたデバイスに対しても、コンテンツを全て送信する前にラベルの組合せのみを最初に配信することにより、送信パケット量を少なくしたまま、内容の取捨選択が可能となる。

まず、最初に用語の説明をする。本発明において、タグという表現が何度か出てくる。ここでいうタグとは、単語もしくは文字列の種類を表すラベルを意味する。例えば、“ベートーベン”という単語は“人名”というタグが付与される。また“○○市△△町１丁目１番地”という文字列は、“住所”というタグが付与される。タグの種類は分野依存なため、分野ごとに定義されることが多いが、一般的に使えるものも存在する。例えばDublin Core（DCMS (Dublin Core Metadata Element Set), http://dublincore.org/documents/dcmi-terms/）では、文書で使われることの多い“title”、“creator”、“subject”、“publisher”、“date”などのタグを定義している。また、IREX(NE)（http://nlp.cs.nyu.edu/irex/NE/df990214.txt）では、“ORGANIZATION”、“PERSON”、“LOCATION”、“ARTIFACT”、“DATE”、“TIME”、“MONEY”、“PERCENT”というタグの抽出を課題としている。

次に単語bi-gram、n-gramについて説明する。bi-gramとは、隣接関係や文中の同時出力関係によって定義される２項関係のことを意味する。文字bi-gramといえば、通常隣接する文字のことをいい、単語bi-gramといえば、隣接する単語ペアや、係り受け関係にある単語ペアを指すことが多い。n-gramは、bi-gramの概念を拡張したものであり、同一文書内に出現するｎ単語、係り受け関係にあるｎ単語を表すことが多い。

次に、本発明における実施例について述べる。本発明では、文書の論理構造に基づき、文書内の領域のうち、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰することが容易になる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。文書の構造に基づいて要約表示を行うので、自然言語処理によって要約文章を作成する場合に比べて処理速度が速く、また要約精度を気にする必要がない。以降、上記文書構造に基づく要約機能のことを「構造要約」と呼ぶ。

図１は、構造要約機能を閲覧中の文書に対して実行する場合の本発明の閲覧システム構成例を表す。それに付加する形で、全文検索機能と連携するシステム構成が考えられる。全文検索機能と連携する方法には、大きく分けて４パターンのシステム構成（図８Ａ、図１０、図１３、図１６）が考えられる。一つ目のシステム構成（図８Ａ）では、デスクトップ検索機能と連携し、クライアントＰＣ内の文書に対して構造要約表示を実現する。デスクトップ検索とは、クライアントＰＣ内のWord、Excel、PDFなどのファイルを検索する機能を言う。二つ目のシステム構成（図１０）では、構造要約機能を提供しているＷｅｂサイト内の検索機能と連携し、当該サイトのＷｅｂ文書に対して構造要約表示を実現する。三つ目のシステム構成（図１３）では、中継サーバに構造要約機能を持たせることで、Google、Yahoo!などの検索サイトで検索した一般のＷｅｂ文書に対して構造要約機能を実現する。四つ目のシステム構成（図１６）では、構造要約型の検索ポータルサイトを用意することで、当該サイトで検索したユーザに対し、検索結果Ｗｅｂ文書の構造要約表示を実現する。四つ目の構成では、通常の検索ポータルサイトよりも集客効果が高い検索サイトを構築できると考えられる。

以下ではまず、個別の文書を構造要約する場合の実施例について述べたあと、上記４パターンのシステム構成について説明する。

本発明における第一の実施形態では、ユーザによって入力されたキーワード（複数可）に基づいて、閲覧中の（長い）文書から関連する領域のみをまとめて表示（構造要約）し、また非表示領域については、その内容に関連するラベルを付与して表示する機能を実現する。これにより、非表示領域の閲覧漏れを防ぎつつ、検索クエリに関連する領域のみを俯瞰することができる。また、表示サイズを減らすことにより、携帯端末に配信する際の通信コストを削減することができる。

以下、図を用いて本発明における構造要約機能の実施例を詳細に説明する。

図１は、閲覧中の長い文書を構造要約する場合のシステム構成の一例である。閲覧システム１００は、クエリ入力手段１１０、ブロック検索手段１２０、文書構造化手段１４０、ブロック抽出手段１４５、類似ブロック追加手段１５０、ブロック縮約／展開表示手段１６０、縮約／展開切り替え手段１７０、非表示ブロックラベル生成手段１８０から構成される。以下図２Ａを参照しながら、図１の各構成要素の機能について説明する。図２Ａは、Acrobat Readerのような文書閲覧ソフトで文書を表示している状態を表す。文書構造化手段１４０は、閲覧中の文書の物理的な構造を解釈し、論理的な階層関係、並列関係を抽出し、木構造を生成する。文書の構造化には既存の構造化手法（特許文献１、非特許文献３等）を用いることができる。

ここで、詳細説明を進める前に、文書構造化処理について説明する。図２Ｆに、構造化文書の例を示す。２２１は元文書の例を表す。これらの文書に対し、特許文献１、非特許文献３にある方法などを用いて、文書の構造解析を行い、２２２のように論理的なまとまりのあるブロック（Ｑ１〜Ｑ５）を抽出する。論理的なまとまりのあるブロックは階層構造を持ち、この例では、２２３のような論理構造で表現することができる。構造要約表示の単位となるブロックは、このようにして構成された木構造をひとつの切断面で区切ることで得られる。例えば図２Ｇの例では、切断面２３０により、ブロックＱ１、Ｑ２、Ｑ６、Ｑ７、Ｑ８、Ｑ４、Ｑ５が得られる。この切断面は、例えば各ブロック（Ｑ１...Ｑ１３...）の文書量や表示領域サイズの閾値により固定的にきめてもよいし、検索クエリとの類似度の閾値により、動的に変更してもよい。

再び図１の説明に戻る。検索クエリに応じて、このブロック単位で表示、非表示を切り替える。さて、閲覧文書の構造化が行われた状態で、クエリ入力手段１１０は、ユーザから検索キーワード入力を受けつける。これは、例えば図２Ａに示したダイアログボックス２０１で実現できる。図２Ａの例では、“OCR”というキーワードを入力している。キーワードはスペースで区切って複数入力してもよい。ダイアログ内の検索ボタンをクリックすると、ブロック検索手段１２０は、クエリに類似するブロックを検索する（一次検索）。これには、特許文献２などで示されるベクトル空間モデルの他、キーワード間の関係性に基づく検索を行う。次に、類似ブロック追加手段１５０は、前述の一次検索結果ブロックに含まれるテキスト中の単語を元に、特徴度付の単語ベクトルを計算する。ブロックあるいはブロック集合から特徴度を持った特徴ベクトルを生成するには、検索結果の文書群から特徴用語を特徴度順に抽出する連想検索法（特開2000-155758号公報）が適用できる。この単語ベクトルを元にして、類似ブロックを検索する（二次検索）。二次検索結果のブロックは、類似度が大きい順に、表示ブロック候補として逐次的に追加する。その際、追加後のブロック全体において、特徴度の減少が見られた場合、ブロック候補の追加をやめる。特徴度の計算方法については、後ほど説明する。以上の仕組みにより、検索クエリと関連度の高い領域を選択することができる。

ブロック縮約／展開表示手段１６０は、前記判定結果にもとづき、文書中の重要なブロックを展開表示し、そうでないブロックを構造要約表示する。縮約／展開表示切り替え手段１７０は、表示ブロックあるいは非表示ブロックのクリックと連動し縮約・展開表示を切り替える。図２Ａでは、ブロック２０４が非表示状態となっており、その他の領域が表示状態となっている。

非表示ブロックラベル生成手段１８０は、表示ブロックと非表示ブロックの内容を表すラベルを生成する。非表示ブロックの内容を表すラベルを生成するために、例えば非特許文献６による方法により、文中の単語や文字列に、その種類を表すラベル（タグ）を付与する。次に、単語、文字列、タグごとに、表示ブロックにおける特徴度と、非表示ブロックにおける特徴度を計算する（特開2000-155758号公報）。そしてその二つの値の和を重要度とし、重要度の高いものを非表示ブロックのラベルとして表示する。表示方法は重要度ごとに文字のサイズをかえるタグクラウド形式などが使える。図２Ａのタグクラウド２０９は、表示ブロック全体のタグクラウドを現し、タグクラウド２１０は、非表示ブロック全体のタグクラウドを表す。タグクラウドを参照することにより、ユーザが見落としていた別の単語による再検索を支援できる。タグクラウドに表示すべき特徴ラベルの計算方法の一例については後ほど例示する。

ラベルとして、単語bi-gramを用いてもよく、その場合bi-gramの関係は、タイトルと単語のbi-gram、表構造から得られる項目−値関係のbi-gram、文書の係り受け解析から得られる主語（Ｓ）、目的語（Ｏ）、動詞（Ｖ）などの係り受け関係を用いてもよい。例えば、“ＰＣの価格はＸＸＸ円。”という文からは、「ＰＣ＆価格」「価格＆ＸＸ円」等のbi-gram関係を抽出することができる。また、“Ａ保険は、ガン・生活習慣病による４日以上からの入院を保障する。”という文では、主語（Ｓ）が“Ａ保険”、目的語（Ｏ）が“入院”、動詞（Ｖ）が“保障する”である。この場合、「Ａ保険＆保障」「入院＆保障」「４日以上＆入院」「ガン・生活習慣病＆入院」等のbi-gram関係を抽出することができる。

本システム構成により、約款、マニュアル等の長い文書でも、文書内の領域のうち、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰することが容易になる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

≪関連ブロック検索方法の説明≫
ここで、ブロックの一次検索及び二次検索で用いられる類似検索の原理について説明する。一般に類似文書検索では、文書や単語集合をクエリとして類似文書を検索する。その場合、文書を構成する単語の頻度分布の数学的な類似度（ベクトルとしての角度のコサインなど）を用いて類似度の高い順にソートして必要とされる個数の上位を出力する。検索される対象は単語集合を持つものであればよいので、本発明の例のように、文書の構造により決定されるブロック単位で類似検索を行ってもよい。

また、複数単語を用いたブロック単位検索の方法として、論理関係を用いた検索方法も考えられる。例えば、入力されたキーワードの組み合わせの修飾−非修飾関係、階層関係、並列関係を推定し、同じ関係で単語が現れるブロックを検索することもできる。図２Ｂに、キーワードの組合せと、推定される関係について３パターンの例を挙げる。例２１１では、“レアチーズケーキ”と“作り方”というクエリに対して、修飾−非修飾関係を推定している。この場合、図２Ｃのケース１のように、文中に「レアチーズの作り方」というように、格助詞“の”を伴って修飾関係にある文を含むブロックが適合ブロックとなる。また、図２Ｃの例に見られるような文書の論理構造を抽出した結果、“レアチーズケーキ”という見出しの下位見出しに“作り方”という文字列が現われていれば、それについても適合ブロックと判断する。例２１２では、カメラの機種である、“AAA”と“BBB”に対して、並列の関係を推定している。この場合、文書の論理構造を抽出した結果、“AAA”と“BBB”が、同じ階層の見出しに現われていれば適合ブロックと判断する。同様に、あるブロックに存在する表データで、“AAA”、“BBB”が並列項目として現われていれば、適合ブロックと判断する。キーワードの組に対する関係の推定には、京大コーパス（http://nlp.kuee.kyoto-u.ac.jp/nl-resource/corpus.html）などの正解タグ付きコーパスを用いることができる。三つ目の例である２１３では、“観光”と“温泉”に対して、階層関係を推定している。この場合、文書の論理構造を抽出した結果、“観光”という見出しの下位見出しに“温泉”という文字列が現われているブロックを適合ブロックと判断する。また、あるブロックに存在する表データの、項目−値関係に“観光”と“温泉”が現われていれば、適合ブロックと判断する。以上で、検索キーに対するブロック検索方法の説明を終わる。

≪領域類似度の計算方法≫
以下に、ブロック内の単語の特徴度を元に、ブロック間の類似度を計算する方法の一例を示す。式(1)は、超幾何分布関数に基づき各単語の出現の“珍しさ”を計算する式を表す。

式(1)では、各単語の重みを、超幾何分布関数の対数を用いて表している。これにより、着目しているブロックに特異的に出現する（もしくは特異的に出現しない）単語ほど、重みの値が大きくなる。その他、検索結果の文書群から特徴用語を特徴度順に抽出する連想検索法（特開2000-155758号公報）を適用し、単語及びタグの重みを計算してもよい。

≪領域重要度の計算方法≫
以下に、領域の重要度に従って、類似度に従って、二次検索結果のブロックを追加する手順について説明する。式(2)によって計算されるブロック間類似度の高いブロックから順に表示ブロックを追加する。ブロックの追加は、以下の条件を満たす範囲で行う。

式(3)は、拡張前後のブロックを規準としたときの、各単語の式(1)における重みの総和を計算し、その値が減少する時点でブロックの拡張をとめることを表す。その他、類似度の閾値で区切るなどの手段をとることもできる。

≪表示ラベル重要度の決定方法≫
表示ブロックラベル生成手段１８０は、前記表示ブロックと非表示ブロックの文字列の分布に従い、各非表示ブロックに特徴的な単語やタグを選択し、要約表示に反映させる。特徴量の計算は、例えば以下のように行う。

式(4)を用いることにより、文書全体と比べて特徴的かつ非表示ブロックの中で特徴的な単語が重視される。これにより、非表示ブロックそれぞれの内容をよく表すラベルを生成できる。また、現在の表示状態と連動して選択されるラベルが変化し得るため、キーワードの不備による検索漏れの可能性を減らすことができる。

以上の類似度検索方法を用いて、上記一次検索と二次検索を実施することができる。図４の模式図で、一次検索と二次検索についてもう少し説明する。クエリ単語４１０は、検索クエリで指定されたキーワード集合を表す。まず上で説明した関連ブロック検索方法により、構造化済み文書から関連ブロックを抽出する。図４の文書４３０では、ブロック４１１、４１２、４１３が抽出されている。次に、ブロック４１１、４１２、４１３中の単語の頻度ベクトルに従い、重み付きベクトル４２０を生成する。このベクトルを元に、上記領域重要度の計算（２次検索）を行う。図４では、２次検索結果として、ブロック４１４、４１５、４１６が抽出されている。矢印４２１、４２２、４２３の線の太さは、類似度の高さを表している。この例では、ブロック４１４、４１５を追加するまでは、選択ブロック全体の特徴度が上がったが、ブロック４１６を追加した時点で特徴度が下がったため、棄却ブロックとされた状態を表す。最後に、１次検索結果と追加ブロック結果を合わせて構造要約文書４５０を出力する。

≪実際の表示ＧＵＩの説明≫
図２Ａは、検索キーワード“OCR”により、閲覧中の文書を構造要約した場合の表示例を表す。ブロック２０２、２０３、２０５、２０６、２０７、２０８が展開領域であり、ブロック２０４が縮約領域である。構造要約表示領域は、段落を代表する文、例えば先頭数行などを表示している。これらの展開、非展開領域は、マウスによるクリック操作で切り替えられる。以上のような表示方法により、展開表示ブロックについては元文書のレイアウトを保持したままで、全体文書量を圧縮する。また、展開領域の特徴単語を表すタグクラウド２０９及び非展開領域の特徴単語を表すタグクラウド２１０により、ユーザが見落としていた単語による再検索を支援する。

図３は、図２Ａと同じ文書を別のキーワード“カラー”により構造要約した場合の表示例を表す。ブロック３１５、３３５、３５５が展開領域であり、それ以外のブロック３２５、３４５、３６５、３７５、３８５は構造要約表示されている。構造要約表示領域は、段落を代表する文、例えば先頭数行などを表示している。

領域３９５は、構造要約表示領域の一つである。この領域は、構成要素の一つに図を含んでいるため、要約表示の中に縮小した図３９１を表示している。これらの展開、非展開領域は、マウスによるクリック操作で切り替えられる。以上のような表示方法により、展開表示ブロックについては元文書のレイアウトを保持したままで、全体文書量を圧縮する。また、展開領域の特徴単語を表すタグクラウド３１１０及び非展開領域の特徴単語を表すタグクラウド３１２０により、ユーザが見落としていた単語による再検索を支援する。

以上の表示方法により、約款、マニュアル等の長い文書でも、文書内の領域のうち、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰することが容易になる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

この他、ラベル（タグ）の生成及びタグクラウド表示を、ブロックごとに行ってもよい。図５は、タグクラウドをブロック別に生成した場合の構造要約表示例を表す。非表示ブロックである５１１、５３１、５４１、５５１のそれぞれに対して、タグクラウド５６０、５７０、５８０、５９０を表示している。境界５１０、５２０、５３０、５４０は、ブロック間の境界を表す。以上のように、非表示領域の特徴を表すラベルを併記することにより、閲覧漏れの危険を減らしつつ、欲しい内容だけを俯瞰することが容易になる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

図６は、携帯端末などの表示領域が限られた媒体向けの構造要約表示例をあらわす。図２Ｆの文書２２１に対し、主要な領域についてラベルの集合で置き換えた様子を表す。携帯端末などに文書を配信する際、初期段階は元の文書をラベルで置き換えたデータを配信し、後から中身を配信する手段が考えられる。これにより、全体の送信データ量が削減できるだけでなく、ラベルの集合を見て書かれている内容を推測し、通信途中でも情報の取捨選択ができる。

図７は、ページ内検索操作と構造要約表示の関係を時系列に沿って示した説明図である。左のラインがユーザ操作の流れ、右のラインが閲覧装置の処理の流れを表す。まず、文書閲覧装置に文書が読み込まれると、閲覧文書の構造化（Ｅ７０５）を実行する。あらかじめ構造化した文書をデータベースに蓄積しておき、開いたファイルのＩＤに基づいて構造化文書を読み込んでもよい。次に、構造化された文書を基に、ブロックの抽出（Ｅ７０６）を行う。これには既に図２Ｇで説明した方法に基づき行う。特定のクエリに関係した領域を構造要約表示したいユーザは、ページ内検索操作を実行する（Ｅ７００）。閲覧装置は、入力されたクエリを元に、ブロック検索（一次検索）（Ｅ７１０）を実行する。次に、一次検索結果のブロックから生成された重み付き単語ベクトルを基に、類似ブロック追加処理（Ｅ７２０）を実行する。そして、先に説明した方法により、ブロックラベルの生成（Ｅ７３０）を行う。そして、クエリとの関連度判定結果に基づき、ブロック単位で表示／非表示を切り替え（Ｅ７４０）、必要に応じてラベルを付与する。ユーザは、構造要約表示されたページの閲覧操作を行う（Ｅ７５０）。以上が、検索から構造要約表示までの操作の流れを表す。

以上の一連の操作により、約款、マニュアル等の長い文書でも、文書内の領域のうち、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰することが容易になる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

図８Ａは、デスクトップ検索機能と連携し、クライアントＰＣ内の文書に対して構造要約表示を実現する場合のシステム構成例を表す。デスクトップ検索とは、クライアントＰＣ内のWord、Excel、ＰＤＦなどのファイルを検索する機能を言う。閲覧システム１００は、クエリ入力手段１１０、ブロック検索手段１２０、文書構造化手段１４０、ブロック抽出手段１４５、類似ブロック追加手段１５０、ブロック縮約／展開表示手段１６０、縮約／展開切り替え手段１７０、非表示ブロックラベル生成手段１８０に加えて、検索結果の文書を選択する文書選択手段１０５を持ち、またデスクトップ検索装置側に文書検索手段１３０を持つ。図１との違いは、クエリ入力に対し、まずデスクトップ検索を実行する点である。検索結果の文書が取得されたあとは、図７で説明した構造要約フローと同様である。

以上の一連の操作により、検索結果文書が長い場合でも、文書内の領域のうち、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰することが容易になる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

図８Ｂ、Ｃ、Ｄは、デスクトップ検索と組み合わせて構造要約を実行する場合のユーザインタフェース画面遷移例を表す。図８Ｂは、情報閲覧装置の全文検索用ダイアログボックス８１０に検索クエリ“カラー”を入力した状態を表す。全文検索ボタン８１１を押すと、検索結果８１２が得られる。図８Ｃは、検索結果文書８１３を選択した状態を表し、ボタン８１４を押すことで、選択文書に対し構造要約が実行され、構造要約文書、図８Ｄが得られる。

図９は、ユーザ操作と構造要約表示の関係を時間軸に沿って示した説明図である。左のラインがユーザの操作の流れ、真ん中のラインが文書閲覧装置の流れ、右側のラインが全文検索用データベース処理の流れを表す。構造要約の基本的な流れは図７と同じである。全文検索機能と連携するフローが新たに加わる形となる。まず、ユーザは操作（Ｅ９００）により、検索クエリを入力する。入力されたクエリはキーワード情報などの形式で文書閲覧装置に送られる。キーワードを受け取った文書閲覧装置は、キーワードによるデスクトップ検索処理（Ｅ９１０）を実行する。全文検索用データベースは、検索用インデックスの参照処理（Ｅ９２０）を行い、結果文書の出力処理（Ｅ９３０）を行う。文書閲覧装置は、受け取った文書とキーワードを基に、図７のフローに従い構造要約（Ｅ９４０）を行う。構造要約表示された文書はユーザ側に送られ、操作９５０によりユーザに閲覧される。以上が、検索から構造要約表示までの時間軸上の操作系列を表す。

次に、構造要約表示された文書の表示状態を自由に切り替える場合の操作系列を説明する。ユーザは、縮約・展開表示を切り替えたい領域をクリック操作（Ｅ９６０）する。クリック情報は、座標情報として情報提供サーバに送られる。情報提供サーバは、クリック座標位置を含む領域の表示状態（構造要約表示か展開表示か）の判定（Ｅ９７０）を行う。そして、縮約・展開表示の切り替え処理（Ｅ９８０）を行う。ユーザは、表示状態が変更された構造要約文書の閲覧操作（Ｅ９９０）を行う。

図１０は、Ｗｅｂサイトを立ち上げているサイトで構造要約機能を実現する場合のシステム構成の一例である。図１、図８Ａにおける文書閲覧装置のかわりに、Ｗｅｂブラウザ１０００が閲覧装置として用いられる。Ｗｅｂサーバ１０１０は、ホームページを提供しており、ネットワークを介してユーザから参照できる状態にあるものとする。図８Ａのシステム構成において、文書閲覧装置側にあった、ブロック検索手段１２０、文書構造化手段１４０、ブロック抽出手段１４５、類似ブロック追加手段１５０、非表示ブロックラベル生成手段１８０がＷｅｂサーバ側に移動しているが、機能については図１、図８Ａと変わらない。あらたにＷｅｂサーバ側に加わった文書検索手段１３０はＷｅｂサイト内の文書検索機能を提供する。また、文書生成手段１９０は、構造要約結果のＷｅｂ文書を生成し、クライアント側に送信するＨＴＭＬデータを作成する。構造要約自体の処理フローは、図７と同様である。

以上のシステム構成により、公開Ｗｅｂサイトを検索したユーザに対し、検索結果文書が長い場合でも、文書内の領域のうち、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰する機能を提供できる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

このタイプのシステム構成では、ユーザが直接Ｗｅｂサイトに訪れて、サイト内の検索機能を用いて構造要約を実行する場合の処理フロー（図１１）と、Google、Yahoo!などの一般の検索サイトの検索結果として、Ｗｅｂサイトを訪れる場合の処理フロー（図１２）が考えられる。以下にそれぞれのフローについて説明する。

図１１は、Ｗｅｂサイトに設置されているサイト内検索処理と構造要約表示処理の流れの説明図である。左のラインはユーザ操作の流れ、真ん中のラインはＷｅｂサーバ処理の流れ、右のラインは文書データベース処理の流れを表す。

ユーザは、まず検索クエリを入力してサイト内検索操作を実行する（Ｅ１１００）。入力されたクエリはキーワードなどの形式で、サーバに送信される。キーワードを受け取ったサーバは、サイト内検索処理を実行する（Ｅ１１１０）。データベースは、検索用インデックス１２１を参照し（Ｅ１１２０）、検索結果を出力する（Ｅ１１３０）。サーバは、受け取ったＷｅｂページ・文書とキーワードを基に、構造要約を実行する（Ｅ１１４０）。キーワードリストと文書が渡されるので、構造要約フローそのものは、図７と同じフローで行える。構造要約表示されたＷｅｂページ・文書はユーザ側に送られ、ユーザが閲覧する（Ｅ１１５０）。

以上の一連の操作により、公開Ｗｅｂサイトのサイト内検索機能を利用するユーザに対し、構造要約機能を提供できる。すなわち、検索結果文書が長い場合でも、文書内の領域のうち、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰する機能を提供できる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

図１２は、Google、Yahoo!等の一般のＷｅｂ検索サイトの検索結果から、Ｗｅｂサイトを訪問する場合の構造要約フローを時系列に沿って示した説明図である。左のラインはユーザ操作の流れ、真ん中のラインは一般のＷｅｂ検索サイトの流れ、右側のラインは訪問サイト処理の流れを表す。

まず、ユーザは検索クエリを入力してＷｅｂ検索サイトからＷｅｂページ・文書の検索を行う（Ｅ１２００）。Ｗｅｂ検索サイトは、当該サイトの持つ検索機能により、検索を実行し（Ｅ１２１０）、検索結果を出力する（Ｅ１２２０）。ユーザも通常のＷｅｂ検索と同じ操作により、参照文書を選択し（Ｅ１２３０）、訪問サイトに文書の取得要求を通知する。訪問サイトでは、参照元情報から検索キーワード情報を抽出し（Ｅ１２４０）、構造要約を実行する（Ｅ１２５０）。キーワードリストが分かっているので、図７と同じフローで構造要約が実行できる。構造要約表示されたＷｅｂページはユーザ側に送信される（Ｅ１２６０）。ユーザは、構造要約表示されたＷｅｂページ・文書を閲覧する（Ｅ１２７０）。

以上の一連の操作により、一般のＷｅｂ検索サイトから特定のＷｅｂサイトに到達したユーザに対し、構造要約機能を提供できる。すなわち、検索結果文書が長い場合でも、文書内の領域のうち、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰する機能を提供できる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

図１３は、中継サーバにより任意のＷｅｂページに対して構造要約機能を提供する場合のシステム構成の一例である。図１、図８Ａにおける文書閲覧装置のかわりに、Ｗｅｂブラウザ１３００が閲覧装置として用いられる。検索サイト１３１０は、一般のＷｅｂ検索サイトを表す。中継サーバ１３３０は、Ｗｅｂブラウザ１３００と、検索サイト１３１０もしくは訪問サイト１３２０とのHTTP通信を中継するサーバを表す。中継サーバ１３３０は、図１、図８Ａにおける文書閲覧装置の機能のうち、文書構造化手段１４０、ブロック抽出手段１４５、ブロック検索手段１２０、類似ブロック追加手段１５０、非表示ブロックラベル生成手段１８０に加えて、文書生成手段１９０を持つ。中継サーバにより、Ｗｅｂブラウザ１３００とＷｅｂサイト間の通信をフィルタリングすることが可能となり、通信内容に応じて、オリジナルＷｅｂサイトの内容を書き換えてＷｅｂブラウザに提示することが可能となる。文書生成手段１９０は、オリジナルＷｅｂページを書き換えて別の文書を生成する。中継サーバは、Ｗｅｂブラウザ側の設定で指定することができる。システム構成は、図１０においてＷｅｂサイト側に存在していた、ブロック検索手段１２０、文書構造化手段１４０、ブロック抽出手段１４５、類似ブロック追加手段１５０、非表示ブロックラベル生成手段１８０、文書生成手段１９０がそのまま中継サーバ側に移った形となっている。図１０においては、Ｗｅｂサーバ側にあった検索手段１３０の代わりに、一般の検索サイトの検索機能を用いている。

以上のシステム構成により、例えば、社内のＷｅｂブラウザから社外の任意のページにアクセスした場合においても構造要約機能を提供可能となる。例えば、GoogleやYahoo!などで検索した結果ページが長い場合でも、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰することができる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

図１４は、一般のＷｅｂ検索サイトから、各々のＷｅｂサイトを参照する場合の、従来の表示例と、図１３のシステム構成による表示例を示したものである。検索サイト１４００、１４２０は、一般のＷｅｂ検索サイトを表す。従来の表示では、リンク１４０１をクリックすると、オリジナルのＷｅｂページ・文書１４１０がそのまま表示される。しかし、図１３のシステム構成では、リンク１４２１をクリックすると、オリジナルのＷｅｂページ・文書のかわりに、検索キーワード１４２２による構造要約ページ・文書１４３０が表示される。

図１５は、図１３のシステム構成に基づいて、一般のＷｅｂサイトを構造要約表示する際の、Ｗｅｂブラウザと中継サーバと検索サイトと訪問サイトの間の処理の流れを示した説明図である。一番左のラインがユーザ操作の流れ、左から２番目のラインが中継サーバ処理の流れ、右から２番目のラインが一般の検索サイトの処理の流れ、一番右のラインが訪問サイトの処理の流れを表す。

まず、Ｗｅｂブラウザは、検索クエリを入力してＷｅｂページ・文書の検索（Ｅ１５００）を行う。Ｗｅｂ検索サイトは、当該サイトの持つ検索機能によって、検索を実行し（Ｅ１５１０）、検索結果を出力する（Ｅ１５２０）。送信されたＷｅｂページ・文書は、Ｗｅｂブラウザに表示する前に、まず中継サーバにより受信される。中継サーバは、Ｗｅｂブラウザへの送信ページをフィルタリングする（Ｅ１５２５）。送信ページが検索サイトの場合、変更を加えずにＷｅｂブラウザに送信する。また、検索に用いられたキーワードを記録しておく（Ｅ１５４７）。Ｗｅｂブラウザは、検索結果ページの中から参照したい文書を選択し（Ｅ１５３０）、訪問サイトに文書の取得要求を通知する。訪問サイトは、Ｗｅｂページ・文書を送信する（Ｅ１５４０）。送信されたＷｅｂページ・文書は、Ｗｅｂブラウザに表示する前に、まず中継サーバにより受信される。中継サーバは、Ｗｅｂブラウザへの送信ページをフィルタリングする（Ｅ１５４５）。送信ページが検索サイトでない場合、受信Ｗｅｂページ・文書を構造化し（Ｅ１５５０）、縮約・展開表示の単位となるブロックを決定する。次に検索キーワードに基づき、Ｗｅｂページ・文書の構造要約を行う（Ｅ１５６０）。処理Ｅ１５４７でキーワードリストを抽出しているので、構造要約処理Ｅ１５６０は、図７と同じ処理フローで実施できる。最後にユーザは、構造要約されたＷｅｂページ・文書を閲覧する（Ｅ１５７０）。

以上の一連の操作により、例えば、社内のＷｅｂブラウザから社外の任意のページにアクセスした場合においても構造要約機能を提供可能となる。例えば、GoogleやYahoo!などで検索した結果ページが長い場合でも、検索クエリと関連の高い領域のみを表示することで、欲しい内容だけを俯瞰することができる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

図１６は、ポータルサイトにより、構造要約機能を実現する場合のシステム構成の一例である。図１、図８Ａにおける文書閲覧装置のかわりに、Ｗｅｂブラウザ１６００が閲覧装置として用いられる。ポータルサイト１６１０は、文書検索手段１３０、ブロック検索手段１２０、文書構造化手段１４０、ブロック抽出手段１４５、類似ブロック追加手段１５０、ブロック縮約／展開表示手段１６０、非表示ブロックラベル生成手段１８０、文書生成手段１９０に加えて、機能的には図１０におけるものと同様である。

ユーザはまずポータルサイトにアクセスし、文書検索手段１３０によりＷｅｂページ・文書の検索を実行する。ポータルサイト１６１０は、検索結果の各Ｗｅｂページ・文書について、図７と同様の処理フローにより構造要約文書を作成する。文書整列表示手段１６２０は、構造要約表示した各ページ・文書を２次元的に並べて一覧表示する。

以上のシステム構成により、検索結果の複数ページに対して同時に構造要約を実行し一覧表示することが可能となる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

図１７は、図１６によるシステム構成を持つ構造要約検索ポータルサイトの画面例である。Ｗｅｂページ・文書１７１０は、検索クエリを入力した直後の構造要約ポータルサイト画面である。構造要約済みＷｅｂページ１７２０は、文書検索サーバ１６３１による検索結果文書の各々の構造要約結果を表す。検索結果一覧画面１７３０は、前記構造要約文書を一覧表示した画面を表す。

以上の画面遷移に従い、検索結果の複数ページに対して同時に構造要約を実行し一覧表示することが可能となる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

図１８は、ユーザ、ポータルサイト、訪問サイト間の処理の流れを示した説明図である。左のラインが、ユーザ操作の流れ、真ん中のラインがポータルサイト処理の流れ、右側のラインが訪問サイト処理の流れを表す。

ユーザは、ポータルサイトに検索要求を発行する（Ｅ１８００）。ポータルサイトは、入力されたキーワードに基づき、Ｗｅｂページ・文書検索を実行する（Ｅ１８１０）。次に、ポータルサイトは、訪問サイトにオリジナルのＷｅｂページ・文書を要求する（Ｅ１８２０）。訪問サイトは要求に応じてＷｅｂページ・文書を送信する（Ｅ１８３０）。ポータルサイトは、それぞれのオリジナルのＷｅｂページ・文書を構造要約化する（Ｅ１８５０）。入力キーワードはポータルサイト側に保持しているため、図７の処理フローに従い、構造要約を実施できる。そして、構造要約化されたＷｅｂページ・文書を２次元状に配置し、検索結果ページを生成する（Ｅ１８６０）。ユーザは、構造要約検索結果ページを閲覧する（Ｅ１８７０）。

以上の一連の操作により、検索結果の複数ページに対して同時に構造要約を実行し一覧表示することが可能となる。また、省略された領域については、その領域に含まれるラベル（タグ）の組合せを見ることにより、書かれている内容を推測することができ、閲覧漏れの危険を減らすことができる。

情報提示機能を持つ、Acrobat、Word、Excelなどの文書ビューアー、携帯端末、Ｗｅｂブラウザ、Ｗｅｂサーバ等での利用が見込まれる。

本発明による閲覧システムの構成例を示す図。構造要約文書の画面例を示す図。キーワードペアに対して推定される関係の例適合文書のパターン例を示す図。適合文書のパターン例を示す図。適合文書のパターン例を示す図。文書構造化の例を示す図。文書の構造化結果からブロック集合を決定する方法の説明図。構造要約文書の画面例を示す図。一次検索及び二次検索フローの説明図。ブロックごとにラベル付与を行った場合の構造要約表示パターンの例を示す図。元の文書を全てラベル情報で置き換えた場合の表示例を示す図。ユーザ操作と構造要約表示の関係を時間軸に沿って示した説明図。デスクトップ検索と組み合わせて構造要約を実行する場合のシステム構成例を示す図。デスクトップ検索時の画面遷移例を示す図。デスクトップ検索時の画面遷移例を示す図。デスクトップ検索時の画面遷移例を示す図。デスクトップ検索と組み合わせる場合の時系列処理フロー図。Ｗｅｂサイトと構造要約を組み合わせる場合の構成例を示す図。サイト内検索処理と構造要約表示の処理の流れの説明図。検索サイトから構造要約可能なＷｅｂサイトを訪問した場合の構造要約処理フロー図。中継サーバにより任意のＷｅｂページに構造要約機能を実現する場合のシステム構成例を示す図。一般のＷｅｂ検索サイトから、各々のＷｅｂサイトを参照する場合の、従来と本システムの表示例の説明図。中継サーバにより任意のＷｅｂページ・文書を構造要約表示する際の、クライアントＰＣと中継サーバと検索サイトと訪問サイトの間の処理の流れを示した説明図。ポータルサイトにより、構造要約機能を実現する場合のシステム構成例を示す図。構造要約検索ポータルサイトの画面例を示す図。クライアントＰＣ、ポータルサイト、訪問サイト間の処理の流れを示した説明図。

符号の説明

１００：閲覧システム、１１０：クエリ入力手段、１２０：ブロック検索手段、１３０：文書検索手段、１４０：文書構造化手段、１４５：ブロック抽出手段、１５０：類似ブロック追加手段、１６０：ブロック縮約／展開表示手段、１７０：縮約／展開切り替え手段、１８０：非表示ブロックラベル生成手段、１９０：文書生成手段

Claims

複数のブロックに領域分けされた文書に対してブロック単位に検索を行い、入力された検索キーに類似するブロックを検索するブロック検索手段と、
前記検索されたブロックから特徴度を持った特徴ベクトルを生成し、その特徴ベクトルと類似するブロックを類似度が高い順に出力し、ブロック全体の特徴度が増加する間、前記検索されたブロックに前記出力された類似ブロックを追加して表示ブロックを決定する類似ブロック追加手段と、
文字列もしくは文字列の種類を表すタグごとに、前記表示ブロックにおける特徴度と非表示ブロックにおける特徴度の和を重要度とし、重要度の高いものを非表示ブロックのラベルとする非表示ブロックラベル生成手段と、
前記表示ブロックについてはその内容を表示し、前記非表示ブロックについては前記ラベルを表示するブロック縮約／展開表示手段と、
を有することを特徴とする情報処理システム。
請求項１記載の情報処理システムにおいて、文書の構造解析を行い論理的なまとまりのあるブロックを抽出する文書構造化手段を有することを特徴とする情報処理システム。
請求項１記載の情報処理システムにおいて、前記ラベルの表示をブロック毎に行うことを特徴とする情報処理システム。
請求項１記載の情報処理システムにおいて、前記ラベルとして、タイトルと単語のbi-gram、表構造から得られる項目−値関係のbi-gram、文書の係り受け解析から得られるＳ（主語）−Ｖ（動詞）関係を用いることを特徴とする情報処理システム。
請求項２記載の情報処理システムにおいて、サーバ内に前記ブロック検索手段、前記類似ブロック追加手段、前記非表示ブロックラベル生成手段、前記文書構造化手段、及びページ内検索手段を備え、前記表示ブロックについてはその内容を表示し前記非表示ブロックについては前記ラベルを表示した文書をクライアントに配信することを特徴とする情報処理システム。
請求項２記載の情報処理システムにおいて、サーバもしくは中継サーバにより、配信中の文書中に、ページ内検索手段、前記文書構造解析手段、前記ブロック選択手段及び縮約／展開表示手段を埋め込み、クライアント側に送信することを特徴とする情報処理システム。
請求項２記載の情報処理システムにおいて、クライアント側にページ内検索手段、前記ブロック選択手段、縮約／展開表示手段のうち少なくとも一つを持ち、サーバ側に少なくとも前記文書構造解析手段を持つことを特徴とする情報処理システム。
情報処理システムが、検索キーの入力を受け付ける工程と、
前記情報処理システムが、文書の構造解析を行って論理的なまとまりのあるブロックを抽出し、前記文書を複数のブロックに領域分けする工程と、
前記情報処理システムが、前記複数のブロックに領域分けされた文書に対してブロック単位に検索を行い、前記入力された検索キーに類似するブロックを検索する工程と、
前記情報処理システムが、前記検索されたブロックから特徴度を持った特徴ベクトルを生成し、その特徴ベクトルと類似するブロックを類似度が高い順に出力し、ブロック全体の特徴度が増加する間、前記検索されたブロックに前記出力された類似ブロックを追加して表示ブロックを決定する工程と、
前記情報処理システムが、文字列もしくは文字列の種類を表すタグごとに、前記表示ブロックにおける特徴度と非表示ブロックにおける特徴度の和を重要度とし、重要度の高いものを非表示ブロックのラベルとする工程と、
前記情報処理システムが、前記表示ブロックについてはその内容を表示し、前記非表示ブロックについては前記ラベルを表示する工程と、
を有することを特徴とする情報処理方法。
請求項８記載の情報処理方法において、前記ラベルの表示はブロック毎に行うことを特徴とする情報処理方法。
請求項８記載の情報処理方法において、
前記情報処理システムが、ブロックの選択を受け付ける工程と、
前記情報処理システムが、前記選択されたブロックの表示・非表示を切り換える工程を有することを特徴とする情報処理方法。