JP5259462B2

JP5259462B2 - 検索を支援する装置、方法およびプログラム

Info

Publication number: JP5259462B2
Application number: JP2009059013A
Authority: JP
Inventors: 伸一郎浜田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-03-12
Filing date: 2009-03-12
Publication date: 2013-08-07
Anticipated expiration: 2029-03-12
Also published as: JP2010211664A

Description

本発明は、検索を支援する装置、方法およびプログラムに関する。

様々な文書に含まれる情報を統合することにより、知りたい情報に関する知識を得られるようにするタスクに対するニーズの高まりが指摘されている。このようなタスクは、探求検索（Exploratory Search）タスクとして知られている。

例えば、Ｗｅｂからサブプライム問題の概要に関する情報を得る場合には、ユーザは、サブプライム問題に関連する検索キーワードを入力してＷｅｂを検索する。しかし、Ｗｅｂ上に概要がまとめられている文書が存在するとは限らない。また、存在するとしても、ユーザが望む詳細度で記載された文書であるとも限らない。すなわち、ユーザの情報要求が１つの文書で満たされることは、一般的に保証されていない。このような問題に対しては、ユーザは多数の文書を収集し、文書間の情報差分等をもとに知識統合する対話的作業が必要になる。この作業はベリー摘みモデルと呼ばれる。

探求検索タスクを実現するためにキーワード検索システムを用いる場合、閲覧した文書群では不足する情報に対応するクエリをユーザが適切に作成する必要がある。しかし、キーワードを並べて作成されるクエリでは、検索要求を適切に表現することができず、所望の情報を得られない場合がある。このような問題を解決する技術として、ユーザが作成したクエリを用いずに現在閲覧している文書に関連する文書を返す連想検索システムが知られている。

例えば、特許文献１では、ユーザが入力したキーワードやテキストなどの問い合わせ用の情報源に応じてサーバで生成されたクエリーベクトルを用いて関連情報を検索する情報検索システムに関する技術が提案されている。

特開２００３−１６０８９号公報

しかしながら、上記のような連想検索システムでは、システムにより生成される検索要求が本来の要求から逸れて探求の方向性を見失うという問題（徘徊問題）が指摘されている。

本発明は、上記に鑑みてなされたものであって、連想検索システム等で生じうる徘徊問題の発生を低減できる装置、方法およびプログラムを提供することを目的とする。

上述した課題を解決し、目的を達成するために、本発明は、入力文書と、前記入力文書に含まれる文字のうち指定された文字の位置との入力を受付ける受付部と、前記入力文書の構成単位である複数のパッセージ間の階層構造を解析する構造解析部と、前記位置の文字を含む前記パッセージより上位の前記パッセージである上位パッセージに含まれる単語それぞれについて、文書記憶部に記憶された複数の文書内での前記単語の重要性の度合いを表す第１単語重要度を算出する第１単語重要度算出部と、前記上位パッセージに含まれる単語それぞれについて、前記入力文書内での前記単語の重要性の度合いを表し、より上位の前記上位パッセージに含まれる単語ほど小さい値となる第２単語重要度を算出する第２単語重要度算出部と、前記入力文書と関連する関連文書を前記文書記憶部から検索するための条件であって、前記上位パッセージに含まれる単語それぞれについて算出された前記第１単語重要度と前記第２単語重要度とを含む検索条件を出力する出力部と、を備えることを特徴とする。

また、本発明は、上記装置で実行することができる方法およびプログラムである。

本発明によれば、連想検索システム等で生じうる徘徊問題の発生を低減できるという効果を奏する。

図１は、第１の実施の形態の検索支援装置で表示される編集画面の一例を示す図である。図２は、第１の実施の形態にかかる検索支援装置の構成の一例を示すブロック図である。図３は、第１の実施の形態における検索支援処理の全体の流れを示すフローチャートである。図４は、第１の実施の形態における構造解析処理の全体の流れを示すフローチャートである。図５は、第１の実施の形態における一般重要度算出処理の全体の流れを示すフローチャートである。図６は、第１の実施の形態における個別重要度算出処理の全体の流れを示すフローチャートである。図７は、第１の実施の形態における既知度算出処理の全体の流れを示すフローチャートである。図８は、第１の実施の形態における文書検索処理の全体の流れを示すフローチャートである。図９は、第１の実施の形態におけるパッセージ分割処理の全体の流れを示すフローチャートである。図１０は、第１の実施の形態における文書内重要度算出処理の全体の流れを示すフローチャートである。図１１は、第１の実施の形態におけるサマリ内重要度算出処理の全体の流れを示すフローチャートである。図１２は、第１の実施の形態におけるパッセージ選択処理の全体の流れを示すフローチャートである。図１３は、第１の実施の形態における多段階パッセージ検索処理の全体の流れを示すフローチャートである。図１４は、第１の実施の形態の変形例の検索支援装置で表示される編集画面の一例を示す図である。図１５は、第１の実施の形態の変形例における構造解析処理の全体の流れを示すフローチャートである。図１６は、第２の実施の形態の検索支援装置で表示される編集画面の一例を示す図である。図１７は、第２の実施の形態にかかる検索支援装置の構成の一例を示すブロック図である。図１８は、第３の実施の形態の検索支援装置で表示される編集画面の一例を示す図である。図１９は、第３の実施の形態にかかる検索支援装置の構成の一例を示すブロック図である。図２０は、第３の実施の形態における検索支援処理の全体の流れを示すフローチャートである。図２１は、第３の実施の形態における質問生成処理の全体の流れを示すフローチャートである。図２２は、第３の実施の形態における文書検索処理の全体の流れを示すフローチャートである。図２３は、第３の実施の形態におけるサマリ内重要度算出処理の全体の流れを示すフローチャートである。図２４は、第４の実施の形態にかかる検索支援装置の構成の一例を示すブロック図である。図２５は、第４の実施の形態における個別重要度算出処理の全体の流れを示すフローチャートである。図２６は、第４の実施の形態におけるサマリ内重要度算出処理の全体の流れを示すフローチャートである。図２７は、第１〜第４の実施の形態にかかる検索支援装置のハードウェア構成を示す説明図である。

以下に添付図面を参照して、この発明にかかる検索支援装置、検索支援方法、および検索支援プログラムの最良な実施の形態を詳細に説明する。

（第１の実施の形態）
上述のように、連想検索システムでは、徘徊問題が発生しうる。また、連想検索システムを含むいずれの検索システムも検索条件を満たす文書を返すことができるが、それだけではユーザの要求を満たすには不十分である。すなわち、探求検索タスクでは、文書の中に記載されている、ユーザにとっての新規情報が重要であって、単に条件を満たす文書が得られればよいものではない。しかし、従来のシステムでは、返された各文書の中からユーザが新規情報を探す作業が強いられていた。

一方、複数文書の新規情報を統合する技術として複数文書要約システムが知られている。しかし要約の観点は十人十色であり、このようなシステムがユーザの望む要約を生成できるとは限らない。これに対し、事実優先・意見優先など要求タイプを事前入力するシステムが存在する。しかし要求タイプの種類が少ないため、情報要求としては十分ではない。また現在の技術的限界として、単数文書要約における文選定は実用レベルであるが、異なる文書の文脈統合は実用レベルでない。

一方、探求検索タスクでは、その情報収集プロセスの複雑さゆえ、調査途中結果をメモなどにまとめることが多い（以下、このようにしてまとめた文書をユーザサマリという）。第１の実施の形態にかかる検索支援装置は、この点に着眼し、サマリ作成作業を含む探求検索タスクを支援する装置であって、その一部機能として、サマリ文脈に基づいて必要な情報を検索・提示する装置を実現する。これにより、上記のような各問題を包括的に解決しうる装置を実現できる。なお、このような装置は一例であって、上記徘徊問題を解消するためには、例えばサマリ作成機能を備える必要はない。

ここで、本実施の形態の検索支援装置の具体的な機能構成の概要について説明する。検索支援装置は、コピーペースト機能および構造テキスト編集機能を有する。構造テキスト編集機能とは、箇条書きなどにより構造化されたテキスト（以下、構造テキストという）を編集する機能をいう。

そして、検索支援装置は、テキスト編集中に任意のカーソル位置で特定キーが押下されたときに情報提示機能を呼び出す。情報提示機能は、後述する文書検索処理および重要文選定処理により獲得したパッセージ群の候補を提示する。パッセージとは、文、章、節、および段落などの意味単位で文書を分割した文書の構成単位をいう。ユーザが候補の１つを選択すると、カーソル位置に当パッセージが挿入される。

文書検索処理では、検索支援装置は、サマリ内のカーソルより構造上位のパッセージ群から内容語を抽出し、ｔｆ−ｉｄｆ（Term Frequency−Inverse Document Frequency）などによる一般的な重要度をベースにカーソルにより近い位置に存在する文に含まれる内容語に傾斜加重した重みつき要求ベクトル（文書検索用ベクトル）を生成する。そして、検索支援装置は、この文書検索用ベクトルを元に関連文書を検索する。

重要文選定処理では、検索支援装置は、検索した各文書から、タイトル、位置情報、出現頻度、語彙結束性、カバレッジ、および文構造制約を素性としたエドムンソン（H.P.Edmundson. New methods in automatic abstracting. Journal of ACM， Vol.16， No.2， pp264-285， 1969）の手法などにより、重要文（重要パッセージ）を選定する。ただし、語彙結束性評価への入力は前段で求めた文書検索用ベクトルとし、カバレッジ性評価への入力は、ユーザサマリのカーソルと構造同位のパッセージ群（後述）とする点が従来と異なる。これにより、従来と同様の単文書内での重要パッセージ判定結果に、ユーザサマリに対する情報の親和性・新規性が加味される。以上によって得た文スコアを所属文書のスコアと合算し、スコア上位のパッセージを返却する。

次に、画面イメージを参照しながら（図１）、本実施の形態の検索支援装置の機能の概要について説明する。図１は、第１の実施の形態の検索支援装置で表示される編集画面の一例を示す図である。

同図は、サマリを編集するためのサマリ編集ウィンドウ１０と、サマリ編集ウィンドウ１０内で指定されたカーソル位置に応じて検索されたパッセージの候補を表示するパッセージ候補ウィンドウ１１とを含む編集画面の例が示されている。

ユーザは、サマリ編集ウィンドウ１０内でキーボード・マウスなどを用いることにより構造テキストを作成および編集することができる。このテキストが上述のユーザサマリに相当する。ユーザサマリはユーザによる調査結果をまとめた文書となる。

サマリ編集ウィンドウ１０は、テキストを編集できるほか、少なくとも箇条書きなどパッセージ同士の構造的関係を表す表現を入力することができる。好ましくは、太字・色変更などの文字修飾、および図表表現などの、例えばＨＴＭＬ（HyperText Markup Language）が有するプレゼンテーション表現機能をサポートしてもよい。その場合、ユーザは調査結果をよりわかりやすくまとめることができよう。

また好ましくは、外部の文書からのコピーペースト機能をサポートとしてもよい。その場合、ユーザは当該ツール以外のツールを用いて調査した結果を当該サマリに反映することもできる。すなわちユーザは、様々な検索ツールを併用して調査を進めることができるようになる。

ユーザは、パッセージ候補ウィンドウ１１によって、文献ＤＢ（文書記憶部（後述））に記憶されている複数の文書内のパッセージ群を検索し取り込むことができる。例えば、ユーザがサマリ編集ウィンドウ１０上で空パッセージ（例えば箇条書き形式の表現ならば、中点だけが存在する行）にカーソルを置いて特定キーを押下するとパッセージ候補ウィンドウ１１が表示される。なお、この操作を以降の説明の簡便化のため「パッセージ検索呼び出し操作」と呼ぶことにする。パッセージ候補ウィンドウ１１には、ユーザサマリの文脈に沿って文書記憶部の文書群から検索されたパッセージ群の候補が表示される。ユーザが候補の１つを選択すると、サマリ編集ウィンドウ１０のカーソル位置に選択されたパッセージが挿入される。

ユーザは、サマリ編集ウィンドウ１０とパッセージ候補ウィンドウ１１とを用いた以上の作業を繰り返すことで、探求検索タスクを進めることができるようになっている。パッセージ候補ウィンドウ１１によって挿入されたパッセージ群も、一般的なテキストとして加筆・修正・削除などの編集処理を行うことが可能である。

なお、同図は、以下のようなユーザ操作により作成されたコンテンツ（文書）の例を示している。
（１）「株価」を手入力する。
（２）「2008/8/28」を手入力する。
（３）その構造下位で「パッセージ検索呼び出し操作」を行い、表示された候補の１つを挿入する。この作業を反復する。
（４）ただし（３）の作業で、興味のない内容を一部削る、パッセージ構造を変更するなど、調査目的や興味に基づいて適宜修正を加えるものとする。
（５）また（３）の作業で、所望のパッセージ候補が表示されないときは、構造下位で自分の興味ある話題語を記載してから「パッセージ検索呼び出し操作」を行う。

また、本実施の形態では、オプショナルな機能として多段階パッセージ検索機能を利用することができる。「多段階パッセージ検索機能」とは、パッセージ候補ウィンドウ１１内で、さらに関連するパッセージ群を検索して別のウィンドウに表示する機能をいう。例えば、パッセージ候補ウィンドウ１１に表示された候補パッセージ群の特定の候補パッセージ上で特定キーが押下されたときに、その候補パッセージをサマリに挿入したと仮定した上で、その候補パッセージに関連するパッセージ群を検索して、さらなるポップアップウィンドウに検索されたパッセージ候補を提示するように構成することができる。このポップアップウィンドウ上でもまた同様の操作を行うことができる。すなわち、再帰的な操作が可能である。

また、２種類の特定キーを用意し、特定キーの一方が押下されたときに、表示済み候補パッセージの子供となる候補パッセージを検索し、他方が押下されたときに、表示済み候補パッセージの兄弟となる候補パッセージを検索するように構成してもよい。子孫のポップアップウィンドウ上で候補の１つを選択すると、それまでに選択した祖先のパッセージ群すべてが組み立てられた状態で一括してサマリ編集ウィンドウ１０内のユーザサマリ本文へ挿入される。

次に、本実施の形態の検索支援装置の構成の詳細について図２を用いて説明する。図２は、第１の実施の形態にかかる検索支援装置１００の構成の一例を示すブロック図である。同図に示すように、検索支援装置１００は、文脈解析部１１０と、パッセージ検索部１２０と、編集部１３０と、文書記憶部１４０と、を備えている。

なお、パッセージ検索（取込含む）機能は、編集部１３０、文脈解析部１１０、およびパッセージ検索部１２０の循環的なデータのやり取りとして実現される。文書記憶部１４０は、検索対象となる複数の文書を記憶する記憶部である。

編集部１３０は、上述のような各種ユーザ操作を受付け、受付けたユーザ操作に応じた処理を各構成部に指示する。例えば、編集部１３０は、「パッセージ検索呼び出し操作」を受理すると、内部に保存しているユーザサマリおよびカーソル位置を文脈解析部１１０へ渡す。また、編集部１３０は、表示装置（図示せず）を備え、表示装置に表示された画面上でテキストを編集する方法などの、従来から用いられているあらゆる方法により、ユーザサマリを編集する機能を備えている。

文脈解析部１１０は、受理したユーザサマリおよびカーソル位置をユーザの情報要求として解析し、関連文書の検索に用いる形式（ベクトル形式）で表した情報要求、および、検索結果の重要度を判定するための情報を出力する。具体的には、文脈解析部１１０は、単語一般重要度ベクトルＡおよび単語個別重要度ベクトルＢを、情報要求としてパッセージ検索部１２０に出力する。また、文脈解析部１１０は、単語既知度ベクトルＣを、重要度を判定するための情報としてパッセージ検索部１２０に出力する。

本実施の形態では、文脈解析部１１０が、ユーザサマリ内の単語の重要度やパッセージ間の階層構造に応じた情報要求を作成するため、ユーザの要求をより適切に反映した情報要求を作成することができる。すなわち、本実施の形態によれば、重みが徐々に小さくなるが、過去に編集した上位階層のパッセージ内の単語も常に情報要求に含めるため、情報要求の一貫性を保つことができる。これにより、システムにより生成される検索要求がユーザが望む本来の要求から逸れて探求の方向性を見失う徘徊問題を解消することが可能となる。なお、上記各ベクトルＡ〜Ｃの作成方法の詳細は後述する。

パッセージ検索部１２０は、受理した情報要求表現であるベクトルＡ〜Ｃを元に、文書記憶部１４０内に格納されている文書群から、情報要求を満たす適切なパッセージ群を順位つきで取得し、パッセージ候補として編集部１３０に出力する。なお、編集部１３０は、このパッセージ候補を上述のパッセージ候補ウィンドウ１１に表示する。

次に、文脈解析部１１０の機能構成の詳細について説明する。同図に示すように、文脈解析部１１０は、受付部１１１と、構造解析部１１２と、第１単語重要度算出部１１３と、第２単語重要度算出部１１４と、既知度算出部１１５と、出力部１１６と、を備えている。

受付部１１１は、構造解析の対象となる入力文書であるユーザサマリと、ユーザサマリ内で指定された文字の位置（カーソル位置）との入力を編集部１３０から受付ける。なお、カーソル位置は、ユーザサマリ内のパッセージのいずれか１つを特定できればよい。例えば、ユーザサマリ内で指定された１文字以上の文字（文字列）の位置をカーソル位置として受付けるように構成してもよい。

構造解析部１１２は、入力されたユーザサマリをパッセージに分割し、各パッセージ間の階層構造を解析し、パッセージ間の親子関係および兄弟関係などの構造関係が付与されたパッセージ群を生成する。

第１単語重要度算出部１１３は、生成された構造関係付きパッセージ群を元に、文書群全体の単語分布から単語一般重要度ベクトルＡを算出する。具体的には、第１単語重要度算出部１１３は、カーソル位置の文字が含まれるパッセージより階層構造が上位のパッセージ群（以下、構造上位パッセージという）から内容語の一般重要度（第１単語重要度）を算出し、算出した一般重要度を重みとする重み付き単語ベクトルである単語一般重要度ベクトルＡを作成する。

一般重要度は、文書記憶部１４０に記憶された複数の文書内での単語の重要性の度合いを表す。すなわち、一般重要度は、ユーザサマリの文脈と関係なく、文書記憶部１４０内に含まれる単語の単語分布を元にした「人間一般として何を知りたいか」に関する手がかりである。また、内容語とは、検索語として有用と思われる単語を意味する。１つの例としては、日本語ならば「は」「を」「が」など助詞を除いたすべての形態素を内容語とする方法がある。また、例えば経済専用の検索ツールとして構成するのであれば、予め用意してある経済用語集に含まれる語を内容語とする方法もある。

第２単語重要度算出部１１４は、生成された構造関係付きパッセージ群を元に、構造上位パッセージから単語個別重要度ベクトルＢを算出する。具体的には、第２単語重要度算出部１１４は、構造上位パッセージ群に含まれる内容語について、ユーザ個人にとっての重要度を表す個別重要度（第２単語重要度）を算出し、算出した個別重要度を重みとする重み付き単語ベクトルである単語個別重要度ベクトルＢを作成する。

個別重要度は、ユーザサマリ内での単語の重要性の度合いを表す。すなわち、個別重要度は、ユーザサマリのカーソル位置での文脈をバイアスとして用いた、「次にユーザは何を知りたいか」（ユーザの注目度）に関する手がかりである。なお、個別重要度は、より上位のパッセージほど小さい値となるように算出される（後述）。

既知度算出部１１５は、生成された構造関係付きパッセージ群を元に、カーソル位置の文字が含まれるパッセージと階層構造上の階層位置が同位のパッセージ（以下、構造同位パッセージという）から、単語既知度ベクトルＣを算出する。具体的には、既知度算出部１１５は、構造同位パッセージ群に含まれる内容語について、ユーザサマリ内でユーザが既に知っている度合いを表す既知度を算出し、算出した既知度を重みとする重み付き単語ベクトルである単語既知度ベクトルＣを作成する。既知度は、ユーザサマリのカーソル位置での文脈をバイアスとして用いた、「次にユーザは何を知りたくないか」に関する手がかりである。

出力部１１６は、作成された単語一般重要度ベクトルＡ、単語個別重要度ベクトルＢ、および単語既知度ベクトルＣをパッセージ検索部１２０に出力する。後述するように、単語一般重要度ベクトルＡおよび単語個別重要度ベクトルＢは、文書記憶部１４０に記憶された文書を検索するための検索条件として利用される。また、単語既知度ベクトルＣは、検索した文書内の各パッセージの重要度（サマリ内重要度）を算出するための情報として利用される。

次に、パッセージ検索部１２０の機能構成の詳細について説明する。同図に示すように、パッセージ検索部１２０は、文書検索部１２１と、パッセージ分割部１２２と、第１パッセージ重要度算出部１２３と、第２パッセージ重要度算出部１２４と、総合重要度算出部１２５と、パッセージ選択部１２６と、を備えている。

文書検索部１２１は、第１単語重要度算出部１１３によって生成された単語一般重要度ベクトルＡと、第２単語重要度算出部１１４によって生成された単語個別重要度ベクトルＢと、を用いて、ユーザサマリに関連する文書を文書記憶部１４０から検索し、検索した文書ごとにユーザサマリと関連する度合いを表す関連度を算出する。

より具体的には、文書検索部１２１は、単語一般重要度ベクトルＡと単語個別重要度ベクトルＢとから検索用のベクトルである文書検索用ベクトル（詳細は後述）を生成し、文書記憶部１４０内の文書の特徴を表す文書ベクトルと文書検索用ベクトルとの間のコサイン尺度を関連度として算出する。なお、文書の文書ベクトルとは、例えば単語ごとの出現頻度またはｔｆ−ｉｄｆなどをベクトル化したものである。

パッセージ分割部１２２は、検索された各文書をパッセージ単位に分割する。パッセージ分割部１２２は、さらに、分割したパッセージの照応解決処理を実行する。すなわち、パッセージ分割部１２２は、分割したパッセージに、他のパッセージに含まれる対象を指し示す照応表現が含まれる場合に、当該他のパッセージから照応表現の指示対象を表す名詞句を取得し、名詞句で照応表現を置換する。

第１パッセージ重要度算出部１２３は、分割された各パッセージについて、パッセージが所属する文書の中での当該パッセージの重要性の度合いを表すスコアである文書内重要度（第１パッセージ重要度）を算出する。文書内重要度は、ユーザにとって重要かという観点は含まれていない。文書内重要度の算出方法としては、例えば上述のエドムンソンで用いられているような、単文書要約の文選定処理の１つとして知られる手法を用いることができる。

具体的には、第１パッセージ重要度算出部１２３は、パッセージｉの文書内重要度ＰＳｃｏｒｅ＿ｉを、以下の（１）式により算出する。
ＰＳｃｏｒｅ＿ｉ＝Ｗ１１×Ｃ１＿ｉ＋Ｗ１２×Ｃ２＿ｉ＋Ｗ１３×Ｃ３＿ｉ＋Ｗ１４×Ｃ４＿ｉ・・・（１）

なお、パッセージｉとは、分割されたｎ個のパッセージのうちｉ番目（１≦ｉ≦ｎ）のパッセージを意味する。Ｗ１１〜Ｗ１４は、予め定められた重み付け係数を表す。また、Ｃ１＿ｉ、Ｃ２＿ｉ、Ｃ３＿ｉ、およびＣ４＿ｉは、それぞれ位置情報、手がかり表現情報、タイトル関連性、および出現頻度を表す。これらの各変数の算出方法については後述する。

第２パッセージ重要度算出部１２４は、分割された各パッセージについて、ユーザサマリ内のカーソル位置における当該パッセージの重要性の度合いを表すスコアであるサマリ内重要度（第２パッセージ重要度）を算出する。算出方法の詳細は後述する。

総合重要度算出部１２５は、文書内重要度とサマリ内重要度との重み付け線形和（重み付け加算）により、各パッセージの総合重要度を算出する。具体的には、総合重要度算出部１２５は、以下の（２）式により総合重要度Ｓｃｏｒｅ＿ｉを算出する。
Ｓｃｏｒｅ＿ｉ＝Ｗ２１×ＤＳｃｏｒｅ＿ｉ＋Ｗ２２×ＰＳｃｏｒｅ＿ｉ＋Ｗ２３×ＳＳｃｏｒｅ＿ｉ・・・（２）

ただし、ＤＳｃｏｒｅ＿ｉはパッセージｉが含まれる文書の関連度、ＰＳｃｏｒｅ＿ｉはパッセージｉの文書内重要度、ＳＳｃｏｒｅ＿ｉはパッセージｉのサマリ重要度、Ｗ２１〜Ｗ２３は予め定められた正数を表す。

パッセージ選択部１２６は、総合重要度が付与されたパッセージ群を元に、ユーザに提示すべきパッセージ群を順位付きで選択する。本実施の形態では、パッセージ選択部１２６は、できるだけ重要度の高いパッセージ群を優先して選択するとともに、パッセージ間の内容ができるだけ重ならないように選択するパッセージ候補を決定する。

次に、編集部１３０の機能構成の詳細について説明する。同図に示すように、編集部１３０は、候補選択部１３１と、多段階検索部１３２と、編集結果記憶部１３３と、を備えている。

編集結果記憶部１３３は、編集部１３０の編集機能により編集された結果であるユーザサマリのテキストと現在のカーソル位置とを記憶する。

なお、上述の文書記憶部１４０および編集結果記憶部１３３は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。

候補選択部１３１は、パッセージ選択部１２６によって選択されたパッセージ候補を、例えば図１に示すパッセージ候補ウィンドウ１１にリスト形式で表示する。そして、候補選択部１３１は、ユーザによりパッセージ候補のいずれか１つが選択された場合に、サマリ編集ウィンドウ１０上のカーソル位置に選択されたパッセージを挿入する。また、候補選択部１３１は、挿入処理に応じて編集結果記憶部１３３のユーザサマリの内容を更新する。なお、多段階検索部１３２により多段階パッセージ検索機能が実行されていた場合は、多段階に検索されたパッセージ群をすべて合成した内容を、サマリ編集ウィンドウ１０上のカーソル位置に挿入し、編集結果記憶部１３３の格納内容を更新する。

多段階検索部１３２は、上述の多段階パッセージ検索機能を実現する。

次に、このように構成された第１の実施の形態にかかる検索支援装置１００による検索支援処理について図３を用いて説明する。図３は、第１の実施の形態における検索支援処理の全体の流れを示すフローチャートである。

同図の検索支援処理は、ユーザがユーザサマリの任意のカーソル位置で特定キーを押下したときに開始される。これにより、編集部１３０は、ユーザサマリと、指定されたカーソル位置とを文脈解析部１１０に入力する。

受付部１１１は、入力されたユーザサマリとカーソル位置とを受付ける（ステップＳ３０１）。次に、構造解析部１１２が、ユーザサマリの階層構造を解析する構造解析処理を実行する（ステップＳ３０２）。構造解析処理の詳細は後述する。

次に、第１単語重要度算出部１１３が、構造解析部１１２による解析結果を元に単語一般重要度ベクトルＡを算出する一般重要度算出処理を実行する（ステップＳ３０３）。また、第２単語重要度算出部１１４が、構造解析部１１２による解析結果を元に単語個別重要度ベクトルＢを算出する個別重要度算出処理を実行する（ステップＳ３０４）。さらに、既知度算出部１１５が、構造解析部１１２による解析結果を元に単語既知度ベクトルＣを算出する既知度算出処理を実行する（ステップＳ３０５）。

一般重要度算出処理、個別重要度算出処理、および既知度算出処理の詳細については後述する。なお、同図ではこれらの各処理を順次実行するように記載しているが、実行順序はこれに限られず、各処理を任意の順序で実行することができる。また、各処理の２つ以上を並列に実行してもよい。各処理の処理結果は、出力部１１６によりパッセージ検索部１２０に出力される。

次に、パッセージ検索部１２０の文書検索部１２１が、単語一般重要度ベクトルＡおよび単語個別重要度ベクトルＢを元に、文書記憶部１４０からユーザサマリに関連する文書を検索する文書検索処理を実行する（ステップＳ３０６）。次に、パッセージ分割部１２２が、検索された文書を各パッセージに分割するパッセージ分割処理を実行する（ステップＳ３０７）。次に、第１パッセージ重要度算出部１２３が、分割された各パッセージの文書内重要度を算出する文書内重要度算出処理を実行する（ステップＳ３０８）。さらに、第２パッセージ重要度算出部１２４が、分割された各パッセージのサマリ内重要度を算出するサマリ内重要度算出処理を実行する（ステップＳ３０９）。

文書検索処理、文書内重要度算出処理、およびサマリ内重要度算出処理の詳細については後述する。なお、文書内重要度算出処理およびサマリ内重要度算出処理の実行順序は同図に示すものに限られるものではない。両処理を並列に実行してもよい。

文書内重要度算出処理およびサマリ内重要度算出処理の後、総合重要度算出部１２５が、上記（２）式により、検索文書のスコア、文書内重要度、およびサマリ内重要度の重み付け線形和である総合重要度を算出する（ステップＳ３１０）。

次に、パッセージ選択部１２６が、総合重要度を元にユーザに提示すべきパッセージ群（パッセージ候補）を選択するパッセージ選択処理を実行する（ステップＳ３１１）。パッセージ選択処理の詳細は後述する。選択されたパッセージ候補は、編集部１３０の候補選択部１３１に送出される。

次に、候補選択部１３１が、パッセージ選択処理によって選択されたパッセージ候補を表示する（ステップＳ３１２）。ユーザが表示されたパッセージ候補からいずれかのパッセージ候補を選択した場合は、候補選択部１３１が、選択が指定されたパッセージを選択し、編集画面の表示を更新するとともに、編集結果記憶部１３３に更新内容を保存する（ステップＳ３１３）。

次に、ステップＳ３０２の構造解析処理の詳細について図４を用いて説明する。図４は、第１の実施の形態における構造解析処理の全体の流れを示すフローチャートである。

まず、構造解析部１１２は、ユーザサマリを読み込みパッセージ単位に分解する（ステップＳ４０１）。構造解析部１１２によるパッセージ分解処理は従来から用いられているあらゆる方法を適用できる。例えば、図１のような箇条書きテキストに対しては、構造解析部１１２は、１つの箇条書き項目を１つのパッセージとして分解する方法を適用することができる。この場合、パッセージが１つの文に相当するとは限らない。

入力テキストとして、図１のような箇条書きテキストではなく、単なるプレーンテキストを受付けた場合は、文字列の並びを解析することによりパッセージ単位に分解するように構成してもよい。例えば、行頭に「＊」などの所定の記号が存在する場合に、この行は箇条書きとして記載されていると判断するといったルールをベースに構造を抽出することができる。

次に、構造解析部１１２は、分割して得られたパッセージ群について、パッセージ同士の兄弟関係および親子関係を抽出する（ステップＳ４０２）。例えば、図１のような箇条書きテキストに対しては、構造解析部１１２は、箇条書きなどの書式表現を分析することにより、兄弟関係および親子関係を抽出できる。例えば図１のテキストの場合、最上位のパッセージが「株価」、その子供のパッセージが「2008/8/28」、さらにその子供のパッセージ群が「株価平均は小反発・・・」であることを抽出できる。

以上の処理により、パッセージ間の階層構造関係すなわち親子関係および兄弟関係が付与されたパッセージ群を得ることができる。

次に、ステップＳ３０３の一般重要度算出処理の詳細について図５を用いて説明する。図５は、第１の実施の形態における一般重要度算出処理の全体の流れを示すフローチャートである。

まず、第１単語重要度算出部１１３は、カーソルが所属するパッセージより上位の構造上位パッセージ群の全体に対して形態素解析を行い、１つの形態素集合を取得する（ステップＳ５０１）。次に、第１単語重要度算出部１１３は、形態素集合内の各形態素（各内容語）について、以下の（３）式により一般重要度ＧＷ＿ｊを算出する（ステップＳ５０２）。
ＧＷ＿ｊ＝ｉｄｆ（ｊ）×ｂＥｘｉｓｔ＿ｊ・・・（３）

ただし、ｊは０≦ｊ≦ｍを満たす整数（ｍは内容語の種類数）、ｉｄｆ（ｊ）は内容語ｊの全文書中における逆出現頻度（Inverse Document Frequency）、ｂＥｘｉｓｔ＿ｊは形態素集合内に内容語ｊが存在する場合は１を、存在しない場合は０となる変数を表す。ここで全文書というのは、文書記憶部にある文書群である。あるいはＷｅｂ文書群などですでに算出済のｉｄｆ値を用いても良い。なお、ｉｄｆの代わりに別の重要度指標を用いてもよい。

次に、第１単語重要度算出部１１３は、算出したＧＷ＿ｊを要素とする以下の（４）式のベクトルを、単語一般重要度ベクトルＡとして算出し（ステップＳ５０３）、一般重要度算出処理を終了する。
Ａ＝（ＧＷ＿０，ＧＷ＿１，・・・，ＧＷ＿ｍ）・・・（４）

次に、ステップＳ３０４の個別重要度算出処理の詳細について図６を用いて説明する。図６は、第１の実施の形態における個別重要度算出処理の全体の流れを示すフローチャートである。

まず、第２単語重要度算出部１１４は、カーソルが所属するパッセージより上位の構造上位パッセージ群の全体に対して形態素解析を行い、１つの形態素集合を取得する（ステップＳ６０１）。次に、第２単語重要度算出部１１４は、形態素集合内の各内容語について、以下の（５）式により個別重要度ＩＷ＿ｊを算出する（ステップＳ６０２）。

ただし、ｊは０≦ｊ≦ｍを満たす整数（ｍは内容語の種類数）、Ｔ＿ｊは形態素集合のうち内容語ｊである形態素を集めたサブ集合、ｄｉｓｔ（ｔ）は形態素ｔが出現したパッセージと、カーソルが存在するパッセージとの階層的距離を表す。階層的距離とは、階層構造上で、一方のパッセージから他方のパッセージに達するまでの階層数をいう。例えば、形態素ｔが出現したパッセージとカーソルが存在するパッセージとが同一の場合は、階層的距離は０となる。

図１の例では、最上位から第６位のパッセージにカーソルが存在する。この場合、「ＮＹＭＥＸ」から始まるパッセージ内に含まれる各形態素ｔに対するｄｉｓｔ（ｔ）の算出結果は１となる。また、最上位のパッセージ内に含まれる形態素ｔ（すなわち「株価」）のｄｉｓｔ（ｔ）の算出結果は５となる。

なお、階層的距離を、パッセージ階層間に含まれるテキストの文字数などをベースに算出するように構成してもよい。例えば、パッセージ階層間に含まれる文字数が多い場合に、階層的距離を大きくするように構成してもよい。このような構成により、パッセージのテキスト量に応じて重みを変化させることができる。

次に、第２単語重要度算出部１１４は、算出したＩＷ＿ｊを要素とする以下の（６）式のベクトルを、単語個別重要度ベクトルＢとして算出し（ステップＳ６０３）、個別重要度算出処理を終了する。
Ｂ＝（ＩＷ＿０，ＩＷ＿１，・・・，ＩＷ＿ｍ）・・・（６）

次に、ステップＳ３０５の既知度算出処理の詳細について図７を用いて説明する。図７は、第１の実施の形態における既知度算出処理の全体の流れを示すフローチャートである。

まず、既知度算出部１１５は、カーソルが所属するパッセージと同位の構造同位パッセージ群の全体に対して形態素解析を行い、１つの形態素集合を取得する（ステップＳ７０１）。次に、既知度算出部１１５は、形態素集合内の各内容語について、以下の（７）式により既知度ＫＷ＿ｋを算出する（ステップＳ７０２）。
ＫＷ＿ｋ＝ｔｆ（ｋ）・・・（７）

ただし、ｋは０≦ｉ≦ｌを満たす整数（ｌは内容語の種類数）、ｔｆは単語の出現頻度（term frequency）を示す。なお、ｔｆの代わりに、別の重要度指標を用いてもよい。

次に、既知度算出部１１５は、算出したＫＷ＿ｋを要素とする以下の（８）式のベクトルを、単語既知度ベクトルＣとして算出し（ステップＳ７０３）、既知度算出処理を終了する。
Ｃ＝（ＫＷ＿０，ＫＷ＿１，・・・，ＫＷ＿ｌ）・・・（８）

次に、ステップＳ３０６の文書検索処理の詳細について図８を用いて説明する。図８は、第１の実施の形態における文書検索処理の全体の流れを示すフローチャートである。

まず、文書検索部１２１は、単語一般重要度ベクトルＡおよび単語個別重要度ベクトルＢの重み付け線形和である文書検索用ベクトルＱを、以下の（９）式を用いて算出する（ステップＳ８０１）。文書検索用ベクトルＱは、重み付きの単語ベクトルとなる。
Ｑ＝Ｗ３１×Ａ＋Ｗ３２×Ｂ（Ｗ３１，Ｗ３２は正数）・・・（９）

なお、文脈解析部１１０の出力部１１６が単語一般重要度ベクトルＡおよび単語個別重要度ベクトルＢから文書検索用ベクトルＱを生成し、パッセージ検索部１２０に出力するように構成してもよい。

次に、文書検索部１２１は、文書記憶部１４０内に格納されている各文書の文書ベクトルと文書検索用ベクトルＱとのコサイン尺度を関連度として算出する（ステップＳ８０２）。これにより文書ごとに関連度が得られる。すなわち関連度付きの文書群が得られる。なお、後続の処理効率化のため、関連度が所定の閾値を下回っている文書を出力に含めないように構成してもよい。また、関連度が上位の所定数の文書のみを関連文書として検索するように構成してもよい。

次に、ステップＳ３０７のパッセージ分割処理の詳細について図９を用いて説明する。図９は、第１の実施の形態におけるパッセージ分割処理の全体の流れを示すフローチャートである。

まず、パッセージ分割部１２２は、検索された各文書を、表層レベルでパッセージ単位に分割する（ステップＳ９０１）。例えば、文書がプレーンテキストの場合、パッセージ分割部１２２は、「。」、「、」、「？」、および「！」など終末記号に基づいて文書を文単位に分解する。なお、分割方法はこれに限られず、従来から用いられているあらゆる方法を適用できる。例えば、改行記号に基づいてパラグラフとみなせる単位で文書を分解するように構成してもよい。

また、例えばＨＴＭＬ形式の文書の場合、終末記号による分割が適用できない場合がある。例えば、レイアウト的に距離を開けること、または、罫線や配色などを用いることにより、テキストが相互に分割されていることを示すようにＨＴＭＬ文書が記載されている場合が挙げられる。このような場合は、例えば、ＨＴＭＬの表示イメージをレイアウト解析することによりテキストの分割位置を特定し、パッセージ単位に分割するように構成すればよい。

このようにして得られたパッセージは、文法的解釈を行っていないため、そのパッセージのみでは内容として完結していない場合がある。すなわち、当該パッセージ以外のパッセージ等から情報が得られなければ意味がわからない状態になっている可能性がある。

例えば「その結果上昇した。」という文では、主語が何なのか（何が上昇したのか）が省略されている。また、「上昇」の原因となった「その」が何を指すのかを表す照応詞の解決がなされていない。このため、この文のみでは意味を理解することができない。

そこで、パッセージ分割部１２２は、構文解析や照応解析を実行し、必要に応じて抽出したパッセージを修正する（ステップＳ９０２〜ステップＳ９０３）。

具体的には、パッセージ分割部１２２は、分割したパッセージに、「その」、「あの」、および「この」などの照応詞が含まれる場合は、１つ前のパッセージの中から、先行詞である可能性が高い名詞句を抽出し、照応詞を抽出した名詞句で置き換える（ステップＳ９０２）。また、パッセージ分割部１２２は、分割したパッセージを構文解析し、主語が省略されていることが判明した場合、１つ前のパッセージの中から対応する名詞句を検索して主語として追加する（ステップＳ９０３）。

次に、ステップＳ３０８の文書内重要度算出処理の詳細について図１０を用いて説明する。図１０は、第１の実施の形態における文書内重要度算出処理の全体の流れを示すフローチャートである。

まず、第１パッセージ重要度算出部１２３は、パッセージ分割処理により得られたパッセージ群の集合（パッセージ群集合）から、未処理のパッセージ（パッセージｉとする）を取得する（ステップＳ１００１）。次に、第１パッセージ重要度算出部１２３は、パッセージｉの位置情報Ｃ１＿ｉを算出する（ステップＳ１００２）。

位置情報Ｃ１＿ｉは、当該パッセージが、所属する文書内のいずれの位置に存在しているかを表す指標である。例えば、ニュース記事などでは、文書の先頭から３文以内に存在する文は非常に重要度が高いと言われている。位置情報Ｃ１＿ｉはこのような知見を元に、例えば文書の先頭から所定数のパッセージである場合に高い値となり、それ以外の場合は文書の後ろに存在するほど小さくなる値となるように算出される。

次に、第１パッセージ重要度算出部１２３は、パッセージｉの手がかり表現情報Ｃ２＿ｉを算出する（ステップＳ１００３）。

手がかり表現情報Ｃ２＿ｉは、予め定められた表層表現（手がかり表現）を含むか否かによりパッセージの重要度を決定するための指標である。例えば論文などでは「本研究（で）は」、「まとめると」、および「我々は」などの表現を含む文は、論文の主題を表すと考えられる。第１パッセージ重要度算出部１２３は、このような知見を元に、例えば所定の手がかり表現とスコアとを対応付ける辞書を用いて、パッセージに含まれる手がかり表現に対応づけられたスコアを、手がかり表現情報Ｃ２＿ｉとして算出する。

次に、第１パッセージ重要度算出部１２３は、パッセージｉのタイトル関連性Ｃ３＿ｉを算出する。タイトル関連性Ｃ３＿ｉは、タイトルと一致するパッセージまたはタイトルと関連するパッセージは重要であるとする指標である。第１パッセージ重要度算出部１２３は、文書にタイトル（またはＨＴＭＬのメタタグなどのようなタイトルに準じるコンテンツ）が存在する場合、この指標の一例として、タイトルの文書ベクトルと評価対象のパッセージの文書ベクトルとのコサイン尺度をタイトル関連性Ｃ３＿ｉとして算出する（ステップＳ１００４）。タイトルの文書ベクトルおよびパッセージの文書ベクトルは、ｔｆ−ｉｄｆなどにより算出する。

次に、第１パッセージ重要度算出部１２３は、パッセージｉの出現頻度Ｃ４＿ｉを算出する。出現頻度Ｃ４＿ｉは、所属する文書内の他のパッセージと強い関連性を持つパッセージが重要であることを表す指標である。語彙的結束性とも呼ばれる。第１パッセージ重要度算出部１２３は、この指標の一例として、評価対象のパッセージと他のパッセージとの単語共起数の総和を出現頻度Ｃ４＿ｉとして算出する（ステップＳ１００５）。

次に、第１パッセージ重要度算出部１２３は、各パッセージについて、Ｃ１＿ｉ〜Ｃ４＿ｉを予め定めた重み付け係数で重み付け加算することにより、当パッセージの文書内重要度を算出する（ステップＳ１００６）。具体的には、第１パッセージ重要度算出部１２３は、パッセージｉの文書内重要度ＰＳｃｏｒｅ＿ｉを上記（１）式により算出する。

次に、第１パッセージ重要度算出部１２３は、未処理のパッセージが存在するか否かを判断し（ステップＳ１００７）、存在する場合は（ステップＳ１００７：ＹＥＳ）、未処理のパッセージを取得して処理を繰り返す（ステップＳ１００１）。存在しない場合は（ステップＳ１００７：ＮＯ）、文書内重要度算出処理を終了する。

次に、ステップＳ３０９のサマリ内重要度算出処理の詳細について図１１を用いて説明する。図１１は、第１の実施の形態におけるサマリ内重要度算出処理の全体の流れを示すフローチャートである。

まず、第２パッセージ重要度算出部１２４は、単語一般重要度ベクトルＡ、単語個別重要度ベクトルＢ、および単語既知度ベクトルＣを用いて、サマリ内重要度評価用ベクトルＱを以下の（１０）式により算出する。
Ｑ＝Ｗ４１×Ａ＋Ｗ４２×Ｂ−Ｗ４３×Ｃ・・・（１０）

なお、Ｗ４１，Ｗ４２，およびＷ４３は予め定められた正数を表す。結果として得られるサマリ内重要度評価用ベクトルＱは、重み付きの単語ベクトルとなる。

次に、第２パッセージ重要度算出部１２４は、パッセージ分割処理により得られたパッセージ群集合から、未処理のパッセージ（パッセージｉとする）を取得する（ステップＳ１１０２）。次に、第２パッセージ重要度算出部１２４は、サマリ内重要度評価用ベクトルＱと、パッセージｉの文書ベクトルとのコサイン尺度を、パッセージｉのサマリ内重要度として算出する（ステップＳ１１０３）。なお、第２パッセージ重要度算出部１２４は、パッセージｉの文書ベクトルを例えばｔｆ−ｉｄｆを用いて算出する。

次に、第２パッセージ重要度算出部１２４は、未処理のパッセージが存在するか否かを判断し（ステップＳ１１０４）、存在する場合は（ステップＳ１１０４：ＹＥＳ）、未処理のパッセージを取得して処理を繰り返す（ステップＳ１１０１）。存在しない場合は（ステップＳ１１０４：ＮＯ）、サマリ内重要度算出処理を終了する。

次に、ステップＳ３１１のパッセージ選択処理の詳細について図１２を用いて説明する。図１２は、第１の実施の形態におけるパッセージ選択処理の全体の流れを示すフローチャートである。

まず、パッセージ選択部１２６は、パッセージ分割処理により得られたパッセージ群集合から、未処理のパッセージ（パッセージｉとする）を取得する（ステップＳ１２０１）。次に、パッセージ選択部１２６は、以下の（１１）式により、パッセージｉの提示有効度を算出する（ステップＳ１２０２）。

ただし、Ｓｃｏｒｅ＿ｉはパッセージｉの総合重要度、ＮＳは未選択のパッセージ群、ｓｉｍ（ｉ，ｈ）はパッセージｉとパッセージｈとの類似度を表す。提示有効度は、各パッセージの重要度と新規性（例えば、すでに提示決定されたパッセージと内容がかぶる場合は新規性はないと判断される）とを考慮に入れた指標である。

次に、パッセージ選択部１２６は、算出した提示有効度のうち、最も高い提示有効度を示すパッセージを提示候補として決定する（ステップＳ１２０３）。次に、パッセージ選択部１２６は、一定数（例えば１０件）の候補が決定されたか否かを判断する（ステップＳ１２０４）。決定されていない場合（ステップＳ１２０４：ＮＯ）、未処理のパッセージを選択して処理を繰り返す（ステップＳ１２０１）。

一定数の候補が決定された場合（ステップＳ１２０４：ＹＥＳ）、パッセージ選択部１２６は、提示有効度の高い順に決定されたパッセージ候補を出力し（ステップＳ１２０５）、パッセージ選択処理を終了する。

次に、多段階検索部１３２による多段階パッセージ検索機能の詳細について図１３を用いて説明する。図１３は、第１の実施の形態における多段階パッセージ検索処理の全体の流れを示すフローチャートである。以下では、子供となるパッセージを検索するための入力キーを特定キー１とし、兄弟となるパッセージを検索するための入力キーを特定キー２とする。

まず、多段階検索部１３２は、パッセージ候補ウィンドウで、特定キー１が押下されたか否かを判断する（ステップＳ１３０１）。押下された場合（ステップＳ１３０１：ＹＥＳ）、多段階検索部１３２は、編集結果記憶部１３３から、ユーザサマリとカーソル位置とを読み出し、メモリバッファ等の記憶部（図示せず）上にロードする（ステップＳ１３０３）。

次に、多段階検索部１３２は、メモリバッファ内で、パッセージ候補ウィンドウ上でフォーカスされているパッセージを、サマリのカーソル位置へ挿入する（ステップＳ１３０４）。次に、多段階検索部１３２は、メモリバッファ内で、挿入したパッセージの子供として空パッセージを生成し、その空パッセージ上にカーソルを置く（ステップＳ１３０５）。次に、多段階検索部１３２は、メモリバッファ上で生成されたサマリとカーソル位置とを文脈解析部１１０に送信する（ステップＳ１３０６）。

ステップＳ１３０１で特定キー１が押下されていない場合（ステップＳ１３０１：ＮＯ）、多段階検索部１３２は、さらに、特定キー２が押下されたか否かを判断する（ステップＳ１３０２）。押下された場合（ステップＳ１３０２：ＹＥＳ）、多段階検索部１３２は、編集結果記憶部１３３から、ユーザサマリとカーソル位置とを読み出し、メモリバッファ上にロードする（ステップＳ１３０７）。

次に、多段階検索部１３２は、メモリバッファ内で、パッセージ候補ウィンドウ上でフォーカスされているパッセージを、サマリのカーソル位置へ挿入する（ステップＳ１３０８）。次に、多段階検索部１３２は、メモリバッファ内で、挿入したパッセージの兄弟として空パッセージを生成し、その空パッセージ上にカーソルを置く（ステップＳ１３０９）。次に、多段階検索部１３２は、メモリバッファ上で生成されたサマリとカーソル位置とを文脈解析部１１０に送信する（ステップＳ１３１０）。

なお、同図では省略しているが、ステップＳ１３０６およびステップＳ１３１０の後は、図３と同様の処理により、送信されたユーザサマリとカーソル位置とを元に関連するパッセージが文書記憶部１４０の文書から選択され、編集部１３０に出力される。

ステップＳ１３０２で特定キー２が押下されていないと判断された場合（ステップＳ１３０２：ＮＯ）、多段階パッセージ検索処理を終了する。

（変形例）
上記第１の実施の形態では、構造解析部１１２は、箇条書きなどで表現されたユーザサマリを解析することにより、階層構造を求めていた。本変形例では、ユーザによって編集されたサマリテキストが、箇条書き表現などにより構造が明示化されていない場合であっても、第１の実施の形態と同等のパッセージ検索機能を提供可能とする。具体的には、本変形例の構造解析部１１２は、入力されたテキスト（ユーザサマリ）を修辞解析することで論理構造を認識する。

図１４は、本変形例の検索支援装置で表示される編集画面の一例を示す図である。同図に示すように、本変形例のサマリ編集ウィンドウ１４１０内のテキストの内容は、図１のサマリ編集ウィンドウ１０内のテキストの内容と同じである。しかし、本変形例では、箇条書きが示されていないこと、および、文と文との接続する語句として「・・・の背景としては」などをユーザが加筆している点が異なっている。

本変形例では、構造解析部１１２は、入力されたユーザサマリに対して、ＲＳＴ（修辞構造理論）に基づく論理構造解析を行う。ＲＳＴでは、パッセージ間の関係をツリー構造で表現するとともに、ツリー構造の各ノード間に２４種類のラベルを付与する。本変形例ではラベルを利用しないため、解析結果としてラベルが得られても破棄する。

なお、第１の実施の形態の構造解析手法と、本変形例の構造解析手法とを組み合わせることで、箇条書きなどの明示的に構造が示された記述と、明示的に構造が示されない記述とが混在したテキストを取り扱うように構成することが可能である。具体的には、最初に明示的に示された箇条書き記述を元にツリー構造（階層構造）を作成した後、ツリーの各ノードに対して、ＲＳＴに基づく論理構造解析を行えばよい。

次に、本変形例の構造解析処理の詳細について図１５を用いて説明する。図１５は、第１の実施の形態の変形例における構造解析処理の全体の流れを示すフローチャートである。

まず、構造解析部１１２は、第１の実施の形態と同様に（図４のステップＳ４０１）、プレーンテキスト形式で表現されたユーザサマリを読み込みパッセージ単位に分解する（ステップＳ１５０１）。プレーンテキストに対しては、構造解析部１１２は、「。」、「、」、「？」、および「！」など終末記号に基づいてテキストを文単位に分解する。なお、分割方法はこれに限られず、従来から用いられているあらゆる方法を適用できる。例えば、上述のパッセージ分割部１２２と同様に、改行記号に基づいてパラグラフとみなせる単位で文書を分解するように構成してもよい。また、例えばＨＴＭＬ形式の文書の場合、ＨＴＭＬの表示イメージをレイアウト解析することによりテキストの分割位置を特定し、パッセージ単位に分割するように構成してもよい。

次に、構造解析部１１２は、ＲＳＴ解析用の手がかり語辞書を参照して、パッセージ間の上下関係を同定する（ステップＳ１５０２）。例えば、「・・・（パッセージＡ）。その結果、（パッセージＢ）・・・」のように２つのパッセージが記載されている場合、「その結果」という手がかり語を判断材料として、パッセージＡが親、パッセージＢが子であり、両者の関係は「証拠／原因」であることが解析される。なお、ＲＳＴでは親を核、子を衛星と呼ぶ。手がかり語辞書とは、このようにパッセージ間の関係の同定材料になる特別な言い回しを集めたデータベースである。

本ステップでは、隣接するパッセージ間に手がかり語が存在するか否かを照合し、照合した場合は、両者の関係を同定する処理を反復的に行い、最終的にツリー構造を作成する。

このように、本変形例は、例えば他人に配布する清書された報告書などのようなプレーンテキストを作成する場合に、第１の実施の形態よりも有用となる可能性がある。すなわち、第１の実施の形態が想定しているテキスト表現は、他人へも配布可能な清書されたレポートというよりは、自分専用の調査メモという色彩が強い。これに対して、本変形例が想定しているテキスト表現は、他人へも配布可能なレポートと似た表現が許されている。このため、最終的な生成物の形に向かって調査を進めていくことが可能となり、作業効率化が期待される。

なお、第１の実施の形態の実現方法と、本変形例の実現方法とを組み合わせることで、箇条書きなど明示的に構造が示された記述と、上記で説明した明示的に示されない記述とが混在したテキストを取り扱うことも可能である。

このように、第１の実施の形態にかかる検索支援装置では、ユーザサマリ内の単語の重要度やパッセージ間の階層構造に応じた文書検索用ベクトルを作成できるため、キーワード入力の検索システムでは不可能な精度の高い情報要求をかけることができるとともに、ユーザはクエリ作成作業から解放される。また、ユーザサマリを検索要求の源とすることで、関連文書検索の徘徊問題を回避することができる。また、パッセージを検索結果として取得できるため、ユーザが文書中から新規情報を探す作業を低減できる。また、パッセージ挿入後のサマリ編集はユーザが行うため、複数文書要約技術では文脈統合が実用レベルに達していないという問題を回避可能となる。

（第２の実施の形態）
第１の実施の形態では、探求検索を目的として、ユーザがサマリを作成することを前提としていた。第２の実施の形態は、ユーザがサマリを作成することなく探求検索を行う。具体的には、第２の実施の形態の検索支援装置は、ユーザがＷｅｂ上の文書等を閲覧するときに効率的に探求検索を実行可能とする装置である。

次に、画面イメージを参照しながら（図１６）、本実施の形態の検索支援装置の機能の概要について説明する。図１６は、第２の実施の形態の検索支援装置で表示される編集画面の一例を示す図である。

ユーザは、閲覧ウィンドウ１６１０によって、例えばＷｅｂ文書などの所望の文書を閲覧することができる。第１の実施の形態と同様に、閲覧ウィンドウ１６１０内の任意の箇所にカーソルを設定することができる。また、特定キーが押下されると、パッセージ候補ウィンドウ１１が表示される。

パッセージ候補ウィンドウ１１には、閲覧文書のカーソル位置の文脈に沿って文書群から検索されたパッセージ群の候補が表示される。ユーザがパッセージ候補の１つを選択すると、そのパッセージの原文書が閲覧ウィンドウ１６１０に表示される。

また、第１の実施の形態と同様に、多段階パッセージ検索機能も利用できる。多段階パッセージ検索機能を用いて、ウィンドウを複数呼び出し、最終的にパッセージを選択した場合、選択したパッセージの原文書が閲覧ウィンドウ１６１０に表示される。

なお、キーワードの代わりに文やパッセージをユーザに入力させ、入力された文やパッセージに適合する文書群を返すフレーズ検索システム（関連文書検索システム）が知られている。フレーズ検索システムは、文書のうち範囲指定内の指定パッセージのみを用いて情報要求を生成する。これに対して、本実施の形態の検索支援装置は、カーソル近辺に存在するパッセージ、すなわち指定パッセージだけでなく、階層構造や文字的距離に基づく傾斜加重を施した上で、文書全体にわたって指定パッセージの前後に存在するパッセージも含めて情報要求を生成する。このため、本実施の形態の検索支援装置による検索結果は、文書全体の内容や文脈を織り込んだ内容となる点が、従来のフレーズ検索システムと異なっている。

次に、本実施の形態の検索支援装置の構成の詳細について図１７を用いて説明する。図１７は、第２の実施の形態にかかる検索支援装置２００の構成の一例を示すブロック図である。同図に示すように、検索支援装置２００は、文脈解析部１１０と、パッセージ検索部１２０と、閲覧部２３０と、文書記憶部１４０と、を備えている。

第２の実施の形態では、編集部１３０の代わりに閲覧部２３０を追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる検索支援装置１００の構成を表すブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。

閲覧部２３０は、表示装置（図示せず）に、検索されたテキストを閲覧可能に表示する機能を備えている。閲覧部２３０は、編集部１３０のように表示されたテキストを編集する機能を備える必要はない。

閲覧部２３０は、候補選択部２３１と、多段階検索部２３２と、閲覧結果記憶部２３３とを備えている。

閲覧結果記憶部２３３は、検索された文書と現在のカーソル位置とを記憶する。

候補選択部２３１および多段階検索部２３２は、ユーザによりパッセージ候補が選択された後の動作が、それぞれ第１の実施の形態の候補選択部１３１および多段階検索部１３２と異なる。すなわち、候補選択部２３１および多段階検索部２３２は、ユーザがパッセージ候補の１つを選択すると、選択されたパッセージ候補の原文書の内容を文書記憶部１４０から読み出し、読み出した文書内容を閲覧結果記憶部２３３に格納する。

このように、第２の実施の形態にかかる検索支援装置では、ユーザがＷｅｂ上の文書等を閲覧するときにも、第１の実施の形態と同様の手法により、効率的に探求検索を実行することが可能となる。

（第３の実施の形態）
第３の実施の形態にかかる検索支援装置は、指定された形態素の品詞に応じて予め定められた修辞語を検索キーワードとして検索要求に付加する。これにより、形態素の品詞に応じてより適切なパッセージ候補を検索することが可能となる。

次に、画面イメージを参照しながら（図１８）、本実施の形態の検索支援装置の機能の概要について説明する。図１８は、第３の実施の形態の検索支援装置で表示される編集画面の一例を示す図である。

ユーザは、サマリ編集ウィンドウ１８１０内でキーボード・マウスなどを用いることにより構造テキスト（ユーザサマリ）を作成および編集することができる。本実施の形態では、ユーザサマリ内の各形態素が、その品詞に応じて異なる表示態様で強調表示される点が、第１および第２の実施の形態と異なる。

具体的には、動作性名詞または動詞は矩形の枠で囲まれて表示される。また、動作性名詞以外の名詞は下線が付されて表示される。編集などによりユーザサマリが更新されるたびに（例えば文字が入力されるごとに）、適切なタイミングで名詞の品詞の判定処理および表示態様の変更処理が行われ、常に正しい表示態様により表示されるものとする。このハイライト（強調表示）は後述のパッセージ検索機能で利用される。

なお、上記のような強調表示のための表示態様は一例であり、従来から用いられているあらゆる強調表示方法を適用できる。例えば、文字色、フォントの種類、およびフォントサイズ等の表示態様を品詞ごとに変更するように構成してもよい。以下では、動作性名詞または動詞に対する強調表示を第１ハイライトといい、動作性名詞以外の名詞に対する強調表示を第２ハイライトという。

ユーザは、パッセージ候補ウィンドウ１８１１によって、文献ＤＢに記憶されている複数の文書内のパッセージ群を検索し取り込むことができる。本実施の形態では、検索機能を利用するための操作方法として２種類の操作方法を用いる。

１つは、第１ハイライト上でマウスクリックなどの特定キーを押下する操作である。第１ハイライトで表示された形態素は、動作性名詞または動詞であり、この操作により、動作性名詞または動詞が表す動作がなぜ起こったのか、を説明するパッセージが検索される。具体的には、上記操作により「それはなぜ？」という質問、すなわち原因や背景などを要求する質問が、検索要求に付加され、この結果、原因や背景を説明するパッセージが検索される。例えば、ユーザが、サマリ編集ウィンドウ１８１０内の最下層のパッセージ（図１８参照）に含まれる単語「上昇」の上で特定キーを押下すると、「上昇」という動作の主語が「原油先物価格」であることが同定された上で、原油先物価格がなぜ上昇したのか、に関する説明として適切なパッセージ群がパッセージ候補として検索され、パッセージ候補ウィンドウ１８１１に提示される。

もう１つは、第２ハイライト上でマウスクリックなどの特定キーを押下する操作である。第２ハイライトで表示された形態素は、動作性名詞以外の名詞であり、この操作により、その名詞がどのようなものなのかを説明するパッセージが検索される。具体的には、上記操作により「それは何？」という質問、すなわち定義などを要求する質問が、検索要求に付加され、この結果、名詞の定義等を説明するパッセージが検索される。例えば、ユーザが、サマリ編集ウィンドウ１８１０内の最下層のパッセージ（図１８参照）に含まれる単語「ＮＹＭＥＸ」の上で特定キーを押下すると、ニューヨーク・マーカンタイル取引所に関する説明として適切なパッセージ群がパッセージ候補として検索され、パッセージ候補ウィンドウ１８１１に提示される。

第１および第２の実施の形態の情報要求は、「もっと詳しく」というような漠然とした要求と言えるが、第３の実施の形態の情報要求は、「それは何？」「それはなぜ？」などのように的を絞った要求である。探求検索は、情報の収集過程でユーザの精通度が動的に変化するため、情報要求を変更する操作（コマンド）を適宜使い分けられることにより、ユーザの利便性を向上させることができる。

なお、上記説明では、品詞種別に応じた質問の種類（質問タイプ）として、定義（それは何？）および理由（それはなぜ？）の２つのみを挙げた。しかし、質問タイプはこれらに限られるものではなく、この他にも様々な質問タイプを用いることができる。例えば、動作性名詞または動詞に対する質問タイプとして、結果（それでどうなる？）を用いるように構成してもよい。上記例の場合、「原油先物価格が上昇した結果どうなるのか？」という質問が追加される。ＲＳＴでは２４種類のパッセージ間関係を定義しているため、ＲＳＴに基づいて２４種類の質問を利用することもできる。本実施の形態では、説明の簡便性のため、２種類の質問のみを取り扱う。

次に、本実施の形態の検索支援装置の構成の詳細について図１９を用いて説明する。図１９は、第３の実施の形態にかかる検索支援装置３００の構成の一例を示すブロック図である。同図に示すように、検索支援装置３００は、文脈解析部３１０と、パッセージ検索部３２０と、編集部３３０と、文書記憶部１４０と、を備えている。

第３の実施の形態では、文脈解析部３１０に係り受け解析部３１７と生成部３１８とを追加したこと、パッセージ検索部３２０の文書検索部３２１と第２パッセージ重要度算出部３２４の機能、および、編集部３３０の機能が第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる検索支援装置１００の構成を表すブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。

編集部３３０は、各種ユーザ操作を受付け、受付けたユーザ操作に応じた処理を各構成部に指示する。本実施の形態では、編集部３３０は、ユーザサマリおよびカーソル位置に加え、カーソル位置の単語を表す指定形態素と、指定形態素の品詞を表す品詞情報とを文脈解析部３１０へ渡す点が、第１の実施の形態の編集部１３０と異なっている。

なお、カーソル位置の代わりに、指定形態素の位置を表す情報を渡すように構成してもよい。すなわち、指定された位置に対応するパッセージが特定可能な情報であればどのような情報を渡してもよい。また、品詞情報を渡さずに、文脈解析部３１０内で指定形態素の品詞を判定するように構成してもよい。

係り受け解析部３１７は、カーソル位置の単語を含む文の句構造（係り受け構造）を解析する。日本語のテキストに対しては、係り受け解析部３１７は、例えばＫＮＰやＣａｂｏｃｈａなどの解析手法を適用して句構造解析を実行することができる。

以下に、句構造解析結果の例を示す。以下の（入力）に示すテキストに対して、係り受け解析部３１７は、以下の（出力）に示す解析結果を出力する。
（入力）「ＮＹＭＥＸの時間外取引で原油先物価格が１バレル=１１９ドル台に上昇」
（出力）（（（（（ＮＹＭＥＸ）の）時間外取引）で［ａｄｖ］）（（（１バレル=１１９ドル台）に［ａｄｖ］）（（（原油先物価格）が［ｎｐ］）（上昇した［ｖｐ］））））

なお、記号「（）」はツリー構造を示す。すなわち、「上昇した［ｖｐ］」がツリーのルートであり、「原油先物価格が［ｎｐ］」がその直下ノードとなる。「原油価格が上昇した」に対して２つの副詞句（ａｄｖ）がぶら下がる。また（）内の最後尾に記載される[]は、句の種別を示す。なお、上記以外の句構造の表現を用いるように構成してもよい。

生成部３１８は、指定形態素と句構造解析結果とを用いて、文書検索用ベクトルに追加する質問を表すベクトルである質問ベクトルを生成する。生成部３１８は、例えば以下の（１２）式ような質問ベクトルＤを生成する。
Ｄ＝（ＱＷ＿０，ＱＷ＿１，・・・，ＱＷ＿ｎ）・・・（１２）

ＱＷ＿ｉは、指定形態素が属する文に含まれる形態素および修辞語（後述）に含まれる形態素のうち、ｉ番目の形態素（１≦ｉ≦ｎ）に対する重み、ｎは指定形態素が属する文に含まれる形態素および修辞語に含まれる形態素の総数を表す。重みＱＷ＿ｉの算出方法、および質問ベクトルＤの算出方法の詳細は後述する。

文書検索部３２１は、単語一般重要度ベクトルＡ、単語個別重要度ベクトルＢ、に加え、質問ベクトルＤを用いて、関連文書を検索する点が、第１の実施の形態の文書検索部１２１と異なっている。

第２パッセージ重要度算出部３２４は、単語一般重要度ベクトルＡ、単語個別重要度ベクトルＢ、および単語既知度ベクトルＣに加え、質問ベクトルＤを用いて、サマリ内重要度評価用ベクトルＱを算出する点が、第１の実施の形態の第２パッセージ重要度算出部１２４と異なっている。

次に、このように構成された第３の実施の形態にかかる検索支援装置３００による検索支援処理について図２０を用いて説明する。図２０は、第３の実施の形態における検索支援処理の全体の流れを示すフローチャートである。

第３の実施の形態では、ステップＳ２００１の受付処理、ステップＳ２００６およびステップＳ２００７が追加されたこと、文書検索処理（ステップＳ２００８）、および、サマリ内重要度算出処理（ステップＳ２０１１）が第１の実施の形態と異なっている。その他のステップは、第１の実施の形態にかかる検索支援装置１００における検索支援処理（図３）と同様の処理なので、その説明を省略する。

ステップＳ２００１では、受付部３１１が、ユーザサマリおよびカーソル位置とともに、指定形態素および品詞情報の入力を受付ける（ステップＳ２００１）。また、ステップＳ２００６では、係り受け解析部３１７が、入力されたユーザサマリの指定形態素を含む文の句構造解析（係り受け解析）を実行する（ステップＳ２００６）。その後、生成部３１８が、句構造解析結果を元に質問ベクトルＤを生成する質問生成処理を実行する（ステップＳ２００７）。質問生成処理の詳細については後述する。

なお、係り受け解析処理（ステップＳ２００６）および質問生成処理（ステップＳ２００７）は、ステップＳ２００３〜ステップＳ２００５の各処理の後に実行する必要はない。ステップＳ２００３〜ステップＳ２００５の各処理の前に実行してもよいし、並列的に実行するように構成してもよい。

ステップＳ２００８の文書検索処理、および、ステップＳ２０１１のサマリ内重要度算出処理の詳細は後述する。

次に、ステップＳ２００７の質問生成処理の詳細について図２１を用いて説明する。図２１は、第３の実施の形態における質問生成処理の全体の流れを示すフローチャートである。

まず、生成部３１８は、スコアＸを１．０に初期化する（ステップＳ２１０１）。次に、生成部３１８は、句構造解析結果を参照して、指定形態素が句構造のいずれのノードに含まれるかを照合し、照合したノードを現在ノードとして選択する（ステップＳ２１０２）。

次に、生成部３１８は、現在ノード内の内容語を抽出し、内容語に対する重みＱＷ＿ｉとしてスコアＸを付与する（ステップＳ２１０３）。なお、ｉは処理ごとに１加算されるカウンタ値（０以上）とする。

次に、生成部３１８は、スコアＸの値を、現在の値の９割の値に更新する（ステップＳ２１０４）。次に、生成部３１８は、現在ノードの子ノード群を取得する（ステップＳ２１０５）。そして、生成部３１８は、子ノードが取得できたか否かを判断する（ステップＳ２１０６）。取得できた場合（ステップＳ２１０６：ＹＥＳ）、生成部３１８は、子ノードを現在ノードとして選択し（ステップＳ２１０７）、処理を繰り返す（ステップＳ２１０３）。なお、子ノードが複数取得された場合は、各子ノードに対して処理を繰り返す。

子ノードが取得できなかった場合（ステップＳ２１０６：ＮＯ）、生成部３１８は、指定形態素の品詞に対応する修辞語を、予め定められた修辞語辞書（図示せず）等を参照して取得する（ステップＳ２１０８）。指定形態素の品詞は、入力された品詞情報から判別することができる。

例えば、生成部３１８は、指定形態素が動作性名詞または動詞の場合、理由に相当する修辞語として予め定められた修辞語群を修辞語辞書から取得する。また、生成部３１８は、指定形態素が動作性名詞以外の名詞の場合は、定義に相当する修辞語として予め定められた修辞語群を修辞語辞書から取得する。なお、修辞語を、「＾その結果．＊」および「＾背景として．＊」のように正規表現で記述するように構成してもよい。

なお、生成部３１８は、修辞語に含まれる形態素のスコアとして「１．０」を付与する。また、修辞語に含まれる形態素と抽出された内容語とが一致する場合は、当該形態素のスコアを「１．０」で更新する。

次に、生成部３１８は、抽出した各内容語および修辞語のスコア（重みＱＷ＿ｉ）を要素とする質問ベクトルＤを生成する（ステップＳ２１０９）。これにより、修辞語を検索キーワードとして含む検索要求（文書検索用ベクトル）を生成可能となる。

例えば、「ＮＹＭＥＸの時間外取引で原油先物価格が１バレル=１１９ドル台に上昇」が入力された上記例では、「原油先物価格」、「上昇」、および「ＮＹＭＥＸ」が内容語として抽出され、それぞれの重みとして「１．０」、「０．９」、および「０．８１」が与えられる。さらに、修辞語群として、「＾その結果」および「＾背景として．＊」が取得されたとする。この場合、生成部３１８は、これらの内容語および修辞語の各重みを要素とする質問ベクトルＤを生成する。

次に、ステップＳ２００８の文書検索処理の詳細について図２２を用いて説明する。図２２は、第３の実施の形態における文書検索処理の全体の流れを示すフローチャートである。

まず、文書検索部３２１は、単語一般重要度ベクトルＡ、単語個別重要度ベクトルＢ、および質問ベクトルＤの重み付け線形和である文書検索用ベクトルＱを、以下の（１３）式を用いて算出する（ステップＳ２２０１）。
Ｑ＝Ｗ３１×Ａ＋Ｗ３２×Ｂ＋Ｗ３３×Ｄ（Ｗ３１，Ｗ３２，Ｗ３３は正数）・・・（１３）

次に、文書検索部３２１は、文書記憶部１４０内に格納されている各文書の文書ベクトルと文書検索用ベクトルＱとのコサイン尺度を関連度として算出し（ステップＳ２２０２）、文書検索処理を終了する。

次に、ステップＳ２０１１のサマリ内重要度算出処理の詳細について図２３を用いて説明する。図２３は、第３の実施の形態におけるサマリ内重要度算出処理の全体の流れを示すフローチャートである。

まず、第２パッセージ重要度算出部３２４は、質問ベクトルＤに含まれる正規表現で記述された修辞パタン（修辞語）に適合するパッセージ群のみを取り出す（ステップＳ２３０１）。

次に、第２パッセージ重要度算出部３２４は、単語一般重要度ベクトルＡ、単語個別重要度ベクトルＢ、単語既知度ベクトルＣ、および質問ベクトルＤを用いて、サマリ内重要度評価用ベクトルＱを以下の（１４）式により算出する（ステップＳ２３０２）。
Ｑ＝Ｗ４１×Ａ＋Ｗ４２×Ｂ−Ｗ４３×Ｃ＋Ｗ４４×Ｄ・・・（１４）

なお、Ｗ４１，Ｗ４２，Ｗ４３、およびＷ４４は予め定められた正数を表す。結果として得られるサマリ内重要度評価用ベクトルＱは、重み付きの単語ベクトルとなる。

ステップＳ２３０３からステップＳ２３０５までの、コサイン尺度算出処理は、第１の実施の形態にかかる検索支援装置１００におけるステップＳ１１０２からステップＳ１１０４までと同様の処理なので、その説明を省略する。

このように、第３の実施の形態にかかる検索支援装置では、指定された形態素の品詞に応じて予め定められた修辞語を検索要求に付加することができる。これにより、形態素の品詞に応じてより適切なパッセージ候補を検索することが可能となる。

（第４の実施の形態）
第４の実施の形態にかかる検索支援装置は、ユーザがサマリを編集した履歴を表す編集履歴情報を用いることにより、より高精度に関連するパッセージを検索する。

図２４は、第４の実施の形態にかかる検索支援装置４００の構成の一例を示すブロック図である。図２４に示すように、検索支援装置４００は、文脈解析部４１０と、パッセージ検索部４２０と、編集部４３０と、文書記憶部１４０と、を備えている。

第４の実施の形態では、文脈解析部４１０の第２単語重要度算出部４１４の機能、パッセージ検索部４２０の第２パッセージ重要度算出部４２４の機能、および、編集部４３０に履歴記憶部４３４を追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる検索支援装置１００の構成を表すブロック図である図２と同様であるので、同一符号を付し、ここでの説明は省略する。

履歴記憶部４３４は、ユーザによるユーザサマリの編集履歴を記憶する。具体的には、履歴記憶部４３４は、ユーザサマリのテキストのうち、ユーザが独自に記述した部分と、外部からコピーペースト（引用）した部分とを判別する判定情報、および、コピーペーストした部分については、いずれの文書から引用したかを特定可能な引用元情報（例えばＵＲＬなど）を記憶する。

編集部４３０は、この引用元情報を用いて、引用元の原文書を表示する機能を備える。具体的には、ユーザが任意のテキスト上でダブルクリックなど所定操作を行い、そのテキストが引用により追加されたテキストであった場合、編集部４３０は、引用元情報を参照して当該テキストの引用元となる原文書を取得し、編集画面に表示する。

第２単語重要度算出部４１４は、構造上位パッセージ群に含まれる各形態素（内容語）のうち、ユーザが独自に記述した形態素（すなわち引用された記述ではない部分）については、重み（個別重要度）を高める処置をする点が、第１の実施の形態の第２単語重要度算出部１１４と異なっている。ユーザ自身が記述した部分は、ユーザの意思が強く現れていることを織り込むためである。

第２パッセージ重要度算出部４２４は、ユーザサマリ内のカーソル直前のパッセージと同じ文書に所属するパッセージ（すなわち引用元が同じパッセージ）については、スコア（サマリ内重要度）を高める処置をする点が、第１の実施の形態の第２パッセージ重要度算出部１２４と異なっている。パッセージが同じ文書からの引用であれば、話題の結束性（つながり）がより高いと期待されるためである。なお、カーソル直前のパッセージとは、カーソルが所属するパッセージの１つ上位のパッセージを意味する。

次に、このように構成された第４の実施の形態にかかる検索支援装置４００による検索支援処理について説明する。本実施の形態では、個別重要度算出処理およびサマリ内重要度算出処理の内容が第１の実施の形態と異なっている。その他の処理は、第１の実施の形態にかかる検索支援装置１００の検索支援処理を表す図３と同様であるため、その説明を省略する。

次に、本実施の形態の個別重要度算出処理の詳細について図２５を用いて説明する。図２５は、第４の実施の形態における個別重要度算出処理の全体の流れを示すフローチャートである。

本実施の形態では、ステップＳ２５０２で算出する個別重要度ＩＷ＿ｊの算出式が第１の実施の形態と異なっている。その他のステップは、第１の実施の形態にかかる検索支援装置１００における個別重要度算出処理（図６）と同様の処理なので、その説明を省略する。

ステップＳ２５０２で、第２単語重要度算出部４１４は、形態素集合内の各内容語について、以下の（１５）式により個別重要度ＩＷ＿ｊを算出する（ステップＳ６０２）。

ただし、ｊは０≦ｉ≦ｍを満たす整数（ｍは内容語の種類数）、Ｔ＿ｊは形態素集合のうち内容語ｊである形態素を集めたサブ集合、ｄｉｓｔ（ｔ）は形態素ｔが出現したパッセージと、カーソルが存在するパッセージとの階層的距離を表す。また、ｏｒｇ（ｔ）は、形態素ｔがユーザ自身によって記述された形態素である場合にＷＯＲＧ１を返し、それ以外の場合にＷＯＲＧ２を返す関数を表す（ＷＯＲＧ１およびＷＯＲＧ２は正数、かつ、ＷＯＲＧ１＞ＷＯＲＧ２）。このような関数ｏｒｇ（ｔ）を用いることにより、第２単語重要度算出部４１４は、ユーザが独自に記述した形態素の個別重要度を高めることができる。

次に、本実施の形態のサマリ内重要度算出処理の詳細について図２６を用いて説明する。図２６は、第４の実施の形態におけるサマリ内重要度算出処理の全体の流れを示すフローチャートである。

本実施の形態では、ステップＳ２６０４およびステップＳ２６０５が追加されたことが第１の実施の形態と異なっている。その他のステップは、第１の実施の形態にかかる検索支援装置１００におけるサマリ内重要度算出処理（図１１）と同様の処理なので、その説明を省略する。

ステップＳ２６０３でコサイン尺度（サマリ内重要度）を算出後、第２パッセージ重要度算出部４２４は、パッセージｉが、ユーザサマリ内のカーソル直前のパッセージと同じ文書から引用されたパッセージであるか否かを判断する（ステップＳ２６０４）。同じ文書から引用されたパッセージであった場合（ステップＳ２６０４：ＹＥＳ）、第２パッセージ重要度算出部４２４は、算出したサマリ内重要度に予め定められた正数Ｗ４４を加算する（ステップＳ２６０５）。正数Ｗ４４を加算後、または、パッセージｉがユーザサマリ内のカーソル直前のパッセージと同じ文書から引用されたパッセージでないと判断した場合（ステップＳ２６０４：ＮＯ）、第２パッセージ重要度算出部４２４は、未処理のパッセージが存在するか否かを判断する（ステップＳ２６０６）。この後の処理は、図１１と同様である。

このように、第４の実施の形態にかかる検索支援装置では、ユーザがサマリを編集した履歴を表す編集履歴情報を用いることにより、ユーザの意思が強く現れている内容語に関連するパッセージを高精度に検索できる。また、パッセージの引用関係を参照することにより、話題が関連するパッセージを高精度に検索できる。これにより、ユーザの要求を適切に反映した関連パッセージをより高精度に検索することができる。

次に、第１〜第４の実施の形態にかかる検索支援装置のハードウェア構成について図２７を用いて説明する。図２７は、第１〜第４の実施の形態にかかる検索支援装置のハードウェア構成を示す説明図である。

第１〜第４の実施の形態にかかる検索支援装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、ＨＤＤ（Hard Disk Drive）、ＣＤ（Compact Disc）ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス６１を備えており、通常のコンピュータを利用したハードウェア構成となっている。

第１〜第４の実施の形態にかかる検索支援装置で実行される検索支援プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、第１〜第４の実施の形態にかかる検索支援装置で実行される検索支援プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜第４の実施の形態にかかる検索支援装置で実行される検索支援プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。

また、第１〜第４の実施の形態の検索支援プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

第１〜第４の実施の形態にかかる検索支援装置で実行される検索支援プログラムは、上述した各部（文脈解析部等）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１（プロセッサ）が上記記憶媒体から検索支援プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。

なお、本発明は、上記実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化することができる。また、上記実施の形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素からいくつかの構成要素を削除してもよい。さらに、異なる実施の形態にわたる構成要素を適宜組み合わせてもよい。

本発明の他の第１の発明は、請求項２に記載の発明において、前記位置の文字を含む前記パッセージと前記階層構造が同位の前記パッセージに含まれる単語それぞれについて、前記入力文書内でのユーザが既に知っている度合いを表す既知度を算出する既知度算出部をさらに備え、前記第２パッセージ重要度算出部は、前記既知度が大きい前記単語を含む前記パッセージに対して、前記既知度が小さい前記単語を含む前記パッセージより小さい前記第２パッセージ重要度を算出すること、を特徴とする。

本発明の他の第２の発明は、請求項２に記載の発明において、前記第２パッセージ重要度算出部は、前記位置の文字を含む前記パッセージの１つ上位の前記上位パッセージである直前パッセージが含まれる文書に属する前記パッセージに対して、前記直前パッセージが含まれる文書に属さない前記パッセージより大きい前記第２パッセージ重要度を算出すること、を特徴とする。

本発明の他の第３の発明は、請求項２に記載の発明において、前記分割部は、さらに、分割した前記パッセージに、他の前記パッセージに含まれる対象を指し示す照応表現が含まれるか否かを判断し、前記照応表現が含まれる場合に、他の前記パッセージから前記照応表現の指示対象を表す名詞句を取得し、前記名詞句で前記照応表現を置換すること、を特徴とする。

本発明の他の第４の発明は、請求項２に記載の発明において、前記分割部は、さらに、分割した前記パッセージに、主語が省略された文が含まれるか否かを判断し、前記主語が省略された文が含まれる場合に、他の前記パッセージから前記主語を表す名詞句を取得し、前記主語が省略された文に前記名詞句を主語として追加すること、を特徴とする。

本発明の他の第５の発明は、請求項２に記載の発明において、前記パッセージ選択部は、分割された前記パッセージのうち、前記総合重要度が大きく、かつ、選択済みの前記パッセージとの間の類似度が小さい前記パッセージを優先して選択すること、を特徴とする。

５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００、２００、３００、４００検索支援装置
１１０、３１０、４１０文脈解析部
１１１、３１１受付部
１１２構造解析部
１１３第１単語重要度算出部
１１４、４１４第２単語重要度算出部
１１５既知度算出部
１１６出力部
１２０、３２０、４２０パッセージ検索部
１２１、３２１文書検索部
１２２パッセージ分割部
１２３第１パッセージ重要度算出部
１２４、３２４、４２４第２パッセージ重要度算出部
１２５総合重要度算出部
１２６パッセージ選択部
１３０、３３０、４３０編集部
１３１、２３１候補選択部
１３２、２３２多段階検索部
１３３編集結果記憶部
１４０文書記憶部
２３０閲覧部
２３３閲覧結果記憶部
３１７係り受け解析部
３１８生成部
４３４履歴記憶部

Claims

入力文書と、前記入力文書に含まれる文字のうち指定された文字の位置との入力を受付ける受付部と、
前記入力文書の複数のパッセージ間の階層構造を解析する構造解析部と、
前記指定された文字を含む前記パッセージより上位の前記パッセージである上位パッセージに含まれる単語それぞれについて、文書記憶部に記憶された、前記入力文書と関連する関連文書を含む複数の文書内での前記単語の重要性の度合いを表す第１単語重要度を算出する第１単語重要度算出部と、
前記上位パッセージに含まれる単語それぞれについて、前記入力文書内での前記単語の重要性の度合いを表し、より上位の前記上位パッセージに含まれる単語ほど小さい値となる第２単語重要度を算出する第２単語重要度算出部と、
前記関連文書を前記文書記憶部から検索するための条件であって、前記上位パッセージに含まれる単語それぞれについて算出された前記第１単語重要度と前記第２単語重要度とを含む検索条件を出力する出力部と、
を備えることを特徴とする検索支援装置。
前記検索条件に基づいて前記関連文書を前記文書記憶部から検索し、前記関連文書が前記入力文書と関連する度合いを表す関連度を算出する文書検索部と、
前記関連文書を複数の前記パッセージに分割する分割部と、
分割された前記パッセージそれぞれについて、前記関連文書内での前記パッセージの重要性の度合いを表す第１パッセージ重要度を算出する第１パッセージ重要度算出部と、
分割された前記パッセージそれぞれについて、前記入力文書内での前記パッセージの重要性の度合いを表す第２パッセージ重要度を算出する第２パッセージ重要度算出部と、
分割された前記パッセージそれぞれについて、前記パッセージが含まれる前記関連文書の前記関連度と、前記第１パッセージ重要度と、前記第２パッセージ重要度と、を重み付け加算した総合重要度を算出する総合重要度算出部と、
分割された前記パッセージのうち、前記総合重要度が大きい前記パッセージを優先して選択するパッセージ選択部と、をさらに備えたこと、
を特徴とする請求項１に記載の検索支援装置。
前記指定された文字の品詞に応じて予め定められた検索キーワードを生成する生成部をさらに備え、
前記出力部は、さらに、生成された前記検索キーワードを含む前記検索条件を出力すること、
を特徴とする請求項１に記載の検索支援装置。
前記第２単語重要度算出部は、ユーザが編集した単語ほど、ユーザが編集していない単語より大きい前記第２単語重要度を算出すること、
を特徴とする請求項１に記載の検索支援装置。
受付部が、入力文書と、前記入力文書に含まれる文字のうち指定された文字の位置との入力を受付ける受付ステップと、
構造解析部が、前記入力文書の複数のパッセージ間の階層構造を解析する構造解析ステップと、
第１単語重要度算出部が、前記指定された文字を含む前記パッセージより上位の前記パッセージである上位パッセージに含まれる単語それぞれについて、文書記憶部に記憶された、前記入力文書と関連する関連文書を含む複数の文書内での前記単語の重要性の度合いを表す第１単語重要度を算出する第１単語重要度算出ステップと、
第２単語重要度算出部が、前記上位パッセージに含まれる単語それぞれについて、前記入力文書内での前記単語の重要性の度合いを表し、より上位の前記上位パッセージに含まれる単語ほど小さい値となる第２単語重要度を算出する第２単語重要度算出ステップと、
出力部が、前記関連文書を前記文書記憶部から検索するための条件であって、前記上位パッセージに含まれる単語それぞれについて算出された前記第１単語重要度と前記第２単語重要度とを含む検索条件を出力する出力ステップと、
を備えることを特徴とする検索支援方法。
コンピュータを、
入力文書と、前記入力文書に含まれる文字のうち指定された文字の位置との入力を受付ける受付部と、
前記入力文書の複数のパッセージ間の階層構造を解析する構造解析部と、
前記指定された文字を含む前記パッセージより上位の前記パッセージである上位パッセージに含まれる単語それぞれについて、文書記憶部に記憶された、前記入力文書と関連する関連文書を含む複数の文書内での前記単語の重要性の度合いを表す第１単語重要度を算出する第１単語重要度算出部と、
前記上位パッセージに含まれる単語それぞれについて、前記入力文書内での前記単語の重要性の度合いを表し、より上位の前記上位パッセージに含まれる単語ほど小さい値となる第２単語重要度を算出する第２単語重要度算出部と、
前記関連文書を前記文書記憶部から検索するための条件であって、前記上位パッセージに含まれる単語それぞれについて算出された前記第１単語重要度と前記第２単語重要度とを含む検索条件を出力する出力部と、
として機能させるための検索支援プログラム。