JP5146108B2

JP5146108B2 - 文書重要度算出システム、文書重要度算出方法およびプログラム

Info

Publication number: JP5146108B2
Application number: JP2008138237A
Authority: JP
Inventors: 康高山本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2008-05-27
Filing date: 2008-05-27
Publication date: 2013-02-20
Anticipated expiration: 2028-05-27
Also published as: JP2009288870A

Description

本発明は、検索条件に適合する度合いの指標となる文書の重要度を算出する文書重要度算出システム、文書重要度算出方法およびプログラムに関する。

インターネットの普及に伴い我々は多くの情報にアクセスできるようになった。しかしながら、アクセスできる情報が多くなるほど必要とする情報だけを効率よく取得することが難しくなってきている。そのため、必要な情報が記載された文書を的確に発見し提示してくれる検索システムが求められている。

文書を検索する方法の一つにキーワード検索がある。以降、本文中における検索はキーワード検索を表すものとする。検索システムは検索クエリが表す検索条件を満たす文書を、所定の基準でランキング（順序付け）して検索者に提示する。ここで検索クエリとは検索キーワードと検索キーワード間の論理演算とで記述されるものである。以降、検索クエリをクエリと略する。

例えば、クエリが「ＮＥＣＡＮＤ株価」である場合、「ＮＥＣ」と「株価」が検索キーワードであり、検索キーワード間の論理演算は「ＡＮＤ」である。この例では、「ＮＥＣ」と「株価」の両方の文字列を含む文書が、このクエリの検索条件を満たす文書となる。このようにある文書がクエリの検索条件を満たすことを、本明細書では、「適合する」と表現する。

クエリに適合する文書が多い（検索結果が多い）場合、全ての文書を閲覧することは困難である。そのため、検索者の多くは、上位にランクされた文書を見て所望の情報の有無を確認する。このとき下位にランクされている文書は存在しないも同然である。すなわち、検索システムにおいては、検索者が必要とする文書を上位にランクさせることが重要になる。

特許文献１には、文書の類似検索の技術が記載されている。特許文献１の技術は、検索対象文書を例えば分野別に分類し、その分野毎に、単語毎の出現頻度に対する最適な重みを算出し、検索キー文書および検索対象文書からそれぞれ抽出された単語の出現頻度と前記分類別の重みを用いて検索キー文書と検索対象文書との類似度を求めるために必要なノルム情報を作成する。

特許文献２には、文書データベースから分割されたグループに対する各文書データの特徴をどの程度検索結果に反映するかをユーザが柔軟に調整する方法が記載されている。特許文献２の技術では、指定されたキーワードについて、全文書データに対する第１単純重要度および分割された自グループに対する第２単純重要度を文書データ毎に計算する。そして、第１、第２単純重要度と指定されたパラメータにより各文書データの複合重要度を計算する。

特許文献３には、情報量が多い重要文を抽出するために、文の重要度をリード文の中に含まれる単語と同じ単語あるいは機能が同じ単語が他の各文中に含まれるほどその文の重要度が低くなるように定めることが記載されている。また、特許文献４には、基本文書と付随文書との関連づけと、指定された検索文字列に対する重要度、類似度または係り受け関係によって文書情報を検索することが記載されている。

特許文献５は、情報の豊富さおよび話題の多様性に基づいて、検索結果のドキュメントを順位付けることが記載されている。特許文献５の順位付けのシステムは、ドキュメントの関係性に基づき検索結果のドキュメントをグループ化し、各グループのドキュメントを同一の話題に方向付ける。順位付けのシステムは、最も高い順位のドキュメントが、各話題に及ぶ少なくとも１つのドキュメント、すなわちグループの各々からの１つのドキュメントを含み得る。順位付けのシステムは、各グループからグループ内の最も高い情報の豊富さを有するドキュメントを選択する。

その他、特許文献６には、検索対象文書中で特に強い関連性を有する部分を提示するために、検索対象文書を検索対象文章に分割し、検索対象文章をワードに分割し、条件句中のキーワードと一致する共通キーワードを抽出することが記載されている。また、特許文献７には、分類条件設定作業のために、分別された意味分類に属する各キーワード候補について、右側に位置する意味分類に属するキーワード候補との共起回数を調べ、その回数が多い順に左側の語と線で連結して表示することが記載されている（段落［００２４］）。
特開２０００−３３１０２６号公報特開２００１−１４２８８７号公報特開２００１−２４９９４８号公報特開２００５−１４８８９２号公報特開２００５−３２２２４４号公報特開２００５−３２７２１３号公報特開２００６−３２３５１７号公報

ある事物について幅広い調査を行う際には、カタログのように様々な情報がまとまっている文書を必要とすることがある。例えば、競合他社の「パソコン製品」について調査することになった検索者を想定する。このとき、多くのメーカのパソコンについてまとめているような文書が入手できると、検索者の業務は効率化される。これと類似する検索要求は多い。例えば、製品の導入事例等について調べる際には、様々な導入事例が記載されている文書が上位にランクされることが望ましい。

しかしながら、このような文書を検索することは容易ではない。上記の例では検索者の多くが、「パソコンＡＮＤ製品調査」など、必要とする文書を端的に表す文字列をクエリとして用いる。しかしながら、「パソコンＡＮＤ製品調査」では、これら検索キーワードを含む文書を検索できても、実際に多くのメーカの製品情報が載っているかどうかはランキングに反映されているわけではない。すなわち、「パソコンＡＮＤ製品調査」などのクエリが与えられた際には、該クエリに適合し、かつ、様々な情報が記載されている文書を上位にランクさせる必要がある。

なお、様々なパソコンメーカが記載されている文書を見つけるために「パソコンＡＮＤ（ＮＥＣＡＮＤ富士通ＡＮＤＤＥＬＬ）」などのように具体例をクエリとして入力する方法もあるが、クエリに適合する文書が少なくなり、必要とする文書が検索漏れになる可能性がある。

様々な情報が記載されている文書を重視する文書重要度の算出方法として、例えば、特許文献５がある。特許文献５の方法では、文書間の類似度を用いて文書中の情報の豊富さを計算している。この技術では、非対称な類似度計算を用いている。具体的には、ある映画監督の１つの映画についてのみ記載している文書は該監督の映画の全てについて説明した文書に対して高い類似度となり、反対に該監督の映画の全てについて説明した文書は１つの映画について記載した文書に対して低い類似度となる計算式を用いる。特許文献１の方法では、この計算式により多くの文書から類似度が高いと判定される文書は情報が豊富であると定義している。

しかしながら、特許文献５に記載の方法では、文書が様々な情報を含んでいるか／否かを判定するために多くの文書が必要となる。例えば、２つの文書があり、これらは互いにクエリに適合するが、内容は異なる文書であるとする。この場合、特許文献１の記載の方法では、これらの文書は共に情報が豊富でないと判定されることになる。この例は極端であるが、文書が多数あった場合でもこれと同様の問題は生じる。例えば、様々な情報が記載された文書があっても、この文書は、その個々の記載内容に関する文書がないと情報が豊富と判定されない。

本発明は、上述の事情に鑑みてなされたもので、その目的は、クエリに適合する文書を特定の観点で順序づける文書の重要度を、その文書内の情報のみを用いて判定して算出することである。

本発明の第１の観点に係る文書重要度算出システムは、
文書を重複なく節に分割し、その分割された各節の中から所定の基準で選択された重要語を取得する節キーワード取得手段と、
前記文書から、与えられた検索条件に適合する節である適合節を検索する適合節検索手段と、
前記適合節検索手段で検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出手段と、
前記節キーワード取得手段で取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出手段と、
前記適合節ごとの節重要度および前記類似度算出手段で算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出手段と、
を備えることを特徴とする。

本発明の第２の観点に係る文書重要度算出方法は、
文書の内容から該文書の重要度を算出する文書重要度算出システムが行う文書重要度算出方法であって、
節キーワード取得手段が行う、文書データベースに記憶された文書を重複なく節に分割し、その分割した各節の中から所定の基準で選択された重要語を取得する節キーワード取得ステップと、
適合節検索手段が行う、前記文書から、入力部に入力された検索条件に適合する節である適合節を検索する適合節検索ステップと、
節重要度算出手段が行う、前記適合節検索ステップで検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出ステップと、
類似度算出手段が行う、前記節キーワード取得ステップで取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出ステップと、
重要度算出手段が行う、前記適合節ごとの節重要度および前記類似度算出ステップで算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出ステップと、
を備えることを特徴とする。

本発明の第３の観点に係るプログラムは、コンピュータを、
文書を重複なく節に分割し、その分割された各節の中から所定の基準で選択された重要語を取得する節キーワード取得手段と、
前記文書から、与えられた検索条件に適合する節である適合節を検索する適合節検索手段と、
前記適合節検索手段で検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出手段と、
前記節キーワード取得手段で取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出手段と、
前記適合節ごとの節重要度および前記類似度算出手段で算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出手段、
として機能させることを特徴とする。

本発明により、クエリに適合する文書を特定の観点で順序づける文書の重要度をその文書内の情報のみを用いて算出することができる。その結果、特定の観点で重要な文書を上位にランクさせることができるため、検索者が必要とする文書へのアクセスを容易にすることができる。

以下に、本発明の課題を解決するための手段の要点を述べる。以下に記載する要点は、本発明の概念の一部を述べるものであり、本発明の請求範囲を限定するものではない。

本発明の重要度算出方法では、単一の文書の情報から、その文書に話題がどの程度含まれているかを推定し文書の重要度を算出する。一般に文書に複数の話題が記載されている場合、各話題は節単位でまとめられていることが多い。そのため、クエリに適合する節が多い文書は、クエリに関して様々な情報を含む文書であると考えられる。また、ただクエリに適合するだけではなくクエリとの関連性が高い節が多く含まれている文書ほど、価値ある情報が記載されている可能性が高い。

ここで、クエリとの関連性が高いとは、検索キーワードが多数含まれていることである。例えば、２つの節で構成されている文書があるとする。このとき、検索キーワードがこの２つの節に含まれており、かつ、この検索キーワードを含む文書が他にはなかったとする。この場合、該文書は、クエリに関して他の文書にはない情報を含む２つの節を有する有益な文書であることになる。

しかしながら、複数の節から構成されているが、それら節の内容が類似している文書もある。例えば、３つの節で構成される２つの文書があり、いずれの節も検索キーワード「パソコン」を含んでいるとする。しかしながら、一方は３つの節が全て「ＮＥＣ」に関する話題であり、他方は３つの節は、それぞれ「ＮＥＣ」「富士通」「ＤＥＬＬ」に関する話題であるとする。この場合においては、後者の文書の方が、様々な情報を含む文書と捉えられる。

以上より、本発明では、クエリに関する様々な情報を含む文書の条件を以下のように定義する。
条件１：クエリとの関連性の高い節があること。
条件２：クエリに適合する節が多いこと。
条件３：クエリに適合する節が類似していないこと。

条件３は、各節のセクションキーワードの一致率により算出する。セクションキーワードとは、各節の内容を言い表す重要語である。セクションキーワードは１つの節に対して複数あることもある。仮に、クエリに適合する節が類似している場合、この文書は様々な情報を含むものではないため、文書の重要度を小さくする処理を行う。

以下に本発明の文書重要度算出方法の概要を説明する。
まず前処理として、各文書を節毎に重複しないように分割しておき、各節からセクションキーワードを抽出する。

続いて、クエリに適合する節を検索する。クエリに適合する節を適合セクションと呼ぶ。適合セクション毎にセクションスコアを算出する。セクションスコアとはクエリに対する各節の重要度であり、検索キーワードとの関連性が高いほど大きな値となる。そして、適合セクションを含む文書を特定する。この文書が本発明における検索結果になる。

次に、各文書の適合セクションの類似度を求める。適合セクションの類似度は一つの文書内の適合セクション間でセクションキーワードを比較することで求める。適合セクション間で共通するセクションキーワードの数が多いほど、類似度を高くする。なお、セクションキーワードに検索キーワードが含まれている場合は、その単語を除外し類似度を算出する。

最後に、各文書の適合セクションのセクションスコアおよび類似度から文書の重要度を求める。各文書中の適合セクションのセクションスコアを加算し文書の重要度の基本点を求める。そのため各適合セクションのセクションスコアの値が大きいほど基本点は大きな値になる（条件１）。また、適合セクションが多いほど、この基本点は大きな値になる（条件２）。この基本点から適合セクションの類似度に重みをかけた値を減じ、最終的な文書の重要度とする。この処理により、適合セクション間の類似度が高いほど文書の重要度は小さな値になる（条件３）。以上の処理により、条件１、２、３を満たす文書の重要度を算出する。なお、基本点に適合セクションの類似度に重みをかけた値を加算すると、正負を逆転させることによって、検索キーワード以外にはキーワードに特化しているより専門的な文書を重要と判定することが可能になる。

以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付し、その説明は繰り返さない。

（実施の形態１）
図１は、本発明の実施の形態１に係る文書検索システムの構成の一例を示す。文書検索システムは、文書データベース２０１と、セクション抽出部２０２と、セクションデータベース２０３と、セクションキーワード抽出部２０４と、入力部３０１と、出力部３０２と、文書重要度算出部１０とから構成される。文書重要度算出部１０は、セクションキーワードデータベース１０１とセクション検索部１０２とセクション類似度算出部１０３とセクションスコア統合部１０４から構成される。文書重要度算出部１０は、プログラムに従って動作するコンピュータ（例えば、パーソナルコンピュータ等の情報処理装置）によって実現される。

本実施の形態において、文書重要度算出部１０は、例えば、企業における社内文書検索サービス等の用途に適用される。また、インターネットやイントラネットなどの検索エンジンサービス等の用途に適用される。

図２は、実施の形態１に係る文書検索システムの動作の一例を示すフローチャートである。以降、図１および図２を参照して、本発明の各構成要素について説明する。図２に示すように本発明を用いた文書検索処理は、前処理として行うセクション分析処理（ａ）と、検索時に行うスコアリング処理（ｂ）から構成される。セクション分析処理は、文書を節に分割する処理（ステップＳ１０１）と、セクションキーワードを抽出する処理（ステップＳ１０２）が主要な処理である。節に分割する処理はセクション抽出部２０２が行い、セクションキーワードの抽出はセクションキーワード抽出部２０４が行う。また、スコアリング処理は、クエリを入力（ステップＳ１０３）したのち、クエリに適合するセクションを検索する処理（ステップＳ１０４）と、適合セクション間の類似度を算出する処理（ステップＳ１０５）と、文書の重要度を算出する処理（ステップＳ１０６）が主要な処理である。

以下に図１に示す実施の形態の各構成要素について説明する。
文書データベース２０１は、検索対象となる文書と文書情報を記録する。文書情報の例を図３に示す。文書情報は、文書ＩＤ、文書名、文書保存先などを含む。文書ＩＤは各文書を特定するための識別子である。各文書は、文書作成者が登録してもよいし、クローラなどにより自動収集してもよい。蓄積される文書は、コンピュータが処理できる電子文書であれば形式を問わない。例えば、文書作成プログラム（ワープロ。例えばＭＳＷｏｒｄ（登録商標））で作成された文書でもよいし、プレゼンテーション用ソフト（例えばＭＳＰｏｗｅｒＰｏｉｎｔ（登録商標））で作成されたプレゼンテーション用の文書などでもよい。また、ＨＴＭＬ（HyperText Markup Language）やＸＭＬ（eXtensible Markup Language）で作成された文書のように構造化された文書でもよい。

セクション抽出部２０２は、文書データベース２０１から文書を得て、各文書内の目次などの情報を利用して文書を重複しない節に分割し節単位の文書を抽出する。分割した節毎の文書を節情報としてまとめて、セクションデータベース２０３ならびにセクションキーワード抽出部２０４に出力する。本処理は図２におけるセクション分析のステップＳ１０１に相当する。

文書から節を抽出する方法の一例について以下に述べる。目次のページがある場合、節の抽出は行いやすい。図４は目次のページがある文書の一例である。図４は左から順にページが並んでいるものとする。図４の文書中の「タイトル」は文書のタイトル、「＊＊」は各節の見出し、「・・・」は本文である。まず、セクション抽出部２０２は、目次のページから文書中に含まれる節の見出しを抽出する。例えば、既存のテキスト処理技術を用いて「目次」や「概要」などと書かれているページを目次のページとして抽出し、そのページ中から箇条書きされているテキストを抽出する。箇条書きされている各行の文字列を見出しとみなし、各見出しの文字列と一致する文字列を本文から特定し、本文を重複しないように分割する。このとき分割されたひと塊の文章の集合を一つの節として抽出する。図５は図４の文書を節毎に区切った結果である。実線の丸枠で囲まれた部分が一つの節である。

図６に示すような目次のページがない文書においても、本文中から「１節＊＊」などの節番号が付与されている場所を見出しとして抜き出し、見出しから次の見出しまでを一つの節として抽出する。また、文書のデータがＸＭＬなど構造化された情報として記録されている場合においては、例えば、ＸＭＬ文書中からｔｉｔｌｅ、ｃｈａｐｔｅｒ、ｓｅｃｔｉｏｎ、ｓｕｂｓｅｃｔｉｏｎなどタイトルや見出しに用いられるタグを抽出して、タグとタグとの間を一つのセクションとして抽出すればよい。

図７は、節情報の一例を示す。節情報には、セクションＩＤ、文書ＩＤ、および節内に記載されているテキストが含まれている。セクションＩＤは各文書の各節を特定するための識別子である。文書ＩＤは文書データベース２０１内に記憶されている文書ＩＤと対応している。また、節情報における各節は文書における出現順に格納されているものとする。

文書によっては，１節の中に「１．１節」や「１．２節」などがあり、節が入れ子構造になっているものもある。このような場合においては、入れ子部分を無視し、「１節」「２節」など最も大きい単位の節のみを抽出するようにしてもよいし、入れ子構造を判定し節を抽出してもよい。

入れ子構造になっている文書の例を図８と図９に示す。同図では、本文を節で区切った結果を丸枠で示している。図８は目次のページがある例、図９は目次のページがない例である。入れ子構造の判定は、各節の見出しに含まれている節の番号を用いて行えばよい。例えば、見出しの先頭文字列が「１．１節」や「１．１．」などであれば、これらは「１節」や「１．」などの節に従属するものと判断できる。また、目次のページがある場合、箇条書きされた文字列の字下げを分析することによって節の入れ子構造を判定することができる。図８に示す目次ページでは、１節の下に「○○」と「××」という見出しが字下げされて記載されている。そのため「○○」「××」は節番号がないが、１節に従属する節であると判定できる。

節の入れ子構造まで特定した場合における節情報の例を図１０に示す。図１０の例では、図７に示す節情報に加えて各節の階層の深さを記録している。タイトルが記載されている節を第０階層とみなし、「１節」「２節」に相当する節を第１階層、「１．１節」「１．２節」に相当する節を第２階層としている。こうすることにより、どの節がどの節に従属するものであるかを判断することが可能になる。例えば図１０の節情報においてＤ００１の「階層の深さ」列の値を抽出すると、｛０，１，１，２，２，１｝が得られる。

節情報は文書における節の出現順に格納されているため、文書中では、節に従属関係がある箇所で、抽出した「階層の深さ」列の値のように節の階層の深さが変化することになる。すなわち、ある節Ａは、節Ａの階層の深さの値よりも１小さい階層の深さの値であり、かつ、節Ａよりも手前（節情報において上方）にある近接の節に従属する。図１０の例では、例えば、階層の深さの値が２であるセクションＩＤが４と５の節は、階層の深さの値が１であり、セクションＩＤ：４および５の節の手前にあって近接するセクションＩＤ：３の節に従属することになる。なお、入れ子構造は階層の深さ以外の情報を用いて記録してもよい。例えば、節毎に親となる節のセクションＩＤを記載するようにしてもよいし、逆に子となる節のセクションＩＤを記載するようにしてもよい。

文書において、どこからどこまでを一つの節とみなすかは自由であるため、例えば、一段落を一つの節とみなすようにしてもよい。また、節への分割は必ずしも自動処理で行う必要はなく、人が登録／修正などを行ってもよい。

セクションデータベース２０３は、セクション抽出部２０２から入力された節情報を格納する。セクションデータベース２０３は、検索処理において、検索キーワードを含む節を特定するために用いられる。そのため、どのキーワードがどの節に含まれているかを特定できれば、節情報以外の形式で記録しても構わない。例えば、節毎のテキストに対して全文インデクスを生成してもよい。こうすることで入力された検索キーワードを含む節の文書ＩＤとセクションＩＤとを高速に検索することができる。なお、セクションデータベース２０３は、人手によって直接、記録・修正・削除などを行ってもよい。

セクションキーワード抽出部２０４は、セクション抽出部２０２から節情報を得て、各節のテキストからセクションキーワードを抽出し、セクションキーワードデータベース１０１に出力する。本処理は図２におけるセクション分析のステップＳ１０２に相当する。

セクションキーワードは節を代表する文字列である。セクションキーワードの抽出は、既存のキーワード抽出技術を用いて行えばよい。代表的なものに、各節内における語の出現頻度を用いる方法がある。単に出現頻度の高い文字列を用いると一般的な語がセクションキーワードとして抽出されるため、当該文書において出現頻度が高いが、文書集合では出現頻度が低い語をセクションキーワードとするようにする。このようなキーワードの抽出はＴＦ・ＩＤＦと呼ばれる基準を用いることにより実現できる。また、セクションキーワード抽出部２０４に不要語リストなどを登録しておくことにより、一般的な語がセクションキーワードとならないようにすることもできる。

そのほか、参考文献（大澤幸生，Benson N. E.，谷内田正彦，"語の共起グラフの分割・統合によるキーワード抽出"，電子情報通信学会論文誌，D-I，Vol.J82-D-I，No.2， pp.391-400，1999．）に記載された技術を用いてセクションキーワードを抽出してもよい。参考文献は、単語の共起関係をグラフで表現し、そのグラフを分割・統合することにより著者の主張となるキーワードを抽出する技術が記載されている。

セクションキーワード抽出部２０４は、抽出したセクションキーワードを節毎にまとめる。得られたセクションキーワードの例を図１１に示す。図１１における「ｗ数字」が一つのセクションキーワードを表しており、同一の数字が付与されたセクションキーワードは同じ文字列を表す。セクションキーワードの数は節毎に異なっていても構わない。例えば、図１１の例では、セクションＩＤ：２の節にｗ２とｗ３が含まれており、セクションＩＤ：１と２の節に共通のセクションキーワードｗ１、ｗ２が含まれている。

各節のセクションキーワードの抽出に節の入れ子構造を考慮してもよい。１．１節は１節に従属する節であるため、１節の文書の内容は１．１節やその後に続く１．２節の概要に相当するものであると考えられる。そこで、１節にｗ１というセクションキーワードがある場合、ｗ１は１．１節のセクションキーワードでもあるとする。すなわち、ある節に含まれるセクションキーワードは、その節に従属する節にも暗黙的に含まれているものとする。こうすることにより、仮に１．１節にｗ１という単語が含まれていなくても、１節を代表する語であるｗ１を１．１節のセクションキーワードとすることができる。

以下にセクションキーワードを追加するための処理を示す。
Ｓｔｅｐ１：ある文書（文書ｉとする）の節情報を抽出する。
Ｓｔｅｐ２：文書ｉの先頭の節を節ｊとする。
Ｓｔｅｐ３：節情報から節ｊの階層の深さを取得する。節ｊの階層の深さの値をｘとする。
Ｓｔｅｐ４：節ｊの次の節を節ｋとする。
Ｓｔｅｐ５：節情報から節ｋの階層の深さを取得する。節ｋの階層の深さの値をｙとする。
Ｓｔｅｐ６：ｘ＜ｙであれば節ｊのセクションキーワードを節ｋのセクションキーワードに追加する。ただし、既に節ｋのセクションキーワードに節ｊのセクションキーワードがある場合は、追加処理は行わない。ｘ≧ｙであれば、Ｓｔｅｐ８に進む。
Ｓｔｅｐ７：節ｋの次の節を新たな節ｋとしてＳｔｅｐ５に戻る。ただし節ｋの次に節が無ければＳｔｅｐ８に進む。
Ｓｔｅｐ８節ｊの次の節を新たな節ｊとしてＳｔｅｐ３に戻る。ただし節ｊの次に節が無ければＳｔｅｐ９に進む。
Ｓｔｅｐ９：文書ｉの次の文書を新たな文書ｉとして、Ｓｔｅｐ１に戻る。
他に文書がなければ処理を終了する。

以下に具体例を用いて、セクションキーワード抽出部２０４が行う上記の処理について説明する。図１０の節情報が得られているものとし、図１０に示す文書ＩＤ：Ｄ００１の各節から図１２に示すセクションキーワードが抽出されているとする。図１０のセクションＩＤと図１２のセクションＩＤは対応している。このとき図１０の各節の「階層の深さ」列の値を利用して、各節に追加するセクションキーワードを決定する。なお、図１０の節情報はセクションデータベース２０３から参照でき、図１２のセクションキーワードの情報はメモリ上に格納するなどして参照できるようにしておく。

図１３は、図１２に示すセクションキーワードに対して、上記のルールを適用した際に追加されるセクションキーワードを示している。図１３の「追加分」列が各節に追加されるセクションキーワードである。

Ｓｔｅｐ１の処理では、図１０に示す節情報から文書ＩＤ：Ｄ００１の文書の節情報を抽出する。これは節情報の文書ＩＤ列が同一である節を抽出することで実現できる。
Ｓｔｅｐ２の処理では、文書ＩＤがＤ００１である節情報の中で先頭に格納されているセクションＩＤ：１の節を節ｊとして抽出する。
Ｓｔｅｐ３の処理では、節情報におけるセクションＩＤ：１の行の「階層の深さ」列の値を取得する。図１０の例では、節ｊの階層の深さの値であるｘは０となる。
Ｓｔｅｐ４の処理では、セクションＩＤ：１の節の次の節であるセクションＩＤ：２の節を節ｋとして抽出する。
Ｓｔｅｐ５の処理では、節情報におけるセクションＩＤ：２の行の「階層の深さ」列の値を取得する。図１０の例では、節ｋの階層の深さの値であるｙは１となる。

Ｓｔｅｐ６の処理では、まずＳｔｅｐ３とＳｔｅｐ５において得られたｘとｙの大小関係を比較する。ここではｘ＜ｙであるため、節ｋのセクションキーワードに節ｊのセクションキーワードを追加する。図１２に示すように節ｊであるセクションＩＤ：１のセクションキーワードがｗ１とｗ２であり、節ｋであるセクションＩＤ：２のセクションキーワードがｗ１とｗ３である。そのため節ｊのセクションキーワードであるが、節ｋのセクションキーワードではないｗ２が、節ｋのセクションキーワードに追加される。図１３のセクションＩＤ：２の行の「追加分」列のｗ２がこれに相当する。

Ｓｔｅｐ７の処理では、節ｋをセクションＩＤ：２の節からセクションＩＤ：３の節に変更し、Ｓｔｅｐ５の処理に戻る。節ｊであるセクションＩＤ：１の節は、文書ＩＤ：Ｄ００１の中で最も階層の深さの値が小さい（階層が上位である）ため、節ｊがセクションＩＤ：１の節である間は、ｘ≦ｙとなることはない。そのため、セクションＩＤ：１の節のセクションキーワードであるｗ１およびｗ２は、他の全ての節（セクションＩＤ：２〜６）のセクションキーワードに追加されることになる。節ｊがセクションＩＤ：１であるとき、Ｓｔｅｐ５からＳｔｅｐ７のループが終了するのは、節ｋがセクションＩＤ：６の節となるときである。節ｋがセクションＩＤ：６の節である状態でＳｔｅｐ７の処理に移ると、節ｋとなる次の節がないため、Ｓｔｅｐ７の処理からＳｔｅｐ８の処理に移行することになる。

Ｓｔｅｐ８の処理では、節ｊをセクションＩＤ：１から次の節であるセクションＩＤ：２に変更し、Ｓｔｅｐ３の処理に戻る。ただし、節ｊがセクションＩＤ：２のとき、追加されるセクションキーワードはない。なぜならば、節ｊとなるセクションＩＤ：２の節と、Ｓｔｅｐ４で節ｋとなるセクションＩＤ：３の節の「階層の深さ」の値は共に１であり、セクションキーワードを追加する条件（Ｓｔｅｐ６のｘ＜ｙ）を満たさないためである。

Ｓｔｅｐ６においてｘ＜ｙとなるのは、節ｊがセクションＩＤ：３の節であり、節ｋがセクションＩＤ：４または５の節になるときである。このとき、セクションＩＤ：３の節のセクションキーワードであるｗ５とｗ６は、セクションＩＤ：４と５の節のセクションキーワードに追加される。以上のような繰り返し処理により、節の入れ子構造を考慮した場合におけるセクションキーワードの追加処理を行う。

Ｓｔｅｐ９の処理は、上記Ｓｔｅｐ１〜８のセクションキーワードの追加処理を登録されている全ての文書に対して行うためのものである。なお、セクションキーワードは人が直接、修正、加筆、削除してもよい。

セクションキーワードデータベース１０１は、各セクションのセクションキーワードを記録する。セクションキーワードは、抽出先である節のセクションＩＤとの対応関係がわかれば如何なる保存形式を用いても構わない。なお、セクションＩＤをキーとしてセクションキーワードが取得できるようにしておくと、セクション類似度算出部１０３で、類似度の算出を高速に行うことができる。

以降、スコアリングの処理について説明する。
入力部３０１は、検索者が入力したクエリをセクション検索部１０２に出力する。入力部３０１は、機械可読なクエリが入力できればどのような手段を用いても構わない。キーボードやマウスなどを用いてもよいし、音声入力でもよい。クエリにおける検索キーワード間の論理演算には「ＡＮＤ」や「ＯＲ」や「ＮＯＴ」などがある。また、論理演算の優先順位を明確にするための「（）」などを用いてもよい。「（）」内の論理演算が優先して計算される。例えば、「ランキングＡＮＤ（検索ＯＲサーチ）ＮＯＴ画像」は、「検索」または「サーチ」のいずれか一方の文字列を含み、かつ、「ランキング」という文字列を含むが、「画像」という文字列は含まない節を検索するためのクエリである。

セクション検索部１０２は、クエリに適合する節のセクションＩＤと文書ＩＤをセクション類似度算出部１０３に出力する。本処理は図２におけるスコアリング処理のステップＳ１０４に相当する。

節の検索は既存の技術を用いて行うことができる。検索キーワードと節情報に記録されているテキストとを文字列比較して検索してもよいし、節単位の文書に対してインデクスを生成しておいて検索してもよい。なお、検索キーワードと節内の文字列は完全に一致する必要はない。セクション検索部１０２は「引越」と「引っ越し」のように表記ゆれがあっても検索できる機能を備えてもよいし、類義語辞書などを登録しておき「コンピュータ」と「計算機」を同一のものとみなす機能を備えてもよい。

以上のような検索を行いクエリに適合する節が適合セクションとなる。図１４に適合セクションの一例を示す。セクション検索部１０２において適合セクションは、図１４に示すようにセクションＩＤと文書ＩＤのペアで得られる。セクション検索部１０２は節単位の検索を行うため、図１４に示すように検索結果には同じ文書ＩＤが重複して現れることもある。すなわち、一つの文書において複数の適合セクションが存在することもある。

次に、セクション検索部１０２は、各適合セクションの重要度を算出する。適合セクションの重要度をセクションスコアと呼ぶ。セクションスコアの計算は、含まれる検索キーワードの数などで決定すればよい。セクションスコアは値が大きいほどクエリと節の関連性が高いことを意味する。また、文書集合の情報を用いるならば、ＴＦ・ＩＤＦ法などの従来技術を用いて行ってもよい。この場合、文書集合中では希少な検索キーワードが多く含まれている文書ほどセクションスコアが大きくなる。

なお、セクションスコアの計算には、テキスト以外の情報を用いても構わない。例えば、各節に含まれている図表やグラフなどの数をカウントし、その値をセクションスコアに加算してもよい。これにより、テキスト以外の様々なコンテンツを含む節を重要であると判定することができる。図１５に適合セクションのセクションスコアの一例を示す。この例では、セクションＩＤ：２の節のセクションスコアが１であり、クエリとの関連性が最も高いことになる。

最後に、セクション検索部１０２は、同一の文書ＩＤの適合セクションをまとめ、文書単位での検索結果をまとめる。図１６に図１４の適合セクションを文書ＩＤ毎にまとめた検索結果を示す。図１６の検索結果には文書ＩＤ、各文書内の適合セクション、各適合セクションのセクションスコアがまとめられている。セクション検索部１０２はこれを検索結果としてセクション類似度算出部１０３に出力する。

以上のようにセクション検索部１０２の処理は、同一の文書ＩＤを有する適合セクションをまとめる処理を除けば、検索システムが有する一般的な機能であり、容易に実現可能なものである。

なお、文書データベース２０１に文書単位での全文インデクスを登録しておいた場合には、セクション検索部１０２は、まず、クエリに適合する文書を文書単位の全文インデクスを用いて検索し、検索結果として得られた文書内で、さらに節単位の検索を行うようにしてもよい。この処理により得られる適合セクションは前記の処理により得られるものと全く同じである。ただし、後者の方法を用いた場合は、文書単位の全文インデクスを必要とするが、同一の文書ＩＤを有する適合セクションをまとめる処理は必要なくなる。

セクション類似度算出部１０３は、セクション検索部１０２から検索結果を得て、セクションキーワードデータベース１０１を参照することにより、各文書内における適合セクションの類似度を算出し、その類似度をセクションスコア統合部１０４に出力する。本処理は図２におけるスコアリング処理のステップＳ１０５に相当する。適合セクションの類似度をセクション類似度と呼ぶ。

セクション類似度は文書毎に算出する。すなわち検索結果として得られた文書で複数の適合セクションを含むものが、セクション類似度算出部１０３の処理対象となる。例えば、図１６の検索結果における処理対象はＤ００１とＤ００５である。適合セクションが一つしかない文書は類似度を０にする。なお、セクション類似度は文書毎に求められるものである。

一つの文書内における適合セクションのセクションキーワードが一致している場合、該適合セクションは類似している内容であると考えられる。セクション類似度を求める計算式の一例を（１）式に示す。セクション類似度の値域は［０：１］であり、値が１に近いほど適合セクションが類似していることを表す。なお、検索キーワードとセクションキーワードが一致している場合、セクションキーワードからその検索キーワードを除き、以下の計算を行う。

（１）式の各記号の意味について例を用いて説明する。Ｍｉは処理対象となるｉ番目の文書の適合セクションの集合であり、Ｓｉｍ（Ｍｉ）はｉ番目のセクション類似度である。すなわち、Ｍ１は検索結果における１番目の文書の適合セクションを表し、それら適合セクションのセクション類似度がＳｉｍ（Ｍ１）と表現される。（１）式のＴｉｊは、ｉ番目の文書におけるｊ番目の適合セクションのセクションキーワードの集合である。例えば、検索結果の１番目文書の１つ目の適合セクションのセクションキーワードが「ｗ４」と「ｗ６」である場合、Ｔ１１＝｛ｗ４，ｗ６｝となる。

検索結果の１番目の文書に３つの適合セクションがあり、それらのセクションキーワードがＴ１１＝｛ｗ４，ｗ６｝、Ｔ１２＝｛ｗ４，ｗ９｝、Ｔ１３＝｛ｗ４，ｗ７，ｗ９｝であるとして、ＵｉとＶｉについて説明する。ＵｉはＴｉｊの和集合であり、｜Ｕｉ｜はＵｉの要素数である。Ｖｉはｉ番目の文書の適合セクションで重複するセクションキーワードの集合である。前記の例では、Ｕ１＝｛ｗ４，ｗ６，ｗ７，ｗ９｝であり、｜Ｕｉ｜＝４となる。また、Ｖ１＝｛ｗ４，ｗ９｝となる。Ｖ１がｗ４とｗ９になる理由は、ｗ４がＴ１１、Ｔ１２、Ｔ１３の３つの適合セクションに重複して含まれており、ｗ９がＴ１２とＴ１３の２つの適合セクションに重複して含まれているためである。

ｓｉｊは、ｉ番目の文書のｊ番目の適合セクションのセクションスコアを表す。（１）式は、適合セクションの全てのセクションキーワードが一致する場合に１となり、各適合セクションのセクションキーワードが他の適合セクションのどのセクションキーワードとも一致しない場合に０となる。

セクション類似度算出部１０３が、セクション類似度を計算するためには、適合セクションと各適合セクションのセクションスコアおよびセクションキーワードが必要となる。このうち、適合セクションとセクションスコアはセクション検索部１０２から検索結果として入力されるものである。また、各適合セクションのセクションキーワードは適合セクションのセクションＩＤをキーとしてセクションキーワードデータベース１０１から取得できるものである。

以下に、セクションの類似度の算出方法について具体例を用いて説明する。図１６に示す検索結果が得られたと仮定する。ここでは図１６中の文書ＩＤ：Ｄ００１のセクション類似度を求める。図１６の各適合セクションのセクションキーワードは図１１に示すものであるとする。図１１のセクションキーワードはセクションキーワードデータベース１０１に格納されており、図１１のセクションＩＤは図１６のセクションＩＤと対応しているものとする。

まず、セクション類似度算出部１０３は、適合セクションのセクションＩＤをキーとしてセクションキーワードデータベース１０１からセクションキーワードを取得する。取得した結果を図１７に示す。図１７にはＤ００１の文書ＩＤ、セクションＩＤ、セクションキーワード、セクションスコアをまとめている。

次に、セクション類似度算出部１０３は、図１７に示す適合セクションと各適合セクションのセクションキーワードとセクションスコアから、セクション類似度を算出するためのパラメタを取得する。図１７に示す文書ＩＤ：Ｄ００１を検索結果の１番目の文書であるとすると、（１）式中のＭｉ、Ｔｉｊ、Ｕｉ、Ｖｉ、ｓｉｊの各パラメタは以下のようになる。

［Ｄ００１に対する（１）式の各パラメタの値］
Ｍ１＝｛１，２，４｝
Ｔ１１＝｛ｗ１，ｗ２｝，Ｔ１２＝｛ｗ１，ｗ２，ｗ３｝，Ｔ１３＝｛ｗ１，ｗ４｝
Ｕ１＝｛ｗ１，ｗ２，ｗ３，ｗ４｝，｜Ｕ１｜＝４
Ｖ１＝｛ｗ１，ｗ２｝
ｓ１１＝０．６，ｓ１２＝１．０，ｓ１３＝０．４

適合セクションの集合Ｍ１には、セクションＩＤを格納する。Ｍ１を参照することにより、３番目の適合セクションがセクションＩＤ：４の節であることがわかる。Ｔ１３のセクションキーワードがｗ１とｗ４となっているのは、３番目の適合セクションであるセクションＩＤ：４の節のセクションキーワードがｗ１とｗ４であるためである。

（１）式の計算に従えば、Ｓｉｍ（Ｍ１）＝｛ｓ１１×（Ｖ１∩Ｔ１１）＋ｓ１２×（Ｖ１∩Ｔ１２）＋ｓ１４×（Ｖ１∩Ｔ１４）｝／｛（ｓ１１＋ｓ１２＋ｓ１４）×｜Ｕ１｜｝＝｛０．６＋１．０×２＋０．４｝／｛（０．６＋１．０＋０．４）×４｝＝０．３７５となる。なお、類似度の計算においてセクションスコアを用いているのは、セクションスコアの高い適合セクションが他の適合セクションと似ている場合には、セクション類似度を高くするためである。こうすることにより、クエリとの関連性が高い節のセクションキーワードが異なっているほど文書の重要度を大きくすることができる。

セクションスコアをセクション類似度に反映させたくない場合は、（１）式からセクションスコアの変数であるｓｉｊを取り除いた式を用いればよい。あるいは、全てのｓｉｊを同一の定数にして計算してもよい。

図１８はＤ００１の各適合セクションにどのセクションキーワードが含まれているかを説明するためのベン図である。図１８中の円４０１、円４０２、円４０３は、それぞれセクションＩＤ：１、２、４の適合セクションを表している。このベン図はセクション間で共通する単語があると、円同士が重なるものとする。全ての適合セクションがｗ１を含むため、３つの円が重なっている部分にｗ１が布置されている。また、ｗ２はセクションＩＤ：１、２の節に共通して含まれているため、円４０１と円４０２のみが重なっている部分にｗ２が布置されている。適合セクションは検索キーワードを含むため、検索キーワードはｗ１と同様、３つの円が重なっている部分にある単語となる。この図は各セクション間の関係を表すイメージであるが、直感的には、（１）式は、このベン図の和集合を分母とし、２つ以上の円が重なっている共通集合部分を分子にしていると考えられる。

別の例として、文書ＩＤ：Ｄ０１０とＤ１００とが検索結果となった場合を考える。各文書の適合セクションのセクションキーワードを取得した結果を図１９に示す。Ｄ０１０およびＤ１００は共にＤ００１と同様、３つの適合セクションがあり、各適合セクションは｛ｗ１、ｗ２、ｗ３、ｗ４｝のいずれかのセクションキーワードを含んでいる。ただし各適合セクションがどのセクションキーワードを含むかがＤ００１とは異なる。Ｄ０１０、Ｄ１００に対する（１）式の各パラメタの値を以下にまとめる。Ｄ０１０とＤ１００をそれぞれｘ番目、ｙ番目の文書とする。

［Ｄ０１０に対する（１）式の各パラメタの値］
Ｍｘ＝｛１１，１２，１４｝
Ｔｘ１１＝｛ｗ１，ｗ４｝，Ｔｘ１２＝｛ｗ２｝，Ｔｘ１４＝｛ｗ３｝
Ｕｘ＝｛ｗ１，ｗ２，ｗ３，ｗ４｝，｜Ｕｘ｜＝４
Ｖｘ＝φ
ｓｘ１１＝０．６，ｓｘ１２＝１．０，ｓｘ１４＝０．４

［Ｄ１００に対する（１）式の各パラメタの値］
Ｍｙ＝｛１０１，１０２，１０４｝
Ｔｙ１０１＝｛ｗ１，ｗ２，ｗ３，ｗ４｝，Ｔｙ１０２＝｛ｗ１，ｗ２，ｗ３，ｗ４｝，Ｔｙ１０４＝｛ｗ１，ｗ２，ｗ３，ｗ４｝
Ｕｙ＝｛ｗ１，ｗ２，ｗ３，ｗ４｝，｜Ｕｙ｜＝４
Ｖｙ＝｛ｗ１，ｗ２，ｗ３，ｗ４｝
ｓｙ１０１＝０．６，ｓｙ１０２＝１．０，ｓｙ１０４＝０．４

Ｄ０１０のＶｘの値であるφは空集合を表す。Ｄ０１０およびＤ１００の適合セクションが含むセクションキーワードをベン図で表現したものを、それぞれ図２０と図２１に示す。

Ｄ０１０では、各適合セクションに共通するセクションキーワードがない。セクションキーワードは各節の重要語であるため、Ｄ０１０の文書は、図２０に示すように各適合セクションの文書の内容が互いに疎な関係にあると考えられる。一方、各適合セクションのセクションキーワードが全て共通しているＤ１００は、図２１に示すように、互いの適合セクションの内容が類似していると考えられる。

Ｄ００１と同様、上記の各パラメタを用いて（１）式によりＤ０１０およびＤ１００のそれぞれのセクション類似度を計算すると、Ｄ０１０が０．０、Ｄ１００は１．０となる。このように、セクション類似度算出部１０３が算出するセクション類似度は、適合セクションのセクションキーワードが類似しているものほど高い類似度となる指標になっていることが分かる。

ここまでは（１）式を用いたセクション類似度の算出方法について説明してきたが、セクション類似度算出部１０３では、（１）式以外の計算方法を用いてセクション類似度を算出してもよい。例えば（２）式を用いてもよい。（２）式のＵｉは前記（１）式と同様、Ｔｉｊの和集合である。（２）式は、（１）式のセクションスコアｓｉｊを１とした場合である。

セクション類似度を（３）式とすることもできる。

（３）式のＵｉは前記（１）式と同様、Ｔｉｊの和集合である。αは任意の定数値である。（３）式は、適合セクションに含まれているセクションキーワードの種類数が多いほど類似度が下がる。（１）式と比較すると、式が単純であるため計算負荷が少ないという利点がある。（３）式の分母である｜Ｕｉ｜は、適合セクションとなった節全てにおける重要語の種類数を表すため、検索キーワード以外のキーワードがどの程度含まれているかの指標になる。この値が大きい場合、文書は様々な重要語を含むため、文書が様々な話題を有すると判断できる。

本発明では、Ｓｉｍ（Ｍｉ）の値が大きいほど、文書の重要度を低くする。そこで（３）式では｜Ｕｉ｜の逆数を用いることにより、様々な重要語を含む場合にＳｉｍ（Ｍｉ）の値が小さくなるようにしている。なお、αの値によっては、セクション類似度が１．０を超える可能性が生じるが、その場合にはセクション類似度を１．０に補正する。

前記のＤ００１、Ｄ０１０、Ｄ１００は、いずれもＵｉ＝｛ｗ１，ｗ２，ｗ３，ｗ４｝であり、｜Ｕｉ｜＝４である。そのため、α＝１．０とすると、これらの文書のセクション類似度は、１／４＝０．２５となる。Ｄ００１、Ｄ０１０、Ｄ１００の各文書が検索キーワード以外に４つのセクションキーワードに関する話題があるとすると、（３）式によるセクション類似度が、これら３つの文書で同一の値になることは妥当である。セクションキーワード抽出部２０４で、各節がいくつの話題から成っているかを考慮してセクションキーワードを抜き出す場合には、（３）式による指標が有効である。

また、セクション類似度算出部１０３はセクション類似度の算出に（４）式を用いてもよい。

（４）式内の記号は（１）式のものと同様である。（４）式は、（１）式を簡略化した式であり、セクション類似度を概算するための指標である。分母が適合セクションに含まれるセクションキーワードの種類数であり、分子が適合セクション内で重複するセクションキーワードの種類数である。そのため、（４）式によりセクションキーワードが適合セクション内でどの程度重複しているかを大まかに計算することができる。計算式が単純であるため、計算量が少なくて済むという利点がある。Ｄ００１、Ｄ００２、Ｄ００３に対する各セクション類似度は、前記のパラメタを用いると以下のように算出できる。
Ｄ００１：Ｓｉｍ（Ｍ１）＝２／４＝０．５
Ｄ０１０：Ｓｉｍ（Ｍｘ）＝１／４＝０．２５
Ｄ１００：Ｓｉｍ（Ｍｙ）＝４／４＝１．０

これらの値から（４）式によるセクション類似度は、（１）式の値と同じではないものの高い相関があることがわかる。セクション類似度の算出は検索時に行うため、計算負荷が高いと、検索結果を表示するまでに多くの時間がかかってしまう。そのため大量文書を扱う際には、（４）式のように簡略化した式を用いた方がよい場合もある。

以上のように、セクション類似度を算出する方法はいくつかのバリエーションがある。どの式を用いるかは検索システムのシステム管理者が決めればよい。

セクションスコア統合部１０４は、セクション類似度算出部１０３から適合セクションのセクションスコアとセクション類似度を得て、これらの値に基づいて各文書の重要度を求め、その結果を出力部３０２に出力する。本処理は図２におけるスコアリング処理のステップＳ１０６に相当する。

各文書の重要度は、適合セクションのセクションスコアと、適合セクションの類似度によって決まる。ｉ番目の文書の重要度Ｓｃｏｒｅ（ｉ）を求める計算式の一例を（５）式に示す。各記号は前記のものと同様である。

（５）式の第１項は、適合セクションのセクションスコアの和を計算している。第２項は、セクション類似度に対する減算項となっている。βｉはｉ番目の文書の類似度に対する重みである。重みは定数でもよいし、（６）式などを用いて文書毎に値が変化するようにしてもよい。

（６）式は、セクション類似度Ｓｉｍ（Ｍｉ）が１となる場合には、文書の重要度を２分の１にする重みである。前記、文書ＩＤ：Ｄ００１、Ｄ０１０、Ｄ１００の３つの文書の重要度を（５）式により算出した結果を下記に示す。なお、セクション類似度の計算は（１）式で行い、βｉは（６）式を用いて計算している。

Ｓｃｏｒｅ（１）＝（０．６＋１．０＋０．４）−１．０×０．３７５＝１．６２５
Ｓｃｏｒｅ（ｘ）＝（０．６＋１．０＋０．４）−１．０×０＝２．０
Ｓｃｏｒｅ（ｙ）＝（０．６＋１．０＋０．４）−１．０×１＝１．０

図１７と図１９からわかるように、Ｄ００１、Ｄ０１０、Ｄ１００はいずれも３つの適合セクションがある。また、含まれる３つの適合セクションのセクションスコアが同じであるため、（５）式における第１項は３つの文書とも共通して２．０となる。（６）式より、これら３つの文書のβｉの値はいずれも１．０になる。適合セクションの内容が類似していないＤ０１０の文書重要度が最も大きくなっている。また、セクションキーワードが完全に一致する適合セクションを有するＤ１００は大きな減点を与えられ、文書の重要度が適合セクションのセクションスコアの和よりも半減している。セクションキーワードに少し重なりのあるＤ００１の重要度がＤ０１０とＤ１００の文書の重要度の中間の値となっている。そのため、これは、検索キーワード以外の様々なキーワードを含む文書の重要度を高くすることができている。

セクションスコア統合部１０４は（５）式以外の計算式を用いて文書の重要度を算出してもよい。例えば（７）式を用いても重要度を算出できる。

（７）式のＮｉは、文書ｉの節の数である。この値は検索結果に含まれる文書ＩＤをキーとしてセクションデータベース２０３から該当する節を得て、その数を数えることで求めることができる。また、Ｍｉは前記と同様、文書ｉの適合セクションの数である。すなわち、（７）式では、適合セクションのセクションスコアの和に対して、節の数による重みを付加している。（５）式による文書重要度は、節の数が多い文書ほど高得点になりやすいという特徴がある。

しかしながら、（７）式では、節の数ではなく、全ての節のうち、どの程度が適合セクションになっているかを重視している。これにより、文書中の節の多くが適合セクションであり、かつ、それら適合セクションが類似する内容ではない文書を重要と判定することができる。なお、第１項を２で割った式をβｉとして用いると、セクション類似度Ｓｉｍ（Ｍｉ）が１となる場合に文書の重要度を２分の１にすることができる。

また、文書の重要度の算出には（８）式を用いてもよい。

ｃｉｊは検索結果のｉ番目の文書のｊ番目の適合セクションにおける文章数であり、Ｌは任意の定数である。文章数は、セクションデータベース２０３に記録されている節情報から得ることができる。節情報には各節のテキストが記録されているため、テキスト中の句点の数を数えることにより文章数を得ることができる。セクション抽出部２０２で節の入れ子構造まで考慮して節を抽出すると、一つの文書であっても多数の節が抽出される可能性がある。そこで、（８）式に示すように、文章数による重み付けを行うことにより、文章数が多い適合セクションのセクションスコアを重視し文書の重要度を求めるようにする。これにより、セクションスコアが高く文章数が多い適合セクションがあり、かつ、それら適合セクションが類似する内容ではない文書を重要と判定することができる。

なお、各節の文章数は予めセクション抽出部２０２で算出しておき、セクションデータベース２０３に節情報と共に格納しておいてもよい。こうすることにより、スコアリング処理時に文章数を数える処理をなくすことができるため、スコアリング処理の高速化が行える。また、ｃｉｊは文章数以外の値でも構わない。例えば、段落数でもよいし、文字数でもよい。また、本検索システムを論文などに含まれる従来技術の検索用に用いるのであれば、ｃｉｊとして[1]や[2]などの引用の数を数えるように変更してもよい。こうすることにより、適合セクション中に多くの引用が含まれる文書を重要と判定することが可能となる。

さらに、（５）式、（７）式、（８）式において第２項の前にある「−」を「＋」に変えて文書重要度を算出してもよい。例えば、（５）式の第２項の符号を「＋」に変えた（９）式を用いることができる。

正負を逆転させることによって、検索キーワード以外にはキーワードに特化している専門書のような文書を重要と判定することが可能になる。

以上のように文書重要度の算出方法には幾つかのバリエーションが考えられる。どの算出方法を用いるかは、文書重要度算出システムのシステム管理者が決定すればよい。

出力部３０２は、具体的には、プログラムに従って動作する情報処理装置のＣＰＵ（Central Processing Unit）によって実現される。出力部３０２は、セクションスコア統合部１０４から検索結果の文書とその文書の重要度を得て、重要度が高い順に文書をディスプレイ装置等の表示装置を用いて表示する。

図２２に検索結果の表示画面の一例を示す。出力部３０２は、図２２に示す様態で、文書の重要度が高い順に文書を表示する。このとき既存の検索システムでも行われているように、文書名に対して文書の保存先へのハイパーリンクを張ることにより検索者は文書に容易にアクセスすることができる。また、各文書の重要度を検索結果に表示してもよい。これにより検索者は、文書がどの程度重要であるかを直感的に判断することができる。

本実施の形態１に係る文書重要度算出部によれば、クエリに適合する文書を特定の観点で順序づける文書の重要度をその文書内の情報のみを用いて算出することができる。その結果、特定の観点で重要な文書を上位にランクさせることができるため、検索者が必要とする文書へのアクセスを容易にすることができる。特に、クエリに関して様々な情報を含む文書を上位にランクさせることができる。

（実施の形態２）
図２３は、本発明の実施の形態２に係る文書検索システムの構成例を示す。本実施の形態では、文書重要度算出部１０が図１に示した構成要素に加えて、関連キーワード抽出部１０５を含む点で実施の形態１と異なる。

図２４は、実施の形態２に係る文書検索システムの動作の一例を示すフローチャートである。図２に示すフローチャートとは、スコアリング処理においてステップＳ１０７が増えている点で異なる。

実施の形態１では、セクション分析時に各節のセクションキーワードを抽出しており、スコアリング処理時に動的にセクションキーワードを決定するという処理がない。しかしながら、各節において重要となる文字列は、クエリに用いられた検索キーワードによって異なると考えられる。

関連キーワード抽出部１０５は、セクション検索部１０２から検索結果を得て、適合セクションの節のテキストから、検索キーワードと共起回数が多い文字列を抽出し、該文字列をセクションキーワードとしてセクション類似度算出部１０３に出力する。本処理は図２４におけるスコアリング処理のステップＳ１０７に相当する。

検索キーワードと共起回数が多い文字列を抽出する方法について説明する。
まず、関連キーワード抽出部１０５は、クエリから各検索キーワードを切り出す。このときＮＯＴ演算子が付与されている検索キーワードは除外する。

次に、関連キーワード抽出部１０５は、セクションデータベース２０３に格納されている節情報を参照し、セクションＩＤをキーとして、適合セクションのテキスト情報を抽出する。抽出したテキスト情報から、句点を区切りとして文章単位のテキストを取得する。得られた文章単位のテキストから検索キーワードを含む文章を特定し、この文章から既存の形態素解析技術を用いて品詞が名詞である文字列を抽出する。

図２５は、セクションキーワードを抽出する課程を説明するための説明図である。図２５には、ある検索において適合セクションとなった節のセクションＩＤ、検索キーワードを含む文章の番号、各文章に形態素解析を適用し抽出した名詞を示している。この名詞がセクションキーワードの候補となる。文章の番号は「Ｓ数字」という書式で記載している。「ｎ数字」は一つの名詞を表しており、同じ数字の名詞は同一の文字列であることを表す。図２５から、セクションＩＤ：１の節には、検索キーワードを含むＳ１、Ｓ５、Ｓ９という３つの文章があり、各文章に｛ｎ１、ｎ２｝｛ｎ１、ｎ３｝｛ｎ１、ｎ３｝という名詞が含まれていたことがわかる。

次に、関連キーワード抽出部１０５は、適合セクション毎に同一の名詞の数をカウントする。これが検索キーワードとの共起回数となる。図２６に図２５に対して上記のカウント処理を適用した結果を示す。図２６では、セクションＩＤ：１の節には、検索キーワードと共起する名詞は｛ｎ１、ｎ２、ｎ３｝の３種類であり、それぞれ検索キーワードと３回、２回、１回共起していることがわかる。

最後に、関連キーワード抽出部１０５は、所定の回数以上共起している名詞、もしくは共起回数が多い上位γ個の名詞をセクションキーワードとして抽出する。最も共起回数が多いもののみをセクションキーワードとする場合、図２６の例では、セクションＩＤ：１の節からは「ｎ１」が、セクションＩＤ：２の節からは「ｎ４」がセクションキーワードとして抽出される。

セクション類似度算出部１０３では、関連キーワード抽出部１０５で抽出したセクションキーワードとセクションキーワード抽出部２０４で抽出したセクションキーワードを用いてセクション類似度を算出する。関連キーワード抽出部１０５を備えることにより、検索キーワードと共起する単語を用いて、セクション類似度を算出できるようになるため、実施例１と比較して、クエリに対する内容の近さでセクション類似度を算出することが可能になる。

（実施の形態３）
図２７は、本発明の実施の形態３に係る文書検索システムの構成例を示す。本実施の形態では、文書重要度算出部１０が図１に示した構成要素に加えて、検索条件判定部１０６を含む点で実施の形態１と異なる。図２８は、実施の形態３に係る文書検索システムの動作の一例を示すフローチャートである。

文書重要度算出部１０で求められる文書重要度は、検索以外の様々なキーワードを含む文書を重視するためのものである。この文書重要度を用いたランキングをセクションランキングと呼ぶ。セクションランキングを必要となるかどうかは検索者の検索意図次第である。そこで検索者が恣意的にセクションランキングを用いるか否かを決められるようにしておく。

出力部３０２が表示する検索画面の１例を図２９に示す。この検索画面において、入力フォーム４０４にクエリが入力され検索ボタン４０５が押下されると、入力部３０１が該クエリを検索条件判定部１０６に出力する。

検索条件判定部１０６は、入力部３０１からクエリを得、セクションランキングを行うか否かを判定し（ステップＳ１０８）、セクションランキングを行うのであれば（ステップＳ１０８；ＹＥＳ）、セクション検索部１０２にクエリを出力する。本処理は図２８のスコアリング処理におけるＳ１０８に相当する。なお、セクションランキングを行わない場合は（ステップＳ１０８；ＮＯ）、通常の文書検索システムを別途用意しておき、該システムにクエリを出力して、通常の文書検索を行う（ステップＳ１０９）ようにしておけばよい。図２７に示す構成図では通常の検索を行うシステムは示していない。

検索条件判定部１０６は、検索クエリ中の所定の記号の有無によりセクションランキングを行うか否かを判定する。図３０は、図２９の検索画面において、検索者がセクションランキングを用いることを明記している一例である。図３０の入力フォームには「パソコンＡＮＤ製品調査」というクエリの後に、「＜」という記号が付いている。入力フォーム内の文字列の最後に「＜」が付与されている場合は、セクションランキングを行うものとするというルールを検索条件判定部１０６に登録しておく。このルールにより、検索条件判定部１０６は、該クエリをセクション検索１０２に出力すればよいということを判定できる。用いる記号は任意である。

また検索クエリなどに用いる記号によって、セクション類似度の算出方法ならびに文書の重要度の算出方法が変わるようにしてもよい。実施の形態１で示したように、セクション類似度算出部１０３ならびにセクションスコア統合部１０４には、セクション類似度と文書の重要度の算出方法に幾つかのバリエーションがある。これらをクエリ内の文字列で指定できるようにしてもよい。例えば、セクションスコア統合部１０４においては、通常、適合セクションとなる各節の重要度に対してセクション類似度の値を引く処理をするが、図３１のように入力フォーム内の最後の文字が「＞」である場合は、該減算処理を加算処理に変更するようにしてもよい。こうすることで、検索者はクエリの最後に「＜」を付与するか「＞」を付与するかで、検索キーワード以外に様々なキーワードを含む文書を検索するためのランキングと、ある特定のキーワードに関する内容について詳述している文書を検索するためのランキングとを使い分けることができる。

この他、使用する計算式に重複しない番号を付与しておき、その番号を入力フォーム中に記載すると、その番号に対応する計算式が用いられるようにしておいてもよい。これにより、様々な計算式によるランキング結果を試すことができる。なお、入力フォームに記号を加えるのではなく、図２９に示す検索画面にセクションランキングを用いるか否かを決めるチェックボックスを準備しておいてもよい。

その他、本発明の好適な変形として、以下の構成が含まれる。

本発明の第１の観点に係る文書重要度算出システムについて、好ましくは、
前記類似度算出手段は、
前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記適合節ごとの重要語のうち２以上の前記適合節に含まれる前記重要語からなる集合である共通重要語集合と、前記節内重要語集合の和集合である重要語和集合とを抽出し、
前記文書について、前記適合節ごとの前記節内重要語集合と前記共通重要語集合との積集合の要素数と前記適合節の節重要度との積の和を分子とし、前記重要語和集合の要素数と前記適合節の節重要度の総和の積を分母とする分数の値を、前記適合節の間の類似度とする
ことを特徴とする。

前記類似度算出手段は、前記適合節の節重要度を所定の一定値として前記適合節の間の類似度を算出してもよい。

前記類似度算出手段は、
前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記節内重要語集合の和集合である重要語和集合を抽出し、
前記重要語和集合の要素数の逆数に所定の値を乗じた値を前記適合節の間の類似度としてもよい。

前記類似度算出手段は、
前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記適合節ごとの重要語のうち２以上の前記適合節に含まれる前記重要語からなる集合である共通重要語集合と、前記節内重要語集合の和集合である重要語和集合とを抽出し、
前記共通重要語集合の要素数を前記重要語和集合の要素数で除算した値を前記適合節の間の類似度としてもよい。

好ましくは、前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第１項から、前記類似度に正数の重みを乗じて減算した値を、前記文書重要度とする。

または、前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第１項に、前記類似度に正数の重みを乗じて加算した値を文書の重要度として算出してもよい。

好ましくは、前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第１項の逆数に所定の正数を乗じた値を、前記類似度に乗ずる重みとする。

好ましくは、前記重要度算出手段は、前記文書について、前記適合節の節重要度の総和を前記第１項とする。

または、前記重要度算出手段は、前記文書について、前記適合節の節重要度の総和に、前記文書の節の数と前記適合節の数との比を乗じた値を前記第１項としてもよい。

あるいはまた、前記重要度算出手段は、前記文書について、前記適合節の節重要度に、前記適合節に含まれる文の数と所定の数との比を乗じた値の総和を前記第１項としてもよい。

好ましくは、前記文書に含まれる節の間に従属関係が特定されている場合、ある節に従属する節の重要語に、従属される節の重要語を追加する節キーワード抽出手段を備える。

前記検索条件と関連する文字列を前記節内から抽出し、前記抽出した文字列を前記抽出元である前記節の重要語に追加する関連キーワード抽出手段を備えてもよい。

好ましくは、前記関連キーワード抽出部は、前記適合節において前記検索条件の条件項の文字列を含む文を抽出し、その文に多く含まれる所定の品詞の単語を、前記適合節の重要語とする。

与えられた検索条件中の文字列に基づいて、前記節重要度算出手段、前記類似度算出手段、および／または、前記重要度算出手段の算出方法を切り替える検索条件判定手段と、
を備えてもよい。

前記検索条件判定手段は、前記検索条件の文字列の中から所定の記号を抽出した場合に、その所定の記号に応じて前記節重要度算出手段、前記類似度算出手段、および／または、前記重要度算出手段の算出方法を切り替えるよう構成することができる。

本発明の第２の観点に係る文書重要度算出方法について、好ましくは、
前記検索条件と関連する文字列を前記節内から抽出し、前記抽出した文字列を前記抽出元である前記節の重要語に追加する関連キーワード抽出ステップを備えることを特徴とする。

各実施の形態で説明した文書重要度算出装置１０および文書検索システムは一例であり、任意に変更および修正が可能である。文書重要度算出装置１０および文書検索システムの構成は、実施の形態で示したものがすべてではなく、これらに限定されるものではない。

本発明の実施の形態１に係る文書検索システムの構成例を示すブロック図である。実施の形態１に係る文書検索システムの動作の一例を示すフローチャートである。文書情報の一例を示す説明図である。目次のページがある文書の一例を示す説明図である。目次のページがある文書の本文を節に分割した一例を示す説明図である。目次のページがない文書の本文を節に分割した一例を示す説明図である。節情報の一例を示す説明図である。目次のページがあり節が入れ子構造になった文書の本文を節に分割した一例を示す説明図である。目次のページがなく節が入れ子構造になった文書の本文を節に分割した一例を示す説明図である。節の入れ子構造を考慮した節情報の一例を示す説明図である。セクションキーワードの一例を示す説明図である。セクションキーワードの別の一例を示す説明図である。節の入れ子構造を考慮した際に追加されるセクションキーワードの一例を示す説明図である。適合セクションの一例を示す説明図である。セクションスコアの一例を示す説明図である。検索結果の一例を示す説明図である。文書ＩＤ：Ｄ００１の文書のセクション類似度を求めるためのパラメタの示す説明図である。適合セクションとセクションキーワードの関係の一例を示すベン図である。検索結果の別の一例を示す説明図である。互いに疎な内容である適合セクションの一例を示すベン図である。互いの内容が類似する適合セクションの一例を示すベン図である。検索結果の表示の様態の一例を示す説明図である。本発明の実施の形態２に係る文書検索システムの構成例を示すブロック図である。実施の形態２に係る文書検索システムの動作の一例を示すフローチャートである。検索キーワードと共起する名詞を抽出した結果の一例を示す説明図である。検索キーワードと名詞との共起回数を算出した結果の一例を示す説明図である。本発明の実施の形態３に係る文書検索システムの構成例を示すブロック図である。実施の形態３に係る文書検索システムの動作の一例を示すフローチャートである。検索画面の一例を示す説明図である。セクションランキングを動作させる入力クエリの一例を示す説明図である。セクションランキングを動作させる入力クエリの他の例を示す説明図である。

符号の説明

１０文書重要度算出部
１０１セクションキーワードデータベース
１０２セクション検索部
１０３セクション類似度算出部
１０４セクションスコア統合部
１０５関連キーワード抽出部
１０６検索条件判定部
２０１文書データベース
２０２セクション抽出部
２０３セクションデータベース
２０４セクションキーワード抽出部
３０１入力部
３０２出力部

Claims

文書を重複なく節に分割し、その分割された各節の中から所定の基準で選択された重要語を取得する節キーワード取得手段と、
前記文書から、与えられた検索条件に適合する節である適合節を検索する適合節検索手段と、
前記適合節検索手段で検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出手段と、
前記節キーワード取得手段で取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出手段と、
前記適合節ごとの節重要度および前記類似度算出手段で算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出手段と、
を備えることを特徴とする文書重要度算出システム。
前記類似度算出手段は、
前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記適合節ごとの重要語のうち２以上の前記適合節に含まれる前記重要語からなる集合である共通重要語集合と、前記節内重要語集合の和集合である重要語和集合とを抽出し、
前記文書について、前記適合節ごとの前記節内重要語集合と前記共通重要語集合との積集合の要素数と前記適合節の節重要度との積の和を分子とし、前記重要語和集合の要素数と前記適合節の節重要度の総和の積を分母とする分数の値を、前記適合節の間の類似度とする
ことを特徴とする請求項１に記載の文書重要度算出システム。
前記類似度算出手段は、前記適合節の節重要度を所定の一定値として前記適合節の間の類似度を算出することを特徴とする請求項２に記載の文書重要度算出システム。
前記類似度算出手段は、
前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記節内重要語集合の和集合である重要語和集合を抽出し、
前記重要語和集合の要素数の逆数に所定の値を乗じた値を前記適合節の間の類似度とする
ことを特徴とする請求項１に記載の文書重要度算出システム。
前記類似度算出手段は、
前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記適合節ごとの重要語のうち２以上の前記適合節に含まれる前記重要語からなる集合である共通重要語集合と、前記節内重要語集合の和集合である重要語和集合とを抽出し、
前記共通重要語集合の要素数を前記重要語和集合の要素数で除算した値を前記適合節の間の類似度とする
ことを特徴とする請求項１に記載の文書重要度算出システム。
前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第１項から、前記類似度に正数の重みを乗じて減算した値を、前記文書重要度とすることを特徴とする請求項１ないし５のいずれか１項に記載の文書重要度算出システム。
前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第１項に、前記類似度に正数の重みを乗じて加算した値を文書の重要度として算出することを特徴とする請求項１ないし５のいずれか１項に記載の文書重要度算出システム。
前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第１項に所定の正数を乗じた値を、前記類似度に乗ずる重みとすることを特徴とする請求項６または７に記載の文書重要度算出システム。
前記重要度算出手段は、前記文書について、前記適合節の節重要度の総和を前記第１項とすることを特徴とする請求項６ないし８のいずれか１項に記載の文書重要度算出システム。
前記重要度算出手段は、前記文書について、前記適合節の節重要度の総和に、前記文書の節の数と前記適合節の数との比を乗じた値を前記第１項とすることを特徴とする請求項６ないし８のいずれか１項に記載の文書重要度算出システム。
前記重要度算出手段は、前記文書について、前記適合節の節重要度に、前記適合節に含まれる文の数と所定の数との比を乗じた値の総和を前記第１項とすることを特徴とする請求項６ないし８のいずれか１項に記載の文書重要度算出システム。
前記文書に含まれる節の間に従属関係が特定されている場合、ある節に従属する節の重要語に、従属される節の重要語を追加する節キーワード抽出手段を備えることを特徴とする請求項１ないし１１のいずれか１項に記載の文書重要度算出システム。
前記検索条件と関連する文字列を前記節内から抽出し、前記抽出した文字列を前記抽出元である前記節の重要語に追加する関連キーワード抽出手段を備えることを特徴とする請求項１ないし１２のいずれか１項に記載の文書重要度算出システム。
前記関連キーワード抽出部は、前記適合節において前記検索条件の条件項の文字列を含む文を抽出し、その文に多く含まれる所定の品詞の単語を、前記適合節の重要語とすることを特徴とする請求項１３に記載の文書重要度算出システム。
与えられた検索条件中の文字列に基づいて、前記節重要度算出手段、前記類似度算出手段、および／または、前記重要度算出手段の算出方法を切り替える検索条件判定手段を備えることを特徴とする請求項１に記載の文書重要度算出システム。
前記検索条件判定手段は、前記検索条件の文字列の中から所定の記号を抽出した場合に、その所定の記号に応じて前記節重要度算出手段、前記類似度算出手段、および／または、前記重要度算出手段の算出方法を切り替えることを特徴とする請求項１５に記載の文書重要度算出システム。
文書の内容から該文書の重要度を算出する文書重要度算出システムが行う文書重要度算出方法であって、
節キーワード取得手段が行う、文書データベースに記憶された文書を重複なく節に分割し、その分割した各節の中から所定の基準で選択された重要語を取得する節キーワード取得ステップと、
適合節検索手段が行う、前記文書から、入力部に入力された検索条件に適合する節である適合節を検索する適合節検索ステップと、
節重要度算出手段が行う、前記適合節検索ステップで検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出ステップと、
類似度算出手段が行う、前記節キーワード取得ステップで取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出ステップと、
重要度算出手段が行う、前記適合節ごとの節重要度および前記類似度算出ステップで算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出ステップと、
を備えることを特徴とする文書重要度算出方法。
関連キーワード抽出手段が行う、前記検索条件と関連する文字列を前記節内から抽出し、前記抽出した文字列を前記抽出元である前記節の重要語に追加する関連キーワード抽出ステップを備えることを特徴とする請求項１７に記載の文書重要度算出方法。
コンピュータを、
文書を重複なく節に分割し、その分割された各節の中から所定の基準で選択された重要語を取得する節キーワード取得手段と、
前記文書から、与えられた検索条件に適合する節である適合節を検索する適合節検索手段と、
前記適合節検索手段で検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出手段と、
前記節キーワード取得手段で取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出手段と、
前記適合節ごとの節重要度および前記類似度算出手段で算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出手段、
として機能させることを特徴とする文書重要度算出プログラム。