JP5146108B2 - 文書重要度算出システム、文書重要度算出方法およびプログラム - Google Patents

文書重要度算出システム、文書重要度算出方法およびプログラム Download PDF

Info

Publication number
JP5146108B2
JP5146108B2 JP2008138237A JP2008138237A JP5146108B2 JP 5146108 B2 JP5146108 B2 JP 5146108B2 JP 2008138237 A JP2008138237 A JP 2008138237A JP 2008138237 A JP2008138237 A JP 2008138237A JP 5146108 B2 JP5146108 B2 JP 5146108B2
Authority
JP
Japan
Prior art keywords
document
section
clause
importance
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008138237A
Other languages
English (en)
Other versions
JP2009288870A (ja
Inventor
康高 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2008138237A priority Critical patent/JP5146108B2/ja
Publication of JP2009288870A publication Critical patent/JP2009288870A/ja
Application granted granted Critical
Publication of JP5146108B2 publication Critical patent/JP5146108B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、検索条件に適合する度合いの指標となる文書の重要度を算出する文書重要度算出システム、文書重要度算出方法およびプログラムに関する。
インターネットの普及に伴い我々は多くの情報にアクセスできるようになった。しかしながら、アクセスできる情報が多くなるほど必要とする情報だけを効率よく取得することが難しくなってきている。そのため、必要な情報が記載された文書を的確に発見し提示してくれる検索システムが求められている。
文書を検索する方法の一つにキーワード検索がある。以降、本文中における検索はキーワード検索を表すものとする。検索システムは検索クエリが表す検索条件を満たす文書を、所定の基準でランキング(順序付け)して検索者に提示する。ここで検索クエリとは検索キーワードと検索キーワード間の論理演算とで記述されるものである。以降、検索クエリをクエリと略する。
例えば、クエリが「NEC AND 株価」である場合、「NEC」と「株価」が検索キーワードであり、検索キーワード間の論理演算は「AND」である。この例では、「NEC」と「株価」の両方の文字列を含む文書が、このクエリの検索条件を満たす文書となる。このようにある文書がクエリの検索条件を満たすことを、本明細書では、「適合する」と表現する。
クエリに適合する文書が多い(検索結果が多い)場合、全ての文書を閲覧することは困難である。そのため、検索者の多くは、上位にランクされた文書を見て所望の情報の有無を確認する。このとき下位にランクされている文書は存在しないも同然である。すなわち、検索システムにおいては、検索者が必要とする文書を上位にランクさせることが重要になる。
特許文献1には、文書の類似検索の技術が記載されている。特許文献1の技術は、検索対象文書を例えば分野別に分類し、その分野毎に、単語毎の出現頻度に対する最適な重みを算出し、検索キー文書および検索対象文書からそれぞれ抽出された単語の出現頻度と前記分類別の重みを用いて検索キー文書と検索対象文書との類似度を求めるために必要なノルム情報を作成する。
特許文献2には、文書データベースから分割されたグループに対する各文書データの特徴をどの程度検索結果に反映するかをユーザが柔軟に調整する方法が記載されている。特許文献2の技術では、指定されたキーワードについて、全文書データに対する第1単純重要度および分割された自グループに対する第2単純重要度を文書データ毎に計算する。そして、第1、第2単純重要度と指定されたパラメータにより各文書データの複合重要度を計算する。
特許文献3には、情報量が多い重要文を抽出するために、文の重要度をリード文の中に含まれる単語と同じ単語あるいは機能が同じ単語が他の各文中に含まれるほどその文の重要度が低くなるように定めることが記載されている。また、特許文献4には、基本文書と付随文書との関連づけと、指定された検索文字列に対する重要度、類似度または係り受け関係によって文書情報を検索することが記載されている。
特許文献5は、情報の豊富さおよび話題の多様性に基づいて、検索結果のドキュメントを順位付けることが記載されている。特許文献5の順位付けのシステムは、ドキュメントの関係性に基づき検索結果のドキュメントをグループ化し、各グループのドキュメントを同一の話題に方向付ける。順位付けのシステムは、最も高い順位のドキュメントが、各話題に及ぶ少なくとも1つのドキュメント、すなわちグループの各々からの1つのドキュメントを含み得る。順位付けのシステムは、各グループからグループ内の最も高い情報の豊富さを有するドキュメントを選択する。
その他、特許文献6には、検索対象文書中で特に強い関連性を有する部分を提示するために、検索対象文書を検索対象文章に分割し、検索対象文章をワードに分割し、条件句中のキーワードと一致する共通キーワードを抽出することが記載されている。また、特許文献7には、分類条件設定作業のために、分別された意味分類に属する各キーワード候補について、右側に位置する意味分類に属するキーワード候補との共起回数を調べ、その回数が多い順に左側の語と線で連結して表示することが記載されている(段落[0024])。
特開2000−331026号公報 特開2001−142887号公報 特開2001−249948号公報 特開2005−148892号公報 特開2005−322244号公報 特開2005−327213号公報 特開2006−323517号公報
ある事物について幅広い調査を行う際には、カタログのように様々な情報がまとまっている文書を必要とすることがある。例えば、競合他社の「パソコン製品」について調査することになった検索者を想定する。このとき、多くのメーカのパソコンについてまとめているような文書が入手できると、検索者の業務は効率化される。これと類似する検索要求は多い。例えば、製品の導入事例等について調べる際には、様々な導入事例が記載されている文書が上位にランクされることが望ましい。
しかしながら、このような文書を検索することは容易ではない。上記の例では検索者の多くが、「パソコン AND 製品調査」など、必要とする文書を端的に表す文字列をクエリとして用いる。しかしながら、「パソコン AND 製品調査」では、これら検索キーワードを含む文書を検索できても、実際に多くのメーカの製品情報が載っているかどうかはランキングに反映されているわけではない。すなわち、「パソコン AND 製品調査」などのクエリが与えられた際には、該クエリに適合し、かつ、様々な情報が記載されている文書を上位にランクさせる必要がある。
なお、様々なパソコンメーカが記載されている文書を見つけるために「パソコン AND (NEC AND 富士通 AND DELL)」などのように具体例をクエリとして入力する方法もあるが、クエリに適合する文書が少なくなり、必要とする文書が検索漏れになる可能性がある。
様々な情報が記載されている文書を重視する文書重要度の算出方法として、例えば、特許文献5がある。特許文献5の方法では、文書間の類似度を用いて文書中の情報の豊富さを計算している。この技術では、非対称な類似度計算を用いている。具体的には、ある映画監督の1つの映画についてのみ記載している文書は該監督の映画の全てについて説明した文書に対して高い類似度となり、反対に該監督の映画の全てについて説明した文書は1つの映画について記載した文書に対して低い類似度となる計算式を用いる。特許文献1の方法では、この計算式により多くの文書から類似度が高いと判定される文書は情報が豊富であると定義している。
しかしながら、特許文献5に記載の方法では、文書が様々な情報を含んでいるか/否かを判定するために多くの文書が必要となる。例えば、2つの文書があり、これらは互いにクエリに適合するが、内容は異なる文書であるとする。この場合、特許文献1の記載の方法では、これらの文書は共に情報が豊富でないと判定されることになる。この例は極端であるが、文書が多数あった場合でもこれと同様の問題は生じる。例えば、様々な情報が記載された文書があっても、この文書は、その個々の記載内容に関する文書がないと情報が豊富と判定されない。
本発明は、上述の事情に鑑みてなされたもので、その目的は、クエリに適合する文書を特定の観点で順序づける文書の重要度を、その文書内の情報のみを用いて判定して算出することである。
本発明の第1の観点に係る文書重要度算出システムは、
文書を重複なく節に分割し、その分割された各節の中から所定の基準で選択された重要語を取得する節キーワード取得手段と、
前記文書から、与えられた検索条件に適合する節である適合節を検索する適合節検索手段と、
前記適合節検索手段で検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出手段と、
前記節キーワード取得手段で取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出手段と、
前記適合節ごとの節重要度および前記類似度算出手段で算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出手段と、
を備えることを特徴とする。
本発明の第2の観点に係る文書重要度算出方法は、
文書の内容から該文書の重要度を算出する文書重要度算出システムが行う文書重要度算出方法であって、
節キーワード取得手段が行う、文書データベースに記憶された文書を重複なく節に分割し、その分割した各節の中から所定の基準で選択された重要語を取得する節キーワード取得ステップと、
適合節検索手段が行う、前記文書から、入力部に入力された検索条件に適合する節である適合節を検索する適合節検索ステップと、
節重要度算出手段が行う、前記適合節検索ステップで検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出ステップと、
類似度算出手段が行う、前記節キーワード取得ステップで取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出ステップと、
重要度算出手段が行う、前記適合節ごとの節重要度および前記類似度算出ステップで算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出ステップと、
を備えることを特徴とする。
本発明の第3の観点に係るプログラムは、コンピュータを、
文書を重複なく節に分割し、その分割された各節の中から所定の基準で選択された重要語を取得する節キーワード取得手段と、
前記文書から、与えられた検索条件に適合する節である適合節を検索する適合節検索手段と、
前記適合節検索手段で検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出手段と、
前記節キーワード取得手段で取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出手段と、
前記適合節ごとの節重要度および前記類似度算出手段で算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出手段、
として機能させることを特徴とする。
本発明により、クエリに適合する文書を特定の観点で順序づける文書の重要度をその文書内の情報のみを用いて算出することができる。その結果、特定の観点で重要な文書を上位にランクさせることができるため、検索者が必要とする文書へのアクセスを容易にすることができる。
以下に、本発明の課題を解決するための手段の要点を述べる。以下に記載する要点は、本発明の概念の一部を述べるものであり、本発明の請求範囲を限定するものではない。
本発明の重要度算出方法では、単一の文書の情報から、その文書に話題がどの程度含まれているかを推定し文書の重要度を算出する。一般に文書に複数の話題が記載されている場合、各話題は節単位でまとめられていることが多い。そのため、クエリに適合する節が多い文書は、クエリに関して様々な情報を含む文書であると考えられる。また、ただクエリに適合するだけではなくクエリとの関連性が高い節が多く含まれている文書ほど、価値ある情報が記載されている可能性が高い。
ここで、クエリとの関連性が高いとは、検索キーワードが多数含まれていることである。例えば、2つの節で構成されている文書があるとする。このとき、検索キーワードがこの2つの節に含まれており、かつ、この検索キーワードを含む文書が他にはなかったとする。この場合、該文書は、クエリに関して他の文書にはない情報を含む2つの節を有する有益な文書であることになる。
しかしながら、複数の節から構成されているが、それら節の内容が類似している文書もある。例えば、3つの節で構成される2つの文書があり、いずれの節も検索キーワード「パソコン」を含んでいるとする。しかしながら、一方は3つの節が全て「NEC」に関する話題であり、他方は3つの節は、それぞれ「NEC」「富士通」「DELL」に関する話題であるとする。この場合においては、後者の文書の方が、様々な情報を含む文書と捉えられる。
以上より、本発明では、クエリに関する様々な情報を含む文書の条件を以下のように定義する。
条件1:クエリとの関連性の高い節があること。
条件2:クエリに適合する節が多いこと。
条件3:クエリに適合する節が類似していないこと。
条件3は、各節のセクションキーワードの一致率により算出する。セクションキーワードとは、各節の内容を言い表す重要語である。セクションキーワードは1つの節に対して複数あることもある。仮に、クエリに適合する節が類似している場合、この文書は様々な情報を含むものではないため、文書の重要度を小さくする処理を行う。
以下に本発明の文書重要度算出方法の概要を説明する。
まず前処理として、各文書を節毎に重複しないように分割しておき、各節からセクションキーワードを抽出する。
続いて、クエリに適合する節を検索する。クエリに適合する節を適合セクションと呼ぶ。適合セクション毎にセクションスコアを算出する。セクションスコアとはクエリに対する各節の重要度であり、検索キーワードとの関連性が高いほど大きな値となる。そして、適合セクションを含む文書を特定する。この文書が本発明における検索結果になる。
次に、各文書の適合セクションの類似度を求める。適合セクションの類似度は一つの文書内の適合セクション間でセクションキーワードを比較することで求める。適合セクション間で共通するセクションキーワードの数が多いほど、類似度を高くする。なお、セクションキーワードに検索キーワードが含まれている場合は、その単語を除外し類似度を算出する。
最後に、各文書の適合セクションのセクションスコアおよび類似度から文書の重要度を求める。各文書中の適合セクションのセクションスコアを加算し文書の重要度の基本点を求める。そのため各適合セクションのセクションスコアの値が大きいほど基本点は大きな値になる(条件1)。また、適合セクションが多いほど、この基本点は大きな値になる(条件2)。この基本点から適合セクションの類似度に重みをかけた値を減じ、最終的な文書の重要度とする。この処理により、適合セクション間の類似度が高いほど文書の重要度は小さな値になる(条件3)。以上の処理により、条件1、2、3を満たす文書の重要度を算出する。なお、基本点に適合セクションの類似度に重みをかけた値を加算すると、正負を逆転させることによって、検索キーワード以外にはキーワードに特化しているより専門的な文書を重要と判定することが可能になる。
以下、この発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付し、その説明は繰り返さない。
(実施の形態1)
図1は、本発明の実施の形態1に係る文書検索システムの構成の一例を示す。文書検索システムは、文書データベース201と、セクション抽出部202と、セクションデータベース203と、セクションキーワード抽出部204と、入力部301と、出力部302と、文書重要度算出部10とから構成される。文書重要度算出部10は、セクションキーワードデータベース101とセクション検索部102とセクション類似度算出部103とセクションスコア統合部104から構成される。文書重要度算出部10は、プログラムに従って動作するコンピュータ(例えば、パーソナルコンピュータ等の情報処理装置)によって実現される。
本実施の形態において、文書重要度算出部10は、例えば、企業における社内文書検索サービス等の用途に適用される。また、インターネットやイントラネットなどの検索エンジンサービス等の用途に適用される。
図2は、実施の形態1に係る文書検索システムの動作の一例を示すフローチャートである。以降、図1および図2を参照して、本発明の各構成要素について説明する。図2に示すように本発明を用いた文書検索処理は、前処理として行うセクション分析処理(a)と、検索時に行うスコアリング処理(b)から構成される。セクション分析処理は、文書を節に分割する処理(ステップS101)と、セクションキーワードを抽出する処理(ステップS102)が主要な処理である。節に分割する処理はセクション抽出部202が行い、セクションキーワードの抽出はセクションキーワード抽出部204が行う。また、スコアリング処理は、クエリを入力(ステップS103)したのち、クエリに適合するセクションを検索する処理(ステップS104)と、適合セクション間の類似度を算出する処理(ステップS105)と、文書の重要度を算出する処理(ステップS106)が主要な処理である。
以下に図1に示す実施の形態の各構成要素について説明する。
文書データベース201は、検索対象となる文書と文書情報を記録する。文書情報の例を図3に示す。文書情報は、文書ID、文書名、文書保存先などを含む。文書IDは各文書を特定するための識別子である。各文書は、文書作成者が登録してもよいし、クローラなどにより自動収集してもよい。蓄積される文書は、コンピュータが処理できる電子文書であれば形式を問わない。例えば、文書作成プログラム(ワープロ。例えばMSWord(登録商標))で作成された文書でもよいし、プレゼンテーション用ソフト(例えばMSPowerPoint(登録商標))で作成されたプレゼンテーション用の文書などでもよい。また、HTML(HyperText Markup Language)やXML(eXtensible Markup Language)で作成された文書のように構造化された文書でもよい。
セクション抽出部202は、文書データベース201から文書を得て、各文書内の目次などの情報を利用して文書を重複しない節に分割し節単位の文書を抽出する。分割した節毎の文書を節情報としてまとめて、セクションデータベース203ならびにセクションキーワード抽出部204に出力する。本処理は図2におけるセクション分析のステップS101に相当する。
文書から節を抽出する方法の一例について以下に述べる。目次のページがある場合、節の抽出は行いやすい。図4は目次のページがある文書の一例である。図4は左から順にページが並んでいるものとする。図4の文書中の「タイトル」は文書のタイトル、「**」は各節の見出し、「・・・」は本文である。まず、セクション抽出部202は、目次のページから文書中に含まれる節の見出しを抽出する。例えば、既存のテキスト処理技術を用いて「目次」や「概要」などと書かれているページを目次のページとして抽出し、そのページ中から箇条書きされているテキストを抽出する。箇条書きされている各行の文字列を見出しとみなし、各見出しの文字列と一致する文字列を本文から特定し、本文を重複しないように分割する。このとき分割されたひと塊の文章の集合を一つの節として抽出する。図5は図4の文書を節毎に区切った結果である。実線の丸枠で囲まれた部分が一つの節である。
図6に示すような目次のページがない文書においても、本文中から「1節 **」などの節番号が付与されている場所を見出しとして抜き出し、見出しから次の見出しまでを一つの節として抽出する。また、文書のデータがXMLなど構造化された情報として記録されている場合においては、例えば、XML文書中からtitle、chapter、section、subsectionなどタイトルや見出しに用いられるタグを抽出して、タグとタグとの間を一つのセクションとして抽出すればよい。
図7は、節情報の一例を示す。節情報には、セクションID、文書ID、および節内に記載されているテキストが含まれている。セクションIDは各文書の各節を特定するための識別子である。文書IDは文書データベース201内に記憶されている文書IDと対応している。また、節情報における各節は文書における出現順に格納されているものとする。
文書によっては,1節の中に「1.1節」や「1.2節」などがあり、節が入れ子構造になっているものもある。このような場合においては、入れ子部分を無視し、「1節」「2節」など最も大きい単位の節のみを抽出するようにしてもよいし、入れ子構造を判定し節を抽出してもよい。
入れ子構造になっている文書の例を図8と図9に示す。同図では、本文を節で区切った結果を丸枠で示している。図8は目次のページがある例、図9は目次のページがない例である。入れ子構造の判定は、各節の見出しに含まれている節の番号を用いて行えばよい。例えば、見出しの先頭文字列が「1.1節」や「1.1.」などであれば、これらは「1節」や「1.」などの節に従属するものと判断できる。また、目次のページがある場合、箇条書きされた文字列の字下げを分析することによって節の入れ子構造を判定することができる。図8に示す目次ページでは、1節の下に「○○」と「××」という見出しが字下げされて記載されている。そのため「○○」「××」は節番号がないが、1節に従属する節であると判定できる。
節の入れ子構造まで特定した場合における節情報の例を図10に示す。図10の例では、図7に示す節情報に加えて各節の階層の深さを記録している。タイトルが記載されている節を第0階層とみなし、「1節」「2節」に相当する節を第1階層、「1.1節」「1.2節」に相当する節を第2階層としている。こうすることにより、どの節がどの節に従属するものであるかを判断することが可能になる。例えば図10の節情報においてD001の「階層の深さ」列の値を抽出すると、{0,1,1,2,2,1}が得られる。
節情報は文書における節の出現順に格納されているため、文書中では、節に従属関係がある箇所で、抽出した「階層の深さ」列の値のように節の階層の深さが変化することになる。すなわち、ある節Aは、節Aの階層の深さの値よりも1小さい階層の深さの値であり、かつ、節Aよりも手前(節情報において上方)にある近接の節に従属する。図10の例では、例えば、階層の深さの値が2であるセクションIDが4と5の節は、階層の深さの値が1であり、セクションID:4および5の節の手前にあって近接するセクションID:3の節に従属することになる。なお、入れ子構造は階層の深さ以外の情報を用いて記録してもよい。例えば、節毎に親となる節のセクションIDを記載するようにしてもよいし、逆に子となる節のセクションIDを記載するようにしてもよい。
文書において、どこからどこまでを一つの節とみなすかは自由であるため、例えば、一段落を一つの節とみなすようにしてもよい。また、節への分割は必ずしも自動処理で行う必要はなく、人が登録/修正などを行ってもよい。
セクションデータベース203は、セクション抽出部202から入力された節情報を格納する。セクションデータベース203は、検索処理において、検索キーワードを含む節を特定するために用いられる。そのため、どのキーワードがどの節に含まれているかを特定できれば、節情報以外の形式で記録しても構わない。例えば、節毎のテキストに対して全文インデクスを生成してもよい。こうすることで入力された検索キーワードを含む節の文書IDとセクションIDとを高速に検索することができる。なお、セクションデータベース203は、人手によって直接、記録・修正・削除などを行ってもよい。
セクションキーワード抽出部204は、セクション抽出部202から節情報を得て、各節のテキストからセクションキーワードを抽出し、セクションキーワードデータベース101に出力する。本処理は図2におけるセクション分析のステップS102に相当する。
セクションキーワードは節を代表する文字列である。セクションキーワードの抽出は、既存のキーワード抽出技術を用いて行えばよい。代表的なものに、各節内における語の出現頻度を用いる方法がある。単に出現頻度の高い文字列を用いると一般的な語がセクションキーワードとして抽出されるため、当該文書において出現頻度が高いが、文書集合では出現頻度が低い語をセクションキーワードとするようにする。このようなキーワードの抽出はTF・IDFと呼ばれる基準を用いることにより実現できる。また、セクションキーワード抽出部204に不要語リストなどを登録しておくことにより、一般的な語がセクションキーワードとならないようにすることもできる。
そのほか、参考文献(大澤 幸生,Benson N. E.,谷内田 正彦,"語の共起グラフの分割・統合によるキーワード抽出",電子情報通信学会論文誌,D-I,Vol.J82-D-I,No.2, pp.391-400,1999.)に記載された技術を用いてセクションキーワードを抽出してもよい。参考文献は、単語の共起関係をグラフで表現し、そのグラフを分割・統合することにより著者の主張となるキーワードを抽出する技術が記載されている。
セクションキーワード抽出部204は、抽出したセクションキーワードを節毎にまとめる。得られたセクションキーワードの例を図11に示す。図11における「w数字」が一つのセクションキーワードを表しており、同一の数字が付与されたセクションキーワードは同じ文字列を表す。セクションキーワードの数は節毎に異なっていても構わない。例えば、図11の例では、セクションID:2の節にw2とw3が含まれており、セクションID:1と2の節に共通のセクションキーワードw1、w2が含まれている。
各節のセクションキーワードの抽出に節の入れ子構造を考慮してもよい。1.1節は1節に従属する節であるため、1節の文書の内容は1.1節やその後に続く1.2節の概要に相当するものであると考えられる。そこで、1節にw1というセクションキーワードがある場合、w1は1.1節のセクションキーワードでもあるとする。すなわち、ある節に含まれるセクションキーワードは、その節に従属する節にも暗黙的に含まれているものとする。こうすることにより、仮に1.1節にw1という単語が含まれていなくても、1節を代表する語であるw1を1.1節のセクションキーワードとすることができる。
以下にセクションキーワードを追加するための処理を示す。
Step1:ある文書(文書iとする)の節情報を抽出する。
Step2:文書iの先頭の節を節jとする。
Step3:節情報から節jの階層の深さを取得する。節jの階層の深さの値をxとする。
Step4:節jの次の節を節kとする。
Step5:節情報から節kの階層の深さを取得する。節kの階層の深さの値をyとする。
Step6:x<yであれば節jのセクションキーワードを節kのセクションキーワードに追加する。ただし、既に節kのセクションキーワードに節jのセクションキーワードがある場合は、追加処理は行わない。x≧yであれば、Step8に進む。
Step7:節kの次の節を新たな節kとしてStep5に戻る。ただし節kの次に節が無ければStep8に進む。
Step8 節jの次の節を新たな節jとしてStep3に戻る。ただし節jの次に節が無ければStep9に進む。
Step9:文書iの次の文書を新たな文書iとして、Step1に戻る。
他に文書がなければ処理を終了する。
以下に具体例を用いて、セクションキーワード抽出部204が行う上記の処理について説明する。図10の節情報が得られているものとし、図10に示す文書ID:D001の各節から図12に示すセクションキーワードが抽出されているとする。図10のセクションIDと図12のセクションIDは対応している。このとき図10の各節の「階層の深さ」列の値を利用して、各節に追加するセクションキーワードを決定する。なお、図10の節情報はセクションデータベース203から参照でき、図12のセクションキーワードの情報はメモリ上に格納するなどして参照できるようにしておく。
図13は、図12に示すセクションキーワードに対して、上記のルールを適用した際に追加されるセクションキーワードを示している。図13の「追加分」列が各節に追加されるセクションキーワードである。
Step1の処理では、図10に示す節情報から文書ID:D001の文書の節情報を抽出する。これは節情報の文書ID列が同一である節を抽出することで実現できる。
Step2の処理では、文書IDがD001である節情報の中で先頭に格納されているセクションID:1の節を節jとして抽出する。
Step3の処理では、節情報におけるセクションID:1の行の「階層の深さ」列の値を取得する。図10の例では、節jの階層の深さの値であるxは0となる。
Step4の処理では、セクションID:1の節の次の節であるセクションID:2の節を節kとして抽出する。
Step5の処理では、節情報におけるセクションID:2の行の「階層の深さ」列の値を取得する。図10の例では、節kの階層の深さの値であるyは1となる。
Step6の処理では、まずStep3とStep5において得られたxとyの大小関係を比較する。ここではx<yであるため、節kのセクションキーワードに節jのセクションキーワードを追加する。図12に示すように節jであるセクションID:1のセクションキーワードがw1とw2であり、節kであるセクションID:2のセクションキーワードがw1とw3である。そのため節jのセクションキーワードであるが、節kのセクションキーワードではないw2が、節kのセクションキーワードに追加される。図13のセクションID:2の行の「追加分」列のw2がこれに相当する。
Step7の処理では、節kをセクションID:2の節からセクションID:3の節に変更し、Step5の処理に戻る。節jであるセクションID:1の節は、文書ID:D001の中で最も階層の深さの値が小さい(階層が上位である)ため、節jがセクションID:1の節である間は、x≦yとなることはない。そのため、セクションID:1の節のセクションキーワードであるw1およびw2は、他の全ての節(セクションID:2〜6)のセクションキーワードに追加されることになる。節jがセクションID:1であるとき、Step5からStep7のループが終了するのは、節kがセクションID:6の節となるときである。節kがセクションID:6の節である状態でStep7の処理に移ると、節kとなる次の節がないため、Step7の処理からStep8の処理に移行することになる。
Step8の処理では、節jをセクションID:1から次の節であるセクションID:2に変更し、Step3の処理に戻る。ただし、節jがセクションID:2のとき、追加されるセクションキーワードはない。なぜならば、節jとなるセクションID:2の節と、Step4で節kとなるセクションID:3の節の「階層の深さ」の値は共に1であり、セクションキーワードを追加する条件(Step6のx<y)を満たさないためである。
Step6においてx<yとなるのは、節jがセクションID:3の節であり、節kがセクションID:4または5の節になるときである。このとき、セクションID:3の節のセクションキーワードであるw5とw6は、セクションID:4と5の節のセクションキーワードに追加される。以上のような繰り返し処理により、節の入れ子構造を考慮した場合におけるセクションキーワードの追加処理を行う。
Step9の処理は、上記Step1〜8のセクションキーワードの追加処理を登録されている全ての文書に対して行うためのものである。なお、セクションキーワードは人が直接、修正、加筆、削除してもよい。
セクションキーワードデータベース101は、各セクションのセクションキーワードを記録する。セクションキーワードは、抽出先である節のセクションIDとの対応関係がわかれば如何なる保存形式を用いても構わない。なお、セクションIDをキーとしてセクションキーワードが取得できるようにしておくと、セクション類似度算出部103で、類似度の算出を高速に行うことができる。
以降、スコアリングの処理について説明する。
入力部301は、検索者が入力したクエリをセクション検索部102に出力する。入力部301は、機械可読なクエリが入力できればどのような手段を用いても構わない。キーボードやマウスなどを用いてもよいし、音声入力でもよい。クエリにおける検索キーワード間の論理演算には「AND」や「OR」や「NOT」などがある。また、論理演算の優先順位を明確にするための「()」などを用いてもよい。「()」内の論理演算が優先して計算される。例えば、「ランキング AND (検索 OR サーチ) NOT 画像」は、「検索」または「サーチ」のいずれか一方の文字列を含み、かつ、「ランキング」という文字列を含むが、「画像」という文字列は含まない節を検索するためのクエリである。
セクション検索部102は、クエリに適合する節のセクションIDと文書IDをセクション類似度算出部103に出力する。本処理は図2におけるスコアリング処理のステップS104に相当する。
節の検索は既存の技術を用いて行うことができる。検索キーワードと節情報に記録されているテキストとを文字列比較して検索してもよいし、節単位の文書に対してインデクスを生成しておいて検索してもよい。なお、検索キーワードと節内の文字列は完全に一致する必要はない。セクション検索部102は「引越」と「引っ越し」のように表記ゆれがあっても検索できる機能を備えてもよいし、類義語辞書などを登録しておき「コンピュータ」と「計算機」を同一のものとみなす機能を備えてもよい。
以上のような検索を行いクエリに適合する節が適合セクションとなる。図14に適合セクションの一例を示す。セクション検索部102において適合セクションは、図14に示すようにセクションIDと文書IDのペアで得られる。セクション検索部102は節単位の検索を行うため、図14に示すように検索結果には同じ文書IDが重複して現れることもある。すなわち、一つの文書において複数の適合セクションが存在することもある。
次に、セクション検索部102は、各適合セクションの重要度を算出する。適合セクションの重要度をセクションスコアと呼ぶ。セクションスコアの計算は、含まれる検索キーワードの数などで決定すればよい。セクションスコアは値が大きいほどクエリと節の関連性が高いことを意味する。また、文書集合の情報を用いるならば、TF・IDF法などの従来技術を用いて行ってもよい。この場合、文書集合中では希少な検索キーワードが多く含まれている文書ほどセクションスコアが大きくなる。
なお、セクションスコアの計算には、テキスト以外の情報を用いても構わない。例えば、各節に含まれている図表やグラフなどの数をカウントし、その値をセクションスコアに加算してもよい。これにより、テキスト以外の様々なコンテンツを含む節を重要であると判定することができる。図15に適合セクションのセクションスコアの一例を示す。この例では、セクションID:2の節のセクションスコアが1であり、クエリとの関連性が最も高いことになる。
最後に、セクション検索部102は、同一の文書IDの適合セクションをまとめ、文書単位での検索結果をまとめる。図16に図14の適合セクションを文書ID毎にまとめた検索結果を示す。図16の検索結果には文書ID、各文書内の適合セクション、各適合セクションのセクションスコアがまとめられている。セクション検索部102はこれを検索結果としてセクション類似度算出部103に出力する。
以上のようにセクション検索部102の処理は、同一の文書IDを有する適合セクションをまとめる処理を除けば、検索システムが有する一般的な機能であり、容易に実現可能なものである。
なお、文書データベース201に文書単位での全文インデクスを登録しておいた場合には、セクション検索部102は、まず、クエリに適合する文書を文書単位の全文インデクスを用いて検索し、検索結果として得られた文書内で、さらに節単位の検索を行うようにしてもよい。この処理により得られる適合セクションは前記の処理により得られるものと全く同じである。ただし、後者の方法を用いた場合は、文書単位の全文インデクスを必要とするが、同一の文書IDを有する適合セクションをまとめる処理は必要なくなる。
セクション類似度算出部103は、セクション検索部102から検索結果を得て、セクションキーワードデータベース101を参照することにより、各文書内における適合セクションの類似度を算出し、その類似度をセクションスコア統合部104に出力する。本処理は図2におけるスコアリング処理のステップS105に相当する。適合セクションの類似度をセクション類似度と呼ぶ。
セクション類似度は文書毎に算出する。すなわち検索結果として得られた文書で複数の適合セクションを含むものが、セクション類似度算出部103の処理対象となる。例えば、図16の検索結果における処理対象はD001とD005である。適合セクションが一つしかない文書は類似度を0にする。なお、セクション類似度は文書毎に求められるものである。
一つの文書内における適合セクションのセクションキーワードが一致している場合、該適合セクションは類似している内容であると考えられる。セクション類似度を求める計算式の一例を(1)式に示す。セクション類似度の値域は[0:1]であり、値が1に近いほど適合セクションが類似していることを表す。なお、検索キーワードとセクションキーワードが一致している場合、セクションキーワードからその検索キーワードを除き、以下の計算を行う。
Figure 0005146108



(1)式の各記号の意味について例を用いて説明する。Miは処理対象となるi番目の文書の適合セクションの集合であり、Sim(Mi)はi番目のセクション類似度である。すなわち、M1は検索結果における1番目の文書の適合セクションを表し、それら適合セクションのセクション類似度がSim(M1)と表現される。(1)式のTijは、i番目の文書におけるj番目の適合セクションのセクションキーワードの集合である。例えば、検索結果の1番目文書の1つ目の適合セクションのセクションキーワードが「w4」と「w6」である場合、T11={w4,w6}となる。
検索結果の1番目の文書に3つの適合セクションがあり、それらのセクションキーワードがT11={w4,w6}、T12={w4,w9}、T13={w4,w7,w9}であるとして、UiとViについて説明する。UiはTijの和集合であり、|Ui|はUiの要素数である。Viはi番目の文書の適合セクションで重複するセクションキーワードの集合である。前記の例では、U1={w4,w6,w7,w9}であり、|Ui|=4となる。また、V1={w4,w9}となる。V1がw4とw9になる理由は、w4がT11、T12、T13の3つの適合セクションに重複して含まれており、w9がT12とT13の2つの適合セクションに重複して含まれているためである。
sijは、i番目の文書のj番目の適合セクションのセクションスコアを表す。(1)式は、適合セクションの全てのセクションキーワードが一致する場合に1となり、各適合セクションのセクションキーワードが他の適合セクションのどのセクションキーワードとも一致しない場合に0となる。
セクション類似度算出部103が、セクション類似度を計算するためには、適合セクションと各適合セクションのセクションスコアおよびセクションキーワードが必要となる。このうち、適合セクションとセクションスコアはセクション検索部102から検索結果として入力されるものである。また、各適合セクションのセクションキーワードは適合セクションのセクションIDをキーとしてセクションキーワードデータベース101から取得できるものである。
以下に、セクションの類似度の算出方法について具体例を用いて説明する。図16に示す検索結果が得られたと仮定する。ここでは図16中の文書ID:D001のセクション類似度を求める。図16の各適合セクションのセクションキーワードは図11に示すものであるとする。図11のセクションキーワードはセクションキーワードデータベース101に格納されており、図11のセクションIDは図16のセクションIDと対応しているものとする。
まず、セクション類似度算出部103は、適合セクションのセクションIDをキーとしてセクションキーワードデータベース101からセクションキーワードを取得する。取得した結果を図17に示す。図17にはD001の文書ID、セクションID、セクションキーワード、セクションスコアをまとめている。
次に、セクション類似度算出部103は、図17に示す適合セクションと各適合セクションのセクションキーワードとセクションスコアから、セクション類似度を算出するためのパラメタを取得する。図17に示す文書ID:D001を検索結果の1番目の文書であるとすると、(1)式中のMi、Tij、Ui、Vi、sijの各パラメタは以下のようになる。
[D001に対する(1)式の各パラメタの値]
M1={1,2,4}
T11={w1,w2},T12={w1,w2,w3},T13={w1,w4}
U1={w1,w2,w3,w4},|U1|=4
V1={w1,w2}
s11=0.6,s12=1.0,s13=0.4
適合セクションの集合M1には、セクションIDを格納する。M1を参照することにより、3番目の適合セクションがセクションID:4の節であることがわかる。T13のセクションキーワードがw1とw4となっているのは、3番目の適合セクションであるセクションID:4の節のセクションキーワードがw1とw4であるためである。
(1)式の計算に従えば、Sim(M1)={s11×(V1∩T11)+s12×(V1∩T12)+s14×(V1∩T14)}/{(s11+s12+s14)×|U1|}={0.6+1.0×2+0.4}/{(0.6+1.0+0.4)×4}=0.375となる。なお、類似度の計算においてセクションスコアを用いているのは、セクションスコアの高い適合セクションが他の適合セクションと似ている場合には、セクション類似度を高くするためである。こうすることにより、クエリとの関連性が高い節のセクションキーワードが異なっているほど文書の重要度を大きくすることができる。
セクションスコアをセクション類似度に反映させたくない場合は、(1)式からセクションスコアの変数であるsijを取り除いた式を用いればよい。あるいは、全てのsijを同一の定数にして計算してもよい。
図18はD001の各適合セクションにどのセクションキーワードが含まれているかを説明するためのベン図である。図18中の円401、円402、円403は、それぞれセクションID:1、2、4の適合セクションを表している。このベン図はセクション間で共通する単語があると、円同士が重なるものとする。全ての適合セクションがw1を含むため、3つの円が重なっている部分にw1が布置されている。また、w2はセクションID:1、2の節に共通して含まれているため、円401と円402のみが重なっている部分にw2が布置されている。適合セクションは検索キーワードを含むため、検索キーワードはw1と同様、3つの円が重なっている部分にある単語となる。この図は各セクション間の関係を表すイメージであるが、直感的には、(1)式は、このベン図の和集合を分母とし、2つ以上の円が重なっている共通集合部分を分子にしていると考えられる。
別の例として、文書ID:D010とD100とが検索結果となった場合を考える。各文書の適合セクションのセクションキーワードを取得した結果を図19に示す。D010およびD100は共にD001と同様、3つの適合セクションがあり、各適合セクションは{w1、w2、w3、w4}のいずれかのセクションキーワードを含んでいる。ただし各適合セクションがどのセクションキーワードを含むかがD001とは異なる。D010、D100に対する(1)式の各パラメタの値を以下にまとめる。D010とD100をそれぞれx番目、y番目の文書とする。
[D010に対する(1)式の各パラメタの値]
Mx={11,12,14}
Tx11={w1,w4},Tx12={w2},Tx14={w3}
Ux={w1,w2,w3,w4},|Ux|=4
Vx=φ
sx11=0.6,sx12=1.0,sx14=0.4
[D100に対する(1)式の各パラメタの値]
My={101,102,104}
Ty101={w1,w2,w3,w4},Ty102={w1,w2,w3,w4}, Ty104={w1,w2,w3,w4}
Uy={w1,w2,w3,w4},|Uy|=4
Vy={w1,w2,w3,w4}
sy101=0.6,sy102=1.0,sy104=0.4
D010のVxの値であるφは空集合を表す。D010およびD100の適合セクションが含むセクションキーワードをベン図で表現したものを、それぞれ図20と図21に示す。
D010では、各適合セクションに共通するセクションキーワードがない。セクションキーワードは各節の重要語であるため、D010の文書は、図20に示すように各適合セクションの文書の内容が互いに疎な関係にあると考えられる。一方、各適合セクションのセクションキーワードが全て共通しているD100は、図21に示すように、互いの適合セクションの内容が類似していると考えられる。
D001と同様、上記の各パラメタを用いて(1)式によりD010およびD100のそれぞれのセクション類似度を計算すると、D010が0.0、D100は1.0となる。このように、セクション類似度算出部103が算出するセクション類似度は、適合セクションのセクションキーワードが類似しているものほど高い類似度となる指標になっていることが分かる。
ここまでは(1)式を用いたセクション類似度の算出方法について説明してきたが、セクション類似度算出部103では、(1)式以外の計算方法を用いてセクション類似度を算出してもよい。例えば(2)式を用いてもよい。(2)式のUiは前記(1)式と同様、Tijの和集合である。(2)式は、(1)式のセクションスコアsijを1とした場合である。
Figure 0005146108


セクション類似度を(3)式とすることもできる。
Figure 0005146108


(3)式のUiは前記(1)式と同様、Tijの和集合である。αは任意の定数値である。(3)式は、適合セクションに含まれているセクションキーワードの種類数が多いほど類似度が下がる。(1)式と比較すると、式が単純であるため計算負荷が少ないという利点がある。(3)式の分母である|Ui|は、適合セクションとなった節全てにおける重要語の種類数を表すため、検索キーワード以外のキーワードがどの程度含まれているかの指標になる。この値が大きい場合、文書は様々な重要語を含むため、文書が様々な話題を有すると判断できる。
本発明では、Sim(Mi)の値が大きいほど、文書の重要度を低くする。そこで(3)式では|Ui|の逆数を用いることにより、様々な重要語を含む場合にSim(Mi)の値が小さくなるようにしている。なお、αの値によっては、セクション類似度が1.0を超える可能性が生じるが、その場合にはセクション類似度を1.0に補正する。
前記のD001、D010、D100は、いずれもUi={w1,w2,w3,w4}であり、|Ui|=4である。そのため、α=1.0とすると、これらの文書のセクション類似度は、1/4=0.25となる。D001、D010、D100の各文書が検索キーワード以外に4つのセクションキーワードに関する話題があるとすると、(3)式によるセクション類似度が、これら3つの文書で同一の値になることは妥当である。セクションキーワード抽出部204で、各節がいくつの話題から成っているかを考慮してセクションキーワードを抜き出す場合には、(3)式による指標が有効である。
また、セクション類似度算出部103はセクション類似度の算出に(4)式を用いてもよい。
Figure 0005146108


(4)式内の記号は(1)式のものと同様である。(4)式は、(1)式を簡略化した式であり、セクション類似度を概算するための指標である。分母が適合セクションに含まれるセクションキーワードの種類数であり、分子が適合セクション内で重複するセクションキーワードの種類数である。そのため、(4)式によりセクションキーワードが適合セクション内でどの程度重複しているかを大まかに計算することができる。計算式が単純であるため、計算量が少なくて済むという利点がある。D001、D002、D003に対する各セクション類似度は、前記のパラメタを用いると以下のように算出できる。
D001:Sim(M1)=2/4=0.5
D010:Sim(Mx)=1/4=0.25
D100:Sim(My)=4/4=1.0
これらの値から(4)式によるセクション類似度は、(1)式の値と同じではないものの高い相関があることがわかる。セクション類似度の算出は検索時に行うため、計算負荷が高いと、検索結果を表示するまでに多くの時間がかかってしまう。そのため大量文書を扱う際には、(4)式のように簡略化した式を用いた方がよい場合もある。
以上のように、セクション類似度を算出する方法はいくつかのバリエーションがある。どの式を用いるかは検索システムのシステム管理者が決めればよい。
セクションスコア統合部104は、セクション類似度算出部103から適合セクションのセクションスコアとセクション類似度を得て、これらの値に基づいて各文書の重要度を求め、その結果を出力部302に出力する。本処理は図2におけるスコアリング処理のステップS106に相当する。
各文書の重要度は、適合セクションのセクションスコアと、適合セクションの類似度によって決まる。i番目の文書の重要度Score(i)を求める計算式の一例を(5)式に示す。各記号は前記のものと同様である。
Figure 0005146108

(5)式の第1項は、適合セクションのセクションスコアの和を計算している。第2項は、セクション類似度に対する減算項となっている。βiはi番目の文書の類似度に対する重みである。重みは定数でもよいし、(6)式などを用いて文書毎に値が変化するようにしてもよい。
Figure 0005146108


(6)式は、セクション類似度Sim(Mi)が1となる場合には、文書の重要度を2分の1にする重みである。前記、文書ID:D001、D010、D100の3つの文書の重要度を(5)式により算出した結果を下記に示す。なお、セクション類似度の計算は(1)式で行い、βiは(6)式を用いて計算している。
Score(1)=(0.6+1.0+0.4)−1.0×0.375=1.625
Score(x)=(0.6+1.0+0.4)−1.0×0=2.0
Score(y)=(0.6+1.0+0.4)−1.0×1=1.0
図17と図19からわかるように、D001、D010、D100はいずれも3つの適合セクションがある。また、含まれる3つの適合セクションのセクションスコアが同じであるため、(5)式における第1項は3つの文書とも共通して2.0となる。(6)式より、これら3つの文書のβiの値はいずれも1.0になる。適合セクションの内容が類似していないD010の文書重要度が最も大きくなっている。また、セクションキーワードが完全に一致する適合セクションを有するD100は大きな減点を与えられ、文書の重要度が適合セクションのセクションスコアの和よりも半減している。セクションキーワードに少し重なりのあるD001の重要度がD010とD100の文書の重要度の中間の値となっている。そのため、これは、検索キーワード以外の様々なキーワードを含む文書の重要度を高くすることができている。
セクションスコア統合部104は(5)式以外の計算式を用いて文書の重要度を算出してもよい。例えば(7)式を用いても重要度を算出できる。
Figure 0005146108

(7)式のNiは、文書iの節の数である。この値は検索結果に含まれる文書IDをキーとしてセクションデータベース203から該当する節を得て、その数を数えることで求めることができる。また、Miは前記と同様、文書iの適合セクションの数である。すなわち、(7)式では、適合セクションのセクションスコアの和に対して、節の数による重みを付加している。(5)式による文書重要度は、節の数が多い文書ほど高得点になりやすいという特徴がある。
しかしながら、(7)式では、節の数ではなく、全ての節のうち、どの程度が適合セクションになっているかを重視している。これにより、文書中の節の多くが適合セクションであり、かつ、それら適合セクションが類似する内容ではない文書を重要と判定することができる。なお、第1項を2で割った式をβiとして用いると、セクション類似度Sim(Mi)が1となる場合に文書の重要度を2分の1にすることができる。
また、文書の重要度の算出には(8)式を用いてもよい。
Figure 0005146108


cijは検索結果のi番目の文書のj番目の適合セクションにおける文章数であり、Lは任意の定数である。文章数は、セクションデータベース203に記録されている節情報から得ることができる。節情報には各節のテキストが記録されているため、テキスト中の句点の数を数えることにより文章数を得ることができる。セクション抽出部202で節の入れ子構造まで考慮して節を抽出すると、一つの文書であっても多数の節が抽出される可能性がある。そこで、(8)式に示すように、文章数による重み付けを行うことにより、文章数が多い適合セクションのセクションスコアを重視し文書の重要度を求めるようにする。これにより、セクションスコアが高く文章数が多い適合セクションがあり、かつ、それら適合セクションが類似する内容ではない文書を重要と判定することができる。
なお、各節の文章数は予めセクション抽出部202で算出しておき、セクションデータベース203に節情報と共に格納しておいてもよい。こうすることにより、スコアリング処理時に文章数を数える処理をなくすことができるため、スコアリング処理の高速化が行える。また、cijは文章数以外の値でも構わない。例えば、段落数でもよいし、文字数でもよい。また、本検索システムを論文などに含まれる従来技術の検索用に用いるのであれば、cijとして[1]や[2]などの引用の数を数えるように変更してもよい。こうすることにより、適合セクション中に多くの引用が含まれる文書を重要と判定することが可能となる。
さらに、(5)式、(7)式、(8)式において第2項の前にある「−」を「+」に変えて文書重要度を算出してもよい。例えば、(5)式の第2項の符号を「+」に変えた(9)式を用いることができる。
Figure 0005146108


正負を逆転させることによって、検索キーワード以外にはキーワードに特化している専門書のような文書を重要と判定することが可能になる。
以上のように文書重要度の算出方法には幾つかのバリエーションが考えられる。どの算出方法を用いるかは、文書重要度算出システムのシステム管理者が決定すればよい。
出力部302は、具体的には、プログラムに従って動作する情報処理装置のCPU(Central Processing Unit)によって実現される。出力部302は、セクションスコア統合部104から検索結果の文書とその文書の重要度を得て、重要度が高い順に文書をディスプレイ装置等の表示装置を用いて表示する。
図22に検索結果の表示画面の一例を示す。出力部302は、図22に示す様態で、文書の重要度が高い順に文書を表示する。このとき既存の検索システムでも行われているように、文書名に対して文書の保存先へのハイパーリンクを張ることにより検索者は文書に容易にアクセスすることができる。また、各文書の重要度を検索結果に表示してもよい。これにより検索者は、文書がどの程度重要であるかを直感的に判断することができる。
本実施の形態1に係る文書重要度算出部によれば、クエリに適合する文書を特定の観点で順序づける文書の重要度をその文書内の情報のみを用いて算出することができる。その結果、特定の観点で重要な文書を上位にランクさせることができるため、検索者が必要とする文書へのアクセスを容易にすることができる。特に、クエリに関して様々な情報を含む文書を上位にランクさせることができる。
(実施の形態2)
図23は、本発明の実施の形態2に係る文書検索システムの構成例を示す。本実施の形態では、文書重要度算出部10が図1に示した構成要素に加えて、関連キーワード抽出部105を含む点で実施の形態1と異なる。
図24は、実施の形態2に係る文書検索システムの動作の一例を示すフローチャートである。図2に示すフローチャートとは、スコアリング処理においてステップS107が増えている点で異なる。
実施の形態1では、セクション分析時に各節のセクションキーワードを抽出しており、スコアリング処理時に動的にセクションキーワードを決定するという処理がない。しかしながら、各節において重要となる文字列は、クエリに用いられた検索キーワードによって異なると考えられる。
関連キーワード抽出部105は、セクション検索部102から検索結果を得て、適合セクションの節のテキストから、検索キーワードと共起回数が多い文字列を抽出し、該文字列をセクションキーワードとしてセクション類似度算出部103に出力する。本処理は図24におけるスコアリング処理のステップS107に相当する。
検索キーワードと共起回数が多い文字列を抽出する方法について説明する。
まず、関連キーワード抽出部105は、クエリから各検索キーワードを切り出す。このときNOT演算子が付与されている検索キーワードは除外する。
次に、関連キーワード抽出部105は、セクションデータベース203に格納されている節情報を参照し、セクションIDをキーとして、適合セクションのテキスト情報を抽出する。抽出したテキスト情報から、句点を区切りとして文章単位のテキストを取得する。得られた文章単位のテキストから検索キーワードを含む文章を特定し、この文章から既存の形態素解析技術を用いて品詞が名詞である文字列を抽出する。
図25は、セクションキーワードを抽出する課程を説明するための説明図である。図25には、ある検索において適合セクションとなった節のセクションID、検索キーワードを含む文章の番号、各文章に形態素解析を適用し抽出した名詞を示している。この名詞がセクションキーワードの候補となる。文章の番号は「S数字」という書式で記載している。「n数字」は一つの名詞を表しており、同じ数字の名詞は同一の文字列であることを表す。図25から、セクションID:1の節には、検索キーワードを含むS1、S5、S9という3つの文章があり、各文章に{n1、n2}{n1、n3}{n1、n3}という名詞が含まれていたことがわかる。
次に、関連キーワード抽出部105は、適合セクション毎に同一の名詞の数をカウントする。これが検索キーワードとの共起回数となる。図26に図25に対して上記のカウント処理を適用した結果を示す。図26では、セクションID:1の節には、検索キーワードと共起する名詞は{n1、n2、n3}の3種類であり、それぞれ検索キーワードと3回、2回、1回共起していることがわかる。
最後に、関連キーワード抽出部105は、所定の回数以上共起している名詞、もしくは共起回数が多い上位γ個の名詞をセクションキーワードとして抽出する。最も共起回数が多いもののみをセクションキーワードとする場合、図26の例では、セクションID:1の節からは「n1」が、セクションID:2の節からは「n4」がセクションキーワードとして抽出される。
セクション類似度算出部103では、関連キーワード抽出部105で抽出したセクションキーワードとセクションキーワード抽出部204で抽出したセクションキーワードを用いてセクション類似度を算出する。関連キーワード抽出部105を備えることにより、検索キーワードと共起する単語を用いて、セクション類似度を算出できるようになるため、実施例1と比較して、クエリに対する内容の近さでセクション類似度を算出することが可能になる。
(実施の形態3)
図27は、本発明の実施の形態3に係る文書検索システムの構成例を示す。本実施の形態では、文書重要度算出部10が図1に示した構成要素に加えて、検索条件判定部106を含む点で実施の形態1と異なる。図28は、実施の形態3に係る文書検索システムの動作の一例を示すフローチャートである。
文書重要度算出部10で求められる文書重要度は、検索以外の様々なキーワードを含む文書を重視するためのものである。この文書重要度を用いたランキングをセクションランキングと呼ぶ。セクションランキングを必要となるかどうかは検索者の検索意図次第である。そこで検索者が恣意的にセクションランキングを用いるか否かを決められるようにしておく。
出力部302が表示する検索画面の1例を図29に示す。この検索画面において、入力フォーム404にクエリが入力され検索ボタン405が押下されると、入力部301が該クエリを検索条件判定部106に出力する。
検索条件判定部106は、入力部301からクエリを得、セクションランキングを行うか否かを判定し(ステップS108)、セクションランキングを行うのであれば(ステップS108;YES)、セクション検索部102にクエリを出力する。本処理は図28のスコアリング処理におけるS108に相当する。なお、セクションランキングを行わない場合は(ステップS108;NO)、通常の文書検索システムを別途用意しておき、該システムにクエリを出力して、通常の文書検索を行う(ステップS109)ようにしておけばよい。図27に示す構成図では通常の検索を行うシステムは示していない。
検索条件判定部106は、検索クエリ中の所定の記号の有無によりセクションランキングを行うか否かを判定する。図30は、図29の検索画面において、検索者がセクションランキングを用いることを明記している一例である。図30の入力フォームには「パソコン AND 製品調査」というクエリの後に、「<」という記号が付いている。入力フォーム内の文字列の最後に「<」が付与されている場合は、セクションランキングを行うものとするというルールを検索条件判定部106に登録しておく。このルールにより、検索条件判定部106は、該クエリをセクション検索102に出力すればよいということを判定できる。用いる記号は任意である。
また検索クエリなどに用いる記号によって、セクション類似度の算出方法ならびに文書の重要度の算出方法が変わるようにしてもよい。実施の形態1で示したように、セクション類似度算出部103ならびにセクションスコア統合部104には、セクション類似度と文書の重要度の算出方法に幾つかのバリエーションがある。これらをクエリ内の文字列で指定できるようにしてもよい。例えば、セクションスコア統合部104においては、通常、適合セクションとなる各節の重要度に対してセクション類似度の値を引く処理をするが、図31のように入力フォーム内の最後の文字が「>」である場合は、該減算処理を加算処理に変更するようにしてもよい。こうすることで、検索者はクエリの最後に「<」を付与するか「>」を付与するかで、検索キーワード以外に様々なキーワードを含む文書を検索するためのランキングと、ある特定のキーワードに関する内容について詳述している文書を検索するためのランキングとを使い分けることができる。
この他、使用する計算式に重複しない番号を付与しておき、その番号を入力フォーム中に記載すると、その番号に対応する計算式が用いられるようにしておいてもよい。これにより、様々な計算式によるランキング結果を試すことができる。なお、入力フォームに記号を加えるのではなく、図29に示す検索画面にセクションランキングを用いるか否かを決めるチェックボックスを準備しておいてもよい。
その他、本発明の好適な変形として、以下の構成が含まれる。
本発明の第1の観点に係る文書重要度算出システムについて、好ましくは、
前記類似度算出手段は、
前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記適合節ごとの重要語のうち2以上の前記適合節に含まれる前記重要語からなる集合である共通重要語集合と、前記節内重要語集合の和集合である重要語和集合とを抽出し、
前記文書について、前記適合節ごとの前記節内重要語集合と前記共通重要語集合との積集合の要素数と前記適合節の節重要度との積の和を分子とし、前記重要語和集合の要素数と前記適合節の節重要度の総和の積を分母とする分数の値を、前記適合節の間の類似度とする
ことを特徴とする。
前記類似度算出手段は、前記適合節の節重要度を所定の一定値として前記適合節の間の類似度を算出してもよい。
前記類似度算出手段は、
前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記節内重要語集合の和集合である重要語和集合を抽出し、
前記重要語和集合の要素数の逆数に所定の値を乗じた値を前記適合節の間の類似度としてもよい。
前記類似度算出手段は、
前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記適合節ごとの重要語のうち2以上の前記適合節に含まれる前記重要語からなる集合である共通重要語集合と、前記節内重要語集合の和集合である重要語和集合とを抽出し、
前記共通重要語集合の要素数を前記重要語和集合の要素数で除算した値を前記適合節の間の類似度としてもよい。
好ましくは、前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第1項から、前記類似度に正数の重みを乗じて減算した値を、前記文書重要度とする。
または、前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第1項に、前記類似度に正数の重みを乗じて加算した値を文書の重要度として算出してもよい。
好ましくは、前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第1項の逆数に所定の正数を乗じた値を、前記類似度に乗ずる重みとする。
好ましくは、前記重要度算出手段は、前記文書について、前記適合節の節重要度の総和を前記第1項とする。
または、前記重要度算出手段は、前記文書について、前記適合節の節重要度の総和に、前記文書の節の数と前記適合節の数との比を乗じた値を前記第1項としてもよい。
あるいはまた、前記重要度算出手段は、前記文書について、前記適合節の節重要度に、前記適合節に含まれる文の数と所定の数との比を乗じた値の総和を前記第1項としてもよい。
好ましくは、前記文書に含まれる節の間に従属関係が特定されている場合、ある節に従属する節の重要語に、従属される節の重要語を追加する節キーワード抽出手段を備える。
前記検索条件と関連する文字列を前記節内から抽出し、前記抽出した文字列を前記抽出元である前記節の重要語に追加する関連キーワード抽出手段を備えてもよい。
好ましくは、前記関連キーワード抽出部は、前記適合節において前記検索条件の条件項の文字列を含む文を抽出し、その文に多く含まれる所定の品詞の単語を、前記適合節の重要語とする。
与えられた検索条件中の文字列に基づいて、前記節重要度算出手段、前記類似度算出手段、および/または、前記重要度算出手段の算出方法を切り替える検索条件判定手段と、
を備えてもよい。
前記検索条件判定手段は、前記検索条件の文字列の中から所定の記号を抽出した場合に、その所定の記号に応じて前記節重要度算出手段、前記類似度算出手段、および/または、前記重要度算出手段の算出方法を切り替えるよう構成することができる。
本発明の第2の観点に係る文書重要度算出方法について、好ましくは、
前記検索条件と関連する文字列を前記節内から抽出し、前記抽出した文字列を前記抽出元である前記節の重要語に追加する関連キーワード抽出ステップを備えることを特徴とする。
各実施の形態で説明した文書重要度算出装置10および文書検索システムは一例であり、任意に変更および修正が可能である。文書重要度算出装置10および文書検索システムの構成は、実施の形態で示したものがすべてではなく、これらに限定されるものではない。
本発明の実施の形態1に係る文書検索システムの構成例を示すブロック図である。 実施の形態1に係る文書検索システムの動作の一例を示すフローチャートである。 文書情報の一例を示す説明図である。 目次のページがある文書の一例を示す説明図である。 目次のページがある文書の本文を節に分割した一例を示す説明図である。 目次のページがない文書の本文を節に分割した一例を示す説明図である。 節情報の一例を示す説明図である。 目次のページがあり節が入れ子構造になった文書の本文を節に分割した一例を示す説明図である。 目次のページがなく節が入れ子構造になった文書の本文を節に分割した一例を示す説明図である。 節の入れ子構造を考慮した節情報の一例を示す説明図である。 セクションキーワードの一例を示す説明図である。 セクションキーワードの別の一例を示す説明図である。 節の入れ子構造を考慮した際に追加されるセクションキーワードの一例を示す説明図である。 適合セクションの一例を示す説明図である。 セクションスコアの一例を示す説明図である。 検索結果の一例を示す説明図である。 文書ID:D001の文書のセクション類似度を求めるためのパラメタの示す説明図である。 適合セクションとセクションキーワードの関係の一例を示すベン図である。 検索結果の別の一例を示す説明図である。 互いに疎な内容である適合セクションの一例を示すベン図である。 互いの内容が類似する適合セクションの一例を示すベン図である。 検索結果の表示の様態の一例を示す説明図である。 本発明の実施の形態2に係る文書検索システムの構成例を示すブロック図である。 実施の形態2に係る文書検索システムの動作の一例を示すフローチャートである。 検索キーワードと共起する名詞を抽出した結果の一例を示す説明図である。 検索キーワードと名詞との共起回数を算出した結果の一例を示す説明図である。 本発明の実施の形態3に係る文書検索システムの構成例を示すブロック図である。 実施の形態3に係る文書検索システムの動作の一例を示すフローチャートである。 検索画面の一例を示す説明図である。 セクションランキングを動作させる入力クエリの一例を示す説明図である。 セクションランキングを動作させる入力クエリの他の例を示す説明図である。
符号の説明
10 文書重要度算出部
101 セクションキーワードデータベース
102 セクション検索部
103 セクション類似度算出部
104 セクションスコア統合部
105 関連キーワード抽出部
106 検索条件判定部
201 文書データベース
202 セクション抽出部
203 セクションデータベース
204 セクションキーワード抽出部
301 入力部
302 出力部

Claims (19)

  1. 文書を重複なく節に分割し、その分割された各節の中から所定の基準で選択された重要語を取得する節キーワード取得手段と、
    前記文書から、与えられた検索条件に適合する節である適合節を検索する適合節検索手段と、
    前記適合節検索手段で検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出手段と、
    前記節キーワード取得手段で取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出手段と、
    前記適合節ごとの節重要度および前記類似度算出手段で算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出手段と、
    を備えることを特徴とする文書重要度算出システム。
  2. 前記類似度算出手段は、
    前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記適合節ごとの重要語のうち2以上の前記適合節に含まれる前記重要語からなる集合である共通重要語集合と、前記節内重要語集合の和集合である重要語和集合とを抽出し、
    前記文書について、前記適合節ごとの前記節内重要語集合と前記共通重要語集合との積集合の要素数と前記適合節の節重要度との積の和を分子とし、前記重要語和集合の要素数と前記適合節の節重要度の総和の積を分母とする分数の値を、前記適合節の間の類似度とする
    ことを特徴とする請求項1に記載の文書重要度算出システム。
  3. 前記類似度算出手段は、前記適合節の節重要度を所定の一定値として前記適合節の間の類似度を算出することを特徴とする請求項2に記載の文書重要度算出システム。
  4. 前記類似度算出手段は、
    前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記節内重要語集合の和集合である重要語和集合を抽出し、
    前記重要語和集合の要素数の逆数に所定の値を乗じた値を前記適合節の間の類似度とする
    ことを特徴とする請求項1に記載の文書重要度算出システム。
  5. 前記類似度算出手段は、
    前記適合節ごとに重要語の集合を節内重要語集合として、前記文書について、前記適合節ごとの重要語のうち2以上の前記適合節に含まれる前記重要語からなる集合である共通重要語集合と、前記節内重要語集合の和集合である重要語和集合とを抽出し、
    前記共通重要語集合の要素数を前記重要語和集合の要素数で除算した値を前記適合節の間の類似度とする
    ことを特徴とする請求項1に記載の文書重要度算出システム。
  6. 前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第1項から、前記類似度に正数の重みを乗じて減算した値を、前記文書重要度とすることを特徴とする請求項1ないし5のいずれか1項に記載の文書重要度算出システム。
  7. 前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第1項に、前記類似度に正数の重みを乗じて加算した値を文書の重要度として算出することを特徴とする請求項1ないし5のいずれか1項に記載の文書重要度算出システム。
  8. 前記重要度算出手段は、前記文書について、前記適合節の節重要度にもとづいて算出される値である第1項に所定の正数を乗じた値を、前記類似度に乗ずる重みとすることを特徴とする請求項6または7に記載の文書重要度算出システム。
  9. 前記重要度算出手段は、前記文書について、前記適合節の節重要度の総和を前記第1項とすることを特徴とする請求項6ないし8のいずれか1項に記載の文書重要度算出システム。
  10. 前記重要度算出手段は、前記文書について、前記適合節の節重要度の総和に、前記文書の節の数と前記適合節の数との比を乗じた値を前記第1項とすることを特徴とする請求項6ないし8のいずれか1項に記載の文書重要度算出システム。
  11. 前記重要度算出手段は、前記文書について、前記適合節の節重要度に、前記適合節に含まれる文の数と所定の数との比を乗じた値の総和を前記第1項とすることを特徴とする請求項6ないし8のいずれか1項に記載の文書重要度算出システム。
  12. 前記文書に含まれる節の間に従属関係が特定されている場合、ある節に従属する節の重要語に、従属される節の重要語を追加する節キーワード抽出手段を備えることを特徴とする請求項1ないし11のいずれか1項に記載の文書重要度算出システム。
  13. 前記検索条件と関連する文字列を前記節内から抽出し、前記抽出した文字列を前記抽出元である前記節の重要語に追加する関連キーワード抽出手段を備えることを特徴とする請求項1ないし12のいずれか1項に記載の文書重要度算出システム。
  14. 前記関連キーワード抽出部は、前記適合節において前記検索条件の条件項の文字列を含む文を抽出し、その文に多く含まれる所定の品詞の単語を、前記適合節の重要語とすることを特徴とする請求項13に記載の文書重要度算出システム。
  15. 与えられた検索条件中の文字列に基づいて、前記節重要度算出手段、前記類似度算出手段、および/または、前記重要度算出手段の算出方法を切り替える検索条件判定手段を備えることを特徴とする請求項1に記載の文書重要度算出システム。
  16. 前記検索条件判定手段は、前記検索条件の文字列の中から所定の記号を抽出した場合に、その所定の記号に応じて前記節重要度算出手段、前記類似度算出手段、および/または、前記重要度算出手段の算出方法を切り替えることを特徴とする請求項15に記載の文書重要度算出システム。
  17. 文書の内容から該文書の重要度を算出する文書重要度算出システムが行う文書重要度算出方法であって、
    節キーワード取得手段が行う、文書データベースに記憶された文書を重複なく節に分割し、その分割した各節の中から所定の基準で選択された重要語を取得する節キーワード取得ステップと、
    適合節検索手段が行う、前記文書から、入力部に入力された検索条件に適合する節である適合節を検索する適合節検索ステップと、
    節重要度算出手段が行う、前記適合節検索ステップで検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出ステップと、
    類似度算出手段が行う、前記節キーワード取得ステップで取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出ステップと、
    重要度算出手段が行う、前記適合節ごとの節重要度および前記類似度算出ステップで算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出ステップと、
    を備えることを特徴とする文書重要度算出方法。
  18. 関連キーワード抽出手段が行う、前記検索条件と関連する文字列を前記節内から抽出し、前記抽出した文字列を前記抽出元である前記節の重要語に追加する関連キーワード抽出ステップを備えることを特徴とする請求項17に記載の文書重要度算出方法。
  19. コンピュータを、
    文書を重複なく節に分割し、その分割された各節の中から所定の基準で選択された重要語を取得する節キーワード取得手段と、
    前記文書から、与えられた検索条件に適合する節である適合節を検索する適合節検索手段と、
    前記適合節検索手段で検索した適合節ごとに、前記検索条件と関連する度合いを示す節重要度を算出する節重要度算出手段と、
    前記節キーワード取得手段で取得した重要語のうち前記適合節に含まれる重要語に基づいて、前記適合節の間で前記重要語が共通する指標を表す類似度を算出する類似度算出手段と、
    前記適合節ごとの節重要度および前記類似度算出手段で算出された前記適合節の間の類似度に基づいて、所定の基準で前記文書を評価する値である文書重要度を算出する重要度算出手段、
    として機能させることを特徴とする文書重要度算出プログラム。
JP2008138237A 2008-05-27 2008-05-27 文書重要度算出システム、文書重要度算出方法およびプログラム Active JP5146108B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008138237A JP5146108B2 (ja) 2008-05-27 2008-05-27 文書重要度算出システム、文書重要度算出方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008138237A JP5146108B2 (ja) 2008-05-27 2008-05-27 文書重要度算出システム、文書重要度算出方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2009288870A JP2009288870A (ja) 2009-12-10
JP5146108B2 true JP5146108B2 (ja) 2013-02-20

Family

ID=41458055

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008138237A Active JP5146108B2 (ja) 2008-05-27 2008-05-27 文書重要度算出システム、文書重要度算出方法およびプログラム

Country Status (1)

Country Link
JP (1) JP5146108B2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011011002A1 (en) * 2009-07-22 2011-01-27 Foundationip, Llc Method, system, and apparatus for delivering query results from an electronic document collection
JP5163629B2 (ja) * 2009-12-18 2013-03-13 コニカミノルタビジネステクノロジーズ株式会社 文書処理装置
KR101826594B1 (ko) * 2016-10-13 2018-02-07 한국과학기술원 지식 구조 기반의 전자책 추천 방법 및 시스템
JP6181890B2 (ja) * 2016-12-28 2017-08-16 一般財団法人工業所有権協力センター 文献解析装置、文献解析方法およびプログラム
JP2019200582A (ja) * 2018-05-16 2019-11-21 ファナック株式会社 検索装置、検索方法及び検索プログラム
CN112597422A (zh) * 2020-12-30 2021-04-02 深圳市世强元件网络有限公司 一种pdf文件分割方法和网页中pdf文件加载方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11250070A (ja) * 1998-03-05 1999-09-17 Toshiba Corp 類似文書検索装置、類似文書検索方法、および類似文書検索のためのプログラムが記録された記録媒体
US7664735B2 (en) * 2004-04-30 2010-02-16 Microsoft Corporation Method and system for ranking documents of a search result to improve diversity and information richness
JP2007241902A (ja) * 2006-03-10 2007-09-20 Univ Of Tsukuba テキストデータの分割システム及びテキストデータの分割及び階層化方法

Also Published As

Publication number Publication date
JP2009288870A (ja) 2009-12-10

Similar Documents

Publication Publication Date Title
US11698920B2 (en) Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
US7958128B2 (en) Query-independent entity importance in books
US9697249B1 (en) Estimating confidence for query revision models
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
US9659084B1 (en) System, methods, and user interface for presenting information from unstructured data
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US20190147010A1 (en) System and method for block segmenting, identifying and indexing visual elements, and searching documents
US7603353B2 (en) Method for re-ranking documents retrieved from a multi-lingual document database
Rinaldi An ontology-driven approach for semantic information retrieval on the web
US20140324808A1 (en) Semantic Segmentation and Tagging and Advanced User Interface to Improve Patent Search and Analysis
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
EP2019361A1 (en) A method and apparatus for extraction of textual content from hypertext web documents
Capstick et al. A system for supporting cross-lingual information retrieval
EP2307951A1 (en) Method and apparatus for relating datasets by using semantic vectors and keyword analyses
JP5146108B2 (ja) 文書重要度算出システム、文書重要度算出方法およびプログラム
Duke et al. Squirrel: An advanced semantic search and browse facility
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
Tsapatsoulis Web image indexing using WICE and a learning-free language model
JP2000105769A (ja) 文書表示方法
Baruah et al. Text summarization in Indian languages: a critical review
Siemiński Fast algorithm for assessing semantic similarity of texts
Saraswathi et al. Multi-document text summarization using clustering techniques and lexical chaining
WO2011033457A1 (en) System and method for content classification
Werner et al. Enhanced information retrieval by using HTML tags

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110413

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120828

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121112

R150 Certificate of patent or registration of utility model

Ref document number: 5146108

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151207

Year of fee payment: 3