JP2004348555A - 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体 - Google Patents

文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体 Download PDF

Info

Publication number
JP2004348555A
JP2004348555A JP2003146322A JP2003146322A JP2004348555A JP 2004348555 A JP2004348555 A JP 2004348555A JP 2003146322 A JP2003146322 A JP 2003146322A JP 2003146322 A JP2003146322 A JP 2003146322A JP 2004348555 A JP2004348555 A JP 2004348555A
Authority
JP
Japan
Prior art keywords
graph
document
sentence unit
condition
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003146322A
Other languages
English (en)
Other versions
JP4259179B2 (ja
Inventor
Junji Tomita
準二 富田
Tamio Kihara
民雄 木原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003146322A priority Critical patent/JP4259179B2/ja
Publication of JP2004348555A publication Critical patent/JP2004348555A/ja
Application granted granted Critical
Publication of JP4259179B2 publication Critical patent/JP4259179B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

【課題】大量の文書集合の内容を即座に正確に把握させる。
【解決手段】本発明は、ユーザが可視化されたグラフ上の1つまたは複数の単語を選択すると、選択された単語及びその周辺単語から構成される条件グラフを自動的に生成し、原文書の中で条件グラフに類似する文単位(文節、文、段落、連続するn単語やn文字)を要約表現として出力する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体に係り、特に、大量の文書を分析し、文書の内容の概観を作成する文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体に関する。
【0002】
【従来の技術】
情報技術の進歩によって、人々がアクセスすることができる電子化文書の量は急速に拡大している。しかしながら、人間の情報処理能力は限られているため、大量の文書を1つずつ読むことは事実上不可能となってきている。従って、大量の文書の内容の概観を作成し、人間がその内容を即座に正確に理解することを支援するための技術が必要となってきている。
【0003】
このような技術を以下に示す。
【0004】
(1) 文書集合が蓄積されたデーターベースから各文書を取得する。
【0005】
(2) 各文書から単語を抽出し、単語をノード、単語間の関連をリンクとしたグラフを作成する。ここで、単語の出現頻度、単語の共出現頻度等を用いて単語の重要度、単語間の関連度を計算し、それぞれ、ノードの重み、リンクの重みとして設定する。
【0006】
(3) ユーザによって指定されたグラフ操作を実行する。ここで、グラフ操作とは、グラフの集合を引数とし、グラフの集合を結果として出力する関数である。グラフ操作には、類似グラフ検索、類似グラフ分類、部分グラフ抽出、グラフ合成、グラフ差分等がある。
【0007】
(4) 引数として指定されたグラフ集合に対して、グラフ操作を実行し、実行結果であるグラフ集合を出力する。例えば、類似グラフ検索では、引数として検索条件グラフと、検索対象グラフの集合を与えると、検索対象グラフの中で、検索条件グラフに類似している上位n件のグラフが出力として得られる。
【0008】
(5) グラフ操作によって出力されたグラフを可視化する。
【0009】
(6) ユーザは、可視化されたグラフを確認し、満足な結果が得られるまで、上記の(3)〜(5)を繰り返す。
【0010】
以下に、「特許」を対象とした分析の例を用いて上記の処理を説明する。
【0011】
あるユーザが、「情報システムを、医療分野に適用する」といった内容の特許Aを書いたときに、特許Aに関連する他社特許の内容を概観したいとする。まず、特許Aをグラフに変換する。このグラフをGAとする(図15)。次に、分析対象である各特許をグラフに変換する。GAを検索条件グラフとし、各特許から作成されたグラフを検索対象グラフとして、類似する上位50件のグラフを取得する。次に、これら50件のグラフを分類対象のグラフ集合とし、類似グラフ分類操作を実行し、3つのカテゴリに分類する。分類された各カテゴリのグラフをグラフ合成操作によって合成し、可視化を行う。このようにして作成されたグラフの例を図16に示す。図16では、文字の大きさが単語の重要度に、リンクの太さが単語間の関連度に対応している。また、各カテゴリに分類された特許の件数と文書IDが併せて表示してある。図16から各カテゴリに分類された特許の内容は、それぞれ
・カテゴリ1:「医療データを検索管理するためのシステム」
・カテゴリ2:「医療費の控除を計算するためのシステム」
・カテゴリ3:「医療画像を撮影するためのシステム」
であることが読み取れる。即ち、「情報システムを、医療分野に適用する」という内容の特許に対して、カテゴリ1〜3のような内容の関連特許が出願されていることがわかる。
【0012】
このように、いくつかのグラフ操作を組み合わせ、結果として出力される結果グラフを可視化することによって、その文書集合に含まれる重要な単語がどれなのか、また、各単語と関連の強い単語がどれなのかを即座に判断することができる。そのため、対象となる文書を一つずつ読まなくても、文書や文書集合の内容を即座に把握することができる。
【0013】
【発明が解決しようとする課題】
前述した従来の技術では、文書集合の中で、特に重要な単語や、それらの単語と関連が強い単語がどれなのかわかる。しかしながら、これらの単語間にどのような関係があるかまではわからないという問題がある。
【0014】
例えば、図16のカテゴリ1のグラフには、「患者」「データ」「検索」の間に太いリンクがあるため、これらの単語間には強い関連があることがわかる。しかし、これらの単語間の関係が、以下の(a),(b)のどちらであるのかは判断できない。
【0015】
(a)「検索の対象が患者データである」という関係
例文:「医療スタッフが患者データを即座に検索できるシステム」
(b)「患者が何らかのデータを検索する」という関係
例文:「患者自身が、医療データを検索できるシステム」
このように、可視化されたグラフを見ただけでは、単語間にどのような関係があるのかがわからず、文書や文書集合の内容を正確に把握できないという問題がある。
【0016】
本発明は、上記の点に鑑みなされたもので、単語間の関係がどのようなものであるかを正確に判断でき、大量の文書集合の内容を、即座に正確に把握することが可能な文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体を提供することを目的とする。
【0017】
【課題を解決するための手段】
図1は、本発明の原理を説明するための図である。
【0018】
本発明は、文書を分析し、文書集合の内容の概観を作成する文書分析方法において、
分析実行装置が、分析対象の文書を蓄積する分析対象文書データーベースから文書を読み出して、分析し、単語をノード、単語間の関連をリンクとした結果グラフと、該結果グラフの基となった文書の文書IDとをユーザインタフェースに出力し(ステップ1)、
条件グラフ生成装置が、ユーザインタフェースによって表示された結果グラフからユーザにより選択された1つまたは、複数の単語からなる選択単語リストと、結果グラフから条件グラフを生成し(ステップ2)、
文単位グラフ生成装置が、条件グラフと分析実行装置から取得した文書IDリストに基づいて、分析対象文書データーベースから文書を取得して、文単位の抽出、文単位グラフの生成を行い(ステップ3)、
文単位選択装置が、条件グラフに合致する文単位を選択し、ユーザインタフェースに出力し(ステップ4)、
ユーザインタフェースが、選択された文単位を要約表現として表示する(ステップ5)。
【0019】
また、本発明は、条件グラフ生成装置において、条件グラフを生成する際に(ステップ2)、
選択単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを、該条件グラフのリンクとして条件グラフを生成する。
【0020】
また、本発明は、条件グラフ生成装置において、条件グラフを生成する際に(ステップ2)、
ホップ数及び最低関連度を設定し、
結果グラフ上で、各選択単語から指定されたホップ数以内であり、最低関連度以上の関連度を持つリンクのみを用いて、到達可能なノードが持つ単語を周辺単語として取得し、周辺単語リストとし、
選択単語リストと周辺単語リストとを条件単語リストとし、
条件単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、
結果グラフ上のこれらのノード間に存在するリンクを条件グラフのリンクとして条件グラフを生成する。
【0021】
また、本発明は、文単位グラフ生成装置において、文単位グラフを生成する際(ステップ3)に、
文書IDを用いて分析対象文書データーベースから文書を取得し、
文書を、段落、文、分析、連続する文字列、または、連続する単語列からなる文単位に分割し、
条件グラフに含まれる単語を1つでも含む各文単位にのみに対して、単語を抽出し、これらの単語の出現頻度を計算し、
文単位と同じか、より短い規定区間に分割し、該規定区間内での単語の共出現頻度を計算し、
単語の出現頻度を各ノードの重要度、共出現頻度を各単語間の関連度に設定した文単位グラフを生成する。
【0022】
また、本発明は、文単位選択装置において、文単位を選択して出力する際に(ステップ4)、
条件グラフ生成装置において生成された条件グラフと、文単位グラフ生成装置において生成された各文単位グラフとの類似度を計算し、
類似度の高い定数個の文単位グラフに対応する文単位を、条件グラフに合致する文単位として選択して出力する。
【0023】
図2は、本発明の原理構成図である。
【0024】
本発明は、文書を分析し、文書集合の内容の概観を作成する文書分析装置であって、
分析対象の文書を蓄積する分析対象データーベース60と、
分析対象文書データーベース60から文書を読み出して、分析し、単語をノード、単語間の関連をリンクとした結果グラフと、該結果グラフの基となった文書の文書IDとを出力する分析実行手段10と、
結果グラフを可視化し、可視化された該結果グラフのユーザにより指定された部分に対応する要約表現を表示するユーザインタフェース20と、
ユーザインタフェース20によって表示された結果グラフから選択された1つまたは、複数の単語からなる選択単語リストと、結果グラフから条件グラフを生成する条件グラフ生成手段30と、
条件グラフと文書IDリストに基づいて、分析対象文書データーベース60から文書を取得して、文単位の抽出、文単位グラフの生成を行う文単位グラフ生成手段40と、
条件グラフに合致する文単位を選択し、ユーザインタフェース20に出力する文単位選択手段50と、を有する。
【0025】
また、本発明の条件グラフ生成手段30は、
選択単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを、該条件グラフのリンクとして条件グラフを生成する手段を有する。
【0026】
また、本発明の条件グラフ生成手段30は、
ホップ数及び最低関連度を設定する手段と、
結果グラフ上で、各選択単語から指定されたホップ数以内であり、最低関連度以上の関連度を持つリンクのみを用いて、到達可能なノードが持つ単語を周辺単語として取得し、周辺単語リストとする手段と、
選択単語リストと周辺単語リストとを条件単語リストとし、該条件単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを条件グラフのリンクとして前記条件グラフを生成する手段と、を有する。
【0027】
また、本発明の文単位グラフ生成手段40は、
文書IDを用いて分析対象文書データーベース60から文書を取得する手段と、
文書を、段落、文、分析、連続する文字列、または、連続する単語列からなる文単位に分割する手段と、
条件グラフに含まれる単語を1つでも含む各文単位にのみに対して、単語を抽出し、これらの単語の出現頻度を計算する手段と、
文単位と同じか、より短い規定区間に分割し、該規定区間内での単語の共出現頻度を計算する手段と、
単語の出現頻度を各ノードの重要度、共出現頻度を各単語間の関連度に設定した文単位グラフを生成する手段と、を有する。
【0028】
また、本発明の文単位選択手段50は、
条件グラフ生成手段において生成された条件グラフと、文単位グラフ生成手段において生成された前記各文単位グラフとの類似度を計算する手段と、
類似度の高い定数個の文単位グラフに対応する文単位を、条件グラフに合致する文単位として選択して出力する手段と、を有する。
【0029】
本発明は、文書を分析し、文書集合の内容の概観を作成する文書分析プログラムであって、
分析対象の文書を蓄積する分析対象文書データーベースから文書を読み出して、分析し、単語をノード、単語間の関連をリンクとした結果グラフと、該結果グラフの基となった文書の文書IDとを出力する分析実行ステップと、
ユーザインタフェースによって表示された結果グラフからユーザにより選択された1つまたは、複数の単語からなる選択単語リストと、結果グラフから条件グラフを生成する条件グラフ生成ステップと、
条件グラフと文書IDリストに基づいて、分析対象文書データーベースから文書を取得して、文単位の抽出、文単位グラフの生成を行う文単位グラフ生成ステップと、
条件グラフに合致する文単位を選択し、ユーザインタフェースに出力する文単位選択ステップと、
ユーザインタフェースが、選択された文単位を要約表現として表示する表示ステップからなる。
【0030】
また、本発明の条件グラフ生成ステップにおいて、条件グラフを生成する際に、
選択単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを、該条件グラフのリンクとして条件グラフを生成するステップを含む。
【0031】
また、本発明の文書分析プログラムの条件グラフ生成ステップにおいて、条件グラフを生成する際に、
ホップ数及び最低関連度を設定するステップと、
結果グラフ上で、各選択単語から指定されたホップ数以内であり、最低関連度以上の関連度を持つリンクのみを用いて、到達可能なノードが持つ単語を周辺単語として取得し、周辺単語リストとし、選択単語リストと周辺単語リストとを条件単語リストとし、該条件単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを条件グラフのリンクとして条件グラフを生成するステップとを含む。
【0032】
また、本発明の文書分析プログラムの文単位グラフ生成ステップにおいて、文単位グラフを生成する際に、
文書IDを用いて分析対象文書データーベースから文書を取得するステップと、
文書を、段落、文、分析、連続する文字列、または、連続する単語列からなる文単位に分割するステップと、
条件グラフに含まれる単語を1つでも含む各文単位にのみに対して、単語を抽出し、これらの単語の出現頻度を計算するステップと、
文単位と同じか、より短い規定区間に分割し、該規定区間内での単語の共出現頻度を計算するステップと、
単語の出現頻度を各ノードの重要度、共出現頻度を各単語間の関連度に設定した文単位グラフを生成するステップと、を含む。
【0033】
また、本発明の文書分析プログラムの文単位選択ステップにおいて、文単位を選択して出力する際に、
条件グラフ生成ステップにおいて生成された条件グラフと、文単位グラフ生成装置において生成された各文単位グラフとの類似度を計算するステップと、
類似度の高い定数個の文単位グラフに対応する文単位を、条件グラフに合致する文単位として選択して出力するステップとを含む。
【0034】
本発明は、文書を分析し、文書集合の内容の概観を作成する文書分析プログラムを格納した記憶媒体であって、
分析対象の文書を蓄積する分析対象文書データーベースから文書を読み出して、分析し、単語をノード、単語間の関連をリンクとした結果グラフと、該結果グラフの基となった文書の文書IDとを出力する分析実行ステップと、
ユーザインタフェースによって表示された結果グラフからユーザにより選択された1つまたは、複数の単語からなる選択単語リストと、結果グラフから条件グラフを生成する条件グラフ生成ステップと、
条件グラフと文書IDリストに基づいて、分析対象文書データーベースから文書を取得して、文単位の抽出、文単位グラフの生成を行う文単位グラフ生成ステップと、
条件グラフに合致する文単位を選択し、ユーザインタフェースに出力する文単位選択ステップと、
ユーザインタフェースが、選択された文単位を要約表現として表示する表示ステップからなる。
【0035】
また、本発明の文書分析プログラムを格納した記憶媒体の条件グラフ生成ステップにおいて、条件グラフを生成する際に、
選択単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを、該条件グラフのリンクとして条件グラフを生成するステップを含む。
【0036】
また、本発明の文書分析プログラムを格納した記憶媒体の条件グラフ生成ステップにおいて、条件グラフを生成する際に、
ホップ数及び最低関連度を設定するステップと、
結果グラフ上で、各選択単語から指定されたホップ数以内であり、最低関連度以上の関連度を持つリンクのみを用いて、到達可能なノードが持つ単語を周辺単語として取得し、周辺単語リストとし、選択単語リストと周辺単語リストとを条件単語リストとし、該条件単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを条件グラフのリンクとして条件グラフを生成するステップとを含む。
【0037】
また、本発明の文書分析プログラムを格納した記憶媒体の文単位グラフ生成ステップにおいて、文単位グラフを生成する際に、
文書IDを用いて分析対象文書データーベースから文書を取得するステップと、
文書を、段落、文、分析、連続する文字列、または、連続する単語列からなる文単位に分割するステップと、
条件グラフに含まれる単語を1つでも含む各文単位にのみに対して、単語を抽出し、これらの単語の出現頻度を計算するステップと、
文単位と同じか、より短い規定区間に分割し、該規定区間内での単語の共出現頻度を計算するステップと、
単語の出現頻度を各ノードの重要度、共出現頻度を各単語間の関連度に設定した文単位グラフを生成するステップと、を含む。
【0038】
また、本発明の文書分析プログラムを格納した記憶媒体の文単位選択ステップにおいて、文単位を選択して出力する際に、
条件グラフ生成ステップにおいて生成された条件グラフと、文単位グラフ生成ステップにおいて生成された各文単位グラフとの類似度を計算するステップと、
類似度の高い定数個の文単位グラフに対応する文単位を、条件グラフに合致する文単位として選択して出力するステップとを含む。
【0039】
上述のように、本発明は、可視化されたグラフ上の1つまたは、複数の単語を選択すると、選択された単語及びその周辺の単語から構成される条件グラフを自動的に生成し、原文書の中で、条件グラフに類似する文単位(文節、文、段落、連続するn単語や、n文字)を要約表現として出力することにより、単語間の関係がどのようなものであるかを正確に判断でき、大量の文書集合の内容を即座に正確に把握することが可能となる。
【0040】
【発明の実施の形態】
以下、図面と共に、本発明の実施の形態を説明する。
【0041】
図3は、本発明の一実施の形態における文書分析装置の構成を示す。
【0042】
同図に示す文書分析装置は、分析実行装置10、ユーザインタフェース20、条件グラフ生成装置30、文単位グラフ生成装置40、文単位選択装置50、及び分析対象文書データーベース60から構成される。
【0043】
分析実行装置10は、分析対象文書データーベース60から文書を取得し、各文書をグラフに変換する。グラフ操作の実行を行い、結果グラフと文書IDリストをユーザインタフェース20に送る。以下にグラフ操作について説明する。
【0044】
最初に類似グラフ検索操作(serch:GA,GS)について説明する。
【0045】
図4は、本発明の一実施の形態における類似グラフ検索操作を説明するための図である。当該類似グラフ検索操作における入力は、検索条件グラフ(Ga)と、n個の検索対象グラフ(GS)であり、以下の処理により類似度の高いm個のグラフ集合が出力される。
【0046】
(1)GaとGSの各グラフとの類似度を計算する。なお、グラフ間の類似度計算手法としては、既存の技術である、例えば、特願平10−297321を利用することができる。
【0047】
(2)類似度の降順にGSをソートする。
【0048】
(3)類似度の高いm個のグラフを出力する。
【0049】
次に、類似グラフ分析操作(clustering(GS))について説明する。
【0050】
図5は、本発明の一実施の形態における類似グラフ分類操作を説明するための図である。
【0051】
当該類似グラフ分析装置における入力は、n個の分類対象グラフ(GS)であり、以下の処理により、k個のクラスタに分けられた分類対象グラフが出力される。
【0052】
(1)GSに含まれるグラフ間の類似度を計算する。なお、当該類似度の計算には、類似グラフ検索操作と同様の既存の技術を利用することができる。
【0053】
(2)類似度に基づき、グラフをkのクラスタに分類する。
【0054】
(3)kのクラスタを出力する。
【0055】
次に、部分グラフ抽出操作(extract(Ga,GS)について説明する。
【0056】
図6は、本発明の一実施の形態における部分グラフ抽出操作を説明するための図である。
【0057】
当該グラフ抽出操作における入力は、抽出条件グラフ(Ga)とn個の抽出対象グラフ(GS)であり、以下の処理により、n個の抽出されたグラフが出力される。
【0058】
(1)GSの各グラフからGaに基づき部分グラフを抽出する。
【0059】
(2)抽出された部分グラフの集合を出力する。
【0060】
図6の例では、Gaに含まれるノード(単語‘A’,‘B’)から1ホップ以内のノードからなる部分グラフを抽出している。部分グラフの抽出アルゴリズムは既存技術による。例えば、特願2000−62561が利用できる。
【0061】
次に、グラフ合成操作(merge(GS))について説明する。
【0062】
グラフ合成における入力は、n個の合成対象グラフであり、以下の処理により、合成されたグラフが出力される。図7は、本発明の一実施の形態におけるグラフ合成操作を説明するための図である。
【0063】
(1)GSの中の同じ単語を持つノードを見つけ、その重要度を加算する。
【0064】
(2)GSの中の同じ単語を両端に持つリンクを見つけ、その関連度を加算する。
【0065】
(3)このようにして作成されたグラフを出力する。
【0066】
次に、グラフ差分抽出操作(substrct(Ga,Gb))について説明する。
【0067】
グラフ差分抽出操作の入力は、差分対象グラフ(Ga)と、差分抽出条件グラフ(Gb)であり、以下の処理により、差分グラフが抽出される。図8は、本発明の一実施の形態におけるグラフ差分抽出操作を説明するための図である。
【0068】
(1)GaからGbの重要度の減算を行う。
【0069】
(2)GaからGbの関連度の減算を行う。
【0070】
(3)減算された重要度、関連度を持つグラフを出力する。
【0071】
なお、ここで、減算とは、同じノード(リンク)がある場合には、重要度、関連度を減算し、同じノード(リンク)がない場合には、何も行わない。また、減算した結果、負数になる場合には、そのノード(リンク)を削除する。
【0072】
これらの操作の入出力は共にグラフリストであるため、任意の順序で組み合わせることが可能である。また、上記のグラフ操作以外でも入出力が共にグラフリストであれば本発明に組み込むことができる。
【0073】
ユーザインタフェース20は、分析実行装置10から取得したグラフを、単語をノード、単語間の関連をリンクとしたグラフによって可視化する。ユーザは可視化されたグラフ上の任意の単語を複数選択することができる。選択された単語のリストを、結果グラフ、文書IDリストと共に、条件グラフ生成装置30に送る。また、文単位選択装置50が選択した文単位リストを要約表現として表示する。ここで、文単位とは、文、段落、文節といった文書の論理的な単位か、連続するn文字、n単語である。文単位は、その文単位が出現する文書IDと、その文書の中での出現位置を持つ、文単位の中で、ユーザによって選択された単語は、フォントや色を変えて表示する。また、選択単語間の関連に該当する箇所に線を記述する。図9は、本発明の一実施の形態におけるユーザインタフェースの表示例を示す。同図における詳細な説明は、後述する。
【0074】
条件グラフ生成装置30は、ユーザインタフェース20上で選択された単語リストと、分析実行装置10が出力した結果グラフから条件グラフを生成する。条件グラフの生成方法は、以下の通りである。
【0075】
(a)ユーザが選択した単語を含む結果グラフ上のノードを条件グラフのノードとし、結果グラフ上で、これらのノード間に存在するリンクをリンクとして、条件グラフを作成する方法:
(b)ユーザが選択した単語を含む結果グラフ上のノード、及び、選択された単語の周辺のノードを条件グラフのノードとし、これらのノード間に存在するリンクを条件グラフのリンクとして、条件グラフを生成する方法:
ここで、周辺のノードとは、「選択された単語を持つノードからmホップ(最短経路のパス長がm)以内のノード」や「選択された単語を持つノードからの関連度がk以上のノード」等である。ここで、m,kは0以上の定数である。
【0076】
このようにして生成した条件グラフを文単位選択装置50、文単位グラフ生成装置40に送る。文単位グラフ生成装置40には、文書IDリストを合わせて送る。
【0077】
文単位グラフ生成装置50は、条件グラフ生成装置30から取得した条件グラフと文書IDリストを用いて、文単位グラフを以下のステップによって生成する。
【0078】
(1)文書IDに対応する文書を分析対象文書データーベース60から取得し、各文書から条件グラフに含まれる単語を1つでも含む文単位を抽出する。
【0079】
(2)各文単位をグラフに変換する。文単位への変換方法は、次の通りである。
【0080】
i)文単位から単語を抽出し、出現頻度を計算し、重要度を割り当てる。
【0081】
ii)文単位の中の規定区間の中での共出現頻度を計算し、関連度を割り当てる。ここで、規定区間は、分単位または、文単位より短い予め定めた区間である。例えば、文単位が文の場合には、文節や連続する規定数の文字等である。
【0082】
文単位グラフ、文単位、文書ID、文単位の出現位置を1つのセットとし、文単位グラフリストに追加する。文書IDリストに対応する全ての文書に対して上記の処理を行い、生成した文単位グラフリストを文単位選択装置50に送る。
【0083】
文単位選択装置50は、条件グラフ生成装置30から取得した条件グラフ、文単位グラフ生成装置40から取得した文単位グラフリストを用いて、以下の処理によって最適な分単位を選択する。
【0084】
(1)条件グラフと各文単位グラフの類似度を計算する。類似度の計算は、例えば、分析実行装置10において説明した方法を用いることが可能である。つまり、同じ単語が同程度の重要度で使用され、同じ単語間に同程度の関連があるグラフ同士に大きな類似度を割り当てる。
【0085】
(2)類似度の大きい順にn個の文単位を選択する。
【0086】
上位n個の文単位、各文単位が出現する文書ID、出現位置をまとめて文単位リストとし、これをユーザインタフェース20に送る。
【0087】
以下、上記の構成における動作を説明する。
【0088】
図10は、本発明の一実施の形態における文書分析処理の動作のフローチャートである。
【0089】
ステップ100)分析実行装置10が以下の処理を行う。
【0090】
(a)分析対象文書データーベース60から文書を取得する。
【0091】
(b)各文書をグラフに変換する。
【0092】
(c)グラフ集合に対して、ユーザの指定する複数のグラフ操作を実行する。
【0093】
(d)結果グラフとそのグラフの基となった文書の文書IDをユーザインタフェース20に送信し、ユーザインタフェース20が、このようにして得られた結果グラフを、可視化して表示する。
【0094】
ステップ200)ユーザインタフェース20を通して、ユーザが可視化された結果グラフ上の1つまたは、複数の単語を選択し、「要約表現作成」ボタンを押す。
【0095】
ステップ300)条件グラフ生成装置30が、選択された単語リストと結果グラフから、条件グラフを生成する。詳細については後述する。
【0096】
ステップ400)文単位グラフ生成装置40が、条件グラフと文書IDリストに基づき、分析対象文書データーベース60からの文書の取得、文単位の抽出、文単位グラフの生成を行う。詳細は、後述する。
【0097】
ステップ500)文単位選択装置50が、各分単位グラフと条件グラフとの類似度を計算し、類似度の高いn個の文単位を選択する。
【0098】
ステップ600)文単位選択装置50が出力した文単位を、単語及び単語間の関連を色、フォント、線によって示し,出力する。各文単位の出現する文書IDと出現位置を併せて表示する。
【0099】
次に、上記のステップ300における条件グラフ生成処理について詳細に説明する。
【0100】
図11は、本発明の一実施の形態における条件グラフ生成処理のフローチャートである。
【0101】
ステップ301)分析実行装置10の出力した結果グラフとユーザによって選択された選択単語リストを取得する。
【0102】
ステップ302)単語を格納するための条件単語リスト、追加単語リスト、基本単語リストを空の状態で生成する。周辺単語を取得する際のホップ数mと、関連度の最低値kを設定する。ここで、前述の条件グラフ生成装置30の説明で示した(a)の方法(選択単語のみで条件グラフを生成)の場合は、m=0とする。
【0103】
ステップ303)選択単語リストを、条件単語リスト及び追加単語リストに設定する。
【0104】
ステップ304)ホップ数mの値を判定し、以下の分岐処理を行う。
【0105】
m>0の場合は、ステップ305に移行する。
【0106】
m≦0の場合は、ステップ311に移行する。
【0107】
ステップ305)追加単語リストを基本単語リストに設定する。また、追加単語リストを空にする。
【0108】
ステップ306)基本単語リストが空かどうかを判定し、以下の分岐処理を行う。
【0109】
空でない場合は、ステップ307に移行する。
【0110】
空である場合は、ステップ309に移行する。
【0111】
ステップ307)基本単語リストから単語を1つ取り出し、結果グラフ上で、この単語iからの関連度がk以上であり、これまでの処理で一度も抽出されていないリンク集合を抽出する。
【0112】
ステップ308)ステップ307で抽出した各リンクの単語iの逆端の単語を取得する。この単語が、条件単語リスト、追加単語リストのいずれにも存在しない場合、追加単語リストに追加する。
【0113】
ステップ309)ホップ数mを1減算する。
【0114】
ステップ310)追加単語リストを条件単語リストに追加する。
【0115】
ステップ311)条件単語リストの中のすべての2つの単語間のリンクを、結果グラフから取得する。
【0116】
ステップ312)条件単語リストの各単語を持つ結果グラフ上のノード、及びステップ311で得られたリンクの集合からグラフを作成する。これを条件グラフとして出力する。
【0117】
次に、上記のステップ400の文単位グラフ生成処理について説明する。
【0118】
図12は、本発明の一実施の形態における文単位グラフ生成処理のフローチャートである。
【0119】
ステップ401)ステップ300で生成した条件グラフ、ステップ100で生成した文書IDリストを取得する。
【0120】
ステップ402)空の文単位グラフリストを生成する。文単位グラフリストには、文単位グラフ、文単位、文書ID、文単位の出現位置のセットをリストとして持つことができる。
【0121】
ステップ403)文書IDリストが空かを判定し、以下の分岐処理を行う。
【0122】
空でない場合は、ステップ404に移行する。
【0123】
空である場合は、ステップ412に移行する。
【0124】
ステップ404)文書IDリストから文書IDを1つ取り出し、文書IDに対応した文書を分析対象文書データーベース60から取得する。
【0125】
ステップ405)文書から文単位を抽出し、文単位リストに設定する。
【0126】
ステップ406)文単位リストが空かを判定し、以下の分岐処理を行う。
【0127】
文単位リストが空でない場合は、ステップ407に移行する。
【0128】
文単位リストが空である場合は、ステップ403に移行する。
【0129】
ステップ407)文単位リストから文単位jを1つ取り出し、文単位jが条件グラフの単語を1つでも含むかを判定し、以下の分岐処理を行う。
【0130】
含む場合は、ステップ408に移行する。
【0131】
含まない場合は、ステップ406に移行する。
【0132】
ステップ408)文単位jから単語を抽出し、各単語の出現頻度を計算することによって、各単語の重要度を計算する。
【0133】
ステップ409)文単位jを規定区間に分割し、各規定区間内での共出現頻度を計算することによって、各単語間の関連度を計算する。
【0134】
ステップ410)ステップ408で計算した単語の重要度を、ノードの重みに設定し、ステップ409で計算した単語間の関連度をリンクの重みに設定した文単位グラフjを生成する。
【0135】
ステップ411)文単位グラフj、文単位j、文書ID、文単位jの出現位置を1つのセットとし、文単位グラフリストへ追加する。
【0136】
ステップ412)文単位グラフリストを出力する。
【0137】
【実施例】
以下、図面と共に本発明の実施例を説明する。
【0138】
以下では、前述の図10のフローチャートに基づいて説明するものとし、上記のステップ100の分析実行処理によって、図16のカテゴリ1のグラフが可視化され、ユーザインタフェース20に表示されているとして説明する。
【0139】
ステップ200)ユーザは、このように可視化されたグラフの中から「検索」「患者」「データ」を選択し、「要約表現作成」ボタンを押す。
【0140】
ステップ300)ユーザの選択したこれらの単語及びその周辺の単語である「医療」「管理」から条件グラフを生成する。ここで、周辺は、1ホップ(n=1)、最低関連度は、関連度が大きいもの(太いリンク)としてある。ここで作成された条件グラフは、図13である。
【0141】
ステップ400)カテゴリ1に含まれる各文書の中で、条件グラフの単語を1つでも含む文単位が抽出される。図14では、文書3、文書5、文書6からそれぞれ、2個、3個、1個の文単位が抽出されている。各文単位の先頭の数字は、その文単位の出現位置(文書の先頭の文単位を1とした連番)を示す。次に、文単位を文単位グラフに変換する。各文単位から単語を抽出し、文節の中で共出現関係を抽出し、グラフを生成している(図14の右に示す)。
【0142】
ステップ500)図13の条件グラフと図14の各文単位グラフの類似度計算が行われ、類似度の高い順に文単位が抽出される。
【0143】
ステップ600)ステップ500で抽出された文単位をユーザインタフェース20に表示する。表示例を図9に示す。結果グラフ可視化ウィンドウでは、分析実行装置10の出力した結果グラフを表示している。ここで、ユーザが選択した単語をノードの色を変えて表示している。要約表現表示ウィンドウでは、ユーザの選択した単語間の関係を最も良く表す文単位上位3個が、文書ID、出現位置と共に表示されている。各文単位では、ユーザの選択した単語を斜字体・太字、ユーザが選択した単語間の関連が文単位内にある場合には線によって表示している。
【0144】
ユーザは、この要約表現から、可視化された結果グラフの「患者」「検索」「データ」の関連が、「患者が何らかのデータを検索する」という関係に対応することを理解することができる。即ち、可視化されたグラフの一部を指定するだけで、その指定部分を最も良く表す原文書の箇所を即座に確認することができるので、文書や文書集合のないようを正確に判断することができる。
【0145】
また、前述の図10、図11、図12に示すフローチャートの動作をプログラムとして構築し、文書分析装置として利用されるコンピュータにインストールし、CPU等の制御手段により実行する、または、ネットワークを介して流通させることが可能である。
【0146】
また、構築されたプログラムを、文書分析装置として利用されるコンピュータに接続されるハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納しておき、本発明を実施する際に、コンピュータにインストールして実行することも可能である。
【0147】
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内に置いて、種々変更・応用が可能である。
【0148】
【発明の効果】
上述のように、本発明によれば、可視化された単語のグラフの一部を選択するだけでその部分を最も良く表す要約表現(原文書の箇所)を確認することができるので、単語間の関係がどのようなものであるかを理解でき、正確に、即座に文書や文書集合の内容を把握することができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における文書分析装置の構成図である。
【図4】本発明の一実施の形態における類似グラフ検索操作を説明するための図である。
【図5】本発明の一実施の形態における類似グラフ分類操作を説明するための図である。
【図6】本発明の一実施の形態における部分グラフ抽出操作を説明するための図である。
【図7】本発明の一実施の形態におけるグラフ合成操作を説明するための図である。
【図8】本発明の一実施の形態におけるグラフ差分抽出操作を説明するための図である。
【図9】本発明の一実施の形態におけるユーザインタフェースの表示例である。
【図10】本発明の一実施の形態における文書分析処理の動作のフローチャートである。
【図11】本発明の一実施の形態における条件グラフ生成処理のフローチャートである。
【図12】本発明の一実施の形態における文単位グラフ生成処理のフローチャートである。
【図13】本発明の一実施例の条件グラフ生成処理により生成された条件グラフの例である。
【図14】本発明の一実施例の文単位グラフ生成処理により生成された文単位グラフの例である。
【図15】従来の分析処理により特許Aから作成されたグラフ(GA)の例である。
【図16】従来の分析処理により得られた結果グラフの例である。
【符号の説明】
10 分析実行手段、分析実行装置
20 ユーザインタフェース
30 条件グラフ生成手段、条件グラフ生成装置
40 文単位グラフ生成手段、文単位生成装置
50 文単位選択手段、文単位選択装置
60 分析対象文書データーベース

Claims (20)

  1. 文書を分析し、文書集合の内容の概観を作成する文書分析方法において、
    分析実行装置が、分析対象の文書を蓄積する分析対象文書データーベースから文書を読み出して、分析し、単語をノード、単語間の関連をリンクとした結果グラフと、該結果グラフの基となった文書の文書IDとをユーザインタフェースに出力し、
    条件グラフ生成装置が、前記ユーザインタフェースによって表示された前記結果グラフからユーザによって選択された1つまたは、複数の単語からなる選択単語リストと、前記結果グラフから条件グラフを生成し、
    文単位グラフ生成装置が、前記条件グラフと前記分析実行装置から取得した文書IDリストに基づいて、前記分析対象文書データーベースから文書を取得して、文単位の抽出、文単位グラフの生成を行い、
    文単位選択装置が、前記条件グラフに合致する文単位を選択し、前記ユーザインタフェースに出力し、
    前記ユーザインタフェースが、選択された文単位を要約表現として表示することを特徴とする文書分析方法。
  2. 前記条件グラフ生成装置において、前記条件グラフを生成する際に、
    前記選択単語リストの各単語を持つ結果グラフ上のノードを、前記条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを、該条件グラフのリンクとして前記条件グラフを生成する請求項1記載の文書分析方法。
  3. 前記条件グラフ生成装置において、前記条件グラフを生成する際に、
    ホップ数及び最低関連度を設定し、
    前記結果グラフ上で、各選択単語から指定されたホップ数以内であり、前記最低関連度以上の関連度を持つリンクのみを用いて、到達可能なノードが持つ単語を周辺単語として取得し、周辺単語リストとし、
    前記選択単語リストと前記周辺単語リストとを条件単語リストとし、
    前記条件単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、
    前記結果グラフ上のこれらのノード間に存在するリンクを前記条件グラフのリンクとして前記条件グラフを生成する請求項1記載の文書分析方法。
  4. 前記文単位グラフ生成装置において、前記文単位グラフを生成する際に、
    前記文書IDを用いて前記分析対象文書データーベースから文書を取得し、
    文書を、段落、文、分析、連続する文字列、または、連続する単語列からなる文単位に分割し、
    前記条件グラフに含まれる単語を1つでも含む各文単位にのみに対して、単語を抽出し、これらの単語の出現頻度を計算し、
    文単位と同じか、より短い規定区間に分割し、該規定区間内での単語の共出現頻度を計算し、
    前記単語の出現頻度を各ノードの重要度、前記共出現頻度を各単語間の関連度に設定した前記文単位グラフを生成する請求項1記載の文書分析方法。
  5. 前記文単位選択装置において、前記文単位を選択して出力する際に、
    前記条件グラフ生成装置において生成された前記条件グラフと、前記文単位グラフ生成装置において生成された前記各文単位グラフとの類似度を計算し、
    前記類似度の高い定数個の文単位グラフに対応する文単位を、前記条件グラフに合致する文単位として選択して出力する請求項1記載の文書分析方法。
  6. 文書を分析し、文書集合の内容の概観を作成する文書分析装置であって、
    分析対象の文書を蓄積する分析対象データーベースと、
    前記分析対象文書データーベースから文書を読み出して、分析し、単語をノード、単語間の関連をリンクとした結果グラフと、該結果グラフの基となった文書の文書IDとを出力する分析実行手段と、
    前記結果グラフを可視化し、可視化された該結果グラフのユーザにより指定された部分に対応する要約表現を表示するユーザインタフェースと、
    前記ユーザインタフェースによって表示された前記結果グラフから選択された1つまたは、複数の単語からなる選択単語リストと、前記結果グラフから条件グラフを生成する条件グラフ生成手段と、
    前記条件グラフと前記文書IDリストに基づいて、前記分析対象文書データーベースから文書を取得して、文単位の抽出、文単位グラフの生成を行う文単位グラフ生成手段と、
    前記条件グラフに合致する文単位を選択し、前記ユーザインタフェースに出力する文単位選択手段と、
    を有することを特徴とする文書分析装置。
  7. 前記条件グラフ生成手段は、
    前記選択単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを、該条件グラフのリンクとして前記条件グラフを生成する手段を有する請求項6記載の文書分析装置。
  8. 前記条件グラフ生成手段は、
    ホップ数及び最低関連度を設定する手段と、
    前記結果グラフ上で、各選択単語から指定されたホップ数以内であり、前記最低関連度以上の関連度を持つリンクのみを用いて、到達可能なノードが持つ単語を周辺単語として取得し、周辺単語リストとする手段と、
    前記選択単語リストと前記周辺単語リストとを条件単語リストとし、該条件単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを前記条件グラフのリンクとして前記条件グラフを生成する手段と、を有する請求項6記載の文書分析装置。
  9. 前記文単位グラフ生成手段は、
    前記文書IDを用いて前記分析対象文書データーベースから文書を取得する手段と、
    文書を、段落、文、分析、連続する文字列、または、連続する単語列からなる文単位に分割する手段と、
    前記条件グラフに含まれる単語を1つでも含む各文単位にのみに対して、単語を抽出し、これらの単語の出現頻度を計算する手段と、
    文単位と同じか、より短い規定区間に分割し、該規定区間内での単語の共出現頻度を計算する手段と、
    前記単語の出現頻度を各ノードの重要度、前記共出現頻度を各単語間の関連度に設定した前記文単位グラフを生成する手段と、を有する請求項6記載の文書分析装置。
  10. 前記文単位選択手段は、
    前記条件グラフ生成手段において生成された前記条件グラフと、前記文単位グラフ生成手段において生成された前記各文単位グラフとの類似度を計算する手段と、
    前記類似度の高い定数個の文単位グラフに対応する文単位を、前記条件グラフに合致する文単位として選択して出力する手段と、を有する請求項6記載の文書分析装置。
  11. 文書を分析し、文書集合の内容の概観を作成する文書分析プログラムであって、
    分析対象の文書を蓄積する分析対象文書データーベースから文書を読み出して、分析し、単語をノード、単語間の関連をリンクとした結果グラフと、該結果グラフの基となった文書の文書IDとを出力する分析実行ステップと、
    前記ユーザインタフェースによって表示された前記結果グラフからユーザにより選択された1つまたは、複数の単語からなる選択単語リストと、前記結果グラフから条件グラフを生成する条件グラフ生成ステップと、
    前記条件グラフと文書IDリストに基づいて、前記分析対象文書データーベースから文書を取得して、文単位の抽出、文単位グラフの生成を行う文単位グラフ生成ステップと、
    前記条件グラフに合致する文単位を選択し、前記ユーザインタフェースに出力する文単位選択ステップと、
    前記ユーザインタフェースが、選択された文単位を要約表現として表示する表示ステップからなることを特徴とする文書分析プログラム。
  12. 前記条件グラフ生成ステップにおいて、前記条件グラフを生成する際に、
    前記選択単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを、該条件グラフのリンクとして前記条件グラフを生成するステップを含む請求項11記載の文書分析プログラム。
  13. 前記条件グラフ生成ステップにおいて、前記条件グラフを生成する際に、
    ホップ数及び最低関連度を設定するステップと、
    前記結果グラフ上で、各選択単語から指定されたホップ数以内であり、前記最低関連度以上の関連度を持つリンクのみを用いて、到達可能なノードが持つ単語を周辺単語として取得し、周辺単語リストとし、前記選択単語リストと該周辺単語リストとを条件単語リストとし、該条件単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを前記条件グラフのリンクとして前記条件グラフを生成するステップとを含む請求項11記載の文書分析プログラム。
  14. 前記文単位グラフ生成ステップにおいて、前記文単位グラフを生成する際に、
    前記文書IDを用いて前記分析対象文書データーベースから文書を取得するステップと、
    文書を、段落、文、分析、連続する文字列、または、連続する単語列からなる文単位に分割するステップと、
    前記条件グラフに含まれる単語を1つでも含む各文単位にのみに対して、単語を抽出し、これらの単語の出現頻度を計算するステップと、
    文単位と同じか、より短い規定区間に分割し、該規定区間内での単語の共出現頻度を計算するステップと、
    前記単語の出現頻度を各ノードの重要度、前記共出現頻度を各単語間の関連度に設定した前記文単位グラフを生成するステップと、を含む請求項11記載の文書分析プログラム。
  15. 前記文単位選択ステップにおいて、前記文単位を選択して出力する際に、
    前記条件グラフ生成ステップにおいて生成された前記条件グラフと、前記文単位グラフ生成ステップにおいて生成された前記各文単位グラフとの類似度を計算するステップと、
    前記類似度の高い定数個の文単位グラフに対応する文単位を、前記条件グラフに合致する文単位として選択して出力するステップとを含む請求項11記載の文書分析プログラム。
  16. 文書を分析し、文書集合の内容の概観を作成する文書分析プログラムを格納した記憶媒体であって、
    分析対象の文書を蓄積する分析対象文書データーベースから文書を読み出して、分析し、単語をノード、単語間の関連をリンクとした結果グラフと、該結果グラフの基となった文書の文書IDとを出力する分析実行ステップと、
    前記ユーザインタフェースによって表示された前記結果グラフからユーザにより選択された1つまたは、複数の単語からなる選択単語リストと、前記結果グラフから条件グラフを生成する条件グラフ生成ステップと、
    前記条件グラフと文書IDリストに基づいて、前記分析対象文書データーベースから文書を取得して、文単位の抽出、文単位グラフの生成を行う文単位グラフ生成ステップと、
    前記条件グラフに合致する文単位を選択し、前記ユーザインタフェースに出力する文単位選択ステップと、
    前記ユーザインタフェースが、選択された文単位を要約表現として表示する表示ステップからなることを特徴とする文書分析プログラムを格納した記憶媒体。
  17. 前記条件グラフ生成ステップにおいて、前記条件グラフを生成する際に、
    前記選択単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを、該条件グラフのリンクとして前記条件グラフを生成するステップを含む請求項16記載の文書分析プログラムを格納した記憶媒体。
  18. 前記条件グラフ生成ステップにおいて、前記条件グラフを生成する際に、
    ホップ数及び最低関連度を設定するステップと、
    前記結果グラフ上で、各選択単語から指定されたホップ数以内であり、前記最低関連度以上の関連度を持つリンクのみを用いて、到達可能なノードが持つ単語を周辺単語として取得し、周辺単語リストとし、前記選択単語リストと前記周辺単語リストとを条件単語リストとし、該条件単語リストの各単語を持つ結果グラフ上のノードを、条件グラフのノードとし、該結果グラフ上のこれらのノード間に存在するリンクを前記条件グラフのリンクとして前記条件グラフを生成するステップとを含む請求項16記載の文書分析プログラムを格納した記憶媒体。
  19. 前記文単位グラフ生成ステップにおいて、前記文単位グラフを生成する際に、
    前記文書IDを用いて前記分析対象文書データーベースから文書を取得するステップと、
    文書を、段落、文、分析、連続する文字列、または、連続する単語列からなる文単位に分割するステップと、
    前記条件グラフに含まれる単語を1つでも含む各文単位にのみに対して、単語を抽出し、これらの単語の出現頻度を計算するステップと、
    文単位と同じか、より短い規定区間に分割し、該規定区間内での単語の共出現頻度を計算するステップと、
    前記単語の出現頻度を各ノードの重要度、前記共出現頻度を各単語間の関連度に設定した前記文単位グラフを生成するステップと、を含む請求項16記載の文書分析プログラムを格納した記憶媒体。
  20. 前記文単位選択ステップにおいて、前記文単位を選択して出力する際に、
    前記条件グラフ生成ステップにおいて生成された前記条件グラフと、前記文単位グラフ生成ステップにおいて生成された前記各文単位グラフとの類似度を計算するステップと、
    前記類似度の高い定数個の文単位グラフに対応する文単位を、前記条件グラフに合致する文単位として選択して出力するステップとを含む請求項16記載の文書分析プログラムを格納した記憶媒体。
JP2003146322A 2003-05-23 2003-05-23 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体 Expired - Fee Related JP4259179B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003146322A JP4259179B2 (ja) 2003-05-23 2003-05-23 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003146322A JP4259179B2 (ja) 2003-05-23 2003-05-23 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2004348555A true JP2004348555A (ja) 2004-12-09
JP4259179B2 JP4259179B2 (ja) 2009-04-30

Family

ID=33533204

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003146322A Expired - Fee Related JP4259179B2 (ja) 2003-05-23 2003-05-23 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP4259179B2 (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102717A (ja) * 2005-10-07 2007-04-19 Toshiba Corp ベイジアンネットワーク構築支援装置
JP2007206771A (ja) * 2006-01-31 2007-08-16 Fujitsu Ltd 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置
JP2011154540A (ja) * 2010-01-27 2011-08-11 Fujitsu Ltd 類似度算出プログラムおよび類似度算出装置
JP2013045326A (ja) * 2011-08-25 2013-03-04 Kyoto Univ 関係性グラフデータベースシステム
WO2017069548A1 (ko) * 2015-10-23 2017-04-27 아주대학교산학협력단 복잡계 네트워크에서의 집합 관계 분석 시각화 장치 및 그 방법
US20220123848A1 (en) * 2019-01-21 2022-04-21 Nec Corporation Wireless communication quality visualization system, wireless communication quality visualization device, and measurement apparatus
WO2022090849A1 (ja) * 2020-10-30 2022-05-05 株式会社半導体エネルギー研究所 読解支援システム及び読解支援方法
JP2022165786A (ja) * 2021-04-20 2022-11-01 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007102717A (ja) * 2005-10-07 2007-04-19 Toshiba Corp ベイジアンネットワーク構築支援装置
JP2007206771A (ja) * 2006-01-31 2007-08-16 Fujitsu Ltd 情報要素処理プログラム、情報要素処理方法及び情報要素処理装置
JP2011154540A (ja) * 2010-01-27 2011-08-11 Fujitsu Ltd 類似度算出プログラムおよび類似度算出装置
US8868583B2 (en) 2010-01-27 2014-10-21 Fujitsu Limited Similarity calculation apparatus
JP2013045326A (ja) * 2011-08-25 2013-03-04 Kyoto Univ 関係性グラフデータベースシステム
WO2017069548A1 (ko) * 2015-10-23 2017-04-27 아주대학교산학협력단 복잡계 네트워크에서의 집합 관계 분석 시각화 장치 및 그 방법
US20220123848A1 (en) * 2019-01-21 2022-04-21 Nec Corporation Wireless communication quality visualization system, wireless communication quality visualization device, and measurement apparatus
WO2022090849A1 (ja) * 2020-10-30 2022-05-05 株式会社半導体エネルギー研究所 読解支援システム及び読解支援方法
JP2022165786A (ja) * 2021-04-20 2022-11-01 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム

Also Published As

Publication number Publication date
JP4259179B2 (ja) 2009-04-30

Similar Documents

Publication Publication Date Title
Jung et al. Research trends in text mining: Semantic network and main path analysis of selected journals
JP3067966B2 (ja) 画像部品を検索する装置及びその方法
CN107239481B (zh) 一种面向多源网络百科的知识库构建方法
US10628476B2 (en) Information processing apparatus, information processing method, information processing system, and storage medium
Quispe et al. Using virtual edges to improve the discriminability of co-occurrence text networks
JP2008276550A (ja) 文書検索システム及び文書検索方法
JP2011501258A (ja) 情報抽出装置および方法
JP2004110161A (ja) テキスト文比較装置
JP4997892B2 (ja) 検索システム、検索方法及び検索プログラム
JP2004157623A (ja) 検索システム及び検索方法
JP2020035036A (ja) 試験計画策定支援装置、試験計画策定支援方法及びプログラム
JP4259179B2 (ja) 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
WO2014064777A1 (ja) 文書評価支援システム、及び文書評価支援方法
JP2009295052A (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP5578889B2 (ja) 読影レポート作成支援装置、及び、読影レポート作成支援方法
JP2003099442A (ja) キー概念抽出規則作成方法、キー概念抽出方法、キー概念抽出規則作成装置、キー概念抽出装置、そのためのプログラム及び記録媒体
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP5311488B2 (ja) 感性情報抽出装置、感性検索装置、その方法およびプログラム
JP2008225846A (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
Wang et al. Radiology text analysis system (RadText): architecture and evaluation
CN116994689A (zh) 医疗数据的特征化处理方法、装置、设备、介质及产品
JP2004272352A (ja) 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
JP7427510B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2000194721A (ja) 文書群分類装置および文書群分類方法
JP2022178243A (ja) 画像生成装置、画像生成方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080902

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090202

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120220

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130220

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees