JP2003330966A - 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体 - Google Patents

文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体

Info

Publication number
JP2003330966A
JP2003330966A JP2002137320A JP2002137320A JP2003330966A JP 2003330966 A JP2003330966 A JP 2003330966A JP 2002137320 A JP2002137320 A JP 2002137320A JP 2002137320 A JP2002137320 A JP 2002137320A JP 2003330966 A JP2003330966 A JP 2003330966A
Authority
JP
Japan
Prior art keywords
graph
document
argument
target
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002137320A
Other languages
English (en)
Inventor
Junji Tomita
準二 富田
Tetsuo Ikeda
哲夫 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002137320A priority Critical patent/JP2003330966A/ja
Publication of JP2003330966A publication Critical patent/JP2003330966A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書集合を分析し、結果として得られたグラ
フ集合を可視化して表示する。 【解決手段】 本発明は、文書IDに関連付けられて文
書が格納されているデータベースから、文書が入力され
ると、該文書の単語をノード、該単語間の関係をリンク
としたグラフに変換し、グラフ操作の種別と、各グラフ
操作に応じた引数を作成し、指定されたグラフ操作を実
行する分析実行処理を呼び出し、実行結果を取得し、出
力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書分析方法及び
装置及び文書分析プログラム及び文書分析プログラムを
格納した記憶媒体に係り、特に、大量の文書を分析し、
知識を発見する作業を支援するための文書分析方法及び
装置及び文書分析プログラム及び文書分析プログラムを
格納した記憶媒体に関する。
【0002】
【従来の技術】人々が扱わなければならない文書の量は
飛躍的に増大している。これに対し、人々が文書を読
み、内容を理解する能力は限られているため、大量の文
書の中から傾向や概略といった知識を発見する技術が注
目を集めている。このような技術の代表的なものには、
入力した文書に類似する文書を検索する類似文書検索技
術、文書の内容に応じて文書を分類する文書クラスタリ
ング技術等がある。
【0003】類似文書検索技術や文書クラスタリング技
術では、まず、文書の内容をコンピュータが取り扱うこ
とができる表現に変換する。この代表的な表現として単
語ベクトルがある。単語ベクトルは、以下のステップに
よって作成される。
【0004】 文書の中から単語を抽出する。
【0005】 統計量等を用いて、各単語の重要度を
計算する。
【0006】 単語を次元としたベクトル(以下、単
語ベクトル)を作成する。
【0007】ここで、単語ベクトルの例を以下に示す。
【0008】 ネットワーク ロボット 情報 … 文書1 (0.9 0.8 0.6 …) 文書2 (0.8 0.7 0 …) このように、文書の内容を単語ベクトルで表現すると、
内容の類似性をこれら単語ベクトル間のコサインといっ
た類似度によって計算することができる。さらに、単語
ベクトルの合成(加算)によって、複数の文書を纏めて
表現することができるため、単一の文書間の類似性に加
えて、文書集合間の類似性も容易に計算できる。
【0009】例えば、文書クラスタリング技術では、分
類対象のすべての文書間の類似度に加えて、文書を纏め
て作成したクラスタ間の類似度を計算することによっ
て、規定個数のクラスタに文書集合を分類している。
【0010】
【発明が解決しようとする課題】しかしながら、上記従
来の単語ベクトルに基づく従来の類似文書検索技術、文
書クラスタリング技術を大量の文書の分析に利用するに
は、以下の問題がある。第1には、文書(集合)の内容
を可視化することが難しいという問題である。検索され
た文書の内容や分類の結果作成されたクラスタ全体の内
容を、素早く把握するためには、これらの文書や文書集
合の内容を可視化し、直感的に人間に判るようにするこ
とが重要である。しかし、単語ベクトルでは、文書内の
各単語は完全に独立したものとして扱われるため、単語
ベクトルを見ただけでは文書の内容を判断することが難
しい。例えば、ある文書から以下の単語ベクトルが作成
されたとする。
【0011】 検索 効率 情報 システム … (0.9 0.8 0.6 0.3 …) この単語ベクトルからは、独立した単語情報しか得られ
ないので、もとの文書が「情報検索システムの検索効
率」という内容なのか、それとも「情報検索システムの
システム効率」という内容なのかを判断することができ
ない。
【0012】また、前述したように、単語ベクトルは、
ベクトル合成によって文書集合の内容を表現することが
できる。しかし、同様の理由で合成された単語ベクトル
を見たとしても直感的に基の文書集合の内容を把握する
ことは難しい。そのため、文書を自動的にクラスタリン
グしたとしても、各クラスタが、どのような内容の文書
集合なのかを判断することは困難である。
【0013】第2に、文書の特定の部分に着目すること
ができないという問題がある。文書全体から単語ベクト
ルを作成すると、その文書がある特定の観点で見たとき
に、どのような内容なのかを判断することが出来ない。
そのため、複数の話題が含まれているような長い文書を
取り扱うことが難しい。例えば、「観光地」、「交通手
段」、「宿泊施設」等の様々な内容が書かれている文書
が複数あったとする。ある人が、これらの文書を「観光
地」という観点に着目して分類したいとする。しかし、
単語ベクトルを用いた類似度計算では、このような観点
は指定できないため、「交通手段」や「宿泊施設」とい
った内容が雑音となり正しく分類することができない。
このように文書の中の特定の内容に着目した分類や可視
化ができない。
【0014】第3に、分析プロセスを支援していないと
いう問題がある。類似文書検索の結果は、通常、文書の
タイトルのリストであり、文書クラスタリングの結果
は、分類された(分類カテゴリを振られた)文書のタイ
トルリスト等である。そのため、あるクラスタだけを再
クラスタリングしたり、クラスタの内容に類似する文書
を、類似文書検索を用いて見つける等、様々な分析ステ
ップの組み合わせを支援できない。
【0015】本発明は、上記の点に鑑みなされたもの
で、文書集合を分析し、結果として得られたグラフ集合
を可視化して表示することが可能な文書分析方法及び装
置及び文書分析プログラム及び文書分析プログラムを格
納した記憶媒体を提供することを目的とする。
【0016】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。
【0017】本発明は、文書を分析し、知識を発見する
ための文書分析方法において、文書IDに関連付けられ
て文書が格納されているデータベースから、文書が入力
されると(ステップ1)、該文書の単語をノード、該単
語間の関係をリンクとしたグラフに変換する(ステップ
2)文書グラフ変換ステップと、グラフ操作の種別と、
各グラフ操作に応じた引数を作成し、指定された(ステ
ップ3)グラフ操作を実行する分析実行ステップを呼び
出し、実行結果を取得し、出力する(ステップ5)分析
制御ステップとを行う。。
【0018】本発明は、文書グラフ変換ステップにおい
て、入力された文書から単語を抽出し、各単語の重要度
を計算し、すべての2つの単語間の関連度を計算し、単
語をノード、該単語間の関連をリンク、重要度と関連度
をそれぞれノードとリンクの重みとしてグラフを作成す
る。
【0019】本発明は、分析実行ステップにおいて、入
力として、グラフ操作の種別と1つまたは、複数のグラ
フからなる引数グラフリストを取得し、指定されたグラ
フ操作を引数グラフリストに対して実行し、1つまた
は、複数のグラフからなる結果グラフリストを実行結果
として出力する。
【0020】本発明は、分析実行ステップにおけるグラ
フ操作として、引数グラフリストとして、検索条件フラ
グと1つ、または、複数の検索対象グラフを受け取った
場合には、検索条件グラフと各検索対象グラフとの類似
度を計算し、類似度の高い規定個数のグラフを結果グラ
フリストとして出力し、また、引数グラフリストとし
て、複数の分類対象グラフを受け取った場合には、分類
対象グラフ間の類似度を用いて、分析対象グラフを分類
または、クラスタリングし、規定個数に分類された分類
対象グラフを結果グラフリストとして出力し、また、引
数グラフリストとして、抽出条件グラフと1つ、また
は、複数の抽出対象グラフを受け取った場合には、抽出
対象グラフの各々から抽出条件グラフに応じた部分グラ
フを抽出し、部分フラグの各々を結果グラフリストとし
て出力し、また、引数グラフリストとして、1つ、また
は、複数の合成対象グラフを受け取った場合には、合成
対象グラフの中で同じ単語を持つノードを見つけ、その
重要度を加算し、合成対象グラフの中で同じ単語を両端
に持つリンクを見つけ、その関連度を加算し、加算され
た重要度と関連度を持つノード及びリンクで構成される
合成グラフを結果グラフリストとして出力し、また、引
数グラフリストとして、1つの差分対象グラフと1つの
差分条件グラフを受け取った場合には、差分対象グラフ
の中で差分条件グラフと同じ単語を持つノードがあった
場合には、その重要度の減算を行い、差分対象グラフの
中で差分条件グラフと同じ単語を両端に持つリンクがあ
った場合には、その関連度を減算を行い、減算された重
要度と関連度が正の値となるノード及びリンクで構成さ
れる差分グラフを結果グラフリストとして出力する。
【0021】本発明は、分析制御ステップにおいて、引
数グラフを指定する際に、ユーザから文書が指定された
場合には、文書グラフ変換ステップによってグラフを生
成し、これを引数グラフとし、ユーザから文書IDが指
定された場合には、分析対象文書が格納されているデー
タベースから、該文書IDを持つ文書を取得し、文書グ
ラフ変換ステップにより該文書をグラフに変換し、これ
を引数グラフとし、ユーザから直接グラフが指定された
場合には、これを引数グラフとする。
【0022】本発明は、分析制御ステップにおいて、ユ
ーザが直接グラフを指定する際に、ユーザの画面に表示
されている結果グラフの一部、または、全部を選択さ
せ、選択結果に基づいて引数グラフを生成する。
【0023】図2は、本発明の原理構成図である。
【0024】本発明は、文書を分析し、知識を発見する
ための文書分析装置であって、文書ICに関連付けられ
て文書が格納されている分析対象文書データベース40
と、分析対象文書データベース40から読み出された文
書が入力されると、該文書の単語をノード、該単語間の
関係をリンクとしたグラフに変換して出力する文書グラ
フ変換手段10と、指定されたグラフ操作を実行し、そ
の実行結果を出力する分析実行手段30と、グラフ操作
の種別と、各グラフ操作に応じた引数を作成し、分析実
行手段30を呼び出し、実行結果を取得する分析制御手
段20と、を有する。
【0025】本発明の文書グラフ変換手段10は、入力
された文書から単語を抽出する手段と、各単語の重要度
を計算する手段と、すべての2つの単語間の関連度を計
算する手段と、単語をノード、該単語間の関連をリン
ク、重要度と関連度をそれぞれノードとリンクの重みと
してグラフを作成する手段とを含む。
【0026】本発明の分析実行手段30は、入力とし
て、グラフ操作の種別と1つまたは、複数のグラフから
なる引数グラフリストを取得する手段と、指定されたグ
ラフ操作を引数グラフリストに対して実行するグラフ操
作手段と、1つまたは、複数のグラフからなる結果グラ
フリストを実行結果として出力する手段とを含む。
【0027】本発明のグラフ操作手段は、引数グラフリ
ストとして、検索条件フラグと1つ、または、複数の検
索対象グラフを受け取ると、検索条件グラフと各検索対
象グラフとの類似度を計算する手段と、類似度の高い規
定個数のグラフを結果グラフリストとして出力する手段
と、を含む。
【0028】本発明のグラフ操作手段は、引数グラフリ
ストとして、複数の分類対象グラフを受け取ると、分類
対象グラフ間の類似度を用いて、分析対象グラフを分類
または、クラスタリングする手段と、規定個数に分類さ
れた分類対象グラフを結果グラフリストとして出力する
手段とを含む。
【0029】本発明のグラフ操作手段は、引数グラフリ
ストとして、抽出条件グラフと1つ、または、複数の抽
出対象グラフを受け取ると、抽出対象グラフの各々から
抽出条件グラフに応じた部分グラフを抽出する手段と、
部分フラグの各々を結果グラフリストとして出力する手
段とを含む。
【0030】本発明のグラフ操作手段は、引数グラフリ
ストとして、1つ、または、複数の合成対象グラフを受
け取ると、合成対象グラフの中で同じ単語を持つノード
を見つけ、その重要度を加算する手段と、合成対象グラ
フの中で同じ単語を両端に持つリンクを見つけ、その関
連度を加算する手段と、加算された重要度と関連度を持
つノード及びリンクで構成される合成グラフを結果グラ
フリストとして出力する手段と、を含む。
【0031】本発明のグラフ操作手段は、引数グラフリ
ストとして、1つの差分対象グラフと1つの差分条件グ
ラフを受け取ると、差分対象グラフの中で差分条件グラ
フと同じ単語を持つノードがあった場合には、その重要
度の減算を行う手段と、差分対象グラフの中で差分条件
グラフと同じ単語を両端に持つリンクがあった場合に
は、その関連度を減算を行う手段と、減算された重要度
と関連度が正の値となるノード及びリンクで構成される
差分グラフを結果グラフリストとして出力する手段と、
を含む。
【0032】本発明の分析制御手段20は、引数グラフ
を指定する際に、ユーザから文書が指定された場合に
は、文書グラフ変換によってグラフを生成し、これを引
数グラフとし、該ユーザから文書IDが指定された場合
には、分析対象文書データベース40から、該文書ID
を持つ文書を取得し、文書グラフ変換手段10により該
文書をグラフに変換し、これを引数グラフとし、該ユー
ザから直接グラフが指定された場合には、これを引数グ
ラフとする手段を含む。
【0033】本発明の分析制御手段20は、ユーザが直
接グラフを指定する際に、該ユーザの画面に表示されて
いる結果グラフの一部、または、全部を選択させ、選択
結果に基づいて引数グラフを生成する手段を含む。
【0034】本発明は、文書を分析し、知識を発見する
ための文書分析プログラムであって、文書IDに関連付
けられて文書が格納されているデータベースから、文書
が入力されると、入力された該文書から単語を抽出し、
該各単語の重要度を計算し、すべての2つの単語間の関
連度を計算し、該単語をノード、該単語間の関連をリン
ク、該重要度と該関連度をそれぞれノードとリンクの重
みとしてグラフを作成する文書グラフ変換ステップと、
グラフ操作の種別と、各グラフ操作に応じた引数を作成
し、指定されたグラフ操作を実行する分析実行ステップ
を呼び出し、実行結果を取得し、出力する分析制御ステ
ップとからなり、分析実行ステップにおいて、引数グラ
フリストとして、検索条件フラグと1つ、または、複数
の検索対象グラフを受け取った場合には、検索条件グラ
フと各検索対象グラフとの類似度を計算し、類似度の高
い規定個数のグラフを結果グラフリストとして出力する
ステップ、また、引数グラフリストとして、複数の分類
対象グラフを受け取った場合には、分類対象グラフ間の
類似度を用いて、分析対象グラフを分類または、クラス
タリングし、規定個数に分類された分類対象グラフを結
果グラフリストとして出力するステップ、また、引数グ
ラフリストとして、抽出条件グラフと1つ、または、複
数の抽出対象グラフを受け取った場合には、抽出対象グ
ラフの各々から抽出条件グラフに応じた部分グラフを抽
出し、部分フラグの各々を結果グラフリストとして出力
するステップ、また、引数グラフリストとして、1つ、
または、複数の合成対象グラフを受け取った場合には、
合成対象グラフの中で同じ単語を持つノードを見つけ、
その重要度を加算し、合成対象グラフの中で同じ単語を
両端に持つリンクを見つけ、その関連度を加算し、加算
された重要度と関連度を持つノード及びリンクで構成さ
れる合成グラフを結果グラフリストとして出力するステ
ップ、また、引数グラフリストとして、1つの差分対象
グラフと1つの差分条件グラフを受け取った場合には、
差分対象グラフの中で差分条件グラフと同じ単語を持つ
ノードがあった場合には、その重要度の減算を行い、差
分対象グラフの中で差分条件グラフと同じ単語を両端に
持つリンクがあった場合には、その関連度を減算を行
い、減算された重要度と関連度が正の値となるノード及
びリンクで構成される差分グラフを結果グラフリストと
して出力するステップ、のいずれかを行い、分析制御ス
テップにおいて、引数グラフを指定する際に、ユーザか
ら文書が指定された場合には、文書グラフ変換によって
グラフを生成し、これを引数グラフとし、また、ユーザ
から文書IDが指定された場合には、分析対象文書が格
納されているデータベースから、該文書IDを持つ文書
を取得し、文書グラフ変換ステップにより該文書をグラ
フに変換し、これを引数グラフとし、また、ユーザが、
直接グラフを指定する場合には、該ユーザの画面に表示
されている結果グラフの一部、または、全部を選択さ
せ、選択結果に基づいて引数グラフを生成するステップ
を行う。
【0035】本発明は、文書を分析し、知識を発見する
ための文書分析プログラムを格納した記憶媒体であっ
て、文書IDに関連付けられて文書が格納されているデ
ータベースから、文書が入力されると、入力された該文
書から単語を抽出し、該各単語の重要度を計算し、すべ
ての2つの単語間の関連度を計算し、該単語をノード、
該単語間の関連をリンク、該重要度と該関連度をそれぞ
れノードとリンクの重みとしてグラフを作成する文書グ
ラフ変換ステップと、グラフ操作の種別と、各グラフ操
作に応じた引数を作成し、指定されたグラフ操作を実行
する分析実行ステップを呼び出し、実行結果を取得し、
出力する分析制御ステップとからなり、分析実行ステッ
プにおいて、引数グラフリストとして、検索条件フラグ
と1つ、または、複数の検索対象グラフを受け取った場
合には、検索条件グラフと各検索対象グラフとの類似度
を計算し、類似度の高い規定個数のグラフを結果グラフ
リストとして出力するステップ、また、引数グラフリス
トとして、複数の分類対象グラフを受け取った場合に
は、分類対象グラフ間の類似度を用いて、分析対象グラ
フを分類または、クラスタリングし、規定個数に分類さ
れた分類対象グラフを結果グラフリストとして出力する
ステップ、また、引数グラフリストとして、抽出条件グ
ラフと1つ、または、複数の抽出対象グラフを受け取っ
た場合には、抽出対象グラフの各々から抽出条件グラフ
に応じた部分グラフを抽出し、部分フラグの各々を結果
グラフリストとして出力するステップ、また、引数グラ
フリストとして、1つ、または、複数の合成対象グラフ
を受け取った場合には、合成対象グラフの中で同じ単語
を持つノードを見つけ、その重要度を加算し、合成対象
グラフの中で同じ単語を両端に持つリンクを見つけ、そ
の関連度を加算し、加算された重要度と関連度を持つノ
ード及びリンクで構成される合成グラフを結果グラフリ
ストとして出力するステップ、また、引数グラフリスト
として、1つの差分対象グラフと1つの差分条件グラフ
を受け取った場合には、差分対象グラフの中で差分条件
グラフと同じ単語を持つノードがあった場合には、その
重要度の減算を行い、差分対象グラフの中で差分条件グ
ラフと同じ単語を両端に持つリンクがあった場合には、
その関連度を減算を行い、減算された重要度と関連度が
正の値となるノード及びリンクで構成される差分グラフ
を結果グラフリストとして出力するステップ、のいずれ
かを行い、分析制御ステップにおいて、引数グラフを指
定する際に、ユーザから文書が指定された場合には、文
書グラフ変換によってグラフを生成し、これを引数グラ
フとし、また、ユーザから文書IDが指定された場合に
は、分析対象文書が格納されているデータベースから、
該文書IDを持つ文書を取得し、文書グラフ変換ステッ
プにより該文書をグラフに変換し、これを引数グラフと
し、また、ユーザが、直接グラフを指定する場合には、
該ユーザの画面に表示されている結果グラフの一部、ま
たは、全部を選択させ、選択結果に基づいて引数グラフ
を生成するステップを行う、文書分析プログラムを格納
する。
【0036】上記のように、本発明は、単語をノード、
単語の間の関連をリンクとしたグラフに、各文書を変換
し、これらグラフリストを入出力として持つ様々なグラ
フ操作を組み合わせることによって、文書集合を分析
し、結果として得られたグラフ集合を可視化して表示す
ることが可能となる。このため、ユーザは、自分の興味
のある文書に近い内容の文書集合をある与えられた観点
によってクラスタリングし、各分類結果毎のグラフと、
分類結果毎にどのような差異があるのかを可視化して見
ることができる。即ち、文書の特定部分に着目した文書
の分析、文書集合や文書集合間の差分の可視化、さまざ
まな分析操作の組み合わせが可能である。
【発明の実施の形態】以下、図面と共に本発明の実施の
形態を説明する。
【0037】図3は、本発明の一実施の形態における文
書解析装置の構成を示す。
【0038】同図に示す文書解析装置は、文書の単語を
ノード、単語間の関係をリンクとしたグラフに変換して
出力する文書グラフ変換装置10、指定されたグラフ操
作を実行し、その結果を出力する分析実行装置30、グ
ラフ操作の種別と、各グラフ操作に応じた引数を作成
し、分析実行装置30の処理を呼び出し、実行結果を取
得する分析制御装置20、文書IDに関連付けられた文
書が格納されている分析対象文書データベース40から
構成される。
【0039】文書グラフ変換装置10は、入力として文
書を受け取ると、以下のステップよって文書をグラフに
変換する。
【0040】 文書から単語を抽出する。
【0041】 抽出した各単語の重要度を計算する。
【0042】 抽出した各単語間の関連度を計算す
る。
【0043】 単語をノード、単語間の関連をリン
ク、重要度と関連度をそれぞれノード、リンクの重みと
したグラフを作成する。
【0044】当該文書グラフ変換装置10における、単
語の重要度の計算方法や単語間の関連度の計算方法は、
既存技術による、例えば、特願平10−297321が
利用できる。
【0045】分析実行装置30は、グラフ操作の種別と
引数グラフリストを取得し、指定されたグラフ操作を、
引数グラフリストに対して実行し、結果グラフリストを
出力する。グラフ操作の例を図4〜図8に示す。各操作
の詳細は以下の通りである。 ・操作A)類似グラフ検索操作(search:Ga ,G
S):図4は、本発明の一実施の形態における類似グラ
フ検索操作を説明するための図である。
【0046】当該類似グラフ検索操作における入力は、
検索条件グラフ(Ga )と、n個の検索対象グラフ(G
S)であり、以下の処理により、類似度の高いm個のグ
ラフ集合が出力される。
【0047】 Ga とGSの各グラフとの類似度を計
算する。なお、グラフ間の類似度計算手法としては、既
存の技術である、例えば、特願平10−297321を
利用することができる。
【0048】 類似度の降順にGSをソートする。
【0049】 類似度の高いm個のグラフを出力す
る。
【0050】・操作B)類似グラフ分析操作(clusteri
ng(GS)):図5は、本発明の一実施の形態における
類似グラフ分類操作を説明するための図である。
【0051】当該類似グラフ分析操作における入力は、
n個の分類対象グラフ(GS)であり、以下の処理によ
り、k個のクラスタに分けられた分類対象グラフが出力
される。
【0052】 GSに含まれるグラフ間の類似度を計
算する。なお、当該類似度の計算には、類似グラフ検索
操作と同様の既存の技術を利用することができる。
【0053】 類似度に基づきグラフをkのクラスタ
に分類する。
【0054】 kのクラスタを出力する。
【0055】・操作C)部分グラフ抽出操作(extract
(Ga ,GS)):図6は、本発明の一実施の形態にお
ける部分グラフ抽出操作を説明するための図である。
【0056】当該部分グラフ抽出操作における入力は、
抽出条件グラフ(Ga )とn個の抽出対象グラフ(G
S)であり、以下の処理により、n個の抽出されたグラ
フが出力される。
【0057】 GSの各グラフからGa に基づき部分
グラフを抽出する。
【0058】 抽出された部分グラフの集合を出力す
る。
【0059】図6の例では、Ga に含まれるノード(単
語‘A’及び‘B’)から1ホップ以内のノードからな
る部分グラフを抽出している。部分グラフの抽出アルゴ
リズムは既存技術による。例えば、特願2000−62
561が利用できる。
【0060】・操作D)グラフ合成操作(merge (G
S)):グラフ合成操作における入力は、n個の合成対
象グラフであり、以下の処理により、合成されたグラフ
が出力される。
【0061】 GSの中の同じ単語を持つノードを見
つけ、その重要度を加算する。
【0062】 GSの中の同じ単語を両端に持つリン
クを見つけ、その関連度を加算する。
【0063】 このようにして作成されたグラフを出
力する。
【0064】・操作E)グラフ差分抽出操作(substrac
t (Ga ,Gb )):グラフ差分抽出操作の入力は、差
分抽出対象グラフ(Ga )と、差分抽出条件グラフ(G
b )であり、以下の処理により、差分グラフが出力され
る。
【0065】 Ga からGb の重要度の減算を行う。
【0066】 Ga からGb の関連度の減算を行う。
【0067】 減算された重要度、関連度を持つグラ
フを出力する。
【0068】なお、ここで、減算とは、同じノード(リ
ンク)がある場合には、重要度、関連度を減算し、同じ
ノード(リンク)が無い場合には、何も行わない。ま
た、減算した結果、負数になる場合には、そのノード
(リンク)を削除する。
【0069】これらの操作の入出力は共にグラフリスト
であるため、任意の順序で組み合わせをすることが可能
である。また、ここに示したグラフ操作以外でも入出力
が、共にグラフリストであれば、本発明に組み込むこと
ができる。
【0070】分析制御装置20は、分析実行装置30か
ら取得した分析結果である結果グラフリストをユーザの
画面に表示する。ユーザは結果グラフを見て次のステッ
プで行う操作の種別と引数グラフリストを指定する。グ
ラフ操作の種別と引数グラフリストがユーザから指定さ
れると、これらを用いて分析実行装置を呼び出し、結果
グラフリストを取得する。
【0071】次に、分析処理について説明する。
【0072】図9は、本発明の一実施の形態における分
析処理全体のフローチャートである。
【0073】ステップ100) ユーザが分析制御装置
20を通して、次に呼び出すグラフ操作の種別を選択す
る。グラフ操作として選択可能なものは、前述の操作A
〜操作E及び、分析終了である。
【0074】ステップ200) グラフ操作として分析
収容が選択された場合には、分析処理を終了する。分析
終了以外のグラフ操作が指定された場合は、ステップ3
00に移行する。
【0075】ステップ300) 分析制御装置200が
指定されたグラフ操作の種別に基づき、引数グラフリス
トを生成する。詳細は、図10の引数グラフリスト生成
処理において説明する。
【0076】ステップ400) 分析実行装置30が、
選択されたグラフ操作を引数グラフリストに対して実行
し、結果グラフリストを出力する。詳細は、図11のグ
ラフ操作実行処理において説明する。
【0077】ステップ500) 分析実行装置30が出
力した結果グラフリストを分析制御装置20が表示す
る。
【0078】引数グラフリスト生成処理について説明す
る。
【0079】図10は、本発明の一実施の形態における
引数グラフリスト生成処理のフローチャートである。
【0080】ステップ301) ステップ100で選択
された操作に合わせて以下の変数を持つ空の引数グラフ
リストを生成する。
【0081】類似グラフ検索:検索条件グラフ(Ga
),n個の検索対象グラフ(GS) 類似グラフ分類:n個の分類対象グラフ(GS) 部分グラフ抽出:抽出条件グラフ(Ga ),n個の抽出
対象グラフ グラフ差分抽出:差分抽出対象グラフ(Ga ),差分抽
出条件グラフ(Gb ) ステップ302) ステップ301で作成された引数グ
ラフリストのすべての変数が指定済の場合には、ステッ
プ310で引数グラフリストを出力し、終了する。ま
だ、指定されていない変数がある場合には、ステップ3
03に移行する。 ステップ303) 値の入っていない変数に対してユー
ザに引数グラフを指定させる。この際、引数グラフの指
定方法には、「テキストから生成」「文書選択」「直接
入力」がある。「テキストからの生成」の場合には、ユ
ーザにテキストを指定させる。「文書選択」の場合に
は、文書IDの集合を指定させる。「直接入力」の場合
には、結果グラフ等からカット・ペースト(Cut&Past)
したグラフを指定させる。
【0082】ステップ304) 引数グラフの指定方法
によって、以下の分岐処理を行う。「テキストから生
成」の場合は、ステップ306に移行する。それ以外の
場合にはステップ305に移行する。
【0083】ステップ305) 引数グラフの指定方法
によって、以下の分岐処理を行う。「文書選択」の場合
には、ステップ307に移行し、「直接入力」の場合に
はステップ308に移行する。
【0084】ステップ306) ユーザが入力したテキ
ストを文書グラフ変換装置10を用いてグラフに変換す
る。
【0085】ステップ307) 指定された文書IDに
対応する文書を分析対象文書データベース40から取得
し、文書グラフ変換装置10を用いてグラフに変換す
る。
【0086】ステップ308) 引数グラフリストの指
定された変数グラフを追加する。
【0087】ステップ309) ステップ302に戻
る。
【0088】次に、グラフ操作実行処理の詳細な処理を
説明する。
【0089】図11は、本発明の一実施の形態における
グラフ操作実行処理のフローチャートである。
【0090】ステップ401) グラフ操作の種別とス
テップ300で作成された引数グラフリストを取得す
る。
【0091】ステップ402) グラフ操作の種別を判
断し、以下の分岐処理を行う。
【0092】類似グラフ検索の場合にはステップ406
に移行し、それ以外の場合には、ステップ403に移行
する。
【0093】ステップ403) グラフ操作の種別を判
断し、以下の分岐処理を行う。
【0094】類似グラフ分類の場合には、ステップ40
7に移行し、それ以外の場合にはステップ404に移行
する。
【0095】ステップ404) グラフ操作の種別を判
断し、以下の分岐処理を行う。
【0096】部分グラフ抽出の場合には、ステップ40
8に移行し、それ以外の場合にはステップ405に移行
する。
【0097】ステップ405) グラフ操作の種別を判
断し、以下の分岐処理を行う。
【0098】グラフ合成の場合には、ステップ409に
移行し、グラフ差分抽出の場合にはステップ410に移
行する。
【0099】ステップ406) serch (検索)(Ga
,GS)を実行する。
【0100】ステップ407) clustering(クラスタ
リング)(GS)を実行する。
【0101】ステップ408) extract (抽出)(G
a ,GS)を実行する。
【0102】ステップ409) merge (マージ)(G
S)を実行する。
【0103】ステップ410) substract (減算)
(Ga ,Gb )を実行する。
【0104】ステップ411) 各操作によって得られ
た結果グラフリストを出力する。
【0105】
【実施例】以下、本発明の一実施例を説明する。
【0106】以下の例では、分析対象の文書集合をユー
ザにより指定された観点によって分類し、各分類結果の
差分を可視化して表示するものである。
【0107】 ユーザは、グラフ操作として『類似グ
ラフ検索操作』を指定し、検索条件として文書を入力す
る。システムは、入力文書をグラフ変換処理によって、
検索条件グラフとし、分析対象のすべての文書をグラフ
に変換し、これらを検索対象グラフとする。『類似グラ
フ検索操作』を実行し、入力文書と類似度の高いグラフ
集合を検索し、表示する。
【0108】 ユーザはグラフ操作として『部分グラ
フ抽出』を指定し、抽出条件(観点)として文書を入力
し、抽出対象として前のステップで得られた類似度の高
いm個のグラフを指定する。
【0109】システムは、入力文書をグラフ変換処理に
よって、抽出条件グラフとし、選択されたm個のグラフ
を抽出対象グラフ集合とする。『部分グラフ抽出操作』
を実行し、各抽出対象グラフの部分グラフを抽出し、表
示する。
【0110】 ユーザは、グラフ操作として『類似グ
ラフ分類』を指定し、分類対象グラフとして、抽出され
たm個のグラフを指定する。
【0111】システムは、選択されたm個のグラフを分
類対象グラフとし、類似グラフ分類操作を実行し、k個
のクラスタに分類されたグラフを表示する。
【0112】 ユーザは、グラフ操作として『グラフ
合成』を指定し、k個のクラスタの中の1つを指定す
る。
【0113】システムは、指定されたクラスタに含まれ
るすべての文書を合成対象グラフとし、『グラフ合成操
作』を実行し、合成された1つのグラフを表示する。
【0114】 k個のクラスタに対して合成操作を繰
り返す。
【0115】 ユーザは、グラフ操作として『グラフ
差分抽出』を指定し、合成されたグラフの中の任意の2
つを指定する。
【0116】システムは、選択された2つのグラフをそ
れぞれ差分抽出対象グラフ差分抽出条件グラフとし、
『グラフ差分抽出操作』を実行し、指定されたグラフ間
の差分のグラフとして表示する。
【0117】これらのステップによって、ユーザは、自
分の興味のある文書に近い内容の文書集合をある与えら
れた観点によってクラスタリングし、各分類結果毎のグ
ラフと、分類結果毎にどのような差異があるのかを可視
化して見ることができる。即ち、文書の特定部分に着目
した文書の分析、文書集合や文書集合間の差分の可視
化、さまざまな分析操作の組み合わせが可能である。
【0118】ここで、具体例を用いて説明する。
【0119】以下では、文書を、46548件の公開さ
れている特許データを例として説明する。各特許データ
は、グラフに変換され、メタデータとして(特許名称、
出願人、及び発明者)がテーブルに格納されている。こ
こで、230件の特許データが『医療』に類似し、これ
らの特許データは、「出願人」というメタデータにより
グループ化され、そのうち、13件の特許が最も大きい
大きいグループに含まれ、5のクラスタ(A,B,C,
D,E)に分類される。各々のクラスタのサイズは、各
々A(7)、B(3),D(1),E(1)であるとす
る。それぞれのクラスタの特許データは、マージされ、
部分グラフが、指定された『医療』に基づいて各々マー
ジされたグラフから抽出される。図12にクラスタA,
Bの特許データから生成されたグラフ結果を示す。当該
結果から、クラスタAに含まれるすべての特許データが
「診療費」の操作のためのシステムに関連しており、ク
ラスタBに含まれる特許データが、医療機関の「ベンチ
マーク」に関連していることが判り、各々のグラフのア
ウトラインに矛盾しないことがわかる。
【0120】このように、本発明は、特許データを対象
した知識発見に有効である。
【0121】また、上記の各装置の動作をプログラムと
して構築し、文書グラフ変換装置10、分析制御装置2
0、分析実行装置30、または、これらを全て含む文書
解析装置として利用されるコンピュータにインストール
し、当該コンピュータに実行させることも可能である。
【0122】また、構築されたプログラムをネットワー
クを介して流通させたり、文書グラフ変換装置10、分
析制御装置20、分析実行装置30、または、これらを
全て含む文書解析装置として利用されるコンピュータに
接続されるハードディスク装置や、フレキシブルディス
ク、CD−ROM等の可搬記憶媒体に格納しておき、本
発明を実施する際に、コンピュータにインストールして
実行することも可能である。
【0123】なお、本発明は、上記の実施の形態及び実
施例に限定されることなく、特許請求の範囲内におい
て、種々変更・応用が可能である。
【0124】
【発明の効果】上述のように、本発明によれば、前述の
の3つの問題を解決することができる。
【0125】第1の問題に対しては、文書をグラフで表
現することによって、単語だけでなく、単語間の関連も
合わせて可視化することができる。また、グラフ合成や
差分抽出の操作を組み合わせて利用することによって、
単一文書の内容の可視化だけでなく、文書集合の内容や
文書集合間の差分を可視化することができる。従って、
ユーザがこれらの内容を容易に判断することができる。
【0126】第2の問題に対しては、部分グラフ抽出で
は、指定された条件に関連の強い部分グラフを抽出する
ことができる。そのため、ある観点を与え、この特定部
分に着目した文書の分析ができる。この結果、例えば、
「観光地」という観点に着目したクラスタリングが可能
となり、分類精度を向上させることができる。また、部
分グラフを観点に依存した要約として可視化することも
できる。
【0127】第3の問題に対しては、すべてのグラフ操
作の入出力は、グラフリストに統一されている。そのた
め、あるグラフ操作の出力を別のグラフ操作の入力とす
ることができる。そのため、グラフ操作は任意の順序で
実行可能でり、複雑な分析プロセスをサポートすること
ができる。例えば、類似文書検索を行った後に特定の文
書についてのみクラスタリングを行ったり、部分グラフ
抽出やグラフ差分抽出を行った結果に対して、もう一度
類似文書検索を行うこともできる。このように様々な分
析ステップの組み合わせを支援することができる。
【0128】以上のように、本発明を用いると、文書の
内容を可視化し、直感的に文書内容を判断することがで
きる。
【0129】また、文書の中の特定の内容に着目した分
析を行うことができる。
【0130】さらに、グラフ操作を組み合わせることに
よって、様々な分析ステップを支援することができる。
従って、本発明を用いることにより、大量の文書の中か
ら知識を抽出することが容易になる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における文書分析装置の
構成図である。
【図4】本発明の一実施の形態における類似グラフ探索
操作を説明するための図である。
【図5】本発明の一実施の形態における類似グラフ分類
操作を説明するための図である。
【図6】本発明の一実施の形態における部分グラフ抽出
操作を説明するための図である。
【図7】本発明の一実施の形態におけるグラフ合成操作
を説明するための図である。
【図8】本発明の一実施の形態におけるグラフ差分抽出
操作を説明するための図である。
【図9】本発明の一実施の形態における分析処理全体の
フローチャートである。
【図10】本発明の一実施の形態における引数グラフリ
スト生成処理のフローチャートである。
【図11】本発明の一実施の形態におけるグラフ操作実
行処理のフローチャートである。
【図12】本発明の一実施例のグラフ結果である。
【符号の説明】
10 文書グラフ変換手段、文書グラフ変換装置 20 分析制御手段、分析制御装置 30 分析実行手段、分析実行装置 40 分析対象文書データベース
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 17/30 350 G06F 17/30 350C

Claims (18)

    【特許請求の範囲】
  1. 【請求項1】 文書を分析し、知識を発見するための文
    書分析方法において、 文書IDに関連付けられて文書が格納されているデータ
    ベースから、文書が入力されると、該文書の単語をノー
    ド、該単語間の関係をリンクとしたグラフに変換する文
    書グラフ変換ステップと、 グラフ操作の種別と、各グラフ操作に応じた引数を作成
    し、指定されたグラフ操作を実行する分析実行ステップ
    を呼び出し、実行結果を取得し、出力する分析制御ステ
    ップと、を行うことを特徴とする文書分析方法。
  2. 【請求項2】 前記文書グラフ変換ステップにおいて、 入力された前記文書から単語を抽出し、 前記各単語の重要度を計算し、 すべての2つの単語間の関連度を計算し、 前記単語をノード、該単語間の関連をリンク、前記重要
    度と前記関連度をそれぞれノードとリンクの重みとして
    グラフを作成する請求項1記載の文書分析方法。
  3. 【請求項3】 前記分析実行ステップにおいて、 入力として、グラフ操作の種別と1つまたは、複数のグ
    ラフからなる引数グラフリストを取得し、 指定されたグラフ操作を前記引数グラフリストに対して
    実行し、 1つまたは、複数のグラフからなる結果グラフリストを
    前記実行結果として出力する請求項1記載の文書分析方
    法。
  4. 【請求項4】 前記分析実行ステップにおける前記グラ
    フ操作として、 前記引数グラフリストとして、検索条件フラグと1つ、
    または、複数の検索対象グラフを受け取った場合には、 検索条件グラフと各検索対象グラフとの類似度を計算
    し、 類似度の高い規定個数のグラフを前記結果グラフリスト
    として出力し、 また、前記引数グラフリストとして、複数の分類対象グ
    ラフを受け取った場合には、 前記分類対象グラフ間の類似度を用いて、分析対象グラ
    フを分類または、クラスタリングし、 規定個数に分類された分類対象グラフを前記結果グラフ
    リストとして出力し、 また、前記引数グラフリストとして、抽出条件グラフと
    1つ、または、複数の抽出対象グラフを受け取った場合
    には、 前記抽出対象グラフの各々から抽出条件グラフに応じた
    部分グラフを抽出し、 前記部分フラグの各々を結果グラフリストとして出力
    し、 また、前記引数グラフリストとして、1つ、または、複
    数の合成対象グラフを受け取った場合には、 前記合成対象グラフの中で同じ単語を持つノードを見つ
    け、その重要度を加算し、 前記合成対象グラフの中で同じ単語を両端に持つリンク
    を見つけ、その関連度を加算し、 加算された重要度と関連度を持つノード及びリンクで構
    成される合成グラフを前記結果グラフリストとして出力
    し、 また、前記引数グラフリストとして、1つの差分対象グ
    ラフと1つの差分条件グラフを受け取った場合には、 前記差分対象グラフの中で前記差分条件グラフと同じ単
    語を持つノードがあった場合には、その重要度の減算を
    行い、 前記差分対象グラフの中で差分条件グラフと同じ単語を
    両端に持つリンクがあった場合には、その関連度を減算
    を行い、 減算された重要度と関連度が正の値となるノード及びリ
    ンクで構成される差分グラフを前記結果グラフリストと
    して出力する請求項3記載の文書分析方法。
  5. 【請求項5】 前記分析制御ステップにおいて、 前記引数グラフを指定する際に、 ユーザから文書が指定された場合には、前記文書グラフ
    変換ステップによってグラフを生成し、これを引数グラ
    フとし、 前記ユーザから文書IDが指定された場合には、分析対
    象文書が格納されているデータベースから、該文書ID
    を持つ文書を取得し、前記文書グラフ変換ステップによ
    り該文書をグラフに変換し、これを引数グラフとし、 前記ユーザから直接グラフが指定された場合には、これ
    を引数グラフとする請求項4記載の文書分析方法。
  6. 【請求項6】 前記分析制御ステップにおいて、 前記ユーザが直接グラフを指定する際に、 前記ユーザの画面に表示されている結果グラフの一部、
    または、全部を選択させ、選択結果に基づいて前記引数
    グラフを生成する請求項5記載の文書分析方法。
  7. 【請求項7】 文書を分析し、知識を発見するための文
    書分析装置であって、 文書ICに関連付けられて文書が格納されている分析対
    象文書データベースと、 前記分析対象文書データベースから読み出された文書が
    入力されると、該文書の単語をノード、該単語間の関係
    をリンクとしたグラフに変換して出力する文書グラフ変
    換手段と、 指定されたグラフ操作を実行し、その実行結果を出力す
    る分析実行手段と、 グラフ操作の種別と、各グラフ操作に応じた引数を作成
    し、前記分析実行手段を呼び出し、実行結果を取得する
    分析制御手段と、を有することを特徴とする文書分析装
    置。
  8. 【請求項8】 前記文書グラフ変換手段は、 入力された前記文書から単語を抽出する手段と、 前記各単語の重要度を計算する手段と、 すべての2つの単語間の関連度を計算する手段と、 前記単語をノード、該単語間の関連をリンク、前記重要
    度と前記関連度をそれぞれノードとリンクの重みとして
    グラフを作成する手段とを含む請求項7記載の文書分析
    装置。
  9. 【請求項9】 前記分析実行手段は、 入力として、グラフ操作の種別と1つまたは、複数のグ
    ラフからなる引数グラフリストを取得する手段と、 指定されたグラフ操作を前記引数グラフリストに対して
    実行するグラフ操作手段と、 1つまたは、複数のグラフからなる結果グラフリストを
    前記実行結果として出力する手段とを含む請求項7記載
    の文書分析装置。
  10. 【請求項10】 前記グラフ操作手段は、 前記引数グラフリストとして、検索条件フラグと1つ、
    または、複数の検索対象グラフを受け取ると、 検索条件グラフと各検索対象グラフとの類似度を計算す
    る手段と、 類似度の高い規定個数のグラフを前記結果グラフリスト
    として出力する手段と、を含む請求項9記載の文書分析
    装置。
  11. 【請求項11】 前記グラフ操作手段は、 前記引数グラフリストとして、複数の分類対象グラフを
    受け取ると、 前記分類対象グラフ間の類似度を用いて、分析対象グラ
    フを分類または、クラスタリングする手段と、 規定個数に分類された分類対象グラフを前記結果グラフ
    リストとして出力する手段とを含む請求項9記載の文書
    分析装置。
  12. 【請求項12】 前記グラフ操作手段は、 前記引数グラフリストとして、抽出条件グラフと1つ、
    または、複数の抽出対象グラフを受け取ると、 前記抽出対象グラフの各々から抽出条件グラフに応じた
    部分グラフを抽出する手段と、 前記部分フラグの各々を結果グラフリストとして出力す
    る手段とを含む請求項9記載の文書分析装置。
  13. 【請求項13】 前記グラフ操作手段は、 前記引数グラフリストとして、1つ、または、複数の合
    成対象グラフを受け取ると、 前記合成対象グラフの中で同じ単語を持つノードを見つ
    け、その重要度を加算する手段と、 前記合成対象グラフの中で同じ単語を両端に持つリンク
    を見つけ、その関連度を加算する手段と、 加算された重要度と関連度を持つノード及びリンクで構
    成される合成グラフを前記結果グラフリストとして出力
    する手段と、を含む請求項9記載の文書分析装置。
  14. 【請求項14】 前記グラフ操作手段は、 前記引数グラフリストとして、1つの差分対象グラフと
    1つの差分条件グラフを受け取ると、 前記差分対象グラフの中で前記差分条件グラフと同じ単
    語を持つノードがあった場合には、その重要度の減算を
    行う手段と、 前記差分対象グラフの中で差分条件グラフと同じ単語を
    両端に持つリンクがあった場合には、その関連度を減算
    を行う手段と、 減算された重要度と関連度が正の値となるノード及びリ
    ンクで構成される差分グラフを前記結果グラフリストと
    して出力する手段と、を含む請求項9記載の文書分析装
    置。
  15. 【請求項15】 前記分析制御手段は、 前記引数グラフを指定する際に、ユーザから文書が指定
    された場合には、文書グラフ変換によってグラフを生成
    し、これを引数グラフとし、該ユーザから文書IDが指
    定された場合には、前記分析対象文書データベースか
    ら、該文書IDを持つ文書を取得し、前記文書グラフ変
    換手段により該文書をグラフに変換し、これを引数グラ
    フとし、該ユーザから直接グラフが指定された場合に
    は、これを引数グラフとする手段を含む請求項9記載の
    文書分析装置。
  16. 【請求項16】 前記分析制御手段は、 前記ユーザが直接グラフを指定する際に、該ユーザの画
    面に表示されている結果グラフの一部、または、全部を
    選択させ、選択結果に基づいて前記引数グラフを生成す
    る手段を含む請求項15記載の文書分析装置。
  17. 【請求項17】 文書を分析し、知識を発見するための
    文書分析プログラムであって、 文書IDに関連付けられて文書が格納されているデータ
    ベースから、文書が入力されると、入力された該文書か
    ら単語を抽出し、該各単語の重要度を計算し、すべての
    2つの単語間の関連度を計算し、該単語をノード、該単
    語間の関連をリンク、該重要度と該関連度をそれぞれノ
    ードとリンクの重みとしてグラフを作成する文書グラフ
    変換ステップと、 グラフ操作の種別と、各グラフ操作に応じた引数を作成
    し、指定されたグラフ操作を実行する分析実行ステップ
    を呼び出し、実行結果を取得し、出力する分析制御ステ
    ップとからなり、 前記分析実行ステップにおいて、 前記引数グラフリストとして、検索条件フラグと1つ、
    または、複数の検索対象グラフを受け取った場合には、 検索条件グラフと各検索対象グラフとの類似度を計算
    し、 類似度の高い規定個数のグラフを前記結果グラフリスト
    として出力するステップ、 また、前記引数グラフリストとして、複数の分類対象グ
    ラフを受け取った場合には、 前記分類対象グラフ間の類似度を用いて、分析対象グラ
    フを分類または、クラスタリングし、 規定個数に分類された分類対象グラフを前記結果グラフ
    リストとして出力するステップ、 また、前記引数グラフリストとして、抽出条件グラフと
    1つ、または、複数の抽出対象グラフを受け取った場合
    には、 前記抽出対象グラフの各々から抽出条件グラフに応じた
    部分グラフを抽出し、 前記部分フラグの各々を結果グラフリストとして出力す
    るステップ、 また、前記引数グラフリストとして、1つ、または、複
    数の合成対象グラフを受け取った場合には、 前記合成対象グラフの中で同じ単語を持つノードを見つ
    け、その重要度を加算し、 前記合成対象グラフの中で同じ単語を両端に持つリンク
    を見つけ、その関連度を加算し、 加算された重要度と関連度を持つノード及びリンクで構
    成される合成グラフを前記結果グラフリストとして出力
    するステップ、 また、前記引数グラフリストとして、1つの差分対象グ
    ラフと1つの差分条件グラフを受け取った場合には、 前記差分対象グラフの中で前記差分条件グラフと同じ単
    語を持つノードがあった場合には、その重要度の減算を
    行い、 前記差分対象グラフの中で差分条件グラフと同じ単語を
    両端に持つリンクがあった場合には、その関連度を減算
    を行い、 減算された重要度と関連度が正の値となるノード及びリ
    ンクで構成される差分グラフを前記結果グラフリストと
    して出力するステップ、のいずれかを行い、 前記分析制御ステップにおいて、 前記引数グラフを指定する際に、 ユーザから文書が指定された場合には、文書グラフ変換
    によってグラフを生成し、これを引数グラフとし、 また、前記ユーザから文書IDが指定された場合には、
    分析対象文書が格納されているデータベースから、該文
    書IDを持つ文書を取得し、前記文書グラフ変換ステッ
    プにより該文書をグラフに変換し、これを引数グラフと
    し、 また、前記ユーザが、直接グラフを指定する場合には、
    該ユーザの画面に表示されている結果グラフの一部、ま
    たは、全部を選択させ、選択結果に基づいて前記引数グ
    ラフを生成するステップを行う、ことを特徴とする文書
    分析プログラム。
  18. 【請求項18】 文書を分析し、知識を発見するための
    文書分析プログラムを格納した記憶媒体であって、 文書IDに関連付けられて文書が格納されているデータ
    ベースから、文書が入力されると、入力された該文書か
    ら単語を抽出し、該各単語の重要度を計算し、すべての
    2つの単語間の関連度を計算し、該単語をノード、該単
    語間の関連をリンク、該重要度と該関連度をそれぞれノ
    ードとリンクの重みとしてグラフを作成する文書グラフ
    変換ステップと、 グラフ操作の種別と、各グラフ操作に応じた引数を作成
    し、指定されたグラフ操作を実行する分析実行ステップ
    を呼び出し、実行結果を取得し、出力する分析制御ステ
    ップとからなり、 前記分析実行ステップにおいて、 前記引数グラフリストとして、検索条件フラグと1つ、
    または、複数の検索対象グラフを受け取った場合には、 検索条件グラフと各検索対象グラフとの類似度を計算
    し、 類似度の高い規定個数のグラフを前記結果グラフリスト
    として出力するステップ、 また、前記引数グラフリストとして、複数の分類対象グ
    ラフを受け取った場合には、 前記分類対象グラフ間の類似度を用いて、分析対象グラ
    フを分類または、クラスタリングし、 規定個数に分類された分類対象グラフを前記結果グラフ
    リストとして出力するステップ、 また、前記引数グラフリストとして、抽出条件グラフと
    1つ、または、複数の抽出対象グラフを受け取った場合
    には、 前記抽出対象グラフの各々から抽出条件グラフに応じた
    部分グラフを抽出し、 前記部分フラグの各々を結果グラフリストとして出力す
    るステップ、 また、前記引数グラフリストとして、1つ、または、複
    数の合成対象グラフを受け取った場合には、 前記合成対象グラフの中で同じ単語を持つノードを見つ
    け、その重要度を加算し、 前記合成対象グラフの中で同じ単語を両端に持つリンク
    を見つけ、その関連度を加算し、 加算された重要度と関連度を持つノード及びリンクで構
    成される合成グラフを前記結果グラフリストとして出力
    するステップ、 また、前記引数グラフリストとして、1つの差分対象グ
    ラフと1つの差分条件グラフを受け取った場合には、 前記差分対象グラフの中で前記差分条件グラフと同じ単
    語を持つノードがあった場合には、その重要度の減算を
    行い、 前記差分対象グラフの中で差分条件グラフと同じ単語を
    両端に持つリンクがあった場合には、その関連度を減算
    を行い、 減算された重要度と関連度が正の値となるノード及びリ
    ンクで構成される差分グラフを前記結果グラフリストと
    して出力するステップ、のいずれかを行い、 前記分析制御ステップにおいて、 前記引数グラフを指定する際に、 ユーザから文書が指定された場合には、文書グラフ変換
    によってグラフを生成し、これを引数グラフとし、 また、前記ユーザから文書IDが指定された場合には、
    分析対象文書が格納されているデータベースから、該文
    書IDを持つ文書を取得し、前記文書グラフ変換ステッ
    プにより該文書をグラフに変換し、これを引数グラフと
    し、 また、前記ユーザが、直接グラフを指定する場合には、
    該ユーザの画面に表示されている結果グラフの一部、ま
    たは、全部を選択させ、選択結果に基づいて前記引数グ
    ラフを生成するステップを行う、ことを特徴とする文書
    分析プログラムを格納した記憶媒体。
JP2002137320A 2002-05-13 2002-05-13 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体 Pending JP2003330966A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002137320A JP2003330966A (ja) 2002-05-13 2002-05-13 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002137320A JP2003330966A (ja) 2002-05-13 2002-05-13 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2003330966A true JP2003330966A (ja) 2003-11-21

Family

ID=29699114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002137320A Pending JP2003330966A (ja) 2002-05-13 2002-05-13 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2003330966A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005259088A (ja) * 2004-03-15 2005-09-22 Kousaku Ookubo 注目する情報を知識集積物との関係で可視的に処理するためのシステム及びそのためのコンピュータソフトウエアプログラム製品
JP2010231434A (ja) * 2009-03-26 2010-10-14 Hitachi East Japan Solutions Ltd 表示装置、表示方法およびプログラム
JP2015045904A (ja) * 2013-08-27 2015-03-12 株式会社リコー 情報処理装置及び方法
JP2020091857A (ja) * 2018-12-03 2020-06-11 富士通株式会社 電子文書の分類
CN112000788A (zh) * 2020-08-19 2020-11-27 腾讯云计算(长沙)有限责任公司 一种数据处理方法、装置以及计算机可读存储介质
JP2021012502A (ja) * 2019-07-05 2021-02-04 国立研究開発法人物質・材料研究機構 探索システム及び探索方法
JP2021149426A (ja) * 2020-03-18 2021-09-27 株式会社東芝 情報処理装置、情報処理方法、およびプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314980A (ja) * 1995-03-13 1996-11-29 Torendei:Kk ドキュメントデータベースの構築方法、表示方法、及び表示装置
JP2000123041A (ja) * 1998-10-19 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314980A (ja) * 1995-03-13 1996-11-29 Torendei:Kk ドキュメントデータベースの構築方法、表示方法、及び表示装置
JP2000123041A (ja) * 1998-10-19 2000-04-28 Nippon Telegr & Teleph Corp <Ntt> 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
三末 和男,渡部 勇: "テキストマイニングのための連想関係の可視化技術", 情報処理学会研究報告 VOL.99 NO.57, CSNG200100413009, 16 July 1999 (1999-07-16), JP, pages 65 - 72, ISSN: 0000875670 *
富田 準二,竹野 浩,菊井 玄一郎,林 良彦,池田 哲夫: "グラフモデルの提案とテキスト検索システムへの適用による評価", 情報処理学会論文誌 第43巻 NO.SIG2(TOD13), CSNG200400402009, 15 March 2002 (2002-03-15), JP, pages 94 - 107, ISSN: 0000875669 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005259088A (ja) * 2004-03-15 2005-09-22 Kousaku Ookubo 注目する情報を知識集積物との関係で可視的に処理するためのシステム及びそのためのコンピュータソフトウエアプログラム製品
US7903884B2 (en) 2004-03-15 2011-03-08 Bits Kabushikigaisha System and computer software program for visibly processing an observed information's relationship with knowledge accumulations
JP2010231434A (ja) * 2009-03-26 2010-10-14 Hitachi East Japan Solutions Ltd 表示装置、表示方法およびプログラム
JP2015045904A (ja) * 2013-08-27 2015-03-12 株式会社リコー 情報処理装置及び方法
JP2020091857A (ja) * 2018-12-03 2020-06-11 富士通株式会社 電子文書の分類
JP7484141B2 (ja) 2018-12-03 2024-05-16 富士通株式会社 電子文書の分類
JP2021012502A (ja) * 2019-07-05 2021-02-04 国立研究開発法人物質・材料研究機構 探索システム及び探索方法
JP7396619B2 (ja) 2019-07-05 2023-12-12 国立研究開発法人物質・材料研究機構 探索システム及び探索方法
JP2021149426A (ja) * 2020-03-18 2021-09-27 株式会社東芝 情報処理装置、情報処理方法、およびプログラム
CN112000788A (zh) * 2020-08-19 2020-11-27 腾讯云计算(长沙)有限责任公司 一种数据处理方法、装置以及计算机可读存储介质
CN112000788B (zh) * 2020-08-19 2024-02-09 腾讯云计算(长沙)有限责任公司 一种数据处理方法、装置以及计算机可读存储介质

Similar Documents

Publication Publication Date Title
US5907838A (en) Information search and collection method and system
KR101377389B1 (ko) 다차원 검색 시스템, 다차원 검색을 수행하는 컴퓨터 구현 방법 및 컴퓨터 실행가능 시스템
US20060080361A1 (en) Document information processing apparatus, document information processing method, and document information processing program
JP5594145B2 (ja) 検索装置、検索方法、及びプログラム
WO2001031502A1 (fr) Dispositif et procede de classement et de rangement d&#39;informations multimedia
WO2000075809A1 (fr) Procede de triage d&#39;informations, trieur d&#39;informations, support enregistre sur lequel le programme de triage d&#39;informations est enregistre
JP2003167914A (ja) マルチメディア情報検索方法、プログラム、記録媒体及びシステム
JP2000148793A (ja) 複合メディア文書の類似検索方法及び装置及び複合メディア文書の類似検索プログラムを格納した記憶媒体
KR20210097314A (ko) 인공지능 기반 이미지 자동 생성 시스템
JP2003330966A (ja) 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
JP5224532B2 (ja) 評判情報分類装置及びプログラム
JP2019128925A (ja) 事象提示システムおよび事象提示装置
JP2009098811A (ja) 文書分類装置およびプログラム
JP4544047B2 (ja) Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Burtner et al. Interactive visual comparison of multimedia data through type-specific views
JP2007264985A (ja) 情報分類方法、情報分類装置及び情報分類プログラム
JP3711710B2 (ja) 情報検索収集システムおよび情報検索収集プログラムを記憶した記憶媒体
JP4295510B2 (ja) マルチメディア情報分類配置装置および分類配置方法
JP2005122509A (ja) 階層構造データ分析方法、分析装置および分析プログラム
JP4134975B2 (ja) 話題文書提示方法及び装置及びプログラム
Tietz et al. Knowledge Graph based Analysis and Exploration of Historical Theatre Photographs.
JP7056127B2 (ja) 分析方法、分析装置および分析プログラム
JPH11306187A (ja) カテゴリ付文書の検索結果の提示処理方法およびその装置
JPH1185794A (ja) 検索語入力装置および検索語入力プログラムを記録した記録媒体
JP4434876B2 (ja) 帳票検索装置、帳票検索システム、帳票検索方法及びそのプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040621

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070706

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070717

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070918

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071023