JP2004171220A

JP2004171220A - 文書管理装置および方法

Info

Publication number: JP2004171220A
Application number: JP2002335504A
Authority: JP
Inventors: Masamochi Kobata; 真望木幡; Eiji Murakami; 英治村上
Original assignee: Azbil Corp
Current assignee: Azbil Corp
Priority date: 2002-11-19
Filing date: 2002-11-19
Publication date: 2004-06-17
Anticipated expiration: 2022-11-19
Also published as: JP4025181B2

Abstract

【課題】文書の文脈や意味内容を反映させて、類似する文書を容易に抽出することができる文書再利用装置および方法を提供する。
【解決手段】文書再利用装置１は、コンピュータと、このコンピュータにインストールされたプログラムおよび電子辞書とから構成され、ハードウェア装置がプログラムによって制御される。すなわちハードウェア資源とソフトウェアが協働することによって、文字列からなる文書データに対して形態素解析を行う形態素解析部１２と、二つの文書データの形態素を比較することにより重複度を算出する重複度算出部１３と、重複度と閾値に基づいて類似度を算出する類似度算出部１４と、文書データ間の関係を表示手段に表示させるデータを生成する可視化部１５と、文書データを抽出する抽出部１６と、閾値を設定する設定部１７とが実現される。記憶装置は、文書データ等を格納する文書ＤＢ１８を有する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は、作成された文書データを再利用する文書管理装置および方法に関し、より詳しくは、形態素解析の結果を利用して文書データを再利用する文書管理装置および方法に関する。
【０００２】
【従来の技術】
文書の分類および管理は、学問、技術または経済等の各種分野において、仕事の効率化を図るに際し、欠かせない事項である。例えば、ビルやプラントなどの設備管理の場合、特にメンテナンスに関する報告書は、過去に発生した何かの不具合に加え、その不具合への対応策は記載されていることが多い。したがって、新たに発生した不具合と同等の事項が記載されている過去の報告書を検索できれば、この報告書を参考にして処置を執ることができる。このため、従来より、所望の文書の検索を効率よく行うべく、文書の分類および管理に関する種々の発明がされている。
【０００３】
例えば、検索条件に関連した記述を文書中から検索する発明（特許文献１参照）、予め条件、項目、閾値等を入力し、これらの条件に適合する文書を検索する発明（特許文献２参照）、検索キーと検索対象文書の類似度を、検索キーおよび検索対象文書内での単語の重要度と関連度を用いて計算し、これらの重要度と関連度に基づいて文書の検索を行う発明（特許文献３参照）などがある。
【０００４】
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
【０００５】
【特許文献１】
特開平１１−４５２５４号公報
【特許文献２】
特開２００１−３３７９９１号公報
【特許文献３】
特開２０００−１２４０４１号公報
【０００６】
【発明が解決しようとする課題】
しかしながら、上述したような方法は、何れも文書の文脈や意味内容を考慮して文書を検索したものとはいえず、また検索条件を入力しなければ所望の文書等を検索することができなかった。例えば、特許文献１に記載された発明では、検索条件を入力しなければならず、検索結果として出力されるのは特定の記述のみである。また、特許文献２に記載された発明では、予め条件、項目、閾値を入力しなければ、これらの条件等に類似する文書を検索することができない。緊急を要する場合や経験が少ない者にとって、所望する文書等を検索する際、その文書の特徴を単なるキーワードで表現することは困難である。また、文書とは、一般的に文脈や単語の配列および構成等に、文書作成者の意図や思想が色濃く反映されるものであり、単なるキーワードのみでその文書全体を特徴づけるのは、容易ではない。したがって、上述したような従来の方法では、文書作成者の文意の文脈や意味内容に沿って、簡便に文書を検索することが困難であった。
さらに、特許文献３に記載された発明では、部分グラフとしてマッチングしないときは何も検索結果が得られないという文書検索システムとして致命的な問題点がある。
そこで、本発明は、上述したような課題を解決するためになされたものであり、文書の文脈や意味内容を反映させて、類似する文書を容易に抽出することができる文書管理装置および方法を提供することを目的とする。
【０００７】
【課題を解決するための手段】
上述したような課題を解決するために本発明にかかる文書管理装置は、複数の第１の文書データを記録した第１の記録手段と、文書データを形態素解析する形態素解析手段と、新たに入力された第２の文書データの形態素と第１の記録手段に記録された第１の文書データの形態素とから、第２の文書データと第１の文書データそれぞれとの重複度を求める重複度算出手段と、第１の文書データの中から第２の文書データと所定の値以上の重複度を有する文書データを抽出する抽出手段とを備えたことを特徴とする。この文書管理装置によれば、文書データを入力するだけで、この文書データと所定の値以上の重複度を有する文書データが抽出される。
【０００８】
また、上記文書管理装置において、重複度と閾値から二つの文書データの類似度を算出する類似度算出手段と、複数の第１の文書データ間の重複度と類似度のうち少なくとも一方を記録した第２の記録手段とをさらに備え、抽出手段は、第１の文書データの中から少なくとも第２の文書データと直接類似度を有する第１の文書データを抽出するようにしてもよい。この文書管理装置によれば、入力した文書データと直接類似度を有する文書データが抽出される。
【０００９】
上記文書管理装置において、抽出手段は、第２の文書データと類似度に関して任意の距離を有する第１の文書データを抽出するようにしてもよい。
また、上記文書管理装置において、重複度算出手段は、第１の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、第２の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出するようにしてもよい。
さらに、上記文書管理装置において、重複度算出手段は、第１の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、第２の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、一部分に含まれる形態素の数を減らし、再度比較を行うようにしてもよい。
【００１０】
上記文書管理装置において、閾値を設定する設定手段をさらに備えるようにしてもよい。
【００１１】
また、本発明にかかる文書管理方法は、入力された一の文書データを形態素解析する第１のステップと、一の文書データの形態素と、形態素解析された複数の他の文書データそれぞれの形態素とから一の文書と他の文書との重複度を算出する第２のステップと、他の文書データの中から一の文書データと所定の値以上の重複度と有する文書データを抽出する第３のステップとを有することを特徴とする。
【００１２】
上記文書管理方法において、第３のステップは、重複度と閾値から一の文書データと他の文書データそれぞれの類似度を算出するステップと、他の文書データの中から少なくとも一の文書データと直接類似度を有する文書データを抽出するステップとをさらに有するようにしてもよい。
また、上記文書管方法において、一の文書データと類似度に関して任意の距離を有する他の文書データを抽出するステップをさらに有するようにしてもよい。
【００１３】
上記文書管理方法において、第２のステップは、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出するようにしてもよい。
上記文書管理方法において、第２のステップは、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、一部分に含まれる形態素の数を減らし、再度比較を行うようにしてもよい。
【００１４】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態について詳細に説明する。
図１は、本実施の形態にかかる文書管理装置の構成を示すブロック図である。本実施の形態にかかる文書管理装置１は、ＣＰＵ等の演算装置、メモリ、ＨＤＤ等の記憶装置、外部との情報の送受を行うＩ／Ｆ装置、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）またはＦＥＤ（ＦｉｅｌｄＥｍｉｓｓｉｏｎＤｉｓｐｌａｙ）等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムおよび電子辞書とから構成される。上記ハードウェア装置がプログラムによって制御される、すなわちハードウェア資源とソフトウェアが協働することによって、文字列からなる文書データに対して形態素解析を行う形態素解析部１２と、二つの文書データの形態素を比較することにより重複度を算出する重複度算出部１３と、重複度と閾値に基づいて類似度を算出する類似度算出部１４と、文書データ間の関係を表示手段に表示させるデータを生成する可視化部１５と、文書データを抽出する抽出部１６と、閾値を設定する設定部１７とが実現される。記憶装置は、文書データ等を格納する文書データベース（文書ＤＢ）１８を有する。
【００１５】
ここで、文書データとは、文書、すなわち文字列を含むデータをいうものとする。この文書データは、例えばフレキシブルディスク等の記録媒体を介して、または、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネット等の各種ネットワークや通信回線等を通じて供給され、外部より文書管理装置１に入力された文書データはＩ／Ｆ１１を介して文書ＤＢ１８に記憶される。
【００１６】
形態素解析部１２は、文書データ、より具体的には文書データに含まれる文字列を形態素解析し、文書データに含まれる文字列を単語とその単語の品詞からなる形態素に分解する。ここで、図２は、形態素解析の様子を示す図である。例えば、「私は花が好き」という文字列を形態素解析すると、図２に示すように、「私」、「は」、「花」、「が」、「好き」という単語と、これらの単語の品詞とから構成される形態素に分解することができる。形態素解析部１２は、このようにして得られた複数の形態素を所定の順序で配列する。この文書データごとに得られた形態素の配列を、便宜上、特徴ベクトルということにする。
【００１７】
ここで、特徴ベクトルにおける形態素の配列は、文書データにおける出現順としてもよいし、または出現頻度順としてもよい。図３は、特徴ベクトル、すなわち形態素の配列の様子を示す図である。例えば、図３に示すように、「明日、山武の藤沢工場で午後１時から打ち合わせ。山武の担当者は、村上様と木幡様。山武の藤沢工場は、藤沢駅から徒歩１０分。」という文字列を形態素に分解し、出現順に配列する場合は、各形態素は元の文字列の配列にしたがって配列される。出現順に形態素を配列した場合は、元の文書データの単語の配列通りに形態素も配列されるので、文章の流れを重視した特徴ベクトルが生成される。
本実施の形態において、特徴ベクトルを生成するにあたっては、形態素を出現順に配列するが、出現頻度順に配列する場合は、文字列の中で出現頻度が高い形態素の順に配列する。図３の場合は、「山武」、「の」、「藤沢」という３つの単語が３回ずつ出現しているので、この３つの単語を含む形態素から配列することになる。なお、出現回数が同じ形態素は、出現順に配列する。このように出現頻度順に形態素を配列する場合は、出現頻度の高い形態素から配列されるので、文章のテーマや内容が重視された特徴ベクトルが生成される。
【００１８】
上述した形態素解析部１２により生成された特徴ベクトルは、文書データと対応づけられて文書ＤＢ１８に記録される。したがって、文書ＤＢ１８に既に記録されている文書データ（第１の文書データ）に対しては、それぞれの特徴ベクトルが生成され、記録されている。
【００１９】
重複度算出部１３は、形態素解析部１２により生成された一の文書データ（第２の文書データ）の特徴ベクトルと、文書ＤＢ１８に格納されている他の文書データ（第１の文書データ）の特徴ベクトルとの重複度を算出し、例えば一の文書データと他の文書データとの関係を示すマトリックスのような形態で文書ＤＢ１８に記録する。この重複度とは、二つの文書間に共通する形態素がどの程度存在するかを数値化したものであり、より厳密には、一の文書から他の文書を見たときに、一の文書より得られた全形態素に対し他の文書より得られた形態素と一致する形態素の割合のことをいう。この重複度の算出方法について、以下に説明する。
【００２０】
まず、特徴ベクトルを二つの文書間で比較し、共通する形態素の数をカウントする。このとき、特徴ベクトル同士を比較するにあたっては、形態素を１つ１つ比較してもよいし、所定の数ごとに比較してもよい。所定の数ごとに比較するとは、換言するならば、特徴ベクトルの所定の順序で配列されたＮ個（Ｎは２以上の自然数）の形態素の全部または一部分を単位に比較を行うことである。例えば、所定の数をｎ（ｎは２以上Ｎ以下の任意の自然数）とすると、特徴ベクトルを構成する形態素の配列のうち、ｎ個の形態素からなる配列（以下「ｎ次の部分特徴ベクトル」という）同士を比較していく。一致した場合には、ｎ個の形態素が一致することになる。
【００２１】
一の文書から得られた特徴ベクトルと他の文書から得られた特徴ベクトルとをｎ個ごとに比較する場合には、まず、一の文書からＮ個の形態素からなる特徴ベクトルのうち、１番目からｎ番目までのｎ個の形態素からなる配列、すなわちｎ次の部分特徴ベクトルを選択し、他の文書から得られたＭ個の形態素（Ｍはｎ以上の自然数）からなる特徴ベクトルのｎ次の部分特徴ベクトルと比較を行う。この場合、一致する場合には、ｎ個の形態素が一致したことになる。同様に、一の文書から得られた特徴ベクトルの２番目からｎ＋１番目の形態素からなる部分特徴ベクトル、・・・、Ｎ−ｎ＋１番目からＮ番目の形態素からなる部分特徴ベクトルのそれぞれについて他の文書から得られた特徴ベクトルとの比較、照合を順次行っていく。
【００２２】
このように部分特徴ベクトルを単位として比較、照合を行うことにより、重複度に文脈や表現の共通性を反映させることができる。
また、ｎ個の部分特徴ベクトルについて比較、照合の結果、二つの文書間に一致するものが存在しなかった場合は、部分特徴ベクトルの次数ｎを１だけ減じた上で、（ｎ−１）次の部分特徴ベクトルについて、上述したアルゴリズムに従って再度比較、照合を行う。このように一致する部分特徴ベクトルが見つかるか、またはｎ＝１となるまでｎの値を減じながら、比較、照合を繰り返す。
上述したように本実施の形態によれば、部分特徴ベクトルの次数を段階的に変えて二つの文書を比較、照合するため、最大の次数で一致する場合は、文書の文脈や意味内容を考慮した結果が得られることになる。また、最低の次数でも比較することが可能なので、少なくとも、キーワードによる検索と同じレベルの検索結果を得ることができる。このように、本実施の形態にかかる文書管理装置１は、とても柔軟性のある検索方法を採用している。
【００２３】
図４は、特徴ベクトルの比較の様子を示す図である。例えば、図４に示すように、「私は花が好き」という文字列を有する一の文書の特徴ベクトル▲１▼（Ｎ＝５）と、「花が好き」という文字列を有する他の文書の特徴ベクトル▲２▼（Ｍ＝３）とを比較する場合について考えてみる。
形態素を１つ１つ比較する（すなわちｎ＝１）場合は、形態素ごと、すなわち一語ずつ比較する（丸付番号１１〜１５に対応）ので、二つの文書に共通な形態素「花」、「が」、「好き」のそれぞれについて一致し（丸付番号１３、１４、１５）、共通の形態素の数が３つということになる。
【００２４】
一方、所定の数ごとに比較する場合は、例えば、一の文書の特徴ベクトル▲１▼全体を単位に（この場合、ｎ＝Ｎ＝５）比較、照合を行うことも考えられる。この場合、一の文書の特徴ベクトル▲１▼全体は他の文書の特徴ベクトル▲２▼には存在しないので、一の文書の特徴ベクトル▲１▼から抽出する部分特徴ベクトルの次数をｎ＝４として、比較、照合を行う（丸付番号２、３）。そして、ｎ＝３とした場合、特徴ベクトル▲１▼から得られる３次の部分特徴ベクトル｛「私」、「は」、「花」｝、｛「は」、「花」、「が」｝、｛「花」、「が」、「好き」｝についてこの順に特徴ベクトル▲２▼と照合を行う（丸付番号４、５、６）。この場合、部分特徴ベクトル｛「花」、「が」、「好き」｝（丸付番号６）が他の文書の特徴ベクトル▲２▼全体と一致し、これ以外には一致する特徴ベクトルは存在しないので、比較、照合を終了し、共通の形態素数は３となる。
【００２５】
次いで、カウントされた二つの文書間に共通する形態素の数を、一の文書から得られた形態素の総数で除し、この商が重複度となる。例えば、上述した図４の場合について重複度を算出してみると、特徴ベクトル▲１▼の形態素数が５、特徴ベクトル▲２▼の形態素数が３、共通の形態素が３なので、特徴ベクトル▲１▼から特徴ベクトル▲２▼を比較した場合の重複度は３／５となり、特徴ベクトル▲２▼から特徴ベクトル▲１▼を比較した場合の重複度は３／３すなわち１となる。
【００２６】
なお、本実施の形態においては、出現順に形態素を配列したものを各文書の特徴ベクトルとした。また、所定の数ごとに比較する場合として、所定の数ｎの初期値をｎ＝Ｎとして比較、照合を行うように説明したが、この初期値ｎは任意に設定することができる。
【００２７】
類似度算出部１４は、重複度算出部１３が算出した重複度に基づいて、二つの文書間の類似度を算出し、これを文書ＤＢ１８に記録する。類似度とは、二つの文書の内容が共通性を有するか否かを示す指標のことを意味する。このような類似度は、２項関係として表現することができる。この類似度の算出にあたって、類似度算出部１４は、重複度算出部１３が算出した重複度が所定の閾値以上の場合は二つの文章は類似するものとして類似度１を与え、閾値に及ばない場合は類似していないものとして類似度０を与える。
例えば、図４に示した特徴ベクトル▲１▼と特徴ベクトル▲２▼との場合、閾値を０．７とすると、特徴ベクトル▲１▼から特徴ベクトル▲２▼を比較した場合の重複度は３／５すなわち０．６であるため、類似度は０となる。同様に、特徴ベクトル▲２▼から特徴ベクトル▲１▼を比較した場合の重複度は１であるため、類似度は１となる。
このようにして算出された類似度は、二つの文書データ間の２項関係（グラフ）として表すことができる。複数の文書データ間の類似度は、例えば図５に示すような特徴ベクトル同士、すなわち文書データ同士の類似度を表すマトリックスとしても表現することができる。
【００２８】
可視化部１５は、文書ＤＢ１８に記録されている類似度に基づいて、Ｉ／Ｆ１１が受信した一の文書データと文書ＤＢ１８に格納されている他の文書データとの関係を示す可視化データを生成し、Ｉ／Ｆ１１を介して表示装置に送出する。可視化データとしては、例えばマトリックス、または文書データを表すノードと、このノードを結ぶリンクとからなる２項グラフ等のデータが挙げられる。ここで、図５は、類似度をマトリックス表示した図、図６は、２項グラフを表す図である。図６において、ノード６ａとノード６ｂに対応する文書データの相互の類似度が１である場合、図６（ａ）に示すように、ノード６ａ、６ｂはリンク７ａで結ばれる。一方、ノード６ｃとノード６ｄに対応する文書データの少なくとも一方の類似度が０の場合、図６（ｂ）に示すように、ノード６ｃとノード６ｄはリンクで結ばれない。
【００２９】
抽出部１６は、類似度算出部１４が算出した類似度に基づいて、一の文書データと類似する他の文書データを文書ＤＢ１８から抽出し、Ｉ／Ｆ１１を介して外部に送出する。なお、抽出部１６は、一の文書データに類似する他の文書データのみならず、この他の文書データに類似する他の文書データも抽出するようにしてもよい。
【００３０】
設定部１７は、類似度算出部１４が類似度を算出するのに用いる閾値の設定変更を行う。このように設定部１７により閾値の設定を変更すると、類似度算出部１４が算出する類似度の値が変化するため、抽出部１６が抽出する文書データも変化し、さらに抽出部１６が抽出する文書データも変化する。
【００３１】
文書ＤＢ（ＤａｔａＢａｓｅ）１８は、Ｉ／Ｆ１１を介して外部から受信した一の文書データと、この文書データから形態素解析部１２により生成された特徴ベクトルとを対応づけて記録する。また、文書ＤＢ１８は、一の文書データと他の文書データとの重複度および類似度を記録する。
【００３２】
次に、本実施の形態にかかる文書管理装置１を、ビルメンテナンス等の報告文書に適用した場合について説明する。
図７は本実施の形態にかかる文書管理装置１を適用したシステムの図、図８は本実施の形態にかかる文書管理装置１の動作を示すフローチャート、図９は文書データを可視化した場合における質問事項と回答事項との関係を説明する図である。
ここで、報告文書には、状況と結果、質問と回答など、関係づけられた二つの事項が含まれていると考えることができる。便宜上、状況や質問等に対応する事項を質問事項、結果や回答等に対応する事項を回答事項ということにする。したがって、質問事項を含む文書と類似度を有する文書を抽出すれば、抽出された文書には、前記質問事項に対する回答事項が含まれていることが期待できる。
【００３３】
図７に示すシステムにおいて、文書管理装置１の文書ＤＢ１８には、第１の文書データとしての過去に作成された複数の報告文書とそれらの特徴ベクトルとが対応づけられて記録されており、さらにはこれらの文書データ間の重複度または類似度が記録されている。
また、文書管理装置１は、ネットワーク２を介して、メンテナンス等を行う利用者の端末装置３と接続されている。
ネットワーク２は、ＬＡＮ、ＷＡＮまたはインターネット等の各種ネットワークや通信回線等からなり、文書管理装置１と端末装置３とを接続し、これらの間の各種情報の送受信を可能にする。このようなネットワーク２には、端末装置３を複数接続することができる。
端末装置３は、表示装置を備えた公知のコンピュータやＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）等からなり、ネットワーク２を介して報告書等の文書データおよび可視化データの送受信を行い、文書データおよび可視化データを表示装置に表示する。
【００３４】
端末装置３より、報告書等の第２の文書データを受信すると（ステップＳ８０１）、文書管理装置１は、受信した文書データを文書ＤＢ１８に記録する。
【００３５】
次に、文書管理装置１は、形態素解析部１２により、端末装置３から受信した第２の文書データの特徴ベクトルを生成する（ステップＳ８０２）。この生成された特徴ベクトルは、この特徴ベクトルの元となる文書データと対応づけて文書ＤＢ１８に記録される。
このように、端末装置３から入力された文書データとこの文書データに基づいて生成される特徴ベクトルは、外部から文書データが入力されるたびに文書ＤＢ１８に格納される。
【００３６】
端末装置３から入力された第２の文書データ（一の文書データ）の特徴ベクトルを生成すると、文書管理装置１は、重複度算出部１３により、その特徴ベクトルと文書ＤＢ１８に格納されている複数の第１の文書データ（他の文書データ）の特徴ベクトルそれぞれとの重複度を算出する（ステップＳ８０３）。この算出した重複度は、文書ＤＢ１８に記録してもよい。この場合、一の文書データおよび他の文書データ相互間の重複度は、例えばマトリックスのような形態で表現することができる。
【００３７】
重複度を算出すると、文書管理装置１は、類似度算出部１４により、その重複度と予め設定された閾値に基づいて一の文書データと複数の他の文書データそれぞれとの類似度を算出する（ステップＳ８０４）。この算出した類似度は、文書ＤＢ１８に記録してもよい。この場合、一の文書データおよび他の文書データ相互間の類似度は、例えばマトリックスのような形態で表現することができる。
【００３８】
類似度が算出されると、文書管理装置１は、可視化部１５により、その類似度に基づいて文書データの可視化データを作成する（ステップＳ８０５）。なお、可視化データとしては、例えば図９（ａ）に示すような２項グラフ等が挙げられる。
【００３９】
図９（ａ）において、リンクで結ばれているノードに対応する文書データ同士は互いに対して類似度が１であり、リンクで結ばれていないノードに対応する文書データ同士は互いまたは一方が類似度が０であることを意味する。例えば、ノード６ｂは、リンク７ａ、７ｂによりノード６ａ、６ｃと結ばれているので、ノード６ａ、６ｃと互いに類似度が１であることがわかる。一方、ノード６ａとノード６ｃは、リンクで結ばれていないので、互いまたはどちらか一方が類似度が０であるということになる。
ここで、新規に入力された一の文書データがノード６ｄに対応するとすると、ノード６ｄは、図９（ａ）において点線で示すように、ノード６ａとリンク、すなわち類似度を有することがわかる。
【００４０】
なお、可視化データは、多数のノードと接続されているノードや複数のノードが複雑に接続されているノードの集合体等に、これらのノードの文書データに共通する代表値やキーワード等を併せて表示するようにしてもよい。これにより、利用者は、ノードの集合体の特徴を一目で確認することができる。
また、可視化データは、３次元のグラフィックデータとすることもできる。これにより、ノードの接続の様子をより正確に詳しく表示することができる。
【００４１】
ここで、文書管理装置１は、作成した可視化データを、必要に応じてＩ／Ｆ１１およびネットワーク２を介して、端末装置３に送出するようにしてもよい。
【００４２】
次に、文書管理装置１は、一の文書データに類似する他の文書データを抽出する（ステップＳ８０７）。例えば、図９に示すように、ノード６ｄで表される一の文書データが入力された場合、文書管理装置１は、ノード６ｄと類似するノード６ａで表される文書データを文書ＤＢ１８から抽出する。
【００４３】
さらに、文書管理装置１は、類似度に関し、任意の距離を有する他の文書データを抽出してもよい。ここで、「類似度に関する距離」とは、例えば、複数の文書データの類似度を２項グラフで表現したとき、一の文書データから他の文書データに到達するまでのパスを類似度で重みづけした値の合計である。本実施の形態においては、類似度を”１”または”０”で表しているので、例えば一の文書データと他の文書データとが直接類似度を有する場合は、その距離は１、一の文書データとは直接類似度を有しないものの、この一の文書データと類似度を有する他の文書データとは類似度を有する文書データは、上記一の文書データとの距離が２ということになる。本実施の形態において、文書データの抽出における類似度に関し、距離を２と設定して、一の文書データ（ノード６ｄ）と類似度を有する他の文書データ（ノード６ａ）とに類似する他の文書データ（ノード６ｃ）を文書ＤＢ１８から抽出するようにしてもよい。さらに距離を増大させ抽出対象範囲を拡大すれば、図９においては、ノード６ｂで表される文書データが回答事項を有しない場合でも、文書管理装置１は、ノード６ｂに類似度を有するノード６ｃで表される文書データ（回答事項を含む）を文書ＤＢ１８から抽出することができる。
このようにすることにより、本実施の形態にかかる文書管理装置１は、入力された質問事項を含む文書データに直接類似（関連）する文書データに回答事項が含まれていない場合であっても、間接的に類似（関連）する文書データを抽出することもできるので、同様の不具合等が発生した過去の対応策に関するデータを効果的に広範囲から抽出することができる。
【００４４】
文書データを抽出すると、文書管理装置１は、その文書データをＩ／Ｆ１１およびネットワーク２を介して、端末装置３に送出する（ステップＳ８０８）。
【００４５】
上述したように、本実施の形態にかかる文書管理装置１は、キーワード等を選定する必要がなく、報告書等の質問事項と回答事項のうち少なくとも一方を含む文書データを入力するだけで、その文書データに類似する文書データが抽出されるため、とても使い勝手がよい。
【００４６】
なお、ステップＳ８０４において、閾値は、設定部１７により適宜自由に変更することができるようにしてもよい。例えば、端末装置３に可視化データを表示した際に、リンクが多すぎるまたは少なすぎるために文書データの類似関係が把握しづらい場合に、閾値を適宜変更することにより、可視化データを見やすくし、文書データ間の類似関係を容易に把握できるようにすることができる。また、抽出された回答データが多すぎるまたは少なすぎる場合に、閾値を適宜変更することにより、適当な数量の文書データを得られるようにすることもできる。
【００４７】
【発明の効果】
以上説明したように、本発明によれば、新たに入力された一の文書データと、他の文書データとの重複度を算出し、この重複度と閾値から類似度を算出し、所定の値以上の類似度を有する他の文書データが抽出されるので、キーワード等の所定の条件を入力することなく、文書データを入力するという簡便な操作のみで、類似する文書データを抽出することができる。
また、本発明によれば、重複度および類似度を算出し、これらから文書の類似が類似しているか否かを判断するため、文書の文脈や文意が類似した文書を抽出することができる。
【図面の簡単な説明】
【図１】本実施の形態にかかる文書管理装置の構成を示すブロック図である。
【図２】形態素解析の様子を示す図である。
【図３】形態素の配列の様子を示す図である。
【図４】特徴ベクトルの比較の様子を示す図である。
【図５】類似度をマトリックス表示した図
【図６】２項グラフを表す図である。
【図７】本実施の形態にかかる文書管理装置１を適用したシステムの図である。
【図８】本実施の形態にかかる文書管理装置１の動作を示すフローチャートである。
【図９】文書データを可視化した場合における質問事項と回答事項との関係を説明する図である。
【符号の説明】
１…文書管理装置、２…ネットワーク、３…端末装置、６ａ〜６ｄ…ノード、７、７ａ、７ｂ…リンク、１１…Ｉ／Ｆ、１２…形態素解析部、１３…重複度算出部、１４…類似度算出部、１５…可視化部、１６…抽出部、１７…設定部、１８…文書ＤＢ。

Claims

複数の第１の文書データを記録した第１の記録手段と、
文書データを形態素解析する形態素解析手段と、
新たに入力された第２の文書データの形態素と前記第１の記録手段に記録された前記第１の文書データの形態素とから、前記第２の文書データと前記第１の文書データそれぞれとの重複度を求める重複度算出手段と、
前記第１の文書データの中から前記第２の文書データと所定の値以上の重複度を有する文書データを抽出する抽出手段と
を備えたことを特徴とする文書管理装置。
請求項１記載の文書管理装置において、
前記重複度と閾値から二つの文書データの類似度を算出する類似度算出手段と、
複数の前記第１の文書データ間の重複度と類似度のうち少なくとも一方を記録した第２の記録手段と
をさらに備え、
前記抽出手段は、前記第１の文書データの中から少なくとも前記第２の文書データと直接類似度を有する第１の文書データを抽出する
ことを特徴とする文書管理装置。
請求項２記載の文書管理装置において、
前記抽出手段は、前記第２の文書データと前記類似度に関して任意の距離を有する第１の文書データを抽出する
ことを特徴とする文書管理装置。
請求項１ないし３の何れか１項に記載の文書管理装置において、
前記重複度算出手段は、前記第１の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記第２の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出する
ことを特徴とする文書管理装置。
請求項４記載の文書管理装置において、
前記重複度算出手段は、前記第１の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記第２の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、前記一部分に含まれる形態素の数を減らし、再度比較を行う
ことを特徴とする文書管理装置。
請求項１ないし５の何れか１項に記載の文書管理装置において、
前記閾値を設定する設定手段
をさらに備えたことを特徴とする文書管理装置。
入力された一の文書データを形態素解析する第１のステップと、
前記一の文書データの形態素と、形態素解析された複数の他の文書データそれぞれの形態素とから前記一の文書と前記他の文書との重複度を算出する第２のステップと、
前記他の文書データの中から前記一の文書データと所定の値以上の重複度と有する文書データを抽出する第３のステップと
を有することを特徴とする文書管理方法。
請求項７記載の文書管理方法において、
前記第３のステップは、
前記重複度と閾値から前記一の文書データと前記他の文書データそれぞれの類似度を算出するステップと、
前記他の文書データの中から少なくとも前記一の文書データと直接類似度を有する文書データを抽出するステップと
を有することを特徴とする文書管理方法。
請求項８に記載の文書管理方法において、
前記一の文書データと前記類似度に関して任意の距離を有する前記他の文書データを抽出するステップ
をさらに有することを特徴とする文書管理方法。
請求項７ないし９の何れか１項に記載の文書管理方法において、
前記第２のステップは、前記一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記他の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出する
ことを特徴とする文書管理方法。
請求項１０記載の文書管理装置において、
前記第２のステップは、前記一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記他の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、前記一部分に含まれる形態素の数を減らし、再度比較を行う
ことを特徴とする文書管理方法。