JP4025180B2

JP4025180B2 - 文書管理装置

Info

Publication number: JP4025180B2
Application number: JP2002335486A
Authority: JP
Inventors: 英治村上; 真望木幡
Original assignee: Azbil Corp
Current assignee: Azbil Corp
Priority date: 2002-11-19
Filing date: 2002-11-19
Publication date: 2007-12-19
Anticipated expiration: 2022-11-19
Also published as: JP2004171215A

Description

【０００１】
【発明の属する技術分野】
本発明は、文書データを管理する文書管理装置に関し、より詳しくは、形態素解析の結果を利用して文書データを管理する文書管理装置に関する。
【０００２】
【従来の技術】
文書の分類および管理は、学問、技術または経済等の各種分野において、仕事の効率化を図るに際し、欠かせない事項である。例えば、ビルやプラントなどの設備管理の場合、特にメンテナンスに関する報告書は、過去に発生した何かの不具合に加え、その不具合への対応策は記載されていることが多い。したがって、新たに発生した不具合と同等の事項が記載されている過去の報告書を検索できれば、この報告書を参考にして処置を執ることができる。このため、従来より、文書の分類および管理を整然と効率よく行うべく、文書管理に関する種々の発明がされている。
【０００３】
例えば、テキストマイニング技術を利用して文書中から有利な情報と不利な情報を情報を抽出して文書を分類する発明（特許文献１参照）や、文書中の語および語の頻度に基づいて文書をベクトルで表現し、類似の文書が並ぶように表示する発明（特許文献２参照）などがされている。また、形態素解析を利用するものとしては、形態素に分解された単語の出現頻度を算出し、この出現頻度から文書の特徴を抽出する発明（特許文献３参照）や、単語間の重要度および関連度を形態素に分解された単語の出現頻度等から算出し、これらの重要度と類似度に基づいて文書の類似度の判定を行う発明（特許文献４参照）などがある。
【０００４】
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
【０００５】
【特許文献１】
特開２００２−６３３３８号公報
【特許文献２】
特開２００１−５１４４１７号公報
【特許文献３】
特開２０００−１１３０６４号公報
【特許文献４】
特開２０００−１２３０４１号公報
【０００６】
【発明が解決しようとする課題】
しかしながら、上述したような方法は、何れも文書の文脈や意味内容を考慮して文書を分類したものとはいえなかった。例えば、特許文献１に記載された発明では、所定の特性を有する情報のみを抽出し、この情報から類似する文書を分類している。また、特許文献２〜４に記載された発明では、単に特定の単語の出現頻度から文書が類似しているか否かを判断している。文書とは、一般的に文脈や単語の配列および構成等に、文書作成者の意図や思想が色濃く反映されるものである。したがって、上述したような方法では、文書作成者の文意をくみ取って、文書を分類することができなかった。
そこで、本発明は、上述したような課題を解決するためになされたものであり、文書の文脈や意味内容を反映させて文書を分類および管理することができる文書管理装置を提供することを目的とする。
【０００７】
【課題を解決するための手段】
上述したような課題を解決するために、本発明にかかる文書管理装置は、文書データを形態素解析する形態素解析手段と、一の文書データと他の文書データとの重複度を、それぞれが有する形態素に基づいて算出する重複度算出手段と、重複度と閾値から一の文書データと他の文書データとの類似度を算出する類似度算出手段とを備えたことを特徴とする。この文書管理装置によれば、一の文書と他の文書との類似度は、それぞれの文書に含まれる形態素の重複度と、閾値に基づいて算出される。
【０００８】
上記文書管理装置において、類似度に基づいて一の文書データと他の文書データとの関係を表示装置に表示させるデータを生成する可視化手段をさらに備えるようにしてもよい。この文書管理装置によれば、一の文書データと他の文書データとの関係は、表示装置に表示される。
【０００９】
上記文書管理装置において、複数の文書データを格納する文書ＤＢをさらに備え、重複度算出手段は、複数の文書データそれぞれの間の重複度を算出し、類似度算出手段は、複数の文書データそれぞれの間の類似度を算出し、可視化手段は、複数の文書データの関係を表示手段に表示させるデータを生成するようにしてもよい。この文書管理装置によれば、複数の文書データそれぞれの関係が、表示装置に表示される。
【００１０】
上記文書管理装置において、重複度算出手段は、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出するようにしてもよい。
また、上記文書管理装置において、重複度算出手段は、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、一部分に含まれる形態素の数を減らし、再度比較を行うようにしてもよい。
【００１１】
上記文書管理装置において、二つの文書データ間の重複度または類似度を記録する記録手段をさらに備えるようにしてもよい。
また、上記文書管理装置において、閾値の設定を変更する設定手段をさらに備えるようにしてもよい。
【００１２】
【発明の実施の形態】
以下、図面を参照して、本発明にかかる文書管理装置の実施の形態について、詳細に説明する。図１は本実施の形態にかかる文書管理装置の構成を示すブロック図である。
【００１３】
本実施の形態にかかる文書管理装置１は、ＣＰＵ等の演算装置、メモリ、HDD等の記憶装置、外部との情報の送受を行うＩ/Ｆ装置、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)またはFED(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムおよび電子辞書とから構成され、上記ハードウェア資源がプログラムによって制御される。すなわちハードウェア装置とソフトウェアが協働することによって、形態素解析部１２と、重複度を算出する重複度算出部１３と、類似度を算出する類似度算出部１４と、文書データ間の関係を表示手段に表示させるデータを生成する可視化部１５とが実現される。記憶装置は、文書データ等を格納する文書ＤＢ１６を有する。
【００１４】
Ｉ/Ｆ１１は、LAN(Local Area Network)、WAN(Wide Area Network)またはインターネット等の各種ネットワークや通信回線等に接続され、外部と文書データ、可視化データ等の各種情報の送受信を行う。外部よりＩ/Ｆ１１を介して入力された文書データは、文書ＤＢ１６に記憶される。
【００１５】
形態素解析部１２は、文書データより具体的には文書データに含まれる文字列を形態素解析し、文書データに含まれる文字列を単語とその単語の品詞からなる形態素に分解する。ここで、図２は、形態素解析の様子を示す図である。例えば、「私は花が好き」という文字列を形態素解析すると、図２に示すように、「私」、「は」、「花」、「が」、「好き」という単語と、これらの単語の品詞とから構成される形態素に分解することができる。形態素解析部１２は、このようにして得られた複数の形態素を所定の順序で配列する。図３は、形態素の配列の様子を示す図である。この文書データごとに得られた形態素の配列を、便宜上、特徴ベクトルということにする。
【００１６】
ここで、特徴ベクトルにおける形態素の配列は、出現順に配列してもよいし、または出現頻度順に配列してもよい。例えば、図３に示すように、「明日、山武の藤沢工場で午後１時から打ち合わせ。山武の担当者は、村上様と木幡様。山武の藤沢工場は、藤沢駅から徒歩１０分。」という文字列を形態素に分解し、出現順と出現頻度順のそれぞれに配列した場合について説明する。
出現順に配列する場合は、元の文字列の配列のままに形態素を配列する。したがって、出現順に形態素を配列場合は、元の文章データの単語の配列通りに形態素も配列されるので、文章の流れを重視した特徴ベクトルが生成される。
なお、特徴ベクトルを生成するにあたっては、形態素を出現順に配列する代わりに、出現頻度順に配列してもよい。出現頻度順に配列する場合は、文字列の中で出現頻度が高い形態素の順に配列する。図３の場合は、「山武」、「の」、「藤沢」という３つの単語が３回ずつ出現しているので、この３つの単語を含む形態素から配列することになる。なお、出現回数が同じ形態素は、出現順に配列する。このように出現頻度順に形態素を配列する場合は、出現頻度の高い形態素から配列されるので、文章のテーマや内容が重視された特徴ベクトルが生成される。
本実施の形態では、出現順に配列して説明する。
【００１７】
上述した形態素解析部１２により生成された特徴ベクトルは、文書データと対応づけられて文書ＤＢ１６に記録される。
【００１８】
重複度算出部１３は、形態素解析部１２により生成された一の文書の特徴ベクトルと、文書ＤＢ１６に格納されている他の文書の特徴ベクトルとの重複度を算出し、例えば一の文書データと他の文書データとの関係を示すマトリックスのような形態で文書ＤＢ１６に記録する。この重複度とは、二つの文書間で共通する形態素がどの程度存在するかを数値化したものであり、より厳密には、一の文書から他の文書を見たときに、一の文書より得られた全形態素に対し他の文書より得られた形態素と一致する形態素の割合のことをいう。この重複度の算出方法について、以下に説明する。
【００１９】
まず、特徴ベクトルを二つの文書間で比較し、共通する形態素の数をカウントする。ここで、特徴ベクトル同士を比較するにあたっては、形態素を１つ１つ比較してもよいし、所定の数ごとに比較してもよい。所定の数ごとに比較するとは、換言するならば、特徴ベクトルの所定の順序で配列されたＮ個（Ｎは２以上の自然数）の形態素の全部または一部分を単位に比較を行うことということができる。ここで所定の数をｎ（ｎは２以上Ｎ以下の任意の自然数）とすると、特徴ベクトルを構成する形態素の配列のうち、ｎ個の形態素からなる配列の一部（以下「ｎ次の部分特徴ベクトル」という）同士を比較していく。一致した場合には、ｎ個の形態素が一致することになる。
【００２０】
具体的には、一の文書から得られた特徴ベクトルと他の文書から得られた特徴ベクトルとを比較する場合には、まず、一の文書からＮ個の形態素からなる特徴ベクトルのうち、１番目からｎ番目までのｎ個の形態素からなる配列、すなわち部分特徴ベクトルを選択し、他の文書から得られたＭ個の形態素（Ｍはｎ以上の自然数）からなる特徴ベクトルのｎ次の部分特徴ベクトルと比較を行う。この場合、一致する場合には、ｎ個の形態素が一致したことになる。同様に、一の文書から得られた特徴ベクトルの２番目からｎ＋１番目の形態素からなる部分特徴ベクトル、・・・、Ｎ−ｎ＋１番目からＮ番目の形態素からなる部分特徴ベクトルのそれぞれについて他の文書から得られた特徴ベクトルとの比較、照合を行っていく。
【００２１】
このように部分特徴ベクトルを単位として比較、照合を行うことにより、重複度に文脈や表現の共通性を反映させることができる。
また、ｎ個の部分特徴ベクトルについて比較、照合の結果、２つの文書間に一致するものが存在しなかった場合は、部分特徴ベクトルの次数ｎを１だけ減じた上で、（ｎ−１）次の部分特徴ベクトルについて、上述したアルゴリズムに従って再度比較、照合を行う。このように一致する部分特徴ベクトルが見つかるか、またはｎ＝１となるまでｎの値を減じながら、比較、照合を繰り返す。
【００２２】
例えば、図４に示すように、「私は花が好き」という文字列を有する一の文書の特徴ベクトル▲１▼（Ｎ＝５）と、「花が好き」という文字列を有する他の文書の特徴ベクトル▲２▼（Ｍ＝３）とを比較する場合について考えてみる。
形態素を１つ１つ比較する（すなわちｎ＝１）場合は、形態素ごと、すなわち一語ずつ比較する（丸付番号１１〜１５に対応）ので、２つの文書に共通な形態素「花」、「が」、「好き」のそれぞれについて一致し（丸付番号１３、１４、１５）、共通の形態素の数が３つということになる。
【００２３】
一方、所定の数ごとに比較する場合は、例えば、一の文書の特徴ベクトル▲１▼全体を単位に（この場合、ｎ＝Ｎ＝５）比較、照合を行うことも考えられる。この場合、一の文書の特徴ベクトル▲１▼全体は他の文書の特徴ベクトル▲２▼には存在しないので、一の文書の特徴ベクトル▲１▼から抽出する部分特徴ベクトルの次数をｎ＝４として、比較、照合を行う（丸付番号２、３）。そして、ｎ＝３とした場合、特徴ベクトル▲１▼から得られる３次の部分特徴ベクトル｛「私」、「は」、「花」｝、｛「は」、「花」、「が」｝、｛「花」、「が」、「好き」｝についてこの順に特徴ベクトル▲２▼と照合を行う（丸付番号４、５、６）。この場合、部分特徴ベクトル｛「花」、「が」、「好き」｝（丸付番号６）が他の文書の特徴ベクトル▲２▼全体と一致し、これ以外には一致する特徴ベクトルは存在しないので、比較、照合を終了し、共通の形態素数は３となる。
【００２４】
なお、本実施の形態においては、出現順に形態素を配列したものを各文書の特徴ベクトルとした。また、所定の数ごとに比較する場合として、所定の数ｎの初期値をｎ＝Ｎとして比較、照合を行うように説明したが、この初期値ｎは任意に設定することができる。
【００２５】
次いで、カウントされた二つの文書間に共通する形態素の数を、一の文書から得られた形態素の総数で除し、この商が重複度となる。例えば、上述した図４の場合について重複度を算出してみると、特徴ベクトル▲１▼の形態素数が５、特徴ベクトル▲２▼の形態素数が３、共通の形態素が３なので、特徴ベクトル▲１▼から特徴ベクトル▲２▼を比較した場合の重複度は３／５となり、特徴ベクトル▲２▼から特徴ベクトル▲１▼を比較した場合の重複度は３／３すなわち１となる。
【００２６】
類似度算出部１４は、重複度算出部１３が算出した重複度に基づいて、形態素解析部１２が形態素に分解した一の文書データと、文書ＤＢ１６に格納されている他の文書データとの類似度を算出し、例えば一の文書データと他の文書データとの関係を示すマトリックスのような形態で文書ＤＢ１６に記録する。なお、類似度とは、二つの文書の内容が共通性を有するか否かを示す指標のことを意味する。この類似度の算出方法について、以下に説明する。
【００２７】
類似度算出部１４は、重複度算出部１３が算出した重複度が所定の閾値以上の場合は二つの文章は類似するものとして類似度１を与え、閾値に及ばない場合は類似していないものとして類似度０を与える。
例えば、図４に示した特徴ベクトル▲１▼と特徴ベクトル▲２▼との場合、閾値を０．７とすると、特徴ベクトル▲１▼から特徴ベクトル▲２▼を比較した場合の重複度は３／５すなわち０．６であるため、類似度は０となる。同様に、特徴ベクトル▲２▼から特徴ベクトル▲１▼を比較した場合の重複度は１であるため、類似度は１となる。このようにして算出された類似度は、例えば図５に示すような特徴ベクトル同士、すなわち文書データ同士の類似度を表すマトリックスとして文書ＤＢ１６に記録される。
なお、閾値は、適宜自由に設定することができる。
【００２８】
可視化部１５は、文書ＤＢ１６に記録されている類似度に基づいて、Ｉ/Ｆ１１が受信した一の文書データと文書ＤＢ１６に格納されている他の文書データとの関係を示す可視化データを生成し、Ｉ/Ｆ１１を介して表示装置に送出する。ここで、図５は、類似度をマトリックス表示した図、図６は、２項グラフを表す図である。可視化データとしては、例えば図５に示すようなマトリックス、図６に示すような文書データを表すノードと、このノードを結ぶリンクとからなる２項グラフ等のデータがあげられる。ここで、ノード６ａとノード６ｂに対応する文書データの相互の類似度が１である場合、図６（ａ）に示すように、ノード６ａ、６ｂはリンク７ａで結ばれる。一方、ノード６ｃとノード６ｄに対応する文書データの少なくとも一方の類似度が０の場合、図６（ｂ）に示すように、ノード６ｃとノード６ｄはリンクで結ばれない。
【００２９】
文書ＤＢ(Data Base)１６は、Ｉ/Ｆ１１を介して外部から受信した一の文書データと、この文書データから形態素解析部１２により生成された特徴ベクトルを対応づけて記録する。また、文書ＤＢ１６は、一の文書データと他の文書データとの重複度および類似度を、例えば図５に示すようなマトリックスのような形態で記録する。
【００３０】
次に、本実施の形態にかかる文書管理装置１の動作について図７、８を参照して説明する。図７は本実施の形態にかかる文書管理装置１の動作を示すフローチャート、図８は類似度をグラフィック表示した図である。なお、文書ＤＢ１６には、ｎ（任意の自然数）個の文書データ、ｎ個の文書データそれぞれの特徴ベクトル、ｎ個の文書データそれぞれの間の重複度および類似度が記録されているものとする。
【００３１】
外部から文書データが入力されると、文書管理装置１は、形態素解析部１２により、その文書データから特徴ベクトルを生成する（ステップＳ７０１）。ここで、外部から入力された文書データとこの文書データに基づいて生成される特徴ベクトルは、外部から文書データが入力されるたびに文書ＤＢ１６に格納される。これにより、文書ＤＢ１６は、外部から文書データが入力されるだけで自然的に成長するため、使い勝手がよい。
【００３２】
外部から入力された文書データ（一の文書データ）の特徴ベクトルを生成すると、文書管理装置１は、重複度算出部１３により、その特徴ベクトルと文書ＤＢ１６に格納されているｎ個の文書データの特徴ベクトルそれぞれとの重複度を算出する（ステップＳ７０２）。この算出した重複度は、一の文書データとｎ個の文書データそれぞれとの重複度の関係を示す例えばマトリックスのような形態で文書ＤＢ１６に記録される。
【００３３】
重複度を算出すると、文書管理装置１は、類似度算出部１４により、その重複度と閾値に基づいて一の文書データとｎ個の文書データそれぞれとの類似度を算出する（ステップＳ７０３）。この算出した類似度は、一の文書データとｎ個の文書データそれぞれとの重複度の関係を示す例えば図５に示すようなマトリックスのような形態で文書ＤＢ１６に記録される。
【００３４】
類似度が算出されると、文書管理装置１は、可視化部１５により、その類似度に基づいて例えば図８に示す２項グラフのような可視化データを作成する（ステップＳ７０４）。図８において、リンクで結ばれているノードに対応する文書データ同士は互いに対して類似度が１であり、リンクで結ばれていないノードに対応する文書データ同士は互いまたは一方が類似度が０であることを意味する。例えば、ノード８ａは、リンク９ａ、９ｂによりノード８ｂ、８ｃと結ばれているので、ノード８ｂ、８ｃと互いに類似度が１であることがわかる。一方、ノード８ｂとノード８ｃは、リンクで結ばれていないので、互いまたはどちらか一方が類似度が０であるということになる。
【００３５】
なお、可視化データは、多数のノードと接続されているノードや複数のノードが複雑に接続されているノードの集合体等に、これらのノードの文書データに共通する代表値やキーワード等を併せて表示するようにしてもよい。例えば、ノード８ｄと、これに接続されている４つのノードとの共通のキーワードが「藤沢」の場合、図８に示すように、ノード８ｄ近傍には「藤沢」というキーワードが表示される。これにより、利用者は、ノードの集合体の特徴を一目で確認することができる。
また、可視化データは、３次元のグラフィックデータとすることもできる。これにより、ノードの接続の様子をより正確に詳しく表示することができる。
【００３６】
可視化データを生成すると、文書管理装置１は、Ｉ/Ｆ１１を介してその可視化データを表示装置に送出する（ステップＳ７０５）。これにより利用者は、表示装置に表示された２項グラフ等により、一つの文書データと他の文書データとの関係または複数の文書データ間の関係を一目で識別することができるため、一の文書データと他の文書データとの関係がわかりやすい。
【００３７】
なお、ステップＳ７０３において、閾値は、適宜自由に変更することができるようにしてもよい。例えば、表示装置に可視化データを表示した際に、リンクが多すぎるまたは少なすぎるために文書データの類似関係が把握しづらい場合に、閾値を適宜変更することにより、可視化データを見やすくし、文書データ間の類似関係を容易に把握できるようにすることができる。
【００３８】
【発明の効果】
以上説明したように、本発明によれば、文書データを形態素解析し、一の文書データと他の文書データとの重複度をそれぞれが有する形態素に基づいて算出し、その重複度に基づいて一の文書データと他の文書データとの類似度を算出することにより、一の文書データと他の文書データとの関係を文書の文脈や意味内容を反映させて文書を分類および管理することができる。
【００３９】
また、本発明によれば、可視化手段を備えることにより、一の文書データと他の文書データとの関係をわかりやすく表示することができる。
さらに、本発明によれば、複数の文書データを格納する文書ＤＢを備えうることにより、複数の文書データそれぞれの関係を文書の文脈や意味内容を考慮して文書を分類および管理することができ、かつ複数の文書データ間の関係をわかりやすく表示することができる。
【００４０】
また、本発明によれば、重複度算出手段が、一の文書データの所定の配列および数の形態素と、所定の配列および数の他の文書データの形態素が一致するか否かにより重複度を算出し、所定の数は、一の文書データと他の文書データの形態素が一致するまで徐々に減らすようにすることにより、文書の文脈や意味内容を反映させて一の文書データと他の文書データとの重複度を算出することができる。
さらに、本発明によれば、設定手段を設けることにより、閾値の設定を適宜変更し、類似度を変化させることができるので、文書データの分類および管理ならびに表示装置に表示させる一の文書データと他の文書の関係または複数の文書データの関係を調整することができる。
【図面の簡単な説明】
【図１】本実施の形態にかかる文書管理装置１の構成を示すブロック図である。
【図２】形態素解析の様子を示す図である。
【図３】形態素の配列の様子を示す図である。
【図４】特徴ベクトルの比較の様子を示す図である。
【図５】類似度をマトリックス表示した図である。
【図６】２項グラフを表す図である。
【図７】本実施の形態にかかる文書管理装置１の動作を示すフローチャートである。
【図８】類似度をグラフィック表示した図である。
【符号の説明】
１…文書管理装置、６ａ〜６ｄ、８ａ〜８ｇ…ノード、７、９ａ〜９ｇ…リンク、１１…Ｉ／Ｆ、１２…形態素解析部、１３…重複度算出部、１４…類似度算出部、１５…可視化部、１６…文書ＤＢ。

Claims

文書データを形態素解析する形態素解析手段と、
一の文書データと他の文書データとに共通する形態素の数をそれぞれの文書データに含まれる形態素の数で除した重複度を求める重複度算出手段と、
前記重複度と所定の閾値とから、二つの文書データが類似しているか否かの指標を示す類似度を求める類似度算出手段と
を備えた文書管理装置であって、
前記重複度算出手段は、
前記一の文書データが有する複数の形態素を出現順または出現頻度順の順序で配列した部分特徴ベクトルと、前記他の文書データが有する前記部分特徴ベクトルとを比較し、これらが一致するか否かにより前記重複度を算出し、
前記一の文書データの前記部分特徴ベクトルと、前記他の文書データの前記部分特徴ベクトルとが一致しない場合は、前記一の文書データの前記部分特徴ベクトルに含まれる形態素の数を減らした上で再度比較を行い、さらに前記一の文書データの前記部分特徴ベクトルの先頭の形態素の順位を順次繰り下げて比較を繰り返す
ことを特徴とする文書管理装置。
請求項１記載の文書管理装置において、
前記類似度に基づいて前記一の文書データと前記他の文書データとの関係を表示装置に表示させるデータを生成する可視化手段
をさらに備えたことを特徴とする文書管理装置。
請求項１または２記載の文書管理装置において、
複数の前記文書データを格納する文書ＤＢをさらに備え、
前記重複度算出手段は、複数の前記文書データそれぞれの間の前記重複度を算出し、
前記類似度算出手段は、複数の前記文書データそれぞれの間の前記類似度を算出し、
前記可視化手段は、複数の前記文書データの関係を表示手段に表示させるデータを生成する
ことを特徴とする文書管理装置。
請求項１ないし３の何れか１項に記載の文書管理装置において、
二つの前記文書データ間の前記重複度または前記類似度を記録する記録手段
をさらに備えることを特徴とする文書管理装置。
請求項１ないし４の何れか１項に記載の文書管理装置において、
前記閾値の設定を変更する設定手段
をさらに備えたことを特徴とする文書管理装置。