JP2004171220A - 文書管理装置および方法 - Google Patents
文書管理装置および方法 Download PDFInfo
- Publication number
- JP2004171220A JP2004171220A JP2002335504A JP2002335504A JP2004171220A JP 2004171220 A JP2004171220 A JP 2004171220A JP 2002335504 A JP2002335504 A JP 2002335504A JP 2002335504 A JP2002335504 A JP 2002335504A JP 2004171220 A JP2004171220 A JP 2004171220A
- Authority
- JP
- Japan
- Prior art keywords
- document
- document data
- similarity
- degree
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書再利用装置1は、コンピュータと、このコンピュータにインストールされたプログラムおよび電子辞書とから構成され、ハードウェア装置がプログラムによって制御される。すなわちハードウェア資源とソフトウェアが協働することによって、文字列からなる文書データに対して形態素解析を行う形態素解析部12と、二つの文書データの形態素を比較することにより重複度を算出する重複度算出部13と、重複度と閾値に基づいて類似度を算出する類似度算出部14と、文書データ間の関係を表示手段に表示させるデータを生成する可視化部15と、文書データを抽出する抽出部16と、閾値を設定する設定部17とが実現される。記憶装置は、文書データ等を格納する文書DB18を有する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、作成された文書データを再利用する文書管理装置および方法に関し、より詳しくは、形態素解析の結果を利用して文書データを再利用する文書管理装置および方法に関する。
【0002】
【従来の技術】
文書の分類および管理は、学問、技術または経済等の各種分野において、仕事の効率化を図るに際し、欠かせない事項である。例えば、ビルやプラントなどの設備管理の場合、特にメンテナンスに関する報告書は、過去に発生した何かの不具合に加え、その不具合への対応策は記載されていることが多い。したがって、新たに発生した不具合と同等の事項が記載されている過去の報告書を検索できれば、この報告書を参考にして処置を執ることができる。このため、従来より、所望の文書の検索を効率よく行うべく、文書の分類および管理に関する種々の発明がされている。
【0003】
例えば、検索条件に関連した記述を文書中から検索する発明(特許文献1参照)、予め条件、項目、閾値等を入力し、これらの条件に適合する文書を検索する発明(特許文献2参照)、検索キーと検索対象文書の類似度を、検索キーおよび検索対象文書内での単語の重要度と関連度を用いて計算し、これらの重要度と関連度に基づいて文書の検索を行う発明(特許文献3参照)などがある。
【0004】
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
【0005】
【特許文献1】
特開平11−45254号公報
【特許文献2】
特開2001−337991号公報
【特許文献3】
特開2000−124041号公報
【0006】
【発明が解決しようとする課題】
しかしながら、上述したような方法は、何れも文書の文脈や意味内容を考慮して文書を検索したものとはいえず、また検索条件を入力しなければ所望の文書等を検索することができなかった。例えば、特許文献1に記載された発明では、検索条件を入力しなければならず、検索結果として出力されるのは特定の記述のみである。また、特許文献2に記載された発明では、予め条件、項目、閾値を入力しなければ、これらの条件等に類似する文書を検索することができない。緊急を要する場合や経験が少ない者にとって、所望する文書等を検索する際、その文書の特徴を単なるキーワードで表現することは困難である。また、文書とは、一般的に文脈や単語の配列および構成等に、文書作成者の意図や思想が色濃く反映されるものであり、単なるキーワードのみでその文書全体を特徴づけるのは、容易ではない。したがって、上述したような従来の方法では、文書作成者の文意の文脈や意味内容に沿って、簡便に文書を検索することが困難であった。
さらに、特許文献3に記載された発明では、部分グラフとしてマッチングしないときは何も検索結果が得られないという文書検索システムとして致命的な問題点がある。
そこで、本発明は、上述したような課題を解決するためになされたものであり、文書の文脈や意味内容を反映させて、類似する文書を容易に抽出することができる文書管理装置および方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
上述したような課題を解決するために本発明にかかる文書管理装置は、複数の第1の文書データを記録した第1の記録手段と、文書データを形態素解析する形態素解析手段と、新たに入力された第2の文書データの形態素と第1の記録手段に記録された第1の文書データの形態素とから、第2の文書データと第1の文書データそれぞれとの重複度を求める重複度算出手段と、第1の文書データの中から第2の文書データと所定の値以上の重複度を有する文書データを抽出する抽出手段とを備えたことを特徴とする。この文書管理装置によれば、文書データを入力するだけで、この文書データと所定の値以上の重複度を有する文書データが抽出される。
【0008】
また、上記文書管理装置において、重複度と閾値から二つの文書データの類似度を算出する類似度算出手段と、複数の第1の文書データ間の重複度と類似度のうち少なくとも一方を記録した第2の記録手段とをさらに備え、抽出手段は、第1の文書データの中から少なくとも第2の文書データと直接類似度を有する第1の文書データを抽出するようにしてもよい。この文書管理装置によれば、入力した文書データと直接類似度を有する文書データが抽出される。
【0009】
上記文書管理装置において、抽出手段は、第2の文書データと類似度に関して任意の距離を有する第1の文書データを抽出するようにしてもよい。
また、上記文書管理装置において、重複度算出手段は、第1の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、第2の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出するようにしてもよい。
さらに、上記文書管理装置において、重複度算出手段は、第1の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、第2の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、一部分に含まれる形態素の数を減らし、再度比較を行うようにしてもよい。
【0010】
上記文書管理装置において、閾値を設定する設定手段をさらに備えるようにしてもよい。
【0011】
また、本発明にかかる文書管理方法は、入力された一の文書データを形態素解析する第1のステップと、一の文書データの形態素と、形態素解析された複数の他の文書データそれぞれの形態素とから一の文書と他の文書との重複度を算出する第2のステップと、他の文書データの中から一の文書データと所定の値以上の重複度と有する文書データを抽出する第3のステップとを有することを特徴とする。
【0012】
上記文書管理方法において、第3のステップは、重複度と閾値から一の文書データと他の文書データそれぞれの類似度を算出するステップと、他の文書データの中から少なくとも一の文書データと直接類似度を有する文書データを抽出するステップとをさらに有するようにしてもよい。
また、上記文書管方法において、一の文書データと類似度に関して任意の距離を有する他の文書データを抽出するステップをさらに有するようにしてもよい。
【0013】
上記文書管理方法において、第2のステップは、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出するようにしてもよい。
上記文書管理方法において、第2のステップは、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、一部分に含まれる形態素の数を減らし、再度比較を行うようにしてもよい。
【0014】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態について詳細に説明する。
図1は、本実施の形態にかかる文書管理装置の構成を示すブロック図である。本実施の形態にかかる文書管理装置1は、CPU等の演算装置、メモリ、HDD等の記憶装置、外部との情報の送受を行うI/F装置、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)またはFED(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムおよび電子辞書とから構成される。上記ハードウェア装置がプログラムによって制御される、すなわちハードウェア資源とソフトウェアが協働することによって、文字列からなる文書データに対して形態素解析を行う形態素解析部12と、二つの文書データの形態素を比較することにより重複度を算出する重複度算出部13と、重複度と閾値に基づいて類似度を算出する類似度算出部14と、文書データ間の関係を表示手段に表示させるデータを生成する可視化部15と、文書データを抽出する抽出部16と、閾値を設定する設定部17とが実現される。記憶装置は、文書データ等を格納する文書データベース(文書DB)18を有する。
【0015】
ここで、文書データとは、文書、すなわち文字列を含むデータをいうものとする。この文書データは、例えばフレキシブルディスク等の記録媒体を介して、または、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット等の各種ネットワークや通信回線等を通じて供給され、外部より文書管理装置1に入力された文書データはI/F11を介して文書DB18に記憶される。
【0016】
形態素解析部12は、文書データ、より具体的には文書データに含まれる文字列を形態素解析し、文書データに含まれる文字列を単語とその単語の品詞からなる形態素に分解する。ここで、図2は、形態素解析の様子を示す図である。例えば、「私は花が好き」という文字列を形態素解析すると、図2に示すように、「私」、「は」、「花」、「が」、「好き」という単語と、これらの単語の品詞とから構成される形態素に分解することができる。形態素解析部12は、このようにして得られた複数の形態素を所定の順序で配列する。この文書データごとに得られた形態素の配列を、便宜上、特徴ベクトルということにする。
【0017】
ここで、特徴ベクトルにおける形態素の配列は、文書データにおける出現順としてもよいし、または出現頻度順としてもよい。図3は、特徴ベクトル、すなわち形態素の配列の様子を示す図である。例えば、図3に示すように、「明日、山武の藤沢工場で午後1時から打ち合わせ。山武の担当者は、村上様と木幡様。山武の藤沢工場は、藤沢駅から徒歩10分。」という文字列を形態素に分解し、出現順に配列する場合は、各形態素は元の文字列の配列にしたがって配列される。出現順に形態素を配列した場合は、元の文書データの単語の配列通りに形態素も配列されるので、文章の流れを重視した特徴ベクトルが生成される。
本実施の形態において、特徴ベクトルを生成するにあたっては、形態素を出現順に配列するが、出現頻度順に配列する場合は、文字列の中で出現頻度が高い形態素の順に配列する。図3の場合は、「山武」、「の」、「藤沢」という3つの単語が3回ずつ出現しているので、この3つの単語を含む形態素から配列することになる。なお、出現回数が同じ形態素は、出現順に配列する。このように出現頻度順に形態素を配列する場合は、出現頻度の高い形態素から配列されるので、文章のテーマや内容が重視された特徴ベクトルが生成される。
【0018】
上述した形態素解析部12により生成された特徴ベクトルは、文書データと対応づけられて文書DB18に記録される。したがって、文書DB18に既に記録されている文書データ(第1の文書データ)に対しては、それぞれの特徴ベクトルが生成され、記録されている。
【0019】
重複度算出部13は、形態素解析部12により生成された一の文書データ(第2の文書データ)の特徴ベクトルと、文書DB18に格納されている他の文書データ(第1の文書データ)の特徴ベクトルとの重複度を算出し、例えば一の文書データと他の文書データとの関係を示すマトリックスのような形態で文書DB18に記録する。この重複度とは、二つの文書間に共通する形態素がどの程度存在するかを数値化したものであり、より厳密には、一の文書から他の文書を見たときに、一の文書より得られた全形態素に対し他の文書より得られた形態素と一致する形態素の割合のことをいう。この重複度の算出方法について、以下に説明する。
【0020】
まず、特徴ベクトルを二つの文書間で比較し、共通する形態素の数をカウントする。このとき、特徴ベクトル同士を比較するにあたっては、形態素を1つ1つ比較してもよいし、所定の数ごとに比較してもよい。所定の数ごとに比較するとは、換言するならば、特徴ベクトルの所定の順序で配列されたN個(Nは2以上の自然数)の形態素の全部または一部分を単位に比較を行うことである。例えば、所定の数をn(nは2以上N以下の任意の自然数)とすると、特徴ベクトルを構成する形態素の配列のうち、n個の形態素からなる配列(以下「n次の部分特徴ベクトル」という)同士を比較していく。一致した場合には、n個の形態素が一致することになる。
【0021】
一の文書から得られた特徴ベクトルと他の文書から得られた特徴ベクトルとをn個ごとに比較する場合には、まず、一の文書からN個の形態素からなる特徴ベクトルのうち、1番目からn番目までのn個の形態素からなる配列、すなわちn次の部分特徴ベクトルを選択し、他の文書から得られたM個の形態素(Mはn以上の自然数)からなる特徴ベクトルのn次の部分特徴ベクトルと比較を行う。この場合、一致する場合には、n個の形態素が一致したことになる。同様に、一の文書から得られた特徴ベクトルの2番目からn+1番目の形態素からなる部分特徴ベクトル、・・・、N−n+1番目からN番目の形態素からなる部分特徴ベクトルのそれぞれについて他の文書から得られた特徴ベクトルとの比較、照合を順次行っていく。
【0022】
このように部分特徴ベクトルを単位として比較、照合を行うことにより、重複度に文脈や表現の共通性を反映させることができる。
また、n個の部分特徴ベクトルについて比較、照合の結果、二つの文書間に一致するものが存在しなかった場合は、部分特徴ベクトルの次数nを1だけ減じた上で、(n−1)次の部分特徴ベクトルについて、上述したアルゴリズムに従って再度比較、照合を行う。このように一致する部分特徴ベクトルが見つかるか、またはn=1となるまでnの値を減じながら、比較、照合を繰り返す。
上述したように本実施の形態によれば、部分特徴ベクトルの次数を段階的に変えて二つの文書を比較、照合するため、最大の次数で一致する場合は、文書の文脈や意味内容を考慮した結果が得られることになる。また、最低の次数でも比較することが可能なので、少なくとも、キーワードによる検索と同じレベルの検索結果を得ることができる。このように、本実施の形態にかかる文書管理装置1は、とても柔軟性のある検索方法を採用している。
【0023】
図4は、特徴ベクトルの比較の様子を示す図である。例えば、図4に示すように、「私は花が好き」という文字列を有する一の文書の特徴ベクトル▲1▼(N=5)と、「花が好き」という文字列を有する他の文書の特徴ベクトル▲2▼(M=3)とを比較する場合について考えてみる。
形態素を1つ1つ比較する(すなわちn=1)場合は、形態素ごと、すなわち一語ずつ比較する(丸付番号11〜15に対応)ので、二つの文書に共通な形態素「花」、「が」、「好き」のそれぞれについて一致し(丸付番号13、14、15)、共通の形態素の数が3つということになる。
【0024】
一方、所定の数ごとに比較する場合は、例えば、一の文書の特徴ベクトル▲1▼全体を単位に(この場合、n=N=5)比較、照合を行うことも考えられる。この場合、一の文書の特徴ベクトル▲1▼全体は他の文書の特徴ベクトル▲2▼には存在しないので、一の文書の特徴ベクトル▲1▼から抽出する部分特徴ベクトルの次数をn=4として、比較、照合を行う(丸付番号2、3)。そして、n=3とした場合、特徴ベクトル▲1▼から得られる3次の部分特徴ベクトル{「私」、「は」、「花」}、{「は」、「花」、「が」}、{「花」、「が」、「好き」}についてこの順に特徴ベクトル▲2▼と照合を行う(丸付番号4、5、6)。この場合、部分特徴ベクトル{「花」、「が」、「好き」}(丸付番号6)が他の文書の特徴ベクトル▲2▼全体と一致し、これ以外には一致する特徴ベクトルは存在しないので、比較、照合を終了し、共通の形態素数は3となる。
【0025】
次いで、カウントされた二つの文書間に共通する形態素の数を、一の文書から得られた形態素の総数で除し、この商が重複度となる。例えば、上述した図4の場合について重複度を算出してみると、特徴ベクトル▲1▼の形態素数が5、特徴ベクトル▲2▼の形態素数が3、共通の形態素が3なので、特徴ベクトル▲1▼から特徴ベクトル▲2▼を比較した場合の重複度は3/5となり、特徴ベクトル▲2▼から特徴ベクトル▲1▼を比較した場合の重複度は3/3すなわち1となる。
【0026】
なお、本実施の形態においては、出現順に形態素を配列したものを各文書の特徴ベクトルとした。また、所定の数ごとに比較する場合として、所定の数nの初期値をn=Nとして比較、照合を行うように説明したが、この初期値nは任意に設定することができる。
【0027】
類似度算出部14は、重複度算出部13が算出した重複度に基づいて、二つの文書間の類似度を算出し、これを文書DB18に記録する。類似度とは、二つの文書の内容が共通性を有するか否かを示す指標のことを意味する。このような類似度は、2項関係として表現することができる。この類似度の算出にあたって、類似度算出部14は、重複度算出部13が算出した重複度が所定の閾値以上の場合は二つの文章は類似するものとして類似度1を与え、閾値に及ばない場合は類似していないものとして類似度0を与える。
例えば、図4に示した特徴ベクトル▲1▼と特徴ベクトル▲2▼との場合、閾値を0.7とすると、特徴ベクトル▲1▼から特徴ベクトル▲2▼を比較した場合の重複度は3/5すなわち0.6であるため、類似度は0となる。同様に、特徴ベクトル▲2▼から特徴ベクトル▲1▼を比較した場合の重複度は1であるため、類似度は1となる。
このようにして算出された類似度は、二つの文書データ間の2項関係(グラフ)として表すことができる。複数の文書データ間の類似度は、例えば図5に示すような特徴ベクトル同士、すなわち文書データ同士の類似度を表すマトリックスとしても表現することができる。
【0028】
可視化部15は、文書DB18に記録されている類似度に基づいて、I/F11が受信した一の文書データと文書DB18に格納されている他の文書データとの関係を示す可視化データを生成し、I/F11を介して表示装置に送出する。可視化データとしては、例えばマトリックス、または文書データを表すノードと、このノードを結ぶリンクとからなる2項グラフ等のデータが挙げられる。ここで、図5は、類似度をマトリックス表示した図、図6は、2項グラフを表す図である。図6において、ノード6aとノード6bに対応する文書データの相互の類似度が1である場合、図6(a)に示すように、ノード6a、6bはリンク7aで結ばれる。一方、ノード6cとノード6dに対応する文書データの少なくとも一方の類似度が0の場合、図6(b)に示すように、ノード6cとノード6dはリンクで結ばれない。
【0029】
抽出部16は、類似度算出部14が算出した類似度に基づいて、一の文書データと類似する他の文書データを文書DB18から抽出し、I/F11を介して外部に送出する。なお、抽出部16は、一の文書データに類似する他の文書データのみならず、この他の文書データに類似する他の文書データも抽出するようにしてもよい。
【0030】
設定部17は、類似度算出部14が類似度を算出するのに用いる閾値の設定変更を行う。このように設定部17により閾値の設定を変更すると、類似度算出部14が算出する類似度の値が変化するため、抽出部16が抽出する文書データも変化し、さらに抽出部16が抽出する文書データも変化する。
【0031】
文書DB(Data Base)18は、I/F11を介して外部から受信した一の文書データと、この文書データから形態素解析部12により生成された特徴ベクトルとを対応づけて記録する。また、文書DB18は、一の文書データと他の文書データとの重複度および類似度を記録する。
【0032】
次に、本実施の形態にかかる文書管理装置1を、ビルメンテナンス等の報告文書に適用した場合について説明する。
図7は本実施の形態にかかる文書管理装置1を適用したシステムの図、図8は本実施の形態にかかる文書管理装置1の動作を示すフローチャート、図9は文書データを可視化した場合における質問事項と回答事項との関係を説明する図である。
ここで、報告文書には、状況と結果、質問と回答など、関係づけられた二つの事項が含まれていると考えることができる。便宜上、状況や質問等に対応する事項を質問事項、結果や回答等に対応する事項を回答事項ということにする。したがって、質問事項を含む文書と類似度を有する文書を抽出すれば、抽出された文書には、前記質問事項に対する回答事項が含まれていることが期待できる。
【0033】
図7に示すシステムにおいて、文書管理装置1の文書DB18には、第1の文書データとしての過去に作成された複数の報告文書とそれらの特徴ベクトルとが対応づけられて記録されており、さらにはこれらの文書データ間の重複度または類似度が記録されている。
また、文書管理装置1は、ネットワーク2を介して、メンテナンス等を行う利用者の端末装置3と接続されている。
ネットワーク2は、LAN、WANまたはインターネット等の各種ネットワークや通信回線等からなり、文書管理装置1と端末装置3とを接続し、これらの間の各種情報の送受信を可能にする。このようなネットワーク2には、端末装置3を複数接続することができる。
端末装置3は、表示装置を備えた公知のコンピュータやPDA(Personal DigitalAssistant)等からなり、ネットワーク2を介して報告書等の文書データおよび可視化データの送受信を行い、文書データおよび可視化データを表示装置に表示する。
【0034】
端末装置3より、報告書等の第2の文書データを受信すると(ステップS801)、文書管理装置1は、受信した文書データを文書DB18に記録する。
【0035】
次に、文書管理装置1は、形態素解析部12により、端末装置3から受信した第2の文書データの特徴ベクトルを生成する(ステップS802)。この生成された特徴ベクトルは、この特徴ベクトルの元となる文書データと対応づけて文書DB18に記録される。
このように、端末装置3から入力された文書データとこの文書データに基づいて生成される特徴ベクトルは、外部から文書データが入力されるたびに文書DB18に格納される。
【0036】
端末装置3から入力された第2の文書データ(一の文書データ)の特徴ベクトルを生成すると、文書管理装置1は、重複度算出部13により、その特徴ベクトルと文書DB18に格納されている複数の第1の文書データ(他の文書データ)の特徴ベクトルそれぞれとの重複度を算出する(ステップS803)。この算出した重複度は、文書DB18に記録してもよい。この場合、一の文書データおよび他の文書データ相互間の重複度は、例えばマトリックスのような形態で表現することができる。
【0037】
重複度を算出すると、文書管理装置1は、類似度算出部14により、その重複度と予め設定された閾値に基づいて一の文書データと複数の他の文書データそれぞれとの類似度を算出する(ステップS804)。この算出した類似度は、文書DB18に記録してもよい。この場合、一の文書データおよび他の文書データ相互間の類似度は、例えばマトリックスのような形態で表現することができる。
【0038】
類似度が算出されると、文書管理装置1は、可視化部15により、その類似度に基づいて文書データの可視化データを作成する(ステップS805)。なお、可視化データとしては、例えば図9(a)に示すような2項グラフ等が挙げられる。
【0039】
図9(a)において、リンクで結ばれているノードに対応する文書データ同士は互いに対して類似度が1であり、リンクで結ばれていないノードに対応する文書データ同士は互いまたは一方が類似度が0であることを意味する。例えば、ノード6bは、リンク7a、7bによりノード6a、6cと結ばれているので、ノード6a、6cと互いに類似度が1であることがわかる。一方、ノード6aとノード6cは、リンクで結ばれていないので、互いまたはどちらか一方が類似度が0であるということになる。
ここで、新規に入力された一の文書データがノード6dに対応するとすると、ノード6dは、図9(a)において点線で示すように、ノード6aとリンク、すなわち類似度を有することがわかる。
【0040】
なお、可視化データは、多数のノードと接続されているノードや複数のノードが複雑に接続されているノードの集合体等に、これらのノードの文書データに共通する代表値やキーワード等を併せて表示するようにしてもよい。これにより、利用者は、ノードの集合体の特徴を一目で確認することができる。
また、可視化データは、3次元のグラフィックデータとすることもできる。これにより、ノードの接続の様子をより正確に詳しく表示することができる。
【0041】
ここで、文書管理装置1は、作成した可視化データを、必要に応じてI/F11およびネットワーク2を介して、端末装置3に送出するようにしてもよい。
【0042】
次に、文書管理装置1は、一の文書データに類似する他の文書データを抽出する(ステップS807)。例えば、図9に示すように、ノード6dで表される一の文書データが入力された場合、文書管理装置1は、ノード6dと類似するノード6aで表される文書データを文書DB18から抽出する。
【0043】
さらに、文書管理装置1は、類似度に関し、任意の距離を有する他の文書データを抽出してもよい。ここで、「類似度に関する距離」とは、例えば、複数の文書データの類似度を2項グラフで表現したとき、一の文書データから他の文書データに到達するまでのパスを類似度で重みづけした値の合計である。本実施の形態においては、類似度を”1”または”0”で表しているので、例えば一の文書データと他の文書データとが直接類似度を有する場合は、その距離は1、一の文書データとは直接類似度を有しないものの、この一の文書データと類似度を有する他の文書データとは類似度を有する文書データは、上記一の文書データとの距離が2ということになる。本実施の形態において、文書データの抽出における類似度に関し、距離を2と設定して、一の文書データ(ノード6d)と類似度を有する他の文書データ(ノード6a)とに類似する他の文書データ(ノード6c)を文書DB18から抽出するようにしてもよい。さらに距離を増大させ抽出対象範囲を拡大すれば、図9においては、ノード6bで表される文書データが回答事項を有しない場合でも、文書管理装置1は、ノード6bに類似度を有するノード6cで表される文書データ(回答事項を含む)を文書DB18から抽出することができる。
このようにすることにより、本実施の形態にかかる文書管理装置1は、入力された質問事項を含む文書データに直接類似(関連)する文書データに回答事項が含まれていない場合であっても、間接的に類似(関連)する文書データを抽出することもできるので、同様の不具合等が発生した過去の対応策に関するデータを効果的に広範囲から抽出することができる。
【0044】
文書データを抽出すると、文書管理装置1は、その文書データをI/F11およびネットワーク2を介して、端末装置3に送出する(ステップS808)。
【0045】
上述したように、本実施の形態にかかる文書管理装置1は、キーワード等を選定する必要がなく、報告書等の質問事項と回答事項のうち少なくとも一方を含む文書データを入力するだけで、その文書データに類似する文書データが抽出されるため、とても使い勝手がよい。
【0046】
なお、ステップS804において、閾値は、設定部17により適宜自由に変更することができるようにしてもよい。例えば、端末装置3に可視化データを表示した際に、リンクが多すぎるまたは少なすぎるために文書データの類似関係が把握しづらい場合に、閾値を適宜変更することにより、可視化データを見やすくし、文書データ間の類似関係を容易に把握できるようにすることができる。また、抽出された回答データが多すぎるまたは少なすぎる場合に、閾値を適宜変更することにより、適当な数量の文書データを得られるようにすることもできる。
【0047】
【発明の効果】
以上説明したように、本発明によれば、新たに入力された一の文書データと、他の文書データとの重複度を算出し、この重複度と閾値から類似度を算出し、所定の値以上の類似度を有する他の文書データが抽出されるので、キーワード等の所定の条件を入力することなく、文書データを入力するという簡便な操作のみで、類似する文書データを抽出することができる。
また、本発明によれば、重複度および類似度を算出し、これらから文書の類似が類似しているか否かを判断するため、文書の文脈や文意が類似した文書を抽出することができる。
【図面の簡単な説明】
【図1】本実施の形態にかかる文書管理装置の構成を示すブロック図である。
【図2】形態素解析の様子を示す図である。
【図3】形態素の配列の様子を示す図である。
【図4】特徴ベクトルの比較の様子を示す図である。
【図5】類似度をマトリックス表示した図
【図6】2項グラフを表す図である。
【図7】本実施の形態にかかる文書管理装置1を適用したシステムの図である。
【図8】本実施の形態にかかる文書管理装置1の動作を示すフローチャートである。
【図9】文書データを可視化した場合における質問事項と回答事項との関係を説明する図である。
【符号の説明】
1…文書管理装置、2…ネットワーク、3…端末装置、6a〜6d…ノード、7、7a、7b…リンク、11…I/F、12…形態素解析部、13…重複度算出部、14…類似度算出部、15…可視化部、16…抽出部、17…設定部、18…文書DB。
Claims (11)
- 複数の第1の文書データを記録した第1の記録手段と、
文書データを形態素解析する形態素解析手段と、
新たに入力された第2の文書データの形態素と前記第1の記録手段に記録された前記第1の文書データの形態素とから、前記第2の文書データと前記第1の文書データそれぞれとの重複度を求める重複度算出手段と、
前記第1の文書データの中から前記第2の文書データと所定の値以上の重複度を有する文書データを抽出する抽出手段と
を備えたことを特徴とする文書管理装置。 - 請求項1記載の文書管理装置において、
前記重複度と閾値から二つの文書データの類似度を算出する類似度算出手段と、
複数の前記第1の文書データ間の重複度と類似度のうち少なくとも一方を記録した第2の記録手段と
をさらに備え、
前記抽出手段は、前記第1の文書データの中から少なくとも前記第2の文書データと直接類似度を有する第1の文書データを抽出する
ことを特徴とする文書管理装置。 - 請求項2記載の文書管理装置において、
前記抽出手段は、前記第2の文書データと前記類似度に関して任意の距離を有する第1の文書データを抽出する
ことを特徴とする文書管理装置。 - 請求項1ないし3の何れか1項に記載の文書管理装置において、
前記重複度算出手段は、前記第1の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記第2の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出する
ことを特徴とする文書管理装置。 - 請求項4記載の文書管理装置において、
前記重複度算出手段は、前記第1の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記第2の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、前記一部分に含まれる形態素の数を減らし、再度比較を行う
ことを特徴とする文書管理装置。 - 請求項1ないし5の何れか1項に記載の文書管理装置において、
前記閾値を設定する設定手段
をさらに備えたことを特徴とする文書管理装置。 - 入力された一の文書データを形態素解析する第1のステップと、
前記一の文書データの形態素と、形態素解析された複数の他の文書データそれぞれの形態素とから前記一の文書と前記他の文書との重複度を算出する第2のステップと、
前記他の文書データの中から前記一の文書データと所定の値以上の重複度と有する文書データを抽出する第3のステップと
を有することを特徴とする文書管理方法。 - 請求項7記載の文書管理方法において、
前記第3のステップは、
前記重複度と閾値から前記一の文書データと前記他の文書データそれぞれの類似度を算出するステップと、
前記他の文書データの中から少なくとも前記一の文書データと直接類似度を有する文書データを抽出するステップと
を有することを特徴とする文書管理方法。 - 請求項8に記載の文書管理方法において、
前記一の文書データと前記類似度に関して任意の距離を有する前記他の文書データを抽出するステップ
をさらに有することを特徴とする文書管理方法。 - 請求項7ないし9の何れか1項に記載の文書管理方法において、
前記第2のステップは、前記一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記他の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出する
ことを特徴とする文書管理方法。 - 請求項10記載の文書管理装置において、
前記第2のステップは、前記一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記他の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、前記一部分に含まれる形態素の数を減らし、再度比較を行う
ことを特徴とする文書管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002335504A JP4025181B2 (ja) | 2002-11-19 | 2002-11-19 | 文書管理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002335504A JP4025181B2 (ja) | 2002-11-19 | 2002-11-19 | 文書管理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004171220A true JP2004171220A (ja) | 2004-06-17 |
JP4025181B2 JP4025181B2 (ja) | 2007-12-19 |
Family
ID=32699621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002335504A Expired - Fee Related JP4025181B2 (ja) | 2002-11-19 | 2002-11-19 | 文書管理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4025181B2 (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010092108A (ja) * | 2008-10-03 | 2010-04-22 | Fujitsu Ltd | 類似文章抽出プログラム、方法、装置 |
JP2010231444A (ja) * | 2009-03-26 | 2010-10-14 | Fujitsu Ltd | マルチメディア統合検索プログラム、方法及び装置 |
JP4758429B2 (ja) * | 2005-08-15 | 2011-08-31 | 株式会社ターボデータラボラトリー | 共有メモリ型マルチプロセッサシステム及びその情報処理方法 |
JP2020160869A (ja) * | 2019-03-27 | 2020-10-01 | 三菱ロジスネクスト株式会社 | 作業機械に対するサービスに係る文書作成システム |
CN112527952A (zh) * | 2019-09-18 | 2021-03-19 | 本田技研工业株式会社 | 文件比对系统 |
JP6982347B1 (ja) * | 2020-10-27 | 2021-12-17 | 和直 恩田 | コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 |
WO2023112101A1 (ja) * | 2021-12-13 | 2023-06-22 | ジーエイピー株式会社 | コンピュータ言語処理における文書抽出プログラムを記憶した非一時的記憶媒体、意味的に類似する文書抽出方法および言語処理装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6918030B2 (ja) * | 2019-01-11 | 2021-08-11 | 株式会社東芝 | 学習装置、学習方法、プログラムおよび情報処理システム |
-
2002
- 2002-11-19 JP JP2002335504A patent/JP4025181B2/ja not_active Expired - Fee Related
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4758429B2 (ja) * | 2005-08-15 | 2011-08-31 | 株式会社ターボデータラボラトリー | 共有メモリ型マルチプロセッサシステム及びその情報処理方法 |
JP2010092108A (ja) * | 2008-10-03 | 2010-04-22 | Fujitsu Ltd | 類似文章抽出プログラム、方法、装置 |
JP2010231444A (ja) * | 2009-03-26 | 2010-10-14 | Fujitsu Ltd | マルチメディア統合検索プログラム、方法及び装置 |
JP2020160869A (ja) * | 2019-03-27 | 2020-10-01 | 三菱ロジスネクスト株式会社 | 作業機械に対するサービスに係る文書作成システム |
CN112527952A (zh) * | 2019-09-18 | 2021-03-19 | 本田技研工业株式会社 | 文件比对系统 |
CN112527952B (zh) * | 2019-09-18 | 2024-04-30 | 本田技研工业株式会社 | 文件比对系统 |
JP6982347B1 (ja) * | 2020-10-27 | 2021-12-17 | 和直 恩田 | コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 |
JP2022070720A (ja) * | 2020-10-27 | 2022-05-13 | 和直 恩田 | コンピュータ言語処理における文書抽出プログラム、意味的に類似する文書抽出方法および言語処理装置 |
WO2023112101A1 (ja) * | 2021-12-13 | 2023-06-22 | ジーエイピー株式会社 | コンピュータ言語処理における文書抽出プログラムを記憶した非一時的記憶媒体、意味的に類似する文書抽出方法および言語処理装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4025181B2 (ja) | 2007-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11651279B2 (en) | LAT based answer generation using anchor entities and proximity | |
US10664757B2 (en) | Cognitive operations based on empirically constructed knowledge graphs | |
US9621601B2 (en) | User collaboration for answer generation in question and answer system | |
Mooney et al. | Sequential pattern mining--approaches and algorithms | |
US10332012B2 (en) | Knowledge driven solution inference | |
US20160196336A1 (en) | Cognitive Interactive Search Based on Personalized User Model and Context | |
US9189542B2 (en) | Evidence profiling | |
US9535980B2 (en) | NLP duration and duration range comparison methodology using similarity weighting | |
US20160196313A1 (en) | Personalized Question and Answer System Output Based on Personality Traits | |
US10783179B2 (en) | Automated article summarization, visualization and analysis using cognitive services | |
WO2021139343A1 (zh) | 基于自然语言处理的数据分析方法、装置和计算机设备 | |
CN110851584B (zh) | 一种法律条文精准推荐系统和方法 | |
Burdisso et al. | τ-SS3: A text classifier with dynamic n-grams for early risk detection over text streams | |
US20190391976A1 (en) | Research and development auxiliary system using patent database and method thereof | |
US8140464B2 (en) | Hypothesis analysis methods, hypothesis analysis devices, and articles of manufacture | |
JP4025181B2 (ja) | 文書管理装置 | |
Quemy et al. | ECHR-OD: On building an integrated open repository of legal documents for machine learning applications | |
US20230081891A1 (en) | System and method of managing knowledge for knowledge graphs | |
CN113779981A (zh) | 一种基于指针网络和知识图谱的推荐方法及装置 | |
Hamad et al. | Emotion and polarity prediction from Twitter | |
Yang et al. | Optimizing knowledge graphs through voting-based user feedback | |
CN114625843B (zh) | 基于知识图谱的查询方法及装置 | |
CN115374108B (zh) | 一种基于知识图谱技术的数据标准生成与自动映射方法 | |
AGARWA | SENTIMENT ANALYSIS USING DEEP LEARNING AND MACHINE LEARNING | |
JP4025180B2 (ja) | 文書管理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070515 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070814 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071004 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4025181 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131012 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |