JP4025181B2 - Document management device - Google Patents

Document management device Download PDF

Info

Publication number
JP4025181B2
JP4025181B2 JP2002335504A JP2002335504A JP4025181B2 JP 4025181 B2 JP4025181 B2 JP 4025181B2 JP 2002335504 A JP2002335504 A JP 2002335504A JP 2002335504 A JP2002335504 A JP 2002335504A JP 4025181 B2 JP4025181 B2 JP 4025181B2
Authority
JP
Japan
Prior art keywords
document data
document
degree
similarity
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002335504A
Other languages
Japanese (ja)
Other versions
JP2004171220A (en
Inventor
真望 木幡
英治 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Azbil Corp
Original Assignee
Azbil Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Azbil Corp filed Critical Azbil Corp
Priority to JP2002335504A priority Critical patent/JP4025181B2/en
Publication of JP2004171220A publication Critical patent/JP2004171220A/en
Application granted granted Critical
Publication of JP4025181B2 publication Critical patent/JP4025181B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、作成された文書データを再利用する文書管理装置および方法に関し、より詳しくは、形態素解析の結果を利用して文書データを再利用する文書管理装置および方法に関する。
【0002】
【従来の技術】
文書の分類および管理は、学問、技術または経済等の各種分野において、仕事の効率化を図るに際し、欠かせない事項である。例えば、ビルやプラントなどの設備管理の場合、特にメンテナンスに関する報告書は、過去に発生した何かの不具合に加え、その不具合への対応策は記載されていることが多い。したがって、新たに発生した不具合と同等の事項が記載されている過去の報告書を検索できれば、この報告書を参考にして処置を執ることができる。このため、従来より、所望の文書の検索を効率よく行うべく、文書の分類および管理に関する種々の発明がされている。
【0003】
例えば、検索条件に関連した記述を文書中から検索する発明(特許文献1参照)、予め条件、項目、閾値等を入力し、これらの条件に適合する文書を検索する発明(特許文献2参照)、検索キーと検索対象文書の類似度を、検索キーおよび検索対象文書内での単語の重要度と関連度を用いて計算し、これらの重要度と関連度に基づいて文書の検索を行う発明(特許文献3参照)などがある。
【0004】
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
【0005】
【特許文献1】
特開平11−45254号公報
【特許文献2】
特開2001−337991号公報
【特許文献3】
特開2000−124041号公報
【0006】
【発明が解決しようとする課題】
しかしながら、上述したような方法は、何れも文書の文脈や意味内容を考慮して文書を検索したものとはいえず、また検索条件を入力しなければ所望の文書等を検索することができなかった。例えば、特許文献1に記載された発明では、検索条件を入力しなければならず、検索結果として出力されるのは特定の記述のみである。また、特許文献2に記載された発明では、予め条件、項目、閾値を入力しなければ、これらの条件等に類似する文書を検索することができない。緊急を要する場合や経験が少ない者にとって、所望する文書等を検索する際、その文書の特徴を単なるキーワードで表現することは困難である。また、文書とは、一般的に文脈や単語の配列および構成等に、文書作成者の意図や思想が色濃く反映されるものであり、単なるキーワードのみでその文書全体を特徴づけるのは、容易ではない。したがって、上述したような従来の方法では、文書作成者の文意の文脈や意味内容に沿って、簡便に文書を検索することが困難であった。
さらに、特許文献3に記載された発明では、部分グラフとしてマッチングしないときは何も検索結果が得られないという文書検索システムとして致命的な問題点がある。
そこで、本発明は、上述したような課題を解決するためになされたものであり、文書の文脈や意味内容を反映させて、類似する文書を容易に抽出することができる文書管理装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
上述したような課題を解決するために本発明にかかる文書管理装置は、複数の第1の文書データを記録した第1の記録手段と、文書データを形態素解析する形態素解析手段と、新たに入力された第2の文書データの形態素と第1の記録手段に記録された第1の文書データの形態素とから、第2の文書データと第1の文書データそれぞれとの重複度を求める重複度算出手段と、第1の文書データの中から第2の文書データと所定の値以上の重複度を有する文書データを抽出する抽出手段とを備えたことを特徴とする。この文書管理装置によれば、文書データを入力するだけで、この文書データと所定の値以上の重複度を有する文書データが抽出される。
【0008】
また、上記文書管理装置において、重複度と閾値から二つの文書データの類似度を算出する類似度算出手段と、複数の第1の文書データ間の重複度と類似度のうち少なくとも一方を記録した第2の記録手段とをさらに備え、抽出手段は、第1の文書データの中から少なくとも第2の文書データと直接類似度を有する第1の文書データを抽出するようにしてもよい。この文書管理装置によれば、入力した文書データと直接類似度を有する文書データが抽出される。
【0009】
上記文書管理装置において、抽出手段は、第2の文書データと類似度に関して任意の距離を有する第1の文書データを抽出するようにしてもよい。
また、上記文書管理装置において、重複度算出手段は、第1の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、第2の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出するようにしてもよい。
さらに、上記文書管理装置において、重複度算出手段は、第1の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、第2の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、一部分に含まれる形態素の数を減らし、再度比較を行うようにしてもよい。
【0010】
上記文書管理装置において、閾値を設定する設定手段をさらに備えるようにしてもよい。
【0011】
また、参考例にかかる文書管理方法は、入力された一の文書データを形態素解析する第1のステップと、一の文書データの形態素と、形態素解析された複数の他の文書データそれぞれの形態素とから一の文書と他の文書との重複度を算出する第2のステップと、他の文書データの中から一の文書データと所定の値以上の重複度と有する文書データを抽出する第3のステップとを有することを特徴とする。
【0012】
上記文書管理方法において、第3のステップは、重複度と閾値から一の文書データと他の文書データそれぞれの類似度を算出するステップと、他の文書データの中から少なくとも一の文書データと直接類似度を有する文書データを抽出するステップとをさらに有するようにしてもよい。
また、上記文書管方法において、一の文書データと類似度に関して任意の距離を有する他の文書データを抽出するステップをさらに有するようにしてもよい。
【0013】
上記文書管理方法において、第2のステップは、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出するようにしてもよい。
上記文書管理方法において、第2のステップは、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、一部分に含まれる形態素の数を減らし、再度比較を行うようにしてもよい。
【0014】
【発明の実施の形態】
以下、図面を参照して、本発明の実施の形態について詳細に説明する。
図1は、本実施の形態にかかる文書管理装置の構成を示すブロック図である。本実施の形態にかかる文書管理装置1は、CPU等の演算装置、メモリ、HDD等の記憶装置、外部との情報の送受を行うI/F装置、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)またはFED(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムおよび電子辞書とから構成される。上記ハードウェア装置がプログラムによって制御される、すなわちハードウェア資源とソフトウェアが協働することによって、文字列からなる文書データに対して形態素解析を行う形態素解析部12と、二つの文書データの形態素を比較することにより重複度を算出する重複度算出部13と、重複度と閾値に基づいて類似度を算出する類似度算出部14と、文書データ間の関係を表示手段に表示させるデータを生成する可視化部15と、文書データを抽出する抽出部16と、閾値を設定する設定部17とが実現される。記憶装置は、文書データ等を格納する文書データベース(文書DB)18を有する。
【0015】
ここで、文書データとは、文書、すなわち文字列を含むデータをいうものとする。この文書データは、例えばフレキシブルディスク等の記録媒体を介して、または、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット等の各種ネットワークや通信回線等を通じて供給され、外部より文書管理装置1に入力された文書データはI/F11を介して文書DB18に記憶される。
【0016】
形態素解析部12は、文書データ、より具体的には文書データに含まれる文字列を形態素解析し、文書データに含まれる文字列を単語とその単語の品詞からなる形態素に分解する。ここで、図2は、形態素解析の様子を示す図である。例えば、「私は花が好き」という文字列を形態素解析すると、図2に示すように、「私」、「は」、「花」、「が」、「好き」という単語と、これらの単語の品詞とから構成される形態素に分解することができる。形態素解析部12は、このようにして得られた複数の形態素を所定の順序で配列する。この文書データごとに得られた形態素の配列を、便宜上、特徴ベクトルということにする。
【0017】
ここで、特徴ベクトルにおける形態素の配列は、文書データにおける出現順としてもよいし、または出現頻度順としてもよい。図3は、特徴ベクトル、すなわち形態素の配列の様子を示す図である。例えば、図3に示すように、「明日、山武の藤沢工場で午後1時から打ち合わせ。山武の担当者は、村上様と木幡様。山武の藤沢工場は、藤沢駅から徒歩10分。」という文字列を形態素に分解し、出現順に配列する場合は、各形態素は元の文字列の配列にしたがって配列される。出現順に形態素を配列した場合は、元の文書データの単語の配列通りに形態素も配列されるので、文章の流れを重視した特徴ベクトルが生成される。
本実施の形態において、特徴ベクトルを生成するにあたっては、形態素を出現順に配列するが、出現頻度順に配列する場合は、文字列の中で出現頻度が高い形態素の順に配列する。図3の場合は、「山武」、「の」、「藤沢」という3つの単語が3回ずつ出現しているので、この3つの単語を含む形態素から配列することになる。なお、出現回数が同じ形態素は、出現順に配列する。このように出現頻度順に形態素を配列する場合は、出現頻度の高い形態素から配列されるので、文章のテーマや内容が重視された特徴ベクトルが生成される。
【0018】
上述した形態素解析部12により生成された特徴ベクトルは、文書データと対応づけられて文書DB18に記録される。したがって、文書DB18に既に記録されている文書データ(第1の文書データ)に対しては、それぞれの特徴ベクトルが生成され、記録されている。
【0019】
重複度算出部13は、形態素解析部12により生成された一の文書データ(第2の文書データ)の特徴ベクトルと、文書DB18に格納されている他の文書データ(第1の文書データ)の特徴ベクトルとの重複度を算出し、例えば一の文書データと他の文書データとの関係を示すマトリックスのような形態で文書DB18に記録する。この重複度とは、二つの文書間に共通する形態素がどの程度存在するかを数値化したものであり、より厳密には、一の文書から他の文書を見たときに、一の文書より得られた全形態素に対し他の文書より得られた形態素と一致する形態素の割合のことをいう。この重複度の算出方法について、以下に説明する。
【0020】
まず、特徴ベクトルを二つの文書間で比較し、共通する形態素の数をカウントする。このとき、特徴ベクトル同士を比較するにあたっては、形態素を1つ1つ比較してもよいし、所定の数ごとに比較してもよい。所定の数ごとに比較するとは、換言するならば、特徴ベクトルの所定の順序で配列されたN個(Nは2以上の自然数)の形態素の全部または一部分を単位に比較を行うことである。例えば、所定の数をn(nは2以上N以下の任意の自然数)とすると、特徴ベクトルを構成する形態素の配列のうち、n個の形態素からなる配列(以下「n次の部分特徴ベクトル」という)同士を比較していく。一致した場合には、n個の形態素が一致することになる。
【0021】
一の文書から得られた特徴ベクトルと他の文書から得られた特徴ベクトルとをn個ごとに比較する場合には、まず、一の文書からN個の形態素からなる特徴ベクトルのうち、1番目からn番目までのn個の形態素からなる配列、すなわちn次の部分特徴ベクトルを選択し、他の文書から得られたM個の形態素(Mはn以上の自然数)からなる特徴ベクトルのn次の部分特徴ベクトルと比較を行う。この場合、一致する場合には、n個の形態素が一致したことになる。同様に、一の文書から得られた特徴ベクトルの2番目からn+1番目の形態素からなる部分特徴ベクトル、・・・、N−n+1番目からN番目の形態素からなる部分特徴ベクトルのそれぞれについて他の文書から得られた特徴ベクトルとの比較、照合を順次行っていく。
【0022】
このように部分特徴ベクトルを単位として比較、照合を行うことにより、重複度に文脈や表現の共通性を反映させることができる。
また、n個の部分特徴ベクトルについて比較、照合の結果、二つの文書間に一致するものが存在しなかった場合は、部分特徴ベクトルの次数nを1だけ減じた上で、(n−1)次の部分特徴ベクトルについて、上述したアルゴリズムに従って再度比較、照合を行う。このように一致する部分特徴ベクトルが見つかるか、またはn=1となるまでnの値を減じながら、比較、照合を繰り返す。
上述したように本実施の形態によれば、部分特徴ベクトルの次数を段階的に変えて二つの文書を比較、照合するため、最大の次数で一致する場合は、文書の文脈や意味内容を考慮した結果が得られることになる。また、最低の次数でも比較することが可能なので、少なくとも、キーワードによる検索と同じレベルの検索結果を得ることができる。このように、本実施の形態にかかる文書管理装置1は、とても柔軟性のある検索方法を採用している。
【0023】
図4は、特徴ベクトルの比較の様子を示す図である。例えば、図4に示すように、「私は花が好き」という文字列を有する一の文書の特徴ベクトル▲1▼(N=5)と、「花が好き」という文字列を有する他の文書の特徴ベクトル▲2▼(M=3)とを比較する場合について考えてみる。
形態素を1つ1つ比較する(すなわちn=1)場合は、形態素ごと、すなわち一語ずつ比較する(丸付番号11〜15に対応)ので、二つの文書に共通な形態素「花」、「が」、「好き」のそれぞれについて一致し(丸付番号13、14、15)、共通の形態素の数が3つということになる。
【0024】
一方、所定の数ごとに比較する場合は、例えば、一の文書の特徴ベクトル▲1▼全体を単位に(この場合、n=N=5)比較、照合を行うことも考えられる。この場合、一の文書の特徴ベクトル▲1▼全体は他の文書の特徴ベクトル▲2▼には存在しないので、一の文書の特徴ベクトル▲1▼から抽出する部分特徴ベクトルの次数をn=4として、比較、照合を行う(丸付番号2、3)。そして、n=3とした場合、特徴ベクトル▲1▼から得られる3次の部分特徴ベクトル{「私」、「は」、「花」}、{「は」、「花」、「が」}、{「花」、「が」、「好き」}についてこの順に特徴ベクトル▲2▼と照合を行う(丸付番号4、5、6)。この場合、部分特徴ベクトル{「花」、「が」、「好き」}(丸付番号6)が他の文書の特徴ベクトル▲2▼全体と一致し、これ以外には一致する特徴ベクトルは存在しないので、比較、照合を終了し、共通の形態素数は3となる。
【0025】
次いで、カウントされた二つの文書間に共通する形態素の数を、一の文書から得られた形態素の総数で除し、この商が重複度となる。例えば、上述した図4の場合について重複度を算出してみると、特徴ベクトル▲1▼の形態素数が5、特徴ベクトル▲2▼の形態素数が3、共通の形態素が3なので、特徴ベクトル▲1▼から特徴ベクトル▲2▼を比較した場合の重複度は3/5となり、特徴ベクトル▲2▼から特徴ベクトル▲1▼を比較した場合の重複度は3/3すなわち1となる。
【0026】
なお、本実施の形態においては、出現順に形態素を配列したものを各文書の特徴ベクトルとした。また、所定の数ごとに比較する場合として、所定の数nの初期値をn=Nとして比較、照合を行うように説明したが、この初期値nは任意に設定することができる。
【0027】
類似度算出部14は、重複度算出部13が算出した重複度に基づいて、二つの文書間の類似度を算出し、これを文書DB18に記録する。類似度とは、二つの文書の内容が共通性を有するか否かを示す指標のことを意味する。このような類似度は、2項関係として表現することができる。この類似度の算出にあたって、類似度算出部14は、重複度算出部13が算出した重複度が所定の閾値以上の場合は二つの文章は類似するものとして類似度1を与え、閾値に及ばない場合は類似していないものとして類似度0を与える。
例えば、図4に示した特徴ベクトル▲1▼と特徴ベクトル▲2▼との場合、閾値を0.7とすると、特徴ベクトル▲1▼から特徴ベクトル▲2▼を比較した場合の重複度は3/5すなわち0.6であるため、類似度は0となる。同様に、特徴ベクトル▲2▼から特徴ベクトル▲1▼を比較した場合の重複度は1であるため、類似度は1となる。
このようにして算出された類似度は、二つの文書データ間の2項関係(グラフ)として表すことができる。複数の文書データ間の類似度は、例えば図5に示すような特徴ベクトル同士、すなわち文書データ同士の類似度を表すマトリックスとしても表現することができる。
【0028】
可視化部15は、文書DB18に記録されている類似度に基づいて、I/F11が受信した一の文書データと文書DB18に格納されている他の文書データとの関係を示す可視化データを生成し、I/F11を介して表示装置に送出する。可視化データとしては、例えばマトリックス、または文書データを表すノードと、このノードを結ぶリンクとからなる2項グラフ等のデータが挙げられる。ここで、図5は、類似度をマトリックス表示した図、図6は、2項グラフを表す図である。図6において、ノード6aとノード6bに対応する文書データの相互の類似度が1である場合、図6(a)に示すように、ノード6a、6bはリンク7aで結ばれる。一方、ノード6cとノード6dに対応する文書データの少なくとも一方の類似度が0の場合、図6(b)に示すように、ノード6cとノード6dはリンクで結ばれない。
【0029】
抽出部16は、類似度算出部14が算出した類似度に基づいて、一の文書データと類似する他の文書データを文書DB18から抽出し、I/F11を介して外部に送出する。なお、抽出部16は、一の文書データに類似する他の文書データのみならず、この他の文書データに類似する他の文書データも抽出するようにしてもよい。
【0030】
設定部17は、類似度算出部14が類似度を算出するのに用いる閾値の設定変更を行う。このように設定部17により閾値の設定を変更すると、類似度算出部14が算出する類似度の値が変化するため、抽出部16が抽出する文書データも変化し、さらに抽出部16が抽出する文書データも変化する。
【0031】
文書DB(Data Base)18は、I/F11を介して外部から受信した一の文書データと、この文書データから形態素解析部12により生成された特徴ベクトルとを対応づけて記録する。また、文書DB18は、一の文書データと他の文書データとの重複度および類似度を記録する。
【0032】
次に、本実施の形態にかかる文書管理装置1を、ビルメンテナンス等の報告文書に適用した場合について説明する。
図7は本実施の形態にかかる文書管理装置1を適用したシステムの図、図8は本実施の形態にかかる文書管理装置1の動作を示すフローチャート、図9は文書データを可視化した場合における質問事項と回答事項との関係を説明する図である。
ここで、報告文書には、状況と結果、質問と回答など、関係づけられた二つの事項が含まれていると考えることができる。便宜上、状況や質問等に対応する事項を質問事項、結果や回答等に対応する事項を回答事項ということにする。したがって、質問事項を含む文書と類似度を有する文書を抽出すれば、抽出された文書には、前記質問事項に対する回答事項が含まれていることが期待できる。
【0033】
図7に示すシステムにおいて、文書管理装置1の文書DB18には、第1の文書データとしての過去に作成された複数の報告文書とそれらの特徴ベクトルとが対応づけられて記録されており、さらにはこれらの文書データ間の重複度または類似度が記録されている。
また、文書管理装置1は、ネットワーク2を介して、メンテナンス等を行う利用者の端末装置3と接続されている。
ネットワーク2は、LAN、WANまたはインターネット等の各種ネットワークや通信回線等からなり、文書管理装置1と端末装置3とを接続し、これらの間の各種情報の送受信を可能にする。このようなネットワーク2には、端末装置3を複数接続することができる。
端末装置3は、表示装置を備えた公知のコンピュータやPDA(Personal Digital Assistant)等からなり、ネットワーク2を介して報告書等の文書データおよび可視化データの送受信を行い、文書データおよび可視化データを表示装置に表示する。
【0034】
端末装置3より、報告書等の第2の文書データを受信すると(ステップS801)、文書管理装置1は、受信した文書データを文書DB18に記録する。
【0035】
次に、文書管理装置1は、形態素解析部12により、端末装置3から受信した第2の文書データの特徴ベクトルを生成する(ステップS802)。この生成された特徴ベクトルは、この特徴ベクトルの元となる文書データと対応づけて文書DB18に記録される。
このように、端末装置3から入力された文書データとこの文書データに基づいて生成される特徴ベクトルは、外部から文書データが入力されるたびに文書DB18に格納される。
【0036】
端末装置3から入力された第2の文書データ(一の文書データ)の特徴ベクトルを生成すると、文書管理装置1は、重複度算出部13により、その特徴ベクトルと文書DB18に格納されている複数の第1の文書データ(他の文書データ)の特徴ベクトルそれぞれとの重複度を算出する(ステップS803)。この算出した重複度は、文書DB18に記録してもよい。この場合、一の文書データおよび他の文書データ相互間の重複度は、例えばマトリックスのような形態で表現することができる。
【0037】
重複度を算出すると、文書管理装置1は、類似度算出部14により、その重複度と予め設定された閾値に基づいて一の文書データと複数の他の文書データそれぞれとの類似度を算出する(ステップS804)。この算出した類似度は、文書DB18に記録してもよい。この場合、一の文書データおよび他の文書データ相互間の類似度は、例えばマトリックスのような形態で表現することができる。
【0038】
類似度が算出されると、文書管理装置1は、可視化部15により、その類似度に基づいて文書データの可視化データを作成する(ステップS805)。なお、可視化データとしては、例えば図9(a)に示すような2項グラフ等が挙げられる。
【0039】
図9(a)において、リンクで結ばれているノードに対応する文書データ同士は互いに対して類似度が1であり、リンクで結ばれていないノードに対応する文書データ同士は互いまたは一方が類似度が0であることを意味する。例えば、ノード6bは、リンク7a、7bによりノード6a、6cと結ばれているので、ノード6a、6cと互いに類似度が1であることがわかる。一方、ノード6aとノード6cは、リンクで結ばれていないので、互いまたはどちらか一方が類似度が0であるということになる。
ここで、新規に入力された一の文書データがノード6dに対応するとすると、ノード6dは、図9(a)において点線で示すように、ノード6aとリンク、すなわち類似度を有することがわかる。
【0040】
なお、可視化データは、多数のノードと接続されているノードや複数のノードが複雑に接続されているノードの集合体等に、これらのノードの文書データに共通する代表値やキーワード等を併せて表示するようにしてもよい。これにより、利用者は、ノードの集合体の特徴を一目で確認することができる。
また、可視化データは、3次元のグラフィックデータとすることもできる。これにより、ノードの接続の様子をより正確に詳しく表示することができる。
【0041】
ここで、文書管理装置1は、作成した可視化データを、必要に応じてI/F11およびネットワーク2を介して、端末装置3に送出するようにしてもよい。
【0042】
次に、文書管理装置1は、一の文書データに類似する他の文書データを抽出する(ステップS807)。例えば、図9に示すように、ノード6dで表される一の文書データが入力された場合、文書管理装置1は、ノード6dと類似するノード6aで表される文書データを文書DB18から抽出する。
【0043】
さらに、文書管理装置1は、類似度に関し、任意の距離を有する他の文書データを抽出してもよい。ここで、「類似度に関する距離」とは、例えば、複数の文書データの類似度を2項グラフで表現したとき、一の文書データから他の文書データに到達するまでのパスを類似度で重みづけした値の合計である。本実施の形態においては、類似度を”1”または”0”で表しているので、例えば一の文書データと他の文書データとが直接類似度を有する場合は、その距離は1、一の文書データとは直接類似度を有しないものの、この一の文書データと類似度を有する他の文書データとは類似度を有する文書データは、上記一の文書データとの距離が2ということになる。本実施の形態において、文書データの抽出における類似度に関し、距離を2と設定して、一の文書データ(ノード6d)と類似度を有する他の文書データ(ノード6a)とに類似する他の文書データ(ノード6)を文書DB18から抽出するようにしてもよい。さらに距離を増大させ抽出対象範囲を拡大すれば、図9においては、ノード6bで表される文書データが回答事項を有しない場合でも、文書管理装置1は、ノード6bに類似度を有するノード6cで表される文書データ(回答事項を含む)を文書DB18から抽出することができる。
このようにすることにより、本実施の形態にかかる文書管理装置1は、入力された質問事項を含む文書データに直接類似(関連)する文書データに回答事項が含まれていない場合であっても、間接的に類似(関連)する文書データを抽出することもできるので、同様の不具合等が発生した過去の対応策に関するデータを効果的に広範囲から抽出することができる。
【0044】
文書データを抽出すると、文書管理装置1は、その文書データをI/F11およびネットワーク2を介して、端末装置3に送出する(ステップS808)。
【0045】
上述したように、本実施の形態にかかる文書管理装置1は、キーワード等を選定する必要がなく、報告書等の質問事項と回答事項のうち少なくとも一方を含む文書データを入力するだけで、その文書データに類似する文書データが抽出されるため、とても使い勝手がよい。
【0046】
なお、ステップS804において、閾値は、設定部17により適宜自由に変更することができるようにしてもよい。例えば、端末装置3に可視化データを表示した際に、リンクが多すぎるまたは少なすぎるために文書データの類似関係が把握しづらい場合に、閾値を適宜変更することにより、可視化データを見やすくし、文書データ間の類似関係を容易に把握できるようにすることができる。また、抽出された回答データが多すぎるまたは少なすぎる場合に、閾値を適宜変更することにより、適当な数量の文書データを得られるようにすることもできる。
【0047】
【発明の効果】
以上説明したように、本発明によれば、新たに入力された一の文書データと、他の文書データとの重複度を算出し、この重複度と閾値から類似度を算出し、所定の値以上の類似度を有する他の文書データが抽出されるので、キーワード等の所定の条件を入力することなく、文書データを入力するという簡便な操作のみで、類似する文書データを抽出することができる。
また、本発明によれば、重複度および類似度を算出し、これらから文書の類似が類似しているか否かを判断するため、文書の文脈や文意が類似した文書を抽出することができる。
【図面の簡単な説明】
【図1】 本実施の形態にかかる文書管理装置の構成を示すブロック図である。
【図2】 形態素解析の様子を示す図である。
【図3】 形態素の配列の様子を示す図である。
【図4】 特徴ベクトルの比較の様子を示す図である。
【図5】 類似度をマトリックス表示した図
【図6】 2項グラフを表す図である。
【図7】 本実施の形態にかかる文書管理装置1を適用したシステムの図である。
【図8】 本実施の形態にかかる文書管理装置1の動作を示すフローチャートである。
【図9】 文書データを可視化した場合における質問事項と回答事項との関係を説明する図である。
【符号の説明】
1…文書管理装置、2…ネットワーク、3…端末装置、6a〜6d…ノード、7、7a、7b…リンク、11…I/F、12…形態素解析部、13…重複度算出部、14…類似度算出部、15…可視化部、16…抽出部、17…設定部、18…文書DB。
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a document management apparatus and method for reusing created document data, and more particularly to a document management apparatus and method for reusing document data using a result of morphological analysis.
[0002]
[Prior art]
Document classification and management are indispensable items for improving work efficiency in various fields such as academic, technical or economic fields. For example, in the case of management of facilities such as buildings and plants, in particular, reports related to maintenance often describe countermeasures for the problems in addition to some problems that have occurred in the past. Therefore, if it is possible to search for a past report in which matters equivalent to the newly-occurring defect are described, it is possible to take action with reference to this report. For this reason, various inventions related to document classification and management have been made in order to efficiently search for a desired document.
[0003]
For example, an invention for searching a description related to a search condition from a document (see Patent Document 1), an invention for inputting a condition, an item, a threshold value, etc. in advance and searching for a document that meets these conditions (see Patent Document 2) The invention calculates the similarity between a search key and a search target document using the importance and relevance of words in the search key and the search target document, and searches the document based on these importance and relevance (See Patent Document 3).
[0004]
The applicant has not yet found prior art documents related to the present invention by the time of filing other than the prior art documents specified by the prior art document information described in this specification.
[0005]
[Patent Document 1]
JP 11-45254 A [Patent Document 2]
JP 2001-337991 A [Patent Document 3]
Japanese Patent Laid-Open No. 2000-124041
[Problems to be solved by the invention]
However, none of the above-described methods can be said to be a document searched in consideration of the context and meaning of the document, and a desired document or the like cannot be searched unless a search condition is input. It was. For example, in the invention described in Patent Document 1, a search condition must be input, and only a specific description is output as a search result. In the invention described in Patent Document 2, documents similar to these conditions cannot be searched unless conditions, items, and threshold values are input in advance. For urgent cases or those with little experience, it is difficult to express the characteristics of a document with a simple keyword when searching for a desired document. Documents generally reflect the intentions and ideas of the creator of the document in the context and word arrangement and composition, and it is not easy to characterize the entire document using only keywords. Absent. Therefore, in the conventional method as described above, it is difficult to easily search for a document in accordance with the context and meaning of the meaning of the document creator.
Furthermore, the invention described in Patent Document 3 has a fatal problem as a document search system in which no search result is obtained when there is no matching as a subgraph.
The present invention has been made to solve the problems as described above, to reflect the context or semantic content of the document, provide a document management equipment that the document to be similar can be extracted easily The purpose is to do.
[0007]
[Means for Solving the Problems]
In order to solve the above-described problems, a document management apparatus according to the present invention includes a first recording unit that records a plurality of first document data, a morpheme analysis unit that performs morphological analysis on the document data, and a new input Multiplicity calculation for determining the degree of overlap between the second document data and the first document data from the second document data morpheme and the first document data morpheme recorded in the first recording means Means, and extraction means for extracting document data having a degree of overlap equal to or greater than a predetermined value from the second document data from the first document data. According to this document management apparatus, simply by inputting document data, document data having a degree of overlap with the document data having a predetermined value or more is extracted.
[0008]
In the document management apparatus, the similarity calculation means for calculating the similarity between the two document data from the overlap and the threshold, and at least one of the overlap and the similarity between the plurality of first document data are recorded. A second recording unit, and the extracting unit may extract the first document data having a direct similarity to at least the second document data from the first document data. According to this document management apparatus, document data having a direct similarity with the input document data is extracted.
[0009]
In the document management apparatus, the extracting unit may extract the first document data having an arbitrary distance with respect to the similarity with the second document data.
In the document management apparatus, the duplication degree calculating means may include a part of a plurality of morphemes included in the first document data arranged in a predetermined order and a plurality of morphemes included in the second document data in a predetermined order. A part of the array may be compared with each other, and the degree of overlap may be calculated depending on whether or not they match.
Further, in the document management apparatus, the duplication degree calculating means includes a part of the plurality of morphemes of the first document data arranged in a predetermined order and a plurality of morphemes of the second document data in the predetermined order. If a part of the array is compared and these do not match, the number of morphemes contained in the part may be reduced and the comparison may be performed again.
[0010]
The document management apparatus may further include setting means for setting a threshold value.
[0011]
Further, document management method according to the reference example, a first step and, a morpheme of one document data, morphological analysis is a plurality of other document data each morpheme morphological analysis one of document data input And a second step of calculating the degree of duplication between one document and another document, and extracting document data having one document data and a degree of duplication greater than a predetermined value from other document data. These steps are included.
[0012]
In the document management method, the third step is a step of calculating similarity between one document data and another document data from the duplication degree and the threshold, and at least one document data directly from the other document data. A step of extracting document data having similarity.
The document management method may further include a step of extracting other document data having an arbitrary distance with respect to the similarity with the one document data.
[0013]
In the document management method, the second step includes a part of a plurality of morphemes of one document data arranged in a predetermined order and a part of a plurality of morphemes of other document data arranged in a predetermined order. And the degree of overlap may be calculated based on whether or not they match.
In the document management method, the second step includes a part of a plurality of morphemes of one document data arranged in a predetermined order and a part of a plurality of morphemes of other document data arranged in a predetermined order. If they do not match, the number of morphemes contained in a part may be reduced and the comparison may be performed again.
[0014]
DETAILED DESCRIPTION OF THE INVENTION
Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a block diagram showing the configuration of the document management apparatus according to this embodiment. The document management apparatus 1 according to the present embodiment includes an arithmetic device such as a CPU, a storage device such as a memory and an HDD, an I / F device that transmits / receives information to / from the outside, a CRT (Cathode Ray Tube), an LCD (Liquid Crystal). It comprises a computer equipped with a display device such as Display) or FED (Field Emission Display), and a program and an electronic dictionary installed in this computer. The hardware device is controlled by a program, that is, the hardware resource and the software cooperate, and the morphological analysis unit 12 that performs morphological analysis on the document data composed of character strings, A degree-of-duplication calculator 13 that calculates the degree of overlap by comparison, a degree-of-similarity calculator 14 that calculates the degree of similarity based on the degree of overlap and a threshold, and data that causes the display means to display the relationship between the document data are generated. A visualization unit 15, an extraction unit 16 that extracts document data, and a setting unit 17 that sets a threshold value are realized. The storage device has a document database (document DB) 18 that stores document data and the like.
[0015]
Here, the document data refers to a document, that is, data including a character string. This document data is supplied via a recording medium such as a flexible disk, or via various networks and communication lines such as a LAN (Local Area Network), a WAN (Wide Area Network), and the Internet, and the document management apparatus from the outside. The document data input to 1 is stored in the document DB 18 via the I / F 11.
[0016]
The morpheme analysis unit 12 performs morphological analysis on document data, more specifically, a character string included in the document data, and decomposes the character string included in the document data into morphemes including a word and a part of speech of the word. Here, FIG. 2 is a diagram showing a state of morphological analysis. For example, when a morphological analysis is performed on a character string “I like flowers”, as shown in FIG. 2, the words “I”, “ha”, “flower”, “ga”, “like”, and these words Can be broken down into morphemes composed of parts of speech. The morpheme analyzer 12 arranges the plurality of morphemes obtained in this way in a predetermined order. The morpheme array obtained for each document data is referred to as a feature vector for convenience.
[0017]
Here, the arrangement of morphemes in the feature vector may be in the order of appearance in the document data or in the order of appearance frequency. FIG. 3 is a diagram showing an arrangement of feature vectors, that is, morphemes. For example, as shown in FIG. 3, “Tomorrow, we will have a meeting at 1:00 pm at the Fujisawa Plant in Yamatake. Mr. Murakami and Mr. Kiso will be in charge of Yamatake. When character strings are decomposed into morphemes and arranged in the order of appearance, each morpheme is arranged according to the original arrangement of character strings. When the morphemes are arranged in the order of appearance, the morphemes are also arranged according to the word arrangement of the original document data, so that a feature vector that emphasizes the flow of the sentence is generated.
In the present embodiment, when generating feature vectors, morphemes are arranged in the order of appearance. However, in the case of arrangement in the order of appearance frequency, the morphemes are arranged in the order of morphemes having the highest appearance frequency in the character string. In the case of FIG. 3, since three words “Yamatake”, “No”, and “Fujisawa” appear three times each, they are arranged from morphemes including these three words. Note that morphemes having the same number of appearances are arranged in the order of appearance. When morphemes are arranged in the order of appearance frequency in this way, since morphemes are arranged from morphemes having a high appearance frequency, feature vectors in which importance is attached to the theme and content of the text are generated.
[0018]
The feature vector generated by the morphological analysis unit 12 described above is recorded in the document DB 18 in association with the document data. Therefore, each feature vector is generated and recorded for the document data (first document data) already recorded in the document DB 18.
[0019]
The degree-of-redundancy calculation unit 13 includes the feature vector of one document data (second document data) generated by the morpheme analysis unit 12 and other document data (first document data) stored in the document DB 18. The degree of overlap with the feature vector is calculated and recorded in the document DB 18 in the form of a matrix indicating the relationship between one document data and other document data, for example. This degree of duplication is a quantification of how much common morphemes exist between two documents. More strictly, when one document is viewed from another document, more than one document is compared. This refers to the ratio of morphemes that match morphemes obtained from other documents to all obtained morphemes. A method for calculating the degree of overlap will be described below.
[0020]
First, feature vectors are compared between two documents, and the number of common morphemes is counted. At this time, when comparing feature vectors, morphemes may be compared one by one, or may be compared every predetermined number. The comparison for every predetermined number means, in other words, a comparison in units of all or a part of N morphemes (N is a natural number of 2 or more) arranged in a predetermined order of feature vectors. For example, if the predetermined number is n (n is an arbitrary natural number of 2 or more and N or less), an array of n morphemes (hereinafter referred to as “nth-order partial feature vector”) among the morpheme arrays constituting the feature vector. Compare each other. If they match, n morphemes will match.
[0021]
When comparing feature vectors obtained from one document with feature vectors obtained from another document every n number of times, first, the first of the feature vectors consisting of N morphemes from one document To an nth morpheme from n to n, that is, an nth-order partial feature vector, and an nth-order feature vector consisting of M morphemes (M is a natural number greater than or equal to n) obtained from another document. Compare with the partial feature vector. In this case, if they match, n morphemes match. Similarly, the partial feature vector composed of the 2nd to n + 1th morphemes of the feature vector obtained from one document,..., And the other document for each of the partial feature vectors composed of the (N−n + 1) th to Nth morphemes The feature vectors obtained from the above are sequentially compared and collated.
[0022]
Thus, by comparing and collating in units of partial feature vectors, the commonality of context and expression can be reflected in the degree of duplication.
If there is no match between the two documents as a result of comparison and collation for n partial feature vectors, the order n of the partial feature vectors is reduced by 1, and (n-1) The next partial feature vector is compared and collated again according to the algorithm described above. The comparison and collation are repeated while decreasing the value of n until a matching partial feature vector is found or n = 1.
As described above, according to the present embodiment, the order of the partial feature vectors is changed in stages, and two documents are compared and collated. Therefore, in the case of matching at the maximum order, the context and semantic content of the document are considered. The result will be obtained. In addition, since even the lowest order can be compared, at least a search result at the same level as the search by keyword can be obtained. Thus, the document management apparatus 1 according to the present embodiment employs a very flexible search method.
[0023]
FIG. 4 is a diagram showing how feature vectors are compared. For example, as shown in FIG. 4, the feature vector (1) (N = 5) of one document having the character string “I like flowers” and another document having the character string “I like flowers” Consider the case where the feature vector {circle over (2)} (M = 3) is compared.
When comparing morphemes one by one (ie, n = 1), morphemes “flowers”, “common to two documents” are compared because each morpheme, ie, one word, is compared (corresponding to circled numbers 11 to 15). ”And“ like ”are matched (circle numbers 13, 14, 15), and the number of common morphemes is three.
[0024]
On the other hand, when comparing every predetermined number, for example, it is conceivable to perform comparison and collation on the whole feature vector (1) of one document (in this case, n = N = 5). In this case, since the entire feature vector (1) of one document does not exist in the feature vector (2) of another document, the order of the partial feature vectors extracted from the feature vector (1) of one document is n = 4. Are compared and collated (circled numbers 2, 3). When n = 3, the third-order partial feature vector {“I”, “ha”, “flower”}, {“ha”, “flower”, “ga”} obtained from the feature vector {circle around (1)} , {“Flower”, “ga”, “like”} are collated with the feature vector {circle around (2)} in this order (circled numbers 4, 5, 6). In this case, the partial feature vector {“flower”, “ga”, “like”} (circled number 6) matches the entire feature vector {circle around (2)} of other documents, and there are other matching feature vectors. Therefore, the comparison and collation are finished, and the common morpheme number is 3.
[0025]
Then, the number of morphemes common between the two counted documents is divided by the total number of morphemes obtained from one document, and this quotient becomes the overlap. For example, when the degree of overlap is calculated in the case of FIG. 4 described above, the feature vector {circle over (1)} has 5 morphemes, the feature vector {2} has 3 morphemes, and 3 common morphemes. When the feature vector (2) is compared from 1 ▼, the degree of overlap is 3/5, and when the feature vector (2) is compared with the feature vector (1), the degree of overlap is 3/3, that is, 1.
[0026]
In the present embodiment, a feature vector of each document is obtained by arranging morphemes in the order of appearance. Further, as a case of comparison for each predetermined number, it has been described that the initial value of the predetermined number n is set to n = N, and comparison and collation are performed. However, the initial value n can be arbitrarily set.
[0027]
The similarity calculation unit 14 calculates the similarity between two documents based on the degree of overlap calculated by the degree of overlap calculation unit 13 and records this in the document DB 18. The similarity means an index indicating whether or not the contents of two documents have commonality. Such similarity can be expressed as a binary relationship. In calculating the similarity, the similarity calculation unit 14 gives similarity 1 as two sentences are similar if the overlap calculated by the overlap calculation unit 13 is equal to or greater than a predetermined threshold, and does not reach the threshold. In the case, the similarity is given as 0 because it is not similar.
For example, in the case of the feature vector {circle around (1)} and the feature vector {circle around (2)} shown in FIG. 4, if the threshold is 0.7, the degree of overlap when the feature vector {circle around (1)} is compared with the feature vector {circle around (2)} is 3. Since / 5, that is, 0.6, the similarity is 0. Similarly, when the feature vector {circle over (2)} is compared with the feature vector {circle over (1)}, the degree of overlap is 1, so the degree of similarity is 1.
The similarity calculated in this way can be expressed as a binary relationship (graph) between two document data. The similarity between a plurality of document data can also be expressed as a feature vector as shown in FIG. 5, for example, as a matrix representing the similarity between document data.
[0028]
The visualization unit 15 generates visualization data indicating the relationship between one document data received by the I / F 11 and other document data stored in the document DB 18 based on the similarity recorded in the document DB 18. , And sent to the display device via the I / F 11. As the visualization data, for example, data such as a binary graph including a matrix or a node representing document data and a link connecting the nodes can be cited. Here, FIG. 5 is a diagram showing the degree of similarity in a matrix form, and FIG. 6 is a diagram showing a binomial graph. In FIG. 6, when the similarity between the document data corresponding to the node 6a and the node 6b is 1, as shown in FIG. 6A, the nodes 6a and 6b are connected by a link 7a. On the other hand, when the similarity of at least one of the document data corresponding to the node 6c and the node 6d is 0, the node 6c and the node 6d are not connected by a link as shown in FIG.
[0029]
Based on the similarity calculated by the similarity calculation unit 14, the extraction unit 16 extracts other document data similar to the one document data from the document DB 18, and sends the document data to the outside via the I / F 11. The extraction unit 16 may extract not only other document data similar to one document data but also other document data similar to the other document data.
[0030]
The setting unit 17 changes a threshold value used by the similarity calculation unit 14 to calculate the similarity. When the setting of the threshold value is changed by the setting unit 17 in this manner, the similarity value calculated by the similarity calculating unit 14 changes, so that the document data extracted by the extracting unit 16 also changes, and the extracting unit 16 further extracts the data. Document data also changes.
[0031]
A document DB (Data Base) 18 records one document data received from the outside via the I / F 11 and a feature vector generated from the document data by the morphological analysis unit 12 in association with each other. The document DB 18 records the degree of overlap and similarity between one document data and other document data.
[0032]
Next, a case where the document management apparatus 1 according to the present embodiment is applied to a report document such as building maintenance will be described.
7 is a diagram of a system to which the document management apparatus 1 according to the present embodiment is applied. FIG. 8 is a flowchart showing the operation of the document management apparatus 1 according to the present embodiment. FIG. 9 is a question when document data is visualized. It is a figure explaining the relationship between a matter and an answer matter.
Here, it can be considered that the report document contains two related items such as the situation and result, the question and the answer. For convenience, items corresponding to situations and questions are referred to as question items, and items corresponding to results and responses are referred to as answer items. Therefore, if a document having a degree of similarity with a document including a question item is extracted, it can be expected that the extracted document includes an answer item for the question item.
[0033]
In the system shown in FIG. 7, the document DB 18 of the document management apparatus 1 records a plurality of report documents created in the past as first document data and their feature vectors in association with each other. The degree of overlap or similarity between these document data is recorded.
The document management apparatus 1 is connected via a network 2 to a terminal device 3 of a user who performs maintenance or the like.
The network 2 includes various networks such as LAN, WAN, and the Internet, communication lines, and the like, connects the document management device 1 and the terminal device 3, and enables transmission and reception of various information between them. A plurality of terminal devices 3 can be connected to such a network 2.
The terminal device 3 comprises a known computer equipped with a display device, a PDA (Personal Digital Assistant), etc., and transmits and receives document data and visualization data such as reports via the network 2 to display the document data and visualization data. Display on the device.
[0034]
When the second document data such as a report is received from the terminal device 3 (step S801), the document management device 1 records the received document data in the document DB 18.
[0035]
Next, the document management apparatus 1 causes the morphological analysis unit 12 to generate a feature vector of the second document data received from the terminal apparatus 3 (step S802). The generated feature vector is recorded in the document DB 18 in association with the document data that is the basis of the feature vector.
As described above, the document data input from the terminal device 3 and the feature vector generated based on the document data are stored in the document DB 18 every time document data is input from the outside.
[0036]
When the feature vector of the second document data (one document data) input from the terminal device 3 is generated, the document management device 1 uses the redundancy calculation unit 13 to store the feature vector and a plurality of feature vectors stored in the document DB 18. The degree of overlap with each feature vector of the first document data (other document data) is calculated (step S803). This calculated degree of duplication may be recorded in the document DB 18. In this case, the degree of overlap between one document data and the other document data can be expressed in the form of a matrix, for example.
[0037]
When the degree of duplication is calculated, the document management apparatus 1 causes the degree-of-similarity calculation unit 14 to calculate the degree of similarity between one document data and each of a plurality of other document data based on the degree of duplication and a preset threshold value. (Step S804). The calculated similarity may be recorded in the document DB 18. In this case, the similarity between one document data and the other document data can be expressed in a form such as a matrix.
[0038]
When the similarity is calculated, the document management apparatus 1 causes the visualization unit 15 to create visualization data of the document data based on the similarity (step S805). As the visualization data, for example, a binomial graph as shown in FIG.
[0039]
In FIG. 9A, document data corresponding to nodes connected by links have a similarity of 1 to each other, and document data corresponding to nodes not connected by links are similar to each other or one of them. It means that the degree is 0. For example, since the node 6b is connected to the nodes 6a and 6c by the links 7a and 7b, it can be seen that the degree of similarity is 1 with the nodes 6a and 6c. On the other hand, since the node 6a and the node 6c are not connected by a link, the degree of similarity is 0 with respect to each other or one of them.
Here, if one newly inputted document data corresponds to the node 6d, it can be seen that the node 6d has a link, that is, a similarity, with the node 6a as shown by a dotted line in FIG. 9A.
[0040]
Visualization data includes a node connected to a large number of nodes or a set of nodes that are complexly connected to a plurality of nodes, together with representative values and keywords common to the document data of these nodes. You may make it display. Thereby, the user can confirm the characteristics of the node aggregate at a glance.
The visualization data can also be three-dimensional graphic data. Thereby, the state of connection of the nodes can be displayed in more detail in detail.
[0041]
Here, the document management apparatus 1 may send the created visualization data to the terminal apparatus 3 via the I / F 11 and the network 2 as necessary.
[0042]
Next, the document management apparatus 1 extracts other document data similar to the one document data (step S807). For example, as shown in FIG. 9, when one piece of document data represented by a node 6d is input, the document management apparatus 1 extracts document data represented by a node 6a similar to the node 6d from the document DB 18. .
[0043]
Further, the document management apparatus 1 may extract other document data having an arbitrary distance regarding the similarity. Here, the “distance related to similarity” means, for example, when the similarity of a plurality of document data is expressed by a binary graph, a path from one document data to another document data is weighted with the similarity It is the sum of the attached values. In the present embodiment, since the similarity is represented by “1” or “0”, for example, when one document data and other document data have a direct similarity, the distance is 1, 1 Although the document data does not have a direct similarity, the document data having a similarity with the other document data having the similarity with the one document data has a distance of 2 from the one document data. . In the present embodiment, with respect to the similarity in the extraction of document data, the distance is set to 2 and other similar to one document data (node 6d) and other document data (node 6a) having similarity. The document data (node 6 b ) may be extracted from the document DB 18. If the distance is further increased and the extraction target range is expanded, in FIG. 9, even when the document data represented by the node 6b does not have an answer item, the document management apparatus 1 has a node 6c having similarity to the node 6b. Can be extracted from the document DB 18 (including answer items).
By doing in this way, the document management apparatus 1 according to the present embodiment can be used even when the answer data is not included in the document data that is directly similar (related) to the document data including the input question data. Since it is possible to extract document data that is similar (related) indirectly, it is possible to effectively extract data related to past countermeasures in which a similar problem or the like has occurred from a wide range.
[0044]
When the document data is extracted, the document management device 1 sends the document data to the terminal device 3 via the I / F 11 and the network 2 (step S808).
[0045]
As described above, the document management apparatus 1 according to the present embodiment does not need to select a keyword or the like, and simply inputs document data including at least one of a question item such as a report and an answer item. Since document data similar to the document data is extracted, it is very convenient.
[0046]
In step S804, the threshold value may be changed freely and appropriately by the setting unit 17. For example, when the visualization data is displayed on the terminal device 3, if the similarity between the document data is difficult to grasp because there are too many or too few links, the visualization data can be easily viewed by changing the threshold appropriately. It is possible to easily grasp the similar relationship between data. Further, when there is too much or too little extracted answer data, an appropriate quantity of document data can be obtained by appropriately changing the threshold value.
[0047]
【The invention's effect】
As described above, according to the present invention, the degree of duplication between one newly input document data and other document data is calculated, the degree of similarity is calculated from the degree of duplication and the threshold value, and a predetermined value is obtained. Since other document data having the above similarity is extracted, similar document data can be extracted by a simple operation of inputting the document data without inputting a predetermined condition such as a keyword. .
Further, according to the present invention, the degree of duplication and the degree of similarity are calculated, and from these, it is determined whether or not the similarity of the documents is similar. Therefore, it is possible to extract a document having a similar context or sentence meaning. .
[Brief description of the drawings]
FIG. 1 is a block diagram showing a configuration of a document management apparatus according to an embodiment.
FIG. 2 is a diagram showing a state of morphological analysis.
FIG. 3 is a diagram showing a state of arrangement of morphemes.
FIG. 4 is a diagram showing how feature vectors are compared.
FIG. 5 is a diagram showing similarity in matrix. FIG. 6 is a diagram representing a binomial graph.
FIG. 7 is a diagram of a system to which the document management apparatus 1 according to the present embodiment is applied.
FIG. 8 is a flowchart showing the operation of the document management apparatus 1 according to the present embodiment.
FIG. 9 is a diagram for explaining a relationship between a question item and an answer item when document data is visualized.
[Explanation of symbols]
DESCRIPTION OF SYMBOLS 1 ... Document management apparatus, 2 ... Network, 3 ... Terminal device, 6a-6d ... Node, 7, 7a, 7b ... Link, 11 ... I / F, 12 ... Morphological analysis part, 13 ... Duplication degree calculation part, 14 ... Similarity calculation unit, 15 ... visualization unit, 16 ... extraction unit, 17 ... setting unit, 18 ... document DB.

Claims (4)

複数の第1の文書データを記録した第1の記録手段と、
文書データを形態素解析する形態素解析手段と、
新たに入力された第2の文書データの形態素と前記第1の記録手段に記録された前記第1の文書データの形態素とから、前記第2の文書データと前記第1の文書データに共通する形態素の数をそれぞれの文書データに含まれる形態素の数で除した重複度を求める重複度算出手段と、
前記第1の文書データの中から前記第2の文書データと所定の値以上の重複度を有する文書データを抽出する抽出手段と、
前記重複度と所定の閾値から二つの文書データが類似しているか否かの指標を示し、前記重複度が前記所定の閾値以上の場合は二つの文書データが類似するものとして1を、前記重複度が前記所定の閾値に及ばない場合は二つの文書データが類似していないものとして0を与える類似度を算出する類似度算出手段と、
複数の前記第1の文書データ間の重複度と類似度のうち少なくとも一方を記録するとともに、前記類似度が互いに対して1である前記第1の文書データ同士をリンクで結合して記録する第2の記録手段と
を備え、
前記抽出手段は、前記第2の文書データと前記第1の文書データのうちの一つとの間の前記類似度および前記第2の記録手段に記録された複数の前記第1の文書データ間の前記リンクに基づいて、複数の前記第1の文書データの中から前記第2の文書データまでの前記リンクの数量を前記類似度に関する距離として算出し、この距離が所定の値の第1の文書データを抽出する
ことを特徴とする文書管理装置。
First recording means for recording a plurality of first document data;
Morphological analysis means for morphological analysis of document data;
From the newly input morpheme of the second document data and the morpheme of the first document data recorded in the first recording means, the second document data and the first document data are common. A degree-of-duplication calculating means for obtaining a degree of overlap obtained by dividing the number of morphemes by the number of morphemes included in each document data;
Extracting means for extracting, from the first document data, document data having a degree of overlap with the second document data that is equal to or greater than a predetermined value;
The multiplicity and indicates whether the index two document data from the predetermined threshold value are similar, one as the overlap degree of two document data in the case of more than the predetermined threshold value are similar, the A degree of similarity calculating means for calculating a degree of similarity that gives 0 when two document data are not similar when the degree of overlap does not reach the predetermined threshold ;
And records at least one of the overlapping degree of similarity between the plurality of the first document data, the similarity is recorded by combining the link to the first document data between Ru 1 der respect to one another A second recording means,
The extracting means includes the similarity between the second document data and one of the first document data and a plurality of the first document data recorded in the second recording means. Based on the link, the number of links from the plurality of first document data to the second document data is calculated as a distance related to the similarity, and the first document having a predetermined value for the distance is calculated. A document management apparatus characterized by extracting data.
請求項1記載の文書管理装置において、
前記重複度算出手段は、前記第1の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記第2の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出する
ことを特徴とする文書管理装置。
The document management apparatus according to claim 1.
The duplication degree calculating means includes a part of a plurality of morphemes included in the first document data arranged in a predetermined order and a part of a part of the plurality of morphemes included in the second document data arranged in the predetermined order. And a duplication degree is calculated based on whether or not they match each other .
請求項2記載の文書管理装置において、
前記重複度算出手段は、前記第1の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記第2の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、前記一部分に含まれる形態素の数を減らし、再度比較を行う
ことを特徴とする文書管理装置。
The document management apparatus according to claim 2, wherein
The duplication degree calculating means includes a part of a plurality of morphemes included in the first document data arranged in a predetermined order and a part of a part of the plurality of morphemes included in the second document data arranged in the predetermined order. And if they do not match, the number of morphemes contained in the part is reduced and the document management apparatus performs comparison again .
請求項1ないし3の何れか1項に記載の文書管理装置において、
前記閾値を設定する設定手段
をさらに備えたことを特徴とする文書管理装置。
The document management apparatus according to any one of claims 1 to 3,
Setting means for setting the threshold
A document management apparatus further comprising:
JP2002335504A 2002-11-19 2002-11-19 Document management device Expired - Fee Related JP4025181B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002335504A JP4025181B2 (en) 2002-11-19 2002-11-19 Document management device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002335504A JP4025181B2 (en) 2002-11-19 2002-11-19 Document management device

Publications (2)

Publication Number Publication Date
JP2004171220A JP2004171220A (en) 2004-06-17
JP4025181B2 true JP4025181B2 (en) 2007-12-19

Family

ID=32699621

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002335504A Expired - Fee Related JP4025181B2 (en) 2002-11-19 2002-11-19 Document management device

Country Status (1)

Country Link
JP (1) JP4025181B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537794B2 (en) * 2019-01-11 2022-12-27 Kabushiki Kaisha Toshiba Learning device, learning method, computer program product, and information processing system

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4758429B2 (en) * 2005-08-15 2011-08-31 株式会社ターボデータラボラトリー Shared memory multiprocessor system and information processing method thereof
JP5206296B2 (en) * 2008-10-03 2013-06-12 富士通株式会社 Similar sentence extraction program, method and apparatus
JP5293336B2 (en) * 2009-03-26 2013-09-18 富士通株式会社 Multimedia integrated search program, method and apparatus
JP6809765B2 (en) * 2019-03-27 2021-01-06 三菱ロジスネクスト株式会社 Document creation system related to services for work machines
JP6982347B1 (en) * 2020-10-27 2021-12-17 和直 恩田 Document extraction program in computer language processing, semantically similar document extraction method and language processing device
CN115968474A (en) * 2021-12-13 2023-04-14 Gap株式会社 Non-transitory storage medium storing sentence fragment extraction program in computer language processing, semantically similar sentence fragment extraction method, and language processing device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537794B2 (en) * 2019-01-11 2022-12-27 Kabushiki Kaisha Toshiba Learning device, learning method, computer program product, and information processing system

Also Published As

Publication number Publication date
JP2004171220A (en) 2004-06-17

Similar Documents

Publication Publication Date Title
Mooney et al. Sequential pattern mining--approaches and algorithms
US10332012B2 (en) Knowledge driven solution inference
US8190541B2 (en) Determining relevant information for domains of interest
CN104933081A (en) Search suggestion providing method and apparatus
Le et al. Text classification: Naïve bayes classifier with sentiment Lexicon
WO2021139343A1 (en) Data analysis method and apparatus based on natural language processing, and computer device
CN112632228A (en) Text mining-based auxiliary bid evaluation method and system
JPH11110413A (en) Method and device for generating data base retrieved result
Gan et al. Utility mining across multi-sequences with individualized thresholds
US8140464B2 (en) Hypothesis analysis methods, hypothesis analysis devices, and articles of manufacture
KR20130108537A (en) Method of character string generation, program and system
JP4025181B2 (en) Document management device
Hingston Using finite state automata for sequence mining
CN110851584B (en) Legal provision accurate recommendation system and method
US20230081891A1 (en) System and method of managing knowledge for knowledge graphs
Dhanapal An intelligent information retrieval agent
Lokman et al. A conceptual IR chatbot framework with automated keywords-based vector representation generation
CN113779981A (en) Recommendation method and device based on pointer network and knowledge graph
CN113297854A (en) Method, device and equipment for mapping text to knowledge graph entity and storage medium
JP4025180B2 (en) Document management device
Hayamizu et al. Ranking top-k trees in tree-based phylogenetic networks
Mojica et al. Fine-grained opinion extraction with Markov logic networks
Glodeanu Attribute Dependencies in a Fuzzy Setting.
Yang et al. Optimizing knowledge graphs through voting-based user feedback
CN114625843B (en) Inquiry method and device based on knowledge graph

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070814

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071004

R150 Certificate of patent or registration of utility model

Ref document number: 4025181

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131012

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees