JP2004171215A - 文書管理装置 - Google Patents
文書管理装置 Download PDFInfo
- Publication number
- JP2004171215A JP2004171215A JP2002335486A JP2002335486A JP2004171215A JP 2004171215 A JP2004171215 A JP 2004171215A JP 2002335486 A JP2002335486 A JP 2002335486A JP 2002335486 A JP2002335486 A JP 2002335486A JP 2004171215 A JP2004171215 A JP 2004171215A
- Authority
- JP
- Japan
- Prior art keywords
- document
- document data
- degree
- similarity
- morphemes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】文書管理装置1は、CPU等の演算装置、メモリ、HDD等の記憶装置、外部との情報の送受を行うI/F装置、CRT、LCDまたはFED等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムおよび電子辞書とから構成され、上記ハードウェア資源がプログラムによって制御される。すなわちハードウェア装置とソフトウェアが協働することによって、形態素解析部12と、重複度を算出する重複度算出部13と、類似度を算出する類似度算出部14と、文書データ間の関係を表示手段に表示させるデータを生成する可視化部15とが実現される。記憶装置は、文書データ等を格納する文書DB16を有する。
【選択図】 図1
Description
【発明の属する技術分野】
本発明は、文書データを管理する文書管理装置に関し、より詳しくは、形態素解析の結果を利用して文書データを管理する文書管理装置に関する。
【0002】
【従来の技術】
文書の分類および管理は、学問、技術または経済等の各種分野において、仕事の効率化を図るに際し、欠かせない事項である。例えば、ビルやプラントなどの設備管理の場合、特にメンテナンスに関する報告書は、過去に発生した何かの不具合に加え、その不具合への対応策は記載されていることが多い。したがって、新たに発生した不具合と同等の事項が記載されている過去の報告書を検索できれば、この報告書を参考にして処置を執ることができる。このため、従来より、文書の分類および管理を整然と効率よく行うべく、文書管理に関する種々の発明がされている。
【0003】
例えば、テキストマイニング技術を利用して文書中から有利な情報と不利な情報を情報を抽出して文書を分類する発明(特許文献1参照)や、文書中の語および語の頻度に基づいて文書をベクトルで表現し、類似の文書が並ぶように表示する発明(特許文献2参照)などがされている。また、形態素解析を利用するものとしては、形態素に分解された単語の出現頻度を算出し、この出現頻度から文書の特徴を抽出する発明(特許文献3参照)や、単語間の重要度および関連度を形態素に分解された単語の出現頻度等から算出し、これらの重要度と類似度に基づいて文書の類似度の判定を行う発明(特許文献4参照)などがある。
【0004】
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
【0005】
【特許文献1】
特開2002−63338号公報
【特許文献2】
特開2001−514417号公報
【特許文献3】
特開2000−113064号公報
【特許文献4】
特開2000−123041号公報
【0006】
【発明が解決しようとする課題】
しかしながら、上述したような方法は、何れも文書の文脈や意味内容を考慮して文書を分類したものとはいえなかった。例えば、特許文献1に記載された発明では、所定の特性を有する情報のみを抽出し、この情報から類似する文書を分類している。また、特許文献2〜4に記載された発明では、単に特定の単語の出現頻度から文書が類似しているか否かを判断している。文書とは、一般的に文脈や単語の配列および構成等に、文書作成者の意図や思想が色濃く反映されるものである。したがって、上述したような方法では、文書作成者の文意をくみ取って、文書を分類することができなかった。
そこで、本発明は、上述したような課題を解決するためになされたものであり、文書の文脈や意味内容を反映させて文書を分類および管理することができる文書管理装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
上述したような課題を解決するために、本発明にかかる文書管理装置は、文書データを形態素解析する形態素解析手段と、一の文書データと他の文書データとの重複度を、それぞれが有する形態素に基づいて算出する重複度算出手段と、重複度と閾値から一の文書データと他の文書データとの類似度を算出する類似度算出手段とを備えたことを特徴とする。この文書管理装置によれば、一の文書と他の文書との類似度は、それぞれの文書に含まれる形態素の重複度と、閾値に基づいて算出される。
【0008】
上記文書管理装置において、類似度に基づいて一の文書データと他の文書データとの関係を表示装置に表示させるデータを生成する可視化手段をさらに備えるようにしてもよい。この文書管理装置によれば、一の文書データと他の文書データとの関係は、表示装置に表示される。
【0009】
上記文書管理装置において、複数の文書データを格納する文書DBをさらに備え、重複度算出手段は、複数の文書データそれぞれの間の重複度を算出し、類似度算出手段は、複数の文書データそれぞれの間の類似度を算出し、可視化手段は、複数の文書データの関係を表示手段に表示させるデータを生成するようにしてもよい。この文書管理装置によれば、複数の文書データそれぞれの関係が、表示装置に表示される。
【0010】
上記文書管理装置において、重複度算出手段は、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出するようにしてもよい。
また、上記文書管理装置において、重複度算出手段は、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、一部分に含まれる形態素の数を減らし、再度比較を行うようにしてもよい。
【0011】
上記文書管理装置において、二つの文書データ間の重複度または類似度を記録する記録手段をさらに備えるようにしてもよい。
また、上記文書管理装置において、閾値の設定を変更する設定手段をさらに備えるようにしてもよい。
【0012】
【発明の実施の形態】
以下、図面を参照して、本発明にかかる文書管理装置の実施の形態について、詳細に説明する。図1は本実施の形態にかかる文書管理装置の構成を示すブロック図である。
【0013】
本実施の形態にかかる文書管理装置1は、CPU等の演算装置、メモリ、HDD等の記憶装置、外部との情報の送受を行うI/F装置、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)またはFED(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムおよび電子辞書とから構成され、上記ハードウェア資源がプログラムによって制御される。すなわちハードウェア装置とソフトウェアが協働することによって、形態素解析部12と、重複度を算出する重複度算出部13と、類似度を算出する類似度算出部14と、文書データ間の関係を表示手段に表示させるデータを生成する可視化部15とが実現される。記憶装置は、文書データ等を格納する文書DB16を有する。
【0014】
I/F11は、LAN(Local Area Network)、WAN(Wide Area Network)またはインターネット等の各種ネットワークや通信回線等に接続され、外部と文書データ、可視化データ等の各種情報の送受信を行う。外部よりI/F11を介して入力された文書データは、文書DB16に記憶される。
【0015】
形態素解析部12は、文書データより具体的には文書データに含まれる文字列を形態素解析し、文書データに含まれる文字列を単語とその単語の品詞からなる形態素に分解する。ここで、図2は、形態素解析の様子を示す図である。例えば、「私は花が好き」という文字列を形態素解析すると、図2に示すように、「私」、「は」、「花」、「が」、「好き」という単語と、これらの単語の品詞とから構成される形態素に分解することができる。形態素解析部12は、このようにして得られた複数の形態素を所定の順序で配列する。図3は、形態素の配列の様子を示す図である。この文書データごとに得られた形態素の配列を、便宜上、特徴ベクトルということにする。
【0016】
ここで、特徴ベクトルにおける形態素の配列は、出現順に配列してもよいし、または出現頻度順に配列してもよい。例えば、図3に示すように、「明日、山武の藤沢工場で午後1時から打ち合わせ。山武の担当者は、村上様と木幡様。山武の藤沢工場は、藤沢駅から徒歩10分。」という文字列を形態素に分解し、出現順と出現頻度順のそれぞれに配列した場合について説明する。
出現順に配列する場合は、元の文字列の配列のままに形態素を配列する。したがって、出現順に形態素を配列場合は、元の文章データの単語の配列通りに形態素も配列されるので、文章の流れを重視した特徴ベクトルが生成される。
なお、特徴ベクトルを生成するにあたっては、形態素を出現順に配列する代わりに、出現頻度順に配列してもよい。出現頻度順に配列する場合は、文字列の中で出現頻度が高い形態素の順に配列する。図3の場合は、「山武」、「の」、「藤沢」という3つの単語が3回ずつ出現しているので、この3つの単語を含む形態素から配列することになる。なお、出現回数が同じ形態素は、出現順に配列する。このように出現頻度順に形態素を配列する場合は、出現頻度の高い形態素から配列されるので、文章のテーマや内容が重視された特徴ベクトルが生成される。
本実施の形態では、出現順に配列して説明する。
【0017】
上述した形態素解析部12により生成された特徴ベクトルは、文書データと対応づけられて文書DB16に記録される。
【0018】
重複度算出部13は、形態素解析部12により生成された一の文書の特徴ベクトルと、文書DB16に格納されている他の文書の特徴ベクトルとの重複度を算出し、例えば一の文書データと他の文書データとの関係を示すマトリックスのような形態で文書DB16に記録する。この重複度とは、二つの文書間で共通する形態素がどの程度存在するかを数値化したものであり、より厳密には、一の文書から他の文書を見たときに、一の文書より得られた全形態素に対し他の文書より得られた形態素と一致する形態素の割合のことをいう。この重複度の算出方法について、以下に説明する。
【0019】
まず、特徴ベクトルを二つの文書間で比較し、共通する形態素の数をカウントする。ここで、特徴ベクトル同士を比較するにあたっては、形態素を1つ1つ比較してもよいし、所定の数ごとに比較してもよい。所定の数ごとに比較するとは、換言するならば、特徴ベクトルの所定の順序で配列されたN個(Nは2以上の自然数)の形態素の全部または一部分を単位に比較を行うことということができる。ここで所定の数をn(nは2以上N以下の任意の自然数)とすると、特徴ベクトルを構成する形態素の配列のうち、n個の形態素からなる配列の一部(以下「n次の部分特徴ベクトル」という)同士を比較していく。一致した場合には、n個の形態素が一致することになる。
【0020】
具体的には、一の文書から得られた特徴ベクトルと他の文書から得られた特徴ベクトルとを比較する場合には、まず、一の文書からN個の形態素からなる特徴ベクトルのうち、1番目からn番目までのn個の形態素からなる配列、すなわち部分特徴ベクトルを選択し、他の文書から得られたM個の形態素(Mはn以上の自然数)からなる特徴ベクトルのn次の部分特徴ベクトルと比較を行う。この場合、一致する場合には、n個の形態素が一致したことになる。同様に、一の文書から得られた特徴ベクトルの2番目からn+1番目の形態素からなる部分特徴ベクトル、・・・、N−n+1番目からN番目の形態素からなる部分特徴ベクトルのそれぞれについて他の文書から得られた特徴ベクトルとの比較、照合を行っていく。
【0021】
このように部分特徴ベクトルを単位として比較、照合を行うことにより、重複度に文脈や表現の共通性を反映させることができる。
また、n個の部分特徴ベクトルについて比較、照合の結果、2つの文書間に一致するものが存在しなかった場合は、部分特徴ベクトルの次数nを1だけ減じた上で、(n−1)次の部分特徴ベクトルについて、上述したアルゴリズムに従って再度比較、照合を行う。このように一致する部分特徴ベクトルが見つかるか、またはn=1となるまでnの値を減じながら、比較、照合を繰り返す。
【0022】
例えば、図4に示すように、「私は花が好き」という文字列を有する一の文書の特徴ベクトル▲1▼(N=5)と、「花が好き」という文字列を有する他の文書の特徴ベクトル▲2▼(M=3)とを比較する場合について考えてみる。
形態素を1つ1つ比較する(すなわちn=1)場合は、形態素ごと、すなわち一語ずつ比較する(丸付番号11〜15に対応)ので、2つの文書に共通な形態素「花」、「が」、「好き」のそれぞれについて一致し(丸付番号13、14、15)、共通の形態素の数が3つということになる。
【0023】
一方、所定の数ごとに比較する場合は、例えば、一の文書の特徴ベクトル▲1▼全体を単位に(この場合、n=N=5)比較、照合を行うことも考えられる。この場合、一の文書の特徴ベクトル▲1▼全体は他の文書の特徴ベクトル▲2▼には存在しないので、一の文書の特徴ベクトル▲1▼から抽出する部分特徴ベクトルの次数をn=4として、比較、照合を行う(丸付番号2、3)。そして、n=3とした場合、特徴ベクトル▲1▼から得られる3次の部分特徴ベクトル{「私」、「は」、「花」}、{「は」、「花」、「が」}、{「花」、「が」、「好き」}についてこの順に特徴ベクトル▲2▼と照合を行う(丸付番号4、5、6)。この場合、部分特徴ベクトル{「花」、「が」、「好き」}(丸付番号6)が他の文書の特徴ベクトル▲2▼全体と一致し、これ以外には一致する特徴ベクトルは存在しないので、比較、照合を終了し、共通の形態素数は3となる。
【0024】
なお、本実施の形態においては、出現順に形態素を配列したものを各文書の特徴ベクトルとした。また、所定の数ごとに比較する場合として、所定の数nの初期値をn=Nとして比較、照合を行うように説明したが、この初期値nは任意に設定することができる。
【0025】
次いで、カウントされた二つの文書間に共通する形態素の数を、一の文書から得られた形態素の総数で除し、この商が重複度となる。例えば、上述した図4の場合について重複度を算出してみると、特徴ベクトル▲1▼の形態素数が5、特徴ベクトル▲2▼の形態素数が3、共通の形態素が3なので、特徴ベクトル▲1▼から特徴ベクトル▲2▼を比較した場合の重複度は3/5となり、特徴ベクトル▲2▼から特徴ベクトル▲1▼を比較した場合の重複度は3/3すなわち1となる。
【0026】
類似度算出部14は、重複度算出部13が算出した重複度に基づいて、形態素解析部12が形態素に分解した一の文書データと、文書DB16に格納されている他の文書データとの類似度を算出し、例えば一の文書データと他の文書データとの関係を示すマトリックスのような形態で文書DB16に記録する。なお、類似度とは、二つの文書の内容が共通性を有するか否かを示す指標のことを意味する。この類似度の算出方法について、以下に説明する。
【0027】
類似度算出部14は、重複度算出部13が算出した重複度が所定の閾値以上の場合は二つの文章は類似するものとして類似度1を与え、閾値に及ばない場合は類似していないものとして類似度0を与える。
例えば、図4に示した特徴ベクトル▲1▼と特徴ベクトル▲2▼との場合、閾値を0.7とすると、特徴ベクトル▲1▼から特徴ベクトル▲2▼を比較した場合の重複度は3/5すなわち0.6であるため、類似度は0となる。同様に、特徴ベクトル▲2▼から特徴ベクトル▲1▼を比較した場合の重複度は1であるため、類似度は1となる。このようにして算出された類似度は、例えば図5に示すような特徴ベクトル同士、すなわち文書データ同士の類似度を表すマトリックスとして文書DB16に記録される。
なお、閾値は、適宜自由に設定することができる。
【0028】
可視化部15は、文書DB16に記録されている類似度に基づいて、I/F11が受信した一の文書データと文書DB16に格納されている他の文書データとの関係を示す可視化データを生成し、I/F11を介して表示装置に送出する。ここで、図5は、類似度をマトリックス表示した図、図6は、2項グラフを表す図である。可視化データとしては、例えば図5に示すようなマトリックス、図6に示すような文書データを表すノードと、このノードを結ぶリンクとからなる2項グラフ等のデータがあげられる。ここで、ノード6aとノード6bに対応する文書データの相互の類似度が1である場合、図6(a)に示すように、ノード6a、6bはリンク7aで結ばれる。一方、ノード6cとノード6dに対応する文書データの少なくとも一方の類似度が0の場合、図6(b)に示すように、ノード6cとノード6dはリンクで結ばれない。
【0029】
文書DB(Data Base)16は、I/F11を介して外部から受信した一の文書データと、この文書データから形態素解析部12により生成された特徴ベクトルを対応づけて記録する。また、文書DB16は、一の文書データと他の文書データとの重複度および類似度を、例えば図5に示すようなマトリックスのような形態で記録する。
【0030】
次に、本実施の形態にかかる文書管理装置1の動作について図7、8を参照して説明する。図7は本実施の形態にかかる文書管理装置1の動作を示すフローチャート、図8は類似度をグラフィック表示した図である。なお、文書DB16には、n(任意の自然数)個の文書データ、n個の文書データそれぞれの特徴ベクトル、n個の文書データそれぞれの間の重複度および類似度が記録されているものとする。
【0031】
外部から文書データが入力されると、文書管理装置1は、形態素解析部12により、その文書データから特徴ベクトルを生成する(ステップS701)。ここで、外部から入力された文書データとこの文書データに基づいて生成される特徴ベクトルは、外部から文書データが入力されるたびに文書DB16に格納される。これにより、文書DB16は、外部から文書データが入力されるだけで自然的に成長するため、使い勝手がよい。
【0032】
外部から入力された文書データ(一の文書データ)の特徴ベクトルを生成すると、文書管理装置1は、重複度算出部13により、その特徴ベクトルと文書DB16に格納されているn個の文書データの特徴ベクトルそれぞれとの重複度を算出する(ステップS702)。この算出した重複度は、一の文書データとn個の文書データそれぞれとの重複度の関係を示す例えばマトリックスのような形態で文書DB16に記録される。
【0033】
重複度を算出すると、文書管理装置1は、類似度算出部14により、その重複度と閾値に基づいて一の文書データとn個の文書データそれぞれとの類似度を算出する(ステップS703)。この算出した類似度は、一の文書データとn個の文書データそれぞれとの重複度の関係を示す例えば図5に示すようなマトリックスのような形態で文書DB16に記録される。
【0034】
類似度が算出されると、文書管理装置1は、可視化部15により、その類似度に基づいて例えば図8に示す2項グラフのような可視化データを作成する(ステップS704)。図8において、リンクで結ばれているノードに対応する文書データ同士は互いに対して類似度が1であり、リンクで結ばれていないノードに対応する文書データ同士は互いまたは一方が類似度が0であることを意味する。例えば、ノード8aは、リンク9a、9bによりノード8b、8cと結ばれているので、ノード8b、8cと互いに類似度が1であることがわかる。一方、ノード8bとノード8cは、リンクで結ばれていないので、互いまたはどちらか一方が類似度が0であるということになる。
【0035】
なお、可視化データは、多数のノードと接続されているノードや複数のノードが複雑に接続されているノードの集合体等に、これらのノードの文書データに共通する代表値やキーワード等を併せて表示するようにしてもよい。例えば、ノード8dと、これに接続されている4つのノードとの共通のキーワードが「藤沢」の場合、図8に示すように、ノード8d近傍には「藤沢」というキーワードが表示される。これにより、利用者は、ノードの集合体の特徴を一目で確認することができる。
また、可視化データは、3次元のグラフィックデータとすることもできる。これにより、ノードの接続の様子をより正確に詳しく表示することができる。
【0036】
可視化データを生成すると、文書管理装置1は、I/F11を介してその可視化データを表示装置に送出する(ステップS705)。これにより利用者は、表示装置に表示された2項グラフ等により、一つの文書データと他の文書データとの関係または複数の文書データ間の関係を一目で識別することができるため、一の文書データと他の文書データとの関係がわかりやすい。
【0037】
なお、ステップS703において、閾値は、適宜自由に変更することができるようにしてもよい。例えば、表示装置に可視化データを表示した際に、リンクが多すぎるまたは少なすぎるために文書データの類似関係が把握しづらい場合に、閾値を適宜変更することにより、可視化データを見やすくし、文書データ間の類似関係を容易に把握できるようにすることができる。
【0038】
【発明の効果】
以上説明したように、本発明によれば、文書データを形態素解析し、一の文書データと他の文書データとの重複度をそれぞれが有する形態素に基づいて算出し、その重複度に基づいて一の文書データと他の文書データとの類似度を算出することにより、一の文書データと他の文書データとの関係を文書の文脈や意味内容を反映させて文書を分類および管理することができる。
【0039】
また、本発明によれば、可視化手段を備えることにより、一の文書データと他の文書データとの関係をわかりやすく表示することができる。
さらに、本発明によれば、複数の文書データを格納する文書DBを備えうることにより、複数の文書データそれぞれの関係を文書の文脈や意味内容を考慮して文書を分類および管理することができ、かつ複数の文書データ間の関係をわかりやすく表示することができる。
【0040】
また、本発明によれば、重複度算出手段が、一の文書データの所定の配列および数の形態素と、所定の配列および数の他の文書データの形態素が一致するか否かにより重複度を算出し、所定の数は、一の文書データと他の文書データの形態素が一致するまで徐々に減らすようにすることにより、文書の文脈や意味内容を反映させて一の文書データと他の文書データとの重複度を算出することができる。
さらに、本発明によれば、設定手段を設けることにより、閾値の設定を適宜変更し、類似度を変化させることができるので、文書データの分類および管理ならびに表示装置に表示させる一の文書データと他の文書の関係または複数の文書データの関係を調整することができる。
【図面の簡単な説明】
【図1】本実施の形態にかかる文書管理装置1の構成を示すブロック図である。
【図2】形態素解析の様子を示す図である。
【図3】形態素の配列の様子を示す図である。
【図4】特徴ベクトルの比較の様子を示す図である。
【図5】類似度をマトリックス表示した図である。
【図6】2項グラフを表す図である。
【図7】本実施の形態にかかる文書管理装置1の動作を示すフローチャートである。
【図8】類似度をグラフィック表示した図である。
【符号の説明】
1…文書管理装置、6a〜6d、8a〜8g…ノード、7、9a〜9g…リンク、11…I/F、12…形態素解析部、13…重複度算出部、14…類似度算出部、15…可視化部、16…文書DB。
Claims (7)
- 文書データを形態素解析する形態素解析手段と、
一の文書データと他の文書データとの重複度を、それぞれが有する形態素に基づいて算出する重複度算出手段と、
前記重複度と閾値から前記一の文書データと前記他の文書データとの類似度を算出する類似度算出手段と
を備えたことを特徴とする文書管理装置。 - 請求項1記載の文書管理装置において、
前記類似度に基づいて前記一の文書データと前記他の文書データとの関係を表示装置に表示させるデータを生成する可視化手段
をさらに備えたことを特徴とする文書管理装置。 - 請求項1または2記載の文書管理装置において、
複数の前記文書データを格納する文書DBをさらに備え、
前記重複度算出手段は、複数の前記文書データそれぞれの間の前記重複度を算出し、
前記類似度算出手段は、複数の前記文書データそれぞれの間の前記類似度を算出し、
前記可視化手段は、複数の前記文書データの関係を表示手段に表示させるデータを生成する
ことを特徴とする文書管理装置。 - 請求項1ないし3の何れか1項に記載の文書管理装置において、
前記重複度算出手段は、前記一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記他の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出する
ことを特徴とする文書管理装置。 - 請求項4記載の文書管理装置において、
前記重複度算出手段は、前記一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、前記他の文書データが有する複数の形態素を前記所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、前記一部分に含まれる形態素の数を減らし、再度比較を行う
ことを特徴とする文書管理装置。 - 請求項1ないし5の何れか1項に記載の文書管理装置において、
二つの前記文書データ間の前記重複度または前記類似度を記録する記録手段
をさらに備えることを特徴とする文書管理装置。 - 請求項1ないし6の何れか1項に記載の文書管理装置において、
前記閾値の設定を変更する設定手段
をさらに備えたことを特徴とする文書管理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002335486A JP4025180B2 (ja) | 2002-11-19 | 2002-11-19 | 文書管理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002335486A JP4025180B2 (ja) | 2002-11-19 | 2002-11-19 | 文書管理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004171215A true JP2004171215A (ja) | 2004-06-17 |
JP4025180B2 JP4025180B2 (ja) | 2007-12-19 |
Family
ID=32699607
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002335486A Expired - Fee Related JP4025180B2 (ja) | 2002-11-19 | 2002-11-19 | 文書管理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4025180B2 (ja) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10134087A (ja) * | 1996-09-06 | 1998-05-22 | Toshiba Corp | 文書要求装置および関連文書の先取り方法 |
JPH1145260A (ja) * | 1997-07-25 | 1999-02-16 | Just Syst Corp | 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000029660A (ja) * | 1998-04-17 | 2000-01-28 | Xerox Corp | タイムチュ―ブおよび円形木を用いたインタラクティブな活性化拡散視覚化方法、装置並びに媒体 |
JP2000112949A (ja) * | 1998-09-30 | 2000-04-21 | Fuji Xerox Co Ltd | 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体 |
JP2000123041A (ja) * | 1998-10-19 | 2000-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 |
JP2000181934A (ja) * | 1998-12-21 | 2000-06-30 | Telecommunication Advancement Organization Of Japan | 部分一致検索方法,その装置,及び部分一致検索プログラムを記録した記録媒体 |
JP2001243245A (ja) * | 2000-03-01 | 2001-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体 |
-
2002
- 2002-11-19 JP JP2002335486A patent/JP4025180B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10134087A (ja) * | 1996-09-06 | 1998-05-22 | Toshiba Corp | 文書要求装置および関連文書の先取り方法 |
JPH1145260A (ja) * | 1997-07-25 | 1999-02-16 | Just Syst Corp | 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体 |
JP2000029660A (ja) * | 1998-04-17 | 2000-01-28 | Xerox Corp | タイムチュ―ブおよび円形木を用いたインタラクティブな活性化拡散視覚化方法、装置並びに媒体 |
JP2000112949A (ja) * | 1998-09-30 | 2000-04-21 | Fuji Xerox Co Ltd | 情報判別支援装置及び類似情報判別支援プログラムを記録した記録媒体 |
JP2000123041A (ja) * | 1998-10-19 | 2000-04-28 | Nippon Telegr & Teleph Corp <Ntt> | 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体 |
JP2000181934A (ja) * | 1998-12-21 | 2000-06-30 | Telecommunication Advancement Organization Of Japan | 部分一致検索方法,その装置,及び部分一致検索プログラムを記録した記録媒体 |
JP2001243245A (ja) * | 2000-03-01 | 2001-09-07 | Nippon Telegr & Teleph Corp <Ntt> | 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP4025180B2 (ja) | 2007-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mooney et al. | Sequential pattern mining--approaches and algorithms | |
Slankas et al. | Automated extraction of non-functional requirements in available documentation | |
CN104115145B (zh) | 生成表示满足搜索准则的对象中的内容实例的标签的显示组的可视化 | |
US9189542B2 (en) | Evidence profiling | |
WO2011078186A1 (ja) | 文書クラスタリングシステム、文書クラスタリング方法および記録媒体 | |
US20110302168A1 (en) | Graphical models for representing text documents for computer analysis | |
US9575947B2 (en) | System and method of automatically mapping a given annotator to an aggregate of given annotators | |
Trappey et al. | An R&D knowledge management method for patent document summarization | |
JP5337308B2 (ja) | 文字列生成方法、プログラム及びシステム | |
Kashmira et al. | Generating entity relationship diagram from requirement specification based on nlp | |
Pruteanu-Malinici et al. | Hierarchical Bayesian modeling of topics in time-stamped documents | |
Elhoseiny et al. | English2mindmap: An automated system for mindmap generation from english text | |
Hedges et al. | The prediction of merged attributes with multiple viewpoint systems | |
JP2011150515A (ja) | テキスト要約装置、テキスト要約方法及びテキスト要約プログラム | |
US20070255666A1 (en) | Hypothesis analysis methods, hypothesis analysis devices, and articles of manufacture | |
CN112632964B (zh) | 基于nlp的行业政策信息处理方法、装置、设备及介质 | |
Lin et al. | A multidimensional sequence approach to measuring tree similarity | |
JP2004171220A (ja) | 文書管理装置および方法 | |
Liu et al. | Automatic Text Summarization Method Based on Improved TextRank Algorithm and K-Means Clustering | |
Zhu et al. | A data cleaning method for heterogeneous attribute fusion and record linkage | |
US11468078B2 (en) | Hierarchical data searching using tensor searching, fuzzy searching, and Bayesian networks | |
Meghana et al. | Sentiment Analysis on Amazon Product Reviews using LSTM and Naive Bayes | |
Long et al. | Multi-document summarization by information distance | |
JP2004171215A (ja) | 文書管理装置 | |
KR20220041337A (ko) | 유사어로 검색어 갱신 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041224 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070130 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070515 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070717 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070829 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071002 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071004 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4025180 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131012 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |