JP4025180B2 - 文書管理装置 - Google Patents

文書管理装置 Download PDF

Info

Publication number
JP4025180B2
JP4025180B2 JP2002335486A JP2002335486A JP4025180B2 JP 4025180 B2 JP4025180 B2 JP 4025180B2 JP 2002335486 A JP2002335486 A JP 2002335486A JP 2002335486 A JP2002335486 A JP 2002335486A JP 4025180 B2 JP4025180 B2 JP 4025180B2
Authority
JP
Japan
Prior art keywords
document
document data
degree
data
management apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002335486A
Other languages
English (en)
Other versions
JP2004171215A (ja
Inventor
英治 村上
真望 木幡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Azbil Corp
Original Assignee
Azbil Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Azbil Corp filed Critical Azbil Corp
Priority to JP2002335486A priority Critical patent/JP4025180B2/ja
Publication of JP2004171215A publication Critical patent/JP2004171215A/ja
Application granted granted Critical
Publication of JP4025180B2 publication Critical patent/JP4025180B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書データを管理する文書管理装置に関し、より詳しくは、形態素解析の結果を利用して文書データを管理する文書管理装置に関する。
【0002】
【従来の技術】
文書の分類および管理は、学問、技術または経済等の各種分野において、仕事の効率化を図るに際し、欠かせない事項である。例えば、ビルやプラントなどの設備管理の場合、特にメンテナンスに関する報告書は、過去に発生した何かの不具合に加え、その不具合への対応策は記載されていることが多い。したがって、新たに発生した不具合と同等の事項が記載されている過去の報告書を検索できれば、この報告書を参考にして処置を執ることができる。このため、従来より、文書の分類および管理を整然と効率よく行うべく、文書管理に関する種々の発明がされている。
【0003】
例えば、テキストマイニング技術を利用して文書中から有利な情報と不利な情報を情報を抽出して文書を分類する発明(特許文献1参照)や、文書中の語および語の頻度に基づいて文書をベクトルで表現し、類似の文書が並ぶように表示する発明(特許文献2参照)などがされている。また、形態素解析を利用するものとしては、形態素に分解された単語の出現頻度を算出し、この出現頻度から文書の特徴を抽出する発明(特許文献3参照)や、単語間の重要度および関連度を形態素に分解された単語の出現頻度等から算出し、これらの重要度と類似度に基づいて文書の類似度の判定を行う発明(特許文献4参照)などがある。
【0004】
なお、出願人は、本明細書に記載した先行技術文献情報で特定される先行技術文献以外には、本発明に関連する先行技術文献を出願時までに発見するには至らなかった。
【0005】
【特許文献1】
特開2002−63338号公報
【特許文献2】
特開2001−514417号公報
【特許文献3】
特開2000−113064号公報
【特許文献4】
特開2000−123041号公報
【0006】
【発明が解決しようとする課題】
しかしながら、上述したような方法は、何れも文書の文脈や意味内容を考慮して文書を分類したものとはいえなかった。例えば、特許文献1に記載された発明では、所定の特性を有する情報のみを抽出し、この情報から類似する文書を分類している。また、特許文献2〜4に記載された発明では、単に特定の単語の出現頻度から文書が類似しているか否かを判断している。文書とは、一般的に文脈や単語の配列および構成等に、文書作成者の意図や思想が色濃く反映されるものである。したがって、上述したような方法では、文書作成者の文意をくみ取って、文書を分類することができなかった。
そこで、本発明は、上述したような課題を解決するためになされたものであり、文書の文脈や意味内容を反映させて文書を分類および管理することができる文書管理装置を提供することを目的とする。
【0007】
【課題を解決するための手段】
上述したような課題を解決するために、本発明にかかる文書管理装置は、文書データを形態素解析する形態素解析手段と、一の文書データと他の文書データとの重複度を、それぞれが有する形態素に基づいて算出する重複度算出手段と、重複度と閾値から一の文書データと他の文書データとの類似度を算出する類似度算出手段とを備えたことを特徴とする。この文書管理装置によれば、一の文書と他の文書との類似度は、それぞれの文書に含まれる形態素の重複度と、閾値に基づいて算出される。
【0008】
上記文書管理装置において、類似度に基づいて一の文書データと他の文書データとの関係を表示装置に表示させるデータを生成する可視化手段をさらに備えるようにしてもよい。この文書管理装置によれば、一の文書データと他の文書データとの関係は、表示装置に表示される。
【0009】
上記文書管理装置において、複数の文書データを格納する文書DBをさらに備え、重複度算出手段は、複数の文書データそれぞれの間の重複度を算出し、類似度算出手段は、複数の文書データそれぞれの間の類似度を算出し、可視化手段は、複数の文書データの関係を表示手段に表示させるデータを生成するようにしてもよい。この文書管理装置によれば、複数の文書データそれぞれの関係が、表示装置に表示される。
【0010】
上記文書管理装置において、重複度算出手段は、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致するか否かにより重複度を算出するようにしてもよい。
また、上記文書管理装置において、重複度算出手段は、一の文書データが有する複数の形態素を所定の順序で配列したものの一部分と、他の文書データが有する複数の形態素を所定の順序で配列したものの一部分とを比較し、これらが一致しない場合は、一部分に含まれる形態素の数を減らし、再度比較を行うようにしてもよい。
【0011】
上記文書管理装置において、二つの文書データ間の重複度または類似度を記録する記録手段をさらに備えるようにしてもよい。
また、上記文書管理装置において、閾値の設定を変更する設定手段をさらに備えるようにしてもよい。
【0012】
【発明の実施の形態】
以下、図面を参照して、本発明にかかる文書管理装置の実施の形態について、詳細に説明する。図1は本実施の形態にかかる文書管理装置の構成を示すブロック図である。
【0013】
本実施の形態にかかる文書管理装置1は、CPU等の演算装置、メモリ、HDD等の記憶装置、外部との情報の送受を行うI/F装置、CRT(Cathode Ray Tube)、LCD(Liquid Crystal Display)またはFED(Field Emission Display)等の表示装置を備えたコンピュータと、このコンピュータにインストールされたプログラムおよび電子辞書とから構成され、上記ハードウェア資源がプログラムによって制御される。すなわちハードウェア装置とソフトウェアが協働することによって、形態素解析部12と、重複度を算出する重複度算出部13と、類似度を算出する類似度算出部14と、文書データ間の関係を表示手段に表示させるデータを生成する可視化部15とが実現される。記憶装置は、文書データ等を格納する文書DB16を有する。
【0014】
I/F11は、LAN(Local Area Network)、WAN(Wide Area Network)またはインターネット等の各種ネットワークや通信回線等に接続され、外部と文書データ、可視化データ等の各種情報の送受信を行う。外部よりI/F11を介して入力された文書データは、文書DB16に記憶される。
【0015】
形態素解析部12は、文書データより具体的には文書データに含まれる文字列を形態素解析し、文書データに含まれる文字列を単語とその単語の品詞からなる形態素に分解する。ここで、図2は、形態素解析の様子を示す図である。例えば、「私は花が好き」という文字列を形態素解析すると、図2に示すように、「私」、「は」、「花」、「が」、「好き」という単語と、これらの単語の品詞とから構成される形態素に分解することができる。形態素解析部12は、このようにして得られた複数の形態素を所定の順序で配列する。図3は、形態素の配列の様子を示す図である。この文書データごとに得られた形態素の配列を、便宜上、特徴ベクトルということにする。
【0016】
ここで、特徴ベクトルにおける形態素の配列は、出現順に配列してもよいし、または出現頻度順に配列してもよい。例えば、図3に示すように、「明日、山武の藤沢工場で午後1時から打ち合わせ。山武の担当者は、村上様と木幡様。山武の藤沢工場は、藤沢駅から徒歩10分。」という文字列を形態素に分解し、出現順と出現頻度順のそれぞれに配列した場合について説明する。
出現順に配列する場合は、元の文字列の配列のままに形態素を配列する。したがって、出現順に形態素を配列場合は、元の文章データの単語の配列通りに形態素も配列されるので、文章の流れを重視した特徴ベクトルが生成される。
なお、特徴ベクトルを生成するにあたっては、形態素を出現順に配列する代わりに、出現頻度順に配列してもよい。出現頻度順に配列する場合は、文字列の中で出現頻度が高い形態素の順に配列する。図3の場合は、「山武」、「の」、「藤沢」という3つの単語が3回ずつ出現しているので、この3つの単語を含む形態素から配列することになる。なお、出現回数が同じ形態素は、出現順に配列する。このように出現頻度順に形態素を配列する場合は、出現頻度の高い形態素から配列されるので、文章のテーマや内容が重視された特徴ベクトルが生成される。
本実施の形態では、出現順に配列して説明する。
【0017】
上述した形態素解析部12により生成された特徴ベクトルは、文書データと対応づけられて文書DB16に記録される。
【0018】
重複度算出部13は、形態素解析部12により生成された一の文書の特徴ベクトルと、文書DB16に格納されている他の文書の特徴ベクトルとの重複度を算出し、例えば一の文書データと他の文書データとの関係を示すマトリックスのような形態で文書DB16に記録する。この重複度とは、二つの文書間で共通する形態素がどの程度存在するかを数値化したものであり、より厳密には、一の文書から他の文書を見たときに、一の文書より得られた全形態素に対し他の文書より得られた形態素と一致する形態素の割合のことをいう。この重複度の算出方法について、以下に説明する。
【0019】
まず、特徴ベクトルを二つの文書間で比較し、共通する形態素の数をカウントする。ここで、特徴ベクトル同士を比較するにあたっては、形態素を1つ1つ比較してもよいし、所定の数ごとに比較してもよい。所定の数ごとに比較するとは、換言するならば、特徴ベクトルの所定の順序で配列されたN個(Nは2以上の自然数)の形態素の全部または一部分を単位に比較を行うことということができる。ここで所定の数をn(nは2以上N以下の任意の自然数)とすると、特徴ベクトルを構成する形態素の配列のうち、n個の形態素からなる配列の一部(以下「n次の部分特徴ベクトル」という)同士を比較していく。一致した場合には、n個の形態素が一致することになる。
【0020】
具体的には、一の文書から得られた特徴ベクトルと他の文書から得られた特徴ベクトルとを比較する場合には、まず、一の文書からN個の形態素からなる特徴ベクトルのうち、1番目からn番目までのn個の形態素からなる配列、すなわち部分特徴ベクトルを選択し、他の文書から得られたM個の形態素(Mはn以上の自然数)からなる特徴ベクトルのn次の部分特徴ベクトルと比較を行う。この場合、一致する場合には、n個の形態素が一致したことになる。同様に、一の文書から得られた特徴ベクトルの2番目からn+1番目の形態素からなる部分特徴ベクトル、・・・、N−n+1番目からN番目の形態素からなる部分特徴ベクトルのそれぞれについて他の文書から得られた特徴ベクトルとの比較、照合を行っていく。
【0021】
このように部分特徴ベクトルを単位として比較、照合を行うことにより、重複度に文脈や表現の共通性を反映させることができる。
また、n個の部分特徴ベクトルについて比較、照合の結果、2つの文書間に一致するものが存在しなかった場合は、部分特徴ベクトルの次数nを1だけ減じた上で、(n−1)次の部分特徴ベクトルについて、上述したアルゴリズムに従って再度比較、照合を行う。このように一致する部分特徴ベクトルが見つかるか、またはn=1となるまでnの値を減じながら、比較、照合を繰り返す。
【0022】
例えば、図4に示すように、「私は花が好き」という文字列を有する一の文書の特徴ベクトル▲1▼(N=5)と、「花が好き」という文字列を有する他の文書の特徴ベクトル▲2▼(M=3)とを比較する場合について考えてみる。
形態素を1つ1つ比較する(すなわちn=1)場合は、形態素ごと、すなわち一語ずつ比較する(丸付番号11〜15に対応)ので、2つの文書に共通な形態素「花」、「が」、「好き」のそれぞれについて一致し(丸付番号13、14、15)、共通の形態素の数が3つということになる。
【0023】
一方、所定の数ごとに比較する場合は、例えば、一の文書の特徴ベクトル▲1▼全体を単位に(この場合、n=N=5)比較、照合を行うことも考えられる。この場合、一の文書の特徴ベクトル▲1▼全体は他の文書の特徴ベクトル▲2▼には存在しないので、一の文書の特徴ベクトル▲1▼から抽出する部分特徴ベクトルの次数をn=4として、比較、照合を行う(丸付番号2、3)。そして、n=3とした場合、特徴ベクトル▲1▼から得られる3次の部分特徴ベクトル{「私」、「は」、「花」}、{「は」、「花」、「が」}、{「花」、「が」、「好き」}についてこの順に特徴ベクトル▲2▼と照合を行う(丸付番号4、5、6)。この場合、部分特徴ベクトル{「花」、「が」、「好き」}(丸付番号6)が他の文書の特徴ベクトル▲2▼全体と一致し、これ以外には一致する特徴ベクトルは存在しないので、比較、照合を終了し、共通の形態素数は3となる。
【0024】
なお、本実施の形態においては、出現順に形態素を配列したものを各文書の特徴ベクトルとした。また、所定の数ごとに比較する場合として、所定の数nの初期値をn=Nとして比較、照合を行うように説明したが、この初期値nは任意に設定することができる。
【0025】
次いで、カウントされた二つの文書間に共通する形態素の数を、一の文書から得られた形態素の総数で除し、この商が重複度となる。例えば、上述した図4の場合について重複度を算出してみると、特徴ベクトル▲1▼の形態素数が5、特徴ベクトル▲2▼の形態素数が3、共通の形態素が3なので、特徴ベクトル▲1▼から特徴ベクトル▲2▼を比較した場合の重複度は3/5となり、特徴ベクトル▲2▼から特徴ベクトル▲1▼を比較した場合の重複度は3/3すなわち1となる。
【0026】
類似度算出部14は、重複度算出部13が算出した重複度に基づいて、形態素解析部12が形態素に分解した一の文書データと、文書DB16に格納されている他の文書データとの類似度を算出し、例えば一の文書データと他の文書データとの関係を示すマトリックスのような形態で文書DB16に記録する。なお、類似度とは、二つの文書の内容が共通性を有するか否かを示す指標のことを意味する。この類似度の算出方法について、以下に説明する。
【0027】
類似度算出部14は、重複度算出部13が算出した重複度が所定の閾値以上の場合は二つの文章は類似するものとして類似度1を与え、閾値に及ばない場合は類似していないものとして類似度0を与える。
例えば、図4に示した特徴ベクトル▲1▼と特徴ベクトル▲2▼との場合、閾値を0.7とすると、特徴ベクトル▲1▼から特徴ベクトル▲2▼を比較した場合の重複度は3/5すなわち0.6であるため、類似度は0となる。同様に、特徴ベクトル▲2▼から特徴ベクトル▲1▼を比較した場合の重複度は1であるため、類似度は1となる。このようにして算出された類似度は、例えば図5に示すような特徴ベクトル同士、すなわち文書データ同士の類似度を表すマトリックスとして文書DB16に記録される。
なお、閾値は、適宜自由に設定することができる。
【0028】
可視化部15は、文書DB16に記録されている類似度に基づいて、I/F11が受信した一の文書データと文書DB16に格納されている他の文書データとの関係を示す可視化データを生成し、I/F11を介して表示装置に送出する。ここで、図5は、類似度をマトリックス表示した図、図6は、2項グラフを表す図である。可視化データとしては、例えば図5に示すようなマトリックス、図6に示すような文書データを表すノードと、このノードを結ぶリンクとからなる2項グラフ等のデータがあげられる。ここで、ノード6aとノード6bに対応する文書データの相互の類似度が1である場合、図6(a)に示すように、ノード6a、6bはリンク7aで結ばれる。一方、ノード6cとノード6dに対応する文書データの少なくとも一方の類似度が0の場合、図6(b)に示すように、ノード6cとノード6dはリンクで結ばれない。
【0029】
文書DB(Data Base)16は、I/F11を介して外部から受信した一の文書データと、この文書データから形態素解析部12により生成された特徴ベクトルを対応づけて記録する。また、文書DB16は、一の文書データと他の文書データとの重複度および類似度を、例えば図5に示すようなマトリックスのような形態で記録する。
【0030】
次に、本実施の形態にかかる文書管理装置1の動作について図7、8を参照して説明する。図7は本実施の形態にかかる文書管理装置1の動作を示すフローチャート、図8は類似度をグラフィック表示した図である。なお、文書DB16には、n(任意の自然数)個の文書データ、n個の文書データそれぞれの特徴ベクトル、n個の文書データそれぞれの間の重複度および類似度が記録されているものとする。
【0031】
外部から文書データが入力されると、文書管理装置1は、形態素解析部12により、その文書データから特徴ベクトルを生成する(ステップS701)。ここで、外部から入力された文書データとこの文書データに基づいて生成される特徴ベクトルは、外部から文書データが入力されるたびに文書DB16に格納される。これにより、文書DB16は、外部から文書データが入力されるだけで自然的に成長するため、使い勝手がよい。
【0032】
外部から入力された文書データ(一の文書データ)の特徴ベクトルを生成すると、文書管理装置1は、重複度算出部13により、その特徴ベクトルと文書DB16に格納されているn個の文書データの特徴ベクトルそれぞれとの重複度を算出する(ステップS702)。この算出した重複度は、一の文書データとn個の文書データそれぞれとの重複度の関係を示す例えばマトリックスのような形態で文書DB16に記録される。
【0033】
重複度を算出すると、文書管理装置1は、類似度算出部14により、その重複度と閾値に基づいて一の文書データとn個の文書データそれぞれとの類似度を算出する(ステップS703)。この算出した類似度は、一の文書データとn個の文書データそれぞれとの重複度の関係を示す例えば図5に示すようなマトリックスのような形態で文書DB16に記録される。
【0034】
類似度が算出されると、文書管理装置1は、可視化部15により、その類似度に基づいて例えば図8に示す2項グラフのような可視化データを作成する(ステップS704)。図8において、リンクで結ばれているノードに対応する文書データ同士は互いに対して類似度が1であり、リンクで結ばれていないノードに対応する文書データ同士は互いまたは一方が類似度が0であることを意味する。例えば、ノード8aは、リンク9a、9bによりノード8b、8cと結ばれているので、ノード8b、8cと互いに類似度が1であることがわかる。一方、ノード8bとノード8cは、リンクで結ばれていないので、互いまたはどちらか一方が類似度が0であるということになる。
【0035】
なお、可視化データは、多数のノードと接続されているノードや複数のノードが複雑に接続されているノードの集合体等に、これらのノードの文書データに共通する代表値やキーワード等を併せて表示するようにしてもよい。例えば、ノード8dと、これに接続されている4つのノードとの共通のキーワードが「藤沢」の場合、図8に示すように、ノード8d近傍には「藤沢」というキーワードが表示される。これにより、利用者は、ノードの集合体の特徴を一目で確認することができる。
また、可視化データは、3次元のグラフィックデータとすることもできる。これにより、ノードの接続の様子をより正確に詳しく表示することができる。
【0036】
可視化データを生成すると、文書管理装置1は、I/F11を介してその可視化データを表示装置に送出する(ステップS705)。これにより利用者は、表示装置に表示された2項グラフ等により、一つの文書データと他の文書データとの関係または複数の文書データ間の関係を一目で識別することができるため、一の文書データと他の文書データとの関係がわかりやすい。
【0037】
なお、ステップS703において、閾値は、適宜自由に変更することができるようにしてもよい。例えば、表示装置に可視化データを表示した際に、リンクが多すぎるまたは少なすぎるために文書データの類似関係が把握しづらい場合に、閾値を適宜変更することにより、可視化データを見やすくし、文書データ間の類似関係を容易に把握できるようにすることができる。
【0038】
【発明の効果】
以上説明したように、本発明によれば、文書データを形態素解析し、一の文書データと他の文書データとの重複度をそれぞれが有する形態素に基づいて算出し、その重複度に基づいて一の文書データと他の文書データとの類似度を算出することにより、一の文書データと他の文書データとの関係を文書の文脈や意味内容を反映させて文書を分類および管理することができる。
【0039】
また、本発明によれば、可視化手段を備えることにより、一の文書データと他の文書データとの関係をわかりやすく表示することができる。
さらに、本発明によれば、複数の文書データを格納する文書DBを備えうることにより、複数の文書データそれぞれの関係を文書の文脈や意味内容を考慮して文書を分類および管理することができ、かつ複数の文書データ間の関係をわかりやすく表示することができる。
【0040】
また、本発明によれば、重複度算出手段が、一の文書データの所定の配列および数の形態素と、所定の配列および数の他の文書データの形態素が一致するか否かにより重複度を算出し、所定の数は、一の文書データと他の文書データの形態素が一致するまで徐々に減らすようにすることにより、文書の文脈や意味内容を反映させて一の文書データと他の文書データとの重複度を算出することができる。
さらに、本発明によれば、設定手段を設けることにより、閾値の設定を適宜変更し、類似度を変化させることができるので、文書データの分類および管理ならびに表示装置に表示させる一の文書データと他の文書の関係または複数の文書データの関係を調整することができる。
【図面の簡単な説明】
【図1】 本実施の形態にかかる文書管理装置1の構成を示すブロック図である。
【図2】 形態素解析の様子を示す図である。
【図3】 形態素の配列の様子を示す図である。
【図4】 特徴ベクトルの比較の様子を示す図である。
【図5】 類似度をマトリックス表示した図である。
【図6】 2項グラフを表す図である。
【図7】 本実施の形態にかかる文書管理装置1の動作を示すフローチャートである。
【図8】 類似度をグラフィック表示した図である。
【符号の説明】
1…文書管理装置、6a〜6d、8a〜8g…ノード、7、9a〜9g…リンク、11…I/F、12…形態素解析部、13…重複度算出部、14…類似度算出部、15…可視化部、16…文書DB。

Claims (5)

  1. 文書データを形態素解析する形態素解析手段と、
    一の文書データと他の文書データとに共通する形態素の数をそれぞれの文書データに含まれる形態素の数で除した重複度を求める重複度算出手段と、
    前記重複度と所定の閾値とから、二つの文書データが類似しているか否かの指標を示す類似度を求める類似度算出手段と
    を備えた文書管理装置であって、
    前記重複度算出手段は、
    前記一の文書データが有する複数の形態素を出現順または出現頻度順の順序で配列した部分特徴ベクトルと、前記他の文書データが有する前記部分特徴ベクトルとを比較し、これらが一致するか否かにより前記重複度を算出し、
    前記一の文書データの前記部分特徴ベクトルと、前記他の文書データの前記部分特徴ベクトルとが一致しない場合は、前記一の文書データの前記部分特徴ベクトルに含まれる形態素の数を減らした上で再度比較を行い、さらに前記一の文書データの前記部分特徴ベクトルの先頭の形態素の順位を順次繰り下げて比較を繰り返す
    ことを特徴とする文書管理装置。
  2. 請求項1記載の文書管理装置において、
    前記類似度に基づいて前記一の文書データと前記他の文書データとの関係を表示装置に表示させるデータを生成する可視化手段
    をさらに備えたことを特徴とする文書管理装置。
  3. 請求項1または2記載の文書管理装置において、
    複数の前記文書データを格納する文書DBをさらに備え、
    前記重複度算出手段は、複数の前記文書データそれぞれの間の前記重複度を算出し、
    前記類似度算出手段は、複数の前記文書データそれぞれの間の前記類似度を算出し、
    前記可視化手段は、複数の前記文書データの関係を表示手段に表示させるデータを生成する
    ことを特徴とする文書管理装置。
  4. 請求項1ないし3の何れか1項に記載の文書管理装置において、
    二つの前記文書データ間の前記重複度または前記類似度を記録する記録手段
    をさらに備えることを特徴とする文書管理装置。
  5. 請求項1ないしの何れか1項に記載の文書管理装置において、
    前記閾値の設定を変更する設定手段
    をさらに備えたことを特徴とする文書管理装置。
JP2002335486A 2002-11-19 2002-11-19 文書管理装置 Expired - Fee Related JP4025180B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002335486A JP4025180B2 (ja) 2002-11-19 2002-11-19 文書管理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002335486A JP4025180B2 (ja) 2002-11-19 2002-11-19 文書管理装置

Publications (2)

Publication Number Publication Date
JP2004171215A JP2004171215A (ja) 2004-06-17
JP4025180B2 true JP4025180B2 (ja) 2007-12-19

Family

ID=32699607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002335486A Expired - Fee Related JP4025180B2 (ja) 2002-11-19 2002-11-19 文書管理装置

Country Status (1)

Country Link
JP (1) JP4025180B2 (ja)

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3486077B2 (ja) * 1996-09-06 2004-01-13 株式会社東芝 文書要求装置および関連文書の先取り方法
JPH1145260A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 文書管理支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US6151595A (en) * 1998-04-17 2000-11-21 Xerox Corporation Methods for interactive visualization of spreading activation using time tubes and disk trees
JP3921837B2 (ja) * 1998-09-30 2007-05-30 富士ゼロックス株式会社 情報判別支援装置、情報判別支援プログラムを記録した記録媒体及び情報判別支援方法
JP3577972B2 (ja) * 1998-10-19 2004-10-20 日本電信電話株式会社 類似度判定方法及び文書検索装置及び文書分類装置及び文書検索プログラムを格納した記憶媒体及び文書分類プログラムを格納した記憶媒体
JP2000181934A (ja) * 1998-12-21 2000-06-30 Telecommunication Advancement Organization Of Japan 部分一致検索方法,その装置,及び部分一致検索プログラムを記録した記録媒体
JP3628580B2 (ja) * 2000-03-01 2005-03-16 日本電信電話株式会社 類似文検索方法、装置、および類似文検索プログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2004171215A (ja) 2004-06-17

Similar Documents

Publication Publication Date Title
CN101582080B (zh) 一种基于图像和文本相关性挖掘的Web图像聚类方法
CN109902159A (zh) 一种基于自然语言处理的智能运维语句相似度匹配方法
US9575947B2 (en) System and method of automatically mapping a given annotator to an aggregate of given annotators
CN110287325A (zh) 一种基于智能语音分析的电网客服业务推荐方法及装置
CN103902642A (zh) 利用歌词与旋律之间的相关性的音乐作曲系统
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
JP6061337B2 (ja) 規則生成装置及び抽出装置
JP5235918B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
Nevill-Manning et al. On-line and off-line heuristics for inferring hierarchies of repetitions in sequences
Huynh et al. Efficient algorithms for mining clickstream patterns using pseudo-IDLists
Gan et al. Explainable fuzzy utility mining on sequences
CN110851584B (zh) 一种法律条文精准推荐系统和方法
Hedges et al. The prediction of merged attributes with multiple viewpoint systems
Wu et al. Discovering hybrid temporal patterns from sequences consisting of point-and interval-based events
Mannila et al. Prediction with local patterns using cross-entropy
Kogilavani et al. Clustering based optimal summary generation using genetic algorithm
JP4025181B2 (ja) 文書管理装置
Hingston Using finite state automata for sequence mining
CN112632964A (zh) 基于nlp的行业政策信息处理方法、装置、设备及介质
CN112016294A (zh) 一种基于文本的新闻重要性评估方法、装置及电子设备
Alipanah et al. Ontology-driven query expansion methods to facilitate federated queries
JP4025180B2 (ja) 文書管理装置
Cowans Probabilistic document modelling
Poyraz et al. A novel semantic smoothing method based on higher order paths for text classification
JP4671440B2 (ja) 評判関係抽出装置、その方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041224

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070130

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070402

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070717

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070829

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071004

R150 Certificate of patent or registration of utility model

Ref document number: 4025180

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131012

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees