JP2016133817A

JP2016133817A - 類似性判定装置、類似性判定方法および類似性判定プログラム

Info

Publication number: JP2016133817A
Application number: JP2015005875A
Authority: JP
Inventors: 小櫻　文彦; Fumihiko Kozakura; 文彦小櫻; 伊藤　孝一; Koichi Ito; 孝一伊藤
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2015-01-15
Filing date: 2015-01-15
Publication date: 2016-07-25
Anticipated expiration: 2035-01-15
Also published as: EP3046037A1; JP6507657B2; US10025784B2; US20160210339A1

Abstract

【課題】判定精度を落とさずにデータ量を削減すること。【解決手段】判定装置１００は、特徴抽出部１５０ｂと、類似性判定部１５０ｃを有する。特徴抽出部１５０ｂは、テキストのキーワードの出現回数を計数し、出現回数が少ないキーワードＬのペアとなる特徴Ｌ−Ｌを特定する。特徴抽出部１５０ｂは、テキストの一定範囲内に含まれる特徴の数が一定数以上となる条件のもと、特徴Ｌ−Ｌを削除する処理を、各テキストについて実行する。類似性判定部１５０ｃは、検索対象のテキストの特徴と、特徴Ｌ−Ｌを除いた各テキストの特徴とを比較して、類似性を判定する。【選択図】図１５

Description

本発明は、類似性判定装置等に関する。

現在、企業では情報漏洩対策のために様々なログを収集し情報漏洩の原因を調査している。例えば、情報漏洩した情報に類似するファイルを選び出し、情報漏洩の原因を調査するアプローチがある。この調査を行うためには、文書閲覧や保存等のファイル操作時に取得するログについて、捜査されたファイルを原文ではなく原文の特徴を表すフィンガープリント（Finger Print）としてファイルの特徴を取得する。以下、フィンガープリントをＦＰと表記する。

例えば、社外秘の機密情報を含むファイルを見つけた場合に、係るファイルのＦＰと、社内の閲覧ログファイルに登録されたＦＰとを比較することで、漏洩したファイルに類似しているログ中のファイルを検索することが可能になる。また、漏洩した情報に類似しているログ中のファイルの操作履歴を追うことで、情報漏洩の原因を特定することもできる。

ＦＰについて具体的に説明する。ＦＰは、ファイルの特徴を抽出する技術である。図２７は、ＦＰを説明するための図である。例えば、ファイル中のテキストからキーワードとその並びを抽出し、特定範囲内のキーワードの向きつきの並びを特徴とする。例えば、ある第１テキストとして「キーワード１はキーワード２とキーワード３とキーワード４である」が存在した場合に、かかる第１テキストの特徴は、図２７の特徴１０ａに示すように、６つのキーワードの組となる。

ＦＰでは、特徴の一致数を基にして、テキスト間の類似性を判定する。例えば、第２テキストの特徴が、図２７の特徴１０ｂであるものとする。第１テキストの特徴１０ａと、第２テキストの特徴１０ｂとを比較すると、特徴１０ｂに含まれる５つのキーワードの組のうち、４つのキーワードの組が、特徴１０ａのキーワードの組と一致する。具体的には「キーワード１→キーワード２、キーワード１→キーワード３、キーワード１→キーワード４、キーワード３→キーワード４」が一致する。この一致数が多いほどお互いに類似したテキストであるといえる。

特徴をデータとして扱う際には、キーワードのままでは扱いにくい。このため、キーワードをハッシュ化し、定数ｎによる余剰演算（ｍｏｄ）を実行し範囲を狭めたハッシュ値にすることで、テキストの特徴をｎ×ｎの有効グラフで表現する。以下において、ハッシュ値を定数ｎでｍｏｄした値と定義する。ｍｏｄする前のハッシュ値を、中間ハッシュ値と定義する。

例えば、ｎの値を１００００程度にした上でキーワードをハッシュ化する場合には、異なるキーワード間で同一のハッシュ値になる可能性があり、精度が低下する場合がある。しかし、特徴をキーワードの組としているため、異なるキーワード間で多少同一のハッシュ値になったとしても、特徴に含まれるキーワードの組の両方の値が、異なるテキスト間で同一のハッシュ値に変換される確率は低い。

図２８は、ｎ×ｎの有効フラグで類似性を判定する処理の一例を示す図である。図２８のＦＰ１１ａは、テキストＡのＦＰをｎ×ｎの有効グラフで表したものである。ＦＰ１１ｂは、テキストＢのＦＰをｎ×ｎの有効グラフで表したものである。例えば、テキストＡについて、キーワードの組「キーワード１→キーワード２」が含まれ、キーワード１のハッシュ値が「０」、キーワード２のハッシュ値が「２」であるものとする。この場合には、ＦＰ１１ａについて、「０」の行と「２」の列とが交差する部分の値が「１」に設定される。

ＦＰ１１ａとＦＰ１１ｂとの間のａｎｄを取ることで、比較結果１１ｃが得られる。比較結果１１ｃに含まれる「１」の数が、テキストＡとテキストＢとの類似性を示す値となる。図２８に示す例では、テキストＡとテキストＢとの類似性は「４」となる。

特開２０１０−２３１７６６号公報特開２０１４−１１５７１９号公報国際公開第２００６／０４８９９８号

上述した従来技術では、例えば、１対１のテキストの比較であれば、図２８で説明したように、ＦＰ同士をａｎｄすることで、類似性を判定することができる。これに対して、漏洩した情報に類似したテキストをログ中の複数のファイルから検索する場合には、１対多のテキストの比較を行うことになる。この場合には、一般的に１対１の比較を繰り返すのではなく、転置インデックスを用いて、各テキストの比較を行う。

図２９は、転置インデックスを用いた比較を説明するための図である。図２９について、ＦＰ１２は、検索テキストのＦＰを示すものである。ＦＰ１２に含まれる各特徴は、検索テキストに含まれるキーワードの組から算出されるハッシュ値である。転置インデックス１３は、ログ中に含まれる複数のテキストの転置インデックスであり、特徴と文書識別子とを対応付ける。転置インデックス１３の特徴は、テキストに含まれるキーワードの組から算出されるハッシュ値である。文書識別子は、テキストを一意に識別する情報である。例えば、転置インデックス１３の１行目を参照すると、文書識別子「００１、００３、００７、・・・」により識別される各ファイルが、特徴「４８４８９３」を有していることを示す。

ＦＰ１２と転置インデックス１３とを比較すると、比較結果１４が得られる。例えば、比較結果１４は、文書識別子と特徴量とを対応付ける。このうち、特徴量は、該当テキストに含まれる特徴のうち、検索テキストＦＰ１２と一致する特徴の数を示すものであり、特徴量が多いほど、類似性が高いことを示す。

ここで、転置インデックスで扱うデータ量が主記憶のデータ量を超えてしまうと、データ量の増加に伴い検索コストがかかるようになる。なお、転置インデックスのデータを単純に削除すると、テキストの特徴部分が失われる場合があり、検索精度が低下してしまう。このため、判定精度を落とさずにデータ量を削減することが求められる。

１つの側面では、本発明は、判定精度を落とさずデータ量を削減することができる類似性判定装置、類似性判定方法および類似性判定プログラムを提供することを目的とする。

第１の案では、類似性判定装置は、特徴抽出部と、類似性判定部とを有する。特徴抽出部は、文書情報に含まれる各キーワードの出現回数を計数する。特徴抽出部は、文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件で下記の処理を実行する。特徴抽出部は、出現回数が閾値未満となるキーワードを含む配列を削除した後に、文書情報から複数のキーワードの配列を特徴として抽出する処理を実行する。類似性判定部は、互いに異なる文書情報から抽出された特徴を比較して、異なる文書情報間の類似性を判定する。

判定精度を落とさずにデータ量を削減することができる。

図１は、ＦＰの特性を説明するための図（１）である。図２は、ＦＰの特性を説明するための図（２）である。図３は、ＦＰの特性を説明するための図（３）である。図４は、ＦＰの特性を説明するための図（４）である。図５は、本実施例に係る判定装置の処理を説明するための図（１）である。図６は、キーワードと出現回数との関係を示す図である。図７は、特徴を構成するキーワードのペアの比率を示す図（１）である。図８は、特徴を構成するキーワードのペアの比率を示す図（２）である。図９は、比率および削減率の関係の一例を示す図である。図１０は、テキストに含まれるキーワードＨとキーワードＬとの分布の一例を示す図である。図１１は、本実施例に係る判定装置の処理を説明するための図（２）である。図１２は、残す対象とする特徴Ｌ−Ｌを説明するための図である。図１３は、本実施例に係るシステムの構成を示す図である。図１４は、検索入力画面の一例を示す図である。図１５は、本実施例に係る判定装置の構成を示す機能ブロック図である。図１６は、ファイル操作ログのデータ構造の一例を示す図である。図１７は、テキストテーブルのデータ構造の一例を示す図である。図１８は、リストテーブルのデータ構造の一例を示す図である。図１９は、転置インデックスのデータ構造の一例を示す図である。図２０は、類似性判定部の処理の一例を説明するための図である。図２１は、検索結果の一例を示す図である。図２２は、本実施例に係るシステムの処理手順を示すフローチャートである。図２３は、本実施例に係る判定装置の処理手順を示すフローチャートである。図２４は、Ｓ２０７およびＳ２０８の処理手順を具体的に示すフローチャートである。図２５は、ステップＳ３０３の処理手順を具体的に示すフローチャートである。図２６は、判定プログラムを実行するコンピュータの一例を示す図である。図２７は、ＦＰを説明するための図である。図２８は、ｎ×ｎの有効フラグで類似性を判定する処理の一例を示す図である。図２９は、転置インデックスを用いた比較を説明するための図である。

以下に、本願の開示する類似性判定装置、類似性判定方法および類似性判定プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。

フィンガープリントの特定について説明する。以下の説明では、フィンガープリントをＦＰと表記する。図１〜図４は、ＦＰの特性を説明するための図である。例えば、図１に示すように、キーワードｋ１とキーワードｋ２との特徴ｔ１が複数個出現した場合には、１つにまとめられる。このため、各キーワードの配列を示す特徴は出現回数を持っているがＦＰのデータ上では、図２に示すような情報に丸められ、出現回数の情報は削除される。

図２において、各キーワード横の括弧内の数字は、テキストに含まれるキーワードの出現回数を示す。例えば、キーワードｋ１（５０）は、テキストに含まれるキーワードｋ１の出現回数が、５０回であることを示す。

図２に示す特徴の出現回数は、テキストに含まれるキーワードの配列が出現する回数を示す。例えば、特徴ｔ１に対応するキーワードｋ１とキーワードｋ２との配列がテキスト上に３０回出現することが示される。なお、ＦＰのデータ上では、係る出現回数の情報は削除され、出現回数については、各特徴の間で区別されない。なお、図２に示す例では、各特徴が、特徴の出現回数の昇順で並べられている。

ここで、図２に示す状態からＦＰの情報を削減するための一番単純な方法としては、ＦＰからランダムに削除する方法が考えられる。図３では、ＦＰからランダムに特徴を削除する場合を示す。例えば、図３に示す例では、特徴ｔ１、ｔ２、ｔ９８、ｔ９９がランダムに選択され、削除されている。しかしながら、特徴をランダムに選択して削除すると、出現回数の多い特徴が削除されてしまう可能性があり、これにより多くの特徴が失われる可能性が高い。例えば、図３の特徴ｔ１は、特徴の出現回数が、他の特徴よりも多いため、かかる特徴ｔ１は、テキストの主要な特徴であるといえる。しかしながら、特徴ｔ１が選択され、削除されてしまうと、ＦＰからテキストの主要な特徴が失われる。

図３で説明した問題を解消するべく、図４に示す方法が考えられる。例えば、出現回数の多い特徴よりも、出現回数の少ない特徴を削除する方法がある。この場合には、出現回数の多い特徴を残すことができるが出現回数の少ないキーワードを含む特徴が削除されるが、この出現回数の少ない特徴は、他のテキストとの違いを表す特徴であることが多い。このため、単純に出現回数の少ない特徴を削除すると、各テキスト間の類似性が高くなり、類似性を判定するための精度が低下する。

次に、本実施例に係る判定装置の処理の一例について説明する。判定装置は、類似性判定装置の一例である。判定装置は、出現回数の低いキーワードを含む特徴を残しつつ、出現回数の低いキーワードを含む特徴を削除することで、類似性判定の精度を落とさずに、ＦＰのデータ量を削減する。

図５は、本実施例に係る判定装置の処理を説明するための図である。図５に示すように、判定装置は、特徴の出現回数に基づいて、特徴の出現回数が閾値以下となる特徴ｔ９８，ｔ９９，ｔ１００を削除対象候補として選択する。判定装置は、削除対象候補の特徴のうち、特徴を削除しても特徴の有するキーワードが他の特徴で補完できる特徴を削除する。

例えば、図５に示す例では、特徴ｔ１００のキーワードｋＢは、特徴ｔ９９に存在する。特徴ｔ１００のキーワードｋＡは、特徴ｔ９８に存在する。特徴ｔ１００の有するキーワードは他の特徴ｔ９８，ｔ９９で補完することができるため、判定装置は特徴ｔ１００を削除する。

ここで、図５に示した判定装置の処理では、出現回数が閾値以下となる特徴を削除対象候補とし、削除対象候補の特徴のうち、他の特徴で補完可能な特徴を削除する処理を行う例を示した。この処理は、データ量を削除する点においては、よい処理であるが、削除対象を細かく確認するため、処理負荷が大きくなる場合がある。以下においては、図５で説明した処理と同じ考え方で削除対象を細かく確認する処理を省いた、判定装置の処理の一例について説明する。

図５で説明した処理では、特徴の出現回数を基に削除する特徴を絞り込んだが、キーワードの出現回数に着目して処理を行ってもよい。判定装置は、テキスト内に出現するキーワードの出現回数をキーワード毎に計数し、出現回数を基にしてキーワードをグループＨまたはグループＬに分類する。

図６は、キーワードと出現回数との関係を示す図である。図６の縦軸は出現回数を示し、横軸はキーワードに対応する。例えば、キーワードは、出現回数の多いものから順に左側から右側に並ぶ。図６の分割ポイント２０よりも左側のキーワードは、グループＨに属する。分割ポイント２０よりも右側のキーワードは、グループＬに属する。判定装置は、出現回数が均等になるように、分割ポイント２０を設定する。例えば、判定装置は、グループＨに属する各キーワードの出現回数の合計数と、グループＬの属する各キーワードの出現回数の合計数とが同じ数になるように分割ポイント２０を設定する。以下の説明において、グループＨに属するキーワードをキーワードＨ、グループＬに属するキーワードをキーワードＬと適宜表記する。

図６に示すように、キーワードを分類すると、ＦＰの特徴は図７に示すように、均等に４グループに分けることができる。図７及び図８は、特徴を構成するキーワードのペアの比率を示す図である。例えば、キーワードＨとキーワードＨとの配列を示す特徴を、特徴Ｈ−Ｈと表記する。キーワードＨとキーワードＬとの配列を示す特徴を、特徴Ｈ−Ｌと表記する。キーワードＬとキーワードＨとの配列を示す特徴を、特徴Ｌ−Ｈと表記する。キーワードＬとキーワードＬとの配列を示す特徴を、特徴Ｌ−Ｌと表記する。

図７に示すように、全特徴のうち、特徴Ｈ−Ｈが占める比率は、２５％となる。全特徴のうち、特徴Ｈ−Ｌが占める比率は、２５％となる。全特徴のうち、特徴Ｌ−Ｈが占める比率は、２５％となる。全特徴のうち、特徴Ｌ−Ｌが占める比率は、２５％となる。

例えば、判定装置が特徴Ｌ−Ｌを削除することで、ＦＰの情報を２５％削除することになる。また、特徴Ｌ−Ｌに含まれるキーワードＬが、特徴Ｈ−Ｌまた特徴Ｌ−Ｈに含まれていると解釈すれば、特徴Ｌ−Ｌを削除しても、テキストの特徴が保持される。例えば、図４で説明したように、単純に出現回数に基づいて特徴を削除していないので、テキスト固有のキーワードを残すことができ、類似性判定の精度低下を抑止できる。

ところで、実際には、キーワードＨとキーワードＬとでは、ユニーク数の差を表す係数が異なる。係数をＫとすると各特徴Ｈ−Ｈ、Ｈ−Ｌ、Ｌ−Ｈ、Ｌ−Ｌの比率は、図８に示すものとなる。例えば、Ｌ−Ｌの特徴を削除した場合にはＫ×２／（１＋Ｋ）×２％の削減となる。例えば、Ｋの値が「３」である場合には、５６％の削除が期待できる。Ｋの値が「４」である場合には、６５％の削除が期待できる。

キーワードＨの数とキーワードＬの数との比率および削減率の関係について説明する。図９は、比率および削減率の関係の一例を示す図である。発明者は、削減率を求めるにあたり、実際にサイズ３〜４ＫＢのテキストを１０００テキスト用意して、１０００テキストでＦＰを作成した。発明者は、作成したＦＰについて、比率を変えることで削減率を求めた。また、１０００テキストに対応する各ＦＰを比較して類似度を求め、類似度が高い２〜５位の平均類似度を求めた。なお、類似度が１位となるものは、自分自身のテキストとの比較による類似度であるため、除外する。

図９に示すように、キーワードＨの数とキーワードＬの数との比率が「１００：０」では、削減率は０％となり、平均類似度は「８．８％」となる。キーワードＨの数とキーワードＬの数との比率が「５０：５０」では、削減率は４２％となり、平均類似度は「７．３％」となる。キーワードＨの数とキーワードＬの数との比率が「３０：７０」では、削減率は６２％となり、平均類似度は「７．２％」となる。キーワードＨの数とキーワードＬの数との比率が「１０：９０」では、削減率は８８％となり、平均類似度は「９．５％」となる。

図９に示す例では、比率を変更して削除率を高くし、特徴をより削除するようにしてもテキストの特徴は均等に削除される傾向が見られることが確認できた。しかし、本アルゴリズムを使用して特徴を削除した場合には、部分一致の評価を行うことは難しい。この理由は、テキスト全体として削除する特徴を決めているが、テキストの局所的な範囲では、削除する特徴が多い部分と少ない部分とが発生するためである。

図１０は、テキストに含まれるキーワードＨとキーワードＬとの分布の一例を示す図である。図１０に示す例では、テキスト３０を、ページ毎に分割した例を示す。例えば、１ページ目の領域を領域３０ａとする。２ページ目の領域を領域３０ｂとする。３ページ目の領域を領域３０ｃとする。領域３０ａは、キーワードＨを多く含み、キーワードＬが含まれない。領域３０ｂは、キーワードＨおよびキーワードＬがバランスよく含まれる。領域３０ｃは、キーワードＬを多く含み、キーワードＨを含まない。

例えば、特徴Ｌ−Ｌを削除すると、領域３０ｃにおいて、多くのキーワードＬが削除されることになり、領域３０ｃについては特徴が残らなくなる。このため、部分一致の評価を行うことは難しくなる。この点を解消するべく、本実施例に係る判定装置は、テキスト全域に渡り、一定範囲内で一定数の特徴が残るよう特徴Ｌ−Ｌを削除する処理を制御する。例えば、判定装置は、全ての特徴Ｌ−Ｌを削除した場合に、特徴の数が一定数に満たない一定範囲が存在する場合には、係る一定範囲について、削除予定の特徴Ｌ−Ｌの一部を削除しないようにする。

図１１は、本実施例に係る判定装置の処理を説明するための図（２）である。判定装置は、テキスト３５上に一定範囲３５ａを設定し、特徴Ｌ−Ｌをした場合の残りの特徴の数を計数する。判定装置は、計数した特徴の数が所定数未満である場合には、削除予定となる特徴Ｌ−Ｌのうち、一部を残すようにする。判定装置は、一定範囲３５をずらしつつ、上記処理を繰り返し実行する。

判定装置は、残す対象となる特徴Ｌ−Ｌを、特徴Ｌ−Ｌを構成するキーワードＬの出現回数に基づいて特定する。図１２は、残す対象とする特徴Ｌ−Ｌを説明するための図である。図１２の横軸は、特徴Ｌ−Ｌを構成するキーワードＬのペアうち、一方のキーワードＬの出現回数を示し、縦軸は、他方のキーワードＬの出現回数を示す。例えば、縦軸は、出現回数はキーワードＬのペアのうち、出現回数の多いキーワードＬの出現回数とする。

例えば、判定装置は、全ての特徴Ｌ−Ｌのうち、キーワードＬのペアの出現回数が多い特徴Ｌ−Ｌを残す。図１２に示す例では、判定装置は、領域３６に含まれるキーワードＬのペアを有する特徴Ｌ−Ｌを残し、それ以外の特徴Ｌ−Ｌを削除する。判定装置がこのような処理を実行することにより、テキストの全体的な特徴を残しながら最低限の部分的な特徴を残すことができ、類似判定の精度が落ちることを抑止することができる。

次に、本実施例に係るシステムの構成について説明する。図１３は、本実施例に係るシステムの構成を示す図である。図１３に示すように、このシステムは、クライアント端末６０と、判定装置１００とを有する。クライアント端末６０および判定装置１００は、ネットワーク５０を介して相互に接続される。

クライアント端末６０は、情報漏洩の原因を調査する調査者が操作する情報機器である。例えば、クライアント端末６０は、調査者に検索ファイルを指定された場合に、かかる検索ファイルに含まれるテキストのＦＰを生成し、生成したＦＰの情報を判定装置１００に通知する。

例えば、クライアント端末６０は、検索入力画面を表示して、検索ファイルの指定を受け付ける。図１４は、検索入力画面の一例を示す図である。調査者は、クライアント端末６０を操作して、検索入力画面６１の入力領域６２に検索ファイルの名称を入力する。クライアント端末６０は、検索ファイルの指定を受け付けると、自装置のデータベースまたは、ネットワーク上から、検索ファイルを取得し、取得した検索ファイルを基にして、ＦＰを生成する。

クライアント端末６０が検索ファイルのテキストからＦＰを生成する処理の一例について説明する。クライアント端末６０は、テキストを走査して、テキストに含まれるキーワードを抽出する。クライアント端末６０は、各キーワードの配列を特徴として特定する。図１で説明したように、クライアント端末６０は、同一のキーワードの配列となる特徴を一つの特徴にまとめる。

クライアント端末６０は、特徴に含まれる一方のキーワードをハッシュ化し、定数ｎでｍｏｄした値と、特徴に含まれる他方のキーワードをハッシュ化し、定数ｎでｍｏｄした値を組み合わせることで、特徴の値を算出する。クライアント端末６０は、テキストから抽出した各特徴について、上記処理を繰り返し実行し、各特徴の値をまとめたリストを生成する。このリストが、検索ファイルに含まれるテキストのＦＰとなる。

判定装置１００は、クライアント端末６０から検索ファイルのＦＰの情報を受信した場合に、検索ファイルのＦＰを基にして、社内のデータベース等から、検索ファイルに類似するテキストを検索する装置である。判定装置１００は、検索結果をクライアント端末６０に通知する。

図１５は、本実施例に係る判定装置の構成を示す機能ブロック図である。図１５に示すように、この判定装置１００は、通信部１１０と、入力部１２０と、表示部１３０と、記憶部１４０と、制御部１５０とを有する。

通信部１１０は、ネットワーク５０を介して、クライアント端末６０や他の端末装置とデータ通信を実行する処理部である。通信部１１０は、通信装置の一例である。後述する制御部１５０は、通信部１１０を介して、クライアント端末６０や他の端末装置とデータをやり取りする。

入力部１２０は、判定装置１００に各種の情報を入力する入力装置である。例えば、入力部１２０は、キーボードやマウス、タッチパネル等に対応する。

表示部１３０は、制御部１５０から出力される情報を表示する表示装置である。例えば、表示部１３０は、液晶ディスプレイやタッチパネル等に対応する。

記憶部１４０は、ファイル操作ログ１４０ａ、テキストテーブル１４０ｂ、リストテーブル１４０ｃ、閾値データ１４０ｄ、転置インデックス１４０ｅを有する。記憶部１４０は、例えば、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ（Flash Memory）などの半導体メモリ素子などの記憶装置に対応する。

ファイル操作ログ１４０ａは、ファイル操作の履歴を示す情報である。図１６は、ファイル操作ログのデータ構造の一例を示す図である。図１６に示すように、このファイル操作ログ１４０ａは、日時と、種別と、ホストと、アカウントと、第１ファイル名と、第２ファイル名と、ログＩＤとを対応付ける。

日時は、利用者がファイルを操作した日時を示す。種別は、ファイル操作の種別を示す。ホストは、ファイルを操作した利用者の端末装置を識別する情報である。アカウントは、利用者の名称である。第１ファイル名および第２ファイル名は、ファイルの名称を示す。利用者に操作されることにより、同一のファイルであっても、異なるファイル名が設定される場合がある。ログＩＤは、ファイル操作を一意に識別する情報であり、また、ファイル操作の対象となったテキストを一意に識別する情報である。

テキストテーブル１４０ｂは、ファイル操作により更新、作成されたテキストを保持するテーブルである。図１７は、テキストテーブルのデータ構造の一例を示す図である。図１７に示すように、このテキストテーブル１４０ｂは、ログＩＤと、テキストのデータとを対応付ける。テキストテーブル１４０ｂのログＩＤは、ファイル操作ログ１４０ａのログＩＤに対応するものである。例えば、図１６のファイル操作ログ１４０ａの１行目を参照すると、ファイル操作の種別が「更新」となっており、ログＩＤが「Ｌ１０１」となっている。この更新されたテキストのデータが、テキストテーブル１４０ｂのログＩＤ「Ｌ１０１」に対応付けられたテキストのデータとなる。

リストテーブル１４０ｃは、テキストテーブル１４０ｂに含まれる各テキストのＦＰを保持するテーブルである。図１８は、リストテーブルのデータ構造の一例を示す図である。図１８に示すように、このリストテーブル１４０ｃは、ログＩＤと、リスト（ＦＰ）とを対応付ける。ログＩＤは、テキストテーブル１４０ｂのログＩＤに対応するものである。リストは、ＦＰに対応する情報であり、複数のハッシュ値を有する。各ハッシュ値は、テキストから抽出された特徴のハッシュ値である。図１８に示す例では、８桁のハッシュ値が、１つの特徴に対応する。特徴は、上述したように、テキストに含まれるキーワードの配列を示すものである。テキストテーブル１４０ｂのログＩＤ「Ｌ１０１」に対応するリストは、リストテーブル１４０ｃのログＩＤ「Ｌ１０１」に対応するリストとなる。

リストテーブル１４０ｃのリストに含まれる特徴は、図１１等で説明したように、全特徴のうち、特徴Ｌ−Ｌが削除されたものとなる。すなわち、後述する制御部１５０は、テキスト全域に渡り、一定範囲内で一定数の特徴が残るよう特徴Ｌ−Ｌを削除する。例えば、判定装置１００は、全ての特徴Ｌ−Ｌを削除した場合に、特徴の数が一定数に満たない一定範囲が存在する場合には、係る一定範囲について、削除予定の特徴Ｌ−Ｌの一部を削除しないようにする。

閾値データ１４０ｄは、キーワードＨの数と、キーワードＬの数との比率の情報を含む。また、閾値データ１４０ｄは、一定範囲内に残す特徴の数の情報を含む。以下の説明では、一定範囲内に残す特徴の数を、特徴数閾値と表記する。

転置インデックス１４０ｅは、特徴と、この特徴を有するテキストとの関係を示す情報である。図１９は、転置インデックスのデータ構造の一例を示す図である。図１９に示すように、この転置インデックス１４０ｅは、有効グラフと、ログＩＤとを対応付ける。有効グラフの各値は、特徴のハッシュ値に対応する。ログＩＤは、リストテーブル１４０ｃのログＩＤに対応するものである。例えば、図１９の１行目では、特徴「４８７４２８４２」を有するテキストのログＩＤが、「Ｌ１０１、Ｌ１０３」である旨が示される。

制御部１５０は、受付部１５０ａと、特徴抽出部１５０ｂと、類似性判定部１５０ｃと、検索結果通知部１５０ｄとを有する。検索結果通知部１５０ｄは、検索部の一例である。制御部１５０は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）や、ＦＰＧＡ（Field Programmable Gate Array）などの集積装置に対応する。また、制御部１５０は、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）等の電子回路に対応する。

受付部１５０ａは、クライアント端末６０または社内の情報機器等から各種の情報を受け付ける処理部である。例えば、受付部１５０ａは、クライアント端末６０から、検索ファイルのＦＰの情報を受信した場合に、受信した検索ファイルのＦＰの情報を、類似性判定部１５０ｃに出力する。受付部１５０ａは、ファイル操作ログ１４０ａ、テキストテーブル１４０ｂ、閾値データ１４０ｄを社内の情報機器から受け付けた場合には、受け付けた各情報１４０ａ、１４０ｂ、１４０ｄを、記憶部１４０に格納する。

特徴抽出部１５０ｂは、テキストテーブル１４０ｂの各テキストについて特徴を抽出し、抽出した特徴をハッシュ化することで、リストテーブル１４０ｃを生成する処理部である。また、特徴抽出部１５０ｂは、リストテーブル１４０ｃを基にして、転置インデックス１４０ｅを生成する。

ここで、特徴抽出部１５０ｂは、リストテーブル１４０ｃを生成する場合に、テキスト全域に渡り、一定範囲内で特徴数閾値以上の特徴が残るよう特徴Ｌ−Ｌを削除することで、リストテーブル１４０ｃのデータ量を削減する。

以下において、特徴抽出部１５０ｂの処理の一例について説明する。特徴抽出部１５０ｂは、テキストテーブル１４０ｂからあるテキストを取得し、取得したテキストを走査してキーワードを抽出する。特徴抽出部１５０ｂは、各キーワードの配列をテキストの特徴として抽出する。特徴抽出部１５０ｂは、特徴を構成する各キーワードをハッシュ化することで、特徴をハッシュ化する。特徴抽出部１５０ｂは、各特徴のハッシュ値をリスト化することで、あるテキストのリストを生成する。

更に、特徴抽出部１５０ｂは、あるテキストに含まれるキーワードの出現回数を計数する。特徴抽出部１５０ｂは、各キーワードの出現回数と、閾値データ１４０ｄの比率とを基にして、各キーワードをキーワードＨまたはキーワードＬに分類する。例えば、特徴抽出部１５０ｂは、比率が「Ｘ：Ｙ」である場合には、キーワードＨの数と、キーワードＬの数との比率が「Ｘ：Ｙ」となるように、各キーワードを分類する。

特徴抽出部１５０ｂは、キーワードの分類結果と、特徴を構成するキーワードのペアとを基にして、複数の特徴のうち、特徴Ｌ−Ｌとなる特徴を特定する。例えば、特徴抽出部１５０ｂは、特徴を構成するキーワードの双方がキーワードＬに分類される特徴を、特徴Ｌ−Ｌとして特定する。

特徴抽出部１５０ｂは、あるテキストに一定範囲を設定し、一定範囲に含まれる特徴から、特徴Ｌ−Ｌを削除した場合に、一定範囲内の特徴の数が、特徴数閾値以上であるか否かを判定する。以下において、一定範囲内の特徴の数が、特徴数閾値以上である場合と、特徴数閾値未満である場合とに分けて、特徴抽出部１５０ｂの処理を説明する。

一定範囲内の特徴の数が、特徴数閾値以上である場合について説明する。この場合には、特徴抽出部１５０ｂは、テキストのリストから、一定範囲内に含まれる全ての特徴Ｌ−Ｌに対応する値を削除する処理を実行する。

一定範囲内の特徴の数が、特徴数閾値未満である場合について説明する。この場合には、特徴抽出部１５０ｂは、特徴Ｌ−Ｌのうち、削除しない特徴Ｌ−Ｌを特定する。特徴抽出部１５０ｂは、テキストのリストから、一定範囲内に含まれる特徴Ｌ−Ｌのうち、削除しない特徴Ｌ−Ｌを除いた、残りの特徴Ｌ−Ｌを削除する。

ここで、特徴抽出部１５０ｂが、削除しない特徴Ｌ−Ｌを特定する処理の一例について説明する。例えば、図１２で説明したように、特徴抽出部１５０ｂは、全ての特徴Ｌ−Ｌのうち、キーワードＬのペアの出現回数が多い特徴Ｌ−Ｌを、削除しない特徴Ｌ−Ｌとして特定する。例えば、特徴抽出部１５０ｂは、特徴Ｌ−Ｌを構成する各キーワードＬの出現回数を合計した値を基にして、各特徴Ｌ−Ｌを、出現回数を合計した値の降順に並べ、並べた各特徴Ｌ−Ｌの上位所定数の特徴Ｌ−Ｌを、削除しない特徴Ｌ−Ｌとする。

特徴抽出部１５０ｂは、あるテキストについて、一定範囲の位置をずらし、上記処理を繰り返し実行する。また、特徴抽出部１５０ｂは、他のテキストについても同様の処理を実行することで、残りのテキストのリストから、特徴Ｌ−Ｌを削除する。特徴抽出部１５０ｂは、特徴Ｌ−Ｌを削除したリストを、リストテーブル１４０ｃに登録する。

特徴抽出部１５０ｂは、リストテーブル１４０ｃに含まれるリストの値を、転置インデックス１４０ｅの有効グラフに設定し、リストの値を特徴に有するログＩＤを、転置インデックス１４０ｅのログＩＤに設定することで、転置インデックス１４０ｅを生成する。

類似性判定部１５０ｃは、検索ファイルのＦＰの情報と、転置インデックス１４０ｅとを比較して、検索ファイルのＦＰに類似するログＩＤを判定する処理部である。図２０は、類似性判定部の処理の一例を説明するための図である。図２０において、７０は、検索ファイルのＦＰを示すものである。ＦＰ７０に含まれる各特徴は、検索ファイルのテキストに含まれるキーワードの配列から算出されるハッシュ値である。転置インデックス１４０ｅは、図１９で説明した転置インデックス１４０ｅに対応する。

ＦＰ７０と転置インデックス１４０ｅとを比較すると、比較結果８０が得られる。例えば、比較結果８０は、ログＩＤと特徴量とを対応付ける。ログＩＤは、ファイル操作ログ１４０ａ、テキストテーブル１４０ｂのログＩＤに対応する。特徴量は、ログＩＤに対応するテキストに含まれる特徴のうち、検索ファイルのＦＰ７０と一致する特徴の数を示すものであり、特徴量が多いほど、類似性が高いことを示す。類似性判定部１５０ｃは、特等量が閾値以上となるログＩＤを、検索結果通知部１５０ｄに出力する。

検索結果通知部１５０ｄは、類似性判定部１５０ｃから出力されるログＩＤに対応するログ情報を特定し、特定したログ情報を検索結果として、クライアント端末６０に通知する処理部である。例えば、検索結果通知部１５０ｄは、ログＩＤと、ファイル操作ログ１４０ａとを比較して、ログＩＤに対応するレコードを抽出し、抽出したレコードを、検索結果とする。

図２１は、検索結果の一例を示す図である。図２１に示すように、この検索結果は、アカウントと、ファイル名と、類似度と、種別と、日時とを対応付ける。アカウント、ファイル名、種別、日時に関する説明は、図１６で説明した、アカウント、第１、２ファイル名、種別、日時に関する説明と同様である。類似度は、検索ファイルのＦＰと、ログＩＤに対応するテキストのＦＰとの類似度を示すものである。例えば、検索結果通知部１５０ｄは、類似度を、式（１）に基づき算出する。

類似度＝（検索ファイルのＦＰの特徴と、ログＩＤに対応するテキストのＦＰの特徴とで一致する特徴の数）／検索ファイルのＦＰの特徴の数・・・（１）

なお、検索結果通知部１５０ｄは、式（１）を用いない方法で、類似度を算出してもよい。例えば、図２０に示した特徴量が多いほど、ログＩＤに対応する類似度を大きくする算出式を用いて、類似度を算出してもよい。

次に、本実施例に係るシステムの処理手順の一例について説明する。図２２は、本実施例に係るシステムの処理手順を示すフローチャートである。図２２に示すように、クライアント端末６０は、検索ファイルを受け付け（ステップＳ１０１）、検索ファイルに含まれるテキストからＦＰを生成する（ステップＳ１０２）。クライアント端末６０は、検索ファイルのＦＰを判定装置１００に送信する（ステップＳ１０３）。

判定装置１００は、検索ファイルのＦＰをクライアント端末６０から受信する（ステップＳ１０４）。判定装置１００は、検索ファイルのＦＰと、転置インデックス１４０ｅとを比較して、特徴量が閾値以上となるログＩＤを判定する（ステップＳ１０５）。

判定装置１００は、判定したログＩＤおよびファイル操作ログ１４０ａを基にして、検索結果を生成し、検索結果をクライアント端末６０に送信する（ステップＳ１０６）。クライアント端末６０は、検索結果を受信し、検索結果を表示する（ステップＳ１０７）。

次に、本実施例に係る判定装置の処理手順の一例について説明する。図２３は、本実施例に係る判定装置の処理手順を示すフローチャートである。図２３に示すように、判定装置１００の受付部１５０ａは、ファイル操作ログ１４０ａ、テキストテーブル１４０ｂ、閾値データ１４０ｄを受け付ける（ステップＳ２０１）。

判定装置１００の特徴抽出部１５０ｂは、テキストテーブル１４０ｂのテキストに含まれる各キーワード間の関係を抽出し、特徴を抽出する（ステップＳ２０２）。特徴抽出部１５０ｂは、特徴を構成するキーワードをハッシュ値に変換する（ステップＳ２０３）。特徴抽出部１５０ｂは、各キーワードの出現回数を計数し、各キーワードをキーワードＨまたはキーワードＬに分類する（ステップＳ２０４）。

特徴抽出部１５０ｂは、テキスト毎に特徴をリスト化する（ステップＳ２０５）。特徴抽出部１５０ｂは、リストから特徴Ｌ−Ｌを削除する（ステップＳ２０６）。特徴抽出部１５０ｂは、テキストの一定範囲内に、特徴数閾値以上の特徴が存在するか否かを判定する（ステップＳ２０７）。ステップＳ２０７において、例えば、特徴抽出部１５０ｂは、特徴Ｌ−Ｌを、テキストから削除した場合に、テキストの一定範囲内に、特徴数閾値以上の特徴が存在するか否かを判定する。なお、リスト上の特徴と、テキスト上の特徴とはそれぞれ対応付けられているものとする。例えば、リストの特徴が削除されると、係る特徴に対応するテキスト上の特徴が削除される。

特徴抽出部１５０ｂは、テキストの一定範囲内に、特徴数閾値以上の特徴が存在する場合には（ステップＳ２０７，Ｙｅｓ）、ステップＳ２０９に移行する。一方、特徴抽出部１５０ｂは、テキストの一定範囲内に、特徴数閾値以上の特徴が存在しない場合には（ステップＳ２０７，Ｎｏ）、特徴Ｌ−Ｌの一部をリストに追加する（ステップＳ２０８）。

特徴抽出部１５０ｂは、リストの重複を除去したリストテーブル１４０ｃを生成する（ステップＳ２０９）。判定装置１００の類似性判定部１５０ｃは、転置インデックス１４０ｅと、検索ファイルのＦＰとを比較して類似性を判定する（ステップＳ２１０）。判定装置１００の検索結果通知部１５０ｄは、類似性の判定結果を基にして、検索結果を生成する（ステップＳ２１１）。

次に、図２３のステップＳ２０７およびＳ２０８の処理を具体的に説明する。図２４は、Ｓ２０７およびＳ２０８の処理手順を具体的に示すフローチャートである。図２４に示すように、特徴抽出部１５０ｂは、テキスト上の未処理の一定範囲を選択する（ステップＳ３０１）。特徴抽出部１５０ｂは、一定範囲内に特徴数閾値以上の特徴が存在するか否かを判定する（ステップＳ３０２）。特徴抽出部１５０ｂは、一定範囲内に特徴数閾値以上の特徴が存在する場合には（ステップＳ３０２，Ｙｅｓ）、ステップＳ３０４に移行する。

一方、特徴抽出部１５０ｂは、一定範囲内に特徴数閾値以上の特徴が存在しない場合には（ステップＳ３０２，Ｎｏ）、一定範囲内の特徴が特徴数閾値以上となるように、特徴Ｌ−Ｌを追加する（ステップＳ３０３）。特徴抽出部１５０ｂは、全ての一致範囲を選択したか否かを判定する（ステップＳ３０４）。

特徴抽出部１５０ｂは、全ての一定範囲を選択していない場合には（ステップＳ３０４，Ｎｏ）、ステップＳ３０１に移行する。一方、特徴抽出部１５０ｂは、全ての一定範囲を選択した場合には（ステップＳ３０４，Ｙｅｓ）、図２４に示す処理を終了する。

次に、図２４のステップＳ３０３の処理を具体的に説明する。図２５は、ステップＳ３０３の処理手順を具体的に示すフローチャートである。図２５に示すように、特徴抽出部１５０ｂは、一定範囲内の削除予定の全ての特徴Ｌ−Ｌから、２つのキーワードの合計出現回数を算出する（ステップＳ４０１）。

特徴抽出部１５０ｂは、一定範囲内に削除予定の特徴Ｌ−Ｌが存在するか否かを判定する（ステップＳ４０２）。特徴抽出部１５０ｂは、一定範囲内に削除予定の特徴Ｌ−Ｌが存在しない場合には（ステップＳ４０２，Ｎｏ）、図２５に示す処理を終了する。

一方、特徴抽出部１５０ｂは、一定範囲内に削除予定の特徴Ｌ−Ｌが存在する場合には（ステップＳ４０２，Ｙｅｓ）、削除予定の特徴Ｌ−Ｌからキーワードの合計出現回数が一番多い特徴Ｌ−Ｌを一つ取り出し、取り出した特徴Ｌ−Ｌを削除対象から外す（ステップＳ４０３）。特徴抽出部１５０ｂは、一定範囲内に特徴数閾値以上の特徴が存在するか否かを判定する（ステップＳ４０４）。

特徴抽出部１５０ｂは、一定範囲内に特徴数閾値以上の特徴が存在する場合には（ステップＳ４０４，Ｙｅｓ）、図２５に示す処理を終了する。一方、特徴抽出部１５０ｂは、一定範囲内に特徴数閾値以上の特徴が存在しない場合には（ステップＳ４０４，Ｎｏ）、ステップＳ４０２に移行する。

次に、本実施例に係る判定装置１００の効果について説明する。判定装置１００は、テキストの一定範囲内に含まれる特徴の数が一定数以上となる条件のもと、特徴Ｌ−Ｌを削除する処理を、各テキストについて実行する。また、判定装置１００は、検索ファイルの特徴と、各テキストの特徴とを比較して類似性を判定する。テキストの一定範囲内には、一定数以上の特徴が含まれているため、各テキスト固有の特徴を残しつつ、類似判定を行うことができる。従って、類似判定の精度を落とさずにデータ量を削減することができる。

また、判定装置１００は、テキストから特徴Ｌ−Ｌを削除する場合に、特徴Ｌ−Ｌのうち、特徴Ｌ−Ｌを構成するキーワードＬの出現回数が多いものを優先して削除対象から除去する。この処理を行うことで、テキストの全体的な特徴を残しながら、最低限の部分的な特徴を保存することが可能になる。

また、判定装置１００の検索結果通知部１５０ｄは、類似性判定部１５０ｃから出力されるログＩＤに対応するログ情報を特定し、特定したログ情報を検索結果として、クライアント端末６０に通知する。これにより、検索ファイルに類似するテキストの操作履歴を通知することができ、情報漏洩に至った経緯を把握することができる。

ところで、本実施例では、判定装置１００が、特徴抽出部１５０ｂおよび類似性判定部１５０ｃを有する場合について説明したがこれに限定されるものではない。例えば、特徴抽出部１５０ｂに対応する機能を社内のクライアントに持たせ、類似性判定部１５０ｃに対応する機能をサーバに持たせることで、機能を分割させてもよい。

次に、上記実施例に示した判定装置１００と同様の機能を実現する判定プログラムを実行するコンピュータの一例について説明する。図２６は、判定プログラムを実行するコンピュータの一例を示す図である。

図２６に示すように、コンピュータ２００は、各種演算処理を実行するＣＰＵ２０１と、ユーザからのデータの入力を受け付ける入力装置２０２と、ディスプレイ２０３とを有する。また、コンピュータ２００は、記憶媒体からプログラム等を読取る読み取り装置２０４と、ネットワークを介して他のコンピュータとの間でデータの授受を行うインターフェース装置２０５とを有する。また、コンピュータ２００は、各種情報を一時記憶するＲＡＭ２０６と、ハードディスク装置２０７とを有する。そして、各装置２０１〜２０７は、バス２０８に接続される。

ハードディスク装置２０７は、特徴抽出プログラム２０７ａ、類似性判定プログラム２０７ｂを読み出してＲＡＭ２０６に展開する。特徴抽出プログラム２０７ａは、特徴抽出プロセス２０６ａとして機能する。類似性判定プログラム２０７ｂは、類似性判定プロセス２０６ｂとして機能する。例えば、特徴抽出プロセス２０６ａは、特徴抽出部１５０ｂに対応する。

なお、特徴抽出プログラム２０７ａ、類似性判定プログラム２０７ｂについては、必ずしも最初からハードディスク装置２０７に記憶させておかなくても良い。例えば、コンピュータ２００に挿入されるフレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＤＶＤディスク、光磁気ディスク、ＩＣカードなどの「可搬用の物理媒体」に各プログラムを記憶させておく。そして、コンピュータ２００が特徴抽出プログラム２０７ａ、類似性判定プログラム２０７ｂを読み出して実行するようにしてもよい。

以上の各実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）文書情報に含まれる各キーワードの出現回数を計数し、前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行する特徴抽出部と、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する類似性判定部と
を有することを特徴とする類似性判定装置。

（付記２）前記特徴抽出部は、前記出現回数が閾値未満となるキーワードの配列を削除する場合に、キーワードの配列を構成する各キーワードの出現回数が多いキーワードの配列よりも、キーワードの配列を構成する各キーワードの出現回数が少ないキーワードの配列を優先して削除することを特徴とする付記１に記載の類似性判定装置。

（付記３）前記類似性判定部は、検索対象の文書情報の特徴と、他の文書情報の特徴とを比較して、検索対象の文書情報と他の文書情報との類似性を判定し、前記類似性判定部の判定結果を基にして、前記検索対象の文書情報と類似性を有する他の文書情報の操作履歴情報を検索する検索部を更に有することを特徴とする付記１または２に記載の類似性判定装置。

（付記４）コンピュータが実行する判定方法であって、
文書情報に含まれる各キーワードの出現回数を計数し、
前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行し、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する
処理を実行することを特徴とする類似性判定方法。

（付記５）前記出現回数が閾値未満となるキーワードの配列を削除する処理は、キーワードの配列を構成する各キーワードの出現回数が多いキーワードの配列よりも、キーワードの配列を構成する各キーワードの出現回数が少ないキーワードの配列を優先して削除することを特徴とする付記４に記載の類似性判定方法。

（付記６）前記類似性を判定する処理は、検索対象の文書情報の特徴と、他の文書情報の特徴とを比較して、検索対象の文書情報と他の文書情報との類似性を判定し、判定結果を基にして、前記検索対象の文書情報と類似性を有する他の文書情報の操作履歴情報を検索する処理を更に実行することを特徴とする付記４または５に記載の類似性判定方法。

（付記７）コンピュータに、
文書情報に含まれる各キーワードの出現回数を計数し、
前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行し、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する
処理を実行させることを特徴とする類似性判定プログラム。

（付記８）前記出現回数が閾値未満となるキーワードの配列を削除する処理は、キーワードの配列を構成する各キーワードの出現回数が多いキーワードの配列よりも、キーワードの配列を構成する各キーワードの出現回数が少ないキーワードの配列を優先して削除することを特徴とする付記７に記載の類似性判定プログラム。

（付記９）前記類似性を判定する処理は、検索対象の文書情報の特徴と、他の文書情報の特徴とを比較して、検索対象の文書情報と他の文書情報との類似性を判定し、判定結果を基にして、前記検索対象の文書情報と類似性を有する他の文書情報の操作履歴情報を検索する処理を更に実行することを特徴とする付記７または８に記載の類似性判定プログラム。

６０クライアント端末
１００判定装置
１４０記憶部
１５０制御部

Claims

文書情報に含まれる各キーワードの出現回数を計数し、前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行する特徴抽出部と、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する類似性判定部と
を有することを特徴とする類似性判定装置。
前記特徴抽出部は、前記出現回数が閾値未満となるキーワードの配列を削除する場合に、キーワードの配列を構成する各キーワードの出現回数が多いキーワードの配列よりも、キーワードの配列を構成する各キーワードの出現回数が少ないキーワードの配列を優先して削除することを特徴とする請求項１に記載の類似性判定装置。
前記類似性判定部は、検索対象の文書情報の特徴と、他の文書情報の特徴とを比較して、検索対象の文書情報と他の文書情報との類似性を判定し、前記類似性判定部の判定結果を基にして、前記検索対象の文書情報と類似性を有する他の文書情報の操作履歴情報を検索する検索部を更に有することを特徴とする請求項１または２に記載の類似性判定装置。
コンピュータが実行する類似性判定方法であって、
文書情報に含まれる各キーワードの出現回数を計数し、
前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を特徴として抽出する処理を実行し、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する
処理を実行することを特徴とする類似性判定方法。
コンピュータに、
文書情報に含まれる各キーワードの出現回数を計数し、
前記文書情報の一定範囲内に含まれるキーワードの配列の種別数が一定数以上となる条件の下、前記出現回数が閾値未満となるキーワードを含む配列を削除した後に、前記文書情報から複数のキーワードの配列を前記特徴として抽出する処理実行し、
互いに異なる文書情報から抽出された前記特徴を比較して、前記異なる文書情報間の類似性を判定する
処理を実行させることを特徴とする類似性判定プログラム。