JP2008541272A5

JP2008541272A5 -

Info

Publication number: JP2008541272A5
Application number: JP2008511259A
Authority: JP
Filing date: 2006-05-08
Publication date: 2012-03-15
Anticipated expiration: 2026-05-08

Description

一般に、開示の実施形態は、ドキュメントに関連した少なくとも１つの署名を生成するシステムおよび方法を記述する。その署名は、例えば、企業コンピューティングシステムにおいて、サーチクエリにとって適切な結果を得るために用いられる。一実施形態では、テキストからなるドキュメントは、トークンセット（トークン集合）を生成するために受信され、解析される。トークンセットは複数のトークンを含む。各トークンは、予め定められた文字特性により分けられたドキュメント内のテキストに対応する。スコアは、そのドキュメント内のテキストの頻度および分布に基づいて、トークンセット内の各トークン毎に計算される。そして、各トークンは、計算されたスコアに基づいてランク付けされる。ランク付けされたトークンのサブセット（部分集合）が選択され、署名は、選択されたトークンの各発生（出現）毎に生成される。そして、署名の選択されたリストは出力される。システムおよび処理をさらにここで説明する。

その処理は、第２のトークンリスト（Ｌ₂）を形成するために、新しい第１のトークンリスト（Ｌ₁）の各ユニークなトークンを選択する（または取り出す）（ステップ３３０）。第２のトークンリストＬ₂の各トークン毎に、その処理は、第１のトークンリストＬ₁における出現位置をマークし（ステップ３３５）、以下のセットを生成する。
Ｌ₁＝（ｔ₁，ｔ₂，．．．，ｔ_n）
Ｌ₂＝（Ｔ₁，Ｔ₂，．．．，Ｔ_m）
ここで、複数の出現位置をマークするために、Ｔｉ〜＜Ｐ（ｉ，１），Ｐ（ｉ，２），．．．，Ｐ（ｉ，Ｓ_i）＞を意味し、ここで、ｉ＝１，．．．，ｍであり、Ｓ₁＋Ｓ₂＋．．．＋Ｓ_m＝ｎである。

次に、その処理は、計算されたスコアにより第２のトークンリストＬ₂をソートし（ステップ３４５）、そのリスト（Ｌ₂）からスコアによるトップＮトークンを選択する（あるいは取り出す）（ステップ３５０）。なお、「Ｎ」はいずれかの整数であればよく、システム内に予め定められてもよく、あるいはシステムへの入力として選択されてもよい。第２のトークンリストＬ₂からのスコアによるトップＮトークンは、第３のトークンリストＬ₃を作成する。第３のトークンリストＬ₃の各トークンＴ_j 毎に、Ｌ₁におけるその出現およびその近隣の複数トークンから署名を生成する（ステップ３５５）。また、この処理は、以下のように表示され得る。
各ｋ ∈｛Ｐ（ｊ，１），Ｐ（ｊ，２），．．．．，Ｐ（ｊ，Ｓ_i）｝毎に、Ｌ₁ 内におけるその近隣の２ｄ個のトークンを取り出し、それらを鎖状につないで、ｔ_k-d＋．．．＋ｔ_k-1＋ｔ_k＋ｔ_k+1＋．．．＋ｔ_k+dの１ストリングを形成する。
この１ストリングをエンコードすることは、１つの署名Ｆ_j,kを我々に与える。

第３のトークンリストＬ₃ 内の各Ｔ_j 毎に、処理は、リスト（Ｆ_j,1，Ｆ_j,2，．．．Ｆ_j,Sj）をソートし、このソートされたリストからトップＭの署名を選択する（ステップ３６０）。なお、「Ｍ」はいずれかの整数であればよく、システム内に予め定められてもよく、あるいはシステムへの入力として選択されてもよい。次に、第３のトークンリストＬ₃のすべての構成要素について、合計（Ｎ・Ｍ）個ある、該選択された署名が、集められ（あるいは収集され）る（ステップ３６５）。そして、処理は、署名のコレクションを出力する（ステップ３７０）。

そして、その処理は、ＵＴＦ−８アルファベット内の各文字ｃの発生（出現）を記録するために、標準化されたドキュメントをスキャンする（ステップ４１５）。発生（出現）の位置は、Ｐ（１，ｃ），Ｐ（２，ｃ），．．．，Ｐ（ｎ，ｃ）として示される。その処理は、以下を用いて文字ｃのためのランク付きのスコアを計算（あるいは生成）する。
スコア（ｃ）＝Ｓｑｒｔ（ｎ）・｛Ｐ（ｎ，ｃ）−Ｐ（１，ｃ）｝／Ｓｑｒｔ（Ｄ）
ここで、Ｄ＝｛Ｐ（２，ｃ）−Ｐ（１，ｃ）｝²＋｛Ｐ（３，ｃ）−Ｐ（２，ｃ）｝²＋．．．＋｛Ｐ（ｎ，ｃ）−Ｐ（ｎ−１，ｃ）｝²である。スコア関数は、その頻度によってテキスト内の文字の重要性を測定する。また、スコア関数は、ドキュメント全体に均等に分布した文字がより良いスコアを得ることを確実にする。これを達成する計算は、以下を含む。
｛Ｐ（ｎ，ｃ）−Ｐ（１，ｃ）｝／Ｓｑｒｔ（Ｄ）

その処理は、ソートされた第２のリストＬ₂（ｃ）からトップのＫ（ｃ）トリプレットを選択する（あるいは取り出す）（ステップ４５５）。ここで、Ｋ（ｃ）≦Ｒ・Ｎ（ｃ）である。これは、第３のリストＬ₃（ｃ）を形成する。第３のリストＬ₃（ｃ）の各トリプレット（ｍ，ｖ，ｐ）毎に、処理は、発生（出現）位置ｐを囲む近隣の複数文字でハッシュ値を生成するハッシュ関数ｈａｓｈ（ｐ）によりそのハッシュ値を計算する（ステップ４６０）。適用可能なハッシュ関数の例は、従来のラビン−カープ（Karp-Rabin）ハッシュ関数であればよい。近隣の複数文字の数は、ＣＨＡＲ＿ＮＥＩＧＨＢＯＲにより決定される。その処理は、ハッシュ値により第３のリストＬ₃（ｃ）をソートし（ステップ４６５）、第４のリストＬ₄（ｃ）を形成するために、ソートされたリストＬ₃（ｃ）のトップからＮトリプレットまでを選択する（取り上げる）（ステップ４７０）。なお、「Ｎ」はいずれかの整数であればよく、システム内に予め定められてもよく、あるいは上述のようにシステムへの入力として選択されてもよい。Ｌ₄（ｃ）の各トリプレット（ｍ，ｖ，ｐ）毎に、処理は、発生位置ｐを囲む複数文字を用いて署名を生成し、それを署名リストＳに追加する（ステップ４７５）。そして、その処理は、署名リストＳを出力する（ステップ４８５）。なお、上述の処理は繰り返しであり、そのため、リストＬ内のすべての文字ｃのために繰り返される。