JP4902863B2 - テーブル分類装置 - Google Patents
テーブル分類装置 Download PDFInfo
- Publication number
- JP4902863B2 JP4902863B2 JP2007016158A JP2007016158A JP4902863B2 JP 4902863 B2 JP4902863 B2 JP 4902863B2 JP 2007016158 A JP2007016158 A JP 2007016158A JP 2007016158 A JP2007016158 A JP 2007016158A JP 4902863 B2 JP4902863 B2 JP 4902863B2
- Authority
- JP
- Japan
- Prior art keywords
- classification
- column
- attribute
- hierarchy
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
所定の入力を受け付け、受け付けた入力に基づいて、1〜N(Nは2以上の整数)の属性セットナンバーごとの所定のテーブル属性からなる属性セット情報と、テーブルを分類する場合の分類の優先順位を示す1〜M(Mは2以上、かつ、N以下の整数)の階層ナンバーのそれぞれについて前記属性セットナンバーのうち重複しない何れかが対応付けられた分類階層情報とを設定する設定部と、
複数のテーブルを格納するデータベースからテーブルごとに前記属性セット情報の示す前記テーブル属性を取得する属性取得部と、
前記分類階層情報の前記階層ナンバーに対応する前記属性セットナンバーから定まるテーブル属性を前記属性取得部が取得した前記テーブル属性の中から取り込み、取り込んだテーブル属性に基づいて、前記分類階層情報の前記階層ナンバーごとに前記データベースに格納されたそれぞれのテーブル間の類似度を示す階層別テーブル間類似度を生成する階層別テーブル間類似度生成部と、
前記階層別テーブル間類似度生成部が前記階層ナンバーごとに生成した階層別テーブル間類似度を用いて、前記データベースが格納する複数のテーブルを分類する分類部と
を備えたことを特徴とする。
図1は、コンピュータであるデータベース分類装置30(テーブル分類装置)の外観の一例を示す図である。図1において、データベース分類装置30は、システムユニット830、CRT(Cathode・Ray・Tube)やLCD(液晶)の表示画面を有する表示装置813、キーボード814(Key・Board:K/B)、マウス815、FDD817(Flexible・Disk・ Drive)、コンパクトディスク装置818(CDD:Compact Disk Drive)、プリンタ装置819などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
(2)データ分析部32は、データベース管理装置10からデータを取得し統計情報を生成する。
(3)分類構造入力部33は、ユーザ50から、分類の基準となる属性の組(属性セット情報70の設定のための情報)や分類の順番(分類階層情報80の設定のための情報)の入力を受け付け、属性セット情報70(後述する図11)及び分類階層情報80(後述する図12)を設定する。
(4)分類構造管理部34は、分類構造入力部33が設定した属性セット情報70及び分類階層情報80を格納し、必要に応じて出力する。
(5)カラム類似度算出部35は、メタデータ抽出部31からカラムの属性を取得し、データ分析部32からデータの統計情報を取得し、分類構造管理部34から、属性セット情報70を取得し、カラム間の類似度を計算する。
(6)テーブル類似度算出部36は、メタデータ抽出部31からテーブルの属性を取得し、カラム類似度算出部からカラムの類似度を取得し、カラム類似度から一致カラム対を算出し、テーブル属性と一致カラム対から、分類構造管理部から属性セット情報70を取得し、テーブル類似度を算出する。
(7)分類判定部37は、テーブル類似度算出部36からテーブル間の類似度を取得し、分類構造管理部34から分類の階層構造を取得し、テーブルの分類階層構造を算出(生成)する。
この例では、
(1)C1、C2、C3は、まず初めにデータベース分類装置30がテーブル名称による分類を行い、類似性の高いテーブル同士をグループ分けした結果である。
(2)C11、C12、C13は、C1に分類されたテーブルについて、さらにデータの内容が近いテーブル同士をグループ分けをした結果である。
(3)C21、C22は、C2に分類されたテーブルについて、さらにデータの内容が近いテーブル同士をグループ分けをした結果である。
(4)C31、C33は、C3に分類されたテーブルについて、さらにデータの内容が近いテーブル同士をグループ分けをした結果である。
(1)分類構造入力処理S1は、ユーザから「属性セット情報70」、「分類階層情報80」の設定のための情報の入力を受け付け、「属性セット情報70」、「分類階層情報80」を設定する処理である。
(2)属性取得処理S2は、属性セット情報70に従って、必要な属性をメタデータ抽出部31やデータ分析部32から取得する処理である。
(3)類似度計算処理S3は、属性セット情報70についてカラムの類似度およびテーブルの類似度を計算する処理である。
(4)分類階層算出処理S4は、分類の優先順(分類階層情報80)に従って、階層的に、テーブル類似度からテーブルのグループを計算する処理である。
(1)属性セット選択S11は、データベース分類装置30における分類構造入力部33で実行される。属性セット選択S11では、ユーザの指定により、分類の単位となる属性の集合(属性セット情報70)を設定する処理である。
(2)分類階層設定S12は、データベース分類装置30における分類構造入力部33で実行される。分類階層設定S12は、ユーザの指定により、分類の優先順となる「分類階層情報80」を設定する処理である。
(3)分類階層蓄積S13は、データベース分類装置30における分類構造管理部34で実行される。分類階層蓄積S13は、「属性セット情報70」および「分類階層情報80」を蓄積し、他の処理の要求に応じてこれら情報を提示する。
この例では、
セット1は、テーブル名A11、カラム名A1からなる。
セット2は、カラム数A12、レコード長A16、サイズA4、精度A3、NULL可フラグA5からなる。
セット3は、レコード数A17からなる。
セット4は、ユニーク率A6、NULL率A7からなる。
セット5は、最大値/最大日付/最大文字数A8、最小値/最小日付/最小文字数A9、平均値、中間日付/平均文字数A10からなる。
セットに含まれる属性および統計情報は、単一でも良いし、複数でも良い。また、テーブルの属性や統計情報とカラムの属性や統計情報を混在しても良い。
この例では、
階層1はセット1、
階層2はセット2、
階層3はセット3、
階層4はセット4、
階層5はセット5
を指定している。
もちろん、分類の評価順は任意に指定して良い。
分類構造入力処理S1における、分類階層蓄積S13では、属性セット選択S11および分類階層設定S12により指定された、属性セット情報70と分類階層情報80を出力し蓄積する処理である。
(2)分類階層情報取得S22では、テーブル類似度算出部36が、分類構造管理部34により蓄積された分類階層情報80と属性セット情報70とを分類構造管理部34から取得する。
(3)対象テーブル選択S23では、テーブル類似度算出部36が、まず初めの分類階層ループとして、分類階層情報80の階層No1のセットNoに対応する属性セット情報70と、初期化処理S21で指定された全テーブルの中から類似度を算出すべきテーブルの組を1つ取り出す。
(4)テーブル属性取得S24では、テーブル類似度算出部36が、階層No1の属性セット情報70に含まれる種別がテーブルの属性について、対象テーブル選択S23において選択された2つのテーブルの属性情報(メタデータ)を、メタデータ抽出部31より取得する。
(5)カラム属性取得S25では、カラム類似度算出部35が、階層No1の属性セット情報70に含まれる種別がカラムの属性について、対象テーブル選択S23において選択された2つのテーブルに含まれるカラムの属性情報(メタデータ)を、メタデータ抽出部31より取得する。
(6)データ統計情報取得S26では、テーブル類似度算出部36が、階層No1の属性セット情報70に含まれる種別がテーブルの属性の統計情報について、対象テーブル選択S23において選択された2つのテーブルの属性情報(統計情報)を、データ分析部32より取得する。また、階層No1の属性セット情報70に含まれる種別がカラムの属性の統計情報について、対象テーブル選択S23において選択された2つのテーブルに含まれるカラムの属性情報(統計情報)を、データ分析部32より取得する。
e2=h1÷(カラム1のカラム名文字数+カラム2のカラム名文字数)
×(カラム1のカラム名文字数+カラム2のカラム名文字数
−カラム1のカラム名とカラム2のカラム名の最大連続一致文字数×2)
カラムの型が共に数値型の場合は、カラムの類似度eは、例えば以下の式により求めることができる。h1からh9は、チューニング用の重み付けである。
e2=h1÷(カラム1のカラム名文字数+カラム2のカラム名文字数)
×(カラム1のカラム名文字数+カラム2のカラム名文字数
−カラム1のカラム名とカラム2のカラム名の最大連続一致文字数×2)
+h2×(精度が一致する場合0、一致しない場合1)
+h3×(カラム1のサイズ−カラム2のサイズ)2
+h4×(NULL可/不可が一致する場合0、一致しない場合1)
+h5×(カラム1のユニーク率−カラム2のユニーク率)2
+h6×(カラム1のNULL率−カラム2のNULL率)2
+h7×(カラム1の最大値−カラム2の最大値)2
+h8×(カラム1の最小値−カラム2の最小値)2
+h9×(カラム1の平均値−カラム2の平均値)2
×(カラム1のカラム名文字数+カラム2のカラム名文字数
−カラム1のカラム名とカラム2のカラム名の最大連続一致文字数×2)
+h3×(カラム1のサイズ−カラム2のサイズ)2
+h4×(NULL可/不可が一致する場合0、一致しない場合1)
+h5×(カラム1のユニーク率−カラム2のユニーク率)2
+h6×(カラム1のNULL率−カラム2のNULL率)2
+h7×(カラム1の最大日付−カラム2の最大日付の日数)2
+h8×(カラム1の最小日付−カラム2の最小日付の日数)2
+h9×(カラム1の中間日付−カラム2の中間日付の日数)2
×(カラム1のカラム名文字数+カラム2のカラム名文字数
−カラム1のカラム名とカラム2のカラム名の最大連続一致文字数×2)
+h3×(カラム1のサイズ−カラム2のサイズ)2
+h4×(NULL可/不可が一致する場合0、一致しない場合1)
+h5×(カラム1のユニーク率−カラム2のユニーク率)2
+h6×(カラム1のNULL率−カラム2のNULL率)2
+h7×(カラム1の最大文字数−カラム2の最大文字数)2
+h8×(カラム1の最小文字数−カラム2の最小文字数)2
+h9×(カラム1の平均文字数−カラム2の平均文字数)2
(一致カラム対)
先の一致するカラム対のことを「一致カラム対」と呼ぶ。図15中の実線で結ばれるカラム同士である。図15の例では、カラムU11とカラムU23、カラムU12とカラムU21、カラムU14とカラムU22が一致カラム対である。
(類似カラム対)
次に、一致とは見なされないが類似しているカラム同士のことを、「類似カラム対」と呼ぶ。図15中の点線で結ばれるカラム同士である。図15の例では、カラムU13とカラムU24が、類似カラム対である。類似カラム対の条件は、一致カラム対以外で、かつ、カラム間の距離の合計が最も近い組である。即ち、類似カラム対は、閾値以上の距離のあるカラム対となる。
(不一致カラム対)
最後に、テーブル間のカラム数の差によって、対にならないカラムが残る場合がある。このカラムについては、対応するカラムを仮に想定して対とする。この仮のカラムを「NULLカラム」と呼び、NULLカラムと対となるカラム同士を「不一致カラム対」と呼ぶ。図15の一点差線で結ばれたカラム同士が、不一致カラム対である。図15の例では、カラムU15とカラムU25が不一致カラム対である。NULLカラムは、対となるカラムと同じ型で、データが0件の仮想的なカラムである。
×(テーブル1のテーブル名文字数+テーブル2のテーブル名文字数
−テーブル1のテーブル名とテーブル2のテーブル名の最大連続一致文字数×2)
+k2÷最大カラム数2×(テーブル1のカラム数−テーブル2のカラム数)2
+k3÷最大カラム数2×(テーブル1のVARCHAR型カラム数−テーブル2のVARCHAR型カラム数)2
+k4÷最大カラム数2×(テーブル1の数値型カラム数−テーブル2の数値カラム数)2
+k5÷最大カラム数2×(テーブル1の日付型カラム数−テーブル2の日付カラム数)2
+k6÷最大レコード数2×(テーブル1のレコード数−テーブル2のレコード数)2
+k7÷最大レコード長2×(テーブル1のレコード長−テーブル2のレコード長)2
+(K2×((カラムU11とカラムU23間の距離)2+(カラムU12とカラムU21間の距離)2+(カラムU14とカラムU22間の距離)2)
+K3×(カラムU13とカラムU24間の距離)2
+K4×(カラムU15とカラムU25間の距離)2)÷全カラム対の数
K3=K4=0
として、該当の距離算出を行わなくても良い。
以上、図13に示したS21〜S35により、全ての分類階層(図12の階層No1〜No5)に対して、全てのテーブルの組について計算した類似度を、階層別類似度情報出力S36において、分類判定部37が、出力する。図16は、S36において出力される階層別テーブル間類似度90(分類階層別テーブル間類似度と言う場合がある)の例を示す。それぞれの階層ごとに、テーブルの総数Nの2次元配列として、次の式に示すテーブル間類似度を保持する。
テーブル間類似度=Ri[N][N]、
i:分類階層情報80における階層Noを示す。
N:テーブル番号を示す。
(1)S41において、図5では、初期状態値でな名前類似を最初(第1階層)に行う。
(2)S42において、図5では、最初のループでは、T1〜T17を親グループ(現グループ)とする。
(3)S43において、図16の階層別テーブル間類似度R1を取得する
(4)S44において、図5では、T1〜T17を分類する。
(5)S45において、図5では、子グループC1〜C3を出力する。
(6)S46において、最初のループでは、親グループの兄弟(同階層)が存在しないため、S47へ進む。
(7)S47において、第2階層の処理を行うためS42へ戻る。
(8)S42において、図5では、C1のテーブルT1〜T6を親グループ(現グループ)とする。
(9)S43において、図16の階層別テーブル間類似度R2を取得する。
(10)S44において、図5では、テーブルT1〜T6を分類する。
(11)S45において、図5では、子グループC11〜C13を出力する。
(12)S46において、親グループの兄弟(同階層)であるC2の処理を行うため、S42に進む。
(13)S42〜S45において、同様にC2を処理する。
(14)親グループの兄弟(同階層)であるC3の処理を行うため、S42に進む。
(15)S42〜S45において、同様にC3を処理する。
(16)S46において、親グループの兄弟(同階層)がないので、S47に進む。
(17)S47において、第3階層の処理を行うためS42へ戻る。
(18)S42において、図5では、C11のテーブルT1〜T3を親グループ(現グループ)とする。
(19)S43において、図16の階層別テーブル間類似度R3を取得する。
(20)S44において、図5では、テーブルT1〜T3を分類する。
(21)S45において、図5では、上記と同様に子グループC11〜C13を出力する。
(22)S46において、親グループの兄弟(同階層)であるC12の処理を行うため、S42に進む。
(23)S42〜S45において、同様にC12〜C33を処理する。
(24)S46において、親グループの兄弟(同階層)がないので、S47に進む。
(25)S47において、第4階層の処理を行うためS42へ戻る。同様の処理を繰り返し、最下の階層となればループを終了する。
(26)S48において、図5に示す、階層的に分類された結果を得る。
以上の実施の形態1では、どちらかと言うと固定的な階層構造の分類を行うものであるが、ユーザは分類結果から類似の要因を把握するために、インタラクティブに分類の優先順位を変更することが有効となりえる。もちろん、実施の形態1であっても全ての処理を1からやり直せば、優先順位を変更した分類を行うことは可能であるが、類似度計算やクラスタリングは計算量の多い処理であり、かつ対象となるテーブルやカラムの数が膨大となると再計算の時間が問題となることがある。
(1)実施の形態2においても、分類構造入力処理の手順は、図7と同様である。
(2)また、実施の形態2においても、属性の集合の要素となるカラムの属性は、図8と同様のものを利用する。
(3)また、実施の形態2においても、属性の集合の要素となるテーブルの属性は、図9と同様のものを利用する。
(4)また、実施の形態2においても、属性を用いた類似度を算出するための正規化に利用するテーブルの属性は、図10と同様のものを利用する。
(5)また、実施の形態2においても、分類単位となる属性セット情報70の例は、図11と同様とする。
(6)また、実施の形態2においても、分類の優先順となる分類階層情報80の例は、図12と同様とする。
(7)また、実施の形態に2においても、属性取得処理および類似度計算処理の手順は、図13と同様である。
(8)また、実施の形態2においても、類似度計算S3により得られる、分類階層別テーブル間類似度90は、図16と同様とする。
(2)全テーブルセット取得S52では、分類の対象となる全てのテーブルを取得する。2回目以降のループでも、全てのテーブルが対象となる。
(3)テーブル間類似度取得S53では、図19における類似度計算処理S3の結果として出力された、図16の例に示す分類階層別テーブル間類似度90を取得する。
(4)テーブル分類S54では、全テーブルセット取得S52で取得したテーブルの集合について、テーブル間類似度取得S53で取得した分類階層別テーブル間類似度90を元に、テーブルのクラスタリング処理を行う。クラスタリングの手法は、公知の技術により実現する。
(6)全ての属性セットに関して、テーブルの分類が終了した時点で、属性セット別分類情報出力S56で、属性セット別分類情報201を出力する。
図21は、属性セット別分類情報201の例である。属性セットごとに、クラスタリングにより分類された数だけ、テーブルの部分集合が求められる。この時点では、分類間の類似度(距離)については、計算しない。
(7)テーブル別属性セット変換S57では、属性セット別分類情報出力S56で得られた、属性セット別分類情報201を、テーブル別属性セット情報202に変換する。図22は、図21の属性セット別分類情報201を、テーブル別属性セット情報202に変換した例である。属性セットごとのテーブルの集合が、各テーブルについて、各属性セットにおける分類番号を並べる表形式に変換する。
Claims (5)
- 所定の入力を受け付け、受け付けた入力に基づいて、1〜N(Nは2以上の整数)の属性セットナンバーごとの所定のテーブル属性からなる属性セット情報と、テーブルを分類する場合の分類の優先順位を示す1〜M(Mは2以上、かつ、N以下の整数)の階層ナンバーのそれぞれについて前記属性セットナンバーのうち重複しない何れかが対応付けられた分類階層情報とを設定する設定部と、
複数のテーブルを格納するデータベースからテーブルごとに前記属性セット情報の示す前記テーブル属性を取得する属性取得部と、
前記分類階層情報の前記階層ナンバーに対応する前記属性セットナンバーから定まるテーブル属性を前記属性取得部が取得した前記テーブル属性の中から取り込み、取り込んだテーブル属性に基づいて、前記分類階層情報の前記階層ナンバーごとに前記データベースに格納されたそれぞれのテーブル間の類似度を示す階層別テーブル間類似度を生成する階層別テーブル間類似度生成部と、
前記階層別テーブル間類似度生成部が前記階層ナンバーごとに生成した階層別テーブル間類似度を用いて、前記データベースが格納する複数のテーブルを分類する分類部と
を備えたことを特徴とするテーブル分類装置。 - 前記設定部が設定する前記属性セット情報は、
前記属性セットナンバーごとの所定のテーブル属性のうちの少なくともいずれかが、テーブルの構成要素であるカラムの属性を示すカラム属性を含み、
前記属性取得部は、
複数のテーブルを格納するデータベースからテーブルごとに前記属性セット情報の示す前記カラム属性を取得し、
階層別テーブル間類似度生成部は、
前記分類階層情報の前記階層ナンバーに対応する前記属性セットナンバーから定まるテーブル属性が前記カラム属性を含む場合には、そのカラム属性を前記属性取得部が取得した前記カラム属性の中から取り込み、取り込んだカラム属性をさらに加えて、前記階層ナンバーの前記階層別テーブル間類似度を生成することを特徴とする請求項1記載のテーブル分類装置。 - 前記階層別テーブル間類似度生成部は、
前記分類階層情報の前記階層ナンバーごとに前記階層別テーブル間類似度を生成する場合に所定の基準にしたがって2つのテーブル間におけるカラム対を生成し、生成した前記カラム対に基づいて前記階層別テーブル間類似度を生成することを特徴とする請求項2記載のテーブル分類装置。 - 前記階層別テーブル間類似度生成部は、
前記カラム対として、互いに一致するとみなされる一致カラム対と、
互いに類似するとみなされる類似カラム対と、
互いに一致も類似もしないとみなされる不一致カラム対とを生成することを特徴とする請求項3記載のテーブル分類装置。 - 前記設定部が設定する前記属性セット情報は、
前記属性セットナンバーごとの所定のテーブル属性のうちの少なくともいずれかが統計情報であることを特徴とする請求項1記載のテーブル分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007016158A JP4902863B2 (ja) | 2007-01-26 | 2007-01-26 | テーブル分類装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007016158A JP4902863B2 (ja) | 2007-01-26 | 2007-01-26 | テーブル分類装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008181459A JP2008181459A (ja) | 2008-08-07 |
JP4902863B2 true JP4902863B2 (ja) | 2012-03-21 |
Family
ID=39725296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007016158A Expired - Fee Related JP4902863B2 (ja) | 2007-01-26 | 2007-01-26 | テーブル分類装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4902863B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8666998B2 (en) * | 2010-09-14 | 2014-03-04 | International Business Machines Corporation | Handling data sets |
JP5884293B2 (ja) * | 2011-04-28 | 2016-03-15 | 富士通株式会社 | 類似文字コード群検索支援方法、類似候補抽出方法、類似候補抽出プログラムおよび類似候補抽出装置 |
JP5367112B2 (ja) * | 2012-03-22 | 2013-12-11 | 株式会社東芝 | データ分析支援装置およびデータ分析支援処理プログラム |
JPWO2017064769A1 (ja) * | 2015-10-14 | 2018-08-02 | 株式会社ターボデータラボラトリー | 情報処理システム及びコンピュータプログラム |
JP6547577B2 (ja) * | 2015-10-15 | 2019-07-24 | 富士通株式会社 | 検査装置、検査プログラムおよび検査方法 |
JP6480377B2 (ja) * | 2016-05-06 | 2019-03-06 | 日本電信電話株式会社 | 分類器学習装置、表種類分類装置、方法、及びプログラム |
US20190205361A1 (en) * | 2016-08-05 | 2019-07-04 | Nec Corporation | Table-meaning estimating system, method, and program |
JP6495212B2 (ja) * | 2016-09-16 | 2019-04-03 | 日本電信電話株式会社 | 分類器学習装置、表種類分類装置、方法、及びプログラム |
KR101930034B1 (ko) * | 2017-02-24 | 2019-03-14 | (주)위세아이텍 | 데이터의 도메인을 판별하는 장치 및 그 방법 |
US11182394B2 (en) * | 2017-10-30 | 2021-11-23 | Bank Of America Corporation | Performing database file management using statistics maintenance and column similarity |
WO2019171538A1 (ja) | 2018-03-08 | 2019-09-12 | 日本電気株式会社 | 意味推定システム、方法およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004046650A (ja) * | 2002-07-12 | 2004-02-12 | Mitsubishi Electric Corp | データ管理方法およびデータベース構造 |
JP2004118573A (ja) * | 2002-09-26 | 2004-04-15 | Fuji Photo Film Co Ltd | 画像整理装置およびプログラム |
-
2007
- 2007-01-26 JP JP2007016158A patent/JP4902863B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2008181459A (ja) | 2008-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4902863B2 (ja) | テーブル分類装置 | |
US7502780B2 (en) | Information storage and retrieval | |
US9053386B2 (en) | Method and apparatus of identifying similar images | |
US8332366B2 (en) | System and method for automatic weight generation for probabilistic matching | |
EP3752930B1 (en) | Random draw forest index structure for searching large scale unstructured data | |
US20160283533A1 (en) | Multi-distance clustering | |
EP2060982A1 (en) | Information storage and retrieval | |
AU2011239618B2 (en) | Ascribing actionable attributes to data that describes a personal identity | |
US20150186471A1 (en) | System and method for approximate searching very large data | |
Liao et al. | A sample-based hierarchical adaptive K-means clustering method for large-scale video retrieval | |
GB2395807A (en) | Information retrieval | |
US11556590B2 (en) | Search systems and methods utilizing search based user clustering | |
JP2011237879A (ja) | 類似映像検索装置 | |
US20190272341A1 (en) | Layered locality sensitive hashing (lsh) partition indexing for big data applications | |
CN106570173B (zh) | 一种基于Spark的高维稀疏文本数据聚类方法 | |
WO2023221713A1 (zh) | 图像编码器的训练方法、装置、设备及介质 | |
WO2019023542A1 (en) | METHODS AND SYSTEMS FOR OPTIMIZED VISUAL RECAPITULATION FOR TEMPORAL EVENT DATA SEQUENCES | |
JP2002183171A (ja) | 文書データ・クラスタリングシステム | |
US7925617B2 (en) | Efficiency in processing queries directed to static data sets | |
US20220222233A1 (en) | Clustering of structured and semi-structured data | |
US10509800B2 (en) | Visually interactive identification of a cohort of data objects similar to a query based on domain knowledge | |
WO2017065891A1 (en) | Automated join detection | |
US20160283862A1 (en) | Multi-distance similarity analysis with tri-point arbitration | |
JP2003316819A (ja) | オブジェクト分類検索装置及びそれを実行するためのプログラム | |
US10803053B2 (en) | Automatic selection of neighbor lists to be incrementally updated |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091006 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111216 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111227 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111229 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150113 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |