JP2008516313A - クエリー結果の一連の近似を算出するためのシステム、方法及びコンピュータプログラム - Google Patents
クエリー結果の一連の近似を算出するためのシステム、方法及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2008516313A JP2008516313A JP2007534900A JP2007534900A JP2008516313A JP 2008516313 A JP2008516313 A JP 2008516313A JP 2007534900 A JP2007534900 A JP 2007534900A JP 2007534900 A JP2007534900 A JP 2007534900A JP 2008516313 A JP2008516313 A JP 2008516313A
- Authority
- JP
- Japan
- Prior art keywords
- query
- series
- result
- sample
- data elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000004590 computer program Methods 0.000 title claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 56
- 238000013500 data storage Methods 0.000 claims description 21
- 239000002356 single layer Substances 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 description 37
- 230000008569 process Effects 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000013515 script Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Fuzzy Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明の一実施形態によると、複数のデータ要素Dへのクエリーの結果Rの一連の近似を作成するための方法が提供される。この方法は、(a)Dの標本Siへのクエリーの結果Aiを算出するステップと、(b)少なくとも結果Aiをもとに結果Rの近似Biを算出するステップと、(c)ステップ(a)及び(b)を、異なるSiについて複数のi回実行することによって一連の近似を作成するステップとを含んでいる。
本発明は多くの様々な形態で実現できるが、本願明細書ではいくつかの例示的な実施形態を説明する。ただし、本開示は本発明の原理の例を示すものとみなすべきであり、また、これらの例は、本願明細書に開示及び/又は図示される好適な実施形態に本発明を限定するためのものではない、ということを理解されたい。
Q:list(D)→ R
Q(permute(data))= Q(data)
U:(R×D)→ R;
U(Q(a), b)= Q(append(a, b));
(append(a, b)は、リスト[a1, a2, … an, b]のこと)
A:(R×N×N)→ R;
(s = sample(a)) → A(Q(s), |s|, |a|)は、Q(a)の有効な近似である)
通常、近似関数は、より大きい標本へのクエリーの結果が与えられると、期待精度がより高い(つまりQ(a)に対して期待誤差がより低い)近似を算出し、母集団全体が与えられるとその母集団へのクエリーの結果そのものを算出する(つまり、A(Q(a), |a|, |a| = Q(a))。
r : = Q([])
rpdata : = random_permutation (data);
for count : = 1 to |rpdata|;
d = rpdata[count]
a : = A(r, count, |rpdata|)
r : = U(r, n)
count : = count + 1
修正: r: = U(U−1(r, o), n)
削除: r: = U−1(r, o)
count: = count − 1
Q(data) = F(d) ;
U(r, d) = r + F(d) ;
A(r, n, N) = r * N / n
Q(data) = (R(data), S(data));
U((r,s), d ) = (UR(r,d), US(s,d));
A((r,s), n, N) = (AR(r,n,N), AS(s,n,N))
たとえ別個のクエリーの結果が出力では必要ないとしても、これらの結果で結果のドメインを拡大させる。これにより、各クエリーの更新関数でこれらの結果を使用できるようになる。更新関数においてFを調査するように選択しない実施も可能である。
Q(data) = (F(R(data), S(data)), R(data), S(data));
U((f,r,s), d) = (F(UR(r,d), US(s,d)), UR(r,d), US(s,d));
A((f,r,s), n, N) = (F(AR(r,n,N), AS(s,n,N)), AR(r,n,N), AS(s,n,N))
Q(data) = Concatenate ||d in data ({{d} if F(d), {} otherwise );
U( r, d ) = {append(r,d) if F(d), r otherwise ;
A( r, n, N ) = r
r := ( Undefined, 0, 0 )
rpdata := random_permutation(data)
for count := 1 to |rpdata|
d := rpdata[count]
r := U( r, d )
if (count % 3000) = 0
(fraction, numerator, denominator):= A( r, count, |rpdata|)
print “割合の近似値は”, fraction * 100.0
if (ユーザーが処理を中断する)
exit
fraction, numerator, denominator := r
print “割合の真の値は”, fraction * 100.0
exit
所得<$20,000の人のうち、何パーセントが都市=「ニューヨーク」であるか?
都市=「シアトル」の人のうち、何パーセントが所得>$80,000であるか?
年齢>55の人のうち、何パーセントが所得<$15,000であるか?
D=名前×年齢×所得×都市×目の色;
d1=(「ジョン・ドウ」、25、$35300、「ニューヨーク」、青);
d2=(「ジェーン・スミス」、42、$61200、「シアトル」、茶);
data = [d1, d2, … dn] ここでは(diはDのメンバーである)
PredA(d) = {1 if income(d) < $20000, 0 otherwise;
PredB(d) = {1 if city(d) = “ニューヨーク”, 0 otherwise
PredA(d) = {1 if age(d) > 55, 0 otherwise;
PredB(d) = {1 if income(d) < $15000, 0 otherwise
Q(d) = ( ( PredA(d)*PredB(d)) / (Sumd in data PredA(d)),
( PredA(d)*PredB(d)),
( PredA(d))
U((f,r,s), d ) = ((d+PredA(d)*PredB(d))/(d+PredA(d)),
d + PredA(d)*PredB(d),
d + PredA(d) ),
A((f,r,s), n, N) = (r/s, r*N/n, s*N/n)
import random
domains = ("名前", "年齢", "所得", "都市", "目の色")
data… = [("ジョン・ドウ", 25, 35300, "ニューヨーク", "青"),
..........("ジェーン・スミス", 42, 61200, "シアトル", "茶"),
..........("ジェイソン・ジョンソン", 33, 48400, "シアトル", "茶"),
..........("フレッド・フリントストーン", 10000, 0, "ベッドロック", "茶"),
..........("ボブ・ジョーンズ", 18, 0, "ボストン", "青"),
.......... ]
#上記の一握りのレコードをあまり
#大きくないサイズにコピーする
data = data * 10000
def ToDictionary( tuple ):
.........."""ドメインからのキーとデータからの値を含む
..........ディクショナリを返す"""
..........dict = {}
..........for k,v in zip(domains,tuple):
.......... dict[k]=v
..........return dict
#データのランダム順列を作成する
rpdata = data[:]
random.shuffle(rpdata)
while 1:
..........# ユーザーにクエリーを入力するよう要請する
..........queryA = raw_input("クエリー:…である人のうち何パーセントが")
..........queryB = raw_input(" …であるか")
..........#クエリーをもとにPredA とPredB とを定義する
..........def PredA(d): return float(eval(queryA, ToDictionary(d)))
..........ef PredB(d): return float(eval(queryB, ToDictionary(d)))
..........def Update( (f,r,s), d ):
.......... return (r+PredA(d) and (r+PredA(d)*PredB(d))/(s+PredA(d)),
.......... r+PredA(d)*PredB(d),
.......... s+PredA(d) )
..........def Approximate( (f,r,s), n, N ):
.......... return (s and r/s, r*N/n, s*N/n)
..........try:
.......... # 徐々に精度の高いクエリー結果を算出していく
.......... result = ("未定義", 0, 0)
.......... for i,d in enumerate(rpdata):
.......... count = i+1
.......... result = Update(result, d)
.......... if count % 1000 == 0:
.......... fraction, numerator, denominator = Approximate(result, count, len(rpdata))
.......... print "割合の近似値は", fraction * 100.0
.......... fraction, numerator, denominator = result
.......... print "割合の真の値は", fraction * 100.0
..........except KeyboardInterrupt:
.......... print "クエリーはユーザーによって中断されました。"
クエリー:都市 == "ニューヨーク"である人のうち何パーセントが …所得 < 30000であるか割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値は0.0割合の近似値はクエリーはユーザーによって中断されました。
クエリー: 年齢 > 20である人のうち何パーセントが …所得 < 30000であるか割合の近似値は25.0316055626割合の近似値は24.7648902821割合の近似値は23.9038785835割合の近似値は23.8170347003割合の近似値は24.2576748868割合の近似値は24.1379310345割合の近似値は24.6695248303割合の近似値は24.5721463338割合の近似値は24.8015596714割合の近似値は24.9749373434割合の近似値は25.0割合の近似値は25.0260145682割合の近似値は25.0287797391割合の近似値は24.9288002848割合の近似値は24.8626602297割合の近似値は24.9219968799割合の近似値は25.0459052516割合の近似値は25.0797614093割合の近似値は24.9852100177割合の近似値は25.0046848648割合の近似値は25.1070154578割合の近似値は25.0823208811割合の近似値は25.145404142割合の近似値は25.0886155129割合の近似値は25.0275302833割合の近似値は24.9843607141割合の近似値は24.9212087505割合の近似値は24.8747091462割合の近似値は24.8616874136割合の近似値は24.8402856069割合の近似値は24.9201923465割合の近似値は24.8816371249割合の近似値は24.9687085151割合の近似値は24.9687385068割合の近似値は25.0223190372割合の近似値は25.0355717508割合の近似値は25.0388382303割合の近似値は25.0419118372割合の近似値は25.0272243931割合の近似値は25.0421743205割合の近似値は25.093004818割合の近似値は25.1286781113割合の近似値は25.0922938287割合の近似値は25.038337025割合の近似値は25.0763422353割合の近似値は25.0801325583割合の近似値は25.0392193358割合の近似値は25.0436186558割合の近似値は25.0255128074割合の近似値は25.0割合の真の値は25.0
クエリー:目の色== "茶"である人のうち何パーセントが …都市== "シアトル"であるか割合の近似値は66.0377358491割合の近似値は67.0008354219割合の近似値は67.7657760091割合の近似値は67.940552017割合の近似値は67.5420875421割合の近似値は67.6561187342割合の近似値は67.0090778786割合の近似値は67.1701279631割合の近似値は66.8466120625割合の近似値は66.5210818075割合の近似値は66.3658611196割合の近似値は66.3400979706割合の近似値は66.3701985048割合の近似値は66.5072342461割合の近似値は66.5958398569割合の近似値は66.5164535737クエリーはユーザーによって中断されました。
((count + 0.68)^0.5 * 1.281551 + 1.2269) / count
本特許出願の一部は著作権保護の対象となる内容を含んでいる。著作権の所有者は、特許商標局で開示されているとおりの特許書類又は特許開示は誰が複製してもよいとしているが、それ以外の場合は全著作権を留保する。
202 処理部
204 データ記憶装置
206 I/O装置
208 表示装置
210 プリンタ
300 インターフェース
302 クエリー
304 クエリーの結果
306 信頼度
Claims (67)
- 複数のデータ要素Dへのクエリーの結果Rの一連の近似を作成するための方法であって、
a)Dの標本Siへのクエリーの結果Aiを算出するステップと、
b)少なくとも前記の結果Aiをもとに、結果Rの近似Biを算出するステップと、
c)ステップ(a)及び(b)を、異なるSiについて複数のi回実行することによって一連の近似を作成するステップと
を含む方法。 - ステップ(a)の一連の適用において、標本Siが徐々に大きくなっていき(つまり|Si+1| > |Si|)、ステップ(b)の一連の適用において、近似Biの期待精度が徐々に高くなっていく
ことを特徴とする請求項1に記載の方法。 - ステップ(a)の少なくとも一回の適用において、標本Siが、前回の標本Sjからのデータ要素と複数の新しいデータ要素Niとを含んでおり、
AiがAjとNiとの関数として算出される
ことを特徴とする請求項1に記載の方法。 - Niが、Dのランダム又は擬似ランダム順列の間順走査によって作成される
ことを特徴とする請求項3に記載の方法。 - Niが、Dのランダム又は擬似ランダム走査によって作成される
ことを特徴とする請求項3に記載の方法。 - ステップ(a)の少なくとも一回の適用において、標本Siが前記複数のデータ要素Dを含んでいる
ことを特徴とする請求項1に記載の方法。 - クエリーを作成するステップをさらに含む請求項1に記載の方法。
- 表示装置にステップ(c)で作成される前記一連の近似を表示するステップをさらに含む請求項1に記載の方法。
- 前記複数のデータ要素Dが単層ファイルに格納されており、
前記方法が、前記単層ファイルにアクセスするステップをさらに含んでいる請求項1に記載の方法。 - 前記クエリーが完了した割合を示すインジケータを作成するステップをさらに含む請求項1に記載の方法。
- 近似Biごとに前記近似Biの正確度合いを示す信頼インジケータCiを作成するステップをさらに含む請求項1に記載の方法。
- データ記憶装置に格納された複数のデータ要素Dへのクエリーの結果Rの一連の近似を作成するためのシステムであって、
前記データ記憶装置にアクセスするように構成されており、(a)複数のデータ要素Dの標本Siへのクエリーの結果Aiを算出し、(b)少なくとも結果Aiをもとに結果Rの近似Biを算出し、(c)(a)及び(b)を、異なる標本Siについて複数のi回実行することによって一連の近似を作成するように構成されている処理部を備えるシステム。 - 前記処理部がさらに、(a)の一連の適用において、徐々に大きくなっていく標本Si(つまり|Si+1| > |Si|)をDから選択するように構成されており、
ステップ(b)の一連の適用において、近似Biの期待精度が徐々に高くなっていく
ことを特徴とする請求項12に記載のシステム。 - 前記処理部が実行する(a)の少なくても1回の適用において、標本Siが、前回の標本Sjからのデータ要素と複数の新しいデータ要素Niとを含んでおり、
AiがAjとNiとの関数として算出される
ことを特徴とする請求項12に記載のシステム。 - Niが、Dのランダム又は擬似ランダム順列の間順走査によって作成される
ことを特徴とする請求項14に記載のシステム。 - Niが、Dのランダム又は擬似ランダム走査によって作成される
ことを特徴とする請求項14に記載のシステム。 - ステップ(a)の少なくとも1回の適用において、標本Siが前記複数のデータ要素Dを含んでいる
ことを特徴とする請求項12に記載のシステム。 - 前記処理部がさらに、クエリー要請を受け付けて前記クエリー要請をもとに前記クエリーを作成するように構成されている
ことを特徴とする請求項12に記載のシステム。 - 前記処理部がさらに、(c)にて作成された前記一連の近似を表示装置に表示するように構成されている
ことを特徴とする請求項12に記載のシステム。 - 前記複数のデータ要素Dが前記データ記憶装置の単層ファイルに格納されている
ことを特徴とする請求項12に記載のシステム。 - 前記処理部がさらに、前記クエリーが完了した割合を示すインジケータを作成するように構成されている
ことを特徴とする請求項12に記載のシステム。 - 前記処理部がさらに、近似Biごとに前記近似Biの正確度合いを示す信頼インジケータCiを作成するように構成されている
ことを特徴とする請求項12に記載のシステム。 - 前記信頼インジケータCiが、少なくとも結果Aiをもとにしている
ことを特徴とする請求項22に記載のシステム。 - データ記憶装置に格納された複数のデータ要素Dへのクエリーの結果Rの一連の近似を作成するコンピュータプログラムであって、コンピュータで読み込み可能な媒体に格納されており、
前記データ記憶装置にアクセスし、複数のデータ要素Dの標本Siへのクエリーの結果Aiを算出するための第1のコード部分と、
少なくとも結果Aiをもとに結果Rの近似Biを算出するための第2のコード部分と、
前記第1及び第2のコード部分を、異なる標本Siについて複数のi回実行することによって一連の近似を作成するための第3のコード部分と
を備えるコンピュータプログラム。 - 前記第1のコード部分が、徐々に大きくなっていく標本Si(つまり|Si+1| > |Si|)を使用するように構成されており、
前記第2のコード部分の一連の実行において、近似Biの期待精度が徐々に高くなっていく
ことを特徴とする請求項24に記載のコンピュータプログラム。 - 前記第1のコード部分の少なくとも1回の実行において、標本Siが、前回の標本Sjからのデータ要素と複数の新しいデータ要素Niとを含んでおり、
AiがAjとNiとの関数として算出される
ことを特徴とする請求項24に記載のコンピュータプログラム。 - Niが、Dのランダム又は擬似ランダム順列の間順走査によって作成される
ことを特徴とする請求項26に記載のコンピュータプログラム。 - Niが、Dのランダム又は擬似ランダム走査によって作成される
ことを特徴とする請求項26に記載のコンピュータプログラム。 - 前記第1のコード部分の少なくとも一回の実行において、標本Siが前記複数のデータ要素Dを含んでいる
ことを特徴とする請求項24に記載のコンピュータプログラム。 - クエリーを作成するための第4のコード部分をさらに含む請求項24に記載のコンピュータプログラム。
- 前記一連の近似を表示するための第4のコード部分をさらに含む請求項24に記載のコンピュータプログラム。
- 前記複数のデータ要素Dが単層ファイルに格納されている
ことを特徴とする請求項24に記載のコンピュータプログラム。 - 前記クエリーが完了した割合を示すインジケータを作成するための第4のコード部分をさらに含む請求項24に記載のコンピュータプログラム。
- 近似Biごとに前記近似Biの正確度合いを示す信頼インジケータCiを作成するための第4のコード部分をさらに含む請求項24に記載のコンピュータプログラム。
- 複数のデータ要素Dへのクエリーの結果Rの一連の近似を作成するための方法であって、
a)Dの標本Siへのクエリーの結果Aiを算出するための各ステップと、
b)少なくとも結果Aiをもとに結果Rの近似Biを算出するための各ステップと、
c)ステップ(a)及び(b)を、異なるSiについて複数のi回実行することによって一連の近似を作成するための各ステップと
を含む方法。 - (a)の一連の適用において、標本Siが徐々に大きくなっていき(つまり|Si+1| > |Si|)、(b)の一連の適用において、近似Biの期待精度が徐々に高くなっていく
ことを特徴とする請求項35に記載の方法。 - (a)の少なくとも一回の適用において、標本Siが、前回の標本Sjからのデータ要素と複数の新しいデータ要素Niとを含んでおり、
AiがAjとNiとの関数として算出される
ことを特徴とする請求項35に記載の方法。 - Niが、Dのランダム又は擬似ランダム順列の間順走査によって作成される
ことを特徴とする請求項37に記載の方法。 - Niが、Dのランダム又は擬似ランダム走査によって作成される
ことを特徴とする請求項37に記載の方法。 - (a)の少なくとも一回の適用において、標本Siが前記複数のデータ要素Dを含んでいる
ことを特徴とする請求項35に記載の方法。 - クエリーを作成するための各ステップをさらに含む請求項35に記載の方法。
- (c)で作成される前記一連の近似を表示装置に表示するための各ステップをさらに含む請求項35に記載の方法。
- 前記複数のデータ要素Dが単層ファイルに格納されており、
前記方法が、前記単層ファイルにアクセスするための各ステップをさらに含んでいる請求項35に記載の方法。 - 前記クエリーが完了した割合を示すインジケータを作成するための各ステップをさらに含む請求項35に記載の方法。
- 近似Biごとに前記近似Biの正確度合いを示す信頼インジケータCiを作成するための各ステップをさらに含む請求項35に記載の方法。
- データ記憶装置に格納された複数のデータ要素Dへのクエリーの結果Rの一連の近似を作成するためのシステムであって、
前記データ記憶装置にアクセスし、(a)複数のデータ要素Dの標本Siへのクエリーの結果Aiを算出し、(b)少なくとも結果Aiをもとに結果Rの近似Biを算出し、(c)(a)及び(b)を、異なる標本Siについて複数のi回実行することによって一連の近似を作成するための処理手段を備えるシステム。 - 前記処理手段が、(a)の一連の適用において、徐々に大きくなっていく標本Si(つまり|Si+1| > |Si|)をDから選択し、
ステップ(b)の一連の適用において、近似Biの期待精度が徐々に高くなっていく
ことを特徴とする請求項46に記載のシステム。 - (a)の少なくても1回の適用において、処理手段が、前回の標本Sjからのデータ要素と複数の新しいデータ要素Niとを含むように標本Siを選択し、AjとNiとの関数としてAiを算出する
ことを特徴とする請求項46に記載のシステム。 - 前記処理手段が、Dのランダム又は擬似ランダム順列の間順走査によってNiを作成する
ことを特徴とする請求項48に記載のシステム。 - 前記処理手段が、Dのランダム又は擬似ランダム走査によってNiを作成する
ことを特徴とする請求項48に記載のシステム。 - (a)の少なくとも1回の適用において、標本Siが前記複数のデータ要素Dを含んでいる
ことを特徴とする請求項46に記載のシステム。 - 前記処理手段が、クエリー要請を受け付けて、前記クエリー要請をもとに前記クエリーを作成する
ことを特徴とする請求項46に記載のシステム。 - 前記処理手段が、(c)にて作成された前記一連の近似を表示装置に表示する
ことを特徴とする請求項46に記載のシステム。 - 前記複数のデータ要素Dが前記データ記憶装置の単層ファイルに格納されている
ことを特徴とする請求項46に記載のシステム。 - 前記処理手段が、前記クエリーが完了した割合を示すインジケータを作成する
ことを特徴とする請求項46に記載のシステム。 - 前記処理手段が、近似Biごとに前記近似Biの正確度合いを示す信頼インジケータCiを作成する
ことを特徴とする請求項46に記載のシステム。 - 前記信頼インジケータCiが、少なくともAiをもとにしている
ことを特徴とする請求項56に記載のシステム。 - データ記憶装置に格納された複数のデータ要素Dへのクエリーの結果Rの一連の近似を作成するためのシステムであって、
データネットワークに接続されたクライアント・ユーザー・インターフェースであって、クエリー要請を作成し、このクエリー要請を前記データネットワークを介して処理手段に送信し、これに応える一連の近似を受け取り表示するように構成されているクライアント・ユーザー・インターフェースを備え、
前記クエリー要請をもとに、前記処理手段が前記データネットワークに接続されて、(a)前記複数のデータ要素Dの標本Siへのクエリーの結果Aiを算出し、(b)少なくとも結果Aiをもとに結果Rの近似Biを算出し、(c)(a)及び(b)を、異なる標本Siについて複数のi回実行することによって一連の近似を作成し、(d)前記一連の近似を前記クライアント・ユーザー・インターフェースに送信する
ことを特徴とするシステム。 - 前記処理手段が、(a)の一連の適用において、徐々に大きくなっていく標本Si(つまり|Si+1| > |Si|)をDから選択し、
ステップ(b)の一連の適用において、近似Biの期待精度が徐々に高くなっていく
ことを特徴とする請求項58に記載のシステム。 - 処理手段が、(a)の少なくとも一回の適用において、前回の標本Sjからのデータ要素と複数の新しいデータ要素Niとを含むように標本Siを選択し、AjとNiとの関数としてAiを算出する
ことを特徴とする請求項58に記載のシステム。 - 前記処理手段が、Dのランダム又は擬似ランダム順列の間順走査によってNiを作成する
ことを特徴とする請求項60に記載のシステム。 - 前記処理手段が、Dのランダム又は擬似ランダム走査によってNiを作成する
ことを特徴とする請求項60に記載のシステム。 - (a)の少なくとも1回の適用において、標本Siが前記複数のデータ要素Dを含んでいる
ことを特徴とする請求項58に記載のシステム。 - 前記複数のデータ要素Dが前記データ記憶装置の単層ファイルに格納されている
ことを特徴とする請求項58に記載のシステム。 - 前記処理手段が前記クエリーの完了した割合を示すインジケータを作成し、前記クライアント・ユーザー・インターフェースが前記インジケータを表示する
ことを特徴とする請求項58に記載のシステム。 - 前記処理手段が近似Biごとに前記近似Biの正確度合いを示す信頼インジケータCiを作成し、前記クライアント・ユーザー・インターフェースが前記信頼インジケータCiを表示する
ことを特徴とする請求項58に記載のシステム。 - 前記クライアント・ユーザー・インターフェースがさらに、前記インジケータをグラフィカルに表示するように構成されている
ことを特徴とする請求項65に記載のシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/957,671 US7617186B2 (en) | 2004-10-05 | 2004-10-05 | System, method and computer program for successive approximation of query results |
US10/957,671 | 2004-10-05 | ||
PCT/US2005/035764 WO2006041886A2 (en) | 2004-10-05 | 2005-10-05 | System, method and computer program for successive approximation of query results |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008516313A true JP2008516313A (ja) | 2008-05-15 |
JP5176012B2 JP5176012B2 (ja) | 2013-04-03 |
Family
ID=36126820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007534900A Active JP5176012B2 (ja) | 2004-10-05 | 2005-10-05 | クエリー結果の一連の近似を算出するためのシステム、方法及びコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US7617186B2 (ja) |
EP (1) | EP1820123A4 (ja) |
JP (1) | JP5176012B2 (ja) |
AU (1) | AU2005294416A1 (ja) |
CA (1) | CA2580687A1 (ja) |
WO (1) | WO2006041886A2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018049332A (ja) * | 2016-09-20 | 2018-03-29 | 株式会社東芝 | データ検索システムおよびデータ検索方法 |
JPWO2017135264A1 (ja) * | 2016-02-05 | 2018-11-29 | Necソリューションイノベータ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8578041B2 (en) * | 2005-06-03 | 2013-11-05 | Adobe Systems Incorporated | Variable sampling rates for website visitation analysis |
JP2009047831A (ja) * | 2007-08-17 | 2009-03-05 | Toshiba Corp | 特徴量抽出装置、プログラムおよび特徴量抽出方法 |
US8234582B1 (en) | 2009-02-03 | 2012-07-31 | Amazon Technologies, Inc. | Visualizing object behavior |
US8250473B1 (en) | 2009-02-03 | 2012-08-21 | Amazon Technoloies, Inc. | Visualizing object behavior |
US8341540B1 (en) | 2009-02-03 | 2012-12-25 | Amazon Technologies, Inc. | Visualizing object behavior |
US20100241893A1 (en) * | 2009-03-18 | 2010-09-23 | Eric Friedman | Interpretation and execution of a customizable database request using an extensible computer process and an available computing environment |
US9043296B2 (en) | 2010-07-30 | 2015-05-26 | Microsoft Technology Licensing, Llc | System of providing suggestions based on accessible and contextual information |
US9864966B2 (en) | 2010-12-17 | 2018-01-09 | Microsoft Technology Licensing, Llc | Data mining in a business intelligence document |
US9104992B2 (en) | 2010-12-17 | 2015-08-11 | Microsoft Technology Licensing, Llc | Business application publication |
US9336184B2 (en) | 2010-12-17 | 2016-05-10 | Microsoft Technology Licensing, Llc | Representation of an interactive document as a graph of entities |
US9024952B2 (en) | 2010-12-17 | 2015-05-05 | Microsoft Technology Licensing, Inc. | Discovering and configuring representations of data via an insight taxonomy |
US9111238B2 (en) * | 2010-12-17 | 2015-08-18 | Microsoft Technology Licensing, Llc | Data feed having customizable analytic and visual behavior |
US9069557B2 (en) | 2010-12-17 | 2015-06-30 | Microsoft Technology Licensing, LLP | Business intelligence document |
US9304672B2 (en) | 2010-12-17 | 2016-04-05 | Microsoft Technology Licensing, Llc | Representation of an interactive document as a graph of entities |
US9110957B2 (en) | 2010-12-17 | 2015-08-18 | Microsoft Technology Licensing, Llc | Data mining in a business intelligence document |
US9171272B2 (en) | 2010-12-17 | 2015-10-27 | Microsoft Technology Licensing, LLP | Automated generation of analytic and visual behavior |
WO2013147778A1 (en) * | 2012-03-28 | 2013-10-03 | Intel Corporation | Function approximation based on statistical properties |
US9607045B2 (en) | 2012-07-12 | 2017-03-28 | Microsoft Technology Licensing, Llc | Progressive query computation using streaming architectures |
US10740328B2 (en) | 2016-06-24 | 2020-08-11 | Microsoft Technology Licensing, Llc | Aggregate-query database system and processing |
US10552435B2 (en) * | 2017-03-08 | 2020-02-04 | Microsoft Technology Licensing, Llc | Fast approximate results and slow precise results |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11353331A (ja) * | 1998-05-20 | 1999-12-24 | Lucent Technol Inc | デ―タベ―スの問合せに応答する方法 |
US6108647A (en) * | 1998-05-21 | 2000-08-22 | Lucent Technologies, Inc. | Method, apparatus and programmed medium for approximating the data cube and obtaining approximate answers to queries in relational databases |
JP2004272936A (ja) * | 2004-06-14 | 2004-09-30 | Hitachi Ltd | 大規模データ分析方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5950189A (en) * | 1997-01-02 | 1999-09-07 | At&T Corp | Retrieval system and method |
US5870752A (en) | 1997-08-21 | 1999-02-09 | Lucent Technologies Inc. | Incremental maintenance of an approximate histogram in a database system |
US6507840B1 (en) * | 1999-12-21 | 2003-01-14 | Lucent Technologies Inc. | Histogram-based approximation of set-valued query-answers |
US6748394B2 (en) * | 2000-04-27 | 2004-06-08 | Hyperion Solutions Corporation | Graphical user interface for relational database |
WO2002101581A2 (de) | 2001-06-08 | 2002-12-19 | Siemens Aktiengesellschaft | Statistische modelle zur performanzsteigerung von datenbankoperationen |
AU2002334954B2 (en) * | 2001-10-11 | 2008-07-31 | Omniture, Inc. | System, method, and computer program product for processing and visualization of information |
US20040002956A1 (en) | 2002-06-28 | 2004-01-01 | Microsoft Corporation | Approximate query processing using multiple samples |
-
2004
- 2004-10-05 US US10/957,671 patent/US7617186B2/en active Active
-
2005
- 2005-10-05 JP JP2007534900A patent/JP5176012B2/ja active Active
- 2005-10-05 CA CA002580687A patent/CA2580687A1/en not_active Abandoned
- 2005-10-05 AU AU2005294416A patent/AU2005294416A1/en not_active Abandoned
- 2005-10-05 WO PCT/US2005/035764 patent/WO2006041886A2/en active Application Filing
- 2005-10-05 EP EP05801975A patent/EP1820123A4/en not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11353331A (ja) * | 1998-05-20 | 1999-12-24 | Lucent Technol Inc | デ―タベ―スの問合せに応答する方法 |
US6108647A (en) * | 1998-05-21 | 2000-08-22 | Lucent Technologies, Inc. | Method, apparatus and programmed medium for approximating the data cube and obtaining approximate answers to queries in relational databases |
JP2004272936A (ja) * | 2004-06-14 | 2004-09-30 | Hitachi Ltd | 大規模データ分析方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2017135264A1 (ja) * | 2016-02-05 | 2018-11-29 | Necソリューションイノベータ株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2018049332A (ja) * | 2016-09-20 | 2018-03-29 | 株式会社東芝 | データ検索システムおよびデータ検索方法 |
Also Published As
Publication number | Publication date |
---|---|
US20060074882A1 (en) | 2006-04-06 |
EP1820123A2 (en) | 2007-08-22 |
JP5176012B2 (ja) | 2013-04-03 |
WO2006041886A3 (en) | 2007-05-03 |
AU2005294416A1 (en) | 2006-04-20 |
CA2580687A1 (en) | 2006-04-20 |
US7617186B2 (en) | 2009-11-10 |
EP1820123A4 (en) | 2009-02-18 |
WO2006041886A2 (en) | 2006-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5176012B2 (ja) | クエリー結果の一連の近似を算出するためのシステム、方法及びコンピュータプログラム | |
US9922002B2 (en) | Efficient representations of graphs with multiple edge types | |
US7689553B2 (en) | Execution cost reduction of sampled queries in a database | |
Linoff | Data analysis using SQL and Excel | |
US9558251B2 (en) | Transformation functions for compression and decompression of data in computing environments and systems | |
US8688682B2 (en) | Query expression evaluation using sample based projected selectivity | |
US20050273697A1 (en) | Data editing and verification user interface | |
EP2863311B1 (en) | Domain centric test data generation | |
US7921100B2 (en) | Set similarity selection queries at interactive speeds | |
US8463807B2 (en) | Augmented search suggest | |
US20120096054A1 (en) | Reading rows from memory prior to reading rows from secondary storage | |
US9122755B2 (en) | Instantaneous incremental search user interface | |
US10089342B2 (en) | Main memory database management using page index vectors | |
US20140280283A1 (en) | Database System with Data Organization Providing Improved Bit Parallel Processing | |
US9141654B2 (en) | Executing user-defined function on a plurality of database tuples | |
US10191942B2 (en) | Reducing comparisons for token-based entity resolution | |
US20070094233A1 (en) | Translating time-independent data using database operations | |
US8086610B2 (en) | Autonomic self configuring building-block database index | |
WO2023086322A1 (en) | Late materialization of queried data in database cache | |
US20100205197A1 (en) | Two-valued logic database management system with support for missing information | |
US20060235819A1 (en) | Apparatus and method for reducing data returned for a database query using select list processing | |
US20230367751A1 (en) | Evaluating Row-Store Expressions on a Column-Store Database | |
Torgo | Data mining with R | |
WO2023219734A1 (en) | Evaluating row-store expressions on a column-store database | |
JP2001331573A (ja) | 姓名分析方法及びそのシステム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080807 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20091013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20091013 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110816 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20111116 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120529 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120627 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20121211 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20121211 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5176012 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160118 Year of fee payment: 3 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160118 Year of fee payment: 3 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: R3D02 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |