JP4726889B2 - レコードのペアの空間のタイリングによるレコードのリンクのためのデータベース・アクセスの最適化 - Google Patents
レコードのペアの空間のタイリングによるレコードのリンクのためのデータベース・アクセスの最適化 Download PDFInfo
- Publication number
- JP4726889B2 JP4726889B2 JP2007501948A JP2007501948A JP4726889B2 JP 4726889 B2 JP4726889 B2 JP 4726889B2 JP 2007501948 A JP2007501948 A JP 2007501948A JP 2007501948 A JP2007501948 A JP 2007501948A JP 4726889 B2 JP4726889 B2 JP 4726889B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- records
- segment
- record
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 19
- 238000004891 communication Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 7
- 230000000903 blocking effect Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本件出願は、2004年3月5日に『オプティマイジング・データベース・アクセス・フォア・レコード・リンケージ・バイ・タイリング・ザ・スペース・オブ・レコード・ペア(Optimizing Database Access for Record Linkage by Tiling the Space of Record Pairs)』と題して出願された米国特許仮出願第60/550,454号(代理人ドケット番号第2004P03682US)の恩典を主張するものであり、当該出願は、その全体が参照によりこれに援用される。
102 中央処理ユニット(CPU);プロセッサ・チップ
104 システム・バス
106 読み出し専用メモリ(ROM)
108 ランダム・アクセス・メモリ(RAM)
110 ディスプレイ・アダプタ
112 I/Oアダプタ
114 ユーザ・インターフェース・アダプタ
116 ディスプレイ・ユニット
118 ディスク・ストレージ・ユニット
120 マウス
122 キーボード
124 目追跡デバイス
128 通信アダプタ
170 セグメント化およびペアリング・ユニット
180 重複検出ユニット
Claims (8)
- レコードのペアの空間のタイリングによってレコードのリンクのためのデータベース・アクセスを最適化するためのシステムにおいて実行される方法であって、
データベース・データを受け取るステップ、
前記データベース・データをデータ・セグメントにセグメント化するステップ、
前記データ・セグメントをデータ・クォードラントにペアリングするステップ、
および、各データ・クォードラントについて重複を検出するステップ、
とを含み、
前記各セグメントは、前記システムのメモリ容量内に2つのセグメントが収まるように前記メモリ容量ならびにレコードのサイズに応じた数のレコードを含むものであること、
前記ペアリングするステップにおいてs個のセグメントから形成される前記セグメントのペア(データ・クォードラント)の数は、s(s‐1)/2個であること、そして
前記重複を検出するステップにおいて、N個のレコードのデータベース上における重複の検出が、2N/s個のレコードのデータベースのためのs(s‐1)/2個の重複検出のジョブに分割され、その結果それらのジョブのそれぞれが2回のデータベース読み出しを行うこと
を特徴とする方法。 - 前記ジョブを処理する順序が、すべての(s(s‐1)/2)個のデータ・クォードラントのためのデータベース読み出しの数が、N個のレコードのあらゆるペアが同時に前記メモリ内に見つかることを保証するための最も少ないデータベース読み出し数である(s(s‐1)/2+1)となるように整理される請求項1に記載の方法。
- 前記ジョブを処理する順序が、データ・クォードラント(1,2)(1,3)...(1,s)(2,s)(2,s‐1)...(2,3)(3,4)(3,5)...(s‐1,s)である請求項2に記載の方法。
- 各データ・クォードラントについて重複を検出するステップは、
セグメント(1,2)のデータ・クォードラントについて全てのペアを考慮し、
データ・クォードラント(1,i)については、1つのレコードがセグメント1内にあり、他方のレコードがセグメントi内にあるか、もしくは両方のレコードがセグメントi内にある場合に2つのレコードのペアを考慮し、および、
j>i>1とするデータ・クォードラント(i,j)については、1つのレコードがセグメントi内にあり、他方のレコードがセグメントj内にある場合に2つのレコードのペアを考慮することにより、
N個のレコードからの任意のペアが1つのデータ・クォードラントの中だけで考慮されることになる請求項1に記載の方法。 - レコードのペアの空間のタイリングによってレコードのリンクのためのデータベース・アクセスを最適化するためのシステムであって、
少なくとも1つのプロセッサおよびメモリ、
前記少なくとも1つのプロセッサと信号通信する、データベース・データをデータ・セグメントにセグメント化し、かつ前記データ・セグメントをデータ・クォードラントにペアリングするためのセグメント化およびペアリング・ユニット、および、
前記少なくとも1つのプロセッサと信号通信する、各データ・クォードラントについて重複を検出するための重複検出ユニット、
を包含し、
前記セグメント化およびペアリング・ユニットは、前記メモリ容量内に2つのセグメントが収まるように前記メモリ容量ならびにレコードのサイズに応じた数のレコードを各セグメント内に含めるための手段を包含し、
前記重複検出ユニットは、N個のレコードのデータベース上における重複の検出のタスクを、2N/s個のレコードのデータベースのためのs(s‐1)/2個の重複検出のジョブに分割する重複検出手段を有し、その結果それらのジョブのそれぞれが2回のデータベース読み出しを行うこと
を包含するシステム。 - 前記重複検出ユニットは、すべての(s(s‐1)/2)個のデータ・クォードラントのためのデータベース読み出しの数が、N個のレコードのあらゆるペアが同時に前記メモリ内に見つかることを保証するための最も少ないデータベース読み出し数である(s(s‐1)/2+1)となるように前記ジョブを処理する順序を整理するための手段を包含する、請求項5に記載のシステム。
- 前記重複検出ユニットは、前記ジョブを処理する順序をデータ・クォードラント(1,2)(1,3)...(1,s)(2,s)(2,s‐1)...(2,3)(3,4)(3,5)...(s‐1,s)として設定するための手段を包含する、請求項6に記載のシステム。
- 前記重複検出ユニットは、各データ・クォードラントについて重複を検出するための手段を包含し、前記手段は、
セグメント(1,2)のデータ・クォードラントについてすべてのペアを考慮するための手段、
データ・クォードラント(1,i)については、1つのレコードがセグメント1内にあり、他方のレコードがセグメントi内にあるか、もしくは両方のレコードがセグメントi内にある場合に2つのレコードのペアを考慮するための手段、
および、j>i>1とするデータ・クォードラント(i,j)については、1つのレコードがセグメントi内にあり、他方のレコードがセグメントj内にある場合に2つのレコードのペアを考慮するための手段、
を包含し、N個のレコードからの任意のペアが1つのデータ・クォードラントの中だけで考慮されることになることを特徴とする請求項5に記載のシステム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US55045404P | 2004-03-05 | 2004-03-05 | |
US60/550,454 | 2004-03-05 | ||
US11/067,992 US7403936B2 (en) | 2004-03-05 | 2005-02-28 | Optimizing database access for record linkage by tiling the space of record pairs |
US11/067,992 | 2005-02-28 | ||
PCT/US2005/006766 WO2005093609A1 (en) | 2004-03-05 | 2005-03-02 | Optimizing database access for record linkage by tiling the space of record pairs |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007527582A JP2007527582A (ja) | 2007-09-27 |
JP4726889B2 true JP4726889B2 (ja) | 2011-07-20 |
Family
ID=34961485
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007501948A Expired - Fee Related JP4726889B2 (ja) | 2004-03-05 | 2005-03-02 | レコードのペアの空間のタイリングによるレコードのリンクのためのデータベース・アクセスの最適化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7403936B2 (ja) |
EP (1) | EP1730655B1 (ja) |
JP (1) | JP4726889B2 (ja) |
AU (1) | AU2005226035B2 (ja) |
CA (1) | CA2558548A1 (ja) |
WO (1) | WO2005093609A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8204866B2 (en) * | 2007-05-18 | 2012-06-19 | Microsoft Corporation | Leveraging constraints for deduplication |
US8468160B2 (en) * | 2009-10-30 | 2013-06-18 | International Business Machines Corporation | Semantic-aware record matching |
US20110106836A1 (en) * | 2009-10-30 | 2011-05-05 | International Business Machines Corporation | Semantic Link Discovery |
US9265458B2 (en) | 2012-12-04 | 2016-02-23 | Sync-Think, Inc. | Application of smooth pursuit cognitive testing paradigms to clinical drug development |
US9380976B2 (en) | 2013-03-11 | 2016-07-05 | Sync-Think, Inc. | Optical neuroinformatics |
US9767127B2 (en) | 2013-05-02 | 2017-09-19 | Outseeker Corp. | Method for record linkage from multiple sources |
US11605018B2 (en) | 2017-12-27 | 2023-03-14 | Cerner Innovation, Inc. | Ontology-guided reconciliation of electronic records |
US11675805B2 (en) | 2019-12-16 | 2023-06-13 | Cerner Innovation, Inc. | Concept agnostic reconcilation and prioritization based on deterministic and conservative weight methods |
US12072941B2 (en) | 2022-05-04 | 2024-08-27 | Cerner Innovation, Inc. | Systems and methods for ontologically classifying records |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000187668A (ja) * | 1998-12-22 | 2000-07-04 | Hitachi Ltd | グループ化方法と重複排除方法 |
JP2003044667A (ja) * | 2001-07-30 | 2003-02-14 | Nippon Risk Data Bank Kk | 名寄せシステム、名寄せ方法、そのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記憶媒体、及び、情報一致判断装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5237669A (en) * | 1991-07-15 | 1993-08-17 | Quarterdeck Office Systems, Inc. | Memory management method |
US5680611A (en) * | 1995-09-29 | 1997-10-21 | Electronic Data Systems Corporation | Duplicate record detection |
US6373139B1 (en) * | 1999-10-06 | 2002-04-16 | Motorola, Inc. | Layout for a ball grid array |
US7051097B1 (en) * | 2000-05-20 | 2006-05-23 | Ciena Corporation | Embedded database for computer system management |
US6912549B2 (en) * | 2001-09-05 | 2005-06-28 | Siemens Medical Solutions Health Services Corporation | System for processing and consolidating records |
-
2005
- 2005-02-28 US US11/067,992 patent/US7403936B2/en active Active
- 2005-03-02 WO PCT/US2005/006766 patent/WO2005093609A1/en active Application Filing
- 2005-03-02 AU AU2005226035A patent/AU2005226035B2/en not_active Ceased
- 2005-03-02 EP EP05724336A patent/EP1730655B1/en not_active Expired - Fee Related
- 2005-03-02 CA CA002558548A patent/CA2558548A1/en not_active Abandoned
- 2005-03-02 JP JP2007501948A patent/JP4726889B2/ja not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000187668A (ja) * | 1998-12-22 | 2000-07-04 | Hitachi Ltd | グループ化方法と重複排除方法 |
JP2003044667A (ja) * | 2001-07-30 | 2003-02-14 | Nippon Risk Data Bank Kk | 名寄せシステム、名寄せ方法、そのシステムでの処理をコンピュータに行なわせるためのプログラムを格納した記憶媒体、及び、情報一致判断装置 |
Also Published As
Publication number | Publication date |
---|---|
EP1730655B1 (en) | 2011-06-29 |
EP1730655A1 (en) | 2006-12-13 |
AU2005226035A1 (en) | 2005-10-06 |
US20050246318A1 (en) | 2005-11-03 |
AU2005226035B2 (en) | 2009-01-22 |
JP2007527582A (ja) | 2007-09-27 |
WO2005093609A1 (en) | 2005-10-06 |
WO2005093609A8 (en) | 2006-11-16 |
CA2558548A1 (en) | 2005-10-06 |
US7403936B2 (en) | 2008-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4726889B2 (ja) | レコードのペアの空間のタイリングによるレコードのリンクのためのデータベース・アクセスの最適化 | |
US10048864B2 (en) | Dynamically configuring erasure code redundancy and distribution | |
CN102937922B (zh) | 查询和修复数据 | |
US5166936A (en) | Automatic hard disk bad sector remapping | |
US7237141B2 (en) | Method for recovering data from a redundant storage object | |
US9122647B2 (en) | System and method to backup objects on an object storage platform | |
US6728791B1 (en) | RAID 1 read mirroring method for host adapters | |
US20030070115A1 (en) | Logging and retrieving pre-boot error information | |
US20070130228A1 (en) | Filesystem snapshot enhancement to improve system performance | |
JP2009251725A (ja) | 記憶制御装置及び記憶制御装置を用いた重複データ検出方法。 | |
US8099397B2 (en) | Apparatus, system, and method for improved portable document format (“PDF”) document archiving | |
US8745345B2 (en) | Backup copy enhancements to reduce primary version access | |
JP5062909B2 (ja) | 1つのディレクトリから別のディレクトリへのファイルのコピー | |
JP2006004031A (ja) | データ処理方法およびシステム並びにストレージ装置方法およびその処理プログラム | |
US6917953B2 (en) | System and method for verifying database security across multiple platforms | |
JP2005078596A (ja) | データ転送装置の制御方法、データ転送装置、チャネル制御装置、及び記憶デバイス制御装置 | |
US8914668B2 (en) | Asynchronous raid stripe writes to enable response to media errors | |
JP4390618B2 (ja) | データベース再編成プログラム、データベース再編成方法、及びデータベース再編成装置 | |
US20120159047A1 (en) | Computing device and method for merging storage space of usb flash drives | |
US6701385B1 (en) | Raid 1 write mirroring method for host adapters | |
EP3963446A1 (en) | Pipelined-data-transform-enabled data mover system | |
CN100543738C (zh) | 通过对记录对的空间分块来优化用于记录链接的数据库访问 | |
US8843784B2 (en) | Remapping disk drive I/O in response to media errors | |
WO2024146218A1 (zh) | 内存访问方法、电子设备及存储介质 | |
US8615482B1 (en) | Method and apparatus for improving the utilization of snapshots of server data storage volumes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091013 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100113 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100120 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100215 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100312 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20100525 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100922 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20101108 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110204 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110412 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |