JP2009187654A - 重複データ検索装置及び重複データ検索方法 - Google Patents

重複データ検索装置及び重複データ検索方法 Download PDF

Info

Publication number
JP2009187654A
JP2009187654A JP2009066532A JP2009066532A JP2009187654A JP 2009187654 A JP2009187654 A JP 2009187654A JP 2009066532 A JP2009066532 A JP 2009066532A JP 2009066532 A JP2009066532 A JP 2009066532A JP 2009187654 A JP2009187654 A JP 2009187654A
Authority
JP
Japan
Prior art keywords
data
segment
identifiers
identifiers associated
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009066532A
Other languages
English (en)
Other versions
JP5065317B2 (ja
Inventor
Mark Alan Schultz
シュルツ,マーク,アラン
Shu Lin
リン,シュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2009187654A publication Critical patent/JP2009187654A/ja
Application granted granted Critical
Publication of JP5065317B2 publication Critical patent/JP5065317B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99951File or database maintenance
    • Y10S707/99952Coherency, e.g. same view to multiple users
    • Y10S707/99953Recoverability

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

【課題】システム・コストの上昇やシステムの複雑化を招くことなく、重複データを検索することができ、かつ、重複データの検索時や消去の検討時にエラーが発生する可能性をさらに低減する。
【解決手段】重複データを検索する方法であって、第1セグメントのデータの少なくとも一部分から一以上の識別子を生成するステップと、第2セグメントのデータの少なくとも一部分から一以上の識別子を生成するステップと、第1セグメントのデータに関連付けられた一以上の識別子と、第2セグメントのデータに関連付けられた一以上の識別子とを比較して、第1セグメントのデータが第2セグメントのデータと実質的に同一か否かを判断するステップとを含み、第1セグメントのデータの少なくとも一部分と第2セグメントのデータの少なくとも一部分とは、時間ベース又はビット単位ベースの少なくとも1つによる対応関係を有する方法に関する。
【選択図】図2

Description

本発明は、一般に、記録システムに関し、特に、デジタル符号化信号をハードディスク・ドライブや記録可能な光ディスク等のディスク媒体に記録するマルチメディアデータ記録システムに関する。
現在、多様な様式のデータを、様々な異なるタイプの記憶媒体に記録することができる。例えば、多くの消費者が、テレビ番組や音楽を光ディスクやハードディスク・ドライブ(HDD)に記録している。技術改良に伴い、光ディスク媒体及びHDDの記憶容量は著しく増加した。実際、HDDの中には、50ギガバイトを優に超えるデータを格納できるものがある。従って、消費者は、このような記憶媒体に多数のプログラム又は楽曲を記録することができる。
データを記録可能な記憶媒体に記録する際、記録した内容を識別するために、ユーザは、一般に、その記録可能な記憶媒体にタイトルを入力することができる。こうしたタイトルは、あるデータを以前に記録したかどうかを調べる際に、その記録データを検索するのに有用である。しかし、この検索処理はかなりの労力を要し、非効率的で、かつ、エラーが生じる可能性がある。記憶媒体には、数百あるいは数千ものタイトルが含まれることがあるからである。この問題が特に深刻になるのは、記憶媒体が大容量のHDDの場合や、ある種のデータ・セグメントのタイトルにデフォルトのタイトルが付されている場合である。
仮に、記憶媒体上のあるデータ・セグメントを、そのタイトルを検索して比較的簡単に見つけることができるとしても、異なるデータ・セグメントに同じタイトルが付されていることがあり得る。例えば、ある楽曲が記憶媒体に記録され、その曲名に基づいたタイトルがその楽曲に付された場合、最初の楽曲と同一の曲名で別の曲目を後に記録することができる。こうした混乱は、例えば、二人の別々のアーティストが同一の楽曲を異なるバージョンで録音した場合等に生じる。2曲目を録音する際、ユーザは以前に録音された楽曲のタイトルを確認し、その楽曲が既に録音済みであると勘違いすることがある。
このため、システム・コストの上昇やシステムの複雑化を招くことなく、重複データを検索することができ、かつ、重複データの検索時や消去の検討時にエラーが発生する可能性をさらに低減することができるシステム及び方法が望まれる。
本発明は、重複データを検索するための方法に関する。この方法は、固有識別(UID)機能を使用して、第1セグメントのデータの少なくとも一部分から一以上の識別子を生成するステップと、前記UID機能を使用して、第2セグメントのデータの少なくとも対応する一部分から一以上の識別子を生成するステップと、前記第1セグメントのデータに関連付けられた前記一以上の識別子と、前記第2セグメントのデータに関連付けられた前記一以上の識別子とを比較して、前記第1セグメントのデータが前記第2セグメントのデータと実質的に同一か否かを判断するステップとを含む。
一実施形態によれば、第1セグメントのデータの少なくとも一部分から一以上の識別子を生成する前記ステップは、前記第1セグメントのデータが記憶媒体に記録される時に、又は、前記第1セグメントのデータが前記記憶媒体に記録された後に、UID機能を使用して、前記第1セグメントのデータの前記少なくとも一部分から一以上の識別子を生成するステップを含んでも良い。また、第2セグメントのデータの少なくとも一部分から一以上の識別子を生成する前記ステップは、前記第2セグメントのデータが前記記憶媒体に記録される時に、前記UID機能を使用して、第2セグメントのデータの前記少なくとも一部分から前記一以上の識別子を生成するステップを含んでも良い。さらに、第2セグメントのデータの少なくとも一部分から一以上の識別子を生成する前記ステップは、前記第2セグメントのデータが異なる記憶媒体に記録される時に行っても良い。
ある側面によれば、前記第1セグメントのデータと前記第2セグメントのデータは、マルチメディアデータのセグメントであっても良い。前記方法は、前記第1セグメントのデータに関連付けられた前記一以上の識別子をテーブルに記憶するステップと、前記比較ステップに先立って、前記第1セグメントのデータに関連付けられた前記一以上の識別子を前記テーブルから取り出すステップをも含んでも良い。また、前記方法は、前記第1セグメントのデータに関連付けられた一以上の識別子が、前記第2セグメントのデータに関連付けられた前記一以上の識別子と一致する場合に、前記第1セグメントのデータが前記第2セグメントのデータと実質的に同一であることを表示するステップを含んでも良い。
別の実施形態によれば、前記第1セグメントのデータの前記少なくとも一部分と、前記第2セグメントのデータの前記少なくとも一部分の大きさは、時間単位又はビット単位で表しても良い。前記第1セグメントのデータの前記少なくとも一部分と、前記第2セグメントのデータの前記少なくとも一部分は、時間的に対応しても、又はビット毎に対応しても良い。別の側面によれば、前記第1セグメントのデータに関連付けられた前記一以上の識別子と、前記第2セグメントのデータに関連付けられた前記一以上の識別子は、ハッシュ値であっても良く、また、前記UID機能はハッシュ機能であっても良い。この場合、前記第1セグメントのデータと前記第2セグメントのデータが同一である場合、前記第1セグメントのデータに関連付けられたハッシュ値は、前記第2セグメントのデータに関連付けられたハッシュ値と等しくなる。
また、前記比較ステップは、前記第1セグメントのデータに関連付けられた複数の識別子と、前記第2セグメントのデータに関連付けられた複数の識別子とを比較して、前記第1セグメントのデータが前記第2セグメントのデータと実質的に同一であるか否かを判断するステップを含んでも良い。さらに、前記比較ステップは、第1セットの複数セグメントのデータに関連付けられた複数の識別子と、第2セットの複数セグメントのデータに関連付けられた複数の識別子とを比較して、前記第1セットの複数セグメントのデータと前記第2セットの複数セグメントのデータが実質的に同一か否かを判断するステップを含んでも良い。
本発明は、重複データを検索するシステムにも関する。このシステムは、記憶媒体に対してデータの読み書きを行うコントローラと、プロセッサとを有し、前記プロセッサは、UID機能を使用して、第1セグメントのデータの少なくとも一部分から一以上の識別子を生成し、前記UID機能を使用して、第2セグメントのデータの少なくとも一部分から一以上の識別子を生成し、前記第1セグメントのデータに関連付けられた前記一以上の識別子と、前記第2セグメントのデータに関連付けられた前記一以上の識別子とを比較して、前記第1セグメントのデータが前記第2セグメントのデータと実質的に同一か否かを判断するようにプログラムされている。このシステムは、上述した方法を導入すべく適当なソフトウェアや回路を含む。
本発明のシステム及び方法によると、システム・コストの上昇やシステムの複雑化を招くことなく、重複データを検索することができ、かつ、重複データの検索時や消去の検討時にエラーが発生する可能性をさらに低減することができる。
本発明による、重複データを検索可能なシステムのブロック図である。 本発明による重複データ検索処理を説明するフローチャートである。
図1は、本発明に従って様々な動作を実行するシステム100のブロック図である。もっとも、本発明は、図1に示されたシステムに限定されるものではなく、デジタル符号化信号を受信可能な他のいかなるシステムにも適用可能である。また、システム100の機能は、特定のタイプの記憶媒体からのデータの読み出し又は書き込みに限定されるものではなく、デジタル符号化データを記憶可能ないかなる記憶媒体も使用することができる。
システム100は、記憶媒体112に対してデータの読み書きを行うためのコントローラ110を備える。コントローラ110は、メモリ120その他の記憶媒体に対してデータの読み書きを行う。システム100は、マイクロプロセッサ114と、テーブル又はメモリ116と、ディスプレイ118とを備える。制御/データ・インターフェース(不図示)を介して、マイクロプロセッサ114にコントローラ110とディスプレイ118の動作を制御させ、テーブル116に格納された情報を取り出させる構成としても良い。マイクロプロセッサ114が実行する通常の動作に適当なソフトウェア又はファームウェアをメモリに導入しても良い。また、マイクロプロセッサ114に本発明のプログラム・ルーチンを導入しても良い。さらに、マイクロプロセッサ114の代わりに、他の適当なソフトウェア又は回路を用いても良い。
動作中において、コントローラ110は、第1セグメントのデータを記憶媒体112に書き込む。一実施形態によれば、第1セグメントのデータを記憶媒体112に記録する際に、マイクロプロセッサ114は、UID機能を使用して、第1セグメントのデータの少なくとも一部分から一以上の識別子を生成する。マイクロプロセッサ114は、第1セグメントのデータの少なくとも一部分から一以上の識別子を生成すると、当該識別子をテーブル116に渡す。また、別の実施形態によれば、第1セグメントのデータに関連付けられた一以上の識別子は、第1セグメントのデータが記憶媒体112に記録された後であればいつでも生成することができる。
また、マイクロプロセッサ114は、上述したUID機能を使用して、第2セグメントのデータの対応する少なくとも一部分に対して、一以上の識別子を生成する。マイクロプロセッサ114は、第2セグメントのデータが記憶媒体記憶媒体112、あるいは、メモリ120に記録される時に、その第2セグメントのデータに関連付けられた一以上の識別子を生成することができる。なお、メモリ120は、デジタル符号化データを記憶するメモリであれば、どのようなメモリであっても良い。
識別子が生成されると、マイクロプロセッサ114は、第1セグメントのデータに関連付けられた一以上の識別子をテーブル116から取り出す。マイクロプロセッサ114は、第1セグメントのデータに関連付けられた一以上の識別子と、第2セグメントのデータに関連付けられた一以上の識別子とを比較して、第1セグメントのデータが第2セグメントのデータと実質的に同一か否かを判断する。第1セグメントのデータに関連付けられた一以上の識別子と、第2セグメントのデータに関連付けられた一以上の識別子とが一致する場合には、第1セグメントのデータに関連付けられた一以上の識別子は、第2セグメントのデータに関連付けられた一以上の識別子と、完全とは言えないまでも実質的に同一である。この場合、マイクロプロセッサ114は、第1及び第2のセグメントのデータが同一であることをディスプレイ118を介してユーザに表示する。以下、本発明の処理の概要をより詳細に説明する。
重複データの検索
図2は、重複又は同一データ検索処理を説明するフローチャート200を示す。ステップ210で処理を開始する。ステップ212で、UID機能を使用して、第1セグメントのデータの少なくとも一部分から一以上の識別子を生成する。この識別子は、第1セグメントのデータを記憶媒体に記録する際に生成することができる。逆に言えば、第1セグメントのデータが記憶媒体に記録された後なら、いつでも識別子を生成することができる。
第1セグメントのデータは、テキストベースのデータ、オーディオ、ビデオ、又は、これらの組み合わせを含む適当なタイプのデータや、その他の適当な形式のデータであって良い。また、第1セグメントのデータは、暗号化されていても良い。また、識別子は、第1セグメントのデータの複数の非連続部分を含めて、第1セグメントのデータのどの部分から生成しても良い。識別子を生成する元となるデータ部分の大きさは、時間単位で表してもビット単位で表しても良い。
例えば、第1セグメントのデータが楽曲の場合、上述した一部分が第1セグメントのデータ全体を含むように、その楽曲全体から識別子を生成しても良い。また、その楽曲を、前半部と後半部といった二つの別々の部分に分けても良い。この楽曲の両部分の大きさを時間単位で表すと、前半部はその楽曲の最初の30秒であり、後半部はその楽曲の最後の30秒となる。本発明によれば、楽曲のこれら二つの部分を組み合わせて、この組み合わせから一以上の識別子を生成することができる。従って、一つのセグメントのデータにつき一以上の識別子を、別のセグメントのデータに関連付けられた対応する数の識別子との比較に用いることができる。
さらに例を挙げれば、楽曲の前半と後半の各部分から識別子を生成して、同一の楽曲から二つの別個の識別子を生成しても良い。あるいは、前半部と後半部との間の時間測定に基づいて識別子を生成しても良い。さらに、前記少なくとも一部分のデータの大きさがビット単位で測定される場合には、例えば、楽曲の最初の1メガビットのデータから識別子を生成しても良い。ただし、本発明は上述した例に限定されるものではなく、適当なデータタイプの第1セグメントのデータ(前記少なくとも一部分が第1セグメントのデータ全体を有する場合を含む)の、任意の部分から、任意の数の識別子を生成しても良い。
フローチャート200の説明に戻ると、ステップ214で、第1セグメントのデータに関連付けられた一以上の識別子は、テーブルに記憶されることが望ましい。ステップ216で、上述したUID機能を使用して、第2セグメントのデータの少なくとも一部分から一以上の識別子を生成する。第2セグメントのデータに関連付けられた一以上の識別子の生成は、第1セグメントのデータに関連して説明した処理に従っても良い(ステップ212についての説明を参照)。より正確に言えば、第2セグメントのデータの、一以上の識別子を生成する元となる部分は、第1セグメントのデータの一部分と対応する部分である。この対応関係は、時間に基づくものであっても、ビット単位に基づくものであっても良い。
例えば、第1セグメントのデータが楽曲であり、第1セグメントのデータに関連付けられた一以上の識別子が、その楽曲全体に基づいて生成されている(前記一部分が、第1セグメントのデータ全体を有する)場合には、第2セグメントのデータに関連付けられた一以上の識別子も、その楽曲全体から生成される(第2セグメントのデータは、実際に楽曲であると仮定した場合)。また、第1セグメントのデータの少なくとも一部分が、データの最初の1メガビットを含み、第1セグメントに関連付けられた一以上の識別子がその部分から生成されている場合、第2セグメントのデータに関連付けられる一以上の識別子は、第2セグメントのデータの最初の1メガビットから生成されることが望ましい。
一実施形態によれば、第1セグメントのデータが記録された記憶媒体に第2セグメントのデータが記録される時に、第2セグメントのデータに関連付けられた一以上の識別子が生成可能になる。また、第2セグメントのデータが異なる記憶媒体に記録される時にも、第2セグメントのデータに関連付けられた一以上の識別子は生成可能となる。
ステップ218で、第2セグメントのデータから適当な一以上の識別子が生成されると、第1セグメントのデータに関連付けられた一以上の識別子をメモリから、望ましくは、テーブルから取り出すことができる。ステップ220で、第1セグメントのデータに関連付けられた一以上の識別子を第2セグメントのデータに関連付けられた一以上の識別子と比較して、第1セグメントのデータが第2セグメントのデータと実質的に同一か否かを判断することができる。双方の識別子が同じ場合、第1セグメントのデータはほとんど常に第2セグメントのデータと同一ということになる。ステップ222で、第1セグメントのデータに関連付けられた一以上の識別子が第2セグメントのデータに関連付けられた一以上の識別子と一致した場合、ステップ224で、第2セグメントのデータが第2セグメントのデータと実質的に同一である旨をユーザに表示することができる。さらに、ステップ226では、ステップ222での比較のために記憶媒体に記録された第2セグメントのデータの部分を、ユーザによって選択的に又は自動的に消去することができる。ステップ228で、処理を終了する。
また、別の実施形態によれば、前記一以上の識別子はハッシュ値であっても良い。さらに、前記UID機能はハッシュ機能であっても良い。第1セグメントのデータに関連付けられたハッシュ値が第2セグメントのデータに関連付けられたハッシュ値と等しくなるのは、第1セグメントのデータと第2セグメントのデータが同一、又は実質的に同一の場合である。本発明で使用可能なハッシュ機能の例としては、排他的論理和がある。ただし、本発明はこの特定のハッシュ機能に限定されるものではなく、他の適当なハッシュ機能を用いることもできる。
以上、本発明を複数の実施形態と共に説明したが、上述の記載は本発明を説明するためのものであって、特許請求の範囲に記載の発明の範囲を限定するものではない。
100 システム
110 コントローラ
112 記憶媒体
114 マイクロプロセッサ
116 テーブル
118 ディスプレイ
120 メモリ

Claims (20)

  1. 重複データを検索する方法であって、
    第1セグメントのデータの少なくとも一部分から一以上の識別子を生成するステップと、
    第2セグメントのデータの少なくとも一部分から一以上の識別子を生成するステップと、
    前記第1セグメントのデータに関連付けられた前記一以上の識別子と、前記第2セグメントのデータに関連付けられた前記一以上の識別子とを比較して、前記第1セグメントのデータが前記第2セグメントのデータと実質的に同一か否かを判断するステップと
    を含み、
    前記第1セグメントのデータの少なくとも一部分と前記第2セグメントのデータの少なくとも一部分とは、時間ベース又はビット単位ベースの少なくとも1つによる対応関係を有する方法。
  2. 請求項1記載の方法であって、前記第1セグメントのデータの少なくとも一部分から一以上の識別子を生成する前記ステップは、前記第1セグメントのデータが記憶媒体に記録される時に、前記第1セグメントのデータの少なくとも一部分から一以上の識別子を生成するステップを含むことを特徴とする方法。
  3. 請求項2記載の方法であって、前記第2セグメントのデータの少なくとも一部分から一以上の識別子を生成する前記ステップは、前記第2セグメントのデータが前記記憶媒体に記録される時に、前記第2セグメントのデータの少なくとも一部分から一以上の識別子を生成するステップを含むことを特徴とする方法。
  4. 請求項2記載の方法であって、前記第2セグメントのデータの少なくとも一部分から一以上の識別子を生成する前記ステップは、前記第2セグメントのデータが異なる記憶媒体に記録される時に、前記第2セグメントのデータの少なくとも一部分から一以上の識別子を生成するステップを含むことを特徴とする方法。
  5. 請求項1記載の方法であって、前記第1セグメントのデータの少なくとも一部分から一以上の識別子を生成する前記ステップは、前記第1セグメントのデータが前記記憶媒体に記録された後に実行されることを特徴とする方法。
  6. 請求項5記載の方法であって、前記第2セグメントのデータの少なくとも一部分から一以上の識別子を生成する前記ステップは、前記第2セグメントのデータが前記記憶媒体に記録される時に、前記第2セグメントのデータの少なくとも対応する一部分から一以上の識別子を生成するステップを含むことを特徴とする方法。
  7. 請求項5記載の方法であって、前記第2セグメントのデータの少なくとも一部分から一以上の識別子を生成する前記ステップは、前記第2セグメントのデータが異なる記憶媒体に記録される時に、前記第2セグメントのデータの前記少なくとも一部分から前記一以上の識別子を生成するステップを含むことを特徴とする方法。
  8. 請求項1記載の方法であって、前記第1セグメントのデータと前記第2セグメントのデータは、マルチメディアデータのセグメントであることを特徴とする方法。
  9. 請求項1記載の方法であって、
    前記第1セグメントのデータに関連付けられた前記一以上の識別子をテーブルに記憶するステップと、
    前記比較ステップに先立って、前記第1セグメントのデータに関連付けられた前記一以上の識別子を前記テーブルから取り出すステップと
    をさらに含むことを特徴とする方法。
  10. 請求項1記載の方法であって、前記第1セグメントのデータに関連付けられた一以上の識別子が、前記第2セグメントのデータに関連付けられた一以上の識別子と一致する場合に、前記第1セグメントのデータが前記第2セグメントのデータと実質的に同一であることを表示するステップをさらに含むことを特徴とする方法。
  11. 請求項1記載の方法であって、前記第1セグメントのデータに関連付けられた前記一以上の識別子と、前記第2セグメントのデータに関連付けられた前記一以上の識別子はハッシュ値であり、
    前記第1セグメントのデータと前記第2セグメントのデータが同一である場合、前記第1セグメントのデータに関連付けられたハッシュ値は、前記第2セグメントのデータに関連付けられたハッシュ値と等しくなることを特徴とする方法。
  12. 請求項1記載の方法であって、前記比較ステップは、前記第1セグメントのデータに関連付けられた複数の識別子と、前記第2セグメントのデータに関連付けられた複数の識別子とを比較して、前記第1セグメントのデータが前記第2セグメントのデータと実質的に同一であるか否かを判断するステップを含むことを特徴とする方法。
  13. 請求項1記載の方法であって、前記比較ステップは、第1セットの複数セグメントのデータに関連付けられた複数の識別子と、第2セットの複数セグメントのデータに関連付けられた複数の識別子とを比較して、前記第1セットの複数セグメントのデータと前記第2セットの複数セグメントのデータが実質的に同一か否かを判断するステップを含むことを特徴とする方法。
  14. 重複データを検索するシステムであって、
    記憶媒体に対してデータの読み書きを行うコントローラと、
    前記コントローラに接続されたプロセッサとを有し、
    前記プロセッサは、
    第1セグメントのデータが前記記憶媒体に記録される時、前記第1セグメントのデータの少なくとも一部分から一以上の識別子を生成し、
    第2セグメントのデータの少なくとも一部分から一以上の識別子を生成し、
    前記第1セグメントのデータに関連付けられた前記一以上の識別子と、前記第2セグメントのデータに関連付けられた前記一以上の識別子とを比較して、前記第1セグメントのデータが前記第2セグメントのデータと実質的に同一か否かを判断する、
    ようにプログラムされることを特徴とするシステム。
  15. 請求項14記載のシステムであって、前記プロセッサは、前記第2セグメントのデータが前記記憶媒体に記録される時に、前記第2セグメントのデータの前記少なくとも一部分から前記一以上の識別子を生成するようにさらにプログラムされていることを特徴とするシステム。
  16. 請求項14記載のシステムであって、前記プロセッサは、前記第2セグメントのデータが異なる記憶媒体に記録される時に、前記第2セグメントのデータの前記少なくとも一部分から前記一以上の識別子を生成するようにさらにプログラムされていることを特徴とするシステム。
  17. 請求項14記載のシステムであって、前記第1セグメントのデータと前記第2セグメントのデータは、マルチメディアデータのセグメントであることを特徴とするシステム。
  18. 請求項14記載のシステムであって、テーブルをさらに有し、
    前記プロセッサは、
    前記第1セグメントのデータに関連付けられた一以上の識別子を前記テーブルに記憶し、
    前記比較ステップに先立って、前記第1セグメントのデータに関連付けられた一以上の識別子を前記テーブルから取り出す
    ようにさらにプログラムされていることを特徴とするシステム。
  19. 請求項14記載のシステムであって、前記プロセッサは、前記第1セグメントのデータに関連付けられた一以上の識別子が、前記第2セグメントのデータに関連付けられた前記一以上の識別子と一致する場合に、前記第1セグメントのデータが前記第2セグメントのデータと実質的に同一であることを表示するようにさらにプログラムされていることを特徴とするシステム。
  20. 請求項14記載のシステムであって、前記第1セグメントのデータに関連付けられた前記一以上の識別子と、前記第2セグメントのデータに関連付けられた前記一以上の識別子はハッシュ値であり、
    前記プロセッサは、前記第1セグメントのデータと前記第2セグメントのデータが実質的に同一であることを示す、前記第1セグメントのデータに関連付けられたハッシュ値が前記第2セグメントのデータに関連付けられたハッシュ値と等しくなるか判断することを特徴とするシステム。
JP2009066532A 2002-01-17 2009-03-18 重複データ検索装置及び重複データ検索方法 Expired - Fee Related JP5065317B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/051,999 US6795903B2 (en) 2002-01-17 2002-01-17 System and method for searching for duplicate data
US10/051,999 2002-01-17

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2003562791A Division JP4350521B2 (ja) 2002-01-17 2003-01-15 重複データ検索装置及び重複データ検索方法

Publications (2)

Publication Number Publication Date
JP2009187654A true JP2009187654A (ja) 2009-08-20
JP5065317B2 JP5065317B2 (ja) 2012-10-31

Family

ID=21974742

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2003562791A Expired - Fee Related JP4350521B2 (ja) 2002-01-17 2003-01-15 重複データ検索装置及び重複データ検索方法
JP2009066532A Expired - Fee Related JP5065317B2 (ja) 2002-01-17 2009-03-18 重複データ検索装置及び重複データ検索方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2003562791A Expired - Fee Related JP4350521B2 (ja) 2002-01-17 2003-01-15 重複データ検索装置及び重複データ検索方法

Country Status (9)

Country Link
US (1) US6795903B2 (ja)
EP (1) EP1466251A4 (ja)
JP (2) JP4350521B2 (ja)
KR (1) KR100959306B1 (ja)
CN (1) CN100573471C (ja)
MX (1) MXPA04006924A (ja)
MY (1) MY132104A (ja)
TW (1) TWI221993B (ja)
WO (1) WO2003062996A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6795903B2 (en) * 2002-01-17 2004-09-21 Thomas Licensing S.A. System and method for searching for duplicate data
US9535624B1 (en) * 2004-09-13 2017-01-03 EMC IP Holding Company LLC Duplicate management
US8140786B2 (en) 2006-12-04 2012-03-20 Commvault Systems, Inc. Systems and methods for creating copies of data, such as archive copies
US8165221B2 (en) * 2006-04-28 2012-04-24 Netapp, Inc. System and method for sampling based elimination of duplicate data
US8739304B2 (en) * 2006-11-10 2014-05-27 Sony Computer Entertainment Inc. Providing content using hybrid media distribution scheme with enhanced security
US8752199B2 (en) * 2006-11-10 2014-06-10 Sony Computer Entertainment Inc. Hybrid media distribution with enhanced security
US7840537B2 (en) 2006-12-22 2010-11-23 Commvault Systems, Inc. System and method for storing redundant information
US7987531B2 (en) * 2007-02-27 2011-08-02 West Paul E Portable floating hot tub
KR100905218B1 (ko) * 2007-04-09 2009-07-01 삼성전자주식회사 애드혹 네트워크에서 콘텐츠 중복 검출 방법
US8964651B2 (en) * 2008-02-14 2015-02-24 Qualcomm Incorporated Traffic management employing interference management messages
US8767541B2 (en) * 2008-02-14 2014-07-01 Qualcomm Incorporated Scheduling policy-based traffic management
US8737314B2 (en) 2008-02-14 2014-05-27 Qualcomm Incorporated Traffic management for multi-hop wireless communication
US9098495B2 (en) 2008-06-24 2015-08-04 Commvault Systems, Inc. Application-aware and remote single instance data management
US8166263B2 (en) 2008-07-03 2012-04-24 Commvault Systems, Inc. Continuous data protection over intermittent connections, such as continuous data backup for laptops or wireless devices
CA2729078C (en) 2008-09-26 2016-05-24 Commvault Systems, Inc. Systems and methods for managing single instancing data
US9015181B2 (en) 2008-09-26 2015-04-21 Commvault Systems, Inc. Systems and methods for managing single instancing data
US8412677B2 (en) 2008-11-26 2013-04-02 Commvault Systems, Inc. Systems and methods for byte-level or quasi byte-level single instancing
US8401996B2 (en) 2009-03-30 2013-03-19 Commvault Systems, Inc. Storing a variable number of instances of data objects
US8578120B2 (en) 2009-05-22 2013-11-05 Commvault Systems, Inc. Block-level single instancing
US20110055471A1 (en) * 2009-08-28 2011-03-03 Jonathan Thatcher Apparatus, system, and method for improved data deduplication
US8935492B2 (en) 2010-09-30 2015-01-13 Commvault Systems, Inc. Archiving data objects using secondary copies
US9246882B2 (en) * 2011-08-30 2016-01-26 Nokia Technologies Oy Method and apparatus for providing a structured and partially regenerable identifier
US9020890B2 (en) 2012-03-30 2015-04-28 Commvault Systems, Inc. Smart archiving and data previewing for mobile devices
US9104560B2 (en) 2012-06-13 2015-08-11 Caringo, Inc. Two level addressing in storage clusters
US8799746B2 (en) 2012-06-13 2014-08-05 Caringo, Inc. Erasure coding and replication in storage clusters
US8762353B2 (en) * 2012-06-13 2014-06-24 Caringo, Inc. Elimination of duplicate objects in storage clusters
US9633022B2 (en) 2012-12-28 2017-04-25 Commvault Systems, Inc. Backup and restoration for a deduplicated file system
US10324897B2 (en) 2014-01-27 2019-06-18 Commvault Systems, Inc. Techniques for serving archived electronic mail
CN104820851A (zh) * 2015-05-04 2015-08-05 柳州市瑞日信息科技有限公司 生成产品序列号的装置
US10324914B2 (en) 2015-05-20 2019-06-18 Commvalut Systems, Inc. Handling user queries against production and archive storage systems, such as for enterprise customers having large and/or numerous files
US10203953B2 (en) * 2017-02-24 2019-02-12 Microsoft Technology Licensing, Llc Identification of duplicate function implementations
US10700711B1 (en) 2017-11-03 2020-06-30 Caringo Inc. Multi-part upload and editing of erasure-coded objects

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04245789A (ja) * 1991-01-30 1992-09-02 Nec Corp データ管理方法
JPH08328918A (ja) * 1996-05-28 1996-12-13 Toshiba Corp データ情報記憶媒体、及びデータ情報検索装置
JP2000331090A (ja) * 1999-12-22 2000-11-30 Oricon Direct Digital:Kk 音楽配信用の選曲支援システム及び選曲配信方法
US20010037323A1 (en) * 2000-02-18 2001-11-01 Moulton Gregory Hagan Hash file system and method for use in a commonality factoring system
JP4350521B2 (ja) * 2002-01-17 2009-10-21 トムソン ライセンシング 重複データ検索装置及び重複データ検索方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5202982A (en) * 1990-03-27 1993-04-13 Sun Microsystems, Inc. Method and apparatus for the naming of database component files to avoid duplication of files
JP3865775B2 (ja) * 1995-04-11 2007-01-10 キネテック インコーポレイテッド データ処理システムにおけるデータの識別
US6763523B1 (en) * 1998-04-03 2004-07-13 Avid Technology, Inc. Intelligent transfer of multimedia data files from an editing system to a playback device
US6292880B1 (en) * 1998-04-15 2001-09-18 Inktomi Corporation Alias-free content-indexed object cache
US6477544B1 (en) * 1999-07-16 2002-11-05 Microsoft Corporation Single instance store for file systems
US6389433B1 (en) * 1999-07-16 2002-05-14 Microsoft Corporation Method and system for automatically merging files into a single instance store
AU3826901A (en) * 2000-02-18 2001-08-27 Undoo Inc Hash file system and method for use in a commonality factoring system
WO2002019147A1 (en) * 2000-08-28 2002-03-07 Emotion, Inc. Method and apparatus for digital media management, retrieval, and collaboration

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04245789A (ja) * 1991-01-30 1992-09-02 Nec Corp データ管理方法
JPH08328918A (ja) * 1996-05-28 1996-12-13 Toshiba Corp データ情報記憶媒体、及びデータ情報検索装置
JP2000331090A (ja) * 1999-12-22 2000-11-30 Oricon Direct Digital:Kk 音楽配信用の選曲支援システム及び選曲配信方法
US20010037323A1 (en) * 2000-02-18 2001-11-01 Moulton Gregory Hagan Hash file system and method for use in a commonality factoring system
JP4350521B2 (ja) * 2002-01-17 2009-10-21 トムソン ライセンシング 重複データ検索装置及び重複データ検索方法

Also Published As

Publication number Publication date
JP5065317B2 (ja) 2012-10-31
TWI221993B (en) 2004-10-11
EP1466251A1 (en) 2004-10-13
WO2003062996A1 (en) 2003-07-31
KR20040076885A (ko) 2004-09-03
KR100959306B1 (ko) 2010-05-26
US6795903B2 (en) 2004-09-21
JP4350521B2 (ja) 2009-10-21
EP1466251A4 (en) 2007-04-25
MXPA04006924A (es) 2004-12-06
JP2005516324A (ja) 2005-06-02
CN100573471C (zh) 2009-12-23
TW200302421A (en) 2003-08-01
CN1751295A (zh) 2006-03-22
US20030135700A1 (en) 2003-07-17
MY132104A (en) 2007-09-28

Similar Documents

Publication Publication Date Title
JP5065317B2 (ja) 重複データ検索装置及び重複データ検索方法
US6631107B1 (en) Method and apparatus for information recording medium
KR20070093389A (ko) 전력 소실 후 실시간 비디오 데이터의 복구
CN102354506B (zh) 地址生成和检测方法、再现和记录装置
US7580611B2 (en) Data reproducing device capable of reading and reproducing only reproducible information
KR100595093B1 (ko) 북마크 정보 관리방법 및 컨텐츠 재생방법
US6405283B1 (en) Method for handling buffer under-run during disc recording
JP2005346893A (ja) 再生装置
JPH0877681A (ja) 複数記録媒体の記録再生装置及び方法
US7257068B2 (en) Apparatus and method for reproducing replacement data recorded on a disc
JP2005196833A (ja) データ再生装置およびデータ再生装置における再生データの管理方法
KR20040026884A (ko) 엠피쓰리 파일에 대한 부가정보 제공방법
JP4312178B2 (ja) 管理情報取得装置及び管理情報取得プログラム
JP3973579B2 (ja) データ再生装置及びデータ再生装置の情報表示方法
JP2008186504A (ja) 楽曲ファイル判別方法および装置
JP2003263860A (ja) ファイナライズ後にデータの追記が可能な貯蔵媒体、その記録及び再生装置と方法
KR100940027B1 (ko) 프로그램별 리줌 마크 관리방법
JP4144648B2 (ja) データ再生装置
KR20060037360A (ko) 디지털 오디오/비디오 신호 기록 장치 및 방법
KR100829016B1 (ko) 오디오 파일의 곡 정보 검색 제어방법
KR20060101489A (ko) 디지털 정보신호를 기록하는 장치 및 방법
KR20040090191A (ko) 광디스크 장치에서의 파일 시스템 관리방법
KR20040062315A (ko) 오디오 곡 랜덤 재생 제어방법
TW200523888A (en) Apparatus for reproducing a digital information signal which is recorded on a first and a second layer of a record carrier
JP2006139837A (ja) 音楽データ記録装置および音楽データ記録方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111011

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111014

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120112

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20120214

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120614

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120731

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120809

R150 Certificate of patent or registration of utility model

Ref document number: 5065317

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150817

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees