JP2020522782A - データ・オブジェクトの削除可能性を見積もる方法 - Google Patents

データ・オブジェクトの削除可能性を見積もる方法 Download PDF

Info

Publication number
JP2020522782A
JP2020522782A JP2019563857A JP2019563857A JP2020522782A JP 2020522782 A JP2020522782 A JP 2020522782A JP 2019563857 A JP2019563857 A JP 2019563857A JP 2019563857 A JP2019563857 A JP 2019563857A JP 2020522782 A JP2020522782 A JP 2020522782A
Authority
JP
Japan
Prior art keywords
data object
data
cluster
user
data objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019563857A
Other languages
English (en)
Other versions
JP7038143B2 (ja
Inventor
ゴーサー、セバスチャン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2020522782A publication Critical patent/JP2020522782A/ja
Application granted granted Critical
Publication of JP7038143B2 publication Critical patent/JP7038143B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】コンピュータ・システム中に格納された、1つ以上のユーザのデータ・オブジェクトのセットを処理するための方法、コンピュータ・システム、およびコンピュータ・プログラム製品を提供する。【解決手段】本発明は、データ・オブジェクトのセットのデータ・オブジェクト特性、およびユーザ特性を用意することを含むことができる。本発明は、データ・オブジェクト特性とユーザ特性との結合特性を算定することを含むことができる。本発明は、時間依存性特性および少なくとも2つの指標を算定することを含むことができ、第一指標はクラスタの削除可能性を示し、第二指標はクラスタの品質を示し、この第一指標は、当該クラスタの時間依存性特性を用いて算定される。本発明は、結合特性のセットをクラスタ化アルゴリズムに投入し、或るデータ・オブジェクトが削除可能かどうかを判断するべく最適の削除可能なクラスタを識別するためデータ・オブジェクトをクラスタ化するのに、クラスタ化アルゴリズムを用いることを含むことができる。【選択図】図2

Description

本発明はデジタル・コンピュータ・システムの分野に関し、さらに具体的には、1つ以上のユーザのデータ・オブジェクトのセットを処理する方法に関する。
諸会社は膨大な量のデータ・オブジェクトを蓄積する。事業、法制度、または何らかの他の重要な目的ともはや関係のないようなオブジェクトは、正当で説明がつく仕方で処分するのが望ましい。また一方、ある種の法的文書など特定分野の使用コミュニティのためのデータ・オブジェクトは保存されてよい。
昨今の企業中の一般にアクセス可能な文書の大多数は、通常、かなりの人的およびインフラストラクチャ上のリソースを必要とする執行、制御、および評価など、多かれ少なかれ厳格なトップダウンの保管スキームの下にある。
本発明の諸実施形態は、コンピュータ・システム中に格納された1つ以上のユーザのデータ・オブジェクトのセットを処理するための方法、コンピュータ・システム、およびコンピュータ・プログラム製品を開示する。本発明は、データ・オブジェクトのセットのデータ・オブジェクト特性、およびデータ・オブジェクトのセットのユーザのユーザ特性を用意することを含むことができる。また、本発明は、データ・オブジェクトのセットの各データ・オブジェクトに対し、データ・オブジェクトのデータ・オブジェクト特性およびデータ・オブジェクトのユーザのユーザ特性の少なくとも一部を含む結合特性を算定することを含むことができる。本発明は、次いで、データ・オブジェクトのセットの時間依存性特性を算定することを含むことができ、このデータ・オブジェクトの時間依存性特性は、時間値を有するデータ・オブジェクト、および該データ・オブジェクトのユーザ特性を含む。本発明は、少なくとも2つの指標を定義することをさらに含むことができ、これら指標の第一指標はデータ・オブジェクトのクラスタの削除可能性を示し、第二指標は、そのクラスタの品質を示し、第一指標は、当該クラスタのデータ・オブジェクトの時間依存性特性を用いて算定される。また、本発明は、結合特性のセットの少なくとも一部をクラスタ化アルゴリズムに投入することを含むことができる。本発明は、次いで、データ・オブジェクト・ベースでクラスタ化し、その指標の値に基づいてデータ・オブジェクトの最適の削除可能なクラスタを識別するためにクラスタ化アルゴリズムを用い、データ・オブジェクトのセットの或るデータ・オブジェクトが削除可能かまたは削除可能でないかを判断するためにその最適の削除可能なクラスタを用いることを含むことができる。
様々な実施形態が、独立請求項の主題によって記述されているような、1つ以上のユーザのデータ・オブジェクトのセットを処理する方法、コンピュータ・システム、およびコンピュータ・プログラム製品を提供する。有利な諸実施形態が従属請求項中に記載されている。本発明の諸実施形態は、それらが相互に排他的でなければ、互いに自由に組み合わせることが可能である。一態様において、本発明は、コンピュータ・システム中に格納された、1つ以上のユーザのデータ・オブジェクトのセットを処理する方法に関する。別の態様では、本発明は、具現化されたコンピュータ可読プログラム・コードを有するコンピュータ可読ストレージ媒体を含むコンピュータ・プログラム製品に関していて、このコンピュータ可読プログラム・コードは、前述の諸実施形態による方法のステップの全てを実装するように構成される。別の態様において、本発明は、コンピュータ・システム中に格納された、1つ以上のユーザのデータ・オブジェクトのセットを処理するコンピュータ・システムに関する。
本発明のこれらのおよび他の特徴および利点は、以下の例示的な諸実施形態の詳細な説明を添付の図面と併せ読めば明らかとなろう。これら図面の様々な特徴は、当業者が、詳細な説明と併せて本発明を理解するのを容易にするよう明瞭にするため、正確な縮尺率ではない。本発明の以降の諸実施形態は、例として諸図面を参照してより詳しく説明される。
本開示の好適な実施形態に関わる1つ以上の方法ステップを実装するのに適した、コンピュータ化システムを表す。 少なくとも1つの実施形態による、1つ以上のユーザのデータ・オブジェクトのセットを処理する方法のフローチャートである。 少なくとも1つの実施形態による、所定のファイルの削除可能性を見積もるための或る例示の方法のフロー図である。 少なくとも1つの実施形態による、データ・オブジェクトを削除するための方法のフローチャートである。
例証目的のため、本発明の様々な実施形態の説明を提示するか、これらは網羅的であることも、開示された実施形態に限定することも意図されていない。当業者には、本記載の諸実施形態の範囲および趣旨から逸脱することのない多くの修改および別形が明白であろう。本明細書で用いられた用語は、諸実施形態の原理、実際上の応用、または市販の技術の技術的な改良を最善に説明し、あるいは、他の当業者が本明細書に開示された諸実施形態を理解できるように選択されたものである。
用語「ユーザ」は、例えば、個人、コンピュータ、プロジェクト、またはコンピュータ上で実行されているアプリケーションなどのエンティティを言う。ユーザは、そのユーザのユーザ特性を示す1つ以上の属性によって定義することができる。ユーザのユーザ特性は、例えば、プロジェクトの開始時間および終了時間またはコンピュータ・システム中のユーザのアカウントの開始時間および終了時間であってよい。プロジェクトの開始時間および終了時間は、例えば、所与のデータ・オブジェクトに関するプロジェクトの開始時間および終了時間が、或るユーザがそのプロジェクトに参加しその所与のオブジェクトを担当する開始時間および終了時間であるように、プロジェクトのデータ・オブジェクトによって定義されてもよい。例えば、ユーザがそのプロジェクトを退去するとそのデータ・オブジェクトはもはやプロジェクトに属さず、しかして、終了時間はユーザがプロジェクトを退去した時間であり、開示時間はユーザがプロジェクトを開始した時間である。
品質指標とも言われる第二指標は、クラスタの特性値とデータ・オブジェクトとの数を記述する指標とすることができる。第二指標は、例えば、個別の特性値の数、または特性値の異なるクラスの数を記述する、またはそれを使って定義することが可能である。所与の特性の特性値のクラスは、例えば、特性値の範囲を区間に分割することによって定義することが可能で、クラスは一区間に対応する(例えば、特性が年齢である場合、それらのクラスは中年クラスを含むことができよう)。例えば、第二指標は、所与のクラスタに対する第二指標が高いほど、そのクラスタの品質が低くなるように定義することが可能である。反対に、所与のクラスタに対し第二指標が低いほど、その所与のクラスタの品質は高くなる。この品質指標は、全てのデータ・オブジェクトに対し利用可能な全体的情報に一般化するための手段として使われる。例えば、第二指標は、オブジェクト特性値のスパース性とそれが適用されるデータ・オブジェクトの数との組み合わせとすることができる。第二指標は、例えば、第二指標の値が高いほどクラスタの品質が低くなるように定義することが可能である。例えば、所与のクラスタの品質指標は、その所与のクラスタのデータ・オブジェクト群の個別の属性値または特性値の数を、その所与のクラスタ中のデータ・オブジェクトの数で除した数とすることができる。別の例において、所与のクラスタの品質指標は、その所与のクラスタのデータ・オブジェクト群の属性値のクラスの数を、該所与のクラスタ中のデータ・オブジェクトの数で除した数としてもよい。例えば、或るクラスタに対するこの比率が高いほど、そのクラスタの品質は低くなる。この品質指標は、所与のクラスタのデータ・オブジェクトの数および該クラスタの記述を使って定義することができる。例えば、この第一指標または第二指標は(例えば、0と1との間に)正規化することが可能である。さらに、ベクトルのセットのベクトルは、例えば、一次元アレイなどのアレイとすることができる。
データ・オブジェクトのデータ・オブジェクト特性(「オブジェクト特性」)は、そのデータ・オブジェクトを示すまたは記述する値を含むことが可能である。ユーザのユーザ特性は、そのユーザを示すまたは記述する値を含むことが可能である。一例において、所与のデータ・オブジェクトのデータ・オブジェクト特性は、ユーザ定義の1つ以上の特性(例えば、これら1つ以上の特性は、コンピュータ・システムによって入力として受信される)を含んでよい。他の一例では、所与のユーザのユーザ特性は、ユーザ定義の1つ以上の特性(例えば、所与のユーザのこれら1つ以上の特性はコンピュータ・システムによって入力として受信される)を含んでよい。
このクラスタ化アルゴリズムは、後記のクラスタ化アルゴリズムの疑似コードとの対照において、データ・オブジェクトの間のまたはクラスタの間のユークリッド距離を使ってクラスタを形成し、最適の削除可能なクラスタを見出すために、これら指標の値に基づいてクラスタをランク付けするように構成される。このクラスタ化アルゴリズムは、マシン学習およびパターン認識など、統計的データ解析を含むことができる。このクラスタ化アルゴリズムは、マシン学習技法を使用することが可能である。このマシン学習技法は、これら指標の値を測ることによって最適な結果(例えば、削除可能なクラスタ)を識別するように構成することができる。このマシン学習技法は、ファイルのメタデータ、ストレージ・データ、または組織データを使用することが可能で、この後者は、データ・オブジェクトの管理文脈を記述する。該クラスタ化アルゴリズムは、同時並行で最適化されることになるこれら2つの指標に対する少なくとも2つの目的関数を含む多目的最適化問題として定式化することができる。例えば、この目的は、これら2つの指標を最大化する(例えば、クラスタの削除可能性を最大限にし、品質を最高限にする)ことであってよい。
このクラスタ化アルゴリズムは、或るデータ・オブジェクトが削除可能であること、または保存する必要があることの尤度に対する見積もり関数を提供することができる。この関数は、保存性関数と称することができる。本方法は、該方法が、或るデータ・オブジェクトが保存されるべきか削除されるべきかの尤度についての見積もりを提供するので、本質的に確率的であり得る。かかる各見積もりに内在する誤り確率の最小化は、非常に大きな学習サンプル(例えば、ベクトル集合の部分)を用いることを介して達成することが可能である。この保存性はポリシー・ガバナンスにより決まり得て、ポリシーは、目標の適用がトップダウン方式で対象オブジェクトを或る特定の状態に移すことを目指す義務的目標であり、対象オブジェクトを特定の状態に移せない場合にはその承認が行われる。トップダウン方式でのポリシーの実行パスを考察するのと対照的に、本方法は、会社内にどのような低レベルのガバナンス目標が存在するか、およびそれらが如何により高いレベルのポリシーに関連しているかを考察することができる。保存性の計算は、ボトムアップのアプローチをたどる。本方法によれば、保存性は、最適の保存可能なクラスタに対してではなく、保存性およびクラスタ品質の両方に適したクラスタに対して定義することができる。この保存性モデルは、データ・オブジェクトの何億もの範囲のデータを収容することが可能である。
第一指標は、クラスタのデータ・オブジェクトの少なくとも時間依存性特性を用いて算定される。例えば、第一指標は、クラスタのデータ・オブジェクトの時間依存性特性と、オーナーシップの度合い特性など他の特性とを用いて算定することが可能である。
本方法は、データ・オブジェクトおよびそのデータ・オブジェクトのユーザの両方を含む正確な基準に基づく、データ・オブジェクトの削除のための信頼できるロバストな方法を提供する利点を有し得る。本方法は、訓練およびテスト・データの統合のためのファイル・ベクトルを生成することにより、確率計算に基づいてデータをテストすることを通してほぼ確実な削減関数を計算することができる。これは、削除対象となるデータ・オブジェクトの最適のセットを提示することが可能で、しかして、まだ使用可能なまたはまだ必要なデータ・オブジェクトを削除してしまうことを回避できる。
一実施形態によれば、本方法は、それぞれの結合特性を含むベクトルのセットを生成するステップをさらに含み、結合特性のセットの少なくとも一部をクラスタ化アルゴリズムに投入するステップは、ベクトルのセットの少なくとも一部をクラスタ化アルゴリズムに投入するステップを含む。所与のクラスタの第一指標は、そのクラスタの諸データ・オブジェクトのオブジェクト指標の組み合わせであり、オブジェクト指標は、それぞれのデータ・オブジェクトの削除可能性を示す。この実施形態は、削除対象となる、より最適なデータ・オブジェクトのセットをもたらすことが可能な正確なクラスタ指標を提供することができる。
所与のデータ・オブジェクトのオブジェクト指標は、その所与のデータ・オブジェクトの活動状態を乗じた、該所与のデータ・オブジェクトの諸ユーザの活動状態の加重和を含む。ユーザの活動状態は、現在時刻をそのユーザに関連付けられた開始時間および終了時間と比較した結果に基づいて算定される。所与のデータ・オブジェクトの活動状態は、その所与のデータ・オブジェクトの直近の変更時間または生成日付を、該所与のデータ・オブジェクトのユーザに関連付けられた開始時間および終了時間と比較した結果に基づいて算定される。この実施形態は、これら指標を定義するための、ユーザおよびオブジェクト特性の効率的な組み合わせを提供することができる。
上記の和は、所定の閾値より高い、所与のデータ・オブジェクトのオーナーシップの所定度合いを有するユーザ群のユーザに対するものである。これは、削除対象となるデータ・オブジェクトのセットの識別をさらに最適化することができる。このオーナーシップの度合いは、例えば、ユーザのデータ・オブジェクトへのアクセスの許可またはレベルとしてよい。これは、例えば、データ・オブジェクトのアクセス制御リスト(ACL:access control list)中に示すことができる。
第一指標は、クラスタの諸データ・オブジェクトのオブジェクト指標の平均値である。別の例において、第一指標は、クラスタの諸データ・オブジェクトのオブジェクト指標の和を含む。別の例では、第一指標はオブジェクトの最新度またはオブジェクトの経年度に基づくことが可能である。第一指標は、例えば、(例として、[0,1]の範囲内の)正規化値とすることができる。
第二指標は、クラスタのデータ・オブジェクトの数およびデータ・オブジェクトの特性値の数で示すことが可能である。特性値の数は、相異なる特性の値の数であってよい。第二指標は、それが適用されたデータ・オブジェクトの数に対するデータ・オブジェクト特性のスパース性で示してもよい。例えば、データ・オブジェクトが年齢または部門などの特性または属性を有する場合、個別の特性値は年齢または部門の個別の値を含んでよい。
ユーザ特性は、ファイルに対するユーザのオーナーシップの度合いと、そのユーザに関連付けられた開始時間および終了時間とを含むことができる。ファイルに対するユーザのオーナーシップの度合いは、そのユーザのそのファイルへのアクセス権レベル(例えば、管理者ユーザまたは読み取るだけのユーザ)を含んでよい。ユーザに関連付けられた開始時間および終了時間は、例えば、そのユーザが或るプロジェクトである開始時間および終了時間であってよい。データ・オブジェクトのオブジェクト特性は、例えば、そのデータ・オブジェクトの生成日付、そのデータ・オブジェクトの直近の変更時間、そのデータ・オブジェクトのサイズ、そのデータ・オブジェクトの種類、そのデータ・オブジェクトを組み込んでいるファイル・システム、そのデータ・オブジェクトがバイナリかそうでないかの表示、またはそのデータ・オブジェクトのストレージ場所を含んでよい。
このクラスタ化アルゴリズムは階層的なクラスタ化アルゴリズムであり、最適の削除可能なクラスタは、これら指標の下でのパレート最適クラスタである。この階層的なクラスタ化アルゴリズムを用いれば、必要なクラスタの数についてのアプリオリな情報を必要としなくてよい。
本方法は、データ・オブジェクトの別のセットのデータ・オブジェクトが削除可能か削除可能でないかを判断するために、この最適の削除可能なクラスタを使用するステップをさらに含む。例えば、データ・オブジェクトのセットの各データ・オブジェクトは、該データ・オブジェクトと最適の削除可能なクラスタの選択された点との間の距離を計算することによって、最適の削除可能なクラスタと比較することが可能である。この選択された点は、例えば、最適の削除可能なクラスタの幾何中心であってよい。
データ・オブジェクトの別のセットを、異なるコンピュータ・システム中に格納することができる。このデータ・オブジェクトの他のセットは1つ以上のユーザに属する。このような実施形態は、データベースが同じ型のデータを含む場合にとりわけ有利であり得る。ベクトルの少なくとも一部は、ベクトルのセットからランダムに選択されてよい。これは、最適の削除可能なクラスタの識別におけるバイアスの回避を可能にする。最適の削除可能なクラスタは、高い削除可能性および高い品質の両方の目標を満たす、第一および第二指標の値の対を有するクラスタとすることができる。この第一および第二指標の値の対は、どちらの目標も、他方の目標値を劣化させずにはその値が改善できないときに得ることが可能である。この対を含むソリューションは、パレート最適またはパレート効率的であってよい。
最適の削除可能なクラスタは、クラスタ化アルゴリズムによって定義されたクラスタ群中で、第一指標の最高値且つ第二指標の最高値を有するクラスタとしてよい。言い換えれば、品質より削除可能性に重きを置きながらも、削除可能性と品質との可能な最高の組み合わせを得ることができる。
図1は、本開示中に含まれる方法ステップを実装するのに適した、汎用コンピュータ化システムを表す。
当然のことながら、本明細書に記載の方法は、少なくとも部分的に非対話型であり、サーバまたは組み込みシステムなど、コンピュータ化システムを用いて自動化される。例示的な諸実施形態において、本明細書に記載の方法は、(部分的に)対話型のシステムに実装することが可能である。これらの方法は、ソフトウェア112、122(ファームウェア122を含む)、ハードウェア(プロセッサ)105、またはこれらの組み合わせ中にさらに実装することができる。例示的な諸実施形態において、本明細書に記載の方法は実行可能プログラムとしてソフトウェア中に実装され、パーソナル・コンピュータ、ワークステーション、ミニコンピュータ、またはメインフレームコンピュータなど、特殊用途または汎用デジタル・コンピュータによって実行される。この最も一般的なシステム100は、したがって汎用コンピュータ101を含む。
例示的な諸実施形態において、図1に示されたようなハードウェア・アーキテクチャに関し、コンピュータ101は、プロセッサ105、メモリ・コントローラ115に連結されたメモリ(主メモリ)110、およびローカルの入力/出力コントローラ135を介する通信路を通して連結されている1つ以上の入力もしくは出力(I/O)デバイス(または周辺機器)またはその両方10、145を含む。入力/出力コントローラ135は、以下に限らないが、当該技術分野で周知の1つ以上のバスまたは他の有線もしくはワイヤレス接続部とすることができる。入力/出力コントローラ135は、通信を可能にするための、コントローラ、バッファ(キャッシュ)、ドライバ、中継器、およびレシーバなど、さらなる構成素子を有し得るが、簡潔さのためこれらは省略する。さらに、このローカル・インターフェースは、前述の諸構成部の間での適切な通信を可能にするため、アドレス、コントロール、もしくはデータ接続またはこれらの組み合わせを含んでよい。本明細書に記載のように、I/Oデバイス10、145は、一般に、当該技術分野で周知の任意の一般的な暗号カードまたはスマート・カードを含むことが可能である。
プロセッサ105は、ソフトウェア、具体的にはメモリ110中に格納されたソフトウェアを実行するためのハードウェア・デバイスである。プロセッサ105は、任意のカスタム・メイドのまたは市販のプロセッサ、中央処理ユニット(CPU:central processing unit)、コンピュータ101に関連付けられたいくつかのプロセッサ中の補助プロセッサ、半導体ベースのマイクロプロセッサ(マイクロチップまたはチップ・セットの形で)、マクロプロセッサ、または、一般に、ソフトウェア命令を実行するための任意のデバイスであってよい。
メモリ110は、揮発性メモリ素子(例えば、ランダム・アクセス・メモリ(DRAM、SRAM、SDRAMなどのRAM(random access memory)))および不揮発性メモリ素子(例えば、ROM(read only memory)、消去およびプログラム可能読み取り専用メモリ(EPROM:erasable programmable read only memory)、電子的消去およびプログラム可能読み取り専用メモリ(EEPROM:electronically erasable programmable read only memory)、プログラム可能読み取り専用メモリ(PROM:programmable read only memory))のいずれか1つまたは組み合わせを含むことが可能である。なお、メモリ110は、分散型アーキテクチャを有することができ、このアーキテクチャでは、様々な構成部が相互に遠隔に配置されるが、プロセッサ105によるアクセスが可能である。
メモリ110中のソフトウェアは、1つ以上の別々のプログラムを含むことができ、その各々は、論理関数、とりわけ本発明の実施形態にかかわる関数を実装するための実行可能命令の順序リストを含むことが可能である。図1の例において、メモリ110中のソフトウェアは、例えば、データベース管理システムなどのデータベースを管理するための命令などの諸命令またはソフトウェア112を含む。
また、メモリ110中のソフトウェアは、通常、適切なオペレーティング・システム(OS:operating system)111を含むものとする。OS111は、おそらくは本明細書に記載の方法を実装するためのソフトウェア112など、他のコンピュータ・プログラムの実行を基本的に制御する。
本明細書に記載の方法は、ソース・プログラムもしくはソフトウェア112、実行可能プログラムもしくはソフトウェア112(オブジェクト・コード)、スクリプト、または実行対象の命令のセットを含む任意の他のエンティティの形とすることができる。ソース・プログラムの場合、そのプログラムはコンパイラ、アセンブラ、インタプリタなどを介して変換する必要があり、これらは、OS111と関連して適切に動作する上で、メモリ110中に含まれていてもいなくてもよい。さらに、本方法は、データおよび方法のクラスを有するオブジェクト指向のプログラミング言語、またはルーティン、サブルーティン、もしくは関数、またはこれらの組み合わせを有する手続き型プログラミング言語として記述することがでる。
例示的な諸実施形態において、従来型のキーボード150およびマウス155を入力/出力コントローラ135に連結することができる。I/Oデバイス145など、他の入力/出力デバイスには、例えば、以下に限らないが、プリンタ、スキャナ、マイクロフォンなどの入力デバイスを含めてよい。最後に、I/Oデバイス10、145は、入力および出力の両方を通信するデバイス、例えば、以下に限らないが、(他のファイル、デバイス、システム、またはネットワークにアクセスするための)ネットワーク・インターフェース・カード(NIC:network interfase card)または変調器/復調器、無線周波数(RF:radio frequency)用または他のトランシーバ、電話インターフェース、ブリッジ、ルータなどをさらに含んでよい。I/Oデバイス10、145は、当該技術分野で周知の任意の一般的な暗号カードまたはスマート・カードであってよい。システム100は、ディスプレイ130に連結されたディスプレイ・コントローラ125をさらに含むことができる。例示的な諸実施形態において、システム100は、ネットワーク165に連結するためのネットワーク・インターフェースをさらに含むことが可能である。ネットワーク165は、コンピュータ101と、任意の外部のサーバ、クライアントなどとの間の広帯域接続を介した通信のためのIPベースのネットワークとすることができる。ネットワーク165は、コンピュータ101と外部システム30との間でデータを送信および受信し、これら外部システムは、本明細書で説明する方法のステップの一部または全部を実行することに関与することが可能である。例示的な諸実施形態において、ネットワーク165は、サービス・プロバイダによって運営される管理IPネットワークとすることができる。ネットワーク165は、例えば、WiFi、WiMaxなどのワイヤレス・プロトコルおよび技術を使って、ワイヤレス方式で実装することが可能である。また、ネットワーク165は、ローカル・エリア・ネットワーク、広域ネットワーク、メトロポリタン・エリア・ネットワーク、インターネット・ネットワーク、または他の類似の種類のネットワーク環境など、パケット交換ネットワークであってもよい。ネットワーク165は、固定ワイヤレス・ネットワーク、ワイヤレス・ローカル・エリア・ネットワーク(LAN:local area network)、ワイヤレス広域ネットワーク(WAN:wide area network)、パーソナル・エリア・ネットワーク(PAN:personal area network)、仮想私設ネットワーク(VPN:virtual private network)、イントラネット、または他の適切なネットワーク・システムであってよく、信号を受信し送信するための設備を含む。
コンピュータ101が、PC、ワークステーション、インテリジェント・デバイスなどの場合、メモリ110中のソフトウェアは、基本入出力システム(BIOS:basic input output system)122をさらに含むことが可能である。BIOSは、立ち上げ時にハードウェアを初期化およびテストし、OS111を開始し、諸ハードウェア・デバイス中にあるデータの転送をサポートする基本的なソフトウェア・ルーティンのセットである。BIOSは、コンピュータ101が起動されたときにBIOSが実行できるように、ROMの中に格納される。
プロセッサ105は、コンピュータ101が動作しているとき、メモリ110内に格納されているソフトウェア112を実行し、メモリ110とデータを行き交い通信し、該ソフトウェアに沿ってコンピュータ101の動作を全般的に制御するように構成される。本明細書に記載の方法およびOS111は、全体的にまたは部分的にだが一般的には後者で、プロセッサ105によって読み取られ、おそらくはプロセッサ105内にバッファされ次いで実行される。
図1に示されるように、本明細書に記載のシステムおよび方法がソフトウェア112に実装される場合、これら方法は、何らかのコンピュータ関連システムまたは方法によって、またはこれと関連させて使用するために、ストレージ120など、任意のコンピュータ可読媒体上に格納することができる。ストレージ120は、HDDストレージなどディスク・ストレージを含んでよい。
システム100は、1つ以上のユーザp1〜pNに関連付けることができる。用語、ユーザは、例えば、個人、コンピュータ、プロジェクト、またはコンピュータ上で実行されているアプリケーションなどのエンティティを言うとしてよい。一例において、システム100は、ネットワーク165を介してユーザp2に接続することができる。ユーザp2は、例えば、コンピュータまたはコンピュータ・アプリケーションであってよい。別の例では、p1などのユーザは、システム100中にアカウントを有する個人であってよい。
ストレージ120は、ユーザp1〜pNのデータ・オブジェクトf1〜fNを含むことができる。データ・オブジェクトは、例えば、ファイルまたはデータベースの少なくとも一部であってよい。例えば、ユーザp2は、f1〜fNの1つ以上のデータ・オブジェクトを割り当てられることができ、それに対して、例えば、p2はアクセスを有し、またはp2は、アプリケーションなどを処理するために読出しをする。別の例では、書籍などのデータ・オブジェクトf1〜fNがユーザp1に属してよい。言い換えれば、データ・オブジェクトf1〜fNは、ユーザp1〜pNと関係またはリンクを有する。
ストレージ120は、データ・オブジェクトf1〜fNおよびユーザp1〜pNのメタ・データ記述(例えば、特性の記述)をさらに含むことができる。例えば、メタ・データmetaf1〜metafNは、それぞれのデータ・オブジェクトf1〜fNのメタ・データである。メタ・データmetap1〜metapNは、それぞれのユーザp1〜pNのメタ・データである。
メタ・データmetaf1〜fNは、1つ以上のオブジェクト属性Attf1_1〜Attf1_N、Attf2_1〜Attf2_N・・・AttfN_1〜AttfN_Nを含むことが可能で、これらの値は、それぞれ、データ・オブジェクトf1〜fNの特性を表す。例えば、オブジェクト属性は、それぞれのデータ・オブジェクトの生成日付、ファイル・フォーマット、または守秘のレベルを含んでよい。言い換えれば、メタ・データmetaf1〜metafNの各オブジェクト属性は、それぞれのデータ・オブジェクトf1〜fNのデータ・オブジェクト特性を表す値を有する。各データ・オブジェクト(例えばf1)は、属性Attf1_1〜Attf1_Nの、時間に関連するまたは時間依存性の少なくとも1つの属性を有する。例を示すため、Attf1_1がf1の生成日付であり、Attf1_3がデータ・オブジェクトf1の直近の変更時間なので、f1の属性Attf1_1およびAttf1_3は時間依存性であると仮定する。データ・オブジェクトf1〜fNは、それらそれぞれのメタ・データmetaf1〜metafN中に相同じオブジェクト属性を有していても有していなくてもよい。
メタ・データmetap1−pNは、1つ以上のユーザ属性Attp1_1〜Attp1_N、Attp2_1〜Attp2_N・・・AttpN_1〜AttpN_Nを含むことが可能で、それらの値は、それぞれ、ユーザp1〜pNの特性を表す。このユーザ特性は、ユーザ自体の特性、または1つ以上のデータ・オブジェクトf1〜fNに対するユーザの関係を表す特性を含んでよい。例えば、ユーザ特性は、ユーザが1つ以上のデータ・オブジェクトf1〜fNのオーナーであることを示してもよい。言い換えれば、メタ・データmetap1〜metapNの各ユーザ属性は、それぞれのユーザのユーザ特性を表す値を有する。例えば、ユーザp1とp3とは、p1およびp3がデータ・オブジェクトf1のオーナーなので、両者ともデータ・オブジェクトf1を参照することができる。しかして、メタ・データmetap1およびmetap3は、各々、値“f1”(例えば、Attp1_1=“owner of(これのオーナー)”およびAttp3_1=“owner of”)を有する属性(例えば“owner of”)を含んでよい。各ユーザは、ユーザ属性Attp1_1〜AttpN_Nの、時間関連性のあるまたは時間依存性の少なくとも1つの属性を有する。例えば、ユーザ属性“FromDate(開始日)”で、或るプロジェクト(例えばpN)の開始日を示すことができ、別のユーザ属性“ToDate(終了日)”でプロジェクトpNの終了時間を示すことができる。例えば、ユーザp1およびp3は、それらそれぞれのメタ・データmetap1およびmetap3を有し、これらは属性“FromDate”および“ToDate”を含む(例えば、Attp1_2=“FromDate”、且つ“Attp1_3=“ToDate”、且つAttp3_2=“FromDate”、且つAttp3_3=“ToDate”)。ユーザp1〜pNは、それらそれぞれのメタ・データmetap1〜metapN中に相同じユーザ属性を有していても有していなくてもよい。
一例において、データ・オブジェクトf1〜fNおよびユーザp1〜pNの属性は、各属性が、それが時間依存性特性に対応しているかどうかを示すように、(例えば、タグを使って)構成することができる。
図2は、コンピュータ・システム100中に格納された、1つ以上のユーザ(p1〜pN)のデータ・オブジェクト(f1〜fN)のセットを処理する方法のフローチャートである。本方法は、本方法によって削除可能として識別されたデータ・オブジェクトを削除することによって、ストレージ・システム(例えばストレージ120)をクリーンアップするために用いることができる。
図1に示されるように、各データ・オブジェクトf1〜fNは、これらデータ・オブジェクトのデータ・オブジェクト特性を含むそれぞれのメタ・データmataf1〜metafNに関連付けられる。さらに、各ユーザp1〜pNは、これらユーザp1〜pNのユーザ特性を含むメタ・データmatap1〜metapNに関連付けられる。
ステップ201で、データ・オブジェクトf1〜fNのセットの各データ・オブジェクトに対し、結合特性を算定することができる。所与のデータ・オブジェクトの結合特性は、該所与のデータ・オブジェクトのデータ・オブジェクト特性、および該所与のデータ・オブジェクトのユーザのユーザ特性の少なくとも一部を含む。例えば、データ・オブジェクトf1の結合特性は、ユーザp1およびp3がf1のオーナーなので、f1のメタ・データmetaf1と、metap1およびmetap3とを含んでよい(図1参照)。言い換えれば、所与のデータ・オブジェクトf1の結合特性は、メタ・データmetaf1のオブジェクト属性(Attf1_1〜Attf1_N)の値、およびf1を参照するメタ・データmetap1およびmetap3のユーザ属性(Attp1_1〜NおよびAttp3_1〜N)の値を含んでよい。
ステップ203で、ベクトルのセットが、各ベクトルがそれぞれの結合特性を含むようにして生成することができる。例えば、各データ・オブジェクトf1〜fNに対し、それぞれのベクトルが設定または生成されてよい。所与のデータ・オブジェクトf1のベクトルは、例えば、該所与のデータ・オブジェクトf1の結合特性のオブジェクトおよびユーザ属性の各属性に対する次元を有する多次元ベクトルとすることが可能である。
ステップ205で、データ・オブジェクトのセットの時間依存性特性を算定また識別することができる。例えば、各結合特性に対し、その結合特性の、時間値または時間関連値を有するデータ・オブジェクトおよびユーザ特性を識別することが可能である。
データ・オブジェクトf1のこの例を続けると、該結合特性は、属性Attf1_1〜N、Attp1_1〜N、およびAttp3_1〜Nを含む。属性Attf1_1〜N、Attp1_1〜N、およびAttp3_1〜Nの各々は、それが時間値を有するかどうか、または(例えば、それらの属性に関連付けられた型を使って)それが時間依存性特性に対応しているかどうかを判断するためにチェックすることが可能である。データ・オブジェクトf1に対しては、属性Attf1_1およびAttf1_3と、Attp1_2、Attp1_3、Attp3_2、およびAttp3_3とは、それらが時間依存性特性に対応しているとして識別することができる。
ステップ207で、少なくとも2つの指標を算定または定義することが可能である。これら指標の第一指標は、データ・オブジェクトのクラスタの削除可能性を示すことができ、これら指標の第二指標は、そのクラスタの品質を示すことができる。所与のクラスタの第一指標は、その所与のクラスタのデータ・オブジェクトの少なくとも時間依存性特性を用いて算定することが可能である。第二指標は、クラスタ化処理が品質尺度に照らして最適化できるように、その尺度を提供することができる。
例えば、削除可能性指標は、データ・オブジェクトの時間依存性オブジェクト特性と、データ・オブジェクトfを参照するユーザ、さらに具体的にはデータ・オブジェクトfのオーナーの時間依存性のユーザ特性との両方に基づいて、該指標が所与のデータ・オブジェクトがどの位活動的であるかを示すように、定義することが可能である。データ・オブジェクトfへのアクセスを有する諸ユーザpの活動状態は、例えば、これらユーザ中の或るユーザpに対し、aprioriDel(p)と称される削除変数として算定することができ、ユーザpおよびその全てのコンテントが削除可能と見なせると定義してよいことが示される。例えば、aprioriDel(p)は、ユーザpによって、pのコンテントが削除可能であることを示している所与の値に対し設定することができる。ユーザpのこの削除変数、およびユーザpに関連付けられた、FromDate(p)およびToDate(p)など時間依存性の属性を用いて、ユーザpの活動状態(projectActiveness(p)と言う)を次のように計算することが可能である。
aprioriDel(p)ならば、projectActiveness(p)=0
NOWがFromDate(p)の後で、且つNOWがToDate(p)の前であれば、3
NOWがToDate(p)の後であれば、1
NOWがFromDate(p)の前であれば、1
それ以外は0、このNOWは現在時刻である。
この現在時刻は、本方法が実行されている時間であってよい。fileActiveness(f,p)と称される、対応ユーザpに関する各データ・オブジェクトfの活動状態は、変数recent(f)によって算定することができ、データ・オブジェクトfが新しいかどうかを定義可能なことが示される。変数recent(f)は、|NOW−date(f)|、またはlog|NOW−date(f)|として定義が可能な、データ・オブジェクトfの経年数に基づいて定義することができ、このdate(f)はデータ・オブジェクトfの生成日付である。|NOW−date(f)|が所定の閾値より小さい場合、変数recent(f)は、データ・オブジェクトfが新しいことを示す或る値(例えば1)を有してよく、それ以外の場合は、変数recent(f)は、データ・オブジェクトfが新しくないことを示す或る値(例えば0)を有してよい。所与のユーザpに関するデータ・オブジェクトfの活動状態(fileActiveness(f,p))は、変数recent(f)、fの生成日付、およびユーザpの時間依存性属性、すなわちToDateおよびFromDateを用いて、以下のように計算することができる。
fileActiveness(f,p)=i[dateFactors(日付ファクタ)_i(f,p)]の和、ここで、
date(f)<ToDate(p)ならば、dateFactors_1(f,p)=2
date(f)>Fromdate(p)ならば、dateFactors_2(f,p)=2
recent(f)ならば、dateFactors_3(f,p)=1
データ・オブジェクトfへのアクセスを有するユーザpの計算された活動状態、およびそれらユーザpの各々に関するデータ・オブジェクトの活動状態fileActiveness(ファイル活動状態)(f,p)を使って、結合活動状態(combactive)を、加重和として次のように定義することができる。
combactive(f)=Sum(和)_{p}(projectActiveness(プロジェクト活動状態)(p)
fileActiveness(ファイル活動状態)(f,p))。ここで、この和は、データ・オブジェクトfへのアクセスを有する諸ユーザに対する和である。
次いで、データ・オブジェクトfのオブジェクト指標(specDel(f))が、結合活動状態combactive(f)を使って、combactive(f)=0ならば、specDel(f)=1
または、combactive(f)がそれ以外ならば、1として定義することができる。
クラスタcに属するデータ・オブジェクトのオブジェクト指標を使って、クラスタcの第一指標(specDel(c))を、例えば、オブジェクト指標の平均値として、specDel(c)=MEAN(平均)[specDel(f)]f∈c(“f∈c”はデータ・オブジェクトfがクラスタcに属することを指す)。
別の例において、上記の和算SUM_{p}は、データ・オブジェクトfへのアクセスを有するユーザの一部に対して行われてもよい。ユーザのこの部分は、例えば、各ユーザpのデータ・オブジェクトfに対するオーナーシップの度合いに基づいて選択することが可能である。このオーナーシップの度合いは、strengthOfOwnership(オーナーシップ強度)(f,p)と称することができ、fにおけるpのオーナーシップ・インジケータの和として定義することができる。これは、例えば、データ・オブジェクトfの最強のオーナー群を示すことができる。オーナーシップ・インジケータは、例えば、fのファイル名内のpの姓または名、ファイル・システム・オーナーシップ、またはプロジェクト関連インジケータを含む。このユーザの部分は、所定の閾値tより高いstrengthOfOwnership(f,p)を有するユーザとして定義されてよく、P_t(f)={p∈p1−pN| strengthOfOwnership(f,p)>t}である。
この場合、データ・オブジェクトfの結合活動状態は、加重和として次のように定義することができる:
combactive(f)=SUM_{p∈P_t(f)}(projectActiveness(p)
fileActiveness(f,p))。
ステップ209で、ステップ203で生成されたベクトルのセットの少なくとも一部をクラスタ化アルゴリズムに投入することができる。このベクトルのセットの少なくとも一部は、訓練データ・セットとして用いられてよい。クラスタ化アルゴリズムは、例えば、階層的クラスタ化アルゴリズムとすることができる。このベクトルのセットの少なくとも一部は、例えば、ベクトルのセットからランダムに選択されてよい。
クラスタ化アルゴリズムは、ステップ211で、データ・オブジェクトをクラスタ化し、ステップ207で算定された指標に基づいて最適の削除可能なクラスタを識別するように構成することが可能である。例えば、参照することにより本明細書に組み込まれる米国特許出願公開第2016/0004730A1号に記載されているクラスタ化アルゴリズムは、距離(c1,c2)関数に基づいて階層的クラスタ構造体を構築するために用いることができ、この関数は、2つのクラスタc1、c2のベクトルの間の(正規化された)ユークリッド距離を提供する。第一指標specDel(c)は、確率的削除可能性見積もり関数del(f)を学習するための特化基準として、第二指標は、全データ・オブジェクトに対し利用可能な全体情報に一般化するための手段として用いることが可能である。良好なクラスタは、低い値の第二指標(すなわち、高品質)および高い削除可能性を備えるクラスタである。このクラスタ化アルゴリズムの構成には、その第一および第二指標の値が、高い削除可能性と高品質との両方の目標を満たすように、第一指標と第二指標とに対する2つの基準を最適の削除可能なクラスタを見出すための学習/クラスタ構築プロセスに組み込むことを含めることができる。すなわち、最適の削除可能なクラスタの第一および第二指標値は、他方の目標値を低下させることなくしていずれの目標の値も改善できない場合に得られるものである。最適の削除可能なクラスタの第一および第二指標値の対は、パレート最適またはパレート効率的であってよい。
Fのファイルをクラスタ化するためのクラスタ化アルゴリズムの疑似コードは、例えば、以下のように設定することが可能で、以下の疑似コード中のdateDeletability(データ削除可能性)(c)と名付けられた変数は第一指標specDel(c)である。
v(F)− 全ファイル・ベクトルのセット(例えば、上記のベクトルのセットとして算定されたもの)
F_tサブセットF− 訓練セット、F− 全ファイル
v(F_t)はランダムに選択されたv(F)のサブセット
1.学習ステップ
(1)v(F)からランダムなセットv(F_t)を取得する
(2)初期クラスタC1・・・Ckのセットを生成する
(3)C1から開始してCkまでユークリッド距離クラスタ化を実行する、
クラスタを生成する
Ck+1,・・・,Cm(ツリー構造)。各新規クラスタC_jに対し、
cvalue(C値)(C_j)
およびdateDeletability(日付削除可能性)(C_j)を計算する。
(4)dateDeletability(C_r)*k0+1/cvalue(C_r)が極大になるようなC_r(1≦r≦m)を見出す
このk0は所定の定数である
(5)del(f)=def1−distance(v(C_r),v(f))を定義する
2.分類ステップ
全てのファイルF_iに対し、
del(F_i)>閾値であれば、
print(印刷する)(F_i)
上記のアルゴリズム中のk0は、全ての実際的場合においてdateDeletability()がcvalue()の影響を上回るように十分に高く選ぶことができる。最適の削除可能なクラスタは、dateDeletability(C_r)*k0+1/cvalue(C_r)を最大化することによって得ることが可能である。これは、他方の目標(例えば、品質を向上する)値を低下させることなくしていずれの目標(例えば削除可能性を増大する)の値も改善できない場合に得られる、dateDeletability()およびcvalue()の対を有する最適の削除可能なクラスタを見出すことを可能にする。ステップ213で、データ・オブジェクトの最適の削除可能なクラスタを識別するために、クラスタ化アルゴリズムを実行することができる。
例えば、最適の削除可能なクラスタは、2つの目標値、すなわち第一および第二指標の値に最適化問題を用いて識別することが可能である。一例において、該アルゴリズムは、これら2つの値の組み合わせを、スライダのように第二指標の手段により重みを置いておき、該アルゴリズムがサンプル・データ上に特定化した第一指標specDel(c)の手段の方に次第に重みを増すように一般化して行く。複数の目標または基準に対するこの最適化は、パレート最適化であってよい。パレート最適化ソリューションは、少なくとも2つのソリューションが提供できるように第二指標のより高い値を備えるあらゆるクラスタが第一指標のより低い値を有し、またはその逆となるようなクラスタ中の、第一指標の或る特定の値と第二指標の或る特定の値とを備えるクラスタである。
ステップ215で、データ・オブジェクトのセットの或るデータ・オブジェクトが削除可能か削除可能でないかを判断するために、最適の削除可能なクラスタを使うことが可能である。例えば、データ・オブジェクトfのベクトルと、c_0と呼ばれる最適の削除可能なクラスタの幾何中心ベクトルとの間の距離distance(v(f),v(c_0))によって、データ・オブジェクトfが削除可能であるかないかを示すことが可能である。例えば、この距離が最大距離閾値より小さい場合は、データ・オブジェクトfは削除可能である。最適の削除可能なクラスタの幾何中心ベクトルとは、最適の削除可能なクラスタのデータ・オブジェクト群のベクトルを組み合わせる(例えば、合計して平均する)ことによって得られるベクトルである。これらベクトル間の距離はユークリッド距離であってよい。
例えば、確率的削除可能性見積もり関数del(f)を用いて、データ・オブジェクトfが削除可能であるかないかを見積もるまたは判断することができる。一例において、def(f)=1−distance(v(f),v(c_0))である。用語、削除可能性とは、データ・オブジェクトfが削除可能であることの尤度を言い、del(f)→[0,..,1]の間でのその見積もり関数を表す。del(f)は、データ・オブジェクトf上のメタデータ、利用状況データ、および組織データを所与として、fが削除可能であることについて、土台となるベイズ確率P(f∈f1〜fN|Meta(d),Date(d),Org(d))を見積もる。2つのベクトルの間の距離は、例えば、或るベクトルの要素と、対応する別のベクトルの要素とを使用して計算されたユークリッド距離であってよい。
図3は、所定のファイルの削除可能性を見積もるための或る例示の方法のフロー図である。
図3に示されるように、テスト・データおよび訓練データは以下のように決められる。(metaf1〜metafNなどの)ファイル・メタデータ301とプロジェクトおよび人員データ303とを用いて、ファイル・メタデータ301と対応するプロジェクトおよび人員データ303とからの特性をファイル・ベクトル307に組み合わせるために、マッピング305が(例えば、ステップ203で述べたように、結合特性を識別するために)実行される。ファイル・メタデータ301と、或る特定のファイルを参照するプロジェクトおよび人員データ303とは、単一のベクトルに概念的に表すことが可能である。また、このベクトルは、ファイル名内の姓または名、ファイル・システム・オーナーシップ、またはプロジェクト関連のインジケータなど、いくつかのオーナーシップ・インジケータに基づいて、ファイルの最強のオーナーなどさらに多くの属性を含んでよい。マッピング305によって、各ファイルに対し、対応するファイル・ベクトルが生成できるという結果を得ることが可能となる。
訓練データは、ファイル・ベクトル307の対象群からランダムに抜き取られてよい。訓練データは10Mのベクトルの範囲とすることができるが、この削除可能性見積もりは、最悪でもテスト・データの数に線形比例し得、したがって、実質上は無制限である。この訓練データは、クラスタ化アルゴリズム309中に投入することができる。クラスタ化アルゴリズム309は、訓練データを用いる第一学習フェーズを通して、確率的削除可能性関数(del(f))311を算定するように構成することが可能である。この学習フェーズは、第一および第二指標に基づいてよい。さらに、第二指標の最適値を得るため、マッピング・フェーズの過程で属性値を正規化することができる。加えて、第一および第二指標に対する2つの基準をより明瞭に区別するために、第二指標の計算では、これらの(例えば、この場合はデータ関連の)属性は使用しなくてよく、それらは、オブジェクト指標specDel(f)の計算の中で使うことができる。
例えば、第一フェーズにおける訓練データの非常に大きなセットに対する最適化として、多数のファイル・ベクトルを包含する初期のクラスタを得るために、初期分類を用いることが可能である。それぞれ第一および第二指標の2つの基準の下でのパレート最適クラスとして、最適の削除可能なクラスタが選択されたならば、上記の疑似コード・アルゴリズムのステップ1(4)を使って、311で削除可能性関数を得ることができる。
第二フェーズにおいて、313で、該削除可能性関数が、同じ対象群からのテスト・データに訓練データとして適用され、テスト・データは訓練データを含んでもよい。第二フェーズは、315での削除可能性見積もりに関連付けられた所定のファイルをもたらす。第一および第二フェーズ両方は307で同じ型のファイル・ベクトルに基づいているので、これらは、訓練およびテスト・データの統合のためのファイル・ベクトルが生成される305でのマッピング・フェーズを経ている。
図4は、コンピュータ・システム100とは限らない実環境のデータ・ストレージをクリーニングするための方法のフローチャートである。ステップ401で、図2を参照しながら説明したように、データ・オブジェクトf1〜fNを使って最適の削除可能なクラスタを識別することができる。ステップ403で、データ・オブジェクトの他のセットの削除対象となるデータ・オブジェクトを識別するため、実環境のデータ・オブジェクトの別のセットを処理することが可能である。データ・オブジェクトの他のセットの各データ・オブジェクトと、最適の削除可能なクラスタの幾何中心との間の距離を計算し、所定の閾値と比較することができる。ステップ405で、この所定の閾値より小さい距離を有する、データ・オブジェクトの他のセットの各データ・オブジェクトは削除することが可能である。データ・オブジェクトの削除は、該データ・オブジェクトを所定の期間(例えば1年)保管ストレージに保管し、その期間の終了後にそのデータ・オブジェクトを削除することを含む。
別の例において、保持ポリシー・マイニングのための方法が提供される。本方法は、削除可能性または保存性に対する特徴ベクトルvを定義するステップを含み、この特徴ベクトルは、例えば、オーナー、プロジェクト、直近のアクセス日付、生成日付、およびアクセス権を包含する。本方法は、オブジェクトに対する特徴ベクトルを算定するステップと、削除可能性指標が、オブジェクトの時間関連または日付関連特徴に依存してい得る場合に、オブジェクトに対する削除可能性指標を定義するステップとを含む。本方法は、諸オブジェクトに対する削除可能性指標値を算定するステップと、クラスタに属するオブジェクトの削除可能性指標値により決まる、クラスタ削除可能性指標specDel()を定義するステップと、クラスタ品質指標cvalue()(時間または日付と無関係の特徴に基づいて一般化される)およびクラスタ削除可能性指標specDel()(古くなったオブジェクトのクラスタ化に特化される)の下で、パレート最適クラスタを算定するための階層的クラスタ化アルゴリズム(従来技術)を使用するときに、時間または日付に無関係のオブジェクト特徴を反映するクラスタ品質指標cvalue()を定義するステップであって、最適の削除可能なクラスタのbdcがもたらされる、該定義するステップと、を含む。本方法は、或るオブジェクトの特徴ベクトルv(f)と、最適の削除可能なクラスタの幾何中心の特徴ベクトルv(bdc)との間の距離に基づいて、オブジェクトfの削除可能性に対する見積もり関数del(f)を定義するステップを含む。次いで、オブジェクトを削除可能/非削除可能に分類するために、この見積もり関数del(f)が使われる。
本発明の諸態様が、本発明の諸実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら本明細書で説明されている。当然のことながら、フローチャート図もしくはブロック図またはその両方の各ブロック、および、フローチャート図もしくはブロック図またはその両方中のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することが可能である。
本発明は、システム、方法、もしくはコンピュータ・プログラム製品またはこれらの組み合わせとすることができる。このコンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体(または媒体群)を含むことが可能である。
このコンピュータ可読ストレージ媒体は、命令実行デバイスが使用するための命令を保持し格納できる有形のデバイスとすることができる。該コンピュータ可読ストレージ媒体は、例えば、以下に限らないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、または前述の任意の適切な組み合わせであってよい。コンピュータ可読ストレージ媒体のさらに具体的な例の非包括的リストには、携帯型コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、消去およびプログラム可能読み取り専用メモリ(EPROMまたはフラッシュ・メモリ)、静的ランダム・アクセス・メモリ(SRAM:static random access memory)、携帯型コンパクト・ディスク読み取り専用メモリ(CD−ROM:compact disc read−only memory)、デジタル多用途ディスク(DVD:digital versatile disk)、メモリ・スティック、フレキシブル・ディスク、パンチカードまたは記録された命令を有する溝中の嵩上げ構造体などの機械的符号化デバイス、および前述の任意の適切な組み合わせが含まれる。本明細書で用いられるコンピュータ可読ストレージ媒体は、無線波または他の自由に伝播する電磁波、ウェーブガイドまたは他の送信媒体(例えば、光ファイバを通過する光パルス)、またはワイヤを通って送信される電気信号など、本質的に一時的な信号であると解釈されるものではない。
本明細書に述べられたコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体から、それぞれのコンピューティング/処理デバイスに、または、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワークもしくはワイヤレス・ネットワークまたはこれらの組み合わせなどのネットワークを介して、外部のコンピュータもしくは外部のストレージ・デバイスにダウンロードすることが可能である。このネットワークは、銅送信ケーブル、光送信ファイバ、ワイヤレス通信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバまたはこれらの組み合わせを含んでもよい。それぞれのコンピューティング/処理デバイス中のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、そのコンピュータ可読プログラム命令を、ストレージのため、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体中に転送する。
本発明のオペレーションを実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令集合アーキテクチャ(ISA:instruction−set−architecture)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、Smalltalk、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは類似のプログラミング言語などの従来式の手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで記述されたソース・コードもしくはオブジェクト・コードであってよい。このコンピュータ可読プログラム命令は、スタンドアロン・ソフトウェア・パッケージとしてユーザのコンピュータで専ら実行することも、ユーザのコンピュータで部分的に実行することもでき、一部をユーザのコンピュータで一部を遠隔コンピュータで実行することもでき、あるいは遠隔のコンピュータまたはサーバで専ら実行することもできる。後者の場合は、ローカル・エリア・ネットワーク(LAN)または広域ネットワーク(WAN)を含む任意の種類のネットワークを介して、遠隔コンピュータをユーザのコンピュータに接続することもでき、あるいは(例えばインターネット・サービス・プロバイダを使いインターネットを介し)外部のコンピュータへの接続を行うことも可能である。いくつかの実施形態において、例えば、プログラム可能論理回路、フィールドプログラム可能ゲート・アレイ(FPGA:field−programmable gate array)、またはプログラム可能論理アレイ(PLA:programmable logic array)を含む電子回路は、本発明の諸態様を実行すべく、該電子回路をカスタマイズするためコンピュータ可読プログラム命令の状態情報を利用することによって、該コンピュータ可読プログラム命令を実行することができる。
本発明の諸態様は、本発明の諸実施形態による方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら本明細書で説明されている。当然のことながら、フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装することが可能である。
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、特殊用途コンピュータ、またはマシンを形成する他のプログラム可能データ処理装置のプロセッサに提供し、そのコンピュータまたは他のプログラム可能データ処理装置のプロセッサを介して実行されるこれらの命令が、フローチャートもしくはブロック図またはその両方のブロックもしくはブロック群中に特定されている機能群/動作群を実装するための手段を生成するようにすることができる。また、コンピュータ、プログラム可能データ処理装置、もしくは他のデバイスまたはこれらの組み合わせに対し特定の仕方で機能するよう命令することが可能なこれらのコンピュータ可読プログラム命令を、コンピュータ可読ストレージ媒体に格納し、格納された命令を有するコンピュータ可読ストレージ媒体が、フローチャートもしくはブロック図またはその両方のブロックまたはブロック群中に特定されている機能/動作の諸態様を実装する命令群を包含する製造品を構成するようにすることができる。
さらに、これらコンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、または他のデバイスにロードし、そのコンピュータ上で、他のプログラム可能装置上で、または他のデバイス上で一連のオペレーション・ステップを実施させて、コンピュータ実装のプロセスを作り出し、当該コンピュータ上で、他のプログラム可能装置上でもしくは他のデバイス上で実行される命令が、フローチャートもしくはブロック図またはその両方のブロックもしくはブロック群中に特定されている機能群/動作群を実装するためのプロセスを提供するようにすることも可能である。
諸図面中のフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータ・プログラム製品から可能となる実装のアーキテクチャ、機能性、およびオペレーションを示している。この点に関し、フローチャートまたはブロック図中の各ブロックは、特定の論理機能(群)を実装するための一つ以上の実行可能命令を含む、モジュール、セグメント、または命令の部分を表し得る。一部の別の実装においては、ブロック中に記載された機能が、図面に記載された順序から外れて行われ得る。例えば、連続して示された2つのブロックが、関与する機能性に応じ、実際にはほぼ同時に実行されることがあり、時にはこれらのブロックが逆の順序で実行されることもあり得る。さらに、ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方中のブロック群の組み合わせは、特定の機能または動作を実施する特殊用途ハードウェア・ベースのシステムによって実装でき、または特殊用途ハードウェアとコンピュータ命令とを組み合わせて実行できることにも留意すべきである。
10 I/Oデバイス
30 外部システム
100 システム
101 コンピュータ
105 プロセッサ
110 メモリ
111 オペレーティング・システム
112 ソフトウェア
115 メモリ・コントローラ
120 ストレージ
122 基本入出力システム
125 ディスプレイ・コントローラ
130 ディスプレイ
135 入力/出力コントローラ
145 I/Oデバイス
150 キーボード
155 マウス
165 ネットワーク

Claims (21)

  1. コンピュータ・システム中に格納された、1つ以上のユーザのデータ・オブジェクトのセットを処理するための方法であって、前記方法は、
    前記データ・オブジェクトのセットのデータ・オブジェクト特性、および前記データ・オブジェクトのセットのユーザのユーザ特性を用意するステップと、
    前記データ・オブジェクトのセットの各データ・オブジェクトに対し、前記データ・オブジェクトの前記データ・オブジェクト特性および前記データ・オブジェクトのユーザのユーザ特性の少なくとも一部を含む結合特性を算定するステップと、
    前記データ・オブジェクトのセットの時間依存性特性を算定するステップであって、データ・オブジェクトの時間依存性特性は、時間値を有するデータ・オブジェクトおよび前記データ・オブジェクトのユーザ特性を含む、前記算定するステップと、
    少なくとも2つの指標を定義するステップであって、前記指標の第一指標はデータ・オブジェクトのクラスタの削除可能性を示し、第二指標は、前記クラスタの品質を示し、前記第一指標は、前記クラスタの前記データ・オブジェクトの前記時間依存性特性を用いて算定される、前記定義するステップと、
    前記結合特性のセットの少なくとも一部をクラスタ化アルゴリズムに投入するステップと、
    前記データ・オブジェクト・ベースでクラスタ化し、前記指標の値に基づいて前記データ・オブジェクトの最適の削除可能なクラスタを識別するために前記クラスタ化アルゴリズムを用い、前記データ・オブジェクトのセットの或るデータ・オブジェクトが削除可能かまたは削除可能でないかを判断するために前記最適の削除可能なクラスタを用いるステップと、
    を含む、方法。
  2. 所与のクラスタの前記第一指標は、前記クラスタの諸データ・オブジェクトのオブジェクト指標の組み合わせであり、オブジェクト指標は、前記それぞれのデータ・オブジェクトの前記削除可能性を示す、請求項1に記載の方法。
  3. 所与のデータ・オブジェクトの前記オブジェクト指標が、前記所与のデータ・オブジェクトの活動状態を乗じた、前記所与のデータ・オブジェクトの諸ユーザの前記活動状態の加重和を含み、前記ユーザの前記活動状態は、現在時刻と、前記ユーザに関連付けられた開始および終了時間とを比較した結果に基づいて算定され、前記所与のデータ・オブジェクトの前記活動状態は、前記所与のデータ・オブジェクトの直近の変更時間または生成日付と、前記所与のデータ・オブジェクトのユーザに関連付けられた前記開始および終了時間とを比較した結果に基づいて算定される、請求項2に記載の方法。
  4. 前記第一指標が、クラスタの前記諸データ・オブジェクトの前記オブジェクト指標の平均値である、請求項2に記載の方法。
  5. 前記和が、所定の閾値より高い、前記所与のデータ・オブジェクトへのアクセスの所定度合いを有する前記ユーザ群のユーザに対するものである、請求項3に記載の方法。
  6. 前記第二指標が、クラスタのデータ・オブジェクトの数、および前記データ・オブジェクトの特性値の数を示す、請求項1に記載の方法。
  7. 前記ユーザ特性が、データ・オブジェクトの前記ユーザのオーナーシップの度合い、および前記ユーザに関連付けられた開始時間および終了時間から成る群から選択される、請求項1に記載の方法。
  8. 前記データ・オブジェクト特性が前記データ・オブジェクトの生成日付、前記データ・オブジェクトの直近の変更時間、前記データ・オブジェクトの型、および前記データ・オブジェクトのストレージ場所から成る群から選択される、請求項1に記載の方法。
  9. 前記クラスタ化アルゴリズムが階層的クラスタ化アルゴリズムであり、前記最適の削除可能なクラスタが、前記指標の下でのパレート最適クラスタである、請求項1に記載の方法。
  10. データ・オブジェクトの別のセットの或るデータ・オブジェクトが削除可能であるか削除可能でないかを判断するために前記最適の削除可能なクラスタを用いるステップ、
    をさらに含む、請求項1に記載の方法。
  11. データ・オブジェクトの別のセットが別のコンピュータ・システムに格納されている、請求項10に記載の方法。
  12. データ・オブジェクトの別のセットは前記1つ以上のユーザまたは他のユーザに属する、請求項10に記載の方法。
  13. 前記結合特性の少なくとも一部は、前記結合特性のセットからランダムに選択される、請求項1に記載の方法。
  14. 前記最適の削除可能なクラスタが、前記第一指標の最高の値および前記第二指標の最小の値を有する前記クラスタである、請求項1に記載の方法。
  15. 前記それぞれの結合特性を含むベクトルのセットを生成するステップであって、前記結合特性のセットの少なくとも一部をクラスタ化アルゴリズムに投入するステップが、前記ベクトルのセットの少なくとも一部を前記クラスタ化アルゴリズムに投入するステップを含む、前記生成するステップ、
    をさらに含む、請求項1に記載の方法。
  16. コンピュータ・システム中に格納された1つ以上のユーザのデータ・オブジェクトのセットを処理するためのコンピュータ・システムであって、
    1つ以上のプロセッサと、1つ以上のコンピュータ可読メモリと、1つ以上のコンピュータ可読有形ストレージ媒体と、前記1つ以上の有形ストレージ媒体の少なくとも1つに格納された、前記1つ以上のメモリの少なくとも1つを介して前記1つ以上のプロセッサの少なくとも1つが実行するためのプログラム命令とを含み、前記コンピュータ・システムは、
    前記データ・オブジェクトのセットのデータ・オブジェクト特性、および前記データ・オブジェクトのセットの前記ユーザのユーザ特性を用意するステップと、
    前記データ・オブジェクトのセットの各データ・オブジェクトに対し、前記データ・オブジェクトの前記データ・オブジェクト特性および前記データ・オブジェクトのユーザのユーザ特性の少なくとも一部を含む結合特性を算定するステップと、
    前記データ・オブジェクトのセットの時間依存性特性を算定するステップであって、データ・オブジェクトの時間依存性特性は、時間値を有するデータ・オブジェクトおよび前記データ・オブジェクトのユーザ特性を含む、前記算定するステップと、
    少なくとも2つの指標を定義するステップであって、前記指標の第一指標はデータ・オブジェクトのクラスタの削除可能性を示し、第二指標は、前記クラスタの品質を示し、前記第一指標は、前記クラスタの前記データ・オブジェクトの前記時間依存性特性を用いて算定される、前記定義するステップと、
    前記結合特性のセットの少なくとも一部をクラスタ化アルゴリズムに投入するステップと、
    前記データ・オブジェクト・ベースでクラスタ化し、前記指標の値に基づいて前記データ・オブジェクトの最適の削除可能なクラスタを識別するために前記クラスタ化アルゴリズムを用い、前記データ・オブジェクトのセットの或るデータ・オブジェクトが削除可能かまたは削除可能でないかを判断するために前記最適の削除可能なクラスタを用いるステップと、
    を含む方法を実行することができる、
    コンピュータ・システム。
  17. 所与のクラスタの前記第一指標は、前記クラスタの諸データ・オブジェクトのオブジェクト指標の組み合わせであり、オブジェクト指標は、前記それぞれのデータ・オブジェクトの前記削除可能性を示す、請求項16に記載のコンピュータ・システム。
  18. 所与のデータ・オブジェクトの前記オブジェクト指標が、前記所与のデータ・オブジェクトの活動状態を乗じた、前記所与のデータ・オブジェクトの諸ユーザの前記活動状態の加重和を含み、前記ユーザの前記活動状態は、現在時刻と、前記ユーザに関連付けられた開始および終了時間とを比較した結果に基づいて算定され、前記所与のデータ・オブジェクトの前記活動状態は、前記所与のデータ・オブジェクトの直近の変更時間または生成日付と、前記所与のデータ・オブジェクトのユーザに関連付けられた前記開始および終了時間とを比較した結果に基づいて算定される、請求項16に記載のコンピュータ・システム。
  19. コンピュータ・システム中に格納された、1つ以上のユーザのデータ・オブジェクトのセットを処理するためのコンピュータ・プログラム製品であって、
    1つ以上のコンピュータ可読ストレージ媒体、および前記1つ以上の有形ストレージ媒体の少なくとも1つに格納されたプログラム命令を含み、前記プログラム命令はプロセッサによって実行可能であり、前記プログラム命令が、
    前記データ・オブジェクトのセットのデータ・オブジェクト特性、および前記データ・オブジェクトのセットのユーザのユーザ特性を用意するためのプログラム命令と、
    前記データ・オブジェクトのセットの各データ・オブジェクトに対し、前記データ・オブジェクトの前記データ・オブジェクト特性および前記データ・オブジェクトの前記ユーザのユーザ特性の少なくとも一部を含む結合特性を算定するためのプログラム命令と、
    前記データ・オブジェクトのセットの時間依存性特性を算定するためのプログラム命令であって、データ・オブジェクトの時間依存性特性は、時間値を有するデータ・オブジェクト、および前記データ・オブジェクトのユーザ特性を含む、前記算定するためのプログラム命令と、
    少なくとも2つの指標を定義するためのプログラム命令であって、前記指標の第一指標はデータ・オブジェクトのクラスタの削除可能性を示し、第二指標は、前記クラスタの品質を示し、前記第一指標は、前記クラスタの前記データ・オブジェクトの前記時間依存性特性を用いて算定される、前記定義するためのプログラム命令と、
    前記結合特性のセットの少なくとも一部をクラスタ化アルゴリズムに投入するためのプログラム命令と、
    前記データ・オブジェクト・ベースでクラスタ化し、前記指標の値に基づいて前記データ・オブジェクトの最適の削除可能なクラスタを識別するために前記クラスタ化アルゴリズムを用い、前記データ・オブジェクトのセットの或るデータ・オブジェクトが削除可能かまたは削除可能でないかを判断するために前記最適の削除可能なクラスタを用いるためのプログラム命令と、
    を含む、
    コンピュータ・プログラム製品。
  20. 所与のクラスタの前記第一指標は、前記クラスタの諸データ・オブジェクトのオブジェクト指標の組み合わせであり、オブジェクト指標は、前記それぞれのデータ・オブジェクトの前記削除可能性を示す、請求項19に記載のコンピュータ・プログラム製品。
  21. コンピュータ・プログラムがコンピュータ上で実行されると、請求項1〜15のいずれか一項に記載の前記方法を実行するようになされたプログラム・コード手段を含む、前記コンピュータ・プログラム。
JP2019563857A 2017-05-24 2018-05-21 データ・オブジェクトの削除可能性を見積もる方法 Active JP7038143B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/603,725 2017-05-24
US15/603,725 US10956453B2 (en) 2017-05-24 2017-05-24 Method to estimate the deletability of data objects
PCT/IB2018/053569 WO2018215912A1 (en) 2017-05-24 2018-05-21 A method to estimate the deletability of data objects

Publications (2)

Publication Number Publication Date
JP2020522782A true JP2020522782A (ja) 2020-07-30
JP7038143B2 JP7038143B2 (ja) 2022-03-17

Family

ID=64396421

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019563857A Active JP7038143B2 (ja) 2017-05-24 2018-05-21 データ・オブジェクトの削除可能性を見積もる方法

Country Status (6)

Country Link
US (1) US10956453B2 (ja)
JP (1) JP7038143B2 (ja)
CN (1) CN110679114B (ja)
DE (1) DE112018001290T5 (ja)
GB (1) GB2576453A (ja)
WO (1) WO2018215912A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10956453B2 (en) 2017-05-24 2021-03-23 International Business Machines Corporation Method to estimate the deletability of data objects
US11481662B1 (en) * 2017-07-31 2022-10-25 Amazon Technologies, Inc. Analysis of interactions with data objects stored by a network-based storage service
US10984007B2 (en) * 2018-09-06 2021-04-20 Airbnb, Inc. Recommendation ranking algorithms that optimize beyond booking
CN111882416A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种风险预测模型的训练方法和相关装置
CN112380494B (zh) * 2020-11-17 2023-09-01 中国银联股份有限公司 一种确定对象特征的方法及装置
CN112365244B (zh) * 2020-11-27 2024-04-26 深圳前海微众银行股份有限公司 数据生命周期管理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129730A (ja) * 2006-11-17 2008-06-05 Hitachi Ltd 共有ファイル管理方法、共有ファイル管理プログラム、および、共有ファイル管理装置
JP2013206280A (ja) * 2012-03-29 2013-10-07 Fujitsu Ltd 削除ファイル検出プログラム、削除ファイル検出方法、及び、削除ファイル検出装置
JP2014021552A (ja) * 2012-07-12 2014-02-03 Hitachi Solutions Ltd 業務文書処理システム、及びプログラム
US20150142758A1 (en) * 2013-11-15 2015-05-21 International Business Machines Corporation Method for Intelligently Categorizing Data to Delete Specified Amounts of Data Based on Selected Data Characteristics

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6195657B1 (en) 1996-09-26 2001-02-27 Imana, Inc. Software, method and apparatus for efficient categorization and recommendation of subjects according to multidimensional semantics
US6587876B1 (en) 1999-08-24 2003-07-01 Hewlett-Packard Development Company Grouping targets of management policies
US7418489B2 (en) 2000-06-07 2008-08-26 Microsoft Corporation Method and apparatus for applying policies
CA2326805A1 (en) 2000-11-24 2002-05-24 Ibm Canada Limited-Ibm Canada Limitee Method and apparatus for deleting data in a database
US20030033263A1 (en) * 2001-07-31 2003-02-13 Reel Two Limited Automated learning system
US7751628B1 (en) * 2001-12-26 2010-07-06 Reisman Richard R Method and apparatus for progressively deleting media objects from storage
US20060080354A1 (en) 2004-08-27 2006-04-13 Nokia Corporation System for selecting data from a data store based on utility of the data
US7587418B2 (en) 2006-06-05 2009-09-08 International Business Machines Corporation System and method for effecting information governance
US7970746B2 (en) 2006-06-13 2011-06-28 Microsoft Corporation Declarative management framework
US7743058B2 (en) 2007-01-10 2010-06-22 Microsoft Corporation Co-clustering objects of heterogeneous types
US8145677B2 (en) 2007-03-27 2012-03-27 Faleh Jassem Al-Shameri Automated generation of metadata for mining image and text data
CN101420313B (zh) 2007-10-22 2011-01-12 北京搜狗科技发展有限公司 一种针对客户端用户群进行聚类的方法和系统
US20100011027A1 (en) 2008-07-11 2010-01-14 Motorola, Inc. Policy rule conflict detection and management
CN101997853A (zh) 2009-08-31 2011-03-30 中兴通讯股份有限公司 数据下载方法及终端
US8533161B2 (en) 2009-10-30 2013-09-10 Hitachi Data Systems Corporation Fixed content storage within a partitioned content platform, with disposition service
CN101782976B (zh) * 2010-01-15 2013-04-10 南京邮电大学 一种云计算环境下机器学习自动选择方法
US20120142429A1 (en) * 2010-12-03 2012-06-07 Muller Marcus S Collaborative electronic game play employing player classification and aggregation
CN102855259B (zh) * 2011-06-30 2015-05-13 Sap欧洲公司 大规模数据聚类分析的并行化
US20130030865A1 (en) 2011-07-25 2013-01-31 Nova-Ventus Consulting Sl Method of constructing a loyalty graph
US8929687B2 (en) * 2011-08-29 2015-01-06 Dst Technologies, Inc. System and method for candidate sorting and clustering
US9083757B2 (en) * 2012-11-21 2015-07-14 Telefonaktiebolaget L M Ericsson LLP Multi-objective server placement determination
US10417653B2 (en) * 2013-01-04 2019-09-17 PlaceIQ, Inc. Inferring consumer affinities based on shopping behaviors with unsupervised machine learning models
CN103218524B (zh) * 2013-04-03 2016-01-20 西安电子科技大学 基于密度的欠定盲源分离方法
CN103258217A (zh) * 2013-05-15 2013-08-21 中国科学院自动化研究所 一种基于增量学习的行人检测方法
CN103617146B (zh) * 2013-12-06 2017-10-13 北京奇虎科技有限公司 一种基于硬件资源消耗的机器学习方法及装置
CN103744935B (zh) * 2013-12-31 2017-06-06 华北电力大学(保定) 一种计算机快速海量数据聚类处理方法
US9477713B2 (en) * 2014-06-06 2016-10-25 Netflix, Inc. Selecting and ordering groups of titles
CN106471516B (zh) * 2014-06-11 2019-06-11 日本电信电话株式会社 恶意软件判定器、恶意软件判定系统、恶意软件判定方法以及程序
GB2528047A (en) 2014-07-07 2016-01-13 Ibm Mining of policy data source description based on file, storage and application meta-data
US20160045120A1 (en) * 2014-08-15 2016-02-18 Massachusetts Institute Of Technology Systems and methods for spike sorting
BR112017016850A2 (pt) * 2015-02-06 2019-11-12 Ronen Tal Botzer sistema semi-automatizado e método para avaliação de respostas
CN104573130B (zh) * 2015-02-12 2017-11-03 北京航空航天大学 基于群体计算的实体解析方法及装置
US10327112B2 (en) * 2015-06-12 2019-06-18 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for grouping wireless devices in a communications network
US10628456B2 (en) * 2015-10-30 2020-04-21 Hartford Fire Insurance Company Universal analytical data mart and data structure for same
CN105488167B (zh) 2015-11-30 2019-12-13 北京金山安全软件有限公司 一种索引库更新方法及装置
US10482091B2 (en) * 2016-03-18 2019-11-19 Oath Inc. Computerized system and method for high-quality and high-ranking digital content discovery
CN105912456B (zh) 2016-05-10 2019-01-22 福建师范大学 一种基于用户兴趣迁移的大数据集仿真生成方法
CN106022295B (zh) * 2016-05-31 2019-04-12 北京奇艺世纪科技有限公司 一种数据位置的确定方法及装置
CN105915801A (zh) * 2016-06-12 2016-08-31 北京光年无限科技有限公司 改善抓拍效果的自学习方法及装置
US10956453B2 (en) 2017-05-24 2021-03-23 International Business Machines Corporation Method to estimate the deletability of data objects

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008129730A (ja) * 2006-11-17 2008-06-05 Hitachi Ltd 共有ファイル管理方法、共有ファイル管理プログラム、および、共有ファイル管理装置
JP2013206280A (ja) * 2012-03-29 2013-10-07 Fujitsu Ltd 削除ファイル検出プログラム、削除ファイル検出方法、及び、削除ファイル検出装置
JP2014021552A (ja) * 2012-07-12 2014-02-03 Hitachi Solutions Ltd 業務文書処理システム、及びプログラム
US20150142758A1 (en) * 2013-11-15 2015-05-21 International Business Machines Corporation Method for Intelligently Categorizing Data to Delete Specified Amounts of Data Based on Selected Data Characteristics

Also Published As

Publication number Publication date
CN110679114B (zh) 2021-08-06
WO2018215912A1 (en) 2018-11-29
US20180341695A1 (en) 2018-11-29
US10956453B2 (en) 2021-03-23
DE112018001290T5 (de) 2020-01-02
GB2576453A (en) 2020-02-19
JP7038143B2 (ja) 2022-03-17
CN110679114A (zh) 2020-01-10
GB201916870D0 (en) 2020-01-01

Similar Documents

Publication Publication Date Title
JP7038143B2 (ja) データ・オブジェクトの削除可能性を見積もる方法
US10620839B2 (en) Storage pool capacity management
US10412170B2 (en) Retention-based data management in a network-based data store
US10726356B1 (en) Target variable distribution-based acceptance of machine learning test data sets
US10929369B2 (en) Optimized orchestration of complex application-migration projects based on data sensitivity
US9444717B1 (en) Test generation service
US9396160B1 (en) Automated test generation service
US20210136120A1 (en) Universal computing asset registry
US11483211B2 (en) Infrastructure discovery and analysis
US11205138B2 (en) Model quality and related models using provenance data
JP2023522882A (ja) データ品質問題の動的発見及び修正
US20220147852A1 (en) Mitigating partiality in regression models
US20210149793A1 (en) Weighted code coverage
JP2023080027A (ja) コンピュータ実装非構造化ドキュメント処理方法、コンピュータプログラム及びシステム(非構造化ドキュメントに関連付けられた重複データブロックの分析)
US11868167B2 (en) Automatically provisioned tag schema for hybrid multicloud cost and chargeback analysis
US11574215B2 (en) Efficiency driven data collection and machine learning modeling recommendation
CN117591673B (zh) 日志分组方法、装置、设备及存储介质
US20240037067A1 (en) File system provisioning for workload
CN116149885B (zh) 一种泛it服务风险预测方法及系统
US20220405525A1 (en) Reliable inference of a machine learning model
US20220405631A1 (en) Data quality assessment for unsupervised machine learning
US10664784B2 (en) Analyzing product impact on a system
WO2023173964A1 (en) Intelligently optimized machine learning models
US20210141935A1 (en) Upload management
CN114676936A (zh) 一种违约时间的预测方法及相关装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200526

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201021

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211001

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220307

R150 Certificate of patent or registration of utility model

Ref document number: 7038143

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150