JP2022535165A - 多数の分類モジュールから集約された情報を使用するデータ分類 - Google Patents

多数の分類モジュールから集約された情報を使用するデータ分類 Download PDF

Info

Publication number
JP2022535165A
JP2022535165A JP2022510100A JP2022510100A JP2022535165A JP 2022535165 A JP2022535165 A JP 2022535165A JP 2022510100 A JP2022510100 A JP 2022510100A JP 2022510100 A JP2022510100 A JP 2022510100A JP 2022535165 A JP2022535165 A JP 2022535165A
Authority
JP
Japan
Prior art keywords
classification
data
module
final
proposed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022510100A
Other languages
English (en)
Inventor
タンデッキ,ミカエル
マース,ミカエル
ペップ,グレーテル デ
フィリピーアック,アンナ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Collibra NV
Original Assignee
Collibra NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Collibra NV filed Critical Collibra NV
Publication of JP2022535165A publication Critical patent/JP2022535165A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本開示は、データを分類する方法及びシステムに関係する。分類モジュール集合が受信したデータを検査し、この受信データについての信頼値の分類案を識別し得る。集約モジュールは、分類案と信頼値とを受信して集約し得る。集約された分類案及び信頼値に基づいて、集約モジュールは受信データの最終分類を生成し得る。外部デバイスは、データと関連する最終分類に基づいて受信データに関する動作を実施し得る。実施される動作は、データリクエストの受信時にデータが検索されるようにデータを保持することを含み得る。分類モジュール及び集約モジュールのいずれかは、後続のデータ分類反復で利用されて分類確度を高め得る訓練データに基づき得る。【選択図】 図2

Description

(関連出願の相互参照)
本出願は、2019年8月15日に出願された米国特許出願第16/542,016号の優先権を主張し、同出願は参照によりその全体が本明細書に援用される。
本開示は、データ分類に、特に、多数の分類モジュールから生成された集約済み分類情報を使用してデータを分類することに関する。
計算システムは、様々なタイプのデータを受信及び処理できる。例えば、計算デバイスは、デジタルドキュメントの様々な特性を表すデータストリームを処理できる。計算システムはデータストリームを処理して、データストリームに含まれる特性(名前、住所、ビジネス関連情報、パーソナル情報)を識別し得る。
多くのケースで、計算システムは、データストリームに含まれるデータ部分を分類してデータの性質を識別し得る。一例として、データストリームの第1部分は個人の名前として分類され、データストリームの第2部分は個人のパーソナル識別子(例えば、政府発行の識別番号)として分類され得る。
計算システムは、データ部分の分類に基づいて動作(例えば、データ部分の記憶、データ部分の削除、外部デバイスへのデータ部分の送信)を行い得る。ケースによっては、幾つかの分類はパーソナル又はセンシティブデータを表す。データ部分の分類がパーソナル/センシティブデータを含むとの判断時に、データ部分に関して行われる動作は、パーソナル/センシティブなデータの性質に基づき得る。例えば、センシティブデータとして分類されるデータは、メモリの特定部分に記憶されるか、センシティブなデータの性質を保護するように削除され得る。
本発明は、上記従来の技術における課題を解決するためになされたものである。
本発明は、データを分類するシステムにより実施される方法であって、分類モジュール集合に含まれる各分類モジュールにより、データストリームを取得することと、前記データストリームに含まれる第1データ部分を検査して前記第1データ部分の特性を識別することと、前記分類モジュール集合の各分類モジュールにより、前記識別済み特性を分類リストと比較して分類案及び信頼値を判断することであって、前記分類リストに含まれて、第1類似度閾値を超える第1類似度を持つ前記第1データ部分の前記特性と整合する分類タイプを各分類案が識別することと、集約モジュールにより、前記分類案及び前記信頼値を各分類タイプで集約することと、前記集約モジュールにより、集約された前記分類案及び前記信頼値に基づいて最終分類を生成することと、前記最終分類を外部デバイスへ送信して後続動作を実施することと、を包含する方法を含む。
「発明を実施するための形態」を図面と併せて検討することで、当該技術の様々な特徴及び特性が当業者には明白になるだろう。当該技術の実施形態は、限定ではなく例として図面に図示され、同様の参照符号が類似要素を指し得る。
様々な実施形態によるデータ分類の為の生産アーキテクチャのブロック線図を示す。 様々な実施形態による分類モジュール集合のブロック線図を示す。 様々な実施形態による機械学習モジュールのブロック線図を示す。 様々な実施形態による訓練済み分類データのクラスタのグラフィカル表現の図である。 様々な実施形態による潜在的データ分類テーブルのブロック線図を示す。 様々な実施形態により集約装置で最終分類を判断する為のフローチャートを示す。 様々な実施形態によるデータ分類生成方法のブロック線図を示す。 本明細書に記載される少なくとも幾つかの操作が遂行され得る処理システムの一例が図示されたブロック線図である。
図面には、例示のみを目的として様々な実施形態が描かれている。当該技術の原理から逸脱することなく代替実施形態が採用され得ることを当業者は認識するだろう。従って、図面には特定の実施形態が示されているが、様々な修正が当該技術に適用可能である。
下に提示される実施形態は、当業者が実施形態を実践すると共に実施形態を実践する最良の態様を示すのに必要な情報を表す。添付図と照らし合わせて以下の記載を読むと、当業者は開示の概念を理解し、本明細書で特に記されていないこれらの概念の適用例を認識するだろう。これらの概念および適用例は本開示及び添付請求項の範囲に内含される。
特定のコンピュータプログラム、システム構成、ネットワーク等を参照して実施形態が記載され得る。しかしながら、これらの特徴が他のコンピュータプログラムタイプ、システム構成、ネットワークタイプ等に等しく適用可能であることを当業者は認識するだろう。例えば、「WiFiネットワーク(Wi-Fi network)」の語はネットワークを記載するのに使用され得るが、別のタイプのネットワークで関連の実施形態が展開されてもよい。
また、専用ハードウェア(例えば回路)、ソフトウェア及び/又はファームウェアで適切にプログラムされたプログラマブル回路、又は専用ハードウェアとプログラマブル回路の組み合わせを使用して、開示の技術が具現化され得る。従って、計算デバイス(例えば、基地局又はネットワーク接続コンピュータサーバ)をプログラムして電子デバイスにより生成された映像コンテンツを審査し、映像コンテンツに含まれる要素を識別し、分類モデルを適用して適切な動作を判断し、適切な動作を実施するのに使用され得る命令を有する機械可読媒体が実施形態に含まれ得る。
用語
本明細書で使用される用語の目的は、実施形態を説明することのみであり、開示の範囲を限定する意図はない。文脈的に可能であれば、単数又は複数形を使用する単語は、それぞれ複数形又は単数形も含み得る。
本明細書で使用される際には、そうではないことが明記されない限り、「処理する(processing)」、「計算する(computing)」、「算出する(calculating)」、「判断する(determining)」、「表示する(displaying)」、「生成する(generating)」、その他のような語は、コンピュータのメモリ又はレジスタにおいて物理(電子)量として表現されるデータを操作するか、コンピュータのメモリ、レジスタ、又は他のこのような記憶媒体、送信、若しくは表示デバイスにおいて物理量として同じく表現される他のデータに変換するコンピュータ又は類似の電子計算デバイスの動作及び処理を指す。
本明細書で使用される際に、「接続される(connected)」、「結合される(coupled)」、その他のような語は、二以上の要素の間での直接と間接のいずれかの接続又は結合を指し得る。要素の間の結合又は接続は、物理的、論理的、又はその組み合わせであり得る。
「実施形態(an embodiment)」又は「一実施形態(one embodiment)」への言及は、記載される特定の特徴、機能、構造、又は特性が少なくとも一つの実施形態に含まれることを意味する。このような語句の出現は、必ずしも同じ実施形態を指すのではなく、互いに相互排他的である代替実施形態を必ずしも含まない。
そうではないことが文脈から明白に必要とされない限り、「包含する/具備する(comprise)」及び「包含する/具備する(comprising)」の単語は、排他的又は網羅的な意味ではなく包括的な意味で(つまり「含むが限定されない」という意味で)解釈される。
「に基づく(based on)」の語も、排他的又は網羅的ではなく包括的な意味で解釈される。故に、そうではないことが記されていない限り、「に基づく」の語は「に少なくとも部分的に基づく(based at least in part on)」を意味することが意図されている。
「モジュール(module)」の語は、ソフトウェアコンポーネント、ハードウェアコンポーネント、及び/又は、ファームウェアコンポーネントを広く指す。モジュールは一般的に、指定された入力に基づいて有益なデータ又は他の出力を生成できる機能的コンポーネントである。モジュールは内蔵型であり得る。コンピュータプログラムは一以上のモジュールを含み得る。故に、コンピュータプログラムは、多様なタスクの完了を担う多数のモジュール、又は多数のタスクの完了を担う単一のモジュールを含み得る。
多数アイテムのリストの言及に使用される時に、「又は(or)」の単語は、以下の解釈の全てを内含することが意図されている。リストのアイテムのいずれか、リストのアイテムの全て、リストのアイテムのいずれかの組み合わせ。
本明細書に記載のプロセスのいずれかで実施されるステップのシーケンスは例示的である。しかしながら、物理的な可能性に反しない限り、様々なシーケンス及び組み合わせでステップが実施され得る。例えば、ステップが本明細書に記載のプロセスに追加されるかこれから除去されてもよい。同様に、ステップは置換又は再配列され得る。故に、プロセスの説明は、非制限的なものであることが意図されている。
概要
計算システムは、一以上のデータストリーム(例えば構造化データ)を受信及び処理して、データの特性を識別し、データの特性に基づく動作を実施できる。例えば、計算システムはデータベースを取り入れて、データベースに含まれるデータベース列の様々な特性(例えば、名前、住所、電話番号)を識別できる。データベースの特性は、計算システムにより取り入れられるデータストリームの一部分として含まれ得る。
多くのケースで、計算システムは、計算リソース集約的であり得る複数のデータストリームを取り入れて処理できる。各データ部分に含まれるデータ部分の性質を識別する為に、計算システムは、データの性質を示す適切なデータ分類を識別し得る。例えば、計算デバイスは、構造化データのデータベース列を検査して、個人の名前に関係するテキストとしての第1デジタル化ドキュメント部分と、国に関係するテキストとしての第2デジタル化ドキュメント部分とを分類し得る。データ部分と関連する分類は、関連データを処理するのでなく分類を検査することによりデータの性質を識別するのに利用され、それ程計算リソース集約的ではない。
データストリーム部分に関する動作は、このデータストリーム部分の分類に基づいて行われ得る。データストリーム部分について行われ得る動作の例は、特定のメモリ位置にデータを記憶すること、外部デバイスへデータを送信すること、データを削除すること等のいずれかを含み得る。
多くのケースで、データ部分の分類は、このデータ部分が機密/センシティブデータを含むことを示し得る。例えば、分類は、個人を示し得るパーソナル識別情報(PII)をデータが含むことを示し得る。このような分類に基づいて、計算システムは、データの機密性を保護する動作(例えば特定のメモリ部分へのデータの記憶)を行い得る。
更に、様々な自治体は、特定タイプのデータの処理、普及、そして記憶に関係する特定のルールを含む法律又は規則を有し得る。例えば、法律は、個人がパーソナル識別情報(PII)へのアクセスをリクエストし得るかこのような情報の削除をリクエストし得るように個人と関連する全てのPIIが識別及び保持されることを示す規則を含み得る。この事象において、計算システムは、特定の個人についてのPIIとして分類されるデータを識別することが可能なこのような情報を含む適切な動作を行い得る。例えば、第1個人を示すPIIを含む全ての分類済みデータが第1メモリ部分に記憶され、第1個人によるリクエスト時には、データが削除されるか外部デバイスへ送信され得る。
しかしながら、多くのケースで、データ部分と関連する分類は不正確であり得る。例えば、計算システムは、「クリスチャン(Christian)」のテキストを含むデータ部分を検査して、これを「宗教(religion)」として分類し得るが、正確な分類は「名前(name)」である。このような不適切な分類は、データの不適切な記憶及び処理という結果を招き得る。更に、データの不適切な分類は、幾つかの自治体での様々な法律/規則の非順守という結果を生じ得る。例えば、PIIを表すデータが非センシティブデータとして不適切に分類された場合に、PIIを表すデータはメモリの不適切部分に記憶されるか、例えばこの自治体での法律/規則に違反する無許可エンティティによるアクセスが可能である。
システム概要
本実施形態は、多数の分類モジュールから受信した集約済み分類情報を使用してデータ部分を分類することに関係する。多数の分類モジュールは、様々な技術(例えば、辞書、正規表現(Regex)パターン整合、ニューラルネットワーク)を使用して受信データを検査し、データの分類案と各分類案の信頼レベルとを判断し得る。分類モジュールにより利用される可変技術は、各分類案に多様な信頼度を含む一以上の分類案を提供し得る。
付加的に、集約モジュール(又は「集約装置」)は、分類案及び信頼度を受信して組み合わせ、集約済み情報を検査して、分類を表すデータの最終分類を高い確度で判断できる。集約装置により判断される最終分類に基づいて、更なる動作(例えば、データの記憶、クライアントデバイスへのデータの送信、データの暗号化)が実施され得る。
図1には、様々な実施形態による、データを分類する為の生産アーキテクチャ100のブロック線図が図示されている。生産アーキテクチャ100は、様々なタイプの構造化データ(例えばデータベースに含まれるテーブルの列、名前、住所)を取り入れて、このデータ部分の分類を判断し得る。
制御装置102は、外部デバイス104から取り入れられた様々なタイプの情報を表す構造化データの一以上のストリームを取得するように構成される計算デバイス(例えば、コンピュータ、サーバ、一連の相互接続サーバ)を含み得る。例えば、外部デバイス104は、サーバのような、構造化データを取得するように構成されるデバイスを含み得る。幾つかの実施形態において、制御装置102はデータストリーム(例えば構造化データの列)をデータベース112から受信し得る。代替実施形態において、外部デバイス104は、データストリーム(例えば、センサ、イメージスキャナ)を捕捉又は受信するように構成される何らかのデバイスを含み得る。幾つかの実施形態において、一以上の外部デバイス104はゲートウェイを介して制御装置102に接続され得る。
データストリームは、様々なタイプのデータ(例えば、住所、名前)を含み得る。データストリームは、例えば、データベースに含まれるデータベース列のような多数のデータ部分を包含できる。一例として、データストリームは、デジタル化ドキュメントと関連する情報(例えば、データ、メタデータ)を含み、第1データ部分は個人の社会保障番号を含み、第2データ部分はドキュメントに含まれる契約条件を含む。
制御装置102はブローカ106と通信し得る。ブローカ106は、制御装置102と、生産アーキテクチャ100のコンポーネント(例えば、分類モジュール108、集約装置110等)との間で情報を転送するように構成される計算デバイスを含み得る。例えば、ブローカ106は、制御装置102から分類モジュール108の集合へ構造化データを転送し得る。ブローカ106は、分類モジュール108a~nから分類案を受信して、この分類案を集約装置110へ転送し得る。ブローカ106は集約装置110から最終分類を受信して、最終分類を制御装置102へ転送し得る。幾つかの実施形態において、生産アーキテクチャ100は多数のブローカ106を含み、各ブローカ106は、制御装置102と分類モジュール(例えば分類モジュール108a~n)の集合と集約装置(例えば集約装置110)との間で情報を転送する。
分類モジュール108の集合は、受信データを検査してこのデータについての分類案を判断するように構成される多数のモジュールを含み得る。分類モジュール108a~nは、様々な技術(例えば、辞書整合、Regexパターン整合)を利用して、分類案の確度における信頼度を示す特定の信頼レベルで受信データを分類案と関連させる。
分類モジュール108の集合の各々から生成される分類案及び信頼レベルは、ブローカ106を介して集約装置110へ転送され得る。集約装置110は分類案を検査及び集約して、最終分類を判断できる。最終分類は、多数の分類技術の組み合わせに基づく識別済みデータ分類を含み得る。
制御装置102は、最終分類をブローカ106から受信して、最終分類を外部デバイス104へ転送できる。外部デバイス104は、最終分類に基づいて後続動作(例えば、制御装置102又はデータベース112のいずれかのメモリの第1位置へのデータの記憶、外部デバイス104へのデータの送信、データベース112の更新)を実施するように構成され得る。
分類モジュール108、集約装置110、データベース112等のいずれかは、例えば一連の相互接続サーバのような一以上の計算デバイスで実行され得る。
図2には、様々な実施形態による分類モジュール200の集合のブロック線図が図示されている。上記のように、分類モジュール200の集合に含まれる多数の分類モジュール(例えば202,204,206)がデータを検査し、データの特性に基づいて分類案を判断し得る。
図2に示されている実施形態において、分類モジュール200の集合は、辞書モジュール202と正規表現(Regex)モジュール204と機械学習モジュール206とを含み得る。幾つかの実施形態において、各分類モジュール202,204,206は同時に、ブローカからデータを受信し得る。別の実施形態において、データは特定のシーケンスで分類モジュール202,204,206へ転送され得る。
図2に示されているように、分類モジュール200の集合の各々は分類リスト208にアクセスし得る。分類リスト208は、データについての全ての潜在的分類のリストを含み得る。分類リスト208に挙げられる潜在的分類の例は、パーソナル情報(例えば、名前、住所、社会保障番号、政治情報)、位置情報(例えば、国、都市、州)、技術情報(例えば、インターネットプロトコル(IP)アドレス、メディアアクセスコントロール(MAC)アドレス)等を含み得る。分類リスト208は図5に関してより詳細に論じられる。分類リスト208は予決定されるか、幾つかの実施形態では、データについてのより詳細な分類を提供する分類サブタイプの階層を分類リスト208が含み得る。
分類モジュール200の集合は辞書モジュール202を含み得る。辞書モジュール202は、受信データに含まれるテキストを一以上の辞書212a~bと比較し得る。辞書212a,212bは、文/段落における単語/語句のリスト又はデータベースと、単語/語句の関連定義又は一般例とを含み得る。辞書モジュール202は、データに含まれるテキストの識別済み定義と分類リスト208との比較に基づいて一以上の分類案を識別し得る。
辞書モジュール202は、受信データの特性を識別して、データに含まれるテキストを識別し得る。識別済み特性は、辞書のリストと比較され得る。例えば、「クリスチャン(Christian)」という単語の識別済み特性は、辞書212aの多数のリスト、宗教に関係する一つのリスト、そして所与の名前又は名字に関係する別のリストを整合させ得る。辞書モジュール202は、識別済み特性を整合辞書リストと比較して、特性と辞書リストとの間の各整合についての信頼レベルの判断に使用され得る類似度を識別し得る。辞書モジュール202により提供される分類案を表す分類を識別するように、整合辞書リストが分類リスト208と比較され得る。
辞書モジュール202は、推定される確度又は分類案との類似度を示す分類案の信頼レベルを含み得る。第一の例において、受信したテキストで識別されたテキストが辞書212aの一つのインスタンスのみと整合している場合に、辞書モジュール202は、これに似ている分類案を高い信頼度で生成し得る。第二の例で、多数の潜在的定義(例えば、宗教又は名前の一方に関係するものとしての「クリスチャン(Christian)」という単語)をテキストが含む場合に、辞書モジュール202は多数の整合を識別し、その結果、その単語についての分類案で低信頼レベルを生成し得る。データの第1ラインは、受信した単語とその単語の辞書定義との間の一文字編集の最小数(例えばレーベンシュタイン距離)を定義して、この単語を整合語として識別し得る。一例として、テキストが州名コードを含む場合には、この州名コードについての整合語が辞書に見られるが、名前又は名字とのスペリングの違いが存在し得る。
幾つかの実施形態において、辞書モジュール202は辞書の階層を含み得る。辞書の階層は、タクソノミー又は階層に収められる多数の辞書を含み得る。一例として、辞書の階層は、高レベル辞書212aと低レベル辞書212bとを含む。この例で、受信したテキストは最初に、高レベル辞書212aのエントリと整合される(例えば「国(Countries)」という単語とテキストを整合させる)。高レベル辞書212aの整合に基づいて、辞書モジュール202は低レベル辞書212b(例えば、欧州国固有の辞書)を検査してテキストについてのより詳細な定義を識別し得る。
分類モジュール200の集合は正規表現(Regex)モジュール204を含み得る。Regexモジュール204は、一連のRegexパターン214(つまり検索パターンを定義する文字シーケンス)を含み得る。Regexモジュール204はRegexパターン214を受信テキストと比較して、閾値類似度を超える類似度でテキストと整合するRegexパターン214を識別し得る。整合Regexパターン214は、分類案及び信頼レベルを識別するように、分類リスト208と比較され得る。
幾つかの実施形態において、正規表現の集合は単一のデータタイプとリンクし得る。Regexモジュール204は、所与のタイプと整合する所与のエントリ(このタイプとリンクした何らかのRegex)の幾つかのサンプルを提示し得る。Regexモジュール204は、閾値類似度を上回る全ての整合タイプを、信頼度を伴って提示し得る。例えば、辞書検索及びregex整合の確度を向上させるように分類モジュールが再訓練され得る。
分類モジュール200の集合は、機械学習モジュール206を含み得る。機械学習モジュール206は、受信データについての分類案を判断するようにニューラルネットワークを具備し得る。例えば、機械学習モジュール206は、受信データの分類案についての確度及び信頼レベルを高めることができる様々な情報と関連するルール集合を識別し得る。例を挙げると、特定の数字の配置が米国を指定する国名コードを含む電話番号であるかを機械学習モジュール206が識別することが、例に含まれ得る。機械学習モジュール206は、概してこの情報をルールとして導入し、データの後続部分を検査する時にこの情報を利用し得る。この例では、機械学習モジュール206に含まれるルールに基づいて、受信した第2情報集合が米国を指定する国名コードを含む電話番号であることを機械学習モジュール206が識別し得る。機械学習モジュール206は、図3に関してより詳細に記載される。
分類モジュール200は、分類案と、分類案が正確に受信テキストを反映している推定信頼度を表す信頼レベルとを生成し得る。信頼レベルは、分類案の正確さについて定量化された信頼度を表す値範囲の値を含み得る。例えば、信頼レベルは0から100の範囲の数であり、100は最高信頼度を示す。
信頼レベルは、受信テキストと分類案との間の幾つかの類似度に少なくとも部分的に基づき得る。幾つかの実施形態において、受信テキストと整合する分類が多い程潜在的に正確な分類の多数が分類案の信頼度が低いことを示すので、信頼レベルは分類モジュールが受信テキストと整合する分類の数に少なくとも部分的に基づき得る。幾つかの実施形態で、分類モジュールは、多数の分類案と、各分類案と関連する信頼レベルとを生成し得る。
分類モデルは、実施された前の分類に基づいて分類案の確実性を推定する信頼レベルを判断し得る。信頼レベル(又は百分率)は訓練データに基づき得る。幾つかの実施形態において、列データでは、データ列のあらゆるデータエンティティについての分類案を分類モジュールが生成するが、これらの分類案が組み合わされると列全体についての総分類が生成され得る。
例えば、辞書検索は、100のうち90のサンプルが受信データについての分類案を識別することを示すデータエンティティについての90%信頼レベルを生成し得る。別の例として、regex整合器は、生成されたサンプルの90%でデータがRegexパターンと整合することを示す90%信頼レベルを生成し得る。
幾つかの実施形態において、機械学習モジュール206は、他の分類モジュール(例えば、辞書モジュール202,Regexモジュール204)の信頼レベルと異なり得る分類案についての信頼レベルを生成し得る。例示として、機械学習モジュールが90%信頼レベルを生成することは、機械学習モジュールが学習した情報に基づいて、サンプリング時間の90%にわたって受信データが分類案と整合していることを示す。
機械学習モジュール206は訓練データを使用してコンテキストを利用し、分類案の判断時により多くの見識を受信テキストに提供し得る。例えば、機械学習モジュールは、訓練データを利用してルール集合及びコンテキスト情報を識別し、いずれかの分類案及び信頼レベルを修正し得る。訓練データにより、機械学習モジュールは、受信データの不適切な分類である幾つかの潜在的分類を除去できる。従って、潜在的分類の除去は分類案の信頼レベルを高め得る。
図3には、様々な実施形態による機械学習モジュール306のブロック線図が図示されている。上記のように、機械学習モジュール306は、分類技術(例えば、辞書、Regex)と共に訓練データを利用して、分類案を判断する。
機械学習モジュール306は、受信データについて生成された分類案の反復によるサンプルデータを表すデータサンプル308に基づいて分類案を生成し得る。幾つかの実施形態において、機械学習モジュール306は、前に生成されたデータ分類に基づいて訓練され得る。データサンプル308の例は、複数のEメールアドレス、一般的なファーストネーム、宗教、健康状態等について前に生成された分類を含み得る。分類案はクライアントデバイスへ送信され、データサンプルに関係するフィードバックがクライアントから受信され、フィードバックは訓練データに統合され得る。幾つかの実施形態では、各クライアント/顧客について訓練集合が生成され得る。
文字埋め込みは、データメタデータに基づく特徴を含むサンプルデータの特性の類似度を学習するのに使用され得る。機械学習モジュール306は文字埋め込み310を形成し得る。文字埋め込み310は、データサンプルから一以上の数値行列に変換され得る修正済みデータサンプルを含み得る。幾つかの実施形態において、教師なし学習アルゴリズムは、テキストの言語的文脈を再構築するように訓練される浅いニューラルネットワークを提供し得る。幾つかの実施形態において、文字埋め込みの多数の反復の実施は、数値行列でのクラスタの生成を促進し得る。クラスタは、分類のグループ分けと、類似の特性を持つデータサンプルとを表し、所与の分類と前の分類反復との間の類似度の識別にクラスタが利用され得る。クラスタを識別する数値行列のグラフィック表現の例は、図4に関して示される。
機械学習モジュール306は、ニューラルネットを含み得る。ニューラルネット312は、データサンプル308とコンテキストデータ314の両方を受信するように多数の入力を有し得る。
コンテキストデータ314は、データ分類の確度を向上させるのに利用され得る。一例として、一連のサンプルは、[‘F’,‘M’,‘M’,‘F’,‘F’,‘M’,‘M’,‘F’]として識別され得る。サンプルから、分類タイプが何であるかの結論は出せない。サンプルが「性別(gender)」に関係する可能性があるが、サンプルが例えば製品の状態フィールドに関係してもよい。フィールドの個別値が二つのみであるようにコンテキストデータが他の情報を提供してもよく、テーブルの他のフィールドは、‘customer_name’,‘customer_family_status’等を含み得る。従って、サンプルデータが「性別」についてのものである分類案の信頼レベルはコンテキストデータに基づく。逆に、コンテキストデータがフィールドに10個の個別値を含んでテーブルの他のフィールドが‘product_number’,‘product_status_change_date’等を含む場合には、分類案が「性別」ではなく、むしろプロジェクト状態に関係する分類である可能性がより高い。
ニューラルネット312は、コンピュータビジョン又は自然言語処理(NLP)プロセスのいずれかで利用され得る。ニューラルネットは、畳み込みニューラルネット(CNN)又は再帰的ニューラルネット(RNN)のいずれかを含み得る。ニューラルネットにより導入された情報に基づくサンプルデータ及び/又は文字埋め込みに関係する特性又は見識を識別するのに、ニューラルネットが利用され得る。
データサンプル及びコンテキストデータはマージ層316で合併され、全接続ニューラルネット層を含むドロップアウト層318及びデンス層320に転送され得る。ドロップアウト層318は学習プロセス中に幾つかの特徴を停止することにより過剰適合を回避し得るので、訓練集合で目立っている特徴に大き過ぎる重みを加えることはない。
全接続ニューラルネット層(例えば、ニューラルネット312、マージ316、ドロップアウト318、デンス320)は訓練データを利用し得る。訓練データは、全接続ニューラルネット層によりサンプルデータ及び文字埋め込みから識別される特性/見識を含み得る。幾つかの実施形態では、受信データについての分類案を修正するのに機械学習モジュール306により利用され得るルール集合として、訓練データが表され得る。
幾つかの実施形態において、機械学習モジュールは、コンテキストデータに含まれる列名に基づいて特徴を識別し得る。機械学習モジュールの学習を更に反復することは、クライアントからフィードバックを受信しながら学習プロセスへ特徴を追加することを含み得る。
機械学習モジュール306は、全接続ニューラルネット層を評価して出力322を生成し得る。ニューラルネットの評価は、一以上の確度メトリクスを判断して学習プロセスの訓練及び検査確度を識別することを含み得る。訓練確度メトリクスは、受信したテキストについての分類案を識別する際にデータサンプル及び文字埋め込みの補正に訓練データが利用される際の成功レベルを示し得る。出力の確度についてのフィードバックをリクエストする外部デバイスへ出力が送信され得る。受信したいかなるフィードバックも訓練データに導入され得る。
幾つかの実施形態において、機械学習モジュール306は、訓練データ及び文字埋め込みを利用して受信データに含まれる様々なコンテキストデータを識別し得る。コンテキストデータは、特定のデータストリームに関係するコンテキスト情報を表し得る。例えば、データストリームについてのコンテキストデータは、データストリームが概してデジタル化契約書に関係することを示し得る。更に、この例のコンテキストデータは、データストリームでのデータの分類にコンテキストを提供するのに利用され得る。この例について、宗教に関係する情報を契約書が含む可能性が概して低いので、「宗教(Religion)」の分類は例えば「名前」のような契約関連の分類よりも可能性が低いことを識別できる。
図4は、様々な実施形態による訓練済み分類データのクラスタについてのグラフィカル表現の図である。上記のように、文字埋め込みは、受信データ及び分類案を一以上の数値行列に変換するのに使用され得る。一例として、分類案及び関連データの多数の反復が数値行列に変換され、分類案及びデータの特性が行列において数値で表現される。テキストから、数値行列に導入され得るベクトルに、データが変換され得る。
機械学習モジュールにより形成される文字埋め込みは機械学習サブモジュールに含まれ、文字埋め込みは数値ベクトルに変換され得る。文字埋め込みは、テキストの変換とテキストと他の特性との関係の両方を含み得る。クラスタは、数値ベクトルに変換される時に文字埋め込みの関係性のグラフィック表現を表し得る。一例として、文字‘a’が数値ベクトルに変換され得る。文字‘a’が別の文字(例えば符号‘‐’)とは別の文字(例えば文字‘b’)に近いと判断するのに、クラスタ化が利用され得る。
更に、データ集合全体に関してクラスタ化が利用され得る。言い換えると、クラスタ化データを判断するように、各クラス(例えば、名前、住所、IPアドレス)に関係するデータが数値ベクトルに変換されて検査され得る。一例として、「名前」及び「性別」のクラスに関係するデータ集合が数値ベクトルに変換され得る。データクラスに関係する見識を判断するように数値ベクトルが検査され得る。この例で、パーソナル情報に関係するクラスを表す「パーソナル情報」クラスタで「名前」及び「性別」分類が互いに関係していると判断するように、数値ベクトルが検査され得る。
数値行列のグラフィック表現では、変換済み分類データの各インスタンスが点402として表され得る。グラフィック表現での点402の位置は変換済み特性(例えば分類タイプ、テキストレター、テキストワード、テキスト文字のタイプ(例えば、ギリシャ文字、英語大文字、数字))に基づき、数値行列に含まれるベクトルにおいて多様な特性が様々な値を付与される。
幾つかの実施形態において、分類案及びデータの多数の反復が数値行列に変換される時に、多数のクラスタ(例えばクラスタ404a~e)が形成され得る。クラスタは、特性における多数の類似を含む数値行列の幾つかの点402を表し得る。例えば、文字埋め込みの数値行列は、識別され得る英語小文字のクラスタ、数字のクラスタ、英語大文字のクラスタ、そしてギリシャ文字のクラスタを含み得る。機械学習モジュール又は集約装置のいずれかはデータを行列に変換して行列のクラスタを識別できる。
幾つかの実施形態において、機械学習モジュールは、分類案、受信データ、サンプルデータ、文字埋め込み、そして訓練データのいずれかを数値行列に変換し得る。数値行列は、機械学習モジュールにより生成される分類案と関連データとの多数の反復を含み得る。幾つかの実施形態において、分類案及び関連データは、数値行列に導入されるベクトルに変換され、ベクトルは数値行列のグラフィック表現の点として表され得る。機械学習モジュールは、様々な分類案及び/又は受信データの共通特徴を表すクラスタを識別し得る。
一例として、数字と、数字(例えば、政府発行識別子、電話番号)と一般的に関連する分類案とを含むデータを表す数値行列で、第1クラスタが識別され得る。この情報を使用して、機械学習モジュールは、情報を数値行列に変換する時に特定の分類案及びデータが第1クラスタに含まれるかどうかを識別できる。機械学習モジュールは、正確な分類案が一般的に数字と関連する分類である可能性が高いと識別するのに使用され得る第1クラスタに、特定の分類案とデータとが含まれると識別できる。これは、受信データについての分類案を識別する際の確度及び信頼レベルを上昇させ得る。
図5には、様々な実施形態による潜在的データ分類500のテーブルのブロック線図が図示されている。上記のように、分類500のリストは、1件のデータと関連し得る多数のタイプの分類502を含むデータベース又はリストを含み得る。分類の例は、名前、州、国、都市、性別、人種、職業、職種、日、曜日、月、年、言語、Eメール、電話番号、住所、国際銀行口座番号(IBAN)、グローバル一意識別子(GUID)/汎用一意識別子(UUID)、インターネットプロトコル(IP)アドレス、米国医薬品コード(NDC)コード、メディアアクセス制御(MAC)アドレス、社会保障番号(SSN)、健康状態、政治的所属、宗教、クレジットカード番号等のいずれかを含む。
幾つかの実施形態において、分類のリストは、各分類と関連する共通の用語又は特性を含み得る。例えば、「州(state)」の分類は、この分類及び受信テキストを比較的容易に整合する分類と関連する州(例えばカリフォルニア)を有し得る。
幾つかの実施形態で、分類は、分類の階層又はサブタイプ504を含み得る。例えば、「国(country)」の分類は、国のサブリスト(例えば、正式な国名、国名コード、欧州の国々)を指し、各サブ・サブリスト(例えば、イタリア、ドイツ)により詳細な分類が得られる。分類の階層は各分類についてのより適切なサブクラスを含むので、分類の階層は受信テキストの性質をより正確に識別できる。
幾つかの実施形態において、各分類は、法律又は規則506によりこの分類の情報が特定の手法で扱われるべきかどうかを示し得る。例えば、この情報で識別される個人の機密性を保護する為に、規則506は特定タイプのデータの処理及び保持に関係し得る。この例で、幾つかのタイプの情報(例えば、名前、Eメール、性別、宗教)がこのような規則の対象となり、情報を検索するリクエストに基づいて全ての関係データが識別及び検索され得るように、規則はこのようなデータの記憶を必要とし得る。
幾つかの実施形態において、各分類は、分類がパーソナル識別情報(PII)508を含むかどうかを示し得る。PII508は、テーブル500に「x」で表されているように、個人を示し得る情報を含み得る。PIIを含む情報の例は、名前、Eメールアドレス、IPアドレス等であり得る。
幾つかの実施形態において、各分類は、分類が欧州連合の一般データ保護規則のような規則510の対象であるかどうかを示し得る。
PIIのプライバシーを保護する為、例えば、少なくとも一つのメモリの特定部分へのデータの記憶、データの削除、適正なアクセス権を持つユーザにアクセス可能なデータの作成、データの遮蔽、或るプロセスに使用されないようなデータのタグ付け等のように、PIIを含むかGDPRの対象となる分類で分類されたデータに対して、外部デバイスにより特定の動作が実施され得る。
テーブル500に「x」で表されているように、分類タイプが規則の対象となるかどうかを示すタグ又は識別子を各分類が含み得る。タグはラベルマスタに保管され得る。ラベルマスタでは、PII又はGDPRに関係するラベル集合を示し得るラベルの階層が保管され得る。ラベルマスタは、ラベル又はデータクラスについてメタデータ管理を利用し得る。
幾つかの実施形態において、分類のリストは言語と関連付けられ得る。一例として、「州(State)」分類について、サブタイプは、「ニューヨーク(New York)」とニューヨークのフランス語訳とを含む。
データがセンシティブデータとして分類される場合に、外部デバイスは、様々なルール又は規則に従い、ワークフローを利用してセンシティブデータのテーブルを送付及び保管し得る。
集約装置概要
図6には、様々な実施形態による、集約装置により最終分類を判断する為のフローチャートが図示されている。集約装置は、分類モジュール集合の各分類モジュールから分類案及び信頼レベルを受信できる(ブロック602)。分類案及び信頼値に基づいて、集約装置は、受信データの正確な分類を表す最終分類を判断できる。
集約装置は、分類モジュール集合から受信した分類案及び信頼値を集約できる(ブロック604)。幾つかの実施形態において、分類案は分類タイプにより集約され得る。一例として、テキストの受信部分が「クリスチャン(Christian)」という単語を含む場合に、分類モジュールは多数の分類案を生成し得る。この例で、第1分類案は「宗教(Religion)」の分類を含み、第2分類案は「名前(Name)」の分類を含み得る。集約装置は、例えば、「宗教」についての全ての分類案及び「名前」についての全ての分類案とその関連の信頼レベルとの集約のように、各分類案タイプを集約し得る。
集約装置は、機械学習を利用して最終分類を生成し得る。言い換えると、集約装置は、データの最終分類の生成の前回反復から保持される情報に基づいて最終分類の確度を高め得る。
集約装置は、集約された分類案及び信頼レベルを検査して最終分類を判断できる(ブロック606)。多数の分類案を利用して最終分類を判断する集約装置は、受信データの分類の確度を高め得る。
一例として、受信されたテキスト部分が「カリフォルニア(California)」の単語を含む場合に、各分類モジュールは、「州(State)」の分類案を高い信頼レベルで識別し得る。集約装置はこれらの分類案を検査して、最終分類が「州」であると判断し得る。
一例として、集約装置は、「クリスチャン」の単語を含む受信テキスト部分についての多数の分類案を集約できる。集約された第1分類タイプは「宗教(Religion)」の分類案を40%信頼度で含み、第2分類タイプは、「名前(Name)」の分類案の多数のインスタンスを60%信頼度と50%信頼度の両方で含み得る。各分類案タイプの信頼レベルは分類タイプ毎に平均化され得る。この例で、第1タイプの「宗教」は40%の総信頼度を有し、第2タイプの「名前」は平均して55%の総信頼度を含み得る。集約装置は、各分類タイプについての最大の集約済み平均信頼レベルの判断に基づいて「名前」の最終分類を判断できる。
幾つかの実施形態において、集約装置は、データ部分についての最終分類の判断を補助するのに訓練データを利用できる。訓練データは、後続の最終分類の判断の確度を高めるのに使用され得る、最終分類判断の前回反復中に識別された情報又は見識を含み得る。幾つかの実施形態で、訓練データは、最終分類判断の前回反復と現在の最終分類判断との間の共通性を示すルール又はパターンの集合を含み得る。集約装置は、最終分類の判断時に訓練データに含まれるルール/パターンを利用できる。
例えば、訓練データは、一以上の単語に続く一連の数字を受信テキストのパターンが含む場合に、分類が住所である可能性が比較的高いことを示し得る。別の例として、所与の名前又は名字は互いに隣接していることが多いので、データストリームの先行の最終分類が「名前」である場合に、データストリームからのデータの隣接部分も「名前」として分類される可能性が高いことを訓練データが示し得る。
上記のように、データについての最終分類判断の各反復について、集約装置は、受信データの最終分類、信頼レベル、そして特性を一以上の数値行列に変換できる。数値行列は、最終データ分類反復特性についての数値表現を含み得る。変換された各最終分類は数値行列のグラフィック表現の点により表され、点の間の距離は、最終分類反復特性の間の相対的類似度を表し得る。例えば、近距離にある点は、データ部分の最終分類タイプ又は特性のいずれかにおいて多数の類似度を含み得る。集約装置は、例えば図4に示されているように、類似の特性を持つ数値行列の点クラスタを識別し得る。
幾つかの実施形態において、集約装置は、クラスタ化情報を利用して様々な分類に関係する見識を識別し得る。例えば、様々な分類(例えば「名前」、「住所」、「IPアドレス」)の多数の反復が数値ベクトルに変換され得る。この例では、数値ベクトルに基づいて高い信頼値を持つデータの最終分類を識別する際に、クラスタ化情報が利用され得る。
集約装置により判断される最終分類は、後続動作の為に出力され得る(ブロック608)。幾つかの実施形態において、最終分類はブローカへ送信されて制御装置へ転送され、ここで制御装置は、最終分類に基づいてデータに後続動作を実施する外部デバイスへ、最終分類を転送する。実施され得るこのような動作の一つは、分類に基づいて少なくとも一つのメモリの特定部分に受信データを記憶することである。例えば、データの分類が非センシティブな分類タイプであるとの識別に基づいて、メモリの第1部分に受信データが記憶され得る。
幾つかの実施形態において、受信テキストの性質がセンシティブであることを受信データの最終分類が示すとの判断に基づいて、受信データがメモリの特定部分に記憶され得る。このデータは、PIIを含むか、特定の自治体での法律/規則の範囲内にあるデータを含み得る。例えば、受信データを示す分類は、個人を示して性質がセンシティブである個人の社会保障番号を含む。このような判断に基づいて、個人に関係する全てのセンシティブデータを含むメモリの一部分に受信データが記憶され得る。従って、リクエストに基づいて、個人についてのセンシティブデータが検索されるか削除されるか個人へ送信等され得る。幾つかの実施形態で、分類及び受信テキストはデータベースと関連し、データベースを使用してデータが識別され得る。
幾つかの実施形態において、最終分類に関係するフィードバックのリクエストにより、最終分類及び受信データが外部デバイスへ送信され得る(ブロック610)。フィードバックリクエストは、分類で分類されるデータの関連部分に関する確度について検査された最終分類を行うリクエストを示し得る。制御装置は、外部デバイスからフィードバック情報を受信し得る。例えば、フィードバック情報は、最終分類がデータ部分の正確又は不正確な表現であるかどうかの指示を含み得る。受信したフィードバックに基づいて、外部デバイスは、最終分類の記憶、最終分類を修正する集約装置へのリクエスト、集約装置についての訓練データの更新等のような動作を実施し得る。
幾つかの実施形態において、最終分類を判断するのに集約装置に利用される訓練データが更新され得る(ブロック612)。最終分類の数値行列からクラスタ化情報を判断すること、又は最終分類の確度に関係するフィードバックを外部デバイスから受信することのいずれかに基づいて、訓練データが更新され得る。
例えば、「クリスチャン」という単語についての最終分類が「宗教」の分類であって、適正な分類が「名前」であることを示すフィードバックが受信された場合に、最終分類が修正され、この変更を含むように訓練データが集約装置により更新され得る。この例で、受信データのフィードバック及び適正な分類を含むように訓練データが更新され得る。更にこの例で、第1部分に類似した「クリスチャン」を含むテキストの第2インスタンスが識別された場合には、更新済み訓練データに基づいて、最終分類が「宗教」ではなく「名前」である可能性が高いと識別するのに訓練データが利用され得る。
幾つかの実施形態において、分類案は集約テーブルにより表され得る。集約テーブルは、集約装置により集約された集約済み分類案が表現されたものであり得る。集約装置は、集約テーブル例のいずれかに含まれるコンテンツに基づいて最終分類を判断し得る。
幾つかの実施形態において、集約装置は、分類案を集約して最終分類を判断するように集約の再訓練を遂行し得る。多くのケースで、分類子は、使用されるラベルの部分集合に基づいて、比較的高い、又は比較的低い実績を有し得る。集約装置は、分類が比較的高い実績を有して、各分類装置についてのラベルごとの係数のテーブルとして視覚化され得る分類についての決定を行い得るように、ラベルに使用される係数を多様化し得る。
集約テーブルに図示されている信頼度は、最終分類を判断するのに利用され得る。例えば、第1データ部分は様々な分類(例えば「名前(Name」」、「メール(Mail)」、「日付」(Date)、「国(Country)」)と関連し、各分類モジュールは、この分類の信頼レベルを提供する。各分類についての信頼レベルが組み合わされるか検査されて、潜在的分類の数を減少させるか最終分類を識別し得る。
各列は多様なクラスを表し得る。予想ベクトルがフィードバックとして提示され得る。幾つかの実施形態において、予想ベクトルは、受容された分類についての「1」と、拒否された分類についての「0」とを含み得る。分類結果ベクトルは、各分類出力から形成されるベクトルを含み得る。学習の為のこの入力データフォーマットはスパースベクトルとして提示され得る(用途に応じて、使用される分類子はカテゴリ値(1)又は真偽サブベクトル(2)として表され得る)。
集約テーブルでは、集約を再訓練する為の多数の潜在的なアプローチを識別し得る。第1アプローチは、係数を使用して多様な分類子からの結果のシンプルな畳み込みを行うことである。別のアプローチは結果データを作成する為の多様なアプローチを使用し得る。
多数のアプローチの利用は、係数を使用する各分類についてのエラーを最小化し得る。閾値が選択され、係数は混同行列に基づき得る。エラーを最小化するように長いベクトルがニューラルネットの為の入力として含まれ得る。各分類について、分類子ベクトル及び予想ベクトルを変形及び投影することにより、学習集合が生成され得る。
例えば、「名前」の分類について、第1列は識別子IDであり、第2列ML Resultは、機械学習分類モジュールから「名前」クラスについて提示された値を示す。第3列は、辞書分類モジュールから「名前」クラスについて提示された値を示す辞書結果を含み得る。第4列は、受信データが「名前」クラスとしてラベル付けされたことを示す「1」の値と、そうではない場合の「0」の値とを提示し得る「予想されたか?(WAS EXPECTED?)」を含む。
幾つかの実施形態において、集約装置は、集約と最終分類の判断とを補助するニューラルネットワークを利用し得る。ニューラルネットワークは所与の結果の畳み込みを行うのに使用され得る。入力は、分類モジュールにより受信された受信済み分類ベクトルから作成される長いベクトルを含み得る。出力は、各分類についての確率ベクトルを含み得る。集約装置は、各分類についての出力ベクトルを検査することにより最終分類を判断できる。
幾つかの実施形態において、リクエストにより受信されたデータは記憶されなくてもよい。これに基づいて、システムは外部デバイスから受信したフィードバック情報を受信して解析し得る。制御装置はデータベースからデータを受信し得る。分類子が変更された場合には結果が更新され得る。フィードバックが上書きされ、システムは識別子についての所与のフィードバック全てをチェックしてフィードバックを集約し、最後のフィードバックが前の入力を上書きできる。収集されたデータは、分類ベクトルと予想ベクトルとを含むポストプロセスで圧縮表現を作成するのに使用され得る。
評価メトリクス
評価メトリクスは、生産アーキテクチャに含まれるコンポーネントを訓練又は再訓練するのに使用され得る。訓練プロセスでは、生成された分類の品質を定量化するのに評価メトリクスが利用され得る。言い換えると、評価メトリクスは、生成された分類の総確度を識別するのに利用され得る。
評価メトリクスは、分類の確度又は実績のいずれかに基づき得る。例えば、評価メトリクスは、分類モジュールの速度(例えば、所与の時間内にどれ程多くの分類案が生成され得るか)を表し得る。
評価メトリクスは、集約装置が最終分類でどれ程の頻度で正確な分類と不正確な分類を識別するかを示す混同行列を含み得る。混同行列は、結果を四つのタイプに分割するブール値(真偽)を含み得る。真陽性(TP)―「真」クラスが適切に分類される、真陰性(TN)―「偽」クラスが適切に分類される、偽陰性(FN)―「真」クラスが「偽」として分類される、偽陽性(FP)―「偽」クラスが「真」として分類される。
確度は、真を陽性とし、偽を陰性とする適正な選択を集約装置がどれ程の頻度で行うかを示すメトリクスであり得る。混同行列に関して、確度は混同行列の関数として定義され得る。
偽陽性は偽陰性とは異なり得る。幾つかの実施形態において、システムは、或る閾値を上回る幾つかの値のみを提示することで終了し、最も適切であると考えられるもののみを提示し得る。整合クラスの提示を伴わずにシステムが終了する場合でも、システムは可能な限り低い偽陽性率を追求し得る。
精度、再現率、そしてF1スコアのいずれかを使用して、分類結果が記載され得る。精度は、集約装置が正確な(又は陽性として提示される)分類をどれ程の頻度で判断するかを示し得る。再現率は、集約装置が提示される全てのうち陽性分類をどれ程の頻度で提示するかを示し得る。幾つかのケースでは、精度が上昇して再現率が低下し得る。これは、「真」分類での失敗が少ないことの結果であり得るが、最終的には「真」分類の提示がそれ程頻繁ではなくなる。他方で、システムはより多くの結果を提示し得るが、その中には不適正な分類も多い。従って、再現率が上昇して精度が低下し得る。
F1スコアは、像を完成させて適正な分類のみの提示と適正な分類全ての提示との間の「均衡」点を選択し得る精度及び再現率の調和平均を含み得る。
幾つかの実施形態では、低い偽陽性率に注目した場合に、基本メトリクスは精度であり得る。しかしながら、システムは正確な回答を与えて決定時には再現率が少なくとも部分的に利用されるので、決定は精度のみに基づくわけではない。
幾つかの実施形態では、二つのアプローチの一方が集約装置により実施され得る。第1アプローチは、或る閾値より下まで再現率が低下することなく精度を最大化することを含み得る。第2アプローチは、精度を促進し得る重み付けメトリクスを算出することを含み得る。
幾つかの実施形態において、所与の順序で結果を分類する手法として使用され得る確率案で、多数の入力が送信され得る。確率案は、より起こり得ると予想されるのはどのモデルであるかを示す情報も付与し得る。所与の例が割り当てられるべき分類が、予想される結果と比較され得る。評価スクリプトでは、N個の上位結果が陽性であって残りが陰性であると推定され得る。唯一の例外は、全て陽性であると見なされる場合のように、Nを超える結果が同じ確率を有する場合であり得る。各モデル及び確率について、各ラベルは、それを上回るとラベルが「陽性」であると推定される閾値を定義し得る。
幾つかの実施形態において、集約装置は、結果に基づいて柔軟な決定を行い得る。全ての結果から「リーダーグループ」を分離することが可能である。リーダーグループは、互いに比較的近く、残りの結果からは比較的遠い上位結果のグループであり得る。従って、「リーダーグループ」の判断及び発見は、クラスタ化、グループについての、そしてグループ間での標準偏差の算出等を含み得る。
システムはデータフローを含み得る。データフローは、二つのクラスタ、モデルが含まれる生産クラスタ、そしてデータクラスタを含み得る。顧客デバイスは、安全な接続を通してサンプル/プロファイリングデータをMLプラットフォームへ送信し得る。MLプラットフォームゲートウェイは、データ分類モデルの制御装置へリクエストを転送し得る。リクエストについての情報は少なくとも一つのメモリに記憶され得る。制御装置はメッセージブローカへデータを送信し、ここでサブコンポーネントにより処理され得る。データベースは処理されるリクエスト/行のリストを保持し得る。結果が検索されると、顧客デバイスは結果を記録し、追跡された全てのリクエストもデータベースから除去される。
幾つかの実施形態において、フィードバックは、集約装置により提供される最終分類を顧客が受容又は拒否することを含み得る。フィードバックは、顧客と関連する外部デバイスを介してシステムへ提示され得る。サンプルデータ/プロファイリングは、顧客からの追加フィードバックと共にMLプラットフォームへ送信され得る。制御装置はフィードバックデータをデータベースへ転送し得る。システムは周期的にデータベースから少なくとも一つの記憶モジュールへデータをオフロードし、これはデータクラスタの記憶モジュールへコピーされ得る。幾つかの実施形態では、顧客毎に記憶モジュールに記憶されるフィードバックに基づいて、フィードバックデータの保持がデータクラスタで行われ得る。システムは、分類モデルの充分な追跡可能性も保持し、顧客フィードバックが取り入れられて、訓練データで使用されるように処理され得る。
図7には、様々な実施形態による、データの分類を生成する方法のブロック線図が図示されている。
分類モジュールの集合に含まれる各分類モジュールは、データストリームに含まれる第1データ部分を検査して第1データ部分の特性集合を識別し得る(ブロック702)。特性集合は、例えばデジタル化ドキュメントの第1データ部分のテキスト、オブジェクト、位置のような、第1データ部分の特徴等を含み得る。辞書整合、正規表現(Regex)パターン整合、訓練データの使用等のような一以上の技術を使用して、特性集合が判断され得る。
幾つかの実施形態において、分類集合は学習モジュールを含む。学習モジュールは、辞書と正規表現リストと訓練モジュールのうち少なくとも一つを含み得る。訓練モジュールは、分類案、信頼値、そして最終分類を検査するように構成され得る。訓練モジュールは、第1データ部分の分類案の確度と、分類案と最終分類との間の相違の数とを判断し得る。判断された確度及び相違の数が訓練データに含まれ、訓練データは、後続のデータ分類の反復に利用されて後続のデータ分類案を判断し得る。
幾つかの実施形態において、第1データ部分を検査して特性集合を識別することは、第1データ部分と閾値類似度を超える少なくとも一つのエントリとの間の類似度を含む分類モジュール集合に含まれるいずれかの分類モジュールと関連する辞書に挙げられた少なくとも一つのエントリを識別することを包含し、特性集合は、閾値類似度を超える類似度を含む辞書に挙げられた少なくとも一つのエントリを含む。
幾つかの実施形態において、第1データ部分を検査して特性集合を識別することは、閾値差より小さい第1データ部分と少なくとも一つのパターンとの幾つかの差を含む分類モジュールの集合に含まれるいずれかの分類モジュールと関連する正規表現リストに含まれる少なくとも一つのパターンを識別することを包含し、特性集合は、閾値差より小さい幾つかの差を含む正規表現リストに含まれる少なくとも一つのパターンを含む。
分類案と信頼値とを判断するように、識別された特性集合が分類リストと比較される(ブロック704)。分類案は、閾値類似度を超える第1データ部分の特性集合との類似度を含む分類リストに挙げられた分類を識別し得る。信頼値は、第1データ部分を正確に記す分類案の推定を示す値を含み得る。分類案と信頼値とは集約モジュールへ送信され得る。
集約モジュールは、分類モジュール集合の各分類モジュールにより判断される分類案及び信頼値を集約し得る(ブロック706)。
分類モジュール集合の分類モジュールの集約済み分類案及び信頼値に基づいて、集約モジュールが最終分類を生成し得る(ブロック708)。
幾つかの実施形態において、最終分類の生成は、受信した分類案に含まれる各分類タイプを識別することを含み、各分類タイプが分類リストに含まれる。集約モジュールは、各識別済み分類タイプと信頼値とを比較して各分類タイプについての総信頼度を識別し得る。集約装置は、最高の総信頼度を含む識別済み分類タイプを識別することにより最終分類を判断できる。
幾つかの実施形態において、方法は、第1データ部分と最終分類との間の確度を示す最終分類確度を判断することを含み得る。集約装置は、データの最終分類を判断する際に後続の反復で利用されるように構成される集約装置訓練データ集合に最終分類確度を追加し得る。
幾つかの実施形態において、この方法は、外部デバイスへのフィードバックの為のリクエストを送信することを含み、フィードバックのリクエストは、最終分類、第1データ部分、最終分類確度のうちいずれかを含み得る。フィードバック情報を含む外部デバイスからのレスポンスが受信され、フィードバック情報が集約装置訓練データ集合に追加される。
幾つかの実施形態において、この方法は、最終分類及び第1データ部分の定量化特性を識別する数値行列に導入される少なくとも一つのベクトルに、最終分類及び第1データ部分を変換することを含み得る。数値行列ではクラスタが識別され得る。クラスタは、共通の特性を持つ最終分類及びデータの反復を示し、クラスタに関係する情報が集約装置訓練データ集合に追加される。
集約モジュールは、第1データ部分の最終分類に基づいて最終分類を外部デバイスへ送信して後続動作を実施し得る(ブロック710)。幾つかの実施形態において、集約モジュールは最終分類をブローカへ送信し、ブローカは最終分類を制御装置へ転送し、制御装置は最終分類を外部デバイスへ転送できる。後続動作は、最終分類を含むデータと関連する少なくとも一つのメモリの第1位置への第1データ部分の記憶、外部デバイスへの第1データ部分の送信、第1データ部分の削除、そして個人を示すデータを含むデータと関連する少なくとも一つのメモリの第2位置への第1データ部分の記憶のうちいずれかを含み得る。
幾つかの実施形態では、個人を示す情報を最終分類が含むことを示す識別子を最終分類が含むかどうかを判断するように、最終分類が検査され得る。個人を示す情報は、PII、GDPR、又は自治体により課せられる法律/規則により識別される何らかの情報を含み得る。外部デバイスは、個人を示す情報を保持する第1データ部分に対する動作を表す動作部分集合を識別するように構成され得る。動作部分集合は、例えば、個人を示す他の情報を含む特定のメモリ部分に第1データ部分を記憶すること、データベースを更新して第1データ部分を識別すること、第1データ部分を削除すること、第1データ部分を外部デバイスへ送信すること等を含み得る。外部デバイスは、最終分類が識別子を含むとの判断に基づいて動作部分集合の一つを含む後続動作を実施し得る。
処理システム例
図8は、本明細書に記載の少なくとも幾つかの操作が遂行され得る処理システム800の例を図示するブロック線図である。図8に示されているように、処理システム800は、一以上の中央処理ユニット(「プロセッサ」)802、メインメモリ806、不揮発性メモリ810、ネットワークアダプタ812(例えばネットワークインタフェース)、ビデオディスプレイ818、入力/出力デバイス820、制御デバイス822(例えばキーボード及びポインティングデバイス)、記憶媒体826を含むドライブユニット824、そしてバス816に通信接続される信号生成デバイス830を含み得る。バス816は、一以上の独立した物理バス、ポイントツーポイント接続、あるいは適切なブリッジ、アダプタ、又は制御装置により接続された両者を表す抽象的なものとして図示されている。それ故、バス816は、例えば、システムバス、周辺コンポーネント相互接続(PCI)バス又はPCIエクスプレスバス、ハイパートランスポート又は業界標準アーキテクチャ(ISA)バス、小型コンピュータシステムインタフェース(SCSI)バス、ユニバーサルシリアルバス(USB)、IIC(I2C)バス、あるいは「ファイアワイヤ」とも呼ばれる電気電子学会(IEEE)規格1394バスを含み得る。
様々な実施形態において、処理システム800はユーザデバイスの一部として作動するが、処理システム800がユーザデバイスに(例えば有線又は無線で)接続されてもよい。ネットワーク接続展開において、処理システム800は、クライアントサーバネットワーク環境のサーバ又はクライアントマシンの能力で、あるいはピアツーピア(又は分散型)ネットワーク環境のピアマシンとして作動し得る。
処理システム800は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ、タブレット、ラップトップコンピュータ、パーソナルデジタルアシスタント(PDA)、携帯電話、プロセッサ、ウェブ機器、ネットワークルータ、スイッチ又はブリッジ、コンソール、ハンドヘルドコンソール、ゲーミングデバイス、音楽プレーヤ、ネットワーク接続(「スマート」)テレビ、テレビ接続デバイス、あるいは処理システム800により行われる動作を指定する(順次その他の)命令集合の実行が可能なポータブルデバイス又はマシンであり得る。
メインメモリ806、不揮発性メモリ810、そして記憶媒体826(「機械可読媒体」とも呼ばれる)は、単一の媒体として示されているが、「機械可読媒体(machine-readable medium)」及び「記憶媒体(storage medium)」の語は、一以上の命令集合828を記憶する単一の媒体又は多数の媒体(例えば、集中又は分散型データベース、及び/又は、関連のキャッシュ及びサーバ)を含むものと解釈されるべきである。「機械可読媒体」及び「記憶媒体」の語は、計算システムによる実行の為の命令集合の記憶、コード化、又は搬送が可能である、そして現在開示されている実施形態の一以上の方法論を計算システムに実施させる何らかの媒体を含むものとしても解釈されるものとする。
概して、開示の実施形態を遂行するように実行されるルーチンは、オペレーティングシステム又は特定のアプリケーション、コンポーネント、プログラム、オブジェクト、モジュール、あるいは「コンピュータプログラム」と称される命令シーケンスの一部として遂行され得る。コンピュータプログラムは一般的に、コンピュータの様々なメモリ及び記憶デバイスにおいて様々なタイミングで設定され、一以上の処理ユニット又はプロセッサ802による解釈及び実行時には処理システム800に操作を実施させて開示の様々な態様を伴う要素を実行させる一以上の命令(例えば命令804,808,828)を包含する。
また、フル機能のコンピュータ及びコンピュータシステムの文脈で実施形態が記載されているが、様々な実施形態が様々な形態のプログラム製品としての分散が可能であることと、実際に分散を行うのに使用される機械又はコンピュータ可読媒体の特定タイプに関係なく開示が等しく適用されることとを当業者は認識するだろう。例えば、本明細書に記載の技術は、仮想機械又はクラウド計算サービスを使用して遂行され得る。
機械可読記憶媒体、機械可読媒体、又はコンピュータ可読(記憶)媒体の更なる例は、揮発性および不揮発性メモリデバイス810のような記録可能タイプの媒体、フロッピー及び他のリムーバブルディスク、ハードディスクドライブ、光学ディスク(例えばコンパクトディスクリードオンリメモリ(CD ROMS)、デジタル多用途ディスク(DVD)、そしてデジタル及びアナログ通信リンクのような送信タイプ媒体を含むが、これらに限定されない。
ネットワークアダプタ812により、処理システム800は、ネットワーク814のデータと、処理システム800及び外部エンティティによりサポートされる周知及び/又は好都合な通信プロトコルを通して処理システム800の外部のエンティティとの仲介を行うことができる。ネットワークアダプタ812は、ネットワークアダプタカード、無線ネットワークインタフェースカード、ルータ、アクセスポイント、無線ルータ、スイッチ、多層スイッチ、プロトコルコンバータ、ゲートウェイ、ブリッジ、ブリッジルータ、ハブ、デジタルメディア受信器、及び/又は、中継器のうち一以上を含み得る。
ネットワークアダプタ812は、幾つかの実施形態において、コンピュータネットワークのアクセス/プロキシデータへの許可を支配及び/又は管理して、多様な機械及び/又アプリケーションの間の可変信頼レベルを追跡できるファイアウォールを含み得る。ファイアウォールは、機械とアプリケーション、機械と機械、及び/又は、アプリケーションとアプリケーションの特定集合の間で所定のアクセス権集合を実行して、例えば、これらの可変エンティティの間で共有されるトラフィック及びリソースのフローを調整できるハードウェア及び/又はソフトウェアコンポーネントの何らかの組み合わせを有する何らかの数のモジュールであり得る。ファイアウォールは付加的に、個人、機械、及び/又は、アプリケーションによるオブジェクトのアクセス及び操作権を含む許可と、許可権が有効である状況とを詳述するアクセス制御リストを管理する、及び/又は、これらへのアクセスを有し得る。
上記のように、本明細書で導入される技術は、例えば、全体としては専用の配線接続(つまり非プログラマブル)回路、又は組み合わせ、又はこのような形の組み合わせで、ソフトウェア及び/又はファームウェアでプログラムされたプログラマブル回路(例えば一以上のマイクロプロセッサ)により遂行される。専用回路は、例えば、一以上の、特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)等の形であり得る。
以上から、本発明の特定実施形態が例示目的で本明細書に記載されているが、本発明の範囲から逸脱することなく様々な修正が行われ得ることが認識されるだろう。従って、本発明は添付の請求項以外により制限されない。
100 生産アーキテクチャ
102 制御装置
104 外部デバイス
106 ブローカ
108,108a,108b,…,108n 分類モジュール
110 集約装置
112 データベース
200 分類モジュール
202 辞書モジュール
204 正規表現モジュール
206 機械学習モジュール
208 分類リスト
212a,212b,…,212n 辞書
214a,214b,…,214n 正規表現パターン
306 機械学習モジュール
308 データサンプル
310 文字埋め込み
312 ニューラルネット
314 コンテキストデータ
316 マージ層
318 ドロップアウト層
320 デンス層
322 出力
402 点
404a,404b,404c,404d,404e クラスタ
500 分類
800 処理システム
802 プロセッサ
804 命令
806 メインメモリ
808 命令
810 不揮発性メモリ
812 ネットワークアダプタ
814 ネットワーク
816 バス
818 ビデオディスプレイ
820 入力/出力デバイス
822 制御デバイス
824 ドライブユニット
826 記憶媒体
828 命令
830 信号生成デバイス

Claims (20)

  1. データを分類するシステムにより実施される方法であって、
    分類モジュール集合に含まれる各分類モジュールにより、データストリームを取得することと、
    前記データストリームに含まれる第1データ部分を検査して前記第1データ部分の特性を識別することと、
    前記分類モジュール集合の各分類モジュールにより、前記識別済み特性を分類リストと比較して分類案及び信頼値を判断することであって、前記分類リストに含まれて、第1類似度閾値を超える第1類似度を持つ前記第1データ部分の前記特性と整合する分類タイプを各分類案が識別することと、
    集約モジュールにより、前記分類案及び前記信頼値を各分類タイプで集約することと、
    前記集約モジュールにより、集約された前記分類案及び前記信頼値に基づいて最終分類を生成することと、
    前記最終分類を外部デバイスへ送信して後続動作を実施することと、
    を包含する方法。
  2. データベースに含まれるテーブルで構造化されたデータを前記データストリームが含み、前記データストリームの各部分が、前記データベースに含まれる前記テーブルの列を表す、請求項1に記載の方法。
  3. 前記分類モジュール集合が、
    前記第1データ部分の前記識別済み特性を少なくとも一つの辞書に含まれるエントリと比較するように構成される辞書モジュールと、
    前記第1データ部分の前記識別済み特性を、少なくとも一つの正規表現パターンリストに含まれる正規表現パターンと比較するように構成される正規表現モジュールと、
    前記第1データ部分の前記識別済み特性を訓練データ集合と比較するように構成される学習モジュールと、
    を含む、請求項1に記載の方法。
  4. 各データ列及び前記分類案を、各データ列及び各分類案の定量化特性を識別する少なくとも一つの数値ベクトルに変換すること、
    を更に包含する、請求項2に記載の方法。
  5. 前記学習モジュールが、
    前記第1データ部分及び前記分類リストの前記特性と前記訓練データ集合との比較に基づいて、第1分類案と第1信頼値とを生成し、
    前記第1データ部分及び前記生成済み第1分類案の前記特性に対応する少なくとも一つのルールを判断し、
    前記訓練データ集合に少なくとも一つのルールを導入する、
    ように構成される、請求項2に記載の方法。
  6. 前記最終分類の生成が更に、
    各分類タイプについての前記集約済み分類案及び前記集約済み信頼値を、前記集約モジュールにより利用されるルール集合と比較して、第1分類を判断することと、
    前記集約済み分類案と前記最終分類との間の共通特性に対応する少なくとも一つのルールを判断することと、
    前記ルール集合に少なくとも一つのルールを導入することと、
    を包含する、請求項1に記載の方法。
  7. 前記最終分類を検査して、個人を示す情報を前記最終分類が含むかどうかを判断することと、
    前記個人を示す情報を前記最終分類が含むとの判断に基づいて、前記第1データ部分にタグを付加することと、
    を更に包含する、請求項1に記載の方法。
  8. 前記分類モジュール集合と前記集約モジュールとが、ブローカを介して前記外部デバイスへ情報を転送する、請求項1に記載の方法。
  9. 前記外部デバイスにより実施される前記後続動作が、前記第1データ部分を少なくとも一つのメモリの第1位置に記憶することと、前記第1データ部分を外部デバイスへ送信することと、前記第1データ部分を削除することと、個人を示すものと識別されるデータと関連する少なくとも一つのメモリの第2位置に前記第1データ部分を記憶することとのうちいずれかを含む、請求項1に記載の方法。
  10. フィードバックリクエストを外部デバイスへ送信することであって、前記フィードバックリクエストが前記最終分類及び前記第1データ部分のいずれかを含むことと、
    フィードバック情報を含むレスポンスを前記外部デバイスから受信することであって、後続の最終分類の生成の為に前記集約モジュールにより利用される集約装置訓練データ集合に前記フィードバック情報が追加されることと、
    を更に包含する、請求項1に記載の方法。
  11. 前記最終分類及び前記第1データ部分の定量化特性を表す少なくとも一つの数値ベクトルに前記最終分類及び前記第1データ部分を変換すること、
    を更に包含する、請求項1に記載の方法。
  12. 辞書モジュールと正規表現モジュールと学習モジュールとを含む分類モジュール集合であって、各分類モジュールが、
    データベースでデータ列に構造化される第1データ集合を取得し、
    前記第1データ集合に含まれる前記データベースの第1データ列の特性を識別し、
    分類リスト及び第1信頼値から第1分類案を判断して、前記第1分類案が、前記第1列の前記識別済み特性と整合する前記分類リストの分類を識別する、
    ように構成される、分類モジュール集合と、
    集約モジュールであって、
    前記分類モジュール集合の各々により判断される前記分類案及び前記信頼値を受信し、
    前記分類案及び前記信頼値を分類タイプで集約し、
    前記集約済み分類案及び前記信頼値に基づいて最終分類を判断し、
    前記最終分類に基づいて前記第1データ集合に後続動作を実施するように構成される外部デバイスへ前記最終分類を送信する、
    ように構成される集約モジュールと、
    を具備するシステム。
  13. 前記分類モジュール集合及び前記集約モジュールに接続されるブローカであって、
    前記第1データ集合を前記分類モジュール集合の各々へ送信し、
    前記分類案を前記分類モジュール集合から前記集約モジュールへ転送し、
    前記最終分類を前記集約モジュールから受信する、
    ように構成されるブローカと、
    前記ブローカ及び前記外部デバイスに接続される制御装置であって、前記ブローカから前記外部デバイスへ前記最終分類を転送するように構成される制御装置と、
    を更に具備する、請求項12に記載のシステム。
  14. 前記辞書モジュールが、
    前記辞書モジュールに含まれる少なくとも一つの辞書に挙げられて前記第1データ列の前記特性と整合するエントリを識別し、
    前記分類リストに挙げられた各分類と前記識別済みエントリを比較して、類似度閾値を超える前記エントリとの類似度を含む第1分類を判断する、
    ように構成されて、前記辞書モジュールの前記分類案が前記第1分類を含み、
    前記正規表現モジュールが、
    前記第1データ列の前記特性と整合する前記正規表現モジュールに含まれる少なくとも一つの正規表現パターンリストに挙げられたパターンを識別し、
    前記分類リストに挙げられた各分類と前記識別済みパターンを比較して、前記類似度閾値を超える前記パターンとの類似度を含む第2分類を判断する、
    ように構成されて、前記正規表現モジュールの前記分類案が前記第2分類を含む、
    請求項12に記載のシステム。
  15. 前記学習モジュールが、
    前記第1データ列及び前記分類リストの特性と、前記学習モジュールと関連する訓練データ集合との比較に基づいて、前記分類案と前記信頼値とを生成し、
    前記第1データ列の前記特性と前記生成済み分類案とに対応する少なくとも一つのルールを判断し、
    前記訓練データ集合に少なくとも一つのルールを導入する、
    ように構成される、請求項12に記載のシステム。
  16. 前記集約モジュールが更に、
    前記最終分類を検査して、個人を示す情報を含む分類に前記最終分類が関係しているかどうかを判断し、
    前記最終分類にタグを付加する、
    ように構成されて、
    前記タグを含む前記最終分類の受信に基づいて前記第1データ集合で後続動作の部分集合のいずれかを実施するように前記外部デバイスが構成される、
    請求項12に記載のシステム。
  17. データを分類する集約モジュールにより実施される方法であって、
    第1構造化データ集合に含まれるデータ列についての分類案及び信頼値を分類モジュール集合の各々から受信することであって、各分類案が、分類リストに含まれる分類を示し、各信頼値が、前記データ列の特性に関係するものとしての前記分類案の確度を示すことと、
    前記分類リストに挙げられた各分類タイプに基づいて前記受信済み分類案及び信頼値を集約することと、
    前記集約済み分類案を比較して最終分類を識別することと、
    前記最終分類に基づいて前記データ列に後続動作を実施するように構成される外部デバイスへ前記最終分類を送信することと、
    を包含する方法。
  18. 辞書モジュールであって、
    辞書モジュールに含まれる少なくとも一つの辞書に挙げられて前記データ列の前記特性と整合するエントリを識別し、
    前記分類リストに挙げられた各分類と前記識別済みエントリを比較して、類似度閾値を超える前記エントリとの類似度を含む第1分類を判断し、前記辞書モジュールの前記分類案が前記第1分類を含む、
    ように構成される辞書モジュールと、
    正規表現モジュールであって、
    正規表現モジュールに含まれる少なくとも一つの正規表現パターンリストに挙げられて前記データ列の前記特性と整合するパターンを識別し、
    前記分類リストに挙げられた各分類と前記識別済みパターンを比較して、前記類似度閾値を超える前記パターンとの類似度を含む第2分類を判断し、正規表現モジュールの前記分類案が前記第2分類を含む、
    ように構成される正規表現モジュールと、
    学習モジュールであって、
    前記データ列及び前記分類リストの前記特性と、学習モジュールと関連する訓練データ集合との比較に基づいて、第3分類案を生成し、
    前記データ列及び前記生成済み分類案の前記特性に対応する少なくとも一つのルールを判断し、
    前記訓練データ集合に前記少なくとも一つのルールを導入する、
    ように構成される学習モジュールと、
    を前記分類モジュール集合が含む、請求項17に記載方法。
  19. フィードバックリクエストを前記外部デバイスへ送信することであって、前記フィードバックリクエストが前記最終分類と前記データ列とを含むことと、
    フィードバック情報を含むレスポンスを前記外部デバイスから受信することと、
    を更に包含する、請求項17に記載の方法。
  20. 再訓練プロセスを通して前記分類モジュール集合により利用されて他のデータ部分の後続分類案を改善するように構成される訓練データ集合のいずれかに、前記受信済みフィードバック情報を導入すること、
    を更に包含する、請求項19に記載の方法。
JP2022510100A 2019-08-15 2020-08-12 多数の分類モジュールから集約された情報を使用するデータ分類 Pending JP2022535165A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/542,016 US11138477B2 (en) 2019-08-15 2019-08-15 Classification of data using aggregated information from multiple classification modules
US16/542,016 2019-08-15
PCT/IB2020/057603 WO2021028855A1 (en) 2019-08-15 2020-08-12 Classification of data using aggregated information from multiple classification modules

Publications (1)

Publication Number Publication Date
JP2022535165A true JP2022535165A (ja) 2022-08-04

Family

ID=72178845

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022510100A Pending JP2022535165A (ja) 2019-08-15 2020-08-12 多数の分類モジュールから集約された情報を使用するデータ分類

Country Status (11)

Country Link
US (1) US11138477B2 (ja)
EP (1) EP4014133A1 (ja)
JP (1) JP2022535165A (ja)
KR (1) KR20220045035A (ja)
CN (1) CN114930318B (ja)
AU (1) AU2020327704B2 (ja)
BR (1) BR112022002855A2 (ja)
CA (1) CA3148191A1 (ja)
IL (1) IL290642B (ja)
MX (1) MX2022001970A (ja)
WO (1) WO2021028855A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7058941B2 (ja) * 2017-01-16 2022-04-25 キヤノン株式会社 辞書生成装置、辞書生成方法、及びプログラム
US11961046B2 (en) * 2018-05-22 2024-04-16 Micro Focus Llc Automatic selection of request handler using trained classification model
GB201916801D0 (en) 2019-11-19 2020-01-01 Ibm Identifying data relationships from a spreadsheet
GB201916804D0 (en) 2019-11-19 2020-01-01 Ibm Generating an OLAP model from a spreadsheet
GB201916803D0 (en) 2019-11-19 2020-01-01 Ibm Identifying content and structure of olap dimensions from a spreadsheet
GB201916800D0 (en) * 2019-11-19 2020-01-01 Ibm Detecting errors in spreadsheets
CN114064350A (zh) * 2020-08-07 2022-02-18 伊姆西Ip控股有限责任公司 数据保护方法、电子设备和计算机程序产品
US20220222484A1 (en) * 2021-01-08 2022-07-14 Salesforce.Com, Inc. Ai-enhanced data labeling
TWI817106B (zh) * 2021-04-14 2023-10-01 台達電子工業股份有限公司 查詢回饋裝置以及方法
EP4254216A1 (en) * 2022-03-31 2023-10-04 Feedzai - Consultadoria e Inovação Tecnológica, S.A. Method and system for obtaining a datasource schema comprising column-specific data-types and/or semantic-types from received tabular data records
US20230334169A1 (en) 2022-04-15 2023-10-19 Collibra Belgium Bv Systems and methods for generating synthetic data
WO2024059801A2 (en) * 2022-09-15 2024-03-21 Covid Cough, Inc. Systems and methods for machine learning-based classification of signal data signatures featuring using a multi-modal oracle
CN115801483B (zh) * 2023-02-10 2023-05-19 北京京能高安屯燃气热电有限责任公司 一种信息共享处理方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785277A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> データ分類方式
JP2010039593A (ja) * 2008-08-01 2010-02-18 Mitsubishi Electric Corp テーブル分類装置、テーブル分類方法及びテーブル分類プログラム
WO2015056436A1 (ja) * 2013-10-15 2015-04-23 国立大学法人広島大学 認識システム
WO2016200667A1 (en) * 2015-06-12 2016-12-15 Microsoft Technology Licensing, Llc Identifying relationships using information extracted from documents

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5251131A (en) * 1991-07-31 1993-10-05 Thinking Machines Corporation Classification of data records by comparison of records to a training database using probability weights
US5537488A (en) * 1993-09-16 1996-07-16 Massachusetts Institute Of Technology Pattern recognition system with statistical classification
US6324531B1 (en) * 1997-12-12 2001-11-27 Florida Department Of Citrus System and method for identifying the geographic origin of a fresh commodity
US6341369B1 (en) * 1998-12-03 2002-01-22 International Business Machines Corporation Method and data processing system for specifying and applying rules to classification-based decision points in an application system
US6697799B1 (en) * 1999-09-10 2004-02-24 Requisite Technology, Inc. Automated classification of items using cascade searches
US6751600B1 (en) * 2000-05-30 2004-06-15 Commerce One Operations, Inc. Method for automatic categorization of items
AU2001277932A1 (en) * 2000-07-21 2002-02-05 Ohio University System and method for identifying an object
US7043492B1 (en) * 2001-07-05 2006-05-09 Requisite Technology, Inc. Automated classification of items using classification mappings
US7715591B2 (en) * 2002-04-24 2010-05-11 Hrl Laboratories, Llc High-performance sensor fusion architecture
US7454331B2 (en) * 2002-08-30 2008-11-18 Dolby Laboratories Licensing Corporation Controlling loudness of speech in signals that contain speech and other types of audio material
US7912246B1 (en) * 2002-10-28 2011-03-22 Videomining Corporation Method and system for determining the age category of people based on facial images
US7711174B2 (en) * 2004-05-13 2010-05-04 The Charles Stark Draper Laboratory, Inc. Methods and systems for imaging cells
US7627154B2 (en) * 2004-11-23 2009-12-01 Carestream Health, Inc. Automated radiograph classification using anatomy information
US7648460B2 (en) * 2005-08-31 2010-01-19 Siemens Medical Solutions Usa, Inc. Medical diagnostic imaging optimization based on anatomy recognition
US10089287B2 (en) * 2005-10-06 2018-10-02 TeraDact Solutions, Inc. Redaction with classification and archiving for format independence
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
IL188726A (en) * 2008-01-10 2013-05-30 Deutsche Telekom Ag A stacking scheme for tasks was classified
US8160975B2 (en) * 2008-01-25 2012-04-17 Mcafee, Inc. Granular support vector machine with random granularity
US8131118B1 (en) * 2008-01-31 2012-03-06 Google Inc. Inferring locations from an image
KR101607224B1 (ko) * 2008-03-03 2016-03-29 아비길론 페이턴트 홀딩 2 코포레이션 동적 물체 분류 방법 및 장치
US8611677B2 (en) * 2008-11-19 2013-12-17 Intellectual Ventures Fund 83 Llc Method for event-based semantic classification
US20110099199A1 (en) * 2009-10-27 2011-04-28 Thijs Stalenhoef Method and System of Detecting Events in Image Collections
US9317613B2 (en) * 2010-04-21 2016-04-19 Yahoo! Inc. Large scale entity-specific resource classification
US8315453B2 (en) * 2010-07-27 2012-11-20 Applied Materials Israel, Ltd. Defect classification with optimized purity
US20120106854A1 (en) * 2010-10-28 2012-05-03 Feng Tang Event classification of images from fusion of classifier classifications
US8468111B1 (en) * 2010-11-30 2013-06-18 Raytheon Company Determining confidence of object identification
US9147129B2 (en) * 2011-11-18 2015-09-29 Honeywell International Inc. Score fusion and training data recycling for video classification
US8990327B2 (en) * 2012-06-04 2015-03-24 International Business Machines Corporation Location estimation of social network users
US9158970B2 (en) * 2012-11-16 2015-10-13 Canon Kabushiki Kaisha Devices, systems, and methods for visual-attribute refinement
WO2014075174A1 (en) * 2012-11-19 2014-05-22 Imds America Inc. Method and system for the spotting of arbitrary words in handwritten documents
US9098552B2 (en) * 2013-02-05 2015-08-04 Google Inc. Scoring images related to entities
US9268399B2 (en) * 2013-03-01 2016-02-23 Qualcomm Incorporated Adaptive sensor sampling for power efficient context aware inferences
US9760803B2 (en) * 2013-05-15 2017-09-12 Google Inc. Associating classifications with images
US9317785B1 (en) * 2014-04-21 2016-04-19 Video Mining Corporation Method and system for determining ethnicity category of facial images based on multi-level primary and auxiliary classifiers
US20160189055A1 (en) * 2014-12-31 2016-06-30 Applied Materials Israel Ltd. Tuning of parameters for automatic classification
US9530082B2 (en) * 2015-04-24 2016-12-27 Facebook, Inc. Objectionable content detector
US9603123B1 (en) * 2015-06-04 2017-03-21 Apple Inc. Sending smart alerts on a device at opportune moments using sensors
US10528889B2 (en) * 2016-03-25 2020-01-07 Futurewei Technologies, Inc. Stereoscopic learning for classification
US10585121B2 (en) * 2016-09-12 2020-03-10 Tektronix, Inc. Recommending measurements based on detected waveform type
US10313348B2 (en) * 2016-09-19 2019-06-04 Fortinet, Inc. Document classification by a hybrid classifier
US11017272B2 (en) * 2017-11-30 2021-05-25 Facebook, Inc. Random and active learning for classifier training
CN108764292B (zh) * 2018-04-27 2022-03-18 北京大学 基于弱监督信息的深度学习图像目标映射及定位方法
EP3815040A4 (en) * 2018-05-21 2022-03-02 Corista LLC MULTIPLE SAMPLE BULK SLIDE IMAGE PROCESSING USING MULTIPLE RESOLUTION REGISTRATION

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785277A (ja) * 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> データ分類方式
JP2010039593A (ja) * 2008-08-01 2010-02-18 Mitsubishi Electric Corp テーブル分類装置、テーブル分類方法及びテーブル分類プログラム
WO2015056436A1 (ja) * 2013-10-15 2015-04-23 国立大学法人広島大学 認識システム
WO2016200667A1 (en) * 2015-06-12 2016-12-15 Microsoft Technology Licensing, Llc Identifying relationships using information extracted from documents

Also Published As

Publication number Publication date
US20210049421A1 (en) 2021-02-18
MX2022001970A (es) 2022-06-09
EP4014133A1 (en) 2022-06-22
AU2020327704A1 (en) 2022-04-07
WO2021028855A1 (en) 2021-02-18
BR112022002855A2 (pt) 2022-08-09
IL290642B (en) 2022-09-01
IL290642A (en) 2022-04-01
AU2020327704B2 (en) 2022-11-10
US11138477B2 (en) 2021-10-05
CA3148191A1 (en) 2021-02-18
CN114930318B (zh) 2023-09-01
KR20220045035A (ko) 2022-04-12
CN114930318A (zh) 2022-08-19

Similar Documents

Publication Publication Date Title
JP2022535165A (ja) 多数の分類モジュールから集約された情報を使用するデータ分類
US20230073695A1 (en) Systems and methods for synthetic database query generation
US20230013306A1 (en) Sensitive Data Classification
JP5364578B2 (ja) トランスダクティブデータ分類のための方法およびシステム、ならびに機械学習手法を用いたデータ分類方法
US10637826B1 (en) Policy compliance verification using semantic distance and nearest neighbor search of labeled content
US20200286112A1 (en) Hashing-based effective user modeling
CN107844533A (zh) 一种智能问答系统及分析方法
WO2023108980A1 (zh) 基于文本对抗样例的信息推送方法及装置
US11620558B1 (en) Iterative machine learning based techniques for value-based defect analysis in large data sets
CN111783126B (zh) 一种隐私数据识别方法、装置、设备和可读介质
CN115698977A (zh) 上下文驱动的数据剖析
WO2023024408A1 (zh) 用户特征向量确定方法、相关设备及介质
CN112035449A (zh) 数据处理方法及装置、计算机设备、存储介质
Giri et al. Performance analysis of annotation detection techniques for cyber-bullying messages using word-embedded deep neural networks
CA3164857A1 (en) Supervised machine learning method for matching unsupervised data
CN113688206A (zh) 基于文本识别的趋势分析方法、装置、设备及介质
Khan et al. Towards Fairness in Multimodal Scene Graph Generation: Mitigating Biases in Datasets, Knowledge Sources and Models.
Zhang et al. A hybrid approach for network rumor detection based on attention mechanism and bidirectional GRU model in big data environment
Li et al. Ptr4BERT: Automatic Semisupervised Chinese Government Message Text Classification Method Based on Transformer‐Based Pointer Generator Network
CN118093881B (zh) 一种基于知识图谱的审计对象画像建模方法和系统
Assegaff et al. Experimental of vectorizer and classifier for scrapped social media data
US20220342922A1 (en) A text classification method
Sureshkumar et al. AN EFFICIENT PRIVACY MANAGEMENT SYSTEM INONLINE SOCIAL NETWORKS
Sureshkumar et al. An Efficient Privacy Management System in Online Social Networks
Kilic et al. Unveiling the impact of machine learning algorithms on the quality of online geocoding services: a case study using COVID-19 data

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220412

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230105

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230314

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20230707