JP2022535165A

JP2022535165A - 多数の分類モジュールから集約された情報を使用するデータ分類

Info

Publication number: JP2022535165A
Application number: JP2022510100A
Authority: JP
Inventors: タンデッキ，ミカエル; マース，ミカエル; ペップ，グレーテルデ; フィリピーアック，アンナ
Original assignee: Collibra NV
Current assignee: Collibra NV
Priority date: 2019-08-15
Filing date: 2020-08-12
Publication date: 2022-08-04
Also published as: US20210049421A1; MX2022001970A; EP4014133A1; AU2020327704A1; WO2021028855A1; BR112022002855A2; IL290642B; IL290642A; AU2020327704B2; US11138477B2; CA3148191A1; CN114930318B; KR20220045035A; CN114930318A

Abstract

本開示は、データを分類する方法及びシステムに関係する。分類モジュール集合が受信したデータを検査し、この受信データについての信頼値の分類案を識別し得る。集約モジュールは、分類案と信頼値とを受信して集約し得る。集約された分類案及び信頼値に基づいて、集約モジュールは受信データの最終分類を生成し得る。外部デバイスは、データと関連する最終分類に基づいて受信データに関する動作を実施し得る。実施される動作は、データリクエストの受信時にデータが検索されるようにデータを保持することを含み得る。分類モジュール及び集約モジュールのいずれかは、後続のデータ分類反復で利用されて分類確度を高め得る訓練データに基づき得る。【選択図】図２

Description

（関連出願の相互参照）
本出願は、２０１９年８月１５日に出願された米国特許出願第１６／５４２，０１６号の優先権を主張し、同出願は参照によりその全体が本明細書に援用される。

本開示は、データ分類に、特に、多数の分類モジュールから生成された集約済み分類情報を使用してデータを分類することに関する。

計算システムは、様々なタイプのデータを受信及び処理できる。例えば、計算デバイスは、デジタルドキュメントの様々な特性を表すデータストリームを処理できる。計算システムはデータストリームを処理して、データストリームに含まれる特性（名前、住所、ビジネス関連情報、パーソナル情報）を識別し得る。

多くのケースで、計算システムは、データストリームに含まれるデータ部分を分類してデータの性質を識別し得る。一例として、データストリームの第１部分は個人の名前として分類され、データストリームの第２部分は個人のパーソナル識別子（例えば、政府発行の識別番号）として分類され得る。

計算システムは、データ部分の分類に基づいて動作（例えば、データ部分の記憶、データ部分の削除、外部デバイスへのデータ部分の送信）を行い得る。ケースによっては、幾つかの分類はパーソナル又はセンシティブデータを表す。データ部分の分類がパーソナル／センシティブデータを含むとの判断時に、データ部分に関して行われる動作は、パーソナル／センシティブなデータの性質に基づき得る。例えば、センシティブデータとして分類されるデータは、メモリの特定部分に記憶されるか、センシティブなデータの性質を保護するように削除され得る。

本発明は、上記従来の技術における課題を解決するためになされたものである。

本発明は、データを分類するシステムにより実施される方法であって、分類モジュール集合に含まれる各分類モジュールにより、データストリームを取得することと、前記データストリームに含まれる第１データ部分を検査して前記第１データ部分の特性を識別することと、前記分類モジュール集合の各分類モジュールにより、前記識別済み特性を分類リストと比較して分類案及び信頼値を判断することであって、前記分類リストに含まれて、第１類似度閾値を超える第１類似度を持つ前記第１データ部分の前記特性と整合する分類タイプを各分類案が識別することと、集約モジュールにより、前記分類案及び前記信頼値を各分類タイプで集約することと、前記集約モジュールにより、集約された前記分類案及び前記信頼値に基づいて最終分類を生成することと、前記最終分類を外部デバイスへ送信して後続動作を実施することと、を包含する方法を含む。

「発明を実施するための形態」を図面と併せて検討することで、当該技術の様々な特徴及び特性が当業者には明白になるだろう。当該技術の実施形態は、限定ではなく例として図面に図示され、同様の参照符号が類似要素を指し得る。
様々な実施形態によるデータ分類の為の生産アーキテクチャのブロック線図を示す。様々な実施形態による分類モジュール集合のブロック線図を示す。様々な実施形態による機械学習モジュールのブロック線図を示す。様々な実施形態による訓練済み分類データのクラスタのグラフィカル表現の図である。様々な実施形態による潜在的データ分類テーブルのブロック線図を示す。様々な実施形態により集約装置で最終分類を判断する為のフローチャートを示す。様々な実施形態によるデータ分類生成方法のブロック線図を示す。本明細書に記載される少なくとも幾つかの操作が遂行され得る処理システムの一例が図示されたブロック線図である。

図面には、例示のみを目的として様々な実施形態が描かれている。当該技術の原理から逸脱することなく代替実施形態が採用され得ることを当業者は認識するだろう。従って、図面には特定の実施形態が示されているが、様々な修正が当該技術に適用可能である。
下に提示される実施形態は、当業者が実施形態を実践すると共に実施形態を実践する最良の態様を示すのに必要な情報を表す。添付図と照らし合わせて以下の記載を読むと、当業者は開示の概念を理解し、本明細書で特に記されていないこれらの概念の適用例を認識するだろう。これらの概念および適用例は本開示及び添付請求項の範囲に内含される。

特定のコンピュータプログラム、システム構成、ネットワーク等を参照して実施形態が記載され得る。しかしながら、これらの特徴が他のコンピュータプログラムタイプ、システム構成、ネットワークタイプ等に等しく適用可能であることを当業者は認識するだろう。例えば、「ＷｉＦｉネットワーク(Wi-Fi network)」の語はネットワークを記載するのに使用され得るが、別のタイプのネットワークで関連の実施形態が展開されてもよい。

また、専用ハードウェア（例えば回路）、ソフトウェア及び／又はファームウェアで適切にプログラムされたプログラマブル回路、又は専用ハードウェアとプログラマブル回路の組み合わせを使用して、開示の技術が具現化され得る。従って、計算デバイス（例えば、基地局又はネットワーク接続コンピュータサーバ）をプログラムして電子デバイスにより生成された映像コンテンツを審査し、映像コンテンツに含まれる要素を識別し、分類モデルを適用して適切な動作を判断し、適切な動作を実施するのに使用され得る命令を有する機械可読媒体が実施形態に含まれ得る。

用語
本明細書で使用される用語の目的は、実施形態を説明することのみであり、開示の範囲を限定する意図はない。文脈的に可能であれば、単数又は複数形を使用する単語は、それぞれ複数形又は単数形も含み得る。

本明細書で使用される際には、そうではないことが明記されない限り、「処理する(processing)」、「計算する(computing)」、「算出する(calculating)」、「判断する(determining)」、「表示する(displaying)」、「生成する(generating)」、その他のような語は、コンピュータのメモリ又はレジスタにおいて物理（電子）量として表現されるデータを操作するか、コンピュータのメモリ、レジスタ、又は他のこのような記憶媒体、送信、若しくは表示デバイスにおいて物理量として同じく表現される他のデータに変換するコンピュータ又は類似の電子計算デバイスの動作及び処理を指す。

本明細書で使用される際に、「接続される(connected)」、「結合される(coupled)」、その他のような語は、二以上の要素の間での直接と間接のいずれかの接続又は結合を指し得る。要素の間の結合又は接続は、物理的、論理的、又はその組み合わせであり得る。

「実施形態(an embodiment)」又は「一実施形態(one embodiment)」への言及は、記載される特定の特徴、機能、構造、又は特性が少なくとも一つの実施形態に含まれることを意味する。このような語句の出現は、必ずしも同じ実施形態を指すのではなく、互いに相互排他的である代替実施形態を必ずしも含まない。

そうではないことが文脈から明白に必要とされない限り、「包含する／具備する(comprise)」及び「包含する／具備する(comprising)」の単語は、排他的又は網羅的な意味ではなく包括的な意味で（つまり「含むが限定されない」という意味で）解釈される。

「に基づく(based on)」の語も、排他的又は網羅的ではなく包括的な意味で解釈される。故に、そうではないことが記されていない限り、「に基づく」の語は「に少なくとも部分的に基づく(based at least in part on)」を意味することが意図されている。

「モジュール(module)」の語は、ソフトウェアコンポーネント、ハードウェアコンポーネント、及び／又は、ファームウェアコンポーネントを広く指す。モジュールは一般的に、指定された入力に基づいて有益なデータ又は他の出力を生成できる機能的コンポーネントである。モジュールは内蔵型であり得る。コンピュータプログラムは一以上のモジュールを含み得る。故に、コンピュータプログラムは、多様なタスクの完了を担う多数のモジュール、又は多数のタスクの完了を担う単一のモジュールを含み得る。

多数アイテムのリストの言及に使用される時に、「又は(or)」の単語は、以下の解釈の全てを内含することが意図されている。リストのアイテムのいずれか、リストのアイテムの全て、リストのアイテムのいずれかの組み合わせ。

本明細書に記載のプロセスのいずれかで実施されるステップのシーケンスは例示的である。しかしながら、物理的な可能性に反しない限り、様々なシーケンス及び組み合わせでステップが実施され得る。例えば、ステップが本明細書に記載のプロセスに追加されるかこれから除去されてもよい。同様に、ステップは置換又は再配列され得る。故に、プロセスの説明は、非制限的なものであることが意図されている。

概要
計算システムは、一以上のデータストリーム（例えば構造化データ）を受信及び処理して、データの特性を識別し、データの特性に基づく動作を実施できる。例えば、計算システムはデータベースを取り入れて、データベースに含まれるデータベース列の様々な特性（例えば、名前、住所、電話番号）を識別できる。データベースの特性は、計算システムにより取り入れられるデータストリームの一部分として含まれ得る。

多くのケースで、計算システムは、計算リソース集約的であり得る複数のデータストリームを取り入れて処理できる。各データ部分に含まれるデータ部分の性質を識別する為に、計算システムは、データの性質を示す適切なデータ分類を識別し得る。例えば、計算デバイスは、構造化データのデータベース列を検査して、個人の名前に関係するテキストとしての第１デジタル化ドキュメント部分と、国に関係するテキストとしての第２デジタル化ドキュメント部分とを分類し得る。データ部分と関連する分類は、関連データを処理するのでなく分類を検査することによりデータの性質を識別するのに利用され、それ程計算リソース集約的ではない。

データストリーム部分に関する動作は、このデータストリーム部分の分類に基づいて行われ得る。データストリーム部分について行われ得る動作の例は、特定のメモリ位置にデータを記憶すること、外部デバイスへデータを送信すること、データを削除すること等のいずれかを含み得る。

多くのケースで、データ部分の分類は、このデータ部分が機密／センシティブデータを含むことを示し得る。例えば、分類は、個人を示し得るパーソナル識別情報（ＰＩＩ）をデータが含むことを示し得る。このような分類に基づいて、計算システムは、データの機密性を保護する動作（例えば特定のメモリ部分へのデータの記憶）を行い得る。

更に、様々な自治体は、特定タイプのデータの処理、普及、そして記憶に関係する特定のルールを含む法律又は規則を有し得る。例えば、法律は、個人がパーソナル識別情報（ＰＩＩ）へのアクセスをリクエストし得るかこのような情報の削除をリクエストし得るように個人と関連する全てのＰＩＩが識別及び保持されることを示す規則を含み得る。この事象において、計算システムは、特定の個人についてのＰＩＩとして分類されるデータを識別することが可能なこのような情報を含む適切な動作を行い得る。例えば、第１個人を示すＰＩＩを含む全ての分類済みデータが第１メモリ部分に記憶され、第１個人によるリクエスト時には、データが削除されるか外部デバイスへ送信され得る。

しかしながら、多くのケースで、データ部分と関連する分類は不正確であり得る。例えば、計算システムは、「クリスチャン(Christian)」のテキストを含むデータ部分を検査して、これを「宗教(religion)」として分類し得るが、正確な分類は「名前(name)」である。このような不適切な分類は、データの不適切な記憶及び処理という結果を招き得る。更に、データの不適切な分類は、幾つかの自治体での様々な法律／規則の非順守という結果を生じ得る。例えば、ＰＩＩを表すデータが非センシティブデータとして不適切に分類された場合に、ＰＩＩを表すデータはメモリの不適切部分に記憶されるか、例えばこの自治体での法律／規則に違反する無許可エンティティによるアクセスが可能である。

システム概要
本実施形態は、多数の分類モジュールから受信した集約済み分類情報を使用してデータ部分を分類することに関係する。多数の分類モジュールは、様々な技術（例えば、辞書、正規表現（Ｒｅｇｅｘ）パターン整合、ニューラルネットワーク）を使用して受信データを検査し、データの分類案と各分類案の信頼レベルとを判断し得る。分類モジュールにより利用される可変技術は、各分類案に多様な信頼度を含む一以上の分類案を提供し得る。

付加的に、集約モジュール（又は「集約装置」）は、分類案及び信頼度を受信して組み合わせ、集約済み情報を検査して、分類を表すデータの最終分類を高い確度で判断できる。集約装置により判断される最終分類に基づいて、更なる動作（例えば、データの記憶、クライアントデバイスへのデータの送信、データの暗号化）が実施され得る。

図１には、様々な実施形態による、データを分類する為の生産アーキテクチャ１００のブロック線図が図示されている。生産アーキテクチャ１００は、様々なタイプの構造化データ（例えばデータベースに含まれるテーブルの列、名前、住所）を取り入れて、このデータ部分の分類を判断し得る。

制御装置１０２は、外部デバイス１０４から取り入れられた様々なタイプの情報を表す構造化データの一以上のストリームを取得するように構成される計算デバイス（例えば、コンピュータ、サーバ、一連の相互接続サーバ）を含み得る。例えば、外部デバイス１０４は、サーバのような、構造化データを取得するように構成されるデバイスを含み得る。幾つかの実施形態において、制御装置１０２はデータストリーム（例えば構造化データの列）をデータベース１１２から受信し得る。代替実施形態において、外部デバイス１０４は、データストリーム（例えば、センサ、イメージスキャナ）を捕捉又は受信するように構成される何らかのデバイスを含み得る。幾つかの実施形態において、一以上の外部デバイス１０４はゲートウェイを介して制御装置１０２に接続され得る。

データストリームは、様々なタイプのデータ（例えば、住所、名前）を含み得る。データストリームは、例えば、データベースに含まれるデータベース列のような多数のデータ部分を包含できる。一例として、データストリームは、デジタル化ドキュメントと関連する情報（例えば、データ、メタデータ）を含み、第１データ部分は個人の社会保障番号を含み、第２データ部分はドキュメントに含まれる契約条件を含む。

制御装置１０２はブローカ１０６と通信し得る。ブローカ１０６は、制御装置１０２と、生産アーキテクチャ１００のコンポーネント（例えば、分類モジュール１０８、集約装置１１０等）との間で情報を転送するように構成される計算デバイスを含み得る。例えば、ブローカ１０６は、制御装置１０２から分類モジュール１０８の集合へ構造化データを転送し得る。ブローカ１０６は、分類モジュール１０８ａ～ｎから分類案を受信して、この分類案を集約装置１１０へ転送し得る。ブローカ１０６は集約装置１１０から最終分類を受信して、最終分類を制御装置１０２へ転送し得る。幾つかの実施形態において、生産アーキテクチャ１００は多数のブローカ１０６を含み、各ブローカ１０６は、制御装置１０２と分類モジュール（例えば分類モジュール１０８ａ～ｎ）の集合と集約装置（例えば集約装置１１０）との間で情報を転送する。

分類モジュール１０８の集合は、受信データを検査してこのデータについての分類案を判断するように構成される多数のモジュールを含み得る。分類モジュール１０８ａ～ｎは、様々な技術（例えば、辞書整合、Ｒｅｇｅｘパターン整合）を利用して、分類案の確度における信頼度を示す特定の信頼レベルで受信データを分類案と関連させる。

分類モジュール１０８の集合の各々から生成される分類案及び信頼レベルは、ブローカ１０６を介して集約装置１１０へ転送され得る。集約装置１１０は分類案を検査及び集約して、最終分類を判断できる。最終分類は、多数の分類技術の組み合わせに基づく識別済みデータ分類を含み得る。

制御装置１０２は、最終分類をブローカ１０６から受信して、最終分類を外部デバイス１０４へ転送できる。外部デバイス１０４は、最終分類に基づいて後続動作（例えば、制御装置１０２又はデータベース１１２のいずれかのメモリの第１位置へのデータの記憶、外部デバイス１０４へのデータの送信、データベース１１２の更新）を実施するように構成され得る。

分類モジュール１０８、集約装置１１０、データベース１１２等のいずれかは、例えば一連の相互接続サーバのような一以上の計算デバイスで実行され得る。

図２には、様々な実施形態による分類モジュール２００の集合のブロック線図が図示されている。上記のように、分類モジュール２００の集合に含まれる多数の分類モジュール（例えば２０２，２０４，２０６）がデータを検査し、データの特性に基づいて分類案を判断し得る。

図２に示されている実施形態において、分類モジュール２００の集合は、辞書モジュール２０２と正規表現（Ｒｅｇｅｘ）モジュール２０４と機械学習モジュール２０６とを含み得る。幾つかの実施形態において、各分類モジュール２０２，２０４，２０６は同時に、ブローカからデータを受信し得る。別の実施形態において、データは特定のシーケンスで分類モジュール２０２，２０４，２０６へ転送され得る。

図２に示されているように、分類モジュール２００の集合の各々は分類リスト２０８にアクセスし得る。分類リスト２０８は、データについての全ての潜在的分類のリストを含み得る。分類リスト２０８に挙げられる潜在的分類の例は、パーソナル情報（例えば、名前、住所、社会保障番号、政治情報）、位置情報（例えば、国、都市、州）、技術情報（例えば、インターネットプロトコル（ＩＰ）アドレス、メディアアクセスコントロール（ＭＡＣ）アドレス）等を含み得る。分類リスト２０８は図５に関してより詳細に論じられる。分類リスト２０８は予決定されるか、幾つかの実施形態では、データについてのより詳細な分類を提供する分類サブタイプの階層を分類リスト２０８が含み得る。

分類モジュール２００の集合は辞書モジュール２０２を含み得る。辞書モジュール２０２は、受信データに含まれるテキストを一以上の辞書２１２ａ～ｂと比較し得る。辞書２１２ａ，２１２ｂは、文／段落における単語／語句のリスト又はデータベースと、単語／語句の関連定義又は一般例とを含み得る。辞書モジュール２０２は、データに含まれるテキストの識別済み定義と分類リスト２０８との比較に基づいて一以上の分類案を識別し得る。

辞書モジュール２０２は、受信データの特性を識別して、データに含まれるテキストを識別し得る。識別済み特性は、辞書のリストと比較され得る。例えば、「クリスチャン(Christian)」という単語の識別済み特性は、辞書２１２ａの多数のリスト、宗教に関係する一つのリスト、そして所与の名前又は名字に関係する別のリストを整合させ得る。辞書モジュール２０２は、識別済み特性を整合辞書リストと比較して、特性と辞書リストとの間の各整合についての信頼レベルの判断に使用され得る類似度を識別し得る。辞書モジュール２０２により提供される分類案を表す分類を識別するように、整合辞書リストが分類リスト２０８と比較され得る。

辞書モジュール２０２は、推定される確度又は分類案との類似度を示す分類案の信頼レベルを含み得る。第一の例において、受信したテキストで識別されたテキストが辞書２１２ａの一つのインスタンスのみと整合している場合に、辞書モジュール２０２は、これに似ている分類案を高い信頼度で生成し得る。第二の例で、多数の潜在的定義（例えば、宗教又は名前の一方に関係するものとしての「クリスチャン(Christian)」という単語）をテキストが含む場合に、辞書モジュール２０２は多数の整合を識別し、その結果、その単語についての分類案で低信頼レベルを生成し得る。データの第１ラインは、受信した単語とその単語の辞書定義との間の一文字編集の最小数（例えばレーベンシュタイン距離）を定義して、この単語を整合語として識別し得る。一例として、テキストが州名コードを含む場合には、この州名コードについての整合語が辞書に見られるが、名前又は名字とのスペリングの違いが存在し得る。

幾つかの実施形態において、辞書モジュール２０２は辞書の階層を含み得る。辞書の階層は、タクソノミー又は階層に収められる多数の辞書を含み得る。一例として、辞書の階層は、高レベル辞書２１２ａと低レベル辞書２１２ｂとを含む。この例で、受信したテキストは最初に、高レベル辞書２１２ａのエントリと整合される（例えば「国(Countries)」という単語とテキストを整合させる）。高レベル辞書２１２ａの整合に基づいて、辞書モジュール２０２は低レベル辞書２１２ｂ（例えば、欧州国固有の辞書）を検査してテキストについてのより詳細な定義を識別し得る。

分類モジュール２００の集合は正規表現（Ｒｅｇｅｘ）モジュール２０４を含み得る。Ｒｅｇｅｘモジュール２０４は、一連のＲｅｇｅｘパターン２１４（つまり検索パターンを定義する文字シーケンス）を含み得る。Ｒｅｇｅｘモジュール２０４はＲｅｇｅｘパターン２１４を受信テキストと比較して、閾値類似度を超える類似度でテキストと整合するＲｅｇｅｘパターン２１４を識別し得る。整合Ｒｅｇｅｘパターン２１４は、分類案及び信頼レベルを識別するように、分類リスト２０８と比較され得る。

幾つかの実施形態において、正規表現の集合は単一のデータタイプとリンクし得る。Ｒｅｇｅｘモジュール２０４は、所与のタイプと整合する所与のエントリ（このタイプとリンクした何らかのＲｅｇｅｘ）の幾つかのサンプルを提示し得る。Ｒｅｇｅｘモジュール２０４は、閾値類似度を上回る全ての整合タイプを、信頼度を伴って提示し得る。例えば、辞書検索及びｒｅｇｅｘ整合の確度を向上させるように分類モジュールが再訓練され得る。

分類モジュール２００の集合は、機械学習モジュール２０６を含み得る。機械学習モジュール２０６は、受信データについての分類案を判断するようにニューラルネットワークを具備し得る。例えば、機械学習モジュール２０６は、受信データの分類案についての確度及び信頼レベルを高めることができる様々な情報と関連するルール集合を識別し得る。例を挙げると、特定の数字の配置が米国を指定する国名コードを含む電話番号であるかを機械学習モジュール２０６が識別することが、例に含まれ得る。機械学習モジュール２０６は、概してこの情報をルールとして導入し、データの後続部分を検査する時にこの情報を利用し得る。この例では、機械学習モジュール２０６に含まれるルールに基づいて、受信した第２情報集合が米国を指定する国名コードを含む電話番号であることを機械学習モジュール２０６が識別し得る。機械学習モジュール２０６は、図３に関してより詳細に記載される。

分類モジュール２００は、分類案と、分類案が正確に受信テキストを反映している推定信頼度を表す信頼レベルとを生成し得る。信頼レベルは、分類案の正確さについて定量化された信頼度を表す値範囲の値を含み得る。例えば、信頼レベルは０から１００の範囲の数であり、１００は最高信頼度を示す。

信頼レベルは、受信テキストと分類案との間の幾つかの類似度に少なくとも部分的に基づき得る。幾つかの実施形態において、受信テキストと整合する分類が多い程潜在的に正確な分類の多数が分類案の信頼度が低いことを示すので、信頼レベルは分類モジュールが受信テキストと整合する分類の数に少なくとも部分的に基づき得る。幾つかの実施形態で、分類モジュールは、多数の分類案と、各分類案と関連する信頼レベルとを生成し得る。

分類モデルは、実施された前の分類に基づいて分類案の確実性を推定する信頼レベルを判断し得る。信頼レベル（又は百分率）は訓練データに基づき得る。幾つかの実施形態において、列データでは、データ列のあらゆるデータエンティティについての分類案を分類モジュールが生成するが、これらの分類案が組み合わされると列全体についての総分類が生成され得る。

例えば、辞書検索は、１００のうち９０のサンプルが受信データについての分類案を識別することを示すデータエンティティについての９０％信頼レベルを生成し得る。別の例として、ｒｅｇｅｘ整合器は、生成されたサンプルの９０％でデータがＲｅｇｅｘパターンと整合することを示す９０％信頼レベルを生成し得る。

幾つかの実施形態において、機械学習モジュール２０６は、他の分類モジュール（例えば、辞書モジュール２０２，Ｒｅｇｅｘモジュール２０４）の信頼レベルと異なり得る分類案についての信頼レベルを生成し得る。例示として、機械学習モジュールが９０％信頼レベルを生成することは、機械学習モジュールが学習した情報に基づいて、サンプリング時間の９０％にわたって受信データが分類案と整合していることを示す。

機械学習モジュール２０６は訓練データを使用してコンテキストを利用し、分類案の判断時により多くの見識を受信テキストに提供し得る。例えば、機械学習モジュールは、訓練データを利用してルール集合及びコンテキスト情報を識別し、いずれかの分類案及び信頼レベルを修正し得る。訓練データにより、機械学習モジュールは、受信データの不適切な分類である幾つかの潜在的分類を除去できる。従って、潜在的分類の除去は分類案の信頼レベルを高め得る。

図３には、様々な実施形態による機械学習モジュール３０６のブロック線図が図示されている。上記のように、機械学習モジュール３０６は、分類技術（例えば、辞書、Ｒｅｇｅｘ）と共に訓練データを利用して、分類案を判断する。

機械学習モジュール３０６は、受信データについて生成された分類案の反復によるサンプルデータを表すデータサンプル３０８に基づいて分類案を生成し得る。幾つかの実施形態において、機械学習モジュール３０６は、前に生成されたデータ分類に基づいて訓練され得る。データサンプル３０８の例は、複数のＥメールアドレス、一般的なファーストネーム、宗教、健康状態等について前に生成された分類を含み得る。分類案はクライアントデバイスへ送信され、データサンプルに関係するフィードバックがクライアントから受信され、フィードバックは訓練データに統合され得る。幾つかの実施形態では、各クライアント／顧客について訓練集合が生成され得る。

文字埋め込みは、データメタデータに基づく特徴を含むサンプルデータの特性の類似度を学習するのに使用され得る。機械学習モジュール３０６は文字埋め込み３１０を形成し得る。文字埋め込み３１０は、データサンプルから一以上の数値行列に変換され得る修正済みデータサンプルを含み得る。幾つかの実施形態において、教師なし学習アルゴリズムは、テキストの言語的文脈を再構築するように訓練される浅いニューラルネットワークを提供し得る。幾つかの実施形態において、文字埋め込みの多数の反復の実施は、数値行列でのクラスタの生成を促進し得る。クラスタは、分類のグループ分けと、類似の特性を持つデータサンプルとを表し、所与の分類と前の分類反復との間の類似度の識別にクラスタが利用され得る。クラスタを識別する数値行列のグラフィック表現の例は、図４に関して示される。

機械学習モジュール３０６は、ニューラルネットを含み得る。ニューラルネット３１２は、データサンプル３０８とコンテキストデータ３１４の両方を受信するように多数の入力を有し得る。

コンテキストデータ３１４は、データ分類の確度を向上させるのに利用され得る。一例として、一連のサンプルは、［‘Ｆ’，‘Ｍ’，‘Ｍ’，‘Ｆ’，‘Ｆ’，‘Ｍ’，‘Ｍ’，‘Ｆ’］として識別され得る。サンプルから、分類タイプが何であるかの結論は出せない。サンプルが「性別(gender)」に関係する可能性があるが、サンプルが例えば製品の状態フィールドに関係してもよい。フィールドの個別値が二つのみであるようにコンテキストデータが他の情報を提供してもよく、テーブルの他のフィールドは、‘ｃｕｓｔｏｍｅｒ＿ｎａｍｅ’，‘ｃｕｓｔｏｍｅｒ＿ｆａｍｉｌｙ＿ｓｔａｔｕｓ’等を含み得る。従って、サンプルデータが「性別」についてのものである分類案の信頼レベルはコンテキストデータに基づく。逆に、コンテキストデータがフィールドに１０個の個別値を含んでテーブルの他のフィールドが‘ｐｒｏｄｕｃｔ＿ｎｕｍｂｅｒ’，‘ｐｒｏｄｕｃｔ＿ｓｔａｔｕｓ＿ｃｈａｎｇｅ＿ｄａｔｅ’等を含む場合には、分類案が「性別」ではなく、むしろプロジェクト状態に関係する分類である可能性がより高い。

ニューラルネット３１２は、コンピュータビジョン又は自然言語処理（ＮＬＰ）プロセスのいずれかで利用され得る。ニューラルネットは、畳み込みニューラルネット（ＣＮＮ）又は再帰的ニューラルネット（ＲＮＮ）のいずれかを含み得る。ニューラルネットにより導入された情報に基づくサンプルデータ及び／又は文字埋め込みに関係する特性又は見識を識別するのに、ニューラルネットが利用され得る。

データサンプル及びコンテキストデータはマージ層３１６で合併され、全接続ニューラルネット層を含むドロップアウト層３１８及びデンス層３２０に転送され得る。ドロップアウト層３１８は学習プロセス中に幾つかの特徴を停止することにより過剰適合を回避し得るので、訓練集合で目立っている特徴に大き過ぎる重みを加えることはない。

全接続ニューラルネット層（例えば、ニューラルネット３１２、マージ３１６、ドロップアウト３１８、デンス３２０）は訓練データを利用し得る。訓練データは、全接続ニューラルネット層によりサンプルデータ及び文字埋め込みから識別される特性／見識を含み得る。幾つかの実施形態では、受信データについての分類案を修正するのに機械学習モジュール３０６により利用され得るルール集合として、訓練データが表され得る。

幾つかの実施形態において、機械学習モジュールは、コンテキストデータに含まれる列名に基づいて特徴を識別し得る。機械学習モジュールの学習を更に反復することは、クライアントからフィードバックを受信しながら学習プロセスへ特徴を追加することを含み得る。

機械学習モジュール３０６は、全接続ニューラルネット層を評価して出力３２２を生成し得る。ニューラルネットの評価は、一以上の確度メトリクスを判断して学習プロセスの訓練及び検査確度を識別することを含み得る。訓練確度メトリクスは、受信したテキストについての分類案を識別する際にデータサンプル及び文字埋め込みの補正に訓練データが利用される際の成功レベルを示し得る。出力の確度についてのフィードバックをリクエストする外部デバイスへ出力が送信され得る。受信したいかなるフィードバックも訓練データに導入され得る。

幾つかの実施形態において、機械学習モジュール３０６は、訓練データ及び文字埋め込みを利用して受信データに含まれる様々なコンテキストデータを識別し得る。コンテキストデータは、特定のデータストリームに関係するコンテキスト情報を表し得る。例えば、データストリームについてのコンテキストデータは、データストリームが概してデジタル化契約書に関係することを示し得る。更に、この例のコンテキストデータは、データストリームでのデータの分類にコンテキストを提供するのに利用され得る。この例について、宗教に関係する情報を契約書が含む可能性が概して低いので、「宗教(Religion)」の分類は例えば「名前」のような契約関連の分類よりも可能性が低いことを識別できる。

図４は、様々な実施形態による訓練済み分類データのクラスタについてのグラフィカル表現の図である。上記のように、文字埋め込みは、受信データ及び分類案を一以上の数値行列に変換するのに使用され得る。一例として、分類案及び関連データの多数の反復が数値行列に変換され、分類案及びデータの特性が行列において数値で表現される。テキストから、数値行列に導入され得るベクトルに、データが変換され得る。

機械学習モジュールにより形成される文字埋め込みは機械学習サブモジュールに含まれ、文字埋め込みは数値ベクトルに変換され得る。文字埋め込みは、テキストの変換とテキストと他の特性との関係の両方を含み得る。クラスタは、数値ベクトルに変換される時に文字埋め込みの関係性のグラフィック表現を表し得る。一例として、文字‘ａ’が数値ベクトルに変換され得る。文字‘ａ’が別の文字（例えば符号‘‐’）とは別の文字（例えば文字‘ｂ’）に近いと判断するのに、クラスタ化が利用され得る。

更に、データ集合全体に関してクラスタ化が利用され得る。言い換えると、クラスタ化データを判断するように、各クラス（例えば、名前、住所、ＩＰアドレス）に関係するデータが数値ベクトルに変換されて検査され得る。一例として、「名前」及び「性別」のクラスに関係するデータ集合が数値ベクトルに変換され得る。データクラスに関係する見識を判断するように数値ベクトルが検査され得る。この例で、パーソナル情報に関係するクラスを表す「パーソナル情報」クラスタで「名前」及び「性別」分類が互いに関係していると判断するように、数値ベクトルが検査され得る。

数値行列のグラフィック表現では、変換済み分類データの各インスタンスが点４０２として表され得る。グラフィック表現での点４０２の位置は変換済み特性（例えば分類タイプ、テキストレター、テキストワード、テキスト文字のタイプ（例えば、ギリシャ文字、英語大文字、数字））に基づき、数値行列に含まれるベクトルにおいて多様な特性が様々な値を付与される。

幾つかの実施形態において、分類案及びデータの多数の反復が数値行列に変換される時に、多数のクラスタ（例えばクラスタ４０４ａ～ｅ）が形成され得る。クラスタは、特性における多数の類似を含む数値行列の幾つかの点４０２を表し得る。例えば、文字埋め込みの数値行列は、識別され得る英語小文字のクラスタ、数字のクラスタ、英語大文字のクラスタ、そしてギリシャ文字のクラスタを含み得る。機械学習モジュール又は集約装置のいずれかはデータを行列に変換して行列のクラスタを識別できる。

幾つかの実施形態において、機械学習モジュールは、分類案、受信データ、サンプルデータ、文字埋め込み、そして訓練データのいずれかを数値行列に変換し得る。数値行列は、機械学習モジュールにより生成される分類案と関連データとの多数の反復を含み得る。幾つかの実施形態において、分類案及び関連データは、数値行列に導入されるベクトルに変換され、ベクトルは数値行列のグラフィック表現の点として表され得る。機械学習モジュールは、様々な分類案及び／又は受信データの共通特徴を表すクラスタを識別し得る。

一例として、数字と、数字（例えば、政府発行識別子、電話番号）と一般的に関連する分類案とを含むデータを表す数値行列で、第１クラスタが識別され得る。この情報を使用して、機械学習モジュールは、情報を数値行列に変換する時に特定の分類案及びデータが第１クラスタに含まれるかどうかを識別できる。機械学習モジュールは、正確な分類案が一般的に数字と関連する分類である可能性が高いと識別するのに使用され得る第１クラスタに、特定の分類案とデータとが含まれると識別できる。これは、受信データについての分類案を識別する際の確度及び信頼レベルを上昇させ得る。

図５には、様々な実施形態による潜在的データ分類５００のテーブルのブロック線図が図示されている。上記のように、分類５００のリストは、１件のデータと関連し得る多数のタイプの分類５０２を含むデータベース又はリストを含み得る。分類の例は、名前、州、国、都市、性別、人種、職業、職種、日、曜日、月、年、言語、Ｅメール、電話番号、住所、国際銀行口座番号（ＩＢＡＮ）、グローバル一意識別子（ＧＵＩＤ）／汎用一意識別子（ＵＵＩＤ）、インターネットプロトコル（ＩＰ）アドレス、米国医薬品コード（ＮＤＣ）コード、メディアアクセス制御（ＭＡＣ）アドレス、社会保障番号（ＳＳＮ）、健康状態、政治的所属、宗教、クレジットカード番号等のいずれかを含む。

幾つかの実施形態において、分類のリストは、各分類と関連する共通の用語又は特性を含み得る。例えば、「州(state)」の分類は、この分類及び受信テキストを比較的容易に整合する分類と関連する州（例えばカリフォルニア）を有し得る。

幾つかの実施形態で、分類は、分類の階層又はサブタイプ５０４を含み得る。例えば、「国(country)」の分類は、国のサブリスト（例えば、正式な国名、国名コード、欧州の国々）を指し、各サブ・サブリスト（例えば、イタリア、ドイツ）により詳細な分類が得られる。分類の階層は各分類についてのより適切なサブクラスを含むので、分類の階層は受信テキストの性質をより正確に識別できる。

幾つかの実施形態において、各分類は、法律又は規則５０６によりこの分類の情報が特定の手法で扱われるべきかどうかを示し得る。例えば、この情報で識別される個人の機密性を保護する為に、規則５０６は特定タイプのデータの処理及び保持に関係し得る。この例で、幾つかのタイプの情報（例えば、名前、Ｅメール、性別、宗教）がこのような規則の対象となり、情報を検索するリクエストに基づいて全ての関係データが識別及び検索され得るように、規則はこのようなデータの記憶を必要とし得る。

幾つかの実施形態において、各分類は、分類がパーソナル識別情報（ＰＩＩ）５０８を含むかどうかを示し得る。ＰＩＩ５０８は、テーブル５００に「ｘ」で表されているように、個人を示し得る情報を含み得る。ＰＩＩを含む情報の例は、名前、Ｅメールアドレス、ＩＰアドレス等であり得る。

幾つかの実施形態において、各分類は、分類が欧州連合の一般データ保護規則のような規則５１０の対象であるかどうかを示し得る。

ＰＩＩのプライバシーを保護する為、例えば、少なくとも一つのメモリの特定部分へのデータの記憶、データの削除、適正なアクセス権を持つユーザにアクセス可能なデータの作成、データの遮蔽、或るプロセスに使用されないようなデータのタグ付け等のように、ＰＩＩを含むかＧＤＰＲの対象となる分類で分類されたデータに対して、外部デバイスにより特定の動作が実施され得る。

テーブル５００に「ｘ」で表されているように、分類タイプが規則の対象となるかどうかを示すタグ又は識別子を各分類が含み得る。タグはラベルマスタに保管され得る。ラベルマスタでは、ＰＩＩ又はＧＤＰＲに関係するラベル集合を示し得るラベルの階層が保管され得る。ラベルマスタは、ラベル又はデータクラスについてメタデータ管理を利用し得る。

幾つかの実施形態において、分類のリストは言語と関連付けられ得る。一例として、「州(State)」分類について、サブタイプは、「ニューヨーク(New York)」とニューヨークのフランス語訳とを含む。

データがセンシティブデータとして分類される場合に、外部デバイスは、様々なルール又は規則に従い、ワークフローを利用してセンシティブデータのテーブルを送付及び保管し得る。

集約装置概要
図６には、様々な実施形態による、集約装置により最終分類を判断する為のフローチャートが図示されている。集約装置は、分類モジュール集合の各分類モジュールから分類案及び信頼レベルを受信できる（ブロック６０２）。分類案及び信頼値に基づいて、集約装置は、受信データの正確な分類を表す最終分類を判断できる。

集約装置は、分類モジュール集合から受信した分類案及び信頼値を集約できる（ブロック６０４）。幾つかの実施形態において、分類案は分類タイプにより集約され得る。一例として、テキストの受信部分が「クリスチャン(Christian)」という単語を含む場合に、分類モジュールは多数の分類案を生成し得る。この例で、第１分類案は「宗教(Religion)」の分類を含み、第２分類案は「名前(Name)」の分類を含み得る。集約装置は、例えば、「宗教」についての全ての分類案及び「名前」についての全ての分類案とその関連の信頼レベルとの集約のように、各分類案タイプを集約し得る。

集約装置は、機械学習を利用して最終分類を生成し得る。言い換えると、集約装置は、データの最終分類の生成の前回反復から保持される情報に基づいて最終分類の確度を高め得る。

集約装置は、集約された分類案及び信頼レベルを検査して最終分類を判断できる（ブロック６０６）。多数の分類案を利用して最終分類を判断する集約装置は、受信データの分類の確度を高め得る。

一例として、受信されたテキスト部分が「カリフォルニア(California)」の単語を含む場合に、各分類モジュールは、「州(State)」の分類案を高い信頼レベルで識別し得る。集約装置はこれらの分類案を検査して、最終分類が「州」であると判断し得る。

一例として、集約装置は、「クリスチャン」の単語を含む受信テキスト部分についての多数の分類案を集約できる。集約された第１分類タイプは「宗教(Religion)」の分類案を４０％信頼度で含み、第２分類タイプは、「名前(Name)」の分類案の多数のインスタンスを６０％信頼度と５０％信頼度の両方で含み得る。各分類案タイプの信頼レベルは分類タイプ毎に平均化され得る。この例で、第１タイプの「宗教」は４０％の総信頼度を有し、第２タイプの「名前」は平均して５５％の総信頼度を含み得る。集約装置は、各分類タイプについての最大の集約済み平均信頼レベルの判断に基づいて「名前」の最終分類を判断できる。

幾つかの実施形態において、集約装置は、データ部分についての最終分類の判断を補助するのに訓練データを利用できる。訓練データは、後続の最終分類の判断の確度を高めるのに使用され得る、最終分類判断の前回反復中に識別された情報又は見識を含み得る。幾つかの実施形態で、訓練データは、最終分類判断の前回反復と現在の最終分類判断との間の共通性を示すルール又はパターンの集合を含み得る。集約装置は、最終分類の判断時に訓練データに含まれるルール／パターンを利用できる。

例えば、訓練データは、一以上の単語に続く一連の数字を受信テキストのパターンが含む場合に、分類が住所である可能性が比較的高いことを示し得る。別の例として、所与の名前又は名字は互いに隣接していることが多いので、データストリームの先行の最終分類が「名前」である場合に、データストリームからのデータの隣接部分も「名前」として分類される可能性が高いことを訓練データが示し得る。

上記のように、データについての最終分類判断の各反復について、集約装置は、受信データの最終分類、信頼レベル、そして特性を一以上の数値行列に変換できる。数値行列は、最終データ分類反復特性についての数値表現を含み得る。変換された各最終分類は数値行列のグラフィック表現の点により表され、点の間の距離は、最終分類反復特性の間の相対的類似度を表し得る。例えば、近距離にある点は、データ部分の最終分類タイプ又は特性のいずれかにおいて多数の類似度を含み得る。集約装置は、例えば図４に示されているように、類似の特性を持つ数値行列の点クラスタを識別し得る。

幾つかの実施形態において、集約装置は、クラスタ化情報を利用して様々な分類に関係する見識を識別し得る。例えば、様々な分類（例えば「名前」、「住所」、「ＩＰアドレス」）の多数の反復が数値ベクトルに変換され得る。この例では、数値ベクトルに基づいて高い信頼値を持つデータの最終分類を識別する際に、クラスタ化情報が利用され得る。

集約装置により判断される最終分類は、後続動作の為に出力され得る（ブロック６０８）。幾つかの実施形態において、最終分類はブローカへ送信されて制御装置へ転送され、ここで制御装置は、最終分類に基づいてデータに後続動作を実施する外部デバイスへ、最終分類を転送する。実施され得るこのような動作の一つは、分類に基づいて少なくとも一つのメモリの特定部分に受信データを記憶することである。例えば、データの分類が非センシティブな分類タイプであるとの識別に基づいて、メモリの第１部分に受信データが記憶され得る。

幾つかの実施形態において、受信テキストの性質がセンシティブであることを受信データの最終分類が示すとの判断に基づいて、受信データがメモリの特定部分に記憶され得る。このデータは、ＰＩＩを含むか、特定の自治体での法律／規則の範囲内にあるデータを含み得る。例えば、受信データを示す分類は、個人を示して性質がセンシティブである個人の社会保障番号を含む。このような判断に基づいて、個人に関係する全てのセンシティブデータを含むメモリの一部分に受信データが記憶され得る。従って、リクエストに基づいて、個人についてのセンシティブデータが検索されるか削除されるか個人へ送信等され得る。幾つかの実施形態で、分類及び受信テキストはデータベースと関連し、データベースを使用してデータが識別され得る。

幾つかの実施形態において、最終分類に関係するフィードバックのリクエストにより、最終分類及び受信データが外部デバイスへ送信され得る（ブロック６１０）。フィードバックリクエストは、分類で分類されるデータの関連部分に関する確度について検査された最終分類を行うリクエストを示し得る。制御装置は、外部デバイスからフィードバック情報を受信し得る。例えば、フィードバック情報は、最終分類がデータ部分の正確又は不正確な表現であるかどうかの指示を含み得る。受信したフィードバックに基づいて、外部デバイスは、最終分類の記憶、最終分類を修正する集約装置へのリクエスト、集約装置についての訓練データの更新等のような動作を実施し得る。

幾つかの実施形態において、最終分類を判断するのに集約装置に利用される訓練データが更新され得る（ブロック６１２）。最終分類の数値行列からクラスタ化情報を判断すること、又は最終分類の確度に関係するフィードバックを外部デバイスから受信することのいずれかに基づいて、訓練データが更新され得る。

例えば、「クリスチャン」という単語についての最終分類が「宗教」の分類であって、適正な分類が「名前」であることを示すフィードバックが受信された場合に、最終分類が修正され、この変更を含むように訓練データが集約装置により更新され得る。この例で、受信データのフィードバック及び適正な分類を含むように訓練データが更新され得る。更にこの例で、第１部分に類似した「クリスチャン」を含むテキストの第２インスタンスが識別された場合には、更新済み訓練データに基づいて、最終分類が「宗教」ではなく「名前」である可能性が高いと識別するのに訓練データが利用され得る。

幾つかの実施形態において、分類案は集約テーブルにより表され得る。集約テーブルは、集約装置により集約された集約済み分類案が表現されたものであり得る。集約装置は、集約テーブル例のいずれかに含まれるコンテンツに基づいて最終分類を判断し得る。

幾つかの実施形態において、集約装置は、分類案を集約して最終分類を判断するように集約の再訓練を遂行し得る。多くのケースで、分類子は、使用されるラベルの部分集合に基づいて、比較的高い、又は比較的低い実績を有し得る。集約装置は、分類が比較的高い実績を有して、各分類装置についてのラベルごとの係数のテーブルとして視覚化され得る分類についての決定を行い得るように、ラベルに使用される係数を多様化し得る。

集約テーブルに図示されている信頼度は、最終分類を判断するのに利用され得る。例えば、第１データ部分は様々な分類（例えば「名前(Name」」、「メール（Mail）」、「日付」(Date)、「国(Country)」）と関連し、各分類モジュールは、この分類の信頼レベルを提供する。各分類についての信頼レベルが組み合わされるか検査されて、潜在的分類の数を減少させるか最終分類を識別し得る。

各列は多様なクラスを表し得る。予想ベクトルがフィードバックとして提示され得る。幾つかの実施形態において、予想ベクトルは、受容された分類についての「１」と、拒否された分類についての「０」とを含み得る。分類結果ベクトルは、各分類出力から形成されるベクトルを含み得る。学習の為のこの入力データフォーマットはスパースベクトルとして提示され得る（用途に応じて、使用される分類子はカテゴリ値（１）又は真偽サブベクトル（２）として表され得る）。

集約テーブルでは、集約を再訓練する為の多数の潜在的なアプローチを識別し得る。第１アプローチは、係数を使用して多様な分類子からの結果のシンプルな畳み込みを行うことである。別のアプローチは結果データを作成する為の多様なアプローチを使用し得る。

多数のアプローチの利用は、係数を使用する各分類についてのエラーを最小化し得る。閾値が選択され、係数は混同行列に基づき得る。エラーを最小化するように長いベクトルがニューラルネットの為の入力として含まれ得る。各分類について、分類子ベクトル及び予想ベクトルを変形及び投影することにより、学習集合が生成され得る。

例えば、「名前」の分類について、第１列は識別子ＩＤであり、第２列ＭＬＲｅｓｕｌｔは、機械学習分類モジュールから「名前」クラスについて提示された値を示す。第３列は、辞書分類モジュールから「名前」クラスについて提示された値を示す辞書結果を含み得る。第４列は、受信データが「名前」クラスとしてラベル付けされたことを示す「１」の値と、そうではない場合の「０」の値とを提示し得る「予想されたか？(WAS EXPECTED?)」を含む。

幾つかの実施形態において、集約装置は、集約と最終分類の判断とを補助するニューラルネットワークを利用し得る。ニューラルネットワークは所与の結果の畳み込みを行うのに使用され得る。入力は、分類モジュールにより受信された受信済み分類ベクトルから作成される長いベクトルを含み得る。出力は、各分類についての確率ベクトルを含み得る。集約装置は、各分類についての出力ベクトルを検査することにより最終分類を判断できる。

幾つかの実施形態において、リクエストにより受信されたデータは記憶されなくてもよい。これに基づいて、システムは外部デバイスから受信したフィードバック情報を受信して解析し得る。制御装置はデータベースからデータを受信し得る。分類子が変更された場合には結果が更新され得る。フィードバックが上書きされ、システムは識別子についての所与のフィードバック全てをチェックしてフィードバックを集約し、最後のフィードバックが前の入力を上書きできる。収集されたデータは、分類ベクトルと予想ベクトルとを含むポストプロセスで圧縮表現を作成するのに使用され得る。

評価メトリクス
評価メトリクスは、生産アーキテクチャに含まれるコンポーネントを訓練又は再訓練するのに使用され得る。訓練プロセスでは、生成された分類の品質を定量化するのに評価メトリクスが利用され得る。言い換えると、評価メトリクスは、生成された分類の総確度を識別するのに利用され得る。

評価メトリクスは、分類の確度又は実績のいずれかに基づき得る。例えば、評価メトリクスは、分類モジュールの速度（例えば、所与の時間内にどれ程多くの分類案が生成され得るか）を表し得る。

評価メトリクスは、集約装置が最終分類でどれ程の頻度で正確な分類と不正確な分類を識別するかを示す混同行列を含み得る。混同行列は、結果を四つのタイプに分割するブール値（真偽）を含み得る。真陽性（ＴＰ）―「真」クラスが適切に分類される、真陰性（ＴＮ）―「偽」クラスが適切に分類される、偽陰性（ＦＮ）―「真」クラスが「偽」として分類される、偽陽性（ＦＰ）―「偽」クラスが「真」として分類される。

確度は、真を陽性とし、偽を陰性とする適正な選択を集約装置がどれ程の頻度で行うかを示すメトリクスであり得る。混同行列に関して、確度は混同行列の関数として定義され得る。

偽陽性は偽陰性とは異なり得る。幾つかの実施形態において、システムは、或る閾値を上回る幾つかの値のみを提示することで終了し、最も適切であると考えられるもののみを提示し得る。整合クラスの提示を伴わずにシステムが終了する場合でも、システムは可能な限り低い偽陽性率を追求し得る。

精度、再現率、そしてＦ１スコアのいずれかを使用して、分類結果が記載され得る。精度は、集約装置が正確な（又は陽性として提示される）分類をどれ程の頻度で判断するかを示し得る。再現率は、集約装置が提示される全てのうち陽性分類をどれ程の頻度で提示するかを示し得る。幾つかのケースでは、精度が上昇して再現率が低下し得る。これは、「真」分類での失敗が少ないことの結果であり得るが、最終的には「真」分類の提示がそれ程頻繁ではなくなる。他方で、システムはより多くの結果を提示し得るが、その中には不適正な分類も多い。従って、再現率が上昇して精度が低下し得る。

Ｆ１スコアは、像を完成させて適正な分類のみの提示と適正な分類全ての提示との間の「均衡」点を選択し得る精度及び再現率の調和平均を含み得る。

幾つかの実施形態では、低い偽陽性率に注目した場合に、基本メトリクスは精度であり得る。しかしながら、システムは正確な回答を与えて決定時には再現率が少なくとも部分的に利用されるので、決定は精度のみに基づくわけではない。

幾つかの実施形態では、二つのアプローチの一方が集約装置により実施され得る。第１アプローチは、或る閾値より下まで再現率が低下することなく精度を最大化することを含み得る。第２アプローチは、精度を促進し得る重み付けメトリクスを算出することを含み得る。

幾つかの実施形態において、所与の順序で結果を分類する手法として使用され得る確率案で、多数の入力が送信され得る。確率案は、より起こり得ると予想されるのはどのモデルであるかを示す情報も付与し得る。所与の例が割り当てられるべき分類が、予想される結果と比較され得る。評価スクリプトでは、Ｎ個の上位結果が陽性であって残りが陰性であると推定され得る。唯一の例外は、全て陽性であると見なされる場合のように、Ｎを超える結果が同じ確率を有する場合であり得る。各モデル及び確率について、各ラベルは、それを上回るとラベルが「陽性」であると推定される閾値を定義し得る。

幾つかの実施形態において、集約装置は、結果に基づいて柔軟な決定を行い得る。全ての結果から「リーダーグループ」を分離することが可能である。リーダーグループは、互いに比較的近く、残りの結果からは比較的遠い上位結果のグループであり得る。従って、「リーダーグループ」の判断及び発見は、クラスタ化、グループについての、そしてグループ間での標準偏差の算出等を含み得る。

システムはデータフローを含み得る。データフローは、二つのクラスタ、モデルが含まれる生産クラスタ、そしてデータクラスタを含み得る。顧客デバイスは、安全な接続を通してサンプル／プロファイリングデータをＭＬプラットフォームへ送信し得る。ＭＬプラットフォームゲートウェイは、データ分類モデルの制御装置へリクエストを転送し得る。リクエストについての情報は少なくとも一つのメモリに記憶され得る。制御装置はメッセージブローカへデータを送信し、ここでサブコンポーネントにより処理され得る。データベースは処理されるリクエスト／行のリストを保持し得る。結果が検索されると、顧客デバイスは結果を記録し、追跡された全てのリクエストもデータベースから除去される。

幾つかの実施形態において、フィードバックは、集約装置により提供される最終分類を顧客が受容又は拒否することを含み得る。フィードバックは、顧客と関連する外部デバイスを介してシステムへ提示され得る。サンプルデータ／プロファイリングは、顧客からの追加フィードバックと共にＭＬプラットフォームへ送信され得る。制御装置はフィードバックデータをデータベースへ転送し得る。システムは周期的にデータベースから少なくとも一つの記憶モジュールへデータをオフロードし、これはデータクラスタの記憶モジュールへコピーされ得る。幾つかの実施形態では、顧客毎に記憶モジュールに記憶されるフィードバックに基づいて、フィードバックデータの保持がデータクラスタで行われ得る。システムは、分類モデルの充分な追跡可能性も保持し、顧客フィードバックが取り入れられて、訓練データで使用されるように処理され得る。

図７には、様々な実施形態による、データの分類を生成する方法のブロック線図が図示されている。

分類モジュールの集合に含まれる各分類モジュールは、データストリームに含まれる第１データ部分を検査して第１データ部分の特性集合を識別し得る（ブロック７０２）。特性集合は、例えばデジタル化ドキュメントの第１データ部分のテキスト、オブジェクト、位置のような、第１データ部分の特徴等を含み得る。辞書整合、正規表現（Ｒｅｇｅｘ）パターン整合、訓練データの使用等のような一以上の技術を使用して、特性集合が判断され得る。

幾つかの実施形態において、分類集合は学習モジュールを含む。学習モジュールは、辞書と正規表現リストと訓練モジュールのうち少なくとも一つを含み得る。訓練モジュールは、分類案、信頼値、そして最終分類を検査するように構成され得る。訓練モジュールは、第１データ部分の分類案の確度と、分類案と最終分類との間の相違の数とを判断し得る。判断された確度及び相違の数が訓練データに含まれ、訓練データは、後続のデータ分類の反復に利用されて後続のデータ分類案を判断し得る。

幾つかの実施形態において、第１データ部分を検査して特性集合を識別することは、第１データ部分と閾値類似度を超える少なくとも一つのエントリとの間の類似度を含む分類モジュール集合に含まれるいずれかの分類モジュールと関連する辞書に挙げられた少なくとも一つのエントリを識別することを包含し、特性集合は、閾値類似度を超える類似度を含む辞書に挙げられた少なくとも一つのエントリを含む。

幾つかの実施形態において、第１データ部分を検査して特性集合を識別することは、閾値差より小さい第１データ部分と少なくとも一つのパターンとの幾つかの差を含む分類モジュールの集合に含まれるいずれかの分類モジュールと関連する正規表現リストに含まれる少なくとも一つのパターンを識別することを包含し、特性集合は、閾値差より小さい幾つかの差を含む正規表現リストに含まれる少なくとも一つのパターンを含む。

分類案と信頼値とを判断するように、識別された特性集合が分類リストと比較される（ブロック７０４）。分類案は、閾値類似度を超える第１データ部分の特性集合との類似度を含む分類リストに挙げられた分類を識別し得る。信頼値は、第１データ部分を正確に記す分類案の推定を示す値を含み得る。分類案と信頼値とは集約モジュールへ送信され得る。

集約モジュールは、分類モジュール集合の各分類モジュールにより判断される分類案及び信頼値を集約し得る（ブロック７０６）。

分類モジュール集合の分類モジュールの集約済み分類案及び信頼値に基づいて、集約モジュールが最終分類を生成し得る（ブロック７０８）。

幾つかの実施形態において、最終分類の生成は、受信した分類案に含まれる各分類タイプを識別することを含み、各分類タイプが分類リストに含まれる。集約モジュールは、各識別済み分類タイプと信頼値とを比較して各分類タイプについての総信頼度を識別し得る。集約装置は、最高の総信頼度を含む識別済み分類タイプを識別することにより最終分類を判断できる。

幾つかの実施形態において、方法は、第１データ部分と最終分類との間の確度を示す最終分類確度を判断することを含み得る。集約装置は、データの最終分類を判断する際に後続の反復で利用されるように構成される集約装置訓練データ集合に最終分類確度を追加し得る。

幾つかの実施形態において、この方法は、外部デバイスへのフィードバックの為のリクエストを送信することを含み、フィードバックのリクエストは、最終分類、第１データ部分、最終分類確度のうちいずれかを含み得る。フィードバック情報を含む外部デバイスからのレスポンスが受信され、フィードバック情報が集約装置訓練データ集合に追加される。

幾つかの実施形態において、この方法は、最終分類及び第１データ部分の定量化特性を識別する数値行列に導入される少なくとも一つのベクトルに、最終分類及び第１データ部分を変換することを含み得る。数値行列ではクラスタが識別され得る。クラスタは、共通の特性を持つ最終分類及びデータの反復を示し、クラスタに関係する情報が集約装置訓練データ集合に追加される。

集約モジュールは、第１データ部分の最終分類に基づいて最終分類を外部デバイスへ送信して後続動作を実施し得る（ブロック７１０）。幾つかの実施形態において、集約モジュールは最終分類をブローカへ送信し、ブローカは最終分類を制御装置へ転送し、制御装置は最終分類を外部デバイスへ転送できる。後続動作は、最終分類を含むデータと関連する少なくとも一つのメモリの第１位置への第１データ部分の記憶、外部デバイスへの第１データ部分の送信、第１データ部分の削除、そして個人を示すデータを含むデータと関連する少なくとも一つのメモリの第２位置への第１データ部分の記憶のうちいずれかを含み得る。

幾つかの実施形態では、個人を示す情報を最終分類が含むことを示す識別子を最終分類が含むかどうかを判断するように、最終分類が検査され得る。個人を示す情報は、ＰＩＩ、ＧＤＰＲ、又は自治体により課せられる法律／規則により識別される何らかの情報を含み得る。外部デバイスは、個人を示す情報を保持する第１データ部分に対する動作を表す動作部分集合を識別するように構成され得る。動作部分集合は、例えば、個人を示す他の情報を含む特定のメモリ部分に第１データ部分を記憶すること、データベースを更新して第１データ部分を識別すること、第１データ部分を削除すること、第１データ部分を外部デバイスへ送信すること等を含み得る。外部デバイスは、最終分類が識別子を含むとの判断に基づいて動作部分集合の一つを含む後続動作を実施し得る。

処理システム例
図８は、本明細書に記載の少なくとも幾つかの操作が遂行され得る処理システム８００の例を図示するブロック線図である。図８に示されているように、処理システム８００は、一以上の中央処理ユニット（「プロセッサ」）８０２、メインメモリ８０６、不揮発性メモリ８１０、ネットワークアダプタ８１２（例えばネットワークインタフェース）、ビデオディスプレイ８１８、入力／出力デバイス８２０、制御デバイス８２２（例えばキーボード及びポインティングデバイス）、記憶媒体８２６を含むドライブユニット８２４、そしてバス８１６に通信接続される信号生成デバイス８３０を含み得る。バス８１６は、一以上の独立した物理バス、ポイントツーポイント接続、あるいは適切なブリッジ、アダプタ、又は制御装置により接続された両者を表す抽象的なものとして図示されている。それ故、バス８１６は、例えば、システムバス、周辺コンポーネント相互接続（ＰＣＩ）バス又はＰＣＩエクスプレスバス、ハイパートランスポート又は業界標準アーキテクチャ（ＩＳＡ）バス、小型コンピュータシステムインタフェース（ＳＣＳＩ）バス、ユニバーサルシリアルバス（ＵＳＢ）、ＩＩＣ（Ｉ２Ｃ）バス、あるいは「ファイアワイヤ」とも呼ばれる電気電子学会（ＩＥＥＥ）規格１３９４バスを含み得る。

様々な実施形態において、処理システム８００はユーザデバイスの一部として作動するが、処理システム８００がユーザデバイスに（例えば有線又は無線で）接続されてもよい。ネットワーク接続展開において、処理システム８００は、クライアントサーバネットワーク環境のサーバ又はクライアントマシンの能力で、あるいはピアツーピア（又は分散型）ネットワーク環境のピアマシンとして作動し得る。

処理システム８００は、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ、タブレット、ラップトップコンピュータ、パーソナルデジタルアシスタント（ＰＤＡ）、携帯電話、プロセッサ、ウェブ機器、ネットワークルータ、スイッチ又はブリッジ、コンソール、ハンドヘルドコンソール、ゲーミングデバイス、音楽プレーヤ、ネットワーク接続（「スマート」）テレビ、テレビ接続デバイス、あるいは処理システム８００により行われる動作を指定する（順次その他の）命令集合の実行が可能なポータブルデバイス又はマシンであり得る。

メインメモリ８０６、不揮発性メモリ８１０、そして記憶媒体８２６（「機械可読媒体」とも呼ばれる）は、単一の媒体として示されているが、「機械可読媒体(machine-readable medium)」及び「記憶媒体(storage medium)」の語は、一以上の命令集合８２８を記憶する単一の媒体又は多数の媒体（例えば、集中又は分散型データベース、及び／又は、関連のキャッシュ及びサーバ）を含むものと解釈されるべきである。「機械可読媒体」及び「記憶媒体」の語は、計算システムによる実行の為の命令集合の記憶、コード化、又は搬送が可能である、そして現在開示されている実施形態の一以上の方法論を計算システムに実施させる何らかの媒体を含むものとしても解釈されるものとする。

概して、開示の実施形態を遂行するように実行されるルーチンは、オペレーティングシステム又は特定のアプリケーション、コンポーネント、プログラム、オブジェクト、モジュール、あるいは「コンピュータプログラム」と称される命令シーケンスの一部として遂行され得る。コンピュータプログラムは一般的に、コンピュータの様々なメモリ及び記憶デバイスにおいて様々なタイミングで設定され、一以上の処理ユニット又はプロセッサ８０２による解釈及び実行時には処理システム８００に操作を実施させて開示の様々な態様を伴う要素を実行させる一以上の命令（例えば命令８０４，８０８，８２８）を包含する。

また、フル機能のコンピュータ及びコンピュータシステムの文脈で実施形態が記載されているが、様々な実施形態が様々な形態のプログラム製品としての分散が可能であることと、実際に分散を行うのに使用される機械又はコンピュータ可読媒体の特定タイプに関係なく開示が等しく適用されることとを当業者は認識するだろう。例えば、本明細書に記載の技術は、仮想機械又はクラウド計算サービスを使用して遂行され得る。

機械可読記憶媒体、機械可読媒体、又はコンピュータ可読（記憶）媒体の更なる例は、揮発性および不揮発性メモリデバイス８１０のような記録可能タイプの媒体、フロッピー及び他のリムーバブルディスク、ハードディスクドライブ、光学ディスク（例えばコンパクトディスクリードオンリメモリ（ＣＤＲＯＭＳ）、デジタル多用途ディスク（ＤＶＤ）、そしてデジタル及びアナログ通信リンクのような送信タイプ媒体を含むが、これらに限定されない。

ネットワークアダプタ８１２により、処理システム８００は、ネットワーク８１４のデータと、処理システム８００及び外部エンティティによりサポートされる周知及び／又は好都合な通信プロトコルを通して処理システム８００の外部のエンティティとの仲介を行うことができる。ネットワークアダプタ８１２は、ネットワークアダプタカード、無線ネットワークインタフェースカード、ルータ、アクセスポイント、無線ルータ、スイッチ、多層スイッチ、プロトコルコンバータ、ゲートウェイ、ブリッジ、ブリッジルータ、ハブ、デジタルメディア受信器、及び／又は、中継器のうち一以上を含み得る。

ネットワークアダプタ８１２は、幾つかの実施形態において、コンピュータネットワークのアクセス／プロキシデータへの許可を支配及び／又は管理して、多様な機械及び／又アプリケーションの間の可変信頼レベルを追跡できるファイアウォールを含み得る。ファイアウォールは、機械とアプリケーション、機械と機械、及び／又は、アプリケーションとアプリケーションの特定集合の間で所定のアクセス権集合を実行して、例えば、これらの可変エンティティの間で共有されるトラフィック及びリソースのフローを調整できるハードウェア及び／又はソフトウェアコンポーネントの何らかの組み合わせを有する何らかの数のモジュールであり得る。ファイアウォールは付加的に、個人、機械、及び／又は、アプリケーションによるオブジェクトのアクセス及び操作権を含む許可と、許可権が有効である状況とを詳述するアクセス制御リストを管理する、及び／又は、これらへのアクセスを有し得る。

上記のように、本明細書で導入される技術は、例えば、全体としては専用の配線接続（つまり非プログラマブル）回路、又は組み合わせ、又はこのような形の組み合わせで、ソフトウェア及び／又はファームウェアでプログラムされたプログラマブル回路（例えば一以上のマイクロプロセッサ）により遂行される。専用回路は、例えば、一以上の、特定用途向け集積回路（ＡＳＩＣ）、プログラマブルロジックデバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）等の形であり得る。

以上から、本発明の特定実施形態が例示目的で本明細書に記載されているが、本発明の範囲から逸脱することなく様々な修正が行われ得ることが認識されるだろう。従って、本発明は添付の請求項以外により制限されない。

１００生産アーキテクチャ
１０２制御装置
１０４外部デバイス
１０６ブローカ
１０８，１０８ａ，１０８ｂ，…，１０８ｎ分類モジュール
１１０集約装置
１１２データベース
２００分類モジュール
２０２辞書モジュール
２０４正規表現モジュール
２０６機械学習モジュール
２０８分類リスト
２１２ａ，２１２ｂ，…，２１２ｎ辞書
２１４ａ，２１４ｂ，…，２１４ｎ正規表現パターン
３０６機械学習モジュール
３０８データサンプル
３１０文字埋め込み
３１２ニューラルネット
３１４コンテキストデータ
３１６マージ層
３１８ドロップアウト層
３２０デンス層
３２２出力
４０２点
４０４ａ，４０４ｂ，４０４ｃ，４０４ｄ，４０４ｅクラスタ
５００分類
８００処理システム
８０２プロセッサ
８０４命令
８０６メインメモリ
８０８命令
８１０不揮発性メモリ
８１２ネットワークアダプタ
８１４ネットワーク
８１６バス
８１８ビデオディスプレイ
８２０入力／出力デバイス
８２２制御デバイス
８２４ドライブユニット
８２６記憶媒体
８２８命令
８３０信号生成デバイス

Claims

データを分類するシステムにより実施される方法であって、
分類モジュール集合に含まれる各分類モジュールにより、データストリームを取得することと、
前記データストリームに含まれる第１データ部分を検査して前記第１データ部分の特性を識別することと、
前記分類モジュール集合の各分類モジュールにより、前記識別済み特性を分類リストと比較して分類案及び信頼値を判断することであって、前記分類リストに含まれて、第１類似度閾値を超える第１類似度を持つ前記第１データ部分の前記特性と整合する分類タイプを各分類案が識別することと、
集約モジュールにより、前記分類案及び前記信頼値を各分類タイプで集約することと、
前記集約モジュールにより、集約された前記分類案及び前記信頼値に基づいて最終分類を生成することと、
前記最終分類を外部デバイスへ送信して後続動作を実施することと、
を包含する方法。
データベースに含まれるテーブルで構造化されたデータを前記データストリームが含み、前記データストリームの各部分が、前記データベースに含まれる前記テーブルの列を表す、請求項１に記載の方法。
前記分類モジュール集合が、
前記第１データ部分の前記識別済み特性を少なくとも一つの辞書に含まれるエントリと比較するように構成される辞書モジュールと、
前記第１データ部分の前記識別済み特性を、少なくとも一つの正規表現パターンリストに含まれる正規表現パターンと比較するように構成される正規表現モジュールと、
前記第１データ部分の前記識別済み特性を訓練データ集合と比較するように構成される学習モジュールと、
を含む、請求項１に記載の方法。
各データ列及び前記分類案を、各データ列及び各分類案の定量化特性を識別する少なくとも一つの数値ベクトルに変換すること、
を更に包含する、請求項２に記載の方法。
前記学習モジュールが、
前記第１データ部分及び前記分類リストの前記特性と前記訓練データ集合との比較に基づいて、第１分類案と第１信頼値とを生成し、
前記第１データ部分及び前記生成済み第１分類案の前記特性に対応する少なくとも一つのルールを判断し、
前記訓練データ集合に少なくとも一つのルールを導入する、
ように構成される、請求項２に記載の方法。
前記最終分類の生成が更に、
各分類タイプについての前記集約済み分類案及び前記集約済み信頼値を、前記集約モジュールにより利用されるルール集合と比較して、第１分類を判断することと、
前記集約済み分類案と前記最終分類との間の共通特性に対応する少なくとも一つのルールを判断することと、
前記ルール集合に少なくとも一つのルールを導入することと、
を包含する、請求項１に記載の方法。
前記最終分類を検査して、個人を示す情報を前記最終分類が含むかどうかを判断することと、
前記個人を示す情報を前記最終分類が含むとの判断に基づいて、前記第１データ部分にタグを付加することと、
を更に包含する、請求項１に記載の方法。
前記分類モジュール集合と前記集約モジュールとが、ブローカを介して前記外部デバイスへ情報を転送する、請求項１に記載の方法。
前記外部デバイスにより実施される前記後続動作が、前記第１データ部分を少なくとも一つのメモリの第１位置に記憶することと、前記第１データ部分を外部デバイスへ送信することと、前記第１データ部分を削除することと、個人を示すものと識別されるデータと関連する少なくとも一つのメモリの第２位置に前記第１データ部分を記憶することとのうちいずれかを含む、請求項１に記載の方法。
フィードバックリクエストを外部デバイスへ送信することであって、前記フィードバックリクエストが前記最終分類及び前記第１データ部分のいずれかを含むことと、
フィードバック情報を含むレスポンスを前記外部デバイスから受信することであって、後続の最終分類の生成の為に前記集約モジュールにより利用される集約装置訓練データ集合に前記フィードバック情報が追加されることと、
を更に包含する、請求項１に記載の方法。
前記最終分類及び前記第１データ部分の定量化特性を表す少なくとも一つの数値ベクトルに前記最終分類及び前記第１データ部分を変換すること、
を更に包含する、請求項１に記載の方法。
辞書モジュールと正規表現モジュールと学習モジュールとを含む分類モジュール集合であって、各分類モジュールが、
データベースでデータ列に構造化される第１データ集合を取得し、
前記第１データ集合に含まれる前記データベースの第１データ列の特性を識別し、
分類リスト及び第１信頼値から第１分類案を判断して、前記第１分類案が、前記第１列の前記識別済み特性と整合する前記分類リストの分類を識別する、
ように構成される、分類モジュール集合と、
集約モジュールであって、
前記分類モジュール集合の各々により判断される前記分類案及び前記信頼値を受信し、
前記分類案及び前記信頼値を分類タイプで集約し、
前記集約済み分類案及び前記信頼値に基づいて最終分類を判断し、
前記最終分類に基づいて前記第１データ集合に後続動作を実施するように構成される外部デバイスへ前記最終分類を送信する、
ように構成される集約モジュールと、
を具備するシステム。
前記分類モジュール集合及び前記集約モジュールに接続されるブローカであって、
前記第１データ集合を前記分類モジュール集合の各々へ送信し、
前記分類案を前記分類モジュール集合から前記集約モジュールへ転送し、
前記最終分類を前記集約モジュールから受信する、
ように構成されるブローカと、
前記ブローカ及び前記外部デバイスに接続される制御装置であって、前記ブローカから前記外部デバイスへ前記最終分類を転送するように構成される制御装置と、
を更に具備する、請求項１２に記載のシステム。
前記辞書モジュールが、
前記辞書モジュールに含まれる少なくとも一つの辞書に挙げられて前記第１データ列の前記特性と整合するエントリを識別し、
前記分類リストに挙げられた各分類と前記識別済みエントリを比較して、類似度閾値を超える前記エントリとの類似度を含む第１分類を判断する、
ように構成されて、前記辞書モジュールの前記分類案が前記第１分類を含み、
前記正規表現モジュールが、
前記第１データ列の前記特性と整合する前記正規表現モジュールに含まれる少なくとも一つの正規表現パターンリストに挙げられたパターンを識別し、
前記分類リストに挙げられた各分類と前記識別済みパターンを比較して、前記類似度閾値を超える前記パターンとの類似度を含む第２分類を判断する、
ように構成されて、前記正規表現モジュールの前記分類案が前記第２分類を含む、
請求項１２に記載のシステム。
前記学習モジュールが、
前記第１データ列及び前記分類リストの特性と、前記学習モジュールと関連する訓練データ集合との比較に基づいて、前記分類案と前記信頼値とを生成し、
前記第１データ列の前記特性と前記生成済み分類案とに対応する少なくとも一つのルールを判断し、
前記訓練データ集合に少なくとも一つのルールを導入する、
ように構成される、請求項１２に記載のシステム。
前記集約モジュールが更に、
前記最終分類を検査して、個人を示す情報を含む分類に前記最終分類が関係しているかどうかを判断し、
前記最終分類にタグを付加する、
ように構成されて、
前記タグを含む前記最終分類の受信に基づいて前記第１データ集合で後続動作の部分集合のいずれかを実施するように前記外部デバイスが構成される、
請求項１２に記載のシステム。
データを分類する集約モジュールにより実施される方法であって、
第１構造化データ集合に含まれるデータ列についての分類案及び信頼値を分類モジュール集合の各々から受信することであって、各分類案が、分類リストに含まれる分類を示し、各信頼値が、前記データ列の特性に関係するものとしての前記分類案の確度を示すことと、
前記分類リストに挙げられた各分類タイプに基づいて前記受信済み分類案及び信頼値を集約することと、
前記集約済み分類案を比較して最終分類を識別することと、
前記最終分類に基づいて前記データ列に後続動作を実施するように構成される外部デバイスへ前記最終分類を送信することと、
を包含する方法。
辞書モジュールであって、
辞書モジュールに含まれる少なくとも一つの辞書に挙げられて前記データ列の前記特性と整合するエントリを識別し、
前記分類リストに挙げられた各分類と前記識別済みエントリを比較して、類似度閾値を超える前記エントリとの類似度を含む第１分類を判断し、前記辞書モジュールの前記分類案が前記第１分類を含む、
ように構成される辞書モジュールと、
正規表現モジュールであって、
正規表現モジュールに含まれる少なくとも一つの正規表現パターンリストに挙げられて前記データ列の前記特性と整合するパターンを識別し、
前記分類リストに挙げられた各分類と前記識別済みパターンを比較して、前記類似度閾値を超える前記パターンとの類似度を含む第２分類を判断し、正規表現モジュールの前記分類案が前記第２分類を含む、
ように構成される正規表現モジュールと、
学習モジュールであって、
前記データ列及び前記分類リストの前記特性と、学習モジュールと関連する訓練データ集合との比較に基づいて、第３分類案を生成し、
前記データ列及び前記生成済み分類案の前記特性に対応する少なくとも一つのルールを判断し、
前記訓練データ集合に前記少なくとも一つのルールを導入する、
ように構成される学習モジュールと、
を前記分類モジュール集合が含む、請求項１７に記載方法。
フィードバックリクエストを前記外部デバイスへ送信することであって、前記フィードバックリクエストが前記最終分類と前記データ列とを含むことと、
フィードバック情報を含むレスポンスを前記外部デバイスから受信することと、
を更に包含する、請求項１７に記載の方法。
再訓練プロセスを通して前記分類モジュール集合により利用されて他のデータ部分の後続分類案を改善するように構成される訓練データ集合のいずれかに、前記受信済みフィードバック情報を導入すること、
を更に包含する、請求項１９に記載の方法。