JP7798488B2

JP7798488B2 - 機密情報を保護するための画像由来識別ドキュメントの検出

Info

Publication number: JP7798488B2
Application number: JP2021092862A
Authority: JP
Inventors: シインヤン，; シャオリンワン，; クリシュナナラヤナスワミー，; イーザン，
Original assignee: Netskope Inc
Current assignee: Netskope Inc
Priority date: 2020-06-03
Filing date: 2021-06-02
Publication date: 2026-01-14
Anticipated expiration: 2041-06-02
Also published as: EP3920093A1; JP2022003517A

Description

優先権主張

本出願は、２０２０年６月３日出願の米国特許出願第１６／８９１，６４７号、発明の名称「機密情報を保護するための画像由来識別ドキュメントの検出」（代理人整理番号ＮＳＫＯ１０３２－１）（現在、２０２１年４月２７日発行の米国特許第１０，９９０，８５６号）の継続出願である、２０２１年４月１３日出願の米国特許出願第１７／２２９，７６８号、発明の名称「画像由来識別ドキュメントのエクスフィルトレーションを防止するためのプロダクションで使用されるディープラーニング・スタック」（代理人整理番号ＮＳＫＯ１０３２－２）の優先権を主張し、且つ、

２０２０年６月３日出願の米国特許出願第１６／８９１，６７８号、発明の名称「機密スクリーンショット由来データの損失を防ぐためのスクリーンショット画像の検出」（代理人整理番号ＮＳＫＯ１０３３－１）（現在、２０２１年３月１６日発行の米国特許第１０，９４９，９６１号）の継続出願である、２０２１年３月１５日出願の米国特許出願第１７／２０２，０７５号、発明の名称「機密スクリーンショット由来データの企てられたエクスフィルトレーションを検出するためのＤＬスタックのトレーニング及び構成」（代理人整理番号ＮＳＫＯ１０３３－２）の優先権を主張し、且つ、

２０２０年６月３日出願の米国特許出願第１６／８９１，６９８号、発明の名称「組織画像由来機密ドキュメントの検出及び機密文書の損失防止」（代理人整理番号ＮＳＫＯ１０３４－１）（現在、２０２０年１２月１５日発行の米国特許第１０，８６７，０７３号）の継続出願である、２０２０年１２月９日出願の米国特許出願第１７／１１６，８６２号、発明の名称「画像由来機密ドキュメントのディープラーニングに基づく検出及びデータ損失防止」（代理人整理番号ＮＳＫＯ１０３４－２）の優先権を主張する。これらの出願は、全ての目的のために参照により組み込まれる。

合体資料

以下の資料は、参照により本出願に組み込まれる：

２０２０年３月０２日出願の米国特許出願第１６／８０７，１２８号、発明の名称「動的スケーラブル・サービス・メッシュにおけるロード・バランシング」（代理人整理番号ＮＳＫＯ１０２５－３）。

２０１４年３月０５日出願の米国出願第１４／１９８，５０８号、発明の名称「ネットワーク配信サービス用セキュリティ」（代理人整理番号ＮＳＫＯ１０００－３）（現在、２０１６年２月２３日発行の米国特許第９，２７０，７６５号）。

２０１４年３月０５日出願の米国出願第１４／１９８，４９９号、発明の名称「ネットワーク配信サービス用セキュリティ」（代理人整理番号ＮＳＫＯ１０００－２）（現在、２０１６年７月１９日発行の米国特許第９，３９８，１０２号）。

２０１５年８月２５日出願の米国出願第１４／８３５，６４０号、発明の名称「クラウド・コンピューティング・サービス（ＣＣＳ）に格納された企業情報を監視及び制御するシステム及び方法」（代理人整理番号ＮＳＫＯ１００１－２）（現在、２０１８年３月２７日発行の米国特許第９，９２８，３７７号）。

２０１６年３月１１日出願の米国仮出願第６２／３０７，３０５号、発明の名称「クラウド・コンピューティング・サービスのデータ欠損トランザクションにおいてマルチパート・ポリシーを実施するシステム及び方法」（代理人整理番号ＮＳＫＯ１００３－１）の利益を主張する、２０１６年１２月０２日出願の米国出願第１５／３６８，２４６号、発明の名称「クラウド・コンピューティング・サービス用ミドルウェア・セキュリティ層」（代理人整理番号ＮＳＫＯ１００３－３）。

チェン、イタール、ナラヤナスワミー、及び、マルムスコッグ、「ダミー用のクラウド・セキュリティ、ネットスコープ・スペシャルエディション」、ジョン・ワイリー・アンド・サンズ、２０１５年。

「ネットスコープ・イントロスペクション」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行。

「クラウドにおけるデータ損失防止及びモニタリング」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行。

「クラウド・データ損失防止リファレンス・アーキテクチャ」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行。

「クラウド・コンフィデンスへの５つのステップ」、ネットスコープ、インク（ＮｅｔＳｃｏｐｅ，Ｉｎｃ）発行。

「ネットスコープ・アクティブ・プラットフォーム」ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行。

「ネットスコープ・アドヴァンテージ：クラウド・アクセス・セキュリティ・ブローカのための３つの“必携”要件」ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行。

「１５の重要ＣＡＳＢ使用事例」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行。

「ネットスコープ・アクティブ・クラウドＤＬＰ」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行。

「クラウド・データ侵害の衝突コースを修復する」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行。

「ＮｅｔｓｋｏｐｅＣｌｏｕｄＣｏｎｆｉｄｅｎｃｅＩｎｄｅｘ（商標）」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行。

以上の資料は、ここに完全に記載されているかの如く、参照により組み込まれる。

開示される技術は一般に、ネットワーク配信サービスのためのセキュリティに関し、特に、画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、セキュリティ・サービスを適用しながら、画像由来識別ドキュメントの損失を防ぐことに関する。開示される技術はまた、スクリーンショット画像を検出し、スクリーンショット由来データの損失を防ぐことに関する。更に、別個の組織は、開示された技術を利用して、画像由来識別ドキュメントを検出し、組織内からスクリーンショット画像を検出することができ、その結果、潜在的に機密データを有する組織の画像は、データ損失防止サービスプロバイダに共有される必要がない。

本セクションで議論される主題は本セクションにおけるその言及の結果、単に従来技術であると仮定すべきではない。同様に、本セクションで述べた問題または背景技術として提供された主題に関連する問題は従来技術内で既に認識されたものと仮定すべきではない。本セクションの主題は単に様々なアプローチを示しているに過ぎず、また、それ自体または自発的に、請求項に記載の技術の実施に対応し得る。

個人を特定可能な情報（ＰＩＩ）、保護された健康情報(ＰＨＩ)、知的財産（ＩＰ）等の機密情報の漏洩を防止するために、データ損失防止（ＤＬＰ）技術がセキュリティ産業において広く使用されている。大企業も中小企業もＤＬＰ製品を使用している。斯かる機密情報は、ドキュメント及び画像を含む様々なソース内に存在する。如何なるＤＬＰ製品においても、ドキュメント及び画像内の機密情報を高い精度及び計算効率で検出できることが重要である。

テキスト・ドキュメントに対して、ＤＬＰ製品は文字列と正規表現ベースのパターン・マッチングを使用して機密情報を識別する。画像に対しては、光学式文字認識（ＯＣＲ）技術が最初にテキスト文字を抽出するために使用されてきた。次に、抽出された文字は、機密情報を検出するために同じパターン・マッチング処理に送られる。歴史的に、ＯＣＲは、計算資源を多く必要とし、特に、画像がぼやけている、汚れている、回転している、または反転しているとき等、理想的な状態にないときには、精度が不十分であるため、あまりうまく機能しない。

トレーニングは自動化することができるが、トレーニング・データを正しいフォーマットで組み立て、十分な記憶容量及び計算能力を有する計算の中央ノードにデータを送るという問題が残っている。多くの分野では、個人を特定可能なプライベート・データを任意の中央機関に送信することは、データ・セキュリティ、データ所有権、プライバシ保護、並びにデータの適切な許可及び使用を含むデータ・プライバシーに関する懸念を引き起こす。

ディープラーニングは、多層ネットワークをデータに適用する。近年、画像分類においてディープラーニング技術が益々用いられるようになってきている。ディープラーニングは、高価なＯＣＲ処理を経ることなく、機密情報を有する画像を検出することができる。ディープラーニング・アプローチの重要な課題は、実世界の分布を表す多数の高品質のラベル付けされた画像の必要性である。残念ながら、ＤＬＰの場合、高品質のラベル付けされた画像は、典型的には、本物のパスポート画像及び本物の運転免許証画像等の機密情報を有する実画像を利用する。これらのデータ・ソースは元来、大規模に獲得することが困難である。この制限は、ＤＬＰ製品におけるディープラーニングに基づく画像分類の採用を妨げる。

画像内の識別ドキュメントを、効率的に、２０～２５％ほどの脅威検出効果の改善を伴って検出し、画像由来識別ドキュメントの機密データの損失を防ぐ機会が生じる。更に、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ機会が存在し、その結果、ＳａａＳを使用する顧客によって利用されるセキュリティ・システムにおけるコスト及び時間の節約につながる可能性がある。

図面において、同様の参照符号は一般的に異なる図を通して同様の部品を指す。また、図面は必ずしも一定の縮尺ではなく、代わりに、開示された技術の原理を図解することに一般的に重点が置かれている。以下の説明では、開示された技術の様々な実施態様が以下の図面を参照して説明される。

クラウド内でセキュリティ・サービスを適用しながら、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐためのシステムのアーキテクチャ・レベル概略図を示す。開示されたシステムはまた、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐことができる。

画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、クラウド内のセキュリティ・サービスを適用しながら、画像由来識別ドキュメントの損失を防ぎ、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐためのアーキテクチャの画像由来機密データの検出態様を示す。

開示される技術の一実施態様による、画像内の識別ドキュメントを検出し、スクリーンショット画像を検出するためのシステムで使用するように設定可能な、画像分類のための畳み込みニューラル・ネットワーク・アーキテクチャ・モデルを使用して実施されるディープラーニング・スタックの構成図を示す。

トレーニングされたパスポート及び運転免許証分類器の精度及びリコール結果を示す。

画像の分布としてグラフ化された、画像を分類するための実行時間結果を示す。

米国の運転免許証で機密画像を分類するためのベンチマーキング結果を示す。

画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐためのディープラーニング・スタックをトレーニングするためのワークフロー例を示す。

リストされたコスト付の在庫リストを有するスクリーンショット例を示す。

図８Ａ、図８Ｂ、図８Ｃ、及び図８Ｄは、４つの誤検知スクリーンショット画像を示す。

凡例ウィンドウ及び上下の点線のためにスクリーンショットとして誤分類されたアイダホマップを示す。

画像全体が黒い背景内にＰＩＩを含むウィンドウであり、ＵＮＩＴＥＤ・ＳＴＡＴＥＳバーをヘッダ・バーとして扱うことができるので、スクリーンショットとして誤分類された運転免許証画像を示す。

ＰＩＩを含む主要なウィンドウとして、パスポート画像を示しており、中央底部の陰影部分が、分類器にそれがアプリケーション・バーであると誤解させる可能性がある。

テキスト情報及び一様な背景を含むメジャー・ウィンドウ内の文字を示す。

画像内の識別ドキュメントの検出を実施し、画像由来識別ドキュメントの損失を防ぐために使用することができ、開示される技術の一実施形態による、スクリーンショット画像を検出し、画像由来スクリーンショットの損失を防ぐために使用することができるコンピュータ・システムの簡略化されたブロック図である。

画像内の識別ドキュメントの検出を実施し、画像由来識別ドキュメントの損失を防ぐように構成することができ、スクリーンショット画像を検出し、画像由来スクリーンショットの損失を防ぐために使用することができる、１または複数のコンピュータのシステムのためのワークフローを示す。

以下の詳細な説明は、図面を参照して行われる。例示的な実施態様は、特許請求の範囲によって規定される技術的範囲を限定するためではなく、開示される技術を例示するために説明される。当業者であれば、以下の説明に対して様々な均等な変形を認識するのであろう。

ディープラーニング技術を使用することにより、ドキュメント及び画像由来の機密情報の検出を強化し、既存の高価なＯＣＲ処理を経ることなく、機密情報を有する画像を検出することができる。ディープラーニングは、最適化を使用して、最良の予測を行うためのモデルの最適パラメータ値を見つける。ディープラーニングに基づく画像分類は、典型的には機密情報を有する多数のラベル付けされた画像を必要とし、これらは大規模に取得することが困難であり、この制約は、ＤＬＰ製品におけるディープラーニングに基づく画像分類の採用を妨げる。

開示されたイノベーションは、機密情報を含む多数のラベル付けされた画像を事前に必要とせずに、データ損失防止（ＤＬＰ）製品においてディープラーニングに基づく画像分類を適用する。今日利用可能な多くの事前にトレーニングされた汎用ディープラーニング・モデルは、公共のＩｍａｇｅＮｅｔデータセット及び他の同様のソースを使用する。これらのディープラーニング・モデルは、典型的には猫、犬、車等のような一般的なオブジェクトを分類する能力を有する多層畳み込みニューラル・ネットワーク（ＣＮＮ）である。開示された技術は、ＣＮＮモデルの最後の数層を再トレーニングするために、パスポート及び運転免許証画像のような少数の専門化されたラベル付けされた画像を使用する。このようにして、ディープラーニング（ＤＬ）スタックは、機密データを含む多数のラベル付けされた画像を必要とせずに、これらの特定の画像を高精度で検出することができる。

顧客配備中のＤＬＰ製品は、顧客のプロダクション・トラフィックを処理し、新しいラベルを連続的に生成することができる。プライバシ問題を最小限に抑えるために、オンライン学習を用いて新しいラベルをプロダクション環境内に保持することができ、十分なバッチの新しいラベルが蓄積するときはいつでも、同様の数のネガティブ画像を注入して、プログレッシブ学習を用いて既存のディープラーニング・モデルを漸進的に精緻化するために利用することができる、新しいバランスのとれた漸進的データセットを作成することができる。

オンライン学習及びプログレッシブ学習を用いても、典型的なディープラーニング処理は、画像ドキュメントまたはスクリーンショット内の機密データの存在を予測するための洗練されたモデルを作成するために、オリジナル画像及び新たに追加された画像の入力を必要とする。これは、システムが、プロダクションで生成された新しいラベル付けされた画像をプロダクションで長期間保存する必要があることを意味する。プロダクション環境では、ユーザのプライベート・データは、画像やラベルをオフラインで保存する場合よりも、より安全であるが、機密データが永続的なストレージに保存される場合は、画像を保存するとプライバシの問題が発生する。

開示された方法は、ニューラルネットワークとも呼ばれるディープラーニング・スタックの出力を保存し、生画像の代わりに抽出された特徴を記憶する。一般的なニューラルネットワークでは、特徴の最終セットが最後の分類器のために抽出される前に、生画像が多くの層を通過する。これらの特徴は、元の生画像に逆変換することはできない。開示された技術のこの特徴は、プロダクション画像における機密情報の保護を可能にし、モデルの保存された特徴は、将来分類器を再トレーニングするために使用可能である。

開示された技術は多数のラベル付けされた画像を事前に必要とせずに、機密情報を有する画像及びスクリーンショット画像を分類する際に、精度及び高い性能を提供する。本技術はまた、プライバシの懸念なしに、精度及びカバレージを連続的に改善するために、プロダクション画像の活用を可能にする。

開示されたイノベーションは、マシンラーニング分類を利用し、機密画像コンテンツを検出してポリシーを実施する能力を更に広げ、本明細書で説明されるように、ネットスコープ・クラウド・アクセス・セキュリティ・ブローカ（Ｎ－ＣＡＳＢ）のコンテキストにおいて、クラウド内でプロキシされたネットワーク・トラフィックに画像分類及びスクリーンショット検出の進歩を適用する。

画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、クラウド内の画像由来識別ドキュメントの損失を防ぐとともに、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐためのシステム例について、次に説明する。
［アーキテクチャ］

図１Ａは、画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、クラウド内の画像由来識別ドキュメントの損失を防ぐためのシステム１００のアーキテクチャ・レベルの概略図を示す。システム１００はまた、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐことができる。図１Ａはアーキテクチャ図であるため、説明の明確性を向上させるために、特定の詳細は意図的に省略されている。図１Ａの説明は、以下のように編成される。最初に、図の要素を説明し、次に、それらの相互接続を説明する。次に、システムにおける要素の使用について、より詳細に説明する。図１Ｂは、システムの画像由来機密データの検出態様を示し、後で説明される。

システム１００は、組織ネットワーク１０２と、ネットスコープ・クラウド・アクセス・セキュリティ・ブローカ（Ｎ－ＣＡＳＢ）１５５を有するデータ・センタ１５２と、クラウドベースのサービス１０８とを含む。システム１００は、マルチテナント・ネットワークとも呼ばれる、セキュリティ・サービス・プロバイダの複数の加入者のための複数の組織ネットワーク１０４と、ブランチとも時々呼ばれる複数のデータ・センタ１５４とを含む。組織ネットワーク１０２は、コンピュータ１１２ａ－ｎ、タブレット１２２ａ－ｎ、携帯電話１３２ａ－ｎ及びスマートウォッチ１４２ａ－ｎを含む。別の組織ネットワークでは、組織ユーザが追加のデバイスを利用する場合がある。クラウドサービス１０８は、クラウドベースのホスティング・サービス１１８、ウェブメール・サービス１２８、ビデオ、メッセージング及び音声通話サービス１３８、ストリーミング・サービス１４８、ファイル転送サービス１５８、及びクラウドベースのストレージ・サービス１６８を含む。データ・センタ１５２は、公衆ネットワーク１４５を介して組織ネットワーク１０２及びクラウドベースのサービス１０８に接続する。

図１Ａの説明を続けると、開示された拡張ネットスコープ・クラウド・アクセス・セキュリティ・ブローカ（Ｎ－ＣＡＳＢ）１５５は、認可された及び認可されていないクラウド・アプリにおけるアクセス及びアクティビティを管理し、機密データを保護し、その損失を防止し、内部及び外部の脅威から保護することに加えて、ＳＩＰを介したＳｋｙｐｅ、音声、ビデオ、及びメッセージング・マルチメディア通信セッション、及び、他のプロトコルを介したウェブ・トラフィックのみならず、ＢＴ、ＦＴＰ、及びＵＤＰベースのストリーミング・プロトコルを介したＰ２Ｐトラフィックも、安全に処理する。Ｎ－ＣＡＳＢ１５５は、データ損失防止のために、アイデンティティ検出及び機密スクリーンショット検出のためにマシンラーニング分類を利用し、更に、機密画像コンテンツを検出してポリシーを実施する能力を拡張する。Ｎ－ＣＡＳＢ１５５は、システムのユーザを識別し、アプリケーションに対してポリシーを設定するアクティブ・アナライザ１６５及びイントロスペクティブ・アナライザ１７５を含む。イントロスペクティブ・アナライザ１７５は、休止中のデータを検査するためにクラウドベースのサービス１０８と直接に相互作用する。ポーリング・モードでは、イントロスペクティブ・アナライザ１７５が、ＡＰＩコネクタを使用してクラウドベースのサービスを呼び出し、クラウドベースのサービスに常駐するデータをクロールし、変化をチェックする。例えば、Ｂｏｘ（商標）ストレージ・アプリケーションは、ＢｏｘコンテンツＡＰＩ（商標）という管理ＡＰＩを提供する。この管理ＡＰＩは、Ｂｏｘフォルダの監査ログ等を含む、すべてのユーザの組織のアカウントへの可視性を提供し、これらを検査することで、認証情報が漏洩した特定の日付以降に機密ファイルがダウンロードされたかどうかを判断できる。イントロスペクティブ・アナライザ１７５は、このＡＰＩをポーリングして、アカウントの何れかに対して行われた任意の変更を発見する。変化が発見されると、ボックス・イベントＡＰＩ（商標）がポーリングされ、詳細なデータ変化が発見される。コールバック・モデルでは、イントロスペクティブ・アナライザ１７５が、ＡＰＩコネクタを介してクラウドベースのサービスに、重大なイベントが通知されるように登録する。例えば、イントロスペクティブ・アナライザ１７５は、マイクロソフトＯｆｆｉｃｅ３６５ＷｅｂｈｏｏｋｓＡＰＩ(商標）を使用して、何時ファイルが外部で共有されたかを知ることができる。イントロスペクティブ・アナライザ１７５はまた、ディープＡＰＩ検査、ディープ・パケット検査、及びログ検査機能を有し、様々なコンテンツ検査技術をクラウドベースのサービス内の静止しているファイルに適用して、ストレージ１８６に格納されたポリシー及び規則に基づいて、どのドキュメント及びファイルが機密であるかを決定するＤＬＰエンジンを含む。イントロスペクティブ・アナライザ１７５による検査の結果、ユーザごとのデータ及びファイルごとのデータが生成される。

図１Ａの説明を続けると、Ｎ－ＣＡＳＢ１５５は、抽出エンジン１７１、分類エンジン１７２、セキュリティ・エンジン１７３、管理プレーン１７４、及びデータ・プレーン１８０を含むモニタ１８４を更に備える。また、Ｎ－ＣＡＳＢ１５５は、ディープラーニング・スタック・パラメータ１８３、特徴及びラベル１８５、コンテンツ・ポリシー１８７、コンテンツ・プロファイル１８８、コンテンツ検査ルール１８９、企業データ１９７、顧客１９８及びユーザ・アイデンティティ１９９のための情報を含むストレージ１８６を更に備える。企業データ１９７は、知的財産、非公開の財務情報、戦略的計画、顧客リスト、顧客または従業員に属する個人を特定可能な情報（ＰＩＩ）、患者健康データ、ソースコード、営業秘密、予約情報、提携契約、企業プラン、合併及び買収文書、並びに他の機密データを含むが、これらに限定されない組織データを含むことができる。特に、「企業データ」という用語は、ドキュメント、ファイル、フォルダ、ウェブページ、ウェブページのコレクション、画像、またはその他のテキストベースのドキュメントを指す。ユーザ・アイデンティティは、トークン、ＵＵＩＤのような固有アイデンティティ、公開鍵証明書等の形態で、ネットワーク・セキュリティ・システムによってクライアント・デバイスに提供されるインジケータを参照する。幾つかのケースでは、ユーザ・アイデンティティを特定のユーザと特定のデバイスにリンクできる。したがって、同じ個人が携帯電話とコンピュータで異なるユーザ・アイデンティティを持つことができる。ユーザ・アイデンティティは、エントリまたはユーザＩＤの企業・アイデンティティ・ディレクトリにリンクできるが、これとは異なる。一実施態様では、ネットワーク・セキュリティによって署名された暗号証明書がユーザ・アイデンティティとして使用される。他の実施態様では、ユーザ・アイデンティティはユーザにのみ固有であり、デバイス間で同一であることが可能である。

実施形態は、シングル・サインオン（ＳＳＯ）ソリューション、及び／または、マイクロソフトのアクティブ・ディレクトリ等の企業・アイデンティティ・ディレクトリと相互運用することもできる。斯かる実施形態は、カスタム属性を使用して、例えば、グループまたはユーザ・レベルの何れかで、ポリシーがディレクトリ内で定義されることを可能にしてもよい。システムで設定されたホスト・サービスも、システム経由のトラフィックを要求するように設定される。これは、ホスト・サービスでのＩＰ範囲制限を、システム及び／またはシステムとＳＳＯシステム間の統合のＩＰ範囲に設定することよって実行できる。例えば、ＳＳＯソリューションとの統合は、サインオンを許可する前にクライアント・プレゼンス要件を実施することができる。他の実施形態は、ＳａａＳベンダーと共に“プロキシアカウント”、例えば、サービスにサインインするための唯一の信用証明を保持するシステムによって保持される専用アカウントを使用してもよい。他の実施形態では、クライアントが、ログインをホスト・サービスに渡す前に、サインオン信用証明を暗号化してもよく、これはネットワーク・セキュリティ・システムがパスワードを“所有する”ことを意味する。

ストレージ１８６は、１または複数のテナントからの情報を共通データベース画像のテーブルに記憶して、マルチ・テナント・データベース・システム（ＭＴＤＳ）のような多くの方法で実施可能なオンデマンド・データベース・サービス（ＯＤＤＳ）を形成することができる。データベース画像には、１または複数のデータベース・オブジェクトを含めることができる。他の実施態様では、データベースは、リレーショナル・データベース管理システム（ＲＤＢＭＳ）、オブジェクト指向データベース管理システム（ＯＯＤＢＭＳ）、分散ファイル・システム（ＤＦＳ）、スキーマ無しデータベース、または他の任意のデータ格納システムまたはコンピューティング・デバイスであり得る。幾つかの実施態様では、収集されたメタデータが処理及び／または正規化される。場合によっては、メタデータは、クラウドサービス１０８によって提供される構造化データ及び機能ターゲット特有のデータ構造を含む。フリーテキスト等の非構造化データも、クラウドサービス１０８によって提供され、クラウドサービス１０８に戻す対象とすることができる。構造化データ及び非構造化データの両方は、イントロスペクティブ・アナライザ１７５によって集約することができる。例えば、アセンブルされたメタデータは、ＪＳＯＮ（ＪａｖａＳｃｒｉｐｔＯｐｔｉｏｎＮｏｔａｔｉｏｎ）、ＢＳＯＮ（ＢｉｎａｒｙＪＳＯＮ）、ＸＭＬ、Ｐｒｏｔｏｂｕｆ、ＡｖｒｏまたはＴｈｒｉｆｔオブジェクトのような半構造化データ形式で保存される。これらは、文字列フィールド（または列）と、数字、文字列、オブジェクト、配列、オブジェクト等の潜在的に様々なタイプの対応する値で構成される。ＪＳＯＮオブジェクトは、ネストでき、フィールドは、他の実施態様では、配列、ネストされた配列等に複数値化することができる。これらのＪＳＯＮオブジェクトは、ＡｐａｃｈｅＣａｓｓａｎｄｒａ（商標）１５８、Ｇｏｏｇｌｅ’ｓＢｉｇＴａｂｌｅ（商標）、ＨＢａｓｅ（商標）、Ｖｏｌｄｅｍｏｒｔ（商標）、ＣｏｕｃｈＤＢ（商標）、ＭｏｎｇｏＤＢ（商標）、Ｒｅｄｉｓ（商標）、Ｒｉａｋ（商標）、Ｎｅｏ４ｊ（商標）等のようなスキーマレスまたはＮｏＳＱＬキー値メタデータ・ストア１４８に格納され、これはＳＱＬ内のデータベースと等価なキースペースを使用して、解析されたＪＳＯＮオブジェクトを格納する。各キースペースは、テーブルに類似し、行及び列のセットを含む列ファミリに分割される。

一実施態様では、イントロスペクティブ・アナライザ１７５が、入力メタデータを分析し、受信したデータ内のキーワード、イベント、ユーザＩＤ、位置、人口統計、ファイル・タイプ、タイムスタンプ等を識別するメタデータ・パーサ（明瞭性のため図示省略）を含む。イントロスペクティブ・アナライザ１７５によって分析されるメタデータは均質ではない（例えば、多くの異なるフォーマットに多くの異なるソースがある）ので、或る実施態様は、クラウドサービス毎に少なくとも１つのメタデータ・パーサを使用し、場合によっては複数のメタデータ・パーサを使用する。他の実施態様では、イントロスペクティブ・アナライザ１７５がモニタ１８４を使用してクラウドサービスを検査し、コンテンツ・メタデータを組み立てる。１つの使用事例では、機密ドキュメントの識別がドキュメントの事前検査に基づく。ユーザは手動でドキュメントに機密とタグ付けすることができ、この手動タグ付けによってクラウドサービスのドキュメント・メタデータが更新される。その後、公開されたＡＰＩを使用してクラウドサービスからドキュメント・メタデータを取得し、機密性のインジケータとして使用することができる。

図１Ａの説明を更に続けると、システム１００は、任意の数のクラウドベースのサービス１０８、すなわち、ポイント・ツー・ポイント・ストリーミング・サービス、ホスト・サービス、クラウド・アプリケーション、クラウド・ストア、クラウド・コラボレーション、及びメッセージング・プラットフォーム、並びにクラウド顧客関係管理（ＣＲＭ）プラットフォームを含むことができる。これらのサービスには、ＢｉｔＴｏｒｒｅｎｔ（ＢＴ）、ユーザ・データ・プロトコル（ＵＤＰ）ストリーミング、及びファイル転送プロトコル（ＦＴＰ）等のポータル・トラフィック用プロトコルを介したピア・ツー・ピア・ファイル共有（Ｐ２Ｐ）、インターネットプロトコル（ＩＰ）を介したインスタント・メッセージや、セッション開始プロトコル（ＳＩＰ）及びＳｋｙｐｅを介したＬＴＥ(ＶｏＬＴＥ)を介した携帯電話通話等の音声、ビデオ、及びメッセージング・マルチメディア通信セッションを含めることができる。これらのサービスは、インターネット・トラフィック、クラウド・アプリケーション・データ、及び汎用ルーティング・カプセル化（ＧＲＥ）データを処理できる。ネットワーク・サービスまたはアプリケーションは、ウェブベース（例えば、ユニフォーム・リソース・ロケータ（ＵＲＬ）経由でアクセスされる）であったり、または同期クライアント等のネイティブであったりすることができる。例として、ソフトウェア・アズ・ア・サービス（ＳａａＳ）の提供、プラットフォーム・アズ・ア・サービス（ＰａａＳ）の提供、及び、インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）の提供、並びに、ＵＲＬを介して公開される内部企業アプリケーションが含まれる。今日一般的なクラウドベースのサービスの例としては、Ｓａｌｅｓｆｏｒｃｅ．ｃｏｍ（商標）、Ｂｏｘ（商標）、Ｄｒｏｐｂｏｘ（商標）、ＧｏｏｇｌｅＡｐｐｓ（商標）、ＡｍａｚｏｎＡＷＳ（商標）、ＭｉｃｒｏｓｏｆｔＯｆｆｉｃｅ３６５（商標）、Ｗｏｒｋｄａｙ（商標）、ＯｒａｃｌｅｏｎＤｅｍａｎｄ（商標）、Ｔａｌｅｏ（商標）、Ｙａｍｍｅｒ（商標）、Ｊｉｖｅ（商標）、Ｃｏｎｃｕｒ（商標）等がある。

システム１００の要素の相互接続において、ネットワーク１４５は、コンピュータ１１２ａ－ｎ、タブレット１２２ａ－ｎ、携帯電話１３２ａ－ｎ、スマートウォッチ１４２ａ－ｎ、クラウドベースのホスティング・サービス１１８、ウェブ電子メール・サービス１２８、ビデオ、メッセージング及び音声コールサービス１３８、ストリーミング・サービス１４８、ファイル転送サービス１５８、クラウドベースの記憶サービス１６８、及びＮ－ＣＡＳＢ１５５を通信状態に結合する。通信パスは、パブリック・ネットワーク、及び／またはプライベート・ネットワークを介したポイント・ツー・ポイントにすることができる。通信は、プライベート・ネットワーク、ＶＰＮ、ＭＰＬＳ回線、またはインターネット等の様々なネットワークを介して行われ、適切なアプリケーション・プログラム・インタフェース（ＡＰＩ）、及び、ＲＥＳＴ、ＪＳＯＮ、ＸＭＬ、ＳＯＡＰ、ＪＭＳ等のデータ交換フォーマットを使用できる。全ての通信は暗号化することができる。この通信は一般に、ＬＡＮ(ローカル・エリア・ネットワーク）、ＷＡＮ(ワイド・エリア・ネットワーク）、電話網（公衆交換電話網）、セッション開始プロトコル（ＳＩＰ）、ワイヤレス・ネットワーク、ポイント・ツー・ポイント・ネットワーク、星型ネットワーク、トークン・リング型ネットワーク，ハブ型ネットワーク、及び、ＥＤＧＥ、３Ｇ、４G ＬＴＥ、Ｗｉ－Ｆｉ、ＷｉＭＡＸ等のプロトコルを介したモバイル・インターネットを含むインターネット等のネットワークを介して行われる。更に、ユーザ名／パスワード、オープン認証（ＯＡｕｔｈ）、Ｋｅｒｂｅｒｏｓ、ＳｅｃｕｒｅＩＤ、デジタル証明書等の様々な承認及び認証技術を使用して、通信を保護することができる。

更に、図１Ａのシステムアーキテクチャの説明を続ける。Ｎ－ＣＡＳＢ１５５は、互いに通信するように結合された１または複数のコンピュータ及びコンピュータ・システムを含むことができるモニタ１８４及びストレージ１８６を含む。また、それらは、１または複数の仮想コンピューティング及び／または記憶リソースであってもよい。例えば、モニタ１８４は、１または複数のＡｍａｚｏｎＥＣ２インスタンスとすることができ、ストレージ１８６は、ＡｍａｚｏｎＳ３（商標）ストレージとすることができる。直接物理コンピュータまたは従来の仮想マシン上でＮ－ＣＡＳＢ１５５を実装するのではなく、Ｓａｌｅｓｆｏｒｃｅ社のＲａｃｋｓｐａｃｅ、Ｈｅｒｏｋｕ、またはＦｏｒｃｅ．ｃｏｍ等の他のコンピューティング・アズ・サービス・プラットフォームを使用することができる。更に、１または複数のエンジンを使用することができ、１または複数のポイント・オブ・プレゼンス（ＰＯＰ）を確立して、セキュリティ機能を実施することができる。図１Ａのエンジンまたはシステム・コンポーネントは、様々なタイプのコンピューティング・デバイス上で実行されるソフトウェアによって実装される。デバイスの例としては、ワークステーション、サーバ、コンピューティング・クラスタ、ブレード・サーバ、サーバ・ファーム、または、その他のデータ処理システムやコンピューティング・デバイス等がある。エンジンは、異なるネットワーク接続を介してデータベースに通信可能に結合することができる。例えば、抽出エンジン１７１は、ネットワーク１４５（例えば、インターネット）を介して結合することができ、分類エンジン１７２は、直接ネットワーク・リンクを介して結合することができ、セキュリティ・エンジン１７３は、更に異なるネットワーク接続によって結合することができる。開示された技術では、データ・プレーン１８０のＰＯＰがクライアントの構内でホストされるか、またはクライアントによって制御される仮想プライベート・ネットワーク内に配置される。

Ｎ－ＣＡＳＢ１５５は、管理プレーン１７４及びデータ・プレーン１８０を介して様々な機能を提供する。一実施態様によれば、データ・プレーン１８０は、抽出エンジン１７１と、分類エンジン１７２と、セキュリティ・エンジン１７３とを含む。制御プレーンのような他の機能を提供することもできる。これらの機能は集合的に、クラウドサービス１０８と組織ネットワーク１０２との間の安全なインタフェースを提供する。Ｎ－ＣＡＳＢ１５５を説明するために「ネットワーク・セキュリティ・システム」という用語を使用するが、より一般的には、このシステムは、セキュリティだけでなく、アプリケーション可視性及び制御機能も提供する。一例では、３５０００のクラウド・アプリケーションが、組織ネットワーク１０２内のコンピュータ１１２ａ～ｎ、タブレット１２２ａ～ｎ、携帯電話１３２ａ～ｎ、及びスマートウォッチ１４２ａ～ｎによって使用されているサーバと交差するライブラリ内に常駐する。

一実施態様によれば、組織ネットワーク１０２内のコンピュータ１１２ａ～ｎ、タブレット１２２ａ～ｎ、携帯電話１３２ａ～ｎ、及びスマートウォッチ１４２ａ～ｎは、コンテンツ・ポリシー１８７を規定及び管理するために、Ｎ－ＣＡＳＢ１５５によって提供される安全なウェブ配信インタフェースを有するウェブ・ブラウザを有する管理クライアントを含む。Ｎ－ＣＡＳＢ１５５はマルチテナント・システムであるため、管理クライアントのユーザは、幾つかの実施態様に応じて、その組織に関連付けられたコンテンツ・ポリシー１８７のみを変更することができる。幾つかの実施態様では、プログラムでポリシーを規定及び更新するためのＡＰＩを提供できる。斯かる実施態様では、管理クライアントは、１または複数のサーバ、例えば、マイクロソフト・アクティブ・ディレクトリのような企業アイデンティティ・ディレクトリを含み、更新のプッシュ、及び／またはコンテンツ・ポリシー１８７に対する更新のプル・リクエストへの応答を行うことができる。両方のシステムは共存し得る。例えば、企業アイデンティティ・ディレクトリを使用して、組織内のユーザの識別を自動化しながら、ウェブ・インタフェースを使用してポリシーをニーズに合わせて調整することができる。管理クライアントには役割が割り当てられ、Ｎ－ＣＡＳＢ１５５データへのアクセスは、役割、例えば、読取り専用対読取り書込みに基づいて制御される。

ユーザ毎のデータ及びファイル毎のデータを定期的に生成し、メタデータ・ストア１７８に保持することに加えて、アクティブ・アナライザ及びイントロスペクティブ・アナライザ（図示せず）もクラウド・トラフィック上でセキュリティ・ポリシーを実施する。アクティブ・アナライザ及びイントロスペクティブ・アナライザの機能性に関する更なる情報については、例えば、共通に所有される以下の文献を参照することができる。米国特許第９，３９８，１０２号（代理人整理番号ＮＳＫＯ１０００－２）；米国特許第９，２７０，７６５号（代理人整理番号ＮＳＫＯ１０００－３）；米国特許第９，９２８，３７７号（代理人整理番号ＮＳＫＯ１００１－２）；及び、米国出願第１５／３６８，２４６号（代理人整理番号ＮＳＫＯ１００３－３）；チェン、イタール、ナラヤナスワミー、及び、マルムスコッグ、「ダミー用のクラウド・セキュリティ、ネットスコープ・スペシャルエディション」、ジョン・ワイリー・アンド・サンズ、２０１５年；「ネットスコープ・イントロスぺクション」ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行；「クラウドにおけるデータ損失防止及びモニタリング」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行；「クラウド・データ損失防止リファレンス・アーキテクチャ」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行；「クラウド・コンフィデンスへの５つのステップ」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行；「ネットスコープ・アクティブ・プラットフォーム」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行；「ネットスコープ・アドヴァンテージ：クラウド・アクセス・セキュリティ・ブローカのための３つの“必携”要件」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行；「１５の重要ＣＡＳＢ使用事例」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行；「ネットスコープ・アクティブ・クラウドＤＬＰ」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行；「クラウド・データ侵害の衝突コースを修復する」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行；及び「ＮｅｔｓｋｏｐｅＣｌｏｕｄＣｏｎｆｉｄｅｎｃｅＩｎｄｅｘ（商標）」、ネットスコープ、インク（Ｎｅｔｓｋｏｐｅ，Ｉｎｃ）発行。以上の資料は、ここに完全に記載されているかの如く、参照により組み込まれる。

システム１００の場合、管理プレーン１７４及びデータ・プレーン１８０と共に、またはそれらに代えて、制御プレーンを使用することができる。これらのグループ間での機能の具体的な分割は、実施態様における選択肢である。同様に、機能性は、局所性、性能、及び／または安全性を改善するために、幾つかのポイント・オブ・プレゼンス（ＰＯＰ）に亘って高度に分散させることができる。一実施態様では、データ・プレーンは、構内または仮想プライベート・ネットワーク上にあり、ネットワーク・セキュリティ・システムの管理プレーンは、本明細書で説明するように、クラウドサービスまたは企業ネットワークに配置される。別の安全なネットワークの実施態様では、ＰＯＰは異なる方法で分散できる。

本明細書ではシステム１００について特定のブロックを参照して説明されるが、該ブロックは説明の便宜のために定義され、構成部品の特定の物理的配置を必要とすることを意図していないことを理解されたい。更に、該ブロックは、物理的に別個の部品に対応する必要はない。物理的に別個の部品が使用される限り、構成要素間の接続は、所望に応じて有線及び／または無線とすることができる。異なる要素またはコンポーネントは、単一のソフトウェア・モジュールに組み合わせることができ、複数のソフトウェア・モジュールは、同じハードウェア上で実行することができる。

更に、本技術は、互いに協働して通信する２つ以上の分離した別個のコンピュータ実装システムを使用して実施することができる。この技術は、プロセス、方法、装置、システム、デバイス、コンピュータ読み取り可能な命令またはコンピュータ・プログラム・コードを記憶するコンピュータ可読記憶媒体のようなコンピュータ可読媒体、または、そこに具体化されたコンピュータ読み取り可能なプログラム・コードを有するコンピュータ使用可能媒体を含むコンピュータ・プログラム製品を含む、多数の方法で実現することができる。開示される技術は、データベース・システム、または、Ｏｒａｃｌｅ（商標）互換データベース実装、ＩＢＭＤＢ２ＥｎｔｅｒｐｒｉｓｅＳｅｒｖｅｒ（商標）互換リレーショナル・データベース実装、ＭｙＳＱＬ（商標）またはＰｏｓｔｇｒｅＳＱＬ（商標）互換リレーショナル・データベース実装、またはＭｉｃｒｏｓｏｆｔＳＱＬＳｅｒｖｅｒ（商標）互換リレーショナル・データベース実装のようなリレーショナル・データベース実装、または、Ｖａｍｐｉｒｅ（商標）互換非リレーショナル・データベース実装、ＡｐａｃｈｅＣａｓｓａｎｄｒａ（商標）互換非リレーショナル・データベース実装、ＢｉｇＴａｂｌｅ（商標）互換非リレーショナル・データベース実装、または、ＨＢａｓｅ（商標）またはＤｙｎａｍｏ（商標）互換非リレーショナル・データベース実装等のＮｏＳＱＬ非リレーショナル・データベース実装を含む任意のコンピュータ実装システムのコンテキストで実施することができる。更に、開示される技術は、ＭａｐＲｅｄｕｃｅ（商標）、バルク同期プログラム、ＭＰＩプリミティブ等のような様々なプログラミング・モデル、または、ＡｍａｚｏｎＥｌａｓｔｉｃｓｅａｒｃｈＳｅｒｖｉｃｅ（商標）及びＡｍａｚｏｎＫｉｎｅｓｉｓ（商標）を含むＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ（ＡＷＳ）（商標）、ＡｐａｃｈｅＳｔｏｒｍ（商標）、ＡｐａｃｈｅＳｐａｒｋ（商標）、ＡｐａｃｈｅＫａｆｋａ（商標）、ＡｐａｃｈｅＦｌｉｎｋ（商標）、Ｔｒｕｖｉｓｏ（商標）、ＩＢＭＩｎｆｏ－Ｓｐｈｅｒｅ（商標）、Ｂｏｒｅａｌｉｓ（商標）、及び、Ｙａｈｏｏ！Ｓ４（商標）のような様々なスケーラブル・バッチ及びストリーム管理システムを使用して実施することができる

初期のディープラーニング・モデルは、トレーニングに使用されるデータセットに対して良好に機能することができる。見えない画像に対しては、性能は予測不可能である。現実世界のシナリオのデータセット・カバレッジを増加させる必要性が継続的に存在する。

図１Ｂは、組織ネットワーク１０２、データ・センタ１５２、及びクラウドベースのサービス１０８を有する、先に図１Ａに関連して説明したシステム１００の画像由来機密データの検出態様を示す。各個別の組織ネットワーク１０２は、データ損失防止機能とやり取りするためのユーザ・インタフェース１０３を有し、ディープラーニング・スタック・トレーナ１６２を有する。専用ＤＬスタック・トレーナは、組織の制御下で、組織のそれぞれの更新されたＤＬスタックを生成するように構成できる。ディープラーニング・スタック・トレーナ１６２は、マスタＤＬスタックの事前トレーニングを実行したＤＬＰプロバイダに画像内の機密データを組織が転送することなく、顧客組織がその画像及びスクリーンショット分類器の更新トレーニングを実行することを可能にする。これにより、ＰＩＩデータ及びその他の機密データがデータ損失防止プロバイダでアクセスできないように保護されるため、ＤＬＰセンターに保存された保存済み機密データを保護するための要件が削減される。ＤＬスタックのトレーニングについては、更に後述する。

図１Ｂの説明を続けると、データ・センタ１５２は、推論及びバック・プロパゲーション１６６を備えたディープラーニング・スタック１５７と、画像生成ロボット１６７とを有する、画像由来機密データ検出１５６を含むネットスコープ・クラウド・アクセス・セキュリティ・ブローカ（Ｎ－ＣＡＳＢ）１５５を含む。ディープラーニング（ＤＬ）スタック・パラメータ１８３及び特徴及びラベル１８５は、先に詳細に説明したストレージ１８６に保存される。ディープラーニング・スタック１５７は、スタックの第１セットの層からの出力として生成され、プログレッシブ・オンライン・ディープラーニングのためにそれぞれの正解ラベルと共に保持される保存された特徴及びラベル１８５を利用し、それによって、プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する。新しい画像由来識別ドキュメントが受信されると、新しいドキュメントは後述のトレーニングされたＤＬスタックによって分類できる。

画像生成ロボット１６７は、実際のパスポート画像及び米国の運転免許証画像に加えて、ディープラーニング・スタック１５７をトレーニングする際に使用するための他の画像ドキュメントの実例を生成する。一例では、画像生成ロボット１６７が、ウェブベースの検索エンジンを介して米国の運転免許証サンプル画像をクロールし、画像を検査し、忠実度の低い画像をフィルタ除去する。

画像生成ロボット１６７はまた、スクリーンショット画像及び非スクリーンショット画像の例を収集し、画像例に対するラベル付けされた正解データを作成し、機密情報を含み得るスクリーンショットの様々な変形を表す収集されたスクリーンショット画像の例のうちの少なくとも一部の再レンダリングを適用して、ウェブＵＩ自動化に使用可能なツールを活用して、ディープラーニング・スタック１５７をトレーニングするための合成データを作成する。ツールの一例として、ウェブ・ブラウザを開いたり、ウェブサイトにアクセスしたり、ドキュメントを開いたり、ページ上でクリックをシミュレートできるオープンソース・ツールＳｅｌｅｎｉｕｍがある。例えば、このツールは、プレーン・デスクトップから開始し、様々なサイズの１または複数のウェブ・ブラウザをデスクトップの様々な場所で開き、ライブ・ウェブサイトにアクセスするか、所定のローカル・ドキュメントを開くことができる。次に、これらの動作を、ブラウザ・ウィンドウの数、ブラウザ・ウィンドウのサイズ及び場所、ブラウザ・ウィンドウの相対的な位置決め等のランダム化されたパラメータを用いて繰り返すことができる。次に、画像生成ロボット１６７は、デスクトップのスクリーンショットを取得し、生成されたサンプル画像をＤＬスタック１５７に供給するためのトレーニング・データとして補強することを含めて、スクリーンショットを再レンダリングする。例えば、この処理は、画像にノイズを加え、ＤＬスタック１５７のロバスト性を高めることができる。我々のトレーニング・データに適用した補強は、画像の一部を切り抜き、色相、コントラスト及び彩度を調整することを含む。データを密かに抽出するために人々が使用するスクリーンショット画像を検出するために、反転または回転は、画像補強に追加されていない。異なる実施態様例では、他の画像ドキュメントの実例に反転及び回転を追加することができる。

図２は、画像内の識別ドキュメントを検出し、スクリーンショット画像を検出するためのシステムで使用するように構成可能な、画像分類のための畳み込みニューラルネットワーク（ＣＮＮ）アーキテクチャ・モデルを使用して実装されたディープラーニング（ＤＬ）スタック１５７のブロック図を示す。ＣＮＮアーキテクチャ・モデルの画像は、２０２０年４月２８日にhttps://towardsdatascience.com/covolutional-neural-network-cb0883dd6529からダウンロードされた。初期ＣＮＮ層への入力は、画像次元及び３つのカラー・チャネル、すなわち赤、緑及び青を有する３次元マトリックスで表される画像データ自体である。入力画像は、図２に示すように、２２４×２２４×３とすることができる。別の実施態様では、入力画像は２００×２００×３とすることができる。結果が後に示される実施態様例では、利用される画像の大きさは１６０×１６０×３であり、全体で８８層である。
1630995073802_0

ＤＬスタック１５７の説明を続けると、特徴抽出層は、畳み込み層２４５とプーリング層２５５である。開示されたシステムは、特徴抽出層の特徴及びラベル１８５出力を、畳み込み演算の多くの異なる反復を通じて処理された数値として記憶し、生画像の代わりに非可逆的特徴を保存する。抽出された特徴は、元の画像画素データに逆変換できない。すなわち、記憶された特徴は、非可逆的特徴である。入力画像データの代わりにこれらの抽出された特徴を記憶することによって、ＤＬスタックは、個人を特定可能な情報（ＰＩＩ）、保護された健康情報（ＰＨＩ）、及び知的財産（ＩＰ）等の機密情報及び個人情報を搬送することができる元画像の画素を記憶しない。

ＤＬスタック１５７は、入力層により近い第１セットの層と、入力層からより遠い第２セットの層とを含む。ＤＬスタックの第２セットの層に、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、第１セットの層は画像認識を実行するように事前トレーニングされる。開示されたＤＬスタック１５７は、最初の５０層を第１セットの層としてフリーズする。ＤＬスタック１５７は、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して、前方推論及びバック・プロパゲーション１６６によってトレーニングされる。プライベート画像由来識別ドキュメント及びスクリーンショット画像の場合、ＣＮＮアーキテクチャ・モデルは、第１セットの層からの出力として生成された特徴を捕捉し、捕捉された特徴をそれぞれの正解ラベルと共に保持し、それによって、プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する。全結合層２６５及びＳｏｆｔＭａｘ層２７５は、トレーニングされるＣＮＮの入力層からより遠い第２セットの層を含み、第１セットの層とともに、モデルは、画像中の識別ドキュメントを検出し、スクリーンショット画像を検出するために利用される。

前方推論及びバック・プロパゲーション１６６によるＤＬスタック１５７のトレーニングは、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを利用する。ＤＬスタックの第２セットの層に、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、第１セットの層は、画像認識を実行するように事前トレーニングされる。画像分類器の出力は、第２セットの層をトレーニングするために活用することができ、一例では、ＯＣＲ及び画像分類器の両方によって同じタイプとして分類された画像のみを、ラベル付けされた画像としてディープラーニング・スタックに供給する。

開示された技術は、プロダクション画像からの推論のためにトレーニングされたＤＬスタック１８３のパラメータを記憶し、記憶されたパラメータを有するプロダクションＤＬスタックを使用して、推論によって、ある使用事例では機密画像由来識別ドキュメントを、別の事例ではスクリーンショット画像を含むものとしてプロダクション画像を分類する。

１つの使用事例では、目的はパスポート画像を検出するための画像分類ディープラーニング・モデルを開発することであった。パスポートを分類するためのディープラーニング・ベースのバイナリ画像分類器を構築するための初期トレーニング・データは、５５カ国からの約５５０のパスポートを、画像由来識別ドキュメントを検出するためのラベル付けされた正解データとして使用して生成された。目的は、高い検出率でパスポートを検出することであったので、パスポートとして他の身分証明書タイプを検出することは許容できなかった。ネガティブ・データセットとして、運転免許証、身分証明書、学生識別子、軍籍身分証明書等を含む他の身分証明書タイプの画像及び非身分証明書の画像を使用した。他の身分証明書タイプの検出率を最小化するという目標を満たすために、これらの他の身分証明書画像はネガティブ・データセットにおいて使用された。

第２の使用事例では、目的は、パスポート画像及び米国の運転免許証画像を検出するための画像分類器を開発することであった。パスポートを分類するためのディープラーニング・ベースのバイナリ画像分類器を構築するためのトレーニング・データは、５５０のパスポート画像及び２４８の米国運転免許証画像を使用して生成された。実際のパスポート画像及び米国の運転免許証画像に加えて、インターネットをクロールすることによって得られた米国の運転免許証サンプル画像が、検査及び忠実度の低い画像のフィルタ除去後に含まれた。

利用可能な入力データのサブセットについて幾つかのモデルをトレーニングし、該データの補完的サブセットについてそれらを評価することによって、ＤＬスタックモデルを評価するために、交差検証技術を使用した。ｋ－分割交差検証では、入力データが、フォールドとしても知られるデータのｋ個のサブセットに分割される。得られた画像分類器の性能をチェックするために、１０－分割交差検証を適用した。米国の運転免許証のカットオフ値として０．３、パスポートのカットオフ値として０．８を選択し、モデルの精度とリコールをチェックした。

図３は、運転免許証についての精度３４５と運転免許証についてのリコール３５５、パスポートについての精度３６５とパスポート画像についてのリコール３７５、及び、ネガティブな結果とも呼ばれる非身分証明書（非運転免許証またはパスポート）についての精度３８５、及び、ネガティブな結果についてのリコール３９５を用いてグラフ化された、トレーニングされたパスポート及び運転免許証分類器について、精度及びリコール結果を示す。グラフに示されるように、精度が増加することにつれて、リコールは減少する。設計者はパスポート画像分類器の性能をチェックするために、１０－分割交差検証を使用した。誤検出率（ＦＰＲ）はテストでの非身分証明書画像について計算し、検出漏れ率（ＦＮＲ）はテストでのパスポート及び運転免許証画像について計算した。１０－分割交差検証の結果を平均し、平均したＦＰＲ及びＦＮＲを次に列挙する。
・パスポートのＦＰＲ（非身分証明書画像がパスポートに分類される）：０．７％
・米国運転免許証のＦＰＲ（非身分証明書画像が米国運転免許証に分類される）：０．３％
・パスポートのＦＮＲ（パスポート画像がパスポートに分類されない）：６％
・米国運転免許証のＦＮＲ（米国運転免許証画像が運転免許証に分類されない）：６％

図４は、様々なファイルサイズの１０００を超える画像を使用して、ＧｏｏｇｌｅＣｌｏｕｄＰｌａｔｆｏｒｍ（ＧＣＰ）（ｎ１－ｈｉｇｈｃｐｕ－６４：６４ｖＣＰＵ、５７．６ＧＢメモリ）上でモデル推論を使用してテストした画像を分類するための実行時間結果を、画像の分布としてグラフ化して示す。グラフには、ファイルサイズが２ＭＢ以下の画像の場合、画像の実行時間分布がファイルサイズの関数として表示される。実行時間は、画像を読み取った時間「ｏｐｅｎｃｖ」から、分類器が画像上でその予測を終了した時間までカウントしたものである。実行時間の平均値は４５ｍｓ、標準偏差は５６ｍｓであった。

図５は、米国運転免許証の機密画像を分類するための、市販の分類器を、開示されたディープラーニング・スタックの大幅に改善された性能と比較するベンチマーキング結果を示す。分類される画像の数は３３４である。正規表現（Ｒｅｇｅｘ）によるＯＣＲ及びパターン・マッチングを使用する市販の分類器を使用すると、３３４個の画像のうち検出される画像の数は２３８であり、これは７１．２％の検出５６６を表す。機密画像の大部分が検出され、システムは「合理的に」しかうまく機能しない。画像によっては、分類器は、ぼやけたまたは回転したテキストを抽出することができない。対照的に、ディープラーニング・スタックを利用する開示された技術は、３３４個の画像のうちの３２９個を検出し、これは、機密画像由来識別ドキュメントを含む画像の９８．５％の検出５７６を表す。

図６は、画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐためのワークフロー例６００を示す。ステップ６０５では、先に図２に関連して説明したＣＮＮのような事前トレーニングされたネットワークを選択する。ＤＬスタックは少なくとも、入力層により近い第１セットの層と、入力層からより遠い第２セットの層とを含み、第１セットの層は、画像認識を実行するように事前トレーニングされている。説明した例では、画像を検出するためのＭｏｂｉｌｅＮｅｔＣＮＮが選択された。異なるＣＮＮまたは異なるＭＬ分類器を選択することができる。ステップ６１５は、２つの使用事例について説明したように、ネガティブ画像のバランスをとった機密情報を含む画像の収集をカバーしている。ステップ６２５では、事前トレーニングされたネットワークの最終層とＣＮＮモデルの分類器の両方を再トレーニングし、ＣＮＮモデルを検証し、テストする－ステップ６１５で収集された画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して、前方推論及びバック・プロパゲーションによりＤＬスタックをトレーニングし、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データをＤＬスタックの第２セットの層に当てる。ステップ６３５で、現在のデータセット内のすべての画像について、現在のＣＮＮの抽出された特徴を保存する。ステップ６４５において、プロダクション画像から推論するために、トレーニングされたＤＬスタックの記憶されたパラメータを有するプロダクションＤＬスタックである、新しいＣＮＮモデルを展開する。ステップ６５５で、プロダクションＯＣＲから新しいラベルのバッチを収集し、画像由来情報を含まないネガティブ画像を追加する。ステップ６６５で、ＣＮＮモデルのためのトレーニング・データセットに新しい画像を追加し、新しい入力を形成する。ステップ６７５では、ＣＮＮモデルの分類器を再トレーニングし、モデルを検証し、テストした後、プロダクションＤＬスタックを使用して、少なくとも１つのプロダクション画像を、機密画像由来識別ドキュメントを含むものとして推論によって分類する。

スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ使用事例の場合、ワークフローは、ワークフロー６００に類似する。スクリーンショット画像シナリオを検出するために、画像生成ロボット１６７は、スクリーンショット画像及び非スクリーンショット画像の実例を収集し、ディープラーニング・スタック１５７をトレーニングする際に使用するために、ＯＣＲを必要とせずに、実例に対するラベル付けされた正解データを作成するスクリーンショット・ロボットである。スクリーンショット・ロボットは、収集されたスクリーンショット画像例のうちの少なくとも一部の再レンダリングを適用して、機密情報を含み得るスクリーンショットの変化を表す。ラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりＤＬスタックをトレーニングするためのトレーニング・データは、スクリーンショット画像及び非スクリーンショット画像の実例を利用する。一例では、フルスクリーンショット画像は単一のアプリケーション・ウィンドウを含み、ウィンドウサイズはフルスクリーンの５０％以上をカバーする。別の例として、フルスクリーンショット画像は複数のアプリケーション・ウィンドウを示し、更に別の例では、アプリケーション・スクリーンショット画像は単一のアプリケーション・ウィンドウを表示する。

図７は、コストがリストされた顧客の在庫リストを含むスクリーンショット画像例を示す。スクリーンショット画像を検出することによって、機密会社データのエクスフィルトレーションを阻止することができる。

スクリーンショット画像を検出するための開示された方法を使用して得られた結果の交差検証は、ＤＬスタックモデルがどの程度良く一般化するかをチェックすることに焦点を当てている。スクリーンショット画像と非スクリーンショット画像の収集例はＭＡＣの背景をもつスクリーンショット画像のために、トレーニング・セットとテスト・セットに分離された。Ｗｉｎｄｏｗｓの背景を含む画像と、Ｌｉｎｕｘ（登録商標）の背景を含む画像は、テスト専用に使用された。更に、アプリケーション・ウィンドウは、それらのカテゴリに基づいてトレーニング・セットとテスト・セットに分割された。次に、５つの別個の交差検証事例の性能について説明する。トレーニング・データの合併は、ＭＡＣ背景のトレーニングとＡｐｐウィンドウのトレーニングによって混合された合成フルスクリーンショットのセットであった。

交差検証事例１の場合、テストデータは、ＭＡＣ背景でのテスト及びＡｐｐウィンドウでのテストによって混合された合成フルスクリーンショットのセットであった。スクリーンショットの検出精度は９３％と測定された。交差検証事例２では、テストデータは、Ｗｉｎｄｏｗｓ背景でのテスト及びＡｐｐウィンドウでのテストによって混合された合成フルスクリーンショットのセットであった。スクリーンショットの検出精度は９２％と測定された。交差検証事例３では、テストデータは、Ｌｉｎｕｘ背景でのテスト及びＡｐｐウィンドウでのテストによって混合された合成フルスクリーンショットのセットであった。スクリーンショットの検出精度は８６％と測定された。交差検証事例４では、テストデータは、ＭＡＣ背景でのテスト及び複数のＡｐｐウィンドウでのテストによって混合された合成フルスクリーンショットのセットであった。これらのトレーニング及びテストデータのセットを使用したスクリーンショットの検出精度は、９７％と測定された。交差検証事例５では、テストデータは、トレーニング・アプリ・ウィンドウとは異なるアプリをテストしており、精度は８４％と測定された。

ディープラーニング・スタック・モデルのパフォーマンスは、背景ウィンドウとアプリ・ウィンドウの見えないタイプについてテストされ、次に、全ての背景画像と全てのアプリ・ウィンドウを有する合成フルスクリーンショットを用いて、４，５２８のスクリーンショットと１，９６４の非スクリーンショット画像を用いて分類器をトレーニングした。分類器のテストは、４５，１７９の画像を用いた。４５，１７９のスクリーンショットを用いた検出漏れ率（ＦＮＲ）テストの結果、９０の画像が、０．７の閾値で０．２％のＦＮＲについて検出漏れ（ＦＮ）として分類された。１，３３６の非スクリーンショット画像の誤検知率（ＦＰＲ）テストでは、４つの画像が、０．７の閾値で０．３７４％のＦＰＲについて誤検知（ＦＰ）として分類された。テスト・セット中の４つの画像は、それらが非スクリーンショット画像である場合、スクリーンショットとして誤って分類された。開示されたディープラーニング・スタック・モデルにおける多くの層は、以下の顕著な特徴を含む「スクリーンショット」を決定するために特徴を捕捉するように働く。（１）スクリーンショットは、機密情報を含む１または複数の主ウィンドウを含む傾向がある。斯かる情報は、個人情報、コード、テキスト、ピクチャ等であり得る。（２）スクリーンショットは、メニューまたはアプリケーション・バー等のヘッダ／フッタバーを含む傾向がある。（３）スクリーンショットは、アプリケーション・ウィンドウ内のコンテンツと比較して、対照的または均一な背景を有する傾向がある。４つのＦＰ画像について、画像がスクリーンショットとして分類された主な理由を次に示す。図８Ａは、凡例ウィンドウと、上下の点線とによってスクリーンショット画像として誤分類されたアイダホの地図を示す。図８Ｂは、画像全体が黒い背景にＰＩＩを含むウィンドウであり、UNITED STATESバーをヘッダ・バーとしてとらえることができるので、スクリーンショット画像として誤分類された運転免許証画像を示す。図８Ｃは、ＰＩＩを含む主要ウィンドウとしてパスポート画像を示しており、中央底部の陰影部分は分類器に、それがアプリケーション・バーであると誤解させる可能性がある。図８Ｄは、テキスト情報と、スクリーンショット画像として誤って分類された一様な背景とを含む主要ウィンドウ内の文字を示す。

幾つかの使用事例では、ＤＬＰサービスを必要とする別個の組織が、画像内の組織機密データの実例からの非可逆的特徴を、実例のための正解ラベルと組み合わせるように構成された、ローカルに動作する専用ＤＬスタック・トレーナ１６２を利用することができる。専用ＤＬスタック・トレーナは、非可逆的特徴及び正解スラベルを、非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を専用ＤＬスタック・トレーナ１６２から受信するディープラーニング・スタックに転送する。組織機密トレーニング例は、トレーニングされたマスタＤＬスタックの第２セットの層を更にトレーニングするために使用される。プロダクション画像からの推論のための第２セットの層の更新されたパラメータは、記憶され、機密データが非可逆的特徴においてアクセス可能でないので、データ・セキュリティを損なうことなく、複数の別個の組織に分配することができる。

ディープラーニング・スタック１５７のトレーニングは、異なる順序でトレーニング例を利用して、最初から開始することができる。或いは、別の例では、トレーニングは、ラベル付けされた画像例の追加されたバッチを使用して、トレーニングされたマスタＤＬスタックの第２セットの層を更にトレーニングすることができる。

追加されたバッチ・シナリオでは、サンプルが顧客組織から戻って受信されると、専用ＤＬスタック・トレーナは第２セットの層から更新された係数を転送するように構成され得る。ディープラーニング・スタック１５７は、複数の専用ＤＬスタック・トレーナから、それぞれの第２セットの層からのそれぞれの更新された係数を受信することができ、それぞれの第２セットの層からの更新された係数を組み合わせて、トレーニングされたマスタＤＬスタックの第２セットの層をトレーニングすることができる。次いで、ディープラーニング・スタック１５７は、プロダクション画像から推論するために、トレーニングされたマスタＤＬスタックの第２セットの層の更新されたパラメータを格納し、第２セットの層の更新されたパラメータを別個の顧客組織に分配することができる。

専用ＤＬスタック・トレーナ１６２は、一例では、画像由来識別ドキュメントを検出するためのトレーニングを処理することができ、別の例では、スクリーンショット画像を検出するためのトレーニングを行うことができる。

次に、画像中の識別ドキュメントを検出し、スクリーンショットを検出し、クラウド中の機密画像由来ドキュメントの損失を防ぐために使用可能なコンピュータ・システムの実施例について説明する。
［コンピュータ・システム］

図９は、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、クラウド内の画像由来識別ドキュメントの損失を防ぐために使用できるコンピュータ・システム９００の簡略化されたブロック図である。コンピュータ・システム９００はまた、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐためにも使用可能である。更に、コンピュータ・システム９００は、ディープラーニング・スタックをカスタマイズして、画像内の組織機密データを検出し、潜在的機密画像の中央集中型ＤＬＰサービスへの転送を必要とせずに、画像由来組織機密ドキュメントの損失を防ぐために使用可能である。コンピュータ・システム９００は、バス・サブシステム９５５を介して幾つかの周辺装置と通信する少なくとも１つの中央演算処理装置（ＣＰＵ）９７２と、本明細書で説明されるネットワーク・セキュリティ・サービスを提供するネットスコープ・クラウド・アクセス・セキュリティ・ブローカ（Ｎ－ＣＡＳＢ）１５５を含む。これらの周辺装置が例えば、メモリ装置及びファイル・ストレージ・サブシステム９３６を含むストレージ・サブシステム９１０、ユーザ・インタフェース入力装置９３８、ユーザ・インタフェース出力装置９７６、及びネットワーク・インタフェース・サブシステム９７４を含むことができる。入力及び出力装置は、コンピュータ・システム９００とのユーザ・インタラクションを可能にする。ネットワーク・インタフェース・サブシステム９７４は、他のコンピュータ・システム内の対応するインタフェース装置へのインタフェースを含む、外部ネットワークへのインタフェースを提供する。

一実施態様では、図１Ａ、及び図１Ｂのネットスコープ・クラウド・アクセス・セキュリティ・ブローカ（Ｎ－ＣＡＳＢ）１５５が、記憶サブシステム９１０及びユーザ・インタフェース入力デバイス９３８に通信可能にリンクされる。

ユーザ・インタフェース入力装置９３８はキーボード、マウス、トラックボール、タッチパッド、または、グラフィックス・タブレット等のポインティング・デバイス、スキャナ、ディスプレイに組み込まれたタッチ・スクリーン、音声認識システム及びマイクロフォン等のオーディオ入力装置、並びに他のタイプの入力装置を含むことができる。一般に、「入力装置」という用語の使用は、コンピュータ・システム９００に情報を入力するための全ての可能なタイプの装置及び方法を含むことが意図される。

ユーザ・インタフェース出力装置９７６は、ディスプレイ・サブシステム、プリンタ、ファックスマシン、または、オーディオ出力装置等の非視覚ディスプレイを含むことができる。ディスプレイ・サブシステムはＬＥＤディスプレイ、陰極線管（ＣＲＴ）、液晶ディスプレイ（ＬＣＤ）等のフラットパネル装置、投影装置、または、可視画像を生成するための他の何らかのメカニズムを含むことができる。ディスプレイ・サブシステムはまた、オーディオ出力装置等の非視覚ディスプレイを提供することができる。一般に、「出力装置」という用語の使用はコンピュータ・システム９００からユーザに、または別の機械もしくはコンピュータ・システムに情報を出力するための全ての可能なタイプの装置及び方法を含むことが意図される。

ストレージ・サブシステム９１０は、本明細書で説明するモジュール及び方法の一部または全部の機能を提供するプログラミング及びデータ構造を記憶する。サブシステム９７８がグラフィックス処理装置（ＧＰＵ）またはプログラマブル・ゲートアレイ（ＦＰＧＡ）とすることができる。

ストレージ・サブシステム９１０で使用されるメモリ・サブシステム９２２は、プログラム実行中に命令及びデータを格納するためのメイン・ランダムアクセス・メモリ（ＲＡＭ）９３２と、固定命令が格納される読み出し専用メモリ（ＲＯＭ）９３４とを含む、幾つかのメモリを含むことができる。ファイル・ストレージ・サブシステム９３６は、プログラム及びデータファイルのための永続的ストレージを提供することができ、ハードディスク・ドライブ、関連するリムーバブル・メディアと共にフロッピー（商標）ディスク・ドライブ、ＣＤ－ＲＯＭドライブ、光ドライブ、または、リムーバブル・メディア・カートリッジを含むことができる。特定の実施態様の機能を実施するモジュールは、ストレージ・サブシステム９１０内のファイル・ストレージ・サブシステム９３６によって、またはプロセッサによってアクセス可能な他のマシン内に格納することができる。

バス・サブシステム９５５は、コンピュータ・システム９００の様々なコンポーネント及びサブシステムに、意図されたように互いに通信させるためのメカニズムを提供する。バス・サブシステム９５５は単一のバスとして概略的に示されているが、バス・サブシステムの他に採り得る実施態様は多数のバスを使用することができる。

コンピュータ・システム９００はパーソナル・コンピュータ、ポータブル・コンピュータ、ワークステーション、コンピュータ端末、ネットワーク・コンピュータ、テレビ、サーバ、メインフレーム、広範囲に分散した一連の疎結合コンピュータ、または、任意の他のデータ処理システムもしくはユーザ・デバイスを含む様々なタイプのものとすることができる。コンピュータ及びネットワークの絶えず変化する性質のために、図９に示されるコンピュータ・システム９００の説明は、本発明の好ましい実施形態を例示する目的のための特定の実施例としてのみ意図される。コンピュータ・システム９００の多くの他の構成が図９に示されたコンピュータ・システムよりも多いまたは少ないコンポーネントを有することが可能である。

図１０は、スクリーンショット画像を検出し、スクリーンショット・データの損失を防ぐように構成することができる、１または複数のコンピュータのシステムのためのワークフロー１０００を示す。コンピュータは、動作中にシステムにアクションを実行させるソフトウェア、ファームウェア、ハードウェア、または、それらの組み合わせをシステムにインストールすることにより、特定の操作またはアクションを実行する。１または複数のコンピュータ・プログラムは、データ処理装置によって実行されると、該装置にアクションを実行させる命令を含むことによって、特定の動作またはアクションを実行するように構成することができる。幾つかの実施態様では、複数のアクションを組み合わせることができる。便宜上、このフローチャートは、ネットスコープ・クラウド・アクセス・セキュリティ・ブローカ（Ｎ－ＣＡＳＢ）と、クラウド内のセキュリティ・サービスを適用しながら動的サービス・チェーン内のロード・バランシングとを含むシステムを参照して説明される。１つの一般的な態様は、スクリーンショット画像及び非スクリーンショット画像の実例を収集すること、及び、実例に対するラベル付けされた正解データを作成すること１０１０を含む、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ方法を含む。スクリーンショット画像を検出する方法はまた、機密情報を含む可能性があるスクリーンショットの様々な変化を表すために、収集されたスクリーンショット画像例の少なくとも一部の再レンダリングを適用すること１０２０を含む。スクリーンショット画像を検出する方法はまた、スクリーンショット画像及び非スクリーンショット画像の実例に対するラベル付けされた正解データを使用して、前方推論及びバック・プロパゲーションによりディープラーニング（ＤＬ）スタックをトレーニングすること１０３０を含む。ＤＬスタックは、入力層からより遠い第２セットの層に、スクリーンショット画像及び非スクリーンショット画像についてのラベル付けされた正解データを当てる前に、入力層により近い第１セットの層を、画像認識を実行するように事前トレーニングする。スクリーンショット画像を検出する方法はまた、プロダクション画像からの推論のために、トレーニングされたＤＬスタックのパラメータを格納すること１０４０を含む。スクリーンショット画像を検出する方法はまた、少なくとも１つのプロダクション画像を推論によってスクリーンショット画像を含むものとして分類するために、格納されたパラメータとともにプロダクションＤＬスタックを使用すること１０５０を含む。この態様の他の実施形態は、それぞれが該方法の動作を実行するように構成された、対応するコンピュータ・システム、装置、及び、１または複数のコンピュータ記憶デバイス上に記録されたコンピュータ・プログラムを含む。

図１１は、動作中にシステムにアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせをシステムにインストールすることにより、特定の動作または動作を実行するように構成することができる、１または複数のコンピュータのシステムのためのワークフロー１１００を示す。１または複数のコンピュータ・プログラムは、データ処理装置によって実行されると、該装置にアクションを実行させる命令を含むことによって、特定の動作またはアクションを実行するように構成することができる。幾つかの実施態様では、複数のアクションを組み合わせることができる。便宜上、このフローチャートは、ネットスコープ・クラウド・アクセス・セキュリティ・ブローカ（Ｎ－ＣＡＳＢ）と、クラウド内のセキュリティ・サービスを適用しながら動的サービス・チェーン内のロード・バランシングとを含むシステムを参照して説明される。１つの一般的な態様は、ディープラーニング（ＤＬ）スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる画像内の組織機密データを検出し、画像由来組織機密ドキュメントの損失を防ぐ方法を含み、これには、画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりマスタＤＬスタックを事前トレーニングすることが含まれる（１１１０）。ＤＬスタックは、少なくとも、入力層により近い第１セットの層と、入力層からより遠い第２セットの層とを含み、ＤＬスタックの第２セットの層に、画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、第１セットの層が画像認識を実行するように事前トレーニングされることを更に含む（１１２０）。該方法はまた、プロダクション画像からの推論のために、トレーニングされたマスタＤＬスタックのパラメータを格納することを含む（１１３０）。該方法はまた、格納されたパラメータを有するトレーニングされたマスタＤＬスタックを複数の組織に分配することを含む（１１４０）。該方法は更に、組織が、少なくとも画像内の組織機密データの実例を使用して、トレーニングされたマスタＤＬスタックの更新トレーニングを実行し、更新されたＤＬスタックのパラメータを保存することを可能にすることを含む（１１５０）。組織は、それぞれの更新されたＤＬスタックを使用して、推論によって少なくとも１つのプロダクション画像を、組織機密ドキュメントを含むものとして分類する（１１６０）。また、該方法は、組織の制御下において、少なくとも一部の組織に専用ＤＬスタック・トレーナを提供し、画像内の組織機密データの実例をマスタＤＬスタックの事前トレーニングを実行したプロバイダに組織機密データの例を転送することなく、それぞれの更新されたＤＬスタックを生成するように構成可能な専用ＤＬスタック・トレーナを使用して、組織が更新トレーニングを実行することを可能にすることをオプションとして含むことができる（１１７０）。この態様の他の実施形態は、それぞれが該方法の動作を実行するように構成された、対応するコンピュータ・システム、装置、及び、１または複数のコンピュータ記憶デバイス上に記録されたコンピュータ・プログラムを含む。
［特定の実施態様］

画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐための幾つかの特定の実施態様及び特徴が、以下の議論で説明される。

開示された一実施態様では、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐ方法は、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して、前方推論及びバック・プロパゲーションによりディープラーニング（ＤＬ）スタックをトレーニングすることを含む。開示されたＤＬスタックは、入力層により近い第１セットの層と、入力層からより遠い第２セットの層とを少なくとも含み、更に、ＤＬスタックの第２セットの層に、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、画像認識を実行するように予めトレーニングされた第１セットの層を含む。開示された方法はまた、プロダクション画像からの推論のためにトレーニングされたＤＬスタックのパラメータを格納することと、格納されたパラメータを有するプロダクションＤＬスタックを使用して、推論によって少なくとも１つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類することとを含む。

開示される技術の本セクション及び他のセクションに記載される方法は、以下の特徴及び／または開示される追加の方法に関連して説明される特徴の１または複数を含むことができる。簡潔にするために、本出願で開示される特徴の組み合わせは、個々に列挙されておらず、特徴の各基本セットについて繰り返されていない。読者は、如何に本方法で特定された特徴を、実施態様として特定された基本特徴の集合と容易に組み合わせることができるかを理解するのであろう。

該方法の幾つかの開示された実施態様は、任意選択的に、プライベート画像由来識別ドキュメントに対して、第１セットの層からの出力として生成された特徴を捕捉し、捕捉された特徴をそれぞれの正解ラベルと共に保持し、それによってプライベート画像由来識別ドキュメントの画像を保持する必要性を排除することを含む。

開示された方法の幾つかの実施態様は、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを用いた後方プロパゲーションによるトレーニングを、第２セットの層におけるパラメータのトレーニングに制限することを含む。

本発明の開示された一実施態様では、画像の光学式文字認識（ＯＣＲ）分析が、画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けするために適用される。ＯＣＲ分析の後に、トレーニング・セットで使用するために、信頼性の高い分類を選択することができる。ＯＣＲ及び正規表現マッチングは、顧客のプロダクション画像からラベル付けされたデータを生成する自動化された方法として機能する。一例では、米国パスポートの場合、ＯＣＲはまずパスポートページ上のテキストを抽出する。次に、正規表現が、"PASSPORT"、"UNITED STATES"、"Department of State"、"USA"、"Authority"、ページ上のその他の言葉とマッチし得る。２番目の例として、カリフォルニア州の運転免許証の場合、ＯＣＲは最初に運転免許証の正面からテキストを抽出する。そして正規表現が、"California"、"USA"、"DRIVER LICENSE"、"CLASS"、"SEX"、"HAIR"、"EYES"、及び、フロントページ上のその他の言葉とマッチし得る。３番目の例として、カナダのパスポートの場合、ＯＣＲは最初にパスポートページ上のテキストを抽出する。そして正規表現が、"PASSPORT"、"PASSEPORT"、"CANADA"、及び、該ページ上のその他の言葉とマッチし得る。

本発明の幾つかの開示された実施態様では、バック・プロパゲーションによってＤＬスタックをトレーニングするときに、画像由来識別ドキュメントの第１セットの遠近感が歪められて、画像由来識別ドキュメントの第２セットを生成し、第１及び第２セットがラベル付けされた正解データと結合される。

該方法の開示された他の実施態様では、バック・プロパゲーションによってＤＬスタックをトレーニングするときに、第１セットの画像由来識別ドキュメントが回転によって歪められて、第３セットの画像由来識別ドキュメントが生成され、第１及び第３セットをラベル付けされた正解データと結合される。

本発明の開示された一実施態様では、バック・プロパゲーションによってＤＬスタックをトレーニングするときに、第１セットの画像由来識別ドキュメントがノイズによって歪められて、第４セットの画像由来識別ドキュメントが生成され、第１及び第４セットがラベル付けされた正解データと結合される。

本発明の開示された幾つかの実施態様では、バック・プロパゲーションによってＤＬスタックをトレーニングするときに、第１セットの画像由来識別ドキュメントの焦点が歪んで、第５セットの画像由来識別ドキュメントが生成され、第１及び第５セットがラベル付けされた正解データと結合される。

幾つかの実施態様では、開示される方法が、機密個人情報の保存を回避するために、元の正解画像ではなく、現行のトレーニング正解画像の非可逆的ＤＬ特徴を格納することを含み、トレーニング・セットを増強するために、新しい正解画像の非可逆的ＤＬ特徴を定期的に追加することと、より正確にするために、増強されたトレーニング・データセットを定期的に再トレーニングすることとを含む。非可逆的ＤＬ特徴は、認識可能な機密データを有する画像に変換することができない。

スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐための幾つかの特定の実施態様と特徴について、以下の議論で説明する。

開示される一実施態様では、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ方法は、スクリーンショット画像及び非スクリーンショット画像の実例を収集することと、実例に対するラベル付けされた正解データを作成することとを含む。該方法はまた、収集されたスクリーンショット画像例のうちの少なくとも一部の再レンダリングを適用して、機密情報を含み得るスクリーンショットの様々な変化を表すことと、スクリーンショット画像及び非スクリーンショット画像の実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりＤＬスタックをトレーニングすることとを含む。本方法は更に、プロダクション画像からの推論のためにトレーニングされたＤＬスタックのパラメータを格納するステップと、格納されたパラメータを有するプロダクションＤＬスタックを使用して、機密画像由来スクリーンショットを含むものとして推論によって少なくとも１つのプロダクション画像を分類するステップとを含む。

開示される方法の幾つかの実施態様は更に、スクリーンショット・ロボットを適用して、スクリーンショット画像及び非スクリーンショット画像の実例を収集することを含む。

開示される方法の一実施態様では、ＤＬスタックが入力層により近い第１セットの層と、入力層からより遠い第２セットの層とを少なくとも含み、更に、ＤＬスタックの第２セットの層にスクリーンショット画像及び非スクリーンショット画像の実例に対するラベル付けされた正解データを当てる前に、第１セットの層は画像認識を実行するように事前トレーニングされる。

開示された方法の幾つかの実施態様は、画像の一部を切り取ること、または、スクリーンショットの変化を表すように色相、コントラスト及び彩度を調整することによって、収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを含む。場合によっては、スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置の少なくとも１つを含む。

開示された方法の一実施態様では、バック・プロパゲーションによってＤＬスタックをトレーニングするときに、スクリーンショット画像の第１セットが、２以上の機密画像由来スクリーンショットの様々な写真画像の境界に囲まれて、第３セットのスクリーンショット画像が生成され、第１及び第３セットがラベル付けされた正解データと結合される。別の実施態様では、バック・プロパゲーションによってＤＬスタックをトレーニングするときに、スクリーンショット画像の第１セットが、２以上の機密画像由来スクリーンショットの複数のオーバーレイされたプログラム・ウィンドウの境界に囲まれて、第４セットのスクリーンショット画像が生成され、第１及び第４セットがラベル付けされた正解データと結合される。

以下の議論では、組織機密スクリーンショット画像を検出し、画像由来組織機密スクリーンショットの損失を防ぐための幾つかの特定の実施態様と特徴について説明する。

開示された一実施態様では、ディープラーニング・スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる画像内の組織機密データを検出し、画像由来組織機密ドキュメントの損失を防ぐ方法は、画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりマスタＤＬスタックを事前トレーニングすることを含む。ＤＬスタックは、少なくとも、入力層により近い第１セットの層と、入力層からより遠い第２セットの層とを含み、ＤＬスタックの第２セットの層に、画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、第１セットの層が画像認識を実行するように事前トレーニングされることを更に含む。開示された方法はまた、プロダクション画像からの推論のためにトレーニングされたマスタＤＬスタックのパラメータを格納すること、格納されたパラメータを有するトレーニングされたマスタＤＬスタックを複数の組織に分配すること、及び、組織が少なくとも画像内の組織機密データの実例を使用してトレーニングされたマスタＤＬスタックの更新トレーニングを実行し、更新されたＤＬスタックのパラメータを保存することを許可することを含む。組織は、それぞれの更新されたＤＬスタックを使用して、推論によって少なくとも１つのプロダクション画像を、組織機密ドキュメントを含むものとして分類する。

ディープラーニング・スタックのトレーニングは、あるケースでは最初から開始することができ、別の実施態様では、トレーニングは、以前に決定された係数で利用されたラベル付けされた画像例の追加されたバッチを使用して、トレーニングされたマスタＤＬスタックの第２セットの層を更にトレーニングすることができる。開示された方法の幾つかの実施態様は更に、組織の少なくとも一部に、組織の制御下で、専用ＤＬスタック・トレーナを提供すること、及び、マスタＤＬスタックの事前トレーニングを実行したプロバイダに、画像内の組織機密データの実例を転送することなく、組織が更新トレーニングを実行することを可能にすることを含む。専用ＤＬスタック・トレーナは、それぞれの更新されたＤＬスタックを生成するように構成可能である。幾つかのケースでは、また、画像内の組織機密データの実例からの非可逆的特徴を、該実例のための正解ラベルと組み合わせ、非可逆的特徴及び正解ラベルを転送するように構成された専用ＤＬスタック・トレーナを含み、非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を複数の専用ＤＬスタック・トレーナから受信する。幾つかの実施態様では、開示された方法はまた、組織機密トレーニング例を使用して、トレーニングされたマスタＤＬスタックの第２セットの層を更にトレーニングすること、プロダクション画像からの推論のために第２セットの層の更新されたパラメータを格納すること、及び、第２セットの層の更新されたパラメータを複数の組織に分配することを含む。幾つかの実施態様は、トレーニングされたマスタＤＬスタックの第２セットの層を更にトレーニングするために更新トレーニングを実行することを更に含む。他のケースでは、方法は、異なる順序で組織機密トレーニング例を用いて、最初からトレーニングを実行して、トレーニングされたマスタＤＬスタックの第２セットの層を更にトレーニングすることを含む。一実施態様として、開示された方法は、第２セットの層から更新された係数を転送するように構成された専用ＤＬスタック・トレーナを更に含み、複数の専用ＤＬスタック・トレーナから、それぞれの第２セットの層からそれぞれの更新された係数を受信し、それぞれの第２セットの層からの更新された係数を結合して、トレーニングされたマスタＤＬスタックの第２セットの層をトレーニングする。開示された方法はまた、プロダクション画像からの推論のために、トレーニングされたマスタＤＬスタックの第２セットの層の更新されたパラメータを格納することと、第２セットの層の更新されたパラメータを複数の組織に分配することとを含む。

本セクションで説明された開示された技術の他の実施態様は、プロセッサ上で実行されると、プロセッサに上述の何れかの方法を実行させる、メモリにロードされたプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体を含むことができる。本セクションで説明された開示された技術の更に別の実施態様は、上述の方法の何れかを実行するために、メモリ、及び、該メモリに記憶されたコンピュータ命令を実行するように動作可能な１または複数のプロセッサを含むシステムを含むことができる。

前述の説明は、開示された技術の使用及び実施を可能にするために提示されている。開示された実施態様に対する種々の変形が明らかであり、本明細書で明示された一般的な原理は、開示された技術の趣旨及び範囲から逸脱することなく、他の実施態様及びアプリケーションに適用され得る。従って、開示された技術は、示された実施態様に限定されることを意図するものではなく、本明細書で開示された原理及び特徴と一致する最も広い範囲を与えられるべきである。開示される技術の範囲は、添付の特許請求の範囲によって規定される。
［条項］

画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐための技術が記載される。

開示される技術は、システム、方法、デバイス、または製品として実施することができる。実施態様の１以上の特徴は、基本実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示される。実施態様の１以上の特徴は、他の実施態様と組み合わせることができる。本開示は、これらのオプションをユーザに定期的に想起させる。これらのオプションを繰り返す記述の幾つかの実施態様からの省略は、これまでのセクションで教示された組み合わせを限定するものとして解釈されるべきではない。これらの記述は、以下の実施態様のそれぞれに考慮して参照により組み込まれる。

開示された技術の１または複数の実施態様及び条項またはその要素は、示された方法ステップを実行するためのコンピュータ使用可能プログラム・コードを有する非一時的なコンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装され得る。更に、開示された技術の１または複数の実施態様及び条項またはそれらの要素は、メモリと、メモリに結合され、典型的な方法ステップを実行するように動作可能な少なくとも１つのプロセッサとを含む装置の形態で実装され得る。更に、別の態様では開示された技術の１または複数の実施態様及び条項またはその要素は、本明細書で説明された方法ステップの１または複数を実行するための手段の形態で実装され得る。尚、該手段は、（ｉ）ハードウェア・モジュール、（ｉｉ）１または複数のハードウェア・プロセッサ上で実行するソフトウェア・モジュール、または（ｉｉｉ）ハードウェア・モジュールとソフトウェア・モジュールの組合せを含むことができ、（ｉ）～（ｉｉｉ）の何れかは、本明細書で説明された具体的な技術を実装し、ソフトウェア・モジュールはコンピュータ可読記憶媒体（または多数の当該媒体）に格納される。

本セクションで説明される条項は、特徴として組み合わせることができる。簡潔にするために、特徴の組み合わせは、個々に列挙されず、特徴の各基本セットについて繰り返されない。読者は、如何にして、本セクションで説明されている条項において識別される特徴が、本願の他のセクションで実施態様として識別される基本特徴の集合と容易に組み合わせられ得るかを理解するであろう。これらの条項は、相互に排他的、網羅的、または限定的であることを意味せず、開示された技術はこれらの条項に限定されず、むしろ、特許請求される技術及びその均等物の範囲内のすべての可能な組み合わせ、修正、及び変形を包含する。

本セクションに記載される条項の他の実施態様は、本セクションに記載される条項の何れかを実行するために、プロセッサによって実行可能な命令を格納する、非一時的コンピュータ可読記憶媒体を含むことができる。本セクションで記載される条項の更に別の実施態様は、本セクションに記載される条項の何れかを実行するために、メモリ及び該メモリに格納された命令を実行するように動作可能な１または複数のプロセッサを含むシステムを含むことができる。

以下の条項を開示する：
［条項セット１］
１．画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ方法であって：
前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング（ＤＬと略記）スタックをトレーニングすること；
ここで、前記ＤＬスタックは、入力層により近い第１セットの層と、前記入力層からより遠い第２セットの層とを少なくとも含み、前記ＤＬスタックの前記第２セットの層に、前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第１セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり；

プロダクション画像からの推論のために前記トレーニングされたＤＬスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションＤＬスタックを使用して、推論によって少なくとも１つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類すること、を含む方法。
２．プライベート画像由来識別ドキュメントのために、前記第１セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、条項１に記載の方法。
３．前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第２セットの層におけるパラメータのトレーニングに制限することを更に含む、条項１～２の何れか１項に記載の方法。
４．画像の光学式文字認識（ＯＣＲと略記）分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、条項１～３の何れか１項に記載の方法。
５．前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットの遠近感が歪められて、前記画像由来識別ドキュメントの第２セットを生成し、前記第１セット及び前記第２セットを、前記ラベル付けされた正解データと結合させる、条項１～４の何れか１項に記載の方法。
６．前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットがノイズによって歪められて、前記画像由来識別ドキュメントの第３セットを生成し、前記第１セット及び前記第３セットを、前記ラベル付けされた正解データと結合させる、条項１～５の何れか１項に記載の方法。
７．前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットの焦点が歪められて、前記画像由来識別ドキュメントの第４セットを生成し、前記第１セット及び前記第４セットを前記ラベル付けされた正解データと結合させる、条項１～６の何れか１項に記載の方法。
８．プロセッサ上で実行されると、前記プロセッサに、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ方法を実施させる、メモリにロードされるプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体であって：前記方法が、
前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング（ＤＬと略記）スタックをトレーニングすること；
ここで、前記ＤＬスタックは、入力層により近い第１セットの層と、入力層からより遠い第２セットの層とを少なくとも含み、前記ＤＬスタックの第２セットの層に前記画像由来識別ドキュメント及び前記他の画像ドキュメントの実例の前記ラベル付けされた正解データを当てる前に、前記第１セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり；
プロダクション画像からの推論のために前記トレーニングされたＤＬスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションＤＬスタックを使用して、推論によって少なくとも１つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類すること、を含む有形の非一時的コンピュータ可読記憶媒体。
９．プライベート画像由来識別ドキュメントのために、前記第１セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、条項８に記載の有形の非一時的コンピュータ可読記憶媒体。
１０．前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第２セットの層におけるパラメータのトレーニングに制限することを更に含む、条項８～９の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１１．画像の光学式文字認識（ＯＣＲと略記）分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、条項８～１０の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１２．前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットの遠近感が歪められて、前記画像由来識別ドキュメントの第２セットを生成し、前記第１セット及び前記第２セットを、前記ラベル付けされた正解データと結合させる、条項８～１１の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１３．前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットがノイズによって歪められて、前記画像由来識別ドキュメントの第３セットを生成し、前記第１セット及び前記第３セットを、前記ラベル付けされた正解データと結合させる、条項８～１２の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１４．画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、条項８に記載の非一時的コンピュータ可読記憶媒体から前記メモリにロードされたコンピュータ命令を含むシステム。
１５．プライベート画像由来識別ドキュメントのために、前記第１セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、条項１４に記載のシステム。
１６．前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第２セットの層におけるパラメータのトレーニングに制限することを更に含む、条項１４～１５の何れか１項に記載のシステム。
１７．画像の光学式文字認識（ＯＣＲと略記）分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、条項１４～１６の何れか１項に記載のシステム。
１８．前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットの遠近感が歪められて、前記画像由来識別ドキュメントの第２セットを生成し、前記第１セット及び前記第２セットを、前記ラベル付けされた正解データと結合させる、条項１４～１７の何れか１項に記載のシステム。
１９．前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットがノイズによって歪められて、前記画像由来識別ドキュメントの第３セットを生成し、前記第１セット及び前記第３セットを、前記ラベル付けされた正解データと結合させる、条項１４～１８の何れか１項に記載のシステム。
２０．前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットの焦点が歪められて、前記画像由来識別ドキュメントの第４セットを生成し、前記第１セット及び前記第４セットを前記ラベル付けされた正解データと結合させる、条項１４～１９の何れか１項に記載のシステム。
［条項セット２］
１．スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ方法であって：
前記スクリーンショット画像と非スクリーンショット画像の実例を収集し、実例に対するラベル付けされた正解データを作成すること；
機密情報を含む可能性のあるスクリーンショットの様々な変化を表すために、前記収集されたスクリーンショット画像例の少なくとも一部の再レンダリングを適用すること；
前記スクリーンショット画像及び非スクリーンショット画像の実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング（ＤＬと略記）スタックをトレーニングすること；
プロダクション画像からの推論のために前記トレーニングされたＤＬスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションＤＬスタックを使用して、推論によって少なくとも１つのプロダクション画像を、スクリーンショット画像を含むものとして分類すること、を含む方法。
２．前記スクリーンショット画像及び非スクリーンショット画像の前記実例を収集するためにスクリーンショット・ロボットを適用することを更に含む、条項１に記載の方法。
３．前記ＤＬスタックが、入力層により近い第１セットの層と、前記入力層からより遠い第２セットの層とを少なくとも含み、前記ＤＬスタックの前記第２セットの層に、前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対する前記ラベル付けされた正解データを当てる前に、前記第１セットの層が画像認識を実行するように事前トレーニングされることを更に含む、条項１～２の何れか１項に記載の方法。
４．前記画像の一部を切り取ることによって、または前記スクリーンショットの変化を表すように色相、コントラスト、及び彩度を調整することによって、前記収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを更に含む、条項１～３の何れか１項に記載の方法。
５．前記スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置のうちの少なくとも１つを含む、条項１～４の何れか１項に記載の方法。
６．前記ＤＬスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第１セットが、複数の画像由来スクリーンショットの様々な写真画像の境界に囲まれて、前記スクリーンショット画像の第３セットが生成され、前記第１セット及び第３セットが前記ラベル付けされた正解データと結合される、条項１～５の何れか１項に記載の方法。
７．前記ＤＬスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第１セットが、複数の画像由来スクリーンショットの複数のオーバーレイされたプログラム・ウィンドウの境界に囲まれて、前記スクリーンショット画像の第４セットが生成され、前記第１セット及び第４セットが前記ラベル付けされた正解データと結合される、条項１～６の何れか１項に記載の方法。
８．プロセッサ上で実行されると、前記プロセッサに、スクリーンショット画像を検出し、画像由来スクリーンショットの損失を防ぐ方法を実施させる、メモリにロードされるプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体であって：前記方法が、
前記スクリーンショット画像と非スクリーンショット画像の実例を収集し、前記実例に対するラベル付けされた正解データを作成すること；
機密情報を含む可能性のあるスクリーンショットの様々な変化を表すために、前記収集されたスクリーンショット画像例の少なくとも一部の再レンダリングを適用すること；
前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング（ＤＬと略記）スタックをトレーニングすること；
プロダクション画像からの推論のために前記トレーニングされたＤＬスタックのパラメータを格納し、前記格納されたパラメータを有するプロダクションＤＬスタックを使用して、推論によって少なくとも１つのプロダクション画像を画像由来スクリーンショットを含むものとして分類すること、を含む有形の非一時的コンピュータ可読記憶媒体。
９．前記スクリーンショット画像及び非スクリーンショット画像の前記実例を収集するためにスクリーンショット・ロボットを適用することを更に含む、条項８に記載の有形の非一時的コンピュータ可読記憶媒体。
１０．前記ＤＬスタックが、入力層により近い第１セットの層と、前記入力層からより遠い第２セットの層とを少なくとも含み、前記ＤＬスタックの前記第２セットの層に、前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対する前記ラベル付けされた正解データを当てる前に、前記第１セットの層が画像認識を実行するように事前トレーニングされることを更に含む、条項８～９の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１１．前記画像の一部を切り取ることによって、または前記スクリーンショットの変化を表すように色相、コントラスト、及び彩度を調整することによって、前記収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを更に含む、条項８～１０の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１２．前記スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置のうちの少なくとも１つを含む、条項８～１１の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１３．前記ＤＬスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第１セットが、複数の画像由来スクリーンショットの様々な写真画像の境界に囲まれて、前記スクリーンショット画像の第３セットが生成され、前記第１セット及び第３セットが前記ラベル付けされた正解データと結合される、条項８～１２の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１４．前記ＤＬスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第１セットが、複数の画像由来スクリーンショットの複数のオーバーレイされたプログラム・ウィンドウの境界に囲まれて、前記スクリーンショット画像の第４セットが生成され、前記第１セット及び第４セットが前記ラベル付けされた正解データと結合される、条項８～１３の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１５．スクリーンショット画像を検出し、画像由来スクリーンショットの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、条項８に記載の非一時的コンピュータ可読記憶媒体から前記メモリにロードされたコンピュータ命令を含むシステム。
１６．前記スクリーンショット画像及び非スクリーンショット画像の前記実例を収集するためにスクリーンショット・ロボットを適用することを更に含む、条項１５に記載のシステム。
１７．前記ＤＬスタックが、入力層により近い第１セットの層と、前記入力層からより遠い第２セットの層とを少なくとも含み、前記ＤＬスタックの前記第２セットの層に、前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対する前記ラベル付けされた正解データを当てる前に、前記第１セットの層が画像認識を実行するように事前トレーニングされることを更に含む、条項１５～１６の何れか１項に記載のシステム。
１８．前記画像の一部を切り取ることによって、または前記スクリーンショットの変化を表すように色相、コントラスト、及び彩度を調整することによって、前記収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを更に含む、条項１５～１７の何れか１項に記載のシステム。
１９．前記スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置のうちの少なくとも１つを含む、条項１５～１８の何れか１項に記載のシステム。
２０．前記ＤＬスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第１セットが、複数の画像由来スクリーンショットの様々な写真画像の境界に囲まれて、前記スクリーンショット画像の第３セットが生成され、前記第１セット及び第３セットが前記ラベル付けされた正解データと結合される、条項１５～１９の何れか一項に記載のシステム。
［条項セット３］
１．ディープラーニング（ＤＬと略記）スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる画像中の組織機密データを検出し、前記画像由来組織機密ドキュメントの損失を防ぐ方法であって：
画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりマスタＤＬスタックを事前トレーニングすること；
ここで、前記ＤＬスタックは入力層により近い第１セットの層と、入力層からより遠い第２セットの層とを少なくとも含み、前記ＤＬスタックの第２セットの層に、前記画像由来機密ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第１セットの層が画像認識を実行するように事前トレーニングされることを更に含む；
プロダクション画像から推論するための前記トレーニングされたマスタＤＬスタックのパラメータを格納すること；
格納されたパラメータを有する前記トレーニングされたマスタＤＬスタックを複数の組織に分配すること；
前記組織が少なくとも画像内の前記組織機密データの実例を使用して前記トレーニングされたマスタＤＬスタックの更新トレーニングを実行し、更新されたＤＬスタックのパラメータを保存できるようにすること、を含み、これにより、前記組織が、それぞれの更新されたＤＬスタックを使用して、少なくとも１つのプロダクション画像を推論により組織機密ドキュメント含むものとして分類する方法。
２．前記組織の少なくとも一部に、組織の制御下で、専用ＤＬスタック・トレーナを提供し、前記組織が画像内の前記組織機密データの実例を、前記マスタＤＬスタックの事前トレーニングを実行したプロバイダに転送することなく、前記更新トレーニングを実行できるようにすることを含み、前記専用ＤＬスタック・トレーナが、それぞれの更新されたＤＬスタックを生成するように構成可能である条項１に記載の方法。
３．前記専用ＤＬスタック・トレーナが、画像内の前記組織機密データの前記実例からの非可逆的特徴を前記実例に対する正解ラベルと結合し、前記非可逆的特徴及び正解ラベルを転送するように構成されていること、及び、
複数の前記専用ＤＬスタック・トレーナから、前記非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を受信すること、を更に含む条項２に記載の方法。
４．前記トレーニングされたマスタＤＬスタックの前記第２セットの層を更にトレーニングするために、前記組織機密トレーニング例を使用すること；
プロダクション画像からの推論のために前記第２セットの層の更新されたパラメータを格納すること；及び
前記第２セットの層の前記更新されたパラメータを複数の組織に分配すること、を含む条項３に記載の方法。
５．前記トレーニングされたマスタＤＬスタックの前記第２セットの層を更にトレーニングするために、更新トレーニングを実行することを更に含む、条項１～４の何れか１項に記載の方法。
６．前記トレーニングされたマスタＤＬスタックの前記第２セットの層を更にトレーニングするために、異なる順序で前記組織機密トレーニング例を使用して、最初からトレーニングすることを更に含む、条項１～５の何れか１項に記載の方法。
７．前記専用ＤＬスタック・トレーナが前記第２セットの層から更新された係数を転送するように構成されていること；及び、
複数の前記専用ＤＬスタック・トレーナから、それぞれの第２セットの層からのそれぞれの更新された係数を受信すること；
前記トレーニングされたマスタＤＬスタックの前記第２セットの層をトレーニングするために、それぞれの第２セットの層からの前記更新された係数を組み合わせること；
プロダクション画像から推論するために、前記トレーニングされたマスタＤＬスタックの前記第２セットの層の更新されたパラメータを格納すること；及び、前記第２セットの層の前記更新されたパラメータを前記複数の組織に分配すること、を含む条項２～４の何れか１項に記載の方法。
8. プロセッサ上で実行されると、ディープラーニング（ＤＬと略記）スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる画像内の組織機密データを検出し、前記画像由来組織機密ドキュメントの損失を防ぐ方法を、前記プロセッサに実施させる、メモリにロードされるプログラム命令を含む有形の非一時的コンピュータ可読記憶媒体であって：前記方法が、
画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりマスタＤＬスタックを事前トレーニングすること；
ここで、前記ＤＬスタックは入力層により近い第１セットの層と、入力層からより遠い第２セットの層とを少なくとも含み、前記ＤＬスタックの前記第２セットの層に、前記画像由来機密ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第１セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり；
プロダクション画像から推論するための前記トレーニングされたマスタＤＬスタックのパラメータを格納すること；
前記格納されたパラメータを有する前記トレーニングされたマスタＤＬスタックを複数の組織に分配すること；
前記組織が少なくとも画像内の前記組織機密データの実例を使用して前記トレーニングされたマスタＤＬスタックの更新トレーニングを実行し、更新されたＤＬスタックのパラメータを保存できるようにすること、を含み、これにより、前記組織が、それぞれの更新されたＤＬスタックを使用して、少なくとも１つのプロダクション画像を推論により組織機密ドキュメント含むものとして分類する有形の非一時的コンピュータ可読記憶媒体。
９．前記組織の少なくとも一部に、前記組織の制御下で、専用ＤＬスタック・トレーナを提供すること、及び、前記組織が画像内の前記組織機密データの実例を、マスタＤＬスタックの事前トレーニングを実行したプロバイダに転送することなく、前記更新トレーニングを実行できるようにすること、を含み、前記専用ＤＬスタック・トレーナが、前記それぞれの更新されたＤＬスタックを生成するように構成可能である条項８に記載の有形の非一時的コンピュータ可読記憶媒体。
１０．前記専用ＤＬスタック・トレーナが、画像内の前記組織機密データの前記実例からの非可逆的特徴を前記実例の正解ラベルと結合し、前記非可逆的特徴及び正解ラベルを転送するように構成されていること、及び、複数の前記専用ＤＬスタック・トレーナから、前記非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を受信すること、を更に含む条項９に記載の有形の非一時的コンピュータ可読記憶媒体。
１１．前記トレーニングされたマスタＤＬスタックの前記第２セットの層を更にトレーニングするために、前記組織機密トレーニング例を使用すること；
プロダクション画像からの推論のために前記第２セットの層の更新されたパラメータを格納すること；及び、前記第２セットの層の前記更新されたパラメータを複数の組織に分配すること、を更に含む条項１０に記載の有形の非一時的コンピュータ可読記憶媒体。
１２．前記トレーニングされたマスタＤＬスタックの前記第２セットの層を更にトレーニングするために、更新トレーニングを実行することを更に含む、条項８～１１の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１３．前記トレーニングされたマスタＤＬスタックの前記第２セットの層を更にトレーニングするために、異なる順序で前記組織機密トレーニング例を使用して、最初からトレーニングを実行することを更に含む、条項８～１２の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１４．前記専用ＤＬスタック・トレーナが前記第２セットの層から更新された係数を転送するように構成されていること；及び、複数の前記専用ＤＬスタック・トレーナから、それぞれの第２セットの層からのそれぞれの更新された係数を受信すること；
前記トレーニングされたマスタＤＬスタックの前記第２セットの層をトレーニングするために、それぞれの第２セットの層からの前記更新された係数を組み合わせること；
プロダクション画像から推論するために、前記トレーニングされたマスタＤＬスタックの前記第２セットの層の更新されたパラメータを格納すること；及び、前記第２セットの層の前記更新されたパラメータを前記複数の組織に分配すること、を含む条項９～１１の何れか１項に記載の有形の非一時的コンピュータ可読記憶媒体。
１５．ディープラーニング（ＤＬと略記）スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる、画像内の組織機密データを検出し、前記画像由来組織機密ドキュメントの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、条項８に記載の非一時的コンピュータ可読記憶媒体から前記メモリにロードされたコンピュータ命令を含むシステム。
１６．前記組織の少なくとも一部に、組織の制御下で、専用ＤＬスタック・トレーナを提供し、前記組織が画像内の前記組織機密データの実例を、前記マスタＤＬスタックの事前トレーニングを実行したプロバイダに転送することなく、前記更新トレーニングを実行できるようにすることを更に含み、前記専用ＤＬスタック・トレーナが、それぞれの更新されたＤＬスタックを生成するように構成可能である条項１５に記載のシステム。
１７．前記専用ＤＬスタック・トレーナが、画像内の前記組織機密データの前記実例からの非可逆的特徴を前記実例の正解ラベルと結合し、前記非可逆的特徴及び正解ラベルを転送するように構成されていること、及び、複数の前記専用ＤＬスタック・トレーナから、前記非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を受信すること、を更に含む条項１６に記載のシステム。
１８．前記トレーニングされたマスタＤＬスタックの前記第２セットの層を更にトレーニングするために、前記組織機密トレーニング例を使用すること；
プロダクション画像からの推論のために前記第２セットの層の更新されたパラメータを格納すること；及び、前記第２セットの層の前記更新されたパラメータを複数の組織に分配すること、を更に含む条項１７に記載のシステム。
１９．前記トレーニングされたマスタＤＬスタックの前記第２セットの層を更にトレーニングするために、更新トレーニングを実行することを更に含む、条項１５～１８の何れか１項に記載のシステム。
２０．前記トレーニングされたマスタＤＬスタックの前記第２セットの層を更にトレーニングするために、異なる順序で前記組織機密トレーニング例を使用して、最初からトレーニングを実行することを更に含む、条項１５～１９の何れか１に記載のシステム。
２１．前記専用ＤＬスタック・トレーナが前記第２セットの層から更新された係数を転送するように構成されていること；及び、複数の前記専用ＤＬスタック・トレーナから、それぞれの第２セットの層からのそれぞれの更新された係数を受信すること；
前記トレーニングされたマスタＤＬスタックの前記第２セットの層をトレーニングするために、それぞれの第２セットの層からの前記更新された係数を組み合わせること；
プロダクション画像から推論するために、前記トレーニングされたマスタＤＬスタックの前記第２セットの層の更新されたパラメータを格納すること；及び、前記第２セットの層の前記更新されたパラメータを前記複数の組織に分配すること、を含む条項１６～１８の何れか１項に記載のシステム。

Claims

画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ方法であって：
前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して、前記画像由来識別ドキュメントまたは他の画像ドキュメントの実例上に現れる言葉の光学式文字認識を実施せずに、前方推論及びバック・プロパゲーションによりディープラーニング（ＤＬと略記）スタックをトレーニングすること；
ここで、前記ＤＬスタックは、入力層により近い第１セットの層と、前記入力層からより遠い第２セットの層とを少なくとも含み、前記ＤＬスタックの前記第２セットの層に、前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第１セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり；
プロダクション画像からの推論のために前記トレーニングされたＤＬスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションＤＬスタックを使用して、推論によって少なくとも１つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類すること、を含む方法。
プライベート画像由来識別ドキュメントのために、前記第１セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、請求項１に記載の方法。
前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第２セットの層におけるパラメータのトレーニングに制限することを更に含む、請求項１～２の何れか１項に記載の方法。
画像の光学式文字認識（ＯＣＲと略記）分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、請求項１～３の何れか１項に記載の方法。
前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットの遠近感が歪められて、前記画像由来識別ドキュメントの第２セットを生成し、前記第１セット及び前記第２セットを、前記ラベル付けされた正解データと結合させる、請求項１～４の何れか１項に記載の方法。
前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットがノイズによって歪められて、前記画像由来識別ドキュメントの第３セットを生成し、前記第１セット及び前記第３セットを、前記ラベル付けされた正解データと結合させる、請求項１～５の何れか１項に記載の方法。
前記ＤＬスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第１セットの焦点が歪められて、前記画像由来識別ドキュメントの第４セットを生成し、前記第１セット及び前記第４セットを前記ラベル付けされた正解データと結合させる、請求項１～６の何れか１項に記載の方法。
プロセッサ上で実行されると、前記プロセッサに、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ、請求項１～７の何れか１項に記載の方法を実施させる、メモリにロードされるプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体。
画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、前記プロセッサ上で実行されると、前記プロセッサに、請求項１～７の何れか１項に記載の方法を実施させる、前記メモリにロードされたプログラム命令を含むシステム。