JP2022003517A - 機密情報を保護するための画像由来識別ドキュメントの検出 - Google Patents

機密情報を保護するための画像由来識別ドキュメントの検出 Download PDF

Info

Publication number
JP2022003517A
JP2022003517A JP2021092862A JP2021092862A JP2022003517A JP 2022003517 A JP2022003517 A JP 2022003517A JP 2021092862 A JP2021092862 A JP 2021092862A JP 2021092862 A JP2021092862 A JP 2021092862A JP 2022003517 A JP2022003517 A JP 2022003517A
Authority
JP
Japan
Prior art keywords
image
stack
layers
derived
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021092862A
Other languages
English (en)
Other versions
JP2022003517A5 (ja
Inventor
シイン ヤン,
Siying Yang
シャオリン ワン,
Xiaolin Wang
クリシュナ ナラヤナスワミー,
Narayanaswamy Krishna
イー ザン,
Yi Zhang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netskope Inc
Original Assignee
Netskope Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/891,678 external-priority patent/US10949961B1/en
Priority claimed from US16/891,647 external-priority patent/US10990856B1/en
Priority claimed from US16/891,698 external-priority patent/US10867073B1/en
Application filed by Netskope Inc filed Critical Netskope Inc
Publication of JP2022003517A publication Critical patent/JP2022003517A/ja
Publication of JP2022003517A5 publication Critical patent/JP2022003517A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • G07D7/2008Testing patterns thereon using pre-processing, e.g. de-blurring, averaging, normalisation or rotation
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07DHANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
    • G07D7/00Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
    • G07D7/20Testing patterns thereon
    • G07D7/2016Testing patterns thereon using feature extraction, e.g. segmentation, edge detection or Hough-transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

【課題】画像由来識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐための方法等を提供する。【解決手段】方法は、画像由来識別ドキュメント及び他の画像ドキュメントに対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりDLスタックを学習する。DLスタックは、入力層により近い第1セットの層と入力層からより遠い第2セットの層とを含む。方法はさらに、第2セットの層に画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、第1セットの層が画像認識を実行するように事前学習し、プロダクション画像からの推論のために学習されたDLスタックのパラメータを格納し、格納したパラメータを有するプロダクションDLスタックを使用して推論によって少なくとも1つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類する。【選択図】図11

Description

優先権主張
本出願は、2020年6月3日出願の米国特許出願第16/891,647号、発明の名称「機密情報を保護するための画像由来識別ドキュメントの検出」(代理人整理番号NSKO1032−1)(現在、2021年4月27日発行の米国特許第10,990,856号)の継続出願である、2021年4月13日出願の米国特許出願第17/229,768号、発明の名称「画像由来識別ドキュメントのエクスフィルトレーションを防止するためのプロダクションで使用されるディープラーニング・スタック」(代理人整理番号NSKO1032−2)の優先権を主張し、且つ、
2020年6月3日出願の米国特許出願第16/891,678号、発明の名称「機密スクリーンショット由来データの損失を防ぐためのスクリーンショット画像の検出」(代理人整理番号NSKO1033−1)(現在、2021年3月16日発行の米国特許第10,949,961号)の継続出願である、2021年3月15日出願の米国特許出願第17/202,075号、発明の名称「機密スクリーンショット由来データの企てられたエクスフィルトレーションを検出するためのDLスタックのトレーニング及び構成」(代理人整理番号NSKO1033−2)の優先権を主張し、且つ、
2020年6月3日出願の米国特許出願第16/891,698号、発明の名称「組織画像由来機密ドキュメントの検出及び機密文書の損失防止」(代理人整理番号NSKO 1034−1)(現在、2020年12月15日発行の米国特許第10,867,073号)の継続出願である、2020年12月9日出願の米国特許出願第17/116,862号、発明の名称「画像由来機密ドキュメントのディープラーニングに基づく検出及びデータ損失防止」(代理人整理番号NSKO 1034−2)の優先権を主張する。これらの出願は、全ての目的のために参照により組み込まれる。
合体資料
以下の資料は、参照により本出願に組み込まれる:
2020年3月02日出願の米国特許出願第16/807,128号、発明の名称「動的スケーラブル・サービス・メッシュにおけるロード・バランシング」(代理人整理番号NSKO1025−3)。
2014年3月05日出願の米国出願第14/198,508号、発明の名称「ネットワーク配信サービス用セキュリティ」(代理人整理番号NSKO1000−3)(現在、2016年2月23日発行の米国特許第9,270,765号)。
2014年3月05日出願の米国出願第14/198,499号、発明の名称「ネットワーク配信サービス用セキュリティ」(代理人整理番号NSKO1000−2)(現在、2016年7月19日発行の米国特許第9,398,102号)。
2015年8月25日出願の米国出願第14/835,640号、発明の名称「クラウド・コンピューティング・サービス(CCS)に格納された企業情報を監視及び制御するシステム及び方法」(代理人整理番号NSKO1001−2)(現在、2018年3月27日発行の米国特許第9,928,377号)。
2016年3月11日出願の米国仮出願第62/307,305号、発明の名称「クラウド・コンピューティング・サービスのデータ欠損トランザクションにおいてマルチパート・ポリシーを実施するシステム及び方法」(代理人整理番号NSKO1003−1)の利益を主張する、2016年12月02日出願の米国出願第15/368,246号、発明の名称「クラウド・コンピューティング・サービス用ミドルウェア・セキュリティ層」(代理人整理番号NSKO1003−3)。
チェン、イタール、ナラヤナスワミー、及び、マルムスコッグ、「ダミー用のクラウド・セキュリティ、 ネットスコープ・スペシャルエディション」、ジョン・ワイリー・アンド・サンズ、2015年。
「ネットスコープ・イントロスペクション」、ネットスコープ、インク(Netskope,Inc)発行。
「クラウドにおけるデータ損失防止及びモニタリング」、ネットスコープ、インク(Netskope,Inc)発行。
「クラウド・データ損失防止リファレンス・アーキテクチャ」、ネットスコープ、インク(Netskope,Inc)発行。
「クラウド・コンフィデンスへの5つのステップ」、ネットスコープ、インク(NetScope,Inc)発行。
「ネットスコープ・アクティブ・プラットフォーム」 ネットスコープ、インク(Netskope,Inc)発行。
「ネットスコープ・アドヴァンテージ:クラウド・アクセス・セキュリティ・ブローカのための3つの“必携”要件」 ネットスコープ、インク(Netskope,Inc)発行。
「15の重要CASB使用事例」、ネットスコープ、インク(Netskope,Inc)発行。
「ネットスコープ・アクティブ・クラウドDLP」、ネットスコープ、インク(Netskope,Inc)発行。
「クラウド・データ侵害の衝突コースを修復する」、ネットスコープ、インク(Netskope,Inc)発行。
「Netskope Cloud Confidence Index(商標)」、ネットスコープ、インク(Netskope,Inc)発行。
以上の資料は、ここに完全に記載されているかの如く、参照により組み込まれる。
開示される技術は一般に、ネットワーク配信サービスのためのセキュリティに関し、特に、画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、セキュリティ・サービスを適用しながら、画像由来識別ドキュメントの損失を防ぐことに関する。開示される技術はまた、スクリーンショット画像を検出し、スクリーンショット由来データの損失を防ぐことに関する。更に、別個の組織は、開示された技術を利用して、画像由来識別ドキュメントを検出し、組織内からスクリーンショット画像を検出することができ、その結果、潜在的に機密データを有する組織の画像は、データ損失防止サービスプロバイダに共有される必要がない。
本セクションで議論される主題は本セクションにおけるその言及の結果、単に従来技術であると仮定すべきではない。同様に、本セクションで述べた問題または背景技術として提供された主題に関連する問題は従来技術内で既に認識されたものと仮定すべきではない。本セクションの主題は単に様々なアプローチを示しているに過ぎず、また、それ自体または自発的に、請求項に記載の技術の実施に対応し得る。
個人を特定可能な情報(PII)、保護された健康情報(PHI)、知的財産(IP)等の機密情報の漏洩を防止するために、データ損失防止(DLP)技術がセキュリティ産業において広く使用されている。大企業も中小企業もDLP製品を使用している。斯かる機密情報は、ドキュメント及び画像を含む様々なソース内に存在する。如何なるDLP製品においても、ドキュメント及び画像内の機密情報を高い精度及び計算効率で検出できることが重要である。
テキスト・ドキュメントに対して、DLP製品は文字列と正規表現ベースのパターン・マッチングを使用して機密情報を識別する。画像に対しては、光学式文字認識(OCR)技術が最初にテキスト文字を抽出するために使用されてきた。次に、抽出された文字は、機密情報を検出するために同じパターン・マッチング処理に送られる。歴史的に、OCRは、計算資源を多く必要とし、特に、画像がぼやけている、汚れている、回転している、または反転しているとき等、理想的な状態にないときには、精度が不十分であるため、あまりうまく機能しない。
トレーニングは自動化することができるが、トレーニング・データを正しいフォーマットで組み立て、十分な記憶容量及び計算能力を有する計算の中央ノードにデータを送るという問題が残っている。多くの分野では、個人を特定可能なプライベート・データを任意の中央機関に送信することは、データ・セキュリティ、データ所有権、プライバシ保護、並びにデータの適切な許可及び使用を含むデータ・プライバシーに関する懸念を引き起こす。
ディープラーニングは、多層ネットワークをデータに適用する。近年、画像分類においてディープラーニング技術が益々用いられるようになってきている。ディープラーニングは、高価なOCR処理を経ることなく、機密情報を有する画像を検出することができる。ディープラーニング・アプローチの重要な課題は、実世界の分布を表す多数の高品質のラベル付けされた画像の必要性である。残念ながら、DLPの場合、高品質のラベル付けされた画像は、典型的には、本物のパスポート画像及び本物の運転免許証画像等の機密情報を有する実画像を利用する。これらのデータ・ソースは元来、大規模に獲得することが困難である。この制限は、DLP製品におけるディープラーニングに基づく画像分類の採用を妨げる。
画像内の識別ドキュメントを、効率的に、20〜25%ほどの脅威検出効果の改善を伴って検出し、画像由来識別ドキュメントの機密データの損失を防ぐ機会が生じる。更に、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ機会が存在し、その結果、SaaSを使用する顧客によって利用されるセキュリティ・システムにおけるコスト及び時間の節約につながる可能性がある。
図面において、同様の参照符号は一般的に異なる図を通して同様の部品を指す。また、図面は必ずしも一定の縮尺ではなく、代わりに、開示された技術の原理を図解することに一般的に重点が置かれている。以下の説明では、開示された技術の様々な実施態様が以下の図面を参照して説明される。
クラウド内でセキュリティ・サービスを適用しながら、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐためのシステムのアーキテクチャ・レベル概略図を示す。開示されたシステムはまた、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐことができる。
画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、クラウド内のセキュリティ・サービスを適用しながら、画像由来識別ドキュメントの損失を防ぎ、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐためのアーキテクチャの画像由来機密データの検出態様を示す。
開示される技術の一実施態様による、画像内の識別ドキュメントを検出し、スクリーンショット画像を検出するためのシステムで使用するように設定可能な、画像分類のための畳み込みニューラル・ネットワーク・アーキテクチャ・モデルを使用して実施されるディープラーニング・スタックの構成図を示す。
トレーニングされたパスポート及び運転免許証分類器の精度及びリコール結果を示す。
画像の分布としてグラフ化された、画像を分類するための実行時間結果を示す。
米国の運転免許証で機密画像を分類するためのベンチマーキング結果を示す。
画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐためのディープラーニング・スタックをトレーニングするためのワークフロー例を示す。
リストされたコスト付の在庫リストを有するスクリーンショット例を示す。
図8A、図8B、図8C、及び図8Dは、4つの誤検知スクリーンショット画像を示す。
凡例ウィンドウ及び上下の点線のためにスクリーンショットとして誤分類されたアイダホマップを示す。
画像全体が黒い背景内にPIIを含むウィンドウであり、UNITED・STATESバーをヘッダ・バーとして扱うことができるので、スクリーンショットとして誤分類された運転免許証画像を示す。
PIIを含む主要なウィンドウとして、パスポート画像を示しており、中央底部の陰影部分が、分類器にそれがアプリケーション・バーであると誤解させる可能性がある。
テキスト情報及び一様な背景を含むメジャー・ウィンドウ内の文字を示す。
画像内の識別ドキュメントの検出を実施し、画像由来識別ドキュメントの損失を防ぐために使用することができ、開示される技術の一実施形態による、スクリーンショット画像を検出し、画像由来スクリーンショットの損失を防ぐために使用することができるコンピュータ・システムの簡略化されたブロック図である。
画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐためのディープラーニング・スタックをトレーニングするためのワークフロー例を示す。
画像内の識別ドキュメントの検出を実施し、画像由来識別ドキュメントの損失を防ぐように構成することができ、スクリーンショット画像を検出し、画像由来スクリーンショットの損失を防ぐために使用することができる、1または複数のコンピュータのシステムのためのワークフローを示す。
以下の詳細な説明は、図面を参照して行われる。例示的な実施態様は、特許請求の範囲によって規定される技術的範囲を限定するためではなく、開示される技術を例示するために説明される。当業者であれば、以下の説明に対して様々な均等な変形を認識するのであろう。
ディープラーニング技術を使用することにより、ドキュメント及び画像由来の機密情報の検出を強化し、既存の高価なOCR処理を経ることなく、機密情報を有する画像を検出することができる。ディープラーニングは、最適化を使用して、最良の予測を行うためのモデルの最適パラメータ値を見つける。ディープラーニングに基づく画像分類は、典型的には機密情報を有する多数のラベル付けされた画像を必要とし、これらは大規模に取得することが困難であり、この制約は、DLP製品におけるディープラーニングに基づく画像分類の採用を妨げる。
開示されたイノベーションは、機密情報を含む多数のラベル付けされた画像を事前に必要とせずに、データ損失防止(DLP)製品においてディープラーニングに基づく画像分類を適用する。今日利用可能な多くの事前にトレーニングされた汎用ディープラーニング・モデルは、公共のImageNetデータセット及び他の同様のソースを使用する。これらのディープラーニング・モデルは、典型的には猫、犬、車等のような一般的なオブジェクトを分類する能力を有する多層畳み込みニューラル・ネットワーク(CNN)である。開示された技術は、CNNモデルの最後の数層を再トレーニングするために、パスポート及び運転免許証画像のような少数の専門化されたラベル付けされた画像を使用する。このようにして、ディープラーニング(DL)スタックは、機密データを含む多数のラベル付けされた画像を必要とせずに、これらの特定の画像を高精度で検出することができる。
顧客配備中のDLP製品は、顧客のプロダクション・トラフィックを処理し、新しいラベルを連続的に生成することができる。プライバシ問題を最小限に抑えるために、オンライン学習を用いて新しいラベルをプロダクション環境内に保持することができ、十分なバッチの新しいラベルが蓄積するときはいつでも、同様の数のネガティブ画像を注入して、プログレッシブ学習を用いて既存のディープラーニング・モデルを漸進的に精緻化するために利用することができる、新しいバランスのとれた漸進的データセットを作成することができる。
オンライン学習及びプログレッシブ学習を用いても、典型的なディープラーニング処理は、画像ドキュメントまたはスクリーンショット内の機密データの存在を予測するための洗練されたモデルを作成するために、オリジナル画像及び新たに追加された画像の入力を必要とする。これは、システムが、プロダクションで生成された新しいラベル付けされた画像をプロダクションで長期間保存する必要があることを意味する。プロダクション環境では、ユーザのプライベート・データは、画像やラベルをオフラインで保存する場合よりも、より安全であるが、機密データが永続的なストレージに保存される場合は、画像を保存するとプライバシの問題が発生する。
開示された方法は、ニューラルネットワークとも呼ばれるディープラーニング・スタックの出力を保存し、生画像の代わりに抽出された特徴を記憶する。一般的なニューラルネットワークでは、特徴の最終セットが最後の分類器のために抽出される前に、生画像が多くの層を通過する。これらの特徴は、元の生画像に逆変換することはできない。開示された技術のこの特徴は、プロダクション画像における機密情報の保護を可能にし、モデルの保存された特徴は、将来分類器を再トレーニングするために使用可能である。
開示された技術は多数のラベル付けされた画像を事前に必要とせずに、機密情報を有する画像及びスクリーンショット画像を分類する際に、精度及び高い性能を提供する。本技術はまた、プライバシの懸念なしに、精度及びカバレージを連続的に改善するために、プロダクション画像の活用を可能にする。
開示されたイノベーションは、マシンラーニング分類を利用し、機密画像コンテンツを検出してポリシーを実施する能力を更に広げ、本明細書で説明されるように、ネットスコープ・クラウド・アクセス・セキュリティ・ブローカ(N−CASB)のコンテキストにおいて、クラウド内でプロキシされたネットワーク・トラフィックに画像分類及びスクリーンショット検出の進歩を適用する。
画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、クラウド内の画像由来識別ドキュメントの損失を防ぐとともに、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐためのシステム例について、次に説明する。
[アーキテクチャ]
図1Aは、画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、クラウド内の画像由来識別ドキュメントの損失を防ぐためのシステム100のアーキテクチャ・レベルの概略図を示す。システム100はまた、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐことができる。図1Aはアーキテクチャ図であるため、説明の明確性を向上させるために、特定の詳細は意図的に省略されている。図1Aの説明は、以下のように編成される。最初に、図の要素を説明し、次に、それらの相互接続を説明する。次に、システムにおける要素の使用について、より詳細に説明する。図1Bは、システムの画像由来機密データの検出態様を示し、後で説明される。
システム100は、組織ネットワーク102と、ネットスコープ・クラウド・アクセス・セキュリティ・ブローカ(N−CASB)155を有するデータ・センタ152と、クラウドベースのサービス108とを含む。システム100は、マルチテナント・ネットワークとも呼ばれる、セキュリティ・サービス・プロバイダの複数の加入者のための複数の組織ネットワーク104と、ブランチとも時々呼ばれる複数のデータ・センタ154とを含む。組織ネットワーク102は、コンピュータ112a−n、タブレット122a−n、携帯電話132a−n及びスマートウォッチ142a−nを含む。別の組織ネットワークでは、組織ユーザが追加のデバイスを利用する場合がある。クラウドサービス108は、クラウドベースのホスティング・サービス118、ウェブメール・サービス128、ビデオ、メッセージング及び音声通話サービス138、ストリーミング・サービス148、ファイル転送サービス158、及びクラウドベースのストレージ・サービス168を含む。データ・センタ152は、公衆ネットワーク145を介して組織ネットワーク102及びクラウドベースのサービス108に接続する。
図1Aの説明を続けると、開示された拡張ネットスコープ・クラウド・アクセス・セキュリティ・ブローカ(N−CASB)155は、認可された及び認可されていないクラウド・アプリにおけるアクセス及びアクティビティを管理し、機密データを保護し、その損失を防止し、内部及び外部の脅威から保護することに加えて、SIPを介したSkype、音声、ビデオ、及びメッセージング・マルチメディア通信セッション、及び、他のプロトコルを介したウェブ・トラフィックのみならず、BT、FTP、及びUDPベースのストリーミング・プロトコルを介したP2Pトラフィックも、安全に処理する。N−CASB155は、データ損失防止のために、アイデンティティ検出及び機密スクリーンショット検出のためにマシンラーニング分類を利用し、更に、機密画像コンテンツを検出してポリシーを実施する能力を拡張する。N−CASB155は、システムのユーザを識別し、アプリケーションに対してポリシーを設定するアクティブ・アナライザ165及びイントロスペクティブ・アナライザ175を含む。イントロスペクティブ・アナライザ175は、休止中のデータを検査するためにクラウドベースのサービス108と直接に相互作用する。ポーリング・モードでは、イントロスペクティブ・アナライザ175が、APIコネクタを使用してクラウドベースのサービスを呼び出し、クラウドベースのサービスに常駐するデータをクロールし、変化をチェックする。例えば、Box(商標)ストレージ・アプリケーションは、BoxコンテンツAPI(商標) という管理APIを提供する。この管理APIは、Boxフォルダの監査ログ等を含む、すべてのユーザの組織のアカウントへの可視性を提供し、これらを検査することで、認証情報が漏洩した特定の日付以降に機密ファイルがダウンロードされたかどうかを判断できる。イントロスペクティブ・アナライザ175は、このAPIをポーリングして、アカウントの何れかに対して行われた任意の変更を発見する。変化が発見されると、ボックス・イベントAPI(商標)がポーリングされ、詳細なデータ変化が発見される。コールバック・モデルでは、イントロスペクティブ・アナライザ175が、APIコネクタを介してクラウドベースのサービスに、重大なイベントが通知されるように登録する。例えば、イントロスペクティブ・アナライザ175は、マイクロソフトOffice365 Webhooks API(商標)を使用して、何時ファイルが外部で共有されたかを知ることができる。イントロスペクティブ・アナライザ175はまた、ディープAPI検査、ディープ・パケット検査、及びログ検査機能を有し、様々なコンテンツ検査技術をクラウドベースのサービス内の静止しているファイルに適用して、ストレージ186に格納されたポリシー及び規則に基づいて、どのドキュメント及びファイルが機密であるかを決定するDLPエンジンを含む。イントロスペクティブ・アナライザ175による検査の結果、ユーザごとのデータ及びファイルごとのデータが生成される。
図1Aの説明を続けると、N−CASB155は、抽出エンジン171、分類エンジン172、セキュリティ・エンジン173、管理プレーン174、及びデータ・プレーン180を含むモニタ184を更に備える。また、N−CASB155は、ディープラーニング・スタック・パラメータ183、特徴及びラベル185、コンテンツ・ポリシー187、コンテンツ・プロファイル188、コンテンツ検査ルール189、企業データ197、顧客198及びユーザ・アイデンティティ199のための情報を含むストレージ186を更に備える。企業データ197は、知的財産、非公開の財務情報、戦略的計画、顧客リスト、顧客または従業員に属する個人を特定可能な情報(PII)、患者健康データ、ソースコード、営業秘密、予約情報、提携契約、企業プラン、合併及び買収文書、並びに他の機密データを含むが、これらに限定されない組織データを含むことができる。特に、「企業データ」という用語は、ドキュメント、ファイル、フォルダ、ウェブページ、ウェブページのコレクション、画像、またはその他のテキストベースのドキュメントを指す。ユーザ・アイデンティティは、トークン、UUIDのような固有アイデンティティ、公開鍵証明書等の形態で、ネットワーク・セキュリティ・システムによってクライアント・デバイスに提供されるインジケータを参照する。幾つかのケースでは、ユーザ・アイデンティティを特定のユーザと特定のデバイスにリンクできる。したがって、同じ個人が携帯電話とコンピュータで異なるユーザ・アイデンティティを持つことができる。ユーザ・アイデンティティは、エントリまたはユーザIDの企業・アイデンティティ・ディレクトリにリンクできるが、これとは異なる。一実施態様では、ネットワーク・セキュリティによって署名された暗号証明書がユーザ・アイデンティティとして使用される。他の実施態様では、ユーザ・アイデンティティはユーザにのみ固有であり、デバイス間で同一であることが可能である。
実施形態は、シングル・サインオン(SSO)ソリューション、及び/または、マイクロソフトのアクティブ・ディレクトリ等の企業・アイデンティティ・ディレクトリと相互運用することもできる。斯かる実施形態は、カスタム属性を使用して、例えば、グループまたはユーザ・レベルの何れかで、ポリシーがディレクトリ内で定義されることを可能にしてもよい。システムで設定されたホスト・サービスも、システム経由のトラフィックを要求するように設定される。これは、ホスト・サービスでのIP範囲制限を、システム及び/またはシステムとSSOシステム間の統合のIP範囲に設定することよって実行できる。例えば、SSOソリューションとの統合は、サインオンを許可する前にクライアント・プレゼンス要件を実施することができる。他の実施形態は、SaaSベンダーと共に“プロキシアカウント”、例えば、サービスにサインインするための唯一の信用証明を保持するシステムによって保持される専用アカウントを使用してもよい。他の実施形態では、クライアントが、ログインをホスト・サービスに渡す前に、サインオン信用証明を暗号化してもよく、これはネットワーク・セキュリティ・システムがパスワードを“所有する”ことを意味する。
ストレージ186は、1または複数のテナントからの情報を共通データベース画像のテーブルに記憶して、マルチ・テナント・データベース・システム(MTDS)のような多くの方法で実施可能なオンデマンド・データベース・サービス(ODDS)を形成することができる。データベース画像には、1または複数のデータベース・オブジェクトを含めることができる。他の実施態様では、データベースは、リレーショナル・データベース管理システム(RDBMS)、オブジェクト指向データベース管理システム(OODBMS)、分散ファイル・システム(DFS)、スキーマ無しデータベース、または他の任意のデータ格納システムまたはコンピューティング・デバイスであり得る。幾つかの実施態様では、収集されたメタデータが処理及び/または正規化される。場合によっては、メタデータは、クラウドサービス108によって提供される構造化データ及び機能ターゲット特有のデータ構造を含む。フリーテキスト等の非構造化データも、クラウドサービス108によって提供され、クラウドサービス108に戻す対象とすることができる。構造化データ及び非構造化データの両方は、イントロスペクティブ・アナライザ175によって集約することができる。例えば、アセンブルされたメタデータは、JSON(JavaScript Option Notation)、BSON(Binary JSON)、XML、Protobuf、AvroまたはThriftオブジェクトのような半構造化データ形式で保存される。これらは、文字列フィールド(または列) と、数字、文字列、オブジェクト、配列、オブジェクト等の潜在的に様々なタイプの対応する値で構成される。JSONオブジェクトは、ネストでき、フィールドは、他の実施態様では、配列、ネストされた配列等に複数値化することができる。これらのJSONオブジェクトは、Apache Cassandra(商標)158、Google’s BigTable(商標)、HBase(商標)、Voldemort(商標)、CouchDB(商標)、MongoDB(商標)、Redis(商標)、Riak(商標)、Neo4j(商標)等のようなスキーマレスまたはNoSQLキー値メタデータ・ストア148に格納され、これはSQL内のデータベースと等価なキースペースを使用して、解析されたJSONオブジェクトを格納する。各キースペースは、テーブルに類似し、行及び列のセットを含む列ファミリに分割される。
一実施態様では、イントロスペクティブ・アナライザ175が、入力メタデータを分析し、受信したデータ内のキーワード、イベント、ユーザID、位置、人口統計、ファイル・タイプ、タイムスタンプ等を識別するメタデータ・パーサ(明瞭性のため図示省略)を含む。イントロスペクティブ・アナライザ175によって分析されるメタデータは均質ではない(例えば、多くの異なるフォーマットに多くの異なるソースがある)ので、或る実施態様は、クラウドサービス毎に少なくとも1つのメタデータ・パーサを使用し、場合によっては複数のメタデータ・パーサを使用する。他の実施態様では、イントロスペクティブ・アナライザ175がモニタ184を使用してクラウドサービスを検査し、コンテンツ・メタデータを組み立てる。1つの使用事例では、機密ドキュメントの識別がドキュメントの事前検査に基づく。ユーザは手動でドキュメントに機密とタグ付けすることができ、この手動タグ付けによってクラウドサービスのドキュメント・メタデータが更新される。その後、公開されたAPIを使用してクラウドサービスからドキュメント・メタデータを取得し、機密性のインジケータとして使用することができる。
図1Aの説明を更に続けると、システム100は、任意の数のクラウドベースのサービス108、すなわち、ポイント・ツー・ポイント・ストリーミング・サービス、ホスト・サービス、クラウド・アプリケーション、クラウド・ストア、クラウド・コラボレーション、及びメッセージング・プラットフォーム、並びにクラウド顧客関係管理(CRM)プラットフォームを含むことができる。これらのサービスには、BitTorrent(BT)、ユーザ・データ・プロトコル(UDP)ストリーミング、及びファイル転送プロトコル(FTP)等のポータル・トラフィック用プロトコルを介したピア・ツー・ピア・ファイル共有(P2P)、インターネットプロトコル(IP)を介したインスタント・メッセージや、セッション開始プロトコル(SIP)及びSkype を介したLTE(VoLTE)を介した携帯電話通話等の音声、ビデオ、及びメッセージング・マルチメディア通信セッションを含めることができる。これらのサービスは、インターネット・トラフィック、クラウド・アプリケーション・データ、及び汎用ルーティング・カプセル化(GRE)データを処理できる。ネットワーク・サービスまたはアプリケーションは、ウェブベース(例えば、ユニフォーム・リソース・ロケータ(URL)経由でアクセスされる)であったり、または同期クライアント等のネイティブであったりすることができる。例として、ソフトウェア・アズ・ア・サービス(SaaS)の提供、プラットフォーム・アズ・ア・サービス(PaaS)の提供、及び、インフラストラクチャ・アズ・ア・サービス(IaaS)の提供、並びに、URLを介して公開される内部企業アプリケーションが含まれる。今日一般的なクラウドベースのサービスの例としては、Salesforce.com(商標)、Box(商標)、Dropbox(商標)、Google Apps(商標)、Amazon AWS(商標)、Microsoft Office 365(商標)、Workday(商標)、Oracle on Demand(商標)、Taleo(商標)、Yammer(商標)、Jive(商標)、Concur(商標)等がある。
システム100の要素の相互接続において、ネットワーク145は、コンピュータ112a−n、タブレット122a−n、携帯電話132a−n、スマートウォッチ142a−n、クラウドベースのホスティング・サービス118、ウェブ電子メール・サービス128、ビデオ、メッセージング及び音声コールサービス138、ストリーミング・サービス148、ファイル転送サービス158、クラウドベースの記憶サービス168、及びN−CASB 155を通信状態に結合する。通信パスは、パブリック・ネットワーク、及び/またはプライベート・ネットワークを介したポイント・ツー・ポイントにすることができる。通信は、プライベート・ネットワーク、VPN、MPLS回線、またはインターネット等の様々なネットワークを介して行われ、適切なアプリケーション・プログラム・インタフェース(API) 、及び、REST、JSON、XML、SOAP、JMS 等のデータ交換フォーマットを使用できる。全ての通信は暗号化することができる。この通信は一般に、LAN(ローカル・エリア・ネットワーク)、WAN(ワイド・エリア・ネットワーク)、電話網(公衆交換電話網)、セッション開始プロトコル(SIP)、ワイヤレス・ネットワーク、ポイント・ツー・ポイント・ネットワーク、星型ネットワーク、トークン・リング型ネットワーク,ハブ型ネットワーク、及び、EDGE、3G、4G LTE、Wi−Fi、WiMAX等のプロトコルを介したモバイル・インターネットを含むインターネット等のネットワークを介して行われる。更に、ユーザ名/パスワード、オープン認証(OAuth)、Kerberos、SecureID、デジタル証明書等の様々な承認及び認証技術を使用して、通信を保護することができる。
更に、図1Aのシステムアーキテクチャの説明を続ける。N−CASB155は、互いに通信するように結合された1または複数のコンピュータ及びコンピュータ・システムを含むことができるモニタ184及びストレージ186を含む。また、それらは、1または複数の仮想コンピューティング及び/または記憶リソースであってもよい。例えば、モニタ184は、1または複数のAmazon EC2インスタンスとすることができ、ストレージ186は、Amazon S3(商標)ストレージとすることができる。直接物理コンピュータまたは従来の仮想マシン上でN−CASB 155を実装するのではなく、Salesforce社のRackspace、Heroku、またはForce.com等の他のコンピューティング・アズ・サービス・プラットフォームを使用することができる。更に、1または複数のエンジンを使用することができ、1または複数のポイント・オブ・プレゼンス(POP)を確立して、セキュリティ機能を実施することができる。図1Aのエンジンまたはシステム・コンポーネントは、様々なタイプのコンピューティング・デバイス上で実行されるソフトウェアによって実装される。デバイスの例としては、ワークステーション、サーバ、コンピューティング・クラスタ、ブレード・サーバ、サーバ・ファーム、または、その他のデータ処理システムやコンピューティング・デバイス等がある。エンジンは、異なるネットワーク接続を介してデータベースに通信可能に結合することができる。例えば、抽出エンジン171は、ネットワーク145(例えば、インターネット)を介して結合することができ、分類エンジン172は、直接ネットワーク・リンクを介して結合することができ、セキュリティ・エンジン173は、更に異なるネットワーク接続によって結合することができる。開示された技術では、データ・プレーン180のPOPがクライアントの構内でホストされるか、またはクライアントによって制御される仮想プライベート・ネットワーク内に配置される。
N−CASB155は、管理プレーン174及びデータ・プレーン180を介して様々な機能を提供する。一実施態様によれば、データ・プレーン180は、抽出エンジン171と、分類エンジン172と、セキュリティ・エンジン173とを含む。制御プレーンのような他の機能を提供することもできる。これらの機能は集合的に、クラウドサービス108と組織ネットワーク102との間の安全なインタフェースを提供する。N−CASB155を説明するために「ネットワーク・セキュリティ・システム」という用語を使用するが、より一般的には、このシステムは、セキュリティだけでなく、アプリケーション可視性及び制御機能も提供する。一例では、35000のクラウド・アプリケーションが、組織ネットワーク102内のコンピュータ112a〜n、タブレット122a〜n、携帯電話132a〜n、及びスマートウォッチ142a〜nによって使用されているサーバと交差するライブラリ内に常駐する。
一実施態様によれば、組織ネットワーク102内のコンピュータ112a〜n、タブレット122a〜n、携帯電話132a〜n、及びスマートウォッチ142a〜nは、コンテンツ・ポリシー187を規定及び管理するために、N−CASB155によって提供される安全なウェブ配信インタフェースを有するウェブ・ブラウザを有する管理クライアントを含む。N−CASB155はマルチテナント・システムであるため、管理クライアントのユーザは、幾つかの実施態様に応じて、その組織に関連付けられたコンテンツ・ポリシー187のみを変更することができる。幾つかの実施態様では、プログラムでポリシーを規定及び更新するためのAPIを提供できる。斯かる実施態様では、管理クライアントは、1または複数のサーバ、例えば、マイクロソフト・アクティブ・ディレクトリのような企業アイデンティティ・ディレクトリを含み、更新のプッシュ、及び/またはコンテンツ・ポリシー187に対する更新のプル・リクエストへの応答を行うことができる。両方のシステムは共存し得る。例えば、企業アイデンティティ・ディレクトリを使用して、組織内のユーザの識別を自動化しながら、ウェブ・インタフェースを使用してポリシーをニーズに合わせて調整することができる。管理クライアントには役割が割り当てられ、N−CASB155データへのアクセスは、役割、例えば、読取り専用対読取り書込みに基づいて制御される。
ユーザ毎のデータ及びファイル毎のデータを定期的に生成し、メタデータ・ストア178に保持することに加えて、アクティブ・アナライザ及びイントロスペクティブ・アナライザ(図示せず)もクラウド・トラフィック上でセキュリティ・ポリシーを実施する。アクティブ・アナライザ及びイントロスペクティブ・アナライザの機能性に関する更なる情報については、例えば、共通に所有される以下の文献を参照することができる。米国特許第9,398,102号(代理人整理番号NSKO1000−2);米国特許第9,270,765号(代理人整理番号NSKO1000−3);米国特許第9,928,377号(代理人整理番号NSKO1001−2);及び、米国出願第15/368,246号(代理人整理番号NSKO1003−3);チェン、イタール、 ナラヤナスワミー 、及び、 マルムスコッグ、「ダミー用のクラウド・セキュリティ、 ネットスコープ・スペシャルエディション」、ジョン・ワイリー・アンド・サンズ、2015年; 「ネットスコープ・イントロスぺクション」 ネットスコープ、インク(Netskope,Inc)発行;「クラウドにおけるデータ損失防止及びモニタリング」、ネットスコープ、インク(Netskope,Inc)発行;「クラウド・データ損失防止リファレンス・アーキテクチャ」、ネットスコープ、インク(Netskope,Inc)発行;「クラウド・コンフィデンスへの5つのステップ」、ネットスコープ、インク(Netskope,Inc)発行;「ネットスコープ・アクティブ・プラットフォーム」、ネットスコープ、インク(Netskope,Inc)発行;「ネットスコープ・アドヴァンテージ:クラウド・アクセス・セキュリティ・ブローカのための3つの“必携”要件」、ネットスコープ、インク(Netskope,Inc)発行;「15の重要CASB使用事例」、ネットスコープ、インク(Netskope,Inc)発行;「ネットスコープ・アクティブ・クラウドDLP」、ネットスコープ、インク(Netskope,Inc)発行;「クラウド・データ侵害の衝突コースを修復する」、ネットスコープ、インク(Netskope,Inc)発行;及び「Netskope Cloud Confidence Index(商標)」、ネットスコープ、インク(Netskope,Inc)発行。以上の資料は、ここに完全に記載されているかの如く、参照により組み込まれる。
システム100の場合、管理プレーン174及びデータ・プレーン180と共に、またはそれらに代えて、制御プレーンを使用することができる。これらのグループ間での機能の具体的な分割は、実施態様における選択肢である。同様に、機能性は、局所性、性能、及び/または安全性を改善するために、幾つかのポイント・オブ・プレゼンス(POP)に亘って高度に分散させることができる。一実施態様では、データ・プレーンは、構内または仮想プライベート・ネットワーク上にあり、ネットワーク・セキュリティ・システムの管理プレーンは、本明細書で説明するように、クラウドサービスまたは企業ネットワークに配置される。別の安全なネットワークの実施態様では、POPは異なる方法で分散できる。
本明細書ではシステム100について特定のブロックを参照して説明されるが、該ブロックは説明の便宜のために定義され、構成部品の特定の物理的配置を必要とすることを意図していないことを理解されたい。更に、該ブロックは、物理的に別個の部品に対応する必要はない。物理的に別個の部品が使用される限り、構成要素間の接続は、所望に応じて有線及び/または無線とすることができる。異なる要素またはコンポーネントは、単一のソフトウェア・モジュールに組み合わせることができ、複数のソフトウェア・モジュールは、同じハードウェア上で実行することができる。
更に、本技術は、互いに協働して通信する2つ以上の分離した別個のコンピュータ実装システムを使用して実施することができる。この技術は、プロセス、方法、装置、システム、デバイス、コンピュータ読み取り可能な命令またはコンピュータ・プログラム・コードを記憶するコンピュータ可読記憶媒体のようなコンピュータ可読媒体、または、そこに具体化されたコンピュータ読み取り可能なプログラム・コードを有するコンピュータ使用可能媒体を含むコンピュータ・プログラム製品を含む、多数の方法で実現することができる。開示される技術は、データベース・システム、または、Oracle(商標)互換データベース実装、IBM DB2 Enterprise Server(商標)互換リレーショナル・データベース実装、MySQL(商標)またはPostgreSQL(商標)互換リレーショナル・データベース実装、またはMicrosoft SQL Server(商標)互換リレーショナル・データベース実装のようなリレーショナル・データベース実装、または、Vampire(商標)互換非リレーショナル・データベース実装、Apache Cassandra(商標)互換非リレーショナル・データベース実装、BigTable(商標)互換非リレーショナル・データベース実装、または、HBase(商標)またはDynamo(商標)互換非リレーショナル・データベース実装等のNoSQL非リレーショナル・データベース実装を含む任意のコンピュータ実装システムのコンテキストで実施することができる。更に、開示される技術は、MapReduce(商標)、バルク同期プログラム、MPIプリミティブ等のような様々なプログラミング・モデル、または、Amazon Elasticsearch Service(商標)及びAmazon Kinesis(商標)を含むAmazon Web Services(AWS)(商標)、Apache Storm(商標)、Apache Spark(商標)、Apache Kafka(商標)、Apache Flink(商標)、Truviso(商標)、IBM Info−Sphere(商標)、Borealis(商標)、及び、Yahoo!S4(商標)のような様々なスケーラブル・バッチ及びストリーム管理システムを使用して実施することができる
初期のディープラーニング・モデルは、トレーニングに使用されるデータセットに対して良好に機能することができる。見えない画像に対しては、性能は予測不可能である。現実世界のシナリオのデータセット・カバレッジを増加させる必要性が継続的に存在する。
図1Bは、組織ネットワーク102、データ・センタ152、及びクラウドベースのサービス108を有する、先に図1Aに関連して説明したシステム100の画像由来機密データの検出態様を示す。各個別の組織ネットワーク102は、データ損失防止機能とやり取りするためのユーザ・インタフェース103を有し、ディープラーニング・スタック・トレーナ162を有する。専用DLスタック・トレーナは、組織の制御下で、組織のそれぞれの更新されたDLスタックを生成するように構成できる。ディープラーニング・スタック・トレーナ162は、マスタDLスタックの事前トレーニングを実行したDLPプロバイダに画像内の機密データを組織が転送することなく、顧客組織がその画像及びスクリーンショット分類器の更新トレーニングを実行することを可能にする。これにより、PIIデータ及びその他の機密データがデータ損失防止プロバイダでアクセスできないように保護されるため、DLPセンターに保存された保存済み機密データを保護するための要件が削減される。DLスタックのトレーニングについては、更に後述する。
図1Bの説明を続けると、データ・センタ152は、推論及びバック・プロパゲーション166を備えたディープラーニング・スタック157と、画像生成ロボット167とを有する、画像由来機密データ検出156を含むネットスコープ・クラウド・アクセス・セキュリティ・ブローカ(N−CASB)155を含む。ディープラーニング(DL)スタック・パラメータ183及び特徴及びラベル185は、先に詳細に説明したストレージ186に保存される。ディープラーニング・スタック157は、スタックの第1セットの層からの出力として生成され、プログレッシブ・オンライン・ディープラーニングのためにそれぞれの正解ラベルと共に保持される保存された特徴及びラベル185を利用し、それによって、プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する。新しい画像由来識別ドキュメントが受信されると、新しいドキュメントは後述のトレーニングされたDLスタックによって分類できる。
画像生成ロボット167は、実際のパスポート画像及び米国の運転免許証画像に加えて、ディープラーニング・スタック157をトレーニングする際に使用するための他の画像ドキュメントの実例を生成する。一例では、画像生成ロボット167が、ウェブベースの検索エンジンを介して米国の運転免許証サンプル画像をクロールし、画像を検査し、忠実度の低い画像をフィルタ除去する。
画像生成ロボット167はまた、スクリーンショット画像及び非スクリーンショット画像の例を収集し、画像例に対するラベル付けされた正解データを作成し、機密情報を含み得るスクリーンショットの様々な変形を表す収集されたスクリーンショット画像の例のうちの少なくとも一部の再レンダリングを適用して、ウェブUI自動化に使用可能なツールを活用して、ディープラーニング・スタック157をトレーニングするための合成データを作成する。ツールの一例として、ウェブ・ブラウザを開いたり、ウェブサイトにアクセスしたり、ドキュメントを開いたり、ページ上でクリックをシミュレートできるオープンソース・ツールSelenium がある。例えば、このツールは、プレーン・デスクトップから開始し、様々なサイズの1または複数のウェブ・ブラウザをデスクトップの様々な場所で開き、ライブ・ウェブサイトにアクセスするか、所定のローカル・ドキュメントを開くことができる。次に、これらの動作を、ブラウザ・ウィンドウの数、ブラウザ・ウィンドウのサイズ及び場所、ブラウザ・ウィンドウの相対的な位置決め等のランダム化されたパラメータを用いて繰り返すことができる。次に、画像生成ロボット167は、デスクトップのスクリーンショットを取得し、生成されたサンプル画像をDLスタック157に供給するためのトレーニング・データとして補強することを含めて、スクリーンショットを再レンダリングする。例えば、この処理は、画像にノイズを加え、DLスタック157のロバスト性を高めることができる。我々のトレーニング・データに適用した補強は、画像の一部を切り抜き、色相、コントラスト及び彩度を調整することを含む。データを密かに抽出するために人々が使用するスクリーンショット画像を検出するために、反転または回転は、画像補強に追加されていない。異なる実施態様例では、他の画像ドキュメントの実例に反転及び回転を追加することができる。
図2は、画像内の識別ドキュメントを検出し、スクリーンショット画像を検出するためのシステムで使用するように構成可能な、画像分類のための畳み込みニューラルネットワーク(CNN)アーキテクチャ・モデルを使用して実装されたディープラーニング(DL)スタック157のブロック図を示す。CNNアーキテクチャ・モデルの画像は、2020年4月28日にhttps://towardsdatascience.com/covolutional-neural-network-cb0883dd6529からダウンロードされた。初期CNN層への入力は、画像次元及び3つのカラー・チャネル、すなわち赤、緑及び青を有する3次元マトリックスで表される画像データ自体である。入力画像は、図2に示すように、224×224×3とすることができる。別の実施態様では、入力画像は200×200×3とすることができる。結果が後に示される実施態様例では、利用される画像の大きさは160×160×3であり、全体で88層である。
1630995073802_0
DLスタック157の説明を続けると、特徴抽出層は、畳み込み層245とプーリング層255である。開示されたシステムは、特徴抽出層の特徴及びラベル185出力を、畳み込み演算の多くの異なる反復を通じて処理された数値として記憶し、生画像の代わりに非可逆的特徴を保存する。抽出された特徴は、元の画像画素データに逆変換できない。すなわち、記憶された特徴は、非可逆的特徴である。入力画像データの代わりにこれらの抽出された特徴を記憶することによって、DLスタックは、個人を特定可能な情報(PII)、保護された健康情報(PHI)、及び知的財産(IP)等の機密情報及び個人情報を搬送することができる元画像の画素を記憶しない。
DLスタック157は、入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを含む。DLスタックの第2セットの層に、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、第1セットの層は画像認識を実行するように事前トレーニングされる。開示されたDLスタック157は、最初の50層を第1セットの層としてフリーズする。DLスタック157は、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して、前方推論及びバック・プロパゲーション166によってトレーニングされる。プライベート画像由来識別ドキュメント及びスクリーンショット画像の場合、CNNアーキテクチャ・モデルは、第1セットの層からの出力として生成された特徴を捕捉し、捕捉された特徴をそれぞれの正解ラベルと共に保持し、それによって、プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する。全結合層265及びSoftMax層275は、トレーニングされるCNNの入力層からより遠い第2セットの層を含み、第1セットの層とともに、モデルは、画像中の識別ドキュメントを検出し、スクリーンショット画像を検出するために利用される。
前方推論及びバック・プロパゲーション166によるDLスタック157のトレーニングは、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを利用する。DLスタックの第2セットの層に、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、第1セットの層は、画像認識を実行するように事前トレーニングされる。画像分類器の出力は、第2セットの層をトレーニングするために活用することができ、一例では、OCR及び画像分類器の両方によって同じタイプとして分類された画像のみを、ラベル付けされた画像としてディープラーニング・スタックに供給する。
開示された技術は、プロダクション画像からの推論のためにトレーニングされたDLスタック183のパラメータを記憶し、記憶されたパラメータを有するプロダクションDLスタックを使用して、推論によって、ある使用事例では機密画像由来識別ドキュメントを、別の事例ではスクリーンショット画像を含むものとしてプロダクション画像を分類する。
1つの使用事例では、目的はパスポート画像を検出するための画像分類ディープラーニング・モデルを開発することであった。パスポートを分類するためのディープラーニング・ベースのバイナリ画像分類器を構築するための初期トレーニング・データは、55カ国からの約550のパスポートを、画像由来識別ドキュメントを検出するためのラベル付けされた正解データとして使用して生成された。目的は、高い検出率でパスポートを検出することであったので、パスポートとして他の身分証明書タイプを検出することは許容できなかった。ネガティブ・データセットとして、運転免許証、身分証明書、学生識別子、軍籍身分証明書等を含む他の身分証明書タイプの画像及び非身分証明書の画像を使用した。他の身分証明書タイプの検出率を最小化するという目標を満たすために、これらの他の身分証明書画像はネガティブ・データセットにおいて使用された。
第2の使用事例では、目的は、パスポート画像及び米国の運転免許証画像を検出するための画像分類器を開発することであった。パスポートを分類するためのディープラーニング・ベースのバイナリ画像分類器を構築するためのトレーニング・データは、550のパスポート画像及び248の米国運転免許証画像を使用して生成された。実際のパスポート画像及び米国の運転免許証画像に加えて、インターネットをクロールすることによって得られた米国の運転免許証サンプル画像が、検査及び忠実度の低い画像のフィルタ除去後に含まれた。
利用可能な入力データのサブセットについて幾つかのモデルをトレーニングし、該データの補完的サブセットについてそれらを評価することによって、DLスタックモデルを評価するために、交差検証技術を使用した。k−分割交差検証では、入力データが、フォールドとしても知られるデータのk個のサブセットに分割される。得られた画像分類器の性能をチェックするために、10−分割交差検証を適用した。米国の運転免許証のカットオフ値として0.3、パスポートのカットオフ値として0.8を選択し、モデルの精度とリコールをチェックした。
図3は、運転免許証についての精度345と運転免許証についてのリコール355、パスポートについての精度365とパスポート画像についてのリコール375、及び、ネガティブな結果とも呼ばれる非身分証明書(非運転免許証またはパスポート)についての精度385、及び、ネガティブな結果についてのリコール395を用いてグラフ化された、トレーニングされたパスポート及び運転免許証分類器について、精度及びリコール結果を示す。グラフに示されるように、精度が増加することにつれて、リコールは減少する。設計者はパスポート画像分類器の性能をチェックするために、10−分割交差検証を使用した。誤検出率(FPR)はテストでの非身分証明書画像について計算し、検出漏れ率(FNR)はテストでのパスポート及び運転免許証画像について計算した。10−分割交差検証の結果を平均し、平均したFPR及びFNRを次に列挙する。
・ パスポートのFPR(非身分証明書画像がパスポートに分類される):0.7%
・ 米国運転免許証のFPR(非身分証明書画像が米国運転免許証に分類される):0.3%
・ パスポートのFNR(パスポート画像がパスポートに分類されない):6%
・ 米国運転免許証のFNR(米国運転免許証画像が運転免許証に分類されない):6%
図4は、様々なファイルサイズの1000を超える画像を使用して、Google Cloud Platform(GCP)(n1−highcpu−64: 64 vCPU、57.6GBメモリ)上でモデル推論を使用してテストした画像を分類するための実行時間結果を、画像の分布としてグラフ化して示す。グラフには、ファイルサイズが2MB以下の画像の場合、画像の実行時間分布がファイルサイズの関数として表示される。実行時間は、画像を読み取った時間「opencv」から、分類器が画像上でその予測を終了した時間までカウントしたものである。実行時間の平均値は45ms、標準偏差は56msであった。
図5は、米国運転免許証の機密画像を分類するための、市販の分類器を、開示されたディープラーニング・スタックの大幅に改善された性能と比較するベンチマーキング結果を示す。分類される画像の数は334である。正規表現(Regex)によるOCR及びパターン・マッチングを使用する市販の分類器を使用すると、334個の画像のうち検出される画像の数は238であり、これは71.2%の検出566を表す。機密画像の大部分が検出され、システムは「合理的に」しかうまく機能しない。画像によっては、分類器は、ぼやけたまたは回転したテキストを抽出することができない。対照的に、ディープラーニング・スタックを利用する開示された技術は、334個の画像のうちの329個を検出し、これは、機密画像由来識別ドキュメントを含む画像の98.5%の検出576を表す。
図6は、画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐためのワークフロー例600を示す。ステップ605では、先に図2に関連して説明したCNNのような事前トレーニングされたネットワークを選択する。DLスタックは少なくとも、入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを含み、第1セットの層は、画像認識を実行するように事前トレーニングされている。説明した例では、画像を検出するためのMobileNet CNNが選択された。異なるCNNまたは異なるML分類器を選択することができる。ステップ615は、2つの使用事例について説明したように、ネガティブ画像のバランスをとった機密情報を含む画像の収集をカバーしている。ステップ625では、事前トレーニングされたネットワークの最終層とCNNモデルの分類器の両方を再トレーニングし、CNNモデルを検証し、テストする−ステップ615で収集された画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して、前方推論及びバック・プロパゲーションによりDLスタックをトレーニングし、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データをDLスタックの第2セットの層に当てる。ステップ635で、現在のデータセット内のすべての画像について、現在のCNNの抽出された特徴を保存する。ステップ645において、プロダクション画像から推論するために、トレーニングされたDLスタックの記憶されたパラメータを有するプロダクションDLスタックである、新しいCNNモデルを展開する。ステップ655で、プロダクションOCRから新しいラベルのバッチを収集し、画像由来情報を含まないネガティブ画像を追加する。ステップ665で、CNNモデルのためのトレーニング・データセットに新しい画像を追加し、新しい入力を形成する。ステップ675では、CNNモデルの分類器を再トレーニングし、モデルを検証し、テストした後、プロダクションDLスタックを使用して、少なくとも1つのプロダクション画像を、機密画像由来識別ドキュメントを含むものとして推論によって分類する。
スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ使用事例の場合、ワークフローは、ワークフロー600に類似する。スクリーンショット画像シナリオを検出するために、画像生成ロボット167は、スクリーンショット画像及び非スクリーンショット画像の実例を収集し、ディープラーニング・スタック157をトレーニングする際に使用するために、OCRを必要とせずに、実例に対するラベル付けされた正解データを作成するスクリーンショット・ロボットである。スクリーンショット・ロボットは、収集されたスクリーンショット画像例のうちの少なくとも一部の再レンダリングを適用して、機密情報を含み得るスクリーンショットの変化を表す。ラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりDLスタックをトレーニングするためのトレーニング・データは、スクリーンショット画像及び非スクリーンショット画像の実例を利用する。一例では、フルスクリーンショット画像は単一のアプリケーション・ウィンドウを含み、ウィンドウサイズはフルスクリーンの50%以上をカバーする。別の例として、フルスクリーンショット画像は複数のアプリケーション・ウィンドウを示し、更に別の例では、アプリケーション・スクリーンショット画像は単一のアプリケーション・ウィンドウを表示する。
図7は、コストがリストされた顧客の在庫リストを含むスクリーンショット画像例を示す。スクリーンショット画像を検出することによって、機密会社データのエクスフィルトレーションを阻止することができる。
スクリーンショット画像を検出するための開示された方法を使用して得られた結果の交差検証は、DLスタックモデルがどの程度良く一般化するかをチェックすることに焦点を当てている。スクリーンショット画像と非スクリーンショット画像の収集例はMACの背景をもつスクリーンショット画像のために、トレーニング・セットとテスト・セットに分離された。Windows の背景を含む画像と、Linux(登録商標) の背景を含む画像は、テスト専用に使用された。更に、アプリケーション・ウィンドウは、それらのカテゴリに基づいてトレーニング・セットとテスト・セットに分割された。次に、5つの別個の交差検証事例の性能について説明する。トレーニング・データの合併は、MAC背景のトレーニングとAppウィンドウのトレーニングによって混合された合成フルスクリーンショットのセットであった。
交差検証事例1の場合、テストデータは、MAC背景でのテスト及びAppウィンドウでのテストによって混合された合成フルスクリーンショットのセットであった。スクリーンショットの検出精度は93%と測定された。交差検証事例2では、テストデータは、Windows背景でのテスト及びAppウィンドウでのテストによって混合された合成フルスクリーンショットのセットであった。スクリーンショットの検出精度は92%と測定された。交差検証事例3では、テストデータは、Linux背景でのテスト及びAppウィンドウでのテストによって混合された合成フルスクリーンショットのセットであった。スクリーンショットの検出精度は86%と測定された。交差検証事例4では、テストデータは、MAC背景でのテスト及び複数のAppウィンドウでのテストによって混合された合成フルスクリーンショットのセットであった。これらのトレーニング及びテストデータのセットを使用したスクリーンショットの検出精度は、97%と測定された。交差検証事例5では、テストデータは、トレーニング・アプリ・ウィンドウとは異なるアプリをテストしており、精度は84%と測定された。
ディープラーニング・スタック・モデルのパフォーマンスは、背景ウィンドウとアプリ・ウィンドウの見えないタイプについてテストされ、次に、全ての背景画像と全てのアプリ・ウィンドウを有する合成フルスクリーンショットを用いて、4,528のスクリーンショットと1,964の非スクリーンショット画像を用いて分類器をトレーニングした。分類器のテストは、45,179の画像を用いた。45,179のスクリーンショットを用いた検出漏れ率(FNR)テストの結果、90の画像が、0.7の閾値で0.2%のFNRについて検出漏れ(FN)として分類された。1,336の非スクリーンショット画像の誤検知率(FPR)テストでは、4つの画像が、0.7の閾値で0.374%のFPRについて誤検知(FP)として分類された。テスト・セット中の4つの画像は、それらが非スクリーンショット画像である場合、スクリーンショットとして誤って分類された。開示されたディープラーニング・スタック・モデルにおける多くの層は、以下の顕著な特徴を含む「スクリーンショット」を決定するために特徴を捕捉するように働く。(1)スクリーンショットは、機密情報を含む1または複数の主ウィンドウを含む傾向がある。斯かる情報は、個人情報、コード、テキスト、ピクチャ等であり得る。(2)スクリーンショットは、メニューまたはアプリケーション・バー等のヘッダ/フッタバーを含む傾向がある。(3)スクリーンショットは、アプリケーション・ウィンドウ内のコンテンツと比較して、対照的または均一な背景を有する傾向がある。4つのFP画像について、画像がスクリーンショットとして分類された主な理由を次に示す。図8Aは、凡例ウィンドウと、上下の点線とによってスクリーンショット画像として誤分類されたアイダホの地図を示す。図8Bは、画像全体が黒い背景にPIIを含むウィンドウであり、UNITED STATESバーをヘッダ・バーとしてとらえることができるので、スクリーンショット画像として誤分類された運転免許証画像を示す。図8Cは、PIIを含む主要ウィンドウとしてパスポート画像を示しており、中央底部の陰影部分は分類器に、それがアプリケーション・バーであると誤解させる可能性がある。図8Dは、テキスト情報と、スクリーンショット画像として誤って分類された一様な背景とを含む主要ウィンドウ内の文字を示す。
幾つかの使用事例では、DLPサービスを必要とする別個の組織が、画像内の組織機密データの実例からの非可逆的特徴を、実例のための正解ラベルと組み合わせるように構成された、ローカルに動作する専用DLスタック・トレーナ162を利用することができる。専用DLスタック・トレーナは、非可逆的特徴及び正解スラベルを、非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を専用DLスタック・トレーナ162から受信するディープラーニング・スタックに転送する。組織機密トレーニング例は、トレーニングされたマスタDLスタックの第2セットの層を更にトレーニングするために使用される。プロダクション画像からの推論のための第2セットの層の更新されたパラメータは、記憶され、機密データが非可逆的特徴においてアクセス可能でないので、データ・セキュリティを損なうことなく、複数の別個の組織に分配することができる。
ディープラーニング・スタック157のトレーニングは、異なる順序でトレーニング例を利用して、最初から開始することができる。或いは、別の例では、トレーニングは、ラベル付けされた画像例の追加されたバッチを使用して、トレーニングされたマスタDLスタックの第2セットの層を更にトレーニングすることができる。
追加されたバッチ・シナリオでは、サンプルが顧客組織から戻って受信されると、専用DLスタック・トレーナは第2セットの層から更新された係数を転送するように構成され得る。ディープラーニング・スタック157は、複数の専用DLスタック・トレーナから、それぞれの第2セットの層からのそれぞれの更新された係数を受信することができ、それぞれの第2セットの層からの更新された係数を組み合わせて、トレーニングされたマスタDLスタックの第2セットの層をトレーニングすることができる。次いで、ディープラーニング・スタック157は、プロダクション画像から推論するために、トレーニングされたマスタDLスタックの第2セットの層の更新されたパラメータを格納し、第2セットの層の更新されたパラメータを別個の顧客組織に分配することができる。
専用DLスタック・トレーナ162は、一例では、画像由来識別ドキュメントを検出するためのトレーニングを処理することができ、別の例では、スクリーンショット画像を検出するためのトレーニングを行うことができる。
次に、画像中の識別ドキュメントを検出し、スクリーンショットを検出し、クラウド中の機密画像由来ドキュメントの損失を防ぐために使用可能なコンピュータ・システムの実施例について説明する。
[コンピュータ・システム]
図9は、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、クラウド内の画像由来識別ドキュメントの損失を防ぐために使用できるコンピュータ・システム900の簡略化されたブロック図である。コンピュータ・システム900はまた、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐためにも使用可能である。更に、コンピュータ・システム900は、ディープラーニング・スタックをカスタマイズして、画像内の組織機密データを検出し、潜在的機密画像の中央集中型DLPサービスへの転送を必要とせずに、画像由来組織機密ドキュメントの損失を防ぐために使用可能である。コンピュータ・システム900は、バス・サブシステム955を介して幾つかの周辺装置と通信する少なくとも1つの中央演算処理装置(CPU)972と、本明細書で説明されるネットワーク・セキュリティ・サービスを提供するネットスコープ・クラウド・アクセス・セキュリティ・ブローカ(N−CASB)155を含む。これらの周辺装置が例えば、メモリ装置及びファイル・ストレージ・サブシステム936を含むストレージ・サブシステム910、ユーザ・インタフェース入力装置938、ユーザ・インタフェース出力装置976、及びネットワーク・インタフェース・サブシステム974を含むことができる。入力及び出力装置は、コンピュータ・システム900とのユーザ・インタラクションを可能にする。ネットワーク・インタフェース・サブシステム974は、他のコンピュータ・システム内の対応するインタフェース装置へのインタフェースを含む、外部ネットワークへのインタフェースを提供する。
一実施態様では、図1A、及び図1Bのネットスコープ・クラウド・アクセス・セキュリティ・ブローカ(N−CASB)155が、記憶サブシステム910及びユーザ・インタフェース入力デバイス938に通信可能にリンクされる。
ユーザ・インタフェース入力装置938はキーボード、マウス、トラックボール、タッチパッド、または、グラフィックス・タブレット等のポインティング・デバイス、スキャナ、ディスプレイに組み込まれたタッチ・スクリーン、音声認識システム及びマイクロフォン等のオーディオ入力装置、並びに他のタイプの入力装置を含むことができる。一般に、「入力装置」という用語の使用は、コンピュータ・システム900に情報を入力するための全ての可能なタイプの装置及び方法を含むことが意図される。
ユーザ・インタフェース出力装置976は、ディスプレイ・サブシステム、プリンタ、ファックスマシン、または、オーディオ出力装置等の非視覚ディスプレイを含むことができる。ディスプレイ・サブシステムはLEDディスプレイ、陰極線管(CRT)、液晶ディスプレイ(LCD)等のフラットパネル装置、投影装置、または、可視画像を生成するための他の何らかのメカニズムを含むことができる。ディスプレイ・サブシステムはまた、オーディオ出力装置等の非視覚ディスプレイを提供することができる。一般に、「出力装置」という用語の使用はコンピュータ・システム900からユーザに、または別の機械もしくはコンピュータ・システムに情報を出力するための全ての可能なタイプの装置及び方法を含むことが意図される。
ストレージ・サブシステム910は、本明細書で説明するモジュール及び方法の一部または全部の機能を提供するプログラミング及びデータ構造を記憶する。サブシステム978がグラフィックス処理装置(GPU)またはプログラマブル・ゲートアレイ(FPGA)とすることができる。
ストレージ・サブシステム910で使用されるメモリ・サブシステム922は、プログラム実行中に命令及びデータを格納するためのメイン・ランダムアクセス・メモリ(RAM)932と、固定命令が格納される読み出し専用メモリ(ROM)934とを含む、幾つかのメモリを含むことができる。ファイル・ストレージ・サブシステム936は、プログラム及びデータファイルのための永続的ストレージを提供することができ、ハードディスク・ドライブ、関連するリムーバブル・メディアと共にフロッピー(商標)ディスク・ドライブ、CD−ROMドライブ、光ドライブ、または、リムーバブル・メディア・カートリッジを含むことができる。特定の実施態様の機能を実施するモジュールは、ストレージ・サブシステム910内のファイル・ストレージ・サブシステム936によって、またはプロセッサによってアクセス可能な他のマシン内に格納することができる。
バス・サブシステム955は、コンピュータ・システム900の様々なコンポーネント及びサブシステムに、意図されたように互いに通信させるためのメカニズムを提供する。バス・サブシステム955は単一のバスとして概略的に示されているが、バス・サブシステムの他に採り得る実施態様は多数のバスを使用することができる。
コンピュータ・システム900はパーソナル・コンピュータ、ポータブル・コンピュータ、ワークステーション、コンピュータ端末、ネットワーク・コンピュータ、テレビ、サーバ、メインフレーム、広範囲に分散した一連の疎結合コンピュータ、または、任意の他のデータ処理システムもしくはユーザ・デバイスを含む様々なタイプのものとすることができる。コンピュータ及びネットワークの絶えず変化する性質のために、図9に示されるコンピュータ・システム900の説明は、本発明の好ましい実施形態を例示する目的のための特定の実施例としてのみ意図される。コンピュータ・システム900の多くの他の構成が図9に示されたコンピュータ・システムよりも多いまたは少ないコンポーネントを有することが可能である。
図10は、スクリーンショット画像を検出し、スクリーンショット・データの損失を防ぐように構成することができる、1または複数のコンピュータのシステムのためのワークフロー1000を示す。コンピュータは、動作中にシステムにアクションを実行させるソフトウェア、ファームウェア、ハードウェア、または、それらの組み合わせをシステムにインストールすることにより、特定の操作またはアクションを実行する。1または複数のコンピュータ・プログラムは、データ処理装置によって実行されると、該装置にアクションを実行させる命令を含むことによって、特定の動作またはアクションを実行するように構成することができる。幾つかの実施態様では、複数のアクションを組み合わせることができる。便宜上、このフローチャートは、ネットスコープ・クラウド・アクセス・セキュリティ・ブローカ(N−CASB)と、クラウド内のセキュリティ・サービスを適用しながら動的サービス・チェーン内のロード・バランシングとを含むシステムを参照して説明される。1つの一般的な態様は、スクリーンショット画像及び非スクリーンショット画像の実例を収集すること、及び、実例に対するラベル付けされた正解データを作成すること1010を含む、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ方法を含む。スクリーンショット画像を検出する方法はまた、機密情報を含む可能性があるスクリーンショットの様々な変化を表すために、収集されたスクリーンショット画像例の少なくとも一部の再レンダリングを適用すること1020を含む。スクリーンショット画像を検出する方法はまた、スクリーンショット画像及び非スクリーンショット画像の実例に対するラベル付けされた正解データを使用して、前方推論及びバック・プロパゲーションによりディープラーニング(DL)スタックをトレーニングすること1030を含む。DLスタックは、入力層からより遠い第2セットの層に、スクリーンショット画像及び非スクリーンショット画像についてのラベル付けされた正解データを当てる前に、入力層により近い第1セットの層を、画像認識を実行するように事前トレーニングする。スクリーンショット画像を検出する方法はまた、プロダクション画像からの推論のために、トレーニングされたDLスタックのパラメータを格納すること1040を含む。スクリーンショット画像を検出する方法はまた、少なくとも1つのプロダクション画像を推論によってスクリーンショット画像を含むものとして分類するために、格納されたパラメータとともにプロダクションDLスタックを使用すること1050を含む。この態様の他の実施形態は、それぞれが該方法の動作を実行するように構成された、対応するコンピュータ・システム、装置、及び、1または複数のコンピュータ記憶デバイス上に記録されたコンピュータ・プログラムを含む。
図11は、動作中にシステムにアクションを実行させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組み合わせをシステムにインストールすることにより、特定の動作または動作を実行するように構成することができる、1または複数のコンピュータのシステムのためのワークフロー1100を示す。1または複数のコンピュータ・プログラムは、データ処理装置によって実行されると、該装置にアクションを実行させる命令を含むことによって、特定の動作またはアクションを実行するように構成することができる。幾つかの実施態様では、複数のアクションを組み合わせることができる。便宜上、このフローチャートは、ネットスコープ・クラウド・アクセス・セキュリティ・ブローカ(N−CASB)と、クラウド内のセキュリティ・サービスを適用しながら動的サービス・チェーン内のロード・バランシングとを含むシステムを参照して説明される。1つの一般的な態様は、ディープラーニング(DL)スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる画像内の組織機密データを検出し、画像由来組織機密ドキュメントの損失を防ぐ方法を含み、これには、画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりマスタDLスタックを事前トレーニングすることが含まれる(1110)。DLスタックは、少なくとも、入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを含み、DLスタックの第2セットの層に、画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、第1セットの層が画像認識を実行するように事前トレーニングされることを更に含む(1120)。該方法はまた、プロダクション画像からの推論のために、トレーニングされたマスタDLスタックのパラメータを格納することを含む(1130)。該方法はまた、格納されたパラメータを有するトレーニングされたマスタDLスタックを複数の組織に分配することを含む(1140)。該方法は更に、組織が、少なくとも画像内の組織機密データの実例を使用して、トレーニングされたマスタDLスタックの更新トレーニングを実行し、更新されたDLスタックのパラメータを保存することを可能にすることを含む(1150)。組織は、それぞれの更新されたDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を、組織機密ドキュメントを含むものとして分類する(1160)。また、該方法は、組織の制御下において、少なくとも一部の組織に専用DLスタック・トレーナを提供し、画像内の組織機密データの実例をマスタDLスタックの事前トレーニングを実行したプロバイダに組織機密データの例を転送することなく、それぞれの更新されたDLスタックを生成するように構成可能な専用DLスタック・トレーナを使用して、組織が更新トレーニングを実行することを可能にすることをオプションとして含むことができる(1170)。この態様の他の実施形態は、それぞれが該方法の動作を実行するように構成された、対応するコンピュータ・システム、装置、及び、1または複数のコンピュータ記憶デバイス上に記録されたコンピュータ・プログラムを含む。
[特定の実施態様]
画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐための幾つかの特定の実施態様及び特徴が、以下の議論で説明される。
開示された一実施態様では、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐ方法は、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して、前方推論及びバック・プロパゲーションによりディープラーニング(DL)スタックをトレーニングすることを含む。開示されたDLスタックは、入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを少なくとも含み、更に、DLスタックの第2セットの層に、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、画像認識を実行するように予めトレーニングされた第1セットの層を含む。開示された方法はまた、プロダクション画像からの推論のためにトレーニングされたDLスタックのパラメータを格納することと、格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類することとを含む。
開示される技術の本セクション及び他のセクションに記載される方法は、以下の特徴及び/または開示される追加の方法に関連して説明される特徴の1または複数を含むことができる。簡潔にするために、本出願で開示される特徴の組み合わせは、個々に列挙されておらず、特徴の各基本セットについて繰り返されていない。読者は、如何に本方法で特定された特徴を、実施態様として特定された基本特徴の集合と容易に組み合わせることができるかを理解するのであろう。
該方法の幾つかの開示された実施態様は、任意選択的に、プライベート画像由来識別ドキュメントに対して、第1セットの層からの出力として生成された特徴を捕捉し、捕捉された特徴をそれぞれの正解ラベルと共に保持し、それによってプライベート画像由来識別ドキュメントの画像を保持する必要性を排除することを含む。
開示された方法の幾つかの実施態様は、画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを用いた後方プロパゲーションによるトレーニングを、第2セットの層におけるパラメータのトレーニングに制限することを含む。
本発明の開示された一実施態様では、画像の光学式文字認識(OCR)分析が、画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けするために適用される。OCR分析の後に、トレーニング・セットで使用するために、信頼性の高い分類を選択することができる。OCR及び正規表現マッチングは、顧客のプロダクション画像からラベル付けされたデータを生成する自動化された方法として機能する。一例では、米国パスポートの場合、OCRはまずパスポートページ上のテキストを抽出する。次に、正規表現が、"PASSPORT"、"UNITED STATES"、"Department of State"、"USA"、"Authority"、ページ上のその他の言葉とマッチし得る。2番目の例として、カリフォルニア州の運転免許証の場合、OCRは最初に運転免許証の正面からテキストを抽出する。そして正規表現が、"California"、"USA"、"DRIVER LICENSE"、"CLASS"、"SEX"、"HAIR"、"EYES"、及び、フロントページ上のその他の言葉とマッチし得る。3番目の例として、カナダのパスポートの場合、OCRは最初にパスポートページ上のテキストを抽出する。そして正規表現が、"PASSPORT"、"PASSEPORT"、"CANADA"、及び、該ページ上のその他の言葉とマッチし得る。
本発明の幾つかの開示された実施態様では、バック・プロパゲーションによってDLスタックをトレーニングするときに、画像由来識別ドキュメントの第1セットの遠近感が歪められて、画像由来識別ドキュメントの第2セットを生成し、第1及び第2セットがラベル付けされた正解データと結合される。
該方法の開示された他の実施態様では、バック・プロパゲーションによってDLスタックをトレーニングするときに、第1セットの画像由来識別ドキュメントが回転によって歪められて、第3セットの画像由来識別ドキュメントが生成され、第1及び第3セットをラベル付けされた正解データと結合される。
本発明の開示された一実施態様では、バック・プロパゲーションによってDLスタックをトレーニングするときに、第1セットの画像由来識別ドキュメントがノイズによって歪められて、第4セットの画像由来識別ドキュメントが生成され、第1及び第4セットがラベル付けされた正解データと結合される。
本発明の開示された幾つかの実施態様では、バック・プロパゲーションによってDLスタックをトレーニングするときに、第1セットの画像由来識別ドキュメントの焦点が歪んで、第5セットの画像由来識別ドキュメントが生成され、第1及び第5セットがラベル付けされた正解データと結合される。
幾つかの実施態様では、開示される方法が、機密個人情報の保存を回避するために、元の正解画像ではなく、現行のトレーニング正解画像の非可逆的DL特徴を格納することを含み、トレーニング・セットを増強するために、新しい正解画像の非可逆的DL特徴を定期的に追加することと、より正確にするために、増強されたトレーニング・データセットを定期的に再トレーニングすることとを含む。非可逆的DL特徴は、認識可能な機密データを有する画像に変換することができない。
スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐための幾つかの特定の実施態様と特徴について、以下の議論で説明する。
開示される一実施態様では、スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ方法は、スクリーンショット画像及び非スクリーンショット画像の実例を収集することと、実例に対するラベル付けされた正解データを作成することとを含む。該方法はまた、収集されたスクリーンショット画像例のうちの少なくとも一部の再レンダリングを適用して、機密情報を含み得るスクリーンショットの様々な変化を表すことと、スクリーンショット画像及び非スクリーンショット画像の実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりDLスタックをトレーニングすることとを含む。本方法は更に、プロダクション画像からの推論のためにトレーニングされたDLスタックのパラメータを格納するステップと、格納されたパラメータを有するプロダクションDLスタックを使用して、機密画像由来スクリーンショットを含むものとして推論によって少なくとも1つのプロダクション画像を分類するステップとを含む。
開示される方法の幾つかの実施態様は更に、スクリーンショット・ロボットを適用して、スクリーンショット画像及び非スクリーンショット画像の実例を収集することを含む。
開示される方法の一実施態様では、DLスタックが入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを少なくとも含み、更に、DLスタックの第2セットの層にスクリーンショット画像及び非スクリーンショット画像の実例に対するラベル付けされた正解データを当てる前に、第1セットの層は画像認識を実行するように事前トレーニングされる。
開示された方法の幾つかの実施態様は、画像の一部を切り取ること、または、スクリーンショットの変化を表すように色相、コントラスト及び彩度を調整することによって、収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを含む。場合によっては、スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置の少なくとも1つを含む。
開示された方法の一実施態様では、バック・プロパゲーションによってDLスタックをトレーニングするときに、スクリーンショット画像の第1セットが、2以上の機密画像由来スクリーンショットの様々な写真画像の境界に囲まれて、第3セットのスクリーンショット画像が生成され、第1及び第3セットがラベル付けされた正解データと結合される。別の実施態様では、バック・プロパゲーションによってDLスタックをトレーニングするときに、スクリーンショット画像の第1セットが、2以上の機密画像由来スクリーンショットの複数のオーバーレイされたプログラム・ウィンドウの境界に囲まれて、第4セットのスクリーンショット画像が生成され、第1及び第4セットがラベル付けされた正解データと結合される。
以下の議論では、組織機密スクリーンショット画像を検出し、画像由来組織機密スクリーンショットの損失を防ぐための幾つかの特定の実施態様と特徴について説明する。
開示された一実施態様では、ディープラーニング・スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる画像内の組織機密データを検出し、画像由来組織機密ドキュメントの損失を防ぐ方法は、画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりマスタDLスタックを事前トレーニングすることを含む。DLスタックは、少なくとも、入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを含み、DLスタックの第2セットの層に、画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを当てる前に、第1セットの層が画像認識を実行するように事前トレーニングされることを更に含む。開示された方法はまた、プロダクション画像からの推論のためにトレーニングされたマスタDLスタックのパラメータを格納すること、格納されたパラメータを有するトレーニングされたマスタDLスタックを複数の組織に分配すること、及び、組織が少なくとも画像内の組織機密データの実例を使用してトレーニングされたマスタDLスタックの更新トレーニングを実行し、更新されたDLスタックのパラメータを保存することを許可することを含む。組織は、それぞれの更新されたDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を、組織機密ドキュメントを含むものとして分類する。
ディープラーニング・スタックのトレーニングは、あるケースでは最初から開始することができ、別の実施態様では、トレーニングは、以前に決定された係数で利用されたラベル付けされた画像例の追加されたバッチを使用して、トレーニングされたマスタDLスタックの第2セットの層を更にトレーニングすることができる。開示された方法の幾つかの実施態様は更に、組織の少なくとも一部に、組織の制御下で、専用DLスタック・トレーナを提供すること、及び、マスタDLスタックの事前トレーニングを実行したプロバイダに、画像内の組織機密データの実例を転送することなく、組織が更新トレーニングを実行することを可能にすることを含む。専用DLスタック・トレーナは、それぞれの更新されたDLスタックを生成するように構成可能である。幾つかのケースでは、また、画像内の組織機密データの実例からの非可逆的特徴を、該実例のための正解ラベルと組み合わせ、非可逆的特徴及び正解ラベルを転送するように構成された専用DLスタック・トレーナを含み、非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を複数の専用DLスタック・トレーナから受信する。幾つかの実施態様では、開示された方法はまた、組織機密トレーニング例を使用して、トレーニングされたマスタDLスタックの第2セットの層を更にトレーニングすること、プロダクション画像からの推論のために第2セットの層の更新されたパラメータを格納すること、及び、第2セットの層の更新されたパラメータを複数の組織に分配することを含む。幾つかの実施態様は、トレーニングされたマスタDLスタックの第2セットの層を更にトレーニングするために更新トレーニングを実行することを更に含む。他のケースでは、方法は、異なる順序で組織機密トレーニング例を用いて、最初からトレーニングを実行して、トレーニングされたマスタDLスタックの第2セットの層を更にトレーニングすることを含む。一実施態様として、開示された方法は、第2セットの層から更新された係数を転送するように構成された専用DLスタック・トレーナを更に含み、複数の専用DLスタック・トレーナから、それぞれの第2セットの層からそれぞれの更新された係数を受信し、それぞれの第2セットの層からの更新された係数を結合して、トレーニングされたマスタDLスタックの第2セットの層をトレーニングする。開示された方法はまた、プロダクション画像からの推論のために、トレーニングされたマスタDLスタックの第2セットの層の更新されたパラメータを格納することと、第2セットの層の更新されたパラメータを複数の組織に分配することとを含む。
本セクションで説明された開示された技術の他の実施態様は、プロセッサ上で実行されると、プロセッサに上述の何れかの方法を実行させる、メモリにロードされたプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体を含むことができる。本セクションで説明された開示された技術の更に別の実施態様は、上述の方法の何れかを実行するために、メモリ、及び、該メモリに記憶されたコンピュータ命令を実行するように動作可能な1または複数のプロセッサを含むシステムを含むことができる。
前述の説明は、開示された技術の使用及び実施を可能にするために提示されている。開示された実施態様に対する種々の変形が明らかであり、本明細書で明示された一般的な原理は、開示された技術の趣旨及び範囲から逸脱することなく、他の実施態様及びアプリケーションに適用され得る。従って、開示された技術は、示された実施態様に限定されることを意図するものではなく、本明細書で開示された原理及び特徴と一致する最も広い範囲を与えられるべきである。開示される技術の範囲は、添付の特許請求の範囲によって規定される。
[条項]
画像内の識別ドキュメントを検出し、画像由来識別ドキュメントの損失を防ぐための技術が記載される。
開示される技術は、システム、方法、デバイス、または製品として実施することができる。実施態様の1以上の特徴は、基本実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示される。実施態様の1以上の特徴は、他の実施態様と組み合わせることができる。本開示は、これらのオプションをユーザに定期的に想起させる。これらのオプションを繰り返す記述の幾つかの実施態様からの省略は、これまでのセクションで教示された組み合わせを限定するものとして解釈されるべきではない。これらの記述は、以下の実施態様のそれぞれに考慮して参照により組み込まれる。
開示された技術の1または複数の実施態様及び条項またはその要素は、示された方法ステップを実行するためのコンピュータ使用可能プログラム・コードを有する非一時的なコンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装され得る。更に、開示された技術の1または複数の実施態様及び条項またはそれらの要素は、メモリと、メモリに結合され、典型的な方法ステップを実行するように動作可能な少なくとも1つのプロセッサとを含む装置の形態で実装され得る。更に、別の態様では開示された技術の1または複数の実施態様及び条項またはその要素は、本明細書で説明された方法ステップの1または複数を実行するための手段の形態で実装され得る。尚、該手段は、(i)ハードウェア・モジュール、(ii)1または複数のハードウェア・プロセッサ上で実行するソフトウェア・モジュール、または(iii)ハードウェア・モジュールとソフトウェア・モジュールの組合せを含むことができ、(i)〜(iii)の何れかは、本明細書で説明された具体的な技術を実装し、ソフトウェア・モジュールはコンピュータ可読記憶媒体(または多数の当該媒体)に格納される。
本セクションで説明される条項は、特徴として組み合わせることができる。簡潔にするために、特徴の組み合わせは、個々に列挙されず、特徴の各基本セットについて繰り返されない。読者は、如何にして、本セクションで説明されている条項において識別される特徴が、本願の他のセクションで実施態様として識別される基本特徴の集合と容易に組み合わせられ得るかを理解するであろう。これらの条項は、相互に排他的、網羅的、または限定的であることを意味せず、開示された技術はこれらの条項に限定されず、むしろ、特許請求される技術及びその均等物の範囲内のすべての可能な組み合わせ、修正、及び変形を包含する。
本セクションに記載される条項の他の実施態様は、本セクションに記載される条項の何れかを実行するために、プロセッサによって実行可能な命令を格納する、非一時的コンピュータ可読記憶媒体を含むことができる。本セクションで記載される条項の更に別の実施態様は、本セクションに記載される条項の何れかを実行するために、メモリ及び該メモリに格納された命令を実行するように動作可能な1または複数のプロセッサを含むシステムを含むことができる。
以下の条項を開示する:
[条項セット1]
1. 画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ方法であって:
前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
ここで、前記DLスタックは、入力層により近い第1セットの層と、前記入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり;

プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類すること、を含む方法。
2. プライベート画像由来識別ドキュメントのために、前記第1セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、条項1に記載の方法。
3. 前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第2セットの層におけるパラメータのトレーニングに制限することを更に含む、条項1〜2の何れか1項に記載の方法。
4. 画像の光学式文字認識(OCRと略記)分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、条項1〜3の何れか1項に記載の方法。
5. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの遠近感が歪められて、前記画像由来識別ドキュメントの第2セットを生成し、前記第1セット及び前記第2セットを、前記ラベル付けされた正解データと結合させる、条項1〜4の何れか1項に記載の方法。
6. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットがノイズによって歪められて、前記画像由来識別ドキュメントの第3セットを生成し、前記第1セット及び前記第3セットを、前記ラベル付けされた正解データと結合させる、条項1〜5の何れか1項に記載の方法。
7. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの焦点が歪められて、前記画像由来識別ドキュメントの第4セットを生成し、前記第1セット及び前記第4セットを前記ラベル付けされた正解データと結合させる、条項1〜6の何れか1項に記載の方法。
8. プロセッサ上で実行されると、前記プロセッサに、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ方法を実施させる、メモリにロードされるプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体であって: 前記方法が、
前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
ここで、前記DLスタックは、入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの第2セットの層に前記画像由来識別ドキュメント及び前記他の画像ドキュメントの実例の前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり;
プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類すること、を含む有形の非一時的コンピュータ可読記憶媒体。
9. プライベート画像由来識別ドキュメントのために、前記第1セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、条項8に記載の有形の非一時的コンピュータ可読記憶媒体。
10. 前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第2セットの層におけるパラメータのトレーニングに制限することを更に含む、条項8〜9の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
11. 画像の光学式文字認識(OCRと略記)分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、条項8〜10の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
12. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの遠近感が歪められて、前記画像由来識別ドキュメントの第2セットを生成し、前記第1セット及び前記第2セットを、前記ラベル付けされた正解データと結合させる、条項8〜11の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
13. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットがノイズによって歪められて、前記画像由来識別ドキュメントの第3セットを生成し、前記第1セット及び前記第3セットを、前記ラベル付けされた正解データと結合させる、条項8〜12の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
14. 画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、条項8に記載の非一時的コンピュータ可読記憶媒体から前記メモリにロードされたコンピュータ命令を含むシステム。
15. プライベート画像由来識別ドキュメントのために、前記第1セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、条項14に記載のシステム。
16. 前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第2セットの層におけるパラメータのトレーニングに制限することを更に含む、条項14〜15の何れか1項に記載のシステム。
17. 画像の光学式文字認識(OCRと略記)分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、条項14〜16の何れか1項に記載のシステム。
18. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの遠近感が歪められて、前記画像由来識別ドキュメントの第2セットを生成し、前記第1セット及び前記第2セットを、前記ラベル付けされた正解データと結合させる、条項14〜17の何れか1項に記載のシステム。
19. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットがノイズによって歪められて、前記画像由来識別ドキュメントの第3セットを生成し、前記第1セット及び前記第3セットを、前記ラベル付けされた正解データと結合させる、条項14〜18の何れか1項に記載のシステム。
20. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの焦点が歪められて、前記画像由来識別ドキュメントの第4セットを生成し、前記第1セット及び前記第4セットを前記ラベル付けされた正解データと結合させる、条項14〜19の何れか1項に記載のシステム。
[条項セット2]
1. スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ方法であって:
前記スクリーンショット画像と非スクリーンショット画像の実例を収集し、実例に対するラベル付けされた正解データを作成すること;
機密情報を含む可能性のあるスクリーンショットの様々な変化を表すために、前記収集されたスクリーンショット画像例の少なくとも一部の再レンダリングを適用すること;
前記スクリーンショット画像及び非スクリーンショット画像の実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を、スクリーンショット画像を含むものとして分類すること、を含む方法。
2. 前記スクリーンショット画像及び非スクリーンショット画像の前記実例を収集するためにスクリーンショット・ロボットを適用することを更に含む、条項1に記載の方法。
3. 前記DLスタックが、入力層により近い第1セットの層と、前記入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含む、条項1〜2の何れか1項に記載の方法。
4. 前記画像の一部を切り取ることによって、または前記スクリーンショットの変化を表すように色相、コントラスト、及び彩度を調整することによって、前記収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを更に含む、条項1〜3の何れか1項に記載の方法。
5. 前記スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置のうちの少なくとも1つを含む、条項1〜4の何れか1項に記載の方法。
6. 前記DLスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第1セットが、複数の画像由来スクリーンショットの様々な写真画像の境界に囲まれて、前記スクリーンショット画像の第3セットが生成され、前記第1セット及び第3セットが前記ラベル付けされた正解データと結合される、条項1〜5の何れか1項に記載の方法。
7. 前記DLスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第1セットが、複数の画像由来スクリーンショットの複数のオーバーレイされたプログラム・ウィンドウの境界に囲まれて、前記スクリーンショット画像の第4セットが生成され、前記第1セット及び第4セットが前記ラベル付けされた正解データと結合される、条項1〜6の何れか1項に記載の方法。
8.プロセッサ上で実行されると、前記プロセッサに、スクリーンショット画像を検出し、画像由来スクリーンショットの損失を防ぐ方法を実施させる、メモリにロードされるプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体であって: 前記方法が、
前記スクリーンショット画像と非スクリーンショット画像の実例を収集し、前記実例に対するラベル付けされた正解データを作成すること;
機密情報を含む可能性のあるスクリーンショットの様々な変化を表すために、前記収集されたスクリーンショット画像例の少なくとも一部の再レンダリングを適用すること;
前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納し、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を画像由来スクリーンショットを含むものとして分類すること、を含む有形の非一時的コンピュータ可読記憶媒体。
9. 前記スクリーンショット画像及び非スクリーンショット画像の前記実例を収集するためにスクリーンショット・ロボットを適用することを更に含む、条項8に記載の有形の非一時的コンピュータ可読記憶媒体。
10. 前記DLスタックが、入力層により近い第1セットの層と、前記入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含む、条項8〜9の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
11. 前記画像の一部を切り取ることによって、または前記スクリーンショットの変化を表すように色相、コントラスト、及び彩度を調整することによって、前記収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを更に含む、条項8〜10の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
12. 前記スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置のうちの少なくとも1つを含む、条項8〜11の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
13. 前記DLスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第1セットが、複数の画像由来スクリーンショットの様々な写真画像の境界に囲まれて、前記スクリーンショット画像の第3セットが生成され、前記第1セット及び第3セットが前記ラベル付けされた正解データと結合される、条項8〜12の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
14. 前記DLスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第1セットが、複数の画像由来スクリーンショットの複数のオーバーレイされたプログラム・ウィンドウの境界に囲まれて、前記スクリーンショット画像の第4セットが生成され、前記第1セット及び第4セットが前記ラベル付けされた正解データと結合される、条項8〜13の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
15. スクリーンショット画像を検出し、画像由来スクリーンショットの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、条項8に記載の非一時的コンピュータ可読記憶媒体から前記メモリにロードされたコンピュータ命令を含むシステム。
16. 前記スクリーンショット画像及び非スクリーンショット画像の前記実例を収集するためにスクリーンショット・ロボットを適用することを更に含む、条項15に記載のシステム。
17. 前記DLスタックが、入力層により近い第1セットの層と、前記入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含む、条項15〜16の何れか1項に記載のシステム。
18. 前記画像の一部を切り取ることによって、または前記スクリーンショットの変化を表すように色相、コントラスト、及び彩度を調整することによって、前記収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを更に含む、条項15〜17の何れか1項に記載のシステム。
19. 前記スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置のうちの少なくとも1つを含む、条項15〜18の何れか1項に記載のシステム。
20. 前記DLスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第1セットが、複数の画像由来スクリーンショットの様々な写真画像の境界に囲まれて、前記スクリーンショット画像の第3セットが生成され、前記第1セット及び第3セットが前記ラベル付けされた正解データと結合される、条項15〜19の何れか一項に記載のシステム。
[条項セット3]
1. ディープラーニング(DLと略記)スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる画像中の組織機密データを検出し、前記画像由来組織機密ドキュメントの損失を防ぐ方法であって:
画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりマスタDLスタックを事前トレーニングすること;
ここで、前記DLスタックは入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの第2セットの層に、前記画像由来機密ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含む;
プロダクション画像から推論するための前記トレーニングされたマスタDLスタックのパラメータを格納すること;
格納されたパラメータを有する前記トレーニングされたマスタDLスタックを複数の組織に分配すること;
前記組織が少なくとも画像内の前記組織機密データの実例を使用して前記トレーニングされたマスタDLスタックの更新トレーニングを実行し、更新されたDLスタックのパラメータを保存できるようにすること、を含み、これにより、前記組織が、それぞれの更新されたDLスタックを使用して、少なくとも1つのプロダクション画像を推論により組織機密ドキュメント含むものとして分類する方法。
2. 前記組織の少なくとも一部に、組織の制御下で、専用DLスタック・トレーナを提供し、前記組織が画像内の前記組織機密データの実例を、前記マスタDLスタックの事前トレーニングを実行したプロバイダに転送することなく、前記更新トレーニングを実行できるようにすることを含み、前記専用DLスタック・トレーナが、それぞれの更新されたDLスタックを生成するように構成可能である条項1に記載の方法。
3. 前記専用DLスタック・トレーナが、画像内の前記組織機密データの前記実例からの非可逆的特徴を前記実例に対する正解ラベルと結合し、前記非可逆的特徴及び正解ラベルを転送するように構成されていること、及び、
複数の前記専用DLスタック・トレーナから、前記非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を受信すること、を更に含む条項2に記載の方法。
4. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、前記組織機密トレーニング例を使用すること;
プロダクション画像からの推論のために前記第2セットの層の更新されたパラメータを格納すること;及び
前記第2セットの層の前記更新されたパラメータを複数の組織に分配すること、を含む条項3に記載の方法。
5. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、更新トレーニングを実行することを更に含む、条項1〜4の何れか1項に記載の方法。
6. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、異なる順序で前記組織機密トレーニング例を使用して、最初からトレーニングすることを更に含む、条項1〜5の何れか1項に記載の方法。
7. 前記専用DLスタック・トレーナが前記第2セットの層から更新された係数を転送するように構成されていること;及び、
複数の前記専用DLスタック・トレーナから、それぞれの第2セットの層からのそれぞれの更新された係数を受信すること;
前記トレーニングされたマスタDLスタックの前記第2セットの層をトレーニングするために、それぞれの第2セットの層からの前記更新された係数を組み合わせること;
プロダクション画像から推論するために、前記トレーニングされたマスタDLスタックの前記第2セットの層の更新されたパラメータを格納すること;及び、前記第2セットの層の前記更新されたパラメータを前記複数の組織に分配すること、を含む条項2〜4の何れか1項に記載の方法。
8. プロセッサ上で実行されると、ディープラーニング(DLと略記)スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる画像内の組織機密データを検出し、前記画像由来組織機密ドキュメントの損失を防ぐ方法を、前記プロセッサに実施させる、メモリにロードされるプログラム命令を含む有形の非一時的コンピュータ可読記憶媒体であって:前記方法が、
画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりマスタDLスタックを事前トレーニングすること;
ここで、前記DLスタックは入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記画像由来機密ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり;
プロダクション画像から推論するための前記トレーニングされたマスタDLスタックのパラメータを格納すること;
前記格納されたパラメータを有する前記トレーニングされたマスタDLスタックを複数の組織に分配すること;
前記組織が少なくとも画像内の前記組織機密データの実例を使用して前記トレーニングされたマスタDLスタックの更新トレーニングを実行し、更新されたDLスタックのパラメータを保存できるようにすること、を含み、これにより、前記組織が、それぞれの更新されたDLスタックを使用して、少なくとも1つのプロダクション画像を推論により組織機密ドキュメント含むものとして分類する有形の非一時的コンピュータ可読記憶媒体。
9. 前記組織の少なくとも一部に、前記組織の制御下で、専用DLスタック・トレーナを提供すること、及び、前記組織が画像内の前記組織機密データの実例を、マスタDLスタックの事前トレーニングを実行したプロバイダに転送することなく、前記更新トレーニングを実行できるようにすること、を含み、前記専用DLスタック・トレーナが、前記それぞれの更新されたDLスタックを生成するように構成可能である条項8に記載の有形の非一時的コンピュータ可読記憶媒体。
10. 前記専用DLスタック・トレーナが、画像内の前記組織機密データの前記実例からの非可逆的特徴を前記実例の正解ラベルと結合し、前記非可逆的特徴及び正解ラベルを転送するように構成されていること、及び、複数の前記専用DLスタック・トレーナから、前記非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を受信すること、を更に含む条項9に記載の有形の非一時的コンピュータ可読記憶媒体。
11. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、前記組織機密トレーニング例を使用すること;
プロダクション画像からの推論のために前記第2セットの層の更新されたパラメータを格納すること;及び、前記第2セットの層の前記更新されたパラメータを複数の組織に分配すること、を更に含む条項10に記載の有形の非一時的コンピュータ可読記憶媒体。
12. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、更新トレーニングを実行することを更に含む、条項8〜11の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
13. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、異なる順序で前記組織機密トレーニング例を使用して、最初からトレーニングを実行することを更に含む、条項8〜12の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
14. 前記専用DLスタック・トレーナが前記第2セットの層から更新された係数を転送するように構成されていること;及び、複数の前記専用DLスタック・トレーナから、それぞれの第2セットの層からのそれぞれの更新された係数を受信すること;
前記トレーニングされたマスタDLスタックの前記第2セットの層をトレーニングするために、それぞれの第2セットの層からの前記更新された係数を組み合わせること;
プロダクション画像から推論するために、前記トレーニングされたマスタDLスタックの前記第2セットの層の更新されたパラメータを格納すること;及び、前記第2セットの層の前記更新されたパラメータを前記複数の組織に分配すること、を含む条項9〜11の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
15. ディープラーニング(DLと略記)スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる、画像内の組織機密データを検出し、前記画像由来組織機密ドキュメントの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、条項8に記載の非一時的コンピュータ可読記憶媒体から前記メモリにロードされたコンピュータ命令を含むシステム。
16. 前記組織の少なくとも一部に、組織の制御下で、専用DLスタック・トレーナを提供し、前記組織が画像内の前記組織機密データの実例を、前記マスタDLスタックの事前トレーニングを実行したプロバイダに転送することなく、前記更新トレーニングを実行できるようにすることを更に含み、前記専用DLスタック・トレーナが、それぞれの更新されたDLスタックを生成するように構成可能である条項15に記載のシステム。
17. 前記専用DLスタック・トレーナが、画像内の前記組織機密データの前記実例からの非可逆的特徴を前記実例の正解ラベルと結合し、前記非可逆的特徴及び正解ラベルを転送するように構成されていること、及び、複数の前記専用DLスタック・トレーナから、前記非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を受信すること、を更に含む条項16に記載のシステム。
18. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、前記組織機密トレーニング例を使用すること;
プロダクション画像からの推論のために前記第2セットの層の更新されたパラメータを格納すること;及び、前記第2セットの層の前記更新されたパラメータを複数の組織に分配すること、を更に含む条項17に記載のシステム。
19. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、更新トレーニングを実行することを更に含む、条項15〜18の何れか1項に記載のシステム。
20. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、異なる順序で前記組織機密トレーニング例を使用して、最初からトレーニングを実行することを更に含む、条項15〜19の何れか1に記載のシステム。
21. 前記専用DLスタック・トレーナが前記第2セットの層から更新された係数を転送するように構成されていること;及び、複数の前記専用DLスタック・トレーナから、それぞれの第2セットの層からのそれぞれの更新された係数を受信すること;
前記トレーニングされたマスタDLスタックの前記第2セットの層をトレーニングするために、それぞれの第2セットの層からの前記更新された係数を組み合わせること;
プロダクション画像から推論するために、前記トレーニングされたマスタDLスタックの前記第2セットの層の更新されたパラメータを格納すること;及び、前記第2セットの層の前記更新されたパラメータを前記複数の組織に分配すること、を含む条項16〜18の何れか1項に記載のシステム。

Claims (20)

  1. 画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ方法であって:
    前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
    ここで、前記DLスタックは、入力層により近い第1セットの層と、前記入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり;
    プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類すること、を含む方法。
  2. プライベート画像由来識別ドキュメントのために、前記第1セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、請求項1に記載の方法。
  3. 前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第2セットの層におけるパラメータのトレーニングに制限することを更に含む、請求項1〜2の何れか1項に記載の方法。
  4. 画像の光学式文字認識(OCRと略記)分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、請求項1〜3の何れか1項に記載の方法。
  5. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの遠近感が歪められて、前記画像由来識別ドキュメントの第2セットを生成し、前記第1セット及び前記第2セットを、前記ラベル付けされた正解データと結合させる、請求項1〜4の何れか1項に記載の方法。
  6. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットがノイズによって歪められて、前記画像由来識別ドキュメントの第3セットを生成し、前記第1セット及び前記第3セットを、前記ラベル付けされた正解データと結合させる、請求項1〜5の何れか1項に記載の方法。
  7. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの焦点が歪められて、前記画像由来識別ドキュメントの第4セットを生成し、前記第1セット及び前記第4セットを前記ラベル付けされた正解データと結合させる、請求項1〜6の何れか1項に記載の方法。
  8. プロセッサ上で実行されると、前記プロセッサに、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ方法を実施させる、メモリにロードされるプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体であって:前記方法が、
    前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
    ここで、前記DLスタックは、入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの第2セットの層に前記画像由来識別ドキュメント及び前記他の画像ドキュメントの実例の前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり;
    プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類すること、を含む有形の非一時的コンピュータ可読記憶媒体。
  9. プライベート画像由来識別ドキュメントのために、前記第1セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、請求項8に記載の有形の非一時的コンピュータ可読記憶媒体。
  10. 前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第2セットの層におけるパラメータのトレーニングに制限することを更に含む、請求項8〜9の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
  11. 画像の光学式文字認識(OCRと略記)分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、請求項8〜10の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
  12. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの遠近感が歪められて、前記画像由来識別ドキュメントの第2セットを生成し、前記第1セット及び前記第2セットを、前記ラベル付けされた正解データと結合させる、請求項8〜11の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
  13. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットがノイズによって歪められて、前記画像由来識別ドキュメントの第3セットを生成し、前記第1セット及び前記第3セットを、前記ラベル付けされた正解データと結合させる、請求項8〜12の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
  14. 画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、請求項8に記載の非一時的コンピュータ可読記憶媒体から前記メモリにロードされたコンピュータ命令を含むシステム。
  15. プライベート画像由来識別ドキュメントのために、前記第1セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、請求項14に記載のシステム。
  16. 前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第2セットの層におけるパラメータのトレーニングに制限することを更に含む、請求項14〜15の何れか1項に記載のシステム。
  17. 画像の光学式文字認識(OCRと略記)分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、請求項14〜16の何れか1項に記載のシステム。
  18. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの遠近感が歪められて、前記画像由来識別ドキュメントの第2セットを生成し、前記第1セット及び前記第2セットを、前記ラベル付けされた正解データと結合させる、請求項14〜17の何れか1項に記載のシステム。
  19. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットがノイズによって歪められて、前記画像由来識別ドキュメントの第3セットを生成し、前記第1セット及び前記第3セットを、前記ラベル付けされた正解データと結合させる、請求項14〜18の何れか1項に記載のシステム。
  20. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの焦点が歪められて、前記画像由来識別ドキュメントの第4セットを生成し、前記第1セット及び前記第4セットを前記ラベル付けされた正解データと結合させる、請求項14〜19の何れか1項に記載のシステム。
JP2021092862A 2020-06-03 2021-06-02 機密情報を保護するための画像由来識別ドキュメントの検出 Pending JP2022003517A (ja)

Applications Claiming Priority (12)

Application Number Priority Date Filing Date Title
US16/891,678 US10949961B1 (en) 2020-06-03 2020-06-03 Detecting screenshot images for protecting against loss of sensitive screenshot-borne data
US16/891,647 US10990856B1 (en) 2020-06-03 2020-06-03 Detecting image-borne identification documents for protecting sensitive information
US16/891,647 2020-06-03
US16/891,698 2020-06-03
US16/891,698 US10867073B1 (en) 2020-06-03 2020-06-03 Detecting organization image-borne sensitive documents and protecting against loss of the sensitive documents
US16/891,678 2020-06-03
US17/116,862 2020-12-09
US17/116,862 US11537745B2 (en) 2020-06-03 2020-12-09 Deep learning-based detection and data loss prevention of image-borne sensitive documents
US17/202,075 2021-03-15
US17/202,075 US12067493B2 (en) 2020-06-03 2021-03-15 Training and configuration of DL stack to detect attempted exfiltration of sensitive screenshot-borne data
US17/229,768 US11574151B2 (en) 2020-06-03 2021-04-13 Deep learning stack used in production to prevent exfiltration of image-borne identification documents
US17/229,768 2021-04-13

Publications (2)

Publication Number Publication Date
JP2022003517A true JP2022003517A (ja) 2022-01-11
JP2022003517A5 JP2022003517A5 (ja) 2024-04-17

Family

ID=76269672

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021092862A Pending JP2022003517A (ja) 2020-06-03 2021-06-02 機密情報を保護するための画像由来識別ドキュメントの検出

Country Status (2)

Country Link
EP (1) EP3920093A1 (ja)
JP (1) JP2022003517A (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024130637A1 (en) * 2022-12-22 2024-06-27 Huawei Technologies Co., Ltd. Methods, systems, apparatuses, and computer-readable media for sensitive data protection
CN115828307B (zh) * 2023-01-28 2023-05-23 广州佰锐网络科技有限公司 应用于ocr的文本识别方法及ai系统
CN116521940A (zh) * 2023-06-20 2023-08-01 上海临滴科技有限公司 一种工业视频云存储实时监管方法及系统
CN118509845B (zh) * 2024-07-17 2024-09-17 四川法加加数字科技有限公司 一种基于5g网络的数据加密传输方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9270765B2 (en) 2013-03-06 2016-02-23 Netskope, Inc. Security for network delivered services
US10114966B2 (en) 2015-03-19 2018-10-30 Netskope, Inc. Systems and methods of per-document encryption of enterprise information stored on a cloud computing service (CCS)
US10990856B1 (en) 2020-06-03 2021-04-27 Netskope, Inc. Detecting image-borne identification documents for protecting sensitive information
US10867073B1 (en) 2020-06-03 2020-12-15 Netskope, Inc. Detecting organization image-borne sensitive documents and protecting against loss of the sensitive documents
US10949961B1 (en) 2020-06-03 2021-03-16 Netskope, Inc. Detecting screenshot images for protecting against loss of sensitive screenshot-borne data

Also Published As

Publication number Publication date
EP3920093A1 (en) 2021-12-08

Similar Documents

Publication Publication Date Title
US12067493B2 (en) Training and configuration of DL stack to detect attempted exfiltration of sensitive screenshot-borne data
US11537745B2 (en) Deep learning-based detection and data loss prevention of image-borne sensitive documents
US11743275B2 (en) Machine learning based anomaly detection and response
CN107409126B (zh) 用于保护企业计算环境安全的系统和方法
US10990856B1 (en) Detecting image-borne identification documents for protecting sensitive information
US11671448B2 (en) Phishing detection using uniform resource locators
JP2022003517A (ja) 機密情報を保護するための画像由来識別ドキュメントの検出
JP2019153330A (ja) クラウド・コンピューティング・サービス用のミドルウェアセキュリティ層
US11444978B1 (en) Machine learning-based system for detecting phishing websites using the URLS, word encodings and images of content pages
US11546380B2 (en) System and method for creation and implementation of data processing workflows using a distributed computational graph
US11336689B1 (en) Detecting phishing websites via a machine learning-based system using URL feature hashes, HTML encodings and embedded images of content pages
US12021894B2 (en) Phishing detection based on modeling of web page content
US11438377B1 (en) Machine learning-based systems and methods of using URLs and HTML encodings for detecting phishing websites
US11310282B1 (en) Scoring confidence in user compliance with an organization's security policies
US20230103395A1 (en) Detecting organization sensitive data in images via customized deep lerning classifier
US20220247784A1 (en) Extension framework for an information technology and security operations application
US20210203691A1 (en) Malware and phishing detection and mediation platform
US11444951B1 (en) Reducing false detection of anomalous user behavior on a computer network
WO2022246131A1 (en) Scoring confidence in user compliance with an organization's security policies
US20240338447A1 (en) Automated attack chain following by a threat analysis platform
US20240241956A1 (en) Classifying cybersecurity threats using machine learning on non-euclidean data
US20240312230A1 (en) Method and system for detecting anomalies in a portable document format (pdf) document
DE112022004398T5 (de) Auf maschinellem lernen basierende systeme und verfahren zur verwendung von hashes miturl-merkmalen, html-kodierungen und in inhaltsseiten eingebetteten bildern zur erkennung vonphishing-websites
WO2024163492A2 (en) Web analyzer engine for identifying security-related threats
Doddapaneni A Secured Cloud System based on Log Analysis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240409

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240409