JP7798488B2 - 機密情報を保護するための画像由来識別ドキュメントの検出 - Google Patents
機密情報を保護するための画像由来識別ドキュメントの検出Info
- Publication number
- JP7798488B2 JP7798488B2 JP2021092862A JP2021092862A JP7798488B2 JP 7798488 B2 JP7798488 B2 JP 7798488B2 JP 2021092862 A JP2021092862 A JP 2021092862A JP 2021092862 A JP2021092862 A JP 2021092862A JP 7798488 B2 JP7798488 B2 JP 7798488B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- stack
- images
- derived
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07D—HANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
- G07D7/00—Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
- G07D7/20—Testing patterns thereon
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07D—HANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
- G07D7/00—Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
- G07D7/20—Testing patterns thereon
- G07D7/2008—Testing patterns thereon using pre-processing, e.g. de-blurring, averaging, normalisation or rotation
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07D—HANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
- G07D7/00—Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
- G07D7/20—Testing patterns thereon
- G07D7/2016—Testing patterns thereon using feature extraction, e.g. segmentation, edge detection or Hough-transformation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Description
[アーキテクチャ]
1630995073802_0
・ パスポートのFPR(非身分証明書画像がパスポートに分類される):0.7%
・ 米国運転免許証のFPR(非身分証明書画像が米国運転免許証に分類される):0.3%
・ パスポートのFNR(パスポート画像がパスポートに分類されない):6%
・ 米国運転免許証のFNR(米国運転免許証画像が運転免許証に分類されない):6%
[コンピュータ・システム]
[特定の実施態様]
[条項]
[条項セット1]
1. 画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ方法であって:
前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
ここで、前記DLスタックは、入力層により近い第1セットの層と、前記入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり;
プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類すること、を含む方法。
2. プライベート画像由来識別ドキュメントのために、前記第1セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、条項1に記載の方法。
3. 前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第2セットの層におけるパラメータのトレーニングに制限することを更に含む、条項1~2の何れか1項に記載の方法。
4. 画像の光学式文字認識(OCRと略記)分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、条項1~3の何れか1項に記載の方法。
5. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの遠近感が歪められて、前記画像由来識別ドキュメントの第2セットを生成し、前記第1セット及び前記第2セットを、前記ラベル付けされた正解データと結合させる、条項1~4の何れか1項に記載の方法。
6. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットがノイズによって歪められて、前記画像由来識別ドキュメントの第3セットを生成し、前記第1セット及び前記第3セットを、前記ラベル付けされた正解データと結合させる、条項1~5の何れか1項に記載の方法。
7. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの焦点が歪められて、前記画像由来識別ドキュメントの第4セットを生成し、前記第1セット及び前記第4セットを前記ラベル付けされた正解データと結合させる、条項1~6の何れか1項に記載の方法。
8. プロセッサ上で実行されると、前記プロセッサに、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ方法を実施させる、メモリにロードされるプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体であって: 前記方法が、
前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
ここで、前記DLスタックは、入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの第2セットの層に前記画像由来識別ドキュメント及び前記他の画像ドキュメントの実例の前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり;
プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類すること、を含む有形の非一時的コンピュータ可読記憶媒体。
9. プライベート画像由来識別ドキュメントのために、前記第1セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、条項8に記載の有形の非一時的コンピュータ可読記憶媒体。
10. 前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第2セットの層におけるパラメータのトレーニングに制限することを更に含む、条項8~9の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
11. 画像の光学式文字認識(OCRと略記)分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、条項8~10の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
12. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの遠近感が歪められて、前記画像由来識別ドキュメントの第2セットを生成し、前記第1セット及び前記第2セットを、前記ラベル付けされた正解データと結合させる、条項8~11の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
13. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットがノイズによって歪められて、前記画像由来識別ドキュメントの第3セットを生成し、前記第1セット及び前記第3セットを、前記ラベル付けされた正解データと結合させる、条項8~12の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
14. 画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、条項8に記載の非一時的コンピュータ可読記憶媒体から前記メモリにロードされたコンピュータ命令を含むシステム。
15. プライベート画像由来識別ドキュメントのために、前記第1セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、条項14に記載のシステム。
16. 前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第2セットの層におけるパラメータのトレーニングに制限することを更に含む、条項14~15の何れか1項に記載のシステム。
17. 画像の光学式文字認識(OCRと略記)分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、条項14~16の何れか1項に記載のシステム。
18. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの遠近感が歪められて、前記画像由来識別ドキュメントの第2セットを生成し、前記第1セット及び前記第2セットを、前記ラベル付けされた正解データと結合させる、条項14~17の何れか1項に記載のシステム。
19. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットがノイズによって歪められて、前記画像由来識別ドキュメントの第3セットを生成し、前記第1セット及び前記第3セットを、前記ラベル付けされた正解データと結合させる、条項14~18の何れか1項に記載のシステム。
20. 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの焦点が歪められて、前記画像由来識別ドキュメントの第4セットを生成し、前記第1セット及び前記第4セットを前記ラベル付けされた正解データと結合させる、条項14~19の何れか1項に記載のシステム。
[条項セット2]
1. スクリーンショット画像を検出し、機密スクリーンショット由来データの損失を防ぐ方法であって:
前記スクリーンショット画像と非スクリーンショット画像の実例を収集し、実例に対するラベル付けされた正解データを作成すること;
機密情報を含む可能性のあるスクリーンショットの様々な変化を表すために、前記収集されたスクリーンショット画像例の少なくとも一部の再レンダリングを適用すること;
前記スクリーンショット画像及び非スクリーンショット画像の実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を、スクリーンショット画像を含むものとして分類すること、を含む方法。
2. 前記スクリーンショット画像及び非スクリーンショット画像の前記実例を収集するためにスクリーンショット・ロボットを適用することを更に含む、条項1に記載の方法。
3. 前記DLスタックが、入力層により近い第1セットの層と、前記入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含む、条項1~2の何れか1項に記載の方法。
4. 前記画像の一部を切り取ることによって、または前記スクリーンショットの変化を表すように色相、コントラスト、及び彩度を調整することによって、前記収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを更に含む、条項1~3の何れか1項に記載の方法。
5. 前記スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置のうちの少なくとも1つを含む、条項1~4の何れか1項に記載の方法。
6. 前記DLスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第1セットが、複数の画像由来スクリーンショットの様々な写真画像の境界に囲まれて、前記スクリーンショット画像の第3セットが生成され、前記第1セット及び第3セットが前記ラベル付けされた正解データと結合される、条項1~5の何れか1項に記載の方法。
7. 前記DLスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第1セットが、複数の画像由来スクリーンショットの複数のオーバーレイされたプログラム・ウィンドウの境界に囲まれて、前記スクリーンショット画像の第4セットが生成され、前記第1セット及び第4セットが前記ラベル付けされた正解データと結合される、条項1~6の何れか1項に記載の方法。
8.プロセッサ上で実行されると、前記プロセッサに、スクリーンショット画像を検出し、画像由来スクリーンショットの損失を防ぐ方法を実施させる、メモリにロードされるプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体であって: 前記方法が、
前記スクリーンショット画像と非スクリーンショット画像の実例を収集し、前記実例に対するラベル付けされた正解データを作成すること;
機密情報を含む可能性のあるスクリーンショットの様々な変化を表すために、前記収集されたスクリーンショット画像例の少なくとも一部の再レンダリングを適用すること;
前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納し、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を画像由来スクリーンショットを含むものとして分類すること、を含む有形の非一時的コンピュータ可読記憶媒体。
9. 前記スクリーンショット画像及び非スクリーンショット画像の前記実例を収集するためにスクリーンショット・ロボットを適用することを更に含む、条項8に記載の有形の非一時的コンピュータ可読記憶媒体。
10. 前記DLスタックが、入力層により近い第1セットの層と、前記入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含む、条項8~9の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
11. 前記画像の一部を切り取ることによって、または前記スクリーンショットの変化を表すように色相、コントラスト、及び彩度を調整することによって、前記収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを更に含む、条項8~10の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
12. 前記スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置のうちの少なくとも1つを含む、条項8~11の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
13. 前記DLスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第1セットが、複数の画像由来スクリーンショットの様々な写真画像の境界に囲まれて、前記スクリーンショット画像の第3セットが生成され、前記第1セット及び第3セットが前記ラベル付けされた正解データと結合される、条項8~12の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
14. 前記DLスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第1セットが、複数の画像由来スクリーンショットの複数のオーバーレイされたプログラム・ウィンドウの境界に囲まれて、前記スクリーンショット画像の第4セットが生成され、前記第1セット及び第4セットが前記ラベル付けされた正解データと結合される、条項8~13の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
15. スクリーンショット画像を検出し、画像由来スクリーンショットの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、条項8に記載の非一時的コンピュータ可読記憶媒体から前記メモリにロードされたコンピュータ命令を含むシステム。
16. 前記スクリーンショット画像及び非スクリーンショット画像の前記実例を収集するためにスクリーンショット・ロボットを適用することを更に含む、条項15に記載のシステム。
17. 前記DLスタックが、入力層により近い第1セットの層と、前記入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記スクリーンショット画像及び前記非スクリーンショット画像の前記実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含む、条項15~16の何れか1項に記載のシステム。
18. 前記画像の一部を切り取ることによって、または前記スクリーンショットの変化を表すように色相、コントラスト、及び彩度を調整することによって、前記収集された元のスクリーンショット画像の少なくとも一部の自動再レンダリングを適用することを更に含む、条項15~17の何れか1項に記載のシステム。
19. 前記スクリーンショットの様々な変化は、ウィンドウサイズ、ウィンドウ位置、開いているウィンドウの数及びメニューバー位置のうちの少なくとも1つを含む、条項15~18の何れか1項に記載のシステム。
20. 前記DLスタックをバック・プロパゲーションによってトレーニングするときに、前記スクリーンショット画像の第1セットが、複数の画像由来スクリーンショットの様々な写真画像の境界に囲まれて、前記スクリーンショット画像の第3セットが生成され、前記第1セット及び第3セットが前記ラベル付けされた正解データと結合される、条項15~19の何れか一項に記載のシステム。
[条項セット3]
1. ディープラーニング(DLと略記)スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる画像中の組織機密データを検出し、前記画像由来組織機密ドキュメントの損失を防ぐ方法であって:
画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりマスタDLスタックを事前トレーニングすること;
ここで、前記DLスタックは入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの第2セットの層に、前記画像由来機密ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含む;
プロダクション画像から推論するための前記トレーニングされたマスタDLスタックのパラメータを格納すること;
格納されたパラメータを有する前記トレーニングされたマスタDLスタックを複数の組織に分配すること;
前記組織が少なくとも画像内の前記組織機密データの実例を使用して前記トレーニングされたマスタDLスタックの更新トレーニングを実行し、更新されたDLスタックのパラメータを保存できるようにすること、を含み、これにより、前記組織が、それぞれの更新されたDLスタックを使用して、少なくとも1つのプロダクション画像を推論により組織機密ドキュメント含むものとして分類する方法。
2. 前記組織の少なくとも一部に、組織の制御下で、専用DLスタック・トレーナを提供し、前記組織が画像内の前記組織機密データの実例を、前記マスタDLスタックの事前トレーニングを実行したプロバイダに転送することなく、前記更新トレーニングを実行できるようにすることを含み、前記専用DLスタック・トレーナが、それぞれの更新されたDLスタックを生成するように構成可能である条項1に記載の方法。
3. 前記専用DLスタック・トレーナが、画像内の前記組織機密データの前記実例からの非可逆的特徴を前記実例に対する正解ラベルと結合し、前記非可逆的特徴及び正解ラベルを転送するように構成されていること、及び、
複数の前記専用DLスタック・トレーナから、前記非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を受信すること、を更に含む条項2に記載の方法。
4. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、前記組織機密トレーニング例を使用すること;
プロダクション画像からの推論のために前記第2セットの層の更新されたパラメータを格納すること;及び
前記第2セットの層の前記更新されたパラメータを複数の組織に分配すること、を含む条項3に記載の方法。
5. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、更新トレーニングを実行することを更に含む、条項1~4の何れか1項に記載の方法。
6. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、異なる順序で前記組織機密トレーニング例を使用して、最初からトレーニングすることを更に含む、条項1~5の何れか1項に記載の方法。
7. 前記専用DLスタック・トレーナが前記第2セットの層から更新された係数を転送するように構成されていること;及び、
複数の前記専用DLスタック・トレーナから、それぞれの第2セットの層からのそれぞれの更新された係数を受信すること;
前記トレーニングされたマスタDLスタックの前記第2セットの層をトレーニングするために、それぞれの第2セットの層からの前記更新された係数を組み合わせること;
プロダクション画像から推論するために、前記トレーニングされたマスタDLスタックの前記第2セットの層の更新されたパラメータを格納すること;及び、前記第2セットの層の前記更新されたパラメータを前記複数の組織に分配すること、を含む条項2~4の何れか1項に記載の方法。
8. プロセッサ上で実行されると、ディープラーニング(DLと略記)スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる画像内の組織機密データを検出し、前記画像由来組織機密ドキュメントの損失を防ぐ方法を、前記プロセッサに実施させる、メモリにロードされるプログラム命令を含む有形の非一時的コンピュータ可読記憶媒体であって:前記方法が、
画像由来機密ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して前方推論及びバック・プロパゲーションによりマスタDLスタックを事前トレーニングすること;
ここで、前記DLスタックは入力層により近い第1セットの層と、入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記画像由来機密ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり;
プロダクション画像から推論するための前記トレーニングされたマスタDLスタックのパラメータを格納すること;
前記格納されたパラメータを有する前記トレーニングされたマスタDLスタックを複数の組織に分配すること;
前記組織が少なくとも画像内の前記組織機密データの実例を使用して前記トレーニングされたマスタDLスタックの更新トレーニングを実行し、更新されたDLスタックのパラメータを保存できるようにすること、を含み、これにより、前記組織が、それぞれの更新されたDLスタックを使用して、少なくとも1つのプロダクション画像を推論により組織機密ドキュメント含むものとして分類する有形の非一時的コンピュータ可読記憶媒体。
9. 前記組織の少なくとも一部に、前記組織の制御下で、専用DLスタック・トレーナを提供すること、及び、前記組織が画像内の前記組織機密データの実例を、マスタDLスタックの事前トレーニングを実行したプロバイダに転送することなく、前記更新トレーニングを実行できるようにすること、を含み、前記専用DLスタック・トレーナが、前記それぞれの更新されたDLスタックを生成するように構成可能である条項8に記載の有形の非一時的コンピュータ可読記憶媒体。
10. 前記専用DLスタック・トレーナが、画像内の前記組織機密データの前記実例からの非可逆的特徴を前記実例の正解ラベルと結合し、前記非可逆的特徴及び正解ラベルを転送するように構成されていること、及び、複数の前記専用DLスタック・トレーナから、前記非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を受信すること、を更に含む条項9に記載の有形の非一時的コンピュータ可読記憶媒体。
11. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、前記組織機密トレーニング例を使用すること;
プロダクション画像からの推論のために前記第2セットの層の更新されたパラメータを格納すること;及び、前記第2セットの層の前記更新されたパラメータを複数の組織に分配すること、を更に含む条項10に記載の有形の非一時的コンピュータ可読記憶媒体。
12. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、更新トレーニングを実行することを更に含む、条項8~11の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
13. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、異なる順序で前記組織機密トレーニング例を使用して、最初からトレーニングを実行することを更に含む、条項8~12の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
14. 前記専用DLスタック・トレーナが前記第2セットの層から更新された係数を転送するように構成されていること;及び、複数の前記専用DLスタック・トレーナから、それぞれの第2セットの層からのそれぞれの更新された係数を受信すること;
前記トレーニングされたマスタDLスタックの前記第2セットの層をトレーニングするために、それぞれの第2セットの層からの前記更新された係数を組み合わせること;
プロダクション画像から推論するために、前記トレーニングされたマスタDLスタックの前記第2セットの層の更新されたパラメータを格納すること;及び、前記第2セットの層の前記更新されたパラメータを前記複数の組織に分配すること、を含む条項9~11の何れか1項に記載の有形の非一時的コンピュータ可読記憶媒体。
15. ディープラーニング(DLと略記)スタックをカスタマイズして、画像由来組織機密ドキュメントと呼ばれる、画像内の組織機密データを検出し、前記画像由来組織機密ドキュメントの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、条項8に記載の非一時的コンピュータ可読記憶媒体から前記メモリにロードされたコンピュータ命令を含むシステム。
16. 前記組織の少なくとも一部に、組織の制御下で、専用DLスタック・トレーナを提供し、前記組織が画像内の前記組織機密データの実例を、前記マスタDLスタックの事前トレーニングを実行したプロバイダに転送することなく、前記更新トレーニングを実行できるようにすることを更に含み、前記専用DLスタック・トレーナが、それぞれの更新されたDLスタックを生成するように構成可能である条項15に記載のシステム。
17. 前記専用DLスタック・トレーナが、画像内の前記組織機密データの前記実例からの非可逆的特徴を前記実例の正解ラベルと結合し、前記非可逆的特徴及び正解ラベルを転送するように構成されていること、及び、複数の前記専用DLスタック・トレーナから、前記非可逆的特徴及び正解ラベルを含む組織機密トレーニング例を受信すること、を更に含む条項16に記載のシステム。
18. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、前記組織機密トレーニング例を使用すること;
プロダクション画像からの推論のために前記第2セットの層の更新されたパラメータを格納すること;及び、前記第2セットの層の前記更新されたパラメータを複数の組織に分配すること、を更に含む条項17に記載のシステム。
19. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、更新トレーニングを実行することを更に含む、条項15~18の何れか1項に記載のシステム。
20. 前記トレーニングされたマスタDLスタックの前記第2セットの層を更にトレーニングするために、異なる順序で前記組織機密トレーニング例を使用して、最初からトレーニングを実行することを更に含む、条項15~19の何れか1に記載のシステム。
21. 前記専用DLスタック・トレーナが前記第2セットの層から更新された係数を転送するように構成されていること;及び、複数の前記専用DLスタック・トレーナから、それぞれの第2セットの層からのそれぞれの更新された係数を受信すること;
前記トレーニングされたマスタDLスタックの前記第2セットの層をトレーニングするために、それぞれの第2セットの層からの前記更新された係数を組み合わせること;
プロダクション画像から推論するために、前記トレーニングされたマスタDLスタックの前記第2セットの層の更新されたパラメータを格納すること;及び、前記第2セットの層の前記更新されたパラメータを前記複数の組織に分配すること、を含む条項16~18の何れか1項に記載のシステム。
Claims (9)
- 画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ方法であって:
前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対するラベル付けされた正解データを使用して、前記画像由来識別ドキュメントまたは他の画像ドキュメントの実例上に現れる言葉の光学式文字認識を実施せずに、前方推論及びバック・プロパゲーションによりディープラーニング(DLと略記)スタックをトレーニングすること;
ここで、前記DLスタックは、入力層により近い第1セットの層と、前記入力層からより遠い第2セットの層とを少なくとも含み、前記DLスタックの前記第2セットの層に、前記画像由来識別ドキュメント及び他の画像ドキュメントの実例に対する前記ラベル付けされた正解データを当てる前に、前記第1セットの層が画像認識を実行するように事前トレーニングされることを更に含んでおり;
プロダクション画像からの推論のために前記トレーニングされたDLスタックのパラメータを格納すること、及び、前記格納されたパラメータを有するプロダクションDLスタックを使用して、推論によって少なくとも1つのプロダクション画像を機密画像由来識別ドキュメントを含むものとして分類すること、を含む方法。 - プライベート画像由来識別ドキュメントのために、前記第1セットの層からの出力として生成された特徴を捕捉すること、及び、前記捕捉された特徴をそれぞれの正解ラベルと共に保持することを、更に含み、それによって、前記プライベート画像由来識別ドキュメントの画像を保持する必要性を排除する、請求項1に記載の方法。
- 前記画像由来識別ドキュメント及び他の画像ドキュメントの前記実例に対する前記ラベル付けされた正解データを使用するバック・プロパゲーションによるトレーニングを、前記第2セットの層におけるパラメータのトレーニングに制限することを更に含む、請求項1~2の何れか1項に記載の方法。
- 画像の光学式文字認識(OCRと略記)分析を適用して、前記画像を識別ドキュメントまたは非識別ドキュメントとしてラベル付けする、請求項1~3の何れか1項に記載の方法。
- 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの遠近感が歪められて、前記画像由来識別ドキュメントの第2セットを生成し、前記第1セット及び前記第2セットを、前記ラベル付けされた正解データと結合させる、請求項1~4の何れか1項に記載の方法。
- 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットがノイズによって歪められて、前記画像由来識別ドキュメントの第3セットを生成し、前記第1セット及び前記第3セットを、前記ラベル付けされた正解データと結合させる、請求項1~5の何れか1項に記載の方法。
- 前記DLスタックをバック・プロパゲーションによりトレーニングするときに、前記画像由来識別ドキュメントの第1セットの焦点が歪められて、前記画像由来識別ドキュメントの第4セットを生成し、前記第1セット及び前記第4セットを前記ラベル付けされた正解データと結合させる、請求項1~6の何れか1項に記載の方法。
- プロセッサ上で実行されると、前記プロセッサに、画像由来識別ドキュメントと呼ばれる画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐ、請求項1~7の何れか1項に記載の方法を実施させる、メモリにロードされるプログラム命令を含む、有形の非一時的コンピュータ可読記憶媒体。
- 画像由来識別ドキュメントと呼ばれる、画像内の識別ドキュメントを検出し、前記画像由来識別ドキュメントの損失を防ぐためのシステムであって、プロセッサ、前記プロセッサに接続されたメモリ、及び、前記プロセッサ上で実行されると、前記プロセッサに、請求項1~7の何れか1項に記載の方法を実施させる、前記メモリにロードされたプログラム命令を含むシステム。
Applications Claiming Priority (12)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US16/891,647 US10990856B1 (en) | 2020-06-03 | 2020-06-03 | Detecting image-borne identification documents for protecting sensitive information |
| US16/891,678 | 2020-06-03 | ||
| US16/891,678 US10949961B1 (en) | 2020-06-03 | 2020-06-03 | Detecting screenshot images for protecting against loss of sensitive screenshot-borne data |
| US16/891,698 | 2020-06-03 | ||
| US16/891,698 US10867073B1 (en) | 2020-06-03 | 2020-06-03 | Detecting organization image-borne sensitive documents and protecting against loss of the sensitive documents |
| US16/891,647 | 2020-06-03 | ||
| US17/116,862 | 2020-12-09 | ||
| US17/116,862 US11537745B2 (en) | 2020-06-03 | 2020-12-09 | Deep learning-based detection and data loss prevention of image-borne sensitive documents |
| US17/202,075 | 2021-03-15 | ||
| US17/202,075 US12067493B2 (en) | 2020-06-03 | 2021-03-15 | Training and configuration of DL stack to detect attempted exfiltration of sensitive screenshot-borne data |
| US17/229,768 | 2021-04-13 | ||
| US17/229,768 US11574151B2 (en) | 2020-06-03 | 2021-04-13 | Deep learning stack used in production to prevent exfiltration of image-borne identification documents |
Publications (3)
| Publication Number | Publication Date |
|---|---|
| JP2022003517A JP2022003517A (ja) | 2022-01-11 |
| JP2022003517A5 JP2022003517A5 (ja) | 2024-04-17 |
| JP7798488B2 true JP7798488B2 (ja) | 2026-01-14 |
Family
ID=76269672
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2021092862A Active JP7798488B2 (ja) | 2020-06-03 | 2021-06-02 | 機密情報を保護するための画像由来識別ドキュメントの検出 |
Country Status (2)
| Country | Link |
|---|---|
| EP (1) | EP3920093A1 (ja) |
| JP (1) | JP7798488B2 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| WO2024130637A1 (en) * | 2022-12-22 | 2024-06-27 | Huawei Technologies Co., Ltd. | Methods, systems, apparatuses, and computer-readable media for sensitive data protection |
| CN115828307B (zh) * | 2023-01-28 | 2023-05-23 | 广州佰锐网络科技有限公司 | 应用于ocr的文本识别方法及ai系统 |
| CN116521940A (zh) * | 2023-06-20 | 2023-08-01 | 上海临滴科技有限公司 | 一种工业视频云存储实时监管方法及系统 |
| CN118509845B (zh) * | 2024-07-17 | 2024-09-17 | 四川法加加数字科技有限公司 | 一种基于5g网络的数据加密传输方法及系统 |
Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20120183174A1 (en) | 2007-08-17 | 2012-07-19 | Mcafee, Inc. | System, method, and computer program product for preventing image-related data loss |
| CN109583463A (zh) | 2017-09-29 | 2019-04-05 | 卡巴斯基实验室股份制公司 | 训练用于确定文档类别的分类器的系统和方法 |
Family Cites Families (5)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US9270765B2 (en) | 2013-03-06 | 2016-02-23 | Netskope, Inc. | Security for network delivered services |
| US9928377B2 (en) | 2015-03-19 | 2018-03-27 | Netskope, Inc. | Systems and methods of monitoring and controlling enterprise information stored on a cloud computing service (CCS) |
| US10990856B1 (en) | 2020-06-03 | 2021-04-27 | Netskope, Inc. | Detecting image-borne identification documents for protecting sensitive information |
| US10949961B1 (en) | 2020-06-03 | 2021-03-16 | Netskope, Inc. | Detecting screenshot images for protecting against loss of sensitive screenshot-borne data |
| US10867073B1 (en) | 2020-06-03 | 2020-12-15 | Netskope, Inc. | Detecting organization image-borne sensitive documents and protecting against loss of the sensitive documents |
-
2021
- 2021-06-02 JP JP2021092862A patent/JP7798488B2/ja active Active
- 2021-06-03 EP EP21177651.3A patent/EP3920093A1/en active Pending
Patent Citations (2)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20120183174A1 (en) | 2007-08-17 | 2012-07-19 | Mcafee, Inc. | System, method, and computer program product for preventing image-related data loss |
| CN109583463A (zh) | 2017-09-29 | 2019-04-05 | 卡巴斯基实验室股份制公司 | 训练用于确定文档类别的分类器的系统和方法 |
Non-Patent Citations (2)
| Title |
|---|
| Connor Shorten, et al.,A survey on Image Data Augmentation for Deep Learning,Jounal of Big Data,2019年07月06日,6:60,p.1-48,https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0 |
| Peiyi Han, et al.,CloudDLP: Transparent and Scalable Data Sanitization for Browser-Based Cloud Storage,IEEE Access,米国,IEEE,2020年04月06日,Vol.8,p.68449-68459,https://ieeexplore.ieee.org/document/9057526,DOI: 10.1109/ACCESS.2020.2985870 |
Also Published As
| Publication number | Publication date |
|---|---|
| EP3920093A1 (en) | 2021-12-08 |
| JP2022003517A (ja) | 2022-01-11 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| US11537745B2 (en) | Deep learning-based detection and data loss prevention of image-borne sensitive documents | |
| US12067493B2 (en) | Training and configuration of DL stack to detect attempted exfiltration of sensitive screenshot-borne data | |
| US11574151B2 (en) | Deep learning stack used in production to prevent exfiltration of image-borne identification documents | |
| US12326957B2 (en) | Detecting organization sensitive data in images via customized deep learning classifier | |
| JP7798488B2 (ja) | 機密情報を保護するための画像由来識別ドキュメントの検出 | |
| US12126643B1 (en) | Leveraging generative artificial intelligence (‘AI’) for securing a monitored deployment | |
| US11546380B2 (en) | System and method for creation and implementation of data processing workflows using a distributed computational graph | |
| US20250323941A1 (en) | Detecting phishing websites via a machine learning-based system using url feature hashes, html encodings and embedded images of content pages | |
| US12225049B2 (en) | System and methods for integrating datasets and automating transformation workflows using a distributed computational graph | |
| CN107409126B (zh) | 用于保护企业计算环境安全的系统和方法 | |
| US12452279B1 (en) | Role-based permission by a data platform | |
| US11438377B1 (en) | Machine learning-based systems and methods of using URLs and HTML encodings for detecting phishing websites | |
| US12348545B1 (en) | Customizable generative artificial intelligence (‘AI’) assistant | |
| US12353309B2 (en) | Systems and methods for anomaly detection on resource activity logs | |
| US20250225260A1 (en) | Data Loss Protection (DLP) utilizing distilled Large Language Models (LLMs) | |
| US20250119432A1 (en) | Systems and methods for utilizing Large Language Models (LLMs) for improving machine learning models in network and computer security | |
| US20240394544A1 (en) | Customizable deep learning to prevent data loss of image borne sensitive documents | |
| JP7766187B2 (ja) | フィッシングウェブサイトを検出するためにurl特徴量ハッシュ、htmlエンコーディング、及びコンテンツページ埋め込み画像を使用する機械学習ベースのシステム及び方法 | |
| US12355787B1 (en) | Interdependence of agentless and agent-based operations by way of a data platform | |
| US20250225805A1 (en) | Inline multimodal Data Loss Protection (DLP) utilizing fine-tuned image and text models | |
| US12457231B1 (en) | Initiating and utilizing pedigree for content | |
| US20250225376A1 (en) | Multimodal Data Loss Protection using artificial intelligence | |
| US20260087169A1 (en) | Detecting Secrets in Deleted Software Development Platform Repositories | |
| Doddapaneni | A Secured Cloud System based on Log Analysis |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240409 |
|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20240409 |
|
| A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20250108 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20250121 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20250328 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20250716 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20251104 |
|
| A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20251125 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20251225 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 7798488 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |