JP4824750B2 - 機密情報管理プログラム、方法及び装置 - Google Patents
機密情報管理プログラム、方法及び装置 Download PDFInfo
- Publication number
- JP4824750B2 JP4824750B2 JP2008504927A JP2008504927A JP4824750B2 JP 4824750 B2 JP4824750 B2 JP 4824750B2 JP 2008504927 A JP2008504927 A JP 2008504927A JP 2008504927 A JP2008504927 A JP 2008504927A JP 4824750 B2 JP4824750 B2 JP 4824750B2
- Authority
- JP
- Japan
- Prior art keywords
- character string
- confidential
- document
- character
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、コンピュータにより実行される機密情報管理プログラムを提供する。本発明の機密情報管理プログラムは,コンピュータに、
機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して判定対象文書か機密情報を含むか否か判定する機密情報判定ステップと、
を実行させることを特徴とする。
特徴情報抽出ステップは機密対照文書から頻出表現テーブルの頻出表現を除去した後に一定文字列長nの文字列を切り出す。
複数の機密文書からファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出しステップと、
機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与ステップと、
機密部分文書から頻出表現テーブルの頻出表現を除去する頻出表現除去ステップと、
機密部分文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出す文字列切出しステップと、
全ての切出し文字列をキーとして対応する機密文書識別子をハッシュテーブルに登録するテーブル登録ステップと、
を備える。
判定対象文書を取得する文書取得ステップと、
判定対象文書に文書識別子を付与する識別子付与ステップと、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出す文字列切出しステップと、
全ての切出し文字列をハッシュテーブルのキーである登録文字列と照合し、照合一致の場合に対応する機密情報識別子を取得するテーブル照合ステップと、
テーブル照合ステップから1又は複数の機密文書識別子が取得された場合に判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書識別子が取得されなかった場合に判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力ステップと、
を備える。
機密文書及び一般文書を収集する文書収集ステップと、
収集文書から文字列長を順次増加させながら各文字列長の文字列を切出す文字列切出しステップと、
各文字列長毎に出現頻度を検出する頻度検出ステップと、
各文字列長毎に所定の閾値以上の出現頻度を持つ文字列を頻出表現候補として抽出する候補抽出ステップと、
頻出表現候補の包含関係を調査し、包含される頻出候補文字列を除去する候補除去ステップと、
候補除去ステップによる候補除去で残った候補を頻出表現として頻出表現テーブルに登録する登録ステップと、
を備える。
本発明は機密情報管理方法を提供する。本発明の機密情報管理方法は、
機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出ステップと、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書が機密情報を含むか否か判定する機密情報判定ステップと、
を備えたことを特徴とする。
本発明は、機密情報管理装置を提供する。本発明の機密情報管理装置は、
機密文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽部と、
判定対象文書の先頭から1文字ずつずらしながら一定文字列長nの文字列を切り出し、各切り出し文字列をハッシュテーブルと照合して判定対象文書が機密情報を含むか否か判定する機密情報判定部と、
を備えたことを特徴とする。
Claims (8)
- コンピュータを、
機密文書の先頭から1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出部と、
判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長と同一文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定部と、
して機能させるための機密文書管理プログラムであって、
前記特徴情報抽出部及び機密情報判定部が文字列を切出すための一定文字列長は、前記特徴情報抽出部により文字列長を1文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定部で機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密文書管理プログラム。 - 請求項1記載の機密文書管理プログラムに於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部としてコンピュータを機能させ、
前記特徴情報抽出部は機密文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密文書管理プログラム。 - 請求項2記載の機密文書管理プログラムに於いて、前記特徴抽出部は、
複数の機密文書からファイル単位などの意味的なまとまりをもつ機密部分文書を切り出す部分文書切出し処理と、
前記機密部分文書に対応する機密文書の機密文書識別子を付与する識別子付与処理と、
前記機密部分文書から前記頻出表現テーブルの頻出表現を除去する頻出表現除去処理と、
前記機密部分文書の先頭から1文字ずつずらしながら一定文字列長の文字列を切り出す文字列切出し処理と、
全ての切出し文字列をキーとして対応する機密文書識別子をハッシュテーブルに登録するテーブル登録処理と、
を実行することを特徴とする機密文書管理プログラム。 - 請求項1記載の機密文書管理プログラムに於いて、
前記機密情報判定部は、
判定対象文書を取得する文書取得処理と、
前記判定対象文書に文書識別子を付与する識別子付与処理と、
前記判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長の文字列を切り出す文字列切出し処理と、
全ての切出し文字列を前記ハッシュテーブルのキーである登録文字列と照合し,照合一致の場合に対応する機密文書識別子を取得するテーブル照合処理と、
前記テーブル照合ステップから1又は複数の機密文書識別子が取得された場合に前記判定対象文書は機密情報を含むことを示す判定結果を出力し、機密文書識別子が取得されなかった場合に前記判定対象文書は機密情報を含まないことを示す判定結果を出力する判定出力処理と、
を実行することを特徴とする機密文書管理プログラム。 - コンピュータを、
機密文書の先頭から1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出部と、
判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長と同一文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定部と、
して機能させるための機密文書管理方法であって、
前記特徴情報抽出部及び機密情報判定部が文字列を切出すための一定文字列長は、前記特徴情報抽出部により文字列長を1文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定部で機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密文書管理方法。 - 請求項5記載の機密文書管理方法に於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部としてコンピュータを機能させ、
前記特徴情報抽出部は機密対照文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密文書管理方法。 - 機密文書の先頭から1文字ずつずらしながら一定文字列長の文字列を特徴情報として切り出し、各切り出し文字列に機密文書識別子を付与し、各切り出し文字列をキーとしてハッシュテーブルに登録する特徴情報抽出部と、
判定対象文書の先頭から1文字ずつずらしながら前記一定文字列長の同じ文字列長の文字列を切り出し、各切り出し文字列を前記ハッシュテーブルと照合して前記判定対象文書か機密情報を含むか否か判定する機密情報判定部と、
を備え、
前記特徴情報抽出部及び機密情報判定部で文字列を切出すための一定文字列長は、前記特徴情報抽出部により文字列長を1文字ずつ増加させながら作成したハッシュテーブルを使用して前記機密情報判定部で機密文書を判定した際の、前記文字列長の変化に対する機密文書の発見率と、発見された機密文書中の文字列一致率とが一致する文字列長またはその付近の文字列長としたことを特徴する機密文書管理装置。 - 請求項7記載の機密文書管理装置に於いて、更に、収集された機密文書及び一般文書から頻出表現を抽出して頻出表現テーブルに登録する頻出表現抽出部を設け、
前記特徴情報抽出部は機密対照文書から前記頻出表現テーブルの頻出表現を除去した後に一定文字列長の文字列を切り出すことを特徴とする機密文書管理装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2006/304740 WO2007105273A1 (ja) | 2006-03-10 | 2006-03-10 | 機密情報管理プログラム、方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2007105273A1 JPWO2007105273A1 (ja) | 2009-07-23 |
JP4824750B2 true JP4824750B2 (ja) | 2011-11-30 |
Family
ID=38509123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008504927A Expired - Fee Related JP4824750B2 (ja) | 2006-03-10 | 2006-03-10 | 機密情報管理プログラム、方法及び装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP4824750B2 (ja) |
WO (1) | WO2007105273A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5456425B2 (ja) * | 2008-10-22 | 2014-03-26 | 株式会社日立ソリューションズ | コンテンツ認可装置 |
JP5471415B2 (ja) * | 2009-12-21 | 2014-04-16 | 日本電気株式会社 | 情報漏洩防止システム、情報漏洩防止方法及び情報漏洩防止プログラム |
JP2011170509A (ja) * | 2010-02-17 | 2011-09-01 | Nec Corp | 機密度学習装置、機密度学習システム、機密度学習方法および機密度学習プログラム |
JP2011170510A (ja) * | 2010-02-17 | 2011-09-01 | Nec Corp | 自動ファイル管理装置、自動ファイル管理システム、自動ファイル管理方法及び自動ファイル管理プログラム |
WO2014039620A1 (en) * | 2012-09-07 | 2014-03-13 | Tiversa Ip, Inc. | Snippet matching in file sharing networks |
KR101459676B1 (ko) * | 2013-01-25 | 2014-11-12 | 킹스정보통신(주) | 사용자 단말기를 이용한 인쇄 문서상의 기밀정보 보안 장치 및 그 방법 |
JP5906229B2 (ja) * | 2013-11-05 | 2016-04-20 | 日本電信電話株式会社 | 連続引用判定装置及び方法 |
JP6045533B2 (ja) * | 2014-05-26 | 2016-12-14 | 京セラドキュメントソリューションズ株式会社 | 文書管理装置及び文書管理プログラム |
WO2023132046A1 (ja) * | 2022-01-07 | 2023-07-13 | 富士通株式会社 | 判定方法、情報処理装置および判定プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003288366A (ja) * | 2002-03-28 | 2003-10-10 | Fujitsu Ltd | 類似テキスト検索装置 |
JP2004240517A (ja) * | 2003-02-03 | 2004-08-26 | Toshiba Corp | テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム |
JP2005043977A (ja) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
-
2006
- 2006-03-10 JP JP2008504927A patent/JP4824750B2/ja not_active Expired - Fee Related
- 2006-03-10 WO PCT/JP2006/304740 patent/WO2007105273A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003288366A (ja) * | 2002-03-28 | 2003-10-10 | Fujitsu Ltd | 類似テキスト検索装置 |
JP2004240517A (ja) * | 2003-02-03 | 2004-08-26 | Toshiba Corp | テキスト分類ルール作成装置、テキスト分類ルール作成方法およびテキスト分類ルール作成プログラム |
JP2005043977A (ja) * | 2003-07-23 | 2005-02-17 | Hitachi Ltd | 文書間の類似度算出方法および装置 |
Also Published As
Publication number | Publication date |
---|---|
WO2007105273A1 (ja) | 2007-09-20 |
JPWO2007105273A1 (ja) | 2009-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4824750B2 (ja) | 機密情報管理プログラム、方法及び装置 | |
US8254698B2 (en) | Methods for document-to-template matching for data-leak prevention | |
US11188657B2 (en) | Method and system for managing electronic documents based on sensitivity of information | |
US8606795B2 (en) | Frequency based keyword extraction method and system using a statistical measure | |
US9215197B2 (en) | System, method, and computer program product for preventing image-related data loss | |
JP4995950B2 (ja) | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム | |
CN112262388A (zh) | 使用个人身份信息(pii)的标记和持久性来保护pii | |
WO2004040464B1 (en) | A method and system for managing confidential information | |
JP2006209649A (ja) | 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム | |
US20140324416A1 (en) | Method of automated analysis of text documents | |
US20060277169A1 (en) | Using the quantity of electronically readable text to generate a derivative attribute for an electronic file | |
US8365247B1 (en) | Identifying whether electronic data under test includes particular information from a database | |
US20120254166A1 (en) | Signature Detection in E-Mails | |
JP2007004645A (ja) | 個人情報管理システム | |
US20240095289A1 (en) | Data enrichment systems and methods for abbreviated domain name classification | |
CN109918638B (zh) | 一种网络数据监测方法 | |
US20090287654A1 (en) | Device for identifying electronic file based on assigned identifier | |
CN116055067A (zh) | 一种弱口令检测的方法、装置、电子设备及介质 | |
JP2007102685A (ja) | 個人情報探索プログラム | |
US20060277177A1 (en) | Identifying electronic files in accordance with a derivative attribute based upon a predetermined relevance criterion | |
JP5062134B2 (ja) | 情報拡散システム、情報拡散装置、情報拡散方法、および情報拡散プログラム | |
JP5690301B2 (ja) | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム | |
WO2022185576A1 (ja) | 不正侵害分析支援装置、及び不正侵害分析支援方法 | |
JP4139919B2 (ja) | 個人情報探索プログラム | |
KR100525617B1 (ko) | 연관 검색 쿼리 추출 방법 및 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110524 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110725 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110816 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110908 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140916 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |