JP2016071839A - 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体 - Google Patents

秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP2016071839A
JP2016071839A JP2015020104A JP2015020104A JP2016071839A JP 2016071839 A JP2016071839 A JP 2016071839A JP 2015020104 A JP2015020104 A JP 2015020104A JP 2015020104 A JP2015020104 A JP 2015020104A JP 2016071839 A JP2016071839 A JP 2016071839A
Authority
JP
Japan
Prior art keywords
data
format
secret
feature
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015020104A
Other languages
English (en)
Other versions
JP5952441B2 (ja
Inventor
信延 葉
Xin-Yan Yeh
信延 葉
建宗 劉
Chien-Tsung Liu
建宗 劉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of JP2016071839A publication Critical patent/JP2016071839A/ja
Application granted granted Critical
Publication of JP5952441B2 publication Critical patent/JP5952441B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0245Filtering by information in the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Abstract

【課題】データの漏れを回避することができる秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体を提供する。【解決手段】電子装置100は、特定フォーマットを表すフォーマット特徴に基づいてデータにおいて特定フォーマットがあるか否かを判定し、特定フォーマットを秘密データとして表す複数の秘密ファクターCPに基づいて、データにおける特定フォーマットが秘密データであるか否かをさらに判定する。これにより、カウント数が多くないが機密記述が大量に含まれたデータの正しい機密レベルを提供するとともに特定フォーマットを有する秘密データを識別する。【選択図】図1

Description

本発明は、秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体に関し、特にファイルにおける特定フォーマットが秘密データであるか否かを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体に関するものである。
秘密データを識別する技術は、データ保護の関連分野に用いられる。秘密データの識別メカニズムを通じて、高機密性が潜在する秘密データをさらに識別することができる。
従来の秘密データ識別技術は、個人データまたは秘密ストリングに対してのみ分析識別するものであり、機密レベルが、見つけ出した類型またはカウント数に比例するのが一般的である。カウント数が多くないが機密記述が大量に含まれたデータ(例えば履歴、カルテ等)に対して、正しい機密レベルを提供することができない。また、従来の秘密データ識別技術は、大量の既知データ全体の内容について学習を行い、既知データの特徴を取得した後、上記特徴を識別すべきデータの特徴と比較対照することで、識別データが秘密データであるか否かを判定する。従って、従来の秘密データ識別技術は、既知データと同一または類似する秘密データしか見つけ出すことができず、既知データと同一のテンプレートまたはフォーマットを使用した秘密データを見つけ出すことができない。
カウント数が多くないが機密記述が大量に含まれたデータの正しい機密程度を提供するとともに特定のテンプレートまたはフォーマットを有する秘密データを識別することによってデータの漏れを回避することができる秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体を提供する。
本発明は、特定フォーマットを表すフォーマット特徴と前記特定フォーマットを秘密データとして表す複数の機密ファクターとをそれぞれ有すると共に前記特定フォーマットにそれぞれ対応する複数の識別グループが格納された電子装置に適用される、秘密データを識別する方法であって、複数のデータのいずれか1つを取り出し、それを取り出しデータと定義する工程と、複数のフォーマット特徴のいずれか1つを取り出し、それを取り出し特徴と定義する工程と、電子装置が、取り出し特徴に基づいて取り出しデータが対応する特定フォーマットを有するか否かを判定し、取り出しデータが対応する特定フォーマットを有すると判定した場合に、特定フォーマットに対応する複数の秘密ファクターの取り出しデータにおける出現頻度が秘密閾値以上であるかを判定し、出現頻度が秘密閾値以上であると判定した場合に、取り出しデータにおける特定フォーマットが秘密データであることを表し、出現頻度が秘密閾値よりも小さいと判定した場合に記取り出しデータにおける特定フォーマットが秘密データではないことを表すようにする工程と、電子装置が、複数のフォーマット特徴において取り出されていないフォーマット特徴があるか否かを判定し、複数のフォーマット特徴において取り出されていないフォーマット特徴があると判定した場合に、取り出されていないフォーマット特徴を取り出し、取り出されていないフォーマット特徴を取り出し特徴と定義することで、改めて取り出し特徴に基づいて取り出しデータが対応する特定フォーマットを有するか否かを判定し、複数のフォーマット特徴において取り出されていないフォーマット特徴がないと判定した場合に、複数のデータの次のデータを取り出し、次のデータを取り出しデータと定義することで、改めて取り出しデータが対応する特定フォーマットを有するか否かを判定する工程と、を備えることを特徴とする秘密データを識別する方法を提供する。
また、本発明は、特定フォーマットを表すフォーマット特徴と特定フォーマットを秘密データとして表す複数の機密ファクターとをそれぞれ有すると共に特定フォーマットにそれぞれ対応する複数の識別グループを格納するための格納ユニットと、格納ユニットに電気的に接続され、複数のデータ及び複数の識別グループを取り出すための取り出しユニットと、取り出しユニットに電気的に接続される識別ユニットであって、取り出しユニットを介して、複数のデータのいずれか1つを取り出し、それを取り出しデータと定義する工程と、取り出しユニットを介して、複数のフォーマット特徴のいずれか1つを取り出し、それを取り出し特徴と定義する工程と、取り出し特徴に基づいて取り出しデータが対応する特定フォーマットを有するか否かを判定し、取り出しデータが対応する特定フォーマットを有すると判定した場合に、特定フォーマットに対応する複数の秘密ファクターの取り出しデータにおける出現頻度が秘密閾値以上であるかを判定し、出現頻度が秘密閾値以上であると判定した場合に、取り出しデータにおける特定フォーマットが秘密データであることを表し、出現頻度が秘密閾値よりも小さいと判定した場合に、取り出しデータにおける特定フォーマットが秘密データではないことを表すようにする工程と、複数のフォーマット特徴において取り出されていないフォーマット特徴があるか否かを判定し、複数のフォーマット特徴において取り出されていないフォーマット特徴があると判定した場合に、取り出しユニットを介して取り出されていないフォーマット特徴を取り出し、取り出されていないフォーマット特徴を取り出し特徴と定義することで、改めて取り出し特徴に基づいて取り出しデータが対応する特定フォーマットを有するか否かを判定し、複数のフォーマット特徴において取り出されていないフォーマット特徴がないと判定した場合に、取り出しユニットを介して複数のデータの次のデータを取り出し、次のデータを取り出しデータと定義することで、改めて取り出しデータが対応する特定フォーマットを有するか否かを判定する工程と、を実行する識別ユニットと、を備えることを特徴とする秘密データを識別する電子装置を提供する。
また、本発明は、コンピュータによって実行可能なプログラムが記録され、プロセッサーによって読み取られた場合に、プロセッサーは、上記秘密データを識別する方法における工程を実行可能であることを特徴とするコンピュータ読み取り可能な記録媒体を提供する。
上記のように、本発明に係る秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体によれば、特定フォーマットを有するデータが秘密データであるか否かを判定することができる。これにより、本発明に係る秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体は、カウント数が多くないが機密記述が大量に含まれたデータの正しい機密レベルを提供するとともに特定フォーマットを有する秘密データを識別することができ、データの漏れを回避することができる。
本発明の一実施例に係る秘密データを識別する電子装置の模式図である。 本発明の一実施例に係る秘密データを識別する方法のフロー図である。 本発明の一実施例に係る秘密データを識別する方法のフロー図である。 本発明の一実施例に係る電子装置が取り出しデータにフォームがあると判定した様子を示す模式図である。 本発明の一実施例に係る電子装置が取り出しデータにフォームがあると判定した様子を示す模式図である。 本発明の他の実施例に係る電子装置が取り出しデータにリストがあると判定した様子を示す模式図である。 本発明の他の実施例に係る電子装置が取り出しデータにリストがあると判定した様子を示す模式図である。 本発明の他の実施例に係る電子装置が取り出しデータにパターンがあると判定した様子を示す模式図である。 本発明の他の実施例に係る電子装置が取り出しデータにパターンがあると判定した様子を示す模式図である。 本発明の他の実施例に係る電子装置が受信したデータにおける特定フォーマットの内容が秘密データであるか否かを判定する。
以下、本発明の各種の例示性実施例について、添付図面を参照しながら詳しく説明する。ここで説明しておきたいのは、本発明の概念は、異なる形式で表現されるため、明細書に述べた例示性実施例に限定されるものではない。また、図面における同一素子には、同一符号を付す。
本発明の実施例に係る秘密データを識別する電子装置は、特定フォーマットを表すフォーマット特徴に基づいてデータにおいて特定フォーマットがあるか否かを判定し、次に、さらに特定フォーマットを秘密データとして表す複数の秘密ファクターに基づいて、データにおける特定フォーマットが秘密データであるか否かを判定する。また、本発明の実施例に係る電子装置に対応して実行される秘密データを識別する方法において、ファームウェア、ソフトウェアまたはハードウェア回路の方法により電子装置に実施可能である。
まず、図1は、本発明の一実施例に係る秘密データを識別する電子装置の模式図である。図1に示すように、秘密データを識別する電子装置100は、電子装置100によって受信されたデータにおける特定フォーマットの内容が秘密データであるか否かを識別し、データの漏れを回避するためのものである。この実施例において、電子装置100は、スマートフォン、デスクトップコンピュータ、ノードブックコンピュータ、またはその他データを受信可能な電子装置であってもよい。
電子装置100は、ユーザコンピュータと遠隔サーバとの間(図示せず)に設けられており、ユーザコンピュータと遠隔サーバとの間に伝送されるデータにおける特定フォーマットが秘密データであるか否かを識別することができる。また、電子装置100は、ユーザコンピュータ(図示せず)に電気的に接続されることで、ネットワーク接続を介してユーザコンピュータにおけるデータを取り出するとともに、取り出されたデータにおける特定フォーマットが秘密データであるか否かを識別することもできる。さらに、電子装置100は、ユーザコンピュータの内部(図示せず)に設けられることで、ユーザコンピュータからデータが出力された場合に、出力されたデータにおける特定フォーマットが秘密データであるか否かを識別することができる。本発明は、電子装置の設置位置について何ら制限するものではない。これにより、電子装置100は、秘密データが窃取意図のある者によって取得されることを防止し、データの漏れを回避することができる。
電子装置100は、演算処理ユニットとしての識別ユニット110と、取り出しユニット120と、格納ユニット130とを含む。格納ユニット130には複数の識別グループ132が格納されている。各識別グループ132は、特定フォーマットに対応し、かつ対応する特定フォーマットを表すフォーマット特徴FFを有する。つまり、各識別グループ132がフォーマット特徴FFを有することで、演算処理ユニットとしての識別ユニット110は、データにおける内容が対応する特定フォーマットを有するか否かを識別することができる。1つの例として、特定フォーマットがフォーム(FORM)である場合、フォームのフォーマット特徴FFは、複数の列において2つの列終了位置(End−of−Line)を有する特徴であってもよい。さらに例を挙げれば、特定フォーマットがリスト(LIST)である場合、リストのフォーマット特徴FFは、複数の「TAB」鍵からのメッセージを有する特徴であってもよい。さらに例を挙げれば、特定フォーマットがユーザ自身によって定義されたテンプレート(TEMPLATE)である場合、テンプレートのフォーマット特徴FFは、ユーザ自身によって定義された特徴であってもよい。この実施例において、各フォーマット特徴FFは、少なくとも1つのワード、少なくとも1つのストリング、少なくとも1つの符号、少なくとも1つの数字、少なくとも1つの実行指令、及び少なくとも1つのフォーマットのいずれか1つまたはそれらの組み合わせであってもよく、これらに限定されるものではない。
また、各識別グループ132は、対応する特定フォーマットを秘密データとして表す複数の秘密ファクターCPを有する。つまり、各識別グループ132が複数の秘密ファクターCPを有することで、演算処理ユニットとしての識別ユニット110は、データにおける特定フォーマットの内容が秘密データであるか否かを識別することができる。1つの例として、特定フォーマットが履歴フォーム(図3Aを参照)である場合、秘密ファクターCPは、「名前」、「身分証明書」、「携帯電話」、及び「連絡住所」等の名詞であってもよい。さらに例を挙げれば、特定フォーマットが住所録リスト(図4Aを参照)である場合、秘密ファクターCPは、「生年月日」、「身長」、「体重」、「住所」、及び「電話」等の名詞であってもよい。さらに例を挙げれば、特定フォーマットがユーザ自身によって定義されたテンプレート(図5Aを参照)である場合、秘密ファクターCPは、「計画目的」、及び「お客様要求」等、ユーザ自身によって定義された名詞であってもよい。この実施例において、各識別グループ132に対応する複数の秘密ファクターCPは、少なくとも1つのワード、少なくとも1つのストリング、少なくとも1つの符号、少なくとも1つの数字、少なくとも1つの実行指令、及び少なくとも1つのフォーマットのいずれか1つまたはそれらの組み合わせであってもよく、これらに限定されるものではない。
電子装置100において複数の識別グループ132が格納ユニット130に格納される方法は、従来の格納方法である。当業者は、電子装置100において複数の識別グループ132が格納ユニット130に格納される方法を理解することができるため、ここでは詳しい説明を省略する。この実施例において、格納ユニット130は、フラッシュメモリチップ、リードオンリーメモリチップまたはランダムアクセスメモリチップ等、揮発性または非揮発性の記憶チップであってもよく、好ましくは非揮発性メモリである。
また、電子装置100は、ユーザが識別インタフェースにおいて識別しようとする特定フォーマット(例えばユーザ自身によって定義された名詞)を設定し、かつ受信されたデータにおける特定フォーマットの内容が秘密データであるか否かを識別できるように、識別インタフェース(図示せず)を表示するための表示ユニットをさらに有する。当然ながら、識別しようとする特定フォーマット及びそれに対応する識別グループ132が予め格納ユニット130に設定された場合には、表示ユニットを設けなくてもよく、本発明はこれに限定されるものではない。
取り出しユニット120は、識別ユニット110が受信されたデータをさらに識別できるように、格納ユニット130に電気的に接続されるとともに、複数のデータ及び複数の識別グループ132を取り出すものである。識別ユニット110は、取り出しユニット120に電気的に接続され、電子装置100の主要な演算中心としての演算処理ユニットであり、各分析、演算及び制御を行うものである。この実施例において、識別ユニット110は、中央処理器、マイクロ制御器または埋め込み型制御器等の処理チップであってもよい。識別ユニット110及び取り出しユニット120は、中央処理器、マイクロ制御器または埋め込み型制御器等の処理チップに統合されてもよく、本発明は、それに限定されるものではない。
識別ユニット110は、下記の工程を実行することで、受信されたデータにおける特定フォーマットの内容が秘密データであるか否かを識別する。
図1、図2Aを同時に参照すると、まず、識別ユニット110は、取り出しユニット120を介して複数のデータのいずれか1つを取り出し、それを取り出しデータと定義することで、取り出しデータにおける特定フォーマットの内容が秘密データであるか否かをさらに識別する(ステップS210)。識別ユニット110は、取り出しユニット120を介して外部装置から上記複数のデータを取り出すか、または格納ユニット130に予め格納された複数のデータを取り出すことができ、本発明はそれに限定されるものではない。
次に、識別ユニット110は、取り出しユニット120を介して格納ユニット130に格納された複数のフォーマット特徴FFのいずれか1つを取り出し、それを取り出し特徴(ステップS220)と定義する。この場合の取り出し特徴は、ある特定フォーマット(例えばフォームまたはリスト等の特定フォーマット)を表す。さらに、識別ユニット110は、取り出し特徴に基づいて取り出しデータが対応する特定フォーマットを有するか否かを判定する(ステップS230)。即ち、識別ユニット110は、取り出しデータに所定の数量の取り出し特徴があるか否かを判定することにより、取り出しデータに現在取り出されたフォーマット特徴FFの特定フォーマットがあるか否かを判定する。この実施例において、特定フォーマットは、フォーム、リスト、ユーザ自身によって定義されたテンプレート、またはその他規則性特徴を有する特定フォーマットであってもよく、本発明はそれに限定されるものではない。特定フォーマットに対応するフォーマット特徴FFは、特定フォーマットにおいてのみ出現する特徴、例えば特定鍵からのメッセージ、連続ブランク等の特徴から選択されてもよく、本発明はそれに限定されるものではない。
識別ユニット110が取り出しデータにおいて対応する特定フォーマットがあると判定した場合には、取り出しデータにおいて取り出し特徴に対応する特定フォーマットがあることを表す。この場合、識別ユニット110は、取り出しデータにおける特定フォーマットの内容が秘密データであるか否かをさらに判定する(ステップS240)。逆に、識別ユニット110が、取り出しデータにおいて対応する特定フォーマットがないと判定した場合には、取り出しデータにおいて取り出し特徴に対応する特定フォーマットがないことを表す。この場合、識別ユニット110は、複数のフォーマット特徴FFにおいて取り出されていないフォーマット特徴FFがあるか否かをさらに判定する(ステップS270)。
1つの例として、特定フォーマットがフォームである場合、そのフォーマット特徴FFは、図3Aに示すように、同一列に少なくとも2つの列終了位置を有するものである。従って、取り出しユニット120がフォームを表すフォーマット特徴FFを取り出した場合に、識別ユニット110は、フォームの内容において、その同一列に少なくとも2つの列終了位置を有する数がフォーマット閾値以上であるか否かを判定する。YES(はい)と判定した場合に、識別ユニット110は、取り出しデータにフォームを表す特定フォーマットがあると認定する。逆に、識別ユニット110は、取り出しデータにフォームを表す特定フォーマットがないと認定する。上記フォーマット閾値は、実際のフォームに応じて設定することができ、本発明はそれに限定されるものではない。識別ユニット110は、取り出しデータにフォームを表す特定フォーマットがあるか否かを識別した後、取り出しユニット120を介してフォームにおける内容(図3Bを参照)を取り出し、フォームにおける内容が秘密データであるか否かをさらに判定する。
さらに例を挙げれば、特定フォーマットがリストである場合、そのフォーマット特徴FFは、図4Aに示すように、複数の「TAB」からのメッセージである。従って、取り出しユニット120がリストを表すフォーマット特徴FFを取り出した場合に、識別ユニット110は、リストにおける内容に上記メッセージを有する数がフォーマット閾値以上であるかを判定する。YESと判定した場合に、識別ユニット110は、取り出しデータにリストを表す特定フォーマットがあると認定する。逆に、識別ユニット110は、取り出しデータにリストを表す特定フォーマットがないと認定する。上記フォーマット閾値は、実際のリストに基づいて設定してもよく、本発明はそれに限定されるものではない。識別ユニット110は、取り出しデータにリストを表す特定フォーマットがあるか否かを識別した後、取り出しユニット120を介してリストにおける内容を取り出し(図4Bを参照)、リストにおける内容が秘密データであるか否かをさらに判定する。
さらに例を挙げれば、特定フォーマットがユーザ自身によって定義されたテンプレートである場合、そのフォーマット特徴FFは、カスタマイズ特徴である。即ち、フォーマット特徴FFは、ユーザ自身によって定義されてなるものである。図5Aに示すように、カスタマイズ特徴は、「計画目的」及び「お客様要求」等の特徴である。従って、取り出しユニット120がカスタマイズ特徴を表すフォーマット特徴FFを取り出した場合に、識別ユニット110は、テンプレートの内容に上記カスタマイズ特徴を有する数がフォーマット閾値以上であるかを判定する。YESと判定した場合に、識別ユニット110は、取り出しデータにテンプレートを表す特定フォーマットがあると認定する。逆に、識別ユニット110は、取り出しデータにテンプレートを表す特定フォーマットがないと認定する。上記フォーマット閾値は、実際のテンプレートに基づいて設定してもよく、本発明はそれに限定されるものではない。識別ユニット110は、取り出しデータにテンプレートを表す特定フォーマットがあるか否かを識別した後、取り出しユニット120を介してテンプレートにおける内容を取り出し(図5Bを参照)、テンプレートにおける内容が秘密データであるか否かをさらに判定する。
上記の3つの例において、当業者は、識別ユニット110が取り出しユニット120を介して特定フォーマット(例えばフォーム、リスト、テンプレート)における内容を取り出す実施方法を理解することができるため、ここでは詳しい説明を省略する。
ステップS240に戻り、識別ユニット110は、この特定フォーマットに対応する複数の秘密ファクターCPの取り出しデータにおける出現頻度が秘密データ閾値以上であるかを判定することにより、取り出しデータにおける特定フォーマットの内容が秘密データであるか否かを判定する。秘密ファクターCPは、対応する特定フォーマットが秘密データである確率を表すものである。従って、特定フォーマットにおいて秘密ファクターCPが多く出現するほど、特定フォーマットが秘密データである確率が高いことを表す。秘密ファクターCPの設定について、前の実施例に記載された通りであるため、ここでは詳しい説明を省略する。これにより、識別ユニット110が、秘密ファクターCPの出現頻度が秘密閾値以上であると判定した場合に、取り出しデータにおける特定フォーマットが秘密データであることを表す(ステップS250)。逆に、識別ユニット110が、秘密ファクターCPの出現頻度が秘密閾値よりも小さいと判定した場合に、取り出しデータにおける特定フォーマットが秘密データではないことを表す(ステップS260)。上記秘密閾値は、実際の複数の秘密ファクターCPの取り出しデータにおける出現頻度に基づいて設定されたものであり、本発明はそれに限定されるものではない。
1つの例として、図3A〜図3Bに示すように、特定フォーマットがフォームであるとする。このうち、フォームは、秘密ファクターCPの名詞として、「名前」、「身分証明書」、「携帯電話」、及び「連絡住所」を有する。各名詞には、例えば「名前」と同義である「名字」、「名称」、「人名」、「Name」等の同義字が現れる可能性がある。従って、判定の過程において、識別ユニット110は、同義字を同一の字句と見なす。この実施例において、識別ユニット110は、同義字関数STF(i)を介して各字句がフォームに出現する重要性を算出することで、各字句とフォームとの間の関連性を得ることができる。本実施例における同義字関数STF(i)は、以下のように示すことができる。
Figure 2016071839
ここで、nijは、第i種の字句が第j個のフォームに出現する回数を表す。ωは第i種の字句の重みを表す。Σkjは第j個のフォームにおけるすべてのk個の字句を表し、かつ且k≧0。
ここで注意すべき点は、識別ユニット110が同義字を同一の字句と見なす点である。即ち、識別ユニット110がフォームにおける「連絡住所」、「名前」、「名称」、「人名」、及び「身分証明書」を見つけ出した場合、識別ユニット110は、「連絡住所」を第1種の名詞として見なし、「名前」、「名称」、「人名」を第2種の字句として見なし、「身分証明書」を第3種の字句として見なす。各種の字句の重みについて、ωが0.5であり、ωが0.2であり、ωが0.3であるとする場合、識別ユニット110は、同義字関数STFを介して各字句がフォームに出現する重要性を算出する。第1種の字句としては、STF(1)=1/5*0.5=0.1であり、第2種の字句としては、STF(2)=3/5*0.2=0.12であり、第3種の字句としては、STF(3)=1/5*0.3=0.06である。
次に、この実施例における識別ユニット110は、さらに、情報関数PIFを介してフォームにおいて秘密ファクターCPの字句として出現する確率を算出する。この実施例における情報関数PIFは、以下の通りである。
Figure 2016071839
ここで、Ptは、現在秘密ファクターCPとしての名句の数を表す。Pnは、フォームにおいて秘密ファクターCPの字句として出現する数を表す。上記の例としては、フォームには、秘密ファクターCPの名詞として、「名前」、「身分証明書」、「携帯電話」、及び「連絡住所」の4つの名詞がある。識別ユニット110は、フォームにおいて「連絡住所」、「名前」、「名称」、「人名」、及び「身分証明書」の5つの名詞を見つけ出し、見つけ出した5つの名詞を3種の字句に分類する。この場合、演算処理ユニットとしての識別ユニット110がPIF=3/4として算出したため、フォームにおいて秘密ファクターCPの名詞として出現する確率が75%であることを表す。
次に、識別ユニット110は、秘密データ関数PIFVを介して、フォームに対応する4つの秘密ファクターCPの取り出しデータにおける出現頻度を算出する。この実施例における秘密データ関数PIFVは、以下の通りである。
Figure 2016071839
ここで、ΣnSTF(i)は、各字句がフォームにおいて出現する重要性の総計を表す。PIFは、フォームにおいて秘密ファクターの字句として出現する確率を表す。上記の例に続き、PIFV=(0.1+0.12+0.06)*0.75=0.21であることは、フォームに対応する4つの秘密ファクターCPの取り出しデータにおける出現頻度が0.21であることを表す。
最後に、識別ユニット110は、出現頻度が秘密閾値以上であるかを判定する。上記の例に続き、この実施例における秘密閾値は0.1とする。従って、識別ユニット110は、秘密ファクターCPの出現頻度(0.21である)が秘密閾値(0.1である)よりも大きいと判定し、取り出しデータにおけるフォームの内容が秘密データであることを表す。これにより、識別ユニット110は、ステップS210〜S260を介して、取り出されたデータにおける特定フォーマットが秘密データであるか否かを判定することができる。
これにより、識別ユニット110は、特定フォーマットを表す秘密ファクターCPを介して取り出しデータにおける特定フォーマットの秘密性を識別することができ、高秘密性のデータの漏れを回避することができる。
次に、識別ユニット110は、複数のフォーマット特徴FFにおいて取り出されていないフォーマット特徴FFがあるか否かを判定する(ステップS270)。即ち、識別ユニット110は、取り出しデータにその他の特定フォーマットがあるか否かをさらに判定する。識別ユニット110が、取り出されていないフォーマット特徴FFがあると判定した場合に、ステップS220に戻り、取り出しユニット120を介して取り出されていないフォーマット特徴FFを取り出す。この場合、識別ユニット110は、取り出されていないフォーマット特徴FFを取り出し特徴と定義することで、改めて定義された取り出し特徴に基づいて取り出しデータに対応する特定フォーマットがあるか否かを改めて判定する。上記の例に続き、フォームのフォーマット特徴FFを判定した後、識別ユニット110がリストを表すフォーマット特徴FFが取り出されていないと判定した場合に、識別ユニット110は、リストを表すフォーマット特徴FF(即ちフォーマット特徴FFが複数の「TAB」鍵からのメッセージである)を取り出し特徴として定義することで、改めて取り出し特徴に基づいて取り出しデータにリストのフォーマットがあるか否かを判定する。
逆に、識別ユニット110が、取り出されていないフォーマット特徴がないと判定した場合に、取り出しデータに判定すべき特定フォーマットがないことを表す。この場合、識別ユニット110は、ステップS210に戻り、複数のデータにおける次のデータを取り出す。さらに、識別ユニット110は、次のデータを取り出しデータとして定義することで、取り出しデータに対応する特定フォーマットがあるか否かを改めて判定する。
また、図1、図2A、図2Bを同時に参照すると、電子装置100は、分類ユニット140をさらに含む。分類ユニット140は、識別ユニット110に電気的に接続され、現在の取り出しデータに対して分類を行うものである。さらに詳しくは、識別ユニット110が、取り出されたフォーマット特徴FFがないと判定した場合に、分類ユニット140は、現在の取り出しデータに対してさらに分類することで、取り出しデータにおける特定フォーマットがどの種類であるかをさらに判定することができる(ステップS275)。識別ユニット110は、分類ユニット140が現在の取り出しデータの分類を終了した後に、ステップS210に戻り、複数のデータにおける次のデータを取り出す。1つの例として、分類ユニット140は、フォームを有する取り出しデータを履歴表、給料表、カルテ表、またはその他高秘密性のフォームに分類する。若しくは、分類ユニット140は、リストを有する取り出しデータを住所録、内線表、またはその他高秘密性のリストに分類する。
この実施例において、すべてのデータを関連性を有するため、分類ユニット140は、特定フォーマットにおける複数の秘密ファクターCPと、上記秘密ファクターCPがすべてのデータにおいて出現する回数とに基づいて現在の取り出しデータに対して分類を行う。例えば、分類ユニット140は、「履歴」、「名前」、「身分証明書」、「携帯電話」、及び「連絡住所」の5つの字句を秘密ファクターCPとする。分類ユニット140は、上記の5つの字句と、上記の5つの字句がすべてのデータにおいて出現する回数とに基づいて現在の取り出しデータに対して分類を行う。当然ながら、すべてのデータの間に関連性がない場合には、分類ユニット140は、特定フォーマットの複数の秘密ファクターCPにのみ基づいて現在の取り出しデータに対して分類を行うこともでき、本発明はそれに限定されるものではない。
また、本実施例における分類ユニット140は、例えばTFIDF(term frequency−inverse document frequency)、サポート ベクトル マシン(support vector machines、SVM)、ベイジアン分類法(bayesian classification)、またはバックプロパゲーションニューラルネットワーク(back propagationneural(BPN)network)等の分類アルゴリズムにより、現在の取り出しデータに対して分類を行うことで、取り出しデータの分類をより正確に行う。当業者は、分類ユニット140が分類アルゴリズムにより現在の取り出しデータに対して分類を行う実施及び運用方法を理解することができるため、ここでは詳しい説明を省略する。
これにより、分類ユニット140は、特定フォーマットの取り出しデータに対して分類を行うことができる。従って、すべてのデータの識別が終了した場合に、ユーザは、すべてのデータにおける特定フォーマットがどの種類であるかを理解することができ、すべてのデータに対して制御を行うことができる。
以下、ユーザがユーザコンピュータ10を介して1つのデータDAを遠隔サーバ20に伝送することを例にして説明する。図6に示すように、電子装置100は、ユーザコンピュータ10と遠隔サーバ20との間に設けられることで、ユーザコンピュータ10からのデータDAにおける特定フォーマットの内容が秘密データであるか否かを判定する。説明の簡単化のために、本実施例におけるデータDAは、図3Aに示すフォームを有し、この場合に取り出されたフォーマット特徴FFは、フォームを表す特定フォーマットである。
図1、図3A、図6を同時に参照すると、ユーザがユーザコンピュータ10を介してデータDAを遠隔サーバ20に伝送する過程において、電子装置100における識別ユニット110は、取り出しユニット120を介してデータDAを取り出す。この場合、電子装置100は、データDAにおける特定フォーマットの内容が秘密データであるか否かを判定し、かつ、秘密データの漏れを回避するために、しばらくの間、データDAを遠隔サーバ20に伝送しない。
まず、電子装置100における識別ユニット110は、現在取り出されたフォーマット特徴FF(即ちフォームを表す特定フォーマット)に基づいてデータDAにおいてフォームを表す特定フォーマットがあると判定する。識別ユニット110がデータDAにおいてフォームを表す特定フォーマットがあるか否かを判定する方法について、上記の実施例に記載された通りであるため、ここでは詳しい説明を省略する。
次に、電子装置100における識別ユニット110は、フォームを表す特定フォーマットに対応する複数の秘密ファクターCPのデータDAにおける出現頻度に基づいて、データDAにおけるフォームの内容が秘密データであると判定する。識別ユニット110がデータDAにおいてフォームを表す特定フォーマットの内容が秘密データであるか否かを判定する方法について、上記の実施例に記載された通りであるため、ここでは詳しい説明を省略する。
さらに、電子装置100における識別ユニット110は、まだ識別していないフォーマット特徴FFがあるか否かをさらに判定する。この実施例において、この場合の識別ユニット110には取り出されていないフォーマット特徴FFが既にない。即ち、識別ユニット110は、データDAにおける特定フォーマットを既に判定した。次に、電子装置100における分類ユニット140は、複数の秘密ファクターCPに基づいてデータDAに対して分類を行うとともに、データDAを履歴データに分類する。分類ユニット140がデータDAを履歴データに分類する方法について、上記の実施例に記載された通りであるため、ここでは詳しい説明を省略する。
この場合、電子装置100は、ユーザコンピュータ10からのデータDAにおけるフォームが履歴データであり、かつこの履歴データが秘密データであると判定する。電子装置100は、データDAにおけるフォームが秘密データであると判定した後、実際の情報安全防護に基づいて後続の処理を行うことができる。例えば、電子装置100は、データDAが遠隔サーバ20に伝送されることを許可しないと同時に、システム管理者に対してユーザコンピュータ10が秘密データを遠隔サーバ20に伝送中であることを通知する。これにより、電子装置100は、出力されたデータDAにおける特定フォーマットが秘密データであるか否かを識別することができ、秘密データが窃取意図のある者によって取得されることを防止し、データの漏れを回避することができる。
また、本発明は、コンピュータ読み取り可能な記録媒体により、上記秘密データを識別する方法におけるコンピュータプログラムを格納することで上記の工程を行うこともできる。このコンピュータ読み取り可能な記録媒体は、フロッピー(登録商標)ディスク、ハードディスク、光ディスク、USBドライブ、磁気テープ、ネットワークを介してアクセス可能なデータベース、または当業者が容易に想到し得る同一機能を有する記録媒体であってもよい。
上記のように、本発明の実施例に係る秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体は、特定フォーマットを有するデータが秘密データであるか否かを判定することができる。これにより、本発明の実施例に係る秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体は、カウント数が多くないが機密記述が大量に含まれたデータの正しい機密レベルを提供するとともに特定フォーマットを有する秘密データを識別することができ、データの漏れを回避することができる。
上述したものは、本発明の好ましい実施例に過ぎず、本発明の実施の範囲を限定するためのものではない。
100 電子装置
110 識別ユニット
120 取り出しユニット
130 格納ユニット
132 識別グループ
140 分類ユニット

Claims (20)

  1. 特定フォーマットを表すフォーマット特徴と前記特定フォーマットを秘密データとして表す複数の機密ファクターとをそれぞれ有すると共に前記特定フォーマットにそれぞれ対応する複数の識別グループが格納された電子装置に適用される、秘密データを識別する方法であって、
    複数のデータのいずれか1つを取り出し、それを取り出しデータと定義する工程と、
    それらのフォーマット特徴のいずれか1つを取り出し、それを取り出し特徴と定義する工程と、
    前記電子装置が、前記取り出し特徴に基づいて前記取り出しデータが対応する前記特定フォーマットを有するか否かを判定し、前記取り出しデータが対応する前記特定フォーマットを有すると判定した場合に、前記特定フォーマットに対応する複数の秘密ファクターが前記取り出しデータにおける出現頻度が秘密閾値以上であるかを判定し、前記出現頻度が前記秘密閾値以上であると判定した場合に、前記取り出しデータにおける前記特定フォーマットが前記秘密データであることを表し、前記出現頻度が前記秘密閾値よりも小さいと判定した場合に、前記取り出しデータにおける前記特定フォーマットが前記秘密データではないことを表すようにする工程と、
    前記電子装置が、複数のフォーマット特徴において取り出されていない前記フォーマット特徴があるか否かを判定し、複数のフォーマット特徴において取り出されていない前記フォーマット特徴があると判定した場合に、取り出されていない前記フォーマット特徴を取り出し、取り出されていない前記フォーマット特徴を前記取り出し特徴と定義することで、改めて前記取り出し特徴に基づいて前記取り出しデータが対応する前記特定フォーマットを有するか否かを判定し、複数のフォーマット特徴において取り出されていない前記フォーマット特徴がないと判定した場合に、複数のデータの次のデータを取り出し、前記次のデータを前記取り出しデータと定義することで、改めて前記取り出しデータが対応する前記特定フォーマットを有するか否かを判定する工程と、
    を備えることを特徴とする秘密データを識別する方法。
  2. 前記電子装置は、前記取り出しデータが対応する前記特定フォーマットを有しないと判定した場合に、それらのフォーマット特徴において取り出されていない前記フォーマット特徴があるか否かを判定することを特徴とする請求項1に記載の秘密データを識別する方法。
  3. 前記電子装置は、それらのフォーマット特徴において取り出されていない前記フォーマット特徴がないと判定した後に、さらに、それらの秘密ファクターとそれらの秘密ファクターがそれらのデータに出現する回数とに基づいて前記取り出しデータに対して分類を行うことを特徴とする請求項1に記載の秘密データを識別する方法。
  4. 前記取り出し特徴に基づいて前記取り出しデータが対応する前記特定フォーマットを有するか否かを判定する工程において、前記取り出し特徴が同一列に2つの列終了位置を有し、かつ前記電子装置が前記特定フォーマットにおいて同一列に2つの列終了位置を有する数がフォーマット閾値以上であると判定した場合に、前記電子装置は前記取り出しデータが前記特定フォーマットを有すると判定することを特徴とする請求項1に記載の秘密データを識別する方法。
  5. 前記取り出し特徴に基づいて前記取り出しデータが対応する前記特定フォーマットを有するか否かを判定する工程において、前記フォーマット特徴が特定鍵からのメッセージを含み、かつ前記特定フォーマットにおいて前記メッセージを有する数がフォーマット閾値以上である場合に、前記取り出しデータが前記特定フォーマットを有すると判定することを特徴とする請求項1に記載の秘密データを識別する方法。
  6. 前記取り出し特徴に基づいて前記取り出しデータが対応する前記特定フォーマットを有するか否かを判定する工程において、前記フォーマット特徴がカスタマイズ特徴を含み、かつ前記特定フォーマットにおいて前記カスタマイズ特徴を有する数がフォーマット閾値よりも大きい場合に、前記取り出しデータが前記特定フォーマットを有すると判定することを特徴とする請求項1に記載の秘密データを識別する方法。
  7. 各前記識別グループのそれらの秘密ファクターは、少なくとも1つのワード、少なくとも1つのストリング、少なくとも1つの符号、少なくとも1つの数字、少なくとも1つの実行指令、及び少なくとも1つのフォーマットのいずれか1つまたはそれらの組み合わせであることを特徴とする請求項1に記載の秘密データを識別する方法。
  8. 各前記フォーマット特徴は、少なくとも1つのワード、少なくとも1つのストリング、少なくとも1つの符号、少なくとも1つの数字、少なくとも1つの実行指令、及び少なくとも1つのフォーマットのいずれか1つまたはそれらの組み合わせであることを特徴とする請求項1に記載の秘密データを識別する方法。
  9. 特定フォーマットを表すフォーマット特徴と前記特定フォーマットを秘密データとして表す複数の機密ファクターとをそれぞれ有すると共に前記特定フォーマットにそれぞれ対応する複数の識別グループを格納するための格納ユニットと、
    前記格納ユニットに電気的に接続され、それらのデータ及びそれらの識別グループを取り出すための取り出しユニットと、
    前記取り出しユニットに電気的に接続される識別ユニットであって、
    前記取り出しユニットを介して、それらのデータのいずれか1つを取り出し、それを取り出しデータと定義する工程と、
    前記取り出しユニットを介して、それらのフォーマット特徴のいずれか1つを取り出し、それを取り出し特徴と定義する工程と、
    前記取り出し特徴に基づいて前記取り出しデータが対応する前記特定フォーマットを有するか否かを判定し、前記取り出しデータが対応する前記特定フォーマットを有すると判定した場合に、前記特定フォーマットに対応するそれらの秘密ファクターが前記取り出しデータにおける出現頻度が秘密閾値以上であるかを判定し、前記出現頻度が前記秘密閾値以上であると判定した場合に、前記取り出しデータにおける前記特定フォーマットが前記秘密データであることを表し、前記出現頻度が前記秘密閾値よりも小さいと判定した場合に、前記取り出しデータにおける前記特定フォーマットが前記秘密データではないことを表すようにする工程と、
    それらのフォーマット特徴において取り出されていない前記フォーマット特徴があるか否かを判定し、それらのフォーマット特徴において取り出されていない前記フォーマット特徴があると判定した場合に、前記取り出しユニットを介して取り出されていない前記フォーマット特徴を取り出し、取り出されていない前記フォーマット特徴を前記取り出し特徴と定義することで、改めて前記取り出し特徴に基づいて前記取り出しデータが対応する前記特定フォーマットを有するか否かを判定し、それらのフォーマット特徴において取り出されていない前記フォーマット特徴がないと判定した場合に、前記取り出しユニットを介して複数のデータの次のデータを取り出し、前記次のデータを前記取り出しデータと定義することで、改めて前記取り出しデータが対応する前記特定フォーマットを有するか否かを判定する工程と、を実行する識別ユニットと、
    を備えることを特徴とする秘密データを識別する電子装置。
  10. 前記識別ユニットは、前記取り出しデータが対応する前記特定フォーマットを有しないと判定した場合に、複数のフォーマット特徴において取り出されていない前記フォーマット特徴があるか否かを判定することを特徴とする請求項9に記載の秘密データを識別する電子装置。
  11. 前記識別ユニットに電気的に接続される分類ユニットであって、前記識別ユニットがそれらのフォーマット特徴において取り出されていない前記フォーマット特徴がないと判定した場合に、それらの秘密ファクターとそれらの秘密ファクターがそれらのデータに出現する回数とに基づいて前記取り出しデータに対して分類を行う分類ユニットをさらに備えることを特徴とする請求項9に記載の秘密データを識別する電子装置。
  12. 前記取り出し特徴が同一列に2つの列終了位置を有し、かつ前記識別ユニットが前記特定フォーマットにおいて同一列に2つの列終了位置を有する数がフォーマット閾値以上であると判定した場合に、前記識別ユニットは前記取り出しデータが前記特定フォーマットを有すると判定することを特徴とする請求項9に記載の秘密データを識別する電子装置。
  13. 前記フォーマット特徴が特定鍵からのメッセージを含み、かつ前記識別ユニットが前記特定フォーマットにおいて前記メッセージを有する数がフォーマット閾値以上であると判定した場合に、前記識別ユニットは前記取り出しデータが前記特定フォーマットを有すると判定することを特徴とする請求項9に記載の秘密データを識別する電子装置。
  14. 前記フォーマット特徴がカスタマイズ特徴を含み、かつ前記識別ユニットが前記特定フォーマットにおいて前記カスタマイズ特徴を有する数がフォーマット閾値よりも大きいと判定した場合に、前記識別ユニットは前記取り出しデータが前記特定フォーマットを有すると判定することを特徴とする請求項9に記載の秘密データを識別する電子装置。
  15. 各前記識別グループのそれらの秘密ファクターは、少なくとも1つのワード、少なくとも1つのストリング、少なくとも1つの符号、少なくとも1つの数字、少なくとも1つの実行指令、及び少なくとも1つのフォーマットのいずれか1つまたはそれらの組み合わせであることを特徴とする請求項9に記載の秘密データを識別する電子装置。
  16. 各前記フォーマット特徴は、少なくとも1つのワード、少なくとも1つのストリング、少なくとも1つの符号、少なくとも1つの数字、少なくとも1つの実行指令、及び少なくとも1つのフォーマットのいずれか1つまたはそれらの組み合わせであることを特徴とする請求項9に記載の秘密データを識別する電子装置。
  17. ユーザコンピュータと遠隔サーバとの間に設けられ、前記ユーザコンピュータと前記遠隔サーバとの間に伝送される各前記データにおける前記特定フォーマットが秘密データであるか否かを識別することを特徴とする請求項9に記載の秘密データを識別する電子装置。
  18. ユーザコンピュータに接続され、ネットワーク接続を介して前記ユーザコンピュータのそれらのデータを取り出し、各前記データにおける前記特定フォーマットが秘密データであるか否かを識別することを特徴とする請求項9に記載の秘密データを識別する電子装置。
  19. ユーザコンピュータの内部に設けられ、前記ユーザコンピュータからそれらのデータが出力された場合に、それらのデータを取り出し、各前記データにおける前記特定フォーマットが秘密データであるか否かを識別することを特徴とする請求項9に記載の秘密データを識別する電子装置。
  20. コンピュータによって実行可能なプログラムが記録され、プロセッサーによって読み取られた場合に、前記プロセッサーは、前記コンピュータによって実行可能なプログラムを実行することで、請求項1に記載の秘密データを識別する方法を実施可能であることを特徴とするコンピュータ読み取り可能な記録媒体。
JP2015020104A 2014-10-01 2015-02-04 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP5952441B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW103134231A TWI528219B (zh) 2014-10-01 2014-10-01 辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體
TW103134231 2014-10-01

Publications (2)

Publication Number Publication Date
JP2016071839A true JP2016071839A (ja) 2016-05-09
JP5952441B2 JP5952441B2 (ja) 2016-07-13

Family

ID=55633008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015020104A Expired - Fee Related JP5952441B2 (ja) 2014-10-01 2015-02-04 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体

Country Status (4)

Country Link
US (1) US20160098567A1 (ja)
JP (1) JP5952441B2 (ja)
CN (1) CN105630762A (ja)
TW (1) TWI528219B (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9678822B2 (en) * 2015-01-02 2017-06-13 Tata Consultancy Services Limited Real-time categorization of log events
US10419401B2 (en) 2016-01-08 2019-09-17 Capital One Services, Llc Methods and systems for securing data in the public cloud
CN110740111B (zh) * 2018-07-19 2022-01-25 中国移动通信集团有限公司 一种数据防漏方法、装置及计算机可读存储介质
CN110768978B (zh) * 2019-10-22 2022-02-11 苏州科达科技股份有限公司 一种通信加密的验证方法、装置,计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP2011018267A (ja) * 2009-07-10 2011-01-27 Ricoh Co Ltd セキュリティ管理システム、サーバ装置、セキュリティ管理方法、プログラムおよび記録媒体
JP2011221894A (ja) * 2010-04-13 2011-11-04 Hitachi Ltd セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7483947B2 (en) * 2003-05-02 2009-01-27 Microsoft Corporation Message rendering for identification of content features
GB2404296A (en) * 2003-07-23 2005-01-26 Sony Uk Ltd Data content identification using watermarks as distinct codes
US7613996B2 (en) * 2005-08-15 2009-11-03 Microsoft Corporation Enabling selection of an inferred schema part
US9569528B2 (en) * 2008-10-03 2017-02-14 Ab Initio Technology Llc Detection of confidential information
CN101763348B (zh) * 2008-12-26 2011-12-07 英业达股份有限公司 动态表格式数据撷取系统与方法
TWI484357B (zh) * 2011-12-02 2015-05-11 Inst Information Industry 量化式資料分析方法以及量化式資料分析裝置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006209649A (ja) * 2005-01-31 2006-08-10 Nec Corp 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP2011018267A (ja) * 2009-07-10 2011-01-27 Ricoh Co Ltd セキュリティ管理システム、サーバ装置、セキュリティ管理方法、プログラムおよび記録媒体
JP2011221894A (ja) * 2010-04-13 2011-11-04 Hitachi Ltd セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置

Also Published As

Publication number Publication date
CN105630762A (zh) 2016-06-01
TWI528219B (zh) 2016-04-01
TW201614538A (en) 2016-04-16
US20160098567A1 (en) 2016-04-07
JP5952441B2 (ja) 2016-07-13

Similar Documents

Publication Publication Date Title
TWI718643B (zh) 異常群體識別方法及裝置
US9892278B2 (en) Focused personal identifying information redaction
WO2019153551A1 (zh) 文章分类方法、装置、计算机设备及存储介质
WO2019218514A1 (zh) 网页目标信息的提取方法、装置及存储介质
US11176453B2 (en) System and method for detangling of interleaved conversations in communication platforms
US20150154193A1 (en) System and method for extracting facts from unstructured text
WO2019061989A1 (zh) 贷款风险控制方法、电子装置及可读存储介质
EP3002686A1 (en) Language identification
WO2019071965A1 (zh) 数据处理的方法、数据处理装置及计算机可读存储介质
WO2019062021A1 (zh) 在应用程序中推送贷款广告的方法、电子装置及介质
US9971809B1 (en) Systems and methods for searching unstructured documents for structured data
US11494559B2 (en) Hybrid in-domain and out-of-domain document processing for non-vocabulary tokens of electronic documents
JP5952441B2 (ja) 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体
WO2019041524A1 (zh) 聚类标签生成方法、电子设备及计算机可读存储介质
US20210157900A1 (en) Securing passwords by using dummy characters
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN109947903B (zh) 一种成语查询方法及装置
JPWO2012096388A1 (ja) 意外性判定システム、意外性判定方法およびプログラム
CN109918678B (zh) 一种字段含义识别方法和装置
WO2019041528A1 (zh) 新闻情感方向判断方法、电子设备及计算机可读存储介质
Zhang et al. Annotating needles in the haystack without looking: Product information extraction from emails
CN112132238A (zh) 一种识别隐私数据的方法、装置、设备和可读介质
JP2015075993A (ja) 情報処理装置及び情報処理プログラム
Trieu et al. Document sensitivity classification for data leakage prevention with twitter-based document embedding and query expansion
CN111383072A (zh) 一种用户信用评分方法、存储介质及服务器

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160516

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160609

R150 Certificate of patent or registration of utility model

Ref document number: 5952441

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees