CN105630762A - 辨识机密数据的方法及电子装置 - Google Patents

辨识机密数据的方法及电子装置 Download PDF

Info

Publication number
CN105630762A
CN105630762A CN201410589483.3A CN201410589483A CN105630762A CN 105630762 A CN105630762 A CN 105630762A CN 201410589483 A CN201410589483 A CN 201410589483A CN 105630762 A CN105630762 A CN 105630762A
Authority
CN
China
Prior art keywords
data
format
acquisition
electronic installation
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410589483.3A
Other languages
English (en)
Inventor
叶信延
刘建宗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute for Information Industry
Original Assignee
Institute for Information Industry
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute for Information Industry filed Critical Institute for Information Industry
Publication of CN105630762A publication Critical patent/CN105630762A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0245Filtering by information in the payload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供一种辨识机密数据的方法及电子装置。电子装置利用代表特殊格式的格式特征来判断数据中是否有特殊格式。接着,电子装置再利用代表特殊格式为机密数据的多个机密因子进一步判断数据中的特殊格式是否为机密数据。据此,本发明实施方式所提供的辨识机密数据的方法及电子装置可以提供笔数不多但却包含大量机密描述的数据正确的机密等级,且可辨识出具有特殊格式的机密数据,进而避免数据外泄。

Description

辨识机密数据的方法及电子装置
技术领域
本发明提供一种辨识机密数据的方法及电子装置,特别是关于一种辨识档案中的特殊格式是否为机密数据的方法及电子装置。
背景技术
辨识机密数据的技术是使用于数据保护的相关议题。通过辨识机密数据的机制,将可进一步辨识潜在高机密程度的机密数据。
现有的机密数据辨识技术仅针对个人数据或机密字符串进行分析辨识,且机密等级大多和找到的类型和笔数成正比。对于笔数不多,却包含大量机密描述的数据(如履历、病历等)无法提供正确的机密等级。此外,现有的机密数据辨识技术为对大量已知数据的整个内容进行学习以取得已知数据的特征后,再将上述特征与待辨识数据进行特征比对来判断待辨识数据是否为机密数据。故现有的机密数据辨识技术只能找出和已知数据相同或相似的机密数据,并无法找出和已知数据使用同样模板或格式的机密数据。
因此,若能提供笔数不多但却包含大量机密描述的数据正确的机密程度,且可辨识出具有特殊模板或格式的机密数据,将可避免数据外泄。
发明内容
本发明实施方式提供一种辨识机密数据的方法,适用于一电子装置。电子装置存储有多个辨识群组。每一辨识群组对应到一特殊格式。以及每一辨识群组具有代表特殊格式的一格式特征与具有代表特殊格式为机密数据的多个机密因子。上述辨识机密数据的方法的步骤如下。撷取多个数据中的一个,并将其定义为一撷取数据。撷取多个格式特征中的一个,并将其定义为一撷取特征。在电子装置根据撷取特征判断撷取数据是否具有对应的特殊格式。若电子装置判断撷取数据具有对应的特殊格式,电子装置判断特殊格式所对应的多个机密因子在撷取数据中的出现频率是否大于等于一机密阈值。其中,若电子装置判断出现频率大于等于一机密阈值,代表撷取数据中的特殊格式为机密数据;若电子装置判断出现频率小于机密阈值,代表撷取数据中的特殊格式不为机密数据。在电子装置判断多个格式特征中是否有未撷取的格式特征。若电子装置判断多个格式特征中有未撷取的格式特征,则撷取尚未撷取的格式特征,并改以定义未撷取的格式特征为撷取特征,以重新根据撷取特征判断撷取数据是否具有对应的特殊格式。而若电子装置判断多个格式特征中没有尚未撷取的格式特征,则撷取多个数据的下一数据,并改以定义下一数据为撷取数据,以重新判断撷取数据是否具有对应的特殊格式。
本发明实施方式提供一种辨识机密数据的电子装置。电子装置包含一存储单元、一撷取单元与一辨识单元。存储单元用以存储多个辨识群组。每一辨识群组对应到一特殊格式。以及每一辨识群组具有代表特殊格式的一格式特征与具有代表特殊格式为机密数据的多个机密因子。撷取单元电连接存储单元,以撷取多个数据与多个辨识群组。而辨识单元为电连接撷取单元,并用以执行下列步骤。通过撷取单元撷取多个数据中的一个,并将其定义为一撷取数据。通过撷取单元撷取多个格式特征中的一个,并将其定义为一撷取特征。根据撷取特征判断撷取数据是否具有对应的特殊格式。若辨识单元判断撷取数据具有对应的特殊格式,辨识单元判断特殊格式所对应的多个机密因子在撷取数据中的一出现频率是否大于等于一机密阈值。其中,若辨识单元判断出现频率大于等于一机密阈值,代表撷取数据中的特殊格式为机密数据。若辨识单元判断出现频率小于机密阈值,代表撷取数据中的特殊格式不为机密数据。接着判断多个格式特征中是否有尚未撷取的格式特征。若辨识单元判断多个格式特征中有尚未撷取的格式特征,则通过该撷取单元撷取未撷取的格式特征,并改以定义未撷取的格式特征为撷取特征,以重新根据撷取特征判断撷取数据是否具有对应的特殊格式。而若辨识单元判断多个格式特征中没有尚未撷取的格式特征,则通过该撷取单元撷取多个数据的下一数据,并改以定义下一数据为撷取数据,以重新判断撷取数据是否具有对应的特殊格式。
此外,本发明实施方式还提供一种计算机可读记录介质记录一组计算机可执行程序,当计算机可读记录介质被处理器读取时,处理器可执行上述辨识机密数据的方法中的步骤。
综合以上所述,本发明实施方式所提供的辨识机密数据的方法、电子装置及计算机可读记录介质可以判断具有特殊格式的数据,其特殊格式是否为机密数据。据此,本发明实施方式所提供的辨识机密数据的方法、电子装置及计算机可读记录介质可以提供笔数不多但却包含大量机密描述的数据正确的机密等级,且可辨识出具有特殊格式的机密数据,进而避免数据外泄。
为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,但是此等说明与所附附图仅系用来说明本发明,而非对本发明的权利范围作任何的限制。
附图说明
图1是本发明一实施方式的辨识机密数据的电子装置的示意图。
图2A至图2B是本发明一实施方式的辨识机密数据的方法的流程图。
图3A至图3B是本发明一实施方式的电子装置判断撷取数据具有表格的示意图。
图4A至图4B是本发明另一实施方式的电子装置判断撷取数据具有列表的示意图。
图5A至图5B是本发明另一实施方式的电子装置判断撷取数据具有样式的示意图。
图6是本发明另一实施方式的电子装置判断接收到的数据中的特殊格式,其内容是否为机密数据的示意图。
具体实施方式
在下文中,将通过附图说明本发明的各种例示实施方式来详细描述本发明。然而,本发明概念可能以许多不同形式来体现,且不应解释为限于本文中所阐述的例示性实施方式。此外,在附图中相同参考数字可用以表示类似的组件。
本发明实施方式提供一种辨识机密数据的电子装置,其利用代表特殊格式的格式特征来判断数据中是否有特殊格式,接着电子装置再利用代表特殊格式为机密数据的多个机密因子进一步判断数据中的特殊格式是否为机密数据。另外,本发明实施方式还提供对应执行于电子装置中的一种辨识机密数据的方法,其中辨识机密数据的方法可以使用韧体、软件或硬件电路的方式实现于电子装置中。
首先,请参考图1,图1是本发明一实施方式的辨识机密数据的电子装置的示意图。如图1所示,辨识机密数据的电子装置100是用来辨识电子装置100所接收到的数据,其数据中的特殊格式的内容是否为机密数据,以避免数据外泄。在本实施方式中,电子装置100可为智能型手机、桌面计算机、笔记本电脑、或是其他可接收数据的电子装置。
而电子装置100可设置在用户计算机与远程服务器之间(未绘于附图中),以辨识用户计算机与远程服务器之间所传输的数据中的特殊格式是否为机密数据。又或者电子装置100可电连接在用户计算机上(未绘于附图中),使得电子装置100可以通过网络联机来撷取用户计算机中的数据,并辨识所撷取的数据中的特殊格式是否为机密数据。又或者电子装置100可设置在用户计算机内部(未绘于附图中),故用户计算机输出数据时,电子装置100可以辨识所输出的数据中的特殊格式是否为机密数据。本发明对电子装置的设置位置不作限制。据此,电子装置100可防止机密数据遭到有心人士取得,避免数据外泄。
电子装置100包含辨识单元110、撷取单元120与存储单元130。存储单元130存储有多个辨识群组132。每一辨识群组132会对应到一特殊格式,且每一辨识群组132具有代表对应的特殊格式的一格式特征FF。意即每个辨识群组132具有格式特征FF,以进一步提供辨识单元110辨识数据中的内容是否具有对应的特殊格式。举例来说,若特殊格式为表格(FORM),则表格的格式特征FF可为在多行中具有二个行结束处(End-of-Line)的特征。再举例来说,若特殊格式为列表(LIST),则列表的格式特征FF可为具有多个「TAB」键所发出的消息的特征。再举例来说,若特殊格式为使用者自行定义的样板(TEMPLATE),则样板的格式特征FF可为用户自行定义的特征。在本实施方式中,每个格式特征FF包含至少一字符、至少一字符串、至少一符号、至少一数字、至少一执行指令与至少一格式中的一个或其组合,本发明对此不作限制。
此外,每个辨识群组132皆具有代表对应的特殊格式为机密数据的多个机密因子CP。意即每个辨识群组132具有多个机密因子CP,以进一步提供辨识单元110辨识数据中的特殊格式,其内容是否为机密数据。举例来说,若特殊格式为履历表格(如图3A所示),其机密因子CP可为「姓名」、「身分证字号」、「移动电话」、与「联络地址」等字词。再举例来说,若特殊格式为通讯簿列表(如图4A所示),其机密因子CP可为「出生年月日」、「身高」、「体重」、「住址」、与「电话」等字词。再举例来说,若特殊格式为使用者自行定义的样板(如图5A所示),其机密因子CP可为「计划目的」与「客户需求」等使用者自行定义的字词。在本实施方式中,每个辨识群组132所对应的多个机密因子CP包含至少一字符、至少一字符串、至少一符号、至少一数字、至少一执行指令与至少一格式中的一个或其组合,本发明对此不作限制。
而有关电子装置100存储多个辨识群组132至存储单元130的方式为现有的存储方式,所属技术领域具通常知识者应知电子装置100存储多个辨识群组132至存储单元130的方式,故在此不再赘述。在本实施方式中,存储单元130可为闪存芯片、只读存储器芯片或随机存取内存芯片等易失性或非易失性存储芯片,且存储单元130较佳为非易失性存储芯片。
此外,电子装置100还具有显示单元,用来显示一辨识接口(未绘于附图),以提供用户在辨识接口中设定欲辨识的特殊格式(如使用者自行定义的字词),进而可辨识接收到的数据,其特殊格式的内容是否为机密数据。当然,若欲辨识的特殊格式及其对应的辨识群组132已事先设定在存储单元130中,亦可不需要显示单元,本发明对此不作限制。
撷取单元120电连接存储单元130,并撷取多个数据与多个辨识群组132,以提供辨识单元110进一步辨识接收到的数据。辨识单元110电连接撷取单元120,且辨识单元110为电子装置100的主要运算中心,用以执行各项分析、运算及控制。在本实施方式中,辨识单元110可为中央处理器、微控制器或嵌入式控制器等处理芯片。而辨识单元110与撷取单元120亦可整合至中央处理器、微控制器或嵌入式控制器等处理芯片之中,本发明对此不作限制。
辨识单元110用以执行下列步骤,以辨识接收到的数据,其特殊格式的内容是否为机密数据。
请同时参考图1与图2A,首先,辨识单元110通过撷取单元120撷取多个数据中的一个,并将其定义为一撷取数据,以进一步辨识撷取数据中的特殊格式的内容是否为机密数据(步骤S210)。辨识单元110可通过撷取单元120由外部装置撷取上述多个数据,或撷取预先存储在存储单元130中的多笔数据,本发明对此不作限制。
接着,辨识单元110通过撷取单元120撷取存储在存储单元130中的多个格式特征FF中的一个,并将其定义为一撷取特征(步骤S220)。而此时的撷取特征为代表某个特殊格式(如表格或列表等特殊格式)。再来,辨识单元110将根据撷取特征来判断撷取数据是否具有对应的特殊格式(步骤S230)。意即,辨识单元110将判断撷取数据中是否存在有一定数量的撷取特征,以据此判断撷取数据中是否存在有目前撷取的格式特征FF的特殊格式。在本实施方式中,特殊格式可以为表格、列表、用户自定义的样板、或其他具有规则性特征的特殊格式,本发明对此不作限制。而特殊格式所对应的格式特征FF可选自只有出现在特殊格式中的特征选出,如特定键所发出的消息、连续空格等特征,本发明对此不作限制。
若辨识单元110判断撷取数据具有对应的特殊格式,代表撷取数据中有对应撷取特征的特殊格式。此时,辨识单元110将进一步判断撷取数据中的特殊格式,其内容是否为机密数据(步骤S240)。反之,若辨识单元110判断撷取数据不具有对应的特殊格式,代表撷取数据中没有对应撷取特征的特殊格式。此时,辨识单元110将进一步判断多个格式特征FF中是否有尚未撷取的格式特征FF(步骤S270)。
举例来说,若特殊格式为表格,其格式特征FF为同一行中具有至少二个行结束处,如图3A所示。因此,若撷取单元120撷取到代表表格的格式特征FF时,辨识单元110将判断表格的内容中,其同一行具有二个行结束处的数量是否大于等于一格式阈值。若判断为是,辨识单元110将认定撷取数据具有代表表格的特殊格式。反之,辨识单元110则认定撷取数据不具有代表表格的特殊格式。上述格式阈值为根据实际的表格来设定,本发明对此不作限制。而辨识单元110在辨识完撷取数据是否具有代表表格的特殊格式后,将通过撷取单元120撷取表格中的内容(如图3B所示),以进一步判断表格中的内容是否为机密数据。
再举例来说,若特殊格式为列表,其格式特征FF为多个「TAB」键所发出的消息,如图4A所示。因此,若撷取单元120撷取到代表列表的格式特征FF时,辨识单元110将判断列表的内容中具有上述消息的数量是否大于等于一格式阈值。若判断为是,辨识单元110将认定撷取数据具有代表列表的特殊格式。反之,则辨识单元110认定撷取数据不具有代表列表的特殊格式。上述格式阈值为根据实际的列表来设定,本发明对此不作限制。而辨识单元110在辨识完撷取数据是否具有代表列表的特殊格式后,将通过撷取单元120撷取列表中的内容(如图4B所示),以进一步判断列表中的内容是否为机密数据。
再举例来说,若特殊格式为使用者自定义的样板,其格式特征FF将为一自定义特征,即格式特征FF系通过用户自行定义而产生。如图5A所示,自定义特征为「计划目的」与「客户需求」等特征。因此,若撷取单元120撷取到代表自定义特征的格式特征FF时,辨识单元110将判断样板的内容中具有上述自定义特征的数量是否大于等于一格式阈值。若判断为是,辨识单元110将认定撷取数据具有代表样板的特殊格式。反之,辨识单元110则认定撷取数据不具有代表样板的特殊格式。上述格式阈值为根据实际的样板来设定,本发明对此不作限制。而辨识单元110在辨识完撷取数据是否具有代表样板的特殊格式后,将通过撷取单元120撷取样板中的内容(如图5B所示),以进一步判断样板中的内容是否为机密数据。
而在上述3个例子中,所属技术领域具通常知识者应知辨识单元110通过撷取单元120撷取特殊格式(如表格、列表、以及样板)中的内容的实施方式,故在此不再赘述。
请回到步骤S240,辨识单元110将判断此特殊格式所对应的多个机密因子CP在撷取数据中的出现频率是否大于等于机密阈值,以据此判断撷取数据中的特殊格式,其内容是否为机密数据。机密因子CP系代表对应的特殊格式为机密数据的概率。故在特殊格式中出现越多的机密因子CP,表示特殊格式为机密数据的概率越高。有关机密因子CP的设定已描述在前一实施方式中,故在此不再赘述。据此,若辨识单元110判断机密因子CP的出现频率大于等于一机密阈值,代表撷取数据中的特殊格式为机密数据(步骤S250)。反之,若辨识单元110判断机密因子CP的出现频率小于机密阈值,则代表撷取数据中的特殊格式不为机密数据(步骤S260)。上述机密阈值为根据实际的多个机密因子CP在撷取数据中的出现频率来设定,本发明对此不作限制。
举例来说,假设特殊格式为表格,如图3A-3B所示。其中,表格具有4种作为机密因子CP的字词,分别为「姓名」、「身分证」、「移动电话」与「联络地址」。而每种字词有可能出现同义字,如「姓名」的同义字为「名字」、「名称」、「人名」、「Name」。故在判断的过程中,辨识单元110会将同义字看成同一种字词。在本实施方式中,辨识单元110系通过一同义字函数STF(i)来计算每种字词出现在表格中的重要程度,以得到每种字词与表格之间的关联性。本实施方式的同义字函数STF(i)如下:
STF ( i ) = n ij Σ k N kj × ω i
其中,nij代表第i种字词在第j个表格中的出现次数;ωi代表第i种字词的权重;ΣkNkj代表第j个表格中的所有k个字词,且k≧0。
值得注意的是,辨识单元110会将同义字视为同一种字词。意即,若辨识单元110找出表格中具有5个字词,分别为「联络地址」、「姓名」、「名称」、「人名」与「身分证」。此时,辨识单元110将「联络地址」视为第1种字词,「姓名」、「名称」、「人名」视为第2种字词,而「身分证」则视为第3种字词。假设每种字词的权重被设定为:ω1为0.5,ω2为0.2,以及ω3为0.3。辨识单元110将通过同义字函数STF来计算每种字词出现在表格中的重要程度。以第1种字词来说,STF(1)=1/5*0.5=0.1;以第2种字词来说,STF(2)=3/5*0.2=0.12;以第3种字词来说,STF(3)=1/5*0.3=0.06。
接着,本实施方式的辨识单元110遂再通过一信息函数PIF计算表格中出现作为机密因子CP的字词的概率。本实施方式的信息函数PIF如下:
PIF = P n P t
其中,Pt代表目前作为机密因子CP的字词的数量;Pn代表在表格中有出现作为机密因子CP的字词的数量。以上述例子来说,表格具有4种作为机密因子CP的字词,其分别为「姓名」、「身分证」、「移动电话」与「联络地址」。而辨识单元110从表格中找到5个字词,分别为「联络地址」、「姓名」、「名称」、「人名」与「身分证」,并将找到的5个字词分类为3种字词。此时,辨识单元110将计算出PIF=3/4,表示在表格中出现作为机密因子CP的字词的概率为75%。
接着,辨识单元110通过一机密数据函数PIFV,以据此计算表格所对应的4个机密因子CP在撷取数据中的出现频率。本实施方式的机密数据函数PIFV如下:
PIFV=(ΣnSTF(i))×PIF
其中,ΣnSTF(i)代表每种字词出现在表格中的重要程度的总和;PIF代表表格中出现作为机密因子的字词的概率。承接上述例子,PIFV=(0.1+0.12+0.06)*0.75=0.21,表示表格所对应的4个机密因子CP在撷取数据中的出现频率为0.21。
最后,辨识单元110将判断出现频率是否大于等于机密阈值。而承接上述例子,本实施方式的机密阈值系设定为0.1。故辨识单元110将判断机密因子CP的出现频率(为0.21)大于机密阈值(为0.1),代表撷取数据中的表格,其内容为机密数据。据此,辨识单元110将可通过步骤S210-S260判断出所撷取的数据中,其特殊格式是否为机密数据。
据此,辨识单元110将可通过代表特殊格式的机密数据CP辨识出撷取数据中特殊格式的机密程度,以避免高机密程度的数据外泄。
接着,辨识单元110将判断多个格式特征FF中是否有尚未撷取的格式特征FF(步骤S270)。意即,辨识单元110将进一步判断撷取数据中是否还存在有其他特殊格式。若辨识单元110判断有未撷取的格式特征FF,则回到步骤S220,以通过撷取单元120撷取尚未撷取的格式特征FF。此时,辨识单元110将改以定义未撷取的格式特征FF为撷取特征,以重新根据重新定义的撷取特征判断撷取数据是否具有对应的特殊格式。承接上述例子,在判断完表格的格式特征FF后,若辨识单元110判断出代表列表的格式特征FF尚未被撷取时,辨识单元110将改以定义代表列表的格式特征FF(即格式特征FF为多个「TAB」键所发出的消息)为撷取特征,以重新根据撷取特征来判断撷取数据是否具有列表的格式。
反之,若辨识单元110判断没有未撷取的格式特征,代表撷取数据中已经没有需要判断的特殊格式。此时,辨识单元110将回到步骤S210,以撷取多笔数据中的下一笔数据。再来,辨识单元110将改以定义下一笔数据为撷取数据,以重新判断撷取数据是否具有对应的特殊格式。
此外,请同时参考图1、图2A与图2B,电子装置100可还包含一分类单元140。分类单元140电连接辨识单元110,以对目前的撷取数据作分类。还进一步来说,若辨识单元110判断没有未撷取的格式特征FF后,分类单元140还可以对目前的撷取数据进行分类,以进一步判断撷取数据中的特殊格式为哪一种类(步骤S275)。而辨识单元110将在分类单元140分类完成目前的撷取数据后回到步骤S210,以撷取多笔数据中的下一笔数据。举例来说,分类单元140将具有表格的撷取数据分类成履历表、薪资表、病历表或其他高机密程度的表格。又或者分类单元140将具有列表的撷取数据分类成通讯簿、分机表或其他高机密程度的列表。
在本实施方式中,由于所有数据具有相关性,故分类单元140将根据特殊格式的多个机密因子CP与上述机密因子CP出现在所有数据中的次数来对目前的撷取数据进行分类。例如,分类单元140以5个字词「履历」、「姓名」、「身分证」、「移动电话」与「联络地址」作为机密因子CP。分类单元140将根据上述5个字词与上述5个字词出现在所有数据中的次数来对目前的撷取数据进行分类。当然,若所有数据之间没有关联性,分类单元140亦可仅根据特殊格式的多个机密因子CP来对目前的撷取数据进行分类,本发明对此不作限制。
另外,本实施方式的分类单元140亦可利用分类算法,如TFIDF(termfrequency-inversedocumentfrequency)、支持向量机(supportvectormachines,SVM)、贝式分类法(bayesianclassification)、或倒传递类神经网络(backpropagationneural(BPN)network)等分类算法对目前的撷取数据进行分类,以更准确的分类撷取数据。而所属技术领域技术人员应知分类单元140利用分类算法对目前的撷取数据进行分类的实施与运用方式,故不再赘述。
据此,分类单元140可对具有特殊格式的撷取数据进行分类。故所有数据在辨识结束后,用户可以得知所有数据中的特殊格式为哪一种类,进而可对所有数据作控管。
以下将以用户通过用户计算机10传送一个数据DA至远程服务器20为例子作说明。如图6所示,电子装置100为设置在用户计算机10与远程服务器20之间,以判断用户计算机10所传送的数据DA中的特殊格式,其内容是否为机密数据。为了方便说明,本实施方式的数据DA具有图3A所示的表格,且此时所撷取的格式特征FF为代表表格的特殊格式。
请同时参考图1、图3A与图6,当用户通过用户计算机10传送数据DA至远程服务器20的过程中,电子装置100中的辨识单元110将通过撷取单元120撷取数据DA。此时,电子装置100将进一步判断数据DA中的特殊格式的内容是否为机密数据,且暂时不会将数据DA传送至远程服务器20,以避免机密数据外泄。
首先,电子装置100中的辨识单元110将根据目前所撷取的格式特征FF(即代表表格的特殊格式)判断出数据DA中存在有代表表格的特殊格式。有关辨识单元110判断数据DA中是否存在有代表表格的特殊格式的方法已在上述实施方式中作说明,故在此不再赘述。
接着,电子装置100中的辨识单元110将根据代表表格的特殊格式所对应的多个机密因子CP在数据DA中的出现频率,判断出数据DA中的表格,其内容为机密数据。有关辨识单元110判断数据DA中代表表格的特殊格式,其内容是否为机密数据的方法已在上述实施方式中作说明,故在此不再赘述。
再来,电子装置100中的辨识单元110将进一步判断是否还有尚未辨识的格式特征FF。在本实施方式中,此时辨识单元110已经没有未撷取的格式特征FF,意即辨识单元110已判断完数据DA中的特殊格式。接着,电子装置100中的分类单元140将根据多个机密因子CP对数据DA进行分类,并将数据DA分类为履历数据。有关分类单元140对数据DA分类为履历数据的方法已在上述实施方式中作说明,故在此不再赘述。
此时,电子装置100将判断出由用户计算机10所传送的数据DA中的表格为履历数据,且此履历数据属于机密数据。而在电子装置100判断出数据DA中的表格属于机密数据后,遂可根据实际的信息安全防护来进行后续处理。例如,电子装置100不允许数据DA传送至远程服务器20,并同时通知系统管理者用户计算机10正在传送机密数据至远程服务器20。据此,电子装置100可以辨识所输出的数据DA中的特殊格式是否为机密数据,以防止机密数据遭到有心人士取得,避免重要的数据DA外泄。
另外,本发明亦可利用一种计算机可读记录介质,存储前述辨识机密数据的方法的计算机程序以执行前述的步骤。此计算机可读介质可以是软盘、硬盘、光盘、随身碟、磁带、可由网络存取的数据库或熟知此项技术者可轻易思及具有相同功能的存储介质。
综合以上所述,本发明实施方式所提供的辨识机密数据的方法、电子装置及计算机可读记录介质可以判断具有特殊格式的数据是否为机密数据。据此,本发明实施方式所提供的辨识机密数据的方法、电子装置及计算机可读记录介质可以提供笔数不多但却包含大量机密描述的数据正确的机密等级,且可辨识出具有特殊格式的机密数据,进而避免数据外泄。
以上所述仅为本发明的实施方式,其并非用以局限本发明的专利范围。
【符号说明】
10:用户计算机
20:远程服务器
100:电子装置
110:辨识单元
120:撷取单元
130:存储单元
132:辨识群组
140:分类单元
FF:格式特征
CP:机密因子
DA:数据
S210、S220、S230、S240、S250、S260、S270、S275:步骤

Claims (19)

1.一种辨识机密数据的方法,适用于一电子装置,所述电子装置存储有多个辨识群组,每一所述辨识群组对应到一特殊格式,每一所述辨识群组具有代表所述特殊格式的一格式特征与具有代表所述特殊格式为所述机密数据的多个机密因子,其特征在于,所述辨识机密数据的方法包含:
撷取多个数据中的一个,并将其定义为一撷取数据;
撷取所述格式特征中的一个,并将其定义为一撷取特征;
在所述电子装置根据所述撷取特征判断所述撷取数据是否具有对应的所述特殊格式,若所述电子装置判断所述撷取数据具有对应的所述特殊格式,判断所述特殊格式所对应的所述机密因子在所述撷取数据中的一出现频率是否大于等于一机密阈值,其中若所述电子装置判断所述出现频率大于等于一机密阈值,代表所述撷取数据中的所述特殊格式为所述机密数据,且若所述电子装置判断所述出现频率小于所述机密阈值,代表所述撷取数据中的所述特殊格式不为所述机密数据;及
在所述电子装置判断所述格式特征中是否有未撷取的所述格式特征,若所述电子装置判断所述格式特征中有未撷取的所述格式特征,撷取未撷取的所述格式特征,并改以定义未撷取的所述格式特征为所述撷取特征,以重新根据所述撷取特征判断所述撷取数据是否具有对应的所述特殊格式,且若所述电子装置判断所述格式特征中没有未撷取的所述格式特征,撷取所述数据的下一数据,并改以定义所述下一数据为所述撷取数据,以重新判断所述撷取数据是否具有对应的所述特殊格式。
2.根据权利要求1所述的辨识机密数据的方法,其中,若所述电子装置判断所述撷取数据不具有对应的所述特殊格式,判断所述格式特征中是否有未撷取的所述格式特征。
3.根据权利要求1所述的辨识机密数据的方法,其中,在所述电子装置判断所述格式特征中没有未撷取的所述格式特征后,还包含步骤:所述电子装置根据所述机密因子与所述机密因子出现在所述数据中的次数对所述撷取数据进行分类。
4.根据权利要求1所述的辨识机密数据的方法,其中,在根据所述撷取特征判断所述撷取数据是否具有对应的所述特殊格式的步骤中,所述撷取特征包含同一行具有二个行结束处,且若所述电子装置判断所述特殊格式中同一行具有二个行结束处的数量大于等于一格式阈值,所述电子装置判断所述撷取数据具有所述特殊格式。
5.根据权利要求1所述的辨识机密数据的方法,其中,在根据所述撷取特征判断所述撷取数据是否具有对应的所述特殊格式的步骤中,所述格式特征包含一特定键所发出的一消息,且若所述特殊格式中具有所述消息的数量大于等于一格式阈值,判断所述撷取数据具有所述特殊格式。
6.根据权利要求1所述的辨识机密数据的方法,其中,在根据所述撷取特征判断所述撷取数据是否具有对应的所述特殊格式的步骤中,所述格式特征包含一自定义特征,且若所述特殊格式中具有所述自定义特征的数量大于一格式阈值,判断所述撷取数据具有所述特殊格式。
7.根据权利要求1所述的辨识机密数据的方法,其中,每一所述辨识群组的所述机密因子包含至少一字符、至少一字符串、至少一符号、至少一数字、至少一执行指令与至少一格式中的一个或其组合。
8.根据权利要求1所述的辨识机密数据的方法,其中,每一所述格式特征包含至少一字符、至少一字符串、至少一符号、至少一数字、至少一执行指令与至少一格式中的一个或其组合。
9.一种辨识机密数据的电子装置,其特征在于,包含:
一存储单元,用以存储多个辨识群组,每一所述辨识群组对应到一特殊格式,且每一所述辨识群组具有代表所述特殊格式的一格式特征与具有代表所述特殊格式为所述机密数据的多个机密因子;
一撷取单元,电连接所述存储单元,以撷取所述数据与所述辨识群组;以及
一辨识单元,电连接所述撷取单元,且用以执行下列步骤:
通过所述撷取单元撷取所述数据中的一个,并将其定义为一撷取数据;
通过所述撷取单元撷取所述格式特征中的一个,并将其定义为一撷取特征;
根据所述撷取特征判断所述撷取数据是否具有对应的所述特殊格式,若所述辨识单元判断所述撷取数据具有对应的所述特殊格式,所述辨识单元判断所述特殊格式所对应的所述机密因子在所述撷取数据中的一出现频率是否大于等于一机密阈值,其中若所述辨识单元判断所述出现频率大于等于一机密阈值,代表所述撷取数据中的所述特殊格式为所述机密数据,且若所述辨识单元判断所述出现频率小于所述机密阈值,代表所述撷取数据中的所述特殊格式不为所述机密数据;及
判断所述格式特征中是否有未撷取的所述格式特征,若所述辨识单元判断所述格式特征中有未撷取的所述格式特征,通过所述撷取单元撷取未撷取的所述格式特征,并改以定义未撷取的所述格式特征为所述撷取特征,以重新根据所述撷取特征判断所述撷取数据是否具有对应的所述特殊格式,且若所述辨识单元判断所述格式特征中没有未撷取的所述格式特征,通过所述撷取单元撷取所述数据的下一数据,并改以定义所述下一数据为所述撷取数据,以重新判断所述撷取数据是否具有对应的所述特殊格式。
10.根据权利要求9所述的电子装置,其中,若所述辨识单元判断所述撷取数据不具有对应的所述特殊格式,所述辨识单元判断所述格式特征中是否有未撷取的所述格式特征。
11.根据权利要求9所述的电子装置,其还包含一分类单元,所述分类单元电连接所述辨识单元,且若所述辨识单元判断所述格式特征中没有未撷取的所述格式特征,所述分类单元根据所述机密因子与所述机密因子出现在所述数据中的次数对所述撷取数据进行分类。
12.根据权利要求9所述的电子装置,其中,所述撷取特征包含同一行具有二个行结束处,且若所述辨识单元判断所述特殊格式中同一行具有二个行结束处的数量大于等于一格式阈值,所述辨识单元判断所述撷取数据具有所述特殊格式。
13.根据权利要求9所述的电子装置,其中,所述格式特征包含一特定键所发出的一消息,且若所述辨识单元判断所述特殊格式中具有所述消息的数量大于等于一格式阈值,所述辨识单元判断所述撷取数据具有所述特殊格式。
14.根据权利要求9所述的电子装置,其中,所述格式特征包含一自定义特征,且若所述辨识单元判断所述特殊格式中具有所述自定义特征的数量大于一格式阈值,所述辨识单元判断所述撷取数据具有所述特殊格式。
15.根据权利要求9所述的电子装置,其中,每一所述辨识群组的所述机密因子包含至少一字符、至少一字符串、至少一符号、至少一数字、至少一执行指令与至少一格式中的一个或其组合。
16.根据权利要求9所述的电子装置,其中,每一所述格式特征包含至少一字符、至少一字符串、至少一符号、至少一数字、至少一执行指令与至少一格式中的一个或其组合。
17.根据权利要求9所述的电子装置,其中,所述电子装置系设置在一用户计算机与一远程服务器之间,以辨识所述用户计算机与所述远程服务器之间所传输的每一所述数据中的所述特殊格式是否为机密数据。
18.根据权利要求9所述的电子装置,其中,所述电子装置电连接一用户计算机,且所述电子装置通过一网络联机撷取所述用户计算机的所述数据,以辨识每一所述数据中的所述特殊格式是否为机密数据。
19.根据权利要求9所述的电子装置,其中,所述电子装置设置在一用户计算机内部,且当所述用户计算机输出所述数据时,所述电子装置撷取所述数据,以辨识每一所述数据中的所述特殊格式是否为机密数据。
CN201410589483.3A 2014-10-01 2014-10-28 辨识机密数据的方法及电子装置 Pending CN105630762A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW103134231 2014-10-01
TW103134231A TWI528219B (zh) 2014-10-01 2014-10-01 辨識機敏資料之方法、電子裝置及電腦可讀取記錄媒體

Publications (1)

Publication Number Publication Date
CN105630762A true CN105630762A (zh) 2016-06-01

Family

ID=55633008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410589483.3A Pending CN105630762A (zh) 2014-10-01 2014-10-28 辨识机密数据的方法及电子装置

Country Status (4)

Country Link
US (1) US20160098567A1 (zh)
JP (1) JP5952441B2 (zh)
CN (1) CN105630762A (zh)
TW (1) TWI528219B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9678822B2 (en) * 2015-01-02 2017-06-13 Tata Consultancy Services Limited Real-time categorization of log events
US10419401B2 (en) 2016-01-08 2019-09-17 Capital One Services, Llc Methods and systems for securing data in the public cloud
CN110740111B (zh) * 2018-07-19 2022-01-25 中国移动通信集团有限公司 一种数据防漏方法、装置及计算机可读存储介质
CN110768978B (zh) * 2019-10-22 2022-02-11 苏州科达科技股份有限公司 一种通信加密的验证方法、装置,计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040221062A1 (en) * 2003-05-02 2004-11-04 Starbuck Bryan T. Message rendering for identification of content features
US20050021568A1 (en) * 2003-07-23 2005-01-27 Pelly Jason Charles Data content identification
US20070038927A1 (en) * 2005-08-15 2007-02-15 Microsoft Corporation Electronic document conversion
US20100088305A1 (en) * 2008-10-03 2010-04-08 David Fournier Detection of Confidential Information
CN101763348A (zh) * 2008-12-26 2010-06-30 英业达股份有限公司 动态表格式数据撷取系统与方法
TW201324203A (zh) * 2011-12-02 2013-06-16 Inst Information Industry 量化式資料分析方法以及量化式資料分析裝置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4747591B2 (ja) * 2005-01-31 2011-08-17 日本電気株式会社 機密文書検索システム、機密文書検索方法、および機密文書検索プログラム
JP2011018267A (ja) * 2009-07-10 2011-01-27 Ricoh Co Ltd セキュリティ管理システム、サーバ装置、セキュリティ管理方法、プログラムおよび記録媒体
JP5629908B2 (ja) * 2010-04-13 2014-11-26 株式会社日立製作所 セキュア文書検出方法、セキュア文書検出プログラム、及び光学式文字読取装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040221062A1 (en) * 2003-05-02 2004-11-04 Starbuck Bryan T. Message rendering for identification of content features
US20050021568A1 (en) * 2003-07-23 2005-01-27 Pelly Jason Charles Data content identification
US20070038927A1 (en) * 2005-08-15 2007-02-15 Microsoft Corporation Electronic document conversion
US20100088305A1 (en) * 2008-10-03 2010-04-08 David Fournier Detection of Confidential Information
CN102171702A (zh) * 2008-10-03 2011-08-31 起元技术有限责任公司 机密信息的检测
CN101763348A (zh) * 2008-12-26 2010-06-30 英业达股份有限公司 动态表格式数据撷取系统与方法
TW201324203A (zh) * 2011-12-02 2013-06-16 Inst Information Industry 量化式資料分析方法以及量化式資料分析裝置

Also Published As

Publication number Publication date
JP5952441B2 (ja) 2016-07-13
TWI528219B (zh) 2016-04-01
JP2016071839A (ja) 2016-05-09
TW201614538A (en) 2016-04-16
US20160098567A1 (en) 2016-04-07

Similar Documents

Publication Publication Date Title
CN109510737B (zh) 协议接口测试方法、装置、计算机设备和存储介质
CN109634698B (zh) 菜单显示方法、装置、计算机设备及存储介质
US20180260667A1 (en) Systems and methods for inferential sharing of photos
CN110334241A (zh) 客服录音的质检方法、装置、设备及计算机可读存储介质
CN106201288A (zh) 一种指纹信息的存储方法、装置及移动终端
CN109194689B (zh) 异常行为识别方法、装置、服务器及存储介质
CN105630762A (zh) 辨识机密数据的方法及电子装置
CN107480483A (zh) 一种账号检测的方法及装置
CN103473492A (zh) 权限识别方法和用户终端
CN104731468A (zh) 一种应用图标整理方法及装置
CN113961764A (zh) 诈骗电话的识别方法、装置、设备及存储介质
CN108536739A (zh) 元数据敏感信息字段识别方法、装置、设备及存储介质
CN105792152A (zh) 伪基站短信识别方法和装置
CN110347789A (zh) 文本意图智能分类方法、装置及计算机可读存储介质
CN113506045A (zh) 基于移动设备的风险用户识别方法、装置、设备及介质
CN105825172A (zh) 一种基于移动终端的多指纹匹配方法及系统
CN110427622A (zh) 语料标注的评估方法、装置及存储介质
CN110750710A (zh) 风控协议预警方法、装置、计算机设备和存储介质
CN106358220B (zh) 异常联系人信息的检测方法、装置及系统
CN111221690B (zh) 针对集成电路设计的模型确定方法、装置及终端
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
CN116485512A (zh) 基于强化学习的银行数据分析方法及系统
CN113221888B (zh) 车牌号管理系统测试方法、装置、电子设备及存储介质
CN114817518A (zh) 基于大数据档案识别的证照办理方法、系统及介质
CN114706899A (zh) 快递数据的敏感度计算方法、装置、存储介质及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160601