CN109213850A - 确定包含机密数据的文本的系统和方法 - Google Patents
确定包含机密数据的文本的系统和方法 Download PDFInfo
- Publication number
- CN109213850A CN109213850A CN201710860000.2A CN201710860000A CN109213850A CN 109213850 A CN109213850 A CN 109213850A CN 201710860000 A CN201710860000 A CN 201710860000A CN 109213850 A CN109213850 A CN 109213850A
- Authority
- CN
- China
- Prior art keywords
- keyword
- text data
- density
- data
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6209—Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
- H04L63/0245—Filtering by information in the payload
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种确定包含机密数据的文本的系统和方法。本发明涉及防止计算机系统中的机密数据的数据丢失的系统和方法。所述技术包括:在文本数据中搜索一个或多个关键字,然后基于与文本数据匹配的一个或多个关键字,计算文本数据中的关键字的密度。该技术基于关键字的密度是否超过阈值,将文本数据分类为包含机密数据。如果关键字的密度超过阈值,所述系统可以以各种方式阻止包含机密数据的文本数据的使用。
Description
技术领域
本发明总体涉及数据安全领域,更具体地,涉及通过确定包含机密数据的文本来防止信息泄露的系统和方法。
背景技术
由于近来越来越多的网络犯罪和越来越多的信息窃取,越来越需要防止信息泄露(有时也称为数据丢失防护或者数据泄露防护(DLP))的系统。DLP系统的主要问题之一是防止个人数据(文本)和机密数据(文本)的泄露,诸如护照数据、驾驶执照数据、银行卡数据等的泄露。
为了检测个人数据和机密数据,通常采用这样的方法,其包括检测彼此并列的多个关键字。例如,对于护照,关键字是字“series”和护照系列号、字“number”和护照号码数字、字组合“date of issue”和护照的实际签发日期。然而,实际上,某些关键字可能不存在、其它关键字之间的距离可能很大或者不可预测以及关键字本身可能涉及不同类型的机密数据。例如,在字“series”之后,可能会出现特定产品的条形码,该条形码可能会被错认为是护照号码。在这种情况下,已知技术产生误报或虚假警报,即这样一种情况:文本被确定为包含机密数据,尽管事实上该本文并不包含机密数据。
因此,数据丢失防护技术需要更准确地确定包含机密数据的文本,并减少误报的次数。
发明内容
因此,本文公开了一种用于防止计算机系统中的机密信息泄露的系统和方法。与已知的对应物相比,本发明的技术效果包括通过减少虚假警报的数量来改进对文本中的机密信息的确定。
根据一个方面,提供了一种用于防止计算机系统中的数据丢失的方法。所述方法包括:在文本数据中搜索多个关键字,以确定与所述文本数据匹配的一个或多个关键字,基于与所述文本数据匹配的所述一个或多个关键字,计算所述文本数据中的关键字的密度,基于所述关键字的密度是否超过阈值,确定所述文本数据包含机密数据。所述方法还包括阻止使用包含机密数据的文本数据。
在另一方面,基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度还包括:确定匹配的所述关键字中的字符的数量、确定所述文本数据的字符的总数量,以及将所述文本数据中的所述关键字的密度计算为匹配的所述关键字中的所述字符的数量与所述文本数据的所述字符的总数量的比值。
在另一方面,所述文本数据的所述字符的总数量不包括空格字符和非字母数字字符中的至少一者。
在另一方面,基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度还包括:确定匹配的关键字的数量、确定所述文本数据的字的总数量,以及将所述文本数据中的所述关键字的密度计算为所述匹配的关键字的数量与所述文本数据的所述字的总数量的比值。
在另一方面,基于与每个匹配的关键字相关联的加权因子来计算所述文本数据中的所述关键字的密度。
在另一方面,匹配的第一关键字的所述加权因子的值取决于匹配的第二关键字在所述文本数据中的出现次数。
在另一方面,所述方法还包括:将所述文本数据划分成多个第一长度的子文本,并且针对每个子文本计算相应的关键字的密度。
根据另一示例性方面,提供了一种用于防止计算机系统中的数据丢失的系统。所述系统包括存储器设备,以及至少一个处理器。所述处理器配置成:在文本数据中搜索多个关键字,以确定与所述文本数据匹配的一个或多个关键字,基于与所述文本数据匹配的所述一个或多个关键字,计算所述文本数据中的关键字的密度,基于所述关键字的密度是否超过阈值,确定所述文本数据包含机密数据。所述处理器还配置成阻止使用包含机密数据的文本数据。
根据另一示例性方面,提供了一种计算机可读介质,所述计算机可读介质包括指令,所述指令包括用于执行本发明公开的任一方法的计算机可执行指令。
以上对本发明的示例性方面的简要概述用于提供对本发明的基本理解。该概述不是对所有预期方面的广泛综述,并且既不旨在标识所有方面的关键的要素或主要的要素,也不旨在勾画本发明的任何方面或所有方面的范围。该概述的唯一目的是以简化的形式呈现一个或多个方面,作为随后的对本发明的更详细的描述的前奏。为了实现前述内容,本发明的一个或多个方面包括在权利要求中所描述的且特别指出的特征。
附图说明
并入本说明书中并构成本说明书的一部分的附图示出了本发明的一个或多个示例性方面,以及连同详细的描述一起用来阐述这些示例性方面的原理和实现方式。
图1是示出根据本发明的某些方面的用于防止信息泄露的系统的框图;
图2是示出根据示例性的方面确定包含机密数据的文本的方法的流程图;
图3呈现了包含关键字但不是机密的文本的示例;
图4是根据示例性的方面,其上可以实施所公开的系统和方法的通用计算机系统的框图。
具体实施方式
本文中在用于防止受保护的计算机系统中的数据丢失的系统、方法和计算机程序产品的背景下描述示例性方面。本领域的普通技术人员将认识到,以下描述仅仅是说明性的,而不旨在以任何方式进行限制。其它方面将很容易将其自身暗示给了解本发明的优点的本领域的技术人员。现在将详细地参考如附图中所示的示例性方面的实现方式。贯穿附图和以下描述将尽可能地使用相同的附图标记来指代相同或类似的项目。
图1是示出根据本发明的某些方面的用于防止信息泄露的系统100的框图。系统100包括搜索模块101,该搜索模块101被配置用于搜索被分析的文本110中的关键字。在特定方面,被分析的文本110可以是源文本或者是源文本的一部分,被分析的文本110可以例如从用户或应用程序获取、从磁盘上的文件中读取、或者从网络流量拦截的电子邮件中获取、在图像中识别或者从文件格式结构提取。被分析的文本110可以包含任何给定的字符。关键字可以是任一给定的字符序列。在一个方面,关键字是包含至少一个字符的字符串。在另一方面,关键字是指定用于一个或多个字符的序列的搜索模式的正则表达式或掩码。在另一个方面,关键字是同样由其它关键字组成的正则表达式。例如,字A、字B、字C可以在关键字列表上。正则表达式“A?B”也可以是关键字,其中,字符“?”表示字A和字B之间的任一字符。
关键字包含在关键字列表104中,关键字列表104可以从另一系统获得、或者例如由专家或系统管理员预先确定。在一个方面,关键字列表104包含在数据库中。在某些方面,可以使用分类系统自动制定关键字列表104。例如,分类系统可以分析包含机密数据的已知文本的集合以及不包含机密数据的已知文本的集合。使用分类算法,系统选出了作为包含机密数据的文本的特征的关键字,以及作为不包含机密数据的文本的特征的关键字。
搜索模块101在被分析的文本中执行关键字的搜索。解析模块102被配置成计算被分析的文本中的关键字的密度。在一些方面,解析模块102可以基于所找到的关键字中的字符的数量与被分析的文本中的字符的数量的比值来计算关键字的密度。在其它方面,解析模块102可以基于所找到的关键字的数量与被分析的文本的字的总数量的比值来计算关键字的密度。
在一个方面,在上述表达中对被分析的文本的字符的数量的计算可以避免考虑某些字符(即可以不考虑某些字符),诸如空格字符、其它空白字符、非字母数字字符、控制字符、标点符号的字符、特殊字符、多个重复字符以及任何其它字符。关键字的密度可以例如由实数、整数或有理值表示。关键字的密度值可以在有限的集合中,例如,在0到1的范围内。
系统100还包括分析模块103,该分析模块103被配置成:如果关键字的密度大于阈值(诸如0.5的关键字密度的最大可能值),则将被分析的文本确定为包含机密数据的文本。在一些方面,阈值特别取决于如下项之一:被分析的文本的字符的数量;被分析的文本的字的数量。例如,对于短文本,其阈值小于长文本。
应当注意,将被分析的文本确定为包含机密数据的文本的结果可以考虑其它系统。例如,数据泄露防护系统可以禁止在网络周界之外发送被确定为包含机密数据的文本的文本数据。访问控制系统可以禁止指定用户访问被确定为包含机密数据的文本的文本。
在某些方面,每个关键字与计算关键字的密度时考虑的加权因子相关联:如果被分析的文本中包含的关键字的加权因子的值大于一个单位,则关键字的密度增加;否则减少。因此,在特定方面,可以将关键字的密度计算为每个关键字(被分析的文本中找到的)中的字符的数量与该关键字的加权因子的乘积的总和与被分析的文本中的字符的数量的比值。例如,可以使用以下等式(1)表示的关系来计算密度得分:
其中,“i”是找到的关键字的索引,“ni”是第i个关键字中的字符的数量,“wi”是第i个关键字的加权因子,以及“n总”等于被分析的整个文本中的字符的总数量。
在一些方面,具有等同的、相似的或者相关的含义的关键字可以被分配加权因子,使得这些加权因子对关键字的密度具有相同的贡献:关键字中的字符的数量与关键字的加权因子的乘积对于所有具有相同的贡献的关键字来说应该是一样的。例如,关键字列表104可以包含诸如字“RF”和“Russian Federation”,二者表示同一个事物,因此应该同样地影响关键字的密度的计算。因而,第一个关键字“RF”(i=1,n1=2)和第二个关键字“RussianFederation”(i=2,n2=19)应该对密度得分具有相同的贡献。假设使用上面的方程式(1),对于这两个关键字,(n1*w1)的值应该等于(n2*w2)的值,并且带入各个关键字中的字符的数量产生关系(2*w1)=(19*w2)。如果我们分配w2的值为1,那么w1应该等于19*1/2=9.5。因此,字组合“Russian Federation”可以被分配加权因子1,并且那么字“RF”可以被分配加权因子9.5。此外,对于示出的关键字,被分析的关键字中的字符的数量乘以该关键字的加权因子,将等于相同的数字——19。
在另一方面,一个关键字的加权因子可以取决于被分析的文本中另一个关键字的出现次数。例如,如果被分析的文本中的关键字B的出现次数大于零(1、2、3或更多),则关键字A的加权因子等于1。但是如果被分析的文本中关键字B的出现次数等于零(即,在被分析的文本中没有遇到关键字B),则关键字A的加权因子等于零。在该示例中,关键字A可以例如是“passport”,关键字B可以是护照号码(关键字对应于护照格式)。在该示例中,如果被分析的文本中仅存在关键字A“passport”,但是不存在满足护照号码要求的数字序列,则仅存在关键字“passport”不表示被分析的文本是机密的。因此,字“passport”的加权因子将等于零,并且这个字不影响关键字的密度的计算。
在一个方面,搜索模块101另外用于对找到的关键字进行检查是否符合给定的标准,一个标准特别是借助于Luhn算法或公式对找到的关键字执行检查的标准,且对应于银行卡号。在一些方面,所提及的标准可以包含在计算机上的文件中的标准列表上。针对是否符合护照数据的指定格式等等,检查来自关键字列表104的对应于护照数据的关键字。在另一个方面,这种标准可以是对正则表达式的正确性的检查。例如,如果正则表达式对应于数据,则对于正确性的检查可以是对于该数据的存在的正确性的检查。在该示例中,例如,数据32.01.2017是不正确的日期。
图2为根据示例性方面的确定包含机密数据的文本的方法200的流程图。在第一个步骤201中,搜索模块101在被分析的文本110中执行对关键字的搜索,以确定与文本数据匹配的一个或多个关键字。
接下来,在步骤202中,解析模块102基于与文本数据(即被分析的文本)匹配的一个或多个关键字来计算被分析的文本中的关键字的密度。在一些方面,解析模块102确定匹配的关键字中的字符的数量、确定文本数据的字符的总数量,然后将关键字的密度计算为找到的关键字中的字符的数量与被分析的文本的字符的数量的比值。在一些方面,文本数据的字符的总数量不包括空格字符和非字母数字字符中的至少一者。在其它方面,解析模块102确定匹配的关键字的数量、确定文本数据的字的总数量,以及将关键字的密度计算为找到的关键字的数量与被分析的文本的字的总数量的比值。在一些方面,文本数据被划分成多个第一长度的子文本,并且解析模块102针对每个子文本计算相应的关键字的密度。在一些方面,解析模块102基于与每个匹配的关键字相关联的加权因子来计算文本数据中的关键字的密度。在一些方面,匹配的第一关键字的加权因子的值取决于文本数据中匹配的第二关键字的出现次数。
因此,在步骤203中,分析模块103确定所计算的关键字的密度是否超过指定的阈值。如果否,则操作可以返回到步骤201,其中,搜索模块101可以在更多文本数据中(即文本110的另一部分中)搜索关键字。否则,如果关键字的密度超过指定的阈值,则在步骤204,分析模块103可以确定:被分析的文本是包含机密数据的文本。
在步骤205中,响应于确定文本数据包含机密数据,系统100可以根据文本110的来源阻止文本数据的使用。例如,如果从端点系统接收文本数据作为“正在使用的数据”,则系统100可以阻止文本数据例如经由电子邮件或者消息通信在多组用户之间或多个类型用户之间共享。在另一示例中,系统100可以阻止文本数据被用于屏幕捕捉操作、复制/粘贴操作、打印/传真操作和文件传输操作(例如,传输到USB驱动器)。在一些方面,如果文本数据被在网络流量上拦截(“运动中的数据”),则系统100可以阻止包含文本数据的网络流量被路由到其目的地,或者可以修改网络流量以去除机密数据。在一个方面中,诸如在从数据存储器(即数据档案)中检索文本数据110的情况下,系统100可以将文本数据标记为包含机密数据,这样做然后触发用于存储、处理以及甚至丢弃文本数据的某些程序。在一些方面,系统100可以在将文本数据110提供给应用程序之前使用数据混淆来修改文本数据110。修改的模式可以根据使用文本数据110的应用程序的类型而变化。然而,在其它方面,系统100可以允许基于允许的应用程序列表(诸如白名单)来使用文本数据110,该允许的应用程序列表使阻止步骤无效(override)。
应当注意,在一个方面,被分析的文本是从用户或者应用程序、或者如图1的描述中所指示的其它来源获得的源文本。在另一方面,被分析的文本可以是确定长度的上述源文本的一部分。
在一些方面,源文本可以被分解成给定长度的几个子文本。例如,源文本具有1000个字符的长度。被分析的第一个子文本从字符1开始,并且具有100个字符的长度,被分析的第二个子文本从字符2开始,并且具有100个字符的长度等等。在该示例中,步骤201至步骤204的方法可以多次应用于每个被分析的子文本。
图3呈现了包含关键字但不是机密的文本数据300的示例。在该示例中,给出了对电子设备的指令。如所示,文本数据300包含关键字(如下划线文本所示),当这些关键字连在一起时将对应于银行卡号。例如,部分302中的关键字“740”和关键字“5025155006888”结合在一起似乎可以对应于银行卡号。因此,用于发现包含机密数据的文本的大多数现有方法可能引起虚假警报并将指示的文本视为包含机密数据(即银行卡号)的文本。
然而,应当指出的是,与整个被分析的文本300相关的关键字的数量以及它们的长度很小。由于这个原因,在本发明中提出了一种新的方法,该方法包括关键字的密度的计算和分析。本发明提出的方法在示出的文本示例(或在其它类似文本中)不会触发虚假警报,并且由于关键字的低密度不会将给定的文本确定为包含机密数据的文本。因此,本发明所声明的方法的使用将解决涉及在确定包含机密数据的文本时发生的虚假警报的技术问题,并且将实现所声明的技术成果,即与已知对应物相比,由于虚假警报数量的减少,本发明所声明的方法将改进文本中机密信息的确定。
让我们假设,如先前在特定的示例实施方式中所提及的,用于计算关键字的密度的表达式是所找到的关键字中的字符的数量与被分析的文本的字符的数量的比值。使指定的阈值等于0.5,超过此阈值的被分析的文本将被确定为包含机密数据的文本(步骤203)。让我们考虑被分析的文本的两个变型。
在第一示例中,搜索模块101可以对文本NO.1执行搜索(示出为图3的示例中的部分302),其读取:
“102Weight without package:14.5kg Weight in package:17.5kg Dimensionsof package:740×365×315mm Barcode 5025155006888”
在步骤201中找到的关键字在文本中加下划线。在步骤201中,通过搜索模块101借助于Luhn算法检查找到的银行卡号(在给出的示例中,740 502515500688)的正确性。在这种情况下,解析模块102确定关键字中的字符的数量(19个字符)和被分析的文本中的字符的数量(110个字符,包括空格)。然后,在步骤202中,解析模块102计算关键字的密度等于0.17(即,19/110=0.1727)。关键字的密度低于指定阈值0.5(0.17<0.5),因此,在步骤203至步骤204中,被分析的文本NO.1将不会被确定为包含机密数据的文本。
在第二示例中,搜索模块101可以搜索文本NO.2(示出为图3中的部分304):
“Card Holder:John J.Cameron Expiration Date:1/2016 CVV2:220546616015315449519906/14”
同样,在步骤201中找到的关键字在文本中加下划线。在这种情况下,关键字的密度等于0.62(关键字中的54个字符/包括空格的87个字符=0.62),并且在步骤203中,大于指定阈值0.5,使得被分析的文本NO.2将被确定为包含机密数据的文本。
图4为根据示例性方面的其上可实施用于扫描网页的系统和方法的方面的通用计算机系统20的框图。应当注意,计算机系统20可以对应于例如先前描述的系统100。
如所示,该计算机系统20(其可以是个人计算机或服务器)包括中央处理单元21、系统存储器22和连接各个系统部件的系统总线23,各个系统部件包括与中央处理单元21相关联的存储器。如将由本领域的普通技术人员所领会,系统总线23可以包括总线存储器或总线存储器控制器、外围总线、以及能够与任何其它的总线架构交互的本地总线。系统存储器可以包括永久存储器(ROM)24和随机存取存储器(Random-Access Memory,RAM)25。基本输入/输出系统(Basic Input/Output System,BIOS)26可以存储用于在计算机系统20的元件之间传输信息的基本程序,例如在使用ROM 24加载操作系统时的那些基本程序。
计算机系统20还可以包括用于读取和写入数据的硬盘27、用于在可移动磁盘29上读取和写入的磁盘驱动器28、以及用于读取和写入可移动光盘31(诸如CD-ROM、DVD-ROM和其它光学介质)的光盘驱动器30。硬盘27、磁盘驱动器28和光盘驱动器30分别通过硬盘接口32、磁盘接口33和光盘驱动器接口34而连接到系统总线23。驱动器和相应的计算机信息介质为用于存储计算机系统20的计算机指令、数据结构、程序模块和其它数据的电源独立的模块。
示例性方面包括借助控制器55使用连接到系统总线23的硬盘27、可移动磁盘29和可移动光盘31的系统。将由本领域的普通技术人员所理解,也可以利用能够以计算机可读的形式存储数据的任何类型的介质56(固态驱动器、闪存卡、数字盘、随机存取存储器(RAM)等等)。
计算机系统20具有可以存储操作系统35的文件系统36、以及额外的程序应用37、其它程序模块38和程序数据39。计算机系统20的用户可以使用键盘40、鼠标42、或本领域的普通技术人员已知的任何其它输入设备(诸如但不限于麦克风、操纵杆、游戏控制器、扫描器等)输入命令和信息。这些输入设备通常通过串行端口46插入到计算机系统20中,串行端口46转而连接到系统总线,但是本领域的普通技术人员将领会,输入设备也可以以其它方式来连接,诸如但不限于借助并行端口、游戏端口、或通用串行总线(Universal SerialBus,USB)来连接。监控器47或其它类型的显示设备也可以通过接口(例如视频适配器48)连接到系统总线23。除了监控器47,个人计算机还可以装备有其它的外围输出设备(未示出),例如扬声器、打印机等。
计算机系统20可以使用与一个或多个远程计算机49的网络连接而在网络环境中操作。一个或多个远程计算机49可以为本地计算机工作站或服务器,其包括在描述计算机系统20的性质时的上述元件中的大多数元件或全部元件。其它设备也可以存在于计算机网络中,诸如但不限于路由器、网站、对等设备或其它的网络节点。
网络连接可以形成局域计算机网络(Local-Area computer Network,LAN)50和广域计算机网络(Wide-Area computer Network,WAN)。这些网络用在企业计算机网络和公司内部网络中,并且这些网络通常有权访问因特网。在LAN或WAN网络中,个人计算机20通过网络适配器或网络接口51连接到局域网50。当使用网络时,计算机20系统可以采用调制解调器54或本领域的普通技术人员所熟知的、实现与广域计算机网络(诸如因特网)的通信的其它模块。调制解调器54可以是内部设备或外部设备,可以通过串行端口46连接到系统总线23。本领域的普通技术人员将领会,所述网络连接是使用通信模块建立一个计算机与另一个计算机的连接的许多熟知方式的非限制性示例。
在各个方面中,本文中所描述的系统和方法可以以硬件、软件、固件或它们的任何组合来实施。如果以软件来实施,则上述方法可以作为一个或多个指令或代码而被存储在非暂时性计算机可读介质上。计算机可读介质包括数据存储器。以示例性而非限制性的方式,这种计算机可读介质可以包括RAM,ROM,EEPROM,CD-ROM,闪存或其它类型的电存储介质、磁存储介质或光存储介质,或可用来携带或存储所期望的指令或数据结构形式的程序代码并可以被通用计算机的处理器访问的任何其它介质。
在各个方面中,本发明中所描述的系统和方法可以按照模块来描述。本文中所使用的术语“模块”指的是例如现实世界的设备、部件、或使用硬件(例如通过专用集成电路(Application Specific Integrated Circuit,ASIC)或现场可编程门阵列(Field-Programmable Gate Array,FPGA))实现的部件的布置,或者指的是硬件和软件的组合,例如通过微处理器系统和实现模块功能的指令集(该指令集在被执行时将微处理器系统转换成专用设备)来实现这样的组合。一个模块还可以被实施为两个模块的组合,其中仅通过硬件促进某些功能,并且通过硬件和软件的组合促进其它功能。在某些实现方式中,模块的至少一部分(以及在一些情况下,模块的全部)可以被执行在通用计算机(诸如上文在图4中更详细描述的通用计算机)的处理器上。因此,每个模块可以以各种适合的配置来实现,而不应受限于本文中所例示的任何特定的实现方式。
此外,术语“第一”,“第二”等在本文通常用于表示不同的单元(例如,第一元件,第二元件)。这些术语在本文的使用并不一定意味着诸如一个单元或事件在另一个单元或事件之前发生或到来的排序,而是提供了用于区分特定单元的机制。此外,名词的单数时态的使用是非限制性的,名词的单数时态的使用通常包括一个或多个特定事物而不是仅仅一个(例如,单词“存储器”的使用通常是指一个或多个存储器而不必指定“存储器或多个存储器”、“一个或多个存储器”或“至少一个存储器”等)。此外,短语“基于x”和“响应于x”用于表示从中导出或引起某些事物的项目x的最小集合,其中“x”是可扩展的,并且不一定描述在其上执行操作的项目的完整列表等。
为了清楚起见,本文中没有公开各个方面的所有例程特征。应当领会的是,在本发明的任何实际的实现方式的开发中,必须做出许多特定实现方式的决定,以便实现开发者的特定目标,并且这些特定目标将对于不同的实现方式和不同的开发者变化。应当理解的是,这种开发努力会是复杂的且费时的,但对于了解本发明的优点的本领域的普通技术人员来说仍然是工程的例行任务。
此外,应当理解的是,本文中所使用的措辞或术语出于描述而非限制的目的,从而本说明书的术语或措辞应当由本领域技术人员根据本文中所提出的教导和指导结合相关领域技术人员的知识来解释。此外,不旨在将本说明书或权利要求中的任何术语归于不常见的或特定的含义,除非明确如此阐述。
本文中所公开的各个方面包括本文中以说明性方式所引用的已知模块的现在和未来已知的等同物。此外,尽管已经示出并描述了各个方面和应用,但是对于了解本发明的优点的本领域技术人员将显而易见的是,在不脱离本文中所公开的发明构思的前提下,相比于上文所提及的内容而言的更多修改是可行的。
Claims (21)
1.一种用于防止计算机系统中的数据丢失的方法,其中,所述方法包括:
在文本数据中搜索多个关键字,以确定与所述文本数据匹配的一个或多个关键字;
基于与所述文本数据匹配的所述一个或多个关键字,计算所述文本数据中的关键字的密度;
基于所述关键字的密度是否超过阈值,确定所述文本数据包含机密数据;以及
阻止使用包含机密数据的所述文本数据。
2.根据权利要求1所述的方法,其中,基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度,还包括:
确定匹配的所述关键字中的字符的数量;
确定所述文本数据的字符的总数量;以及
将所述文本数据中的所述关键字的密度计算为匹配的所述关键字中的所述字符的数量与所述文本数据的所述字符的总数量的比值。
3.根据权利要求2所述的方法,其中,所述文本数据的所述字符的总数量不包括空格字符和非字母数字字符中的至少一者。
4.根据权利要求1所述的方法,其中,基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度还包括:
确定匹配的关键字的数量;
确定所述文本数据的字的总数量;以及
将所述文本数据中的所述关键字的密度计算为所述匹配的关键字的数量与所述文本数据的所述字的总数量的比值。
5.根据权利要求1所述的方法,其中,基于与每个匹配的关键字相关联的加权因子来计算所述文本数据中的所述关键字的密度。
6.根据权利要求5所述的方法,其中,匹配的第一关键字的所述加权因子的值取决于匹配的第二关键字在所述文本数据中的出现次数。
7.根据权利要求1所述的方法,还包括:
将所述文本数据划分成多个第一长度的子文本,并且针对每个子文本计算相应的关键字的密度。
8.一种用于防止计算机系统中的数据丢失的系统,其中,所述系统包括:
存储器设备;以及
至少一个处理器,所述处理器配置成:
在文本数据中搜索多个关键字,以确定与所述文本数据匹配的一个或多个关键字;
基于与所述文本数据匹配的所述一个或多个关键字,计算所述文本数据中的关键字的密度;
基于所述关键字的密度是否超过阈值,确定所述文本数据包含机密数据;以及
阻止使用包含机密数据的所述文本数据。
9.根据权利要求8所述的系统,其中,配置成基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度的所述处理器还配置成:
确定匹配的所述关键字中的字符的数量;
确定所述文本数据的字符的总数量;以及
将所述文本数据中的所述关键字的密度计算为匹配的所述关键字中的所述字符的数量与所述文本数据的所述字符的总数量的比值。
10.根据权利要求9所述的系统,其中,所述文本数据的所述字符的总数量不包括空格字符和非字母数字字符中的至少一者。
11.根据权利要求8所述的系统,其中,配置成基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度的所述处理器还配置成:
确定匹配的关键字的数量;
确定所述文本数据的字的总数量;以及
将所述文本数据中的所述关键字的密度计算为所述匹配的关键字的数量与所述文本数据的所述字的总数量的比值。
12.根据权利要求8所述的系统,其中,基于与每个匹配的关键字相关联的加权因子来计算所述文本数据中的所述关键字的密度。
13.根据权利要求12所述的系统,其中,匹配的第一关键字的所述加权因子的值取决于匹配的第二关键字在所述文本数据中的出现次数。
14.根据权利要求8所述的系统,其中,所述处理器配置成:
将所述文本数据划分成多个第一长度的子文本,并且针对每个子文本计算相应的关键字的密度。
15.一种非暂时性计算机可读介质,所述非暂时性计算机可读介质包括用于防止计算机系统中的数据丢失的计算机可执行指令,所述非暂时性计算机可读介质包括用于如下操作的指令:
在文本数据中搜索多个关键字,以确定与所述文本数据匹配的一个或多个关键字;
基于与所述文本数据匹配的所述一个或多个关键字,计算所述文本数据中的关键字的密度;
基于所述关键字的密度是否超过阈值,确定所述文本数据包含机密数据;以及
阻止使用包含机密数据的所述文本数据。
16.根据权利要求15所述的非暂时性计算机可读介质,其中,用于基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度的指令还包括用于如下操作的指令:
确定匹配的所述关键字中的字符的数量;
确定所述文本数据的字符的总数量;以及
将所述文本数据中的所述关键字的密度计算为匹配的所述关键字中的所述字符的数量与所述文本数据的所述字符的总数量的比值。
17.根据权利要求16所述的非暂时性计算机可读介质,其中,所述文本数据的所述字符的总数量不包括空格字符和非字母数字字符中的至少一者。
18.根据权利要求15所述的非暂时性计算机可读介质,其中,用于基于与所述文本数据匹配的所述一个或多个关键字计算所述文本数据中的所述关键字的密度的指令还包括用于如下操作的指令:
确定匹配的关键字的数量;
确定所述文本数据的字的总数量;以及
将所述文本数据中的所述关键字的密度计算为所述匹配的关键字的数量与所述文本数据的所述字的总数量的比值。
19.根据权利要求15所述的非暂时性计算机可读介质,其中,基于与每个匹配的关键字相关联的加权因子来计算所述文本数据中的所述关键字的密度。
20.根据权利要求19所述的非暂时性计算机可读介质,其中,匹配的第一关键字的所述加权因子的值取决于匹配的第二关键字在所述文本数据中的出现次数。
21.根据权利要求15所述的非暂时性计算机可读介质,还包括用于如下操作的指令:
将所述文本数据划分成多个第一长度的子文本,并且针对每个子文本计算相应的关键字的密度。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US15/642,659 | 2017-07-06 | ||
US15/642,659 US11042659B2 (en) | 2017-07-06 | 2017-07-06 | System and method of determining text containing confidential data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109213850A true CN109213850A (zh) | 2019-01-15 |
CN109213850B CN109213850B (zh) | 2022-01-28 |
Family
ID=60161942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710860000.2A Active CN109213850B (zh) | 2017-07-06 | 2017-09-21 | 确定包含机密数据的文本的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US11042659B2 (zh) |
EP (1) | EP3425549B1 (zh) |
JP (1) | JP6777612B2 (zh) |
CN (1) | CN109213850B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10853509B2 (en) * | 2018-08-24 | 2020-12-01 | Bank Of America Corporation | Error detection of data leakage in a data processing system |
US11016934B2 (en) * | 2019-02-14 | 2021-05-25 | International Business Machines Corporation | Automated content-based and context-based file organizational structuring |
WO2022197939A1 (en) * | 2021-03-17 | 2022-09-22 | Yext, Inc. | Processing data portions associated with selectable search algorithm execution |
US20230156018A1 (en) * | 2021-11-17 | 2023-05-18 | Vmware, Inc. | Data criticality-based network policy creation and consumption |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1677418A (zh) * | 2004-03-31 | 2005-10-05 | 日本电气株式会社 | 电子邮件创建装置及其方法、程序和便携式终端 |
US20110093768A1 (en) * | 2009-10-21 | 2011-04-21 | Vikas Panwar | Data loss detection method for handling fuzziness in sensitive keywords |
CN102171702A (zh) * | 2008-10-03 | 2011-08-31 | 起元技术有限责任公司 | 机密信息的检测 |
US8127149B1 (en) * | 2006-06-29 | 2012-02-28 | Symantec Corporation | Method and apparatus for content based encryption |
CN103336929A (zh) * | 2012-03-12 | 2013-10-02 | 国际商业机器公司 | 用于已加密文件访问的方法和系统 |
US20140331125A1 (en) * | 2013-05-06 | 2014-11-06 | The Speed Reading Group, Chamber Of Commerce Number: 60482605 | Methods, systems, and media for guiding user reading on a screen |
US20150052059A1 (en) * | 2001-04-20 | 2015-02-19 | Jpmorgan Chase Bank, N.A. | System and Method for Preventing Identity Theft or Misuse by Restricting Access |
CN104636415A (zh) * | 2013-11-11 | 2015-05-20 | 乐金信世股份有限公司 | 提取重要关键字的方法和执行所述方法的服务器 |
US9203623B1 (en) * | 2009-12-18 | 2015-12-01 | Trend Micro Incorporated | Apparatus and methods for keyword proximity matching |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06259424A (ja) | 1993-03-02 | 1994-09-16 | Ricoh Co Ltd | 文書表示装置及び文書要約装置並びにディジタル複写装置 |
JPH10269235A (ja) | 1997-03-25 | 1998-10-09 | Toshiba Corp | 類似文書検索装置及び類似文書検索方法 |
US7467202B2 (en) | 2003-09-10 | 2008-12-16 | Fidelis Security Systems | High-performance network content analysis platform |
US7966376B2 (en) * | 2004-08-26 | 2011-06-21 | International Business Machines Corporation | Preventing the capture of chat session text |
JP4640591B2 (ja) * | 2005-06-09 | 2011-03-02 | 富士ゼロックス株式会社 | 文書検索装置 |
US7792858B2 (en) * | 2005-12-21 | 2010-09-07 | Ebay Inc. | Computer-implemented method and system for combining keywords into logical clusters that share similar behavior with respect to a considered dimension |
US20070150342A1 (en) * | 2005-12-22 | 2007-06-28 | Law Justin M | Dynamic selection of blended content from multiple media sources |
JP2008226133A (ja) * | 2007-03-15 | 2008-09-25 | Hitachi Software Eng Co Ltd | 個人情報管理システム |
WO2010011179A1 (en) | 2008-07-25 | 2010-01-28 | Resolvo Systems Pte Ltd | System and method for preventing leakage of sensitive digital information on a digital communication network |
JP4763812B2 (ja) | 2009-02-24 | 2011-08-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書の機密度判定を支援する方法、装置及びコンピュータプログラム |
JP5568907B2 (ja) | 2009-07-03 | 2014-08-13 | 日本電気株式会社 | 情報アセスメントシステム、情報アセスメント方法及びプログラム |
US8544104B2 (en) * | 2010-05-10 | 2013-09-24 | International Business Machines Corporation | Enforcement of data privacy to maintain obfuscation of certain data |
US8856157B2 (en) * | 2011-08-23 | 2014-10-07 | Business Objects Software Limited | Automatic detection of columns to be obfuscated in database schemas |
JP6037461B2 (ja) * | 2014-05-09 | 2016-12-07 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 機密情報に応じた表示を行う装置、システム、方法およびプログラム |
US9501654B1 (en) * | 2015-11-19 | 2016-11-22 | International Business Machines Corporation | Sensitive data obfuscation in output files |
-
2017
- 2017-07-06 US US15/642,659 patent/US11042659B2/en active Active
- 2017-09-15 JP JP2017177962A patent/JP6777612B2/ja active Active
- 2017-09-21 CN CN201710860000.2A patent/CN109213850B/zh active Active
- 2017-10-13 EP EP17196479.4A patent/EP3425549B1/en active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150052059A1 (en) * | 2001-04-20 | 2015-02-19 | Jpmorgan Chase Bank, N.A. | System and Method for Preventing Identity Theft or Misuse by Restricting Access |
CN1677418A (zh) * | 2004-03-31 | 2005-10-05 | 日本电气株式会社 | 电子邮件创建装置及其方法、程序和便携式终端 |
US8127149B1 (en) * | 2006-06-29 | 2012-02-28 | Symantec Corporation | Method and apparatus for content based encryption |
CN102171702A (zh) * | 2008-10-03 | 2011-08-31 | 起元技术有限责任公司 | 机密信息的检测 |
US20110093768A1 (en) * | 2009-10-21 | 2011-04-21 | Vikas Panwar | Data loss detection method for handling fuzziness in sensitive keywords |
US9203623B1 (en) * | 2009-12-18 | 2015-12-01 | Trend Micro Incorporated | Apparatus and methods for keyword proximity matching |
CN103336929A (zh) * | 2012-03-12 | 2013-10-02 | 国际商业机器公司 | 用于已加密文件访问的方法和系统 |
US20140331125A1 (en) * | 2013-05-06 | 2014-11-06 | The Speed Reading Group, Chamber Of Commerce Number: 60482605 | Methods, systems, and media for guiding user reading on a screen |
CN104636415A (zh) * | 2013-11-11 | 2015-05-20 | 乐金信世股份有限公司 | 提取重要关键字的方法和执行所述方法的服务器 |
Non-Patent Citations (2)
Title |
---|
LI NING; LIN KANFENG; LIN WENLIANG; DENG ZHONGLIANG: "A joint encryption and error correction method used in satellite communications", 《CHINA COMMUNICATIONS》 * |
闫文婷: "基于云环境下排序的模糊关键字搜索", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
US20190012476A1 (en) | 2019-01-10 |
EP3425549A1 (en) | 2019-01-09 |
JP6777612B2 (ja) | 2020-10-28 |
JP2019016335A (ja) | 2019-01-31 |
US11042659B2 (en) | 2021-06-22 |
CN109213850B (zh) | 2022-01-28 |
EP3425549B1 (en) | 2020-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Serpen et al. | Host-based misuse intrusion detection using PCA feature extraction and kNN classification algorithms | |
Kar et al. | SQLiGoT: Detecting SQL injection attacks using graph of tokens and SVM | |
US8065739B1 (en) | Detecting policy violations in information content containing data in a character-based language | |
Corazza et al. | LINSEN: An efficient approach to split identifiers and expand abbreviations | |
CN109213850A (zh) | 确定包含机密数据的文本的系统和方法 | |
US11775749B1 (en) | Content masking attacks against information-based services and defenses thereto | |
US10552781B2 (en) | Task transformation responsive to confidentiality assessments | |
Ullah et al. | Software plagiarism detection in multiprogramming languages using machine learning approach | |
US11860953B2 (en) | Apparatus and methods for updating a user profile based on a user file | |
Park et al. | Ontological detection of phishing emails | |
Aghaei et al. | Ensemble classifier for misuse detection using N-gram feature vectors through operating system call traces | |
Zhao et al. | Provably confidential language modelling | |
Ito et al. | Detecting unknown malware from ASCII strings with natural language processing techniques | |
Trieu et al. | Document sensitivity classification for data leakage prevention with twitter-based document embedding and query expansion | |
Bajaj et al. | HOMOCHAR: A novel adversarial attack framework for exposing the vulnerability of text based neural sentiment classifiers | |
Purba et al. | Extracting Actionable Cyber Threat Intelligence from Twitter Stream | |
Liu et al. | Mitigating file-injection attacks with natural language processing | |
Mehdi Gholampour et al. | Adversarial robustness of phishing email detection models | |
Alneyadi et al. | A semantics-aware classification approach for data leakage prevention | |
Kar et al. | SQLiDDS: SQL injection detection using document similarity measure | |
Maghsoudimehrabani et al. | Proactive detection of query-based adversarial scenarios in nlp systems | |
CN108256327A (zh) | 一种文件检测方法及装置 | |
Aghaei et al. | Automated CVE Analysis for Threat Prioritization and Impact Prediction | |
RU2665915C1 (ru) | Система и способ определения текста, содержащего конфиденциальные данные | |
Wressnegger | Efficient machine learning for attack detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |