CN103425730A - 用于生成与电子文档关联的值的方法与系统 - Google Patents

用于生成与电子文档关联的值的方法与系统 Download PDF

Info

Publication number
CN103425730A
CN103425730A CN2013101790667A CN201310179066A CN103425730A CN 103425730 A CN103425730 A CN 103425730A CN 2013101790667 A CN2013101790667 A CN 2013101790667A CN 201310179066 A CN201310179066 A CN 201310179066A CN 103425730 A CN103425730 A CN 103425730A
Authority
CN
China
Prior art keywords
electronic document
described electronic
item
score
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013101790667A
Other languages
English (en)
Inventor
S·阿格拉瓦尔
P·M·德史潘德
M·K·莫哈尼亚
K·穆尔西
D·S·帕德玛纳布汗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103425730A publication Critical patent/CN103425730A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开涉及用于生成与电子文档关联的值的方法与系统。计算机接收包括一组项的电子文档。计算机把电子文档发送到用于从这组项中提取特定项的信息提取程序。识别在某种程度上与电子词典中的属性值之一匹配的每个特定项。基于匹配的特定项并且基于尝试访问电子文档的终端用户而生成与电子文档关联的值。

Description

用于生成与电子文档关联的值的方法与系统
技术领域
本发明总体上涉及控制对具有非结构化数据的电子文档的访问,并且更具体地说,涉及基于电子文档中的信息、关联的结构化数据及尝试访问该电子文档的特定终端用户来给电子文档分类。
背景技术
像银行、医院和大公司这种机构中的人常常要访问包含非结构化数据的各种电子文档。非结构化数据可以包括个人地址、日期、社会安全号、信用卡号及其它敏感或不敏感的信息。而且,包含敏感信息的电子文档可以通过工作流管理系统或者可以存储在储存库中,其中具有不同角色的多个人在不同时间获得对电子文档的访问。因此,如果对电子文档的访问未被适当控制的话,包含敏感信息的电子文档容易受到未授权的使用。
已经知道通过编校文档的一部分或者防止对文档的完整访问来保护电子文档中的敏感信息。例如,计算机程序可以搜索文档并且使用正则表达式来识别具有对应于个人的社会安全号、医疗历史和/或工资的预期模式的敏感信息。随后,利用正则表达式识别出的敏感信息可以被编校。
还已经知道利用具有敏感词阵列的电子词典来识别电子文档中有可能敏感的信息。特别地,程序可以利用电子词典执行能够识别电子文档中的与所述阵列中的至少一个敏感词匹配的信息的比较。随后,识别出的信息可以被编校。
但是,利用正则表达式和/或电子词典识别敏感信息并随后编校电子文档中的敏感信息不足以满足所有终端用户的需求,这是因为某些终端用户可能需要访问编校之后的信息,即使出于安全原因其他终端用户不应当访问这种信息。因而,期望分类电子文档,以便基于尝试访问电子文档的特定终端用户有选择地控制对电子文档的访问。
发明内容
本发明的一种实施例的各方面公开了用于生成与电子文档关联的值的方法、计算机系统与程序产品。计算机接收电子文档。计算机接收识别尝试访问该电子文档的终端用户的数据。计算机关联得分与电子文档中的项。计算机基于关联的得分生成与电子文档关联的值,其中该值是特定于终端用户的。
附图说明
被认为是本发明一种实施例的主题在本说明书结尾处的权利要求中特别指出并明确地保护。可以理解本发明一种实施例的所述特征的一种方式是通过联系附图参考以下实施例的具体描述,附图中:
图1是根据本发明一种实施例的具有文档敏感性计算程序的计算机系统的框图,该文档敏感性计算程序用于基于电子文档中的信息、主数据管理系统中的关联的结构化数据及尝试访问该电子文档的特定终端用户生成与电子文档关联的值,其中所述值用于给电子文档分类。
图2绘出了根据本发明一种实施例的具有信息和访问控制列表的数据库实体表,其中该访问控制列表指定终端用户对信息的数据访问权限。
图3绘出了根据本发明一种实施例的具有包括一组项的信息的电子文档,其中这组项包括可以在图2的数据库实体表中的项。
图4A和4B是根据本发明一种实施例的说明文档敏感性计算程序操作的流程图,该文档敏感性计算程序生成与图3的电子文档关联的值。
图5是绘出了根据本发明一种实施例的具有图1的文档敏感性计算程序的计算机内部和外部部件的框图。
具体实施例
所属技术领域的技术人员知道,本发明的各方面可以实现为系统、方法或计算机程序产品。因此,本发明的各方面可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“模块”或“系统”。此外,在一些实施例中,本发明的各方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction means)的制造品。
也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
现在将参考附图更加完全地描述示例性实施例。但是,本公开内容可以以许多不同形式体现而且不应当被认为限定到在此所述的示例性实施例。相反,提供这些示例性实施例是为了使本公开内容更加透彻与完整,而且将向本领域技术人员完全地传达本公开内容的范围。在本描述中,为了避免不必要地模糊所给出的实施例,众所周知的特征与技术的细节可能被忽略了。
本发明的实施例提供了文档敏感性计算程序,用于基于电子文档中的信息、主数据管理系统中的关联的结构化数据及尝试访问该电子文档的特定终端用户来生成与电子文档关联的值。为了包括数据安全性,由文档敏感性计算程序生成的值用于给电子文档分类。
历史上,电子文档中的敏感信息通过编校电子文档中的包含该敏感信息的部分或者防止对电子文档的完整访问而被阻挡了,而与尝试访问该电子文档的特定终端用户无关。一般来说,用于执行电子文档的编校的计算机程序可以解析电子文档,找到对应于所述敏感信息的特定模式,并且阻止对电子文档中紧密匹配该模式的信息的访问。但是,不考虑尝试访问该电子文档的特定终端用户就阻止对电子文档中信息的访问对于其中某些终端用户可能需要访问所述信息的企业来说是不够的,虽然其他终端用户可能不需要访问这种信息。因而,在本公开内容的一种实施例中,需要基于电子文档内的信息和尝试访问电子文档的特定终端用户来生成与电子文档关联的值。该值随后可以用于执行进一步动作,例如,电子文档的编校和/或通知系统程序员/管理员对电子文档所尝试的访问。
图1图示了包括经网络112连接到服务器计算机115的客户端计算机105的计算机系统100。客户端计算机105和服务器计算机115每个都包括各自的内部部件800a和800b及各自的外部部件900a和900b,如以下关于图5更具体描述的。
客户端计算机105包括可以用于访问计算机系统100中的电子文档的应用程序110。服务器计算机115包括:文档储存库120、查询处理器125、具有电子词典135a-135g的文档敏感性计算程序130、信息提取程序140、实体构造程序145、具有访问控制列表152和数据库实体表155的主数据管理(MDM)系统150,及敏感文档处理器程序160,其中数据库实体表155具有包含结构化数据的行与属性列。
在所公开的实施例中,文档储存库120是能够存储诸如自由形式的明文文件或者包含非结构化数据的其它类型文件的电子文档的存储设备。在此所使用的非结构化数据是指电子文档中的缺少固定或容易理解的模式的信息,其中各块信息没有以固定方案—诸如在关系型数据库中那样—组织起来并且因此不能经文档储存库120的查询独立访问。例如,存储在文档储存库120中的电子文档中的非结构化数据可以包括诸如个人地址、生日、社会安全号、信用卡号、银行帐号、词和句子(即,自由形式的文本)及其它敏感或不敏感项的信息的组合。
例如,作为包括处理电子文档的各个阶段的企业软件工作流的一部分,一个企业中的特定终端用户常常可能需要检索并访问文档储存库120中的电子文档。查询处理器125是可以用于为使用应用程序110来请求电子文档的特定终端用户检索电子文档的软件应用。具体而言,查询处理器125可以经客户端计算机105和网络112从应用程序110接收对电子文档的数据请求,并且响应于接收到该数据请求而调用计算机命令从文档储存库120检索电子文档。具体而言,数据请求包含识别特定终端用户和该特定终端用户尝试访问的电子文档的数据。识别特定终端用户的数据可以由文档敏感性计算程序130用来对访问控制列表152执行查找操作,其中查找操作可以确定该特定终端用户的数据访问权限。
在所公开的实施例中,一个目标是让文档敏感性计算程序130生成与被检索的电子文档关联的值。与电子文档关联的值是基于电子文档中的信息、MDM系统150中关联的结构化数据及尝试访问该电子文档的特定终端用户的数据访问权限。数据访问权限在访问控制列表152中定义,其中访问控制列表152是驻留在MDM系统150上的文件中的一个列表。与电子文档关联的值可以用于为了数据安全的目的—包括电子文档的编校和/或向系统程序员/管理员通知特定终端用户尝试访问电子文档—而给电子文档分类。
但是,在文档敏感性计算程序130可以生成与电子文档关联的值之前,需要从电子文档中提取可能敏感的特定项。因而,查询处理器125把电子文档发送到文档敏感性计算程序130。接下来,为了提取特定项,文档敏感性计算程序130把电子文档和规则集发送到信息提取程序140。信息提取程序140是具有可以接收电子文档和规则集并且利用规则集从电子文档中提取特定项的功能的软件程序。在所公开的实施例中,规则集是由文档敏感性计算程序130生成的,其中文档敏感性计算程序130由系统程序员/管理员配置成把规则集发送到信息提取程序140。规则集可以基于电子词典135a-135g或者正则表达式。正则表达式是用来搜索文本串,诸如特定项或者字符和/或数字模式,的程序代码。例如,在所公开的实施例中,正则表达式用于识别电子文档中的匹配数据库实体表155的属性列中所代表的结构化数据的特定项。
对于基于电子词典135a-135g的规则集,信息提取程序140使用模糊匹配技术。模糊匹配技术可以识别在一定程度上与电子词典135a-135g之一中的属性值匹配的特定项。此外,模糊匹配技术甚至可以识别在一定程度上与电子词典135a-135g之一中的属性值匹配的特定项,其中所述特定项拼写错了或者有打字错误。在下文中,在一定程度上与电子词典135a-135g之一中的属性值匹配的特定项也被称为识别出的项。
此外,电子词典135a-135g中的每一个都是由文档敏感性计算程序130生成的,并且是属性值的阵列,所述属性值是在MDM系统150中的数据库实体表155的属性列中表示的。MDM系统150是包含从各种源整理的结构化数据的集中式储存库,并且提供结构化数据的单一视图。因而,电子词典135a-135g中的每一个和电子词典135a-135g中的属性值都关联到数据库实体表155的属性列。电子词典135a-135g中的每一个、电子词典135a-135g中的属性值与数据库实体表155的属性列的关联可以由文档敏感性计算程序130的程序代码功能确定。
此外,数据库实体表155的每个属性列都关联到列位置索引与列得分,其中列得分可以由系统程序员/管理员在MDM系统150中或者辅助计算机可读介质中配置并存储。列得分从0.0到1.0变动。相应地,因为电子词典135a-135g中的每一个和电子词典135a-135g中的属性值都关联到属性列,所以电子词典135a-135g中的每一个和电子词典135a-135g中的属性值还关联到列位置索引与列得分。列位置索引是数据库实体表155中属性列的位置。电子词典135a-135g中的每一个与列位置索引与列得分的关联可以由文档敏感性计算程序130的程序代码功能确定。此外,列得分代表就数据安全而言企业对所识别出的项设置的重要性等级。而且,由于所识别出的项在某种程度上与电子词典135a-135g之一中的属性值匹配,因此所识别出的项还每个都关联到属性列、列位置索引和列得分。所识别出的项中的每一个与属性列、列位置索引和列得分的关联可以由文档敏感性计算程序130从信息提取程序140获得。
如以上所提到的,信息提取程序140使用模糊匹配技术来执行电子词典135a-135g与从电子文档中提取出的特定项的比较。该比较可以识别在某种程度上与电子词典135a-135g之一中的属性值匹配的特定项,并且还识别与每个所识别出的项关联的列位置索引与列得分。而且,因为每个正则表达式都可以与属性列关联,所以列位置索引与列得分可以关联到利用正则表达式识别出的特定项。文档敏感性计算程序130可以利用关联到所识别出的项的每个列位置索引和列得分来执行生成与电子文档关联的值所需的后续操作。
而且,对于模糊匹配技术,从电子文档中提取出的每一个特定项都必须与电子词典135a-135g之一中的至少一个属性值具有某种程度的相似性,以便被认为是匹配的。在所公开的实施例中,项必须具有的相似性程度是由文档敏感性计算程序130中的可配置参数值定义的,其中该可配置参数值代表差异的阈值量。具体而言,如果提取出的特定项与电子词典135a-135g之一中的属性值之一之间的差异量小于或等于差异的阈值量,就可以认为该特定项是匹配的。例如,如果差异的阈值量是1个字符,那么项“Josep”可以被认为是名字“Joseph”的有效匹配。但是,项“Jose”将不被认为是有效匹配,因为“Jose”与“Joseph”之间的差异是两个字符。可配置参数值可以由系统程序员/管理员根据使用文档敏感性计算程序130的特定企业的技术需求和/或数据安全性策略来调整。
在文档敏感性计算程序130执行模糊匹配之后,文档敏感性计算程序把识别出的项发送到实体构造程序145以执行记录构造。记录构造是指识别数据库实体表155中的识别出的项有可能关联到的一行或多行(即,实体)。在接收到识别出的项之后,实体构造程序145把包括识别出的项的查询发送到MDM系统150。响应于接收到该查询,MDM系统150确定可能关联到识别出的项的一行或多行(即,实体),并且把这一行或多行返回到文档敏感性计算程序130。在MDM系统150不能确定关联到识别出的项之一的一行的情况下,对于那个识别出的项,就没有行返回给文档敏感性计算程序130。
接下来,文档敏感性计算程序130执行附加处理以确定由MDM系统150返回的一行或多行,如果有的话,是否真正关联到任何所识别出的项。附加处理包括把每个所识别出的项关联到数据库实体表155中的一行或多行中所表示的属性值。如果没有行被返回,就不执行附加处理。
此外,数据库实体表155中的每一行都具有行位置索引与行得分,其中行得分可以由系统程序员/管理员在MDM系统150中或辅助计算机可读介质中配置并存储。行得分从0.0到1.0变动。而且,行位置索引是数据库实体表155中一行的位置,而且行得分代表企业对从电子文档提取出的、关联到该行的所识别出的项设置的重要性等级。文档敏感性计算程序130包括功能,该功能可以确定真正与所识别出的项关联的每一行的行位置索引与行得分,并且利用行位置索引与行得分来执行生成与电子文档关联的值所需的后续操作。
具体而言,为了生成与电子文档关联的值,如果确定了行得分的话,文档敏感性计算程序130就为每个所识别出的项计算列得分与行得分的第一乘积,以便获得子得分。否则,如果没有为所识别出的项之一确定行得分的话,则用于那个所识别出的项的子得分仅仅是列得分。此外,如果文档敏感性计算程序130确定尝试访问电子文档的特定终端用户对数据库实体表155中所代表的属性值具有完全的数据访问权限,则所识别出的项的子得分被丢弃,其中属性值基于模糊匹配技术匹配到所识别出的项。特别地,文档敏感性计算程序130可以通过使用关联到属性值的行位置索引和列位置索引来验证访问控制列表152,确定特定终端用户是否对数据库实体表155中所代表的属性值具有完全的数据访问权限。访问控制列表152指定特定终端用户可以访问的一组行位置索引和列位置索引。在可替换实施例中,文档敏感性计算程序130可以配置成对于任何在电子文档中出现多于一次的所识别出的项,只获得一个子得分。
在获得子得分之后,文档敏感性计算程序130通过从1.0中减去未丢弃的每个子得分来计算正规化的子得分。随后,文档敏感性计算程序130通过把每个正规化的子得分乘到一起来计算第二乘积,其中,如果只有一个正规化的子得分,则该第二得分就是这一个正规化的子得分。接下来,文档敏感性计算程序130计算1.0与第二乘积之间的差,以便获得与电子文档关联的值。以上提到的用于生成与电子文档关联的值的操作可以用表达式S(D,U)=1-∏(i,j)εI(D)(1-S(i,j,U))来表示,其中字母S代表与电子文档关联的值,字母D代表电子文档,字母U代表尝试访问该电子文档的特定终端用户,字母i是行位置索引,字母j是列位置索引,而I(D)代表电子文档中的一组项。文档敏感性计算程序130可以把与电子文档关联的值发送到敏感文档处理器程序160。敏感文档处理器程序160可以利用与电子文档关联的值来执行进一步的动作,所述动作可以包括电子文档的编校和/或向系统程序员/管理员通知对电子文档所尝试的访问。
图2绘出了包含信息的数据库实体表155。访问控制列表152指定终端用户对数据库实体表155中的信息的数据访问权限。在所公开的实施例中,数据库实体表155包括具有各自行位置索引205b-207b和各自行得分205c-207c的三行(即,实体)205a-207a。数据库实体表155还包括具有各自列位置索引210b-216b和各自列得分210c-216c的七个属性列210a-216a。
而且,特定终端用户访问包含数据库实体表155中的信息的电子文档的能力可以基于行得分205c-207c(如果确定了任意行得分的话)、列得分210c-216c及具有访问控制定义252-254的访问控制列表152。访问控制定义252-254可以每个都基于企业的技术需求和/或数据安全策略而被分配给特定的终端用户。例如,如果为该特定终端用户分配了访问控制定义252,则该特定终端用户具有观看电子文档中关联到行205a-207a的属性列210a中的信息的所识别项的数据访问权限。此外,如果为该特定终端用户分配了访问控制定义253,则该特定终端用户具有观看电子文档中关联到行205a-207a的属性列210a-214a中的及行207a的属性列210a-216a中的信息的所识别项的数据访问权限。在再一个例子中,如果为该特定终端用户分配了访问控制定义254,则该特定终端用户具有观看电子文档中对应于行205a-207a的属性列210a-214a中的及行205a和207a的属性列210a-216a中的信息的所识别项的数据访问权限。因而,访问控制定义252-254中的星号可以用于赋予特定终端用户对行205a-207a中的一行或多行和/或列210a-216a中的一列或多列的完全数据访问权限。
图3绘出了具有信息的电子文档300,所述信息包括一组项301,其中这组项301包括可以在数据库实体表155中的项302-323。文档敏感性计算程序130可以基于电子文档300中的信息、MDM系统150中的关联的结构化数据及尝试访问电子文档300的特定终端用户来生成与电子文档300关联的值。为了数据安全的目的,包括编校电子文档300和/或通知系统程序员/管理员该特定终端用户尝试对电子文档300的访问,由文档敏感性计算程序130生成的与电子文档300关联的值用于给电子文档300分类。
图4A和4B是说明文档敏感性计算程序130基于电子文档300中的信息、MDM系统150中的关联的结构化数据及尝试访问电子文档300的特定终端用户而生成与电子文档300关联的值的操作的流程图。具体而言,在所公开的实施例中,特定的终端用户利用应用程序110并且尝试通过应用程序110访问电子文档300。因此,应用程序110经网络112把数据请求发送到服务器计算机115,以便为该特定的终端用户检索电子文档300。数据请求包括识别特定终端用户和该特定终端用户尝试访问的电子文档300的数据。查询处理器125接收数据请求,并且,响应于接收到该数据请求,查询处理器125调用计算机命令从文档储存库120中检索电子文档300。
接下来,查询处理器125把电子文档300发送到文档敏感性计算程序130。文档敏感性计算程序130接收特定终端用户尝试访问的、包括那一组项301的电子文档300(方框400)。此外,文档敏感性计算程序130识别MDM系统150中数据库实体表155的每个属性列210a-216a中的属性值(方框405)。随后,文档敏感性计算程序130分别为每个属性列210a-216a生成电子词典135a-135g(方框410)。因而,电子词典135a-135g中的每一个都基于文档敏感性计算程序130的程序代码功能而与数据库实体表155的对应属性列210a-216a关联。具体而言,电子词典135a-135g中的每一个都是包含属性值的阵列,其中该属性值还在对应的属性列210a-216a中表示。例如,电子词典135a是包含还在属性列210a中表示的属性值的阵列,电子词典135b是包含还在属性列211a中表示的属性值的阵列,电子词典135c是包含还在属性列212a中表示的属性值的阵列,等等。在所公开的实施例中,只有一个具有七个属性列210a-216a的数据库实体表155。因此,文档敏感性计算程序130只生成七个电子词典135a-135g。但是,在其它实施例中,可以有多于一个具有一个或多个属性列的数据库实体表,这将需要生成附加的电子词典。
在生成电子词典135a-135g之后,文档敏感性计算程序130把电子文档300、规则集和所生成的电子词典135a-135g发送到从一组项301提取特定项302-323的信息提取程序140(方框415)。特别地,信息提取程序140是具有以下功能的软件程序:该功能可以接收电子文档300和规则集并且基于该规则集从所述一组项301中提取特定项302-323的。在可替换实施例中,规则集可以基于正则表达式或电子词典135a-135g来配置。为了利用基于电子词典135a-135g配置的规则集而从一组项中提取特定项302-323,信息提取程序140通过使用模糊技术来比较这组项301中的每个项与每个电子词典135a-135g。因而,信息提取程序140具有可以配置成访问电子词典135a-135g的模糊匹配功能。基于所述比较,信息提取程序140识别出在某种程度上与所生成的电子词典135a-135g之一中的属性值匹配的特定项302-320。
而且,电子词典135a-135g中的每一个都与数据库实体表155的对应属性列210a-216a关联。由于特定的项302-320在某种程度上与电子词典135a-135g之一中的属性值匹配,因此特定项302-320中每一个还与电子词典135a-135g之一和对应的属性列210a-216a之一关联。属性列210a-216a分别具有列位置索引210b-216b与列得分210c-216c。列得分210c-216c可以由系统程序员/管理员在MDM系统150中或辅助计算机可读介质中配置。
相应地,由于电子词典135a-135g和特定项302-320每个都与属性列210a-216a之一关联,因此它们还每个都与对应的列位置索引210b-216b之一和对应的列得分210c-216c之一关联。例如,电子词典135a及在某种程度上与电子词典135a中的属性值匹配的特定项302-305、308、311、314、317和319全都与属性列210a关联。因此,电子词典135a及特定项302-305、308、311、314、317和319还与列位置索引210b和列得分210c关联。在所公开的实施例中,通过使用模糊匹配功能,信息提取程序140确定关联到特定项302-320中每一个的列位置索引210b-216b。关联到特定项302-320中每一个的列位置索引210b-216b可以被文档敏感性计算程序130存储在连接到服务器计算机115的合适计算机可读有形存储设备上。此外,文档敏感性计算程序130可以利用列位置索引210b-216b获得关联到特定项302-320的列得分210c-216c。
在信息提取程序140执行模糊匹配之后,信息提取程序140把特定项302-320发送到文档敏感性计算程序130。文档敏感性计算程序130把特定项302-320发送到实体构造程序145,以便识别数据库实体表155中特定项302-320有可能关联到的一行或多行205a-207a(方框420)。实体构造程序145识别数据库实体表155中的特定项302-320有可能关联到的一行或多行205a-207a的过程被称为记录构造。因而,在实体构造程序145接收到特定项302-320之后,实体构造程序145把包括特定项302-320的查询发送到MDM系统150。响应于接收到该查询,MDM系统150确定可能关联到特定项302-320的一行或多行205a-207a,而且MDM系统150被配置成把这一行或多行205a-207a返回到文档敏感性计算程序130。接下来,文档敏感性计算程序130确定,如果作为记录构造的结果有任意行的话,由MDM系统150返回的行205a-207a中的那些关联到发送到实体构造程序145的一个或多个特定项302-320(方框425)。关联到行205a-207a之一的特定项302-320还分别关联到行位置索引205b-207b中的一个和行得分205c-207c中的一个。例如,如果特定项302关联到行205a,则特定项302还关联到行位置索引205b和行得分205c。
在所公开的实施例中,文档敏感性计算程序130具有可以确定关联到特定项302-320中每一个的行位置索引205a-207a的功能。关联到特定项302-320中每一个的行位置索引205b-207b可以由文档敏感性计算程序130储存在连接到服务器计算机115的合适计算机可读有形存储设备上。此外,文档敏感性计算程序130可以利用关联到特定项302-320的行位置索引205a-207a来获得关联到特定项302-320的相应行得分205c-207c。此外,文档敏感性计算程序130可以利用列得分210c-216c和行得分205c-207c来执行生成与电子文档300关联的值所需的后续操作。
在确定行205a-207a中的哪些与特定项302-320中的一个或多个关联之后,文档敏感性计算程序130基于特定项302-320并基于尝试访问电子文档300的特定终端用户来生成与电子文档300关联的值(方框430)。具体而言,文档敏感性计算程序130可以利用关联到特定项302-320的列位置索引210b-216b和行位置索引来定位并检索关联到特定项302-320的列得分210c-216c和行得分205c-207c。为了生成与电子文档300关联的值,如果确定了行得分的话,文档敏感性计算程序130就对于特定项302-320中每一个计算列得分与行得分的第一乘积,以便获得子得分。但是,如果对于特定项302-320之一没有确定行得分,则用于那个识别出的项的子得分仅仅是列得分。而且,如果文档敏感性计算程序130确定尝试访问电子文档300的特定终端用户对数据库实体表155中所代表的某些属性值具有完全的数据访问权限,并且一个或多个特定项302-320基于模糊匹配功能而匹配某些属性值,则用于匹配到某些属性值的一个或多个特定项302-320的子得分将被丢弃。具体而言,通过验证访问控制列表152,文档敏感性计算程序130可以确定尝试访问电子文档300的特定终端用户是否对数据库实体表155中所代表的属性值具有完全的数据访问权限。在可替换实施例中,文档敏感性计算程序130可以被配置成对于在电子文档300中出现多于一次的任何一个特定项302-320都只获得一个子得分。
在获得子得分之后,文档敏感性计算程序130通过从1.0中减去每个未丢弃的子得分来计算正规化的子得分。随后,文档敏感性计算程序130通过把每个正规化的子得分乘到一起来计算第二乘积,其中,如果只有一个正规化的子得分的话,第二乘积就是这一个正规化的子得分。接下来,文档敏感性计算程序130计算1.0与第二乘积之间的差,以便获得与电子文档300关联的值。
接下来,如果文档敏感性计算程序130确定与电子文档300关联的值高于可配置的阈值等级(决定块435的“是”分支),文档敏感性计算程序130就把电子文档300和与电子文档300关联的值发送到执行进一步动作以便保护电子文档300中的敏感信息的敏感文档处理器程序160(方框440)。具体而言,如果可配置的阈值等级被超过,这就指示由特定终端用户对电子文档300的访问可能违反了使用文档敏感性计算程序130的特定企业的数据安全策略。因此,进一步动作可以包括电子文档的编校和/或向系统程序员/管理员通知对电子文档300所尝试的访问,这可以保护电子文档300中的敏感信息。在文档敏感性计算程序130把电子文档300发送到敏感文档处理器程序160之后,文档敏感性计算程序130的进一步处理结束。
但是,如果文档敏感性计算程序130确定与电子文档300关联的值不高于可配置的阈值等级(决定块435的“否”分支),文档敏感性计算程序130就把电子文档300返回到特定的终端用户(方框445)。因而,如果可配置的阈值等级未被超过,这就指示特定终端用户对电子文档300的访问没有违反使用文档敏感性计算程序130的特定企业的数据安全策略。在文档敏感性计算程序130把电子文档300返回到特定终端用户之后,文档敏感性计算程序130的进一步处理结束。
图5是绘出对应于服务器计算机115的一组内部部件800a和一组外部部件900a及对应于客户端计算机105的一组内部部件800b和一组外部部件900b的框图500。内部部件800a和800b每个都包括一条或多条总线826上的一个或多个处理器820、一个或多个计算机可读RAM822、一个或多个计算机可读ROM824,及一个或多个操作系统828和一个或多个计算机可读有形存储设备830。客户端计算机105中的一个或多个操作系统828、应用程序110;及服务器计算机115中的文档储存库120、查询处理器125、MDM系统150、程序130、140、145和160都存储在一个或多个对应的计算机可读有形存储设备830上,以供一个或多个相应的处理器820经一个或多个相应的RAM822(一般包括高速缓存存储器)执行。在图5所说明的实施例中,计算机可读有形存储设备830中的每一个都是内部硬驱的磁盘存储设备。可替换地,计算机可读有形存储设备830中的每一个都是半导体存储设备,诸如ROM824、EPROM、闪存存储器或者可以存储计算机程序和数字信息的任何其它计算机可读有形存储设备。
每一组内部部件800a和800b都包括从/向一个或多个便携式计算机可读有形存储设备936读/写的R/W驱动器或接口832,其中的便携式计算机可读有形存储设备936是诸如CD-ROM、DVD、记忆棒、磁带、磁盘、光盘或半导体存储设备。客户端计算机105中的应用程序110;及服务器计算机115中的文档储存库120、查询处理器125、MDM系统150、程序130、140、145和160都可以存储在一个或多个对应的便携式计算机可读有形存储设备936上,经对应的R/W驱动器或接口832读取并加载到对应的硬驱830中。
此外,每一组内部部件800a和800b还包括网络适配器或接口836,诸如TCP/IP适配器卡、无线wi-fi接口卡或者3G或4G无线接口卡或者其它有线或无线通信链路。客户端计算机105中的应用程序110;及服务器计算机115中的查询处理器125、程序130、140、145和160都可以从外部计算机或者外部存储设备经网络(例如,互联网、LAN或WAN)和对应的网络适配器或接口836下载到对应的计算机105和115。从网络适配器或接口836,客户端计算机105中的应用程序110;及服务器计算机115中的查询处理器125、程序130、140、145和160被加载到对应的硬驱830中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或服务器。
每一组外部部件900a和900b都可包括计算机显示监视器920、键盘930和计算机鼠标934。外部部件900a和900b还可以包括触摸屏、虚拟键盘、触摸板、定点设备及其它人机接口设备。每一组内部部件800a和800b还包括到与计算机显示监视器920、键盘930和计算机鼠标934的接口的设备驱动器840。设备驱动器840、R/W驱动器或接口832和网络适配器或接口836包括硬件与软件,其中软件存储在计算机可读有形存储设备830和/或ROM824中。
应当认识到,图5只是提供了一种实现的说明而没有暗示对于其中可以实现不同实施例的环境的任何限制。对所述环境的各种修改都可以实现。而且,对所述环境的各种修改可以基于设计与实现需求进行。
根据以上所述,公开了基于电子文档中的信息、主数据管理系统中的关联的结构化数据及尝试访问该电子文档的特定终端用户来生成与电子文档关联的值的方法、计算机系统与计算机程序产品。但是,在不背离本发明实施例范围的情况下,可以进行各种修改替换。因此,本发明的一种或多种实施例是作为例子而不是限制公开的。

Claims (18)

1.一种用于生成与电子文档关联的值的计算机实现的方法,所述方法包括步骤:
接收电子文档;
接收识别尝试访问所述电子文档的终端用户的数据;
关联得分与所述电子文档中的项;以及
基于关联的得分生成与所述电子文档关联的值,其中所述值是特定于终端用户的。
2.如权利要求1所述的方法,其中关联得分与所述电子文档中的项的步骤包括:
生成电子词典。
3.如权利要求2所述的方法,其中关联得分与所述电子文档中的项的步骤还包括:
把所述电子文档发送到信息提取程序。
4.如权利要求2所述的方法,其中关联得分与所述电子文档中的项的步骤还包括:
确定在某种程度上与所述电子词典中的属性值匹配的项。
5.如权利要求1所述的方法,其中生成与所述电子文档关联的值的步骤包括:
对关联的得分执行计算以获得所述值。
6.如权利要求1所述的方法,其中与所述电子文档关联的值用于为了数据安全的目的而给所述电子文档分类。
7.一种用于生成与电子文档关联的值的计算机系统,包括:
用于接收电子文档的装置;
用于接收识别尝试访问所述电子文档的终端用户的数据的装置;
用于关联得分与所述电子文档中的项的装置;以及
用于基于关联的得分生成与所述电子文档关联的值的装置,其中所述值是特定于终端用户的。
8.如权利要求7所述的计算机系统,其中用于关联得分与所述电子文档中的项的装置包括:
用于生成电子词典的装置。
9.如权利要求8所述的计算机系统,其中用于关联得分与所述电子文档中的项的装置还包括:
用于把所述电子文档发送到信息提取程序的装置。
10.如权利要求8所述的计算机系统,其中用于关联得分与所述电子文档中的项的装置还包括:
用于确定在某种程度上与所述电子词典中的属性值匹配的项的装置。
11.如权利要求7所述的计算机系统,其中用于生成与所述电子文档关联的值的装置包括:
用于对关联的得分执行计算以获得所述值的装置。
12.如权利要求7所述的计算机系统,其中与所述电子文档关联的值用于为了数据安全的目的而给所述电子文档分类。
13.一种用于生成与电子文档关联的值的计算机系统,包括:
一个或多个处理器、一个或多个计算机可读存储器、一个或多个计算机可读存储介质及存储在所述一个或多个存储介质上的、由所述一个或多个处理器经所述一个或多个存储器执行的程序指令,所述程序指令包括:
用于接收电子文档的程序指令;
用于接收识别尝试访问所述电子文档的终端用户的数据的程序指令;
用于关联得分与所述电子文档中的项的程序指令;以及
用于基于关联的得分生成与所述电子文档关联的值的程序指令,其中所述值是特定于终端用户的。
14.如权利要求13所述的计算机系统,其中用于关联得分与所述电子文档中的项的程序指令包括:
用于生成电子词典的程序指令。
15.如权利要求14所述的计算机系统,其中用于关联得分与所述电子文档中的项的程序指令还包括:
用于把所述电子文档发送到信息提取程序的程序指令。
16.如权利要求14所述的计算机系统,其中用于关联得分与所述电子文档中的项的程序指令还包括:
用于确定在某种程度上与所述电子词典中的属性值匹配的项的程序指令。
17.如权利要求13所述的计算机系统,其中用于生成与所述电子文档关联的值的程序指令包括:
用于对关联的得分执行计算以获得所述值的程序指令。
18.如权利要求13所述的计算机系统,其中与所述电子文档关联的值用于为了数据安全的目的而给所述电子文档分类。
CN2013101790667A 2012-05-15 2013-05-15 用于生成与电子文档关联的值的方法与系统 Pending CN103425730A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US13/471,971 2012-05-15
US13/471,971 US8875302B2 (en) 2012-05-15 2012-05-15 Classification of an electronic document

Publications (1)

Publication Number Publication Date
CN103425730A true CN103425730A (zh) 2013-12-04

Family

ID=49582449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013101790667A Pending CN103425730A (zh) 2012-05-15 2013-05-15 用于生成与电子文档关联的值的方法与系统

Country Status (3)

Country Link
US (2) US8875302B2 (zh)
JP (1) JP6265622B2 (zh)
CN (1) CN103425730A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110998583A (zh) * 2017-07-19 2020-04-10 爱维士软件有限责任公司 识别和保护个人敏感文档
CN112052662A (zh) * 2019-06-06 2020-12-08 国际商业机器公司 作为用于确定文档质量的指标的相关性

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101473452B1 (ko) * 2013-09-04 2014-12-18 주식회사 마크애니 기업 내부 정보 보안을 강화하기 위한 방법, 시스템 및 장치
US9177174B1 (en) * 2014-02-06 2015-11-03 Google Inc. Systems and methods for protecting sensitive data in communications
US10997671B2 (en) 2014-10-30 2021-05-04 Intuit Inc. Methods, systems and computer program products for collaborative tax return preparation
US10223542B2 (en) * 2014-12-10 2019-03-05 International Business Machines Corporation Intelligent database with secure tables
US10482544B2 (en) * 2016-01-28 2019-11-19 Intuit Inc. Methods, systems and computer program products for masking tax data during collaborative tax return preparation
CN107203542A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 词组提取方法及装置
CN107515879B (zh) * 2016-06-16 2021-03-19 伊姆西Ip控股有限责任公司 用于文档检索的方法和电子设备
US11921765B2 (en) 2017-02-24 2024-03-05 Red Hat, Inc. Systematic iterative analysis of unstructured data files
US11438413B2 (en) * 2019-04-29 2022-09-06 EMC IP Holding Company LLC Intelligent data storage and management for cloud computing
WO2022047250A1 (en) * 2020-08-28 2022-03-03 Open Text Holdings, Inc. Token-based data security systems and methods
US20220114189A1 (en) * 2020-10-14 2022-04-14 International Business Machines Corporation Extraction of structured information from unstructured documents
US11734445B2 (en) * 2020-12-02 2023-08-22 International Business Machines Corporation Document access control based on document component layouts

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1363069A (zh) * 1999-05-20 2002-08-07 伊夫色什有限公司 信息管理、检索和显示系统以及相关方法
US20050154746A1 (en) * 2004-01-09 2005-07-14 Yahoo!, Inc. Content presentation and management system associating base content and relevant additional content
US20060075228A1 (en) * 2004-06-22 2006-04-06 Black Alistair D Method and apparatus for recognition and real time protection from view of sensitive terms in documents
US20090112867A1 (en) * 2007-10-25 2009-04-30 Prasan Roy Anonymizing Selected Content in a Document

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7428701B1 (en) 1998-12-18 2008-09-23 Appligent Inc. Method, system and computer program for redaction of material from documents
JP2007150466A (ja) * 2005-11-24 2007-06-14 Oki Electric Ind Co Ltd 携帯端末およびデータ復号化システム
JP4683420B2 (ja) * 2005-11-29 2011-05-18 キヤノンマーケティングジャパン株式会社 帳票登録装置、帳票登録方法、プログラム及び記憶媒体
US8196212B2 (en) * 2006-04-04 2012-06-05 Panasonic Corporation Personal information management device
EP2116952A4 (en) 2007-02-28 2015-04-08 Nec Corp INFORMATION PROCESSOR WITH LOCKING FUNCTION, LOCKING (RELEASE) METHOD FOR AN INFORMATION PROCESSOR AND PROGRAM THEREFOR
US7934249B2 (en) 2007-08-27 2011-04-26 Oracle International Corporation Sensitivity-enabled access control model
JP4666065B2 (ja) * 2008-12-03 2011-04-06 富士ゼロックス株式会社 情報処理装置及びプログラム
US8321398B2 (en) * 2009-07-01 2012-11-27 Thomson Reuters (Markets) Llc Method and system for determining relevance of terms in text documents
JP5568907B2 (ja) * 2009-07-03 2014-08-13 日本電気株式会社 情報アセスメントシステム、情報アセスメント方法及びプログラム
US9038168B2 (en) 2009-11-20 2015-05-19 Microsoft Technology Licensing, Llc Controlling resource access based on resource properties

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1363069A (zh) * 1999-05-20 2002-08-07 伊夫色什有限公司 信息管理、检索和显示系统以及相关方法
US20050154746A1 (en) * 2004-01-09 2005-07-14 Yahoo!, Inc. Content presentation and management system associating base content and relevant additional content
US20060075228A1 (en) * 2004-06-22 2006-04-06 Black Alistair D Method and apparatus for recognition and real time protection from view of sensitive terms in documents
US20090112867A1 (en) * 2007-10-25 2009-04-30 Prasan Roy Anonymizing Selected Content in a Document

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110998583A (zh) * 2017-07-19 2020-04-10 爱维士软件有限责任公司 识别和保护个人敏感文档
CN110998583B (zh) * 2017-07-19 2023-12-26 爱维士软件有限责任公司 识别和保护个人敏感文档
CN112052662A (zh) * 2019-06-06 2020-12-08 国际商业机器公司 作为用于确定文档质量的指标的相关性
CN112052662B (zh) * 2019-06-06 2024-02-02 国际商业机器公司 用于基于相关性的文档质量评估的方法和系统

Also Published As

Publication number Publication date
JP2013239159A (ja) 2013-11-28
US20130312105A1 (en) 2013-11-21
US20130312107A1 (en) 2013-11-21
US8875302B2 (en) 2014-10-28
JP6265622B2 (ja) 2018-01-24
US8863301B2 (en) 2014-10-14

Similar Documents

Publication Publication Date Title
CN103425730A (zh) 用于生成与电子文档关联的值的方法与系统
US12050560B2 (en) Systems and methods for in-place records management and content lifecycle management
US10454932B2 (en) Search engine with privacy protection
US9892278B2 (en) Focused personal identifying information redaction
US20230394175A1 (en) Tagging and auditing sensitive information in a database environment
US8904551B2 (en) Control of access to files
CN101986292A (zh) 根据图像处理表单的方法和系统
US11977660B2 (en) Machine learning modeling to identify sensitive data
US11392697B2 (en) Detection of malware in documents
US20200293683A1 (en) Tagging and auditing sensitive information in a database environment
US11394528B2 (en) System and method for on-demand unsupervised data analytics on blockchain
US20200311201A1 (en) Method and system to resolve ambiguities in regulations
CN111553318A (zh) 敏感信息提取方法、裁判文书处理方法、装置和电子设备
CN106547791A (zh) 一种数据访问方法及系统
US20100223576A1 (en) Electronic data classification system
Kanwal et al. Formal verification and complexity analysis of confidentiality aware textual clinical documents framework
Chen et al. Dynamic and semantic-aware access-control model for privacy preservation in multiple data center environments
JP2016071839A (ja) 秘密データを識別する方法、電子装置及びコンピュータ読み取り可能な記録媒体
US9876809B2 (en) Standard metadata model for analyzing events with fraud, attack, or any other malicious background
JP2020077039A (ja) サジェストキーワード提供システム、方法、およびプログラム
KR102311355B1 (ko) 이미지 및 음성파일의 단어와 화이트리스트를 사용하는 공공기관 또는 금융권 피싱 멀웨어 탐지방법
JP2016148969A (ja) 情報処理装置、情報処理システム、情報処理方法、及びプログラム
US11777959B2 (en) Digital security violation system
US20230123855A1 (en) Method and system for managing data insertions
Zhang et al. Beyond Dataset Watermarking: Model-Level Copyright Protection for Code Summarization Models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20131204

WD01 Invention patent application deemed withdrawn after publication