CN112800460A - 合同文件敏感数据的脱敏方法及系统 - Google Patents

合同文件敏感数据的脱敏方法及系统 Download PDF

Info

Publication number
CN112800460A
CN112800460A CN202110111160.3A CN202110111160A CN112800460A CN 112800460 A CN112800460 A CN 112800460A CN 202110111160 A CN202110111160 A CN 202110111160A CN 112800460 A CN112800460 A CN 112800460A
Authority
CN
China
Prior art keywords
contract
desensitization
content
category
sensitive data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110111160.3A
Other languages
English (en)
Inventor
黄山姗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202110111160.3A priority Critical patent/CN112800460A/zh
Publication of CN112800460A publication Critical patent/CN112800460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种合同文件敏感数据的脱敏方法及系统,其中,该合同文件敏感数据的脱敏方法包括:合同类别识别步骤,用于获取待识别的合同文件并识别所述合同文件的所属合同类别;内容模块识别步骤,用于基于所述合同类别识别所述合同文件中的多个内容模块;敏感信息识别步骤,用于识别每一所述内容模块中敏感信息,并对所述敏感信息关联对应的预设脱敏规则;脱敏合同获取步骤,用于根据所述脱敏规则对所述敏感信息进行数据脱敏处理,并生成脱敏合同文件。通过本申请,提高了数据脱敏的准确性,降低工作时间成本。

Description

合同文件敏感数据的脱敏方法及系统
技术领域
本申请涉及互联网技术领域,特别是涉及一种合同文件敏感数据的脱敏方法及系统。
背景技术
数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。
在企业内部,经常会存在一些合同、协议数据文件需要传输、查阅的场景,但合同本身存在较多敏感信息,包括企业的信息、联系方式、账号信息等,并不是所有场景都需要了解合同的全部内容,当公司非法务人员需求进行查阅时经常要层层审批,而参与审批环节的人员并不一定了解原始查阅需求,可能出现审批内容与需求内容不符,或者提供多于需求的内容等情况,可以将合同中对于企业比较敏感的信息进行数据脱敏处理,简化审批流程,同时也避免放大需求多提供敏感数据的情况。
现有技术可以使用通用的分词技术或者规则匹配,获取敏感信息,然后进行进一步的脱敏处理。针对于合同信息有自己比较标准的语言语义,采用通用的方式会出现误判或者遗漏的情况,例如合同中的标准报价可能被误认为合同金额,可能会被误判,并且合同中标准的确定不存在敏感信息的内容较多,如对全部内容进行判断会增加判断时间。
发明内容
本申请实施例提供了一种合同文件敏感数据的脱敏方法、系统、计算机设备和计算机可读存储介质,通过解析识别合同文件的内容模块定位敏感信息并基于所述脱敏规则针对性的对所述敏感信息进行数据脱敏处理,提高了数据脱敏的准确性,降低工作时间成本。
第一方面,本申请实施例提供了一种合同文件敏感数据的脱敏方法,包括:
合同类别识别步骤,用于获取待识别的合同文件并识别所述合同文件的所属合同类别,所述合同类别为预先定义的,所述合同类别包括但不限于保密协议、服务协议、销售合同、采购合同;
内容模块识别步骤,用于基于所述合同类别识别所述合同文件中的多个内容模块,具体的,通过文本识别算法解析所述合同文件的合同内容得到多个内容单元,通过匹配所述内容单元与所述内容模块识别所述内容模块,所述内容模块为基于所述合同类别预先定义的,针对所述内容模块举例而非限制,如保密协议中的保密信息、保密义务,服务协议中的服务提供内容、款项及支付;
敏感信息识别步骤,用于识别每一所述内容模块中敏感信息,并对所述敏感信息关联对应的预设脱敏规则;具体的,所述敏感信息表现为个人隐私信息,由于涉及个人隐私信息,可选的,所述敏感信息根据现有法律法规预先定义,以便于标准化个人隐私信息的范畴;针对所述敏感信息举例而非限制,如姓名、手机号、地址、付款金额、付款账户等个人隐私信息;
脱敏合同获取步骤,用于根据所述脱敏规则对所述敏感信息进行数据脱敏处理,并生成脱敏合同文件。
在其中一些实施例中,所述合同类别识别步骤进一步包括:
合同名称识别步骤,用于通过文本识别算法识别所述合同文件的合同名称并将所述合同名称与预先定义的合同类别进行匹配,以获取所述合同文件所属的合同类别。
在其中一些实施例中,所述合同类别识别步骤进一步包括:
内容单元识别步骤,用于通过文本识别算法解析所述合同文件的合同内容获取所述合同内容的内容单元,通过匹配内容获取所述内容单元对应的内容模块,根据所述内容模块获取所述合同文件所属的合同类别,从而确认所述合同文件的合同类别。
通过上述步骤,当所述合同名称识别步骤无法识别合同类别时,可通过上述步骤识别合同文件的合同类别,也可以是组合利用合同名称识别或内容单元识别。
在其中一些实施例中,所述脱敏规则通过一敏感数据表进行存储,所述敏感数据列表至少包括敏感信息及其对应的脱敏方式;具体的,每个种类的敏感数据可对应不同的可选择的脱敏方式。
在其中一些实施例中,所述脱敏方式进一步包括:遮蔽脱敏、保格式脱敏、Hash脱敏及变换脱敏其一或其任意组合。其中,遮蔽脱敏方式是对数据的全部或者一部分用符号替换;保格式脱敏方式是保留数据的主要格式;Hash脱敏是采用Hash算法将数据转换为字符形式,变换脱敏是通过取证或字符位移的方式对数据进行处理。
在其中一些实施例中,由于合同文件自身的重要程度不同结合公司的规章制度,以及针对于合同的查看需求不同,可将所述敏感数据和对应的脱敏方式设置不同的级别,具体的,可对合同文件重要程度、用户等级、脱敏方式级别进行适应性定义,所述敏感数据对应不同级别的用户等级或重要程度时的脱敏方式不同,以便于在不同人员申请查看合同的时候,自动根据申请人员的职位及需求对应到不同的脱敏方式,实现不同人员不同需求对于同一份合同看到的脱敏效果不同。
第二方面,本申请实施例提供了一种合同文件敏感数据的脱敏系统,包括:
合同类别识别单元,用于获取待识别的合同文件并识别所述合同文件的所属合同类别,所述合同类别为预先定义的,所述合同类别包括但不限于保密协议、服务协议、销售合同、采购合同;
内容模块识别单元,用于基于所述合同类别识别所述合同文件中的多个内容模块,具体的,通过文本识别算法解析所述合同文件的合同内容得到多个内容单元,通过匹配所述内容单元与所述内容模块识别所述内容模块,所述内容模块为基于所述合同类别预先定义的,针对所述内容模块举例而非限制,如保密协议中的保密信息、保密义务,服务协议中的服务提供内容、款项及支付;
敏感信息识别单元,用于识别每一所述内容模块中敏感信息,并对所述敏感信息关联对应的预设脱敏规则;具体的,所述敏感信息表现为个人隐私信息,由于涉及个人隐私信息,可选的,所述敏感信息根据现有法律法规预先定义,以便于标准化个人隐私信息的范畴;针对所述敏感信息举例而非限制,如姓名、手机号、地址、付款金额、付款账户等个人隐私信息;
脱敏合同获取单元,用于根据所述脱敏规则对所述敏感信息进行数据脱敏处理,并生成脱敏合同文件。
在其中一些实施例中,所述合同类别识别单元进一步包括:
合同名称识别单元,用于通过文本识别算法识别所述合同文件的合同名称并将所述合同名称与预先定义的合同类别进行匹配,以获取所述合同文件所属的合同类别。
在其中一些实施例中,所述合同类别识别单元进一步包括:
内容单元识别单元,用于通过文本识别算法解析所述合同文件的合同内容获取所述合同内容的内容单元,通过匹配内容获取所述内容单元对应的内容模块,根据所述内容模块获取所述合同文件所属的合同类别,从而确认所述合同文件的合同类别。
通过上述单元,当所述合同名称识别单元无法识别合同类别时,可通过上述单元识别合同文件的合同类别。
在其中一些实施例中,所述脱敏规则通过一敏感数据表进行存储,所述敏感数据列表至少包括敏感信息及其对应的脱敏方式;具体的,每个种类的敏感数据可对应不同的可选择的脱敏方式。
在其中一些实施例中,所述脱敏方式进一步包括:遮蔽脱敏、保格式脱敏、Hash脱敏及变换脱敏其一或其任意组合。其中,遮蔽脱敏方式是对数据的全部或者一部分用符号替换;保格式脱敏方式是保留数据的主要格式;Hash脱敏是采用Hash算法将数据转换为字符形式,变换脱敏是通过取证或字符位移的方式对数据进行处理。
在其中一些实施例中,由于合同文件自身的重要程度不同结合公司的规章制度,以及针对于合同的查看需求不同,可将所述敏感数据和对应的脱敏方式设置不同的级别,具体的,可对合同文件重要程度、用户等级、脱敏方式级别进行适应性定义,所述敏感数据对应不同级别的用户等级或重要程度时的脱敏方式不同,以便于在不同人员申请查看合同的时候,自动根据申请人员的职位及需求对应到不同的脱敏方式,实现不同人员不同需求对于同一份合同看到的脱敏效果不同。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的合同文件敏感数据的脱敏方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的合同文件敏感数据的脱敏方法。
相比于相关技术,本申请实施例提供的合同文件敏感数据的脱敏方法级系统,通过可程序化的针对敏感数据定义、脱敏规则进行标准定义,并通过解析合同文件识别所述合同文件对应的合同类别及其包含的内容模块,对便于定位判断内容模块中的敏感数据,针对性的对合同文件进行数据脱敏处理,既降低时间成本,又通过针对性数据脱敏提高了数据处理的准确性。
另外,通过所述预设的脱敏规则可根据应用需求对敏感信息及其脱敏规则进行适应性调整,适用范围更广。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的合同文件敏感数据的脱敏方法的流程图;
图2是根据本申请实施例的合同文件敏感数据的脱敏系统的结构框图;
图3是根据本申请优选实施例的合同文件结构示意图。
附图说明:
1、合同类别识别单元;2、内容模块识别单元;3、敏感信息识别单元;4、脱敏合同获取单元;101、合同名称识别单元;102、内容单元识别单元。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本实施例应用于企业内部或合作方之间合同、协议等数据文件需要传输、查阅的场景,但合同本身存在较多敏感信息,包括企业的信息、联系方式、账号信息等,并不是所有场景都需要了解合同的全部内容,当公司非法务人员需求进行查阅时经常要层层审批,而参与审批环节的人员并不一定了解原始查阅需求,可能出现审批内容与需求内容不符,或者提供多于需求的内容等情况,可以将合同中对于企业比较敏感的信息进行数据脱敏处理,简化审批流程,同时也避免放大需求多提供敏感数据的情况。本实施例并不限于合同文件,也可以应用于制式文件或标准化文件的数据脱敏处理中。
本实施例提供了一种合同文件敏感数据的脱敏方法。图1是根据本申请实施例的合同文件敏感数据的脱敏方法的流程图,如图1所示,该流程包括如下步骤:
合同类别识别步骤S1,用于获取待识别的合同文件并识别合同文件的所属合同类别,合同类别为预先定义的,合同类别包括但不限于保密协议、服务协议、销售合同、采购合同;
内容模块识别步骤S2,用于基于合同类别识别合同文件中的多个内容模块,具体的,通过文本识别算法解析合同文件的合同内容得到多个内容单元,通过匹配内容单元与内容模块识别内容模块,内容模块为基于合同类别预先定义的,针对内容模块举例而非限制,参考图3所示,如保密协议中的保密信息、保密义务,服务协议中的服务提供内容、款项及支付;
敏感信息识别步骤S3,用于识别每一内容模块中敏感信息,并对敏感信息关联对应的预设脱敏规则;具体的,敏感信息表现为个人隐私信息,由于涉及个人隐私信息,可选的,敏感信息根据现有法律法规预先定义,以便于标准化个人隐私信息的范畴;举例而非限制,合同和/或协议中涉及敏感信息如下表所示:
Figure BDA0002919262660000071
Figure BDA0002919262660000081
脱敏合同获取步骤S4,用于根据脱敏规则对敏感信息进行数据脱敏处理,并生成脱敏合同文件。
基于上述步骤,本申请实施例的合同文件敏感数据脱敏方法通过可程序化的针对敏感数据定义、脱敏规则进行标准定义,并通过解析合同文件识别合同文件对应的合同类别及其包含的内容模块,对便于定位判断内容模块中的敏感数据,针对性的对合同文件进行数据脱敏处理,既降低时间成本,又通过针对性数据脱敏提高了数据处理的准确性。
在其中一些实施例中,合同类别识别步骤S1进一步包括:
合同名称识别步骤S101,用于通过文本识别算法识别合同文件的合同名称并将合同名称与预先定义的合同类别进行匹配,以获取合同文件所属的合同类别。
在其中一些实施例中,合同类别识别步骤S1进一步包括:
内容单元识别步骤S102,用于通过文本识别算法解析合同文件的合同内容获取合同内容的内容单元,通过匹配内容获取内容单元对应的内容模块,根据内容模块获取合同文件所属的合同类别,从而确认合同文件的合同类别。
通过上述步骤,当合同名称识别步骤无法识别合同类别时,可通过上述步骤识别合同文件的合同类别,上述步骤可以是单独使用也可以是组合使用。
在其中一些实施例中,脱敏规则通过一敏感数据表进行存储,敏感数据列表至少包括敏感信息及其对应的脱敏方式;具体的,每个种类的敏感数据可对应不同的可选择的脱敏方式。通过预设的脱敏规则可根据应用需求对敏感信息及其脱敏规则进行适应性调整,适用范围更广。
在其中一些实施例中,脱敏方式进一步包括:遮蔽脱敏、保格式脱敏、Hash脱敏及变换脱敏其一或其任意组合。其中,遮蔽脱敏方式是对数据的全部或者一部分用符号替换,举例而非限制,如部分隐藏或全部隐藏姓名,将张三脱敏为张*;保格式脱敏方式是保留数据的主要格式,例如:对于身份证只需保证为18位数字,手机号为11号数字。针对保格式脱敏举例而非限制,如对手机号“13922222222”进行脱敏,脱敏后手机号为“13366888888”,即看上去也是手机号但不是原手机号;Hash脱敏是采用Hash算法将数据转换为字符形式,变换脱敏是通过取证或字符位移的方式对数据进行处理;针对Hash脱敏举例而非限制,如对手机号采用Hash算法转换为字符形式,采用Hash算法将所有内容转化成32位字符,脱敏后的手机号为“aa29005af35436763894c61b1f3f6f”,上述Hash算法可以是多种Hash算法,也可以是多种Hash算法的组合。针对变换脱敏举例而非限制,如针对生日“1993年8月1日”进行日期取整脱敏,对生日日期设置日期取整参数为保留到年,脱敏为“1993”。以上仅为对本申请的脱敏方式进行举例说明,并不构成对脱敏方式的限定,其他如替换脱敏、加密脱敏等脱敏方式也可以作为本申请的替换方案。
在其中一些实施例中,由于合同文件自身的重要程度不同结合公司的规章制度,以及针对于合同的查看需求不同,可将敏感数据和对应的脱敏方式设置不同的级别,具体的,可对合同文件重要程度、用户等级、脱敏方式级别进行适应性定义,敏感数据对应不同级别的用户等级或重要程度时的脱敏方式不同,以便于在不同人员申请查看合同的时候,自动根据申请人员的职位及需求对应到不同的脱敏方式,实现不同人员不同需求对于同一份合同看到的脱敏效果不同。
下面通过优选实施例对本申请实施例进行描述和说明。
首先,基于步骤S1识别出合同类别,例如保密协议、服务协议、销售合同、采购合同等;
然后,基于步骤S2识别出对应合同类别下的内容模块,例如保密协议中的保密信息、保密义务;或服务协议中的服务提供内容、价格及支付方式等
合同中的一些内容模块肯定不涉及敏感信息,在识别出内容模块对应的范围后可不处理。针对于可能涉及敏感信息的内容模块再进行处理,例如针对于价格与支付模块,就需要识别出付款的金额、付款的账户相关信息等。因此,进一步,基于步骤S3识别出内容模块中的敏感信息,并针对于敏感信息关联对应的脱敏规则,这个可根据公司内部的规章制度以及申请查看合同数据的人员需求选择针对于敏感信息保留到什么程度,例如对于姓名“张星星”,可采用保留姓隐藏名的方式转变为“张**”,或者变成非实际真实姓名“王小二”,或者全部隐藏为“*****”。
最后,在不改变原始合同信息的基础上,基于步骤S4重新生成按照基于上述步骤进行敏感信息后的合同文件,并提供给需求方。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种合同文件敏感数据的脱敏系统,该系统用于实现上述实施例及优选实施方式。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图2是根据本申请实施例的合同文件敏感数据的脱敏系统的结构框图,如图2所示,该系统包括:
合同类别识别单元1,用于获取待识别的合同文件并识别合同文件的所属合同类别,具体的,合同类别为预先定义的,合同类别包括但不限于保密协议、服务协议、销售合同、采购合同;其中,合同类别识别单元1进一步包括:合同名称识别单元101,用于通过文本识别算法识别合同文件的合同名称并将合同名称与预先定义的合同类别进行匹配,以获取合同文件所属的合同类别。内容单元识别单元102,用于通过文本识别算法解析合同文件的合同内容获取合同内容的内容单元,通过匹配内容获取内容单元对应的内容模块,根据内容模块获取合同文件所属的合同类别,从而确认合同文件的合同类别。通过上述单元,当合同名称识别单元无法识别合同类别时,可通过上述单元识别合同文件的合同类别。上述单元可以是单独使用也可以是组合使用。
内容模块识别单元2,用于基于合同类别识别合同文件中的多个内容模块,具体的,通过文本识别算法解析合同文件的合同内容得到多个内容单元,通过匹配内容单元与内容模块识别内容模块,内容模块为基于合同类别预先定义的,针对内容模块举例而非限制,如保密协议中的保密信息、保密义务,服务协议中的服务提供内容、款项及支付;
敏感信息识别单元3,用于识别每一内容模块中敏感信息,并对敏感信息关联对应的预设脱敏规则;具体的,敏感信息表现为个人隐私信息,由于涉及个人隐私信息,可选的,敏感信息根据现有法律法规预先定义,以便于标准化个人隐私信息的范畴;针对敏感信息举例而非限制,如姓名、手机号、地址、付款金额、付款账户等个人隐私信息;可选的,脱敏规则通过一敏感数据表进行存储,敏感数据列表至少包括敏感信息及其对应的脱敏方式;具体的,每个种类的敏感数据可对应不同的可选择的脱敏方式。通过预设的脱敏规则可根据应用需求对敏感信息及其脱敏规则进行适应性调整,适用范围更广。进一步的,脱敏方式进一步包括:遮蔽脱敏、保格式脱敏、Hash脱敏及变换脱敏其一或其任意组合。其中,遮蔽脱敏方式是对数据的全部或者一部分用符号替换,举例而非限制,如部分隐藏或全部隐藏姓名,将张三脱敏为张*;保格式脱敏方式是保留数据的主要格式,例如:对于身份证只需保证为18位数字,手机号为11号数字。针对保格式脱敏举例而非限制,如对手机号“13922222222”进行脱敏,脱敏后手机号为“13366888888”,即看上去也是手机号但不是原手机号;Hash脱敏是采用Hash算法将数据转换为字符形式,变换脱敏是通过取证或字符位移的方式对数据进行处理;针对Hash脱敏举例而非限制,如对手机号采用Hash算法转换为字符形式,可选的,采用Hash算法将所有内容转化成32位字符,脱敏后的手机号为“aa29005af35436763894c61b1f3f6f”,上述Hash算法可以是多种Hash算法,也可以是多种Hash算法的组合。针对变换脱敏举例而非限制,如针对生日“1993年8月1日”进行日期取整脱敏,对生日日期设置日期取整参数为保留到年,脱敏为“1993”。以上仅为对本申请的脱敏方式进行举例说明,并不构成对脱敏方式的限定,其他如替换脱敏、加密脱敏等脱敏方式也可以作为本申请的替换方案。
脱敏合同获取单元4,用于根据脱敏规则对敏感信息进行数据脱敏处理,并生成脱敏合同文件。
基于上述单元,本申请实施例的合同文件敏感数据脱敏系统通过可程序化的针对敏感数据定义、脱敏规则进行标准定义,并通过解析合同文件识别合同文件对应的合同类别及其包含的内容模块,对便于定位判断内容模块中的敏感数据,针对性的对合同文件进行数据脱敏处理,既降低时间成本,又通过针对性数据脱敏提高了数据处理的准确性。
在其中一些实施例中,由于合同文件自身的重要程度不同结合公司的规章制度,以及针对于合同的查看需求不同,可将敏感数据和对应的脱敏方式设置不同的级别,具体的,可对合同文件重要程度、用户等级、脱敏方式级别进行适应性定义,敏感数据对应不同级别的用户等级或重要程度时的脱敏方式不同,以便于在不同人员申请查看合同的时候,自动根据申请人员的职位及需求对应到不同的脱敏方式,实现不同人员不同需求对于同一份合同看到的脱敏效果不同。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合图1描述的本申请实施例合同文件敏感数据的脱敏方法可以由计算机设备来实现。该计算机设备可以包括处理器以及存储有计算机程序指令的存储器。
具体地,上述处理器可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器可在数据处理装置的内部或外部。在特定实施例中,存储器是非易失性(Non-Volatile)存储器。在特定实施例中,存储器包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random AccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。
处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种合同文件敏感数据的脱敏方法。
另外,结合上述实施例中的合同文件敏感数据的脱敏方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种合同文件敏感数据的脱敏方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种合同文件敏感数据的脱敏方法,其特征在于,包括:
合同类别识别步骤,用于获取待识别的合同文件并识别所述合同文件的所属合同类别;
内容模块识别步骤,用于基于所述合同类别识别所述合同文件中的多个内容模块;
敏感信息识别步骤,用于识别每一所述内容模块中敏感信息,并对所述敏感信息关联对应的预设脱敏规则;
脱敏合同获取步骤,用于根据所述脱敏规则对所述敏感信息进行数据脱敏处理,并生成脱敏合同文件。
2.根据权利要求1所述的合同文件敏感数据的脱敏方法,其特征在于,所述合同类别识别步骤进一步包括:
合同名称识别步骤,用于识别所述合同文件的合同名称并将所述合同名称与预先定义的合同类别进行匹配,以获取所述合同文件所属的合同类别。
3.根据权利要求1或2所述的合同文件敏感数据的脱敏方法,其特征在于,所述合同类别识别步骤进一步包括:
内容单元识别步骤,用于通过解析所述合同文件的合同内容获取所述合同内容的内容单元,通过匹配内容获取所述内容单元对应的内容模块,根据所述内容模块获取所述合同文件所属的合同类别。
4.根据权利要求3所述的合同文件敏感数据的脱敏方法,其特征在于,所述脱敏规则通过一敏感数据表进行存储,所述敏感数据列表至少包括敏感信息及其对应的脱敏方式。
5.根据权利要求4所述的合同文件敏感数据的脱敏方法,其特征在于,所述脱敏方式进一步包括:遮蔽脱敏、保格式脱敏、Hash脱敏及变换脱敏其一或其任意组合。
6.一种合同文件敏感数据的脱敏系统,其特征在于,包括:
合同类别识别单元,用于获取待识别的合同文件并识别所述合同文件的所属合同类别;
内容模块识别单元,用于基于所述合同类别识别所述合同文件中的多个内容模块;
敏感信息识别单元,用于识别每一所述内容模块中敏感信息,并对所述敏感信息关联对应的预设脱敏规则;
脱敏合同获取单元,用于根据所述脱敏规则对所述敏感信息进行数据脱敏处理,并生成脱敏合同文件。
7.根据权利要求6所述的合同文件敏感数据的脱敏系统,其特征在于,所述合同类别识别单元进一步包括:
合同名称识别单元,用于识别所述合同文件的合同名称并将所述合同名称与预先定义的合同类别进行匹配,以获取所述合同文件所属的合同类别。
8.根据权利要求6或7所述的合同文件敏感数据的脱敏系统,其特征在于,所述合同类别识别单元进一步包括:
内容单元识别单元,用于通过解析所述合同文件的合同内容获取所述合同内容的内容单元,通过匹配内容获取所述内容单元对应的内容模块,根据所述内容模块获取所述合同文件所属的合同类别。
9.根据权利要求8所述的合同文件敏感数据的脱敏系统,其特征在于,所述脱敏规则通过一敏感数据表进行存储,所述敏感数据列表至少包括敏感信息及其对应的脱敏方式。
10.根据权利要求9所述的合同文件敏感数据的脱敏系统,其特征在于,所述脱敏方式进一步包括:遮蔽脱敏、保格式脱敏、Hash脱敏及变换脱敏其一或其任意组合。
CN202110111160.3A 2021-01-27 2021-01-27 合同文件敏感数据的脱敏方法及系统 Pending CN112800460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110111160.3A CN112800460A (zh) 2021-01-27 2021-01-27 合同文件敏感数据的脱敏方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110111160.3A CN112800460A (zh) 2021-01-27 2021-01-27 合同文件敏感数据的脱敏方法及系统

Publications (1)

Publication Number Publication Date
CN112800460A true CN112800460A (zh) 2021-05-14

Family

ID=75812173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110111160.3A Pending CN112800460A (zh) 2021-01-27 2021-01-27 合同文件敏感数据的脱敏方法及系统

Country Status (1)

Country Link
CN (1) CN112800460A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722083A (zh) * 2022-01-06 2022-07-08 广东电力信息科技有限公司 一种合同信息储存分类管理方法和装置
CN114943969A (zh) * 2022-06-16 2022-08-26 平安普惠企业管理有限公司 智能识别敏感信息并脱敏的方法、装置、设备及存储介质
CN115640610A (zh) * 2022-11-04 2023-01-24 维正科技服务有限公司 在线文件脱敏处理方法、装置、设备及存储介质
CN117592088A (zh) * 2024-01-18 2024-02-23 青岛闪收付信息技术有限公司 一种电子合同文本敏感数据信息优化处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108418676A (zh) * 2018-01-26 2018-08-17 山东超越数控电子股份有限公司 一种基于权限的数据脱敏方法
CN108681676A (zh) * 2018-04-03 2018-10-19 北京市商汤科技开发有限公司 数据管理方法和装置、系统、电子设备、程序和存储介质
CN109344382A (zh) * 2018-10-23 2019-02-15 出门问问信息科技有限公司 审核合同的方法、装置、电子设备及计算机可读存储介质
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统
CN110866281A (zh) * 2019-11-20 2020-03-06 满江(上海)软件科技有限公司 一种用于敏感数据的安全合规处理系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108418676A (zh) * 2018-01-26 2018-08-17 山东超越数控电子股份有限公司 一种基于权限的数据脱敏方法
CN108681676A (zh) * 2018-04-03 2018-10-19 北京市商汤科技开发有限公司 数据管理方法和装置、系统、电子设备、程序和存储介质
CN109344382A (zh) * 2018-10-23 2019-02-15 出门问问信息科技有限公司 审核合同的方法、装置、电子设备及计算机可读存储介质
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统
CN110866281A (zh) * 2019-11-20 2020-03-06 满江(上海)软件科技有限公司 一种用于敏感数据的安全合规处理系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114722083A (zh) * 2022-01-06 2022-07-08 广东电力信息科技有限公司 一种合同信息储存分类管理方法和装置
CN114943969A (zh) * 2022-06-16 2022-08-26 平安普惠企业管理有限公司 智能识别敏感信息并脱敏的方法、装置、设备及存储介质
CN115640610A (zh) * 2022-11-04 2023-01-24 维正科技服务有限公司 在线文件脱敏处理方法、装置、设备及存储介质
CN117592088A (zh) * 2024-01-18 2024-02-23 青岛闪收付信息技术有限公司 一种电子合同文本敏感数据信息优化处理方法
CN117592088B (zh) * 2024-01-18 2024-03-29 青岛闪收付信息技术有限公司 一种电子合同文本敏感数据信息优化处理方法

Similar Documents

Publication Publication Date Title
CN112800460A (zh) 合同文件敏感数据的脱敏方法及系统
CN109815742B (zh) 数据脱敏方法及装置
CN110826006B (zh) 基于隐私数据保护的异常采集行为识别方法和装置
CN109460944B (zh) 基于大数据的核保方法、装置、设备及可读存储介质
EP3166053A1 (en) Computer-implemented system and method for automatically identifying attributes for anonymization
US11144669B1 (en) Machine learning methods and systems for protection and redaction of privacy information
CN110489415B (zh) 一种数据更新方法及相关设备
CN109086317B (zh) 风险控制方法和相关装置
US20190109837A1 (en) Systems and methods of user authentication for data services
CN116194922A (zh) 保护文档中的敏感数据
CN114760149B (zh) 数据跨境合规管控方法、装置、计算机设备及存储介质
CN114186275A (zh) 隐私保护方法、装置、计算机设备及存储介质
CN112801646B (zh) 数据处理方法和装置
US20050091101A1 (en) Systems and methods for user-tailored presentation of privacy policy data
CN110033365A (zh) 一种个人信用贷款审批系统及方法
CN106161095B (zh) 数据泄露的预警方法及装置
WO2016028442A1 (en) Systems and methods for detecting sensitive user data on the internet
CN113553583A (zh) 信息系统资产安全风险评估方法与装置
CN113687800A (zh) 文件打印处理方法、装置、计算机设备和存储介质
CN116366338A (zh) 一种风险网站识别方法、装置、计算机设备及存储介质
CN109558409A (zh) 数据处理方法及装置
WO2019144806A1 (zh) 信息分享方法、装置和电子设备
CN109800556A (zh) 一种电子平台系统
CN112099870B (zh) 文档处理方法、装置、电子设备及计算机可读存储介质
CN111008377B (zh) 账号监控方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination