CN111859451A - 多源多模态数据的处理系统及应用该系统的方法 - Google Patents
多源多模态数据的处理系统及应用该系统的方法 Download PDFInfo
- Publication number
- CN111859451A CN111859451A CN202010718898.1A CN202010718898A CN111859451A CN 111859451 A CN111859451 A CN 111859451A CN 202010718898 A CN202010718898 A CN 202010718898A CN 111859451 A CN111859451 A CN 111859451A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- modal
- desensitization
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012545 processing Methods 0.000 title claims abstract description 30
- 238000000586 desensitisation Methods 0.000 claims abstract description 70
- 238000005259 measurement Methods 0.000 claims abstract description 34
- 238000013500 data storage Methods 0.000 claims abstract description 22
- 238000007635 classification algorithm Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 230000004927 fusion Effects 0.000 claims description 28
- 238000007499 fusion processing Methods 0.000 claims description 14
- 230000003068 static effect Effects 0.000 claims description 6
- 238000012544 monitoring process Methods 0.000 claims description 5
- 238000011217 control strategy Methods 0.000 claims description 3
- 238000013075 data extraction Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000007726 management method Methods 0.000 claims description 3
- 238000004519 manufacturing process Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 description 7
- 238000012502 risk assessment Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006378 damage Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001681 protective effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Storage Device Security (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供多源多模态数据的处理系统及应用该系统的方法,该处理系统包括:多源多模态数据存储模块,策略控制模块,风险度量模块,数据发现引擎模块,数据脱敏引擎模块,多模态敏感数据分类算法库模块,多模态数据脱敏算法库模块和多源多模态数据访问总线模块;多源多模态数据访问总线模块为其它模块提供了访问多源多模态数据存储模块的接口,实现多源多模态数据的读取、解析和写入。本发明解决现有技术中对多源多模态数据中敏感信息漏识别或误识别、敏感信息未脱敏或脱敏不充分的问题。
Description
技术领域
本发明涉及网络安全与隐私保护领域的数据安全领域,具体涉及多源多模态数据的处理系统及应用该系统的方法。
背景技术
随着移动互联网和人工智能技术的发展,企业收集和使用的数据来源越来越多样化,其中也涉及敏感的个人信息。这些个人信息以不同的数据格式或模态存储,例如文本格式的手机号码、图像格式的身份证件、音频格式的聊天记录、视频格式的监控记录。针对这些不同的数据格式及不同的业务应用场景,企业可能会采用不同的数据管理系统。
多源多模态数据给敏感信息的识别、分类和保护带来了挑战。单一数据源或单模态的数据可能不是敏感信息,但多个不同数据源或数据格式的数据关联在一起时,则有可能重识别到敏感信息。现有技术采用单一数据源或数据格式的敏感信息,没有考虑对多源多模态数据进行融合来识别、分类和保护敏感信息。
发明内容
为了解决上述问题,本发明提供一种多源多模态数据的处理系统,解决现有技术中对多源多模态数据中个人信息漏识别或误识别、个人信息未脱敏或脱敏不充分的问题。
在一种实施方式中,本发明提供一种多源多模态数据的处理系统,所述处理系统包括:多源多模态数据存储模块,策略控制模块,风险度量模块,数据发现引擎模块,数据脱敏引擎模块,多模态敏感数据分类算法库模块,多模态数据脱敏算法库模块和多源多模态数据访问总线模块;策略控制模块是用于实现敏感数据发现、风险度量和控制、数据脱敏的策略配置和自适应控制的模块;风险度量模块是基于敏感数据重识别风险模型,定量分析数据的重识别风险,为敏感数据发现和分类、数据脱敏提供风险度量和控制策略支持的模块;数据发现引擎模块是通过静态扫描或动态监测的方式,发现多源多模态数据存储模块中的或业务使用过程中访问的信息的模块;数据脱敏引擎模块是通过静态脱敏或动态脱敏的方式,实现对多源多模态数据存储模块中的敏感数据进行脱敏或在业务使用过程中对访问的敏感数据进行实时脱敏或拦截的模块;多模态敏感数据分类算法库模块是为不同模态数据提供敏感数据识别和分类的核心算法的模块;多源多模态数据存储模块实现不同格式的数据存储和索引的模块;和多源多模态数据访问总线模块为上述其它模块提供了访问多源多模态数据存储模块的接口,实现多源多模态数据的读取、解析和写入。
在一种实施方式中,所述多源多模态数据是与自然人相关的个人信息数据、与企业生产经营和内部管理相关的知识产权及商业秘密信息数据、与国计民生及公共利益相关的重要数据、关系国家安全及重大利益的国家秘密信息数据。
在一种实施方式中,所述多源多模态数据是存储在多种类型的数据库或数据源中的数据。
在一种实施方式中,所述多源多模态数据是文本、音频和/或图像单模态数据组合形成的视频多模态数据,或者是文本和图像单模态数据组合形成条形码多模态数据。
在一种实施方式中,各个模块集中部署在同一台主机上,或者分布式部署在不同的主机上。
在一种实施方式中,本发明提供应用上述系统的方法,所述方法包括:步骤310:数据提取,将提取的数据分解为不同的单模态信息;步骤320:数据融合,即数据发现引擎模块对提取后的单模态信息,分别进行识别和分类,得到中间识别结果,并进行数据融合,得到融合数据;和步骤330:数据可靠性判别和风险评估,即风险度量模块对融合数据进行可靠性判别,评估数据重识别风险。
在一种实施方式中,还包括S340:数据脱敏,即根据策略控制模块设置的敏感数据重识别风险阈值来确定是否需要进行脱敏处理;数据脱敏引擎模块判断当前的敏感数据重识别风险值是否低于设定阈值:当低于设置的阈值,则不需要再进行脱敏处理;当风险值高于设置的阈值,则需要对融合数据进行充分脱敏处理,确保风险低于设定的阈值。
在一种实施方式中,所述步骤310包括以下步骤:步骤311:数据发现引擎模块根据策略控制模块配置的敏感数据发现策略,通过多源多模态数据访问总线模块,从多源多模态数据存储模块中扫描或提取数据;步骤S312,数据发现引擎模块通过多源多模态数据访问总线模块的接口,将同一数据源的多模态数据,按照敏感数据发现策略分解为多个单模态数据单元;和步骤S313,数据发现引擎模块将分解后的多个单模态数据单元与原始的多模态数据建立关联关系。
在一种实施方式中,所述步骤320包括以下步骤:步骤S321,数据发现引擎模块对提取后的多个单模态数据单元,分别调用多模态敏感数据分类算法库模块提供的接口,进行识别和分类,得到中间识别结果;步骤S322,数据发现引擎模块对中间识别结果进行数据融合处理;步骤S323,进行同一模态数据融合,即,当数据发现引擎模块判断同一模态类型数据中存在多个中间识别结果时,则进行融合处理;和步骤S324,进行不同模态数据融合,即,当数据发现引擎模块判断存在多种模态的数据,并且这些数据能够转换为同一模态的数据,则将这些数据先转换为同一模态的数据,再进行数据融合处理。
本发明提供一种针对多源多模态数据的敏感信息识别、分类和保护方法,通过对多源多模态数据进行融合分析,结合以重识别风险为中心的度量与控制方法,解决现有技术中对多源多模态数据中敏感信息漏识别或误识别、敏感信息未脱敏或脱敏不充分的问题。
本发明提供的多源多模态数据处理系统,策略控制模块可以实现敏感数据发现、风险度量和控制、数据脱敏等安全策略的统一配置和自适应控制。例如策略控制模块可以配置不同数据生命周期阶段的脱敏策略,包括业务类型、数据生命周期阶段、敏感数据类型、脱敏规则及对应的脱敏方法。通过统一的策略配置及自适应控制,可以确保敏感数据生命周期中的数据处理符合策略控制要求。
在本发明中,数据发现引擎模块可以根据对多源多模态的数据进行融合分析,发现数据中潜在的关联关系和敏感数据,并结合风险度量模块来度量和识别风险,可以解决敏感信息漏识别或误识别的问题。
在本发明中,多模态敏感数据分类算法库模块可以实现多模态敏感数据识别和分类,包括个人信息、知识产权及商业秘密等关键信息资产、重要数据、及国家秘密信息的识别,可应用于不同行业或场景的敏感数据保护。
在本发明中,风险度量模块采用重识别风险为核心的风险度量与控制方法,实现对多源多模态数据的风险度量,并根据可根据风险度量结果自适应匹配和执行保护策略,防止恶意用户通过数据关联来重识别敏感信息。风险度量和控制可以应用于敏感数据生命周期的各阶段,例如在数据收集之后、数据使用前或使用后、数据转移前或转移后、数据销毁前或销毁后,以确保敏感数据全生命周期的风险监控和评估。
在本发明中,数据脱敏引擎模块可以与风险度量模块、策略控制模块联动,根据风险度量的阈值采取对应的保护措施,例如实时脱敏、告警、阻断等操作,从而实现端到端的敏感信息保护。
在本发明中,数据脱敏引擎模块可以根据策略控制模块配置的数据脱敏策略,与多模态数据的模态类型和敏感数据类型进行脱敏方法匹配,得到多模态数据适用的脱敏方法和脱敏规则,以确保不同数据源、不同数据格式的脱敏一致性。例如,对于同一类敏感信息的多个单模态数据,系统自动应用同一种脱敏方法和脱敏规则来确保脱敏一致性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明的多模态数据源示意图;
图2是本发明多源多模态数据的处理系统的架构示意图;
图3是本发明多模态数据的处理流程示意图;
图4是已部分脱敏的二代身份证示意图;
图5是本发明多模态数据的信息提取的示意图;
图6是本发明多模态数据的数据融合流程的示意图;
图7是被部分遮掩的条形码及代码的示意图;和
图8是充分脱敏后的二代身份证示意图。
具体实施方式
为了使本领域技术领域人员更好地理解本申请中的技术方案,下面将结合下面结合实施例对本发明作进一步说明,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都应当属于本申请保护的范围。
如图1所示,本发明涉及的多模态数据,可以存储在多种类型的数据库或数据源中,例如MySQL、Oracle、SQL Server、DB2、PostgreSQL、SQLite等传统的SQL数据库,MongoDB、Redis、CouchDB、Neo4J等NoSQL数据库,基于分布式平台Hadoop的大数据仓库工具Hive和分布式数据库HBase,以及其他以文件形式存储在不同存储介质(如内存、磁盘、磁带、光盘等)的其他数据源。常见的单模态数据有文本、音频、图像,这些单模态数据可以组合形成多模态数据,如视频、条形码等。如图1所示,文本、音频和图像单模态数据可以组合形成视频多模态数据,文本和图像单模态数据可以组合形成条形码多模态数据。
为了实现上述技术方案,本发明实现了一种支持多源多模态数据的敏感数据处理系统。如图2所示,多源多模态数据的处理系统架构说明如下:
200是支持多源多模态数据的处理系统总体架构,由以下几个模块组成:201策略控制模块、202风险度量模块、203数据发现引擎模块、204数据脱敏引擎模块、205多模态敏感数据分类算法库模块、206多模态数据脱敏算法库模块、207多源多模态数据访问总线模块、208多源多模态数据存储模块。这些模块可以集中部署在同一台主机上,也可以分布式部署在不同的主机上。
策略控制模块(201)实现敏感数据发现、风险度量和控制、数据脱敏的策略配置和自适应控制。敏感数据包括与自然人相关的个人信息、与企业生产经营和内部管理相关的知识产权及商业秘密等关键信息资产、与国计民生及公共利益相关的重要数据、关系国家安全及重大利益的国家秘密信息。
风险度量模块202基于敏感数据重识别风险模型,定量分析数据的重识别风险,为敏感数据发现和分类、数据脱敏提供风险度量和控制策略支持。
数据发现引擎模块203通过静态扫描或动态监测的方式,发现多源多模态数据存储模块中的或业务使用过程中访问的个人信息。
数据脱敏引擎模块204通过静态脱敏或动态脱敏的方式,实现对多源多模态数据存储模块中的敏感数据进行脱敏或在业务使用过程中对访问的敏感数据进行实时脱敏或拦截。
多模态敏感数据分类算法库模块205为不同模态数据提供敏感数据识别和分类的核心算法。
多模态数据脱敏算法库模块206为不同模态数据提供敏感数据的多种脱敏方法。
多源多模态数据访问总线模块207为上层业务提供了访问多源多模态数据存储模块的API接口,实现多源多模态数据的读取、解析和写入。
多源多模态数据存储模块208实现不同格式的数据存储和索引,包括原始的敏感数据、处理和分析后的敏感数据,以及脱敏后的非敏感数据(如假名化或匿名化信息等)。
图3为多模态数据的处理流程图,包括数据提取、数据融合、可靠性判别和风险评估以及可选的数据脱敏这4个处理步骤。
下面以中国大陆二代身份证(如图4,身份证已部分脱敏,需要评估是否脱敏充分,如果不充分,则需要再继续脱敏,防止敏感数据被重识别)为例,对处理流程具体方法描述如下。
步骤S310,对二代身份证进行信息提取,分解为若干单模态信息。
如图5所示,多模态数据的信息提取流程和具体方法描述如下。
步骤S311,数据发现引擎模块203根据策略控制模块201配置的敏感数据发现策略,通过多源多模态数据访问总线模块207,从多源多模态数据存储模块208中扫描或提取数据。
上述的敏感数据发现策略可以在策略控制模块201中设置,可以设置敏感数据发现所支持的数据源类型,例如图像、条形码、文本、音频、视频等非结构化数据以及MySQL、Oracle等结构化数据。
步骤S312,数据发现引擎模块203通过多源多模态数据访问总线模块207的API接口,将同一数据源的多模态数据,按照敏感数据发现策略分解为多个单模态数据单元。
在将多模态数据分解为单模态数据单元时,对于图像数据,由于图像中可能包含人脸照片、文本、条形码等信息,需要对图像进行区域检测,使用光学字符识别技术OCR(Optical Character Recognition)检测出人脸、文本、条形码及对应的文本代码的区域。
经过数据扫描和分解后,得到单模态信息如下:
文本:“身份证号110”、“姓名张”、“性别男”、“出生日期1990年”
图像:人脸图像
步骤S313,数据发现引擎模块203将分解后的多个单模态数据单元与原始的多模态数据建立关联关系。
步骤S320,数据发现引擎模块203对提取后的信息,分别进行识别和分类,得到中间识别结果,并进行数据融合,得到融合数据。
步骤S321,如图6所示,数据发现引擎模块203对提取后的多个单模态数据单元,分别调用多模态敏感数据分类算法库模块205提供的接口,进行识别和分类,得到中间识别结果。
对于文本数据,数据发现引擎模块203调用多模态敏感数据分类算法库模块205中的模式匹配、关键词匹配、命名实体识别等敏感数据分类算法,识别文本中的敏感数据,得到中间识别结果。
对于人脸图像,数据发现引擎模块203调用多模态敏感数据分类算法库模块205中的人脸定位、拉普拉斯方差等算法,并对图像进行卷积与求方差,来提取人脸正面特征信息及人脸图像的清晰度。
中间识别结果的格式为“模态|分类|数据精度|取值”,识别结果如表1所示。
表1中间识别结果表
提取信息 | 中间识别结果 |
“身份证号110” | “文本|身份证号|精确到前3位|110” |
“姓名张” | “文本|姓名|精确到姓氏|张” |
“性别男” | “文本|性别|精确到性别|男” |
“出生日期1990年” | “文本|出生日期|精确到出生年份|1990年” |
人脸图像 | “图像|人脸正面特征信息|清晰度|0.32” |
步骤S322,数据发现引擎模块203对中间识别结果进行数据融合处理。数据融合处理分为三个步骤,首先进行同一分类数据融合。
按照策略控制模块201设置的敏感数据分类规则(例如个人信息分类规则),数据发现引擎模块203对中间识别结果进行分类,判断同一分类数据中是否存在多个中间识别结果,如果存在,则进行求并集、计算校验码等融合处理,得到可能的取值空间。
例如,中间识别结果存在“身份证号前3位”及“身份证号后4位”这两个身份证号数据,则可以进行求并集处理,融合成“身份证号前3位及后4位”数据。
步骤S323,然后进行同一模态数据融合。
数据发现引擎模块203判断同一模态类型数据中是否存在多个中间识别结果,如果存在,则进行融合处理。例如,中间结果中存在多个文本数据,则将文本数据融合为:“文本|身份证号|精确到前3位|110;文本|姓名|精确到姓氏|张;文本|性别|精确到性别|男;文本|出生日期|精确到出生年份|1990年”。
步骤S324,最后进行不同模态数据融合。
数据发现引擎模块203判断中间结果是否包含不同模态类型的数据,如果存在多种模态的数据,并且这些数据可以转换为同一模态的数据,则将这些数据先转换为同一模态的数据(如统一转换为文本),再进行数据融合处理。
例如,包含人脸图像和文本的身份证数据,需要对其中的人脸图像进行融合识别,转换为文本格式。转换方法可以根据实际情况,采用如下两种方法的一种:
方法一:(有人脸特征数据库)
数据发现引擎模块203通过多源多模态数据访问总线模块207提供的API接口,将人脸特征信息及清晰度信息与多源多模态数据存储模块208中的人脸特征数据库比对,获得相似人数,建立清晰度信息与相似人数关系的经验模型,并输出文本结果。
例如,对“图像|人脸正面特征信息|清晰度|0.32”与人脸特征数据库比对,得到文本结果为“图像|人脸正面特征信息|相似人数|19720”和清晰度经验模型。例如,得到的清晰度经验模型为S(x)=e(1.665x^3+28.12x^2-44.07x+21.06),其中S为相似人数,x为清晰度。
然后,数据发现引擎模块203将文本结果与之前的文本数据融合,得到最终的融合数据“文本|身份证号|精确到前3位|110;文本|姓名|精确到姓氏|张;文本|性别|精确到性别|男;文本|出生日期|精确到出生年份|1990年|图像|人脸正面特征信息|相似人数|19720”。
方法二:(无人脸特征数据库或无法访问人脸特征数据库的场景)
数据发现引擎模块203直接使用上述的过程得到的清晰度经验模型进行估计,得到相似人数的文本结果,然后将文本结果与之前的文本数据融合,得到最终的融合数据。
在进行求并集、计算校验码等数据融合处理时,可能会存在如下几种情况:(1)融合得到的取值空间唯一;(2)融合得到的取值空间不唯一,即取值空间>=2;(3)计算校验码错误,取值空间为空;(4)中间识别结果冲突,无法融合。其中,后2种情况属于异常情况,数据发现引擎模块203会记录错误日志或告警。前2种情况是否属于异常,需要视具体场景而定。例如,对已脱敏的数据进行融合处理,如果出现情况(1),即融合得到的取值空间唯一,那么这属于数据脱敏不充分异常,数据发现引擎模块203会触发告警或者阻断等处理。
对于上述流程和方法,本发明用包含图像和文本的多模态数据进行详细说明。如图7所示,该多模态数据包含了Code128(ISO15417)格式编码的条形码图像,条形码图像及代码文本均有一部分被遮掩(原始代码为123456780102)。如果采用单一的敏感数据识别、分类方法,原始代码123456780102无法从条形码图像或代码文本中直接识别,但是通过上述的流程和方法,则可以进行融合识别:
数据发现引擎模块203调用多模态敏感数据分类算法库模块205中的条形码图像识别算法,从条形码图像中可以得到的中间识别结果为ID类型数据ID1——“前6位号码123456,后2位号码02,校验码64”;
数据发现引擎模块203调用多模态敏感数据分类算法库模块205中的条形码文本识别算法,从代码文本中可以得到的中间识别结果为ID类型数据ID2——“前4位号码1234,后4位号码0102”。
由于ID1和ID2数据类型相同,数据发现引擎模块203将两者进行求并集处理,就可以得到ID3“号码为123456XY0102,校验码为64”,其中XY为未知的号码。
然后,数据发现引擎模块203再根据校验码的计算公式(105+1*12+2*34+3*56+4*XY+5*1+6*2)%103=64,可以反推出4*XY的取值空间为{3,106,209,312},而能整除4的只有312,其他三个取值均可排除。因此,可以得到XY的值为78,也即融合得到取值空间唯一的原始号码ID0——123456780102。
步骤S330,风险度量模块202对融合数据进行可靠性判别,评估敏感数据重识别风险。
风险度量模块202可以根据敏感数据的类型,提供不同的重识别风险评估方法。下面以个人信息为例,描述个人信息重识别风险评估的指标、计算方法和处理步骤。
风险度量模块202采用基于信息熵的重识别风险评估指标,来评估个人信息重识别风险。这些指标包括:基于信息熵的理论重识别风险ETRR(Entropy based TheoreticalRe-identification Risk)、基于信息熵的经验重识别风险EERR(Entropy basedEmpirical Re-identification Risk)。
ETRR和EERR的计算方法如下:
ETRR=(∑i=1 n ET(Ci))/L(G)
EERR=(∑i=1 n EE(Ci))/L(G)
ET(Ci)=L(Vi)
EE(Ci)=L(1/Fi)
其中,C为数据融合后的单模态数据集合,n为集合的记录数;
ET为理论的信息熵;
EE为经验的信息熵;
L为对数函数log,底可以为任意正数,一般建议采用2为底;
Vi为数据项i的取值空间大小;
Fi为数据项i具有与当前样本相同取值的频率(或人数占比);
G为全体人群的人数:对于某特定群体,为该群体的总人数;对于中国大陆,为中国大陆的人口总数;对于全世界,为全世界的人口总数。
个人信息重识别风险评估的步骤如下:
风险度量模块202从数据发现引擎模块203获取数据融合后的单模态数据集合;
风险度量模块202分别计算单模态数据集合内各数据项的理论信息熵或经验信息熵;
风险度量模块202对各数据项的理论信息熵或经验信息熵进行汇总,得到基于信息熵的理论重识别风险或基于信息熵的经验重识别风险。
以中国大陆第二代身份证件为例,如图4所示,证件已被部分脱敏,数据发现引擎模块203从证件中已获取到如下数据项:模糊的人脸照片、性别、年龄、姓氏、身份证号前3位。
风险度量模块202从数据发现引擎模块203获取数据融合后的单模态数据集合:模糊的人脸照片、性别、年龄、姓氏、身份证号前3位;
风险度量模块202分别计算单模态数据集合内各数据项的经验信息熵,对应的经验信息熵分别为12.79、1.0、5.64、3.84、6.69。
风险度量模块202对各数据项的经验信息熵进行汇总,计算基于信息熵的经验重识别风险评估指标EERR(中国大陆人口按照2018年底的13.9538亿计算):
EERR=(12.79+1.0+5.64+3.84+6.69)/log2(13.9538*108)=29.956/30.378=0.986
步骤S340,该步骤为可选步骤,根据策略控制模块201设置的敏感数据重识别风险阈值来确定是否需要进行脱敏处理。数据脱敏引擎模块204判断当前的敏感数据重识别风险值是否低于设定阈值:如果低于设置的阈值,则不需要再进行脱敏处理;如果当前的风险值高于设置的阈值,则需要对融合数据进行充分脱敏处理,确保风险低于设定的阈值。
例如,设定的风险阈值为0.75,且人脸图像的脱敏优先级最高,则需要对人脸图像进行脱敏。
首先,风险度量模块202根据设定阈值计算人脸图像需要达到的经验信息熵:
EE(人脸图像)=30.378*0.75–(1.0+5.64+3.84+6.69)=22.7835–17.17=5.6135
然后,风险度量模块202根据经验信息熵得到所需的人数:
S=13.9538*108/(e5.6135)=5090734
接着,风险度量模块202根据清晰度经验模型S(x)=e(1.665x^3+28.12x^2-44.07x+21.06)得到所需的清晰度:
x=0.14
最后,数据脱敏引擎模块204根据所需的清晰度值,调用多模态数据脱敏算法库模块206的人脸图像脱敏算法,对人脸图像进行脱敏处理,得到如图8所示的脱敏二代身份证。
应该理解到披露的本发明不仅仅限于描述的特定的方法、方案和物质,因为这些均可变化。还应理解这里所用的术语仅仅是为了描述特定的实施方式方案的目的,而不是意欲限制本发明的范围,本发明的范围仅受限于所附的权利要求。
本领域的技术人员还将认识到,或者能够确认使用不超过常规实验,在本文中所述的本发明的具体的实施方案的许多等价物。这些等价物也包含在所附的权利要求中。
Claims (9)
1.多源多模态数据的处理系统,其特征在于,所述处理系统包括:多源多模态数据存储模块,策略控制模块,风险度量模块,数据发现引擎模块,数据脱敏引擎模块,多模态敏感数据分类算法库模块,多模态数据脱敏算法库模块和多源多模态数据访问总线模块;
策略控制模块是用于实现敏感数据发现、风险度量和控制、数据脱敏的策略配置和自适应控制的模块;
风险度量模块是基于敏感数据重识别风险模型,定量分析数据的重识别风险,为敏感数据发现和分类、数据脱敏提供风险度量和控制策略支持的模块;
数据发现引擎模块是通过静态扫描或动态监测的方式,发现多源多模态数据存储模块中的或业务使用过程中访问的信息的模块;
数据脱敏引擎模块是通过静态脱敏或动态脱敏的方式,实现对多源多模态数据存储模块中的敏感数据进行脱敏或在业务使用过程中对访问的敏感数据进行实时脱敏或拦截的模块;
多模态敏感数据分类算法库模块是为不同模态数据提供敏感数据识别和分类的核心算法的模块;
多源多模态数据存储模块实现不同格式的数据存储和索引的模块;和
多源多模态数据访问总线模块为上述其它模块提供了访问多源多模态数据存储模块的接口,实现多源多模态数据的读取、解析和写入。
2.根据权利要求1所述的处理系统,其特征在于,所述多源多模态数据是与自然人相关的个人信息数据、与企业生产经营和内部管理相关的知识产权及商业秘密信息数据、与国计民生及公共利益相关的重要数据、关系国家安全及重大利益的国家秘密信息数据。
3.根据权利要求1所述的处理系统,其特征在于,所述多源多模态数据是存储在多种类型的数据库或数据源中的数据。
4.根据权利要求1所述的处理系统,其特征在于,所述多源多模态数据是文本、音频和/或图像单模态数据组合形成的视频多模态数据,或者是文本和图像单模态数据组合形成条形码多模态数据。
5.根据权利要求1所述的处理系统,其特征在于,各个模块集中部署在同一台主机上,或者分布式部署在不同的主机上。
6.应用根据权利要求1-5任一所述的处理系统的方法,其特征在于,所述方法包括:
步骤310:数据提取,将提取的数据分解为不同的单模态信息;
步骤320:数据融合,即数据发现引擎模块对提取后的单模态信息,分别进行识别和分类,得到中间识别结果,并进行数据融合,得到融合数据;
步骤330:数据可靠性判别和风险评估,即风险度量模块对融合数据进行可靠性判别,评估数据重识别风险。
7.根据权利要求6所述的方法,其特征在于,还包括S340:数据脱敏,即根据策略控制模块设置的敏感数据重识别风险阈值来确定是否需要进行脱敏处理;数据脱敏引擎模块判断当前的敏感数据重识别风险值是否低于设定阈值:当低于设置的阈值,则不需要再进行脱敏处理;当风险值高于设置的阈值,则需要对融合数据进行充分脱敏处理,确保风险低于设定的阈值。
8.根据权利要求6所述的方法,其特征在于,所述步骤310包括以下步骤:
步骤311:数据发现引擎模块根据策略控制模块配置的敏感数据发现策略,通过多源多模态数据访问总线模块,从多源多模态数据存储模块中扫描或提取数据;
步骤S312,数据发现引擎模块通过多源多模态数据访问总线模块的接口,将同一数据源的多模态数据,按照敏感数据发现策略分解为多个单模态数据单元;
步骤S313,数据发现引擎模块将分解后的多个单模态数据单元与原始的多模态数据建立关联关系。
9.根据权利要求6所述的方法,其特征在于,所述步骤320包括以下步骤:
步骤S321,数据发现引擎模块对提取后的多个单模态数据单元,分别调用多模态敏感数据分类算法库模块提供的接口,进行识别和分类,得到中间识别结果;
步骤S322,数据发现引擎模块对中间识别结果进行数据融合处理;
步骤S323,进行同一模态数据融合,即,当数据发现引擎模块判断同一模态类型数据中存在多个中间识别结果时,则进行融合处理;和
步骤S324,进行不同模态数据融合,即,当数据发现引擎模块判断存在多种模态的数据,并且这些数据能够转换为同一模态的数据,则将这些数据先转换为同一模态的数据,再进行数据融合处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010718898.1A CN111859451B (zh) | 2020-07-23 | 2020-07-23 | 多源多模态数据的处理系统及应用该系统的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010718898.1A CN111859451B (zh) | 2020-07-23 | 2020-07-23 | 多源多模态数据的处理系统及应用该系统的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111859451A true CN111859451A (zh) | 2020-10-30 |
CN111859451B CN111859451B (zh) | 2024-02-06 |
Family
ID=72949874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010718898.1A Active CN111859451B (zh) | 2020-07-23 | 2020-07-23 | 多源多模态数据的处理系统及应用该系统的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111859451B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990254A (zh) * | 2020-12-17 | 2021-06-18 | 北京以萨技术股份有限公司 | 基于多源异构数据的融合分析方法、系统、设备及介质 |
CN113377773A (zh) * | 2021-06-09 | 2021-09-10 | 浙江工业大学 | 一种人脸识别测试系统的数据集存储方法 |
CN113609126A (zh) * | 2021-07-06 | 2021-11-05 | 无锡四维时空信息科技有限公司 | 一种众源时空数据的一体化存储管理方法及系统 |
CN115310122A (zh) * | 2022-07-13 | 2022-11-08 | 广州大学 | 一种多模态数据融合训练中的隐私参数优化方法 |
CN117201206A (zh) * | 2023-11-08 | 2023-12-08 | 河北翎贺计算机信息技术有限公司 | 防止网络数据泄漏的网络安全监管系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150050211A (ko) * | 2013-10-31 | 2015-05-08 | 한국과학기술원 | 전자의무기록의 정보 이론을 이용한 익명화 장치 및 방법 |
CN106651188A (zh) * | 2016-12-27 | 2017-05-10 | 贵州电网有限责任公司贵阳供电局 | 一种输变电设备多源状态评估数据处理方法及其应用 |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 |
CN109033387A (zh) * | 2018-07-26 | 2018-12-18 | 广州大学 | 一种融合多源数据的物联网搜索系统、方法及存储介质 |
CN110378278A (zh) * | 2019-07-16 | 2019-10-25 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、对象搜索方法、装置以及电子设备 |
US20190347429A1 (en) * | 2018-05-12 | 2019-11-14 | Netgovern Inc. | Method and system for managing electronic documents based on sensitivity of information |
CN110532797A (zh) * | 2019-07-24 | 2019-12-03 | 方盈金泰科技(北京)有限公司 | 大数据的脱敏方法和系统 |
US20200057864A1 (en) * | 2018-08-17 | 2020-02-20 | Mentis Inc | System and method for data classification centric sensitive data discovery |
CN110851488A (zh) * | 2019-09-26 | 2020-02-28 | 贵阳信息技术研究院(中科院软件所贵阳分部) | 基于多源多模态数据融合分析处理方法及平台 |
-
2020
- 2020-07-23 CN CN202010718898.1A patent/CN111859451B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150050211A (ko) * | 2013-10-31 | 2015-05-08 | 한국과학기술원 | 전자의무기록의 정보 이론을 이용한 익명화 장치 및 방법 |
CN106651188A (zh) * | 2016-12-27 | 2017-05-10 | 贵州电网有限责任公司贵阳供电局 | 一种输变电设备多源状态评估数据处理方法及其应用 |
US20190347429A1 (en) * | 2018-05-12 | 2019-11-14 | Netgovern Inc. | Method and system for managing electronic documents based on sensitivity of information |
CN108965245A (zh) * | 2018-05-31 | 2018-12-07 | 国家计算机网络与信息安全管理中心 | 基于自适应异构多分类模型的钓鱼网站检测方法和系统 |
CN109033387A (zh) * | 2018-07-26 | 2018-12-18 | 广州大学 | 一种融合多源数据的物联网搜索系统、方法及存储介质 |
US20200057864A1 (en) * | 2018-08-17 | 2020-02-20 | Mentis Inc | System and method for data classification centric sensitive data discovery |
CN110378278A (zh) * | 2019-07-16 | 2019-10-25 | 北京地平线机器人技术研发有限公司 | 神经网络的训练方法、对象搜索方法、装置以及电子设备 |
CN110532797A (zh) * | 2019-07-24 | 2019-12-03 | 方盈金泰科技(北京)有限公司 | 大数据的脱敏方法和系统 |
CN110851488A (zh) * | 2019-09-26 | 2020-02-28 | 贵阳信息技术研究院(中科院软件所贵阳分部) | 基于多源多模态数据融合分析处理方法及平台 |
Non-Patent Citations (6)
Title |
---|
ELIZABETH KENNEDY 等: "Data security and multi-factor authentication: Analysis of requirements under EU law and in selected EU Member States", COMPUTER LAW&SECURITY REVIEW, vol. 32, no. 1, pages 91 - 110, XP029409088, DOI: 10.1016/j.clsr.2015.12.004 * |
刘明辉 等: "数据安全与隐私保护技术研究", 邮电设计技术, no. 04, pages 25 - 29 * |
吕军;杨超;王跃东;刘林;王新宁;: "基于多业务场景的大数据脱敏技术研究及其在电力用户隐私信息保护中的应用", 电力大数据, no. 07, pages 34 - 40 * |
张国荣;: "社会网络数据的隐私保护", 网络安全技术与应用, no. 07, pages 42 - 44 * |
王景;李新;: "计算机识图认字辨人的开拓者――记丁晓青教授和她的智能图文信息处理研究室", 中国科技奖励, no. 09, pages 36 - 42 * |
谢安明;金涛;周涛;: "个人信息去标识化框架及标准化", 大数据, no. 05, pages 1 - 4 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112990254A (zh) * | 2020-12-17 | 2021-06-18 | 北京以萨技术股份有限公司 | 基于多源异构数据的融合分析方法、系统、设备及介质 |
CN113377773A (zh) * | 2021-06-09 | 2021-09-10 | 浙江工业大学 | 一种人脸识别测试系统的数据集存储方法 |
CN113609126A (zh) * | 2021-07-06 | 2021-11-05 | 无锡四维时空信息科技有限公司 | 一种众源时空数据的一体化存储管理方法及系统 |
CN113609126B (zh) * | 2021-07-06 | 2022-03-11 | 无锡四维时空信息科技有限公司 | 一种众源时空数据的一体化存储管理方法及系统 |
CN115310122A (zh) * | 2022-07-13 | 2022-11-08 | 广州大学 | 一种多模态数据融合训练中的隐私参数优化方法 |
CN117201206A (zh) * | 2023-11-08 | 2023-12-08 | 河北翎贺计算机信息技术有限公司 | 防止网络数据泄漏的网络安全监管系统 |
CN117201206B (zh) * | 2023-11-08 | 2024-01-09 | 河北翎贺计算机信息技术有限公司 | 防止网络数据泄漏的网络安全监管系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111859451B (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111859451B (zh) | 多源多模态数据的处理系统及应用该系统的方法 | |
US9661010B2 (en) | Security log mining devices, methods, and systems | |
Bindu et al. | Mining social networks for anomalies: Methods and challenges | |
CN113470695B (zh) | 声音异常检测方法、装置、计算机设备及存储介质 | |
JP2014029732A (ja) | 画像の検索および読み出しに関する基準を用いて画像内容の描写を生成する方法 | |
CN111612041A (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
López et al. | Digital video source identification based on container’s structure analysis | |
CN111078922A (zh) | 一种信息处理方法及装置、存储介质 | |
Saito et al. | Improving lime robustness with smarter locality sampling | |
CN114417405B (zh) | 一种基于人工智能的隐私业务数据分析方法及服务器 | |
CN111882034A (zh) | 神经网络处理及人脸识别方法、装置、设备和存储介质 | |
Tidjani et al. | Deep learning features for robust facial kinship verification | |
Oladipo et al. | The state of the art in machine learning-based digital forensics | |
Viedma et al. | Relevant features for gender classification in NIR periocular images | |
Einy et al. | IoT Cloud‐Based Framework for Face Spoofing Detection with Deep Multicolor Feature Learning Model | |
CN117390299A (zh) | 基于图证据的可解释性虚假新闻检测方法 | |
CN117113403A (zh) | 一种数据脱敏的方法、装置、电子设备及存储介质 | |
US11495338B1 (en) | Methods and systems for redistributing medication | |
CN115510248A (zh) | 基于深度学习的人员行为特征知识图谱构建与分析方法 | |
US20220318546A1 (en) | Intelligent engineering data digitization | |
Malik et al. | Big Data: Risk Management & Software Testing | |
CN117112846B (zh) | 一种多信息源证照信息管理方法、系统及介质 | |
CN117493466B (zh) | 财务数据同步方法及系统 | |
US20240005035A1 (en) | Method for evaluating the risk of re-identification of anonymised data | |
Karampidis et al. | Combining genetic algorithms and neural networks for file forgery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |