CN112800022A - 数据去识别处理装置及方法 - Google Patents
数据去识别处理装置及方法 Download PDFInfo
- Publication number
- CN112800022A CN112800022A CN201911163505.9A CN201911163505A CN112800022A CN 112800022 A CN112800022 A CN 112800022A CN 201911163505 A CN201911163505 A CN 201911163505A CN 112800022 A CN112800022 A CN 112800022A
- Authority
- CN
- China
- Prior art keywords
- data
- data set
- recognition
- field
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 74
- 238000013503 de-identification Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000006243 chemical reaction Methods 0.000 claims description 38
- 238000003672 processing method Methods 0.000 claims description 37
- 230000000694 effects Effects 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 13
- 230000035945 sensitivity Effects 0.000 claims description 10
- 238000013210 evaluation model Methods 0.000 claims description 8
- 238000013501 data transformation Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000012360 testing method Methods 0.000 description 9
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000011550 data transformation method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Storage Device Security (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种数据去识别处理装置及方法。该数据去识别处理装置储存一第一产业领域的一数据集,其中该数据集定义多个栏位。该数据去识别处理装置接收一第一指令及一第二指令,其中该第一指令对应至一第二产业领域,且该第二指令对应至一数据用途。该数据去识别处理装置根据该第一产业领域、该第二产业领域及该数据用途决定各该栏位的一识别分类,根据该数据用途将该数据集转换为一转换数据集,且根据该等识别分类将该转换数据集转换为一去识别数据集。
Description
技术领域
本发明系关于一种数据去识别处理装置及方法。更具体而言,本发明系关于一种基于产业领域及数据用途的数据去识别处理装置及方法。
背景技术
随着大数据时代的来临,愈来愈多的企业会收集各种数据加以分析,再依据分析的结果作出业务上的决策(例如:银行业者会基于使用者的银行存款及消费行为决定是否给予信用贷款)。然而,企业自有的数据的广度相当有限,跨领域整合数据以作出更精准的决策、创造更多的价值,势必为未来的趋势。由于企业所分析的数据往往具有个人身份(例如:姓名)或其他需要被保护的信息(例如:地址、收入),因此在跨领域整合数据时,必须要进行去识别处理,且必须符合不同领域的规范(简称为合规),以避免侵害个资所属人的人格权及相关金融法规。
习知的数据去识别处理技术主要是删除、加密或上位化可直接识别的数据(例如:姓名、身份证号码)或只显示一部分的数据(例如:数值中的某几位数),然而此种处理方式将使得处理过后的数据,难以用来对特定用途来进行评估(例如:评估是否给予使用者信用贷款)。这些习知的数据去识别处理技术皆未考虑到跨领域整合数据时需要跨领域合规,且未考虑到在合规的同时仍需要达到数据赋能的技术效果,亦即在将数据进行去识别处理之后,仍可用来对特定用途进行评估。有鉴于此,本领域仍亟需一种跨领域整合数据且跨领域合规的数据去识别处理技术。
发明内容
本发明的一目的在于提供一数据去识别处理装置。该数据去识别处理装置包含一储存器、一输入接口及一处理器,其中该处理器电性连接至该储存器及该输入接口。该储存器储存一第一产业领域的一数据集,其中该数据集定义多个栏位。该输入接口接收一第一指令及一第二指令,其中该第一指令对应至一第二产业领域,且该第二指令对应至一数据用途。该处理器根据该第一产业领域、该第二产业领域及该数据用途决定各该栏位的一识别分类,根据该数据用途将该数据集转换为一第一转换数据集,且根据该等识别分类将该第一转换数据集转换为一第一去识别数据集。
本发明的另一目的在于提供一数据去识别处理方法,其系适用于一电子计算装置。该电子计算装置储存一第一产业领域的一数据集,且该数据集定义多个栏位。该数据去识别处理方法包含下列步骤:(a)接收一第一指令,其中该第一指令对应至一第二产业领域,(b)接收一第二指令,其中该第二指令对应至一数据用途,(c)根据该第一产业领域、该第二产业领域及该数据用途决定各该栏位的一识别分类,(d)根据该数据用途将该数据集转换为一第一转换数据集,以及(e)根据该等识别分类将该第一转换数据集转换为一第一去识别数据集。
本发明所提供的数据去识别处理技术(至少包含装置及方法)会根据一数据用途对某一产业领域的数据集进行转换,且会根据至少二个产业领域及该数据用途对数据集进行去识别处理。经前述转换及去识别处理过后的数据集具有更丰富、更有利于该数据用途的信息,因此利用经前述转换及去识别处理过后的数据集所建立的用途评估模型将能作出更精准的决策、创造更多的价值。此外,由于本发明所提供的数据去识别处理技术在进行去识别处理时考量了所涉及的产业领域与数据用途的法律规范,因此经前述转换及去识别处理过后的数据集也就跨领域地符合规定。
以下结合附图阐述本发明的技术及实施方式,俾使本领域的技术人员能理解所请求保护的发明的技术特征。
附图说明
图1A描绘第一实施方式的数据去识别处理装置1的架构示意图;
图1B描绘数据集D的一具体范例;
图1C描绘转换数据集TD的一具体范例;
图1D描绘去识别数据集DD的一具体范例;以及
图2描绘第二实施方式的数据去识别处理方法的主要流程图。
附图标记说明
1:数据去识别处理装置
10:指令
11:储存器
12:指令
13:输入接口
15:处理器
17:传输接口
A1、A2、A3、A4、A5:栏位
D:数据集
DD:去识别数据集
Ra、……、Rz:记录
TD:转换数据集
S201~S209:步骤
具体实施方式
以下将透过实施方式来解释本发明所提供的数据去识别处理装置及方法。然而,该等实施方式并非用以限制本发明需在如该等实施方式所述的任何环境、应用或方式方能实施。因此,关于以下实施方式的说明仅在于阐释本发明的目的,而非用以限制本发明的范围。应理解,在以下实施方式及附图中,与本发明非直接相关的元件已省略而未绘示,且附图中各元件的尺寸以及元件间的尺寸比例仅为便于绘示及说明,而非用以限制本发明的范围。
本发明的第一实施方式为一数据去识别处理装置1,其架构示意图系描绘于图1A。数据去识别处理装置1包含一储存器11、一输入接口13及一处理器15,且处理器15电性连接至储存器11及输入接口13。储存器11可为一记忆体、一硬盘(Hard Disk Drive;HDD)、一通用串行总线(Universal Serial Bus;USB)盘、一光盘(Compact Disk;CD)或本领域的技术人员所知的任何其他具有雷同功能的非暂态储存媒体或装置。输入接口13可为任何可供使用者输入信息的接口,例如:滑鼠、键盘、触控式显示屏幕。处理器15可为各种处理器、中央处理单元(Central Processing Unit;CPU)、微处理器(Microprocessor Unit;MPU)、数字信号处理器(Digital Signal Processor;DSP)或本领域的技术人员所知的任何其他具有雷同功能的计算装置。
数据去识别处理装置1会针对要用于跨领域整合的数据集进行数据转换(例如:基于原有的数据提供额外的信息,容后详述)及去识别处理,使处理过后的数据集具有更丰富的信息,且符合所整合的产业领域与数据用途的法律规范(例如:網絡安全法規及其他相关金融法规,但不以此为限)。
于本实施方式中,数据去识别处理装置1的储存器11储存一第一产业领域(未绘示)的一数据集D。数据集D定义多个栏位且包含多笔记录,其中各笔记录包含多个数据一对一的对应至该等栏位。请参图1B,其系描绘数据集D的一具体范例。该具体范例将用于后续的说明,但应理解其非用以限制本发明的范围。于该具体范例中,数据集D定义五个栏位A1、A2、A3、A4、A5且包含多笔记录Ra、……、Rz,其中记录Ra、……、Rz各自包含多个数据一对一地对应至栏位A1、A2、A3、A4、A5。
使用者可透过输入接口13输入一指令10,且指令10用以指示将数据集D与一第二产业领域(未绘示)的数据集整合。此外,使用者可透过输入接口13输入一指令12,且指令12用以指示将整合后的数据集用于一数据用途(未绘示)。输入接口13会接收前述指令10、12,且将指令10、12传送至处理器15以进行后续处理。
在某些实施方式中,数据去识别处理装置1还可包含一显示屏幕(未绘示)电性连接至处理器15。显示屏幕可为液晶显示屏幕(Liquid Crystal Display;LCD)、有机发光二极管(Organic Light Emitting Diode;OLED)屏幕、电子纸屏幕或其他能显示数字信息的装置。在该等实施方式中,显示屏幕可显示多个产业领域的选项供使用者选取,使用者选取其中一个产业领域后便产生了前述指令10。此外,显示屏幕还可显示多个数据用途的选项供使用者选取,使用者选取其中一个数据用途后便产生了前述指令12。
接着,处理器15根据该第一产业领域、该第二产业领域及该数据用途决定栏位A1、A2、A3、A4、A5各自的识别分类。于本实施方式中,一个栏位的识别分类可为直接识别、间接识别或非个人数据。需说明者,不同的产业领域对应至不同的法律规范,不同的数据用途亦可能对应至不同的法律规范,而不同的法律规范对于个人数据可被公开的允许程度可能不同,也可能相同。换言之,前述第一产业领域、第二产业领域及数据用途对同一栏位的识别分类可能不同,也可能相同。于本实施方式中,若不同的法律规范对同一栏位的识别分类的要求不同,处理器15会选取较严格的作为该栏位的识别分类。在某些实施方式中,储存器11还可事先储存各法律规范对各种栏位的识别分类,俾处理器15能快速地根据该第一产业领域、该第二产业领域及该数据用途决定栏位A1、A2、A3、A4、A5各自的识别分类。为便于理解,兹假设处理器15决定栏位A1的识别分类为直接识别、栏位A2的识别分类为间接识别、栏位A3的识别分类为直接识别、栏位A4的识别分类为非个人数据以及栏位A5的识别分类为直接识别。
之后,处理器15根据该数据用途将数据集D转换为转换数据集TD,藉此赋予转换数据集TD与该数据用途有关的额外信息。于某些实施方式中,处理器15根据该数据用途决定栏位A1、A2、A3、A4、A5中的一或多个指定栏位个别的数据转换方式,且将各指定栏位所对应的多笔数据以对应的该数据转换方式转换。需说明者,各指定栏位所对应的数据转换方式系用以将对应的该等数据转换成该数据用途所需要的数据,且于转换后可改变或不改变各指定栏位的识别分类。在某些实施方式中,储存器11还可事先储存各数据用途针对各栏位所要采用的数据转换方式,俾处理器15能快速地根据某一数据用途决定各指定栏位的数据转换方式。
为便于理解,请参图1C所示的转换数据集TD的一具体范例。该具体范例将用于后续的说明,但应理解其非用以限制本发明的范围。于该具体范例中,该数据用途为信贷评估,处理器15根据该数据用途决定栏位A4、A5为指定栏位,且决定栏位A4、A5各自的数据转换方式。具体而言,处理器15决定栏位A4的数据转换方式为将手机型号转换为手机的售价,且决定栏位A5的数据转换方式为将地址转换为市场上的平均房价。在该具体范例中,栏位A4的数据经由对应的数据转换方式转换后,栏位A4的识别分类不变。但,栏位A5的数据经由对应的数据转换方式转换后,栏位A5的识别分类由直接识别改变为非个人数据。
在另一具体范例中,处理器15决定栏位A4的数据转换方式为将手机型号转换为一消费性等级,且栏位A4的数据经由对应的数据转换方式转换后,栏位A4的识别分类不变;处理器15还决定栏位A5的数据转换方式为将地址转换为一资产等级,栏位A5的数据经由对应的数据转换方式转换后,栏位A5的识别分类由直接识别改变为非个人数据。
之后,处理器15根据该等识别分类将转换数据集TD转换为去识别数据集DD,藉此移除能识别出特定个人的信息,俾符合第一产业领域、第二产业领域及数据用途所对应的该等法律规范。于某些实施方式中,处理器15根据栏位A1、A2、A3、A4、A5各自的识别分类决定栏位A1、A2、A3、A4、A5各自的去识别处理方式,且将转换数据集TD中栏位A1、A2、A3、A4、A5各自所对应的多笔数据以对应的去识别处理方式来进行去识别处理。需说明者,本发明未限制栏位A1、A2、A3、A4、A5所对应的该等去识别处理方式是否需要相同或相异;换言之,某些栏位所对应的去识别处理方式可能相同。另需说明者,于某些实施方式中,处理器15不会针对识别分类为非个人数据的栏位决定去识别处理方式(亦即,不需进行去识别处理)。在某些实施方式中,储存器11还可事先储存各栏位的各种识别分类所要采用的去识别处理方式,俾处理器15能快速地决定栏位A1、A2、A3、A4、A5各自的去识别处理方式。
为便于理解,请参图1D所示的去识别数据集DD的一具体范例。该具体范例将用于后续的说明,但应理解其非用以限制本发明的范围。于该具体范例中,栏位A1的识别分类为直接识别,处理器15决定栏位A1对应的去识别处理方式为删除部分信息(例如:删除部分的名字)。栏位A2的识别分类为间接识别,处理器15决定栏位A2对应的去识别处理方式为删除部分信息(例如:删除生日的月份及日期,只保留生日的年份)。栏位A3的识别分类为直接识别,处理器15决定栏位A3对应的去识别处理方式为全部删除。栏位A4的识别分类为非个人数据,处理器15决定栏位A4对应的去识别处理方式为不做任何转换。栏位A5的识别分类经过前述的数据转换处理后已变更为非个人数据,处理器15决定栏位A5对应的去识别处理方式为不做任何转换。
需说明者,在某些实施方式中,处理器15除了根据该第一产业领域、该第二产业领域及该数据用途决定栏位A1、A2、A3、A4、A5各自的识别分类,还会根据该第一产业领域、该第二产业领域及该数据用途决定栏位A1、A2、A3、A4、A5各自的敏感分类。各栏位的敏感分类可为敏感或非敏感。类似的,不同的产业领域对应至不同的法律规范,不同的数据用途亦可能对应至不同的法律规范,因此前述第一产业领域、第二产业领域及数据用途对同一栏位的敏感分类可能不同,也可能相同。若不同的法律规范对同一栏位的敏感分类的要求不同,处理器15会选取较严格的作为该栏位的敏感分类。于该等实施方式中,处理器15则是根据栏位A1、A2、A3、A4、A5的识别分类及敏感分类将转换数据集TD转换为去识别数据集DD。举例而言,栏位A3的识别分类为直接识别,且敏感分类为敏感,处理器15可先判断这二者哪一去识别程度较严格,再采取较严格者所对应的去识别化处理方式来进行处理和转换(例如:直接识别所对应的去识别程度较严格,因此采用直接识别所对应的去识别处理方式)。本领域的技术人员依据前述说明,应能了解处理器15如何根据栏位A1、A2、A3、A4、A5的识别分类及敏感分类将转换数据集TD转换为去识别数据集DD,兹不赘言。
在某些实施方式中,处理器15还对去识别数据集DD执行一去识别检测(未绘示),藉此判断去识别数据集DD是否确实符合该第一产业领域、该第二产业领域及该数据用途所对应的法律规范。举例而言,该去识别检测可包含一K匿名(K-Anonymity)检测、一L多样性(L-Diversity)检测及一T相似性(T-Closeness)检测的至少其中之一,但不以此为限。
在某些实施方式中,处理器15还会根据该数据用途决定栏位A1、A2、A3、A4、A5的一重要性排序。于这些实施方式中,若处理器15判断去识别数据集DD未通过该去识别检测,处理器15可以再根据该重要性排序决定去识别数据集DD所包含的至少一栏位以进行一进阶去识别处理(未绘示)。进阶去识别处理之后也会再进行一次去识别检测,确认经过进阶去识别处理之后的去识别数据集DD,能够符合该第一产业领域、该第二产业领域及该数据用途所对应的法律规范。于这些实施方式中,同一栏位在同一识别分类上可有一或多个去识别处理方式,而这些去识别处理方式会有不同的等级。对于需要进行进阶去识别处理的栏位,处理器15会从该栏位所对应的该等去识别处理方式中选取一个更为严格的去识别处理方式来进行进阶去识别处理。
为便于理解,兹以一具体范例说明,但该具体范例并非用以限制本发明的范围。于该具体范例中,处理器15根据该数据用途决定该等栏位的重要性排序依序为栏位A4、栏位A5、栏位A3、栏位A2、栏位A1,处理器15再根据该重要性排序(例如:先选择较不重要的栏位先处理),决定去识别数据集DD中的栏位A1要进行进阶去识别处理。于该具体范例中,若栏位A1的识别分类为直接识别,会有三个等级的去识别处理方式,第一个等级为删除姓名中的一个字,第二个等级为删除姓名中的多个字,且第三个等级为以其他代号表示。处理器15原先系选取第一个等级的去识别处理方式将栏位A1所对应的该等数据进行去识别处理。由于处理器15判断去识别数据集DD未通过该去识别检测,且选取栏位A1要进行进阶去识别处理,因此处理器15会选取栏位A1所对应的第二个等级或第三个等级的去识别处理方式来对栏位A1所对应的该等数据进行进阶去识别处理。
本领域的技术人员依据前述说明应能理解,处理器15对去识别数据集DD进行进阶去识别处理后,还可再次执行前述的去识别检测,藉此判断经过进阶去识别处理的数据集是否确实符合该第一产业领域、该第二产业领域及该数据用途所对应的法律规范,兹不赘言。
在某些实施方式中,在产生去识别数据集DD后,处理器15还可利用一自动编码器(Autoencoder)从去识别数据集DD撷取多个特征值(未绘示),再利用该特征值预测去识别数据集DD于该数据用途的一建模效果(未绘示)。举例而言,当数据用途为评估一贷款申请人信用贷款的评等时,去识别数据集DD将用于建立一信用贷款评等分类模型,则该建模效果可为该信用贷款评等分类模型一分类准确度。于该等实施方式中,若处理器15判断该建模效果低于一门槛值时,处理器15还可根据该数据用途将数据集D转换为另一转换数据集(未绘示),也就是藉由其他的转换方式赋予该另一转换数据集与该数据用途有关的其他的额外信息,该其他的额外信息将有利于提升后续再次产生的去识别数据集DD的建模效果。具体而言,处理器15根据该数据用途决定栏位A1、A2、A3、A4、A5的一指定栏位的一数据转换方式。此外,处理器15在将数据集D转换为转换数据集TD与将数据集D转换为另一转换数据集时,系采用不同的数据转换方式来将该指定栏位所对应的该等数据进行转换,使得重新转换后的另一转换数据集内的数据,可更加符合数据用途的需求(例如:更有利于用来评估信用贷款的评等)。
类似的,处理器15在产生另一转换数据集后,如前述方法,还会根据栏位A1、A2、A3、A4、A5所对应的该等识别分类将该另一转换数据集转换为一去识别数据集,兹不赘言。
在某些实施方式中,数据去识别处理装置1还可包含一传输接口17,其电性连接至处理器15。传输接口17可为任何能收发信号及数据的有线或无线的接口,例如:各种网路接口,但不以此为限。传输接口17传送去识别数据集DD至一建模装置(未绘示)。该建模装置于接收到去识别数据集DD之后,可以建立对应该数据用途的一用途评估模型。在其他实施例中,该建模装置还可接收来自不同产业领域的多个去识别数据集DD,来进行建模。例如,该建模装置除了接收前述的去识别数据集DD之外,还可接收对应的该第二产业领域的另一去识别数据集(可采用前述的方式对第二产业领域的数据集处理后所产生)后,使用两个不同的去识别数据集来建立对应该数据用途的一用途评估模型。
由上述说明可知,数据去识别处理装置1会根据一数据用途对某一产业领域的数据集进行转换(例如:基于原有的数据提供其他产业领域的额外信息),且会根据至少二个产业领域及该数据用途对数据集进行去识别处理。经前述转换及去识别处理过后的数据集具有更丰富、更有利于该数据用途的信息,因此利用经前述转换及去识别处理过后的数据集所建立的用途评估模型将能作出更精准的决策、创造更多的价值。此外,由于数据去识别处理装置1在进行去识别处理时考量了所涉及的产业领域与数据用途的法律规范,因此经前述转换及去识别处理过后的数据集也就跨领域地符合规定。
本发明的第二实施方式为一种数据去识别处理方法,其主要流程图系描绘于图2。数据去识别处理方法适用于一电子计算装置(例如:前述数据去识别处理装置1),且该电子计算装置储存一第一产业领域的一数据集。该数据集定义多个栏位且包含多笔记录,其中各笔记录个别地包含多个数据一对一地对应至该等栏位。数据去识别处理方法包含步骤S201至步骤S209。
于步骤S201,由该电子计算装置接收一第一指令,其中该第一指令对应至一第二产业领域。于步骤S203,由该电子计算装置接收一第二指令,其中该第二指令对应至一数据用途。需说明者,本发明未限制步骤S201及步骤S203的执行顺序。换言之,步骤S201可早于或晚于步骤S203执行,也可与步骤S203同时执行。
接着,于步骤S205,由该电子计算装置根据该第一产业领域、该第二产业领域及该数据用途决定各该栏位的一识别分类。于步骤S207,由该电子计算装置根据该数据用途将该数据集转换为一第一转换数据集。于步骤S209,由该电子计算装置根据该等识别分类将该第一转换数据集转换为一第一去识别数据集。
于某些实施方式中,数据去识别处理方法还可包含一步骤,由该电子计算装置根据该第一产业领域、该第二产业领域及该数据用途决定各该栏位的一敏感分类(未绘示)。于该等实施方式中,步骤S209系根据该等识别分类及该等敏感分类将该第一转换数据集转换为该第一去识别数据集。
于某些实施方式中,步骤S207包含一步骤,由该电子计算装置根据该数据用途决定一指定栏位的一数据转换方式(未绘示)。步骤S207还包含另一步骤,由该电子计算装置将该指定栏位所对应的多笔数据以对应的该数据转换方式转换(未绘示)。
于某些实施方式中,步骤S209包含一步骤,由该电子计算装置根据各该栏位的该识别分类决定各该栏位的一去识别处理方式(未绘示)。步骤S209还包含另一步骤,由该电子计算装置将该第一转换数据集中各该栏位所对应的多笔数据以对应的该去识别处理方式来进行去识别处理(未绘示)。
于某些实施方式中,数据去识别处理方法还可包含一步骤,由该电子计算装置对该第一去识别数据集执行一去识别检测(未绘示)。举例而言,该去识别检测可包含一K匿名检测、一L多样性检测及一T相似性检测的至少其中之一,但不以此为限。于该等实施方式中,数据去识别处理方法还可包含一步骤,由该电子计算装置根据该数据用途决定该等栏位的一重要性排序(未绘示)。当该第一去识别数据集未通过该去识别检测时,数据去识别处理方法还可包含一步骤,由该电子计算装置根据该重要性排序决定该第一去识别数据集所包含的至少一栏位以进行一进阶去识别处理(未绘示)。
于某些实施方式中,数据去识别处理方法还可包含一步骤由该电子计算装置以一自动编码器从该第一去识别数据集撷取多个特征值(未绘示),且包含另一步骤由该电子计算装置利用该特征值预测该第一去识别数据集于该数据用途的一建模效果(未绘示)。于该等实施方式中,该数据去识别处理方法还可执行一步骤,由该电子计算装置判断该建模效果是否低于一门槛值(未绘示)。若该建模效果低于该门槛值,数据去识别处理方法还可包含一步骤,由该电子计算装置根据该等识别分类将该第二转换数据集转换为一第二去识别数据集(未绘示)。该数据去识别化处理方法于转换为该第一转换数据集和该第二数据集时系采用不同的数据转换方式来将该指定栏位所对应的多笔数据进行转换。
于某些实施方式中,数据去识别处理方法还可包含一步骤,由该电子计算装置传送该第一去识别数据集至一建模装置(未绘示)。该建模装置于接收该第一去识别数据集和对应该第二产业领域的一第三去识别数据集后,建立对应该数据用途的一用途评估模型。
除了上述步骤,第二实施方式还能执行前述各实施方式中所描述的数据去识别处理装置1所能执行的所有运作及步骤,具有同样的功能,且达到同样的技术效果。本领域的技术人员可直接了解第二实施方式如何基于上述各实施方式以执行此等运作及步骤,具有同样的功能,并达到同样的技术效果,故不赘述。
需说明者,于本发明专利说明书及权利要求书中,某些用语(包含:指令、产业领域、转换数据集、去识别数据集)前被冠以「第一」、「第二」或「第三」,该等「第一」、「第二」及「第三」仅用来区隔该等用语彼此不同。
综上所述,本发明所提供的数据去识别处理技术(至少包含装置及方法)会根据一数据用途对某一产业领域的数据集进行转换(例如:基于原有的数据提供其他产业领域的额外信息),且会根据至少二个产业领域及该数据用途对数据集进行去识别处理。经前述转换及去识别处理过后的数据集具有更丰富、更有利于该数据用途的信息,因此利用经前述转换及去识别处理过后的数据集所建立的用途评估模型将能作出更精准的决策、创造更多的价值。此外,由于本发明所提供的数据去识别处理技术在进行去识别处理时考量了所涉及的产业领域与数据用途的法律规范,因此经前述转换及去识别处理过后的数据集也就跨领域地符合规定。
上述各实施方式系用以例示性地说明本发明的部分实施态样以及用以阐释本发明的技术特征,而非用以限制本发明的保护范畴及范围。任何本领域的技术人员可轻易完成的改变或均等性的安排均属于本发明所主张的范围,本发明的权利保护范围以权利要求书为准。
Claims (20)
1.一种数据去识别处理装置,其特征在于,包含:
一储存器,储存一第一产业领域的一数据集,其中该数据集定义多个栏位;
一输入接口,接收一第一指令及一第二指令,其中该第一指令对应至一第二产业领域,该第二指令对应至一数据用途;以及
一处理器,电性连接至该储存器及该输入接口,根据该第一产业领域、该第二产业领域及该数据用途决定各该栏位的一识别分类,根据该数据用途将该数据集转换为一第一转换数据集,且根据该等识别分类将该第一转换数据集转换为一第一去识别数据集。
2.如权利要求1所述的数据去识别处理装置,其特征在于,该处理器还根据该第一产业领域、该第二产业领域及该数据用途决定各该栏位的一敏感分类,其中该处理器系根据该等识别分类及该等敏感分类将该第一转换数据集转换为该第一去识别数据集。
3.如权利要求1所述的数据去识别处理装置,其特征在于,该处理器系藉由以下运作将该数据集转换为该第一转换数据集:根据该数据用途决定一指定栏位的一数据转换方式,且将该指定栏位所对应的多笔数据以对应的该数据转换方式转换。
4.如权利要求1所述的数据去识别处理装置,其特征在于,该处理器系藉由以下运作将该第一转换数据集转换为该第一去识别数据集:根据各该栏位的该识别分类决定各该栏位的一去识别处理方式,且将该第一转换数据集中各该栏位所对应的多笔数据以对应的该去识别处理方式来进行去识别处理。
5.如权利要求1所述的数据去识别处理装置,其特征在于,该处理器还对该第一去识别数据集执行一去识别检测。
6.如权利要求5所述的数据去识别处理装置,其特征在于,该去识别检测包含一K匿名检测、一L多样性检测及一T相似性检测的至少其中之一。
7.如权利要求5所述的数据去识别处理装置,其特征在于,该处理器还根据该数据用途决定该等栏位的一重要性排序,当该处理器还判断该第一去识别数据集未通过该去识别检测时,该处理器还根据该重要性排序决定该第一去识别数据集所包含的至少一栏位以进行一进阶去识别处理。
8.如权利要求1所述的数据去识别处理装置,其特征在于,该处理器还以一自动编码器从该第一去识别数据集撷取多个特征值,且该处理器还利用该特征值预测该第一去识别数据集于该数据用途的一建模效果。
9.如权利要求8所述的数据去识别处理装置,其特征在于,当该建模效果低于一门槛值时,该处理器还根据该数据用途将该数据集转换为一第二转换数据集,且根据该等识别分类将该第二转换数据集转换为一第二去识别数据集,其中该处理器系根据该数据用途决定该等栏位中的一指定栏位的一数据转换方式,且该处理器于转换该第一转换数据集和该第二转换数据集时系采用不同的数据转换方式来将该指定栏位所对应的多笔数据进行转换。
10.如权利要求1所述的数据去识别处理装置,其特征在于,还包含:
一传输接口,电性连接至该处理器,且传送该第一去识别数据集至一建模装置;
其中,该建模装置于接收该第一去识别数据集和对应该第二产业领域的一第三去识别数据集后,建立对应该数据用途的一用途评估模型。
11.一种数据去识别处理方法,其特征在于,适用于一电子计算装置,该电子计算装置储存一第一产业领域的一数据集,该数据集定义多个栏位,该数据去识别处理方法包含下列步骤:
(a)接收一第一指令,其中该第一指令对应至一第二产业领域;
(b)接收一第二指令,其中该第二指令对应至一数据用途;
(c)根据该第一产业领域、该第二产业领域及该数据用途决定各该栏位的一识别分类;
(d)根据该数据用途将该数据集转换为一第一转换数据集;以及
(e)根据该等识别分类将该第一转换数据集转换为一第一去识别数据集。
12.如权利要求11所述的数据去识别处理方法,其特征在于,还包含下列步骤:
根据该第一产业领域、该第二产业领域及该数据用途决定各该栏位的一敏感分类;
其中,该步骤(e)系根据该等识别分类及该等敏感分类将该第一转换数据集转换为该第一去识别数据集。
13.如权利要求11所述的数据去识别处理方法,其特征在于,该步骤(d)包含下列步骤:
根据该数据用途决定一指定栏位的一数据转换方式;以及
将该指定栏位所对应的多笔数据以对应的该数据转换方式转换。
14.如权利要求11所述的数据去识别处理方法,其特征在于,该步骤(e)包含下列步骤:
根据各该栏位的该识别分类决定各该栏位的一去识别处理方式;以及
将该第一转换数据集中各该栏位所对应的多笔数据以对应的该去识别处理方式来进行去识别处理。
15.如权利要求11所述的数据去识别处理方法,其特征在于,还包含下列步骤:
对该第一去识别数据集执行一去识别检测。
16.如权利要求15所述的数据去识别处理方法,其特征在于,该去识别检测包含一K匿名检测、一L多样性检测及一T相似性检测的至少其中之一。
17.如权利要求15所述的数据去识别处理方法,其特征在于,还包含下列步骤:
根据该数据用途决定该等栏位的一重要性排序;
当该第一去识别数据集未通过该去识别检测时,根据该重要性排序决定该第一去识别数据集所包含的至少一栏位以进行一进阶去识别处理。
18.如权利要求11所述的数据去识别处理方法,其特征在于,还包含下列步骤:
以一自动编码器从该第一去识别数据集撷取多个特征值;以及
利用该特征值预测该第一去识别数据集于该数据用途的一建模效果。
19.如权利要求18所述的数据去识别处理方法,其特征在于,还包含下列步骤:
判断该建模效果低于一门槛值;
根据该数据用途将该数据集转换为一第二转换数据集;以及
根据该等识别分类将该第二转换数据集转换为一第二去识别数据集,
其中,该数据去识别化处理方法于转换为该第一转换数据集和该第二数据集时系采用不同的数据转换方式来将该指定栏位所对应的多笔数据进行转换。
20.如权利要求11所述的数据去识别处理方法,其特征在于,还包含下列步骤:
传送该第一去识别数据集至一建模装置;
其中,该建模装置于接收该第一去识别数据集和对应该第二产业领域的一第三去识别数据集后,建立对应该数据用途的一用途评估模型。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW108141399A TWI728553B (zh) | 2019-11-14 | 2019-11-14 | 資料去識別處理裝置及方法 |
TW108141399 | 2019-11-14 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112800022A true CN112800022A (zh) | 2021-05-14 |
Family
ID=75803961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911163505.9A Pending CN112800022A (zh) | 2019-11-14 | 2019-11-25 | 数据去识别处理装置及方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11314797B2 (zh) |
CN (1) | CN112800022A (zh) |
TW (1) | TWI728553B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11531703B2 (en) * | 2019-06-28 | 2022-12-20 | Capital One Services, Llc | Determining data categorizations based on an ontology and a machine-learning model |
US11652721B2 (en) * | 2021-06-30 | 2023-05-16 | Capital One Services, Llc | Secure and privacy aware monitoring with dynamic resiliency for distributed systems |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190188292A1 (en) * | 2017-12-20 | 2019-06-20 | International Business Machines Corporation | Adaptive statistical data de-identification based on evolving data streams |
US20190266353A1 (en) * | 2018-02-26 | 2019-08-29 | International Business Machines Corporation | Iterative execution of data de-identification processes |
US20190272387A1 (en) * | 2018-03-01 | 2019-09-05 | International Business Machines Corporation | Data de-identification across different data sources using a common data model |
US20190318811A1 (en) * | 2018-04-12 | 2019-10-17 | International Business Machines Corporation | Augmenting datasets using de-identified data |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9049314B2 (en) * | 2002-05-15 | 2015-06-02 | Verisma Systems, Inc. | Dynamically and customizably managing data in compliance with privacy and security standards |
JP6828034B2 (ja) | 2015-11-29 | 2021-02-10 | アーテリーズ インコーポレイテッド | 医療撮像および医療撮像情報の効率的共有 |
SG11201809476VA (en) | 2016-04-29 | 2018-11-29 | Privitar Ltd | Computer-implemented privacy engineering system and method |
CN109564616A (zh) * | 2016-06-30 | 2019-04-02 | 飞索科技有限公司 | 个人信息去标识化方法及装置 |
US11048820B2 (en) * | 2017-07-21 | 2021-06-29 | Sap Se | Anonymized data storage and retrieval |
WO2019079489A1 (en) * | 2017-10-17 | 2019-04-25 | Beneufit, Inc. | MEASUREMENT OF BODY MOVEMENT IN A DISEASE OF MOVEMENT DISORDERS |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
-
2019
- 2019-11-14 TW TW108141399A patent/TWI728553B/zh active
- 2019-11-25 CN CN201911163505.9A patent/CN112800022A/zh active Pending
- 2019-12-06 US US16/706,657 patent/US11314797B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190188292A1 (en) * | 2017-12-20 | 2019-06-20 | International Business Machines Corporation | Adaptive statistical data de-identification based on evolving data streams |
US20190266353A1 (en) * | 2018-02-26 | 2019-08-29 | International Business Machines Corporation | Iterative execution of data de-identification processes |
US20190272387A1 (en) * | 2018-03-01 | 2019-09-05 | International Business Machines Corporation | Data de-identification across different data sources using a common data model |
US20190318811A1 (en) * | 2018-04-12 | 2019-10-17 | International Business Machines Corporation | Augmenting datasets using de-identified data |
Non-Patent Citations (1)
Title |
---|
都丽婷;夏晨曦;赵冬;宋阳;罗维;冯德军;洪旭;马敬东;: "基于条件随机域的临床文本去识别研究", 中国卫生信息管理杂志, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
US11314797B2 (en) | 2022-04-26 |
TWI728553B (zh) | 2021-05-21 |
US20210149934A1 (en) | 2021-05-20 |
TW202119403A (zh) | 2021-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10936672B2 (en) | Automatic document negotiation | |
JP7087851B2 (ja) | 情報処理装置、データ分類方法およびプログラム | |
US20140146053A1 (en) | Generating Alternative Descriptions for Images | |
US10699317B2 (en) | Computer program, method, and system for matching consumers with service providers | |
US10657186B2 (en) | System and method for automatic document classification and grouping based on document topic | |
CN101533400B (zh) | 相关文档呈现系统和相关文档呈现方法 | |
CN110310123B (zh) | 风险判断方法和装置 | |
WO2021196935A1 (zh) | 数据校验方法、装置、电子设备和存储介质 | |
CN112800022A (zh) | 数据去识别处理装置及方法 | |
CN112016792A (zh) | 用户资源配额确定方法、装置及电子设备 | |
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
CN111178687A (zh) | 金融风险分类方法、装置及电子设备 | |
CN111191677B (zh) | 用户特征数据生成方法、装置及电子设备 | |
TW201820173A (zh) | 去識別化資料產生裝置、方法及其電腦程式產品 | |
US20160098567A1 (en) | Method, electronic device, and non-transitory computer readable recording media for identifying confidential data | |
US10902150B2 (en) | Methods and systems for facilitating migration to centralized compliance content for integration with a plurality of digital applications | |
JP2009230299A (ja) | 関連文書提示システム及びプログラム | |
US11361567B2 (en) | Methods and systems for facilitating classification of portions of a regulatory document | |
US11693718B2 (en) | Website plugin to enhance and standardize content accessibility | |
KR102193571B1 (ko) | 전자 장치, 이미지 검색 시스템 및 제어 방법 | |
US20200073891A1 (en) | Systems and methods for classifying data in high volume data streams | |
CN111582648A (zh) | 用户策略生成方法、装置及电子设备 | |
CN101479719A (zh) | 多种货币显示 | |
CN111382244B (zh) | 一种深度检索匹配分类方法、装置及终端设备 | |
CN113052711B (zh) | 基于区块链的保险保全风险控制方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |