CN109684862B - 数据去识别化方法、装置及计算机可读取储存介质 - Google Patents
数据去识别化方法、装置及计算机可读取储存介质 Download PDFInfo
- Publication number
- CN109684862B CN109684862B CN201810070747.2A CN201810070747A CN109684862B CN 109684862 B CN109684862 B CN 109684862B CN 201810070747 A CN201810070747 A CN 201810070747A CN 109684862 B CN109684862 B CN 109684862B
- Authority
- CN
- China
- Prior art keywords
- data
- sequence
- identification
- context
- situation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013503 de-identification Methods 0.000 title claims abstract description 47
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000012634 fragment Substances 0.000 claims abstract description 53
- 230000002123 temporal effect Effects 0.000 claims description 5
- PCTMTFRHKVHKIS-BMFZQQSSSA-N (1s,3r,4e,6e,8e,10e,12e,14e,16e,18s,19r,20r,21s,25r,27r,30r,31r,33s,35r,37s,38r)-3-[(2r,3s,4s,5s,6r)-4-amino-3,5-dihydroxy-6-methyloxan-2-yl]oxy-19,25,27,30,31,33,35,37-octahydroxy-18,20,21-trimethyl-23-oxo-22,39-dioxabicyclo[33.3.1]nonatriaconta-4,6,8,10 Chemical compound C1C=C2C[C@@H](OS(O)(=O)=O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2.O[C@H]1[C@@H](N)[C@H](O)[C@@H](C)O[C@H]1O[C@H]1/C=C/C=C/C=C/C=C/C=C/C=C/C=C/[C@H](C)[C@@H](O)[C@@H](C)[C@H](C)OC(=O)C[C@H](O)C[C@H](O)CC[C@@H](O)[C@H](O)C[C@H](O)C[C@](O)(C[C@H](O)[C@H]2C(O)=O)O[C@H]2C1 PCTMTFRHKVHKIS-BMFZQQSSSA-N 0.000 description 7
- 238000013500 data storage Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000013075 data extraction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000000717 retained effect Effects 0.000 description 3
- 235000019486 Sunflower oil Nutrition 0.000 description 2
- 235000013312 flour Nutrition 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000002085 persistent effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 239000002600 sunflower oil Substances 0.000 description 2
- 101100383234 Acremonium chrysogenum CEFG gene Proteins 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 235000013351 cheese Nutrition 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 239000004753 textile Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种数据去识别化方法、数据去识别化装置及执行数据去识别化方法的非易失性计算机可读取储存介质。该数据去识别化方法包括:获取原始数据,其中,原始数据包括身份标识列、条件字段以及纪录字段,根据条件字段获取情境条件,根据身份标识列纪录的多个身份识别数据及情境条件,从原始数据中获取符合情境条件的对应于各身份识别数据的情境片段序列,根据身份识别数据及对应于身份识别数据的情境片段序列,获取序列数据,调整序列数据以获取去识别化数据。
Description
技术领域
本发明涉及一种数据去识别化方法、数据去识别化装置及执行数据去识别化方法的非易失性计算机可读取储存介质。
背景技术
近来数据应用蔚为风潮,对于企业及政府而言,如何运用数据发现价值、解决问题,进而改善工作流程或活化行政服务,是有效应用数据的目标之一。
然而,大数据(big data)及开放数据(open data)的推动产生了侵害个人隐私的顾虑,因此,必须将对外释出、揭露的数据进行数据去识别化(data de-identification),使得无法从去识别化的数据的呈现方式直接或间接识别出特定个人。
因此,如何使对外释出的数据中的个人数据不再具有直接或间接识别性,乃目前业界所致力的课题之一。
发明内容
本发明涉及一种数据去识别化方法、数据去识别化方法装置及执行数据去识别化方法的非易失性计算机可读取储存介质。
本发明的第一个方面提出了一种数据去识别化方法。该数据去识别化方法包括:获取原始数据,其中,所述原始数据包括身份标识列、条件字段以及纪录字段,根据所述条件字段获取情境条件,根据所述身份标识列纪录的多个身份识别数据及所述情境条件,由所述原始数据中获取符合所述情境条件的对应于各所述些身份识别数据的情境片段序列,根据所述些身份识别数据及对应于各所述些身份识别数据的所述情境片段序列,获取序列数据。调整所述序列数据以获取去识别化数据。
本发明的第二个方面提出了一种数据去识别化装置。该数据去识别化装置包括处理器以及存储器,其中,所述存储器耦接于所述处理器。所述处理器用于:获取原始数据,所述原始数据包括身份标识列、条件字段以及纪录字段;根据所述条件字段获取情境条件;根据所述身份标识列纪录的多个身份识别数据及所述情境条件,由所述原始数据中获取符合所述情境条件的对应于各所述身份识别数据的情境片段序列;根据所述身份识别数据及对应于各所述些身份识别数据的所述情境片段序列,获取序列数据;调整所述序列数据以获取去识别化数据。
本发明的第三个方面提出了一种非易失性计算机可读取储存介质,其上储存有一或多个软件程序,所述一或多个软件程序包括多个指令,当被电子装置的一或多个处理器执行时,将使所述电子装置进行数据去识别化方法。数据去识别化方法包括:获取原始数据,所述原始数据包括身份标识列、条件字段以及纪录字段;根据所述条件字段获取情境条件;根据所述身份标识列纪录的多个身份识别数据及所述情境条件,由所述原始数据中获取符合所述情境条件的对应于各所述身份识别数据的情境片段序列;根据所述些身份识别数据及对应于各所述身份识别数据的所述情境片段序列,获取序列数据;以及调整所述序列数据以获取去识别化数据。
附图说明
为了对本发明之上述及其他方面有更佳的了解,下文特举实施例,并配合所附附图详细说明如下:
图1示意性示出了根据本发明实施例的数据去识别化装置的示意图;
图2示意性示出了根据本发明实施例的数据去识别化方法的流程图;以及
图3示意性示出了根据本发明实施例的调整序列数据以获取去识别化数据的流程图。
符号说明
10:数据去识别化装置
110:数据提取单元
120:条件设定单元
130:序列建立单元
140:去识别化单元
190:数据储存单元
S202、S204、S206、S208、S210、S302、S304、S306、S308、S310、S312、S314、S316、S318、S320:流程步骤
具体实施方式
以下提出各种实施例进行详细说明,然而,实施例仅用以作为范例说明,并不会限缩本发明欲保护的范围。此外,实施例中的附图省略部份组件,以清楚显示本发明的技术特点。在所有附图中相同的标号将用于表示相同或相似的组件。
网络的快速发展,使得信息分享可以更容易、更快速。然而,数据分享带来用户隐私问题。恶意的用户可以通过分析数据以及数据之间的关联性,得到用户的现实生活状况,可能造成用户现实中的损失。
k-匿名(k-anonymity)技术是一个保护数据隐私的机制。k-匿名技术在数据发布前,对数据进行去识别化,使数据中至少k-1笔数据无法与所选的数据作出区别,避免攻击者由数据重新识别出特定个人。其中,k值越大,数据的保护效果越佳。上述“去识别化”指通过一定程序与步骤对数据进行加工处理,使个人数据不再具有直接或间接识别性,无法采取任何合理可能的方法从此数据中识别出特定个人。
当数据经处理后,在一个数据集中,对于一个由多个属性值结合起来的组合(如地址、年龄、性别等),若是可以找到k笔数据是具有这样的组合,那此数据集就符合k匿名,其中k为k-匿名化参数,其值大于1,可视为隐私的安全强度。而一般的k-匿名技术容易产生大量的数据损失,不能处理连续型的数据,例如时间序列型的数据。包含时间的数据,通过数据的时间字段组合,可组成时间序列型数据,可看出事件发生频率,导致重新识别的风险。未来网络交易及物联网的数据都将会是时间序列型态,因此需对时间序列型数据进行有效的去识别化。
图1示意性示出了根据本发明实施例的数据去识别化装置10与数据储存单元190连接的示意图。如图1所示,数据去识别化装置10包括数据提取单元110、条件设定单元120、序列建立单元130以及去识别化单元140。数据提取单元110耦接于数据储存单元190以及条件设定单元120。序列建立单元130耦接于条件设定单元120以及去识别化单元140。数据去识别化装置10可以例如由包括处理器及耦接处理器的存储器的运算装置来实现,运算装置可以例如是个人计算机、服务器等。数据储存单元190可以例如是硬盘、闪存、只读存储器(Read-Only Memory,ROM)、非挥发性存储器(Non-Volatile Memory)、云端储存装置、或是通过计算机系统、服务器等电子装置执行近端或远程数据库系统来实现,以储存原始数据。数据提取单元110、条件设定单元120、序列建立单元130以及去识别化单元140可以例如是通过使用芯片、芯片内的电路区块、韧体电路、含有数个电子组件及导线的电路板或储存一或多个软件程序之或多组程序代码的非易失性储存介质来实现,也可通过在处理器的控制下,执行储存在存储器的一或多组程序代码来操作实现,也可通过服务器、计算机系统或类似装置等具一或多个处理器的电子装置执行对应软件或程序来实现。
图2示意性示出了根据本发明实施例的数据去识别化方法的流程图。图2所示的数据去识别化方法的流程图可应用于如图1所示的数据去识别化装置10。为了清楚说明上述各项组件的运作以及本发明实施例的数据去识别化方法,以下将搭配图2的流程图详细说明如下。然而,本发明所属技术领域中普通技术人员均可了解,本发明可实施例的控制装置及方法并不局限应用于图1的数据去识别化装置10,也不局限于图2的流程图的各项步骤顺序。该数据去识别化方法例如可由一或多个软件程序实作,软件程序可储存于光盘、硬盘或其他非易失性计算机可读取储存介质上,软件程序可以包括多个相关于处理器(亦或可被称为控制器)的指令或软件程序,这些指令或软件程序可被具有一或多个处理器/控制器的电子装置加载以执行数据去识别化方法。关于各步骤的详细说明如下。
请同时参照图1和图2。依据本发明之一实施例,以超市购物为例,在一固定时间内,例如半个营业日、一个营业日、五个营业日或者30个营业日等,此超市的部份交易纪录如下表表1所示。此交易纪录可储存于数据储存单元190中。
表1
首先,在步骤S202,数据提取单元110获取储存于数据储存单元190中的原始数据。原始数据包括了身份标识列、条件字段以及至少一个纪录字段。身份标识列纪录了多个身份识别数据。条件字段可以例如是时间字段,其纪录了对应于身份识别数据的多笔时间数据。纪录字段则纪录了对应于身份识别数据的多笔其他数据。在本实施例中,原始数据可以例如是表1所示的超市交易纪录。以表1的超市交易纪录为例,由左至右,第一字段为上述的身份标识列,其纪录了顾客身份识别。第二字段为上述的条件字段,亦为时间字段,其纪录了结账时间。第三字段、第四字段及第五字段则分别纪录了顾客所购买商品、商品购买数量以及商品单价。
接着,在步骤S204,条件设定单元120根据条件字段获取情境条件。以上述表1所记载的超市交易纪录为例,条件设定单元120根据第二字段所纪录的结账时间获取时间区间作为情境条件,例如为“2017年06月01日至2017年06月30日”。在本范例中,情境条件为时间条件。
随后,在步骤S206,序列建立单元130根据身份标识列纪录的多个身份识别数据及情境条件,从原始数据中获取符合情境条件的对应于各身份识别数据的情境片段序列。根据本发明的实施例,序列建立单元130可从纪录字段纪录的多个纪录数据中,获取符合情境条件的对应于各身份识别数据的纪录数据。接着,序列建立单元130根据对应于各身份识别数据的纪录数据,获取对应于各身份识别数据的至少一个情境片段。情境片段由原始数据中纪录字段所纪录的纪录数据组成。随后,序列建立单元130基于对应于各身份识别数据的至少一个情境片段,获取对应于各身份识别数据的情境片段序列。情境片段可以是原始数据中的一个纪录字段的数据或是数个纪录字段的数据的组合。其中,情境片段序列中的情境片段以时间顺序排序。
以上述表1所记载的超市交易纪录为例,情境条件为购物时间位于2017年06月01日至2017年06月30日之间,也就是说,根据本发明的实施例,以时间区间作为情境条件。序列建立单元130依据顾客身份标识列纪录的顾客身份识别数据以及情境条件,从原始数据中取出在结账时间在2017年06月01日至2017年06月30日之间的各顾客的购物数据,如下表表2所示。举例来说,可使用序列样本探勘(Sequential Pattern Mining)技术处理上述时间区间内的购物数据。购物数据可以例如包括但不限于购买的商品、购买商品的数量或购买商品的单价等。
表2
序列建立单元130依据各顾客的购物数据获取对应于各顾客的至少一个情境片段。举例来说,可以以购买商品以及商品的购买数量组成情境片段。以顾客17850的购买纪录而言,卫生纸6件、面粉2件、葵花油6件以及毛件12件为对应于顾客17850的情境片段。因此,以如表2所示的购买纪录为例,依据购买商品以及购买数量获取对应于不同顾客的情境片段,可获取如下表表3(a)所列的对应于各顾客的情境片段。也就是说,各情境片段的内容为{商品,数量}。
表3(a)
为方便说明,将顾客身份识别17850、顾客身份识别13777、顾客身份识别16931、顾客身份识别15862、顾客身份识别16552以及顾客身份识别14729分别称为顾客1、顾客2、顾客3、顾客4、顾客5及顾客6。将情境片段{卫生纸,6}、情境片段{面粉,2}、情境片段{葵花油,6}、情境片段{毛巾,12}、情境片段{牙刷,5}、情境片段{干酪,1}以及情境片段{牛奶,3}分别称为情境片段A、情境片段B、情境片段C、情境片段D、情境片段E、情境片段F以及情境片段G。因此,上述表3(a)可整理如下表表3(b)。
表3(b)
顾客 | 情境片段 | 情境片段 | 情境片段 | 情境片段 |
1 | A | B | C | D |
2 | A | B | C | D |
3 | B | E | F | |
4 | B | E | ||
5 | B | E | ||
6 | C | D | G |
在表3(b)中,对应于顾客1的四个情境片段A、B、C、D可组成对应于顾客1的情境片段序列{A,B,C,D}。相似地,对应于顾客2的四个情境片段可组成对应于顾客2的情境片段序列{A,B,C,D}。对应于顾客3的三个情境片段可组成对应于顾客3的情境片段序列{B,E,F}。对应于顾客4的两个情境片段可组成对应于顾客4的情境片段序列{B,E}。对应于顾客5的两个情境片段可组成对应于顾客5的情境片段序列{B,E}。对应于顾客6的三个情境片段可组成对应于顾客6的情境片段序列{C,D,G}。请参照如下表表4(a),表4(a)列出分别对应于顾客1~6的情境片段序列。各情境片段序列中的情境片段以时间顺序排序。
表4(a)
顾客 | 情境片段序列 |
1 | ABCD |
2 | ABCD |
3 | BEF |
4 | BE |
5 | BE |
6 | CDG |
接着,在步骤S208,序列建立单元130根据各身份识别数据及对应于各身份识别数据的情境片段序列,获取序列数据,如上表表4(a)所示,表4(a)为序列数据。并在步骤S210,去识别化单元140调整序列数据以获取去识别化数据。
图3示意性示出了根据本发明实施例的调整序列数据以获取去识别化数据的流程图。在图2的步骤S210中,去识别化单元140调整序列数据以获取去识别化数据。图3的步骤S302至步骤S320进步说明图2的步骤S210调整序列数据以获取去识别化数据的流程的可实施例。本发明所属技术领域中普通技术人员均可了解,本发明可实施例的调整序列数据以获取去识别化数据的方法不局限于图3的流程图的各项步骤顺序。
在步骤S302,去识别化单元140基于各情境片段序列获取各情境片段序列的至少一个子序列。举例来说,可以利用Apriori算法或PrefixSpan算法获取各情境片段序列内的各子序列。以上述表4(a)为例,顾客1、2的情境片段序列皆为{A,B,C,D},其子序列包括{A}、{B}、{C}、{D}、{A,B}、{A,C}、{A,D}、{B,C}、{B,D}、{C,D}、{A,B,C}、{A,B,D}、{A,C,D}、{B,C,D}以及{A,B,C,D}。顾客3的情境片段序列为{B,E,F},其子序列包括{B}、{E}、{F}、{B,E}、{B,F}、{E,F}、{B,E,F}。顾客4、5的情境片段序列皆为{B,E},其子序列包括{B}、{E}、{B,E}。顾客6的情境片段序列为{C,D,G},其子序列包括{C}、{D}、{G}、{C,D}、{C,G}、{D,G}、{C,D,G}。
接着,在步骤S304,去识别化单元140获取至少一个子序列的子序列长度,即子序列中情境片段的个数。以上述表4(a)为例,子序列{A}、{B}、{C}、{D}、{E}、{F}、{G}的子序列长度皆为1。子序列{A,B}、{A,C}、{A,D}、{B,C}、{B,D}、{C,D}、{B,E}、{B,F}、{E,F}、{C,G}、{D,G}的子序列长度皆为2。子序列{A,B,C}、{A,B,D}、{A,C,D}、{B,C,D}、{B,E,F}、{C,D,G}的子序列长度为3。子序列{A,B,C,D}的子序列长度为4。
在步骤S306,去识别化单元140获取至少一个子序列的子序列出现次数。举例来说,可以利用Apriori算法或PrefixSpan算法计算各子序列的子序列出现次数。以上述表4(a)为例,子序列{A}的子序列出现次数为2。子序列{B}的子序列出现次数为5。子序列{C}的子序列出现次数为3。子序列{D}的子序列出现次数为3。子序列{E}的子序列出现次数为3。子序列{F}的子序列出现次数为1。子序列{G}的子序列出现次数为1。子序列{A,B}的子序列出现次数为2。子序列{A,C}的子序列出现次数为2。子序列{A,D}的子序列出现次数为2。子序列{B,C}的子序列出现次数为2。子序列{B,D}的子序列出现次数为2。子序列{C,D}的子序列出现次数为3。子序列{B,E}的子序列出现次数为3。子序列{B,F}的子序列出现次数为1。子序列{E,F}的子序列出现次数为1。子序列{C,G}的子序列出现次数为1。子序列{D,G}的子序列出现次数为1。子序列{A,B,C}的子序列出现次数为2。子序列{A,B,D}的子序列出现次数为2。子序列{A,C,D}的子序列出现次数为2。子序列{B,C,D}的子序列出现次数为2。子序列{B,E,F}的子序列出现次数为1。子序列{C,D,G}的子序列出现次数为1。子序列{A,B,C,D}的子序列出现次数为2。
在步骤S308,去识别化单元140根据至少一个子序列的子序列长度以及至少一个子序列在子序列数据中的子序列出现次数,移除至少一个子序列中的特定子序列。根据本发明的实施例,去识别化单元140可由各子序列中,优先选出子序列长度最短且子序列出现次数小于预设值的特定子序列,并将选出的特定子序列从子序列中移除。也就是说,从子序列中移除的特定子序列在子序列数据中的子序列出现次数小于预设值。
以上述表4(a)为例,预设值例如为2,为k-匿名化技术(k-anonymity)的k值,即k-匿名化参数。去识别化单元140将优先选出子序列长度为1且子序列出现次数小于2的子序列,即子序列{F}、{G},并将子序列{F}、{G}从子序列中移除。也就是说,移除的子序列{F}、{G}的子序列出现次数小于k-匿名化参数。
移除子序列长度最短且子序列出现次数小于预设值的特定子序列后,在步骤S310,去识别化单元140判断子序列中是否仍有子序列出现次数小于预设值的子序列。若仍有子序列出现次数小于预设值的子序列,去识别化单元140再次从剩下的子序列中,选出子序列长度最短且子序列出现次数小于预设值的特定子序列,并将选出的特定子序列由剩下的子序列中移除。
当去识别化单元140在步骤S310中判断子序列中没有子序列出现次数小于预设值的子序列(步骤S310的判断结果为否),则在步骤S312中,去识别化单元140基于剩下的子序列获取对应于各情境片段序列的调整后情境片段序列。以上述表4(a)的内容以及预设值(k-匿名化参数)为2为例,根据子序列长度以及子序列出现次数,移除特定子序列后,可获取如下表表4(b)所示的调整后情境片段序列。表4(b)与表4(a)相比,子序列{F}、{G}被移除。
表4(b)
顾客 | 调整后情境片段序列 |
1 | ABCD |
2 | ABCD |
3 | BE |
4 | BE |
5 | BE |
6 | CD |
随后,在步骤S314,去识别化单元140获取各调整后情境片段序列的情境片段序列出现次数。举例来说,可以利用Apriori算法或PrefixSpan算法计算调整后情境片段序列的情境片段序列出现次数。以表4(b)为例,调整后情境片段序列{A,B,C,D}的情境片段序列出现次数为2。调整后情境片段序列{B,E}的情境片段序列出现次数为3。调整后情境片段序列{C,D}的情境片段序列出现次数为1。
在步骤S316,去识别化单元140根据各调整后情境片段序列的情境片段序列出现次数,从各情境片段序列的调整后情境片段序列中移除特定调整后情境片段序列。根据本发明的实施例,去识别化单元140可从调整后情境片段序列中,优先选出情境片段序列出现次数小于预设值的特定调整后情境片段序列,并将选出的特定调整后情境片段序列由调整后情境片段序列中移除。也就是说,由调整后情境片段序列中移除的特定调整后情境片段序列的情境片段序列出现次数小于预设值。
以上述表4(b)为例,预设值例如为2,为k-匿名化技术(k-anonymity)的k-匿名化参数。去识别化单元140获取情境片段序列出现次数小于2的调整后情境片段序列{C,D},并将调整后情境片段序列{C,D}由调整后情境片段序列中移除。也就是说,移除的调整后情境片段序列{C,D}的情境片段序列出现次数小于k-匿名化参数。
移除情境片段序列出现次数小于预设值的特定调整后情境片段序列后,在步骤S318,去识别化单元140判断剩下的调整后情境片段序列中,是否仍有情境片段序列出现次数小于预设值的调整后情境片段序列。若仍有情境片段序列出现次数小于预设值的调整后情境片段序列,去识别化单元140再次由剩下的调整后情境片段序列中,选出情境片段序列出现次数小于预设值的特定调整后情境片段序列,并将选出的特定调整后情境片段序列由剩下的调整后情境片段序列中移除。
当去识别化单元140于步骤S318中判断剩下的调整后情境片段序列中没有情境片段序列出现次数小于预设值的调整后情境片段序列,则在步骤S320中,去识别化单元140基于剩下的调整后情境片段序列获取留存情境片段序列,作为去识别化数据。以上述表4(b)的内容以及预设值(k-匿名化参数)为2为例,根据情境片段序列出现次数,移除特定调整后情境片段序列后,可获取如下表表4(c)所示的留存情境片段序列,作为去识别化数据。其中,以符号*表示对应于顾客6的调整后情境片段序列因其情境片段序列出现次数小于预设值而被移除或遮蔽。
表4(c)
顾客 | 留存情境片段序列 |
1 | ABCD |
2 | ABCD |
3 | BE |
4 | BE |
5 | BE |
6 | ** |
上述表4(c)所示的去识别化数据中,留存情境片段序列的情境片段序列出现次数大于预设值(k-匿名化参数),符合k匿名技术对于k匿名的要求,使数据中至少k-1笔数据无法与所选的数据作出区别。
根据本发明的另一实施例,以投资人投资股市为例,对投资人的投资组合进行去识别化处理。举例来说,基于各投资人的投资数据获取对应于各投资人的至少情境片段。举例来说,如下表表5(a)所列的对应于各投资人的情境片段,在本实施例中,以购买的股票类别以及购买的股票数量组成情境片段。以投资人13378的购买股票纪录而言,航运股3张、观光股3张、化学股3张及光电股3张为对应于投资人13378的情境片段。在本实施例中,基于股票类别以及对应的购买数量获取对应于不同投资人的情境片段,也就是说,各情境片段的内容为{股票类别,数量}。
表5(a)
为方便说明,将投资人身份识别11378、投资人身份识别14359、投资人身份识别16215、投资人身份识别13842、投资人身份识别17815以及投资人身份识别11258分别称为投资人1、投资人2、投资人3、投资人4、投资人5及投资人6。将情境片段{航运股,3}、情境片段{观光股,3}、情境片段{化学股,3}、情境片段{光电股,3}、情境片段{纺织股,2}、情境片段{钢铁股,2}以及情境片段{半导体股,4}分别称为情境片段A、情境片段B、情境片段C、情境片段D、情境片段E、情境片段F以及情境片段G。因此,上述表5(a)可整理如下表表5(b)。
表5(b)
投资人 | 情境片段 | 情境片段 | 情境片段 | 情境片段 |
1 | A | B | C | D |
2 | E | B | ||
3 | D | A | E | C |
4 | F | E | C | G |
5 | A | C | G | D |
6 | E | B | D |
在表5(b)中,对应于投资人1的四个情境片段A、B、C、D可组成对应于投资人1的情境片段序列{A,B,C,D}。相似地,对应于投资人2的四个情境片段可组成对应于投资人2的情境片段序列{B,E}。对应于投资人3的三个情境片段可组成对应于投资人3的情境片段序列{A,C,D,E}。对应于投资人4的两个情境片段可组成对应于投资人4的情境片段序列{C,E,F,G}。对应于投资人5的两个情境片段可组成对应于投资人5的情境片段序列{A,C,D,G}。对应于投资人6的三个情境片段可组成对应于投资人6的情境片段序列{B,D,E}。请参照下表表5(c),表5(c)列出分别对应于投资人1~6的情境片段序列。在本实施例中,各情境片段序列中的情境片段可不以时间排序,也就是说,本实施例为对非时间序列型态的数据进行去识别化处理。
表5(c)
投资人 | 情境片段序列 |
1 | ABCD |
2 | BE |
3 | ACDE |
4 | CEFG |
5 | ACDG |
6 | BDE |
接着,根据身份识别数据(投资人身份识别)及对应于身份识别数据的情境片段序列,获取序列数据,如上表表5(c)所示,表5(c)为序列数据。随后,调整序列数据以获取去识别化数据。
调整序列数据以获取去识别化数据,可先基于各情境片段序列获取各情境片段序列的至少一个子序列。举例来说,可以利用Apriori算法或PrefixSpan算法获取各情境片段序列内的各子序列。并获取各子序列的子序列长度,即子序列中情境片段的个数,以及获取各子序列的子序列出现次数,举例来说,可以利用Apriori算法或PrefixSpan算法计算各子序列的子序列出现次数。
根据子序列长度以及子序列出现次数,移除特定子序列。在实施例中,可由各子序列中,优先选出子序列长度最短且子序列出现次数小于预设值的特定子序列,并将选出的特定子序列从子序列中移除。移除子序列长度最短且子序列出现次数小于预设值的特定子序列后,判断子序列中是否仍有子序列出现次数小于预设值的子序列。若仍有子序列出现次数小于预设值的子序列,再次从剩下的子序列中,选出子序列长度最短且子序列出现次数小于预设值的特定子序列,并将选出的特定子序列从剩下的子序列中移除。并在判断子序列中没有子序列出现次数小于预设值的子序列后,基于剩下的子序列获取到对应于各情境片段序列的调整后情境片段序列。
以上述表5(c)的内容以及预设值(k-匿名化参数)为2为例,根据子序列长度以及子序列出现次数,移除特定子序列后,可获取如下表表5(d)所示的调整后情境片段序列。表5(c)与表5(d)相比,子序列{F}、{G}被移除。
表5(d)
投资人 | 调整后情境片段序列 |
1 | ACD |
2 | BE |
3 | ACD |
4 | CE |
5 | ACD |
6 | BE |
接着,获取调整后情境片段序列的情境片段序列出现次数。举例来说,可以利用Apriori算法或PrefixSpan算法计算调整后情境片段序列的情境片段序列出现次数。以表5(d)为例,调整后情境片段序列{A,C,D}的情境片段序列出现次数为3。调整后情境片段序列{B,E}的情境片段序列出现次数为2。调整后情境片段序列{C,E}的情境片段序列出现次数为1。
根据调整后情境片段序列的情境片段序列出现次数,移除特定调整后情境片段序列。在实施例中,可从调整后情境片段序列中,优先选出情境片段序列出现次数小于预设值的特定调整后情境片段序列,并将选出的特定调整后情境片段序列由调整后情境片段序列中移除。以上述表5(d)为例,预设值例如为2,为k-匿名化技术(k-anonymity)的k-匿名化参数。获取情境片段序列出现次数小于2的调整后情境片段序列{C,E},并将调整后情境片段序列{C,E}从调整后情境片段序列中移除。
移除情境片段序列出现次数小于预设值的特定调整后情境片段序列后,判断剩下的调整后情境片段序列中,是否仍有情境片段序列出现次数小于预设值的调整后情境片段序列。若仍有情境片段序列出现次数小于预设值的调整后情境片段序列,再次从剩下的调整后情境片段序列中,选出情境片段序列出现次数小于预设值的特定调整后情境片段序列,并将选出的特定调整后情境片段序列从剩下的调整后情境片段序列中移除。
当判断剩下的调整后情境片段序列中没有情境片段序列出现次数小于预设值的调整后情境片段序列,则基于剩下的调整后情境片段序列获取留存情境片段序列,作为去识别化数据。以上述表5(d)的内容以及预设值(k-匿名化参数)为2为例,根据情境片段序列出现次数,移除特定调整后情境片段序列后,可获取如下表表5(e)所示的留存情境片段序列,作为去识别化数据。其中,以符号*表示对应于投资人4的调整后情境片段序列因其情境片段序列出现次数小于预设值而被移除或遮蔽。
表5(e)
投资人 | 留存情境片段序列 |
1 | ACD |
2 | BE |
3 | ACD |
4 | ** |
5 | ACD |
6 | BE |
上述表5(e)所示的去识别化数据中,留存情境片段序列的情境片段序列出现次数大于预设值(k-匿名化参数),符合k匿名技术对于k匿名的要求,使数据中至少k-1笔数据无法与所选的数据作出区别。
本发明的实施例基于原始数据中的身份识别数据以及设定的情境条件(例如为时间区间),在此情境条件下,取出对应于不同身份识别数据的情境片段(例如为购买商品及数量的组合)及情境片段序列。更通过情境片段序列中子序列的出现次数以及情境片段序列的出现次数,调整对应于不同身份识别数据的情境片段序列。基于最后留存的情境片段序列获取去识别化数据,完成匿名化。
如此,在处理政府及企业欲公开的原始数据,以及处理网络交易及物联网的数据时,可利用上述之数据去识别化方法,例如可对时间序列型态的数据进行去识别化。将非结构式时间序列数据区分成多个时间区间或时间片段(fragment),将时间区间或时间片段作为情境条件,并使用序列样本探勘技术处理每个时间片段的数据,使时间片段内各情境片段序列及其子序列的最小出现次数(support)不小于k-匿名化参数,达成对于数据的保护效果。还可以通过时间片段的开始时间及结束时间,在时间轴上获取不同时间点的位移及时间序列数据,减少对原始数据的完整性的破坏,达成降低数据流失率的效果。再者,本发明的数据去识别化方法未基于对应的相关联数据内容,将原始数据的内容修改或概化为新的数据,可减少去识别化后的数据内容与原始数据内容之间的差异,保障数据具备较高完整性。
综上所述,虽然本发明已以可实施范例揭露如上,然其并非用以限定本发明。本发明所属技术领域中普通技术人员,在不脱离本发明之精神和范围内,应当可以作各种更动与润饰。因此,本发明的保护范围当视后附的权利要求所界定者为准。
Claims (17)
1.一种数据去识别化方法,包括:
获取原始数据,其中,所述原始数据包括身份标识列、条件字段以及纪录字段;
根据所述条件字段获取情境条件;
根据所述身份标识列纪录的多个身份识别数据及所述情境条件,从所述原始数据中获取符合所述情境条件的对应于各所述身份识别数据的情境片段序列;
根据所述身份识别数据及对应于各所述身份识别数据的所述情境片段序列,获取序列数据;以及
根据各至少一个子序列的子序列长度以及子序列出现次数,调整所述序列数据以获取去识别化数据,其中,各所述至少一个子序列从各所述情境片段序列获取。
2.如权利要求1所述的数据去识别化方法,其特征在于,获取符合所述情境条件的对应于各所述身份识别数据的所述情境片段序列包括:
从所述纪录字段纪录的多个纪录数据中,获取符合所述情境条件的对应于各所述身份识别数据的各所述纪录数据;
根据对应于各所述身份识别数据的各所述纪录数据,获取对应于各所述身份识别数据的至少一个情境片段;以及
基于对应于各所述身份识别数据的所述至少一个情境片段,获取对应于各所述身份识别数据的所述情境片段序列。
3.如权利要求2所述的数据去识别化方法,其特征在于,各所述情境片段序列中的所述至少一个情境片段以时间顺序排序。
4.如权利要求1所述的数据去识别化方法,其特征在于,调整所述序列数据以获取所述去识别化数据包括:
基于各所述情境片段序列获取各所述情境片段序列的各所述至少一个子序列;
根据各所述至少一个子序列的所述子序列长度以及各所述至少一个子序列在所述序列数据中的所述子序列出现次数,移除所述至少一个子序列中的特定子序列;以及
获取对应于各所述情境片段序列的调整后情境片段序列。
5.如权利要求4所述的数据去识别化方法,其特征在于,所述特定子序列的所述子序列出现次数小于k-匿名化参数。
6.如权利要求4所述的数据去识别化方法,其特征在于,调整所述序列数据以获取所述去识别化数据还包括:
根据各所述调整后情境片段序列的情境片段序列出现次数,在各所述情境片段序列的所述调整后情境片段序列中移除特定调整后情境片段序列以获取所述去识别化数据。
7.如权利要求6所述的数据去识别化方法,其特征在于,所述特定调整后情境片段序列的所述情境片段序列出现次数小于k-匿名化参数。
8.如权利要求1所述的数据去识别化方法,其特征在于,所述条件字段为时间字段,所述时间字段纪录多笔时间数据。
9.一种数据去识别化装置,包括:
至少一个处理器;以及
存储器,耦接于所述处理器,其特征在于,所述至少一个处理器用于:
获取原始数据,所述原始数据包括身份标识列、条件字段以及纪录字段;
根据所述条件字段获取情境条件;
根据所述身份标识列纪录的多个身份识别数据及所述情境条件,由所述原始数据中获取符合所述情境条件的对应于各所述身份识别数据的情境片段序列;
根据所述身份识别数据及对应于各所述身份识别数据的所述情境片段序列,获取序列数据;以及
根据各至少一个子序列的子序列长度以及子序列出现次数,调整所述序列数据以获取去识别化数据,其中,各所述至少一个子序列从各所述情境片段序列获取。
10.如权利要求9所述的数据去识别化装置,其特征在于,所述至少一个处理器还用于:
从所述纪录字段纪录的多个纪录数据中,获取符合所述情境条件的对应于各所述身份识别数据的各所述纪录数据;
根据对应于各所述身份识别数据的各所述纪录数据,获取对应于各所述身份识别数据的至少一个情境片段;以及
基于对应于各所述身份识别数据的所述至少一个情境片段,获取对应于各所述身份识别数据的所述情境片段序列。
11.如权利要求10所述的数据去识别化装置,其特征在于,各所述情境片段序列中的所述至少一个情境片段以时间顺序排序。
12.如权利要求9所述的数据去识别化装置,其特征在于,所述至少一个处理器还用于:
基于各所述情境片段序列产生各所述情境片段序列的各所述至少一个子序列;
根据各所述至少一个子序列的所述子序列长度以及各所述至少一个子序列于所述序列数据中的所述子序列出现次数,移除所述至少一个子序列中的特定子序列;以及
获取对应于各所述情境片段序列的调整后情境片段序列。
13.如权利要求12所述的数据去识别化装置,其特征在于,所述特定子序列的所述子序列出现次数小于k-匿名化参数。
14.如权利要求12所述的数据去识别化装置,其特征在于,所述至少一个处理器还用于:
根据各所述调整后情境片段序列的情境片段序列出现次数,从各所述情境片段序列的所述调整后情境片段序列中移除特定调整后情境片段序列以获取所述去识别化数据。
15.如权利要求14所述的数据去识别化装置,其特征在于,所述特定调整后情境片段序列的所述情境片段序列出现次数小于k-匿名化参数。
16.如权利要求9所述的数据去识别化装置,其特征在于,所述条件字段为时间字段,所述时间字段纪录多笔时间数据。
17.一种非易失性计算机可读取储存介质,其上储存有一或多个软件程序,所述一或多个软件程序包括多个指令,当被电子装置的一或多个处理器执行时,将使所述电子装置进行数据去识别化方法,所述数据去识别化方法包括:
获取原始数据,所述原始数据包括身份标识列、条件字段以及纪录字段;
根据所述条件字段获取情境条件;
根据所述身份标识列纪录的多个身份识别数据及所述情境条件,由所述原始数据中获取符合所述情境条件的对应于各所述身份识别数据的情境片段序列;
根据所述身份识别数据及对应于各所述身份识别数据的所述情境片段序列,获取序列数据;以及
根据各至少一个子序列的子序列长度以及子序列出现次数,调整所述序列数据以获取去识别化数据,其中,各所述至少一个子序列从各所述情境片段序列获取。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
TW106135782 | 2017-10-18 | ||
TW106135782A TWI644224B (zh) | 2017-10-18 | 2017-10-18 | 資料去識別化方法、資料去識別化裝置及執行資料去識別化方法的非暫態電腦可讀取儲存媒體 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109684862A CN109684862A (zh) | 2019-04-26 |
CN109684862B true CN109684862B (zh) | 2021-07-20 |
Family
ID=65432081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810070747.2A Active CN109684862B (zh) | 2017-10-18 | 2018-01-24 | 数据去识别化方法、装置及计算机可读取储存介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10699029B2 (zh) |
CN (1) | CN109684862B (zh) |
TW (1) | TWI644224B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10885224B2 (en) | 2018-02-01 | 2021-01-05 | International Business Machines Corporation | Data de-identification with minimal data change operations to maintain privacy and data utility |
US10831928B2 (en) * | 2018-06-01 | 2020-11-10 | International Business Machines Corporation | Data de-identification with minimal data distortion |
TWM596392U (zh) * | 2019-08-22 | 2020-06-01 | 台北富邦商業銀行股份有限公司 | 資料去識別化系統 |
US11641346B2 (en) * | 2019-12-30 | 2023-05-02 | Industrial Technology Research Institute | Data anonymity method and data anonymity system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156755A (zh) * | 2011-05-06 | 2011-08-17 | 天津大学 | 一种k-匿名改进方法 |
TW201426578A (zh) * | 2012-12-27 | 2014-07-01 | Ind Tech Res Inst | 匿名資料集的產生方法及裝置與風險評估方法及裝置 |
CN104732154A (zh) * | 2013-12-18 | 2015-06-24 | 国际商业机器公司 | 将数据匿名化的方法和系统 |
CN106021541A (zh) * | 2016-05-26 | 2016-10-12 | 徐州医科大学 | 区分准标识符属性的二次k-匿名隐私保护算法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009127771A1 (en) | 2008-04-16 | 2009-10-22 | Nokia Corporation | Privacy management of data |
US20120046995A1 (en) * | 2009-04-29 | 2012-02-23 | Waldeck Technology, Llc | Anonymous crowd comparison |
CN101964034B (zh) | 2010-09-30 | 2012-08-15 | 浙江大学 | 一种模式信息损失最小化的序列类数据隐私保护方法 |
WO2012063546A1 (ja) | 2010-11-09 | 2012-05-18 | 日本電気株式会社 | 匿名化装置及び匿名化方法 |
WO2013088681A1 (ja) | 2011-12-15 | 2013-06-20 | 日本電気株式会社 | 匿名化装置、匿名化方法、並びにコンピュータ・プログラム |
TW201447803A (zh) * | 2013-06-11 | 2014-12-16 | Univ Taipei Medical | 病理分析模組之個人資料移除方法 |
JP6471699B2 (ja) * | 2014-02-04 | 2019-02-20 | 日本電気株式会社 | 情報判定装置、情報判定方法及びプログラム |
US20150310466A1 (en) * | 2014-04-25 | 2015-10-29 | Truecar, Inc. | Sales analyzer systems and methods |
US9836623B2 (en) * | 2015-01-30 | 2017-12-05 | Splunk Inc. | Anonymizing machine data events |
TW201710980A (zh) * | 2015-09-03 | 2017-03-16 | 李智偉 | 不動產估價方法 |
TW201714113A (zh) * | 2015-10-14 | 2017-04-16 | Chunghwa Telecom Co Ltd | 資料去識別化系統及其方法 |
-
2017
- 2017-10-18 TW TW106135782A patent/TWI644224B/zh active
- 2017-12-27 US US15/855,786 patent/US10699029B2/en active Active
-
2018
- 2018-01-24 CN CN201810070747.2A patent/CN109684862B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156755A (zh) * | 2011-05-06 | 2011-08-17 | 天津大学 | 一种k-匿名改进方法 |
TW201426578A (zh) * | 2012-12-27 | 2014-07-01 | Ind Tech Res Inst | 匿名資料集的產生方法及裝置與風險評估方法及裝置 |
CN104732154A (zh) * | 2013-12-18 | 2015-06-24 | 国际商业机器公司 | 将数据匿名化的方法和系统 |
CN106021541A (zh) * | 2016-05-26 | 2016-10-12 | 徐州医科大学 | 区分准标识符属性的二次k-匿名隐私保护算法 |
Also Published As
Publication number | Publication date |
---|---|
TWI644224B (zh) | 2018-12-11 |
US10699029B2 (en) | 2020-06-30 |
US20190114447A1 (en) | 2019-04-18 |
CN109684862A (zh) | 2019-04-26 |
TW201917608A (zh) | 2019-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109684862B (zh) | 数据去识别化方法、装置及计算机可读取储存介质 | |
CN107332910B (zh) | 信息推送方法和装置 | |
WO2019061994A1 (zh) | 电子装置、保险产品推荐方法、系统及计算机可读存储介质 | |
CN109360048A (zh) | 订单生成方法、系统、计算机设备和存储介质 | |
US20150220937A1 (en) | Systems and methods for appending payment network data to non-payment network transaction based datasets through inferred match modeling | |
US9436936B2 (en) | Systems and methods for analysis and linkage between different transaction data providers using de-identified data | |
US20150220945A1 (en) | Systems and methods for developing joint predictive scores between non-payment system merchants and payment systems through inferred match modeling system and methods | |
US10210585B2 (en) | Systems and methods for use in compressing data structures | |
US10581845B2 (en) | Method and apparatus for assigning device fingerprints to internet devices | |
CN107783861B (zh) | 交易回滚方法、装置、存储介质和计算机设备 | |
US10635942B2 (en) | Method and apparatus for identifying a product | |
CN110674391A (zh) | 基于大数据的产品数据推送方法、系统和计算机设备 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
CN109785867B (zh) | 双录流程配置方法、装置、计算机设备和存储介质 | |
CN110688846B (zh) | 周期词挖掘方法、系统、电子设备及可读存储介质 | |
CN108985755B (zh) | 一种账号状态识别方法、装置及服务器 | |
US20140112549A1 (en) | Pattern extracting apparatus and method | |
WO2013157603A1 (ja) | 検索クエリ分析装置、検索クエリ分析方法、及びコンピュータ読み取り可能な記録媒体 | |
US20220147960A1 (en) | Method for managing content sharing platform combined with e-commerce capabilities and apparatus for performing the same | |
CN111639274B (zh) | 线上商品智能排序方法、装置、计算机设备和存储介质 | |
EP3107056A1 (en) | Matching system, matching method, and non-transitory computer-readable medium on which program is stored | |
CN110858363A (zh) | 一种识别季节性商品的方法和装置 | |
CN112989021B (zh) | 用于顾问行为违规判定的方法、装置及设备 | |
CN110969486B (zh) | 广告投放方法、用户端、服务器、系统及存储介质 | |
CN110517055B (zh) | 生成实体场所促销信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |