CN107656972A - 一种保持数据稀缺性的开放数据细粒度访问控制方法 - Google Patents
一种保持数据稀缺性的开放数据细粒度访问控制方法 Download PDFInfo
- Publication number
- CN107656972A CN107656972A CN201710781988.3A CN201710781988A CN107656972A CN 107656972 A CN107656972 A CN 107656972A CN 201710781988 A CN201710781988 A CN 201710781988A CN 107656972 A CN107656972 A CN 107656972A
- Authority
- CN
- China
- Prior art keywords
- data
- access
- value
- user
- key
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Storage Device Security (AREA)
Abstract
本发明属于开放数据的访问控制技术领域,具体为一种数据稀缺性的开放数据细粒度访问控制方法。本发明通过在开放数据源外封装一个数据访问接口软件的方式,一方面允许用户访问数据源中的小部分数据,另一方面对用户对原始数据的访问情况进行日志记录,采用双键值对的方式确保日志记录、查询、统计都能实时完成,从而实现从数据记录这一细粒度上对数据的访问控制,保证数据源中的原始数据不会因单一用户整体多次复制而丧失数据稀缺性。本发明在保持数据访问性能同时保障了开放数据源中数据不被完整复制,从而保持了数据稀缺性。
Description
技术领域
本发明属于开放数据的访问控制技术领域,具体涉及一种数据稀缺性的开放数据细粒度访问控制方法。
背景技术
大数据技术研究和广泛应用为各个领域和业务系统的数据开放共享带来了越来越多的需求。数据开放和数据稀缺性的矛盾,是影响到数据开放的重要因素。传统的数据开放意味着数据实体(数据集)可被任意复制,造成数据稀缺性的丧失,进而导致数据持有者不愿开放数据。为了保持数据的稀缺性,现有的技术手段主要包括数据授权访问和数据加密。数据授权访问本质上是一种封闭式的数据共享方法,而非数据开放。通过获得相应的数据使用授权,用户能在授权范围内访问到所需的数据。然而,由于需要预先授权,这种方式对于数据使用效率是较低的;并且,由于难以确认授权的用户是否能切实履行数据不被二次复制,事实上也很难实现数据稀缺性的保护。数据加密是通过对数据表示形式进行转换,使得普通用户难以或无法在有限时间内获得数据。这种方式往往和数据授权同时使用,但同样也存在数据二次复制的问题。为此,数据安全领域研究了新型加密方法,使得不同用户只能使用自己授权的加密数据,并且无法单独解密。但该方法也存在诸如数据访问性能下降的问题。
为了解决数据开放和保持数据稀缺性的矛盾,数据自治开放的概念被提出。在大数据背景下,通过软件控制的方式,将部分数据完全开放给用户,但同时又保证完整数据集不被全部复制。本发明即采用对数据访问操作进行记录和分析的方法,实现对数据开放背景下保持数据稀缺性的访问控制。
发明内容
本发明的目的是提供一种在数据开放背景下保持数据稀缺性的数据访问控制方法,从而实现各类数据对用户开放可见,用户可按需使用开放的数据但无法获取开放数据源中的所有原始数据。
为了达到上述目的,本发明的技术方案如下:
本发明通过在开放数据源的外层封装一个用于访问数据的接口软件,所有对数据的访问操作均由该接口软件完成。该接口软件在完成数据访问操作的同时,还将数据访问操作的类型以及实际访问的数据记录的主键存储在数据访问日志中。本发明特别关注将数据源中原始数据直接提供给用户的数据访问操作,并对此类操作进行策略控制。由于外部用户的访问请求条件不同,一次访问操作所返回的数据集也不同。其中,指定数据访问操作通过规定特定的查询范围条件,获取符合条件的若干条数据记录,所获得的所有数据记录全部返回给用户;随机批量数据访问操作通过规定特定的查询范围条件,获取符合条件的若干条数据记录后,通过随机抽取的方式,每次访问操作返回不超过100条数据记录。所返回的数据记录以及相应的访问操作类型,都被记录在数据访问日志中,供后续分析。本发明的核心思想是,将数据稀缺性定义为完整数据集的稀缺性,而用户可以获取少部分零散数据;通过精确到每一条数据记录以何种形式被访问的日志记录,动态分析当前数据集中的数据记录多少倍用户获取,并由此判断是否允许用户继续获取更多的原始数据记录。
本发明方法具体步骤如下:
a.将开放数据源封装在一个具有有限数据访问功能的接口软件中,所有对开放数据源中原始数据的访问只能通过该接口软件完成;
b.设定接口软件各类操作所访问数据记录的范围控制值;
c.每个接口软件将通过该接口访问数据的操作情况,包括访问的数据、访问的操作类型,实时写入访问日志文件;
d.根据数据访问日志实时统计当前访问用户对当前数据源的数据访问情况,包括对该数据源的所有记录发生的各类访问操作的类型和数量;
e.针对每一个数据访问操作类型,将步骤d中获取的统计值与步骤b中设定的控制值进行比较,如果统计值超过控制值,则接口拒绝该类型的数据访问后续请求。
步骤a中所述的有限数据访问功能是指对数据按原样展示给用户的读取操作和不向用户泄露原始数据的其他操作。
其中,所述不向用户泄露原始数据的其他操作,是指用户在进行数据分析、计算、统计时需要读取所有或大部分原始数据时,不会直接获得原始数据,而是仅获得计算的结果;按原样展示给用户的读取操作是用户直接获得数据源中原始数据;按原样展示给用户的读取操作细分为指定数据读取操作和随机批量数据读取操作。
步骤a是将开放数据源的访问方式接口化的过程。经过该步骤后,数据源不再直接被外界访问,而是通过具有有限数据访问功能的接口软件进行访问。但该接口软件能提供对部分原始数据的直接访问操作,例如指定数据访问操作,用户仍然可以不受任何授权、不需要任何解密手段,直接获取数据源中的部分数据。因此数据源虽然被封装在接口软件中,但对外界而言,仍然是可访问的,因此该数据源仍然保持有开放的特性。而该数据源中有多少原始数据可以被外界直接获取,则通过接本发明所述的步骤b来设定。
步骤b中所述的控制值是针对步骤a中接口软件的每一个数据访问操作类型设定的;该控制值规定对应数据访问操作类型所访问过的数据记录数占所有数据源记录数的百分比或所访问数据记录的具体条数。通常,这个数值在数据源的记录数大于等于100万时应当小于1‰,在数据源的记录数小于100万时应当小于1000条且不大于记录总数的1%。如果数据源的记录数小于10万则不宜采用本方法。不向用户泄露原始数据的数据访问操作,是指将用户在进行数据分析、计算、统计等需要读取所有或大部分原始数据时,不会让用户直接获得原始数据,而是仅获得计算的结果。由于并不是所有的接口访问数据操作都会返回原始数据,因此步骤b中设定的控制值可以仅针对指定数据访问操作和随机批量数据访问操作。
步骤c中所述写入的数据访问日志包含数据访问操作类型以及该次访问到的数据的主键。
步骤c旨在将用户通过接口访问到数据源中数据的过程进行日志化,从数据记录的粒度上存储每个数据访问操作访问了哪些数据,以及每条数据通过哪些数据访问操作访问了。为了便于记录和查找,同时记录了两个键值对表,一个键值对表(键值对表A)以数据的主键取值为键,访问操作类型为值;另一个键值对表(键值对表B)对以访问操作类型为键,数据的主键取值为值。
步骤d中所述的实时统计数据访问情况,使用了以访问操作类型为键的键值对表(即键值对表B),按访问操作类型直接计算不同的数据主键取值的个数。
步骤d中所述对该数据源的所有记录发生的各类访问操作的类型和数量,即针对当前用户的当前数据访问操作计算出该用户通过该数据访问操作已经实际访问到的不同数据记录的条数vn,以数据源的总数据记录数tn为基准,计算vn/tn得到数据覆盖百分比p。
步骤e中接口软件根据计算的已经访问数据的记录数、设置的控制数,放行或拒绝数据访问操作。由于计算耗时,放行或拒绝数据访问操作这一动作相对于数据访问操作本身而言可能有所延迟。该计算可以是与数据访问操作并发执行的,也可以是在数据访问操作过程中与实际数据访问操作串行的。
所述步骤e有一个独立程序,对步骤d中统计和计算得到的vn和p,针对步骤b中设定的范围值进行比对,并决定数据接口软件对下一个同类型的数据访问请求是否放行还是拒绝。当tn>=1000000时,p应当小于步骤b中设定的百分比。如果计算得到的p大于等于步骤b中设定的百分比,则对数据接口软件应当拒绝下一个同类型的数据访问请求。当100000<=tn<1000000时,vn应当小于步骤b中设定的具体条数并且p小于步骤b中设定的百分比,否则数据接口软件应当拒绝下一个同类型的数据访问请求。当tn<=100000时,不宜使用本方法,但仍然可以设定相应的记录条数和/或原始数据读取条数占总数据条数的百分比。
本发明由于采用了上述的技术方案,使之与现有技术相比,具有以下的优点和积极效果:本发明方法可以实现对开放数据源的细粒度访问日志记录,并实时控制数据记录的访问情况,数据访问日志和检索效率能满足在大数据环境下的数据访问控制的实时性需求。
附图说明
图1为本发明的基本过程示意图。
图2为本发明所采用的数据接口软件以及相关部件结构的示意图。
图3为示例的实施过程示意图。
具体实施方式
通过以下对本发明的实施例并结合其附图的描述,可以进一步理解本发明的目的、具体结构特征和优点。
图2为本发明所采用的数据接口软件以及相关部件结构的示意图。本发明的数据访问接口部件(1)对外提供的接口包括指定数据读取操作(2)、随机批量数据读取操作(3)、以及其他操作(4)。指定数据读取操作接口和随机批量数据读取操作由数据读取控制模块(5)根据本发明的访问控制机制控制,通过根据日志分析模块(6)的分析结果决策是否放行相应的操作;对于放行的操作,数据读取控制模块从封装在部件内部的数据源(7)读取所请求的数据。对于计算数据源中指定数据的最大最小值、平均值、方差、标准差、中位数、四分位数等基础统计操作需求,由内置计算模块(8)通过从数据读取控制模块获取原始数据后完成计算,并通过其他操作接口向外部用户提供。所有的操作都记录在数据访问日志(9)中。日志分析模块如果需要额外的设置参数,则由维护人员通过数据访问范围设置(10)组件进行设定。
图3为示例的实施过程示意图。该示意图是对图1所示的本发明基本过程的细化,展示了下述具体实施方式示例的主要步骤的图解。图中的数字标识与实施里的步骤标识一致。
下面给出在MangoDB中存储病患数据,通过Tomcat下应用程序对该数据源进行封装的开放数据源细粒度访问控制的一个具体实现方式示例。
基于该实施方式的主要使用过程为:
(1)将包含有数据访问接口软件的Tomcat应用程序和存有病患数据的MangoDB开放数据源都安装在虚拟机中,并且关闭该虚拟机的其他数据访问方式(比如文件共享、其他服务端口),使得该虚拟机中的数据只能通过Tomcat应用程序进行读取;
(2)设定MangoDB中“病历”的原始数据只能访问不超过1‰且不超过1000条;
(3)通过Tomcat中的数据访问接口中的随机批量数据访问方法获取“病历”数据;初期访问时,数据能被正常获取,并能查看“病历”中每个病人的详细信息;
(4)重复(3)若干次后,数据访问接口将提示“‘病历’数据无法获取,因为违反数据保护规则”,此时查看日志将能看到病历记录已经通过随机批量数据访问的方式访问了超过(2)中规定的数量;
(5)重复(3),但将其中随机批量数据访问改为指定数据访问,此时只有指定数据的累计互不重复的条数超过(2)中规定的数量后,才会出现“‘病历’数据无法获取,因为违反数据保护规则”的提示,并拒绝返回新的数据记录。
Claims (10)
1.一种保持数据稀缺性的开放数据细粒度访问控制方法,其特征在于,具体步骤如下:
a.将开放数据源封装在一个具有有限数据访问功能的接口软件中,所有对开放数据源中原始数据的访问只能通过该接口软件完成;
b.设定接口软件各类操作所访问数据记录的范围控制值;
c.每个接口软件将通过该接口访问数据的操作情况,包括访问的数据、访问的操作类型,实时写入访问日志文件;
d.根据数据访问日志实时统计当前访问用户对当前数据源的数据访问情况,包括对该数据源的所有记录发生的各类访问操作的类型和数量;
e.针对每一个数据访问操作类型,将步骤d中获取的统计值与步骤b中设定的控制值进行比较,如果统计值超过控制值,则接口拒绝该类型的数据访问后续请求。
2.根据权利要求1所述的方法,其特征在于,步骤a中所述的有限数据访问功能是指对数据按原样展示给用户的读取操作和不向用户泄露原始数据的其他操作。
3.根据权利要求2所述的方法,其特征在于,所述不向用户泄露原始数据的其他操作,是指用户在进行数据分析、计算、统计时需要读取所有或大部分原始数据时,不会直接获得原始数据,而是仅获得计算的结果;按原样展示给用户的读取操作是用户直接获得数据源中原始数据;按原样展示给用户的读取操作细分为指定数据读取操作和随机批量数据读取操作。
4.根据权利要求1所述的方法,其特征在于,步骤b中所述的控制值是针对步骤a中接口的每一个数据访问操作类型设定的;该控制值规定对应数据访问操作类型所访问过的数据记录数占所有数据记录数的百分比。
5.根据权利要求1所述的方法,其特征在于,步骤c中所述写入的数据访问日志包含数据访问操作类型以及该次访问到的数据的主键。
6.根据权利要求5所述的方法,其特征在于,数据访问日志中的数据主键和数据访问操作类型以双键值对表进行存储;在双键值对表中,一个键值对表以数据的主键取值为键,访问操作类型为值;另一个键值对表对以访问操作类型为键,数据的主键取值为值。
7.根据权利要求6所述的方法,其特征在于,步骤d中所述的以访问操作类型为键的键值对表,并按访问操作类型直接计算不同的数据主键取值的个数。
8.根据权利要求1所述的方法,其特征在于,步骤e中接口软件根据计算的已经访问数据的记录数、设置的控制数,放行或拒绝数据访问操作。
9.根据权利要求4所述的方法,其特征在于,步骤b中所述的控制值,在数据源的记录数大于等于100万时,小于1‰;在数据源的记录数小于100万时,小于1000条且不大于记录总数的1%。
10.根据权利要求8所述的方法,其特征在于,针对步骤b中设定的范围值进行比对,并决定数据接口软件对下一个同类型的数据访问请求是否放行还是拒绝:当数据源记录数tn>=1000000时,p小于步骤b中设定的百分比,否则数据接口软件拒绝下一个同类型的数据访问请求;当100000<=tn<1000000时,实际访问到的不同记录的条数vn小于步骤b中设定的具体条数并且p小于步骤b中设定的百分比,否则数据接口软件拒绝下一个同类型的数据访问请求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710781988.3A CN107656972A (zh) | 2017-09-02 | 2017-09-02 | 一种保持数据稀缺性的开放数据细粒度访问控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710781988.3A CN107656972A (zh) | 2017-09-02 | 2017-09-02 | 一种保持数据稀缺性的开放数据细粒度访问控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107656972A true CN107656972A (zh) | 2018-02-02 |
Family
ID=61129175
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710781988.3A Pending CN107656972A (zh) | 2017-09-02 | 2017-09-02 | 一种保持数据稀缺性的开放数据细粒度访问控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107656972A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109412842A (zh) * | 2018-10-10 | 2019-03-01 | 成都优易数据有限公司 | 一种基于计算机网络的数据交互方法 |
CN109981337A (zh) * | 2019-02-04 | 2019-07-05 | 复旦大学 | 面向数据开放共享的多源数据对齐方法 |
CN110188566A (zh) * | 2019-05-19 | 2019-08-30 | 复旦大学 | 一种基于序列分析的检测访问行为损害数据权益的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1885297A (zh) * | 2006-06-02 | 2006-12-27 | 石杰 | 带有精细访问控制策略的基于角色的访问控制模型的方法 |
CN103150515A (zh) * | 2012-12-29 | 2013-06-12 | 江苏大学 | 一种分布式环境下隐私保护的关联规则挖掘方法 |
US8832858B2 (en) * | 2011-01-07 | 2014-09-09 | Mastercard International Incorporated | Access to application programming interface systems and methods |
CN105187365A (zh) * | 2015-06-04 | 2015-12-23 | 北京邮电大学 | 基于角色和数据项的访问控制方法及装置 |
CN105553940A (zh) * | 2015-12-09 | 2016-05-04 | 北京中科云集科技有限公司 | 一种基于大数据处理平台的安全防护方法 |
CN105577810A (zh) * | 2015-12-30 | 2016-05-11 | 青岛海尔智能家电科技有限公司 | 一种开放接口的柔性服务方法、装置和系统 |
-
2017
- 2017-09-02 CN CN201710781988.3A patent/CN107656972A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1885297A (zh) * | 2006-06-02 | 2006-12-27 | 石杰 | 带有精细访问控制策略的基于角色的访问控制模型的方法 |
US8832858B2 (en) * | 2011-01-07 | 2014-09-09 | Mastercard International Incorporated | Access to application programming interface systems and methods |
CN103150515A (zh) * | 2012-12-29 | 2013-06-12 | 江苏大学 | 一种分布式环境下隐私保护的关联规则挖掘方法 |
CN105187365A (zh) * | 2015-06-04 | 2015-12-23 | 北京邮电大学 | 基于角色和数据项的访问控制方法及装置 |
CN105553940A (zh) * | 2015-12-09 | 2016-05-04 | 北京中科云集科技有限公司 | 一种基于大数据处理平台的安全防护方法 |
CN105577810A (zh) * | 2015-12-30 | 2016-05-11 | 青岛海尔智能家电科技有限公司 | 一种开放接口的柔性服务方法、装置和系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109412842A (zh) * | 2018-10-10 | 2019-03-01 | 成都优易数据有限公司 | 一种基于计算机网络的数据交互方法 |
CN109981337A (zh) * | 2019-02-04 | 2019-07-05 | 复旦大学 | 面向数据开放共享的多源数据对齐方法 |
CN109981337B (zh) * | 2019-02-04 | 2021-04-30 | 复旦大学 | 面向数据开放共享的多源数据对齐方法 |
CN110188566A (zh) * | 2019-05-19 | 2019-08-30 | 复旦大学 | 一种基于序列分析的检测访问行为损害数据权益的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7478783B2 (ja) | スマートコントラクトベースの投資家のグローバルレジストリを参照するスマートコントラクトベースのコンプライアンス規則を実施する自己執行型証券トークン | |
CN108681966B (zh) | 一种基于区块链的信息监管方法及装置 | |
CN106991334B (zh) | 一种数据存取的方法、系统及装置 | |
CN111164629A (zh) | 用于资产价值的合规性感知代币化和控制的方法、装置和计算机可读介质 | |
EP4184362A1 (en) | Data access method and device, and storage medium and electronic device | |
US9767469B2 (en) | Customer-centric energy usage data sharing | |
CN107656972A (zh) | 一种保持数据稀缺性的开放数据细粒度访问控制方法 | |
CN105303123A (zh) | 一种基于分块混淆的动态数据隐私保护系统及方法 | |
CN107346463B (zh) | 风险控制模型的训练、模型输入数据确定方法及装置 | |
CN109189367A (zh) | 一种数据处理方法、装置、服务器及存储介质 | |
Macedo et al. | A practical framework for privacy-preserving nosql databases | |
WO2019081071A1 (de) | Verfahren und steuersystem zum steuern und/oder überwachen von geräten | |
WO2021164194A1 (zh) | 一种基于区块链的积分管理方法及相关装置 | |
AU2012391038A1 (en) | Electronic health record system with customizable compliance policies | |
CN108846755A (zh) | 一种基于智能合约的权限管理方法及装置 | |
CN107707516B (zh) | 一种ip地址分析方法及系统 | |
CN110968851A (zh) | 一种业务权限的管控方法、管控系统及计算机可读介质 | |
CN113486082B (zh) | 一种基于区块链的外包数据访问控制系统 | |
Rohde et al. | Optimization of the Mainzelliste software for fast privacy-preserving record linkage | |
CN109145621A (zh) | 文档管理方法及装置 | |
CN106878239A (zh) | 一种安全策略更新方法及装置 | |
CN109840250A (zh) | 中间字段的访问权限管理方法、装置、设备和存储介质 | |
CN112084162B (zh) | 一种基于区块链和ipfs的溯源权限管理系统 | |
EP3654221A1 (en) | Distributed data storage system and method | |
CN110188567B (zh) | 一种防范敏感数据拼图的关联访问控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180202 |
|
WD01 | Invention patent application deemed withdrawn after publication |