CN109478222B - 保护服务使用者和服务提供者之间交换的数据的方法 - Google Patents
保护服务使用者和服务提供者之间交换的数据的方法 Download PDFInfo
- Publication number
- CN109478222B CN109478222B CN201780044722.9A CN201780044722A CN109478222B CN 109478222 B CN109478222 B CN 109478222B CN 201780044722 A CN201780044722 A CN 201780044722A CN 109478222 B CN109478222 B CN 109478222B
- Authority
- CN
- China
- Prior art keywords
- data
- encoded
- service provider
- service
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 18
- 230000005540 biological transmission Effects 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 34
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 7
- 238000002360 preparation method Methods 0.000 claims description 5
- 230000007935 neutral effect Effects 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 208000024172 Cardiovascular disease Diseases 0.000 description 6
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 4
- 238000007418 data mining Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 238000003709 image segmentation Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 210000001153 interneuron Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H30/00—ICT specially adapted for the handling or processing of medical images
- G16H30/40—ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/04—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks
- H04L63/0407—Network architectures or network communication protocols for network security for providing a confidential data exchange among entities communicating through data packet networks wherein the identity of one or more communicating identities is hidden
- H04L63/0421—Anonymous communication, i.e. the party's identifiers are hidden from the other party or parties, e.g. using an anonymizer
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Pathology (AREA)
- Bioethics (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Signal Processing (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Computer Networks & Wireless Communication (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Storage Device Security (AREA)
Abstract
本发明公开了一种保护服务使用者(10)和服务提供者(11)之间交换的数据(TD,WD,RD)的方法,所述方法包括以下步骤:通过将数据(TD,WD)的有意义内容(C)转换为无意义内容(X)对数据(TD,WD)进行编码,以获得用于发送给服务提供者(SP)的经编码的上传数据(TD',WD');在服务提供者(SP)处处理经编码的上传数据(TD',WD'),以获得用于发送给服务使用者(SU)的经编码的下载数据(RD');以及通过将经编码的下载数据(RD')的无意义内容(X)转换为下载数据(RD)的有意义内容(C)对经编码的下载数据(RD')进行解码。
Description
技术领域
本发明描述了一种保护服务使用者和服务提供者之间交换的数据的方法,以及数据保护系统。
背景技术
由于各种原因,服务提供者可以为服务使用者进行大量数据的处理。例如,大量医疗保健(healthcare)数据的拥有者可能更愿意为云存储和计算资源付费,而不是承担存储和处理硬件的成本。服务使用者可以授权服务提供者访问数据,以便运行从数据中提取附加值的算法,例如训练统计模型或深度学习算法。之后,以这种方式训练的模型或算法将能够处理工作数据以提取信息,例如进行预测。
数据隐私条款要求服务提供者或诸如窃听者或网络入侵者的未经授权的人都不能(例如以暴露机密内容为目的)使用服务使用者的数据。服务使用者还需要确定没有其他方能够将数据用于非法目的,例如,对数据运行其他分析工具或使用以服务使用者的数据上训练的模型来产生商业利益。
处理敏感数据(诸如患者记录)的既定方法是在以训练和开发诸如统计模型、预测模型或计算机辅助诊断工具的新的分析方法为目的将数据发送给服务提供者之前对数据进行匿名化。通常,仅仅对患者姓名进行匿名化是不够的,还必须隐藏允许入侵者识别患者的其他数据字段。这样的数据字段可包括患者联系数据、年龄、体重、身高、DNA数据、医学图像、实验室数据、疾病和治疗史。但是,这种方案会产生附加问题:例如,隐藏此类数据会使其无法用于训练和学习算法,使得分析模型的准确性将受到严重影响。
虽然可以在服务使用者和服务提供者之间进行传输之前对敏感数据进行加密,但可以想象,窃听者仍然有可能能够解密截获的数据并访问其内容。此设置中的另一薄弱环节是服务提供者必须先解密收到的输入数据,然后再将其馈送到模型或分析工具。在这个阶段,数据很容易在服务提供者端被未经授权的人盗窃。此外,以该内容训练的模型或工具可能被未经授权的人使用。
发明内容
因此,本发明的目标是提供一种克服上述问题的在服务使用者和服务提供者之间交换数据的方法。
通过在服务使用者和服务提供者之间传输数据的权利要求1的方法和权利要求10的数据保护系统来实现该目标。
根据本发明,保护服务使用者和服务提供者之间交换的数据的方法包括以下步骤:
—通过将上传数据的相关内容转换为无意义内容对上传数据进行编码;
—将经编码的上传数据上传到服务提供者;
—在服务提供者处处理经编码的上传数据以获得经编码的输出数据;
—将经编码的输出数据下载到服务使用者;以及
—通过将无意义内容转换回相关内容对经编码的输出数据进行解码。
在本发明的上下文中,“编码上传数据”的表述应被理解为以下步骤:将原始数据的内容转换为另一种形式,使得数据的基本性质得到保留,但是经编码的数据中的内容的含义不再明显。因此,本发明的方法还可以被视为对服务使用者和服务提供者之间交换的数据进行匿名化的方法。对上传数据进行编码的步骤不应被理解为加密的一种类型。相反,执行编码步骤,使得可以在服务提供者处通过设计成处理未经编码的数据的相同服务来处理经编码的上传数据。因此,从服务提供者的角度来看,向服务馈送原始数据或经编码的数据没有区别,因为经编码的数据与原始数据是“同类”。该服务将以相同的方式处理经编码的数据,并将提供“同类”的结果。
根据本发明的方法的优点在于,上传到服务提供者的数据不再具有任何“相关”内容,即,监听服务使用者和服务提供者之间的连接的窃听者、或任何其他未经授权的获得对服务提供者端处的数据的访问的人可以解释或理解的有意义内容。同样,服务提供者向服务使用者发送的下载数据也仅包含无意义内容,并且只有当下载数据在服务使用者端被再次解码时其有意义的或相关内容才会显现。服务使用者不再需要依赖昂贵且耗时的加密来保护传输中的数据,也不再需要依靠服务提供者的能力来防止对内容未经授权的访问。
在根据本发明的方法中,只有服务使用者确切地知道上传到服务提供者的数据背后的内容。服务提供者或任何入侵者将不能解释经编码的数据背后的含义。此外,只有服务使用者能够使用已经在经编码的上传数据上训练的分析工具,因为这些工具不适用于未经编码的数据。
根据本发明,一种服务使用者的数据保护系统包括:
—编码器模块,被实现为在从服务使用者上传到服务提供者之前将上传数据的相关内容转换为无意义内容;
—数据传输接口,被实现为将经编码的数据上传到服务提供者并从服务提供者下载经编码的数据;和
—解码器模块,被实现为将下载数据的无意义内容转换为相关内容。
根据本发明的数据保护系统的优点在于,仅需要附加的编码器模块和解码器模块,以确保敏感数据对监听服务使用者和服务提供者之间的连接的窃听者、或任何其他未经授权的获得对服务提供者端处的数据的访问的人永不可见。编码器模块和解码器模块可以用相对较少的努力来实现,并且可以容易地并入到服务使用者的现有设置中。
本发明还包括一种包括计算机程序的计算机程序产品,该计算机程序可直接加载到这种数据保护系统的控制单元的存储器中,并且包括当计算机程序由数据保护系统的控制单元运行时用于执行本发明方法的相关步骤的程序要素。
本发明还包括计算机可读介质,在该计算机可读介质上存储有可由计算机单元读取和运行的程序要素,以便当程序要素由计算机单元运行时执行本发明方法的相关步骤。
如在以下描述中所揭示的,从属权利要求给出了本发明的特别有利的实施例和特征。可以适当地组合不同权利要求类别的特征以给出本文未描述的其他实施例。
与数据安全相关的问题主要发生在当服务使用者远离服务提供者时。数据可以通过任何类型的电信信道(例如通过无线连接)在服务使用者和服务提供者之间进行传输或交换。同样,数据可以存储在服务使用者和服务提供者之间被物理地传输的数据存储设备上。在下文中,可以假设连接服务使用者和远程服务提供者的数据链路是电信信道。
上传数据可以包括用于训练模型的训练数据。例如,可能需要训练数据挖掘服务的文档分类器;训练图像分割服务或图像分析服务的神经网络;训练数据分析服务的预测模型等。一般手动标注训练数据以帮助模型学习如何正确地分类或处理内容。由于训练数据几乎在一切方面与“现实生活数据”并无不同,并且通常直接来自现实生活数据,因此保护这些训练数据免受盗用也很重要。
一旦已经训练了在服务提供者端处的模型,服务使用者就可以请求服务提供者通过将该模型应用于工作数据来执行服务。在此阶段,上传数据包括要由训练模型处理的工作数据。该工作数据可以包括大量高度敏感的数据,诸如与特定人员直接相关的临床数据,并且始终保护工作数据免受盗用很重要。为此,编码器模块被实现为对表格文档进行编码,作为由服务提供者提供的数据处理服务的准备;和/或对图像进行编码,作为由服务提供者提供的图像处理服务的准备;和/或对文本文档进行编码,作为由服务提供者提供的文档分类器服务的准备。
本发明的一个关键方面是编码或变换不影响服务提供者提供的服务的结果,因为经编码的数据具有与将被馈送到服务的原始数据相同的基本性质。换句话说,当被馈送经编码的数据时,诸如使用线性回归、逻辑回归、分类树、聚类方法或其他统计数据建模和预测算法的预测模型的分析工具仍将提供与被馈送未经编码的原始数据时相同的结果。类似地,当被馈送经编码的图像时,使用人工神经网络(NN)的深度学习图像分析工具将提供与如果其被馈送原始的未经编码的图像的结果相同的结果。
从服务提供者发送给服务使用者的下载数据可以是模型训练结果,也可以是执行所请求的服务的结果。经编码的下载数据的内容对于任何不知道编码算法的人来说都是无意义的,使得窃听者或其他未经授权的人将不能使用下载数据。在服务使用者端,解码器模块可以解码所接收的经编码的下载数据以将结果转换为可读版本。为此,通过应用相应编码步骤的逆运算符,将经编码的下载数据中的无意义内容再次转换为相关内容。例如,如果使用查找表将文本文档中的特定单词替换为另一种语言的特定(但无意义)单词,则可以使用相同的查找表来进行逆运算。类似地,如果通过执行除以100线性地改变上传电子表格的数值单元格条目的范围,则可以通过执行乘以100来恢复实际的条目。
在本发明特别优选的实施例中,仅在服务使用者端执行对上传数据进行编码的步骤。同样地,对经编码的输出数据进行解码的步骤仅在服务使用者端执行。以这种方式,只有经编码的数据(即无意义数据)被发送给服务提供者,并且服务提供者永远不能访问原始内容。窃听者仍然可以“监听”数据传输,但将不能解释内容,使得被盗信息实际上没有用处,也没有价值。类似地,获得对在服务提供者端处的经编码的数据未经授权的访问的人将不能解释内容,该内容实际上没有用处,也没有价值。
可以大规模地处理各种数据,例如进行预测、对图像或文档进行分类等。在根据本发明的数据保护系统中,优选地,依据数据内容的性质以特定方式对输入数据进行编码。在本发明的优选实施例中,输入数据包括诸如工作表或电子表格的多个表格文档,并且对表格文档进行编码的步骤包括将变量名称替换为中性标识符和/或重新缩放数值变量的范围和/或将分类变量替换为数字。以这种方式,电子表格或表格的任何单元格条目被更改得无法识别,使得经编码的文档的内容无意义并且不能在其原始上下文中被解释。优选地记录用于改变单元格条目的运算符,并且提供逆运算符以在解码步骤期间使用。本发明基于以下见解:只要在原始数据范围和“经编码的”数据范围之间仍然保持线性关系,大多数已知的分析建模和预测算法,诸如那些用于数据挖掘和机器学习的算法(例如线性或逻辑回归、分类和预测树、数据聚类等)对实际数据的范围不敏感。本发明使用此见解并将数值变量重新缩放到另一个数据范围中,使得变量的初始意义对于任何不知道编码运算符的人都不再明显。
在本发明的另一个优选实施例中,输入数据包括多个图像,并且对图像进行编码的步骤包括随机像素重新映射和/或像素加扰和/或像素重新着色和/或局部图像旋转和/或镜像和/或平移的一个或多个步骤。优选地记录用于改变原始图像的任何算法,并优选地提供逆算法以在解码步骤期间使用。
为了帮助训练图像处理模型,可以为训练数据集的图像提供手动标注。在本发明的优选实施例中,对图像进行编码的步骤包括将手动标注替换为中性标识符。
在本发明的又一优选实施例中,输入数据包括多个文本文档,并且对文档进行编码的步骤包括将文档的文本元素替换为语言上不相关的文本元素。例如,在对文本文档进行预处理步骤以去除多余元素之后,剩余的单词可以替换为不同语言的无关单词,使得不可能识别文档的性质。以这种方式,可以有效地将与人或机构相关的敏感内容呈现为无意义的。可替代地或另外地,可以通过应用诸如替代密码的密码来获得替换单词。如果替换单词是从不同的语言中选择的,那么这甚至可以是合成语言。原始文档的单词及其相应的替换单词可以存储在查找表或其他记录中,以在解码步骤期间使用。
附图说明
从以下结合附图考虑的详细描述中,本发明的其他目的和特征将变得显而易见。然而,应该理解,附图仅仅是为了说明的目的而设计,而不是作为本发明的限制的定义。
图1图示了服务使用者在传统的布置下与服务提供者交换数据;
图2是根据本发明的方法的实施例的框图;
图3图示了由服务使用者收集的表格数据;
图4和5指示应用于处理表格数据的本发明方法的步骤;
图6示出了用于远程处理表格数据的传统方案;
图7指示应用于处理图像数据的本发明方法的步骤;
图8示出了用于远程处理图像数据的传统方案;
图9指示应用于执行数据挖掘的本发明方法的步骤;
图10示出了用于远程数据挖掘的传统方案。
具体实施方式
在图中,同样的数字始终指代同样的对象。图中的对象不一定按比例绘制。
图1图示了服务使用者SU与服务提供者SP交换数据100、101的典型配置。服务使用者SU为在服务提供者SP提供的硬件上的云存储和数据处理服务付费。这里,服务使用者SU向服务提供者SP发送上传数据和服务请求。例如,服务使用者SU可能希望使用训练数据训练模型,或者使用先前训练的模型来处理工作数据。在服务完成之后,服务使用者SU取回下载数据101。在传统配置中,窃听者3可能访问数据并违背服务使用者SU和服务提供者SP的意愿使用该数据。也有可能人4获得对服务提供者站点处的上传数据100和/或下载数据101的未经授权的访问,并且未经授权的人4可能违背服务使用者SU和服务提供者SP的意愿使用该数据。
图2图示了示出本发明方法的步骤的框图。在第一步中,服务使用者准备上传数据。例如,上传数据12、13、14可以是用于模型训练过程的训练数据TD,或由训练模型处理的工作数据WD。根据数据类型和内容,如上所述在编码器模块10中对数据进行编码。接下来是将经编码的数据TD'、WD'传输到服务提供者SP的传输步骤。即使在传输期间被窃听,经编码的上传数据TD'、WD'对于窃听者3也是没有意义的,如问号所指示。在服务提供者SP处对经编码的上传数据TD'、WD'执行数据处理。因为原始数据TD、WD的形式或基本性质在编码步骤期间被保留,在服务提供者SP处运行的服务将以与处理原始数据TD、WD相同的方式处理经编码的数据TD'、WD'。因此,结果RD'也是经编码的,但与通过处理原始数据TD、WD获得的结果具有相同的基本性质。然后将经编码的结果RD'返回给服务使用者SU。即使在传输期间被窃听,或在服务提供者端被非法访问,经编码的下载数据RD'对于窃听者3或未经授权的人4也是没有意义的,如问号所指示。在服务使用者端,经编码的下载数据RD'经历解码步骤,使得服务使用者可以解释或读取结果RD。
图3图示了可能由服务使用者SU收集的患者相关数据的典型表12。在表12中整理了与特定患者相关的信息,第一列C1为临床数据字段,第二列C2为每个临床数据字段的对应值,以及第三列C3为第二列C2中每个值的统计显著性。在此示例性实施例中,通过增加星数来指示增加的统计显著性。这种性质的临床患者数据——患者年龄、性别、血压、胆固醇水平——可用于训练预测模型,以估计个体在未来十年内发生心血管疾病(CVD)的风险。然而,对患者和服务使用者不利的是,该信息可能被窃听者所利用。
图4指示了上述方法的步骤,并示出了图3的表12经历编码器模块10的编码以给出经编码的字段表。在这种情况下,经编码的表将用作训练数据TD'以在服务提供者端训练模型。所有与患者相关的信息都被无意义数据所替换。例如,第一列C1中的“患者姓名”字段现在是匿名的“数据记录ID”;“HDL胆固醇”字段现在是匿名的“变量5”等。第二列C2中的数值字段值已经以线性方式缩放,使得例如左侧表12中的患者年龄被编码为右侧表TD'中的无意义数字。文本字段已被编码为数字,使得左侧表12中与糖尿病相关的肯定“是”条目已被替换为训练数据TD'中无意义的“1.0”。当然,这里描述的编码只是众多可能的一种。可以只是简单地按比例放大而不是缩小数字字段;可以用无意义的单词而不是用数字替换单词,使得单词“男”可以由不相关的单词或字符串替换。在不知道训练数据TD'的第一列中“变量”背后的含义的情况下,并且在不知道编码器模块10使用的编码算法的情况下,任何除了服务使用者之外的人实际上都不可能使用或解释数据。
图5示出了本发明方法。在训练阶段,诸如图的上部所示的表12的数据表由服务使用者手动标注,例如,以指示第一列中列出的患者是否已被诊断为患有心血管疾病。将手动标注输入到附加列C4中。表12的各列中的与患者相关数据值以及最后列C4中的标注值将用于训练由远程服务提供者SP提供的建模和预测算法。表中图示的数据高度敏感,尤其是患者姓名和CVD风险之间的明确关系,必须防止数据在远程服务提供者处执行处理时落入坏人之手。
在此示例性实施例中,使用如上所述的本发明方法对表12进行编码,使得表12的字段中的有意义内容C被替换为经编码的表12'中的匿名和无意义数据X。指示表12的第一列中列出的患者是否已被诊断为患有心血管疾病的标注值的列C4中的条目也被编码为无意义值的列C4'。然后将这些经编码的上传数据TD'上传到服务提供者,并将其馈送到未经训练的建模和预测算法M',该算法使用此数据以通常的方式进行训练。
一旦经过训练,服务使用者SU就可以请求服务提供者SP将经编码的工作数据WD'馈送到训练的建模和预测算法M,如图的下部所指示的。然后,建模和预测算法M将返回每个患者的经编码的风险预测值RD',在这种情况下是0和1之间的匿名或无意义值的列表。服务使用者SU可以将经编码的下载数据RD'馈送到其解码器模块11中以获得结果RD。在此示例中,解码器知道经编码的下载值必须要乘以100以获得量化患者患有CVD风险的百分比概率。在本示例中,服务使用者将看到患者“L.瓦尔德”有76%的几率在未来10年内患有CVD。
如上所述,传统方案或未能防止数据通过窃听被盗,或未能防止数据通过在服务提供者端的未经授权的访问被盗。图6图示了这种由服务提供者SP向服务使用者提供的建模和预测算法PM的传统布置。这里,训练数据100、工作数据100和模型返回的结果101通过服务使用者SU和服务提供者SP之间的数据链路发送,因此易通过数据链路遭受窃听,并且也易遭受在服务提供者端的非法使用。
本发明的方法也适用于图像数据。图7图示了当服务使用者SU请求通过由服务提供者SP提供的深度神经网络M处理或分析图像13时应用的编码和解码阶段。在通过服务使用者SU和服务提供者SP之间的连接上传图像数据之前,对图像数据13进行编码以使其对于任何不拥有编码算法的人来说都是无意义的。如果要将图像13用于训练深度神经网络M',则可以添加手动标注130用于训练目的,并且还对这些标注130进行编码。然后将经编码的数据TD’、WD’发送到服务提供者SP,在该处数据被用于训练深度神经网络M'以执行特定任务(例如,放射线图像分割,标记检测等),或由训练的神经网络M进行解释。该图示出了人工神经网络(ANN)M,被实现为通过迭代训练算法连接图像中的所有像素,以及被实现为调整每个神经元间连接的权重,使得输出层最佳地对输入图像进行分类或检测图像中的特定标记。本发明基于以下见解:编码器模块10可以添加附加输入层、执行图像变换,该图像变换不以任何方式影响神经网络被训练和优化以识别图像特征的能力。训练的深度神经网络M通过数据链路返回经编码的结果RD',并且服务使用者SU可以应用解码器模块11以获得结果RD。
图8图示了由服务提供者SP提供的深度神经网络M的传统配置。希望利用深度神经网络M的服务使用者SU必须通过数据链路上传图像数据100。任何窃听者都可以在它们从服务提供者SP到服务使用者SU的途中访问图像数据100和/或任何图像处理结果101。同样地,图像100和分析结果101可能易受服务提供者SP处的经授权的访问。
本发明方法也适用于数据或文本挖掘。图9图示了当应用于由远程服务提供者SP提供的文档分类器算法M处理的一组文档14时本发明方法的编码和解码阶段。每个文档14最初由预处理器140处理,例如移除所有格式、将所有文本转换为小写、移除标点符号等。预处理的结果是一组仅包含纯文本的文档。应用本发明方法,编码器模块10将每个文档中剩余的有意义内容C转换为无意义内容。编码可以通过使用直接的密码来执行,通过根据查找表将每个单词替换为不同的、不相关的单词等。替换单词可以是外语或合成语言。在训练阶段期间,对将用于训练尚未训练的文档分类器M'的文档14执行手动种类编码。例如,种类“退税”和“医疗记录”可以分别编码为匿名的“种类0”和“种类1”,并且训练数据TD'将每个经编码的文档关联到其适当的经编码的种类。经编码的训练文档TD'与其经编码的文档种类一并被发送到远程服务提供者SP,然后该远程服务提供者SP对接收的数据TD'启动训练过程。之后,服务使用者SU可以对任何数量的尚未分类的文档14进行预处理步骤,将经编码的工作数据WD'上传到服务提供者SP,并请求经训练的文档分类器M处理工作数据WD'。然后,服务提供者SP为工作数据WD'中的每个文档返回经编码的结果RD'——即经编码的种类。然后,服务使用者SU可以应用解码器模块11来解码下载结果RD'以获得文档种类RD。然后,后续单元或模块150可以将每个文档分配给由文档分类器M确定的文档种类。
图10图示了由服务提供者提供的文档分类器M的传统配置。希望利用文档分类器服务的服务使用者SU必须通过服务使用者和服务提供者之间的数据链路上传敏感文档数据100。任何窃听者都可以通过服务提供者和服务使用者之间的数据链路访问文档数据100和分类器结果101。同样地,数据100、101可能易受服务提供者SP处的经授权的访问。
尽管已经以优选实施例及其变型的形式公开了本发明,但是应该理解,在不脱离本发明的范围的情况下,可以对其进行许多附加的修改和变型。
为了清楚起见,应该理解,在本申请的通篇中使用“一(a)”或“一个(an)”并不排除多个,并且“包括”不排除其他步骤或元素。提及“单元”或“模块”并不排除使用多于一个的单元或模块。
Claims (13)
1.一种保护服务使用者(SU)和服务提供者(SP)之间交换的数据的方法,所述方法包括以下步骤:
通过将数据的有意义内容(C)转换为无意义内容(X)对输入数据进行编码,以获得用于发送给服务提供者(SP)的经编码的上传数据,其中输入数据包括多个表格文档(12),并且对表格文档(12)进行编码的步骤包括重新缩放数值变量的范围,重新缩放是使得仍保持原始数据范围和经编码的数据范围之间的线性关系;
通过使用分析建模、统计数据建模或预测算法在服务提供者(SP)处处理经编码的上传数据,以获得用于发送给服务使用者(SU)的经编码的下载数据;以及
通过将经编码的下载数据的无意义内容(X)转换为下载数据的有意义内容(C)对经编码的下载数据进行解码;
其中执行编码步骤,使得能够在服务提供者(SP)处通过设计成处理未经编码的数据的服务来处理经编码的上传数据。
2.根据权利要求1所述的方法,其中通过服务使用者(SU)执行对上传数据进行编码的步骤,和/或通过服务使用者(SU)执行对经编码的输出数据进行解码的步骤。
3.根据权利要求1所述的方法,其中输入数据还包括多个表格文档(12),并且对表格文档(12)进行编码的步骤包括将变量名替换为中性标识符和/或将类别变量替换为数字。
4.根据权利要求1至3中任一项所述的方法,其中服务使用者(SU)还请求通过由服务提供者(SP)提供的深度神经网络(M)处理或分析图像(13),并且其中对图像进行编码的步骤包括添加附加输入层,执行图像变换,该图像变换不以任何方式影响神经网络被训练和优化以识别图像特征的能力。
5.根据权利要求4所述的方法,其中,图像(13)具有多个手动标注(130),并且对图像(13)进行编码的步骤包括将手动标注(130)替换为中性标识符。
6.根据权利要求1至3中任一项所述的方法,其中输入数据还包括多个文本文档(14),并且对文档(14)进行编码的步骤包括将文档的文本元素替换为不相关的文本元素。
7.根据权利要求6所述的方法,其中从查找表中取到不相关的文本元素、和/或从不同的语言获得不相关的文本元素、和/或通过对文本元素应用替换密码来获得不相关的文本元素。
8.根据权利要求1至3中任一项所述的方法,其中经编码的上传数据包括在由服务提供者(SP)提供的服务中使用的模型(M')的训练中要使用的经编码的训练数据,并且其中下载数据包括模型训练过程结果。
9.根据权利要求1至3中任一项所述的方法,其中经编码的上传数据包括由服务提供者(SP)提供的服务中使用的训练模型(M)要处理的经编码的工作数据,并且其中下载数据包括服务结果。
10.根据权利要求1至3中任一项所述的方法,其中通过应用相应的编码步骤的逆运算符将经编码的下载数据的无意义内容(X)转换为相关内容(C)。
11.一种数据保护系统(1),包括
编码器模块(10),其适于通过将数据的有意义内容(C)转换为无意义内容(X)对输入数据进行编码,以获得用于发送给服务提供者(SP)的经编码的上传数据,其中输入数据包括多个表格文档(12),并且对表格文档(12)进行编码的步骤包括重新缩放数值变量的范围,重新缩放是使得仍保持原始数据范围和经编码的数据范围之间的线性关系;
服务提供者(SP),其适于通过使用分析建模、统计数据建模或预测算法处理经编码的上传数据,以获得用于发送给服务使用者(SU)的经编码的下载数据;
数据传输接口,其实现为将经编码的上传数据上传到服务提供者(SP),并从服务提供者(SP)接收经编码的下载数据;以及
解码器模块(11),其实现为将经编码的下载数据转换为包括有意义内容(C)的下载数据。
12.根据权利要求11所述的数据保护系统,其中所述编码器模块(10)还适于:
对图像(13)进行编码,作为由服务提供者(SP)提供的图像处理服务的准备;和/或
对文本文档(14)进行编码,作为由服务提供者(SP)提供的文档分类器服务的准备。
13.一种计算机可读介质,在该计算机可读介质上存储有可由计算机单元读取和运行的程序要素,以便当由计算机单元运行所述程序要素时,执行根据权利要求1至10中任一项所述的方法的步骤。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP16180367.1 | 2016-07-20 | ||
EP16180367.1A EP3273380B1 (en) | 2016-07-20 | 2016-07-20 | Protecting data exchanged between a service user and a service provider |
PCT/EP2017/064784 WO2018015081A1 (en) | 2016-07-20 | 2017-06-16 | Method of protecting data exchanged between a service user and a service provider |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109478222A CN109478222A (zh) | 2019-03-15 |
CN109478222B true CN109478222B (zh) | 2020-08-28 |
Family
ID=56555200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780044722.9A Active CN109478222B (zh) | 2016-07-20 | 2017-06-16 | 保护服务使用者和服务提供者之间交换的数据的方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10528763B2 (zh) |
EP (1) | EP3273380B1 (zh) |
CN (1) | CN109478222B (zh) |
WO (1) | WO2018015081A1 (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10798064B1 (en) | 2016-11-09 | 2020-10-06 | StratoKey Pty Ltd. | Proxy computer system to provide encryption as a service |
US10594721B1 (en) | 2016-11-09 | 2020-03-17 | StratoKey Pty Ltd. | Proxy computer system to provide selective decryption |
EP3660789B1 (en) * | 2018-11-28 | 2020-11-25 | Siemens Healthcare GmbH | Model-based image reconstruction using analytic models learned by artificial-neural-networks |
US10936751B1 (en) * | 2018-12-14 | 2021-03-02 | StratoKey Pty Ltd. | Selective anonymization of data maintained by third-party network services |
US11251963B2 (en) | 2019-07-31 | 2022-02-15 | Advanced New Technologies Co., Ltd. | Blockchain-based data authorization method and apparatus |
CN110473094B (zh) * | 2019-07-31 | 2021-05-18 | 创新先进技术有限公司 | 基于区块链的数据授权方法及装置 |
US11588796B2 (en) | 2019-09-11 | 2023-02-21 | Baidu Usa Llc | Data transmission with obfuscation for a data processing (DP) accelerator |
US20210073041A1 (en) * | 2019-09-11 | 2021-03-11 | Baidu Usa Llc | Data transmission with obfuscation using an obfuscation unit for a data processing (dp) accelerator |
US10621378B1 (en) * | 2019-10-24 | 2020-04-14 | Deeping Source Inc. | Method for learning and testing user learning network to be used for recognizing obfuscated data created by concealing original data to protect personal information and learning device and testing device using the same |
US11416874B1 (en) | 2019-12-26 | 2022-08-16 | StratoKey Pty Ltd. | Compliance management system |
US11741409B1 (en) | 2019-12-26 | 2023-08-29 | StratoKey Pty Ltd. | Compliance management system |
US11310051B2 (en) | 2020-01-15 | 2022-04-19 | Advanced New Technologies Co., Ltd. | Blockchain-based data authorization method and apparatus |
CN112818057B (zh) * | 2021-01-07 | 2022-08-19 | 杭州链城数字科技有限公司 | 一种基于区块链的数据交换方法及装置 |
US20220335328A1 (en) * | 2021-04-20 | 2022-10-20 | GE Precision Healthcare LLC | Automated machine learning model feedback with data capture and synthetic data generation |
US11388248B1 (en) | 2021-08-18 | 2022-07-12 | StratoKey Pty Ltd. | Dynamic domain discovery and proxy configuration |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040078238A1 (en) * | 2002-05-31 | 2004-04-22 | Carson Thomas | Anonymizing tool for medical data |
US8156128B2 (en) * | 2005-09-14 | 2012-04-10 | Jumptap, Inc. | Contextual mobile content placement on a mobile communication facility |
US7548915B2 (en) * | 2005-09-14 | 2009-06-16 | Jorey Ramer | Contextual mobile content placement on a mobile communication facility |
US7724918B2 (en) * | 2006-11-22 | 2010-05-25 | International Business Machines Corporation | Data obfuscation of text data using entity detection and replacement |
US7904471B2 (en) * | 2007-08-09 | 2011-03-08 | International Business Machines Corporation | Method, apparatus and computer program product for preserving privacy in data mining |
US7953762B2 (en) * | 2008-04-09 | 2011-05-31 | American Express Travel Related Services Company, Inc. | Infrastructure and architecture for development and execution of predictive models |
US8744119B2 (en) * | 2011-01-12 | 2014-06-03 | Gary S. Shuster | Graphic data alteration to enhance online privacy |
KR101575282B1 (ko) * | 2011-11-28 | 2015-12-09 | 한국전자통신연구원 | 보안관리 도메인들 간에 익명 식별자 기반의 보안정보를 공유하기 위한 에이전트 장치 및 방법 |
DE102012016403B4 (de) * | 2012-08-21 | 2014-10-30 | Krohne Messtechnik Gmbh | Verfahren zur Parametrierung eines Feldgeräts und entsprechendes Feldgerät und System zur Parametrierung |
US9141906B2 (en) | 2013-03-13 | 2015-09-22 | Google Inc. | Scoring concept terms using a deep network |
EP3069287A4 (en) | 2013-11-14 | 2017-05-17 | 3M Innovative Properties Company | Obfuscating data using obfuscation table |
US10607726B2 (en) * | 2013-11-27 | 2020-03-31 | Accenture Global Services Limited | System for anonymizing and aggregating protected health information |
US9971317B2 (en) * | 2014-03-26 | 2018-05-15 | Rockwell Automation Technologies, Inc. | Cloud-level industrial controller loop gain tuning based on industrial application type |
WO2015197541A1 (en) * | 2014-06-24 | 2015-12-30 | Koninklijke Philips N.V. | Visual anonymization of medical datasets against 3d volume rendering |
CN105760932B (zh) | 2016-02-17 | 2018-04-06 | 第四范式(北京)技术有限公司 | 数据交换方法、数据交换装置及计算装置 |
US10148989B2 (en) * | 2016-06-15 | 2018-12-04 | Divx, Llc | Systems and methods for encoding video content |
-
2016
- 2016-07-20 EP EP16180367.1A patent/EP3273380B1/en active Active
-
2017
- 2017-06-16 WO PCT/EP2017/064784 patent/WO2018015081A1/en active Application Filing
- 2017-06-16 CN CN201780044722.9A patent/CN109478222B/zh active Active
- 2017-06-16 US US16/318,747 patent/US10528763B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20190286850A1 (en) | 2019-09-19 |
EP3273380A1 (en) | 2018-01-24 |
EP3273380B1 (en) | 2018-12-12 |
CN109478222A (zh) | 2019-03-15 |
US10528763B2 (en) | 2020-01-07 |
WO2018015081A1 (en) | 2018-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109478222B (zh) | 保护服务使用者和服务提供者之间交换的数据的方法 | |
CN111695674B (zh) | 联邦学习方法、装置、计算机设备及可读存储介质 | |
Gkoulalas-Divanis et al. | Medical data privacy handbook | |
CN111625809B (zh) | 数据授权方法及装置、电子设备、存储介质 | |
WO2017218590A1 (en) | Systems and methods for secure storage of user information in a user profile | |
US20240012913A1 (en) | Systems and methods for creating enhanced documents for perfect automated parsing | |
US11120221B2 (en) | Method and system to resolve ambiguities in regulations | |
US20210350065A1 (en) | Systems and methods for creating enhanced documents for perfect automated parsing | |
Rutherford et al. | A DICOM dataset for evaluation of medical image de-identification | |
US11630924B2 (en) | Sharing data with a particular audience | |
TW202213145A (zh) | 文件機密等級管理系統及方法 | |
CN112734050A (zh) | 文本模型的训练方法、识别方法、装置、设备及存储介质 | |
CN117973704B (zh) | 基于大数据的数据分析处理方法及系统 | |
US20070005359A1 (en) | Method for transmitting transactional commands and data between computer networks | |
CN116595587B (zh) | 一种基于保密业务的文档隐写方法及文档管理方法 | |
Memon et al. | Dual watermarking of CT scan medical images for content authentication and copyright protection | |
Stanciu | Data Management Plan for Healthcare: Following FAIR Principles and Addressing Cybersecurity Aspects. A Systematic Review using InstructGPT | |
Valjarevic et al. | Towards a prototype for guidance and implementation of a standardized digital forensic investigation process | |
Reedy | The risks for digital evidence | |
Tripathi et al. | Big data issues in medical healthcare | |
US20230161695A1 (en) | Test And Validation of Privacy Protection Quality of Anonymization Solutions | |
WO2020225594A1 (en) | System and method for formulation of a secure digital contract | |
Ganadily et al. | Privacy Preserving Machine Learning for Electronic Health Records using Federated Learning and Differential Privacy | |
CN117744148A (zh) | 一种基于区块链的患者健康数据安全共享方法及系统 | |
CN113869724A (zh) | 营商环境分析方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240828 Address after: German Phu F Haim Patentee after: Siemens Medical AG Country or region after: Germany Address before: Erlangen Patentee before: SIEMENS HEALTHCARE GmbH Country or region before: Germany |
|
TR01 | Transfer of patent right |