KR102407803B1 - Synthetic data information protection method and apparatus using raking - Google Patents

Synthetic data information protection method and apparatus using raking Download PDF

Info

Publication number
KR102407803B1
KR102407803B1 KR1020210028173A KR20210028173A KR102407803B1 KR 102407803 B1 KR102407803 B1 KR 102407803B1 KR 1020210028173 A KR1020210028173 A KR 1020210028173A KR 20210028173 A KR20210028173 A KR 20210028173A KR 102407803 B1 KR102407803 B1 KR 102407803B1
Authority
KR
South Korea
Prior art keywords
data
distribution
sample
missing replacement
missing
Prior art date
Application number
KR1020210028173A
Other languages
Korean (ko)
Inventor
임종호
정동훈
김영민
Original Assignee
연세대학교 산학협력단
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단, 경북대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020210028173A priority Critical patent/KR102407803B1/en
Application granted granted Critical
Publication of KR102407803B1 publication Critical patent/KR102407803B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

본 실시예들은 수집된 데이터의 분포를 따르는 가상의 인물에 대한 표본을 구성하고 결측 대체를 진행하여 재현 데이터를 생성함으로써, 개인 정보 노출을 예방하는 재현 데이터 정보 보호 방법 및 장치를 제공한다.The present embodiments provide a method and an apparatus for protecting reproduction data information for preventing personal information exposure by constructing a sample of a virtual person following the distribution of collected data and generating reproduction data by performing missing replacement.

Description

레이킹을 활용한 재현 데이터 정보 보호 방법 및 장치 {SYNTHETIC DATA INFORMATION PROTECTION METHOD AND APPARATUS USING RAKING}Method and device for protection of reproducible data information using rake

본 발명이 속하는 기술 분야는 레이킹을 활용한 재현 데이터 정보 보호 방법 및 장치에 관한 것이다. The technical field to which the present invention belongs relates to a method and apparatus for protecting reproduced data information using raking.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.The content described in this section merely provides background information for the present embodiment and does not constitute the prior art.

기존의 정보 보호는 이상적인 정보 보호에 해당하는 명제에 기반한다. 이상적인 정보 보호는 데이터베이스에 접근해서 얻을 수 있는 정보는 접근하지 않고서도 알 수 있어야 한다는 것이다. 데이터베이스 접속 여부에 따라 정보가 변하는지를 보고 개인정보 노출을 판단하던 예전에는, 데이터를 변형하여 제공하는 다양한 방법이 있었다. 마스킹이 대표적이다.The existing information protection is based on the proposition corresponding to the ideal information protection. Ideal information protection is that information that can be obtained by accessing a database should be known without access. In the past, when personal information exposure was judged by looking at whether information changes depending on whether or not access to a database was accessed, there were various methods of modifying and providing data. Masking is an example.

개인 정보 보호를 위해 강한 기준으로 마스킹을 한다면 정보의 손실이 크게 된다. 데이터의 정보량이 0이라면 접속 여부에 따라 정보가 바뀌지 않는다. 마스킹 기법으로는 노출 위험과 정보 손실의 기준에서 합리적인 데이터를 얻을 수 없는 문제가 있다. 보조 정보의 사용에 따라 이상적인 정보 보호가 불가능하다. 데이터 연계의 정확도가 높을수록 연계된 데이터는 개인 정보 노출 위험이 증가한다. 보조 정보들을 활용하여 데이터 통합(data integration)등의 방법으로 개인정보를 식별하고자 한다면, 식별될 가능성이 높아지게 된다.If masking with strong standards is used to protect personal information, the loss of information is large. If the amount of information in the data is 0, the information does not change depending on whether or not the connection is made. The masking technique has a problem in that reasonable data cannot be obtained in terms of exposure risk and information loss. Ideal information protection is not possible due to the use of auxiliary information. The higher the accuracy of data linkage, the higher the risk of personal information exposure of linked data. If you want to identify personal information by means of data integration using auxiliary information, the likelihood of identification increases.

마스킹 기법을 대체하기 위한 시도들이 있었고, 정보 보호의 프레임이 변하고 있다. 응답자의 데이터베이스 참여 여부로 정보 보호를 판단하는 것이다. 차등 정보 보호는 특정 응답자의 데이터베이스 참여 여부에 따른 통계량 변화를 통제한다. 이는 시스템에 접속하여 원하는 결과에 대한 쿼리를 시스템에 발송하면, 그 쿼리에 해당하는 통계량을 시스템으로부터 전달받게 되는데, 그 통계량에 대한 조작에 해당한다.Attempts have been made to replace the masking technique, and the frame of information protection is changing. Information protection is judged by the respondents' participation in the database. Differential information protection controls the change in statistics depending on whether a specific respondent participates in the database. When you connect to the system and send a query for a desired result to the system, statistics corresponding to the query are transmitted from the system, which corresponds to manipulation of the statistics.

한국등록특허공보 제10-1041568호 (2011.06.08)Korean Patent Publication No. 10-1041568 (2011.06.08)

본 발명의 실시예들은 수집된 데이터의 분포를 따르는 가상의 인물에 대한 표본을 구성하고 결측 대체를 진행하여 재현 데이터를 생성함으로써, 개인 정보 노출을 예방하는 데 주된 목적이 있다.Embodiments of the present invention have a main purpose in preventing personal information exposure by constructing a sample for a virtual person following the distribution of collected data and generating reproduced data by performing missing replacement.

본 발명의 명시되지 않은 또 다른 목적들은 하기의 상세한 설명 및 그 효과로부터 용이하게 추론할 수 있는 범위 내에서 추가적으로 고려될 수 있다.Other objects not specified in the present invention may be additionally considered within the scope that can be easily inferred from the following detailed description and effects thereof.

본 실시예의 일 측면에 의하면, 컴퓨팅 디바이스에 의한 재현 데이터 정보 보호 방법에 있어서, 실존 개인 정보를 원 데이터로 수집하는 단계, 상기 수집된 원 데이터를 관심변수를 갖는 모형적 관계로 표현된 초모집단에서 획득된 제1 표본으로 설정하는 단계, 상기 초모집단으로부터 가상 개인 정보만으로 구성된 제2 표본을 설정하는 단계, 상기 제2 표본에 대해서 결측 대체를 수행하여 결측 대체 데이터를 생성하고 조절하는 단계, 및 상기 결측 대체 데이터로부터 표집한 재현 데이터를 출력하는 단계를 포함하는 재현 데이터 정보 보호 방법을 제공한다.According to an aspect of this embodiment, in the method of protecting data reproduction data by a computing device, the steps of collecting real personal information as raw data, the collected raw data in a hyperpopulation expressed in a model relationship with a variable of interest Setting the obtained first sample, setting a second sample consisting of only virtual personal information from the hyperpopulation, performing missing replacement on the second sample to generate and adjust missing replacement data, and the Provided is a method for protecting reproduction data information, comprising the step of outputting reproduced data sampled from missing replacement data.

상기 초모집단에서 획득된 제1 표본으로 설정하는 단계는, 상기 수집된 원 데이터의 분포를 따르는 가상의 인물이 있다고 가정할 수 있다.In the setting of the first sample obtained from the hyperpopulation, it may be assumed that there is a virtual person following the distribution of the collected raw data.

상기 결측 대체 데이터의 크기는 상기 원 데이터의 크기의 5 배 이상으로 설정될 수 있다.The size of the missing replacement data may be set to be 5 times or more of the size of the original data.

상기 제1 표본은 제1 분포를 따르고, 상기 제2 표본은 제2 분포를 따른다.The first sample is from a first distribution and the second sample is from a second distribution.

상기 결측 대체 데이터를 생성하고 조절하는 단계는, 상기 제1 표본으로부터 제2 분포를 추정하고, 상기 제2 분포를 따르는 상기 결측 대체 데이터를 생성할 수 있다.The generating and adjusting the missing replacement data may include estimating a second distribution from the first sample and generating the missing replacement data according to the second distribution.

상기 결측 대체 데이터를 생성하고 조절하는 단계는, 상기 제1 분포 및 상기 결측 대체 데이터를 따르는 제3 분포 간에 일치하도록 상기 결측 대체 데이터에 가중치를 부여할 수 있다.The generating and adjusting the missing replacement data may include weighting the missing replacement data to match between the first distribution and a third distribution following the missing replacement data.

상기 결측 대체 데이터로부터 표집한 재현 데이터를 출력하는 단계는, 확률 비례 추출을 통해 상기 재현 데이터를 표집할 수 있다.In the step of outputting the sampled reproduction data from the missing replacement data, the reproduction data may be sampled through probability proportional extraction.

본 실시예의 다른 측면에 의하면, 하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 재현 데이터 정보 보호 장치에 있어서, 상기 프로세서는, 실존 개인 정보를 원 데이터로 수집하고, 상기 수집된 원 데이터를 관심변수들이 갖는 모형적 관계로 표현된 초모집단에서 획득된 제1 표본으로 설정하고, 상기 초모집단으로부터 가상 개인 정보만으로 구성된 제2 표본을 추정하고, 상기 제2 표본에 대해서 결측 대체를 수행하여 결측 대체 데이터를 생성하고 조절하고, 상기 결측 대체 데이터로부터 표집한 재현 데이터를 출력하는 것을 특징으로 하는 재현 데이터 정보 보호 장치를 제공한다.According to another aspect of this embodiment, in the reproduction data information protection device comprising one or more processors and a memory for storing one or more programs executed by the one or more processors, the processor collects existing personal information as original data and setting the collected raw data as a first sample obtained from a hyperpopulation expressed by a model relationship of interest variables, estimating a second sample consisting of only virtual personal information from the hyperpopulation, and the second sample There is provided a representation data information protection apparatus, characterized in that by performing missing replacement for , generating and adjusting missing replacement data, and outputting reproduced data sampled from the missing replacement data.

이상에서 설명한 바와 같이 본 발명의 실시예들에 의하면, 수집된 데이터의 분포를 따르는 가상의 인물에 대한 표본을 구성하고 결측 대체를 진행하여 재현 데이터를 생성함으로써, 개인 정보 노출을 예방할 수 있는 효과가 있다.As described above, according to the embodiments of the present invention, there is an effect of preventing personal information exposure by constructing a sample for a virtual person following the distribution of the collected data and generating reproduced data by performing missing replacement. have.

여기에서 명시적으로 언급되지 않은 효과라 하더라도, 본 발명의 기술적 특징에 의해 기대되는 이하의 명세서에서 기재된 효과 및 그 잠정적인 효과는 본 발명의 명세서에 기재된 것과 같이 취급된다.Even if the effects are not explicitly mentioned herein, the effects described in the following specification expected by the technical features of the present invention and their potential effects are treated as if they were described in the specification of the present invention.

도 1은 본 발명의 일 실시예에 따른 재현 데이터 정보 보호 장치를 예시한 블록도이다.
도 2 및 도 3은 본 발명의 일 실시예에 따른 재현 데이터 정보 보호 장치가 처리하는 데이터를 예시한 도면이다.
도 4는 본 발명의 다른 실시예에 따른 재현 데이터 정보 보호 방법을 예시한 흐름도이다.
1 is a block diagram illustrating an apparatus for protecting reproduced data information according to an embodiment of the present invention.
2 and 3 are diagrams illustrating data processed by the reproduced data information protection apparatus according to an embodiment of the present invention.
4 is a flowchart illustrating a method for protecting reproduction data information according to another embodiment of the present invention.

이하, 본 발명을 설명함에 있어서 관련된 공지기능에 대하여 이 분야의 기술자에게 자명한 사항으로서 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하고, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. Hereinafter, in the description of the present invention, if it is determined that the subject matter of the present invention may be unnecessarily obscure as it is obvious to those skilled in the art with respect to related known functions, the detailed description thereof will be omitted, and some embodiments of the present invention will be described. It will be described in detail with reference to exemplary drawings.

익명 정보는 개인정보 보호법의 적용 대상이 아닌 점을 고려하여, 본 실시예에 따른 재현 데이터 정보 보호 장치는 익명 정보를 생성한다.Considering that anonymous information is not subject to the Personal Information Protection Act, the reproduced data information protection apparatus according to the present embodiment generates anonymous information.

재현 데이터(synthetic data)는 원 데이터를 따르는 분포로부터 새로운 데이터를 생성하는데, 응답자(실존하는 개인)의 정보는 데이터에 없지만, 동등한 정보량을 가지고 있다고 기대한다.Synthetic data generates new data from a distribution that follows the original data, and the respondent (existing individual) is not in the data, but expects to have an equivalent amount of information.

재현 데이터를 생성하는 과정에서는 분포 추정이 정교해짐에 따라 모든 값이 완벽하게 재현될 수 있다. 수집된 데이터와 동일한 데이터가 재현되어 개인 정보 보호가 이루어지지 않게 된다는 것이고, 이는 재현 데이터의 정보 보호라는 역할을 상실함을 의미한다. 스무딩(smoothing)을 비롯한 패널티(penalti)를 고려한 재현 데이터를 생성해야 하는데 패널티를 고려한 재현 데이터는 통계적 활용도가 떨어지게 된다.In the process of generating reproducible data, all values can be perfectly reproduced as distribution estimation becomes more sophisticated. The same data as the collected data is reproduced, and privacy protection is not achieved, which means that the role of information protection of reproduced data is lost. It is necessary to generate reproduction data considering penalties including smoothing, but the statistical utility of reproduction data considering penalties decreases.

본 실시예에 따른 재현 데이터 정보 보호 장치는 재현 데이터 생성 과정에서 원 데이터의 관측치보다 k배 큰 초모집단에 대해 결측 대체를 하고, 이에 가중치를 부여하고, 확률 비례 추출을 하는 과정이 추가됨으로 인해 원 데이터의 통계적 특성에 더 가까운 데이터를 생성할 수 있다.In the reproduction data information protection apparatus according to this embodiment, in the reproduction data generation process, missing replacement is performed for a superpopulation that is k times larger than the observation value of the original data, weight is given to it, and the process of probability proportional extraction is added. It can produce data closer to the statistical characteristics of the data.

도 1은 본 발명의 일 실시예에 따른 재현 데이터 정보 보호 장치를 예시한 블록도이다.1 is a block diagram illustrating an apparatus for protecting reproduced data information according to an embodiment of the present invention.

재현 데이터 정보 보호 장치(110)는 적어도 하나의 프로세서(120), 컴퓨터 판독 가능한 저장매체(130) 및 통신 버스(170)를 포함한다. The reproduced data information protection apparatus 110 includes at least one processor 120 , a computer-readable storage medium 130 , and a communication bus 170 .

프로세서(120)는 재현 데이터 정보 보호 장치(110)로 동작하도록 제어할 수 있다. 예컨대, 프로세서(120)는 컴퓨터 판독 가능한 저장 매체(130)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 컴퓨터 실행 가능 명령어는 프로세서(120)에 의해 실행되는 경우 재현 데이터 정보 보호 장치(110)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.The processor 120 may control to operate as the reproduced data information protection apparatus 110 . For example, the processor 120 may execute one or more programs stored in the computer-readable storage medium 130 . The one or more programs may include one or more computer-executable instructions, which, when executed by the processor 120 , cause the reproduced data information protection apparatus 110 to perform operations according to the exemplary embodiment. can be configured.

컴퓨터 판독 가능한 저장 매체(130)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능한 저장 매체(130)에 저장된 프로그램(140)은 프로세서(120)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독한 가능 저장 매체(130)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 재현 데이터 정보 보호 장치(110)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.Computer-readable storage medium 130 is configured to store computer-executable instructions or program code, program data, and/or other suitable form of information. The program 140 stored in the computer-readable storage medium 130 includes a set of instructions executable by the processor 120 . In one embodiment, computer-readable storage medium 130 includes memory (volatile memory, such as random access memory, non-volatile memory, or a suitable combination thereof), one or more magnetic disk storage devices, optical disk storage devices, It may be flash memory devices, other types of storage media that can be accessed by the reproduction data information protection apparatus 110 and store desired information, or a suitable combination thereof.

통신 버스(170)는 프로세서(120), 컴퓨터 판독 가능한 저장 매체(140)를 포함하여 재현 데이터 정보 보호 장치(110)의 다른 다양한 컴포넌트들을 상호 연결한다.The communication bus 170 interconnects various other components of the reproduced data information protection device 110 including the processor 120 and the computer readable storage medium 140 .

재현 데이터 정보 보호 장치(110)는 또한 하나 이상의 입출력 장치를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(150) 및 하나 이상의 통신 인터페이스(160)를 포함할 수 있다. 입출력 인터페이스(150) 및 통신 인터페이스(160)는 통신 버스(170)에 연결된다. 입출력 장치(미도시)는 입출력 인터페이스(150)를 통해 재현 데이터 정보 보호 장치(110)의 다른 컴포넌트들에 연결될 수 있다.The reproduced data information protection device 110 may also include one or more input/output interfaces 150 and one or more communication interfaces 160 that provide interfaces for one or more input/output devices. The input/output interface 150 and the communication interface 160 are connected to the communication bus 170 . The input/output device (not shown) may be connected to other components of the reproduced data information protection device 110 through the input/output interface 150 .

재현 데이터 정보 보호 장치(110)는 통계적 노출 제어(Statistical Disclosure Control, SDC)의 한 부분으로, 재현 데이터를 생성하여 개인 정보를 보호한다. 수집된 데이터를 초모집단에서 얻어진 표본으로 여기는 것에서 시작한다. 즉, 현재 수집된 데이터의 분포를 따르는 가상의 개인이 있다고 가정한다. 초모집단으로부터 가상의 개인으로만 구성된 표본을 구성하고 자료값은 결측으로 간주한다. 이때, 표본의 크기는 수집된 데이터의 k배로 설정한다(k는 5정도이면 충분하다). 통계적 결측 대체를 진행하고, 결측 대체된 데이터의 분포를 수집된 데이터의 분포와 일치하도록 캘리브레이션(calibration, raking) 방법으로 가중치를 계산하여 부여한다. 필요한 표본 크기에 맞게, 가중치를 이용한 확률 비례 추출을 통해 표집을 하여 새로운 데이터를 획득한다.The reproduction data information protection device 110 is a part of statistical disclosure control (SDC), and generates reproduction data to protect personal information. It starts by treating the collected data as a sample obtained from a hyperpopulation. That is, it is assumed that there is a hypothetical individual following the distribution of the currently collected data. A sample composed of only hypothetical individuals from the hyperpopulation is constructed, and data values are regarded as missing. In this case, the sample size is set to be k times the collected data (k is sufficient if about 5). Statistical missing replacement is performed, and weights are calculated and assigned by a calibration (raking) method so that the distribution of the missing replacement data matches the distribution of the collected data. According to the required sample size, new data is acquired by sampling through probability proportional extraction using weights.

도 2 및 도 3은 본 발명의 일 실시예에 따른 재현 데이터 정보 보호 장치가 처리하는 데이터를 예시한 도면이다.2 and 3 are diagrams illustrating data processed by an apparatus for protecting reproduced data information according to an embodiment of the present invention.

재현 데이터 정보 보호 장치는 실존 개인 정보를 원 데이터로 수집하고, 수집된 원 데이터를 관심변수들이 갖는 모형적 관계로 표현된 초모집단에서 획득된 제1 표본으로 설정한다. 초모집단으로부터 가상 개인 정보만으로 구성된 제2 표본을 추정하고, 제2 표본에 대해서 결측 대체를 수행하여 결측 대체 데이터를 생성하고 조절한다. 결측 대체 데이터로부터 표집한 재현 데이터를 출력한다.The reproduction data information protection device collects real personal information as raw data, and sets the collected raw data as a first sample obtained from a hyperpopulation expressed in a model relationship with variables of interest. A second sample composed of only virtual personal information is estimated from the hyperpopulation, and missing replacement data is generated and adjusted by performing missing replacement on the second sample. Reproduced data sampled from missing replacement data is output.

재현 데이터 정보 보호 장치는 수집된 원 데이터의 분포를 따르는 가상의 인물이 있다고 가정하여, 초모집단에서 획득된 제1 표본으로 설정한다. The reproduction data information protection apparatus assumes that there is a virtual person following the distribution of the collected raw data, and sets it as the first sample obtained from the hyperpopulation.

데이터는 실제 세계의 유한 모집단으로부터 수집되는데, 유한 모집단을 포함하는 가상의 상위 집단을 초모집단이라 하며, 초모집단의 구성 단위(unit)의 수는 보통 무한하다. 관심 변수는 반응 변수 또는 종속 변수라고 하며, 예측의 대상이 되는 변수이다. 설명 변수는 독립 변수라고 하며, 관심 변수 속 차이를 설명할 수 있는 변수이다.Data are collected from a finite population in the real world. A hypothetical supergroup including the finite population is called a hyperpopulation, and the number of units in the hyperpopulation is usually infinite. The variable of interest is called a response variable or dependent variable, and is a variable to be predicted. An explanatory variable is called an independent variable, and is a variable that can explain the difference in the variable of interest.

세 집합을 수학식 1과 같이 정의하고, 수학식 1은 수학식 2를 만족한다.The three sets are defined as in Equation 1, and Equation 1 satisfies Equation 2.

Figure 112021025137724-pat00001
Figure 112021025137724-pat00001

Figure 112021025137724-pat00002
Figure 112021025137724-pat00002

μ()는 셀 수 있는 집합에 대해서 원소의 개수이다.μ() is the number of elements in a countable set.

재현 데이터 정보 보호 장치는 제2 표본 또는 결측 대체 데이터의 크기는 제1 표본 또는 원 데이터의 크기의 5 배 이상으로 설정한다. In the reproduction data information protection device, the size of the second sample or missing replacement data is set to be at least 5 times the size of the first sample or original data.

제1 표본은 수집된 원 데이터를 따르는 제1 분포(F1)를 만족하고, 제2 표본은 수집된 원 데이터로부터 추정한 제2 분포(F2)를 만족한다.The first sample satisfies a first distribution F 1 according to the collected raw data, and the second sample satisfies a second distribution F 2 estimated from the collected raw data.

재현 데이터 정보 보호 장치는 제2 분포를 따르는 결측 대체 데이터를 생성한다. 재현 데이터 정보 보호 장치는 제1 분포(F1) 및 결측 대체 데이터를 따르는 제3 분포(F3) 간에 일치하도록 결측 대체 데이터에 가중치를 부여하여, 결측 대체 데이터를 생성하고 조절한다.The reproduced data information protection device generates missing replacement data according to the second distribution. The reproduction data information protection apparatus generates and adjusts the missing replacement data by weighting the missing replacement data to match between the first distribution ( F 1 ) and the third distribution ( F 3 ) following the missing replacement data.

재현 데이터 정보 보호 장치는 확률 비례 추출을 통해 재현 데이터를 표집한다. 확률 비례 추출은 모집단을 구성하는 표집 단위(sampling unit)의 규모(size)에 비례하여 표집 단위를 추출하는 방법이다.The reproduction data information protection device samples reproduction data through probability proportional extraction. Probability proportional extraction is a method of extracting a sampling unit in proportion to the size of a sampling unit constituting a population.

도 4는 본 발명의 다른 실시예에 따른 재현 데이터 정보 보호 방법을 예시한 흐름도이다. 재현 데이터 정보 보호 방법은 컴퓨팅 디바이스에 의하여 수행될 수 있으며, 재현 데이터 정보 보호 장치와 동일한 방식으로 동작한다.4 is a flowchart illustrating a method for protecting reproduction data information according to another embodiment of the present invention. The reproduction data information protection method may be performed by a computing device, and operates in the same manner as the reproduction data information protection apparatus.

단계 S210에서 프로세서는 실존 개인 정보를 원 데이터로 수집한다.In step S210, the processor collects existing personal information as raw data.

단계 S220에서 프로세서는 수집된 원 데이터를 관심변수를 갖는 모형적 관계로 표현된 초모집단에서 획득된 제1 표본으로 설정한다. 초모집단에서 획득된 제1 표본으로 설정하는 단계(S220)는, 수집된 원 데이터의 분포를 따르는 가상의 인물이 있다고 가정한다. 제1 표본은 수집된 원 데이터를 따르는 제1 분포를 만족한다.In step S220, the processor sets the collected raw data as a first sample obtained from a hyperpopulation expressed as a model relationship having a variable of interest. In the step of setting the first sample obtained from the hyperpopulation ( S220 ), it is assumed that there is a virtual person following the distribution of the collected raw data. The first sample satisfies a first distribution along the collected raw data.

단계 S230에서 프로세서는 초모집단으로부터 가상 개인 정보만으로 구성된 제2 표본을 설정한다. 제2 표본은 수집된 원 데이터로부터 추정한 제2 분포를 만족한다.In step S230, the processor sets a second sample composed of only virtual personal information from the hyperpopulation. The second sample satisfies the second distribution estimated from the collected raw data.

단계 S240에서 프로세서는 제2 표본에 대해서 결측 대체를 수행하여 결측 대체 데이터를 생성하고 조절한다. 결측 대체 데이터의 크기는 원 데이터의 크기의 5 배 이상으로 설정된다. 결측 대체 데이터를 생성하고 조절하는 단계(S240)는, 제1 표본으로부터 제2 분포를 추정하고, 제2 분포를 따르는 결측 대체 데이터를 생성한다. 결측 대체 데이터를 생성하고 조절하는 단계(S240)는, 제1 분포 및 결측 대체 데이터를 따르는 제3 분포 간에 일치하도록 결측 대체 데이터에 가중치를 부여한다. 일종의 캘리브레이션을 수행한다.In step S240, the processor generates and adjusts missing replacement data by performing missing replacement on the second sample. The size of the missing replacement data is set to at least 5 times the size of the original data. In the generating and adjusting the missing replacement data ( S240 ), the second distribution is estimated from the first sample, and missing replacement data according to the second distribution is generated. In the step of generating and adjusting the missing replacement data ( S240 ), weights are given to the missing replacement data to match the first distribution and the third distribution following the missing replacement data. Perform some kind of calibration.

단계 S250에서 프로세서는 결측 대체 데이터로부터 표집한 재현 데이터를 출력한다. 결측 대체 데이터로부터 표집한 재현 데이터를 출력하는 단계(S250)는, 확률 비례 추출을 통해 상기 재현 데이터를 표집한다.In step S250, the processor outputs the reproduced data sampled from the missing replacement data. In the step of outputting the reproduced data sampled from the missing replacement data (S250), the reproduced data is sampled through probability proportional extraction.

본 실시예에 따른 재현 데이터 정보 보호 방법에 의하면, 재현 데이터를 생성하는 과정에서 분포 추정을 아무리 정교화하더라도 완벽하게 재현되는 것(개인 정보 노출)을 피할 수 있고, 표본 추출 과정에서 특정 이상치로 인한 개인 식별(개인 정보 노출) 위험을 감소시킬 수 있다.According to the reproduction data information protection method according to the present embodiment, it is possible to avoid being perfectly reproduced (personal information exposure) no matter how sophisticated the distribution estimation is in the process of generating reproduction data, and individuals due to specific outliers in the sampling process It can reduce the risk of identification (disclosure of personal information).

재현 데이터 정보 보호 장치는 하드웨어, 펌웨어, 소프트웨어 또는 이들의 조합에 의해 로직회로 내에서 구현될 수 있고, 범용 또는 특정 목적 컴퓨터를 이용하여 구현될 수도 있다. 장치는 고정배선형(Hardwired) 기기, 필드 프로그램 가능한 게이트 어레이(Field Programmable Gate Array, FPGA), 주문형 반도체(Application Specific Integrated Circuit, ASIC) 등을 이용하여 구현될 수 있다. 또한, 장치는 하나 이상의 프로세서 및 컨트롤러를 포함한 시스템온칩(System on Chip, SoC)으로 구현될 수 있다.The reproduced data information protection apparatus may be implemented in a logic circuit by hardware, firmware, software, or a combination thereof, and may be implemented using a general-purpose or special-purpose computer. The device may be implemented using a hardwired device, a field programmable gate array (FPGA), an application specific integrated circuit (ASIC), or the like. In addition, the device may be implemented as a system on chip (SoC) including one or more processors and controllers.

재현 데이터 정보 보호 장치는 하드웨어적 요소가 마련된 컴퓨팅 디바이스 또는 서버에 소프트웨어, 하드웨어, 또는 이들의 조합하는 형태로 탑재될 수 있다. 컴퓨팅 디바이스 또는 서버는 각종 기기 또는 유무선 통신망과 통신을 수행하기 위한 통신 모뎀 등의 통신장치, 프로그램을 실행하기 위한 데이터를 저장하는 메모리, 프로그램을 실행하여 연산 및 명령하기 위한 마이크로프로세서 등을 전부 또는 일부 포함한 다양한 장치를 의미할 수 있다.The reproduced data information protection apparatus may be mounted in the form of software, hardware, or a combination thereof on a computing device or server provided with hardware elements. A computing device or server includes all or part of a communication device such as a communication modem for performing communication with various devices or wired/wireless communication networks, a memory for storing data for executing a program, and a microprocessor for executing operations and commands by executing the program. It can mean a variety of devices, including

도 4에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나 이는 예시적으로 설명한 것에 불과하고, 이 분야의 기술자라면 본 발명의 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 4에 기재된 순서를 변경하여 실행하거나 또는 하나 이상의 과정을 병렬적으로 실행하거나 다른 과정을 추가하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이다.Although it is described that each process is sequentially executed in FIG. 4, this is only illustratively described, and those skilled in the art change the order described in FIG. Alternatively, various modifications and variations may be applied by executing one or more processes in parallel or adding other processes.

본 실시예들에 따른 동작은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능한 매체에 기록될 수 있다. 컴퓨터 판독 가능한 매체는 실행을 위해 프로세서에 명령어를 제공하는 데 참여한 임의의 매체를 나타낸다. 컴퓨터 판독 가능한 매체는 프로그램 명령, 데이터 파일, 데이터 구조 또는 이들의 조합을 포함할 수 있다. 예를 들면, 자기 매체, 광기록 매체, 메모리 등이 있을 수 있다. 컴퓨터 프로그램은 네트워크로 연결된 컴퓨터 시스템 상에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드, 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.The operations according to the present embodiments may be implemented in the form of program instructions that can be performed through various computer means and recorded in a computer-readable medium. Computer-readable medium represents any medium that participates in providing instructions to a processor for execution. Computer-readable media may include program instructions, data files, data structures, or a combination thereof. For example, there may be a magnetic medium, an optical recording medium, a memory, and the like. A computer program may be distributed over a networked computer system so that computer readable code is stored and executed in a distributed manner. Functional programs, codes, and code segments for implementing the present embodiment may be easily inferred by programmers in the art to which this embodiment belongs.

본 실시예들은 본 실시예의 기술 사상을 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The present embodiments are for explaining the technical idea of the present embodiment, and the scope of the technical idea of the present embodiment is not limited by these embodiments. The protection scope of this embodiment should be interpreted by the following claims, and all technical ideas within the scope equivalent thereto should be interpreted as being included in the scope of the present embodiment.

Claims (12)

컴퓨팅 디바이스에 의한 재현 데이터 정보 보호 방법에 있어서,
실존 개인 정보를 원 데이터로 수집하는 단계;
상기 수집된 원 데이터를 관심변수를 갖는 모형적 관계로 표현된 초모집단에서 획득된 제1 표본으로 설정하는 단계;
상기 초모집단으로부터 가상 개인 정보만으로 구성된 제2 표본을 설정하는 단계;
상기 제2 표본에 대해서 결측 대체를 수행하여 결측 대체 데이터를 생성하고 조절하는 단계; 및
상기 결측 대체 데이터로부터 표집한 재현 데이터를 출력하는 단계를 포함하는 재현 데이터 정보 보호 방법.
A method for protecting reproduced data information by a computing device, the method comprising:
Collecting existential personal information as raw data;
setting the collected raw data as a first sample obtained from a hyperpopulation expressed as a model relationship having a variable of interest;
setting a second sample composed of only virtual personal information from the hyperpopulation;
generating and adjusting missing replacement data by performing missing replacement on the second sample; and
and outputting the sampled reproduction data from the missing replacement data.
제1항에 있어서,
상기 초모집단에서 획득된 제1 표본으로 설정하는 단계는,
상기 수집된 원 데이터의 분포를 따르는 가상의 인물이 있다고 가정하는 것을 특징으로 하는 재현 데이터 정보 보호 방법.
According to claim 1,
The step of setting the first sample obtained from the hyperpopulation comprises:
Representation data information protection method, characterized in that it is assumed that there is a virtual person following the distribution of the collected raw data.
제1항에 있어서,
상기 결측 대체 데이터의 크기는 상기 원 데이터의 크기의 5 배 이상으로 설정되는 것을 특징으로 하는 재현 데이터 정보 보호 방법.
According to claim 1,
The reproduced data information protection method, characterized in that the size of the missing replacement data is set to be 5 times or more of the size of the original data.
제1항에 있어서,
상기 제1 표본은 제1 분포를 따르고,
상기 제2 표본은 제2 분포를 따르고,
상기 결측 대체 데이터를 생성하고 조절하는 단계는, 상기 제1 표본으로부터 제2 분포를 추정하고, 상기 제2 분포를 따르는 상기 결측 대체 데이터를 생성하는 것을 특징으로 하는 재현 데이터 정보 보호 방법.
According to claim 1,
wherein the first sample follows a first distribution;
wherein the second sample follows a second distribution;
The generating and adjusting the missing replacement data comprises estimating a second distribution from the first sample and generating the missing replacement data according to the second distribution.
제4항에 있어서,
상기 결측 대체 데이터를 생성하고 조절하는 단계는, 상기 제1 분포 및 상기 결측 대체 데이터를 따르는 제3 분포 간에 일치하도록 상기 결측 대체 데이터에 가중치를 부여하는 것을 특징으로 하는 재현 데이터 정보 보호 방법.
5. The method of claim 4,
The generating and adjusting the missing replacement data comprises assigning weights to the missing replacement data to match the first distribution and a third distribution following the missing replacement data.
제1항에 있어서,
상기 결측 대체 데이터로부터 표집한 재현 데이터를 출력하는 단계는, 확률 비례 추출을 통해 상기 재현 데이터를 표집하는 것을 특징으로 하는 재현 데이터 정보 보호 방법.
According to claim 1,
The step of outputting the reproduced data sampled from the missing replacement data comprises sampling the reproduced data through probability proportional extraction.
하나 이상의 프로세서 및 상기 하나 이상의 프로세서에 의해 실행되는 하나 이상의 프로그램을 저장하는 메모리를 포함하는 재현 데이터 정보 보호 장치에 있어서,
상기 프로세서는,
실존 개인 정보를 원 데이터로 수집하고,
상기 수집된 원 데이터를 관심변수들이 갖는 모형적 관계로 표현된 초모집단에서 획득된 제1 표본으로 설정하고,
상기 초모집단으로부터 가상 개인 정보만으로 구성된 제2 표본을 설정하고,
상기 제2 표본에 대해서 결측 대체를 수행하여 결측 대체 데이터를 생성하고 조절하고,
상기 결측 대체 데이터로부터 표집한 재현 데이터를 출력하는 것을 특징으로 하는 재현 데이터 정보 보호 장치.
An apparatus for protecting reproduced data information comprising one or more processors and a memory for storing one or more programs executed by the one or more processors,
The processor is
Collect real personal information as raw data,
Set the collected raw data as a first sample obtained from a hyperpopulation expressed in a model relationship with variables of interest,
setting a second sample consisting of only virtual personal information from the hyperpopulation,
generating and adjusting missing replacement data by performing missing replacement on the second sample;
The reproduced data information protection device, characterized in that the reproduced data sampled from the missing replacement data is output.
제7항에 있어서,
상기 프로세서는,
상기 수집된 원 데이터의 분포를 따르는 가상의 인물이 있다고 가정하여, 상기 초모집단에서 획득된 제1 표본으로 설정하는 것을 특징으로 하는 재현 데이터 정보 보호 장치.
8. The method of claim 7,
The processor is
Assuming that there is a virtual person following the distribution of the collected raw data, it is set as the first sample obtained from the hyperpopulation.
제7항에 있어서,
상기 결측 대체 데이터의 크기는 상기 원 데이터의 크기의 5 배 이상으로 설정되는 것을 특징으로 하는 재현 데이터 정보 보호 장치.
8. The method of claim 7,
The reproduced data information protection apparatus, characterized in that the size of the missing replacement data is set to be 5 times or more of the size of the original data.
제7항에 있어서,
상기 제1 표본은 제1 분포를 따르고,
상기 제2 표본은 제2 분포를 따르고,
상기 프로세서는, 상기 제1 표본으로부터 제2 분포를 추정하고, 상기 제2 분포를 따르는 상기 결측 대체 데이터를 생성하는 것을 특징으로 하는 재현 데이터 정보 보호 장치.
8. The method of claim 7,
wherein the first sample follows a first distribution;
wherein the second sample follows a second distribution;
and the processor estimates a second distribution from the first sample, and generates the missing replacement data according to the second distribution.
제10항에 있어서,
상기 프로세서는, 상기 제1 분포 및 상기 결측 대체 데이터를 따르는 제3 분포 간에 일치하도록 상기 결측 대체 데이터에 가중치를 부여하여, 상기 결측 대체 데이터를 생성하고 조절하는 것을 특징으로 하는 재현 데이터 정보 보호 장치.
11. The method of claim 10,
and the processor generates and adjusts the missing replacement data by weighting the missing replacement data to match between the first distribution and a third distribution following the missing replacement data.
제7항에 있어서,
상기 프로세서는, 확률 비례 추출을 통해 상기 재현 데이터를 표집하는 것을 특징으로 하는 재현 데이터 정보 보호 장치.
8. The method of claim 7,
and the processor samples the reproduction data through probability proportional extraction.
KR1020210028173A 2021-03-03 2021-03-03 Synthetic data information protection method and apparatus using raking KR102407803B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210028173A KR102407803B1 (en) 2021-03-03 2021-03-03 Synthetic data information protection method and apparatus using raking

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210028173A KR102407803B1 (en) 2021-03-03 2021-03-03 Synthetic data information protection method and apparatus using raking

Publications (1)

Publication Number Publication Date
KR102407803B1 true KR102407803B1 (en) 2022-06-10

Family

ID=81986323

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210028173A KR102407803B1 (en) 2021-03-03 2021-03-03 Synthetic data information protection method and apparatus using raking

Country Status (1)

Country Link
KR (1) KR102407803B1 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100062013A (en) * 2008-12-01 2010-06-10 한국전자통신연구원 Method for data encryption and method for data search using conjunctive keyword
KR101041568B1 (en) 2008-12-16 2011-06-15 한국전자통신연구원 Method for calculating average value of data saved multiple database

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100062013A (en) * 2008-12-01 2010-06-10 한국전자통신연구원 Method for data encryption and method for data search using conjunctive keyword
KR101041568B1 (en) 2008-12-16 2011-06-15 한국전자통신연구원 Method for calculating average value of data saved multiple database

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"개인정보 재식별 우려, '재현 데이터'가 줄여", ZDNETKOREA, 2019.11.15. *
민주원 외 1인, '모의실험을 기반으로 지수형 응답률 보정을 위한 세부 층 결정에 관한 연구', THE KOREA JOURNAL OF APPLIED STATICS, 2018, pp.621-636 *
박민정 외 1인, '재현자료 작성 방법론 검토', 2017년 하반기 연구보고서 제1권, 2017. *

Similar Documents

Publication Publication Date Title
Van Doorn et al. Quasi-stationary distributions for discrete-state models
CN112702342B (en) Network event processing method and device, electronic equipment and readable storage medium
CN110399268B (en) Abnormal data detection method, device and equipment
CN111090780B (en) Method and device for determining suspicious transaction information, storage medium and electronic equipment
CN110503566B (en) Wind control model building method and device, computer equipment and storage medium
CN108197795B (en) Malicious group account identification method, device, terminal and storage medium
Gabrielli et al. Invasion percolation and critical transient in the Barabási model of human dynamics
CN109684320B (en) Method and equipment for online cleaning of monitoring data
CN113918884A (en) Traffic prediction model construction method and traffic prediction method
CN106528778A (en) Method and device for obtaining user retention data
CN115147092A (en) Resource approval method and training method and device of random forest model
CN115994608A (en) Fracturing well yield prediction method and device based on bidirectional gating circulation unit
KR102407803B1 (en) Synthetic data information protection method and apparatus using raking
Eisenlohr Challenges in data analysis: pitfalls and suggestions for a statistical routine in vegetation ecology
CN112529767A (en) Image data processing method, image data processing device, computer equipment and storage medium
CN116527398A (en) Internet of things card risk identification method, device, equipment and storage medium
CN112418481A (en) Radar echo map prediction method, device, computer equipment and storage medium
CN116152751A (en) Image processing method, device, system and storage medium
CN111241571A (en) Data sharing method, model and storage medium
US9483332B2 (en) Event processing method in stream processing system and stream processing system
CN114581086A (en) Phishing account detection method and system based on dynamic time sequence network
JP7143599B2 (en) Metadata evaluation device, metadata evaluation method, and metadata evaluation program
CN111523685A (en) Method for reducing performance modeling overhead based on active learning
CN114584476A (en) Traffic prediction method, network training device and electronic equipment
KR102451640B1 (en) Continuous face aging method and apparatus via disentangled representation and multi-task learning

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant