CN109064373A

CN109064373A - 一种基于外包图像数据录入的隐私保护方法

Info

Publication number: CN109064373A
Application number: CN201810783791.8A
Authority: CN
Inventors: 李凤岐; 庞爱迪
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-12-21
Anticipated expiration: 2038-07-17
Also published as: CN109064373B

Abstract

本发明属于隐私保护领域，涉及一种基于外包图像数据录入的隐私保护方法。具体步骤如下：发包商对待录入图像进行图像分割，获取子图像集合，对子图像重新命名，获取重命名子图像集合；判断子图像包含的用户隐私信息关联是否明确，若不存在明确关联，则将重命名子图像集合按照子图像随机分配方案分配给分包商的数据录入人员；如存在明确关联，则根据重命名子图像属性间的隐私关联关系进行分离，获取隐私关联分离集合，对重命名子图像中的标识符子图像进行加密，按照子图像分离分配方案将处理后的重命名子图像集合分配给分包商的数据录入人员。本发明适用于外包数据录入过程，能够在保证录入图像数据可用性的同时降低用户隐私信息泄露的概率。

Description

一种基于外包图像数据录入的隐私保护方法

技术领域

本发明属于隐私保护领域，涉及一种基于外包图像数据录入的隐私保护方法。

背景技术

经济全球化发展趋势的加快和市场竞争的加剧，带动了全球服务外包产业的快速发展。外包即一个企业或组织(服务发包商)将自己应该完成的任务转移到外部，由其他企业或组织(服务接包商)完成。同时随着服务外包项目规模逐渐扩大，项目复杂度不断提高，分包(即将大型项目分解之后承包给不同分包商)已经成为一种普遍选择。数据录入业务作为服务外包产中一种重要的业务类型，具有工作量大、录入数据数字化等特点。

在数据录入行业，国外应用最为广泛的是OCR(Optical Character Recognition)文字识别技术，该技术对于英文具有较高的识别准确率，但是对于汉字的识别效果表现较差。在国内数据录入业务主要还是以手工录入方式为主，但是通过手工进行图像的数据录入操作时，存在一定的安全隐患。特别是对于医疗行业产生的病例数据、金融行业产生的交易数据等包含用户隐私信息的数据。如果分包商的数据录入人员能够同时获取用户的相关信息，可能会出现用户隐私信息泄露的问题。

目前应用较为广泛的隐私保护技术分为四类，分别是基于数据加密的隐私保护方法、基于数据失真的隐私保护方法、基于限制发布的隐私保护技术和其他隐私保护技术。由于这些技术存在自身特点，且不能够完全满足外包数据录入过程中的隐私保护需求。因此可以根据该过程中待录入的用户隐私信息之间是否存在明确的关联关系，提出一种适用于外包数据录入的隐私保护方法。

发明内容

为降低外包数据录入过程中用户隐私信息泄露的概率，本发明旨在提供一种基于外包图像数据录入的隐私保护方法，无论该过程中待录入图像的用户隐私信息是否存在明确的关联关系，都能够有效保护用户的隐私信息。

本发明的技术方案如下：

一种基于外包图像数据录入的隐私保护方法，包括待录入图像的预处理过程和重命名子图像处理及分配过程，具体步骤如下：

待录入图像的预处理过程：

步骤1，发包商提供需要由分包商进行数据录入的原始图像集合；

步骤2，发包商对原始图像集合进行图像分割处理，获取子图像集合；

步骤3，发包商对子图像集合进行文件重命名处理，获取重命名子图像集合；

重命名子图像处理及分配过程：

步骤4，发包商判断重命名子图像集合中包含的用户隐私信息是否存在明确关联，如果不存在明确关联，则进行步骤5，否则进行步骤6；

步骤5，当重命名子图像集合中包含的用户隐私信息不存在明确关联时，发包商根据子图像随机分配法制定分配方案，将重命名子图像集合分配给分包商的数据录入人员，由数据录入人员完成数据录入任务；

步骤6，当重命名子图像集合中包含的用户隐私信息存在明确关联时，发包商对重命名子图像集合进行属性标记，建立隐私关联关系集合，根据隐私关联关系集合对重命名子图像集合进行隐私关联分离处理，获得属于标识符的重命名子图像和隐私关联分离集合；

步骤7，发包商对标识符属性进行重命名子图像加密处理，获得标识符加密集合；

步骤8，发包商根据子图像分离分配法制定分配方案，将包含标识符加密集合的重命名子图像集合分配给分包商的数据录入人员，由数据录入人员对标识符加密集合进行解密处理后，完成数据录入任务。

所述的步骤2具体包括如下步骤：

步骤201，发包商根据原始图像集合中图像的文本页面分布特征确定原始图像集合的种类属性；种类属性包括基本类、表格类、竖版类和不规则类四种；

步骤202，对原始图像集合中的图像进行图像二值化处理和图像缩小处理；

步骤203，扫描原始图像集合中的图像，记录其像素分布，标记分割位置；

步骤204，根据分割位置进行图像分割处理，获取子图像集合。

所述的步骤3具体包括如下步骤：

步骤301，确定重命名字符串的取值范围是0-9、a-z或A-Z，共62种，且重命名字符串的长度为5位；

步骤302，为子图像集合中的每张图像随机生成重命名字符串，重命名字符串在所述的取值范围内且长度为5，获取重命名子图像集合。

所述的步骤5具体包括如下步骤：

步骤501，定义数组A＝[1,2,3,…,n]，表示n个数据录入人员，重命名子图像集合中有m张子图像，其中m、n均为正整数；

步骤502，初始循环次数为i，循环m/n+1次，每次循环需要调用matlab的内部函数randperm函数，生成一组取值范围为1～n的随机序列；

步骤503，根据随机序列计算每个数据录入人员应该分配得到的重命名子图像序号，获取重命名子图像随机分配方案。

所述的步骤6具体包括如下步骤：

步骤601，分包商对重命名子图像集合进行属性标记，获取隐私关联关系集合；每组隐私关联关系以子集的形式存放于隐私关联关系集合中；

步骤602，遍历隐私关联关系集合，判断子集中包含的属性元素个数是否为1，如果为1，则运行步骤603，如果不为1，则运行步骤604；

步骤603，隐私关联关系集合的子集中只包含1个属性元素，将该属性的重命名子图像标记为标识符属性，并将标识符属性放入隐私关联分离集合的一个新建子集中，同时移动到隐私关联关系集合的下一个子集，重复运行步骤602；

步骤604，隐私关联关系集合的子集中包含的属性元素个数不为1，则移动到隐私关联关系集合的下一个子集进行判断，重复运行步骤602；

步骤605，依次遍历未被标记为标识符的重命名子图像的属性，如果将当前属性放入当前的隐私关联分离集合的子集中，判断是否与隐私关联关系集合的子集重合，如果无重合，则运行步骤606，如果有重合，则运行步骤607；

步骤606，当重命名子图像属性放入当前的隐私关联分离集合的子集中，不与隐私关联关系集合的子集重合时，即成功将当前的重命名子图像属性放入隐私关联分离集合的当前子集中，移动到下一个属性，重复运行步骤605；

步骤607，当重命名子图像属性放入当前的隐私关联分离集合的子集中，与隐私关联关系集合的子集发生重合时，移动到下一个隐私关联分离集合的子集，重复运行步骤605；

步骤608，直到将所有的重命名子图像属性都放入隐私关联分离集合中，获取隐私关联分离集合。

所述的步骤7具体包括如下步骤：

步骤701，扫描被标记未标识符属性的重命名子图像，获取其垂直像素数为rows，水平像素数为cols；

步骤702，分别生成随机序列row_sequence和随机序列col_sequence；

步骤703，按照所述的随机序列col_sequence，对标识符属性进行行置换，获取中间变量temp；

步骤704，按照所述的随机序列row_sequence，对中间变量temp进行列置换，获得标识符加密集合。

所述的步骤8具体包括如下步骤：

步骤801，定义重命名子图像集合的属性数量为h，隐私关联分离集合的子集合数量为f，数据录入人员数量为n；其中h、f、n均为正整数；

步骤802，将标识符加密集合属以及对应的密钥，平均分配给数据录入人员；

步骤803，判断h、f、n三者之间的关系，如果n>h或n＝h，运行步骤804；如果f<n或f＝n且n<h，则运行步骤805；如果n<f，则运行步骤806；

步骤804，如果n>h或n＝h，则将属于相同的重命名子图像集合分配给n/h个数据录入人员；

步骤805，如果f<n或f＝n且n<h，则按照h/n的平均属性数量，将重命名子图像集合分配给数据录入人员；

步骤806，如果n<f，则运行步骤5中所述的子图像随机分配法；

步骤807，确定n个数据录入人员当前分配得到的重命名子图像数量，计算数据录入人员应该分配得到重命名子图像数量的平均值，并将剩余未被分配的重命名子图像集合按照重命名子图像数量的平均值分配给数据录入人员；最终将重命名子图像集合全部分配给去数据录入人员。

与现有技术相比，本发明的有益效果是：

(1)在外包数据录入过程中，分别针对待录入图像中用户隐私信息之间是否存在明确关联的情况选择相应的运行步骤，能够有效降低用户隐私信息泄露的概率。

(2)对待录入图像进行图像分割处理，既能够保证数据录入过程中数据的可用性，也能够有效降低同一个数据录入人员获取完整原始图像的概率。

(3)对子图像进行重命名处理之后，能够避免通过子图像的原始名称信息获取不同子图像之间的关联。

(4)待录入图像的用户隐私信息存在明确关联时，将其中包含的隐私关联关系进行分离处理，能够避免同一个数据录入人员推测出待录入数据中的用户隐私信息，同时有效降低用户隐私信息泄露的概率。

(5)采用隐私关联分离方法能够将对属于标识符的子图像进行加密处理后，将加密子图像和与其对应的密钥发送给数据录入人员，能够保证当前子图像的信息仅能够被指定的数据录入人员获取，保证了数据录入的安全性。

附图说明

图1是本发明提供的一种基于外包图像数据录入的隐私保护方法的流程图；

图2是本发明提供的步骤2图像分割的流程图；

图3是本发明提供的步骤5子图像随机分配的流程图；

图4是本发明提供的步骤6隐私关联关系分离的流程图；

图5是本发明提供的步骤7标识符子图像加密的流程图；

图6是本发明提供的步骤8子图像分离分配的流程图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

如图1所示，本发明一种基于外包图像数据录入的隐私保护方法的流程图，主要包括图像分割、子图像重命名、隐私信息关联明确、子图像随机分配、隐私关联关系分离、标识符子图像加密、子图像分离分配几个重要部分。

如图2所示，图像分割的具体步骤包括：

步骤2-1，发包商的工作人员根据待录入原始图像的页面文本分布特征，将其分为基本类、表格类、竖版类和不规则类；

步骤2-2，对原始图像进行二值化处理，以保证能够准确识别分割位置；

步骤2-3，对二值化处理之后的图像进行缩小处理，避免出现因图像过大导致处理速度过慢，或影响图像分割效果等情况；

步骤2-4，按照从上至下、从左至右的顺序，扫描缩小处理之后的图像，记录并统计其像素分布情况；

步骤2-5，遍历图像，根据图像分类并结合其像素分布情况，判断当前位置是否为分割位置，直到遍历完成，获取全部分割位置；

步骤2-6，根据分割位置进行图像分割，获取子图像集合。

如图3所示，子图像随机分配的具体步骤包括：

当待录入图像的用户隐私信息之间的关联不明确时，可以采用子图像随机分配方法将重命名子图像集合分配给数据录入人员。

通过子图像重命名过程，获取重命名子图像集合，定义重命名子图像集合中的子图像数量为m，分包商的数据录入人员总数量为n；

步骤5-1，定义数组A＝[1,2,3,…,n]，表示n个数据录入人员；

步骤5-2，计算循环次数为m/n+1次；

步骤5-3，初始循环次数为i＝1，循环m/n+1次，每次调用matlab的内部函数randperm函数，生成一组取值范围为1～n的随机序列；

步骤5-4，根据随机序列计算每个数据录入人员应该分配得到的重命名子图像序号，计算公式为(i-1)*n+第i次生成的随机序列，则获取重命名子图像随机分配方案，例如重命名子图像数量m＝14，数据录入人员数量n＝3，循环次数i＝3，第3次循环获得的随机序列为[2,3,1]，则计算得出3个数据录入人员分别分配得到的重命名子图像序号为8、9、7。

当待录入图像的用户隐私信息之间存在明确关联时，需要将子图像之间的隐私关联关系进行分离处理，识别出属于标识符的子图像并对其进行加密处理，之后采用子图像分离分配方法将处理之后的重命名子图像集合分配给数据录入人员。

如图4所示，隐私关联关系分离的具体步骤包括：

标识符：指的是在数据集中，能够用来唯一确定某一个体的属性。比如通过身份证号可以唯一确定相关信息属于某一个体，通过某公司的员工工号可以唯一确定指向该公司内部的具体一位员工。

隐私关联关系：在数据集合中，能够通过组合两个或者两个以上属性的值，推测出该数据集合中某一个体的用户信息。被组合的多个属性之间存在隐私关联关系，将数据集合中所有存在隐私关联关系的组合放在一起，能够组成隐私关联集合SC。原始待录入图像集合I中的元素i_j(其中j＝{1,2,…,k}，j表示I中的元素的个数)中存在的隐私关联关系，对应于集合SC中的元素SC_j(其中j＝{1,2,…,k})。需要满足对于1≤p≠q≤k满足i_p∩i_q＝φ；并且满足对于1≤p≠q≤k满足SC_p∩SC_q＝φ。

步骤6-1，为确定子图像所包含的用户信息之间存在的关联关系，需要对重命名子图像进行属性标记；

步骤6-2，明确子图像之间的隐私关联关系，创建隐私关联关系集合，将每组隐私关联关系以子集的形式存放于隐私关联关系集合中；

步骤6-3，判断当前子集中元素数量是否为1，如果为1，则执行步骤6-4，如果不为1，则执行步骤6-5；

步骤6-4，如果当前子集中元素数量为1，则将当前子集中包含属性的对应子图像标记为标识符属性，并将当前标识符子图像放入隐私关联分离集合的一个新建子集中，同时插入位置移动到下一个子集，重复步骤6-3；

步骤6-5，如果当前子集中元素数量不为1，则移动到隐私关联关系集合的下一个子集，重复步骤6-3；

步骤6-6，循环遍历重命名子图像属性(未被标记为标识符属性)，判断如果将当前属性放入隐私关联分离集合的当前子集中，是否会与隐私关联关系集合中的任意子集出现重合，如果不出现重合，则执行步骤6-7，如果出现重合，则执行步骤6-8；

步骤6-7，如果将当前属性放入当前隐私关联分离集合的子集时，没有出现重合，则将当前属性成功放入当前隐私关联分离集合的子集中，并移动到下一个属性，重复步骤6-6；

步骤6-8，如果将当前属性放入当前隐私关联分离集合的子集时，出现重合，则移动到下一个隐私关联分离集合的子集，重复步骤6-6；

步骤6-9，直到属性遍历完成后，获取隐私关联分离集合。

由于能够通过标识符属性识别出待录入图像中包含的用户身份信息，故需要对标识符子图像进行加密处理，降低外包数据录入过程中身份信息泄露的概率。对于标识符子图像，当数据录入人员需要进行数据录入操作时，将会被分配得到标识符子图像和与其对应的加密秘钥，标识符子图像的解密过程是其加密过程的逆过程。

如图5所示，标识符子图像加密的具体步骤包括：

步骤7-1，扫描被标记为标识符的子图像，能够获取垂直像素数为rows，水平像素数为cols；

步骤7-2，分别生成范围从1至rows之间的随机序列row_sequence，以及范围从1至cols之间的随机序列col_sequence；

步骤7-3，按照所述的随机序列col_sequence，对所述的标识符属性进行行置换，获取中间变量temp；

步骤7-4，按照所述的随机序列row_sequence，对所述的中间变量temp进行列置换，获得标识符加密集合。

如图6所示，重命名子图像分离分配的具体步骤包括：

隐私关联分离：将隐私关联集合SC中子集合SC_j(其中j＝{1,2,…,k})中的存在隐私关联关系的隐私关联属性分离开，得到隐私关联分离集合RE中对应的子集合RE_j(其中j＝{1,2,…,k})。即在隐私关联属性单独存在时，无法构成隐私关联关系，最大程度上保证了用户隐私信息的安全。需要满足对于1≤p≠q≤k满足RE_p∩RE_q＝φ。

由于待录入图像的用户隐私信息之间存在明确关联，故应该根据隐私关联关系的分离结果进行任务分配，即可以将隐私关联分离集合包含的每个子集合看成独立存在，不同子集合包含的属性不能同时被同一个数据录入人员获取，能够有效避免攻击者通过隐私关联关系获取用户的隐私信息。

步骤8-1，定义重命名子图像集合的属性数量为h，隐私关联分离集合的子集合数量为f，数据录入人员数量为n，其中h、f、n均为正整数且h和f的关系为h>＝f；

步骤8-2，将属于标识符属性的加密子图像集合以及与其相对应的密钥，平均分配给每个数据录入人员；

步骤8-3，判断所述h、f、n三者之间的关系，由于h>＝f，故n与h、f的关系能够分为三种情况，如果n>h或n＝h，运行步骤8-4，如果f<n或f＝n且n<h，则运行步骤8-5，如果n<f，则运行步骤8-6；

步骤8-4，如果n>h或n＝h，则将属于相同属性的重命名子图像集合分配给n/h个所述数据录入人员；

步骤8-5，如果f<＝n且n<h，则按照h/n的平均属性数量，将重命名子图像集合分配给数据录入人员；

步骤8-6，如果n<f，则运行子图像随机分配法(待录入图像中的用户隐私信息关联不明确时调用的分配方法)；

步骤8-7，确定n个数据录入人员当前分配得到的重命名子图像数量，计算数据录入人员应该分配得到所述子图像数量的平均值，将剩余未被分配的所述重命名子图像集合按照所述子图像数量的平均值分配给所述数据录入人员；

步骤8-8，根据子图像分离分配方法，将重命名子图像集合全部分配给去数据录入人员。

Claims

1.一种基于外包图像数据录入的隐私保护方法，其特征在于，包括待录入图像的预处理过程和重命名子图像处理及分配过程，具体步骤如下：

待录入图像的预处理过程：

步骤3，发包商对子图像集合进行文件重命名处理，获取重命名子图像集合；重命名子图像处理及分配过程：

2.根据权利要求1所述的一种基于外包图像数据录入的隐私保护方法，其特征在于，所述的步骤2具体包括如下步骤：

3.根据权利要求1或2所述的一种基于外包图像数据录入的隐私保护方法，其特征在于，所述的步骤3具体包括如下步骤：

4.根据权利要求1或2所述的一种基于外包图像数据录入的隐私保护方法，其特征在于，所述的步骤5具体包括如下步骤：

5.根据权利要求3所述的一种基于外包图像数据录入的隐私保护方法，其特征在于，所述的步骤5具体包括如下步骤：

6.根据权利要求1、2或5所述的一种基于外包图像数据录入的隐私保护方法，其特征在于，所述的步骤6具体包括如下步骤：

7.根据权利要求3所述的一种基于外包图像数据录入的隐私保护方法，其特征在于，所述的步骤6具体包括如下步骤：

8.根据权利要求4所述的一种基于外包图像数据录入的隐私保护方法，其特征在于，所述的步骤6具体包括如下步骤：

9.根据权利要求1、2、5、7或8所述的一种基于外包图像数据录入的隐私保护方法，其特征在于，所述的步骤7具体包括如下步骤：

步骤702，分别生成随机序列row_sequence和随机序列col_sequence；

10.根据权利要求9所述的一种基于外包图像数据录入的隐私保护方法，其特征在于，所述的步骤8具体包括如下步骤：

步骤806，如果n<f，则运行步骤5中所述的子图像随机分配法；