CN110222187A - 保护用户隐私的共同活动检测与数据共享方法 - Google Patents
保护用户隐私的共同活动检测与数据共享方法 Download PDFInfo
- Publication number
- CN110222187A CN110222187A CN201910521563.8A CN201910521563A CN110222187A CN 110222187 A CN110222187 A CN 110222187A CN 201910521563 A CN201910521563 A CN 201910521563A CN 110222187 A CN110222187 A CN 110222187A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- label
- activity
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000009916 joint effect Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000001514 detection method Methods 0.000 title claims abstract description 41
- 230000000694 effects Effects 0.000 claims abstract description 53
- 238000010276 construction Methods 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims description 24
- 230000002123 temporal effect Effects 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 9
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000006116 polymerization reaction Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 3
- 230000000717 retained effect Effects 0.000 claims description 2
- 238000012790 confirmation Methods 0.000 claims 1
- 238000005086 pumping Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000208340 Araliaceae Species 0.000 description 1
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 1
- 235000003140 Panax quinquefolius Nutrition 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 235000008434 ginseng Nutrition 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种保护用户隐私的共同活动检测与数据共享方法,包括:步骤1,分别构建各用户的活动‑语义图谱:对各用户拥有的多模态数据均按下述方式构建活动‑语义图谱,步骤2,保护隐私的共同活动检测及数据共享:对需要检测共同活动的两个用户,通过判断这两个用户的活动‑语义图谱的相似度,判定一个活动是否为共同活动,若是共同活动,则将各用户的共同活动的数据分别加密后传输给对方用户。该方法能在保护用户的数据隐私前提下检测共同活动并共享数据。
Description
技术领域
本发明涉及移动计算领域,尤其涉及一种保护用户隐私的共同活动检测与数据共享方法。
背景技术
随着智能设备和数据采集手段的增多,用户在日常生活中会产生大量的多模态数据,例如在会议,聚会中会产生图片、视频和音频数据;在体育运动时会产生传感器数据。而人们往往有需求通过共同活动建立社交关系,并且将活动中产生的数据彼此共享,例如人们倾向于在聚会后分享照片和视频,或者在进行体育运动之后分享传感器数据以进行数据分析提升自己的能力。
由于参与者的变化和社交活动的多模式多样化内容,管理不同活动的用户组并确定要为每个活动共享哪部分数据是相当麻烦的。现有的一些共同活动检测技术需要用户进行一定的操作,例如一起摇动移动设备或者一起输入特定内容的文字,但这些技术都需要用户参与且要进行一定的操作;也有一些技术利用传感器数据和地理位置信息进行共同活动检测,但这些技术通常难以保证精度,且难以确定应该共享的数据;结合社交网络软件进行共同活动检测的技术也有很多,但都需要用户进行一定操作或者上传数据到服务器,在此过程中存在暴露用户隐私的风险。
发明内容
基于现有技术所存在的问题,本发明的目的是提供一种保护用户隐私的共同活动检测与数据共享方法,能在保护用户隐私的前提下实现共同活动检测,并将共同活动相关的数据在用户之间自动共享。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种保护用户隐私的共同活动检测与数据共享方法,包括:
步骤1,分别构建各用户的活动-语义图谱:对各用户拥有的多模态数据均按下述方式构建活动-语义图谱,包括:
通过语义抽取从用户拥有的多模态数据中的每份数据抽取出至少一个语义标签,对抽取出的语义标签分别进行单模态划分检测及多模态聚合处理得出活动的划分以及每个活动的语义标签描述,根据所述活动的划分以及每个活动的语义标签描述对用户的每一个活动构建活动-语义图谱;
步骤2,保护隐私的共同活动检测及数据共享:对需要检测共同活动的两个用户,通过判断这两个用户的活动-语义图谱的相似度,判定一个活动是否为共同活动,若是共同活动,则将各用户的共同活动的数据分别加密后传输给对方用户。
由上述本发明提供的技术方案可以看出,本发明实施例提供的保护用户隐私的共同活动检测与数据共享方法,其有益效果为:
通过使用用户历史多模态数据的语义信息和时间信息,对用户的活动进行分析,将用户的多模态数据根据活动进行管理,用户间进行活动的相似度比较,从而自动检测用户间的共同活动,并在此之后建立安全信道自动共享相关数据。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的保护用户隐私的共同活动检测与数据共享方法的流程图;
图2为本发明实施例提供的方法的应用场景示意图;
图3为本发明实施例提供的方法的具体处理流程示意图;
图4为本发明实施例提供的方法中共享检测出的共同活动数据的流程示意图。
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
如图1所示,本发明实施例提供一种保护用户隐私的共同活动检测与数据共享方法,包括:
步骤1,分别构建各用户的活动-语义图谱:对各用户拥有的多模态数据均按下述方式构建活动-语义图谱,包括:
通过语义抽取从用户拥有的多模态数据中的每份数据抽取出至少一个语义标签,对抽取出的语义标签分别进行单模态划分检测及多模态聚合处理得出活动的划分以及每个活动的语义标签描述,根据所述活动的划分以及每个活动的语义标签描述构建用户的活动-语义图谱;
步骤2,保护隐私的共同活动检测及数据共享:对需要检测共同活动的两个用户,通过判断这两个用户的活动-语义图谱的相似度,判定一个活动是否为共同活动,若是共同活动,则将各用户的共同活动的数据分别加密后传输给对方用户。
上述方法的步骤1中,语义标签的聚类结果是分为两个层次:
(1)将聚在一类的语义标签对应的数据聚在一起,认为是同一活动中产生的数据;
(2)聚在一类的语义标签代表着这一个活动的描述信息,并用于下述的图谱构建。
上述方法的步骤1中,对抽取出的语义标签进行单模态划分处理包括:
步骤11,单模态数据划分检测:根据时间信息和语义信息对语义标签进行聚类划分,将同一模态数据的语义标签划分为单模态标签,并对划分出的单模态标签进行聚类操作,将同一活动中的标签聚在一起,并去除错误标签;
步骤12,多模态聚合处理:
在所述步骤11得到的单模态数据聚类之后,根据时间信息将不同模态的数据进一步聚合在一起,在不同模态数据聚合期间,构建冲突标签集合,冲突标签集合中的语义标签只允许出现一个。
如果多个冲突标签集合中的语义标签大于一个,则根据产生这个语义标签的数据量和语义抽取模型的置信度,来比较语义标签的置信度,最终只保留一个冲突集合中的语义标签。
上述方法的步骤11中,根据时间信息和语义信息对语义标签进行聚类划分包括:
将每一份数据的每一个语义标签设为一个单独的标签点,对这些标签点组成的点集上进行聚类处理,所述聚类处理中,标签点之间的距离按如下方式定义:
如果两个标签点代表的语义标签分别是v1,v2,对应的数据分别是d1,d2;当d1=d2,确认两个标签点来源于同一个数据时,标签点的分类Dis(v1,v2)=1;否则:
上式中,ts为数据的生成时间,Sim()函数为相似度衡量函数。
所述方法的步骤11中,对划分出的单模态标签进行检测去除无用数据的方式包括:
步骤111,如果标签点的分类是-1,则确认这个语义标签为可能错误标签;
步骤112,根据标签点类别得到数据类别:如果两个数据对应的标签点在同一标签点类别中,且这个类别不是-1,则将两个数据归于一个数据类别,并确认这些数据是同一个活动中产生的,这些数据记为好数据,并将这一类别的持续时间设置为类别中数据的时间区间;
步骤113,经过上述步骤2处理后,未归于任何一类的数据记为坏数据,并执行以下判断:
步骤1131,如果存在一个由所述步骤112得到的好数据组成的数据类别,且该数据类别的持续时间覆盖这个坏数据的生成时间,则将这个坏数据归到这个数据类别,并将这个坏数据记为第一类坏数据;
步骤1132,如果不存在上述的数据类别,则将相隔时间不超过一小时的数据归于一个数据类别,并将这些数据记为第二类坏数据;
步骤114,经过上述各步骤处理后,通过以下判断方式去除错误标签,当一个标签点的类别是-1的可能错误标签点时,进行以下判断及移除处理:
步骤1141,如果该可能错误标签点对应的数据属于第二类坏数据,则不作处理;
步骤1142,如果该可能错误标签点对应的数据属于好数据或第一类坏数据,则确认该标签为错误标签,将该错误标签移除。
上述方法的步骤1中,构建用户的活动-语义图谱包括:
活动-语义图谱定义为:
一个活动的活动-语义图谱用G={V,E,(ts,te)}表示,其中,V为节点集合,每个节点v∈V,每个节点v对应一个语义标签,每个节点v有一个表示这个标签的重要性的属性;E为语义标签之间表示从属关系的有向边的集合;(ts,te)为活动的起止时间;
构建用户活动-语义图谱的步骤包括:
步骤s1,初始化E为空集,V为一个类别中所有数据能抽取出的所有语义标签,然后向E中填充所有语义标签到根节点的路径,并将所有出现在路径中的标签填充进V;
步骤s2,对当前图谱中所有根节点赋权值:根据抽取出语义标签的数据量和数据类型进行加权求和,作为节点的权重;
步骤s3,对所有的不是图谱中根节点的节点,将它的权值赋为孩子节点中权值最大的节点权值的1/2;
步骤s4,将图谱的时间(ts,te)更新为这一类别的起止时间。
上述方法的步骤2中,判断这两个用户的活动-语义图谱的相似度的方式如下:
对于两个起止时间有重合的两个活动-语义图谱G1和G2,G1对于G2的相似度定义为:
上式中,G1为一个用户的活动-语义图谱,G2为另一个用户的活动-语义图谱,v是活动-语义图谱中的节点,weight为节点v的属性,Vc是两个活动-语义图谱中共有的节点。
上述方法的步骤2中,
步骤k1,用户生成语义-时间集合:初始化标签集合P为空集,将每个活动-语义图中的起止时间(ts,te)进行离散化,将离散化后的时间集合记为T,对每个图谱G,将集合{v-t|v∈G.V,t∈T}添加进标签集合P;
步骤k2,用户间运行PSI协议,得到两个用户的语义-时间集合的交集,在用户各自拥有一个集合时,PSI技术能够允许两个用户获得两个集合的交集,而不能得知对方集合更多的信息;
步骤k3,用户根据分别计算出语义图谱的相似性,根据双方图谱的相似度没有超过预定义的阈值判断一个活动是不是共同活动,如果是共同活动,则使用上述步骤k2得到的两个集合的交集的哈希值作为秘钥,将共同活动的数据进行加密后,传输给对方用户。
上述方法步骤2之后还包括:步骤3,特征层面的验证:利用用户的传感器数据的特征对共同活动检测的结果进行验证。
上述方法的步骤3中,在以下两种情况下,需要利用用户的传感器数据的特征对共同活动检测的结果进行验证,包括:
第一种需要验证的情况为:当一个活动被判别为共同活动,而用户为安全还需要进行验证;
第二种需要验证的情况为:当一个活动没有被一个用户判别为共同活动,另一个用户要说服这个用户,使其改变判断而进行验证。
上述第二种需要验证情况的验证步骤包括:
用户A要求用户B进行特征层面的验证:
步骤m1,用户A将某一活动中产生的某一段传感器数据的时间信息发送给用户B;
步骤m2,用户B选择出对应时间的传感器数据,并计算出这一段时间内的数据用时间窗口进行切分,对每个窗口内的数据提取波峰的时间戳作为这份数据的时间戳向量传送给用户A;
步骤m3,用户A同样计算出自身数据的时间戳向量,接收到用户B传送的时间戳向量后,对两个时间戳向量运行DTW算法,得到不同时间窗口的DTW计算结果,并将它们拼接起来作为特征向量;
步骤m4,将上述步骤m3得出的特征向量输入训练好的二分类网络模型进行判别,如果判别结果为真,则用户A接受用户B与他共同参加这一活动的判定,否则,用户A会否认这个活动是与用户B参加过的共同活动。
本发明的方法,通过使用用户历史多模态数据的语义信息和时间信息,对用户的活动进行分析,将用户的多模态数据根据活动进行管理,用户间进行活动的相似度比较,从而自动检测用户间的共同活动,并在此之后建立安全信道自动共享相关数据。该发明的使用将使得以下应用场景成为现实。用户可以在不进行额外操作的前提下,和一起参加过某些社交活动的朋友建立安全信道,并彼此分享活动中产生的数据。例如在参加会议之后,参会者可以彼此建立联系,并交换会议中拍摄的照片、视频;在参加体育活动之后,两个之前不相识的用户彼此间建立社交联系,并共享运动中产生的传感器数据、照片或者其他信息。该方法保证了社交关系管理,多模态数据管理和保护隐私的数据共享。
下面对本发明实施例具体作进一步地详细描述。
本发明实施例的保护用户隐私的共同活动检测与数据共享方法,适用于图2所示的场景,其中,用户在活动中会由多种设备产生多模态数据,在活动进行时或者结束后用户有需求共享数据。该方法首先对用户的数据进行语义抽取,再根据时间信息和语义信息将数据划分到不同的活动中,之后生成一个活动的描述的“活动-语义图谱”;用户间运行语义层次上的共同活动检测和特征层面的验证,进而挑选出应共享的数据,最后将共享的数据在用户间进行安全传输(参见图3,图3给出的是单个用户处理数据构建图谱的流程图,首先经过语义标签的抽取,从各种模态的数据中抽取语义标签,之后每种数据模态分别进行划分检测得到单模态数据的聚类,然后在进行多模态聚合处理,将多模态数据聚合在一起,并构建图谱,得到每个活动的“活动-语义图谱”)。该方法中的数据的采集可以由智能手表,智能手机等设备进行,在数据采集之后,用户可以选择上传数据到服务器或者在本地电脑进行语义标签抽取,数据划分;之后可以通过智能手机或者电脑进行保护隐私的共同活动检测,并进行数据共享。
本发明方法的具体处理流程如下:
(1)用户对自己拥有的多模态数据进行语义抽取,每份数据可能抽取出一个或者多个语义标签,对抽取出的语义标签进行下述处理:
(11)单模态数据划分和异常标签检测:对同一模态的数据根据时间信息和语义信息进行划分。
(111)将每一份数据的每一个语义标签定义为一个单独的点,记为标签点,并在这些标签点组成的点集上运行DBSCAN聚类处理,其中,标签点之间的距离定义如下:
定义1(标签点之间的距离):如果两个标签点代表的标签分别是v1,v2,对应的数据分别是d1,d2;当d1=d2,即两个标签点来源于同一个数据时,标签点的分类Dis(v1,v2)=1;否则:
△t=d2.ts-d1.ts
其中ts代表数据的生成时间,Sim()函数为相似度衡量函数;上述中的该Sim()函数是WordNet中定义的路径相似度衡量函数的引用,这个Sim()函数可以采用其他的相似度衡量函数。
(112)运行DBSCAN处理后,进行下述判断处理:
(1121)如果标签点的分类是-1,则这个标签可能是噪音标签;
(1122)根据标签点类别得到数据类别:如果两个数据有标签点在同一标签点类别中,且这个类别不是-1,则将两个数据归于一个数据类别,并认为这些数据是同一个活动中产生。我们将这些数据记为“好数据”,并将这一类别的持续时间设置为类别中数据的时间区间;
(1123)经过上述1122)步骤后,还没有归于任何一类的数据记为“坏数据,并执行以下判断:
a.如果存在一个数据类别,它的持续时间覆盖了这个数据的生成时间,那么将这个数据归到这个数据类别,并将这个数据记为“第一类坏数据”;
b.如果不存在上述的数据类别,则将相隔时间不超过一小时的数据归于一个数据类别,并将这些数据记为“第二类坏数据”。
(1124)在以上步骤之后,我们滤除掉噪音标签。当一个标签点的类别是-1时,我们进行如下判断:
a1.如果它对应的数据属于“第二类坏数据”,则不作处理;
a2.如果它对应的数据属于“好数据”或“第一类坏数据”,则将这个标签点移除,表示这个数据没有这一标签。
(12)多模态数据聚合和冲突解决:不同模态的数据抽出的标签可能因为模型的理解能力有限或者数据噪音的问题而产生冲突,具体处理方式如下:
(121)首先构建冲突集合:因为一个用户不可能同时进行两种活动,所以将与活动相关的标签进行筛选,构建“冲突集合”,冲突集合中的标签只允许出现一个。
(122)当多模态数据融合时,如果冲突集合中的标签大于一个,则根据产生这个标签的数据量和语义抽取模型的置信度,来比较标签的置信度,最终只保留一个冲突集合中的标签。
上述数据划分和噪音标签滤除的示例可参见图4,其中,左侧的两个图像显示了标签聚类的结果。在x轴上数据按生成时间顺序排列,在y轴标出每个数据拥有的标签类别。中间的两个图像显示了数据聚类的结果。图中标记了两种类型的错误数据。合并多模态数据时,不同模态数据拥有的标签可能发生冲突。在经过计算和比较之后移除一些标签。
(2)根据数据划分的结果构建“活动-语义图谱”:已有一些语义网络(例如WordNet)定义了单词间的各种语义关系,例如从属关系(含义较抽象的词和含义较具体的词之间的关系)和兄弟关系(代表某个含义较抽象词汇的不同具体含义的词之间的关系)。在本发明中采用从属关系来构建“活动-语义图谱”。
上述(2)中,活动-语义图谱的定义如下:一个活动的“活动-语义图谱”是G={V,E,(ts,te)},其中V是节点集合,每个节点对应一个语义标签;E是语义标签间代表从属关系的有向边(下位词->上位词)的集合;(ts,te)代表着活动的起止时间;每个节点v∈V有一个属性weight代表着这个标签的重要性。
构建活动-语义图谱的流程如下:
(21)初始化E为空集,V为一个类别中所有数据能抽取出的所有标签(没有被滤除的),然后向E中填充所有标签到根节点的路径,并将所有出现在路径中的标签填充进V。
(22)对当前图谱中所有根节点赋权值:根据抽取出标签的数据量和数据类型进行加权求和,作为节点的权重。
(23)对所有的不是图谱中根节点的节点,将它的权值赋为孩子节点中权值最大的节点权值的1/2.
(24)将图谱的时间(ts,te)更新为这一类别的起止时间。
上述生成的活动-语义图谱的示例如图4所示。
(3)保护隐私的共同活动检测及数据共享:将活动-语义图谱中的时间离散化,近似的计算出两个活动-语义图谱的相似性,据此来判断两个用户的活动是否同一活动。
(31)用户生成语义-时间集合:初始化标签集合P为空集,将每个活动-语义图中的起止时间(ts,te)进行离散化,将离散化后的时间集合记为T,对每个图谱G,将集合{v-t|v∈G.V,t∈T}添加进集合P。
(32)用户间运行PSI协议,得到两个用户的语义-时间集合的交集。在用户各自拥有一个集合时,PSI技术能够允许两个用户获得两个集合的交,而不能得知对方集合更多的信息。PSI协议为:在两个用户分别拥有一份数据,并想获知两份数据的交集时,两个用户可以运行PSI协议,从而获得两份数据的交集,而不会泄露自己数据的其他信息。
(33)用户根据分别计算出语义图谱的相似性,根据预定义的阈值判断一个活动是不是共同活动(双方图谱的相似度有没有超过阈值)。如果是共同活动,则使用上一步得到的集合交的哈希值(hash值)作为秘钥,将共同活动的数据进行加密,传输给对方(参见图4,图4为用户间检测共同活动和数据共享的流程图。首先用户间运行PSI协议以进行语义层面的检测,之后进行特征层面的验证,最后执行数据传输操作)。
上述(3)的保护隐私的共同活动检测及数据共享中,活动-语义图谱语义图谱的相似性的定义为:
对于两个起止时间有重合的活动-语义图谱,G1和G2,G1对于G2的相似度定义为:
其中Vc是两个图中共有的节点。
(4)特征层面的验证:使用传感器数据的特征进行共同活动检测的结果验证。用于以下两种应用情形:第一种是当一个活动被判别为共同活动,而用户为了安全还想要进行验证;第二种情况是一个活动没有被用户判别为共同活动,另一个用户想要说服这个用户,使其改变判断。
假设用户A要求用户B进行特征层面的验证,具体处理方式如下:
(41)A将某一活动中产生的某一段传感器数据的时间信息发送给B;
(42)B选择出对应时间的传感器数据,并计算出这一段时间内的数据用时间窗口进行切分,对每个窗口内的数据提取波峰的时间戳作为这份数据的时间戳向量传送给A。
(43)A同样计算出自身数据的时间戳向量,接收到B传送的时间戳向量后,对两个时间戳向量运行DTW算法,得到不同时间窗口的DTW计算结果,并将它们拼接起来作为特征向量。
(44)将特征向量输入进训练好的二分类网络模型进行判别,如果判别结果为真则A接受B与他参加了这一活动的判定,否则,A会否认这个活动是与B参加过的共同活动。
上述提到的二分类网络模型采用梯度提升(gradient boosting),具有50个提升分步,使用十折交叉验证。如果这些数据显示用户间有交互行为,则输出为True,否则输出False。
本发明的方法对同一活动中产生的数据,通过活动-语义图谱的方式,能根据历史多模态数据对用户的活动生成统一表示,并能够保证不同活动间的相似度度量,从而支持跨模态数据的管理和比较,能够判别用户间存在哪些共同活动并定位出这些活动的相关数据,通过建立的安全通道实现秘密的数据共享。可以在保护隐私前提下进行共同活动检测,实现了高效、准确、保护用户隐私的检测共同活动,根据时间和语义信息的活动划分用户的多模态数据,能够决定出哪些数据是在同一个活动中产生的,在此过程中,还能够自动挑选出可能的错误标签,并滤除它们,从而使得对数据的描述更加准确。该方法可用于社交关系挖掘,社交关系管理和秘密数据共享等各类移动应用。
本发明的方法,能将检测出的共同活动相关的数据在用户间自动共享。在此过程中保证共同活动检测与数据共享的准确性、用户间交互的安全,同时保护用户的数据隐私。
(1)准确性:保证根据用户的多模态数据进行共同活动检测的结果,保证用户体验。
(2)隐私:在检测共同活动与数据共享过程中,能保护三种类型的信息:用户的原始数据、数据的语义信息和特征信息、用户间共同活动检测的结果。
(3)高效:在共同活动检测与数据共享时,通信开销和计算开销应很小。
本领域普通技术人员可以理解:实现上述实施例方法中的全部或部分流程是可以通过程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (9)
1.一种保护用户隐私的共同活动检测与数据共享方法,其特征在于,包括:
步骤1,分别构建各用户的活动-语义图谱:对各用户拥有的多模态数据均按下述方式构建活动-语义图谱,包括:
通过语义抽取从用户拥有的多模态数据中的每份数据抽取出至少一个语义标签,对抽取出的语义标签分别进行单模态划分检测及多模态聚合处理得出活动的划分以及每个活动的语义标签描述,根据所述活动的划分以及每个活动的语义标签描述对用户的每一个活动构建活动-语义图谱;
步骤2,保护隐私的共同活动检测及数据共享:对需要检测共同活动的两个用户,通过判断这两个用户的活动-语义图谱的相似度,判定一个活动是否为共同活动,若是共同活动,则将各用户的共同活动的数据分别加密后传输给对方用户。
2.根据权利要求1所述的保护用户隐私的共同活动检测与数据共享方法,其特征在于,所述方法的步骤1中,对抽取出的语义标签进行单模态划分处理包括:
步骤11,单模态数据划分检测:根据时间信息和语义信息对语义标签进行聚类划分,将同一模态数据的语义标签划分为单模态标签,并对划分出的单模态标签进行聚类操作,将同一活动中的标签聚在一起,并去除错误标签;
步骤12,多模态聚合处理:在所述步骤11得到的单模态数据聚类之后,根据时间信息将不同模态的数据进一步聚合在一起,在不同模态数据聚合期间,构建冲突标签集合,冲突标签集合中的语义标签只允许出现一个;
如果多个冲突标签集合中的语义标签大于一个,则根据产生这个语义标签的数据量和语义抽取模型的置信度,来比较语义标签的置信度,最终只保留一个冲突集合中的语义标签。
3.根据权利要求2所述的保护用户隐私的共同活动检测与数据共享方法,其特征在于,所述方法的步骤11中,根据时间信息和语义信息对语义标签进行聚类划分包括:
先为聚类处理定义标签点之间的距离:将每一份数据的每一个语义标签设为一个单独的标签点,对这些标签点组成的点集上进行聚类处理,所述聚类处理中,标签点之间的距离按如下方式定义:
如果两个标签点代表的语义标签分别是v1,v2,对应的数据分别是d1,d2;当d1=d2,确认两个标签点来源于同一个数据时,标签点的分类Dis(v1,v2)=1;否则:
上式中,ts为数据的生成时间,Sim()函数为相似度衡量函数。
所述方法的步骤11中,对划分出的单模态标签进行检测去除无用数据的方式包括:
步骤111,如果标签点的分类是-1,则确认这个语义标签为可能错误标签;
步骤112,根据标签点类别得到数据类别:如果两个数据对应的标签点在同一标签点类别中,且这个类别不是-1,则将两个数据归于一个数据类别,并确认这些数据是同一个活动中产生的,这些数据记为好数据,并将这一类别的持续时间设置为类别中数据的时间区间;
步骤113,经过上述步骤2处理后,未归于任何一类的数据记为坏数据,并执行以下判断:
步骤1131,如果存在一个由所述步骤112得到的好数据组成的数据类别,且该数据类别的持续时间覆盖这个坏数据的生成时间,则将这个坏数据归到这个数据类别,并将这个坏数据记为第一类坏数据;
步骤1132,如果不存在上述的数据类别,则将相隔时间不超过一小时的数据归于一个数据类别,并将这些数据记为第二类坏数据;
步骤114,经过上述各步骤处理后,通过以下判断方式去除错误标签,当一个标签点的类别是-1的可能错误标签点时,进行以下判断及移除处理:
步骤1141,如果该可能错误标签点对应的数据属于第二类坏数据,则不作处理;
步骤1142,如果该可能错误标签点对应的数据属于好数据或第一类坏数据,则确认该标签为错误标签,将该错误标签移除。
4.根据权利要求1所述的保护用户隐私的共同活动检测与数据共享方法,其特征在于,所述方法的步骤1中,构建用户的活动-语义图谱包括:
所构建的活动-语义图谱定义为:
一个活动的活动-语义图谱用G={V,E,(ts,te)}表示,其中,V为节点集合,每个节点v∈V,每个节点v对应一个语义标签,每个节点v有一个表示这个标签的重要性的属性weight;E为语义标签之间表示从属关系的有向边的集合;(ts,te)为活动的起止时间;
构建用户活动-语义图谱的步骤包括:
步骤s1,初始化E为空集,V为一个类别中所有数据能抽取出的所有语义标签,然后向E中填充所有语义标签到根节点的路径,并将所有出现在路径中的标签填充进V;
步骤s2,对当前图谱中所有根节点赋权值:根据抽取出语义标签的数据量和数据类型进行加权求和,作为节点的权重;
步骤s3,对所有的不是图谱中根节点的节点,将它的权值赋为孩子节点中权值最大的节点权值的1/2;
步骤s4,将图谱的时间(ts,te)更新为这一类别的起止时间。
5.根据权利要求1或4所述的保护用户隐私的共同活动检测与数据共享方法,其特征在于,所述方法的步骤2中,判断这两个用户的活动-语义图谱的相似度的方式如下:
对于两个起止时间有重合的两个活动-语义图谱G1和G2,G1对于G2的相似度定义为:
上式中,G1为一个用户的活动-语义图谱,G2为另一个用户的活动-语义图谱,v为活动-语义图谱中的节点,weight为节点v的属性,Vc是两个活动-语义图谱中共有的节点。
6.根据权利要求1或4所述的保护用户隐私的共同活动检测与数据共享方法,其特征在于,所述方法的步骤2中,
步骤k1,用户生成语义-时间集合:初始化标签集合P为空集,将每个活动-语义图中的起止时间(ts,te)进行离散化,将离散化后的时间集合记为T,对每个图谱G,将集合{v-t|v∈G.V,t∈T}添加进标签集合P;
步骤k2,用户间运行PSI协议,得到两个用户的语义-时间集合的交集,在用户各自拥有一个集合时,PSI技术能够允许两个用户获得两个集合的交集,而不能得知对方集合更多的信息;
步骤k3,用户根据分别计算出语义图谱的相似性,根据双方图谱的相似度没有超过预定义的阈值判断一个活动是不是共同活动,如果是共同活动,则使用上述步骤k2得到的两个集合的交集的哈希值作为秘钥,将共同活动的数据进行加密后,传输给对方用户。
7.根据权利要求1至4任一项所述的保护用户隐私的共同活动检测与数据共享方法,其特征在于,所述方法步骤2之后还包括:步骤3,特征层面的验证:利用用户的传感器数据的特征对共同活动检测的结果进行验证。
8.根据权利要求7所述的保护用户隐私的共同活动检测与数据共享方法,其特征在于,所述方法的步骤3中,在以下两种情况下,需要利用用户的传感器数据的特征对共同活动检测的结果进行验证,包括:
第一种需要验证的情况为:当一个活动被判别为共同活动,而用户为安全还需要进行验证;
第二种需要验证的情况为:当一个活动没有被一个用户判别为共同活动,另一个用户要说服这个用户,使其改变判断而进行验证。
9.根据权利要求8所述的保护用户隐私的共同活动检测与数据共享方法,其特征在于,所述第二种需要验证情况中,用户A要求用户B进行特征层面验证的步骤包括:
步骤m1,用户A将某一活动中产生的某一段传感器数据的时间信息发送给用户B;
步骤m2,用户B选择出对应时间的传感器数据,并计算出这一段时间内的数据用时间窗口进行切分,对每个窗口内的数据提取波峰的时间戳作为这份数据的时间戳向量传送给用户A;
步骤m3,用户A同样计算出自身数据的时间戳向量,接收到用户B传送的时间戳向量后,对两个时间戳向量运行DTW算法,得到不同时间窗口的DTW计算结果,并将它们拼接起来作为特征向量;
步骤m4,将上述步骤m3得出的特征向量输入训练好的二分类网络模型进行判别,如果判别结果为真,则用户A接受用户B与他共同参加这一活动的判定,否则,用户A会否认这个活动是与用户B参加过的共同活动。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521563.8A CN110222187B (zh) | 2019-06-17 | 2019-06-17 | 保护用户隐私的共同活动检测与数据共享方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910521563.8A CN110222187B (zh) | 2019-06-17 | 2019-06-17 | 保护用户隐私的共同活动检测与数据共享方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110222187A true CN110222187A (zh) | 2019-09-10 |
CN110222187B CN110222187B (zh) | 2022-10-28 |
Family
ID=67817355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910521563.8A Active CN110222187B (zh) | 2019-06-17 | 2019-06-17 | 保护用户隐私的共同活动检测与数据共享方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222187B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111645073A (zh) * | 2020-05-29 | 2020-09-11 | 武汉理工大学 | 一种机器人视觉语义导航方法、装置及系统 |
CN114710321A (zh) * | 2022-03-14 | 2022-07-05 | 西安电子科技大学 | 一种提高低时延匿名通信系统匿名性的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160379666A1 (en) * | 2014-02-06 | 2016-12-29 | Otosense Inc. | Employing user input to facilitate inferential sound recognition based on patterns of sound primitives |
CN109195098A (zh) * | 2018-06-20 | 2019-01-11 | 苏州大学 | 一种基于差分隐私的共享协同过滤方法 |
-
2019
- 2019-06-17 CN CN201910521563.8A patent/CN110222187B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160379666A1 (en) * | 2014-02-06 | 2016-12-29 | Otosense Inc. | Employing user input to facilitate inferential sound recognition based on patterns of sound primitives |
CN109195098A (zh) * | 2018-06-20 | 2019-01-11 | 苏州大学 | 一种基于差分隐私的共享协同过滤方法 |
Non-Patent Citations (1)
Title |
---|
崔炜荣等: "移动社交网络中可保护隐私的可信社交关系相似度检测协议", 《西北工业大学学报》 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111645073A (zh) * | 2020-05-29 | 2020-09-11 | 武汉理工大学 | 一种机器人视觉语义导航方法、装置及系统 |
CN114710321A (zh) * | 2022-03-14 | 2022-07-05 | 西安电子科技大学 | 一种提高低时延匿名通信系统匿名性的方法 |
CN114710321B (zh) * | 2022-03-14 | 2023-01-06 | 西安电子科技大学 | 一种提高低时延匿名通信系统匿名性的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110222187B (zh) | 2022-10-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Unobservable re-authentication for smartphones. | |
Ghazal et al. | DDoS Intrusion Detection with Ensemble Stream Mining for IoT Smart Sensing Devices | |
CN110119446A (zh) | 可解释人工智能 | |
Serrano et al. | A survey of twitter rumor spreading simulations | |
CN107015895A (zh) | 对分布式应用的合规的以数据为中心的监测 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
Karmakar et al. | IoT sensor numerical data trust model using temporal correlation | |
CN112231570B (zh) | 推荐系统托攻击检测方法、装置、设备及存储介质 | |
CN105446741B (zh) | 一种基于api比对的移动应用程序辨识方法 | |
CN103258027A (zh) | 基于智能终端的情境感知服务平台 | |
CN105814582A (zh) | 用于识别人脸的方法和系统 | |
CN106778851A (zh) | 基于手机取证数据的社交关系预测系统及其方法 | |
CN110222187A (zh) | 保护用户隐私的共同活动检测与数据共享方法 | |
CN111986794A (zh) | 基于人脸识别的防冒挂号方法、装置、计算机设备及介质 | |
WO2021118413A2 (en) | Data processing method, comprising secure multilateral computing and data analysis methods | |
Deeb-Swihart et al. | Ethical tensions in applications of ai for addressing human trafficking: A human rights perspective | |
CN110008980A (zh) | 识别模型生成方法、识别方法、装置、设备及存储介质 | |
CN108268762A (zh) | 基于行为建模的移动社交网络用户身份识伪方法 | |
CN113221721A (zh) | 图像识别方法、装置、设备及介质 | |
Yang et al. | TAPESTRY: a de-centralized service for trusted interaction online | |
CN115705678A (zh) | 一种图像数据处理方法、计算机设备以及介质 | |
Sharma et al. | Machine learning and security in cyber physical systems | |
CN111696637A (zh) | 一种病历数据的质量检测方法和相关装置 | |
CN113723524B (zh) | 基于预测模型的数据处理方法、相关设备及介质 | |
Lee et al. | Repurpose image identification for fake news detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Li Xiangyang Inventor after: Zhang Lan Inventor after: Han Feng Inventor before: Zhang Lan Inventor before: Han Feng Inventor before: Li Xiangyang |