CN110046657B - 一种基于多视图学习的社会安全人物画像方法 - Google Patents

一种基于多视图学习的社会安全人物画像方法 Download PDF

Info

Publication number
CN110046657B
CN110046657B CN201910247073.3A CN201910247073A CN110046657B CN 110046657 B CN110046657 B CN 110046657B CN 201910247073 A CN201910247073 A CN 201910247073A CN 110046657 B CN110046657 B CN 110046657B
Authority
CN
China
Prior art keywords
view
learning
space
portrait label
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910247073.3A
Other languages
English (en)
Other versions
CN110046657A (zh
Inventor
王中元
韩镇
唐雪华
何政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Shenzhen Research Institute of Wuhan University
Original Assignee
Wuhan University WHU
Shenzhen Research Institute of Wuhan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU, Shenzhen Research Institute of Wuhan University filed Critical Wuhan University WHU
Priority to CN201910247073.3A priority Critical patent/CN110046657B/zh
Publication of CN110046657A publication Critical patent/CN110046657A/zh
Application granted granted Critical
Publication of CN110046657B publication Critical patent/CN110046657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多视图学习的社会安全人物画像方法,在多源身份大数据的社会安全应用中,完备的先验知识和标注样本均难以获得,本发明构建了基于部分领域知识、少量标注样本和大量未标注样本的多视图协同训练模型,实现身份属性到画像标签的准确映射。首先,通过标注样本数据集的三元空间视图分解,从三元空间身份属性中学习物理空间、社会空间、网络空间三个属性子视图及对应的权重;其次,通过三元空间多视图分类器对未标注样本进行画像标签分类,结合领域知识投票,产生可信的分类样本,添加到标注样本数据集,丰富标注样本。本发明在社会安全领域具有重要应用价值。

Description

一种基于多视图学习的社会安全人物画像方法
技术领域
本发明属于数据分析技术领域,涉及一种人物画像方法,具体涉及一种基于多视图学习的社会安全人物画像方法。
技术背景
人的一举一动,都会在物理、社会和网络空间留下数字痕迹;物理空间包含了城市安装的大量摄像头所采集的监控视频片段、定位和导航设备记录的空间位置以及人机交互行为数据;网络空间包含了电话、微信、短信、社交平台交友、聊天、电子商务平台的购物记录、微博等产生各种各样的行为数据;社会空间包含了公安、安全、信访等部门在人口管理、社会治安、社情民意调查等方面掌握的大量基础数据。
无论是一般的网络谣言、诈骗之类的网络犯罪还是有重大危害的暴力恐怖犯罪,人物画像及定位对于事前预警和案件的事后侦破均起到至关重要作用。人物画像是根据对象生理属性、社会属性、社交习惯和经济行为等信息而抽象出的一个标签化的对象模型。物的全方位刻画包含客观和主观两个层面,身份属性描述了人物的客观特征,画像标签则描述了人物相关的各种偏好、倾向、评价等主观特征。实现从客观身份属性数据到主观人物画像标签的映射,目前主要采用基于规则和基于学习两类方法。基于规则的方法需要完备的领域先验知识构建客观属性映射到主观标签的显式规则,基于学习的方法需要完备的主观特征标注样本获得客观属性映射到主观标签的隐式规则。但是社会安全应用场景下,完备的先验知识和标注样本均难以获得,仅能获得部分领域知识、少量标注样本,这给安全嫌疑目标的画像标签学习带来极大挑战。
发明内容
为了解决上述技术问题,本发明提供了一种基于多视图学习的社会安全人物画像方法。
本发明所采用的技术方案是:一种基于多视图学习的社会安全人物画像方法,其特征在于,包括以下步骤:
步骤1:对标注样本数据集L进行三元空间视图分解;
从三元空间身份属性中学习得到物理空间、社会空间、网络空间三个属性子视图V1、V2、V3,以及对应的权重ω1、ω2、ω3
步骤2:对未标注样本数据集U进行画像标签分类学习;
通过三元空间多视图分类器对未标注样本进行画像标签分类,结合领域知识投票,产生可信的分类样本。
与现有的用户画像方法相比,本发明提出了面向社会安全人物的画像方法。在多源身份大数据的社会安全应用中,完备的先验知识和标注样本均难以获得,传统的基于规则和基于学习方法均难以从身份属性数据中获得准确的人物画像标签。本发明构建了基于部分领域知识、少量标注样本和大量未标注样本的多视图协同训练模型,实现身份属性到画像标签的准确映射。
附图说明
图1:本发明实施例的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施案例对本发明做进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
半监督学习算法可以让学习器自动地对大量未标记数据进行利用以辅助少量有标记数据进行学习,适合在完备标注样本难以获得的条件下学习三元空间身份属性到画像标签的映射规则。三元空间中不同身份属性可以形成对同一个画像标签的多个视图。例如某对象在网络空间中浏览网页的政治话题主题词、在社会空间中参与社团的政治属性,可以分别形成该对象政治倾向的两个视图。因此本发明采用半监督学习中的多视图学习算法来学习身份属性到画像标签的映射规则。协同训练算法是一种典型的针对多视图数据的半监督学习算法,在理论上得到证明:当两个充分冗余视图确实满足条件独立性时,通过协同训练可以利用未标记样本把弱分类器的精度提升到任意高。本技术方案拟将部分领域知识、少量标注样本和大量未标注样本三者结合起来学习获得属性到标签的映射规则,实现基于三元空间身份属性大数据的人物画像。
基于上述思路,请见图1,本发明提供了一种基于多视图学习的社会安全人物画像方法,包括以下步骤:
步骤1:对标注样本数据集L进行三元空间视图分解;
从三元空间身份属性中学习得到物理空间、社会空间、网络空间三个属性子视图V1、V2、V3,以及对应的权重ω1、ω2、ω3
为了进行权重学习,首先定义三元空间多视图学习的损失函数:
Figure RE-GDA0002050827390000031
l(ωi,L)表示采用Vi视图对标注数据集L进行样本学习时的损失函数,损失越小说明Vi视图越有效;x是L上的某对象身份属性,y是x所对应对象的画像标签标注信息;如果x所对应对象具有某画像标签则y=1;反之,y=-1;
通过以下优化过程,学习权重ω1、ω2、ω3
Figure RE-GDA0002050827390000032
为了简化上述优化过程,进行分步优化;首先把ω2、ω3看做一个整体,表示成ω2,3
Figure RE-GDA0002050827390000033
然后在ω2,3中,进行以下优化过程:
Figure RE-GDA0002050827390000034
为了保证协同训练的性能,视图之间应该尽量保证独立性,且满足扩展性要求。这里加入两个约束:第一,0/1独立性约束;第二,扩展性约束。
独立性约束,对于第i维特征定义一个0/1权重;在第i维上,权重ω1、ω2、ω3应满足:
Figure RE-GDA0002050827390000035
Figure RE-GDA0002050827390000036
Figure RE-GDA0002050827390000037
指ω1在第i维上的权重,
Figure RE-GDA0002050827390000038
Figure RE-GDA0002050827390000039
同理;为了分步优化的需求,将
Figure RE-GDA00020508273900000310
Figure RE-GDA00020508273900000311
合并为
Figure RE-GDA00020508273900000312
为便于求解,将上式转换为以下形式:
Figure RE-GDA00020508273900000313
扩展性约束,设I(ω1(x))是一个0/1二值函数,对x在以ω1为权重的子视图 V1上进行距离度量时,计算x所对应对象具有某画像标签的概率;概率大于预设门限τ时值为1,否则为0:
Figure RE-GDA0002050827390000041
I(ω2(x))和I(ω3(x))同理;事件
Figure RE-GDA0002050827390000042
表示有一个或两个视图是分类器认为x所对应对象具有某画像标签的概率, P(I(ω1(x))∧I(ω2(x))∧I(ω3(x)))表示有三个视图分类器同时认为x所对应对象具有某画像标签的概率,
Figure RE-GDA0002050827390000043
表示有三个视图分类器同时不认为x所对应对象具有某画像标签的概率;
则扩张性约束表示成:
Figure RE-GDA0002050827390000044
ε是误差系数。
步骤2:对未标注样本数据集U进行画像标签分类学习;
通过三元空间多视图分类器对未标注样本进行画像标签分类,结合领域知识投票,产生可信的分类样本;
步骤2的具体实现包括以下子步骤:
步骤2.1:未标注样本的画像标签分类;
从未标注样本集U中随机选择若干个样本,分别使用对应物理、社会、网络三个视图的三个分类器M1、M2、M3计算某个查询x所对应对象具有某画像标签y的置信度;对于上述三个结果,分别返回置信度大于阈值τ的结果:
p(y|x,M1)>τ
p(y|x,M2)>τ
p(y|x,M3)>τ
用于生成一个分类样本池U’;
步骤2.2:基于领域知识的投票;
如果采用两个及以上的分类器进行画像标签判定时,若给定待测对象的置信度大于阈值τ,则判定它为正样本,即具有某画像标签y,并赋予该待测对象相应标签的标注;把投票产生的查询对象与其正样本加入可信分类样本池P,进而添加到标注样本集L;
步骤2.3:迭代上述过程直至设定的迭代次数或没有出现满足条件的未标注样本;
步骤2.4:使用最终的标注样本集L在总体特征视图V上学习最终的分类器 M;最后,使用该分类器进行画像标签判定;其中,V1、V2、V3是总体视图V 的分解结果,M由M1、M2、M3这三个分类器组成。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (2)

1.一种基于多视图学习的社会安全人物画像方法,其特征在于,包括以下步骤:
步骤1:对标注样本数据集L进行三元空间视图分解;
从三元空间身份属性中学习得到物理空间、社会空间、网络空间三个属性子视图V1、V2、V3,以及对应的权重ω1、ω2、ω3
其中,为了进行权重学习,首先定义三元空间多视图学习的损失函数:
Figure FDA0003607983700000011
l(ωi,L)表示采用Vi视图对标注数据集L进行样本学习时的损失函数,损失越小说明Vi视图越有效;x是L上的某对象身份属性,y是x所对应对象的画像标签标注信息;如果x所对应对象具有某画像标签则y=1;反之,y=-1;
通过以下优化目标函数,学习权重ω1、ω2、ω3
Figure FDA0003607983700000012
为了简化上述优化过程,进行分步优化;首先把ω2、ω3看做一个整体,表示成ω2,3
Figure FDA0003607983700000013
然后在ω2,3中,进行以下优化过程:
Figure FDA0003607983700000014
为了保证协同训练的性能,在权重学习中加入两个约束:第一,独立性约束;第二,扩展性约束;
所述独立性约束,对于第i维特征定义一个0/1权重;在第i维上,权重ω1、ω2、ω3应满足:
Figure FDA0003607983700000015
Figure FDA0003607983700000016
Figure FDA0003607983700000017
指ω1在第i维上的权重,
Figure FDA0003607983700000018
Figure FDA0003607983700000019
同理;为了分步优化的需求,将
Figure FDA00036079837000000110
Figure FDA00036079837000000111
合并为
Figure FDA0003607983700000021
为便于求解,将上式转换为以下形式:
Figure FDA0003607983700000022
所述扩展性约束,设I(ω1(x))是一个0/1二值函数,对x在以ω1为权重的子视图V1上进行距离度量时,计算x所对应对象具有某画像标签的概率;概率大于预设门限τ时值为1,否则为0:
Figure FDA0003607983700000023
I(ω2(x))和I(ω3(x))同理;事件
Figure FDA0003607983700000024
表示有一个或两个视图是分类器认为x所对应对象具有某画像标签的概率,P(I(ω1(x))∧I(ω2(x))∧I(ω3(x)))表示有三个视图分类器同时认为x所对应对象具有某画像标签的概率,
Figure FDA0003607983700000025
表示有三个视图分类器同时不认为x所对应对象具有某画像标签的概率;
则扩张性约束表示成:
Figure FDA0003607983700000026
ε是误差系数;
步骤2:对未标注样本数据集U进行画像标签分类学习;
通过三元空间多视图分类器对未标注样本进行画像标签分类,结合领域知识投票,产生可信的分类样本。
2.根据权利要求1所述的基于多视图学习的社会安全人物画像方法,其特征在于,步骤2的具体实现包括以下子步骤:
步骤2.1:未标注样本的画像标签分类;
从未标注样本集U中随机选择若干个样本,分别使用对应物理、社会、网络三个视图的三个分类器M1、M2、M3计算某个查询x所对应对象具有某画像标签y的置信度;对于上述三个结果,分别返回置信度大于阈值τ的结果:
p(y|x,M1)>τ
p(y|x,M2)>τ
p(y|x,M3)>τ
用于生成一个分类样本池U’;
步骤2.2:基于领域知识的投票;
如果采用两个及以上的分类器进行画像标签判定时,若给定待测对象的置信度大于阈值τ,则判定它为正样本,即具有某画像标签y,并赋予该待测对象相应标签的标注;把投票产生的查询对象与其正样本加入可信分类样本池P,进而添加到标注样本集L;
步骤2.3:迭代上述过程直至设定的迭代次数或没有出现满足条件的未标注样本;
步骤2.4:使用最终的标注样本集L在总体特征视图V上学习最终的分类器M;最后,使用该分类器进行画像标签判定;其中,V1、V2、V3是总体视图V的分解结果,M由M1、M2、M3这三个分类器组成。
CN201910247073.3A 2019-03-29 2019-03-29 一种基于多视图学习的社会安全人物画像方法 Active CN110046657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910247073.3A CN110046657B (zh) 2019-03-29 2019-03-29 一种基于多视图学习的社会安全人物画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910247073.3A CN110046657B (zh) 2019-03-29 2019-03-29 一种基于多视图学习的社会安全人物画像方法

Publications (2)

Publication Number Publication Date
CN110046657A CN110046657A (zh) 2019-07-23
CN110046657B true CN110046657B (zh) 2022-06-14

Family

ID=67275593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910247073.3A Active CN110046657B (zh) 2019-03-29 2019-03-29 一种基于多视图学习的社会安全人物画像方法

Country Status (1)

Country Link
CN (1) CN110046657B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110992105A (zh) * 2019-12-11 2020-04-10 北京明略软件系统有限公司 人员画像处理方法和装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651424A (zh) * 2016-09-28 2017-05-10 国网山东省电力公司电力科学研究院 基于大数据技术的电力用户画像建立与分析方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170140051A1 (en) * 2015-11-16 2017-05-18 Facebook, Inc. Ranking and Filtering Comments Based on Labelling

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106651424A (zh) * 2016-09-28 2017-05-10 国网山东省电力公司电力科学研究院 基于大数据技术的电力用户画像建立与分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Predicting user personality by mining social interactions in Facebook;AlvaroOrtigosa et al.;《Journal of Computer and System Sciences》;20130321;第80卷(第1期);第57-71页 *
面向海量实时数据的DSP用户画像系统的设计与实现;李军政;《中国优秀硕士学位论文全文数据库 信息科技辑》;20190115;第2019年卷(第1期);第I140-554页 *

Also Published As

Publication number Publication date
CN110046657A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
CN108492200B (zh) 一种基于卷积神经网络的用户属性推断方法和装置
Arevalo et al. Gated multimodal units for information fusion
Fang et al. Topic-sensitive influencer mining in interest-based social media networks via hypergraph learning
Yin et al. Deep fusion of multimodal features for social media retweet time prediction
Xiang et al. Modeling relationship strength in online social networks
Gong et al. Loss decomposition and centroid estimation for positive and unlabeled learning
Zhang et al. A high-order possibilistic $ C $-means algorithm for clustering incomplete multimedia data
Goyal et al. Capturing edge attributes via network embedding
CN106294590A (zh) 一种基于半监督学习的社交网络垃圾用户过滤方法
CN110502743A (zh) 基于对抗学习和语义相似度的社交网络跨媒体搜索方法
Guo et al. Multi-label classification methods for green computing and application for mobile medical recommendations
CN115686868B (zh) 一种基于联邦哈希学习的面向跨节点多模态检索方法
CN114048295A (zh) 一种用于数据处理的跨模态检索方法及系统
Feng et al. Learning to rank image tags with limited training examples
Khan et al. DVAEGMM: Dual variational autoencoder with gaussian mixture model for anomaly detection on attributed networks
Hu et al. What is next when sequential prediction meets implicitly hard interaction?
Sun POI recommendation method based on multi-source information fusion using deep learning in location-based social networks
CN110046657B (zh) 一种基于多视图学习的社会安全人物画像方法
Gu et al. Towards facial expression recognition in the wild via noise-tolerant network
Xu et al. A novel matrix factorization recommendation algorithm fusing social trust and behaviors in micro-blogs
Saxena et al. A statistical approach for reducing misinformation propagation on twitter social media
CN110489660A (zh) 一种社交媒体公开数据的用户经济状况画像方法
Farajidavar et al. A deep multi-view learning framework for city event extraction from twitter data streams
CN116958622A (zh) 数据的分类方法、装置、设备、介质及程序产品
Yang et al. Understanding and monitoring human trafficking via social sensors: a sociological approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant