CN110046657B

CN110046657B - 一种基于多视图学习的社会安全人物画像方法

Info

Publication number: CN110046657B
Application number: CN201910247073.3A
Authority: CN
Inventors: 王中元; 韩镇; 唐雪华; 何政
Original assignee: Wuhan University WHU; Shenzhen Research Institute of Wuhan University
Current assignee: Wuhan University WHU; Shenzhen Research Institute of Wuhan University
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2022-06-14
Anticipated expiration: 2039-03-29
Also published as: CN110046657A

Abstract

本发明公开了一种基于多视图学习的社会安全人物画像方法，在多源身份大数据的社会安全应用中，完备的先验知识和标注样本均难以获得，本发明构建了基于部分领域知识、少量标注样本和大量未标注样本的多视图协同训练模型，实现身份属性到画像标签的准确映射。首先，通过标注样本数据集的三元空间视图分解，从三元空间身份属性中学习物理空间、社会空间、网络空间三个属性子视图及对应的权重；其次，通过三元空间多视图分类器对未标注样本进行画像标签分类，结合领域知识投票，产生可信的分类样本，添加到标注样本数据集，丰富标注样本。本发明在社会安全领域具有重要应用价值。

Description

一种基于多视图学习的社会安全人物画像方法

技术领域

本发明属于数据分析技术领域，涉及一种人物画像方法，具体涉及一种基于多视图学习的社会安全人物画像方法。

技术背景

人的一举一动，都会在物理、社会和网络空间留下数字痕迹；物理空间包含了城市安装的大量摄像头所采集的监控视频片段、定位和导航设备记录的空间位置以及人机交互行为数据；网络空间包含了电话、微信、短信、社交平台交友、聊天、电子商务平台的购物记录、微博等产生各种各样的行为数据；社会空间包含了公安、安全、信访等部门在人口管理、社会治安、社情民意调查等方面掌握的大量基础数据。

无论是一般的网络谣言、诈骗之类的网络犯罪还是有重大危害的暴力恐怖犯罪，人物画像及定位对于事前预警和案件的事后侦破均起到至关重要作用。人物画像是根据对象生理属性、社会属性、社交习惯和经济行为等信息而抽象出的一个标签化的对象模型。物的全方位刻画包含客观和主观两个层面，身份属性描述了人物的客观特征，画像标签则描述了人物相关的各种偏好、倾向、评价等主观特征。实现从客观身份属性数据到主观人物画像标签的映射，目前主要采用基于规则和基于学习两类方法。基于规则的方法需要完备的领域先验知识构建客观属性映射到主观标签的显式规则，基于学习的方法需要完备的主观特征标注样本获得客观属性映射到主观标签的隐式规则。但是社会安全应用场景下，完备的先验知识和标注样本均难以获得，仅能获得部分领域知识、少量标注样本，这给安全嫌疑目标的画像标签学习带来极大挑战。

发明内容

为了解决上述技术问题，本发明提供了一种基于多视图学习的社会安全人物画像方法。

本发明所采用的技术方案是：一种基于多视图学习的社会安全人物画像方法，其特征在于，包括以下步骤：

步骤1：对标注样本数据集L进行三元空间视图分解；

从三元空间身份属性中学习得到物理空间、社会空间、网络空间三个属性子视图V₁、V₂、V₃，以及对应的权重ω₁、ω₂、ω₃；

步骤2：对未标注样本数据集U进行画像标签分类学习；

通过三元空间多视图分类器对未标注样本进行画像标签分类，结合领域知识投票，产生可信的分类样本。

与现有的用户画像方法相比，本发明提出了面向社会安全人物的画像方法。在多源身份大数据的社会安全应用中，完备的先验知识和标注样本均难以获得，传统的基于规则和基于学习方法均难以从身份属性数据中获得准确的人物画像标签。本发明构建了基于部分领域知识、少量标注样本和大量未标注样本的多视图协同训练模型，实现身份属性到画像标签的准确映射。

附图说明

图1：本发明实施例的流程图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施案例对本发明做进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

半监督学习算法可以让学习器自动地对大量未标记数据进行利用以辅助少量有标记数据进行学习，适合在完备标注样本难以获得的条件下学习三元空间身份属性到画像标签的映射规则。三元空间中不同身份属性可以形成对同一个画像标签的多个视图。例如某对象在网络空间中浏览网页的政治话题主题词、在社会空间中参与社团的政治属性，可以分别形成该对象政治倾向的两个视图。因此本发明采用半监督学习中的多视图学习算法来学习身份属性到画像标签的映射规则。协同训练算法是一种典型的针对多视图数据的半监督学习算法，在理论上得到证明:当两个充分冗余视图确实满足条件独立性时,通过协同训练可以利用未标记样本把弱分类器的精度提升到任意高。本技术方案拟将部分领域知识、少量标注样本和大量未标注样本三者结合起来学习获得属性到标签的映射规则，实现基于三元空间身份属性大数据的人物画像。

基于上述思路，请见图1，本发明提供了一种基于多视图学习的社会安全人物画像方法，包括以下步骤：

步骤1：对标注样本数据集L进行三元空间视图分解；

为了进行权重学习，首先定义三元空间多视图学习的损失函数：

l(ω_i,L)表示采用V_i视图对标注数据集L进行样本学习时的损失函数，损失越小说明V_i视图越有效；x是L上的某对象身份属性，y是x所对应对象的画像标签标注信息；如果x所对应对象具有某画像标签则y＝1；反之，y＝-1；

通过以下优化过程，学习权重ω₁、ω₂、ω₃：

为了简化上述优化过程，进行分步优化；首先把ω₂、ω₃看做一个整体，表示成ω_2,3：

然后在ω_2,3中，进行以下优化过程：

为了保证协同训练的性能，视图之间应该尽量保证独立性，且满足扩展性要求。这里加入两个约束：第一，0/1独立性约束；第二，扩展性约束。

独立性约束，对于第i维特征定义一个0/1权重；在第i维上，权重ω₁、ω₂、ω₃应满足：

指ω₁在第i维上的权重，

和

同理；为了分步优化的需求，将

和

合并为

为便于求解，将上式转换为以下形式：

扩展性约束，设I(ω₁(x))是一个0/1二值函数，对x在以ω₁为权重的子视图 V₁上进行距离度量时，计算x所对应对象具有某画像标签的概率；概率大于预设门限τ时值为1，否则为0：

I(ω₂(x))和I(ω₃(x))同理；事件

表示有一个或两个视图是分类器认为x所对应对象具有某画像标签的概率， P(I(ω₁(x))∧I(ω₂(x))∧I(ω₃(x)))表示有三个视图分类器同时认为x所对应对象具有某画像标签的概率，

表示有三个视图分类器同时不认为x所对应对象具有某画像标签的概率；

则扩张性约束表示成：

ε是误差系数。

步骤2：对未标注样本数据集U进行画像标签分类学习；

通过三元空间多视图分类器对未标注样本进行画像标签分类，结合领域知识投票，产生可信的分类样本；

步骤2的具体实现包括以下子步骤：

步骤2.1：未标注样本的画像标签分类；

从未标注样本集U中随机选择若干个样本，分别使用对应物理、社会、网络三个视图的三个分类器M₁、M₂、M₃计算某个查询x所对应对象具有某画像标签y的置信度；对于上述三个结果，分别返回置信度大于阈值τ的结果：

p(y|x,M₁)＞τ

p(y|x,M₂)＞τ

p(y|x,M₃)＞τ

用于生成一个分类样本池U’；

步骤2.2：基于领域知识的投票；

如果采用两个及以上的分类器进行画像标签判定时，若给定待测对象的置信度大于阈值τ，则判定它为正样本，即具有某画像标签y，并赋予该待测对象相应标签的标注；把投票产生的查询对象与其正样本加入可信分类样本池P，进而添加到标注样本集L；

步骤2.3：迭代上述过程直至设定的迭代次数或没有出现满足条件的未标注样本；

步骤2.4：使用最终的标注样本集L在总体特征视图V上学习最终的分类器 M；最后，使用该分类器进行画像标签判定；其中，V₁、V₂、V₃是总体视图V 的分解结果，M由M₁、M₂、M₃这三个分类器组成。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于多视图学习的社会安全人物画像方法，其特征在于，包括以下步骤：

步骤1：对标注样本数据集L进行三元空间视图分解；

其中，为了进行权重学习，首先定义三元空间多视图学习的损失函数：

通过以下优化目标函数，学习权重ω₁、ω₂、ω₃：

然后在ω_2,3中，进行以下优化过程：

为了保证协同训练的性能，在权重学习中加入两个约束：第一，独立性约束；第二，扩展性约束；

所述独立性约束，对于第i维特征定义一个0/1权重；在第i维上，权重ω₁、ω₂、ω₃应满足：

指ω₁在第i维上的权重，

和

同理；为了分步优化的需求，将

和

合并为

为便于求解，将上式转换为以下形式：

所述扩展性约束，设I(ω₁(x))是一个0/1二值函数，对x在以ω₁为权重的子视图V₁上进行距离度量时，计算x所对应对象具有某画像标签的概率；概率大于预设门限τ时值为1，否则为0：

I(ω₂(x))和I(ω₃(x))同理；事件

表示有一个或两个视图是分类器认为x所对应对象具有某画像标签的概率，P(I(ω₁(x))∧I(ω₂(x))∧I(ω₃(x)))表示有三个视图分类器同时认为x所对应对象具有某画像标签的概率，

则扩张性约束表示成：

ε是误差系数；

步骤2：对未标注样本数据集U进行画像标签分类学习；

2.根据权利要求1所述的基于多视图学习的社会安全人物画像方法，其特征在于，步骤2的具体实现包括以下子步骤：

步骤2.1：未标注样本的画像标签分类；

p(y|x,M₁)＞τ

p(y|x,M₂)＞τ

p(y|x,M₃)＞τ

用于生成一个分类样本池U’；

步骤2.2：基于领域知识的投票；

步骤2.4：使用最终的标注样本集L在总体特征视图V上学习最终的分类器M；最后，使用该分类器进行画像标签判定；其中，V₁、V₂、V₃是总体视图V的分解结果，M由M₁、M₂、M₃这三个分类器组成。