CN111159763B - 一种涉法人员群体画像分析系统及方法 - Google Patents
一种涉法人员群体画像分析系统及方法 Download PDFInfo
- Publication number
- CN111159763B CN111159763B CN201911366166.4A CN201911366166A CN111159763B CN 111159763 B CN111159763 B CN 111159763B CN 201911366166 A CN201911366166 A CN 201911366166A CN 111159763 B CN111159763 B CN 111159763B
- Authority
- CN
- China
- Prior art keywords
- data
- personnel
- legal
- characteristic
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000012545 processing Methods 0.000 claims abstract description 51
- 238000000586 desensitisation Methods 0.000 claims abstract description 24
- 238000005065 mining Methods 0.000 claims abstract description 17
- 230000004927 fusion Effects 0.000 claims abstract description 11
- 238000007499 fusion processing Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 38
- 238000004422 calculation algorithm Methods 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 18
- 230000008520 organization Effects 0.000 claims description 10
- 241000282414 Homo sapiens Species 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 7
- 238000012800 visualization Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 4
- 230000010365 information processing Effects 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000007621 cluster analysis Methods 0.000 claims description 2
- 238000005305 interferometry Methods 0.000 claims description 2
- 238000000513 principal component analysis Methods 0.000 claims 2
- 238000010191 image analysis Methods 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000003814 drug Substances 0.000 description 5
- 229940079593 drug Drugs 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 206010010144 Completed suicide Diseases 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 206010013663 drug dependence Diseases 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 208000011117 substance-related disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Bioethics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Probability & Statistics with Applications (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种涉法人员群体画像分析系统及方法,本发明主要包括涉法数据融合及预处理,涉法数据深度脱敏,融合数据特征处理,涉法人员群体挖掘,群体画像构建和画像展示六部分;本发明针对司法数据进行深度脱敏,防止信息泄露保护信息安全,并且针对融合多种业务系统涉法人员的群体性画像,方便挖掘特殊群体并进行有针对性的策略制定;此外,本发明还具有一定的灵活性,可根据用户经验对画像特征进行调整,并且可以针对特殊群体进行可视化展示。
Description
技术领域
本发明涉及机器学习与自然语言处理技术领域,尤其涉及一种涉法人员群体画像分析系统及方法。
背景技术
近年来,国家大力推进行政执法综合管理监督信息系统建设,完善全国行政执法数据汇集和信息共享机制,全面提升全国行政执法与监督信息化水平,随着司法信息化的逐步完善,收集了大量的涉法案件信息,如裁判文书、监狱服刑记录、社区矫正、戒毒信息等数据。如何合理有效的利用数据辅助监管涉法人员,预防涉法人员逃脱、暴力、自杀等突发事件发生,根据涉法人员特征进行针对性教育改造,如何充分发挥数据效能是司法信息化建设的重要组成部分,而人物画像是在大数据背景下根据目标人物属性、行为等信息分析抽象出来的标签化的用户模型,用一些高度概括、容易理解的标签来描涉法群体,可以为后续辅助监管、教育改造等提供有力支持。
目前,画像技术在电商、金融、通信等领域已经得到的很好的应用,为用户提供了良好的有针对性的服务。在司法领域人物画像技术应用还不多,专利CN109543986A是基于用户画像的监狱罪犯三预风险评估,通过分析样本数据来制定个人用户画像标签,再采用分类模型根据风险等级来生成风险预警信息。专利CN108399190A是监狱罪犯的全景画像方法,是针对罪犯个人的画像方法,首先通过聚类自动生成六个画像维度,再针对每个维度计算画像分值,根据罪犯画像分值给出不同的罪犯改造策略。专利CN201810592984.5,一种基于画像标签的戒毒人员康复评估系统,是将戒毒人员康复评估进行标签化,生成周期记录分析报告。以上专利是在某个司法业务领域内的画像及应用,忽略了各领域之间的关联性,画像信息不够全面,建模过程中也忽视了文本信息的重要性。
画像技术在司法领域相较于其他领域存在一定的困难,首先,司法数据是高度敏感数据,需要更加精细化针对性的数据脱敏技术进行数据脱敏后才能使用;其次,司法领域信息化发展起步较晚,采集的数据不规范不全面,各个业务系统之间存在壁垒,而涉法人员可能不仅仅涉及一个业务系统,需要对数据进行融合;再次,司法数据存在中文本描述字段和结构化字,需要将自然语言处理技术和机器学习技术相结合,防止信息丢失;最后,司法数据存在一定的特殊性,需要一定的专业知识才能保证模型的有效性。
发明内容
本发明为克服上述的不足之处,目的在于提供一种涉法人员群体画像分析系统及方法,本发明主要包括涉法数据融合及预处理,涉法数据深度脱敏,融合数据特征处理,涉法人员群体挖掘,群体画像构建和画像展示六部分;本发明针对司法数据进行深度脱敏,防止信息泄露保护信息安全,并且针对融合多种业务系统涉法人员的群体性画像,方便挖掘特殊群体并进行有针对性的策略制定;此外,本发明还具有一定的灵活性,可根据用户经验对画像特征进行调整,并且可以针对特殊群体进行可视化展示。
本发明是通过以下技术方案达到上述目的:一种涉法人员群体画像分析方法,包括如下步骤:
(1)采集涉法数据,并对涉法数据进行融合及预处理;
(2)对融合及预处理后的涉法数据进行深度脱敏;
(3)基于涉法数据分别进行文本特征处理与数值特征处理,并进行特征融合,得到涉法人员的特征;
(4)对涉法人员的特征作升维处理,将其转化为固定长度向量后作降维处理,并采用聚类算法进行涉法人员群体挖掘;
(5)基于聚类结果,结合涉法人员的特征进行群体画像构建;
(6)对构建得到的人物画像进行可视化处理,并支持根据界面展示对特征进行二次筛选。
作为优选,所述步骤(1)具体为:通过多个业务系统收集涉法数据,将涉法人员基本信息赋予不同的权重,计算涉法人员相似程度,通过设置相似程度阈值、冗余信息处理、冲突信息处理来进行跨系统数据融合,并将单个业务系统中完全相同的记录去除,将空值率大于预设阈值的字段去除。
作为优选,所述的深度脱敏方法步骤如下:
(2.1)统计涉法人员姓名信息,按照姓名中姓和名字的分布情况,重新生成涉法人员姓名;
(2.2)对涉法数据中涉及到的组织机构信息进行编码处理;
(2.3)将身份证件和联系方式转化为唯一标识代码形式;
(2.4)结合外部地图数据,对采集到的地址信息进行规范化处理,规范化为省市县的形式,不涉及更加详细信息;
(2.5)识别非结构化文本数据中的实体数据,对实体数据执行步骤(2.1)-(2.4),完成数据脱敏。
作为优选,所述步骤(3)具体为:将涉法数据归类为文本特征数据与数值特征数据,具体划分为人员固定属性、人员动态属性、文本描述、地址相关、组织以及涉法案件特征六种特征类别数据,对这六种特征类别分别进行数据处理,并进行特征融合得到涉法人员的特征;其中,六种特征类别及处理具体如下:
1)人员固定属性数据反映涉法人员的基本信息,对数据进行预处理;2)人员动态属性数据是指随着时间变化而不断改变的特征,反映涉法人员思想、行为变化状态,计算各动态属性数据的均值、方差、以及变化趋势,其中类别类数据需转化为数值型数据;
3)文本描述数据反应涉法案件文本描述信息,先进行分词,并采用word2vec模型生成X维向量;
4)地址数据反映涉法案件的地址相关性,采用步骤(2.4)所述方法处理;
5)组织数据反映涉法案件的组织相关性,采用步骤(2.2)所述方法处理;
6)涉法案件特征是指司法机关对涉法人员涉法事件的相关裁定信息,并对此类信息进行预处理。
作为优选,所述变化趋势通过如下公式计算:
x=[x1,x2,…,xm]
其中,m表示某个涉法人员动态数据记录条数;j是下标,无实际意义;x表示动态记录;1{}表示括号中记录为真则值为1,否则值为0;td(x)是特征x的变化趋势值,代表动态数据变好或者维持现状的趋势,在0-1之间。
作为优选,所述步骤(4)具体如下:
(4.1)对涉法数据中的数值特征数据进行升维处理,转化为X维的向量形式,X可以根据实际特征类别以及特征数量决定;其中,空值特征也编码为X维向量;
(4.2)将特征向量乘以对应的权重横向拼接在一起,生成固定长度的涉法人员特征F,
F=[g1f1,g2f2,...,gNfN]
其中,N表示涉法人员的特征数量,f表示X维特征向量,g表示特征向量的权重,根据业务需求来设定,F表示涉法人员特征拼接向量,共有N*X维;N的选取根据实际业务系统的特征数据量决定;
(4.3)对得到的涉法人员特征F进行降维处理,采用PCA降维提取主要特征F′,其中降维后F的维度可根据实际采用的算法和模型的准确度需求来设定;
(4.4)采用自适应DBSCAN密度聚类算法对处理好的降维特征F′进行聚类分析,获得稳定的C个聚类类别。
作为优选,所述的自适应DBSCAN密度聚类算法具体为:
假设样本数据D={F′1,F′2,...,F′M},M是样本个数,设置初始参数为ε0和MinPts,采用欧式距离计算样本间的距离dis;通过距离度量的形式,寻找样本di的ε-邻域样本集Dε(di),如果dis(di,dj)<ε,则样本dj是di的ε-邻域样本;Dis是样本di与其他样本之间距离dis的由小到大排序集合,如果Dε(di)中样本个数大于MinPts,则di是核心对象样本,其中ε的自适应计算如下式所示:
其中,j表示下标,无实际意义;α,β是权重,0≤β<α≤1,具体数值可根据实际训练结果调整;max()是取最大值函数;Disj是Dis中下标小于等于j的子样本集;是sigmod函数θ泛指参数;E()是取均值函数;当E(Disj)<αε0时h(Disj)<0,即样本密度大,则将εj调小;相反的,样本密度小时,则将εj调大;
任选没有类别的核心对象,找到这个核心对象所有密度可达的样本集合,即聚类簇;直到所有核心对象都有类别获得C个聚类类别。
作为优选,所述步骤(5)具体为:基于聚类得到的C个聚类类别,选用设法人员的特征中的人员固定属性特征、人员动态属性特征及涉法案件特征进行详细刻画,生成人物画像,并分别打上标签,实现步骤如下:
(5.1)根据业务场景需求选取人员固定属性中若干个特征综合表示,分别统计类别中各特征值对应的人员数,取人员数最多的特征值为该特征的标签;
(5.2)根据业务场景需求选取人员动态属性中若干个特征进行刻画群体画像,其中,特征标签计算方法具体如下:
将数据归一化为[0,1]之间的数值型,结合数据均值、方差、以及变化趋势计算:
其中,m表示动态数据特征记录条数;x表示涉法人员动态属性特征x的动态记录,均在0-1之间;td(x)是变化趋势,0≤mean(x)≤1是动态记录的均值,0≤var(x)≤1是动态记录的方差;fd(x)表示涉法人员动态属性特征x的动态特征标签,在0-1之间,将0-1均分为4等份,从大到小映射为优、良、中、差,分别统计动态数据中各特征值对应的人数,人数最多的特征值为特征的标签;
(5.3)根据业务场景需求选取涉法案件特征数据中若干个特征,计算涉案性质标签:
其中,ns表示人员涉法次数,d表示数据来源业务系统个数,p表示选取的特征个数,k表示下标,无实际意义;qk是第k个业务系统与时间相关的特征,假设符合均值为u方差为σ的正态分布,Qk是qk在区间[u-2σ,u+2σ]的均值;fz是计算得到的涉案性质,将0-1均分为5等份,从大到小映射为非常严重、严重、一般、较轻、轻微五个等级作为涉案性质的标签,分别统计五个等级中各特征值对应的人数,人数最多的特征值为人员画像中涉案性质的标签。
作为优选,所述步骤(6)具体包括如下步骤:
(6.1)将聚类特征降维到二维平面坐标系中展示类簇,直观展现涉法人员群类簇分布情况;
(6.2)点击具体的类簇,可显示类簇中人物画像特征;
(6.3)点击具体的人物画像特征,可对比展示各类簇特征之间的差异;
(6.4)根据展示的效果,可筛选调整算法特征。
一种涉法人员群体画像分析系统,包括:数据采集模块、数据融合处理模块、数据深度脱敏模块、特征处理模块、涉法人员群体挖掘模块、画像展示模块;
所述的数据采集模块用于从多个业务系统收集涉法数据,并将其归集在一起;
所述的数据融合处理模块用于对涉法数据进行融合,以及数据处理;所述的数据深度脱敏模块用于对涉法数据中的敏感数据进行脱敏;所述的特征处理模块用于融合数据特征处理;
所述的涉法人员群体挖掘模块对涉法人员的特征作升维处理,将其转化为固定长度向量后作降维处理,并采用聚类算法进行涉法人员群体挖掘;
所述的画像展示模块用于对涉法人员进行群体画像构建,并对构建得到的人物画像进行可视化处理,并支持根据界面展示对特征进行二次筛选。
本发明的有益效果在于:(1)本发明针对司法数据进行深度脱敏,防止信息泄露保护信息安全;(2)本发明将文本描述类特征和数值型特征综合处理,分别将文本特征和数值特征通过算法转化为固定长度向量,通过先升维再降维,然后采用自适应DBSCAN算法进行群体挖掘,有效的保证了算法的可靠性和实效性;(3)本发明是针对融合多种业务系统涉法人员的群体性画像,方便挖掘特殊群体并进行有针对性的策略制定;(4)本发明实现的系统具有一定的灵活性,可根据用户经验对画像特征进行调整,并且可以针对特殊群体进行可视化展示。
附图说明
图1是本发明的系统框架示意图;
图2是本发明的方法流程示意图。
具体实施方式
下面结合具体实施例对本发明进行进一步描述,但本发明的保护范围并不仅限于此:
实施例:如图1所示,一种涉法人员群体画像分析系统,由数据采集模块、数据融合处理模块、数据深度脱敏模块、特征处理模块、涉法人员群体挖掘模块、画像展示模块组成。数据采集模块用于从多个业务系统收集涉法数据,并将其归集在一起;数据融合处理模块用于对涉法数据进行融合,以及数据处理;数据深度脱敏模块用于对涉法数据中的敏感数据进行脱敏;特征处理模块用于融合数据特征处理;涉法人员群体挖掘模块对涉法人员的特征作升维处理,将其转化为固定长度向量后作降维处理,并采用聚类算法进行涉法人员群体挖掘;画像展示模块用于对涉法人员进行群体画像构建,并对构建得到的人物画像进行可视化处理,并支持根据界面展示对特征进行二次筛选。
如图2所示,一种涉法人员群体画像分析方法,包括如下步骤:
(1)采集涉法数据;
数据采集是通过多个业务系统收集监狱、戒毒、矫正等涉法数据,将涉法数据归集到一起,形成一个数据资源中心。
(2)涉法数据进行融合及预处理;
涉法数据涉及监狱、戒毒、矫正等多个业务系统,这些系统建立时相互独立,并且各业务之间存在差异,这就导致了不同业务系统数据结构不相同,并且涉法人员可能存在两个或两个以上的系统中,只有将数据进行融合后,才能获得涉法人员跨系统详细记录。
本发明相似程度计算是将涉法人员基本信息赋予不同的权重,计算涉法人员相似程度,如姓名、性别、户籍地、身份证件、出生日期、学历、工作情况、婚姻状况等,8个字段赋予不同的权重,其中身份证件权重最大值设为0.3,其余权重均为0.1,权重之和为1,记录中8个字段是否相同与对应权重的乘积之和即为记录的相似程度。本发明相似程度阈值取0.9,如果相似程度大于0.9则为同一涉法人员,将不同业务系统数据进行融合。
将一个业务系统中完全相同的记录去除,本发明是采用相同字段的非空值和字段最新时间对应的数值,对字段相同字段值不同的冲突信息的进行填充改写,将空值率大于80%的字段去除。
(3)对融合及预处理后的涉法数据进行深度脱敏;
涉法数据是高度敏感数据,监狱、戒毒、矫正等数据不仅涉及结构化敏感数据,如当事人的姓名、出生年月、联系方式、家庭住址甚至是身份证件等,还包括非结构化信息中的部分敏感数据,如涉法监管表现、案件描述以及奖惩原因等,如果脱敏不彻底会造成信息泄露。本发明对涉法数据进行深度脱敏,具体如下:
3.1).统计涉法人员姓名信息,按照姓名中姓和名字的分布情况,重新生成涉法人员姓名,如王在涉法人员姓氏中占7%,则按照7%的概率来重新生成的‘王’的涉法人员姓氏,名的生成跟姓氏相同。
3.2).将涉法数据中涉及到的组织机构信息,如工作单位等进行编码处理
3.3).身份证件和联系方式转化为唯一标识代码形式
3.4).结合百度地图等外部数据,将采集到的地址信息进行规范化,都转化为省市县的形式,不涉及更加详细信息,并且地址信息规范化后更有利于对省级、市级、县级不同级别数据应用。
3.5).识别非结构化文本数据中姓名、日期、地址、组织机构、身份证件、联系方式实体数据,将实体数据对应2.1-2.4步骤进行脱敏;
(4)基于涉法数据分别进行文本特征处理与数值特征处理,并进行特征融合,得到涉法人员的特征;
涉法人员数据字段众多,并且存在高度稀疏性和差异性,用相同的处理方式进行处理容易漏掉有用的特征。因此对多个业务系统中融合之后的涉法数据进行归类,划分为人员固定属性、人员动态属性、文本描述、地址相关、组织以及涉法案件特征六种特征类别,再对这六种特征类别分别进行数据预处理。因为涉及到事件描述等非结构化数据和其他结构化数据,统一将特征转化为64维向量,编码方式可根据实际类别和特征数量来决定,优选的向量的前4维为表示特征类别,5-8维表示该类别下的哪个特征,9-64维是具体的特征值,9-64维全为0则表示为空值。
4.1)人员固定属性特征数据是指人员固定的或者不容易改变的特征,反映涉法人员的基本信息。包括但不限于性别、籍贯、涉法年龄、民族、文化程度等人员属性,对数据进行清洗处理,将文化程度统一映射为文盲、小学、初中、高中、大学、硕士及以上。
4.2)人员动态特征数据是指随着时间变化不断改变的特征,反映涉法人员思想、行为变化状态。包括但不限于考核记录、思想变化记录、教育成绩记录、人员轨迹记录、奖惩记录、人员涉法类别、涉法次数等特征,动态数据一般有多条且随着时间变化的,计算特征的均值、方差、以及变化趋势,特征的变化趋势再由公式(1)计算,
x=[x1,x2,…,xm] (1)
其中,m表示某个涉法人员动态数据记录条数,j是下标无实际意义,x表示动态记录,1{}表示括号中记录为真则值为1,否则值为0,td(x)是特征x的变化趋势值,代表动态数据变好或者维持现状的趋势,在0-1之间。
要将类别类数据转化为数值型方便进行比较,本实施例中将特征中优、良、中、差转化为4、3、2、1,再由公式(1)计算。
4.3)文本描述特征数据是指用不定长的文字描述记录的详细信息,具有多样性和相似性。包括但不限于涉法案件记录、奖惩描述、案由、罪名、涉法前职业等,其中将罪名划分为文本类型是因为罪名具有相似性,具有相同罪名的案件本身也具有相似性,例如:盗窃、扒窃等,将涉法前职业划分为文本类型是因为职业种类并且具有很明显的语义相似性,例如:餐馆服务人员、酒店服务人员等,为了保留语义相似性质采用自然语言处理的形式处理。本实施例中采用中国裁判文书网公开的裁判文书训练司法领域64维word2vec词向量模型,将人员涉法案件记录、奖惩描述、案由、罪名、涉法前职业进行jieba分词,采用训练好的word2vec模型生成单词向量,由公式(2)生成64维向量,
其中,n是文本描述数据词语个数,k是下标表示在描述中的第几个词语,vec表示词语的X维word2vec向量,wk表示词语的权重,根据词语出现次数设置,出现次数越多权重越大,VEC表示最终生成的X维文本描述向量。
4.4)地址相关特征数据反映涉法案件的地址相关性,便于探索涉法案件的高发地。包括但不限于户籍地、居住地、工作地、案发地等相关地址类信息,步骤3脱敏中都已经转化为省市县格式,如将西湖区西园8路300号转化为浙江省杭州市西湖区。
4.5)组织类相关特征数据反映涉法案件的组织相关性,包括但不限于涉法前工作单位、与涉法案件相关的组织等,步骤3中已经经过脱敏处理;
4.6)涉法案件特征是指司法机关对涉法人员涉法事件的相关裁定信息,包括:涉法时间、剥夺政治权限期限、监管期限变更信息、涉法监管期限、涉法次数等,对此类信息进行预处理,将时间段统一以月为单位处理,如将涉法监管期限1年6个月转化为18个月。
(5)对涉法人员的特征作升维处理,将其转化为固定长度向量后作降维处理,并采用聚类算法进行涉法人员群体挖掘;
(5.1)涉法数据包括事件描述等非结构化特征和性别、年龄等结构化特征(即数值特征),本实施例中非结构化特征(即文本特征)经过word2vec模型处理后均为64维的向量,结构化特征是一维的数值或者类别数据,为保证特征的统一性,将一维的结构化数据进行升维处理,转化为64维的向量形式,并且将空值特征也编码为64维向量。例如,固定属性的处理如下表1所示。
表1
(5.2)涉法数据均编码为64维向量后,按照公式(3)将特征向量乘以对应的权重横向拼接在一起,生成固定长度的涉法人员特征,
F=[g1f1,g2f2,...,gNfN] (3)
其中,N表示涉法人员的特征数量,f表示X维特征向量,g表示特征向量的权重,根据业务需求来设定,本实施例中特征的权重相同,F表示涉法人员特征拼接向量,共有N*X维。N的选取根据实际业务系统的特征数据量决定。
(5.3)由于特征数量多,并且步骤(5.1)中对特征做升维处理,F向量维度大影响群体挖掘效率,因此进行降维处理。采用PCA降维提取主要特征F′,具体降维后F的维度可根据实际采用的算法和模型的准确度需求来设定,本实施例中特征F′的维度取为64维。
(5.4)将处理好的降维特征F′进行聚类分析,工作人员可能很难直接确定聚类类别个数,因此本发明采用自适应DBSCAN密度聚类算法,不需要预先设定聚类类别个数,由算法自动计算,最终获得稳定的C个类别。DBSCAN算法是常用的密度聚类算法,算法全局参数ε和MinPts的选取依赖于人工干预,ε是样本的邻域距离阈值,MinPts是样本的ε邻域中样本个数的阈值。DBSCAN对于密度分布不均匀的数据聚类效果不是很理想,而涉法数据单个特征中有明显的密度不均衡现象,例如年龄特征中某个年龄段存在涉法数据较多,涉法类型中某种涉法类型案件数较多,因此本发明自适应调整ε的值增强涉法群体挖掘抗干扰能力提高准确性,并且ε值计算简单容易实现。
假设,样本数据D={F′1,F′2,...,F′M},M是样本个数,设置初始参数为ε0和MinPts=4,通过分析样本数据和常用的经验值获取,样本间的距离dis计算采用欧式距离计算。通过距离度量的形式,寻找样本di作为种子的ε-邻域样本集Dε(di),如果dis(di,dj)<ε,其中ε的自适应计算如公式(4),则样本dj是di的ε-邻域样本。Dis是样本di与其他样本之间距离dis的正序排序集合,如果Dε(di)中样本个数大于MinPts则di是核心对象样本。
其中,j表示下标无实际意义,α,β是权重,0≤β<α≤1,具体数值可根据实际训练结果调整,max()是取最大值函数,Disj是Dis中下标小于等于j的子样本集,是sigmod函数θ泛指参数,E()是取均值函数,当E(Disj)<αε0时h(Disj)<0,即样本密度大,εj调小一些,样本密度小时,εj调大一些。
任选没有类别的核心对象作为种子,找到这个核心对象所有密度可达的样本集合,就是一个聚类簇。直到所有核心对象都有类别获得C个聚类类别。
(6)基于聚类结果,结合涉法人员的特征进行群体画像构建;
上一步骤中已经聚类出了C个类别,聚类时选用的是涉法人员的全部特征,而群体画像是对涉法群体的详细刻画,由于组织类、地址相关数据涉及敏感信息均进行了脱敏,因此不适合展示在人物画像中,文本描述数据原数据冗长,word2vec转化为X维的向量用户很难理解,因此也不适合展现在人物画像中,本发明选用涉法人员的特征中的人员固定属性特征、人员动态属性特征及涉法案件特征进行详细刻画,生成人物画像,并分别打上标签。实现步骤如下:
(6.1)根据业务场景需求选取人员固定属性中若干个特征综合表示,分别统计类别中各特征值对应的人员数,取人员数最多的特征值为该特征的标签。
本实施例中人员固定属性由涉法年龄、涉法前文化程度两个个特征综合表示。将涉法年龄分段,具体分成几段根据业务场景进行调整,本实施例中将年龄分为8段。分别统计类别中各特征值对应的人员数,取人员数最多的特征值为该特征的标签,人员固定属性也可以包含其他特征。
(6.2)根据业务场景需求选取人员动态属性中若干个特征进行刻画群体画像。
本实施例中从人物动态类数据中提取思想评估、考核情况、教育情况三个特征刻画群体画像,体现涉法人员在思想、日常考核以及教育改造方面的标签,三个方面的计算方法相同,都是首先将数据进行数值化处理,再结合数据均值、方差、以及变化趋势按照公式(5)计算。
其中,m表示动态数据特征记录条数;x表示涉法人员动态属性特征x的动态记录,均在0-1之间;td(x)是变化趋势,0≤mean(x)≤1是动态记录的均值,0≤var(x)≤1是动态记录的方差;fd(x)表示涉法人员动态属性特征x的动态特征标签,在0-1之间,将0-1均分为4等份,从大到小映射为优、良、中、差,分别统计动态数据中各特征值对应的人数,人数最多的特征值为特征的标签;
(6.3)根据业务场景需求选取涉法案件特征数据中若干个特征,计算涉案性质标签。
本实施例中,从涉法案件数据体提取涉法次数、涉法监管期限计算涉案性质,体现涉法人员案件的严重程度,按照公式(6)计算涉案性质,
其中,ns表示人员涉法次数,d表示数据来源业务系统个数,p表示选取的特征个数,k表示下标,无实际意义;qk是第k个业务系统与时间相关的特征,假设符合均值为u方差为σ的正态分布,Qk是qk在区间[u-2σ,u+2σ]的均值;fz是计算得到的涉案性质,将0-1均分为5等份,从大到小映射为非常严重、严重、一般、较轻、轻微五个等级作为涉案性质的标签,分别统计五个等级中各特征值对应的人数,人数最多的特征值为人员画像中涉案性质的标签。
(7)进行画像展示:
将构建得到的的人物画像进行可视化处理,更方便相关人员理解并加以应用,并且可以根据界面展示对特征进行二次筛选:
(7.1)将聚类特征降维到2维平面坐标系中展示类簇,直观展现涉法人员群类簇分布情况;
(7.2)点击具体的类簇,可显示类簇中人物画像特征;
(7.3)点击具体的人物画像特征,可对比展示各类簇特征之间的差异;
(7.4)根据展示的效果,筛选调整算法特征,如某个特征在画像中区分性不明显,可以将特征删除或者重新处理;如果想要探索未成年涉法群体和老年人涉法群体特征,可以加大年龄相关类特征权重。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。
Claims (9)
1.一种涉法人员群体画像分析方法,其特征在于,包括如下步骤:
(1)采集涉法数据,并对涉法数据进行融合及预处理;
(2)对融合及预处理后的涉法数据进行深度脱敏;其中,深度脱敏方法步骤如下:
(2.1)统计涉法人员姓名信息,按照姓名中姓和名字的分布情况,重新生成涉法人员姓名;
(2.2)对涉法数据中涉及到的组织机构信息进行编码处理;
(2.3)将身份证件和联系方式转化为唯一标识代码形式;
(2.4)结合外部地图数据,对采集到的地址信息进行规范化处理,规范化为省市县的形式,不涉及更加详细信息;
(2.5)识别所述融合及预处理后的涉法数据中的实体数据,对所述实体数据执行步骤(2.1)-(2.4),完成数据脱敏;
(3)基于涉法数据分别进行文本特征处理与数值特征处理,并进行特征融合,得到涉法人员的特征;
(4)对涉法人员的特征作升维处理,将其转化为固定长度向量后作降维处理,并采用聚类算法进行涉法人员群体挖掘;
(5)基于聚类结果,结合涉法人员的特征进行群体画像构建;
(6)对构建得到的人物画像进行可视化处理,并支持根据界面展示对特征进行二次筛选。
2.根据权利要求1所述的一种涉法人员群体画像分析方法,其特征在于:所述步骤(1)具体为:通过多个业务系统收集涉法数据,将涉法人员基本信息赋予不同的权重,计算涉法人员相似程度,通过设置相似程度阈值、冗余信息处理、冲突信息处理来进行跨系统数据融合,并将单个业务系统中完全相同的记录去除,将空值率大于预设阈值的字段去除。
3.根据权利要求1所述的一种涉法人员群体画像分析方法,其特征在于:所述步骤(3)具体为:将涉法数据归类为文本特征数据与数值特征数据,具体划分为人员固定属性、人员动态属性、文本描述、地址、组织以及涉法案件特征六种特征类别数据,对这六种特征类别分别进行数据处理,并进行特征融合得到涉法人员的特征;其中,六种特征类别数据及处理具体如下:
1)人员固定属性数据反映涉法人员的基本信息,对数据进行预处理;
2)人员动态属性数据是指随着时间变化而不断改变的特征,反映涉法人员思想、行为变化状态,计算各动态属性数据的均值、方差、以及变化趋势,其中类别类数据需转化为数值型数据;
3)文本描述数据反应涉法案件文本描述信息,先进行分词,并采用word2vec模型生成X维向量;
4)地址数据反映涉法案件的地址相关性,采用步骤(2.4)所述方法处理;
5)组织数据反映涉法案件的组织相关性,采用步骤(2.2)所述方法处理;
6)涉法案件特征是指司法机关对涉法人员涉法事件的相关裁定信息,并对此类信息进行预处理。
5.根据权利要求1所述的一种涉法人员群体画像分析方法,其特征在于:所述步骤(4)具体如下:
(4.1)对涉法数据中的数值特征数据进行升维处理,转化为X维的向量形式,X可以根据实际特征类别以及特征数量决定;其中,空值特征也编码为X维向量;
(4.2)将特征向量乘以对应的权重横向拼接在一起,生成固定长度的涉法人员特征F,
F=[g1f1,g2f2,…,gNfN]
其中,N表示涉法人员的特征数量,f表示X维特征向量,g表示特征向量的权重,根据业务需求来设定,F表示涉法人员特征拼接向量,共有N*X维;N的选取根据实际业务系统的特征数据量决定;
(4.3)对得到的涉法人员特征F进行降维处理,采用PCA降维提取主要特征F′,其中降维后F的维度可根据实际采用的算法和模型的准确度需求来设定;
(4.4)采用自适应DBSCAN密度聚类算法对处理好的降维特征F′进行聚类分析,获得稳定的C个聚类类别。
6.根据权利要求5所述的一种涉法人员群体画像分析方法,其特征在于:所述的自适应DBSCAN密度聚类算法具体为:
假设样本数据D={F′1,F′2,…,F′M},M是样本个数,设置初始参数为ε0和MinPts,采用欧式距离计算样本间的距离dis;通过距离度量的形式,寻找样本di的ε-邻域样本集Dε(di),如果dis(di,dj)<ε,则样本dj是di的ε-邻域样本;Dis是样本di与其他样本之间距离dis的由小到大排序集合,如果Dε(di)中样本个数大于MinPts,则di是核心对象样本,其中ε的自适应计算如下式所示:
其中,j表示下标,无实际意义;α,β是权重,0≤β<α≤1,具体数值可根据实际训练结果调整;max()是取最大值函数;Disj是Dis中下标小于等于j的子样本集;是sigmod函数θ泛指参数;E()是取均值函数;当E(Disj)<αε0时h(Disj)<0,即样本密度大,则将εj调小;相反的,样本密度小时,则将εj调大;
任选没有类别的核心对象,找到这个核心对象所有密度可达的样本集合,即聚类簇;直到所有核心对象都有类别获得C个聚类类别。
7.根据权利要求1所述的一种涉法人员群体画像分析方法,其特征在于:所述步骤(5)具体为:基于聚类得到的C个聚类类别,选用涉法人员的特征中的人员固定属性特征、人员动态属性特征及涉法案特征进行详细刻画,生成人物画像,并分别打上标签,实现步骤如下:
(5.1)根据业务场景需求选取人员固定属性中若干个特征综合表示,分别统计类别中各特征值对应的人员数,取人员数最多的特征值为该特征的标签;
(5.2)根据业务场景需求选取人员动态属性中若干个特征进行刻画群体画像,其中,特征标签计算方法具体如下:
将数据归一化为[0,1]之间的数值型,结合数据均值、方差、以及变化趋势计算:
其中,m表示动态数据特征记录条数;x表示涉法人员动态属性特征x的动态记录,均在0-1之间;td(x)是变化趋势,0≤mean(x)≤1是动态记录的均值,0≤var(x)≤1是动态记录的方差;fd(x)表示涉法人员动态属性特征x的动态特征标签,在0-1之间,将0-1均分为4等份,从大到小映射为优、良、中、差,分别统计动态数据中各特征值对应的人数,人数最多的特征值为特征的标签;
(5.3)根据业务场景需求选取涉法案件特征数据中若干个特征,计算涉案性质标签:
其中,ns表示人员涉法次数,d表示数据来源业务系统个数,p表示选取的特征个数,k表示下标,无实际意义;qk是第k个业务系统与时间相关的特征,假设符合均值为u方差为σ的正态分布,Qk是qk在区间[u-2σ,u+2σ]的均值;fz是计算得到的涉案性质,将0-1均分为5等份,从大到小映射为非常严重、严重、一般、较轻、轻微五个等级作为涉案性质的标签,分别统计五个等级中各特征值对应的人数,人数最多的特征值为人员画像中涉案性质的标签。
8.根据权利要求1所述的一种涉法人员群体画像分析方法,其特征在于:所述步骤(6)具体包括如下步骤:
(6.1)将聚类特征降维到二维平面坐标系中展示类簇,直观展现涉法人员群类簇分布情况;
(6.2)点击具体的类簇,可显示类簇中人物画像特征;
(6.3)点击具体的人物画像特征,可对比展示各类簇特征之间的差异;
(6.4)根据展示的效果,可筛选调整算法特征。
9.一种应用如权利要求1所述方法的涉法人员群体画像分析系统,其特征在于,包括:数据采集模块、数据融合处理模块、数据深度脱敏模块、特征处理模块、涉法人员群体挖掘模块、画像展示模块;所述的数据采集模块用于从多个业务系统收集涉法数据,并将其归集在一起;
所述的数据融合处理模块用于对涉法数据进行融合,以及数据处理;
所述的数据深度脱敏模块用于对涉法数据中的敏感数据进行脱敏;
所述的特征处理模块用于融合数据特征处理;
所述的涉法人员群体挖掘模块对涉法人员的特征作升维处理,将其转化为固定长度向量后作降维处理,并采用聚类算法进行涉法人员群体挖掘;
所述的画像展示模块用于对涉法人员进行群体画像构建,并对构建得到的人物画像进行可视化处理,并支持根据界面展示对特征进行二次筛选。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911366166.4A CN111159763B (zh) | 2019-12-26 | 2019-12-26 | 一种涉法人员群体画像分析系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911366166.4A CN111159763B (zh) | 2019-12-26 | 2019-12-26 | 一种涉法人员群体画像分析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111159763A CN111159763A (zh) | 2020-05-15 |
CN111159763B true CN111159763B (zh) | 2022-05-31 |
Family
ID=70558300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911366166.4A Active CN111159763B (zh) | 2019-12-26 | 2019-12-26 | 一种涉法人员群体画像分析系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111159763B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111931107B (zh) * | 2020-07-31 | 2024-03-22 | 博泰车联网科技(上海)股份有限公司 | 数字公民体系构建方法、系统及存储介质 |
CN112651352B (zh) * | 2020-12-30 | 2022-07-19 | 深圳市商汤科技有限公司 | 图像处理方法及装置、电子设备和存储介质 |
CN112632618B (zh) * | 2020-12-30 | 2024-04-16 | 深圳市华傲数据技术有限公司 | 一种标签人群数据的脱敏方法、装置及计算机设备 |
CN113656485A (zh) * | 2021-01-30 | 2021-11-16 | 河南信安通信技术股份有限公司 | 一种大数据下人物数据分析方法和系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105389332B (zh) * | 2015-10-13 | 2018-09-11 | 广西师范学院 | 一种地理社交网络下的用户相似性计算方法 |
CN106127231A (zh) * | 2016-06-16 | 2016-11-16 | 中国人民解放军国防科学技术大学 | 一种基于信息交互网络的犯罪个体识别方法 |
CN106933991A (zh) * | 2017-02-24 | 2017-07-07 | 陈晶 | 一种面向智能终端的深度分析与用户画像系统及方法 |
CN108021929B (zh) * | 2017-11-16 | 2023-01-10 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
CN108647729B (zh) * | 2018-05-11 | 2022-03-04 | 广东省科技基础条件平台中心 | 一种用户画像获取方法 |
CN108647743B (zh) * | 2018-06-25 | 2021-08-10 | 江苏智通交通科技有限公司 | 驾驶人安全画像系统 |
-
2019
- 2019-12-26 CN CN201911366166.4A patent/CN111159763B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111159763A (zh) | 2020-05-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111159763B (zh) | 一种涉法人员群体画像分析系统及方法 | |
WO2019200752A1 (zh) | 基于语义理解的兴趣点查询方法、装置和计算机设备 | |
Gu et al. | Record linkage: Current practice and future directions | |
CN109299271B (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
US20040122841A1 (en) | Method and system for evaluating intellectual property | |
CN108363821A (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN105760439B (zh) | 一种基于特定行为共现网络的人物共现关系图谱构建方法 | |
CN106021362A (zh) | 查询式的图片特征表示的生成、图片搜索方法和装置 | |
CN110377804A (zh) | 培训课程数据的推送方法、装置、系统及存储介质 | |
Fu et al. | Identifying spatiotemporal urban activities through linguistic signatures | |
CN112434169A (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
CN111950937A (zh) | 一种基于融合时空轨迹的重点人员风险评估方法 | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
CN111881302A (zh) | 基于知识图谱的银行舆情分析方法和系统 | |
CN112270579B (zh) | 一种基于大数据的智能广告系统 | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其系统 | |
Ghankutkar et al. | Modelling machine learning for analysing crime news | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN111696656B (zh) | 一种互联网医疗平台的医生评价方法、装置 | |
CN113946657A (zh) | 一种基于知识推理的电力业务意图自动识别方法 | |
CN109086794A (zh) | 一种基于t-lda主题模型的驾驶行为模式识方法 | |
Zhao et al. | Prediction of English Scores of College Students Based on Multi-source Data Fusion and Social Behavior Analysis. | |
CN110941638B (zh) | 应用分类规则库构建方法、应用分类方法及装置 | |
CN109144999B (zh) | 一种数据定位方法、装置及存储介质、程序产品 | |
CN109902129A (zh) | 基于大数据分析的保险代理人归类方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant after: Yinjiang Technology Co.,Ltd. Address before: 310012 1st floor, building 1, 223 Yile Road, Hangzhou City, Zhejiang Province Applicant before: ENJOYOR Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |