CN112016004B - 一种基于多粒度信息融合的职务犯罪筛查系统及方法 - Google Patents

一种基于多粒度信息融合的职务犯罪筛查系统及方法 Download PDF

Info

Publication number
CN112016004B
CN112016004B CN202010851950.0A CN202010851950A CN112016004B CN 112016004 B CN112016004 B CN 112016004B CN 202010851950 A CN202010851950 A CN 202010851950A CN 112016004 B CN112016004 B CN 112016004B
Authority
CN
China
Prior art keywords
data
information
case
involved
personnel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010851950.0A
Other languages
English (en)
Other versions
CN112016004A (zh
Inventor
王国胤
李培森
胡军
杨冬梅
陈珂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Jingfeng Technology Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202010851950.0A priority Critical patent/CN112016004B/zh
Publication of CN112016004A publication Critical patent/CN112016004A/zh
Application granted granted Critical
Publication of CN112016004B publication Critical patent/CN112016004B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于信息化管理领域,特别涉及一种基于多粒度信息融合的职务犯罪筛查系统及方法;所述筛查系统包括数据采集服务器系统、数据存储服务器、中心计算服务器、网络通信服务器以及若干客户端;通过数据采集服务器系统共同采集涉案人员的多源数据信息,并存储至数据存储服务器中,所述中心计算服务器将对数据进行多粒度融合,按照数据认知方式学习涉案人员的低维向量,计算出涉案人员与其密切人员的相似度距离,按照相似度距离推荐出与所述涉案人员相近似的若干密切人员;并通过网络通信服务器传输至若干客户端进行监控和处理;本发明融合多源数据,基于多粒度认知计算理论去除冗余线索,从中发现对职务犯罪侦查有用的知识,为办案人员提供辅助。

Description

一种基于多粒度信息融合的职务犯罪筛查系统及方法
技术领域
本发明属于信息化管理领域,特别涉及一种基于多粒度信息融合的职务犯罪筛查系统及方法。
背景技术
网络存在于现实世界各种场景之中,在职务犯罪案件侦查中,其社会关系网络分析是发现嫌疑人及嫌疑团伙的关键所在。在实际的案件中,人物关系错综复杂,特别是在如今信息化时代,侦察人员就如何整合多平台多网络的数据来源是一项艰巨的任务。而根据职务犯罪的特性,一些细微的信息往往不可不关注,这些信息往往是破案的关键所在。现如今的案件侦查中常用的处理手段是从单一的嫌疑人社会关系结构上进行调查,从某一种关系入手,通过人工方式展开调查,在画板上手动构建人物关系图,而在分析中往往重复耗时,并且对专家的能力要求较高。
而对于侦查专家而言,联合处理多种附加信息并进行分析,其实现难度极大。特别是犯罪团伙牵连人数过多的情况,而在实际案件中职务犯罪人员的社会关系网络极为复杂,因此在案件的侦破中,时间周期较长,效率较低。
虽然在大数据背景下,存在大量的线索,但是传统的职务犯罪案件侦查主要从嫌疑人的社会关系入手,采用人工的方式或者半智能化的统计学习手段,不仅统计效率慢而且还容易走向错误的调查方向;导致案件侦破过程效率极为低下。另外,职务犯罪网络中两个嫌疑人无直接的社交关系,但是他们却可能具有相同的社团属性、行为活动或者间接的人物关联等,如果仅仅从他们的单一的关系结构入手则无法评判出犯罪嫌疑人之间所潜在存在的关联性,使得有效信息的利用率非常低。
因此,如何将提供的有效线索以及多个平台搜集的多源信息进行整合,进行智能化分析并给出分析结果是一个亟待解决的技术问题。
发明内容
基于现有技术存在的问题,为了提高职务犯罪社会关系网络分析的效率,满足实际需求,本申请提出了一种基于多粒度信息融合的职务犯罪筛查系统及方法,以已结案的犯罪人员的社会关系网络及附加信息为例,基于多粒度信息融合理论对职务犯罪复杂关系网络进行智能化分析,对附加敏感信息进行自动选择,降低无关线索对案件分析的影响。职务犯罪智能分析系统装置将提供的有效线索及多个平台搜集的信息进行整合,并进行智能化分析,将分析结果反馈到办案人员的终端系统,侦查部门可以对犯罪嫌疑人及犯罪社团进行快速锁定,进而提高了侦查办案的效率。
在本发明的第一方面,本发明提供了一种基于多粒度信息融合的职务犯罪筛查系统,所述筛查系统包括数据采集服务器系统、数据存储服务器、中心计算服务器、网络通信服务器以及若干客户端;
所述数据采集服务器系统包括若干采集终端,所述若干采集终端共同采集涉案人员的多源数据信息;
所述数据存储服务器用于对所述数据采集服务器所采集到的多源数据信息进行分类存储;
所述中心计算服务器包括数据读写接口、数据融合模块、数据认知模块、数据相似度计算模块、数据推荐模块和所述数据通信模块;
所述数据读写接口通过物理介质与所述数据存储服务器进行接口通信,并与所述中心计算服务器的其他模块进行数据通信;
所述数据融合模块用于根据数据读写接口获取到的多源数据信息进行多粒度融合处理;
所述数据认知模块用于从多粒度融合后的融合特征中选取出低维向量;
所述数据相似度计算模块用于对涉案人员及其密切人员按照选取后的融合特征进行相似度计算;
所述数据推荐模块用于对计算出相似度距离最近的K个密切人员进行推荐;
所述数据通信模块用于接收所述推荐模块所发出的K个密切人员信息,并上传至给网络通信服务器;
所述网络通信服务器用于传输所述中心计算服务器所计算出密切人员信息结果;
所述客户端用于从网络通信服务器接收所推荐出的密切人员信息结果或从所述数据存储服务器中查询涉案人员信息以及涉案人员的多源数据信息。
在本发明的第二方面,本发明提供了一种基于多粒度信息融合的职务犯罪筛查方法,所述方法包括以下步骤:
从不同的采集终端调集案件的多源数据信息;
对所述多源数据信息进行预处理,构建出关于涉案人员的信息关系网络,并添加各涉案人员之间的附加线索信息;
将包含有信息关系网络结构和附加线索信息的多源数据信息进行多粒度融合处理;
按照多粒度认知计算理论从多粒度融合后的融合特征中学习出涉案人员的低维向量数据;
按照学习到的低维向量数据计算出涉案人员及其密切人员的相似度距离;
按照所述相似度距离推荐出所述涉案人员的若干密切人员集合。
本发明的有益效果:
传统的职务犯罪侦查主要以单一的社会关系入手,找到相关嫌疑者口供为主,这样不仅浪费时间也浪费了大量的人力资源。本发明专利提出了一种新的基于多粒度信息融合的职务犯罪筛查系统及方法,本发明能够去除职务犯罪侦查中的无用线索。利用大数据智能分析方法,融合多源数据,基于多粒度认知计算理论去除其中对职务犯罪分析冗余线索,从中发现对职务犯罪侦查有用的知识,为办案人员提供辅助,并通过客户端向办案人员提供指导信息。本方案创新了传统办案方法的思路,减少了办案人员的工作量,提高了办案的效率。
附图说明
图1是本发明的一种基于多粒度信息融合的职务犯罪筛查系统架构图;
图2是本发明的所提供的职务犯罪侦查系统时序图;
图3是本发明的一种基于多粒度信息融合的职务犯罪筛查方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例的执行主体可以为各种类型的终端,终端例如可以是计算机、服务器、平板电脑、个人数字助理(英文:Personal Digital Assistant,缩写:PDA)、移动互联网设备(英文:Mobile Internet Device,缩写:MID)等可进行文本处理的设备,本发明对此不作任何限制。
在大数据的背景下,各行各业已经具有一套信息化办公系统,积累了大量的结构化数据,涉案人员的个人信息、社交账号信息、涉及案件信息、各种金融消费数据多种附加信息都可以进行数据挖掘。因此,本发明对已经结案数据,结合粒度认知计算理论,将多种粒度信息融合处理,自适应选择对案件分析有利的线索,并降低冗余信息的影响。对涉案人员的高关联信息及人员进行重要性排序,为实际的案件侦破提供参考辅助。其主要过程如下:
图1是本发明的基于多粒度信息融合的职务犯罪筛查系统的架构图,如图1所示,本申请所提出的一种基于多粒度信息融合的职务犯罪筛查系统,主要包括三个阶段,第一个阶段是对涉案人员设备的数据监测,第二个阶段是对涉案人员数据的处理,第三个阶段是将处理的数据推送给办案人员的客户端,便于办案人员进行具体的操作。
在第一个阶段中,对所述涉案人员设备的数据监测包括但不限于公安部门个人信息系统、金融终端(金融消费数据系统)、司法终端(司法数据系统)、涉案人员的个人终端等设备所采集到的数据信息。
在第二个阶段中,对涉案人员数据的处理包括但不限于对采集到的数据进行整合;对这些数据进行存储、对这些数据进行运算处理以及对处理后的数据进行传输等。
在第三个阶段中,办案人员的终端接收到第二个阶段的数据后,将会按照第二阶段推送的内容对涉案人员所有信息及共同犯罪人员可视化查看,辅助专家办案及信息整理。
具体的,如图1所示,所述筛查系统包括数据采集服务器系统、数据存储服务器、中心计算服务器、网络通信服务器以及若干客户端;
所述数据采集服务器系统包括若干采集终端,所述若干采集终端共同采集涉案人员的多源数据信息;
所述数据存储服务器用于存储所述数据采集服务器所采集到的多源数据信息,并且可以对这些数据进行分类存储;
其中,所述数据采集服务器系统可以对接公安系统中的个人信息、银行的金融终端系统、嫌疑人相关的司法数据系统进行统一的数据采集监测,得到所有的涉案人员相关联数据,并传入数据存储服务器进行分类存储,以满足中心计算服务器在进行计算时的数据需求。
所述中心计算服务器包括数据读写接口、数据融合模块、数据认知模块、数据相似度计算模块、数据推荐模块和所述数据通信模块;
所述数据读写接口通过物理介质与所述数据存储服务器进行接口通信,并与所述中心计算服务器的其他模块进行数据通信;
其中,所述数据读写接口作为中心计算服务器和数据存储服务器之间的一个物理介质,所述中心计算服务器通过所述数据读写接口将采集的数据分类读入后进行数据预处理,在所述中心计算服务器计算过程中,产生的数据结果也将通过所述数据读写接口写入数据存储服务器以便其他办案人员客户端进行数据访问,确保数据安全及证据保留。
所述数据融合模块用于根据数据读写接口获取到的多源数据信息进行预处理后采用多粒度融合处理;
所述数据融合模块主要作用是进行数据预处理,数据预处理可以包括数据清洗、数据变换以及数据集成。
另外在数据预处理完成后,所述数据融合模块将进行多粒度融合处理;具体的,从数据采集服务器收集的多源数据,在数据存储服务器中进行分类存储,存储之后,中心计算服务器中的数据融合模块即对这些多源数据进行预处理,即融合多个信息源的数据信息。
在一个实施例中,所述数据融合模块包括多个子模块:
关系网络构建模块,用于构建出涉案人员的信息关系网络;
关系网络增删模块,用于在所述信息关系网络中添加各涉案人员之间的附加线索信息;
函数融合模块,用于根据信息关系网络和附加线索信息按照融合函数计算出涉案人员的融合特征。
举例而言,所述关系网络构建模块是将从不同社交网络平台上获取多源的数据进行整合,建立出关于涉案人员的信息关系网络,其中,将涉案人员以及与其有社交关系的密切关系的人员都抽象为节点,将人员之间的社交关系抽象为节点之间的边,其中社交关系可以包括但不限于家人、朋友、同事关系等,在案件分析中即为亲缘关系、地缘关系、业缘关系、友缘关系等等。比如每一个信息关系网络可以抽象成一个图G=(V,E,A),其中,V代表节点集合即涉案人员集合,E代表边集合即涉案人员与其密切人员之间的社交关系,A代表属性集合及与涉案人员相关的线索信息;如两个涉案人员之间在实际的案件之中存在着相应的社会关系,则涉案人员抽象的顶点之间存在边,否则不存在;关系网络增删模块则将附加线索作为信息关系网络的信息补充,对所述信息关系网络进行完善。
在完善所述信息关系网络后,本发明需要对这些信息进行多粒度融合,即采用函数融合模块对社交关系结构和附加的线索信息这些搜集到的多种粒度信息进行融合处理;
人的个性特征与其所处的环境是不可分割的,根据这种特性,对信息关系网络中的多源数据做出如下处理。
Figure BDA0002645034030000071
其中,v代表涉案人员,下标j代表涉案人员的个数,下标n代表涉案人员的属性个数;a代表涉案人员的属性信息及附加线索,例如a11表示涉案人员v1的第1个原始属性信息和附加线索信息,x代表融合后的多源信息;例如x11就是通过将a11、a21以及到an1这n个属性信息及附加线索中与涉案人员v1相关联的|N(vi)|个属性信息的加权和求得,x11表示涉案人员v1的第1个融合后的原始属性信息和附加线索信息。融合后的多源信息表示为xi=H(vi),得到新的附加信息集合,可以作为多粒度认知学习的数据输入。
融合函数H具体如下所示:
Figure BDA0002645034030000072
其中,N(vi)表示与涉案人员vi有直接关系的密切人员集合;ai表示涉案人员vi的原始属性信息和附加线索信息,对于新的每一个属性表示为a,其为每个涉案人员相关联的密切人员的相同属性种类的加权值;|N(vi)|表示与涉案人员vi有直接关系的密切人员个数,Aj为每一行原始属性信息和附加线索信息aj.的集合;aj.表示涉案人员vj的原始属性信息和附加线索信息,即与涉案人员涉案人员vi的密切人员的原始属性信息和附加线索信息;其中下标·表示涉案人员vj的原始属性信息和附加线索信息的索引,其值为1~n,n表示涉案人员vj的原始属性信息和附加线索信息的属性总数。
所述数据认知模块用于从多粒度融合后的融合特征中选取出低维向量;
在一个实施例中,所述数据认知模块包括层级排列的多个数据特征层、激活函数计算模块以及分布函数模块;在满足分布函数模块所预设的分布函数下,按照所述激活函数计算模块所构建出的激活函数,逐层计算每个数据特征层的向量,并迭代更新直至计算出最后一层的低维向量。
数据筛选函数定义如下所示:
rn=σ(w(1)xn+b(1))
Figure BDA0002645034030000081
第K-1层及第K层定义如下:
μ=w1 (K-1)rn+b1 (K-1),v=w2 (K-1)rn+b2 (K-1)
Figure BDA0002645034030000082
其中,rn表示涉案人员的n个属性的向量的初始表示;
Figure BDA0002645034030000083
表示涉案人员的n个属性在第k层的向量表示即涉案人员所学习到的低维向量;K为数据认知转换的层数总和,根据不同案件的数据大小和属性维度确认;可以通过智适应数据认知筛选使得的数据满足实际需要,并降低噪声数据及冗余数据对案件侦查的影响。σ表示激活函数;μ代表服从案件数据的均值学习到的向量表示;v代表一层根据案件数据方差学习到的向量表示;E表示预设的分布函数。w表示权重矩阵,即在深度学习过程中模型学习到的每个属性的权重值。属性在后面推荐任务中越重要其学习到的权重则越大;b表示偏置向量,即模型为了得到正确的预测结果,其中必然存在误差,b的存在即为学习过程中在一定范围内进行误差调整,在上述参数中,上标表示数据认知转换的层数,w(k)表示第k层中多粒度融合处理后案件数据的属性的权重值;b(k)表示第k层中多粒度融合处理后案件数据的偏置向量。特别的,/>
Figure BDA0002645034030000084
和/>
Figure BDA0002645034030000085
及/>
Figure BDA0002645034030000086
和/>
Figure BDA0002645034030000087
分别表示根据实际数据分布的均值和方差约束后的学习到的权重和偏置,使得在下一步过程中得到的向量/>
Figure BDA0002645034030000088
满足实际案件数据分布情况。
在实际的案件过程中,可以根据学习效果进行调整,需要根据实际不同的案件进行具体选择从而调整上述参数值,本发明不对上述参数值的大小进行具体的限定。
优选的,所述激活函数可以采用ReLU,Sigmod或者Tanh等函数。
优选的,所述预设的分布函数可以采用标准正态分布、高斯分布等等。
在上述给定融合表示后的信息关系网络中,本发明将每个涉案人员vi及属性ai表示成一个低维的向量ri,即智适应学习一个函数fG,得到的ri的维度远远小于vi的原有属性维度ai,即原有的维度为n个维度,经过上述处理后,其维度远远小于n个维度,且不仅仅保留了节点的拓扑结构,也保留了涉案人员的属性信息。
所述数据相似度计算模块用于对涉案人员及其密切人员按照选取后的融合特征进行相似度计算;
在实际的案件侦查中,侦查人员通过每个人的社交关系和一些关联信息进行人工分析,然后逐次深入调查,其过程大多需要专家自身的经验和觉察能力,而基于多粒度信息融合的职务犯罪智能分析方法通过智能信息处理,智适应数据认知的方式,得到每个抽象节点的固有属性及潜在特性的特征向量,进而计算每个节点认知后特征的相似度,在一定的阈值内确定和此节点最为相关的节点。计算公式如下所示:
Figure BDA0002645034030000091
当然,上述公式是采用欧氏距离计算公式,本发明还可以采用余弦相似度距离、皮尔逊相关系数。
所述数据推荐模块用于对计算出相似度距离最近的K个密切人员进行推荐;
在案件侦查时,本发明可以通过选择相似距离最小的k个值,可以确定和编号为i的涉案人员关系最为密切的k个人员。这样再加入专家经验,极大的提高了案件侦查效率。
所述数据通信模块用于接收所述推荐模块所发出的K个密切人员信息,并上传至给网络通信服务器;
所述网络通信服务器用于传输所述中心计算服务器所计算出密切人员信息结果;
其中,中心计算服务器计算出适合推荐的K个密切人员信息后,可以通过网络通信服务器传输给相关办案人员的客户端上;
通过数据通信模块上载到网络通信服务器进行转发,使得办案人员客户端系统中的客户端进行访问,对犯罪人员所有信息及共同犯罪人员可视化呈现,辅助专家办案及信息整理。
所述客户端即办案人员客户端用于从网络通信服务器接收所推荐出的密切人员信息结果或从所述数据存储服务器中查询涉案人员信息以及涉案人员的多源数据信息,便于相关人员对信息的获取,极大的简化了涉案人员对数据的整理。
在上述犯罪筛查系统的基础上,图2给出了上述职务犯罪侦查系统的时序图;如图2所示,本实施例将从若干采集终端收集涉案人员的多源数据信息,例如从金融终端上收集涉案人员的银行流水信息,从社交网络平台上获取涉案人员的社交关系信息等等;将收集到的信息传输至数据存储服务器中;数据存储服务器将会按照数据采集终端设备的来源对数据进行分类存储,相当于对数据信息进行一个简单的预处理;将这些数据传输给中心计算服务器,一方面,该中心计算服务器将会对涉案人员的关系网络进行构建,并将构建出信息关系网络可视化的发送给办案人员客户端;另一方面,中心计算服务器会对信息关系网络中的数据进行多粒度融合;按照数据认知的学习方法获取各个涉案人员的低维向量信息,并计算出涉案人员与其密切关系人员的相似度,按照相似度距离推荐出若干关联的密切人员,将这些推荐结果返回给办案人员客户端后,办案人员客户端也可以通过数据库查询的方式在数据存储服务器中查询涉案人员信息以及涉案人员的多源数据信息。
图3是本发明给出的一种基于多粒度信息融合的职务犯罪筛查方法,如图3所示,所述方法包括以下步骤:
S1、从不同的采集终端调集案件的多源数据信息;
对于犯罪案件研究中,嫌疑人及嫌疑团伙大多都存在地缘、亲缘、职务等多种关系,历史案件是一部分已经标注的嫌疑人和团伙,真正要挖掘的信息是发现新的相关嫌疑人。在进行数据学习前需要挖掘的多源信息包含历史案件信息和人物的多种类型社交关系人员信息等,对这些已经明确了涉案人员的关系进行分析处理,在后续过程中学习出涉案人员的低维向量;而在需要对待办案件进行处理时,则需要采集当前已经涉案人员的多源数据信息,利用历史案件学习出的涉案人员的低维向量,从而在后续的过程中筛查出其密切人员。
具体的,从不同终端采集涉案人员的信息,例如社交数据、媒体数据、司法数据、网络数据、财务数据多源数据。
S2、对所述多源数据信息进行预处理,构建出关于涉案人员的信息关系网络,并添加各涉案人员之间的附加线索信息;
预处理过程是不断在调用数据读写接口,流程图中是双向箭头,数据量极大,故需要不断的迭代分批次处理,处理后的结果写会存储服务器,读取下个批次数据继续处理。
可以至少包括:
1、数据清洗,对于有效数据进行筛选并对噪声数据进行清理;
2、数据变换,搜集的多源数据所表示格式不统一,对数据进行转换形成利于存储分析的格式;
3、数据集成,将多个数据源中的数据进行结合并统一存储。
举例而言,将这些多源信息中属性信息如年龄、家乡、职务等进行整合后传输到存储服务器。如涉案人员A属于L城市、J部门、参与M活动、N项目、O资金流动等,密切人员B、C、D、E、F、H、I具有相似特征列表但是具有的特征值可能不一样;所以,通过多源数据获取之后形成复杂的信息关系网络G,利用其它方式获取的附加线索信息,将这些附加线索信息作为属性信息加入到信息关系网络中对该网络进行完善。
在一个实施例中,本实施例可以根据案件所涉及的大小和搜集的信息数据可以动态调整属性的数量。其中不同的涉案人员对应的属性信息不一样,但在实际的案件中具有关联的人物之间具有相似的属性值概率较高。
S3、将包含有信息关系网络结构和附加线索信息的多源数据信息进行多粒度融合处理;
每个涉案人员及其密切人员的初始数据准备好之后,将数据通过数据读写模块读入到存储服务器后进行数据处理,根据涉案人员A的网络关系结构进行特征融合,如A的每一维特征由与A直接相关联的密切人员B、C、E、F的每一维特征按照H函数加权求和得到新的特征矩阵。通过这样处理之后,具有相同属性特征的人员之间的特征值就越大,说明两个人直接的联系或许由此产生。如A和B来自同一部门那么这两个人直接的职务属性特征值即x值就越近,他们就属于工作上的合作伙伴。另外,处理后的数据每一个人的特征值都带有周围环境的一些潜在特征,在大型信息关系网络中更容易找到具有潜在关联的人员。
S4、按照多粒度认知计算理论从多粒度融合后的融合特征中学习出涉案人员的低维向量数据;
在真实的社交关系网络中,由于数据来自多个平台,其数据量极为庞大,数据融合后得到的每个人的特征矩阵,不仅包含对案件分析有利的线索,也含有冗余信息,基于多粒度认知理论,将融合数据输入到认知模型,通过模型训练学习函数f,将上百维的数据转为低维数据,对有效的线索和属性信息自动选择。例如A的特征在多粒度融合后维度达到上百维,通过学习到的函数f后得到低维向量,去除了冗余信息例如一些平台的举报信息,并保留了潜在有利于分析的特征。
S5、按照学习到的低维向量数据计算出涉案人员及其密切人员的相似度距离;
S6、按照所述相似度距离推荐出所述涉案人员的若干密切人员集合。
本发明能够在结合大数据的背景下,对案件信息进行处理,为职务犯罪调查提供技术基础。
在原网络中A与直接相关联的人员(密切人员)属性相似,在新的特征矩阵中,A依然和之前的关联人员保持相似性,但在本推荐装置中即犯罪筛查系统中,具有潜在关联的K个嫌疑人会被筛选出来并进行存储;将中心计算服务器所计算的推荐结果反馈到办案人员客户端的设备上,办案人员根据计算结果及整合的信息进行案件侦破。
在本发明的描述中,需要理解的是,术语“同轴”、“底部”、“一端”、“顶部”、“中部”、“另一端”、“上”、“一侧”、“顶部”、“内”、“外”、“前部”、“中央”、“两端”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明中,除非另有明确的规定和限定,术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (6)

1.一种基于多粒度信息融合的职务犯罪筛查系统,其特征在于,所述筛查系统包括数据采集服务器系统、数据存储服务器、中心计算服务器、网络通信服务器以及若干客户端;
所述数据采集服务器系统包括若干采集终端,所述若干采集终端共同采集涉案人员的多源数据信息;
所述数据存储服务器用于对所述数据采集服务器所采集到的多源数据信息分类存储;
所述中心计算服务器包括数据读写接口、数据融合模块、数据认知模块、数据相似度计算模块、数据推荐模块和数据通信模块;
所述数据读写接口通过物理介质与所述数据存储服务器进行接口通信,并与所述中心计算服务器的其他模块进行数据通信;
所述数据融合模块用于根据数据读写接口获取到的多源数据信息进行预处理后采用多粒度融合处理;
所述数据认知模块用于从多粒度融合后的融合特征中选取出低维向量,所述数据认知模块包括层级排列的多个数据特征层、激活函数计算模块以及分布函数模块;在满足分布函数模块所预设的分布函数下,按照所述激活函数计算模块所构建出的激活函数,逐层计算每个数据特征层的向量,直至计算出最后一层的低维向量;
其中,选取低维向量所采用的数据筛选函数定义如下:
rn=σ(w(1)xn+b(1))
Figure FDA0004087317430000011
第K-1层及第K层定义如下:
μ=w1 (K-1)rn+b1 (K-1),v=w2 (K-1)rn+b2 (K-1)
Figure FDA0004087317430000012
其中,rn表示涉案人员的n个属性的向量的初始表示;
Figure FDA0004087317430000021
表示涉案人员的n个属性在第k层的向量表示即涉案人员所学习到的低维向量;K为数据认知转换的层数总和;σ表示激活函数;μ代表服从案件数据的均值学习到的向量表示;ν代表一层根据案件数据方差学习到的向量表示;E表示预设的分布函数;w表示权重矩阵,即在深度学习过程中模型学习到的每个属性的权重值;b表示偏置向量;上标表示数据认知转换的层数,w(k)表示第k层中多粒度融合处理后案件数据的属性的权重值;b(k)表示第k层中多粒度融合处理后案件数据的偏置向量,/>
Figure FDA0004087317430000022
和/>
Figure FDA0004087317430000023
及/>
Figure FDA0004087317430000024
和/>
Figure FDA0004087317430000025
分别表示根据实际数据分布的均值和方差约束后的学习到的权重值和偏置值;
所述数据相似度计算模块用于对涉案人员及其密切人员按照选取后的融合特征进行相似度计算;
所述数据推荐模块用于对计算出相似度距离最近的K个密切人员进行推荐;
所述数据通信模块用于接收所述推荐模块所发出的K个密切人员信息,并上传至给网络通信服务器;
所述网络通信服务器用于传输所述中心计算服务器所计算出密切人员信息结果;
所述客户端用于从网络通信服务器接收所推荐出的密切人员信息结果或从所述数据存储服务器中查询特定的涉案人员信息以及与其相关人员的多源数据信息。
2.根据权利要求1所述的一种基于多粒度信息融合的职务犯罪筛查系统,其特征在于,所述数据融合模块包括多个子模块:
关系网络构建模块,用于构建出涉案人员的信息关系网络;
关系网络增删模块,用于在所述信息关系网络中添加各涉案人员之间的附加线索信息;
函数融合模块,用于根据信息关系网络和附加线索信息按照融合函数计算出涉案人员的融合特征。
3.一种基于多粒度信息融合的职务犯罪筛查方法,其特征在于,所述方法包括以下步骤:
从不同的采集终端调集案件的多源数据信息;
对所述多源数据信息进行预处理,构建出关于涉案人员的信息关系网络,并添加各涉案人员之间的附加线索信息;
将包含有信息关系网络结构和附加线索信息的多源数据信息进行多粒度融合处理;
按照多粒度认知计算理论从多粒度融合后的融合特征中学习出涉案人员的低维向量数据;在满足分布函数模块所预设的分布函数下,按照激活函数计算模块所构建出的激活函数,逐层计算每个数据特征层的向量,并迭代更新直至计算出最后一层的低维向量;
其中,选取低维向量所采用的数据筛选函数定义如下:
rn=σ(w(1)xn+b(1))
Figure FDA0004087317430000031
第K-1层及第K层定义如下:
μ=w1 (K-1)rn+b1 (K-1),v=w2 (K-1)rn+b2 (K-1)
Figure FDA0004087317430000032
其中,rn表示涉案人员的n个属性的向量的初始表示;
Figure FDA0004087317430000033
表示涉案人员的n个属性在第k层的向量表示即涉案人员所学习到的低维向量;K为数据认知转换的层数总和;σ表示激活函数;μ代表服从案件数据的均值学习到的向量表示;ν代表一层根据案件数据方差学习到的向量表示;E表示预设的分布函数;w表示权重矩阵,即在深度学习过程中模型学习到的每个属性的权重值;b表示偏置向量;上标表示数据认知转换的层数,w(k)表示第k层中多粒度融合处理后案件数据的属性的权重值;b(k)表示第k层中多粒度融合处理后案件数据的偏置向量,/>
Figure FDA0004087317430000041
和/>
Figure FDA0004087317430000042
及/>
Figure FDA0004087317430000043
和/>
Figure FDA0004087317430000044
分别表示根据实际数据分布的均值和方差约束后的学习到的权重值和偏置值;
按照学习到的低维向量数据计算出涉案人员及其密切人员的相似度距离;
按照所述相似度距离推荐出所述涉案人员的若干密切人员集合。
4.根据权利要求3所述的一种基于多粒度信息融合的职务犯罪筛查方法,其特征在于,所述对所述多源数据信息进行预处理至少包括数据清洗、数据变换以及数据集成。
5.根据权利要求3所述的一种基于多粒度信息融合的职务犯罪筛查方法,其特征在于,所述构建出关于涉案人员的信息关系网络包括按照案件的类型调整多源数据信息中的属性的数量;按照涉案人员与其密切人员的属性信息,构建出信息关系网络。
6.根据权利要求3所述的一种基于多粒度信息融合的职务犯罪筛查方法,其特征在于,所述将包含有信息关系网络结构和附加线索信息的多源数据信息进行多粒度融合处理包括采用融合函数计算出涉案人员的融合特征,所述融合函数表示为:
Figure FDA0004087317430000045
其中,H(vi)表示节点编号为i的涉案人员vi的融合特征;N(vi)表示与涉案人员vi有直接关系的密切人员集合;|N(vi)|表示与涉案人员vi有直接关系的密切人员个数,Aj为每一行原始属性信息和附加线索信息aj.的集合;aj.表示涉案人员vj的原始属性信息和附加线索信息,其中下标·表示涉案人员vj的原始属性信息和附加线索信息的索引,其值为1~n,n表示涉案人员vj的原始属性信息和附加线索信息的属性总数。
CN202010851950.0A 2020-08-21 2020-08-21 一种基于多粒度信息融合的职务犯罪筛查系统及方法 Active CN112016004B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010851950.0A CN112016004B (zh) 2020-08-21 2020-08-21 一种基于多粒度信息融合的职务犯罪筛查系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010851950.0A CN112016004B (zh) 2020-08-21 2020-08-21 一种基于多粒度信息融合的职务犯罪筛查系统及方法

Publications (2)

Publication Number Publication Date
CN112016004A CN112016004A (zh) 2020-12-01
CN112016004B true CN112016004B (zh) 2023-03-31

Family

ID=73505468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010851950.0A Active CN112016004B (zh) 2020-08-21 2020-08-21 一种基于多粒度信息融合的职务犯罪筛查系统及方法

Country Status (1)

Country Link
CN (1) CN112016004B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742603B (zh) * 2021-04-19 2023-09-05 重庆邮电大学 一种对象推荐方法、装置、系统及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009058915A1 (en) * 2007-10-29 2009-05-07 The Trustees Of The University Of Pennsylvania Computer assisted diagnosis (cad) of cancer using multi-functional, multi-modal in-vivo magnetic resonance spectroscopy (mrs) and imaging (mri)
CN111275007A (zh) * 2020-02-24 2020-06-12 山东大学 基于多尺度信息融合的轴承故障诊断方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5932612B2 (ja) * 2012-11-16 2016-06-08 株式会社スクウェア・エニックス 情報処理装置、制御方法、プログラム、及び記録媒体
CN104408153B (zh) * 2014-12-03 2018-07-31 中国科学院自动化研究所 一种基于多粒度主题模型的短文本哈希学习方法
CN109657011B (zh) * 2018-11-26 2021-10-01 山东师范大学 一种筛选恐怖袭击事件犯罪团伙的数据挖掘系统
CN109918544B (zh) * 2019-03-14 2021-03-12 重庆邮电大学 基于粗糙集的职务犯罪社会关系网络智能分析方法及系统
CN110263227B (zh) * 2019-05-15 2023-07-18 创新先进技术有限公司 基于图神经网络的团伙发现方法和系统
CN110108914B (zh) * 2019-05-21 2021-06-25 国网湖南省电力有限公司 一种反窃电智能化决策方法、系统、设备及介质
CN111259087B (zh) * 2020-01-10 2022-10-14 中国科学院软件研究所 基于领域知识库的计算机网络协议实体链接方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009058915A1 (en) * 2007-10-29 2009-05-07 The Trustees Of The University Of Pennsylvania Computer assisted diagnosis (cad) of cancer using multi-functional, multi-modal in-vivo magnetic resonance spectroscopy (mrs) and imaging (mri)
CN111275007A (zh) * 2020-02-24 2020-06-12 山东大学 基于多尺度信息融合的轴承故障诊断方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hozo S P.Estimating the mean and variance from the median, range, and the size of a sample.《BMC medical research methodology》.2005,1-10. *
闫贝贝.基于DNN声学模型的说话人自适应方法研究.《中国优秀硕士学位论文全文数据库信息科技辑》.2020,(第2期),I136-418. *

Also Published As

Publication number Publication date
CN112016004A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN108920544A (zh) 一种基于知识图谱的个性化职位推荐方法
US20220358607A1 (en) Artificial intelligence-based property data linking system
CN111898364B (zh) 神经网络关系抽取方法、计算机设备及可读存储介质
CN111274365B (zh) 基于语义理解的智能问诊方法、装置、存储介质及服务器
CN111612041B (zh) 异常用户识别方法及装置、存储介质、电子设备
CN109584094B (zh) 一种人际路径快速定位系统、方法及介质
CN110674840A (zh) 一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置
CN114639483A (zh) 一种基于图神经网络的电子病历检索方法及装置
CN112115971B (zh) 一种基于异质学术网络进行学者画像的方法及系统
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN117436724A (zh) 一种基于智慧城市的多源数据可视化分析方法及系统
CN110443574B (zh) 多项目卷积神经网络评审专家推荐方法
CN114219089B (zh) 一种新一代信息技术产业知识图谱的构建方法及设备
CN112016004B (zh) 一种基于多粒度信息融合的职务犯罪筛查系统及方法
CN112598039A (zh) 获取nlp分类领域阳性样本方法及相关设备
US20240086731A1 (en) Knowledge-graph extrapolating method and system based on multi-layer perception
CN116628524A (zh) 一种基于自适应图注意力编码器的社区发现方法
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN115587192A (zh) 关系信息抽取方法、设备及计算机可读存储介质
CN115564013B (zh) 提高网络表示学习表示能力的方法、模型训练方法和系统
JP4963341B2 (ja) 文書間関係可視化方法、可視化装置、可視化プログラム及びそのプログラムを記録した記録媒体
CN109086373B (zh) 一种构建公平的链接预测评估系统的方法
KR20210150103A (ko) 사용자 정보 기반 협업 파트너 추천 시스템 및 그 방법
Chen et al. Irlm: inductive representation learning model for personalized poi recommendation
RISQULLAH et al. Product recommendation system design using graph database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240618

Address after: Room 2-4-5, Building 4, No. 30 Yangjiaping Xijiao Road, Jiulongpo District, Chongqing, 401329

Patentee after: CHONGQING JINGFENG TECHNOLOGY CO.,LTD.

Country or region after: China

Address before: 400065 Chongwen Road, Nanshan Street, Nanan District, Chongqing

Patentee before: CHONGQING University OF POSTS AND TELECOMMUNICATIONS

Country or region before: China