CN112287020A

CN112287020A - 一种基于图分析的大数据挖掘方法

Info

Publication number: CN112287020A
Application number: CN202011609872.XA
Authority: CN
Inventors: 韩国权; 黄海峰; 李佳忆; 邱张华
Original assignee: Taiji Computer Corp Ltd
Current assignee: Taiji Computer Corp Ltd
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-01-29
Anticipated expiration: 2040-12-31
Also published as: CN112287020B

Abstract

本发明公开了一种基于图分析的大数据挖掘方法，所述方法首先对用户的多源数据统一建模与表征，对上述多源数据进行融合和分类；其中，所述用户的多源数据融合和分类，是通过对用户的数据进行聚类，以执行对不同的用户类型和行为分类；对用户行为的多源数据进行融合和分类之后，建立数据源集合与决策需求集合之间的关联关系，通过将数据挖掘检测分为，数据级和决策级两个层级，实现了用户行为的融合检测。

Description

一种基于图分析的大数据挖掘方法

技术领域

本发明涉及数据处理领域，具体适用于基于图分析的数据挖掘的应用。

背景技术

在大数据时代，对数据的要求越来越高、越来越严格，对数据采集工作也提出了新的、更高的要求。大数据是以文本、图片、音频、视频等非结构化数据为主，其信息密度相对较低、应用价值潜力较大。

上述数据之间的关联性存在于不同的数据库之间，目前通过现有的网络等自然且便利地获得各种不数据，但是针对纷繁芜杂的数据的，传统的梳理数据的方式，是采用人工分类等方式，由于各种数据来源之间的关联性和非逻辑性的处理量超出了人工的处理能力，同时大数据的数据量比较大且实时性强，目前5G等数据网络的广泛应用，增强了数据网络的传输能力，现有的数据人工智能和基于神经网络等算法的出现，也使得计算机的处理能力大大提升。

因此，基于现有采集到的业务数据等，借助于大数据处理技术，辅助提升提高系统处理效率等已经在应用。如现有的技术中，利用人工智能和知识图谱等大数据相关技术，以智能审判为入口，基于案情智能研判分析平台针对案件全程进行案件案情要素的自动识别以及提取，并根据法院认定的案情要素分析案件特征，精准推送具有像是案件特征的案例及对其他数据规律的分析支撑，为法官在阅卷，研判、开庭、及文书编写等多个环节，提供智能辅助。最终以辅助法官研判案件为核心，同时整合与法官审判过程有关的各个周边服务，构建出一套一体化、全流程的智能办案服务解决方案。在上述系统的研发中发现，对于用户行为数据的挖掘是保障该办案系统有效性的重要手段。

目前而言，对于该特定场景下的用户挖掘的方案并不多，如何增大挖掘出大数据的逻辑关系提高法院等用户的使用效果，扩展大数据的应用场景，充分挖掘出数据之间的关联性，以实现大数据的被充分利用，确保挖掘的准确性和辅助用户提高处理效率等，成为迫切的需要。

发明内容

为解决上述技术问题至少之一，本方案提出一种基于图分析的大数据挖掘方法和系统。

本发明提出一种基于图分析的大数据挖掘方法和系统，其中所述方法包括，

步骤S10, 首先对用户的多源数据统一建模与表征，对上述多源数据进行融合和分类；其中，所述用户的多源数据融合和分类，是通过对用户的数据进行聚类，以执行对不同的用户类型和行为分类。

步骤S20，对用户行为的多源数据进行融合分类之后，建立数据源集合与决策需求集合之间的关联关系，通过距离熵量化两者之间的关联关系，获取到多源数据集合和决策需求集合之间的关联图；其中，根据距离熵进行多源数据集合和决策需求集合之间的关联，距离熵越大，表示两者集合之间的相似度越低。

进一步，其中，所述用户的多源数据包括用户交易行为数据，所述交易行为数据的聚类分析，所述聚类分析从依据交易行为时间序列、行为空间图谱对用户行为数据做挖掘。

进一步，其中，所述聚类分析从依据交易行为时间序列、行为空间图谱对用户行为数据做挖掘，具体是，对于交易行为时间序列，将用户行为的账户行为映射为有限行为集合中，并采用频繁行为序列模式、专有行为序列模式对用户行为的账户行为进行表示，进而与特定行为人行为的时间分布模式进行对比检测；其中，对交易行为空间图谱的挖掘是，将用户行为中的账户行为按照交易对象映射为多维空间中的数据点，采用空间聚集相似度衡量方法，将其与特定行为人关联行为的空间分布模式进行对比检测。

进一步，所述用户行为的多源信息包括，包括与用户关联的人进行聚类分析，所述聚类分析是至少基于：网络社交信息、银行转账信息、房产过户信息、有价证券交易信息、代付信息、社交信息、共同交通出行信息、虚拟资产赠与或转让信息。

进一步，所述对用户行为融合和分类还包括，对用户的所述群体进行划分，所述划分具体为，通过协同性的关联行为形成网络中的关联社区结构图，基于随机游走的结构社区图检测和关联社区中的密切关联账户群具有相似的行为特征，确定出密切关联群。

进一步，包括，在确定密切关联群是通过极大似然相似性算法实现账户在不同关联群的归属的划分。

进一步，所述对用户的区分画像至少基于：交易类型、交易金额、交易时间、交易对象、交易方式。

进一步，所述方法还包括，所述聚类方法采用k-meams聚类算法。

本申请通过鉴于资产隐匿行为的判定依靠单一模式的实体或虚拟金融网络交易行为信息进行隐匿行为检测具有较大的不确定性，为此，我们利用多源数据借助信息融合降低检测不确定性，将数据挖掘检测分为，数据（线索）级和决策级两个层级入手，实现资产隐匿行为的融合检测。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本方法的流程示意图。

图2 是多数据源和决策需求关联的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

互联网金融及相关业务的发展日新月异，网络交易行为日趋平常，网络交易数据倍增，同时在虚拟网络金融交易日益隐蔽化、便捷化，实践中上述虚拟网络金融交易成为财产隐匿的重要手段之一，给经济安全和保障准确量刑和判决的执行效率带来了负面效应。基于该应用场景，本申请提出了一种基于知识图谱技术的，对于虚拟金融交易行为隐匿涉案财产的，大数据挖掘方法和系统。资产隐匿行为的判定依靠单一模式的实体或虚拟金融网络交易行为信息进行隐匿行为检测具有较大的不确定性，为此，我们利用多源信息借助信息融合降低检测不确定性，将数据挖掘检测分为，数据（线索）级和决策级两个层级入手，实现资产隐匿行为的融合检测。

如图1所示，步骤S10, 首先对网络金融交易行为数据及实体的银行、房产、有价证券、车辆、土地等异类异构数据进行统一建模与表征，对上述多源数据进行融合和分类。可选的根据金融交易行为分为，可以按照事件的发生为节点区分为事前，事中，事后等，依据多粒度模糊集，设置粒度阈值进行划分，执行数据的分类。

当判断如果网络金融诈骗犯罪嫌疑人自身的实体交易数据及虚拟网络金融交易行为数据不够充分，无法完成隐匿行为的检测，则利用知识图谱中关联的信息数据，通过知识图谱中各个不同实体之间的概率跳转关系，将与该嫌疑人的实体关联的信息，可选的将利用网络社交信息、银行转账信息、房产过户信息、有价证券交易信息、代付信息、社交信息、共同交通出行信息、虚拟资产赠与或转让信息等进行被执行人的密切关联人群执行聚类运算，可以通过以选定的关键词，对其中具体执行人群或行为聚类，可选的通过聚类重点人物，从而对该重点人物的数据执行模式识别分类，从而甄选出哪些是正常往来，哪些涉嫌隐匿资产；同样的，也可以将上述聚类运算和模式识别分类针对不同财产的交易或赠予行为，以获取资产隐匿行为线索。可选的采用k-meams空间聚类分析方法，对类型进行分类。

优选的，在针对被执行人的密切关联人群账户的虚拟网络交易行为，从银行、证券、不动产、第三方在线支付、虚拟资产转赠等不同的交易平台，分别建立财产隐匿行为的挖掘分类中，构建从交易行为时间序列、行为空间图谱等角度建立财产隐匿行为的挖掘。通过引入交易行为事件序列和行为空间图谱参数的权重值来对隐匿行为进行细粒度划分，在划分时采用第一层和第二层类型划分的方式，使得不同类别的粒度更精确，从而在执行聚类时，可做多参数维度之间的映射。

当面向不同交易平台的财产隐匿行为挖掘分类中，针对银行、证券、不动产等交易平台，采用账户画像方法，从交易类型、交易金额、交易时间、交易对象、交易方式等多个角度建立财产隐匿行为的挖掘分类。针对不同交易平台的挖掘分类可有效表示账户的交易行为模式，可用于有效支持账户自交易行为、代支付交易行为和代持有交易行为的识别。

财产隐匿行为的挖掘检测中。针对识别到的密切关联人群的代支付交易行为和代持有交易行为，以交易行为序列、交易行为图谱等角度，对执行人财产隐匿行为的挖掘分类。对于交易行为时间序列，将账户行为映射为有限行为集合中，并采用频繁行为序列模式、专有行为序列模式对账户行为进行表示，进而与被执行人相关行为的时间分布模式进行对比检测。对于交易行为空间图谱，将账户行为按照交易对象映射为多维空间中的数据点，提出空间聚集相似度衡量方法，将其与被执行人相关行为的空间分布模式进行对比检测。

可选的，各类实体的及虚拟金融交易数据建模与表征是指对资产隐匿行为相关的行为数据的抽象组织，确定数据库需管辖的范围、数据的组织形式等直至转化成后续数据分析与挖掘可用的数据库。不同来源（诸如银行、证券、房产、虚拟资产等）获取的交易行为数据各不相同，诸如数据字段定义、字长、类型等语法格式不同。有些数据除文本外，还包含有诸如图像、视频、音频等信息。同时在做数据分析挖掘时，可以引用领域决策学中的，领域专家的经验性知识等非结构化数据信息，即通过获取专家的打分数据和历史学习数据，对各类数据分析分布的结构化信息权重进行赋值。对不同信源的异类异构特性利用本体论（ontology）通过全局本体和局部本体的映射实现系统数据的语义解释，构建领域知识图谱，使得异构数据库对于行为分析与挖掘应用层透明。

步骤S02建立数据源集合与决策需求集合之间的关联关系，通过距离熵的量化两者之间的关联关系，获取到多源数据集合和决策需求集合之间的关联图。所述关联图如图2所示。

依据上述聚类算法获得的各种线索上述线索数据，通过知识元表示，利用粒度原理，各个线索体现的为融合后的多源知识数据，利用粒度原理通过多源数据和决策需求对象的概念，属性，关联来描述。多源数据对象进行知识元表示Om=(Cm,Am,Rm, BFm)其中，Cm为该对象的概念和属性集合；Am为经过提取后的关键词集合；Rm表示与其它数据源和决策需求之间的关联和映射；BFm表示该数据的信任度，可选的多源数据和决策需求按照关联度和信任度进行深度关联和融合，关键词之间的关系可以为因果，顺序，跟随，并发，互斥，空间关系。

基于距离熵的关联量化。基于特征融合过程是不断拉近多源数据，决策需求之间的距离的过程，通过最优距离促进融合的稳定性，达到融合系统的总熵最小，信息量最大化。

在已经构建的多个数据源和决策需求m个集合中，每个集合中存在n个知识元，各个集合的距离熵计算方法如下，

参考获取的关键词，给定各个集合的最优值

，表示第j个（j=1，2...,m）集合中的最优值，计算与其它集合与该集合之间的距离，

式中，

表示第j个集合和第i个集合（i=1，2...,n)个集合的信息单元值。第i个集合的距离熵：

根据距离熵进行多源数据和决策需求之间的关联，距离熵越大，表示集合之间的相似度越低，可选的还可以结合多源数据信任属性和距离熵进行语义关联和融合，以形成多源数据和决策需求语义关联图。

可选的在距离决策步骤中，包括设置一个推理规则库的步骤，在该推理规则库构建可纳入专家经验或历史经验机器学习的知识，在决策级，借助于该推理规则库中的领域知识生成基于不同单一线索判定是否存在隐匿行为的置信度或隶属度。

可选的在执行融合检测之前，构建决策需求集合，所述决策需求集合，根据决策需求进行化分。

实施例2

实施例1的方案中，对于人群的画像，通过虚拟网络中的账户通过协同性的关联行为紧密地连接在一起，从而形成网络中的关联社区结构，基于随机游走的图结构社区检测和关联社区中的密切关联账户群具有相似的行为特征，利用极大似然相似性，确定出密切关联群，统一刻画关联群账户的行为特征。此外，关联群中的账户可能同时属于多个关联群，通过极大似然相似性的解决账户在不同关联群的归属问题，从而挖掘出被执行人的密切关联人群，进而提隐匿财产行为挖掘的有效性。

实施例3

本方法可以应用于对于法院对于被申请人的财产执行当中，针对被执行人资产隐匿行为的多线索融合检测，为执行取证，以及后续法院执行奠定基础，降低人工的参与度，有效辅助隐匿涉案财物的检测。

实施例4

基于如上所述的示例，在一个实施例中涉及方法步骤的特征，可以被本发明提供的一种计算机设备/或系统实现，该计算机设备/系统包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现如上述各实施例中的任意一种方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性的计算机可读取存储介质中，如本发明实施例中，该程序可存储于计算机系统的存储介质中，并被该计算机系统中的至少一个处理器执行，以实现包括如上述各视频播放方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

据此，还提供一种存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如上述各实施例中的任意涉及的方法步骤。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于图分析的大数据挖掘方法，其特征在于：

步骤S10, 首先对用户的多源数据统一建模与表征，对上述用户的多源数据进行融合和分类；其中，所述用户的多源数据融合和分类，是通过对用户的多源数据进行聚类分析，以执行对不同的用户类型和行为分类；

步骤S20，对用户的多源数据进行融合和分类之后，建立数据源集合与决策需求集合之间的关联关系，通过距离熵量化两者之间的关联关系，获取到多源数据集合和决策需求集合之间的关联图，用以执行融合检测；其中，根据距离熵进行多源数据集合和决策需求集合之间的关联，距离熵越大，表示两者集合之间的相似度越低；

其中，距离熵由以下方式获得，构建的数据源和决策需求m个集合中，每个集合中存在n个知识元；

给定各个集合的最优值

，表示第j个（j=1，2...,m）集合中的最优值，计算其它集合与该集合之间的距离，

式中，

表示第j个集合和第i（i=1，2...,n)个集合的信息单元值；第i个集合的距离熵：

。

2.如权利要求1所述的方法，其特征在于：所述用户的多源数据包括用户交易行为数据，依据交易行为时间序列、行为空间图谱对用户交易行为数据做聚类分析。

3.如权利要求2所述的方法，其特征在于：所述依据交易行为时间序列、行为空间图谱对用户交易行为数据做聚类分析，具体是，对于交易行为时间序列，将用户行为的账户行为映射为有限行为集合中，并采用频繁行为序列模式、专有行为序列模式对用户行为的账户行为进行表示，进而与特定行为人行为的时间分布模式进行对比检测；

其中，对交易行为空间图谱的分析是，将用户行为中的账户行为按照交易对象映射为多维空间中的数据点，采用空间聚集相似度衡量方法，将其与特定行为人关联行为的空间分布模式进行对比检测。

4.如权利要求3所述的方法，其特征在于：所述聚类分析至少基于：网络社交信息、银行转账信息、房产过户信息、有价证券交易信息、代付信息、社交信息、共同交通出行信息、虚拟资产赠与或转让信息。

5.如权利要求4所述的方法，其特征在于：对用户行为融合和分类，还包括，对用户的所属于密切关联群体进行确定，所述确定具体为，通过协同性的关联行为形成网络中的关联社区结构图，基于随机游走的结构社区图检测和关联社区中的密切关联账户群具有相似的行为特征，确定出密切关联群。

6.如权利要求5所述的方法，其特征在于：确定密切关联群是通过极大似然相似性算法进行执行。

7.如权利要求6所述的方法，其特征在于：对用户所属群进行确定中，包括对用户执行画像，所述对用户的区分画像至少基于以下参数：交易类型、交易金额、交易时间、交易对象和交易方式。

8.如权利要求7所述的方法，其特征在于：所述聚类分析，采用k-meams聚类算法。

9.一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序用于执行权利要求1-8中任一权利要求所述的方法。