CN114065060A - 数据分析方法、装置和存储介质 - Google Patents
数据分析方法、装置和存储介质 Download PDFInfo
- Publication number
- CN114065060A CN114065060A CN202010737579.5A CN202010737579A CN114065060A CN 114065060 A CN114065060 A CN 114065060A CN 202010737579 A CN202010737579 A CN 202010737579A CN 114065060 A CN114065060 A CN 114065060A
- Authority
- CN
- China
- Prior art keywords
- graph
- nodes
- node
- personnel
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000007405 data analysis Methods 0.000 title claims abstract description 42
- 238000010586 diagram Methods 0.000 claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 20
- 238000001914 filtration Methods 0.000 claims abstract description 16
- 230000006399 behavior Effects 0.000 claims abstract description 14
- 238000010801 machine learning Methods 0.000 claims description 17
- 238000012163 sequencing technique Methods 0.000 claims description 14
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000003068 static effect Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 10
- 238000010276 construction Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000011835 investigation Methods 0.000 description 5
- 235000008694 Humulus lupulus Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004308 accommodation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 241000411851 herbal medicine Species 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Fuzzy Systems (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Animal Behavior & Ethology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提出一种数据分析方法、装置和存储介质,涉及大数据技术领域。本公开的一种数据分析方法,包括:根据原始数据生成时序图,其中,时序图的节点包括时间或人员中的至少一项,时序图的边包括节点之间的关联关系;根据时序图确定图推理模型,图推理模型中包括节点的特征和特征的过滤值、边的特征和特征的过滤值,以及图搜索模式的特征和特征的过滤值,图搜索模式的特征类型包括度、关联和环链中的一项或多项;根据查询的源节点信息,在时序图中基于图推理模型确定目标节点。通过这样的方法,能够将海量数据归纳成以人为节点、以行为为边的图,通过图计算快速锁定满足条件的目标人员,提高数据信息利用率和目标查询的效率。
Description
技术领域
本公开涉及大数据技术领域,特别是一种数据分析方法、装置和存储介质。
背景技术
随着互联网、传感器技术的蓬勃发展,每天会产生着大量的数据。大量的数据中往往隐藏着有效信息,若将海量、多维的数据进行融合分析,将能够为业务决策提供数据支撑。当前大数据、人工智能的应用也推进多时,大数据也得到了一些应用。
发明内容
本公开的一个目的在于提出一种基于大数据挖掘以人为中心的社交关系的方法,提高数据信息利用率和目标查询的效率。
根据本公开的一些实施例的一个方面,提出一种数据分析方法,包括:根据原始数据生成时序图,其中,时序图的节点包括人员,或包括时间和人员,时序图的边包括节点之间的关联关系;根据时序图确定图推理模型,图推理模型中包括节点的特征和特征的过滤值、边的特征和特征的过滤值,以及图搜索模式的特征和特征的过滤值,图搜索模式包括度、关联和环链中的一项或多项;根据查询的源节点信息,在时序图中基于图推理模型确定目标节点。
在一些实施例中,图推理模型中还包括边的类型对应的权重,和图搜索模式的类型对应的权重;数据分析方法还包括:根据与目标节点相关联的各个边的类型的权重和边的属性值,获取目标节点的综合评价值;根据综合评价值对目标节点排序。
在一些实施例中,根据原始数据生成时序图包括:在原始数据中包括人员的情况下,生成人员节点,人员节点的属性包括人员标识;在原始数据中包括时间的情况下,生成时间节点,时间节点的属性包括时间标识;在原始数据中包括人员与人员之间的行为关系的情况下,在对应的人员节点之间生成边,边的属性包括行为的信息;在原始数据中包括人员产生行为的时间的情况下,在对应的人员节点和对应的时间节点之间生成边。
在一些实施例中,根据时序图确定图推理模型包括:提取时序图中节点和边的特征;将特征在正负样本中进行机器学习训练,获取目标任务的分类器和权重,生成图搜索模式;根据分类器、权重和时序图的拓扑结构,构建图计算模型。
在一些实施例中,根据分类器、权重和时序图的拓扑结构,构建图计算模型包括:根据图搜索模式从源节点出发,通过分别满足限制条件的与当前节点连接的边,到达符合要求的中间节点直至到达目标节点。
在一些实施例中,根据查询的源节点信息,在时序图中基于图推理模型确定目标节点包括:以源节点为起点,根据预定的边的类型设定搜索路线,且以过滤值为限定条件筛选能够匹配成功的路线,直至达到与源节点之间的最短路径跳数达到目标层的节点,作为目标节点。
在一些实施例中,人员节点的属性包括人员动态属性和人员静态属性;边的属性包括动态属性和静态属性。
在一些实施例中,数据分析方法还包括:确定目标节点对应的人员以便对人员执行预定操作。
在一些实施例中,数据分析方法还包括:根据目标节点的排序结果确定目标节点对应的人员的排序结果,以便按照排序顺序对人员执行预定操作。
通过这样的方法,能够将海量数据归纳成以人为节点、以行为为边的图,这样的图能够体现人的社交关系,通过图计算挖掘数据中隐含的社交信息,从而快速锁定满足条件的目标人员,提高数据信息利用率和目标查询的效率。
根据本公开的一些实施例的一个方面,提出一种数据分析装置,包括:时序图生成单元,被配置为根据原始数据生成时序图,其中,时序图的节点包括时间或人员中的至少一项,时序图的边包括节点之间的关联关系;推理模型生成单元,被配置为根据时序图确定图推理模型,图推理模型中包括节点的特征和特征的过滤值、边的特征和特征的过滤值,以及图搜索模式的特征和特征的过滤值,图搜索模式包括度、关联和环链中的一项或多项;目标节点查询单元,被配置为根据查询的源节点信息,在时序图中基于图推理模型确定目标节点。
在一些实施例中,图推理模型中还包括边的类型对应的权重,和图搜索模式的类型对应的权重;数据分析装置还包括排序单元,被配置为:根据与目标节点相关联的各个边的类型的权重和边的属性值,获取目标节点的综合评价值;根据综合评价值对目标节点排序。
根据本公开的一些实施例的一个方面,提出一种数据分析装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器的指令执行上文中提到的任意一种数据分析方法。
这样的装置能够将海量数据归纳成以人为节点、以行为为边的图,这样的图能够体现人的社交关系,通过图计算挖掘数据中隐含的社交信息,从而快速锁定满足条件的目标人员,提高数据信息利用率和目标查询的效率。
根据本公开的一些实施例的一个方面,提出一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现上文中提到的任意一种数据分析方法的步骤。
通过执行这样的存储介质上的指令,能够将海量数据归纳成以人为节点、以行为为边的图,这样的图能够体现人的社交关系,通过图计算挖掘数据中隐含的社交信息,从而快速锁定满足条件的目标人员,提高数据信息利用率和目标查询的效率。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本公开的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1为本公开的数据分析方法的一些实施例的流程图。
图2为本公开的数据分析方法中时序图的一些实施例的示意图。
图3为本公开的数据分析方法的一些实施例的示意图。
图4为本公开的数据分析装置的一些实施例的示意图。
图5为本公开的数据分析装置的另一些实施例的示意图。
图6为本公开的数据分析装置的又一些实施例的示意图。
具体实施方式
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
发明人发现,相关技术中对大数据信息的应用还存在着一些问题,如:
1.数据为被动获取,难以预判从而预防事件发生;
2.数据孤立、沉睡,无法多维度关联使用;
3.智能化程度不足。
近年来,全球大数据进入加速发展时期,数据量呈现指数级爆发式增长,而这些大量数据中不同个体间彼此交互产生的数据以图的形式表现。图G由V(vertice,节点)与E(edge,边)构成,我们一般表示为G(V,E)。图数据的典型例子比如网页链接关系、社交网络、商品推荐等。比如,社交网络,是由节点(个人、公众号)和边 (关注、点赞)构成的图;交易网络,是由节点(个人、商品)和边 (购买、收藏)构成的图。如此一来,抽象出来的图数据构成了研究和应用的基础,可以以此探究出“世界上任意两个人之间的人脉距离”,“关键意见领袖”等。
本公开提出利用图的方式融合多源异构数据,构建一套以人为中心的社交关系网络,并通过现有机器学习算法,总结、学习人工研判经验,并形成一套图计算推理方法,自动批量预测目标节点。
本公开的数据分析方法的一些实施例的流程图如图1所示。
在步骤101中,根据原始数据生成时序图。时序图的节点包括人员,或包括时间和人员。时序图的边包括节点之间的关联关系。例如,若原始数据中不包括时间信息,或基于经验判断人员之间的关系与时间无关,则可以生成节点仅包括人员节点,不包括时间节点的时序图,则时序图的边即为人与人之间的行为关系;若原始数据中包括时间信息,且基于经验判断人员之间的关系与时间有关,则可以生成包括人员节点、时间节点的时序图。
在步骤102中,根据时序图确定图推理模型,图推理模型中包括节点的特征和特征的过滤值、边的特征和特征的过滤值,以及图搜索模式的特征和特征的过滤值,图搜索模式的特征类型包括度、关联和环链中的一项或多项。在一些实施例中,可以通过机器学习的方法处理时序图,提取特征信息。
在步骤103中,根据查询的源节点信息,在时序图中基于图推理模型确定目标节点。在一些实施例中,可以输入源节点,进而根据边和节点的特征、特征的限制条件进行路径规划,得到符合要求的目标节点,该目标节点为人员节点,进而确定人员节点对应的人员信息。
在一些实施例中,具体查询的执行过程可以包括:以源节点为起点,根据预定的边的类型设定搜索路线,且以过滤值为限定条件筛选能够匹配成功的路线,直至达到与源节点之间的最短路径跳数达到目标层的节点,作为目标节点。
通过这样的方法,能够将海量数据归纳成以人为节点、以行为为边的图,这样的图能够体现人的社交关系,通过图计算挖掘数据中隐含的社交信息,从而快速锁定满足条件的目标人员,提高数据信息利用率和目标查询的效率。
在一些实施例中,图推理模型中还包括边的类型对应的权重,和图搜索模式的特征类型对应的权重。本公开的数据分析方法如图1所示,还可以包括步骤104:根据与目标节点相关联的各个边的类型的权重和边的属性值,获取目标节点的综合评价值,进而根据综合评价值对目标节点排序。
通过这样的方法,不仅能够得到目标节点和节点对应的人员,还能够对人员的符合程度进行排序,从而在得到的目标节点较多的情况下能够提供对目标节点人员进行处理的顺序,提高处理的时效性。
在一些实施例中,时序图可以如图2所示。根据原始数据生成时序图可以包括:在原始数据中包括人员的情况下,生成人员节点,人员节点的属性包括人员标识;在原始数据中包括时间的情况下,生成时间节点,时间节点的属性包括时间标识;在原始数据中包括人员与人员之间的行为关系的情况下,在对应的人员节点之间生成边,边的属性包括行为的信息;在原始数据中包括人员产生行为的时间的情况下,在对应的人员节点和对应的时间节点之间生成边。在一些实施例中,人员节点的属性包括人员动态属性和人员静态属性;边的属性包括动态属性和静态属性。
通过这样的方法,能够将时序动态信息融入人员关系图谱;在对时序图的处理上,考虑了节点、关系和属性的构建方式和动态更新方式;在图推理中,加入具有时序性的指标对于推理结果的影响考虑,增强了模型的时效性,增强了模型和基于模型得到的数据分析结果的时效性。
在一些实施例中,根据时序图确定图推理模型可以包括:提取时序图中节点和边的特征,进而将特征在正负样本中进行机器学习训练,获取目标任务的分类器和权重,生成图搜索模式。在此基础上,根据分类器、权重和时序图的拓扑结构,构建图计算模型,在一些实施例中,可以根据图搜索模式从源节点出发,通过分别满足限制条件的与当前节点连接的边,到达符合要求的中间节点直至到达目标节点。
通过这样的方法,能够通过机器学习方法学习人工经验,融合度、最短路径、社区划分等图特性,构建通联分析模型,基于图的特性提高了机器学习的准确性。
在一些实施例中,在得到目标节点的基础上,可以确定目标节点对应的人员,进而执行预定操作。预定操作可以与查询的目的有关,例如查询的目的是查询诈骗电话,则预定操作为将目标节点对应的人员信息提供给需要的机构等,从而实现对数据分析结果的有效应用。
在一些实施例中,在得到目标节点排序的基础上,可以进一步得到目标节点对应人员的排序结果,进而按照排序顺序对人员执行预定操作。预定操作可以与查询的目的有关,例如查询的目的是查询嫌疑犯,则预定操作为对每个嫌疑犯进行具体排查,由于排查操作费时费力,按照排序结果进行操作能够提高效率,减少用时。
本公开的数据分析方法的一些实施例的示意图如图3所示。数据分析方法主要包括时序通联关系图谱构建、图计算推理模型构建和通联关系节点搜索排序3个步骤。
1、时序通联关系图谱构建
将时序信息进行处理,转化为时序图存储。原始数据中的时序信息包括,动态更新的数据、时间日期和特定时间的行为3种,因此在时序图中,将动态更新的值作为节点属性、时间日期作为时间节点、特定时间的行为转化为和时间节点的关系进行存储。
时序图可以用G(V,E)表示。V为节点,包括时间节点和人员节点,时间节点属性包括但不限于时间ID,人员节点包括但不限于人员 ID,人员静态属性、人员动态属性;E为边,包括人员节点之间的边和人员节点与时间节点之间的边,边属性包括静态属性、动态属性。
2、图计算推理模型构建:使用机器学习的方法,学习人类专家研判经验,形成图计算推理模型的输入参数和推理路径。这一过程主要分为三个部分:
1)通过机器学习方法提取节点属性和关系属性中对于目标人物具有区分性的特征,举例如表1所示:
表1图特征提取
上表中,节点包括三类,其中两类为人员节点,一类为时间节点。 Vp-A1,Vp-A3,Vp-A6,Vp-A9-new-Vp-A9-old均为提取的人员特征值,Vt-A1为提取的时间特征值, Vp-A1-r,Vp-A3-r,Vp-A6-r,P%,Vt-A1-r分别为前述特征值的过滤值(即限制条件),X1~X3分别为各类节点的权重。
边特征的类型包括R1~R5五种。属于R1的特征R1-A1,R1-A3,R1-A6的过滤值分别为R1-A1-r,R1-A3-r,R1-A6-r,属于R2的特征R2-A2的过滤值为R2-A2-r,属于R3 的特征R3-A1,R3-A4的过滤值为R3-A1-r,R3-A4-r,属于R4的特征R4-A2的过滤值为R4-A2-r,属于R5的特征R5-A1为R5-A1-r。R1~R5的权重分别为X4~X8。
图搜索模式的特征类型在示例中包括度和关联环链两种,度的特征即为度,其过滤值M为自然数,关联环链的特征为是否存在关联环链,其取值包括0、1两种,度和关联环链的权重分别为X9和X10。
将前一步骤中提取的特征在正负样本中进行训练,获取目标任务分类器和各特征的权重,形成图搜索模式P(Vt,Rt)。基于表1的图搜索模式可以如下所示:
Vi→
((R1 and R1-A3>R1-A3-r)or(R4 and R4-A2>R4-A2-r))and R5→ Vm→
((R1 and R1-A3>R1-A3-r)or(R3 and R3-A1>R3-A1-r))and R2→ Vt and Vt.度<M and是否存在关联环链(A-B-C-A)==True
可归纳为Vz where Vz-A9-new-Vz-A9-old>=P%,即取满足特征Vz-A9-new-Vz-A9-old>=P%的节点Vz作为目标节点。
上述逻辑中,and、or均为逻辑运算符。
上述图搜索模式P(Vt,Rt)的含义为:从源节点Vi出发,通过边R1或R4,以及R5,且分别满足限制条件,到达符合要求的中间节点Vm,再通过边R1或R3,以及R2,且分别满足相应的限制条件后到达目标节点Vt,Vt表示所有符合要求的目标节点集合。
3)将分类器写成图计算模型。
基于训练的分类器和特征权重,结合拓扑结构特征,构建图计算模型。将特征和权重作为输入参数,分类器决策过程作为图推理逻辑,构建图计算模型。
3、当需要基于某个或某些人员进行搜索时,可以包括如下步骤:
1)输入人员对应源节点Vi;
2)图查询:查找其L层(L可以为2)最短路径节点。以表1为例,使用R1,R4、R5作为一层路径,R1,R3、R2作为二层路径,进行路径搜寻匹配,成功匹配后返回匹配结果。层数可以指节点与源节点的最短路径的跳数,如与Vi直连的节点为一层节点,与一层节点直连且不与Vi直连的节点为二层节点等。
3)筛选:限制衍生节点在子图中的度最小为a(a为正整数)。在一层推理中,至少包含路径R5;限制R1-A3>R1-A3-r;限制R4-A2>R4-A2-r;在二层推理中,至少包含路径R2;限制R1-A3>R1-A3-r;限制R3-A1>R3-A1-r;
4)排序:按照权重对得到的目标节点Vt进行排序,目标节点的带权重运算公式为:SUM(边属性权重*边属性值),其中,SUM为求和运算符。
通过这样的方法,将时序动态信息融入了人员关系图谱;在对时序图的处理上,考虑了节点、关系和属性的构建方式和动态更新方式,同时在图推理中,加入具有时序性的指标对于推理结果的影响考虑,增强了模型的时效性;使用机器学习的方法,通过机器学习方法学习人工经验,融合度、最短路径、社区划分等图特性,构建通联分析模型,基于图的特性提高了机器学习的准确性。
在一些实施例中,以电信领域的识别欺诈者为例,本公开的数据分析方法的运行过程可以包括:
1、时序通联关系图谱构建
以人为节点,人与人之间的通话关系为边构建人员关系图谱,边属性定时更新,点和边的属性如表2所示:
表2电信领域示例的点和边的属性
2、图计算推理模型构建
通过机器学习和图搜索模式,获取对于区分欺诈人员影响力较大的属性、关系及对应的筛选指标、权重如表3所示:
表3电信领域示例的图特征
通过机器学习和人工经验得到该图的图搜索模式为:起始节点→通话→目标节点。
上述模式中,目标节点应符合节点属性要求,查询边应符合边属性要求,同时可根据图搜索模式进行判断,避免将销售人员、快递外卖等误判为欺诈人员。
3、通联关系节点搜索排序
1)查找:通过图计算,查找其L层(L默认为2)最短路径共同点,使用通话作为路径。
2)过滤:限制目标节点和输入节点的关联关系必须包括通话关系;限制1)中提到的关联关系的相关指标符合限定的次数。
3)排序:按照衍生节点,在子图中的指标进行综合排序,节点权重公式为:
(接通电话次数/总通话次数)*0.2+(出度/度*0.2)+稳定关联用户的比例*0.3+是否存在关联环链*0.3
通过这样的方法,能够通过图计算的方式挖掘出可能的诈骗电话和其可能性大小,从而提高进一步排查的效率,预防电话诈骗的发生,减少诈骗电话造成的骚扰和用户损失。
在一些实施例中,以机构对目标群体人员的搜索为例,本公开的数据分析方法的运行过程可以包括:
1、时序通联关系图谱构建
以人和时间为点,以人与人、人与被抓获时间的关系为边构建人员关系图谱:边包括通话关系、互发短信关系、通讯录关系、实时话单通话关系、共享WiFi(WirelessFidelity,无线局域网)关系、MAC 地址(Media Access Control,媒体访问控制地址)协同共现关系、酒店住宿信息,每条关系边都有不同的指标表示不同的权重,各种类型点/边的属性如表所示:
表4点和边的属性
2、图计算推理模型构建
通过机器学习和图搜索模式,获取对于区分目标群体人员影响力较大的属性、关系及对应的筛选指标、权重如表所示:
表5示例的图特征
通过机器学习和人工经验,确定图搜索模式为:
起始点→(通话or实时话单)and共享wifi)→
中间节点→((通话or实时话单)and共享wifi)→目标节点
将上述图搜索模式进行归纳即为起始点→通讯录→目标节点
上述模式中,中间节点和目标节点应符合节点属性要求,查询边应符合边属性要求,同时目标节点满足在子图中度不小于5的要求。
3、通联关系节点搜索排序
1)查找:批量输入已知的目标群体的人员,通过图计算,查找其 L层(L默认为2)最短路径共同点,使用通话、实时话单、共享wifi、通讯录备注作为路径。
2)过滤:限制目标节点在子图中的度最小为m(m默认为5);限制衍生节点和输入节点的关联关系必须包括通话关系/实时话单关系/通讯录关系;限制1)中提到的关联关系的相关指标符合限定的次数。
3)排序:按照目标节点,在子图中的指标进行综合排序,节点权重公式为:
实时话单次数*0.3+共享wifi次数*0.2+夜间通话次数*0.3+通讯录备注比例*0.2
通过这样的方法,能够通过图计算的方式挖掘出可能的目标群体人员,为进一步排查提供数据基础,提高排查的效率。
本公开的数据分析装置的一些实施例的示意图如图4所示。
时序图生成单元401能够根据原始数据生成时序图。时序图的节点包括时间或人员中的至少一项,时序图的边包括节点之间的关联关系。例如,若原始数据中不包括时间信息,或基于经验判断人员之间的关系与时间无关,则可以生成节点仅包括人员节点,不包括时间节点的时序图,则时序图的边即为人与人之间的行为关系;若原始数据中包括时间信息,且基于经验判断人员之间的关系与时间有关,则可以生成包括人员节点、时间节点的时序图。
推理模型生成单元402能够根据时序图确定图推理模型,图推理模型中包括节点的特征和特征的过滤值、边的特征和特征的过滤值,以及图搜索模式的特征和特征的过滤值,图搜索模式的特征类型包括度、关联和环链中的一项或多项。在一些实施例中,可以通过机器学习的方法处理时序图,提取特征信息。
目标节点查询单元403能够根据查询的源节点信息,在时序图中基于图推理模型确定目标节点。在一些实施例中,可以输入源节点,进而根据边和节点的特征、特征的限制条件进行路径规划,得到符合要求的目标节点,该目标节点为人员节点,进而确定人员节点对应的人员信息。
在一些实施例中,具体查询的执行过程可以包括:以源节点为起点,根据预定的边的类型设定搜索路线,且以过滤值为限定条件筛选能够匹配成功的路线,直至达到与源节点之间的最短路径跳数达到目标层的节点,作为目标节点。
这样的装置能够将海量数据归纳成以人为节点、以行为为边的图,这样的图能够体现人的社交关系,通过图计算挖掘数据中隐含的社交信息,从而快速锁定满足条件的目标人员,提高数据信息利用率和目标查询的效率。
在一些实施例中,图推理模型中还包括边的类型对应的权重,和图搜索模式的类型对应的权重。数据分析装置还包括排序单元404能够根据与目标节点相关联的各个边的类型的权重和边的属性值,获取目标节点的综合评价值,进而根据综合评价值对目标节点排序。
这样的装置不仅能够得到目标节点和节点对应的人员,还能够对人员的符合程度进行排序,从而在得到的目标节点较多的情况下能够提供对目标节点人员进行处理的顺序,提高处理的时效性。
在一些实施例中,数据分析装置还可以包括数据应用单元,能够在得到目标节点的基础上,确定目标节点对应的人员,进而执行预定操作。预定操作可以与查询的目的有关,例如查询的目的是查询诈骗电话,则预定操作为将目标节点对应的人员信息提供给需要的机构等,从而实现对数据分析结果的有效应用。在一些实施例中,在排序单元 404得到目标节点排序的基础上,数据应用单元能够进一步得到目标节点对应人员的排序结果,进而按照排序顺序对人员执行预定操作。预定操作可以与查询的目的有关,例如查询的目的是查询嫌疑犯,则预定操作为对每个嫌疑犯进行具体排查,由于排查操作费时费力,按照排序结果进行操作能够提高效率,减少用时。
本公开数据分析装置的一个实施例的结构示意图如图5所示。数据分析装置包括存储器501和处理器502。其中:存储器501可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储上文中数据分析方法的对应实施例中的指令。处理器502耦接至存储器501,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器502用于执行存储器中存储的指令,能够快速锁定满足条件的目标人员,提高数据信息利用率和目标查询的效率。
在一个实施例中,还可以如图6所示,数据分析装置600包括存储器601和处理器602。处理器602通过BUS总线603耦合至存储器 601。该数据分析装置600还可以通过存储接口604连接至外部存储装置605以便调用外部数据,还可以通过网络接口606连接至网络或者另外一台计算机系统(未标出)。此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,能够快速锁定满足条件的目标人员,提高数据信息利用率和目标查询的效率。
在另一个实施例中,一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现数据分析方法对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/ 或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法以及装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法以及装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
最后应当说明的是:以上实施例仅用以说明本公开的技术方案而非对其限制;尽管参照较佳实施例对本公开进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本公开的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本公开技术方案的精神,其均应涵盖在本公开请求保护的技术方案范围当中。
Claims (13)
1.一种数据分析方法,包括:
根据原始数据生成时序图,其中,所述时序图的节点包括人员,或包括时间和人员,所述时序图的边包括所述节点之间的关联关系;
根据所述时序图确定图推理模型,所述图推理模型中包括节点的特征和特征的过滤值、边的特征和特征的过滤值,以及图搜索模式的特征和特征的过滤值,所述图搜索模式的特征类型包括度、关联和环链中的一项或多项;
根据查询的源节点信息,在所述时序图中基于所述图推理模型确定目标节点。
2.根据权利要求1所述的方法,其中,所述图推理模型中还包括节点的类型对应的权重、边的类型对应的权重,和图搜索模式的特征类型对应的权重中的一种或多种;
还包括:
根据所述目标节点的特征和权重,获取所述目标节点的综合评价值;
根据所述综合评价值对所述目标节点排序。
3.根据权利要求1所述的方法,其中,所述根据原始数据生成时序图包括:
在所述原始数据中包括人员的情况下,生成人员节点,所述人员节点的属性包括人员标识;
在所述原始数据中包括时间的情况下,生成时间节点,所述时间节点的属性包括时间标识;
在所述原始数据中包括人员与人员之间的行为关系的情况下,在对应的人员节点之间生成边,边的属性包括行为的信息;
在所述原始数据中包括人员产生行为的时间的情况下,在对应的人员节点和对应的时间节点之间生成边。
4.根据权利要求1所述的方法,其中,所述根据所述时序图确定图推理模型包括:
提取时序图中节点和边的特征;
将特征在正负样本中进行机器学习训练,获取目标任务的分类器和权重,生成图搜索模式;
根据所述分类器、所述权重和所述时序图的拓扑结构,构建图计算模型。
5.根据权利要求4所述的方法,其中,所述根据所述分类器、所述权重和所述时序图的拓扑结构,构建图计算模型包括:
根据所述图搜索模式从源节点出发,通过分别满足限制条件的与当前节点连接的边,到达符合要求的中间节点直至到达目标节点。
6.根据权利要求1所述的方法,其中,所述根据查询的源节点信息,在所述时序图中基于所述图推理模型确定目标节点包括:
以源节点为起点,根据预定的边的类型设定搜索路线,且以所述过滤值为限定条件筛选能够匹配成功的路线,直至达到与所述源节点之间的最短路径跳数达到目标层的节点,作为所述目标节点。
7.根据权利要求3所述的方法,其中,
所述人员节点的属性包括人员动态属性和人员静态属性;
所述边的属性包括动态属性和静态属性。
8.根据权利要求1所述的方法,还包括:
确定所述目标节点对应的人员以便对人员执行预定操作。
9.根据权利要求2所述的方法,还包括:
根据所述目标节点的排序结果确定目标节点对应的人员的排序结果,以便按照排序顺序对人员执行预定操作。
10.一种数据分析装置,包括:
时序图生成单元,被配置为根据原始数据生成时序图,其中,所述时序图的节点包括时间或人员中的至少一项,所述时序图的边包括所述节点之间的关联关系;
推理模型生成单元,被配置为根据所述时序图确定图推理模型,所述图推理模型中包括节点的特征和特征的过滤值、边的特征和特征的过滤值,以及图搜索模式的特征和特征的过滤值,所述图搜索模式包括度、关联和环链中的一项或多项;
目标节点查询单元,被配置为根据查询的源节点信息,在所述时序图中基于所述图推理模型确定目标节点。
11.根据权利要求10所述的装置,其中,所述图推理模型中还包括边的类型对应的权重,和图搜索模式的类型对应的权重;
还包括排序单元,被配置为:
根据与所述目标节点相关联的各个边的类型的权重和边的属性值,获取所述目标节点的综合评价值;
根据所述综合评价值对所述目标节点排序。
12.一种数据分析装置,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至9任一项所述的方法。
13.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现权利要求1至9任意一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010737579.5A CN114065060B (zh) | 2020-07-28 | 2020-07-28 | 数据分析方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010737579.5A CN114065060B (zh) | 2020-07-28 | 2020-07-28 | 数据分析方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114065060A true CN114065060A (zh) | 2022-02-18 |
CN114065060B CN114065060B (zh) | 2023-09-08 |
Family
ID=80226581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010737579.5A Active CN114065060B (zh) | 2020-07-28 | 2020-07-28 | 数据分析方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114065060B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089722A (zh) * | 2023-02-15 | 2023-05-09 | 北京欧拉认知智能科技有限公司 | 基于图产出标签的实现方法、装置、计算设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070174304A1 (en) * | 2006-01-20 | 2007-07-26 | Microsoft Corporation | Querying social networks |
US20130086057A1 (en) * | 2011-10-04 | 2013-04-04 | Microsoft Corporation | Social network recommended content and recommending members for personalized search results |
CN110334159A (zh) * | 2019-05-29 | 2019-10-15 | 苏宁金融服务(上海)有限公司 | 基于关系图谱的信息查询方法和装置 |
CN110674413A (zh) * | 2019-09-09 | 2020-01-10 | 平安科技(深圳)有限公司 | 用户关系挖掘方法、装置、设备和存储介质 |
CN111104521A (zh) * | 2019-12-18 | 2020-05-05 | 上海观安信息技术股份有限公司 | 一种基于图分析的反欺诈检测方法及检测系统 |
CN111178531A (zh) * | 2018-11-09 | 2020-05-19 | 百度在线网络技术(北京)有限公司 | 关系推理以及关系推理模型的获取方法、装置及存储介质 |
CN111353513A (zh) * | 2018-12-20 | 2020-06-30 | 杭州海康威视数字技术股份有限公司 | 一种目标人群筛选的方法、装置、终端和存储介质 |
-
2020
- 2020-07-28 CN CN202010737579.5A patent/CN114065060B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070174304A1 (en) * | 2006-01-20 | 2007-07-26 | Microsoft Corporation | Querying social networks |
US20130086057A1 (en) * | 2011-10-04 | 2013-04-04 | Microsoft Corporation | Social network recommended content and recommending members for personalized search results |
CN111178531A (zh) * | 2018-11-09 | 2020-05-19 | 百度在线网络技术(北京)有限公司 | 关系推理以及关系推理模型的获取方法、装置及存储介质 |
CN111353513A (zh) * | 2018-12-20 | 2020-06-30 | 杭州海康威视数字技术股份有限公司 | 一种目标人群筛选的方法、装置、终端和存储介质 |
CN110334159A (zh) * | 2019-05-29 | 2019-10-15 | 苏宁金融服务(上海)有限公司 | 基于关系图谱的信息查询方法和装置 |
CN110674413A (zh) * | 2019-09-09 | 2020-01-10 | 平安科技(深圳)有限公司 | 用户关系挖掘方法、装置、设备和存储介质 |
CN111104521A (zh) * | 2019-12-18 | 2020-05-05 | 上海观安信息技术股份有限公司 | 一种基于图分析的反欺诈检测方法及检测系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116089722A (zh) * | 2023-02-15 | 2023-05-09 | 北京欧拉认知智能科技有限公司 | 基于图产出标签的实现方法、装置、计算设备和存储介质 |
CN116089722B (zh) * | 2023-02-15 | 2023-11-21 | 北京欧拉认知智能科技有限公司 | 基于图产出标签的实现方法、装置、计算设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114065060B (zh) | 2023-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104794192B (zh) | 基于指数平滑、集成学习模型的多级异常检测方法 | |
CN109508383A (zh) | 知识图谱的构建方法及装置 | |
CN103678672B (zh) | 一种信息推荐方法 | |
Zhu et al. | Mining personal context-aware preferences for mobile users | |
JP2019500685A (ja) | ターゲットオブジェクトのソーシャルアカウントをマイニングするための方法、サーバ、および記憶媒体 | |
CN105912652B (zh) | 基于关联规则和用户属性的异常行为检测方法和系统 | |
CN109344326B (zh) | 一种社交圈的挖掘方法和装置 | |
WO2020038100A1 (zh) | 一种特征关系推荐方法及装置、一种计算设备及存储介质 | |
Munasinghe et al. | Time score: A new feature for link prediction in social networks | |
CN109711746A (zh) | 一种基于复杂网络的信用评估方法和系统 | |
CN106844407A (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN111611309A (zh) | 话单数据关系网络交互式可视化方法 | |
CN109325232A (zh) | 一种基于lda的用户行为异常分析方法、系统及存储介质 | |
CN110609908A (zh) | 案件串并方法及装置 | |
CN109087145A (zh) | 目标人群挖掘方法、装置、服务器及可读存储介质 | |
CN109102418A (zh) | 基于用户关系的社交网络垃圾账号识别方法 | |
CN109800251A (zh) | 一种关系发现方法和装置、计算机可读存储介质 | |
CN115439197A (zh) | 基于知识图谱深度学习的电子商务推荐方法及系统 | |
CN111127185A (zh) | 信贷欺诈识别模型构建方法及装置 | |
Fu et al. | Evidence directed generation of plausible crime scenarios with identity resolution | |
CN113010255A (zh) | 基于捆绑会话组的交互方法、装置和计算机设备 | |
CN114065060B (zh) | 数据分析方法、装置和存储介质 | |
CN112925899B (zh) | 排序模型建立方法、案件线索推荐方法、装置及介质 | |
CN105069003B (zh) | 一种基于转发链相似度的用户关注对象推荐计算方法 | |
CN112667869B (zh) | 数据处理方法、设备、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |