CN114610921B - 对象集群画像确定方法、装置、计算机设备和存储介质 - Google Patents
对象集群画像确定方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN114610921B CN114610921B CN202111445580.1A CN202111445580A CN114610921B CN 114610921 B CN114610921 B CN 114610921B CN 202111445580 A CN202111445580 A CN 202111445580A CN 114610921 B CN114610921 B CN 114610921B
- Authority
- CN
- China
- Prior art keywords
- cluster
- node
- subgraph
- behavior
- behavior data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种对象集群画像确定方法、装置、计算机设备和存储介质,包括:获取包括多个候选对象标识对应的行为数据的对象行为数据集合,行为数据是从候选对象标识对应的单据中提取的;基于相似行为参考信息从对象行为数据集合中检索相似行为数据,建立至少一组关联对象标识;基于同一组关联对象标识对应的相似行为数据得到各组关联对象标识对应的相似行为统计信息,进而建立对象标识关系图;基于对象标识关系图中的节点关联信息,对对象标识关系图中的对象节点进行对象聚类,得到至少一个对象集群子图;基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像,本方法可提高对象集群定位效率和准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种对象集群画像确定方法、装置、计算机设备和存储介质。
背景技术
对象与对象的关系可以构成一个庞大、复杂的对象关系网络。对对象关系网络进行分析和信息挖掘具有重要意义,例如,可以从对象关系网络中定位特定性质的团体,来提高风险控制能力,可以从对象关系网络中聚合具有相同爱好、兴趣的对象,从而进行精准的信息推荐。
传统技术中,通常是基于人工从对象关系网络中定位对象集群,例如,基于群众所提供的信息定位特定性质的团体,但是,这样的处理方式不仅效率低下而且不能准确地识别出完整的对象集群。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高对象集群定位效率和准确性的对象集群画像确定方法、装置、计算机设备和存储介质。
一种对象集群画像确定方法,所述方法包括:
获取对象行为数据集合;所述对象行为数据集合包括多个候选对象标识对应的行为数据,所述行为数据是从候选对象标识对应的单据中提取的;
基于相似行为参考信息,从所述对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识;
基于同一组关联对象标识对应的相似行为数据,得到各组关联对象标识对应的相似行为统计信息;
基于各个相似行为统计信息建立对象标识关系图;所述对象标识关系图包括关联对象标识对应的对象节点和基于相似行为统计信息确定的节点关联信息;
基于所述节点关联信息,对所述对象标识关系图中的对象节点进行对象聚类,得到至少一个对象集群子图;
基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像。
一种对象集群画像确定装置,所述装置包括:
行为数据获取模块,用于获取对象行为数据集合;所述对象行为数据集合包括多个候选对象标识对应的行为数据,所述行为数据是从候选对象标识对应的单据中提取的;
对象标识关联模块,用于基于相似行为参考信息,从所述对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识;
行为数据统计模块,用于基于同一组关联对象标识对应的相似行为数据,得到各组关联对象标识对应的相似行为统计信息;
对象标识关系图建立模块,用于基于各个相似行为统计信息建立对象标识关系图;所述对象标识关系图包括关联对象标识对应的对象节点和基于相似行为统计信息确定的节点关联信息;
对象聚类模块,用于基于所述节点关联信息,对所述对象标识关系图中的对象节点进行对象聚类,得到至少一个对象集群子图;
对象集群画像生成模块,用于基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述对象集群画像确定方法所述的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述对象集群画像确定方法所述的步骤。
一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述对象集群画像确定方法所述的步骤。
上述对象集群画像确定方法、装置、计算机设备和存储介质,通过获取对象行为数据集合,对象行为数据集合包括多个候选对象标识对应的行为数据,行为数据是从候选对象标识对应的单据中提取的,基于相似行为参考信息,从对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识,基于同一组关联对象标识对应的相似行为数据,得到各组关联对象标识对应的相似行为统计信息,基于各个相似行为统计信息建立对象标识关系图;对象标识关系图包括关联对象标识对应的对象节点和基于相似行为统计信息确定的节点关联信息,基于节点关联信息,对对象标识关系图中的对象节点进行对象聚类,得到至少一个对象集群子图,基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像。这样,无需人工处理,基于相似行为参考信息可以从对象行为数据集合中智能化地检索相似行为数据,将存在相似行为数据的对象自动进行关联,然后对关联对象对应的相似行为数据进行数据分析可以得到关联对象之间的相似行为统计信息,进而建立起描述全局对象关系的对象标识关系图。进一步的,由于相似行为统计信息可以反映关联对象之间的关联程度,基于由相似行为统计信息确定的节点关联信息,对对象标识关系图中的对象节点进行对象聚类,可以从对象标识关系图中挖掘出联系紧密、比较完整、甚至是潜在的对象集群、团体,进而基于对象集群中各个对象对应的行为数据可以生成对象集群对应的对象集群画像,对象集群画像有助于在线上和线下快速、准确地定位到对应的对象集群。
附图说明
图1为一个实施例中对象集群画像确定方法的应用环境图;
图2为一个实施例中对象集群画像确定方法的流程示意图;
图3A为一个实施例中对象标识关系图的示意图;
图3B为一个实施例中连通子图的示意图;
图4为一个实施例中对象聚类的流程示意图;
图5为一个实施例中从第一级集群子图中确定第二级集群子图的示意图;
图6为一个实施例中对象集群画像确定装置的结构框图;
图7为一个实施例中计算机设备的内部结构图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术,具体通过如下实施例进行说明:
本申请提供的对象集群画像确定方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备等,便携式可穿戴设备可为智能手表、智能手环、头戴设备等,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。
终端102和服务器104均可单独用于执行本申请实施例中提供的对象集群画像确定方法。
例如,服务器可以获取对象行为数据集合,基于相似行为参考信息,从对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识。其中,对象行为数据集合包括多个候选对象标识对应的行为数据,行为数据可以是服务器从候选对象标识对应的单据中提取的。服务器可以基于同一组关联对象标识对应的相似行为数据得到各组关联对象标识对应的相似行为统计信息,基于各个相似行为统计信息建立对象标识关系图。其中,对象标识关系图包括关联对象标识对应的对象节点和基于相似行为统计信息确定的节点关联信息。服务器可以基于节点关联信息,对对象标识关系图中的对象节点进行对象聚类,得到至少一个对象集群子图,基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像。
终端102和服务器104也可协同用于执行本申请实施例中提供的对象集群画像确定方法。
例如,服务器从终端获取多个单据,从各个单据中提取行为数据,组成对象行为数据集合。服务器可以基于相似行为参考信息,从对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识,基于同一组关联对象标识对应的相似行为数据得到各组关联对象标识对应的相似行为统计信息,基于各个相似行为统计信息建立对象标识关系图。服务器可以基于节点关联信息,对对象标识关系图中的对象节点进行对象聚类,得到至少一个对象集群子图,基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像。后续,服务器可以将对象集群画像发送至终端,以便终端基于对象集群画像定位对象集群。
在一个实施例中,如图2所示,提供了一种对象集群画像确定方法,以该方法应用于图1中的计算机设备为例进行说明,可以理解的是,计算机设备可以是终端102,也可以是服务器104。本实施例中,对象集群画像确定方法包括以下步骤:
步骤S202,获取对象行为数据集合;对象行为数据集合包括多个候选对象标识对应的行为数据,行为数据是从候选对象标识对应的单据中提取的。
其中,单据是对采集到的数据加以归纳、整理、综合分析,按规定的格式和要求书写的数据记录凭证。单据的形式多种多样,不同的应用场景可以对应不同的单据。例如,在医疗场景下,单据具体可以是就诊信息表、就诊结算表等。在交易场景下,单据具体可以是订单、发票、支票等。
可以理解,单据的产生和对象的行为是息息相关的,单据的具体内容可以表征对象的行为数据,因此,可以从单据中提取信息得到对象的行为数据。例如,就诊信息表是患者就医时记录有患者诊疗过程相关信息的数据表,从就诊信息表中可以提取患者就医过程的相关信息,从而得到患者的就医行为数据。订单是采购方采购物品时记录有采购方采购行为相关信息的采购凭证,从订单中可以提取采购方采购行为的相关信息,从而得到采购方的采购行为数据。
对象是指可以做出动作、具有行为表现的活体,例如,使用了某个物品的用户,或者点击了某个物品链接的用户等。对象标识是一种标识,用于唯一标识对象,具体可以包括字母、数字和符号中至少一种字符的字符串,例如,若对象为用户,可以将对象账号、对象手机号、对象名称等至少一种信息作为对象标识。候选对象标识是指候选对象对应的对象标识,候选对象是指待确定所属对象集群的对象。
从大量的单据中可以提取到大量对象的大量行为数据,这些行为数据组成的集合即为对象行为数据集合。因此,对象行为数据集合包括多个候选对象标识分别对应的行为数据。可以理解,同一候选对象标识对应的行为数据可以有至少一条。一条行为数据可以是从至少一个单据中提取得到的。例如,一个患者的一条就医行为数据可以是从患者的就诊信息表和就诊结算表中获取到的。
具体地,计算机设备可以在本地、或从其他终端、服务器上获取对象行为数据集合。对象行为数据集合中的行为数据可以是其他终端、服务器对多个候选对象标识分别对应的至少一个单据进行信息提取得到的,也可以是计算机设备获取多个候选对象标识分别对应的至少一个单据,对获取到的单据进行信息提取得到的。可以理解,属于同一对象集群的对象通常联系比较紧密,会做出比较相似的行为,例如,某一特定性质的团体会采取相同或相似的特殊手段,兴趣、爱好相同或相似的对象会存在相同或相似的行为。因此,通过对对象行为数据集合进行数据分析,可以从中挖掘出联系紧密的对象集群、潜在对象集群。
步骤S204,基于相似行为参考信息,从对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识。
其中,相似行为参考信息是不同行为数据是否相似的判断条件、判断依据,用于辅助确定不同的行为数据是否为相似行为数据。相似行为参考信息可以包括行为数据涉及的至少一个数据维度。例如,一条行为数据包括具体行为的行为触发时间、行为触发地点和行为类型,那么,行为参考信息可以包括行为触发时间这个数据维度,也可以包括行为触发时间、行为触发地点和行为类型这三个数据维度。在一个实施例中,由于行为数据是从单据中提取得到的,考虑到单据通常具有特定的数据结构、数据格式,因此,可以将单据中的部分关键字段作为相似行为参考信息,例如,将用于记录行为触发地点的字段作为行为参考信息,在进行数据匹配时,将相同字段对应的字段值进行匹配。
相似行为数据是指相似的行为数据。若两个候选对象标识之间存在相似行为数据,那么可以将这两个候选对象标识进行关联,得到一组关联对象标识。可以理解,一组关联对象标识对应的相似行为数据可以包括至少一组,也就是,一对关联对象之间可以存在较多的相似行为。
具体地,计算机设备可以基于相似行为参考信息,从对象行为数据集合中检索相似行为数据,得到至少一组相似行为数据。计算机设备可以基于相似行为参考信息,将任意两个对象的任意两条行为数据进行匹配,将匹配成功的行为数据作为一组相似行为数据。计算机设备可以将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识。
步骤S206,基于同一组关联对象标识对应的相似行为数据,得到各组关联对象标识对应的相似行为统计信息。
其中,相似行为统计信息是指对同一组关联对象标识对应的所有相似行为数据进行统计分析得到的。例如,可以统计相似行为数据的数量,即相似行为触发次数,也可以计算相似行为数据之间的相似度作为相似行为统计信息,也可以计算相似行为数据之间的数据差异作为相似行为统计信息等。
具体地,在得到各组关联对象标识对应的相似行为数据后,计算机设备可以对同一组关联对象标识对应的所有相似行为数据进行统计分析,得到各组关联对象标识分别对应的相似行为统计信息。
步骤S208,基于各个相似行为统计信息建立对象标识关系图;对象标识关系图包括关联对象标识对应的对象节点和基于相似行为统计信息确定的节点关联信息。
其中,对象标识关系图是由对象节点和对象节点之间的节点关联信息组成的对象关系图。对象标识关系图中一个对象节点对应一个候选对象标识,两个存在节点关联信息的对象节点对应一组关联对象标识。对象节点之间的节点关联信息是基于关联对象标识对应的相似行为统计信息确定的,用于表征对象之间的关联程度。可以理解,节点关联信息越大,单个对象之间的关联程度越高,单个对象之间的联系越紧密。
具体地,计算机设备可以基于各组关联对象标识生成对应的对象节点,基于各组关联对象标识对应的相似行为统计信息生成对应对象节点之间的节点关联信息,基于节点关联信息将对应对象节点连接起来,从而得到对象标识关系图。对象标识关系图具体可以是无向图,无向图中的顶点为对象节点,一组关联对象标识对应的顶点之间存在连线,连线的权重是基于节点关联信息确定的。
在一个实施例中,在建立对象标识关系图时,计算机设备可以生成各组关联对象标识分别对应的对象节点。但是,为了提高对象标识关系图的质量,计算机设备也可以基于相似行为统计信息对各组关联对象标识进行过滤,预先过滤关联程度相对较低的关联对象标识,在建立对象标识关系图时,生成关联程度相对较高的关联对象标识对应的对象节点。
步骤S210,基于节点关联信息,对对象标识关系图中的对象节点进行对象聚类,得到至少一个对象集群子图。
其中,对象聚类用于从分散的海量对象中挖掘出内部成员之间联系更加紧密的对象集群、对象团体。一个对象集群子图包括属于同一对象集群的各个对象节点。一个对象集群子图可以表示一个对象集群、一个对象团体。
具体地,计算机设备基于节点关联信息,可以从对象标识关系图中挖掘出内部节点联系相对较强、与外部节点联系相对较弱的对象集群子图。例如,可以从对象标识关系图中识别连通子图,连通子图中任意两个节点之间必然有路径相连,将连通子图作为对象集群子图,连通子图对应的各个对象之间存在直接或间接的联系,连通子图可以认为是对应一个大团体。还可以进一步从连通子图中识别出内部联系更紧密的对象节点子集合,将对象节点子集合作为对象集群子图,对象节点子集合可以认为是对应一个小团体,大团体中关系更紧密的小团体。计算机设备基于节点关联信息可以通过自定义的算法或公式,从连通子图中识别对象节点子集合。
步骤S212,基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像。
其中,对象集群画像是一个对象集群、团体对应的对象画像,用于描述一个团体的团体特征。
具体地,在识别到对象集群子图后,计算机设备可以获取同一对象集群子图对应的各个候选对象标识分别对应的行为数据,基于同一对象集群子图对应的各个候选对象标识的行为数据建立对象集群子图对应的对象集群画像,通过对象集群画像刻画对象集群的规模、综合对象特征、综合行为特征等至少一种信息,从而得到各个对象集群子图对应的对象集群画像。对象集群画像可以协助相关人员在线上或线下快速定位对应的对象集群。
上述对象集群画像确定方法中,通过获取对象行为数据集合,对象行为数据集合包括多个候选对象标识对应的行为数据,行为数据是从候选对象标识对应的单据中提取的,基于相似行为参考信息,从对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识,基于同一组关联对象标识对应的相似行为数据,得到各组关联对象标识对应的相似行为统计信息,基于各个相似行为统计信息建立对象标识关系图;对象标识关系图包括关联对象标识对应的对象节点和基于相似行为统计信息确定的节点关联信息,基于节点关联信息,对对象标识关系图中的对象节点进行对象聚类,得到至少一个对象集群子图,基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像。这样,无需人工处理,计算机设备基于相似行为参考信息可以从对象行为数据集合中智能化地检索相似行为数据,将存在相似行为数据的对象自动进行关联,然后对关联对象对应的相似行为数据进行数据分析可以得到关联对象之间的相似行为统计信息,进而建立起描述全局对象关系的对象标识关系图。进一步的,由于相似行为统计信息可以反映关联对象之间的关联程度,基于由相似行为统计信息确定的节点关联信息,对对象标识关系图中的对象节点进行对象聚类,可以从对象标识关系图中挖掘出联系紧密、比较完整、甚至是潜在的对象集群、团体,进而基于对象集群中各个对象对应的行为数据可以生成对象集群对应的对象集群画像,对象集群画像有助于在线上和线下快速、准确地定位到对应的对象集群。
在一个实施例中,相似行为参考信息包括行为触发地点、行为触发时间、行为类型和资源消耗信息。基于相似行为参考信息,从对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识,包括:
从对象行为数据集合中,获取行为触发地点、行为触发时间、行为类型和资源消耗信息匹配的行为数据作为相似行为数据,得到至少一组相似行为数据;将同一组相似行为数据对应的候选对象标识作为关联对象标识,得到各组关联对象标识。
其中,行为触发地点是指行为发生的地点,例如,就诊医院、采购平台、信息推送平台等。行为触发时间是指行为产生的时间,例如,就诊时间、订单生效时间等。行为类型是指行为的类别,例如,门诊开药、门诊检查,个人采购、团体采购,浏览、点评、点赞等。资源消耗信息是指行为发生所消耗的虚拟资源份额,例如,就诊金额、采购金额等。
具体地,相似行为参考信息具体可以包括行为触发地点、行为触发时间、行为类型和资源消耗信息。计算机设备可以从对象行为数据集合中,将任意两条行为数据的行为触发地点、行为触发时间、行为类型和资源消耗信息进行匹配,将行为触发地点、行为触发时间、行为类型和资源消耗信息均匹配的行为数据作为相似行为数据,得到至少一组相似行为数据。其中,任意一个数据维度的数据匹配可以是指行为数据中某一数据维度的信息一致,例如,行为触发地点匹配是指行为触发地点一致。任意一个数据维度的数据匹配也可以是指行为数据中某一数据维度的信息差异小于预设阈值,例如,行为触发时间匹配是指行为触发时间的时间差距小于预设差距。计算机设备可以将同一组相似行为数据对应的候选对象标识作为一组关联对象标识,那么基于各组相似行为数据可以得到多组关联对象标识。
上述实施例中,从行为触发地点、行为触发时间、行为类型和资源消耗信息多个维度进行数据匹配来检索相似行为数据,能够提高相似行为数据的准确性。
在一个实施例中,行为触发地点匹配是指行为数据对应的行为触发地点一致,行为触发时间匹配是指行为数据对应的行为触发时间的时间间隔小于预设时间间隔,行为类型匹配是指行为数据对应的行为类型一致,资源消耗信息匹配是指行为数据对应的资源消耗信息的信息差异小于预设阈值。
具体地,在进行数据匹配时,行为触发地点匹配具体可以是指行为数据对应的行为触发地点一致,行为触发时间匹配具体可以是指行为数据对应的行为触发时间的时间间隔小于预设时间间隔,行为类型匹配具体可以是指行为数据对应的行为类型一致,资源消耗信息匹配具体可以是指行为数据对应的资源消耗信息的信息差异小于预设阈值。其中,预设时间间隔和预设阈值可以根据需要进行设置,例如,将预设时间间隔设置为5分钟。
在一个实施例中,基于同一组关联对象标识对应的相似行为数据,得到各组关联对象标识对应的相似行为统计信息,包括:
从同一组关联对象标识对应的相似行为数据中,统计相似行为触发次数,得到各组关联对象标识对应的相似行为触发次数;基于各组关联对象标识对应的相似行为触发次数,得到各组关联对象标识对应的相似行为统计信息。
具体地,在对相似行为数据进行统计分析时,针对一组关联对象标识,计算机设备可以基于该组关联对象标识对应的所有相似行为数据统计相似行为触发次数,也就是,统计两个对象之间总共发生了多少次相似行为。以此类推,计算机设备可以统计得到各组关联对象标识分别对应的相似行为触发次数。计算机设备可以基于各组关联对象标识对应的相似行为触发次数,得到各组关联对象标识对应的相似行为统计信息,例如,可以直接将相似行为触发次数作为相似行为统计信息,也可以进一步计算一组关联对象标识对应的行为相似度,基于相似行为触发次数和行为相似度得到相似行为统计信息。在计算行为相似度时,计算机设备可以将相似行为数据输入相似度计算模型,相似度计算模型通过内部的数据处理可以输出行为相似度。其中,相似度计算模型可以是机器学习模型,通过训练样本进行有监督训练得到。训练样本是已知行为相似度的相似行为数据,训练样本对应的行为相似度可以是专家标注的。
上述实施例中,统计相似行为触发次数,相似行为触发次数可以直观反映对象之间的关联程度,基于相似行为触发次数生成相似行为统计信息,这样的相似行为统计信息有助于提高后续对象聚类的准确性,进而提高对象集群定位效率和准确性。
在一个实施例中,基于各组关联对象标识对应的相似行为触发次数,得到各组关联对象标识对应的相似行为统计信息,包括:
基于同一组关联对象标识对应的相似行为数据计算行为数据差异,基于行为数据差异计算行为相似度,得到各组关联对象标识对应的行为相似度;融合同一组关联对象标识对应的相似行为触发次数和行为相似度,得到各组关联对象标识对应的相似行为统计信息。
具体地,在计算相似行为统计信息时,除了计算相似行为触发次数,计算机设备还可以计算行为相似度,然后融合行为触发次数和行为相似度得到最终的相似行为统计信息。
在计算行为相似度时,计算机设备可以基于同一组关联对象标识对应的相似行为数据计算不同对象之间的行为数据差异,基于行为数据差异计算行为相似度。一条行为数据通常是由多个数据维度的信息组成,因此,行为数据差异可以包括各个数据维度分别对应的数据差异,例如,行为数据差异包括行为触发时间差异、行为触发地点差异和资源消耗信息差异等。行为数据差异也可以是基于各个数据维度分别对应的数据差异得到的综合数据差异,例如,将行为触发时间差异、行为触发地点差异和资源消耗信息差异进行加权求和得到行为数据差异。进一步举例说明,若行为数据差异包括行为触发时间差异,可以从同一组关联对象标识对应的相似行为数据中获取行为触发时间来计算行为触发时间差异,行为触发时间差异是通过计算不同对象标识分别对应的行为触发时间之间的时间差异得到的。假设对象A和对象B组成一组关联对象标识,在相似行为数据中对象A对应的行为触发时间为2020年1月1日8点,对象B对应的行为触发时间为2020年1月1日8点4分,那么行为触发时间差异为4分钟。可以理解,若一组关联对象标识对应的相似行为数据有多组,可以分别计算各组相似行为数据对应的行为数据差异,基于各个行为数据差异得到目标数据差异,例如,可以从多个行为数据差异中获取差异最大的行为数据差异作为目标数据差异,也可以计算各个行为数据差异的平均值作为目标数据差异,然后基于目标数据差异计算行为相似度。
若行为数据差异包括各个数据维度分别对应的数据差异,那么在计算行为相似度时,可以先基于同一数据维度的数据差异计算初始相似度,得到各个数据维度对应的初始相似度,再融合各个数据维度对应的初始相似度得到行为相似度。例如,行为数据差异包括行为触发地点差异、行为触发时间差异、资源消耗信息差异,那么可以先基于行为触发地点差异计算行为触发地点相似度,基于行为触发时间差异计算行为触发时间相似度,基于资源消耗信息差异计算资源消耗信息相似度,最后将行为触发地点相似度、行为触发时间相似度和资源消耗信息相似度进行加权求和得到行为相似度。
在计算初始相似度或行为相似度时,可以基于行为数据差异或数据差异落入的数据区间来确定对应的相似度。例如,行为触发时间这个数据维度对应的相似度计算信息包括多个按序排列的时间差异区间,各个时间差异区间分别存在对应的相似分数,相似分数按照时间差异区间的排列顺序呈单调变化趋势,时间差异越大,相似分数越小。在计算行为触发时间相似度时,可以将行为触发时间差异落入的时间差异区间所对应的相似分数作为行为触发时间相似度。也可以基于其他自定义公式或算法计算行为相似度或初始相似度。可以理解,数据差异越小,相似度越大。
在融合行为触发次数和行为相似度时,计算机设备可以对行为触发次数和行为相似度进行加权求和得到相似行为统计信息。
上述实施例中,相似行为统计信息是基于相似行为触发次数和行为相似度得到的,相似行为统计信息融合了不同维度的数据,准确性较高,这样的相似行为统计信息有助于提高后续对象聚类的准确性,进而提高对象集群定位效率和准确性。
在一个实施例中,基于各个相似行为统计信息建立对象标识关系图,包括:
获取大于预设统计信息的相似行为统计信息所对应的关联对象标识作为目标对象标识;将各组目标对象标识对应的候选对象标识作为对象节点,基于各组目标对象标识对应的相似行为统计信息,计算各组对象节点对应的节点关联信息;基于各组对象节点对应的节点关联信息连接各组对象节点,得到对象标识关系图。
具体地,在建立对象标识关系图时,计算机设备可以对各组关联对象标识进行筛选,过滤相似行为统计信息不足的关联对象标识,以精简对象标识关系图,避免引入联系不够紧密的对象标识,从而提高对象标识关系图的质量。在各组关联对象标识中,计算机设备可以获取大于预设统计信息的相似行为统计信息所对应的关联对象标识作为目标对象标识,例如,获取相似行为触发次数大于预设触发次数的关联对象标识作为目标对象标识。计算机设备可以基于各组目标对象标识对应的相似行为统计信息计算各组对象节点对应的节点关联信息,例如,可以直接将相似行为统计信息作为节点关联信息,也可以对各个相似行为统计信息进行归一化处理,将归一化处理后的相似行为统计信息作为节点关联信息。计算机设备可以将各组目标对象标识对应的候选对象标识分别作为一个对象节点,一组目标对象标识对应一组对象节点,将各组对象节点对应的节点关联信息作为节点连边权重来连接各组对象节点,从而得到对象标识关系图。其中,预设统计信息可以根据需要进行设置。
参考图3A,图3A为对象标识关系图的示意图。图3A中的一个圆点表示一个对象节点,存在相似行为数据的对象对应的对象节点之间存在连线,连线携带节点关联信息Aij,将节点关联信息Aij作为节点连边权重。
上述实施例中,对象标识关系图中的对象节点对应的相似行为统计信息均大于预设统计信息,可以提高对象标识关系图的质量。
在一个实施例中,基于节点关联信息,对对象标识关系图中的对象节点进行对象聚类,得到至少一个对象集群子图,包括:
从对象标识关系图中识别连通子图,得到至少一个第一级集群子图;基于第一级集群子图对应的节点关联信息,对第一级集群子图中的对象节点进行对象聚类,得到各个第一级集群子图分别对应的第二级集群子图;基于各个第一级集群子图和各个第二级集群子图,得到对象集群子图。
其中,在对象标识关系图中,若从对象节点i到对象节点j有路径相连,则表示对象节点i和对象节点j是连通的。连通子图中的任意两个对象节点都是连通的。
具体地,在进行对象聚类时,计算机设备可以先从对象标识关系图中识别连通子图,将连通子图作为第一级集群子图,第一级集群子图可以认为是表示第一等级的对象集群,表示联系紧密的大团体。若对象标识关系图包括多个连通子图,则可以得到多个第一级集群子图。参考图3B,图3B中虚线圈出来的部分表示一个连通子图,图3B中一共包括四个连通子图。
针对任意一个连通子图,计算机设备可以进一步基于连通子图中对象节点之间的节点关联信息,对连通子图中的对象节点进行二次对象聚类,得到第二级集群子图,第二级集群子图可以认为是表示第二等级的对象集群,表示大团体中联系更紧密的小团体。例如,计算机设备可以获取由大于预设关联信息的节点关联信息所对应的对象节点形成的连通路径作为第二级集群子图,以保障第二级集群子图对应的对象集群中的成员存在大量的相似行为,为强关联对象。计算机设备也可以基于其他自定义公式或算法进行二次对象聚类。
在得到各个第一级集群子图和各个第一级集群子图分别对应的各个第二级集群子图后,计算机设备可以将第一级集群子图和第二级集群子图均作为对象集群子图。
在一个实施例中,从对象标识关系图中识别连通子图,得到至少一个第一级集群子图,包括:从对象标识关系图中,获取对象节点数量大于预设数量的连通子图作为第一级集群子图。具体地,为了进一步提高对象集群定位的准确性,在识别连通子图时,计算机设备可以对连通子图进行筛选,过滤对象节点数量小于或等于预设数量的连通子图,将对象节点数量大于预设数量的连通子图作为第一级集群子图。这样,可以保证团体的大小在一定的量级,减少团体识别失误。
上述实施例中,对象集群子图包括第一级集群子图和第一级集群子图内部的第二级集群子图,不同等级的对象集群子图可以满足不同的对象集群定位需求,有助于提高对象集群定位效率和准确性。
在一个实施例中,如图4所示,基于第一级集群子图对应的节点关联信息,对第一级集群子图中的对象节点进行对象聚类,得到各个第一级集群子图分别对应的第二级集群子图,包括:
步骤S402,从各个第一级集群子图中确定当前集群子图。
具体地,在进行二次对象聚类时,各个连通子图独立挖掘内部的小团体,互不干扰。计算机设备可以从各个第一级集群子图中随机选取一个第一级集群子图作为当前集群子图进行对象聚类,在确定当前集群子图对应的各个第二级集群子图后,再选取下一个第一级集群子图作为新的当前集群子图进行对象聚类,以此类推,直至所有的第一级集群子图都参与对象聚类后,最终得到各个第一级集群子图分别对应的第二级集群子图。
步骤S404,从当前集群子图中确定目标对象节点。
步骤S406,配置当前集群子图中各个对象节点之间的聚类参数为第一参数。
步骤S408,基于当前集群子图对应的节点关联信息和聚类参数,计算当前集群子图对应的第一节点紧密度。
步骤S410,将目标对象节点和对应的邻接对象节点之间的聚类参数更新为第二参数,计算当前集群子图对应的第二节点紧密度。
其中,聚类参数用于表示不同的对象节点是否属于同一对象集群子图。若两个对象节点之间的聚类参数为第一参数,表示这两个对象节点不属于同一对象集群子图,若两个对象节点之间的聚类参数为第二参数,表示这两个对象节点属于同一对象集群子图。第一参数小于第二参数。第一参数和第二参数可以根据需要进行设置,例如,将第一参数设置为0,将第二参数设置为1。
节点紧密度用于表示节点的紧密程度。可以理解,节点紧密度越大,节点紧密程度越高。目标对象节点对应的邻接对象节点是指与目标对象节点直接相连的对象节点。
具体地,针对任意一个当前集群子图,计算机设备可以首先将图中各个对象节点作为独立的对象节点,将当前集群子图中各个对象节点之间的聚类参数配置为第一参数,把各个对象节点划分在不同的对象集群中。计算机设备可以从当前集群子图中随机选取一个对象节点作为目标对象节点,将目标对象节点尝试划分到与其邻接的对象节点所在的对象集群中,计算划分前后的节点紧密度。在划分前,当前集群子图中各个对象节点之间的聚类参数为第一参数,表明各个对象节点都不属于同一对象集群子图,此时计算得到的节点紧密度为第一节点紧密度。在划分后,当前集群子图中目标对象节点和对应的邻接对象节点之间的聚类参数为第二参数,其他对象节点之间的聚类参数为第一参数,表明目标对象节点和对应的邻接对象节点属于同一对象集群子图,此时计算得到的节点紧密度为第二节点紧密度。也就是,第一节点紧密度为划分前基于相关数据计算得到的节点紧密度,第二节点紧密度为划分后基于相关数据计算得到的节点紧密度,划分前后的主要数据差异在于聚类参数。
计算机设备可以基于当前集群子图中各个对象节点之间的节点关联信息和聚类参数(即各组对象节点对应的节点关联信息和聚类参数)计算节点紧密度。具体地,计算机设备可以基于当前集群子图中各个节点关联信息计算任意一个节点关联信息占所有节点关联信息的比例,得到各组对象节点分别对应的关联比例,计算同一组对象节点对应的节点关联信息和关联比例之间的信息距离,得到各组对象节点分别对应的信息距离,最终融合各组对象节点对应的信息距离和聚类参数得到节点紧密度。计算机设备可以基于自定义公式或算法计算关联比例。
步骤S412,基于第一节点紧密度和第二节点紧密度,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数,基于目标对象节点和对应的邻接对象节点之间的目标聚类参数更新当前集群子图中目标对象节点和对应的邻接对象节点之间的聚类参数。
具体地,在得到第一节点紧密度和第二节点紧密度后,计算机设备可以将第一节点紧密度和第二节点紧密度进行比较,根据比较结果确定目标对象节点和对应的邻接对象节点之间的目标聚类参数。若目标对象节点和对应的邻接对象节点之间的目标聚类参数为第一参数,表明目标对象节点和对应的邻接对象节点不属于同一小团体,若目标对象节点和对应的邻接对象节点之间的目标聚类参数为第二参数,表明目标对象节点和对应的邻接对象节点属于同一小团体。在得到目标对象节点和对应的邻接对象节点之间的目标聚类参数后,计算机设备可以基于目标对象节点和对应的邻接对象节点之间的目标聚类参数更新当前集群子图中目标对象节点和对应的邻接对象节点之间的聚类参数,那么,后续在计算节点紧密度时,目标对象节点和对应的邻接对象节点之间的聚类参数即为目标聚类参数。
在一个实施例中,基于第一节点紧密度和第二节点紧密度,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数,包括:当第一节点紧密度大于或等于第二节点紧密度时,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数为第一参数;当第一节点紧密度小于第二节点紧密度时,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数为第二参数。
具体地,在确定目标聚类参数时,若第一节点紧密度大于或等于第二节点紧密度,表明将目标对象节点和它的邻接对象节点划分在一个对象集群中,无法增大当前集群子图的节点紧密程度,此时,计算机设备可以确定目标对象节点和对应的邻接对象节点之间的目标聚类参数为第一参数,目标对象节点和它的邻接对象节点不属于同一小团体。若第一节点紧密度小于第二节点紧密度,表明将目标对象节点和它的邻接对象节点划分在一个对象集群中,可以增大当前集群子图的节点紧密程度,此时,计算机设备可以确定目标对象节点和对应的邻接对象节点之间的目标聚类参数为第二参数,将目标对象节点和它的邻接对象节点归入同一小团体。
在一个实施例中,一个目标对象节点可以存在至少一个邻接对象节点,若目标对象节点对应的邻接对象节点有多个,那么可以计算在将目标对象节点分别划分到各个邻接对象节点后得到的第二节点紧密度,从各个第二节点紧密度中选取大于第一节点紧密度的各个第二节点紧密度,若只存在一个大于第一节点紧密度的第二节点紧密度,则将这个第二节点紧密度对应的邻接对象节点和目标对象节点归入同一小团体。若存在多个大于第一节点紧密度的第二节点紧密度,可以进一步从中选取目标节点紧密度,将目标节点紧密度对应的邻接对象节点和目标对象节点归入同一小团体。目标节点紧密度具体可以是数值最大的第二节点紧密度,也可以是大于预设节点紧密度的各个第二节点紧密度。若目标节点紧密度的数量比大于第一节点紧密度的第二节点紧密度的数量少,那么可以在目标节点紧密度对应的邻接对象节点和目标对象节点之间的聚类参数为第二参数的基础上计算第一节点紧密度,计算将目标对象节点分别划分到剩余邻接对象节点后得到的第二节点紧密度,基于第一节点紧密度和第二节点紧密度判断是否还需要将其他邻接对象节点继续划分到同一小团体中,直至所有的邻接对象节点都判断完毕后,将下一对象节点作为目标对象节点。
步骤S414,将下一对象节点作为目标对象节点,返回基于当前集群子图对应的节点关联信息和聚类参数,计算当前集群子图对应的第一节点紧密度的步骤执行,直至满足第一收敛条件,得到当前集群子图中各个对象节点之间的目标聚类参数。
其中,第一收敛条件具体可以是所有的对象节点都作为过目标对象节点,也可以是节点紧密度不再增大。
具体地,在确定目标对象节点和对应的邻接对象节点之间的目标聚类参数后,计算机设备可以从当前集群子图中选择下一对象节点作为新的目标对象节点,参考同样的方式计算第一节点紧密度和第二节点紧密度,确定新的目标对象节点和对应的邻接对象节点之间的目标聚类参数,以此类推,直至所有的对象节点都已作为目标对象节点或节点紧密度不再增大,最终可以得到当前集群子图中各个对象节点之间的目标聚类参数。可以理解,若对象节点之间的参数没有更新,那么对象节点之间的目标聚类参数为初始的第一参数。
步骤S416,基于当前集群子图中各个对象节点之间的目标聚类参数,压缩当前集群子图,得到更新集群子图。
步骤S418,将更新集群子图作为当前集群子图,返回从当前集群子图中确定目标对象节点的步骤执行,直至满足第二收敛条件,得到第一级集群子图对应的第二级集群子图。
其中,第二收敛条件可以是更新集群子图中对象节点总数小于或等于第一数量,例如,可以将第一数量设置为2,也就是,最终至少可以聚类得到两个小团体。第二收敛条件也可以是更新集群子图中至少一个对象节点所对应的原始对象节点的节点数量大于第二数量,即小团体的团体人数、团体规模已经达到一定程度。
具体地,在得到当前集群子图中各个对象节点之间的目标聚类参数后,计算机设备可以基于目标聚类参数压缩当前集群子图,将属于同一个小团体的对象节点聚合在一起用一个对象节点进行表示,基于新的对象节点得到更新集群子图。计算机设备可以将更新集群子图作为新的当前集群子图,返回从当前集群子图中确定目标对象节点的步骤执行,根据同样的方法判断是否还存在需要归入同一小团体的对象节点,直至最新的更新集群子图满足第二收敛条件,基于最新的更新集群子图得到第二级集群子图。由于更新集群子图中一个对象节点是聚合了多个原始对象节点得到的,最新的更新集群子图中一个对象节点代表一个相对完整的小团体,将最新的更新集群子图进行还原可以得到第二级集群子图。将最新的更新集群子图还原为一个对象对应一个对象节点的集群子图,将该集群子图作为相应的第一级集群子图所对应的第二级集群子图。参照上述方法,分别对每个第一级集群子图进行对象聚类,最终可以得到各个第一级集群子图分别对应的各个第二级集群子图。
上述实施例中,基于节点关联信息和聚类参数计算节点紧密度,基于节点紧密度进行对象聚类,可以快速准确查找到第一级集群子图内部的第二级集群子图。
在一个实施例中,基于当前集群子图对应的节点关联信息和聚类参数,计算当前集群子图对应的第一节点紧密度,包括:
在当前集群子图中,基于同一对象节点和对应的各个邻接对象节点之间的节点关联信息,得到各个对象节点对应的第一关联统计信息;融合各个第一关联统计信息,得到第二关联统计信息;基于当前对象节点对应的第一关联统计信息、当前对象节点对应的邻接对象节点所对应的第一关联统计信息和第二关联统计信息,得到各组对象节点对应的第三关联统计信息;基于当前组对象节点对应的节点关联信息、第三关联统计信息和聚类参数计算节点紧密信息,得到各组对象节点对应的节点紧密信息;基于各个节点紧密信息和第二关联统计信息,得到第一节点紧密度。
具体地,在计算节点紧密度时,计算机设备可以基于同一对象节点和对应的各个邻接对象节点之间的节点关联信息,计算各个对象节点分别对应的第一关联统计信息,例如,可以计算同一对象节点和对应的各个邻接对象节点之间的节点关联信息的总和、加权和等作为第一关联统计信息。计算机设备可以融合各个第一关联统计信息得到第二关联统计信息,例如可以计算各个第一关联统计信息的总和、加权和等作为第一关联统计信息。
进而,计算机设备可以基于当前对象节点对应的第一关联统计信息、当前对象节点对应的邻接对象节点所对应的第一关联统计信息和第二关联统计信息,计算各组对象节点对应的第三关联统计信息,例如,可以先将当前对象节点对应的第一关联统计信息、当前对象节点对应的邻接对象节点所对应的第一关联统计信息进行融合,然后将融合结果和第二关联统计信息的比值作为第三关联统计信息,融合可以是计算乘积、乘积的算术平均值、加权平均值等。也可以计算当前对象节点对应的第一关联统计信息和第二关联统计信息的比值,当前对象节点对应的邻接对象节点所对应的第一关联统计信息和第二关联统计信息的比值,融合两个比值得到第三关联统计信息。一组对象节点对应的第三关联统计信息可以用于表示这两个对象节点之间的连边权重的期望值,表示这组对象节点对应的节点关联信息占所有节点关联信息的比例。
然后,计算机设备可以基于当前组对象节点对应的节点关联信息、第三关联统计信息和聚类参数计算节点紧密信息,得到各组对象节点对应的节点紧密信息,例如,计算当前组对象节点对应的节点关联信息和第三关联统计信息的信息距离,融合该信息距离和聚类参数得到节点紧密信息。最后,计算机设备可以基于各个节点紧密信息和第二关联统计信息得到第一节点紧密度,例如,融合各个节点紧密信息,基于融合结果和第二关联统计信息的比值得到第一节点紧密度,融合可以是计算各个节点紧密信息的总和、加权和,节点紧密信息越大,对应的融合权重越大。
在一个实施例中,节点紧密度的计算公式如下:
其中,Q表示节点紧密度。Aij表示对象节点i和对象节点j之间的节点关联信息。ki表示对象节点i与其相连的所有对象节点之间的节点关联信息总和,可以认为是与对象节点i相连的所有边的权重之和,即对象节点i对应的第一关联统计信息。δ(ci,cj)表示对象节点i和对象节点j之间的聚类参数,例如,若对象节点i和对象节点j属于同一小团体,则δ(ci,cj)为1,若对象节点i和对象节点j不属于同一小团体,则δ(ci,cj)为0。m表示当前集群子图的节点关联信息总和,可以认为是当前网络的连边权重总和,即第二关联统计信息。
上述实施例中,在当前集群子图中,基于同一对象节点和对应的各个邻接对象节点之间的节点关联信息,得到各个对象节点对应的第一关联统计信息,融合各个第一关联统计信息,得到第二关联统计信息,基于当前对象节点对应的第一关联统计信息、当前对象节点对应的邻接对象节点所对应的第一关联统计信息和第二关联统计信息,得到各组对象节点对应的第三关联统计信息,基于当前组对象节点对应的节点关联信息、第三关联统计信息和聚类参数计算节点紧密信息,得到各组对象节点对应的节点紧密信息,基于各个节点紧密信息和第二关联统计信息,得到第一节点紧密度。这样计算得到的节点紧密度可以准确反映集群子图中节点关联程度。
在一个实施例中,基于当前集群子图中各个对象节点之间的目标聚类参数,压缩当前集群子图,得到更新集群子图,包括:
在当前集群子图中,将目标聚类参数为第二参数的连通子图作为目标连通子图;将各个目标连通子图分别作为更新对象节点,基于各个目标连通子图之间的节点关联信息得到各个更新对象节点之间的节点关联信息;基于各个更新对象节点之间的节点关联信息连接各个更新对象节点,得到更新集群子图。
其中,关于目标聚类参数为第二参数的连通子图,其内部存在连边的对象节点之间的目标聚类参数为第二参数,其内部节点与邻接的外部节点之间的目标聚类参数为第一参数。
具体地,在压缩图像时,计算机设备可以从当前集群子图中获取目标聚类参数为第二参数的连通子图作为目标连通子图,将当前属于同一小团体的对象节点组成的图像作为目标连通子图。计算机设备可以将各个目标连通子图分别作为一个更新对象节点,将任意两个目标连通子图之间的节点关联信息进行融合,例如,可以统计两个目标连通子图之间节点关联信息的数量作为融合结果,可以将两个目标连通子图之间节点关联信息的平均值作为融合结果,也可以将节点关联信息的数量和节点关联信息的平均值的加权融合结果作为最终的融合结果,进而将融合结果作为这两个目标连通子图对应的更新对象节点之间的节点关联信息,从而得到各个更新对象节点之间的节点关联信息。最终,计算机设备可以基于各个更新对象节点之间的节点关联信息连接各个更新对象节点,来生成更新集群子图。
参考图5,图5中的关系图a为第一级集群子图,对关系图a进行第一轮聚类可以得到关系图c,对关系图c进行第二轮聚类可以得到关系图e,关系图e只剩下两个对象节点,此时可以无需再进行聚类。通过两轮聚类,关系图a这个大团体最终可以划分得到两个小团体,两个小团体分别是由关系图e中两个对象节点分别囊括的原始对象节点集合表示,小团体A包括对象节点0、1、2、4,小团体B包括对象节点3、5、6、7、8、9、10,小团体A和小团体B均为关系图a对应的第二级集群子图。基于节点连边权重和聚类参数进行第一轮聚类后,可以确定对象节点之间的目标聚类参数,得到关系图b。关系图b包括三个目标连通子图,第一个目标连通子图包括对象节点0、1、2、4,第二个目标连通子图包括对象节点3、7,第三个目标连通子图包括对象节点5、6、8、9、10。接着,基于目标聚类参数压缩关系图b可以得到关系图c。由于第一个目标连通子图和第二个目标连通子图之间存在一条连线,那么在关系图c中,第一个目标连通子图和第二个目标连通子图对应的对象节点之间的节点关联信息可以为1,依次类推,最终可以得到关系图c中各个对象节点之间的节点关联信息。此外,关系图c中各个对象节点上的数据表示目标连通子图内部节点关联信息的统计值,例如,第二个目标连通子图内部对象节点3至对象节点7有一条连线,对象节点7至对象节点3有一条连线,因此,在关系图c中,第二个目标连通子图对应的对象节点上的数据为2。接着,基于节点连边权重和聚类参数进行第二轮聚类后,可以确定对象节点之间的目标聚类参数,得到关系图d,基于目标聚类参数压缩关系图d可以得到关系图e。其中,在关系图b和关系图d中,实线表示对象节点之间的目标聚类参数为第二参数,虚线表示对象节点之间的目标聚类参数为第一参数。
上述实施例中,将目标聚类参数为第二参数的连通子图作为初始小团体,后续对初始小团体进一步聚类,进而得到目标小团体,将目标小团体作为第二级集群子图,从而能够找到第一级集群子图中规模最大的小团体。
在一个实施例中,基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像,包括:
针对当前对象集群子图,从各个候选对象标识对应的行为数据中提取行为特征,基于当前对象集群子图对应的各个候选对象标识的行为特征,得到当前对象集群子图对应的行为特征统计信息;统计当前对象集群子图中对象节点的数量,得到当前对象集群子图对应的对象数量;基于当前对象集群子图对应的各个候选对象标识的对象属性信息,得到当前对象集群子图对应的对象属性统计信息;基于当前对象集群子图对应的行为特征统计信息、对象数量和对象属性统计信息,得到当前对象集群子图对应的对象集群画像。
其中,当前对象集群子图为任意一个对象集群子图。一个行为特征用于描述行为数据中某一数据维度的信息,例如,可以将行为数据中具体行为触发地点、行为触发时间等信息分别作为行为特征。对象属性信息具体可以包括对象年龄、对象地址等至少一个属性信息。
具体地,在得到各个对象集群子图后,计算机设备可以分别建立各个对象集群子图对应的对象集群画像。针对任意一个对象集群子图,计算机设备可以计算团体的行为特征统计信息、对象数量和对象属性统计信息,由这些数据组成对象集群画像。
针对行为特征统计信息,计算机设备可以从对象集群子图对应的各个候选对象标识所对应的各个行为数据中提取行为特征,对提取到的行为特征进行统计分析,得到当前对象集群子图对应的行为特征统计信息。行为特征统计信息可以包括至少一个维度的特征统计信息,例如,可以从多个行为数据中提取资源消耗信息作为行为特征,计算年均资源消耗信息作为一种特征统计信息,可以从多个行为数据中提取物品使用明细作为行为特征,将经过汇总得到的综合物品使用明细作为一种特征统计信息。行为特征统计信息还可以包括人均行为触发次数。
针对对象数量,计算机设备可以统计当前对象集群子图中对象节点总数,将对象节点总数作为对应团体的团体人数、对象数量。
针对对象属性信息,计算机设备可以获取当前对象集群子图对应的各个候选对象标识的对象属性信息,对各个对象的对象属性信息进行统计分析,得到当前对象集群子图对应的对象属性统计信息。例如,可以计算对象集群中各个对象对应的同一类型的对象属性信息的平均值作为一种对象属性统计信息,如平均年龄。
上述实施例中,对象集群画像包括一个团体的行为特征统计信息、对象数量和对象属性统计信息,具备多个维度的数据,信息丰富,有助于进一步提高对象集群定位效率和准确性。
在一个实施例中,获取对象行为数据集合,包括:
获取医保机构提供的多个医保单据;各个医保单据存在对应的候选对象标识;从当前候选对象标识对应的各个医保单据中提取目标字段对应的字段信息,基于提取到的字段信息得到当前候选对象标识对应的行为数据;基于各个候选对象标识对应的行为数据,得到对象行为数据集合。
其中,医保机构是指存储、管理医保相关数据的机构,例如,医保结构可以是国家社保部门、地方社保部门。医保单据是指与医保相关的单据,例如,患者使用医保就医时的就诊信息表、就诊结算表等。可以理解,医保单据和患者之间存在对应关系。
具体地,在医疗场景下,异常就医团体会通过使用多张医保卡同时就医开药来套取保额。为了快速定位异常就医团体,计算机设备可以获取医保机构提供的医保单据,从医保单据中提取就医行为数据组成对象行为数据集合,对对象行为数据集合进行数据分析来建立可疑异常就医团体、潜在异常就医团体的对象集群画像,从而后续基于对象集群画像可以快速在线上或线下定位可疑异常就医团体、潜在异常就医团体,进行风险控制。
由于医保单据通常是由多个字段组成的图表,在进行数据分析时,只需要部分关键字段的数据信息,因此,计算机设备可以从任意一个候选对象标识对应的各个医保单据中提取目标字段对应的字段信息,将从同一对象对应的、且行为触发时间相同或关联的各个医保单据中提取到的字段信息组成一条就医行为数据。一个候选对象标识可以对应至少一条就医行为数据。最后,计算机设备汇总各个候选对象标识分别对应的所有就医行为数据,来组成对象行为数据集合。其中,目标字段可以根据实际需要进行设置。
在一个实施例中,所述方法还包括:
基于各个对象集群子图对应的对象集群画像,计算各个对象集群子图对应的集群重要度;基于集群重要度对各个对象集群子图对应的对象集群进行排序,得到对象集群序列;将对象集群序列发送至目标终端。
具体地,集群重要度用于表示某一对象集群的重要程度。计算机设备可以从对象集群画像中获取至少一种数据来计算集群重要度,例如,可以基于对象集群画像中的年均资源消耗信息来计算集群重要度,集群重要度随着年均资源消耗信息的增大而增大。也可以对对象集群画像中的关键数据进行加权求和来计算集群重要度,集群重要度随着加权求和结果的增大而增大,例如,对象集群画像中的关键数据包括人均行为触发次数、年均资源消耗信息和对象数量,一个对象集群的人均行为触发次数越多、年均资源消耗信息越多、对象数量越大,则对象集群对应的集群重要度越高。
计算机设备可以基于集群重要度对各个对象集群进行排序,得到对象集群序列。可以理解,对象集群的集群重要度越大,对象集群的排序越靠前。对象集群序列中可以记录对象集群的集群标识、对象集群包含的各个对象的对象标识、对象属性信息以及对象集群对应的对象集群画像等至少一种数据。进而,计算机设备可以将对象集群序列发送至目标终端,以便相关人员可以按照对象集群序列有秩序地根据重要程度依次定位、核实对应的对象集群。其中,目标终端可以是相关监管部门对应的终端,例如,医保监管部门对应的终端,以便监管部门快速定位异常就医团体。目标终端也可以是单据提供方对应的终端,例如,物品、产品提供方对应的终端,以便产品提供方实行精准的信息推荐。
上述实施例中,基于对象集群画像计算集群重要度,基于集群重要度进行对象集群排序,将对象集群序列发送至目标终端,可以进一步提高对象集群定位效率。
在一个实施例中,所述方法还包括:
获取关联对象查询请求;关联对象查询请求携带目标对象标识;从各个对象集群子图中,查询目标对象标识对应的对象集群子图,得到目标集群子图;基于目标集群子图对应的各个候选对象标识,生成查询结果;向关联对象查询请求的查询方返回查询结果。
其中,关联对象查询请求用于查询目标对象对应的关联对象,查询与目标对象联系比较紧密的其他对象。目标对象标识是指目标对象对应的对象标识。
具体地,计算机设备可以获取携带目标对象标识的关联对象查询请求,从聚类得到的各个对象集群子图中,查询是否存在包含目标对象标识的对象集群子图,将包含目标对象标识的对象集群子图作为目标集群子图。计算机设备可以基于目标集群子图对应的各个候选对象标识生成查询结果,向关联对象查询请求的查询方返回查询结果。查询结果还可以进一步携带目标集群子图对应的对象集群画像,还可以进一步携带目标集群子图对应的各个候选对象标识的对象属性信息等数据。
举例说明,若目标对象标识为已浏览推送文章的对象对应的对象标识,那么可以进一步从各个对象集群子图中挖掘该对象所在的潜在团体,挖掘出与该对象有相似兴趣爱好的潜在对象,进而向潜在对象推送相同的推送文章,以提高推送文章的点击率,实现精准推送,提高推送的有效性。若目标对象标识为已知有异常就医行为的对象对应的对象标识,那么可以进一步从各个对象集群子图中挖掘该已知对象所在的可疑异常就医团体、潜在异常就医团体,挖掘出与该已知对象有相似异常就医行为的可疑对象,进而采取相关防御措施来提高风险控制能力。
上述实施例中,对象集群子图可以用于查询与目标对象具有相似行为的关联对象。
在一个具体的实施例中,本申请的对象集群画像确定方法可以应用在医疗场景下,用于定位集中就医的异常就医团体。异常就医团体可以通过集中就医,每次拿多张医保卡同时就医开药来套取保额。通过本申请的对象集群画像确定方法可以充分考虑到集中就医团体的特征建立团体画像,能够全面的发现存在集中就医的团体,同时可以基于团体的画像进一步筛选出异常就医可能性更大的团体,具有一定的可解释性。同时能够对发现的团体进行大团体和小团体的划分,监管人员可以先调查可疑程度高的小团体再进一步展开调查,能够有效节约监管成本。本申请的对象集群画像确定方法具体包括以下步骤:
1、构建集中就医人员关系图
从医保管理部门提供的就诊信息表和结算表中搜索相似就医行为,记录任意两个用户的用户id和相似就医次数,生成相似就医列表。例如,当两个人员在同一医院同一科室,前后挂号时间相差小于5分钟,就诊行为相同(例如,都为门诊开药、门诊检查等),就诊金额相差小于100元,即认为两人存在一次相似就医行为。基于相似就医列表建立以用户为节点的集中就医人员关系图。当相似就医列表中两个用户的相似就医次数达到一个阈值时,才将这两个用户加入集中就医人员关系图中作为用户节点,并进行连边,连边的权重可以是相似就医次数,也可以根据相似就医行为中行为差异满足不同的条件达成程度赋予不同的权重,然后加权求和得到。
2、识别连通子图
通过广度优先算法遍历构建的集中就医人员关系图,将所有的连通子图识别出来,根据连通子图的节点数设置一定的阈值进行筛选,保证团体的大小在一定的量级,此时获得的每一个连通子图即为识别到的大团体。
3、对识别出的连通子图进行小团体发现
从连通子图中发现边连接更紧密的团体作为大团体中的小团体,小团体的个体之间的行为相似性较大,小团体中的个体联系更为紧密。
首先将连通子图中的每个用户节点划分在不同的小团体中,然后,将每个用户节点尝试划分到与其邻接的用户节点所在的小团体中,计算划分前后的节点紧密度,若节点紧密度增大,则接受此次划分,若节点紧密度减小,则放弃此次划分。重复上述过程直至节点紧密度不再增大,得到初始小团体。根据初始小团体的用户结构重新构造网络,将划分出来的初始小团体聚合成为一个用户节点,重复前述划分过程,直到网络的结构不再改变为止。
4、建立团体画像
对识别到的大团体以及其内部的小团体,根据就诊信息表和结算表建立团体画像。团体画像可以包括团体的基本特征,如团体人数、平均相似就医次数、平均年龄等,还可以包括就诊相关特征,如平均年门诊统筹金额、药品明细等。后续,可以根据团体画像中的平均就诊相似次数、金额、人数等信息来对团体的可疑、重要程度进行排序,方便相关人员进行团体的核实,提高发现异常就医团体的准确性。同时,对于已知有异常就医行为的人员,相关人员根据其所属的小团体也可以进一步挖掘与其有相似异常就医行为的可疑就医人员。
可以理解,本申请的对象集群画像确定方法除了应用于医疗场景,还可以应用于其他场景,例如,信息推荐场景等。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
应该理解的是,虽然图2、图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图4中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种对象集群画像确定装置,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:行为数据获取模块602、对象标识关联模块604、行为数据统计模块606、对象标识关系图建立模块608、对象聚类模块610和对象集群画像生成模块612,其中:
行为数据获取模块602,用于获取对象行为数据集合;对象行为数据集合包括多个候选对象标识对应的行为数据,行为数据是从候选对象标识对应的单据中提取的;
对象标识关联模块604,用于基于相似行为参考信息,从对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识;
行为数据统计模块606,用于基于同一组关联对象标识对应的相似行为数据,得到各组关联对象标识对应的相似行为统计信息;
对象标识关系图建立模块608,用于基于各个相似行为统计信息建立对象标识关系图;对象标识关系图包括关联对象标识对应的对象节点和基于相似行为统计信息确定的节点关联信息;
对象聚类模块610,用于基于节点关联信息,对对象标识关系图中的对象节点进行对象聚类,得到至少一个对象集群子图;
对象集群画像生成模块612,用于基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像。
上述对象集群画像确定装置,无需人工处理,基于相似行为参考信息可以从对象行为数据集合中智能化地检索相似行为数据,将存在相似行为数据的对象自动进行关联,然后对关联对象对应的相似行为数据进行数据分析可以得到关联对象之间的相似行为统计信息,进而建立起描述全局对象关系的对象标识关系图。进一步的,由于相似行为统计信息可以反映关联对象之间的关联程度,基于由相似行为统计信息确定的节点关联信息,对对象标识关系图中的对象节点进行对象聚类,可以从对象标识关系图中挖掘出联系紧密、比较完整、甚至是潜在的对象集群、团体,进而基于对象集群中各个对象对应的行为数据可以生成对象集群对应的对象集群画像,对象集群画像有助于在线上和线下快速、准确地定位到对应的对象集群。
在一个实施例中,相似行为参考信息包括行为触发地点、行为触发时间、行为类型和资源消耗信息。对象标识关联模块还用于从对象行为数据集合中,获取行为触发地点、行为触发时间、行为类型和资源消耗信息匹配的行为数据作为相似行为数据,得到至少一组相似行为数据;将同一组相似行为数据对应的候选对象标识作为关联对象标识,得到各组关联对象标识。
在一个实施例中,行为触发地点匹配是指行为数据对应的行为触发地点一致,行为触发时间匹配是指行为数据对应的行为触发时间的时间间隔小于预设时间间隔,行为类型匹配是指行为数据对应的行为类型一致,资源消耗信息匹配是指行为数据对应的资源消耗信息的信息差异小于预设阈值。
在一个实施例中,行为数据统计模块还用于从同一组关联对象标识对应的相似行为数据中,统计相似行为触发次数,得到各组关联对象标识对应的相似行为触发次数;基于各组关联对象标识对应的相似行为触发次数,得到各组关联对象标识对应的相似行为统计信息。
在一个实施例中,行为数据统计模块还用于基于同一组关联对象标识对应的相似行为数据计算行为数据差异,基于行为数据差异计算行为相似度,得到各组关联对象标识对应的行为相似度;融合同一组关联对象标识对应的相似行为触发次数和行为相似度,得到各组关联对象标识对应的相似行为统计信息。
在一个实施例中,对象标识关系图建立模块还用于获取大于预设统计信息的相似行为统计信息所对应的关联对象标识作为目标对象标识;将各组目标对象标识对应的候选对象标识作为对象节点,基于各组目标对象标识对应的相似行为统计信息,计算各组对象节点对应的节点关联信息;基于各组对象节点对应的节点关联信息连接各组对象节点,得到对象标识关系图。
在一个实施例中,对象聚类模块包括:
第一级集群子图确定单元,用于从对象标识关系图中识别连通子图,得到至少一个第一级集群子图。
第二级集群子图确定单元,用于基于第一级集群子图对应的节点关联信息,对第一级集群子图中的对象节点进行对象聚类,得到各个第一级集群子图分别对应的第二级集群子图;
对象集群子图确定单元,用于基于各个第一级集群子图和各个第二级集群子图,得到对象集群子图。
在一个实施例中,第二级集群子图确定单元还用于从各个第一级集群子图中确定当前集群子图;从当前集群子图中确定目标对象节点;配置当前集群子图中各个对象节点之间的聚类参数为第一参数;基于当前集群子图对应的节点关联信息和聚类参数,计算当前集群子图对应的第一节点紧密度;将目标对象节点和对应的邻接对象节点之间的聚类参数更新为第二参数,计算当前集群子图对应的第二节点紧密度;基于第一节点紧密度和第二节点紧密度,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数,基于目标对象节点和对应的邻接对象节点之间的目标聚类参数更新当前集群子图中目标对象节点和对应的邻接对象节点之间的聚类参数;将下一对象节点作为目标对象节点,返回基于当前集群子图对应的节点关联信息和聚类参数,计算当前集群子图对应的第一节点紧密度的步骤执行,直至满足第一收敛条件,得到当前集群子图中各个对象节点之间的目标聚类参数;基于当前集群子图中各个对象节点之间的目标聚类参数,压缩当前集群子图,得到更新集群子图;将更新集群子图作为当前集群子图,返回从当前集群子图中确定目标对象节点的步骤执行,直至满足第二收敛条件,得到第一级集群子图对应的第二级集群子图。
在一个实施例中,第二级集群子图确定单元还用于在当前集群子图中,基于同一对象节点和对应的各个邻接对象节点之间的节点关联信息,得到各个对象节点对应的第一关联统计信息;融合各个第一关联统计信息,得到第二关联统计信息;基于当前对象节点对应的第一关联统计信息、当前对象节点对应的邻接对象节点所对应的第一关联统计信息和第二关联统计信息,得到各组对象节点对应的第三关联统计信息;基于当前组对象节点对应的节点关联信息、第三关联统计信息和聚类参数计算节点紧密信息,得到各组对象节点对应的节点紧密信息;基于各个节点紧密信息和第二关联统计信息,得到第一节点紧密度。
在一个实施例中,第二级集群子图确定单元还用于当第一节点紧密度大于或等于第二节点紧密度时,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数为第一参数;当第一节点紧密度小于第二节点紧密度时,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数为第二参数。
在一个实施例中,第二级集群子图确定单元还用于在当前集群子图中,将目标聚类参数为第二参数的连通子图作为目标连通子图;将各个目标连通子图分别作为更新对象节点,基于各个目标连通子图之间的节点关联信息得到各个更新对象节点之间的节点关联信息;基于各个更新对象节点之间的节点关联信息连接各个更新对象节点,得到更新集群子图。
在一个实施例中,对象集群画像生成模块还用于针对当前对象集群子图,从各个候选对象标识对应的行为数据中提取行为特征,基于当前对象集群子图对应的各个候选对象标识的行为特征,得到当前对象集群子图对应的行为特征统计信息;统计当前对象集群子图中对象节点的数量,得到当前对象集群子图对应的对象数量;基于当前对象集群子图对应的各个候选对象标识的对象属性信息,得到当前对象集群子图对应的对象属性统计信息;基于当前对象集群子图对应的行为特征统计信息、对象数量和对象属性统计信息,得到当前对象集群子图对应的对象集群画像。
在一个实施例中,行为数据获取模块还用于获取医保机构提供的多个医保单据;各个医保单据存在对应的候选对象标识;从当前候选对象标识对应的各个医保单据中提取目标字段对应的字段信息,基于提取到的字段信息得到当前候选对象标识对应的行为数据;基于各个候选对象标识对应的行为数据,得到对象行为数据集合。
在一个实施例中,对象集群画像确定装置还包括:
信息反馈模块,用于基于各个对象集群子图对应的对象集群画像,计算各个对象集群子图对应的集群重要度;基于集群重要度对各个对象集群子图对应的对象集群进行排序,得到对象集群序列;将对象集群序列发送至目标终端。
在一个实施例中,对象集群画像确定装置还包括:
信息查询模块,用于获取关联对象查询请求;关联对象查询请求携带目标对象标识;从各个对象集群子图中,查询目标对象标识对应的对象集群子图,得到目标集群子图;基于目标集群子图对应的各个候选对象标识,生成查询结果;向关联对象查询请求的查询方返回查询结果。
关于对象集群画像确定装置的具体限定可以参见上文中对于对象集群画像确定方法的限定,在此不再赘述。上述对象集群画像确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储对象行为数据集合、对象集群画像数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种对象集群画像确定方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种对象集群画像确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图7、8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (18)
1.一种对象集群画像确定方法,其特征在于,所述方法包括:
获取对象行为数据集合;所述对象行为数据集合包括多个候选对象标识对应的行为数据,所述行为数据是从候选对象标识对应的单据中提取的;
基于相似行为参考信息,从所述对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识;
基于同一组关联对象标识对应的相似行为数据,得到各组关联对象标识对应的相似行为统计信息;
基于各个相似行为统计信息建立对象标识关系图;所述对象标识关系图包括关联对象标识对应的对象节点和基于相似行为统计信息确定的节点关联信息;
从所述对象标识关系图中确定至少一个第一级集群子图;
从各个第一级集群子图中确定当前集群子图,将当前集群子图对应的各个对象节点分配在不同的对象集群中,将各个对象节点依次划分到与之邻接的对象节点所在的对象集群中,在每次划分时基于当前集群子图对应的节点关联信息,计算当前集群子图在划分前对应的第一节点紧密度和在划分后对应的第二节点紧密度,基于第一节点紧密度和第二节点紧密度确定对象节点所属对象集群;
基于当前集群子图中各个对象节点所属对象集群,压缩当前集群子图,得到更新集群子图,将更新集群子图作为当前集群子图,返回所述将当前集群子图对应的各个对象节点分配在不同的对象集群中的步骤执行,直至满足第二收敛条件,得到第一级集群子图对应的第二级集群子图;
基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像;所述各个对象集群子图包括各个第一级集群子图和各个第一级集群子图分别对应的第二级集群子图。
2.根据权利要求1所述的方法,其特征在于,所述相似行为参考信息包括行为触发地点、行为触发时间、行为类型和资源消耗信息;
所述基于相似行为参考信息,从所述对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识,包括:
从所述对象行为数据集合中,获取行为触发地点、行为触发时间、行为类型和资源消耗信息匹配的行为数据作为相似行为数据,得到至少一组相似行为数据;
将同一组相似行为数据对应的候选对象标识作为关联对象标识,得到各组关联对象标识。
3.根据权利要求2所述的方法,其特征在于,所述行为触发地点匹配是指行为数据对应的行为触发地点一致,所述行为触发时间匹配是指行为数据对应的行为触发时间的时间间隔小于预设时间间隔,所述行为类型匹配是指行为数据对应的行为类型一致,所述资源消耗信息匹配是指行为数据对应的资源消耗信息的信息差异小于预设阈值。
4.根据权利要求1所述的方法,其特征在于,所述基于同一组关联对象标识对应的相似行为数据,得到各组关联对象标识对应的相似行为统计信息,包括:
从同一组关联对象标识对应的相似行为数据中,统计相似行为触发次数,得到各组关联对象标识对应的相似行为触发次数;
基于所述各组关联对象标识对应的相似行为触发次数,得到各组关联对象标识对应的相似行为统计信息。
5.根据权利要求4所述的方法,其特征在于,所述基于所述各组关联对象标识对应的相似行为触发次数,得到各组关联对象标识对应的相似行为统计信息,包括:
基于同一组关联对象标识对应的相似行为数据计算行为数据差异,基于行为数据差异计算行为相似度,得到各组关联对象标识对应的行为相似度;
融合同一组关联对象标识对应的相似行为触发次数和行为相似度,得到所述各组关联对象标识对应的相似行为统计信息。
6.根据权利要求1所述的方法,其特征在于,所述基于各个相似行为统计信息建立对象标识关系图,包括:
获取大于预设统计信息的相似行为统计信息所对应的关联对象标识作为目标对象标识;
将各组目标对象标识对应的候选对象标识作为对象节点,基于各组目标对象标识对应的相似行为统计信息,计算各组对象节点对应的节点关联信息;
基于所述各组对象节点对应的节点关联信息连接各组对象节点,得到所述对象标识关系图。
7.根据权利要求1所述的方法,其特征在于,所述从所述对象标识关系图中确定至少一个第一级集群子图,包括:
从所述对象标识关系图中识别连通子图,得到至少一个第一级集群子图。
8.根据权利要求7所述的方法,其特征在于,所述从各个第一级集群子图中确定当前集群子图,将当前集群子图对应的各个对象节点分配在不同的对象集群中,将各个对象节点依次划分到与之邻接的对象节点所在的对象集群中,在每次划分时基于当前集群子图对应的节点关联信息,计算当前集群子图在划分前对应的第一节点紧密度和在划分后对应的第二节点紧密度,基于第一节点紧密度和第二节点紧密度确定对象节点所属对象集群,包括:
从所述各个第一级集群子图中确定当前集群子图;
从当前集群子图中确定目标对象节点;
配置当前集群子图中各个对象节点之间的聚类参数为第一参数;
基于当前集群子图对应的节点关联信息和聚类参数,计算当前集群子图对应的第一节点紧密度;
将目标对象节点和对应的邻接对象节点之间的聚类参数更新为第二参数,计算当前集群子图对应的第二节点紧密度;
基于所述第一节点紧密度和所述第二节点紧密度,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数,基于目标对象节点和对应的邻接对象节点之间的目标聚类参数更新当前集群子图中目标对象节点和对应的邻接对象节点之间的聚类参数;
将下一对象节点作为目标对象节点,返回所述基于当前集群子图对应的节点关联信息和聚类参数,计算当前集群子图对应的第一节点紧密度的步骤执行,直至满足第一收敛条件,得到当前集群子图中各个对象节点之间的目标聚类参数;
所述基于当前集群子图中各个对象节点所属对象集群,压缩当前集群子图,得到更新集群子图,包括:
基于当前集群子图中各个对象节点之间的目标聚类参数,压缩当前集群子图,得到更新集群子图。
9.根据权利要求8所述的方法,其特征在于,所述基于当前集群子图对应的节点关联信息和聚类参数,计算当前集群子图对应的第一节点紧密度,包括:
在当前集群子图中,基于同一对象节点和对应的各个邻接对象节点之间的节点关联信息,得到各个对象节点对应的第一关联统计信息;
融合各个第一关联统计信息,得到第二关联统计信息;
基于当前对象节点对应的第一关联统计信息、所述当前对象节点对应的邻接对象节点所对应的第一关联统计信息和所述第二关联统计信息,得到各组对象节点对应的第三关联统计信息;
基于当前组对象节点对应的节点关联信息、第三关联统计信息和聚类参数计算节点紧密信息,得到各组对象节点对应的节点紧密信息;
基于各个节点紧密信息和所述第二关联统计信息,得到所述第一节点紧密度。
10.根据权利要求8所述的方法,其特征在于,所述基于所述第一节点紧密度和所述第二节点紧密度,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数,包括:
当所述第一节点紧密度大于或等于所述第二节点紧密度时,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数为所述第一参数;
当所述第一节点紧密度小于所述第二节点紧密度时,确定目标对象节点和对应的邻接对象节点之间的目标聚类参数为所述第二参数。
11.根据权利要求8所述的方法,其特征在于,所述基于当前集群子图中各个对象节点之间的目标聚类参数,压缩当前集群子图,得到更新集群子图,包括:
在当前集群子图中,将目标聚类参数为所述第二参数的连通子图作为目标连通子图;
将各个目标连通子图分别作为更新对象节点,基于各个目标连通子图之间的节点关联信息得到各个更新对象节点之间的节点关联信息;
基于各个更新对象节点之间的节点关联信息连接各个更新对象节点,得到更新集群子图。
12.根据权利要求1所述的方法,其特征在于,所述基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像,包括:
针对当前对象集群子图,从各个候选对象标识对应的行为数据中提取行为特征,基于当前对象集群子图对应的各个候选对象标识的行为特征,得到所述当前对象集群子图对应的行为特征统计信息;
统计所述当前对象集群子图中对象节点的数量,得到所述当前对象集群子图对应的对象数量;
基于所述当前对象集群子图对应的各个候选对象标识的对象属性信息,得到所述当前对象集群子图对应的对象属性统计信息;
基于所述当前对象集群子图对应的行为特征统计信息、对象数量和对象属性统计信息,得到所述当前对象集群子图对应的对象集群画像。
13.根据权利要求1至12中任意一项所述的方法,其特征在于,所述获取对象行为数据集合,包括:
获取医保机构提供的多个医保单据;各个医保单据存在对应的候选对象标识;
从当前候选对象标识对应的各个医保单据中提取目标字段对应的字段信息,基于提取到的字段信息得到所述当前候选对象标识对应的行为数据;
基于各个候选对象标识对应的行为数据,得到所述对象行为数据集合。
14.根据权利要求1至12中任意一项所述的方法,其特征在于,所述方法还包括:
基于各个对象集群子图对应的对象集群画像,计算各个对象集群子图对应的集群重要度;
基于所述集群重要度对各个对象集群子图对应的对象集群进行排序,得到对象集群序列;
将所述对象集群序列发送至目标终端。
15.根据权利要求1至12中任意一项所述的方法,其特征在于,所述方法还包括:
获取关联对象查询请求;所述关联对象查询请求携带目标对象标识;
从各个对象集群子图中,查询所述目标对象标识对应的对象集群子图,得到目标集群子图;
基于所述目标集群子图对应的各个候选对象标识,生成查询结果;
向所述关联对象查询请求的查询方返回所述查询结果。
16.一种对象集群画像确定装置,其特征在于,所述装置包括:
行为数据获取模块,用于获取对象行为数据集合;所述对象行为数据集合包括多个候选对象标识对应的行为数据,所述行为数据是从候选对象标识对应的单据中提取的;
对象标识关联模块,用于基于相似行为参考信息,从所述对象行为数据集合中检索相似行为数据,将存在相似行为数据的候选对象标识形成关联对象标识,得到至少一组关联对象标识;
行为数据统计模块,用于基于同一组关联对象标识对应的相似行为数据,得到各组关联对象标识对应的相似行为统计信息;
对象标识关系图建立模块,用于基于各个相似行为统计信息建立对象标识关系图;所述对象标识关系图包括关联对象标识对应的对象节点和基于相似行为统计信息确定的节点关联信息;
对象聚类模块,用于从所述对象标识关系图中确定至少一个第一级集群子图;从各个第一级集群子图中确定当前集群子图,将当前集群子图对应的各个对象节点分配在不同的对象集群中,将各个对象节点依次划分到与之邻接的对象节点所在的对象集群中,在每次划分时基于当前集群子图对应的节点关联信息,计算当前集群子图在划分前对应的第一节点紧密度和在划分后对应的第二节点紧密度,基于第一节点紧密度和第二节点紧密度确定对象节点所属对象集群;基于当前集群子图中各个对象节点所属对象集群,压缩当前集群子图,得到更新集群子图,将更新集群子图作为当前集群子图,返回所述将当前集群子图对应的各个对象节点分配在不同的对象集群中的步骤执行,直至满足第二收敛条件,得到第一级集群子图对应的第二级集群子图;
对象集群画像生成模块,用于基于同一对象集群子图对应的各个候选对象标识的行为数据,生成各个对象集群子图对应的对象集群画像;所述各个对象集群子图包括各个第一级集群子图和各个第一级集群子图分别对应的第二级集群子图。
17.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至15中任一项所述的方法的步骤。
18.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至15中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111445580.1A CN114610921B (zh) | 2021-11-30 | 2021-11-30 | 对象集群画像确定方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111445580.1A CN114610921B (zh) | 2021-11-30 | 2021-11-30 | 对象集群画像确定方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114610921A CN114610921A (zh) | 2022-06-10 |
CN114610921B true CN114610921B (zh) | 2023-02-28 |
Family
ID=81857683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111445580.1A Active CN114610921B (zh) | 2021-11-30 | 2021-11-30 | 对象集群画像确定方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114610921B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011151500A1 (en) * | 2010-05-31 | 2011-12-08 | Helsingin Yliopisto | Arrangement and method for finding relationships among data |
CN111445320A (zh) * | 2020-03-30 | 2020-07-24 | 深圳市华云中盛科技股份有限公司 | 目标社群识别方法、装置、计算机设备及存储介质 |
CN111460315A (zh) * | 2020-03-10 | 2020-07-28 | 平安科技(深圳)有限公司 | 社群画像构建方法、装置、设备及存储介质 |
CN111538751A (zh) * | 2020-03-23 | 2020-08-14 | 重庆特斯联智慧科技股份有限公司 | 物联网数据的标签化用户画像生成系统及方法 |
CN111667018A (zh) * | 2020-06-17 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种对象聚类的方法、装置、计算机可读介质及电子设备 |
-
2021
- 2021-11-30 CN CN202111445580.1A patent/CN114610921B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2011151500A1 (en) * | 2010-05-31 | 2011-12-08 | Helsingin Yliopisto | Arrangement and method for finding relationships among data |
CN111460315A (zh) * | 2020-03-10 | 2020-07-28 | 平安科技(深圳)有限公司 | 社群画像构建方法、装置、设备及存储介质 |
CN111538751A (zh) * | 2020-03-23 | 2020-08-14 | 重庆特斯联智慧科技股份有限公司 | 物联网数据的标签化用户画像生成系统及方法 |
CN111445320A (zh) * | 2020-03-30 | 2020-07-24 | 深圳市华云中盛科技股份有限公司 | 目标社群识别方法、装置、计算机设备及存储介质 |
CN111667018A (zh) * | 2020-06-17 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 一种对象聚类的方法、装置、计算机可读介质及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN114610921A (zh) | 2022-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gao et al. | Generative adversarial networks for spatio-temporal data: A survey | |
Bartunov et al. | Joint link-attribute user identity resolution in online social networks | |
CN111488385B (zh) | 基于人工智能的数据处理方法、装置和计算机设备 | |
CN111710429A (zh) | 信息的推送方法及装置、计算机设备、存储介质 | |
Hu et al. | An insight analysis and detection of drug-abuse risk behavior on Twitter with self-taught deep learning | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN113762703A (zh) | 确定企业画像的方法和装置、计算设备和存储介质 | |
CN111696656B (zh) | 一种互联网医疗平台的医生评价方法、装置 | |
CN111159763A (zh) | 一种涉法人员群体画像分析系统及方法 | |
KR20200063841A (ko) | 문서 이미지로부터 인식된 용어를 표준화하기 위한 방법 | |
CN112257959A (zh) | 用户风险预测方法、装置、电子设备及存储介质 | |
Dai et al. | A co-training approach for sequential three-way decisions | |
Liu et al. | [Retracted] Deep Learning and Collaborative Filtering‐Based Methods for Students’ Performance Prediction and Course Recommendation | |
Liu et al. | A hybrid book recommendation algorithm based on context awareness and social network | |
CN118071400A (zh) | 基于图计算技术在信息消费领域的应用方法及系统 | |
CN114610921B (zh) | 对象集群画像确定方法、装置、计算机设备和存储介质 | |
Shastri et al. | Development of a data mining based model for classification of child immunization data | |
CN113011968B (zh) | 账号状态的检测方法、装置和存储介质及电子设备 | |
CN115758271A (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN112685574B (zh) | 领域术语层次关系的确定方法、装置 | |
Shen et al. | Dynamic relation extraction with a learnable temporal encoding method | |
Radhi | Adaptive learning system of ontology using semantic web to mining data from distributed heterogeneous environment | |
Arora et al. | A Systematic Review on Sentiment Analysis for The Depression Detection During Covid-19 Pandemic | |
Tonglet et al. | Predicting the demographics of Twitter users with programmatic weak supervision | |
Dave | Application of convolutional neural network models for personality prediction from social media images and citation prediction for academic papers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |