CN115712837A - 数据处理方法、装置、电子设备及存储介质 - Google Patents

数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115712837A
CN115712837A CN202110959554.4A CN202110959554A CN115712837A CN 115712837 A CN115712837 A CN 115712837A CN 202110959554 A CN202110959554 A CN 202110959554A CN 115712837 A CN115712837 A CN 115712837A
Authority
CN
China
Prior art keywords
target
feature
cluster
data
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110959554.4A
Other languages
English (en)
Inventor
吴杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tenpay Payment Technology Co Ltd
Original Assignee
Tenpay Payment Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tenpay Payment Technology Co Ltd filed Critical Tenpay Payment Technology Co Ltd
Priority to CN202110959554.4A priority Critical patent/CN115712837A/zh
Publication of CN115712837A publication Critical patent/CN115712837A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、电子设备及存储介质,该数据处理方法通过确定多个目标时间点,对于每个目标时间点,根据目标特征维度获取第一对象的第一特征数据,根据目标特征维度获取第一对象所在的目标集群的第二特征数据,获取第一特征数据在多个目标时间点的第一时间序列,获取第二特征数据在多个目标时间点的第二时间序列,再进一步确定第一时间序列数据与第二时间序列数据之间的第一相关度值,既能够降低数据突变带来的影响,也能够利用与目标集群之间的特征相关度准确、可靠地确定第一对象与目标集群之间的差异,从而有利于提高对象分析的准确性,可广泛应用于计算机、互联网等技术领域。

Description

数据处理方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,特别是涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,对业务使用对象进行管理的重要性变得越来越高,对象管理的准确性会对业务运行的稳定性产生较大的影响。相关技术中,一般通过业务使用对象的特征数据来对该对象进行分析,进而对该对象进行管理。然而,业务使用对象的特征数据可能会存在突变的情况,从而降低了对象分析的准确性。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种数据处理方法、装置、电子设备及存储介质,可以利用多个目标时间点的特征数据的变化趋势来降低特征数据突变所带来的影响,能够提高对象分析的准确性。
一方面,本发明实施例提供了一种数据处理方法,包括:
确定多个目标时间点;
对于每个所述目标时间点,根据目标特征维度获取第一对象的第一特征数据;
对于每个所述目标时间点,根据所述目标特征维度获取所述第一对象所在的目标集群的第二特征数据;
获取所述第一特征数据在多个所述目标时间点的第一时间序列,获取所述第二特征数据在多个所述目标时间点的第二时间序列;
确定所述第一时间序列与所述第二时间序列之间的第一相关度值;
当所述第一相关度值小于或者等于预设阈值,将所述第一对象确定为目标对象。
另一方面,本发明实施例还提供了一种数据处理装置,包括:
时间点确定模块,用于确定多个目标时间点;
第一特征数据获取模块,用于对于每个所述目标时间点,根据目标特征维度获取第一对象的第一特征数据;
第二特征数据获取模块,用于对于每个所述目标时间点,根据所述目标特征维度获取所述第一对象所在的目标集群的第二特征数据;
时间序列数据确定模块,用于确定所述第一特征数据在多个所述目标时间点的第一时间序列,确定所述第二特征数据在多个所述目标时间点的第二时间序列;
相关度确定模块,用于确定所述第一时间序列与所述第二时间序列之间的第一相关度值;
目标对象确定模块,用于当所述第一相关度值小于或者等于预设阈值,将所述第一对象确定为目标对象。
进一步,上述第一特征数据获取模块具体用于:
确定所述目标特征维度对应的多个成员特征;
从多个所述成员特征中确定与第一对象对应的目标特征;
利用第一字符对所述目标特征进行赋值,利用第二字符对除了所述目标特征以外的其余成员特征进行赋值;
根据所述第一字符和所述第二字符得到字符串,将所述字符串作为所述第一对象的第一特征数据。
进一步,所述目标集群包括多个对象,上述第二特征数据获取模块具体用于:
根据所述目标特征维度,获取所述第一对象所在的目标集群中每个对象的第三特征数据;
计算多个对象的所述第三特征数据的平均值,得到所述目标集群的第二特征数据。
进一步,所述目标特征维度的数量为多个,上述相关度确定模块具体用于:
对于每个所述目标特征维度,确定所述第一时间序列与所述第二时间序列之间的第二相关度值;
根据每个所述目标特征维度的所述第二相关度值之和,得到所述第一时间序列与所述第二时间序列之间的第一相关度值。
进一步,上述相关度确定模块还用于:
确定第一特征维度;
从多个所述目标特征维度中剔除所述第一特征维度;
所述对于每个所述目标特征维度,确定所述第一时间序列与所述第二时间序列之间的第二相关度值,包括:
对于剔除所述第一特征维度后剩余的每个目标特征维度,确定所述第一时间序列与所述第二时间序列之间的第二相关度值。
进一步,上述相关度确定模块具体用于:
计算所述第一时间序列的平均值,得到第一平均特征数据,计算每个所述目标时间点的所述第一特征数据与所述第一平均特征数据之间的第一差值;
计算所述第二时间序列的平均值,得到第二平均特征数据,计算每个所述目标时间点的所述第二特征数据与所述第二平均特征数据之间的第二差值;
计算每个所述第一差值和对应同一个目标时间点的所述第二差值的乘积;
根据多个所述目标时间点的所述乘积的平均值得到所述第一时间序列与所述第二时间序列之间的第二相关度值。
所述第一对象为多个第二对象中的任意一个对象,上述数据处理装置还包括集群划分模块,该集群划分模块用于:
根据所述目标特征维度,获取每个所述第二对象的第四特征数据;
确定目标集群数量,确定与所述目标集群数量对应的第一集群中心;
根据所述目标特征维度,获取每个所述第二对象的第四特征数据以及每个所述第一集群中心的第五特征数据;
根据所述第四特征数据和所述第五特征数据,计算每个所述第二对象与每个所述第一集群中心之间的距离;
根据所述距离从所述第一集群中心中确定每个所述第二对象对应的第二集群中心,将每个所述第二对象与对应的所述第二集群中心进行集群划分,得到所述目标集群数量对应的目标集群。
进一步,上述集群划分模块具体用于:
确定初始集群数量;
根据预设步长对所述初始集群数量进行递增处理,得到多个待确定集群数量;
根据每个所述待确定集群数量对多个所述第二对象进行集群划分,对于每个所述待确定集群数量,确定集群划分的划分误差值;
根据相邻两个所述划分误差值之间的变化值,从多个所述待确定集群数量中确定目标集群数量。
进一步,上述集群划分模块具体用于:
确定所述目标特征维度的数量;
根据所述目标特征维度的数量所处的数量范围,确定与所述数量范围对应的初始集群数量。
进一步,上述集群划分模块具体用于:
获取对多个所述第二对象进行集群划分后每个集群的第六特征数据;
计算每个所述第二对象的第四特征数据与所在集群的第六特征数据之间的第三差值,对所述第三差值进行求平方处理,得到每个所述第四特征数据对应的单位误差值;
对所述单位误差值进行求和,得到集群划分的划分误差值。
进一步,所述目标特征维度的数量为多个,上述集群划分模块还用于:
确定第二特征维度;
从多个所述目标特征维度中剔除所述第二特征维度;
所述根据所述目标特征维度,获取每个所述第二对象的第四特征数据以及每个所述第一集群中心的第五特征数据,包括:
根据剔除所述第二特征维度后剩余的目标特征维度,获取每个所述第二对象的第四特征数据以及每个所述第一集群中心的第五特征数据。
进一步,上述集群划分模块具体用于:
计算所述第四特征数据与所述第五特征数据之间的第四差值,对所述第四差值进行求平方处理,得到每个目标特征维度的单位距离值;
将每个目标特征维度的所述单位距离值之和进行开平方处理,得到每个所述第二对象与每个所述第一集群中心之间的距离。
另一方面,本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的数据处理方法。
另一方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现上述的数据处理方法。
另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行实现上述的数据处理方法。
本发明实施例至少包括以下有益效果:本发明实施例通过确定多个目标时间点,对于每个所述目标时间点,根据目标特征维度获取第一对象的第一特征数据,对于每个所述目标时间点,根据所述目标特征维度获取所述第一对象所在的目标集群的第二特征数据,获取所述第一特征数据在多个所述目标时间点的第一时间序列,获取所述第二特征数据在多个所述目标时间点的第二时间序列,由于第一时间序列和第二时间序列可以反映第一特征数据和第二特征数据的变化趋势,从而可以降低数据突变所带来的影响;然后,再进一步确定第一时间序列数据与第二时间序列数据之间的第一相关度值,当第一相关度值小于或者等于设定阈值,将第一对象确定为目标对象,该目标对象即为待处理的对象,通过引入目标集群,并比较第一时间序列和第二时间序列的相关度,既能够降低数据突变带来的影响,也能够利用与目标集群之间的特征相关度准确、可靠地确定第一对象与目标集群之间的差异,从而有利于提高对象分析的准确性。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的数据处理方法的应用场景示意图;
图2为本发明实施例提供的数据处理方法的一种实施环境的示意图;
图3为本发明实施例提供的数据处理方法的流程图;
图4为本发明实施例提供的根据目标特征维度获取第一对象的第一特征数据的具体流程图;
图5为本发明实施例提供的集群划分的流程图;
图6为本发明实施例提供的集群划分的示意图;
图7为本发明实施例提供的数据处理方法的完整流程的示意图;
图8为本发明实施例提供的数据处理方法的完整流程图;
图9为本发明实施例提供的数据处理方法的应用示意图;
图10为本发明实施例提供的数据处理装置的结构示意图;
图11为本发明实施例提供的服务器的部分的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释:
对象:对象是待管理的任何事物,可以是有形的也可以是无形的,例如可以是一部电影、一个账号或者一个人。
集群:集群是由对象所组成的集合,可以根据一定的策略将多个对象划分成若干个集群,每个集群包含若干个对象。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
随着互联网技术的发展,对业务使用对象进行管理的重要性变得越来越高,对象管理的准确性会对业务运行的稳定性产生较大的影响。例如,在支付业务领域中,通常需要对某个支付账号进行分析,以及时发现出现问题的支付账号,又例如,在广告业务领域中,通常需要对某个投放对象进行分析,以确定该对象是否为广告投放的目标对象,又例如,在即时通信业务领域中,通常需要对某个社交账号进行分析,以便对该社交账号进行好友推荐。
相关技术中,一般通过业务使用对象的特征数据来对该对象进行分析,进而对该对象进行管理。然而,业务使用对象的特征数据可能会存在突变的情况,从而降低了对象分析的准确性。例如,某个对象当前的交易金额为1元,下一个时间点该对象的交易金额突变为1000元,但是交易金额为1000元实际上仍然属于正常范围,可见,上述方式会降低对象分析的准确性。
基于此,本发明实施例提供了一种数据处理方法、装置、电子设备及存储介质,可以利用多个目标时间点的特征数据的变化趋势来降低特征数据突变所带来的影响,能够提高对象分析的准确性。
参照图1,图1为本发明实施例提供的数据处理方法的应用场景示意图,其中,本发明实施例提供的数据处理方法,通过分析对象与对象所在集群的特征相关性,一方面可以与其他的分析方法进行联合分析,根据分析结果进行对象管理,另一方面也可以利用分析结果来辅助人工管理,进而确定对象相应的管理处置方式。
参照图2,图2为本发明实施例提供的数据处理方法的一种实施环境的示意图,该实施环境包括服务器201和电子设备202。
服务器201可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
另外,服务器201还可以是区块链网络中的一个节点服务器。
电子设备202可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。电子设备202以及服务器201可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例在此不做限制。
需要补充说明的是,本发明实施例提供的数据处理方法可以由图2所示的服务器201执行,或者,也可以由图2示的电子设备202执行。下面以服务器201执行数据处理方法为例进行说明。
示例性地基于图2所示的实施环境,参照图3,本发明实施例提供了一种数据处理方法,应用于服务器201中,该数据处理方法包括但不限于以下步骤301至步骤306。
步骤301:服务器确定多个目标时间点;
在一种可能的实现方式中,目标时间点用于确定获取特征数据的时机,在本发明实施例中,目标时间点的数量为至少两个,例如可以是两个、三个、五个等,本发明实施例不做限定。服务器可以根据预设的获取频率来确定多个目标时间点,服务器可以每隔一小时确定一个时间点,例如服务器确定的多个目标时间点可以是9:00、10:00、11:00,可以理解,本发明实施例并不对多个目标时间点之间的间隔做限定,例如也可以是每隔十分钟、每隔半小时、每隔一天等等。并且,相邻的两个目标时间点之间的时间间隔也可以不相等,例如服务器确定的多个目标时间点可以是9:00、10:00、12:00。
其中,多个目标时间点可以是多个历史的时间点,或者,也可以是当前的时间点以及从当前的时间点开始,基于预设的时间间隔确定的多个未来的时间点。
步骤302:服务器对于每个目标时间点,根据目标特征维度获取第一对象的第一特征数据;
在一种可能的实现方式中,特征数据可以用于表征对象的属性特征、操作特征等,不同的特征数据可以对应不同的特征维度,例如特征数据是“男”,则该特征数据对应的特征维度就是“性别”。目标特征维度即本发明实施例中用于表征对象的特征的维度,目标特征维度的数量可以是一个、两个或者更多。另外,目标特征维度可以根据不同的属性来分类,例如目标特征维度可以分为自然属性的特征维度(年龄、性别、区域等)、社会属性的特征维度(职业、爱好等)、账号属性的特征维度(注册时间、账号类型等)、资金属性的特征维度(资金余额、交易金额、交易次数等)、操作属性的特征维度(登陆时间、登录次数、点击次数、转发时间、转发次数、加好友次数、加好友时间、好友数量等)等等。其中,账号类型可以是商户账号、个人账号等。
在本发明实施例中,对于每个目标时间点都会获取第一对象对应目标特征维度的第一特征数据,例如,假设多个目标时间点为9:00、10:00、11:00,目标特征维度是交易金额,则在目标时间点9:00、10:00、11:00均分别获取第一对象的交易金额,若目标时间点9:00第一对象的交易金额为1000元,目标时间点10:00第一对象的交易金额为2000元,目标时间点11:00第一对象的交易金额为3000元,则根据目标特征维度“交易金额”获取到的第一特征数据为“1000”、“2000”和“3000”。可以理解,上述例子中目标特征维度的数量为一个,当目标特征维度的数量为多个时,每个目标时间点获取到的第一特征数据就对应多个目标特征维度。并且,在实际应用时,可以将上述数值“1000”、“2000”和“3000”转化成对应的向量表示。
步骤303:服务器对于每个目标时间点,根据目标特征维度获取第一对象所在的目标集群的第二特征数据;
在一种可能的实现方式中,本发明实施例在进行数据处理时,针对的是多个第二对象,第一对象是多个第二对象中的任意一个对象,并且,在进行数据处理之前先对第二对象进行集群划分,目标集群即为第一对象所在的集群,每个目标集群可以包括多个对象,然后,在每个目标时间点获取目标集群对应目标特征维度的第二特征数据。即,第一特征数据指的是第一对象的特征数据,第二特征数据指的是目标集群的特征数据。其中,目标集群的第二特征数据,可以是目标集群的质心的特征数据,即该目标集群中所有对象的特征数据的平均值。基于此,在本步骤中,根据目标特征维度获取第一对象所在的目标集群的第二特征数据,可以是根据目标特征维度,获取第一对象所在的目标集群中每个对象的第三特征数据,计算多个对象的第三特征数据的平均值,得到目标集群的第二特征数据。其中,第三特征数据用于泛指目标集群中每个对象的特征数据。
上述方式可以采用以下公式表示:
Figure BDA0003221569010000071
其中,Cl代表第l个目标集群的第二特征数据,l为常数,xv代表目标集群Cl中第v个对象的第三特征数据,v为常数,|Sl|表示目标集群S1中对象的个数。
可以理解,除了利用目标集群中所有对象的特征数据的平均值作为目标集群的第二特征数据以外,也可以采用构建特征模型的方式,将目标集群中所有对象的特征数据输入至预先训练好的特征模型,再输出目标全体的第二特征数据。
上述第二特征数据与第一特征数据对应相同的目标特征维度,基于步骤302中的例子进行进一步举例说明,在目标时间点9:00、10:00、11:00均分别获取目标集群的交易金额,若目标时间点9:00目标集群的交易金额为10000元,目标时间点10:00目标集群的交易金额为20000元,目标时间点11:00目标集群的交易金额为30000元,则根据目标特征维度“交易金额”获取到的第二特征数据为“10000”、“20000”和“30000”。
步骤304:服务器获取第一特征数据在多个目标时间点的第一时间序列,获取第二特征数据在多个目标时间点的第二时间序列;
其中,时间序列是指将同一目标特征维度的特征数据按其发生的时间先后顺序排列而成的数列,在本发明实施例中,时间序列包括了两个或者两个以上的时间点的特征数据。
相关技术中,通常利用某个时间点的特征数据来衡量某个对象与其他对象之间的特征差异,这种方式的缺陷在于,当对象的特征数据发生突变时,突变后的特征数据可能仍然是正常的,但实际上该对象可能出现异常。而在本发明实施例中,第一时间序列可以反映第一特征数据的变化趋势,第二时间序列可以反映第二特征数据的变化趋势,因而通过获取第一时间序列和第二时间序列,可以降低数据突变所带来的影响。
基于步骤302和步骤303中的例子进行进一步举例说明,第一特征数据的第一时间序列为“1000、2000、3000”,第二特征数据的第二时间序列为“10000、20000、30000”。
步骤305:服务器确定第一时间序列与第二时间序列之间的第一相关度值;
其中,相关度可以用于衡量两个数据之间的相关程度,因此,通过确定第一时间序列与第二时间序列之间的第一相关度值,可以根据第一相关度值来确定第一对象与该第一对象所在的目标集群之间的特征相关程度,从而实现对第一对象的分析。
步骤306:当第一相关度值小于或者等于预设阈值,服务器将第一对象确定为目标对象。
其中,当第一相关度值小于或者等于预设阈值,表明第一对象与该第一对象所在的目标集群之间的特征相关程度较小,该第一对象的特征与该第一对象所在的目标集群里的其他对象的特征发生一定程度的偏离,那么该第一对象即为目标对象,目标对象即为待处理的对象。例如,在支付业务领域中,第一对象可以是支付账号,当第一对象被确定为目标对象,后续的处置方式可以是限制交易金额等;又例如,在广告业务领域中,第一对象可以是广告投放的目标账号,当第一对象被确定为目标对象,后续的处理可以是不再对该第一对象投放相应的广告等。又例如,在即时通信领域中,第一对象可以是好友推荐的目标账号,当第一对象被确定为目标对象,后续的处理可以是不再对该第一对象推荐相关的好友等。可以理解,在确定第一对象为目标对象后,还可以结合人工审核再确定相应的管理处置方式,例如在确定第一对象为目标对象后,显示该目标对象的第一特征数据以及相关度值,便于进行后续的人工审核。
需要补充说明的是,预设阈值可以根据实际情况设定,例如可以是0.3、0.5等,本发明实施例不做限定。
可见,本发明实施例通过引入目标集群,并比较第一时间序列和第二时间序列的相关度,既能够降低数据突变带来的影响,也能够利用与目标集群之间的特征相关度准确、可靠地确定第一对象与目标集群之间的差异,从而有利于提高对象分析的准确性。
可以理解,目标特征维度可以分为可量化的特征维度和非量化的特征维度,例如,“交易金额”、“交易次数”、“登录时间”、“点击次数”、“转发次数”、“好友数量”、“注册时间”、“年龄”等特征维度属于可量化的特征维度,即该特征维度对应的特征数据为具体的数值,而“性别”、“区域”、“账号类型”、“职业”、“爱好”等特征维度属于非量化的特征维度,即该特征维度对应的特征数据不是具体的数值,此时,当利用多个目标特征维度来获取第一特征数据或者第二特征数据时,可量化的特征维度和非量化的特征维度所对应的具体的特征数据会存在量纲不统一的问题。
基于此,在一种可能的实现方式中,参照图4,图4为本发明实施例提供的根据目标特征维度获取第一对象的第一特征数据的具体流程图,上述步骤302中,根据目标特征维度获取第一对象的第一特征数据,具体可以包括以下步骤401至步骤404。
步骤401:服务器确定目标特征维度对应的多个成员特征;
步骤402:服务器从多个成员特征中确定与第一对象对应的目标特征;
步骤403:服务器利用第一字符对目标特征进行赋值,利用第二字符对除了目标特征以外的其余成员特征进行赋值;
步骤404:服务器根据第一字符和第二字符得到字符串,将字符串作为第一对象的第一特征数据。
在一种可能的实现方式中,上述步骤401至步骤404针对的是非量化的目标特征维度,步骤401中,确定目标特征维度对应的多个成员特征,可以是列举出归属于该目标特征维度对应的特征,例如,以目标特征维度为“职业”作为例子进行说明,目标特征维度“职业”的成员特征可以是“教师”、“医生”、“学生”、“工人”、“律师”、“司机”等等。其中,可以列举出某个目标特征维度的所有成员特征,而某些目标特征维度可能对应的成员特征较多时,可以预先设置特征数量,另外,除了设置特征数量以外,也可以根据实际情况选择常见的成员特征,例如上述目标特征维度“职业”利用常见的职业作为成员特征。
得到目标特征维度对应的多个成员特征后,则确定第一对象在这些成员特征中对应的目标特征,在上述目标特征维度“职业”的例子的基础上,以第一对象为账号进一步说明,可以提取账号资料中的职业,若该账号资料中的职业为“学生”,则“学生”即为多个成员特征中的目标特征,接着利用第一字符对目标特征进行赋值,利用第二字符对除了目标特征以外的其余成员特征进行赋值,其中,第一字符可以是“1”,相应地第二字符可以是“0”,从而可以将非量化的特征维度转化成量化的特征维度,便于后续的向量化处理。当然,本发明实施例并不对第一字符和第二字符进行限定。
接着,利用第一字符对目标特征进行赋值、利用第二字符对剩余的其他成员特征进行赋值后,即可根据第一字符和第二字符得到字符串,例如可以根据预设的顺序将第一字符和第二字符进行排列,即可得到字符串,预设的顺序可以是根据首字母顺序、包含的字符数量大小等原则来确定。在上述目标特征维度“职业”的例子的基础上,确定的成员特征根据首字母顺序排序为“工人”、“教师”、“律师”、“司机”、“学生”、“医生”,而第一对象对应的目标特征为“学生”,则得到的字符串即为“000010”。
可见,通过图4所示的步骤对第一对象的第一特征数据进行处理,可以使得第一对象的不同目标特征维度的第一特征数据统一为可量化的特征数据,方便后续进行相关度值的计算。
在一种可能的实现方式中,当目标特征维度的数量为多个时,在确定第一时间序列与第二时间序列之间的第一相关度值时,可以是对于每个目标特征维度,确定第一时间序列与第二时间序列之间的第二相关度值,再根据每个目标特征维度的第二相关度值之和,得到第一时间序列与第二时间序列之间的第一相关度值。具体来说,即将每个目标特征维度的相关度值之和作为第一相关度值,如此,在确定第一对象和目标集群之间的相关性时,可以综合考虑多种不同的特征维度,从而有利于提高对象分析的准确性和可靠性。在此基础上,还可以对不同的目标特征维度赋予相应的权值,即利用第二相关度值进行加权求和得到第一相关度值,从而可以提高第一相关度值的合理性,有利于进一步提高对象分析的准确性和可靠性。
在一种可能的实现方式中,在对于每个目标特征维度,确定第一时间序列与第二时间序列之间的第二相关度值之前,可以先确定第一特征维度,从多个目标特征维度中剔除第一特征维度,然后再对于剔除第一特征维度后剩余的每个目标特征维度,确定第一时间序列与第二时间序列之间的第二相关度值。其中,在多个目标特征维度中,可能会包含相对稳定的目标特征维度,例如“性别”、“区域”、“职业”等属于相对稳定的特征维度,即第一对象对应这类目标特征维度的具体特征比较稳定,一般不会变化,因此,可以将这类相对稳定的特征维度作为第一特征维度,在确定第二相关度值时先从多个目标特征维度中剔除第一特征维度,对于剔除第一特征维度后剩余的每个目标特征维度,确定第一时间序列与第二时间序列之间的第二相关度值,从而可以使得由第二相关度值之和得到的第一相关度值能够更加明显地区分出第一对象与目标集群之间的差异,有利于进一步提高对象分析的准确性和可靠性。
在一种可能的实现方式中,确定第一时间序列与第二时间序列之间的第二相关度值,具体可以通过计算第一时间序列的平均值,得到第一平均特征数据,计算每个目标时间点的第一特征数据与第一平均特征数据之间的第一差值,计算第二时间序列的平均值,得到第二平均特征数据,计算每个目标时间点的第二特征数据与第二平均特征数据之间的第二差值,计算每个第一差值和对应同一个目标时间点的第二差值的乘积,根据多个目标时间点的第一差值和第二差值的乘积的平均值,得到第一时间序列与第二时间序列之间的第二相关度值。
其中,上述第二相关度值的确定方式可以采用以下公式表示:
Figure BDA0003221569010000091
其中,r代表第二相关度值,E代表平均值,Var代表方差,cli为l集群在某个目标时间点的目标特征维度i上的第二特征数据,Cli为I集群在目标特征维度i上的第二时间序列,xki为对象k在某个目标时间点的目标特征维度i上的第一特征数据,Xki为对象k在目标特征维度i上的第一时间序列,E(Xki)代表第一平均特征数据,xki-E(Xki)代表第一差值,E(Cli)代表第二平均特征数据,cli-E(Cli)代表第二差值。
其中,在本发明实施例中,还引入第一时间序列和第二时间序列的方差来计算第二相关度值,从而可以降低第一时间序列和第二时间序列之间的量纲差异对第二相关度值的准确性的影响。
基于此,第一相关度值可以采用以下公式表示:
Figure BDA0003221569010000101
其中,SSk代表第一相关度值,1≤i≤n,n为常数。
本发明实施例在根据目标特征维度获取第一对象所在的目标集群的第二特征数据之前先对第二对象进行集群划分,下面详细说明本发明实施例中对第二对象进行集群划分的原理。
参照图5,图5为本发明实施例提供的集群划分的流程图,其中,该集群划分的流程包括以下步骤501至步骤504。
步骤501:服务器确定目标集群数量,确定与目标集群数量对应的第一集群中心;
步骤502:服务器根据目标特征维度,获取每个第二对象的第四特征数据以及每个第一集群中心的第五特征数据;
步骤503:服务器根据第四特征数据和第五特征数据,计算每个第二对象与每个第一集群中心之间的距离;
步骤504:服务器根据距离从第一集群中心中确定每个第二对象对应的第二集群中心,将每个第二对象与对应的第二集群中心进行集群划分,得到目标集群数量对应的目标集群。
其中,目标集群数量用于确定集群划分后得到的集群的数量,确定与目标集群数量对应的第一集群中心,即第一集群中心的数量与目标集群数量相同。在进行集群划分时,可以建立坐标系,将第二对象转化成坐标系中对应的点,第一集群中心可以随机选择,例如可以是第二对象中的任意一个,也可以是坐标系中除了第二对象以外的其他点,本发明实施例不做限定。第四特征数据用于泛指每个第二对象的特征数据,第五特征数据用于泛指每个第一集群中心的特征数据。确定第一集群中心以后,通过每个第二对象的第四特征数据和每个第一集群中心的第五特征数据,计算每个第二对象与每个第一集群中心之间的距离,例如,参照图6,图6为本发明实施例提供的集群划分的示意图,图6中以第二对象的数量为三个、第一集群中心的数量为两个(即目标集群数量为两个)作为实例进行说明,可以理解的是,图6仅用作原理性说明,本发明实施例并不对第二对象和第一集群中心的具体数量做限定。其中,对象A1的特征数据为M1,对象A2的特征数据为M2,对象A3的特征数据为M3,集群中心B1的特征数据为N1,集群中心B2的特征数据为N2,通过特征数据M1和特征数据N1计算对象A1与集群中心B1之间的距离L1,通过特征数据M1和特征数据N2计算对象A1与集群中心B2之间的距离L2,类似地,通过特征数据M2和特征数据N1计算对象A2与集群中心B1之间的距离L3,通过特征数据M2和特征数据N2计算对象A2与集群中心B2之间的距离L4,通过特征数据M3和特征数据N1计算对象A3与集群中心B1之间的距离L5,通过特征数据M3和特征数据N2计算对象A3与集群中心B2之间的距离L6,然后,比较L1与L2之间的大小关系,若L1小于L2,则将对象A1与集群中心B1划分为同一个目标集群,类似地,再比较L3与L4之间的大小、比较L5与L6之间的大小,以完成对象A2、对象A3的集群划分。基于上述操作,即可将对象A1、对象A2和对象A3划分两个目标集群。
在本发明实施例中,进行集群划分时先确定目标集群数量,不同的目标集群数量会对集群划分产生不同的影响,因此,在一种可能的实现方式中,确定目标集群数量时,可以先确定初始集群数量,根据预设步长对初始集群数量进行递增处理,得到多个待确定集群数量,根据每个待确定集群数量对多个第二对象进行集群划分,对于每个待确定集群数量,确定集群划分的划分误差值,根据相邻两个划分误差值之间的变化值,从多个待确定集群数量中确定目标集群数量。
其中,初始集群数量可以为2,或者也可以根据实际情况将初始集群数量设置为大于2。预设步长可以为1,或者也可以根据实际情况将预设步长设置为大于1。根据预设步长对初始集群数量进行递增处理即可得到多个待确定集群数量,例如,假设初始集群数量为2,预设步长为1,则可以依次得到待确定集群数量为3、4、5等等,假设初始集群数量为2,预设步长为2,则可以依次得到待确定集群数量为4、6、8等等。得到多个待确定集群数量后,则分别根据每个待确定集群数量对多个第二对象进行集群划分,然后确定每个待确定集群数量所对应的划分误差值。可以理解,随着集群数量的增多,划分误差值会变小,当相邻的两个划分误差值之间的变化值最大时,即代表当前的待确定集群数量可作为目标集群数量。例如,待确定集群数量为3时,对应的划分误差值为SS1,待确定集群数量为4时,对应的划分误差值为SS2,待确定集群数量为5时,对应的划分误差值为SS3,在待确定集群数量递增的过程中,集群数量4与集群数量3的划分误差值之间的变化值为SS2-SS1,集群数量5与集群数量4的划分误差值之间的变化值为SS3-SS2,当SS3-SS2大于SS2-SS1时,即可确定目标集群数量为5。本发明实施例利用划分误差值来确定目标集群数量,在对第二对象进行集群划分时可以使得集群数量更加合理,从而有利于提高后续的对象分析的准确性。
可以理解,由于随着集群数量的增多,划分误差值会变小,因此,在一种可能的实现方式中,确定初始集群数量,可以先确定目标特征维度的数量,再根据目标特征维度的数量所处的数量范围,确定与数量范围对应的初始集群数量。其中,若目标特征维度的数量越多,每个对象的特征表达会更加丰富,则可以相应地增加划分的集群数量,因此,可以基于目标特征维度的数量所处的数量范围来确定对应的初始集群数量,从而使得在确定划分误差值时从一个合适的初始集群数量开始,有利于提高集群划分的效率。例如,目标特征维度的数量范围为1至5个时,对应的初始集群数量可以是10个,目标特征维度的数量范围为6至10个时,对应的初始集群数量可以是20个,可以理解,上述目标特征维度的数量范围与对应的初始集群数量仅作为原理性说明,本发明实施例不做限定。
在一种可能的实现方式中,确定集群划分的划分误差值,可以是获取对多个第二对象进行集群划分后每个集群的第六特征数据,计算每个第二对象的第四特征数据与所在集群的第六特征数据之间的第三差值,对第三差值进行求平方处理,得到每个第四特征数据对应的单位误差值,对单位误差值进行求和,得到集群划分的划分误差值。
其中,第六特征数据用于泛指对第二对象进行集群划分后得到的每个集群的特征数据,第二对象所在集群的第六特征数据可以是第二对象所在集群的质心的特征数据,上述第二相关度值的确定方式可以采用以下公式表示:
Figure BDA0003221569010000121
其中,SSE代表划分误差值,x代表第x个集群,1≤x≤k,k为常数,Cx代表第x个集群,p为集群Cx中的第二对象的第四特征数据,mx为集群Cx的质心的第六特征数据,|p-mx|代表第三差值。当SSE的值越少时,表明集群划分的效果越好。可以理解的是,在集群划分的过程中,集群的质心会随着加入新的第二对象而产生变化。
在一种可能的实现方式中,在根据目标特征维度,获取每个第二对象的第四特征数据以及每个第一集群中心的第五特征数据之前,还可以先确定第二特征维度,从多个目标特征维度中剔除第二特征维度,然后再根据剔除第二特征维度后剩余的目标特征维度,获取每个第二对象的第四特征数据以及每个第一集群中心的第五特征数据。其中,在多个目标特征维度中,可能会包含相对不稳定的目标特征维度,例如“交易金额”、“登录时间”、“登录次数”等属于相对不稳定的特征维度,即第二对象对应这类目标特征维度的具体特征比较不稳定,一般在不同的时间点会产生变化。换个角度来看,即选择相对稳定的目标特征维度来进行集群划分,例如“性别”、“区域”、“职业”等特征维度。因此,可以将这类相对不稳定的特征维度作为第二特征维度,在获取每个第二对象的第四特征数据以及每个第一集群中心的第五特征数据时先从多个目标特征维度中剔除第二特征维度,然后再根据剔除第二特征维度后剩余的目标特征维度,获取每个第二对象的第四特征数据以及每个第一集群中心的第五特征数据,从而可以使得集群划分时不同的第二对象之间的特征区分更加明显,有利于提高集群划分的合理性和准确性。
可以理解,在进行集群划分时,也可以根据预设的目标特征维度来进行集群划分,例如,预设的目标特征维度可以是“年龄段”、“性别”、“城市等级”、“职业”,在此基础上,得到的第二对象的特征就可以是“三线城市蓝领男青年”、“一线城市白领女中年”等,通过预设常见的特征维度来进行集群划分,有利于提高划分后的集群的可解释性。可以理解的是,上述预设的目标特征维度仅用于原理性说明,本发明实施例并不做限定,在实际应用中可以根据需求来确定预设的目标特征维度。
在一种可能的实现方式中,当目标特征维度的数量为多个时,根据第四特征数据和第五特征数据,计算每个第二对象与每个第一集群中心之间的距离,具体可以是计算第四特征数据与第五特征数据之间的第四差值,对第四差值进行求平方处理,得到每个目标特征维度的单位距离值,将每个目标特征维度的单位距离值之和进行开平方处理,得到每个第二对象与每个第一集群中心之间的距离。上述距离的计算方式可以采用以下公式表示:
Figure BDA0003221569010000122
其中,Xi代表第i个第二对象,Cj代表第j个第一集群中心,i、j为常数,dis(Xi,Cj)代表某个第二对象和某个第一集群中心之间的距离,Xit代表第二对象在第t个目标特征维度的第四特征数据,Cjt代表第二对象在第t个目标特征维度的第五特征数据,1≤t≤m,m为常数,m代表目标特征维度的数量。Xit-Cjt代表第四差值,(Xit-Cjt)2代表单位距离值。
可以理解,在计算每个第二对象与每个第一集群中心之间的距离时,也可以采用余弦距离的计算方式实现。
下面以完整的流程说明本发明实施例提供的数据处理方法。参照图7,图7为本发明实施例提供的数据处理方法的完整流程的示意图,其中,本发明实施提供的数据处理方法主要包括特征数据标准化、集群划分、计算相关度值以及确定目标对象这几个主要的步骤。在特征数据标准化时,主要从自然属性的特征维度、社会属性的特征维度、账号属性的特征维度、资金属性的特征维度和操作属性的特征维度对特征数据进行划分,并且对于非量化的目标特征维度对应的特征数据进行转化;在集群划分时,先利用划分误差值确定最佳的目标集群数量,然后根据每个对象与集群的质心的距离来进行集群划分,集群划分完成后,确定每个集群的质心的特征数据,用于后续根据时间序列的比对来计算对象与集群之间的相关度值;在计算相关度值时,分别获取对象在多个目标时间点的特征数据,以及获取该对象所在集群在多个目标时间点的特征数据,进而分别得到该对象以及该对象所在集群所对应的时间序列,即可计算出该对象以及该对象所在集群所对应的时间序列之间的相关度值;在确定目标对象时,可以先根据每个对象对应的相关度值由大到小的顺序进行排序,筛选出相关度值排名靠后的对象,确定相关度值的阈值,将相关度值小于阈值的对象作为目标对象,再进一步对这些对象进行排查处置。
基于图7所示的完整流程,参照图8,图8为本发明实施例提供的数据处理方法的完整流程图,其中,该数据处理方法包括以下步骤801至步骤808。
步骤801:确定多个第二对象,根据多个目标特征维度获取每个第二对象的特征数据;
步骤802:将对应非量化的目标特征维度的特征数据进行转换处理;
步骤803:利用划分误差值确定目标集群数量,根据目标集群数量对多个第二对象进行集群划分;
步骤804:确定进行集群划分后每个集群的质心的特征数据;
步骤805:选取多个第二对象中的其中一个对象,根据该第二对象在多个时间点的特征数据得到该第二对象的时间序列,根据该第二对象所在集群在对应的多个时间点的特征数据得到该第二对象所在集群的时间序列;
步骤806:计算该第二对象的时间序列以及该第二对象所在集群的时间序列之间的相关度值;
步骤807:判断该相关度值是否小于或者等于预设阈值,若是,跳转步骤808,否则跳转步骤805;
步骤808:将该第二对象确定为目标对象。
其中,在步骤802中,非量化的目标特征维度的特征数据进行转换处理图4的步骤已经进行解释,在此不再赘述。在步骤805中,第二对象以及该第二对象所在集群的时间序列,可以从历史的多个时间点中进行提取,或者,也可以从当前时间点开始,基于预设的时间间隔获取多个未来的时间点中第二对象以及该第二对象所在集群的特征数据,进而得到第二对象以及该第二对象所在集群的时间序列。上述步骤801至步骤807通过比较第二对象以及该第二对象所在集群的时间序列的相关度值,既能够降低数据突变带来的影响,也能够准确、可靠地确定该第二对象所在集群之间的差异,从而有利于提高对象分析的准确性。
可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时间执行完成,而是可以在不同的时间执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
下面以实际场景来解释本发明实施例提供的数据处理方法的应用,参照图9,图9为本发明实施例提供的数据处理方法的应用示意图,其中,本发明实施例提供的数据处理方法可以示例性地应用在支付账号分析、广告推送、好友推荐等场景。
具体地,先获取待分析账号的特征数据,对该待分析账号进行集群划分,然后,获取多个时间点该待分析账号的特征数据,得到该待分析账号的时间序列,并相应地获取对应时间点该待分析账号所在集群的时间序列,然后,利用该待分析账号以及该待分析账号所在集群的时间序列之间的相关度值对该待分析账号进行分析。
其中,在实际应用中,线上支付、新闻浏览、即时通信等业务场景均可以基于同一个待分析账号实现,因此,利用该待分析账号以及该待分析账号所在集群的时间序列之间的相关度值对该待分析账号进行分析后,可以通过分析结果来确定针对不同场景的处置方式。例如,参照图9,假设该待分析账号以及该待分析账号所在集群的时间序列之间的相关度值小于预设阈值,即表明该待分析账号为目标账号,即该目标账号的操作特征与所在集群的操作特征出现偏差,因此在线上支付场景下,表明该目标账号的支付操作发生偏离,可能该目标账号出现异常,后续可以对该目标账号执行相应的管控措施,例如限制交易金额、交易次数等,从而提高支付业务运行的稳定性;而在新闻浏览的业务场景下,表明该目标账号的浏览操作发生偏离,后续可以调整原来的广告推送方案,重新针对该目标账号确定推送内容,从而提高广告推送的准确性;而在即时通信的业务场景下,表明该目标账号的即时通信操作发生偏离,后续可以调整原来的好友推荐方案,重新针对该目标账号确定推荐好友,从而提高好友推荐的准确性。可见,上述方式可以综合待分析账号的多种特征数据,根据分析结果执行不同场景的处置方式,适用性较为广泛。
可以理解的是,上述三种场景中,当确定目标账号的操作发生偏离,还可以先确定该目标账号的集群划分是否准确,以避免集群划分不准确所带来的误差,提高分析的准确性与可靠性。
在一种可能的实现方式中,当不同的业务场景基于不同的待分析账号实现时,也可以将不同的业务场景的该待分析账号进行独立分析,在此基础上,在获取待分析账号的特征数据,可以结合具体的业务场景来实现,例如,在线上支付场景下,获取待分析账号的特征数据时,可以聚焦与交易相关的特征数据,例如交易金额、交易次数,相应地可以剔除“阅读时长”、“内容类型”等相关性不高的特征数据,同理,在新闻浏览的业务场景下,可以聚焦“阅读时长”、“内容类型”等与业务场景相关性较高的特征数据,相应地可以剔除“交易金额”、“交易次数”等相关性不高的特征数据。可见,上述方式可以针对不同的业务场景进行相应的账号分析,有利于提高账号分析的针对性。
参照图10,本发明实施例还提供了一种数据处理装置1000,包括:
时间点确定模块1001,用于确定多个目标时间点;
第一特征数据获取模块1002,用于对于每个目标时间点,根据目标特征维度获取第一对象的第一特征数据;
第二特征数据获取模块1003,用于对于每个目标时间点,根据目标特征维度获取第一对象所在的目标集群的第二特征数据;
时间序列数据确定模块1004,用于确定第一特征数据在多个目标时间点的第一时间序列,确定第二特征数据在多个目标时间点的第二时间序列;
相关度确定模块1005,用于确定第一时间序列与第二时间序列之间的第一相关度值;
目标对象确定模块1006,用于当第一相关度值小于或者等于预设阈值,将第一对象确定为目标对象。
进一步,上述第一特征数据获取模块1002具体用于:
确定目标特征维度对应的多个成员特征;
从多个成员特征中确定与第一对象对应的目标特征;
利用第一字符对目标特征进行赋值,利用第二字符对除了目标特征以外的其余成员特征进行赋值;
根据第一字符和第二字符得到字符串,将字符串作为第一对象的第一特征数据。
进一步,目标集群包括多个对象,上述第二特征数据获取模块1003具体用于:
根据目标特征维度,获取第一对象所在的目标集群中每个对象的第三特征数据;
计算多个对象的第三特征数据的平均值,得到目标集群的第二特征数据。
进一步,目标特征维度的数量为多个,上述相关度确定模块1005具体用于:
对于每个目标特征维度,确定第一时间序列与第二时间序列之间的第二相关度值;
根据每个目标特征维度的第二相关度值之和,得到第一时间序列与第二时间序列之间的第一相关度值。
进一步,上述相关度确定模块1005还用于:
确定第一特征维度;
从多个目标特征维度中剔除第一特征维度;
对于每个目标特征维度,确定第一时间序列与第二时间序列之间的第二相关度值,包括:
对于剔除第一特征维度后剩余的每个目标特征维度,确定第一时间序列与第二时间序列之间的第二相关度值。
进一步,上述相关度确定模块1005具体用于:
计算第一时间序列的平均值,得到第一平均特征数据,计算每个目标时间点的第一特征数据与第一平均特征数据之间的第一差值;
计算第二时间序列的平均值,得到第二平均特征数据,计算每个目标时间点的第二特征数据与第二平均特征数据之间的第二差值;
计算每个第一差值和对应同一个目标时间点的第二差值的乘积;
根据多个目标时间点的乘积的平均值得到第一时间序列与第二时间序列之间的第二相关度值。
第一对象为多个第二对象中的任意一个对象,上述数据处理装置还包括集群划分模块1007,该集群划分模块1007用于:
根据目标特征维度,获取每个第二对象的第四特征数据;
确定目标集群数量,确定与目标集群数量对应的第一集群中心;
根据目标特征维度,获取每个第二对象的第四特征数据以及每个第一集群中心的第五特征数据;
根据第四特征数据和第五特征数据,计算每个第二对象与每个第一集群中心之间的距离;
根据距离从第一集群中心中确定每个第二对象对应的第二集群中心,将每个第二对象与对应的第二集群中心进行集群划分,得到目标集群数量对应的目标集群。
进一步,上述集群划分模块1007具体用于:
确定初始集群数量;
根据预设步长对初始集群数量进行递增处理,得到多个待确定集群数量;
根据每个待确定集群数量对多个第二对象进行集群划分,对于每个待确定集群数量,确定集群划分的划分误差值;
根据相邻两个划分误差值之间的变化值,从多个待确定集群数量中确定目标集群数量。
进一步,上述集群划分模块1007具体用于:
确定目标特征维度的数量;
根据目标特征维度的数量所处的数量范围,确定与数量范围对应的初始集群数量。
进一步,上述集群划分模块1007具体用于:
获取对多个第二对象进行集群划分后每个集群的第六特征数据;
计算每个第二对象的第四特征数据与所在集群的第六特征数据之间的第三差值,对第三差值进行求平方处理,得到每个第四特征数据对应的单位误差值;
对单位误差值进行求和,得到集群划分的划分误差值。
进一步,目标特征维度的数量为多个,上述集群划分模块1007还用于:
确定第二特征维度;
从多个目标特征维度中剔除第二特征维度;
根据目标特征维度,获取每个第二对象的第四特征数据以及每个第一集群中心的第五特征数据,包括:
根据剔除第二特征维度后剩余的目标特征维度,获取每个第二对象的第四特征数据以及每个第一集群中心的第五特征数据。
进一步,上述集群划分模块1007具体用于:
计算第四特征数据与第五特征数据之间的第四差值,对第四差值进行求平方处理,得到每个目标特征维度的单位距离值;
将每个目标特征维度的单位距离值之和进行开平方处理,得到每个第二对象与每个第一集群中心之间的距离。
本发明实施例提供的数据处理装置1000与上述数据处理方法基于相同的发明构思,在此不再对数据处理装置1000的原理以及有益效果进行赘述。
本发明实施例用于执行数据处理方法的可以是服务器,参照图11,图11为本发明实施例提供的服务器1100的部分的结构框图,服务器1100可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,简称CPU)1122(例如,一个或一个以上处理器)和存储器1132,一个或一个以上存储应用程序1142或数据1144的存储介质1130(例如一个或一个以上海量存储装置)。其中,存储器1132和存储介质1130可以是短暂存储或持久存储。存储在存储介质1130的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1122可以设置为与存储介质1130通信,在服务器1100上执行存储介质1130中的一系列指令操作。
服务器1100还可以包括一个或一个以上电源1126,一个或一个以上有线或无线网络接口1150,一个或一个以上输入输出接口1158,和/或,一个或一个以上操作系统1141,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
服务器中的处理器可以用于执行数据处理方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述各个实施例的执行数据处理方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前述各个实施例的数据处理方法。
本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。
应当理解,在本发明中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
应了解,在本发明实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
还应了解,本发明实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
确定多个目标时间点;
对于每个所述目标时间点,根据目标特征维度获取第一对象的第一特征数据;
对于每个所述目标时间点,根据所述目标特征维度获取所述第一对象所在的目标集群的第二特征数据;
获取所述第一特征数据在多个所述目标时间点的第一时间序列,获取所述第二特征数据在多个所述目标时间点的第二时间序列;
确定所述第一时间序列与所述第二时间序列之间的第一相关度值;
当所述第一相关度值小于或者等于预设阈值,将所述第一对象确定为目标对象。
2.根据权利要求1所述的数据处理方法,其特征在于,所述根据目标特征维度获取第一对象的第一特征数据,包括:
确定所述目标特征维度对应的多个成员特征;
从多个所述成员特征中确定与第一对象对应的目标特征;
利用第一字符对所述目标特征进行赋值,利用第二字符对除了所述目标特征以外的其余成员特征进行赋值;
根据所述第一字符和所述第二字符得到字符串,将所述字符串作为所述第一对象的第一特征数据。
3.根据权利要求1所述的数据处理方法,其特征在于,所述目标集群包括多个对象,所述根据所述目标特征维度获取所述第一对象所在的目标集群的第二特征数据,包括:
根据所述目标特征维度,获取所述第一对象所在的目标集群中每个对象的第三特征数据;
计算多个对象的所述第三特征数据的平均值,得到所述目标集群的第二特征数据。
4.根据权利要求1所述的数据处理方法,其特征在于,所述目标特征维度的数量为多个,所述确定所述第一时间序列与所述第二时间序列之间的第一相关度值,包括:
对于每个所述目标特征维度,确定所述第一时间序列与所述第二时间序列之间的第二相关度值;
根据每个所述目标特征维度的所述第二相关度值之和,得到所述第一时间序列与所述第二时间序列之间的第一相关度值。
5.根据权利要求4所述的数据处理方法,其特征在于,所述对于每个所述目标特征维度,确定所述第一时间序列与所述第二时间序列之间的第二相关度值之前,所述数据处理方法还包括:
确定第一特征维度;
从多个所述目标特征维度中剔除所述第一特征维度;
所述对于每个所述目标特征维度,确定所述第一时间序列与所述第二时间序列之间的第二相关度值,包括:
对于剔除所述第一特征维度后剩余的每个目标特征维度,确定所述第一时间序列与所述第二时间序列之间的第二相关度值。
6.根据权利要求4或5所述的数据处理方法,其特征在于,所述确定所述第一时间序列与所述第二时间序列之间的第二相关度值,包括:
计算所述第一时间序列的平均值,得到第一平均特征数据,计算每个所述目标时间点的所述第一特征数据与所述第一平均特征数据之间的第一差值;
计算所述第二时间序列的平均值,得到第二平均特征数据,计算每个所述目标时间点的所述第二特征数据与所述第二平均特征数据之间的第二差值;
计算每个所述第一差值和对应同一个目标时间点的所述第二差值的乘积;
根据多个所述目标时间点的所述乘积的平均值得到所述第一时间序列与所述第二时间序列之间的第二相关度值。
7.根据权利要求1所述的数据处理方法,其特征在于,所述第一对象为多个第二对象中的任意一个对象,所述根据所述目标特征维度获取所述第一对象所在的目标集群的第二特征数据之前,所述数据处理方法还包括:
确定目标集群数量,确定与所述目标集群数量对应的第一集群中心;
根据所述目标特征维度,获取每个所述第二对象的第四特征数据以及每个所述第一集群中心的第五特征数据;
根据所述第四特征数据和所述第五特征数据,计算每个所述第二对象与每个所述第一集群中心之间的距离;
根据所述距离从所述第一集群中心中确定每个所述第二对象对应的第二集群中心,将每个所述第二对象与对应的所述第二集群中心进行集群划分,得到所述目标集群数量对应的目标集群。
8.根据权利要求7所述的数据处理方法,其特征在于,所述确定目标集群数量,包括:
确定初始集群数量;
根据预设步长对所述初始集群数量进行递增处理,得到多个待确定集群数量;
根据每个所述待确定集群数量对多个所述第二对象进行集群划分,对于每个所述待确定集群数量,确定集群划分的划分误差值;
根据相邻两个所述划分误差值之间的变化值,从多个所述待确定集群数量中确定目标集群数量。
9.根据权利要求8所述的数据处理方法,其特征在于,所述确定初始集群数量,包括:
确定所述目标特征维度的数量;
根据所述目标特征维度的数量所处的数量范围,确定与所述数量范围对应的初始集群数量。
10.根据权利要求8所述的数据处理方法,其特征在于,所述确定集群划分的划分误差值,包括:
获取对多个所述第二对象进行集群划分后每个集群的第六特征数据;
计算每个所述第二对象的第四特征数据与所在集群的第六特征数据之间的第三差值,对所述第三差值进行求平方处理,得到每个所述第四特征数据对应的单位误差值;
对所述单位误差值进行求和,得到集群划分的划分误差值。
11.根据权利要求7所述的数据处理方法,其特征在于,所述目标特征维度的数量为多个,所述根据所述目标特征维度,获取每个所述第二对象的第四特征数据以及每个所述第一集群中心的第五特征数据之前,所述数据处理方法还包括:
确定第二特征维度;
从多个所述目标特征维度中剔除所述第二特征维度;
所述根据所述目标特征维度,获取每个所述第二对象的第四特征数据以及每个所述第一集群中心的第五特征数据,包括:
根据剔除所述第二特征维度后剩余的目标特征维度,获取每个所述第二对象的第四特征数据以及每个所述第一集群中心的第五特征数据。
12.根据权利要求7所述的数据处理方法,其特征在于,所述目标特征维度的数量为多个,所述根据所述第四特征数据和所述第五特征数据,计算每个所述第二对象与每个所述第一集群中心之间的距离,包括:
计算所述第四特征数据与所述第五特征数据之间的第四差值,对所述第四差值进行求平方处理,得到每个目标特征维度的单位距离值;
将每个目标特征维度的所述单位距离值之和进行开平方处理,得到每个所述第二对象与每个所述第一集群中心之间的距离。
13.一种数据处理装置,其特征在于,包括:
时间点确定模块,用于确定多个目标时间点;
第一特征数据获取模块,用于对于每个所述目标时间点,根据目标特征维度获取第一对象的第一特征数据;
第二特征数据获取模块,用于对于每个所述目标时间点,根据所述目标特征维度获取所述第一对象所在的目标集群的第二特征数据;
时间序列数据确定模块,用于确定所述第一特征数据在多个所述目标时间点的第一时间序列,确定所述第二特征数据在多个所述目标时间点的第二时间序列;
相关度确定模块,用于确定所述第一时间序列与所述第二时间序列之间的第一相关度值;
目标对象确定模块,用于当所述第一相关度值小于或者等于预设阈值,将所述第一对象确定为目标对象。
14.一种电子设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至12任意一项所述的数据处理方法。
15.一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现权利要求1至12任意一项所述的数据处理方法。
CN202110959554.4A 2021-08-20 2021-08-20 数据处理方法、装置、电子设备及存储介质 Pending CN115712837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110959554.4A CN115712837A (zh) 2021-08-20 2021-08-20 数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110959554.4A CN115712837A (zh) 2021-08-20 2021-08-20 数据处理方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115712837A true CN115712837A (zh) 2023-02-24

Family

ID=85230104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110959554.4A Pending CN115712837A (zh) 2021-08-20 2021-08-20 数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115712837A (zh)

Similar Documents

Publication Publication Date Title
US9152969B2 (en) Recommendation ranking system with distrust
CN112148987B (zh) 基于目标对象活跃度的消息推送方法及相关设备
CN112287244A (zh) 基于联邦学习的产品推荐方法、装置、计算机设备及介质
CN107808346B (zh) 一种潜在目标对象的评估方法及评估装置
CN111090807A (zh) 一种基于知识图谱的用户识别方法及装置
CN111723292A (zh) 基于图神经网络的推荐方法、系统、电子设备及存储介质
CN107809370B (zh) 用户推荐方法及装置
CN112231592A (zh) 基于图的网络社团发现方法、装置、设备以及存储介质
CN113033090A (zh) 推送模型训练方法、数据推送方法、装置及存储介质
CN111460315B (zh) 社群画像构建方法、装置、设备及存储介质
CN112380299A (zh) 关系网络构建方法、装置及存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN113468421A (zh) 基于向量匹配技术的产品推荐方法、装置、设备及介质
CN115204436A (zh) 检测业务指标异常原因的方法、装置、设备及介质
CN111291795A (zh) 人群特征分析方法、装置、存储介质和计算机设备
CN115661472A (zh) 图像查重方法、装置、计算机设备及存储介质
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
US11593740B1 (en) Computing system for automated evaluation of process workflows
CN115712837A (zh) 数据处理方法、装置、电子设备及存储介质
CN114925275A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN114219663A (zh) 产品推荐方法、装置、计算机设备及存储介质
CN114529399A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN113779116A (zh) 对象排序方法、相关设备及介质
CN112819232A (zh) 一种基于打卡数据的人流量特征预测方法及装置
CN113807749B (zh) 一种对象评分方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40081297

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination