CN116484315A - 一种数据处理方法、装置、设备和存储介质 - Google Patents

一种数据处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN116484315A
CN116484315A CN202310457725.2A CN202310457725A CN116484315A CN 116484315 A CN116484315 A CN 116484315A CN 202310457725 A CN202310457725 A CN 202310457725A CN 116484315 A CN116484315 A CN 116484315A
Authority
CN
China
Prior art keywords
event data
event
information
target
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310457725.2A
Other languages
English (en)
Inventor
李婧希
黄志翔
郑邦祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Holding Co Ltd
Original Assignee
Jingdong Technology Holding Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Holding Co Ltd filed Critical Jingdong Technology Holding Co Ltd
Priority to CN202310457725.2A priority Critical patent/CN116484315A/zh
Publication of CN116484315A publication Critical patent/CN116484315A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • G06F18/15Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据处理方法、装置、设备和存储介质。该方法包括:获取目标用户在至少两个业务领域产生的至少两个事件数据序列。对每个业务领域对应的每个事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并进行信息融合确定第一融合特征信息。对属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并进行信息融合确定第二融合特征信息。基于第一融合特征信息和第二融合特征信息,确定目标融合特征信息,通过本发明实施例的技术方案,可以结合业务领域级别的粗粒度融合和事件级别的细粒度融合,提高了多个业务领域之间的数据融合效果,进而也提高了对用户分析的准确性。

Description

一种数据处理方法、装置、设备和存储介质
技术领域
本发明实施例涉及计算机技术,尤其涉及一种数据处理方法、装置、设备和存储介质。
背景技术
随着计算机技术的快速发展,用户通常会在多个业务领域中产生事件数据,从而可以根据用户在多个业务领域中产生的事件数据,更加准确地对用户进行分析,比如预测出用户是否会发生特定行为等。
目前,通常对多个业务领域中产生的事件数据进行整个业务领域之间的特征融合,获得融合后的融合特征信息,并基于融合特征信息进行用户分析。
然而,在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
现有的特征融合方式仅是针对整个业务领域之间的特征融合,也就是业务领域级别的粗粒度融合,从而获得的融合特征信息无法充分表征出用户特征,降低了数据融合效果,进而也降低了对用户分析的准确性。
发明内容
本发明实施例提供了一种数据处理方法、装置、设备和存储介质,以结合业务领域级别的粗粒度融合和事件级别的细粒度融合,提高了多个业务领域之间的数据融合效果,进而也提高了对用户分析的准确性。
第一方面,本发明实施例提供了一种数据处理方法,包括:
获取目标用户在至少两个业务领域产生的至少两个事件数据序列,其中,每个所述事件数据序列包括至少两个事件数据;
对每个业务领域对应的每个所述事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个所述事件特征信息进行信息融合,确定融合后的第一融合特征信息;
对各个所述事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个所述事件相关特征信息进行信息融合,确定融合后的第二融合特征信息;
基于所述第一融合特征信息和所述第二融合特征信息,确定所述目标用户对应的目标融合特征信息。
第二方面,本发明实施例还提供了一种数据处理装置,包括:
事件数据序列获取模块,用于获取目标用户在至少两个业务领域产生的至少两个事件数据序列,其中,每个所述事件数据序列包括至少两个事件数据;
第一融合特征信息确定模块,用于对每个业务领域对应的每个所述事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个所述事件特征信息进行信息融合,确定融合后的第一融合特征信息;
第二融合特征信息确定模块,用于对各个所述事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个所述事件相关特征信息进行信息融合,确定融合后的第二融合特征信息;
目标融合特征信息确定模块,用于基于所述第一融合特征信息和所述第二融合特征信息,确定所述目标用户对应的目标融合特征信息。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所提供的数据处理方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的数据处理方法。
上述发明中的一个实施例具有如下优点或有益效果:
通过获取目标用户在至少两个业务领域产生的至少两个事件数据序列,可以得到目标用户在每个业务领域中产生的多个事件数据。对每个业务领域对应的每个事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个事件特征信息进行信息融合,确定融合后的第一融合特征信息,从而获得业务领域级别粗粒度融合后的第一融合特征信息。对各个事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个事件相关特征信息进行信息融合,确定融合后的第二融合特征信息,从而获得事件级别细粒度融合后的第二融合特征信息。从而可以结合第一融合特征信息和第二融合特征信息,获得更加充分表征出用户特征的目标融合特征信息,提高了多个业务领域之间的数据融合效果,进而也提高了对用户分析的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例所提供的一种数据处理方法的流程图;
图2是本发明一个实施例提供的另一种数据处理方法的流程图;
图3是本发明一个实施例提供的一种预设跨越注意力处理模型的结构示例图;
图4是本发明一个实施例提供的一种数据处理装置的结构示意图;
图5是本发明一个实施例提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明一个实施例所提供的一种数据处理方法的流程图,本实施例可适用于对用户多个业务领域数据融合的情况,尤其是适用于在预测用户特定行为时对用户多个业务领域数据融合的情况。该方法可以由数据处理装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于电子设备中。如图1所示,该方法具体包括以下步骤:
S110、获取目标用户在至少两个业务领域产生的至少两个事件数据序列,其中,每个事件数据序列包括至少两个事件数据。
其中,目标用户可以是指需要针对多业务领域进行数据处理的任意用户。业务领域可以是指目标用户所参与的业务领域。例如,业务领域可以包括但不限于用户购买物品的购物领域和用户借款的金融领域。事件数据序列可以是指在同一业务领域中,针对同一用户的同一种行为产生的多个事件数据。事件数据序列中的各个事件数据可以按照事件产生时刻的先后顺序进行排列。每个业务领域对应一个事件数据序列。事件数据序列中的每个事件数据可以包括多个事件特征信息。例如,在业务领域为购物领域时,相应的事件数据序列可以包括用户每次购买物品的购物订单数据。在业务领域为金融领域时,相应的事件数据序列可以包括用户在每次借款的借款数据。
具体地,根据目标用户标识,从每个业务领域的大数据中采集预设时间段内的该目标用户在每个业务领域中所产生的事件数据序列。例如,获取目标用户在购物业务领域所产生的购物事件数据序列Xjdmall和在金融领域所产生的借款事件数据序列Xjrapp。其中,目标用户在购物业务领域所产生的购物事件数据序列Xjdmall由目标用户在一段时间(如2021-01-01至2022-04-01)内的一系列购物行为事件数据组成。假设购物事件数据序列Xjdmall包括距离上一次行为事件数据的时间长度f1,商品金额f2,商品数量f3和商品品类f4四维特征,则第j个事件数据向量化为ejdmall,j=[f1,j,f2,j,f3,j,f4,j]。假设该目标用户的购物事件数据序列Xjdmall的长度为100个事件数据,则该目标用户的在购物业务领域所产生的购物事件数据序列Xjdmall={ejdmall,1,ejdmall,2,…,ejdmall,j,…,ejdmall,100}。
目标用户在金融领域所产生的借款事件数据序列Xjrapp由目标用户在同一段时间(2021-01-01至2022-04-01)内的借款行为事件数据组成。假设借款事件数据序列Xjrapp包括距离上一次行为事件数据的时间长度k1,借款金额k2和分期期数k3三维特征,则第j个事件数据向量化为ejrapp,j=[k1,j,k2,j,k3,j]。假设该目标用户的借款事件数据序列Xjrapp的长度为80个事件数据,则该目标用户在金融领域的借款事件数据序列Xjrapp={ejrapp,1,ejrapp,2,…,ejrapp,j,…,ejrapp,80}。
S120、对每个业务领域对应的每个事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个事件特征信息进行信息融合,确定融合后的第一融合特征信息。
其中,每个业务领域对应的事件特征信息可以是指业务领域整体的事件特征信息。示例性地,事件特征信息可以是从事件数据序列提取出的中间层特征信息。第一融合特征信息可以是指在业务领域级别下融合后的事件特征信息,也就是粗粒度融合特征信息。
具体地,基于每个业务领域中的每个事件数据序列,通过每个业务领域相应的编码器进行中间层特征信息提取,将中间层特征信息确定为相应业务领域的对应的事件特征信息。其中,编码器可以是LSTM(Long Short-Term Memory,长短期记忆网络)或者GRU(Gated Recurrent Unit,门控循环单元)等特征提取装置。将各个业务领域对应的各个事件特征信息进行业务领域级别的信息融合,比如将各个业务领域对应的各个事件特征信息进行信息拼接或者加权求和,获得粗粒度融合后的第一融合特征信息。
例如,假设获取目标用户在n个业务领域中的n个事件数据时序,第i个业务领域所对应的事件数据时序为Xi,第i个业务领域所对应的编码器为Fi,第i个业务领域通过编码器提取出的事件特征信息为Fi(Xi)。假设事件特征信息的融合函数为M,则最终第一融合特征信息可以为M(F1(X1),F2(X2),…,Fn(Xn))。
示例性地,S120可以包括:对每个事件特征信息进行线性变换,确定预设特征维度下的第一事件特征信息;对各个第一事件特征信息进行信息拼接,获得拼接后的第二事件特征信息;基于预设多层感知模型,对第二事件特征信息进行信息交叉融合,确定出融合后的第一融合特征信息。
其中,第一事件特征信息可以是指经线性变换后在预设特征维度下的事件特征信息。第二事件特征信息可以是指将各个第一事件特征信息拼接后的事件特征信息。预设多层感知模型是一种前馈人工神经网络模型,其可以将输入的多个数据集映射到单一的输出的数据集上。本实施例中的预设多层感知模型是预先根据样本数据进行训练获得的。
需要说明的是,由于各个业务领域使用的编码器可能不同,不同的编码器输出的特征维度可能会不相同,不同特征维度不能进行拼接,通过线性变换后的各个事件特征信息可确保获得满足拼接需求的特征维度。示例性地,若提取的某个事件特征信息满足拼接需求的特征维度,则对该事件特征信息可以不进行线性变换处理。
具体地,将提取的每个事件特征信息进行线性变换,以使线性变换后的各个事件特征信息为预设特征维度,并将线性变换后的各个事件特征信息确定为第一事件特征信息。将各个第一事件特征信息进行信息拼接,并将拼接后的事件特征信息确定为第二事件特征信息。将第二事件特征信息输入至预先训练好的预设多层感知模型中信息交叉融合,并基于预设多层感知模型的输出,可以获得融合后的第一融合特征信息。通过利用预设多层感知模型对第二事件特征信息进行交叉融合,可以进一步提高粗粒度的第一融合特征信息的融合效果。
S130、对各个事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个事件相关特征信息进行信息融合,确定融合后的第二融合特征信息。
其中,跨越注意力处理Cross-Attention可以是指对属于不同业务领域中的两个事件数据进行信息提取的方式。事件相关特征信息可以是指针对不同业务领域中两两事件数据的相关特征信息。第二融合特征信息可以是指在事件级别下融合后的事件特征信息,也就是细粒度融合特征信息。事件数据组合可以包括属于不同业务领域的两个事件数据。
具体地,基于各个业务领域对应的各个事件数据序列中的各个事件数据,可以利用预设跨越注意力处理模型对属于不同业务领域的两两事件数据进行跨越注意力处理,确定出每个事件数据组合对应的事件相关特征信息,并将各个事件相关特征信息进行信息融合,可以确定出细粒度融合后的第二融合特征信息。
示例性地,S130可以包括:对各个事件相关特征信息进行信息拼接,获得拼接后的第二融合特征信息。具体地,可以将各个事件相关特征信息直接进行拼接的方式进行融合,从而获得更加充分表征出用户特征的第二融合特征信息。
S140、基于第一融合特征信息和第二融合特征信息,确定目标用户对应的目标融合特征信息。
其中,目标融合特征信息可以是指第一融合特征信息和第二融合特征信息进行拼接实现的最终融合特征信息。
具体地,可以将第一融合特征信息和第二融合特征信息进行拼接处理,从而可以结合第一融合特征信息和第二融合特征信息,获得更加充分表征出用户特征的目标融合特征信息,提高了多个业务领域之间的数据融合效果,进而也提高了对用户分析的准确性。
本发明实施例的技术方案,通过获取目标用户在至少两个业务领域产生的至少两个事件数据序列,可以得到目标用户在每个业务领域中产生的多个事件数据。对每个业务领域对应的每个事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个事件特征信息进行信息融合,确定融合后的第一融合特征信息,从而获得业务领域级别粗粒度融合后的第一融合特征信息。对各个事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个事件相关特征信息进行信息融合,确定融合后的第二融合特征信息,从而获得事件级别细粒度融合后的第二融合特征信息。从而可以结合第一融合特征信息和第二融合特征信息,获得更加充分表征出用户特征的目标融合特征信息,提高了多个业务领域之间的数据融合效果,进而也提高了对用户分析的准确性。
在上述实施例的基础上,在S140之后,还可以包括:将目标融合特征信息输入至目标行为预测模型中;基于目标行为预测模型的输出,确定目标用户对应的目标行为预测结果。
其中,目标行为预测模型可以用于预测用户是否发生目标行为的网络模型。其中,多个业务领域与目标行为相关联。本实施例可以基于待预测的目标行为确定出各个业务领域。例如,若目标行为是指目标用户的逾期行为,则目标用户对应的各个业务领域可以包括目标用户购买物品的购物领域和目标用户借款的金融领域等可以反映出目标用户的消费与偿债能力的业务行为领域,从而可以通过对购物领域中的购物事件序列和金融领域中的借款事件序列进行多领域的细粒度融合和粗粒度融合,获得更加充分表征出用户特征的目标融合特征信息。需要说明的是,目标行为预测模型是预先基于样本数据进行训练获得的,以便保证目标行为预测模型的预测准确性。
具体地,将目标用户对应的目标融合特征信息输入至预先训练好的目标行为预测模型中进行目标行为的预测,并根据目标行为预测模型的输出结果,确定目标用户是否会发生目标行为,从而利用细粒度融合和粗粒度融合后获得的目标融合特征信息可以更加准确地进行目标行为的预测,提高了目标行为的预测准确性。
图2为本发明实施例提供的另一种数据处理方法的流程图,本实施例在上述各实施例的基础上,对确定每个事件数据组合对应的事件相关特征信息的具体过程进行了详细描述。其中与上述各实施例相同或相应的术语的解释在此不再赘述。
参见图2,本实施例提供的另一种数据处理方法具体包括以下步骤:
S210、获取目标用户在至少两个业务领域产生的至少两个事件数据序列,其中,每个事件数据序列包括至少两个事件数据。
S220、对每个业务领域对应的每个事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个事件特征信息进行信息融合,确定融合后的第一融合特征信息。
S230、对两两事件数据序列中的属于不同业务领域的两两事件数据进行组合,确定各个事件数据组合。
具体地,基于各个业务领域对应的各个事件数据序列中的各个事件数据,将属于不同业务领域的每两个事件数据划分为一个事件数据组合,从而获得所有业务领域对应的各个事件数据组合。
示例性地,S230可以包括:基于各个事件数据序列中的最小序列长度,对各个事件数据序列进行数据截取,确定截取后的各个目标事件数据序列;对两两目标事件数据序列中的属于不同业务领域的两两事件数据进行组合,确定各个事件数据组合。
其中,目标事件数据序列可以是指具有相同最小序列长度的事件数据序列。
具体地,对各个业务领域对应的各个事件数据序列的序列长度进行比较,确定各个事件数据序列对应的最小序列长度。以该最小序列长度为基准,将各个事件数据序列进行数据截取,将截取后具有相同最小序列长度的各个事件数据序列确定为各个目标事件数据序列。需要说明的是,本实施例可以按照事件数据序列中的各个事件数据的排列顺序进行数据截取。例如,若某个事件数据序列的序列长度为100,也就是包含100个事件数据,且最小序列长度为50,则可以将该事件数据序列中的前50个事件数据或者后50个事件数据进行截取,获得截取后的由前50个事件数据或者后50个事件数据组成的目标事件数据序列。对具有相同序列长度的所有目标事件数据序列进行两两事件数据的组合,可以在保证不影响融合效果的前提下减少事件数据组合的数量,从而提高数据融合效率。值得注意的是,基于最小序列长度对各个事件数据序列进行数据截取的目的是为了降低计算的复杂度,并不对最终的融合结果产生影响。
示例性地,在确定截取后的各个目标事件数据序列之后,还可以对每个目标事件数据序列进行线性变换,获得线性变换后的各个变换目标事件数据序列,通过线性变换后的各个变换目标事件数据序列可确保获得满足组合为事件数据组合需求的特征维度。示例性地,若获得的某个变换目标事件数据序列满足组合为事件数据组合需求的特征维度,则可以对该变换目标事件数据序列不进行线性变换处理。
S240、针对每个事件数据组合,根据事件数据组合中的第一事件数据和第二事件数据,确定该事件数据组合对应的目标询问数据、目标键信息和目标值信息。
其中,第一事件数据和第二事件数据可以是指每个事件数据组合中的两个事件数据。目标询问数据可以是指跨越注意力处理模型中的queries数据。目标键信息可以是指跨越注意力处理模型中keys数据。目标值信息可以是指跨越注意力处理模型中values数据。
具体地,针对获得的每个事件数据组合,根据每个事件数据组合中的第一事件数据和第二事件数据,确定出每个事件数据组合所对应的目标询问数据、目标键信息和目标值信息。
S250、将目标询问数据、目标键信息和目标值信息输入至预设跨越注意力处理模型中,并根据预设跨越注意力处理模型的输出,确定出该事件数据组合对应的事件相关特征信息。
其中,预设跨越注意力处理模型可以是用于对属于不同业务领域中的两个事件数据进行注意力处理的网络模型。预设跨越注意力处理模型可以是预先基于样本数据训练获得的。
具体地,针对每个事件数据组合,将该事件数据组合所对应的目标询问数据、目标键信息和目标值信息输入至预设跨越注意力处理模型中进行相关性处理,根据预设跨越注意力处理模型的输出结果,确定每一个事件数据组合所对应的事件相关特征信息。
S260、对各个事件相关特征信息进行信息融合,确定融合后的第二融合特征信息。
S270、基于第一融合特征信息和第二融合特征信息,确定目标用户对应的目标融合特征信息。
本发明实施例的技术方案,通过针对每个事件数据组合,根据事件数据组合中的第一事件数据和第二事件数据,确定该事件数据组合对应的目标询问数据、目标键信息和目标值信息。将目标询问数据、目标键信息和目标值信息输入至预设跨越注意力处理模型中,并根据预设跨越注意力处理模型的输出,确定出该事件数据组合对应的事件相关特征信息,从而利用预设跨越注意力处理模型可以更加快速地确定出各个事件数据组合对应的各个事件相关特征信息,进一步提高了细粒度下的数据融合效率。
在上述实施例的基础上,S240可以包括:将事件数据组合中的第一事件数据作为目标询问数据,以及将事件数据组合中的第二事件数据作为目标键信息;对第一事件数据和第二事件数据进行特征维度的数据拼接,并将拼接结果确定为目标值信息。
具体地,针对每个事件数据组合,将该事件数据组合中的第一事件数据确定为目标询问数据,将该事件数据组合中的第二事件数据确定为目标键信息。将该事件数据组合中的第一事件数据和第二事件数据进行特征维度的数据拼接,将拼接结果确定为目标值信息。
例如,针对每个事件数据组合,将该事件数据组合中的第一事件数据T1作为目标询问数据Q,即Q=T1。将该事件数据组合中的第二事件数据T2确定为目标键信息K,即K=T2。将该事件数据组合中的第一事件数据T1和第二事件数据T2进行特征维度的数据拼接,将拼接结果确定为目标值信息V,即V=Concatenate(T1,T2)。
在上述实施例的基础上,预设跨越注意力处理模型可以包括:第一交叉处理子模型、归一化子模型和第二交叉处理子模型。S250可以包括:将目标询问数据和目标键信息输入至第一交叉处理子模型中进行交叉处理,确定第一相关特征信息;将第一相关特征信息输入至归一化子模型中进行信息归一化,确定归一化后的第二相关特征信息;将第二相关特征信息和目标值信息输入至第二交叉处理子模型中进行交叉处理,确定事件相关特征信息。
其中,第一交叉处理子模型可以用于将目标询问数据和目标键信息进行矩阵相乘,获得目标询问数据和目标键信息之间的相关特征信息。归一化子模型可以用于对各个目标询问数据和各个目标键信息之间的各个相关特征信息进行归一化处理。例如,归一化子模型可以通过利用softmax(归一化指数函数)进行归一化处理。第二交叉处理子模型可以用于根据权重系数对目标值信息进行加权求和。第一相关特征信息可以是指目标询问数据和目标键信息之间的相关特征信息。第二相关特征信息可以是指经归一化处理后的第一相关特征信息。
具体地,图3给出了一种预设跨越注意力处理模型的结构示例图,如图3所示,将目标询问数据和目标键信息输入至第一交叉处理子模型中进行交叉处理,将第一交叉处理子模型的输出结果确定为第一相关特征信息。将第一相关特征信息输入至归一化子模型中进行信息归一化处理,将归一化子模型的处理结果确定为第二相关特征信息。将该第二相关特征信息和目标值信息输入至第二交叉处理子模型中进行交叉处理,即可确定出该事件数据组合对应的事件相关特征信息。通过利用预设跨越注意力处理模型可以更加快速地确定出每个事件数据组合对应的事件相关特征信息,进一步提高了细粒度下的数据融合效率。
示例性地,在确定事件相关特征信息之后,还可以对每个事件相关特征信息进行线性变换,获得线性变换后的各个变换事件相关特征信息,通过线性变换后的各个变换事件相关特征信息可确保获得满足融合为第二融合特征信息需求的特征维度。示例性地,若获得的某个变换事件相关特征信息满足融合为第二融合特征信息需求的特征维度,则可以对该变换事件相关特征信息不进行线性变换处理。
以下是本发明实施例提供的数据处理装置的实施例,该装置与上述各实施例的数据处理方法属于同一个发明构思,在数据处理装置的实施例中未详尽描述的细节内容,可以参考上述数据处理方法的实施例。
图4为本发明实施例提供的一种数据处理装置的结构示意图,本实施例可适用于预测用户特定行为的情况,尤其是适用于根据多个业务领域中产生事件数据预测用户特定行为场景中。如图4所示,该装置具体包括:事件数据序列获取模块410、第一融合特征信息确定模块420、第二融合特征信息确定模块430和目标融合特征信息确定模块440。
其中,事件数据序列获取模块410,用于获取目标用户在至少两个业务领域产生的至少两个事件数据序列,其中,每个事件数据序列包括至少两个事件数据;第一融合特征信息确定模块420,用于对每个业务领域对应的每个事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个事件特征信息进行信息融合,确定融合后的第一融合特征信息;第二融合特征信息确定模块430,用于对各个事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个事件相关特征信息进行信息融合,确定融合后的第二融合特征信息;目标融合特征信息确定模块440,用于基于第一融合特征信息和第二融合特征信息,确定目标用户对应的目标融合特征信息。
通过获取目标用户在至少两个业务领域产生的至少两个事件数据序列,可以得到目标用户在每个业务领域中产生的多个事件数据。对每个业务领域对应的每个事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个事件特征信息进行信息融合,确定融合后的第一融合特征信息,从而获得业务领域级别粗粒度融合后的第一融合特征信息。对各个事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个事件相关特征信息进行信息融合,确定融合后的第二融合特征信息,从而获得事件级别细粒度融合后的第二融合特征信息。从而可以结合第一融合特征信息和第二融合特征信息,获得更加充分表征出用户特征的目标融合特征信息,提高了多个业务领域之间的数据融合效果,进而也提高了对用户分析的准确性。
可选地,第二融合特征信息确定模块430,可以包括:
事件数据组合单元,用于对两两事件数据序列中的属于不同业务领域的两两事件数据进行组合,确定各个事件数据组合;
信息确定单元,用于针对每个事件数据组合,根据事件数据组合中的第一事件数据和第二事件数据,确定该事件数据组合对应的目标询问数据、目标键信息和目标值信息;
事件相关特征信息确定单元,用于将目标询问数据、目标键信息和目标值信息输入至预设跨越注意力处理模型中,并根据预设跨越注意力处理模型的输出,确定出该事件数据组合对应的事件相关特征信息。
可选地,事件数据组合单元,具体用于:
基于各个事件数据序列中的最小序列长度,对各个事件数据序列进行数据截取,确定截取后的各个目标事件数据序列;对两两目标事件数据序列中的属于不同业务领域的两两事件数据进行组合,确定各个事件数据组合。
可选地,信息确定单元,具体用于:
将事件数据组合中的第一事件数据作为目标询问数据,以及将事件数据组合中的第二事件数据作为目标键信息;对第一事件数据和第二事件数据进行特征维度的数据拼接,并将拼接结果确定为目标值信息。
可选地,预设跨越注意力处理模型包括:第一交叉处理子模型、归一化子模型和第二交叉处理子模型。事件相关特征信息确定单元,具体用于:
将目标询问数据和目标键信息输入至第一交叉处理子模型中进行交叉处理,确定第一相关特征信息;将第一相关特征信息输入至归一化子模型中进行信息归一化,确定归一化后的第二相关特征信息;将第二相关特征信息和目标值信息输入至第二交叉处理子模型中进行交叉处理,确定事件相关特征信息。
可选地,第二融合特征信息确定模块430,具体用于:对各个事件相关特征信息进行信息拼接,获得拼接后的第二融合特征信息。
可选地,第一融合特征信息确定模块420,具体用于:
对每个事件特征信息进行线性变换,确定预设特征维度下的第一事件特征信息;对各个第一事件特征信息进行信息拼接,获得拼接后的第二事件特征信息;基于预设多层感知模型,对第二事件特征信息进行信息交叉融合,确定出融合后的第一融合特征信息。
可选地,数据处理装置还包括:
目标行为预测结果确定模块,用于:将目标融合特征信息输入至目标行为预测模型中,其中,目标行为预测模型是用于预测用户是否发生目标行为的网络模型,至少两个业务领域与目标行为相关联;基于目标行为预测模型的输出,确定目标用户对应的目标行为预测结果。
本发明实施例所提供的数据处理装置可执行本发明任意实施例所提供的数据处理方法,具备执行数据处理方法相应的功能模块和有益效果。
值得注意的是,上述数据处理装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
图5为本发明实施例提供的一种电子设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性电子设备12的框图。图5显示的电子设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该电子设备12交互的设备通信,和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与电子设备12的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发实施例所提供的一种数据处理方法步骤,该方法包括:
获取目标用户在至少两个业务领域产生的至少两个事件数据序列,其中,每个所述事件数据序列包括至少两个事件数据;
对每个业务领域对应的每个所述事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个所述事件特征信息进行信息融合,确定融合后的第一融合特征信息;
对各个所述事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个所述事件相关特征信息进行信息融合,确定融合后的第二融合特征信息;
基于所述第一融合特征信息和所述第二融合特征信息,确定所述目标用户对应的目标融合特征信息。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的数据处理方法的技术方案。
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的数据处理方法步骤,该方法包括:
获取目标用户在至少两个业务领域产生的至少两个事件数据序列,其中,每个所述事件数据序列包括至少两个事件数据;
对每个业务领域对应的每个所述事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个所述事件特征信息进行信息融合,确定融合后的第一融合特征信息;
对各个所述事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个所述事件相关特征信息进行信息融合,确定融合后的第二融合特征信息;
基于所述第一融合特征信息和所述第二融合特征信息,确定所述目标用户对应的目标融合特征信息。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
获取目标用户在至少两个业务领域产生的至少两个事件数据序列,其中,每个所述事件数据序列包括至少两个事件数据;
对每个业务领域对应的每个所述事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个所述事件特征信息进行信息融合,确定融合后的第一融合特征信息;
对各个所述事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个所述事件相关特征信息进行信息融合,确定融合后的第二融合特征信息;
基于所述第一融合特征信息和所述第二融合特征信息,确定所述目标用户对应的目标融合特征信息。
2.根据权利要求1所述的方法,其特征在于,所述对各个所述事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,包括:
对两两所述事件数据序列中的属于不同业务领域的两两事件数据进行组合,确定各个事件数据组合;
针对每个所述事件数据组合,根据所述事件数据组合中的第一事件数据和第二事件数据,确定该事件数据组合对应的目标询问数据、目标键信息和目标值信息;
将所述目标询问数据、所述目标键信息和所述目标值信息输入至预设跨越注意力处理模型中,并根据所述预设跨越注意力处理模型的输出,确定出该事件数据组合对应的事件相关特征信息。
3.根据权利要求2所述的方法,其特征在于,所述对两两所述事件数据序列中的属于不同业务领域的两两事件数据进行组合,确定各个事件数据组合,包括:
基于各个所述事件数据序列中的最小序列长度,对各个所述事件数据序列进行数据截取,确定截取后的各个目标事件数据序列;
对两两所述目标事件数据序列中的属于不同业务领域的两两事件数据进行组合,确定各个事件数据组合。
4.根据权利要求2所述的方法,其特征在于,所述根据所述事件数据组合中的第一事件数据和第二事件数据,确定该事件数据组合对应的目标询问数据、目标键信息和目标值信息,包括:
将所述事件数据组合中的第一事件数据作为目标询问数据,以及将所述事件数据组合中的第二事件数据作为目标键信息;
对所述第一事件数据和所述第二事件数据进行特征维度的数据拼接,并将拼接结果确定为目标值信息。
5.根据权利要求2所述的方法,其特征在于,所述预设跨越注意力处理模型包括:第一交叉处理子模型、归一化子模型和第二交叉处理子模型。
所述将所述目标询问数据、所述目标键信息和所述目标值信息输入至预设跨越注意力处理模型中,包括:
将所述目标询问数据和所述目标键信息输入至所述第一交叉处理子模型中进行交叉处理,确定第一相关特征信息;
将所述第一相关特征信息输入至所述归一化子模型中进行信息归一化,确定归一化后的第二相关特征信息;
将所述第二相关特征信息和所述目标值信息输入至所述第二交叉处理子模型中进行交叉处理,确定事件相关特征信息。
6.根据权利要求1所述的方法,其特征在于,所述对各个所述事件相关特征信息进行信息融合,确定融合后的第二融合特征信息,包括:
对各个所述事件相关特征信息进行信息拼接,获得拼接后的第二融合特征信息。
7.根据权利要求1所述的方法,其特征在于,所述对各个所述事件特征信息进行信息融合,确定融合后的第一融合特征信息,包括:
对每个所述事件特征信息进行线性变换,确定预设特征维度下的第一事件特征信息;
对各个所述第一事件特征信息进行信息拼接,获得拼接后的第二事件特征信息;
基于预设多层感知模型,对所述第二事件特征信息进行信息交叉融合,确定出融合后的第一融合特征信息。
8.根据权利要求1-7任一项所述的方法,其特征在于,在确定所述目标用户对应的目标融合特征信息之后,还包括:
将所述目标融合特征信息输入至目标行为预测模型中,其中,所述目标行为预测模型是用于预测用户是否发生目标行为的网络模型,所述至少两个业务领域与所述目标行为相关联;
基于所述目标行为预测模型的输出,确定所述目标用户对应的目标行为预测结果。
9.一种数据处理装置,其特征在于,包括:
事件数据序列获取模块,用于获取目标用户在至少两个业务领域产生的至少两个事件数据序列,其中,每个所述事件数据序列包括至少两个事件数据;
第一融合特征信息确定模块,用于对每个业务领域对应的每个所述事件数据序列进行特征提取,确定每个业务领域对应的事件特征信息,并对各个所述事件特征信息进行信息融合,确定融合后的第一融合特征信息;
第二融合特征信息确定模块,用于对各个所述事件数据序列中的属于不同业务领域的两两事件数据进行跨越注意力处理,确定每个事件数据组合对应的事件相关特征信息,并对各个所述事件相关特征信息进行信息融合,确定融合后的第二融合特征信息;
目标融合特征信息确定模块,用于基于所述第一融合特征信息和所述第二融合特征信息,确定所述目标用户对应的目标融合特征信息。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的数据处理方法。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的数据处理方法。
CN202310457725.2A 2023-04-24 2023-04-24 一种数据处理方法、装置、设备和存储介质 Pending CN116484315A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310457725.2A CN116484315A (zh) 2023-04-24 2023-04-24 一种数据处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310457725.2A CN116484315A (zh) 2023-04-24 2023-04-24 一种数据处理方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN116484315A true CN116484315A (zh) 2023-07-25

Family

ID=87217438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310457725.2A Pending CN116484315A (zh) 2023-04-24 2023-04-24 一种数据处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN116484315A (zh)

Similar Documents

Publication Publication Date Title
CN112633419B (zh) 小样本学习方法、装置、电子设备和存储介质
CN109783490B (zh) 数据融合方法、装置、计算机设备及存储介质
CN114298417A (zh) 反欺诈风险评估方法、训练方法、装置及可读存储介质
CN110264270B (zh) 一种行为预测方法、装置、设备和存储介质
CN112256886B (zh) 图谱中的概率计算方法、装置、计算机设备及存储介质
CN113177700B (zh) 一种风险评估方法、系统、电子设备及存储介质
CN113516480A (zh) 一种支付风险识别方法、装置及设备
CN113393306A (zh) 产品推荐方法、装置、电子设备及计算机可读介质
CN112988840A (zh) 一种时间序列预测方法、装置、设备和存储介质
CN111126422B (zh) 行业模型的建立及行业的确定方法、装置、设备及介质
CN107729944B (zh) 一种低俗图片的识别方法、装置、服务器及存储介质
Xiong et al. ShenZhen transportation system (SZTS): a novel big data benchmark suite
CN116029766A (zh) 用户交易决策识别方法、激励策略优化方法、装置和设备
CN116245630A (zh) 一种反欺诈检测方法、装置、电子设备及介质
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN116484315A (zh) 一种数据处理方法、装置、设备和存储介质
US20230029218A1 (en) Feature engineering using interactive learning between structured and unstructured data
CN111444335B (zh) 中心词的提取方法及装置
GB2602382A (en) Relationship discovery and quantification
US20210117853A1 (en) Methods and systems for automated feature generation utilizing formula semantification
CN116562359B (zh) 基于对比学习的ctr预测模型训练方法、装置及电子设备
CN111552827B (zh) 标注方法和装置、行为意愿预测模型训练方法和装置
CN115238805B (zh) 异常数据识别模型的训练方法及相关设备
CN114584616B (zh) 一种消息推送方法、装置、电子设备及存储介质
CN110705642B (zh) 分类模型、方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination