CN116522131A - 对象表示方法、装置、电子设备及计算机可读存储介质 - Google Patents

对象表示方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN116522131A
CN116522131A CN202310245154.6A CN202310245154A CN116522131A CN 116522131 A CN116522131 A CN 116522131A CN 202310245154 A CN202310245154 A CN 202310245154A CN 116522131 A CN116522131 A CN 116522131A
Authority
CN
China
Prior art keywords
asset
representation
data
vector
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310245154.6A
Other languages
English (en)
Inventor
朱益兴
常鹏
曹圳杰
李飞
林星凯
朱恩东
王步青
赖众程
黎利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202310245154.6A priority Critical patent/CN116522131A/zh
Publication of CN116522131A publication Critical patent/CN116522131A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例公开了一种对象表示方法、装置、电子设备及计算机可读存储介质,该方法包括:获取待表示对象的资产数据;对资产数据进行特征提取,得到对象特征向量;将对象特征向量输入资产表示模型,得到待表示对象的资产表征向量;其中,资产表示模型是根据样本待表示对象的样本资产数据、样本资产数据对应的样本资产类型标签、以及各个样本待表示对象的样本资产数据之间的取值关系进行训练得到。结合样本资产数据之间的取值关系对模型进行训练,使得模型能够根据用户之间的潜在关系对用户的资产数据进行特征表示,得到用户资产数据对应的资产表征向量,丰富了资产表征向量所涵盖的特征,提升资产表征向量的可靠性和适用性。

Description

对象表示方法、装置、电子设备及计算机可读存储介质
技术领域
本申请实施例涉及计算机技术领域,具体涉及一种对象表示方法、装置、电子设备及计算机可读存储介质。
背景技术
在金融科技领域,通过对用户资产数据的分析便于为用户提供个性化资产服务,例如,通过对用户资产数据的分析,判断用户是否为高净值用户,进而确定为该用户提供的资产服务的类型,以提升用户体验。
随着计算机技术的快速发展,通过机器学习、深度学习分析用户的资产数据成为可能,其通过对用户资产数据进行特征表示,以表示结果确定用户资产数据的资产类型,但是,目前对用户资产数据的分析还仅仅依赖于用户资产数据本身,使得资产数据对应的特征表示所涵盖的特征较少,不利于判断用户的资产类型。
发明内容
本申请实施例提供一种对象表示方法、装置、电子设备及计算机可读存储介质,可以丰富用户资产数据的特征表示所涵盖的特征,便于对用户的资产类型进行分析。
第一方面,本申请实施例提供了一种对象表示方法,应用于电子设备,包括:
获取待表示对象的资产数据;
对所述资产数据进行特征提取,得到对象特征向量;
将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量;
其中,所述资产表示模型是根据样本待表示对象的样本资产数据、所述样本资产数据对应的样本资产类型标签、以及各个所述样本待表示对象的样本资产数据之间的取值关系进行训练得到。
第二方面,本申请实施例还提供了一种对象表示装置,包括:
获取模块,用于获取待表示对象的资产数据;
提取模块,用于对所述资产数据进行特征提取,得到对象特征向量;
表示模块,用于将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量;
其中,所述资产表示模型是根据样本待表示对象的样本资产数据、所述样本资产数据对应的样本资产类型标签、以及各个所述样本待表示对象的样本资产数据之间的取值关系进行训练得到。
其中,在本申请的一些实施例中,该装置还包括应用模块,应用模块包括:
类型确定单元,用于根据所述资产表征向量确定所述资产数据对应的资产类型;
服务确定单元,用于根据所述资产类型确定所述待表示对象对应的资产服务;
服务单元,用于为所述待表示对象提供所述资产服务。
其中,在本申请的一些实施例中,类型确定单元包括:
第一获取子单元,用于将所述资产表征向量输入预设资产分类模型,得到所述资产表征向量属于每个预设资产类型的预测概率;
第一确定子单元,用于根据所述预测概率从所述预设资产类型中确定所述资产数据对应的资产类型。
其中,在本申请的一些实施例中,类型确定单元包括:
第二获取子单元,用于根据资产表示模型得到预设资产类型对应的资产预表征向量;
计算子单元,用于计算所述资产表征向量和所述资产预表征向量的相似度;
第二确定子单元,用于根据所述相似度从所述预设资产类型中确定所述资产数据对应的资产类型。
其中,在本申请的一些实施例中,资产数据包括至少两个资产项以及每个资产项对应的资产取值,获取模块包括:
处理单元,用于对所述资产数据进行预处理,得到预处理资产数据;
组合单元,用于根据所述资产项的顺序对所述预处理资产数据的资产取值进行组合,得到对象特征向量。
其中,在本申请的一些实施例中,资产表示模型包括图卷积网络,所述图卷积网络包括若干子图神经网络,表示模块包括:
网络确定单元,用于根据所述资产数据对应的资产项,确定每个资产项对应的子图神经网络;
向量获取单元,用于将所述对象特征向量输入到所述子图神经网络中,得到所述资产数据中每个资产项对应的子资产表征向量;
向量融合单元,用于将所述子资产表征向量进行融合,得到所述待表示对象的资产表征向量。
其中,在本申请的一些实施例中,该装置还包括训练模块,训练模块包括:
样本获取单元,用于获取原始资产表示模型、样本待表示对象的样本资产数据以及所述样本资产数据对应的样本资产类型标签;
构建单元,用于针对所述样本资产数据中的每个资产项,根据所述资产项以及所述资产项对应的资产取值,构建资产项拓扑图;
提取单元,用于根据所述原始资产表示模型中的各个原始子图神经网络分别对每个资产项拓扑图进行特征提取,得到每个资产项拓扑图对应的原始子资产表征向量;
融合单元,用于将所述原始子资产表征向量进行融合,得到原始资产表征向量;
训练单元,用于根据所述原始资产表征向量和所述样本资产类型标签对所述原始资产表示模型进行训练,得到所述资产表示模型。
第三方面,本申请实施例还提供了一种电子设备,电子设备包括存储器、处理器及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述的对象表示方法中的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的对象表示方法中的步骤。
其中,本申请实施例获取待表示对象的资产数据,对资产数据进行特征提取,得到对象特征向量,将对象特征向量输入资产表示模型,得到待表示对象的资产表征向量,其中,资产表示模型是根据样本待表示对象的样本资产数据、样本资产数据对应的样本资产类型标签、以及各个样本待表示对象的样本资产数据之间的取值关系进行训练得到。其中,通过结合样本资产数据之间的取值关系对模型进行训练,使得模型在训练时能够考虑各个用户之间的潜在关系,进而,使得模型能够根据用户之间的潜在关系对用户的资产数据进行特征表示,得到用户资产数据对应的资产表征向量,丰富了资产表征向量所涵盖的特征,提升资产表征向量的可靠性和适用性。
附图说明
为了更清楚地说明本申请中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的对象表示方法的场景示意图;
图2是本申请实施例提供的对象表示方法的流程示意图;
图3是本申请实施例提供的对象表示方法的另一流程示意图;
图4是本申请实施例提供的对象表示装置的结构示意图;
图5是本申请实施例提供的对象表示装置的另一结构示意图;
图6是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请中的附图,对本申请中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例提供一种对象表示方法、装置、电子设备及计算机可读存储介质。具体地,本申请实施例提供适用于电子设备的对象表示装置,其中,电子设备包括终端设备或者服务器,其中,终端设备可以为计算机、电视、音箱或者手机等设备,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN,Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器,服务器可以通过有线或无线通信方式进行直接或间接地连接。
其中,在本申请实施例中,可以由终端设备单独执行该对象表示方法,或者由服务器单独执行该对象表示方法,或者由终端设备和服务器共同执行该对象表示方法。其中,请参阅图1,以终端设备和服务器共同执行对象表示方法为例,其中,对象表示方法的具体执行过程如下:
终端设备10获取待表示对象的资产数据,然后,将待表示对象的资产数据发送给服务器11,服务器11在接收到待表示对象的资产数据后,对该资产数据进行特征提取,得到对象特征向量,随后,将对象特征向量输入资产表示模型,得到待表示对象的资产表征向量。
其中,在本申请实施例中,资产表示模型是根据样本待表示对象的样本资产数据、样本资产数据对应的样本资产类型标签、以及各个样本待表示对象的样本资产数据之间的取值关系进行训练得到。
其中,本申请实施例获取待表示对象的资产数据,对资产数据进行特征提取,得到对象特征向量,将对象特征向量输入资产表示模型,得到待表示对象的资产表征向量,其中,资产表示模型是根据样本待表示对象的样本资产数据、样本资产数据对应的样本资产类型标签、以及各个样本待表示对象的样本资产数据之间的取值关系进行训练得到。其中,通过结合样本资产数据之间的取值关系对模型进行训练,使得模型在训练时能够考虑各个用户之间的潜在关系,进而,使得模型能够根据用户之间的潜在关系对用户的资产数据进行特征表示,得到用户资产数据对应的资产表征向量,丰富了资产表征向量所涵盖的特征,提升资产表征向量的可靠性和适用性。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
请参阅图2,图2为本申请实施例提供的对象表示方法的流程示意图。该对象表示方法应用于电子设备,其中,该对象表示方法的具体流程可以如下:
101、获取待表示对象的资产数据。
其中,在本申请实施例中,待表示对象是资产数据待表示的对象,该对象可以是用户也可以是用户对应的账号,其中,该账号也表征相应的用户,其中,该用户可以是个人,也可以是组织或者群体。
其中,在本申请实施例中,资产数据反映对象的资产情况,例如,资产数据可以包括理财投资信息、存款信息、保险信息、保险额度信息、储蓄卡等级信息、银行客户信息或者房产信息等。
其中,在本申请实施例中,资产数据可以从资产统计表格中提取得到,例如,根据待表示对象的标识(ID),从表格中提取得到待表示对象的资产数据。
其中,通过获取待表示对象的资产数据,便于根据资产数据对用户的资产情况进行分析。
102、对所述资产数据进行特征提取,得到对象特征向量。
其中,对资产数据的特征提取包括对资产数据的编码、离散等处理,便于计算机程序的处理。
例如,在本申请实施例中,可以通过对资产数据的预处理,基于预处理后的资产数据提取得到相应的特征信息,即,可选的,在本申请实施例中,资产数据包括至少两个资产项以及每个资产项对应的资产取值,步骤“对所述资产数据进行特征提取,得到对象特征向量”,包括:
对所述资产数据进行预处理,得到预处理资产数据;
根据所述资产项的顺序对所述预处理资产数据的资产取值进行组合,得到对象特征向量。
其中,在本申请实施例中,对资产数据的预处理包括将资产数据的资产项(字段)进行编码得到相应的向量、对缺失值进行填充、连续变量(continuous variable)进行离散化、将类别变量进行编码和独热编码(one-hot)等,如将储蓄卡等级(“普通”,“白金”,“黑卡”)这种,要转成(1,0,0),(0,1,0),(0,0,1)向量等操作。
然后,将预处理后的字段结果按照固定的字段顺序组成一个特征向量,作为资产表示模型的输入。
103、将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量。
其中,通过将对象特征向量输入资产表示模型,可以得到资产数据对应的资产表征向量。其中,在得到资产表征向量后,可以用资产表征向量表征待表示对象的资产数据,利用该资产表征向量确定用户的资产类型,进而便于为用户提供个性化服务,提升用户体验。
其中,在本申请实施例中,资产表示模型是根据样本待表示对象的样本资产数据、所述样本资产数据对应的样本资产类型标签、以及各个所述样本待表示对象的样本资产数据之间的取值关系进行训练得到。其中,通过结合样本资产数据之间的取值关系对模型进行训练,使得模型在训练时能够考虑各个用户之间的潜在关系,进而,使得模型能够根据用户之间的潜在关系对用户的资产数据进行特征表示,得到用户资产数据对应的资产表征向量,丰富了资产表征向量所涵盖的特征,提升资产表征向量的可靠性和适用性。
例如,通过样本资产数据之间的取值关系,可以得到理财投资情况、存款情况等一致的用户,便于根据用户之间的资产情况对用户进行资产分析,例如,当用户与高净值用户的资产数据较为接近时,该用户属于高净值用户的概率也较大。
其中,通过在资产表征向量中融入客户之间的资产取值关系,使得资产表征向量中涵盖了客户之间的关系,丰富了资产表征向量所包含的特征,提升了对用户资产数据表征的准确性。
其中,在本申请实施例中,在得到表示对象资产数据的资产表征向量后,还可以根据该资产表征向量对资产数据进行资产类型的归类,进而根据对象所属的资产类型为对象提供资产服务,即,可选的,在本申请的一些实施例中,步骤“将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量”之后,该方法还包括:
根据所述资产表征向量确定所述资产数据对应的资产类型;
根据所述资产类型确定所述待表示对象对应的资产服务;
为所述待表示对象提供所述资产服务。
其中,由于资产表征向量用于表征待表示对象的资产数据的资产情况,以及还涵盖了该对象与其他对象资产数据的取值关系(即用户关系),因此,在本申请实施例中,可以直接根据资产数据对应的资产表征向量确定待表示对象的资产类型。
其中,在确定待表示对象的资产类型后,还可以确定与该资产类型对应的资产服务,进而根据该资产服务为用户提供服务,提升用户体验。
例如,在本申请实施例中,根据资产表征向量可以确定待表示对象为高净值用户或者非高净值用户,随后,则可以根据用户的类型为不同用户提供资产服务,其中,在本申请实施例中,资产服务可以包括推送金融产品、理财服务或者保险服务等。
其中,在本申请实施例中,可以通过资产分类模型对资产表征向量所属的资产类型进行分类,即,可选的,在本申请的一些实施例中,步骤“根据所述资产表征向量确定所述资产数据对应的资产类型”,包括:
将所述资产表征向量输入预设资产分类模型,得到所述资产表征向量属于每个预设资产类型的预测概率;
根据所述预测概率从所述预设资产类型中确定所述资产数据对应的资产类型。
其中,通过资产分类模型可以确定资产表征向量分别属于每个资产类型的概率,进而根据概率的高低,将概率最高对应的资产类型作为资产表征向量对应的资产类型,即作为待表示对象的资产数据对应的资产类型。
其中,在本申请实施例中,资产分类模型可以由全连接层和激活函数层构成,资产表征向量经过全连接层和激活函数层后输出归一化后的分数,将该分数转换为百分制,得到资产表征向量对应各个资产类型的概率。
其中,在本申请实施例中,还可以通过编码结果比较的方式确定资产表征向量对应的资产类型,即,可选的,在本申请的一些实施例中,步骤“根据所述资产表征向量确定所述资产数据对应的资产类型”,包括:
根据资产表示模型得到预设资产类型对应的资产预表征向量;
计算所述资产表征向量和所述资产预表征向量的相似度;
根据所述相似度从所述预设资产类型中确定所述资产数据对应的资产类型。
其中,资产预表征向量是根据资产表示模型对预设资产类型进行预编码后得到的,在得到各个预设资产类型对应的资产预表征向量后,可以通过资产表征向量与各个资产预表征向量的比较,确定资产数据所属的资产类型。例如,将与资产表征向量的相似度最高的资产预表征向量对应的预设资产类型作为资产数据对应的资产类型。
其中,在本申请实施例中,由于资产数据包括多个资产项(字段),因此,在资产表示模型中,可以针对每个资产项建立相应的子网络,根据各个子网络分别得到各个资产项的编码结果,即,可选的,在本申请的一些实施例中,资产表示模型包括图卷积网络,所述图卷积网络包括若干子图神经网络,步骤“将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量”,包括:
根据所述资产数据对应的资产项,确定每个资产项对应的子图神经网络;
将所述对象特征向量输入到所述子图神经网络中,得到所述资产数据中每个资产项对应的子资产表征向量;
将所述子资产表征向量进行融合,得到所述待表示对象的资产表征向量。
其中,图卷积网络是无向的、多关系图卷积网络,用于对用户资产数据所形成的拓扑图进行编码处理,其中,在本申请实施例中,拓扑图包括节点(node)和边缘(edge),节点对应不同的客户,以特征向量来描述,而边缘则对应客户之间存在的某一类关系。例如,包含了N种不同类别的边缘(N种关系),分别对应资产数据里的N个资产项(字段),涵盖年收入、房产价格、投资额等。
其中,在本申请实施例中,针对每种资产项,确定各个用户在该资产项对应的拓扑图,即,以每种资产项建立相应的拓扑图,例如,在针对每个资产项的情况下,不同客户节点只有在对应的字段(该资产项)取值相同时才会相连,而所有相连的节点对应字段的取值均相同,以此构建得到相应的拓扑图。而每个资产项对应的拓扑图分别由相应的子图神经网络进行编码处理,即,每个子图神经网络分别处理一个资产项对应的拓扑图。其中,在本申请实施例中,子图神经网络本质上也是一个图卷积网络,而通过多个子图神经网络的平行组合,得到整体的图卷积网络。
其中,在本申请实施例中,在接收到待表示对象的资产数据后,将待表示对象的资产数据添加到相应的拓扑图中,然后,基于子图神经网络对相应的拓扑图中的分析、编码,得到资产数据在各个资产项的子资产表征向量,当各个子资产表征向量在融合后,则构成了资产数据对应的整个资产表征向量。
其中,在本申请实施例中,各个子资产表征向量的融合可以通过注意力机制(attention mechanism)基于每个资产项的权重进行融合。
其中,在本申请实施例中,资产表示模型是根据样本资产数据进行训练后得到的模型,即,可选的,在本申请的一些实施例中,步骤“获取待表示对象的资产数据”之前,该方法还包括:
获取原始资产表示模型、样本待表示对象的样本资产数据以及所述样本资产数据对应的样本资产类型标签;
针对所述样本资产数据中的每个资产项,根据所述资产项以及所述资产项对应的资产取值,构建资产项拓扑图;
根据所述原始资产表示模型中的各个原始子图神经网络分别对每个资产项拓扑图进行特征提取,得到每个资产项拓扑图对应的原始子资产表征向量;
将所述原始子资产表征向量进行融合,得到原始资产表征向量;
根据所述原始资产表征向量和所述样本资产类型标签对所述原始资产表示模型进行训练,得到所述资产表示模型。
其中,通过对模型的训练,提升模型的编码结果的准确性,即提升得到的资产表征向量的准确性。
其中,在本申请实施例中,样本资产数据在输入模型前,也需要进行预处理和特征提取等操作,确保训练数据的有效性以及提升训练效果。
其中,在本申请实施例中,训练过程中以交叉熵(cross entropy)作为损失函数,采用自适应动量的随机优化方法算法(Adam,Adaptive momentum)来优化梯度下降。我们以模型在验证集上的损失函数值作为判断训练是否达到收敛的依据。
其中,在本申请实施例中,针对训练数据,可以按客户的综合资产情况(包括固定资产,理财投资等)分成高净值和非高净值两个类别,分别以1和0来标记,作为资产类型对应的标签,然后,从已有业务表格挑选了约10M客户数据作为数据集,然后选择其中约50个和客户资产信息有关的字段组成特征向量(即,资产项有50个,子图神经网络也相应的有50个)。我们按比例8:1:1随机的把数据分成了训练集(8M),验证集(1M),以及测试集(1M)。三个数据集都进行了均衡处理,即每个数据集里标签为0和为1的样本总数的大致相同。
其中,本申请实施例获取待表示对象的资产数据,对资产数据进行特征提取,得到对象特征向量,将对象特征向量输入资产表示模型,得到待表示对象的资产表征向量,其中,资产表示模型是根据样本待表示对象的样本资产数据、样本资产数据对应的样本资产类型标签、以及各个样本待表示对象的样本资产数据之间的取值关系进行训练得到。其中,通过结合样本资产数据之间的取值关系对模型进行训练,使得模型在训练时能够考虑各个用户之间的潜在关系,进而,使得模型能够根据用户之间的潜在关系对用户的资产数据进行特征表示,得到用户资产数据对应的资产表征向量,丰富了资产表征向量所涵盖的特征,提升资产表征向量的可靠性和适用性。
请参阅图3,图3为本申请实施例提供的对象表示方法的另一流程示意图。该对象表示方法应用于电子设备,其中,该对象表示方法的具体流程可以如下:
201、获取用户的资产数据。
其中,在本申请实施例中,给定银行客户的识别ID,首先从银行表格数据获取该客户的字段信息,比如客户的性别,理财投资信息,房产信息等。
202、对用户资产数据的每个字段信息进行预处理,得到预处理资产数据。
其中,在本申请实施例中,预处理包括把类别变量(categorical variable)进行编码并转成向量、对缺失值进行填充、连续变量(continuous variable)进行离散化等操作。
203、把预处理资产数据的字段结果按照固定的字段顺序组成一个特征向量,得到资产特征向量。
204、将资产特征向量输入到资产预测模型,得到资产数据对应的资产类别。
其中,在本申请实施例中,资产预测模型包括对资产特征向量的编码以及根据编码结果预测资产数据对应的资产类型,即,资产预测模型包括图神经网络层和全连接输出层。
其中,图神经网络层包括:采用无向的、多关系图卷积网络(M-GCN,multi-relational graph convolution network)结构,其中,图卷积是最常见的一种图神经网络建模算法。模型网络里的节点(node)对应不同的客户,以资产特征向量来描述,而边缘(edge)则对应客户之间存在的某一类关系。我们的图神经网络共包含了N种不同类别的边缘(N种关系),分别对应表格里的N个资产字段,涵盖年收入、房产价格、投资额等。对于每一类边缘(关系),我们搭建一个局部的图神经网络:不同客户节点只有在对应的字段取值相同时才会相连,而所有相连的节点对应字段的取值均相同。最终的M-GCN图神经网络层是由这N个局部图神经网络平行组成。
其中,由于每个局部图神经网络都会输出一个特定关系的隐藏层(维度均为512的向量),我们会对这些隐藏层通过注意力机制(attention mechanism)来融合成一个最终的隐藏层(维度也是512),作为图神经网络层的最终输出。在模型训练完成后,这个输出对应客户的资产表征向量。
其中,以图神经网络层(参看下面说明)的输出隐藏层(hidden layer)作为客户表征向量,维度是512。在这个512维的表征空间中它代表了该客户潜在的资产情况。由于我们的模型是通过大量的表格数据训练得到,所以有关表征向量在描述客户资产方面要远比基于原始资产字段组成的特征向量更为准确。
其中,全连接输出层包括:将资产表征向量作为输入经过全连接层和sigmoid激活函数后输出归一化后的分数,作为客户是高净值的预测概率。
其中,在本申请实施例中,模型会输出客户为高净值的预测概率p,取值范围是0.0-1.0之间;我们对概率p进行百分制转换,最后得到客户为高净值的预测分数(0-100之间)。
其中,本申请实施例中采用了图神经网络结构并且在大量的表格数据上训练得到资产预测模型,它不仅学习到客户表格中资产字段之间的相互作用,更重要的是它也学习到客户之间的深层关系,这种关系通过传统机器学习模型是无法获取的。以及,从资产表征模型提取得到的表征向量能有效地代表客户的潜在资产情况,它可以作为多模态融合模型中表格部分的输入特征(其他特征包括从图像/文本/音频模型提取的对应的表征向量),为训练准确度更高的多模态模型提供了基础。
为便于更好的实施本申请的对象表示方法,本申请还提供一种基于上述对象表示方法的对象表示装置。其中,涉及的目标词语的含义与上述对象表示方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图4,图4是本申请实施例提供的对象表示装置的结构示意图,其中,该对象表示装置可以包括:
获取模块301,用于获取待表示对象的资产数据;
提取模块302,用于对所述资产数据进行特征提取,得到对象特征向量;
表示模块303,用于将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量;
其中,所述资产表示模型是根据样本待表示对象的样本资产数据、所述样本资产数据对应的样本资产类型标签、以及各个所述样本待表示对象的样本资产数据之间的取值关系进行训练得到。
其中,在本申请的一些实施例中,该装置还包括应用模块,应用模块包括:
类型确定单元,用于根据所述资产表征向量确定所述资产数据对应的资产类型;
服务确定单元,用于根据所述资产类型确定所述待表示对象对应的资产服务;
服务单元,用于为所述待表示对象提供所述资产服务。
其中,在本申请的一些实施例中,类型确定单元包括:
第一获取子单元,用于将所述资产表征向量输入预设资产分类模型,得到所述资产表征向量属于每个预设资产类型的预测概率;
第一确定子单元,用于根据所述预测概率从所述预设资产类型中确定所述资产数据对应的资产类型。
其中,在本申请的一些实施例中,类型确定单元包括:
第二获取子单元,用于根据资产表示模型得到预设资产类型对应的资产预表征向量;
计算子单元,用于计算所述资产表征向量和所述资产预表征向量的相似度;
第二确定子单元,用于根据所述相似度从所述预设资产类型中确定所述资产数据对应的资产类型。
其中,在本申请的一些实施例中,资产数据包括至少两个资产项以及每个资产项对应的资产取值,获取模块301包括:
处理单元,用于对所述资产数据进行预处理,得到预处理资产数据;
组合单元,用于根据所述资产项的顺序对所述预处理资产数据的资产取值进行组合,得到对象特征向量。
其中,在本申请的一些实施例中,资产表示模型包括图卷积网络,所述图卷积网络包括若干子图神经网络,表示模块303包括:
网络确定单元,用于根据所述资产数据对应的资产项,确定每个资产项对应的子图神经网络;
向量获取单元,用于将所述对象特征向量输入到所述子图神经网络中,得到所述资产数据中每个资产项对应的子资产表征向量;
向量融合单元,用于将所述子资产表征向量进行融合,得到所述待表示对象的资产表征向量。
其中,在本申请的一些实施例中,该装置还包括训练模块,训练模块包括:
样本获取单元,用于获取原始资产表示模型、样本待表示对象的样本资产数据以及所述样本资产数据对应的样本资产类型标签;
构建单元,用于针对所述样本资产数据中的每个资产项,根据所述资产项以及所述资产项对应的资产取值,构建资产项拓扑图;
提取单元,用于根据所述原始资产表示模型中的各个原始子图神经网络分别对每个资产项拓扑图进行特征提取,得到每个资产项拓扑图对应的原始子资产表征向量;
融合单元,用于将所述原始子资产表征向量进行融合,得到原始资产表征向量;
训练单元,用于根据所述原始资产表征向量和所述样本资产类型标签对所述原始资产表示模型进行训练,得到所述资产表示模型。
本申请实施例由获取模块301获取待表示对象的资产数据,接着,由提取模块302对所述对象表示对所述资产数据进行特征提取,得到对象特征向量,随后,由表示模块303将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量。其中,所述资产表示模型是根据样本待表示对象的样本资产数据、所述样本资产数据对应的样本资产类型标签、以及各个所述样本待表示对象的样本资产数据之间的取值关系进行训练得到。
其中,本申请实施例获取待表示对象的资产数据,对资产数据进行特征提取,得到对象特征向量,将对象特征向量输入资产表示模型,得到待表示对象的资产表征向量,其中,资产表示模型是根据样本待表示对象的样本资产数据、样本资产数据对应的样本资产类型标签、以及各个样本待表示对象的样本资产数据之间的取值关系进行训练得到。其中,通过结合样本资产数据之间的取值关系对模型进行训练,使得模型在训练时能够考虑各个用户之间的潜在关系,进而,使得模型能够根据用户之间的潜在关系对用户的资产数据进行特征表示,得到用户资产数据对应的资产表征向量,丰富了资产表征向量所涵盖的特征,提升资产表征向量的可靠性和适用性。
请参阅图5,图5是本申请实施例提供的对象表示装置的另一结构示意图,其中,该对象表示装置可以包括:
输入模块311,用于输入银行客户的识别标识;
生成模块312,包括提取单元3121和生成单元3122,其中,提取单元3121用于根据客户的识别标识从表格中提取得到客户字段;生成单元3122预处理生成特征向量;
预测模块313,用于接收生成模块312输入的特征向量,并通过图神经网络推理得到特征向量对应的表征向量,并根据表征向量预测客户的高净值概率;
输出模块314,包括第一输出单元3141和第二输出单元3142,第一输出单元3141用于输出表征向量,第二输出单元3142用于输出高净值概率。
其中,本申请实施例中采用了图神经网络结构并且在大量的表格数据上训练得到资产预测模型,它不仅学习到客户表格中资产字段之间的相互作用,更重要的是它也学习到客户之间的深层关系,这种关系通过传统机器学习模型是无法获取的。以及,从资产表征模型提取得到的表征向量能有效地代表客户的潜在资产情况,它可以作为多模态融合模型中表格部分的输入特征(其他特征包括从图像/文本/音频模型提取的对应的表征向量),为训练准确度更高的多模态模型提供了基础。
此外,本申请还提供一种电子设备,如图6所示,其示出了本申请所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、对象界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与对象设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现本申请所提供的任一种对象表示方法中的步骤。
本申请实施例获取待表示对象的资产数据,对资产数据进行特征提取,得到对象特征向量,将对象特征向量输入资产表示模型,得到待表示对象的资产表征向量,其中,资产表示模型是根据样本待表示对象的样本资产数据、样本资产数据对应的样本资产类型标签、以及各个样本待表示对象的样本资产数据之间的取值关系进行训练得到。其中,通过结合样本资产数据之间的取值关系对模型进行训练,使得模型在训练时能够考虑各个用户之间的潜在关系,进而,使得模型能够根据用户之间的潜在关系对用户的资产数据进行特征表示,得到用户资产数据对应的资产表征向量,丰富了资产表征向量所涵盖的特征,提升资产表征向量的可靠性和适用性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请所提供的任一种对象表示方法中的步骤。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请所提供的任一种对象表示方法中的步骤,因此,可以实现本申请所提供的任一种对象表示方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请所提供的一种对象表示方法、装置、电子设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
其中,可以理解的是,在本申请的具体实施方式中,涉及到用户的资产信息、个人基本信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

Claims (10)

1.一种对象表示方法,其特征在于,应用于电子设备,包括:
获取待表示对象的资产数据;
对所述资产数据进行特征提取,得到对象特征向量;
将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量;
其中,所述资产表示模型是根据样本待表示对象的样本资产数据、所述样本资产数据对应的样本资产类型标签、以及各个所述样本待表示对象的样本资产数据之间的取值关系进行训练得到。
2.根据权利要求1所述的方法,其特征在于,所述将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量之后,所述方法还包括:
根据所述资产表征向量确定所述资产数据对应的资产类型;
根据所述资产类型确定所述待表示对象对应的资产服务;
为所述待表示对象提供所述资产服务。
3.根据权利要求2所述的方法,其特征在于,所述根据所述资产表征向量确定所述资产数据对应的资产类型,包括:
将所述资产表征向量输入预设资产分类模型,得到所述资产表征向量属于每个预设资产类型的预测概率;
根据所述预测概率从所述预设资产类型中确定所述资产数据对应的资产类型。
4.根据权利要求2所述的方法,其特征在于,所述根据所述资产表征向量确定所述资产数据对应的资产类型,包括:
根据资产表示模型得到预设资产类型对应的资产预表征向量;
计算所述资产表征向量和所述资产预表征向量的相似度;
根据所述相似度从所述预设资产类型中确定所述资产数据对应的资产类型。
5.根据权利要求1所述的方法,其特征在于,所述资产数据包括至少两个资产项以及每个资产项对应的资产取值,所述对所述资产数据进行特征提取,得到对象特征向量,包括:
对所述资产数据进行预处理,得到预处理资产数据;
根据所述资产项的顺序对所述预处理资产数据的资产取值进行组合,得到对象特征向量。
6.根据权利要求5所述的方法,其特征在于,所述资产表示模型包括图卷积网络,所述图卷积网络包括若干子图神经网络,所述将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量,包括:
根据所述资产数据对应的资产项,确定每个资产项对应的子图神经网络;
将所述对象特征向量输入到所述子图神经网络中,得到所述资产数据中每个资产项对应的子资产表征向量;
将所述子资产表征向量进行融合,得到所述待表示对象的资产表征向量。
7.根据权利要求1所述的方法,其特征在于,所述获取待表示对象的资产数据之前,所述方法还包括:
获取原始资产表示模型、样本待表示对象的样本资产数据以及所述样本资产数据对应的样本资产类型标签;
针对所述样本资产数据中的每个资产项,根据所述资产项以及所述资产项对应的资产取值,构建资产项拓扑图;
根据所述原始资产表示模型中的各个原始子图神经网络分别对每个资产项拓扑图进行特征提取,得到每个资产项拓扑图对应的原始子资产表征向量;
将所述原始子资产表征向量进行融合,得到原始资产表征向量;
根据所述原始资产表征向量和所述样本资产类型标签对所述原始资产表示模型进行训练,得到所述资产表示模型。
8.一种对象表示装置,其特征在于,包括:
获取模块,用于获取待表示对象的资产数据;
提取模块,用于对所述资产数据进行特征提取,得到对象特征向量;
表示模块,用于将所述对象特征向量输入资产表示模型,得到所述待表示对象的资产表征向量;
其中,所述资产表示模型是根据样本待表示对象的样本资产数据、所述样本资产数据对应的样本资产类型标签、以及各个所述样本待表示对象的样本资产数据之间的取值关系进行训练得到。
9.一种电子设备,其特征在于,所述电子设备包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述对象表示方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述对象表示方法的步骤。
CN202310245154.6A 2023-03-07 2023-03-07 对象表示方法、装置、电子设备及计算机可读存储介质 Pending CN116522131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310245154.6A CN116522131A (zh) 2023-03-07 2023-03-07 对象表示方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310245154.6A CN116522131A (zh) 2023-03-07 2023-03-07 对象表示方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN116522131A true CN116522131A (zh) 2023-08-01

Family

ID=87392954

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310245154.6A Pending CN116522131A (zh) 2023-03-07 2023-03-07 对象表示方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN116522131A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688121A (zh) * 2024-02-04 2024-03-12 南京师范大学 SubGNN注入空间特征的地理知识图谱表示学习方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117688121A (zh) * 2024-02-04 2024-03-12 南京师范大学 SubGNN注入空间特征的地理知识图谱表示学习方法
CN117688121B (zh) * 2024-02-04 2024-04-26 南京师范大学 SubGNN注入空间特征的地理知识图谱表示学习方法

Similar Documents

Publication Publication Date Title
CN110598037B (zh) 一种图像搜索方法、装置和存储介质
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
CN111324774B (zh) 一种视频去重方法和装置
CN113011889B (zh) 账号异常识别方法、系统、装置、设备及介质
CN112700252B (zh) 一种信息安全性检测方法、装置、电子设备和存储介质
CN111371767B (zh) 恶意账号识别方法、恶意账号识别装置、介质及电子设备
CN110598019B (zh) 重复图像识别方法及装置
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN111680147A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN111639291A (zh) 内容分发方法、装置、电子设备以及存储介质
Borges et al. On measuring popularity bias in collaborative filtering data
CN113011884B (zh) 账户特征的提取方法、装置、设备及可读存储介质
CN112487794A (zh) 行业分类方法、装置、终端设备及存储介质
CN112487284A (zh) 银行客户画像生成方法、设备、存储介质及装置
CN116522131A (zh) 对象表示方法、装置、电子设备及计算机可读存储介质
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN113836390B (zh) 资源推荐方法、装置、计算机设备及存储介质
CN112989182A (zh) 信息处理方法、装置、信息处理设备及存储介质
CN116739408A (zh) 基于数据标签的电网调度安全监控方法、系统及电子设备
CN113781201B (zh) 电子金融活动的风险评估方法和装置
CN113420789A (zh) 一种预测风险账号的方法、装置、存储介质和计算机设备
CN113010664A (zh) 一种数据处理方法、装置及计算机设备
CN117575894B (zh) 图像生成方法、装置、电子设备和计算机可读存储介质
CN116484105B (zh) 业务处理方法、装置及计算机设备、存储介质、程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination