CN113761250A - 模型训练方法、商户分类方法及装置 - Google Patents

模型训练方法、商户分类方法及装置 Download PDF

Info

Publication number
CN113761250A
CN113761250A CN202110448644.7A CN202110448644A CN113761250A CN 113761250 A CN113761250 A CN 113761250A CN 202110448644 A CN202110448644 A CN 202110448644A CN 113761250 A CN113761250 A CN 113761250A
Authority
CN
China
Prior art keywords
merchant
sample
data
model
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110448644.7A
Other languages
English (en)
Inventor
黄薇屹
洪立涛
王波
苏函晶
韩宝昌
陶淳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110448644.7A priority Critical patent/CN113761250A/zh
Publication of CN113761250A publication Critical patent/CN113761250A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例公开了一种模型训练方法、商户分类方法及装置,方法通过获取训练样本集合;根据样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构数据;将图结构数据输入图神经网络,得到输出的多个样本节点向量;获取每一样本节点向量在预设场景下的标签信息;采用多个样本节点向量以及每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。以此,本申请采用机器学习方法根据样本数据之间的关联度关系生成图结构数据,再从图结构数据中提取出每个样本的特征向量进行模型训练,该方法利用样本之间的关联度关系进行增强训练,改善了模型训练效果,提升了模型处理的准确性。

Description

模型训练方法、商户分类方法及装置
技术领域
本发明涉及计算机技术领域,具体涉及一种模型训练方法、商户分类方法及装置。
背景技术
机器学习(Machine Learning,ML)专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径。
在机器学习领域中,通常需要利用样本数据的特征信息对网络模型进行训练,以得到各种不同功能的网络模型。
目前利用样本数据进行模型训练,只孤立地使用每个样本的特征对模型进行训练,导致模型训练的效果较差。
发明内容
本申请实施例提供一种模型训练方法、商户分类方法及装置,该方法可以根据样本数据之间的关联度关系生成图结构数据,再从图结构数据中提取出每个样本的特征向量进行模型训练,该方法充分利用了样本之间的关联关系,改善了模型训练效果,提升了模型处理的准确性。
本申请第一方面提供一种模型训练方法,包括:
获取训练样本集合,所述训练样本集合包括样本数据以及样本数据之间的关联度关系;
根据所述样本数据以及样本数据之间的关联度关系构建所述样本数据之间的图结构数据,所述图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;
将所述图结构数据输入图神经网络,得到输出的多个样本节点向量;
获取每一样本数据在预设场景下的标签信息;
采用所述多个样本节点向量以及所述每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。
相应的,本申请第二方面提供一种模型训练装置,包括:
第一获取单元,获取训练样本集合,所述训练样本集合包括样本数据以及样本数据之间的关联度关系;
第一构建单元,用于根据所述样本数据以及样本数据之间的关联度关系构建所述样本数据之间的图结构数据,所述图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;
第一输入单元,用于将所述图结构数据输入图神经网络,得到输出的多个样本节点向量;
第二获取单元,用于获取每一样本数据在预设场景下的标签信息;
第一训练单元,用于采用所述多个样本节点向量以及所述每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。
在一些实施例中,所述装置还包括:
第三获取单元,用于获取每一样本数据的统计特征数据;
第二训练单元,用于采用所述每一样本数据的统计特征数据以及每一样本数据在所述预设场景下的标签信息训练第二预设模型,得到训练后的第二预设模型;
第三训练单元,用于基于所述训练后的第一预设模型的输出与所述训练后的第二预设模型的输出训练预设分类模型,得到训练后的预设分类模型。
在一些实施例中,所述第三训练单元,包括:
第一提取子单元,用于通过所述训练后的第一预设模型对每一样本数据进行特征提取,得到第一特征向量;
第二提取子单元,用于通过所述训练后的第二预设模型对每一样本数据进行特征提取,得到第二特征向量;
融合子单元,用于将所述第一特征向量与所述第二特征向量按照样本数据维度进行对应融合,得到所述每一样本数据对应的融合向量;
训练子单元,用于采用所述每一样本数据对应的融合向量以及所述每一样本数据在预设场景下的标签信息训练预设的分类模型,得到训练后的分类模型。
在一些实施例中,所述构建单元,包括:
生成子单元,用于将所述样本数据集合中的样本数据作为节点,生成多个样本节点;
连接子单元,用于将关联度关系满足预设条件的样本节点之间进行边连接,得到样本数据之间的图结构数据。
在一些实施例中,所述连接子单元,包括:
计算模块,用于计算每一样本节点之间的空间距离信息;
连接模块,用于将所述空间距离信息小于预设阈值的样本节点之间进行边连接。
在一些实施例中,所述输入单元,包括:
获取子单元,用于获取所述图结构数据的图结构类型信息;
确定子单元,用于确定每一图结构类型信息对应的目标图嵌入方法;
处理子单元,用于基于所述目标图嵌入方法对相应图结构类型信息的图结构数据进行处理,得到所述图结构数据中每个样本节点对应的样本节点向量。
在一些实施例中,所述第一训练单元,还用于:
采用所述多个样本节点向量以及所述每一样本节点向量对应的标签信息训练预设多层感知机,得到训练后的预设多层感知机。
本申请第三方面还提供一种商户分类方法,方法包括:
获取商户数据集合,所述商户数据集合包含多个商户的商户信息以及商户之间的关联度关系;
根据所述多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据;
将所述图结构数据输入图神经网络,得到输出的多个商户节点向量;
将所述多个商户节点向量输入预设的第一模型,以在预设场景下对所述多个商户进行分类,所述预设的模型为上述实施例中提供的训练后的第一预设模型。
相应地,本申请第四方面还提供一种商户分类装置,装置包括:
第四获取单元,用于获取商户数据集合,所述商户数据集合包含多个商户的商户信息以及商户之间的关联度关系;
第二构建单元,用于根据所述多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据;
第二输入单元,用于将所述图结构数据输入图神经网络,得到输出的多个商户节点向量;
第一分类单元,用于将所述多个商户节点向量输入预设的第一模型,以在预设场景下对所述多个商户进行分类,所述预设的模型为上述实施例中提供的的训练后的第一预设模型。
在一些实施例中,所述装置还包括:
第二获取单元,用于获取每一商户的统计特征数据;
处理单元,用于通过所述预设的第一模型对每一商户对应的商户节点向量进行处理,得到每一商户对应的第一特征向量;
提取单元,用于通过预设的第二模型对所述每一商户的统计特征数据进行特征提取,得到每一商户对应的第二特征向量,所述预设的第二模型为上述实施例中提供的训练后的第二预设模型;
融合单元,用于将每一商户的第一特征向量与第二特征向量进行融合,得到每一商户的融合向量;
第二分类单元,用于将所述每一商户的融合向量输入至预设的第三模型,以对商户进行分类,所述预设的第三模型为上述实施例中提供的训练后的分类模型。
本申请第五方面还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请第一方面所提供的模型训练方法的步骤或本申请第三方面所提供的商户分类方法的步骤。
本申请第六方面提供一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请第一方面所提供的模型训练方法的步骤或本申请第三方面所提供的商户分类方法的步骤。
本申请第七方面提供一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行第一方面提供的模型训练方法的步骤或本申请第三方面所提供的商户分类方法的步骤。
本申请实施例提供的模型训练方法,通过获取训练样本集合,训练样本集合包括样本数据以及样本数据之间的关联度关系;根据样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构数据,图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;将图结构数据输入图神经网络,得到输出的多个样本节点向量;获取每一样本节点向量在预设场景下的标签信息;采用多个样本节点向量以及每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。以此,通过根据样本数据之间的关联度关系生成图结构数据,再从图结构数据中提取出每个样本的特征向量进行模型训练,该方法利用样本之间的关联度关系进行增强训练,改善了模型训练效果,提升了模型处理的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本申请提供的模型训练的场景示意图;
图2是本申请提供的模型训练方法的流程示意图;
图3是本申请提供的模型训练方法的另一流程示意图;
图4是本申请提供的双塔模型的结构示意图;
图5是本申请提供的商户分类方法的流程示意图;
图6是本申请提供的模型训练装置的结构示意图;
图7是本申请提供的商户分类装置的结构示意图;
图8是本申请提供的计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种模型训练方法、商户分类方法及装置。其中,该模型训练方法可以使用于模型训练装置中。该模型训练装置可以集成在计算机设备中,该计算机设备可以是终端也可以是服务器。其中,终端可以为手机、平板电脑、笔记本电脑、智能电视、穿戴式智能设备、个人计算机(PC,Personal Computer)等设备。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、网络加速服务(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,为本申请提供的模型训练的场景示意图;如图所示,计算机设备获取到训练样本集合后,从训练样本集合中提取出样本数据之间的关联度关系,再根据样本数据之间的关联度关系将样本数据进行关联,从而构建出样本数据之间的图结构数据;然后,计算机设备再将构建得到图结构数据输入至图神经网络中,得到输出的多个样本节点向量;最后,再根据每个样本数据对应的样本节点向量以及与其对应的标签信息训练预设的网络模型,得到训练后的网络模型,从而实现对模型的训练过程。
需要说明的是,图1所示的模型训练的场景示意图仅仅是一个示例,本申请实施例描述的模型训练场景是为了更加清楚地说明本申请的技术方案,并不构成对于本申请提供的技术方案的限定。本领域普通技术人员可知,随着模型训练的演变和新业务场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。
基于上述实施场景以下分别进行详细说明。
本申请实施例将从模型训练装置的角度进行描述,该模型训练装置可以集成在计算机设备中。其中,计算机设备可以是终端或服务器。如图2所示,为本申请提供的模型训练方法的流程示意图,该方法包括:
步骤101,获取训练样本集合,训练样本集合包括多个商户的商户信息以及商户之间的关联度关系。
目前,采用样本数据进行模型训练,往往只孤立地考虑了样本本身的特征,而忽略了样本之间的关联关系,从而导致模型训练效果较差。其中,样本本身的特征包括了样本的基础信息对应的特征。
对此,为解决上述问题,本申请提供了一种模型训练方法,可以充分利用样本间的关联关系进行模型的训练以提高模型训练的准确性。下面具体对本申请提供的模型训练方法进行介绍:首先对模型训练所需的训练样本集合进行获取,训练样本集合包括样本数据以及样本数据之间的关联度关系。在本申请实施例中,具体以商户分类场景为例进行说明,则训练样本集合包括多个商户数据以及商户之间的关联度关系。其中,可以理解的是,商户分类场景只是一个示例,本申请提供的模型训练方法可以适用于任何分类场景中,此处商户分类场景只是为了方便对本申请技术方案进行理解的一个示例性方案,并不对本申请方案的保护范围造成限定。
商户数据可以包括商户的商户信息、商户的一个或多个特征数据以及商户之间的关联度关系数据。其中,商户信息包括了商户的基础信息,包括商户的经营范围、商户名、商户地址以及商户成立时间等信息,商户的一个或多个特征数据可以包括商户在多个场景下针对不同的场景痛点对应统计的数据。
其中,商户之间的关联度关系,可以由商户的关联关系数据进行相应处理得到。具体地,可以先获取商户的关联关系数据,商户的关联关系数据可以根据预设的获取逻辑直接获取得到,也可以根据商户的基础信息进行推理得到。在获取到商户的关联关系后,可以采用预设的关联度计算方法计算商户之间的关联度关系,也可以采用训练过的关联度分析模型对商户之间的关联关系数据进行分析,得到商户之间的关联度关系。
步骤102,根据多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据。
其中,在获取到训练样本数据后,基于训练样本数据中包含的样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构数据。图结构数据中的节点,也可以称为样本节点,即代表了一个样本数据。图结构中样本节点之间相连接的边,即代表了样本数据之间的关联度关系。具体地,在商户分类场景中,可以是基于多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据。其中,图结构数据中的节点便代表了一个商户,节点之间相连接的边便代表了商户之间的关联度关系。
在一些实施例中,根据样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构数据,包括:
1、将样本数据集合中的样本数据作为节点,生成多个样本节点;
2、将关联度关系满足预设条件的样本节点之间进行边连接,得到样本数据之间的图结构数据。
其中,根据样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构关系,可以先将样本数据集合中的样本数据作为图结构数据中的节点,从而生成每个样本数据对应的样本节点。然后,再根据样本数据之间的关联度关系在样本数据对应的样本节点之间建立边连接,从而得到样本数据之间的图结构数据。具体地,在商户分类场景中,可以将每一个商户作为图结构数据中的一个商户节点,节点包含了商户的商户信息以及商户的统计特征。然后根据商户之间关联度关系在商户节点之间建立边连接,从而得到商户之间的图结构数据。
在一些实施例中,将关联度关系满足预设条件的样本节点之间进行边连接,包括:
1.1、计算每一样本节点之间的空间距离信息;
1.2、将空间距离信息小于预设阈值的样本节点之间进行边连接。
其中,在本申请实施例中,可以将样本数据之间的关联度关系映射得到一个关联度值,然后根据样本数据之间的关联度值确定样本节点之间的连接关系。具体地,可以将样本节点之间的关联度值与一个预设的阈值进行比较,当关联度值大于预设阈值时,在两个样本节点之间建立边连接。当关联度值不大于预设阈值时,即不在该两个样本节点之间建立边连接。同样地,在商户分类场景中,也可以将商户之间的关联度值与一个预设的阈值进行比较,然后将关联度值大于该预设阈值的商户节点之间建立边连接,从而得到商户对应的图结构数据。
步骤103,将图结构数据输入图神经网络,得到输出的多个商户节点向量。
其中,在本申请实施例中,在构建了样本数据之间的图结构数据后,采用图神经网络(Graph Neural Networks,GNN)对图结构数据进行特征提取。具体地,可以将图结构数据输入至图神经网络中,得到图神经网络输出的多个样本节点向量。
其中,图神经网络技术属于人工智能技术领域。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大信息处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
其中,在本申请实施例中,图神经网络可以使用商户节点的特征和商户节点在图结构数据中的位置关系进行图卷积计算,从而输出商户节点对应的商户节点向量。图卷积计算时将卷积运算从传统数据推广到图数据,其核心思想时学习一个函数映射,通过该映射使得图中的节点可以聚合它自身的特征与它的邻居特征来生成节点新的表示。即将商户之间的图结构数据输入至图神经网络中后,每个商户节点均会根据一个预设的映射关系将它自身的特征与它的邻居商户节点的特征进行处理,得到该商户节点的新表示,即该商户节点的商户节点向量。
在一些实施例中,将图结构数据输入图神经网络,得到输出的多个样本节点向量,包括:
1、获取图结构数据的图结构类型信息;
2、确定每一图结构类型信息对应的目标图嵌入方法;
3、基于目标图嵌入方法对相应图结构类型信息的图结构数据进行处理,得到图结构数据中每个样本节点对应的样本节点向量。
其中,在本申请实施例中,还可以使用图嵌入(Graph Embedding,GE)方法对图结构数据进行处理,得到每个样本节点对应的样本节点向量。图嵌入旨在通过保留图的网络拓扑结构和节点内容信息,将图中顶点表示为低维向量,以便使用简单的机器学习算法(例如,支持向量机分类)进行处理。许多图嵌入算法通常是无监督的算法,它们可以大致可以划分为三个类别,即矩阵分解、随机游走和深度学习方法。同时图嵌入的深度学习方法也属于图神经网络,包括基于图自动编码器的算法,如结构深度网络嵌入(Structral DeepNetwork Embedding,SDNE),和无监督训练的图卷积神经网络(如GraphSage)。
图嵌入是将属性图按照一定的函数关系映射到向量空间中,从而转换为一个或一组向量。嵌入应该捕获图的拓扑结构、顶点到顶点的关系以及关于图、子图和顶点的其他相关信息。采用图嵌入方法编码图关系,还可以分为顶点嵌入方法和图嵌入方法。顶点嵌入方法采用每个顶点的向量表示对图关系进行编码。在本申请实施例中,即使用每个商户节点的向量表示对商户之间的图结构数据进行编码。当需要在顶点层次上执行可视化或预测时,便会使用这种嵌入方法,例如本申请例举的商户分类场景中便可以使用顶点嵌入方法。图嵌入方法采用一个向量表示整个图,当需要在图的层次上做出预测时,以及当我们想要比较或可视化整个图时,例如比较化学结构时,就会用到图嵌入方法。
其中,本申请实施例中构建的图结构数据中每个样本节点可以为相同类型的样本节点,也可以为不同类型的样本节点。在例举的商户分类场景中,商户之间的图结构数据中的商户节点为同种类型的样本节点,那么这种图结构数据的图结构类型信息便为同构图。在一些情况下,构建的图结构数据中每个样本节点也可以为不同类型的样本节点。例如在商户交易网络中,即粗才能在商户节点和用户节点这两种类型的样本节点;在用户兴趣网络中,还可以存在用户节点、文章节点、作者节点以及公众号节点等多种样本节点。此类图结构数据的图结构类型信息便为异构图。
对于不同图结构类型信息的图结构数据,可以采用不同的图嵌入方法进行编码,以获取更优的编码效果。例如,当图结构类型信息为异构图时,可以采用Metapath2Vec图嵌入算法,所述Metapath2Vec图嵌入算法用于进行编码得到不同商户节点对应的商户节点向量。当图结构类型信息为同构图时,可以采用Deepwalk、Node2vec、Line或者GraphSage等图嵌入算法进行编码得到不同节点对应的商户节点向量。
在一些情况下,当不需要使用到异构图中的某些顶点的特征进行模型训练时,也可以将异构图通过一定的逻辑转化转变成同构图,然后再使用同构图对应的图嵌入方法对图结构数据进行编码。例如在商户分类场景中,可以通过在有相同付款用户的商户之间建立边连接,从而将商户-用户异构图转化为商户-商户同构图进行处理。
本申请实施例中采用图嵌入方法编码图关系,即采用图嵌入方法对图结构数据进行处理,相对于采用统计特征编码图关系具有明显优势。虽然采用统计特征编码图关系,一方面业务逻辑清晰、可解释性较强,另一方面在简单业务逻辑下更容易实现分布式计算。然而其只能简单计算一些先验特征,对于一些复杂的网络关联难以刻画,此外统计特征需要从场景的痛点出发进行统计,当场景痛点确定不准确时会容易导致遗漏特征。而采用图嵌入方法编码图关系,对复杂的网络关联也可以准确刻画,且无需人工思考图关系的刻画逻辑,效率更高也不会导致遗漏特征。
步骤104,获取每一商户信息在预设场景下的标签信息。
其中,在采用图神经网络从图结构数据中提取出多个样本节点向量后,需要使用这些样本节点向量以及样本节点向量对应的标签信息对模型进行训练。因此,需要获取每一样本节点向量对应的标签信息。在本申请实施例中,可以是获取每一商户节点向量对应的标签信息,亦即每一商户数据对应的标签信息。而由于在构建商户之间的图结构数据时采用了大量的商户的统计特征以及商户之间的关联度关系。因此采用图神经网络提取出的商户节点向量也是可以适用于多个场景进行模型训练的,然而在不同的场景下商户节点向量对应的标签信息并不一定相同。例如,在将商户分类为超市和房地产商户的场景中和在区分商户是否为诚信商户的场景中,同一商户对应的标签信息并不一定相同。其中,标签信息可以为0和1,具体地,例如在将商户分类为超市和房地产商户的场景中,0代表超市,1代表房地产商户;在区分商户是否为诚信商户的场景中,0代表非诚信商户,1代表诚信商户。
因此,在获取每一样本节点向量对应的标签信息之前,需要先对场景进行确定。然后再获取与场景对应的标签信息,即获取每一样本数据在预设场景下的标签信息。在商户分类场景中,还要具体确定下一级场景,此处可以确定该下一级场景为预设场景。如此便要获取每一商户信息在预设场景下对应的标签信息,得到了每一商户节点向量在预设场景下对应的标签信息。
步骤105,采用多个商户节点向量以及每一商户节点向量对应的标签信息训练分类模型,得到训练后的分类模型。
其中,在获取到预设场景下每一样本节点向量对应的标签信息后,便可以采用样本节点向量作为输入,样本节点向量对应的标签信息作为输出,进行网络模型的训练。具体地,在商户分类场景中,可以将商户节点向量作为输入,商户节点向量对应的标签信息作为输出,训练分类模型,得到训练后的分类模型。
然后,便可以使用该训练完成的分类模型对商户进行分类,其中,该分类模型适用于预设场景下的商户分类。例如,当商户节点向量对应的标签信息是在判断商户是否为诚信商户的场景中进行获取时,训练得到的分类模型即适用于对判断商户是否为诚信商户的场景中。当输入一个商户信息至该训练后的分类模型中时,便可以输出该商户为诚信商户或者非诚信商户。
如此,本申请提供的模型训练方法,仅需获取到不同场景下样本数据对应的标签信息,即可得到不同场景下对样本数据进行处理的模型。无需针对不同的场景去确定并统计样本数据对应的统计特征,极大地提高了模型训练的效率。而且,本申请提供的模型训练方法,还考虑了样本数据之间的关联关系,使得模型训练的效果更好,训练得到的模型进行数据处理时的准确性更高。
在一些实施例中,本申请中训练的分类模型可以为多层感知机(MultilayerPerceptron,MLP)。其中由于无论是图神经网络对图结构数据进行处理,还是采用图嵌入方法对图结构数据进行处理,其输出的都是样本节点向量。而多层感知机对稠密向量具有良好的处理性能,因此利用样本节点向量与样本节点向量对应的标签信息训练多层感知机,可以进一步提高模型训练效率。
在一些实施例中,本申请实施例提供的模型训练方法还可以包括:
1、获取每一样本数据的统计特征数据;
2、采用每一样本数据的统计特征数据以及每一样本数据在预设场景下的标签信息训练第二预设模型,得到训练后的第二预设模型;
3、基于训练后的第一预设模型的输出与训练后的第二预设模型的输出训练预设分类模型,得到训练后的预设分类模型。
其中,样本的统计特征数据,或者成为样本的统计特征,是指主体的某些具体特征信息,一般用在业务场景中进行机器学习建模并预测目标。具体地,例如在商户分类的场景中,需要区分商户为超市还是房地产商户,可以统计用户与商户交易的频次。频次统计可以按天为时间单位,也可以按月或者年为时间单位。然后,可以确定用户与商户交易的频次大于预设频次的商户为超市,反之用户与商户交易的频次小于预设频次的商户便为房地产商户。那么在此场景下,用户与商户交易的频次便为每一商户的统计特征。根据该统计特征可以建立商户分类模型并训练,然后可以根据训练后的模型对每个商户进行具体分类。或者,在反欺诈的场景中,由于欺诈者往往会使用同一部设备注册多个不同的账号来与受害者联系。如此,便可以统计出每一部设备关联的账号的数量,当某一设备关联的账号的数量大于预设数量时,便可以判定该设备为欺诈者的设备。在该场景下,每一部设备关联的账号的数量便为该设备对应的统计特征。可以基于该统计特征建立设备分类模型并训练,然后可以根据训练后的模型对每个设备进行具体分类。又或者,在对用户的信贷心智轻重进行评估的场景下,可以获取用户阅读的信贷类文章的数量,并据此作为统计特征进行建模及训练。
其中,如前所述,采用样本数据的统计特征数据编码图关系具有业务逻辑清晰、可解释性强以及在简单业务逻辑下更容易实现分布式计算的优势。因此本申请发明人提出一种训练双塔模型的模型训练方法,可以进一步提高训练得到的模型的数据处理的准确性。
具体地,可以获取每一样本数据的统计特征数据,然后采用样本数据的统计特征数据以及样本数据在预设场景下的标签信息进行模型训练。此处可以确定采用前述样本节点向量训练的模型为第一模型,以及确定此处再用统计特征数据训练的模型为第二模型。一般情况下,采用统计特征进行模型训练,所训练的模型往往是梯度提升决策树(Xgboost)模型。然而Xgboost模型的输出与人工神经网络模型的输出难以融合。因此,为使得第二模型的输出能够与第一模型的输出进行融合,本申请采用统计特征数据进行训练的模型也是人工神经网络模型,具体地可以是多层感知机。
在完成对第一模型和第二模型的训练后,进一步可以基于训练后的第一模型的输出与训练后的第二模型的输出训练一个分类模型,该分类模型可以为逻辑回归模型。具体地,对于任一目标商户,可以采用训练后的第一模型对商户节点向量进行特征提取,得到降维后的第一特征向量;再使用训练后的第二模型对该商户的统计数据进行特征提取,得到第二特征向量。再将该第一特征向量与第二特征向量进行融合,得到融合向量。最后采用每一商户的融合向量与该商户在预设场景下的标签信息训练一个逻辑回归模型,得到训练后的分类模型。
根据上述描述可知,本申请实施例提供的模型训练方法,通过获取训练样本集合,训练样本集合包括样本数据以及样本数据之间的关联度关系;根据样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构数据,图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;将图结构数据输入图神经网络,得到输出的多个样本节点向量;获取每一样本节点向量在预设场景下的标签信息;采用多个样本节点向量以及每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。以此,通过根据样本数据之间的关联度关系生成图结构数据,再从图结构数据中提取出每个样本的特征向量进行模型训练,该方法利用样本之间的关联度关系进行增强训练,改善了模型训练效果,提升了模型处理的准确性。
相应地,本申请实施例将从计算机设备的角度进一步对本申请提供的模型训练方法进行详细的描述,其中计算机设备可以为终端也可以为服务器。如图3所示,为本申请提供的模型训练方法的另一流程示意图,该方法包括:
步骤201,计算机设备获取商户关系图。
其中,在本申请实施例中,计算机设备可以直接获取商户关系图,商户关系图中,每个节点代表了一个商户,每个商户节点还包含了商户的商户信息以及与商户相关的统计特征信息,节点之间的连边代表了商户之间的关联关系。
在一些实施例中,计算机设备也可以获取训练样本数据,训练样本数据中包含了多个商户的商户信息以及商户之间的关联关系。然后,可以将每个商户作为一个节点,生成多个商户节点。然后根据商户之间的关联关系确定商户节点之间的连接关系。具体地,可以将关联关系满足预设条件的商户节点之间建立边连接,从而得到商户关系图。
步骤202,计算机设备采用图嵌入方法对商户关系图进行编码,得到每个商户对应的商户节点向量。
其中,采用图嵌入方法对商户关系图进行编码,可以分为两大类:有监督算法和无监督算法。其中,有监督算法为使用顶点标签信息进行编码,有监督算法的代表为GraphSage,其流程是在图的每一个顶点上聚合邻居顶点的特征信息,生成该顶点的嵌入式表达,即得到每个顶点的向量。然后再基于每个顶点的向量训练分类器,优化顶点的分类效果。有监督算法能够更好地结合目标场景进行学习,训练下游场景需要的向量表达。
无监督算法使用图关系信息进行编码,无监督算法的代表为DeepWalk、Node2Vec以及Line,其基本假设是在图结构中邻近的顶点具备相似性,因此,通过随机游走生成顶点序列后,基于Word2Vec的思想,生成顶点的嵌入式表达。无监督算法能够较好地捕获局部结构的上下文信息,刻画邻近顶点的相似性。
在本申请实施例中,可以采用有监督算法GraphSage提取每个商户对应的商户节点向量,实现对商户关系图的编码。
步骤203,计算机设备获取预设场景下每一商户节点向量对应的标签信息。
其中,可以根据用户的需要确定模型的使用场景。然后根据模型的使用场景从商户关系图或者获取的样本训练集合中确定与使用场景相对应的标签信息。该标签信息与每个商户的商户信息一一对应,也与步骤202中确定的商户节点向量一一对应。于是便确定了每一商户节点向量在预设场景下的标签信息。该标签信息可以为0或1,例如在对商户进行诚信商户分类的场景中,当商户为诚信商户时,该商户对应的标签信息为1;当商户为非诚信商户时,该商户对应的标签信息为0。
步骤204,计算机设备采用每个商户对应的商户节点向量以及每一商户节点向量对应的标签信息训练第一多层感知机,得到训练后的第一多层感知机。
其中,在确定了每个商户对应的商户节点向量以及每一商户节点向量对应的标签信息后。采用每个商户对应的商户节点向量作为输入,采用每个商户节点向量对应的标签信息作为输出训练第一多层感知机,得到训练后的第一多层感知机。
在对商户进行分类时,可以采用前述图嵌入方法生成目标商户对应的目标商户节点向量,然后将目标商户节点向量输入至训练后的第一多层感知机,便可以得到训练后的第一多层感知机输出的对目标向量的分类结果。
步骤205,计算机设备获取每一商户的统计特征。
其中,商户的统计特征是针对上述预设场景进行统计的特征,例如,在上述判断商户是否为诚信商户的场景中,可以将用户对商户的不诚信行为的投诉次数作为商户的统计特征。可以根据每个商户对应的不诚信行为的投诉次数确定商户为诚信商户还是非诚信商户。
步骤206,计算机设备采用每个商户的统计特征以及每一商户对应的标签信息训练第二多层感知机,得到训练后的第二多层感知机。
其中,在获取到每一商户的统计特征之后,将每一商户在预设场景下的统计特征作为输入,将每一商户对应的标签作为输出训练第二多层感知机,得到训练后的第二多层感知机。由于第二多层感知机仅采用商户的统计特征进行训练,而没有使用到商户之间的关联关系,因此训练后的第二多层感知机的分类效果要稍逊于训练后的第一多层感知机。
步骤207,计算机设备获取每一商户对应的商户节点向量经训练后的第一多层感知机处理得到的第一特征向量,以及获取每一商户对应的统计特征经训练后的第二多层感知机处理得到的第二特征向量。
其中,采用训练后的多层感知机对特征进行分类,其具体过程是先对特征进行降维处理,得到一个新的特征向量,再对得到的新的特征向量进行分类,得到分类结果。
在本申请实施例中,在得到训练后的第一多层感知机和训练后的第二多层感知机后,可以仅利用训练后的第一多层感知机和训练后的第二多层感知机分别对商户的图特征(即商户节点向量)和统计特征进行降维处理,得到商户的图特征对应的第一特征向量以及商户的统计特征对应的第二特征向量。
步骤208,计算机设备将第一特征向量与第二特征向量进行融合,得到每一商户对应的融合向量。
其中,在本申请实施例中,在获取到每一商户对应的第一特征向量与第二特征向量后,将每一商户对应的第一特征向量与第二特征向量进行融合,得到每一商户对应的融合向量。具体地,此处将第一特征向量与第二特征向量进行融合,可以是将第一特征向量与第二特征向量进行拼接,得到每一商户对应的融合向量。
步骤209,计算机设备根据每一商户对应的融合向量与每一商户对应的标签数据训练逻辑回归模型,得到训练后的逻辑回归模型。
其中,计算机设备在确定了每一商户对应的融合向量后,将每一商户对应的融合向量作为输入,将每一商户对应的标签信息作为输出,再次训练逻辑回归模型。得到训练后的逻辑回归模型。由于逻辑回归模型的输入为第一多层感知机和第二多层感知机输出的特征向量的融合向量,其兼具了第一多层感知机与第二多层感知机的特征提取优势,使得训练得到的模型的分类效果更好。进一步提升了训练得到的模型进行的分类的准确性。即本申请提供了一种双塔模型,分别对商户的图特征与统计特征进行特征提取,并将提取出的特征向量进行融合后进行训练,得到了分类效果更优的分类模型。
如图4所示,为本申请提供的双塔模型的结构示意图。具体地,无论是在模型训练阶段还是在模型使用阶段,都可以先使用第一多层感知机B对商户对应的图特征A进行特征提取,得到第一特征向量C;然后使用第二多层感知机E对商户对应的统计特征D进行提取,得到第二特征向量F。再将第一特征向量C和第二特征向量F进行融合,得到融合向量G。在模型训练阶段,可以使用融合向量G和对应的标签信息即分类结果I对逻辑回归模型H进行训练。在模型使用阶段,可以将融合向量G输入之逻辑回归模型H中,得到分类结果I。
具体地,如表1所示,为在具体使用场景中采用不同的图嵌入方法进行特征提取并建模的得到的模型的洛伦兹曲线((Kolmogorov-Smirnov,KS)值与曲线下面积(Area UnderCurve,AUC)值的统计表,其中KS值反映的是模型对正负样本的区分度,通常而言,值越大,模型区分正负样本的能力越强。AUC值反映的是正样本的预测结果大于负样本预测结果的概率,AUC值越大,模型的分类效果越好,当AUC值达到1时,说明对应的模型为完美分类器。从表1中可以看出,无论是本申请提供的模型训练方法得到的第一多层感知机(对应基于商户的图特征进行建模)还是逻辑回归模型(对应基于商户的图特征与统计特征进行联合建模),其分类效果都有较大的提升。而且,从表1可知,联合建模得到的逻辑回归模型的分类效果更好。而且对于同一模型,使用不同图嵌入方法提取图特征,其对应的模型的训练效果也不同。采用有监督算法进行图特征提取并进行模型训练得到的模型的分类效果更好。
Figure BDA0003037917080000191
表1
根据上述描述可知,本申请实施例提供的模型训练方法,通过获取训练样本集合,训练样本集合包括样本数据以及样本数据之间的关联度关系;根据样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构数据,图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;将图结构数据输入图神经网络,得到输出的多个样本节点向量;获取每一样本节点向量在预设场景下的标签信息;采用多个样本节点向量以及每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。以此,通过根据样本数据之间的关联度关系生成图结构数据,再从图结构数据中提取出每个样本的特征向量进行模型训练,该方法利用样本之间的关联度关系进行增强训练,改善了模型训练效果,提升了模型处理的准确性。
本申请实施例将从商户分类装置的角度进行描述,该商户分类置可以集成在计算机设备中。其中,计算机设备可以是终端或服务器。如图5所示,为本申请提供的商户分类方法的流程示意图,该方法包括:
步骤301,获取商户数据集合。
其中,商户数据集合中可以包括一个商户数据,也可以包括多个商户数据。当商户数据集合中仅包含一个商户数据时,商户数据包含了商户的商户信息。当商户数据集合中包含多个商户数据时,每个商户数据都包含了该商户的商户信息,此外商户数据还包括商户数据集合中商户之间的关联度关系。
步骤302,根据多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据。
其中,当商户数据集合中包含多个商户数据时,根据商户数据中包含的商户信息以及商户之间的关联度关系构建商户之间的图机构数据。具体地,可以将每一商户作为图结构数据的一个节点,生成多个商户节点,然后再根据商户之间的关联度关系对多个商户节点进行边连接,进而得到商户之间的图结构数据。
步骤303,将图结构数据输入图神经网络,得到输出的多个商户节点向量。
其中,在构建得到商户之间的图结构数据后,将图结构数据输入图神经网络,得到图神经网络进行卷积处理后得到的每个商户节点对应的商户节点向量。
在一些实施例中,也可以采用图嵌入方法对图结构数据进行嵌入处理,得到每个商户节点对应的商户节点向量。
步骤304,将所述多个商户节点向量输入预设的第一模型,以在预设场景下对商户进行分类。
其中,在得到每个商户对应的商户节点向量后,将每个商户对应的商户节点向量输入至预设的第一模型进行分类,得到商户分类的分类结果。当商户数据集合中仅有一个商户数据时,也可以采用图嵌入方法生成该商户对应的商户节点向量,再将该商户节点向量输入至预设的第一模型中,得到分类结果。其中此处预设的第一模型为图2实施例中训练后的分类模型,其中可以理解的是,商户当前分类场景与图2实施例中训练分类模型的场景相同。
在一些实施例中,本申请提供的商户分类方法还包括:
1、获取每一商户的统计特征数据;
2、通过预设的第一模型对每一商户对应的商户节点向量进行处理,得到每一商户对应的第一特征向量;
3、通过预设的第二模型对每一商户的统计特征数据进行特征提取,得到每一商户对应的第二特征向量;
4、将每一商户的第一特征向量与第二特征向量进行融合,得到每一商户的融合向量;
5、将每一商户的融合向量输入至预设的第三模型,以对商户进行分类。
在本申请实施例中,预设的第一模型为图3实施例中的第一多层感知机,预设的第二模型为图3实施例中的第二多层感知机,预设的第三模型为图3实施例中的逻辑回归模型。在获取到商户数据集合后,根据商户数据集合确定每一商户的统计特征和商户的图特征,商户的图特征即商户的商户节点向量。然后采用预设的第一模型对商户的图特征进行特征提取,得到商户的第一特征向量,采用预设的第二模型对商户的统计特征进行特征提取,得到商户的第二特征向量。将商户的第一特征向量与商户的第二特征向量进行融合,得到商户的融合向量。最后再将商户的融合向量输入至预设的第三模型进行分类,得到分类结果。
根据上述描述可知,本申请实施例提供的商户分类方法,通过获取商户数据集合,商户数据集合包含多个商户的商户信息以及商户之间的关联度关系;根据多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据;将图结构数据输入图神经网络,得到输出的多个商户节点向量;将多个商户节点向量输入预设的第一模型,以在预设场景下对多个商户进行分类,预设的模型为图2实施例中训练后的分类模型。由于图2实施例中训练后的分类模型是基于商户的图特征进行训练得到的模型,该模型利用了商户之间的关联度关系进行训练,分类结果更为准确,因此通过图神经网络提取商户的图特征,再输入至训练过的分类模型进行分类,可以提高商户分类的分类结果的准确性。
为了更好地实施以上方法,本发明实施例还提供一种模型训练装置,该模型训练装置可以集成在终端或服务器中。
例如,如图6所示,为本申请实施例提供的模型训练装置的结构示意图,该模型训练装置可以包括第一获取单元401、第一构建单元402、第一输入单元403、第二获取单元404以及第一训练单元405,如下:
第一获取单元401,获取训练样本集合,训练样本集合包括样本数据以及样本数据之间的关联度关系;
第一构建单元402,用于根据样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构数据,图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;
第一输入单元403,用于将图结构数据输入图神经网络,得到输出的多个样本节点向量;
第二获取单元404,用于获取每一样本数据在预设场景下的标签信息;
第一训练单元405,用于采用多个样本节点向量以及每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。
在一些实施例中,本申请提供的模型训练装置还包括:
第三获取单元,用于获取每一样本数据的统计特征数据;
第二训练单元,用于采用每一样本数据的统计特征数据以及每一样本数据在预设场景下的标签信息训练第二预设模型,得到训练后的第二预设模型;
第三训练单元,用于基于训练后的第一预设模型的输出与训练后的第二预设模型的输出训练预设分类模型,得到训练后的预设分类模型。
在一些实施例中,第三训练单元,包括:
第一提取子单元,用于通过训练后的第一预设模型对每一样本数据进行特征提取,得到第一特征向量;
第二提取子单元,用于通过训练后的第二预设模型对每一样本数据进行特征提取,得到第二特征向量;
融合子单元,用于将第一特征向量与第二特征向量按照样本数据维度进行对应融合,得到每一样本数据对应的融合向量;
训练子单元,用于采用每一样本数据对应的融合向量以及每一样本数据在预设场景下的标签信息训练预设的分类模型,得到训练后的分类模型。
在一些实施例中,构建单元,包括:
生成子单元,用于将样本数据集合中的样本数据作为节点,生成多个样本节点;
连接子单元,用于将关联度关系满足预设条件的样本节点之间进行边连接,得到样本数据之间的图结构数据。
在一些实施例中,连接子单元,包括:
计算模块,用于计算每一样本节点之间的空间距离信息;
连接模块,用于将空间距离信息小于预设阈值的样本节点之间进行边连接。
在一些实施例中,输入单元,包括:
获取子单元,用于获取图结构数据的图结构类型信息;
确定子单元,用于确定每一图结构类型信息对应的目标图嵌入方法;
处理子单元,用于基于目标图嵌入方法对相应图结构类型信息的图结构数据进行处理,得到图结构数据中每个样本节点对应的样本节点向量。
在一些实施例中,第一训练单元,还用于:
采用多个样本节点向量以及每一样本节点向量对应的标签信息训练预设多层感知机,得到训练后的预设多层感知机。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由以上可知,本实施例提供的模型训练装置,第一获取单元401通过获取训练样本集合,训练样本集合包括样本数据以及样本数据之间的关联度关系;第一构建单元402根据样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构数据,图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;第一输入单元403将图结构数据输入图神经网络,得到输出的多个样本节点向量;第二获取单元404获取每一样本节点向量在预设场景下的标签信息;第一训练单元405采用多个样本节点向量以及每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。以此,通过根据样本数据之间的关联度关系生成图结构数据,再从图结构数据中提取出每个样本的特征向量进行模型训练,该方法利用样本之间的关联度关系进行增强训练,改善了模型训练效果,提升了模型处理的准确性。
为了更好地实施以上方法,本发明实施例还提供一种商户分类装置,该商户分类装置可以集成在终端或服务器中。
例如,如图7所示,为本申请实施例提供的商户分类装置的结构示意图,该商户分类装置可以包括第四获取单元501、第二构建单元502、第二输入单元503、以及第一分类单元504,如下:
第四获取单元501,用于获取商户数据集合,商户数据集合包含多个商户的商户信息以及商户之间的关联度关系;
第二构建单元502,用于根据多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据;
第二输入单元503,用于将图结构数据输入图神经网络,得到输出的多个商户节点向量;
第一分类单元504,用于将多个商户节点向量输入预设的第一模型,以在预设场景下对多个商户进行分类,预设的模型为图2实施例中提供的训练后的分类模型。
在一些实施例中,本申请提供的商户分类装置还包括:
第二获取单元,用于获取每一商户的统计特征数据;
处理单元,用于通过预设的第一模型对每一商户对应的商户节点向量进行处理,得到每一商户对应的第一特征向量,预设的第一模型为图3实施例中提供的训练后的第一多层感知机;
提取单元,用于通过预设的第二模型对每一商户的统计特征数据进行特征提取,得到每一商户对应的第二特征向量,预设的第二模型为图3实施例中提供的训练后的第二多层感知机;
融合单元,用于将每一商户的第一特征向量与第二特征向量进行融合,得到每一商户的融合向量;
第二分类单元,用于将每一商户的融合向量输入至预设的第三模型,以对商户进行分类,预设的第三模型为图3实施例中提供的训练后的逻辑回归模型。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
根据上述描述可知,本申请实施例提供的商户分类方法,通过第四获取单元501获取商户数据集合,商户数据集合包含多个商户的商户信息以及商户之间的关联度关系;第二构建单元502根据多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据;第二输入单元503将图结构数据输入图神经网络,得到输出的多个商户节点向量;第一分类单元504将多个商户节点向量输入预设的第一模型,以在预设场景下对多个商户进行分类,预设的模型为图2实施例中训练后的分类模型。由于图2实施例中训练后的分类模型是基于商户的图特征进行训练得到的模型,该模型利用了商户之间的关联度关系进行训练,分类结果更为准确,因此通过图神经网络提取商户的图特征,再输入至训练过的分类模型进行分类,可以提高商户分类的分类结果的准确性。
本申请实施例还提供一种计算机设备,该计算机设备可以为终端也可以为服务器,如图8所示,为本申请提供的计算机设备的结构示意图。具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器601、一个或一个以上存储介质的存储器602、电源603和输入单元604等部件。本领域技术人员可以理解,图8中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器601是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器601可包括一个或多个处理核心;优选的,处理器601可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器601中。
存储器602可用于存储软件程序以及模块,处理器601通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及模型训练。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能以及网页访问等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器601对存储器602的访问。
计算机设备还包括给各个部件供电的电源603,优选的,电源603可以通过电源管理系统与处理器601逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源603还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元604,该输入单元604可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器601会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器601来运行存储在存储器602中的应用程序,从而实现各种功能,如下:
获取训练样本集合,训练样本集合包括样本数据以及样本数据之间的关联度关系;根据样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构数据,图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;将图结构数据输入图神经网络,得到输出的多个样本节点向量;获取每一样本节点向量在预设场景下的标签信息;采用多个样本节点向量以及每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。
或者,获取商户数据集合,商户数据集合包含多个商户的商户信息以及商户之间的关联度关系;根据多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据;将图结构数据输入图神经网络,得到输出的多个商户节点向量;将多个商户节点向量输入预设的第一模型,以在预设场景下对多个商户进行分类,预设的模型为图2实施例中训练后的分类模型。
应当说明的是,本申请实施例提供的计算机设备与上文实施例中的方法属于同一构思,以上各个操作的具体实施可参见前面的实施例,在此不作赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的任一种方法中的步骤。例如,该指令可以执行如下步骤:
获取训练样本集合,训练样本集合包括样本数据以及样本数据之间的关联度关系;根据样本数据以及样本数据之间的关联度关系构建样本数据之间的图结构数据,图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;将图结构数据输入图神经网络,得到输出的多个样本节点向量;获取每一样本节点向量在预设场景下的标签信息;采用多个样本节点向量以及每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。
或者,获取商户数据集合,商户数据集合包含多个商户的商户信息以及商户之间的关联度关系;根据多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据;将图结构数据输入图神经网络,得到输出的多个商户节点向量;将多个商户节点向量输入预设的第一模型,以在预设场景下对多个商户进行分类,预设的模型为图2实施例中训练后的分类模型。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本发明实施例所提供的任一种方法中的步骤,因此,可以实现本发明实施例所提供的任一种方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
其中,根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在存储介质中。计算机设备的处理器从存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图2、图3或图5的各种可选实现方式中提供的方法。
以上对本发明实施例所提供的一种模型训练方法、商户分类方法及装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。

Claims (15)

1.一种模型训练方法,其特征在于,所述方法包括:
获取训练样本集合,所述训练样本集合包括样本数据以及样本数据之间的关联度关系;
根据所述样本数据以及样本数据之间的关联度关系构建所述样本数据之间的图结构数据,所述图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;
将所述图结构数据输入图神经网络,得到输出的多个样本节点向量;
获取每一样本数据在预设场景下的标签信息;
采用所述多个样本节点向量以及所述每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取每一样本数据的统计特征数据;
采用所述每一样本数据的统计特征数据以及每一样本数据在所述预设场景下的标签信息训练第二预设模型,得到训练后的第二预设模型;
基于所述训练后的第一预设模型的输出与所述训练后的第二预设模型的输出训练预设分类模型,得到训练后的预设分类模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述训练后的第一预设模型的输出与所述训练后的第二预设模型的输出训练预设分类模型,得到训练后的预设分类模型,包括:
通过所述训练后的第一预设模型对每一样本数据进行特征提取,得到第一特征向量;
通过所述训练后的第二预设模型对每一样本数据进行特征提取,得到第二特征向量;
将所述第一特征向量与所述第二特征向量按照样本数据维度进行对应融合,得到所述每一样本数据对应的融合向量;
采用所述每一样本数据对应的融合向量以及所述每一样本数据在预设场景下的标签信息训练预设的分类模型,得到训练后的分类模型。
4.根据权利要求1所述的方法,其特征在于,所述根据所述样本数据以及样本数据之间的关联度关系构建所述样本数据之间的图结构数据,包括:
将所述样本数据集合中的样本数据作为节点,生成多个样本节点;
将关联度关系满足预设条件的样本节点之间进行边连接,得到样本数据之间的图结构数据。
5.根据权利要求4所述的方法,其特征在于,所述将关联度关系满足预设条件的样本节点之间进行边连接,包括:
计算每一样本节点之间的空间距离信息;
将所述空间距离信息小于预设阈值的样本节点之间进行边连接。
6.根据权利要求1所述的方法,其特征在于,所述将所述图结构数据输入图神经网络,得到输出的多个样本节点向量,包括:
获取所述图结构数据的图结构类型信息;
确定每一图结构类型信息对应的目标图嵌入方法;
基于所述目标图嵌入方法对相应图结构类型信息的图结构数据进行处理,得到所述图结构数据中每个样本节点对应的样本节点向量。
7.根据权利要求1所述的方法,其特征在于,所述采用所述多个样本节点向量以及所述每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型,包括:
采用所述多个样本节点向量以及所述每一样本节点向量对应的标签信息训练预设多层感知机,得到训练后的预设多层感知机。
8.一种商户分类方法,其特征在于,所述方法包括:
获取商户数据集合,所述商户数据集合包含多个商户的商户信息以及商户之间的关联度关系;
根据所述多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据;
将所述图结构数据输入图神经网络,得到输出的多个商户节点向量;
将所述多个商户节点向量输入预设的第一模型,以在预设场景下对所述多个商户进行分类,所述预设的模型为权利要求1至7中任意一项所述的训练后的第一预设模型。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取每一商户的统计特征数据;
通过所述预设的第一模型对每一商户对应的商户节点向量进行处理,得到每一商户对应的第一特征向量;
通过预设的第二模型对所述每一商户的统计特征数据进行特征提取,得到每一商户对应的第二特征向量,所述预设的第二模型为权利要求3所述的训练后的第二预设模型;
将每一商户的第一特征向量与第二特征向量进行融合,得到每一商户的融合向量;
将所述每一商户的融合向量输入至预设的第三模型,以对商户进行分类,所述预设的第三模型为权利要求3所述的训练后的分类模型。
10.一种模型训练装置,其特征在于,所述装置包括:
第一获取单元,获取训练样本集合,所述训练样本集合包括样本数据以及样本数据之间的关联度关系;
第一构建单元,用于根据所述样本数据以及样本数据之间的关联度关系构建所述样本数据之间的图结构数据,所述图结构数据中包括样本数据转化的样本节点和样本节点之间的边关系数据;
第一输入单元,用于将所述图结构数据输入图神经网络,得到输出的多个样本节点向量;
第二获取单元,用于获取每一样本数据在预设场景下的标签信息;
第一训练单元,用于采用所述多个样本节点向量以及所述每一样本节点向量对应的标签信息训练第一预设模型,得到训练后的第一预设模型。
11.根据权利要求10所述的装置,其特征在于,所述装置还包括:
第三获取单元,用于获取每一样本数据的统计特征数据;
第二训练单元,用于采用所述每一样本数据的统计特征数据以及每一样本数据在所述预设场景下的标签信息训练第二预设模型,得到训练后的第二预设模型;
第三训练单元,用于基于所述训练后的第一预设模型的输出与所述训练后的第二预设模型的输出训练预设分类模型,得到训练后的预设分类模型。
12.一种商户分类装置,其特征在于,所述装置包括:
第四获取单元,用于获取商户数据集合,所述商户数据集合包含多个商户的商户信息以及商户之间的关联度关系;
第二构建单元,用于根据所述多个商户的商户信息以及商户之间的关联度关系构建商户之间的图结构数据;
第二输入单元,用于将所述图结构数据输入图神经网络,得到输出的多个商户节点向量;
第一分类单元,用于将所述多个商户节点向量输入预设的第一模型,以在预设场景下对所述多个商户进行分类,所述预设的模型为权利要求1至7中任意一项所述的训练后的第一预设模型。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至7中任一项所述的模型训练方法的步骤或权利要求8至9中任一项所述的商户分类方法的步骤。
14.一种计算机设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的模型训练方法的步骤或权利要求8至9中任一项所述的商户分类方法的步骤。
15.一种计算机程序,其特征在于,所述计算机程序包括计算机指令,所述计算机指令存储在存储介质中,计算机设备的处理器从所述存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行权利要求1至7任一项所述的模型训练方法的步骤或权利要求8至9中任一项所述的商户分类方法的步骤。
CN202110448644.7A 2021-04-25 2021-04-25 模型训练方法、商户分类方法及装置 Pending CN113761250A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110448644.7A CN113761250A (zh) 2021-04-25 2021-04-25 模型训练方法、商户分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110448644.7A CN113761250A (zh) 2021-04-25 2021-04-25 模型训练方法、商户分类方法及装置

Publications (1)

Publication Number Publication Date
CN113761250A true CN113761250A (zh) 2021-12-07

Family

ID=78786932

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110448644.7A Pending CN113761250A (zh) 2021-04-25 2021-04-25 模型训练方法、商户分类方法及装置

Country Status (1)

Country Link
CN (1) CN113761250A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238572A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 基于人工智能的多数据库数据提取方法、装置及电子设备
CN114511058A (zh) * 2022-01-27 2022-05-17 国网江苏省电力有限公司泰州供电分公司 一种用于电力用户画像的负荷元件构建方法及装置
CN114692785A (zh) * 2022-05-26 2022-07-01 中国平安财产保险股份有限公司 行为分类方法、装置、设备及存储介质
CN114723576A (zh) * 2022-03-31 2022-07-08 腾讯科技(深圳)有限公司 数据处理模型的生成方法、数据处理方法及装置
CN114913402A (zh) * 2022-07-18 2022-08-16 深圳比特微电子科技有限公司 一种深度学习模型的融合方法、装置
CN116595978A (zh) * 2023-07-14 2023-08-15 腾讯科技(深圳)有限公司 对象类别识别方法、装置、存储介质及计算机设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114238572A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 基于人工智能的多数据库数据提取方法、装置及电子设备
CN114238572B (zh) * 2021-12-15 2024-04-16 平安科技(深圳)有限公司 基于人工智能的多数据库数据提取方法、装置及电子设备
CN114511058A (zh) * 2022-01-27 2022-05-17 国网江苏省电力有限公司泰州供电分公司 一种用于电力用户画像的负荷元件构建方法及装置
CN114723576A (zh) * 2022-03-31 2022-07-08 腾讯科技(深圳)有限公司 数据处理模型的生成方法、数据处理方法及装置
CN114692785A (zh) * 2022-05-26 2022-07-01 中国平安财产保险股份有限公司 行为分类方法、装置、设备及存储介质
CN114913402A (zh) * 2022-07-18 2022-08-16 深圳比特微电子科技有限公司 一种深度学习模型的融合方法、装置
CN116595978A (zh) * 2023-07-14 2023-08-15 腾讯科技(深圳)有限公司 对象类别识别方法、装置、存储介质及计算机设备
CN116595978B (zh) * 2023-07-14 2023-11-14 腾讯科技(深圳)有限公司 对象类别识别方法、装置、存储介质及计算机设备

Similar Documents

Publication Publication Date Title
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
CN113761250A (zh) 模型训练方法、商户分类方法及装置
CN111324774B (zh) 一种视频去重方法和装置
CN110659723B (zh) 基于人工智能的数据处理方法、装置、介质及电子设备
CN112200266B (zh) 基于图结构数据的网络训练方法、装置以及节点分类方法
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
Sichao et al. Two‐order graph convolutional networks for semi‐supervised classification
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN112069825A (zh) 面向警情笔录数据的实体关系联合抽取方法
Azizi et al. Graph-based generative representation learning of semantically and behaviorally augmented floorplans
CN110111365B (zh) 基于深度学习的训练方法和装置以及目标跟踪方法和装置
Xiang et al. Crowd density estimation method using deep learning for passenger flow detection system in exhibition center
Shi et al. Unpaired referring expression grounding via bidirectional cross-modal matching
Zhang et al. End‐to‐end generation of structural topology for complex architectural layouts with graph neural networks
Wang et al. Bilateral attention network for semantic segmentation
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN116910341A (zh) 标签预测方法、装置及电子设备
CN115620342A (zh) 跨模态行人重识别方法、系统及计算机
CN117034133A (zh) 一种数据处理方法、装置、设备和介质
CN115129930A (zh) 一种视频的信息处理方法、装置、计算机设备和存储介质
CN114119997A (zh) 图像特征提取模型的训练方法、装置、服务器和存储介质
CN114154564A (zh) 基于异质图的关联度确定方法、装置、电子设备及存储介质
CN114298961A (zh) 图像处理方法、装置、设备及存储介质
Yin Albert et al. Identifying and Monitoring Students’ Classroom Learning Behavior Based on Multisource Information
Zhu Research on the evaluation of moral education effectiveness and student behavior in universities under the environment of big data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination