CN110458600A - 画像模型训练方法、装置、计算机设备及存储介质 - Google Patents

画像模型训练方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110458600A
CN110458600A CN201910609454.1A CN201910609454A CN110458600A CN 110458600 A CN110458600 A CN 110458600A CN 201910609454 A CN201910609454 A CN 201910609454A CN 110458600 A CN110458600 A CN 110458600A
Authority
CN
China
Prior art keywords
target
portrait model
service data
history service
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910609454.1A
Other languages
English (en)
Inventor
孙静远
陈林
徐亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910609454.1A priority Critical patent/CN110458600A/zh
Publication of CN110458600A publication Critical patent/CN110458600A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0631Item recommendations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种画像模型训练方法、装置、计算机设备及存储介质,涉及人工智能领域。该画像模型训练方法包括:确定目标画像模型的业务流程,其中,所述业务流程和所述目标画像模型的业务目标相关;根据所述业务目标在数据库中查找预先存储的因子归纳表,基于所述业务流程和所述因子归纳表确定所述目标画像模型的执行逻辑和目标因子;基于所述执行逻辑和所述目标因子搭建因子体系;获取历史业务数据,所述历史业务数据与所述因子体系相关;根据所述历史业务数据进行训练,得到所述目标画像模型。采用该画像模型训练方法得到的目标画像模型能够充分发挥业务价值。

Description

画像模型训练方法、装置、计算机设备及存储介质
【技术领域】
本发明涉及人工智能领域,尤其涉及一种画像模型训练方法、装置、计算机设备及存储介质。
【背景技术】
目前建立的画像模型大多数是脱离业务目标,仅根据业务数据建立,业务价值较低,另外,画像模型的因子体系搭建逻辑并不合理,无法充分、全面地将影响业务价值的因子全部展现出来,不能充分刻画业务价值与因子之间的关系,无法实现充分的业务价值。
【发明内容】
有鉴于此,本发明实施例提供了一种画像模型训练方法、装置、计算机设备及存储介质,用以解决目前建立的画像模型无法充分发挥业务价值的问题。
第一方面,本发明实施例提供了一种画像模型训练方法,包括:
确定目标画像模型的业务流程,其中,所述业务流程和所述目标画像模型的业务目标相关;
根据所述业务目标在数据库中查找预先存储的因子归纳表,基于所述业务流程和所述因子归纳表确定所述目标画像模型的执行逻辑和目标因子;
基于所述执行逻辑和所述目标因子搭建因子体系;
获取历史业务数据,所述历史业务数据与所述因子体系相关;
根据所述历史业务数据进行训练,得到所述目标画像模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述基于所述执行逻辑和所述目标因子搭建因子体系,包括:
获取域外历史数据,根据所述域外历史数据分析所述目标因子与所述目标画像模型的业务目标之间的关联性,得到第一关联性,其中,所述域外历史数据与所述目标因子相关;
根据所述域外历史数据分析所述目标因子相互之间的关联性,得到第二关联性;
根据所述第一关联性和所述第二关联性确定所述目标因子的因子权重;
根据所述目标因子的因子权重、所述执行逻辑和所述目标因子搭建所述因子体系。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述根据所述历史业务数据进行训练,得到所述目标画像模型之前,还包括:
根据所述历史业务数据和所述目标画像模型的业务目标确定训练所述目标画像模型所需的目标模型;
初始化所述目标画像模型所需的目标模型;
所述根据所述历史业务数据进行训练,得到所述目标画像模型,包括:
根据所述历史业务数据,采用所述目标画像模型所需的目标模型进行训练,得到所述目标画像模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述历史业务数据和所述目标画像模型的业务目标确定训练所述目标画像模型所需的目标模型,包括:
确定所述历史业务数据的数据类型,其中,所述数据类型包括结构化数据和非结构化数据;
根据所述目标画像模型的业务目标从问题类型库中确定目标问题类型,其中,所述问题类型库是根据历史业务目标预先建立的;
根据所述历史业务数据的数据类型和所述目标问题类型确定训练所述目标画像模型所需的目标模型。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述历史业务数据进行训练,得到所述目标画像模型,包括:
根据所述历史业务数据进行训练,若训练采用的是有监督的训练方式,则通过训练得到损失值,基于所述损失值对所述目标画像模型所需的目标模型进行迭代更新,得到所述目标画像模型;
若所述训练采用的是无监督学习的训练方式,则基于所述目标画像模型所需的目标模型训练的结果得到所述目标画像模型。
第二方面,本发明实施例提供了一种画像模型训练装置,包括:
业务流程确定模块,用于确定目标画像模型的业务流程,其中,所述业务流程和所述目标画像模型的业务目标相关;
执行逻辑确定模块,用于根据所述业务目标在数据库中查找预先存储的因子归纳表,基于所述业务流程和所述因子归纳表确定所述目标画像模型的执行逻辑和目标因子;
因子体系搭建模块,用于基于所述执行逻辑和所述目标因子搭建因子体系;
历史业务数据获取模块,用于获取历史业务数据,所述历史业务数据与所述因子体系相关;
目标画像模型获取模块,用于根据所述历史业务数据进行训练,得到所述目标画像模型。
第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述画像模型训练方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,包括:计算机程序,所述计算机程序被处理器执行时实现上述画像模型训练方法的步骤。
在本发明实施例中,首先获取与业务目标相关的目标画像模型的业务流程,以业务价值为导向出发,根据业务目标及业务流程考虑画像的建模过程,能够提高目标画像模型的业务价值;接着根据业务目标在数据库中查找预先存储的因子归纳表,基于业务流程和因子归纳表确定目标画像模型的执行逻辑和目标因子,该执行逻辑能够保证目标画像模型的执行逻辑周密且不出现逻辑重复的情况,执行逻辑和目标因子为搭建全面的因子体系提供了重要的技术前提;接着基于执行逻辑和目标因子搭建因子体系,通过执行逻辑能够自底向上全面搭建因子体系,准确描述影响业务价值的因子,提高模型的刻画能力;最后获取历史业务数据,根据历史业务数据进行训练,得到目标画像模型,在保证以业务价值为导向训练模型的前提下,根据历史业务数据进行训练能够提高目标画像模型的可行性,充分发挥目标画像模型的业务价值。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明一实施例中画像模型训练方法的一流程图;
图2是本发明一实施例中画像模型训练装置的一示意图;
图3是本发明一实施例中计算机设备的一示意图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的相同的字段,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。应当理解,尽管在本发明实施例中可能采用术语第一、第二、第三等来描述预设范围等,但这些预设范围不应限于这些术语。这些术语仅用来将预设范围彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一预设范围也可以被称为第二预设范围,类似地,第二预设范围也可以被称为第一预设范围。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
图1示出本实施例中画像模型训练方法的一流程图。该画像模型训练方法可应用在画像模型训练系统上,在进行画像模型训练时可采用该画像模型训练系统实现。该画像模型训练系统具体可应用在计算机设备上,其中,该计算机设备是可与用户进行人机交互的设备,包括但不限于电脑、智能手机和平板等设备。如图1所示,该画像模型训练方法包括如下步骤:
S10:确定目标画像模型的业务流程,其中,业务流程和目标画像模型的业务目标相关。
画像模型是以人工智能画像为基础、用于实现某种业务目标的模型,其中,人工智能画像采用人工智能的方式描绘应用场景,可通过人工智能画像自动智能地解决不同应用场景中出现的问题。
可以理解地,不同的画像模型可以对应有不同的业务目标,如关于保险推荐的画像模型,其业务目标是给用户推荐适合用户、推荐成功率高的保险产品,如关于学生能力评价的画像模型,其业务目标是对学生能力进行分析评价,以根据评价结果实行因材施教,充分发挥学生各自的特点。
可以理解地,实现业务目标需要有对应实现步骤的业务流程,在本实施例中,计算机设备获取用户输入的业务流程,确定目标画像模型的业务流程。该业务流程可采用代码的形式表示,代码中体现的业务逻辑为实现业务目标的业务流程。通过该业务流程能够确定目标业务的整体走向。
其中,需要说明的是,输入的业务流程与历史业务数据也是相关的。在确定业务目标后,也要保证目标画像模型不能够脱离历史业务数据,当历史业务数据能够支撑模型训练的样本条件时,得到的目标画像模型才有准确率的保证。
具体地,如关于保险推荐的画像模型,其业务流程具体可以是获取用户消费信息(用户在一预设时间段内的消费情况)-根据用户消费信息决定是否推荐保险产品-若推荐,根据用户消费信息推荐保险产品,结束保险推荐,或者,若不推荐,结束保险推荐。具体地,如果是对学生能力评价的业务流程,其业务流程所代表的逻辑可以是获取学生信息-根据学生信息得到学生能力的评价结果-根据评价结果输出学生适合发展的方向。可以理解地,业务流程是实现业务目标的实现步骤,本实施例中业务流程具体是指目标画像模型的业务目标所需的业务流程。基于该业务流程能够对目标画像模型以业务价值为导向进行合理分析,从而训练得到具有较高业务价值的目标画像模型。
S20:根据业务目标在数据库中查找预先存储的因子归纳表,基于业务流程和因子归纳表确定目标画像模型的执行逻辑和目标因子。
其中,因子归纳表是预先根据假定的业务目标,将生活经验中可能影响业务目标的影响因素都进行记录的数据表,因子归纳表与业务目标相关。可以理解地,业务目标包括唯一的标识,在确定业务流程后,由于业务流程指向的业务目标是一致的(业务目标可以通过多种业务流程实现),因此可确定业务目标的标识。通过业务目标的标识可以查找预先存储在数据库中的因子归纳表,从该因子归纳表中查找可能使用到的目标因子。
具体地,业务流程将影响目标因子的选择,若在进行保险推送的业务流程中,业务流程中包括根据用户消费信息进行推送的流程,则从因子归纳表中得到的目标因子将与用户消费信息相关,若业务流程不包括根据用户消费信息进行推送的流程,而是包括根据用户身份信息(用户的年龄、性别和资产状况等信息)时,则从因子归纳表中得到的目标因子将与用户身份信息相关。
在一实施例中,在根据业务目标在数据库中查找得到预先存储的因子归纳表后,将基于业务流程和因子归纳表确定目标画像的目标因子,以及相应的执行逻辑,执行逻辑以代码的形式表示。具体地,在因子归纳表中,根据业务流程所确定的目标因子将作为执行逻辑中的参数,如在包括用户消费信息的业务流程中,用户在一年内的消费频次、消费地点、消费总金额、单笔最大消费等消费信息可作为判断用户属于某一预设消费等级的参数;在包括用户身份信息的业务流程中,如用户的年龄、性别和资产状况等信息可判断用户属于某一预设身份/消费等级的参数。
在本实施例中,采用因子归纳表预先将有可能影响业务目标的因素都存储在数据库中,结合业务流程,确定历史业务数据能够体现的目标因子,使得在兼顾业务目标的同时又能围绕历史业务数据进行画像模型的训练,能够提高训练得到的目标画像模型的业务价值。
S30:基于执行逻辑和目标因子搭建因子体系。
在一实施例中,在确定目标因子后,可基于执行逻辑和目标因子搭建相应的因子体系。执行逻辑能够表征目标因子间的前后逻辑关系,目标因子能够表征影响业务目标的因素。通过搭建与业务目标相关的因子体系,有助于提高目标画像模型的业务价值,能够通过目标画像模型输出更加符合业务价值的期望的结果。
进一步地,在步骤S30中,基于执行逻辑和目标因子搭建因子体系,具体包括:
S31:获取域外历史数据,根据域外历史数据分析目标因子与目标画像模型的业务目标之间的关联性,得到第一关联性,其中,域外历史数据与目标因子相关,其中,域外历史数据与目标因子相关。
其中,域外历史数据区别于用户所拥有的业务系统中存储的数据,域外历史数据是指用户没有拥有,但已公开可用的数据。在本实施例中,获取的域外历史数据与目标因子相关,可采用域外历史数据分析目标因子与目标画像模型的业务目标之间的关联性。
可以理解地,不同目标因子影响业务目标的程度可以是不相同的,如关于保险推荐的画像模型,有目标因子分别为第一年龄因子:年龄在20-40岁之间、第二年龄因子:年龄在41-55岁之间和第三年龄因子:年龄在56-65岁之间,该三个目标因子都会影响业务目标,该业务目标为进行保险推荐的推荐结果,并且,该三个目标因子对影响业务目标的程度并不相同。
具体地,将域外历史数据中与年龄相关的目标因子以第一年龄因子、第二年龄因子和第三年龄因子预先进行分类,得到三个不同的样本集,然后分别计算每个样本集对业务目标的影响程度。影响程度可以如下获取:以第一年龄因子为例,遍历统计每个第一年龄因子所在的样本集中,每个样本的保险推荐等级或者保险推荐分数(其中,保险推荐等级或者保险推荐分数将影响保险推送的内容),然后根据所取的保险推荐等级或者保险推荐分数的平均数确定第一年龄因子对业务目标的影响程度,该保险推荐等级或者保险推荐分数将影响程度体现出来。需要说明的是,在进行遍历统计时,需要确保第一年龄因子外的目标因子不变。进一步地,在分析第二年龄因子、第三年龄因子对业务目标的影响程度时,只需改变第一年龄因子即可,然后根据得到的保险推荐等级或者保险推荐分数的平均数得到各目标因子对业务目标的影响程度。
进一步地,可将第一年龄因子、第二年龄因子和第三年龄因子等目标因子对业务目标的影响程度转换为第一关联性,可取第一年龄因子、第二年龄因子和第三年龄因子等目标因子中对业务目标的影响程度最小的目标因子作为基准,如第三年龄因子的影响程度最小,则将第三年龄因子作为权重1,其他的第一年龄因子、第二年龄因子等与年龄相关的目标因子根据影响程度确定相对应的第一关联性。例如,预设保险推荐分数每相差一分代表0.01的权重,若训练样本集中得到的分析结果为第一年龄因子对业务目标的影响程度体现为,保险推荐分数的平均数为80,第二年龄因子对业务目标的影响程度体现为,保险推荐分数的平均数为90,第三年龄因子对业务目标的影响程度体现为,保险推荐分数的平均数为75,可知第三年龄因子对业务目标的影响程度最小,其第一关联性体现为权重1,相应地,根据权重的换算规则,第二年龄因子的第一关联性体现为权重1.05,第三年龄因子的第一关联性体现为权重1.15。
需要说明的是,该大数据分析过程分析的是目标因子与目标画像模型的业务目标之间的关联性,尽管样本集中会出现其他的目标因子,但是在分析与年龄相关的目标因子业务目标的影响程度时,采用影响程度最小的第三年龄因子作为参考的基准权重1,体现的是同种类型的目标因子与业务目标之间的关联性,而不同目标因子之间的相互影响在设置基准权重的过程中被抵消,只单独体现进行分析的目标因子与业务目标之间的关联性。
在一实施例中,考虑到与目标因子相关的历史业务数据的数据量可能不足的情况,可以采用域外历史数据对目标因子与目标画像模型的业务目标之间的关联性进行大数据分析,得到第一关联性。
S32:根据域外历史数据分析目标因子相互之间的关联性,得到第二关联性。
可以理解地,目标因子相互之间可能存在一定的关联性,且该关联性可能是正相关的关联性也可能是负相关的关联性。在一实施例中,具体可以是根据域外历史数据对目标因子相互之间的关联性进行大数据分析,得到第二关联性,该第二关联性具体可采用关联系数表示。
具体地,在分析过程中需要同时分析两个不同类型的目标因子(同样保持其他目标因子不变),如想要分析第一年龄因子和第一资产因子(年收入在0-5w)之间的关联性,则需要统计对应的样本集中,第一年龄因子受第一资产因子的影响,或者说第一资产因子受第一年龄因子的影响。具体地,假设已知第一年龄因子的第一关联性体现为权重为1.05,第一资产因子的第一关联性体现为权重为1,则经过统计在第一资产因子的情况下,得到的平均保险推荐分数的结果为70,根据70对应的权重为0.95,可知第一资产因子对第一年龄因子的第二关联性所体现的影响权重为-0.1,两目标因子属于负相关的关联性。
S33:根据第一关联性和第二关联性确定目标因子的因子权重。
具体地,可以将目标因子的第一关联性作为因子权重的基准数,将第二关联性作为调整因子权重的浮动数,当目标因子具有第二关联性时,将在第一关联性的基础上调整因子权重的基准数,并最终确定目标因子的因子权重。具体地,可以表示为W=W0+∑Wi+∑Wj,其中,W0表示目标因子的因子权重的基准数,Wi表示目标因子与第i个与目标因子呈正相关的关联性的目标因子之间的关联系数,Wj表示目标因子与第j个与目标因子呈负相关的关联性的目标因子之间的关联系数(此时该关联系数为负数)。根据第一关联性和第二关联性确定的目标因子的因子权重可以准确地反映不同的目标因子对业务目标的影响程度,能够有效提高画像模型的业务价值。
S34:根据目标因子的因子权重、执行逻辑和目标因子搭建因子体系。
在一实施例中,每个目标因子都有对应的因子权重,在因子权重的基础上,根据目标因子搭建因子体系,能够有效提高画像模型的业务价值。
在步骤S31-S34中,提供了一种基于执行逻辑和目标因子搭建因子体系的具体实施方式,通过大数据分析得到第一关联性和第二关联性,根据第一关联性和第二关联性确定目标因子的因子权重,并搭建因子体系,能够准确地反映不同的目标因子对业务目标的影响程度,能够有效提高画像模型的业务价值。
S40:获取历史业务数据,历史业务数据与因子体系相关。
可以理解地,因子体系包括目标因子及对应的因子权重。本实施例中,通过获取历史业务数据的方式,能够利用该历史业务数据实现模型训练,特别地,获取的历史业务数据需与因子体系相关,以根据该历史业务数据进行模型训练。
S50:根据历史业务数据进行训练,得到目标画像模型。
在一实施例中,历史业务数据具体可以是历史采集的用户身份信息。该用户身份信息中存在与因子体系相关的目标因子,如某一用户身份信息中包括第一年龄因子。在本实施例中,根据历史业务数据训练得到目标画像模型。可以理解地,因子体系是建立在业务目标的基础上,因此,训练得到的目标画像模型具备较强的业务价值,此外,由于训练过程是根据历史业务数据实现的,能够提高目标画像模型的可行性。
进一步地,在步骤S50之前,即在获取历史业务数据之前,还包括:
S511:根据历史业务数据和目标画像模型的业务目标确定训练目标画像模型所需的目标模型。
可以理解地,目标画像模型需根据业务目标以及历史业务数据选择合适的目标模型进行训练,如关于保险推荐的画像模型,可采用深度神经网络模型或决策树模型训练得到。采用合适的目标模型训练得到的目标画像模型具有更高的业务价值和可行性。此外,一个目标画像模型不一定只采用一种目标模型训练得到,可以是通过训练多个目标模型得到,其中,每一个目标模型单独进行训练,分别代表目标画像模型中需实现的部分功能,例如关于头痛鉴定的画像模型,在鉴定头痛是否由大脑肿瘤引起该项功能时时,需要提取用户的脑CT图特征,并根据该特征进行判断,此时该特征提取并进行判断的过程可采用卷积神经网络实现,以根据鉴定头痛是否由大脑肿瘤引起的,从而进一步得到业务目标。可以理解地,该关于头痛鉴定的画像模型在最后阶段进行头痛鉴定时,可采用分类器模型输出参考病因。
S512:初始化目标画像模型所需的目标模型。
可以理解地,目标画像模型可以由多个目标模型训练得到,每一目标模型可预先进行模型的初始化操作,其中,不同的目标模型可采用不同的初始化操作。该初始化目标画像模型所需的目标模型能够提高模型训练的效率。
进一步地,根据历史业务数据进行训练,得到目标画像模型,具体包括:
根据历史业务数据,采用目标画像模型所需的目标模型进行训练,得到目标画像模型。
可以理解地,采用合适的目标模型进行目标画像模型的训练,能够提高目标画像模型的刻画能力,使训练得到的目标画像模型输出的结果更加符合客观事实。
在步骤S511-S512中,根据历史业务数据和目标画像模型的业务目标确定训练目标画像模型所需的目标模型,并进行初始化操作,能够有效提高模型训练的效率,并使得训练得到的目标画像模型输出的结果更加符合客观事实,具备更高的业务价值。
进一步地,在步骤S511中,根据历史业务数据和目标画像模型的业务目标确定训练目标画像模型所需的目标模型,具体包括:
S5111:确定历史业务数据的数据类型,其中,数据类型包括结构化数据和非结构化数据。
其中,结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。
在一实施例中,确定历史业务数据的数据类型,以根据数据类型决定采用的目标模型。例如对于非结构化数据,可根据业务目标选择采用语音识别模型、光学字符识别模型和图像识别模型等作为目标模型。
S5112:根据目标画像模型的业务目标从问题类型库中确定目标问题类型,其中,问题类型库是根据历史业务目标预先建立的。
其中,业务目标对应于目标问题,解决了目标问题也就可实现业务目标,目标问题具体可以分为判断问题、二分类问题和多分类问题等。在一实施例中,可根据业务目标确定目标问题类型,确定过程可以通过预先建立的问题类型库实现,其中,该问题类型库预先记载了历史业务目标和问题类型的映射关系。例如,关于保险推荐的画像模型,该进行保险推荐的业务目标所对应的问题类型为多分类问题。通过确定目标问题类型能够帮助确定合适的目标模型。
S5113:根据历史业务数据的数据类型和目标问题类型确定训练目标画像模型所需的目标模型。
在一实施例中,通过根据历史业务数据的数据类型和目标问题类型共同确定目标模型,能够得到合适的目标模型进行训练,有助于提高训练得到的目标画像模型的业务价值。
在步骤S5111-S5113中,提供了一种确定训练目标画像模型所需的目标模型的具体实施方式,通过历史业务数据的数据类型和确定目标问题类型能够得到合适的目标模型,从而提高目标画像模型的业务价值。
进一步地,在步骤S50中,根据历史业务数据进行训练,得到目标画像模型,具体包括:
S521:根据历史业务数据进行训练,若训练采用的是有监督的训练方式,则通过训练得到损失值,基于损失值对目标画像模型所需的目标模型进行迭代更新,得到目标画像模型。
S522:若训练采用的是无监督学习的训练方式,则基于目标画像模型所需的目标模型训练的结果得到目标画像模型。
具体地,训练目标画像模型具体可分为有监督的训练方式和无监督的训练方式,其中,有监督的训练方式需要预设对历史业务数据进行标注,在训练过程中将根据标注的标签值得到损失值对目标画像模型所需的目标模型进行迭代更新,得到目标画像模型。无监督学习的训练方式可在训练达到预设的训练迭代步数后停止训练,得到目标画像模型。
在步骤S521-S522中,提供了根据历史业务数据进行训练,得到目标画像模型的具体实施方式,可采用有监督的训练方式和无监督的训练方式,当已标注的历史业务数据较多时,可采用有监督的训练方式,当训练可能存在历史业务数据分布偏移的情况时,可采用无监督的训练方式,该两种训练方式能使目标画像模型具备更高的业务价值和可行性。
在本发明实施例中,首先与业务目标相关的目标画像模型的业务流程确定,以业务价值为导向出发,根据业务目标及业务流程考虑画像的建模过程,能够提高目标画像模型的业务价值;接着根据业务目标在数据库中查找预先存储的因子归纳表,基于业务流程和因子归纳表确定目标画像模型的执行逻辑和目标因子,该执行逻辑能够保证目标画像模型的执行逻辑周密且不出现逻辑重复的情况,执行逻辑和目标因子为搭建全面的因子体系提供了重要的技术前提;接着基于执行逻辑和目标因子搭建因子体系,通过执行逻辑能够自底向上全面搭建因子体系,准确描述影响业务价值的因子,提高模型的刻画能力;最后获取历史业务数据,根据历史业务数据进行训练,得到目标画像模型,在保证以业务价值为导向训练模型的前提下,根据历史业务数据进行训练能够提高目标画像模型的可行性,充分发挥目标画像模型的业务价值。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
基于实施例中所提供的画像模型训练方法,本发明实施例进一步给出实现上述方法实施例中各步骤及方法的装置实施例。
图2示出与实施例中画像模型训练方法一一对应的画像模型训练装置的原理框图。如图2所示,该画像模型训练装置包括业务流程确定模块10、执行逻辑和目标因子确定模块20、因子体系搭建模块30、历史业务数据获取模块40和目标画像模型获取模块50。其中,业务流程确定模块10、执行逻辑和目标因子确定模块20、因子体系搭建模块30、历史业务数据获取模块40和目标画像模型获取模块50的实现功能与实施例中画像模型训练方法对应的步骤一一对应,为避免赘述,本实施例不一一详述。
业务流程确定模块10,用于确定目标画像模型的业务流程,其中,业务流程和目标画像模型的业务目标相关。
执行逻辑和目标因子确定模块20,用于根据业务目标在数据库中查找预先存储的因子归纳表,基于业务流程和因子归纳表确定目标画像模型的执行逻辑和目标因子。
因子体系搭建模块30,用于基于执行逻辑和目标因子搭建因子体系。
历史业务数据获取模块40,用于获取历史业务数据,历史业务数据与因子体系相关。
目标画像模型获取模块50,用于根据历史业务数据进行训练,得到目标画像模型。
可选地,因子体系搭建模块30包括第一关联性获取单元、第二关联性获取单元、因子权重确定单元和因子体系搭建单元。
第一关联性获取单元,用于获取域外历史数据,根据域外历史数据分析目标因子与目标画像模型的业务目标之间的关联性,得到第一关联性,其中,域外历史数据与目标因子相关。
第二关联性获取单元,用于根据域外历史数据分析目标因子相互之间的关联性,得到第二关联性。
因子权重确定单元,用于根据第一关联性和第二关联性确定目标因子的因子权重。
因子体系搭建单元,用于根据目标因子的因子权重、执行逻辑和目标因子搭建因子体系。
可选地,画像模型训练装置还包括目标模型确定单元和初始化单元。
目标模型确定单元,用于根据历史业务数据和目标画像模型的业务目标确定训练目标画像模型所需的目标模型。
初始化单元,用于初始化目标画像模型所需的目标模型。
目标画像模型获取模块,具体用于:
根据历史业务数据,采用目标画像模型所需的目标模型进行训练,得到目标画像模型。
可选地,目标模型确定单元包括数据类型确定子单元、目标问题类型确定子单元和目标模型确定子单元。
数据类型确定子单元,用于确定历史业务数据的数据类型,其中,数据类型包括结构化数据和非结构化数据。
目标问题类型确定子单元,用于根据目标画像模型的业务目标从问题类型库中确定目标问题类型,其中,问题类型库是根据历史业务目标预先建立的。
目标模型确定子单元,用于根据历史业务数据的数据类型和目标问题类型确定训练目标画像模型所需的目标模型。
可选地,目标画像模型获取模块50包括第一目标画像模型获取单元和第二目标画像模型获取单元。
第一目标画像模型获取单元,用于根据历史业务数据进行训练,若训练采用的是有监督的训练方式,则通过训练得到损失值,基于损失值对目标画像模型所需的目标模型进行迭代更新,得到目标画像模型。
第二目标画像模型获取单元,用于若训练采用的是无监督学习的训练方式,则基于目标画像模型所需的目标模型训练的结果得到目标画像模型。
在本发明实施例中,首先获取与业务目标相关的目标画像模型的业务流程,以业务价值为导向出发,根据业务目标及业务流程考虑画像的建模过程,能够提高目标画像模型的业务价值;接着根据业务目标在数据库中查找预先存储的因子归纳表,基于业务流程和因子归纳表确定目标画像模型的执行逻辑和目标因子,该执行逻辑能够保证目标画像模型的执行逻辑周密且不出现逻辑重复的情况,执行逻辑和目标因子为搭建全面的因子体系提供了重要的技术前提;接着基于执行逻辑和目标因子搭建因子体系,通过执行逻辑能够自底向上全面搭建因子体系,准确描述影响业务价值的因子,提高模型的刻画能力;最后获取历史业务数据,根据历史业务数据进行训练,得到目标画像模型,在保证以业务价值为导向训练模型的前提下,根据历史业务数据进行训练能够提高目标画像模型的可行性,从而充分发挥目标画像模型的业务价值。
本实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现实施例中画像模型训练方法,为避免重复,此处不一一赘述。或者,该计算机程序被处理器执行时实现实施例中画像模型训练装置中各模块/单元的功能,为避免重复,此处不一一赘述。
图3是本发明一实施例提供的计算机设备的示意图。如图3所示,该实施例的计算机设备60包括:处理器61、存储器62以及存储在存储器62中并可在处理器61上运行的计算机程序63,该计算机程序63被处理器61执行时实现实施例中的画像模型训练方法,为避免重复,此处不一一赘述。或者,该计算机程序63被处理器61执行时实现实施例中画像模型训练装置中各模型/单元的功能,为避免重复,此处不一一赘述。
计算机设备60可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备60可包括,但不仅限于,处理器61、存储器62。本领域技术人员可以理解,图3仅仅是计算机设备60的示例,并不构成对计算机设备60的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如计算机设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器61可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器62可以是计算机设备60的内部存储单元,例如计算机设备60的硬盘或内存。存储器62也可以是计算机设备60的外部存储设备,例如计算机设备60上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器62还可以既包括计算机设备60的内部存储单元也包括外部存储设备。存储器62用于存储计算机程序以及计算机设备所需的其他程序和数据。存储器62还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种画像模型训练方法,其特征在于,所述方法包括:
确定目标画像模型的业务流程,其中,所述业务流程和所述目标画像模型的业务目标相关;
根据所述业务目标在数据库中查找预先存储的因子归纳表,基于所述业务流程和所述因子归纳表确定所述目标画像模型的执行逻辑和目标因子;
基于所述执行逻辑和所述目标因子搭建因子体系;
获取历史业务数据,所述历史业务数据与所述因子体系相关;
根据所述历史业务数据进行训练,得到所述目标画像模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述执行逻辑和所述目标因子搭建因子体系,包括:
获取域外历史数据,根据所述域外历史数据分析所述目标因子与所述目标画像模型的业务目标之间的关联性,得到第一关联性,其中,所述域外历史数据与所述目标因子相关;
根据所述域外历史数据分析所述目标因子相互之间的关联性,得到第二关联性;
根据所述第一关联性和所述第二关联性确定所述目标因子的因子权重;
根据所述目标因子的因子权重、所述执行逻辑和所述目标因子搭建所述因子体系。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述历史业务数据进行训练,得到所述目标画像模型之前,还包括:
根据所述历史业务数据和所述目标画像模型的业务目标确定训练所述目标画像模型所需的目标模型;
初始化所述目标画像模型所需的目标模型;
所述根据所述历史业务数据进行训练,得到所述目标画像模型,包括:
根据所述历史业务数据,采用所述目标画像模型所需的目标模型进行训练,得到所述目标画像模型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述历史业务数据和所述目标画像模型的业务目标确定训练所述目标画像模型所需的目标模型,包括:
确定所述历史业务数据的数据类型,其中,所述数据类型包括结构化数据和非结构化数据;
根据所述目标画像模型的业务目标从问题类型库中确定目标问题类型,其中,所述问题类型库是根据历史业务目标预先建立的;
根据所述历史业务数据的数据类型和所述目标问题类型确定训练所述目标画像模型所需的目标模型。
5.根据权利要求3所述的方法,其特征在于,所述根据所述历史业务数据进行训练,得到所述目标画像模型,包括:
根据所述历史业务数据进行训练,若训练采用的是有监督的训练方式,则通过训练得到损失值,基于所述损失值对所述目标画像模型所需的目标模型进行迭代更新,得到所述目标画像模型;
若所述训练采用的是无监督学习的训练方式,则基于所述目标画像模型所需的目标模型训练的结果得到所述目标画像模型。
6.一种画像模型训练装置,其特征在于,所述装置包括:
业务流程确定模块,用于确定目标画像模型的业务流程,其中,所述业务流程和所述目标画像模型的业务目标相关;
执行逻辑和目标因子确定模块,用于根据所述业务目标在数据库中查找预先存储的因子归纳表,基于所述业务流程和所述因子归纳表确定所述目标画像模型的执行逻辑和目标因子;
因子体系搭建模块,用于基于所述执行逻辑和所述目标因子搭建因子体系;
历史业务数据获取模块,用于获取历史业务数据,所述历史业务数据与所述因子体系相关;
目标画像模型获取模块,用于根据所述历史业务数据进行训练,得到所述目标画像模型。
7.根据权利要求6所述的装置,其特征在于,所述因子体系搭建模块,包括:
第一关联性获取单元,用于获取域外历史数据,根据所述域外历史数据分析所述目标因子与所述目标画像模型的业务目标之间的关联性,得到第一关联性,其中,所述域外历史数据与所述目标因子相关;
第二关联性获取单元,用于根据所述域外历史数据分析所述目标因子相互之间的关联性,得到第二关联性;
因子权重确定单元,用于根据所述第一关联性和所述第二关联性确定所述目标因子的因子权重;
因子体系搭建单元,用于根据所述目标因子的因子权重、所述执行逻辑和所述目标因子搭建所述因子体系。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
目标模型确定单元,用于根据所述历史业务数据和所述目标画像模型的业务目标确定训练所述目标画像模型所需的目标模型;
初始化单元,用于初始化所述目标画像模型所需的目标模型;
所述目标画像模型获取模块,具体用于:
根据所述历史业务数据,采用所述目标画像模型所需的目标模型进行训练,得到所述目标画像模型。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述画像模型训练方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述画像模型训练方法的步骤。
CN201910609454.1A 2019-07-08 2019-07-08 画像模型训练方法、装置、计算机设备及存储介质 Pending CN110458600A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910609454.1A CN110458600A (zh) 2019-07-08 2019-07-08 画像模型训练方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910609454.1A CN110458600A (zh) 2019-07-08 2019-07-08 画像模型训练方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110458600A true CN110458600A (zh) 2019-11-15

Family

ID=68482371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910609454.1A Pending CN110458600A (zh) 2019-07-08 2019-07-08 画像模型训练方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110458600A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028006A (zh) * 2019-12-02 2020-04-17 支付宝(杭州)信息技术有限公司 一种业务投放辅助方法、业务投放方法及相关装置
CN111191092A (zh) * 2019-12-31 2020-05-22 腾讯科技(深圳)有限公司 画像数据处理方法和画像模型训练方法
CN112184465A (zh) * 2020-09-27 2021-01-05 中国平安财产保险股份有限公司 用户数据画像生成方法、装置、电子设备及存储介质
CN112910953A (zh) * 2021-01-14 2021-06-04 中国工商银行股份有限公司 业务数据的推送方法、装置和服务器
CN113127334A (zh) * 2020-01-15 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备和存储设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123395A (zh) * 2014-08-13 2014-10-29 北京赛科世纪数码科技有限公司 一种基于大数据的决策方法和系统
CN107025509A (zh) * 2016-02-01 2017-08-08 腾讯科技(深圳)有限公司 基于业务模型的决策系统和方法
CN108170909A (zh) * 2017-12-13 2018-06-15 中国平安财产保险股份有限公司 一种智能建模的模型输出方法、设备及存储介质
WO2019061976A1 (zh) * 2017-09-28 2019-04-04 平安科技(深圳)有限公司 基金产品推荐方法、装置、终端设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104123395A (zh) * 2014-08-13 2014-10-29 北京赛科世纪数码科技有限公司 一种基于大数据的决策方法和系统
CN107025509A (zh) * 2016-02-01 2017-08-08 腾讯科技(深圳)有限公司 基于业务模型的决策系统和方法
WO2019061976A1 (zh) * 2017-09-28 2019-04-04 平安科技(深圳)有限公司 基金产品推荐方法、装置、终端设备及存储介质
CN108170909A (zh) * 2017-12-13 2018-06-15 中国平安财产保险股份有限公司 一种智能建模的模型输出方法、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111028006A (zh) * 2019-12-02 2020-04-17 支付宝(杭州)信息技术有限公司 一种业务投放辅助方法、业务投放方法及相关装置
CN111028006B (zh) * 2019-12-02 2023-07-14 支付宝(杭州)信息技术有限公司 一种业务投放辅助方法、业务投放方法及相关装置
CN111191092A (zh) * 2019-12-31 2020-05-22 腾讯科技(深圳)有限公司 画像数据处理方法和画像模型训练方法
CN111191092B (zh) * 2019-12-31 2023-07-14 腾讯科技(深圳)有限公司 标签确定方法和标签确定模型训练方法
CN113127334A (zh) * 2020-01-15 2021-07-16 阿里巴巴集团控股有限公司 数据处理方法、装置、电子设备和存储设备
CN112184465A (zh) * 2020-09-27 2021-01-05 中国平安财产保险股份有限公司 用户数据画像生成方法、装置、电子设备及存储介质
CN112910953A (zh) * 2021-01-14 2021-06-04 中国工商银行股份有限公司 业务数据的推送方法、装置和服务器

Similar Documents

Publication Publication Date Title
US11741361B2 (en) Machine learning-based network model building method and apparatus
CN107491432B (zh) 基于人工智能的低质量文章识别方法及装置、设备及介质
US20200285903A1 (en) System for time-efficient assignment of data to ontological classes
CN110458600A (zh) 画像模型训练方法、装置、计算机设备及存储介质
CN110196908A (zh) 数据分类方法、装置、计算机装置及存储介质
CA2929180C (en) Image object category recognition method and device
CN110348580B (zh) 构建gbdt模型的方法、装置及预测方法、装置
EP3522078A1 (en) Explainable artificial intelligence
CN110147732A (zh) 指静脉识别方法、装置、计算机设备及存储介质
CN108550065B (zh) 评论数据处理方法、装置及设备
CN107807914A (zh) 情感倾向的识别方法、对象分类方法及数据处理系统
CN109766435A (zh) 弹幕类别识别方法、装置、设备及存储介质
WO2019123451A1 (en) System and method for use in training machine learning utilities
CN110070106A (zh) 烟雾检测方法、装置及电子设备
US11669753B1 (en) Artificial intelligence system providing interactive model interpretation and enhancement tools
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
WO2020135054A1 (zh) 视频推荐方法、装置、设备及存储介质
CN113344079B (zh) 一种图像标签半自动标注方法、系统、终端及介质
CN109063772A (zh) 一种基于深度学习的图像个性化语义分析方法、装置及设备
CN108229565A (zh) 一种基于认知的图像理解方法
CN116955788A (zh) 一种内容处理的方法、装置、设备、存储介质及程序产品
CN110765872A (zh) 一种基于视觉特征的在线数学教育资源分类方法
CN109657710A (zh) 数据筛选方法、装置、服务器及存储介质
CN114529191A (zh) 用于风险识别的方法和装置
US11593569B2 (en) Enhanced input for text analytics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115