CN114820085A - 用户筛选方法、相关装置及存储介质 - Google Patents
用户筛选方法、相关装置及存储介质 Download PDFInfo
- Publication number
- CN114820085A CN114820085A CN202210736024.8A CN202210736024A CN114820085A CN 114820085 A CN114820085 A CN 114820085A CN 202210736024 A CN202210736024 A CN 202210736024A CN 114820085 A CN114820085 A CN 114820085A
- Authority
- CN
- China
- Prior art keywords
- feature
- user
- prediction
- sub
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0207—Discounts or incentives, e.g. coupons or rebates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例涉及数据处理领域,提供一种用户筛选方法、相关装置及存储介质。该方法包括:获取第一特征集合,第一特征集合中包括多个第一特征,每个第一特征关联一个第一用户;根据第一特征集合中的每个第一特征与第二用户的第二特征之间的相似度,得到预测概率分布集合;每一预测概率分布关联一个第一用户;同一预测概率分布的每个预测概率侧重的评估维度不同;获取置信度集合,置信度集合包括至少一个第一特征的置信度;根据各个预测概率分布和各个第一特征的置信度,从第一特征集合中确定目标特征,并将与目标特征关联的第一用户确定为筛选得到的目标用户。本申请额外考虑了用于获取预测概率的特征的置信度,提升筛选得到的目标用户的准确性。
Description
技术领域
本申请实施例涉及数据处理技术领域,更具体地涉及用户筛选方法、相关装置及存储介质。
背景技术
如何从海量用户资源中筛选出产品的目标用户是互联网运营领域的一个难题。例如在游戏或直播软件领域,海量用户资源中可能既包括从未使用过软件的新用户,也包括之前使用过一段时间且当前不再使用软件的老用户。
为了从海量用户资源中筛选出产品的目标用户,通常的做法是选择大部分的用户进行推广。通过投放广告、推送信息或者发放优惠等等营销推广方式,对用户进行吸引。
但是,对大部分用户推广营销的推送成本非常高,而海量用户资源中含有很大一部分质量较低的无效用户。这部分无效用户的粘性不高,即使吸引过来也很容易再次放弃使用产品,转化为不活跃用户。
为了降低推广营销成本,当前往往获取活跃用户的特点,然后从海量用户资源中筛选出具有与活跃用户相同特点的用户,对这些用户进行营销推广。然而当前的用户筛选方式往往只考虑了用户筛选结果,而忽略了用户筛选依据的真实性和准确性。根据不真实准确的用户筛选依据很难得到真实可靠的用户筛选结果,从而容易造成推广营销资源的浪费。
发明内容
本申请实施例提供一种用户筛选方法、相关装置及存储介质,根据用户的用户特征同时获取预测概率和用户特征的置信度,然后对预测概率和置信度一并进行分析,筛选得到预测概率和置信度符合要求的目标用户,从而提升筛选得到的目标用户能够获得预设资格的概率。
在本申请的第一方面中,提供了一种用户筛选方法,包括:
获取第一特征集合,其中,所述第一特征集合中包括多个第一特征,每个第一特征关联一个第一用户,所述第一用户为未获得预设资格的用户;
根据所述第一特征集合中的每个第一特征与第二用户的第二特征之间的相似度,得到预测概率分布集合;
其中,所述预测概率分布集合中包括多个预测概率分布,每一预测概率分布关联一个第一用户,所述预测概率分布中包括多个预测概率;同一预测概率分布的每个预测概率侧重的评估维度不同;所述预测概率表示所述预测概率关联的第一用户能够获得所述预设资格的概率,所述第二用户为已获得所述预设资格的用户;
根据所述预测概率分布集合,获取置信度集合,所述置信度集合包括至少一个第一用户的第一特征的置信度;
根据各个所述预测概率分布和各个所述第一特征的置信度,从所述第一特征集合中确定目标特征,并将与所述目标特征关联的第一用户确定为筛选得到的目标用户。
在本申请的第二方面中,提供了一种用户筛选装置,包括:
输入输出单元,用于获取第一特征集合,其中,所述第一特征集合中包括多个第一特征,每个第一特征关联一个第一用户,所述第一用户为未获得预设资格的用户;
处理单元,用于根据所述第一特征集合中的每个第一特征与第二用户的第二特征之间的相似度,得到预测概率分布集合;
其中,所述预测概率分布集合中包括多个预测概率分布,每一预测概率分布关联一个第一用户,所述预测概率分布中包括多个预测概率;同一预测概率分布的每个预测概率侧重的评估维度不同;所述预测概率表示所述预测概率关联的第一用户能够获得所述预设资格的概率,所述第二用户为已获得所述预设资格的用户;
所述处理单元,还用于根据所述预测概率分布集合,获取置信度集合,所述置信度集合包括至少一个第一用户的第一特征的置信度;
所述处理单元,还用于根据各个所述预测概率分布和各个所述第一特征的置信度,从所述第一特征集合中确定目标特征,并将与所述目标特征关联的第一用户确定为筛选得到的目标用户。
在本申请的第三方面中,提供了一种处理设备,所述处理设备包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行第一方面中任一项所述的方法。
在本申请的第四方面中,提供了一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行第一方面中任一项所述的方法。
与现有技术相比,本申请实施例中,可以将未获得预设资格的第一用户的第一特征与已获得预设资格的第二用户的第二特征进行对比,根据各个第一特征与第二用户特征的相似度,对每个第一用户能够获得预设资格的概率进行预测,得到包含多个预测概率分布的预测概率分布集合;并且由于各个预测概率侧重不同的评估维度,若第一特征真实可信,则通预测概率分布的多个预测概率应该大同小异,较为密集,置信度较低,由此可以根据预测概率分布集合得到各个第一用户的第一特征的置信度的集合。该置信度可以表示第一用户的第一特征的可信度,即可以根据置信度判断第一特征是否可信,从而判断基于第一特征得到的预测概率是否可信。根据预测概率分布集合和置信度集合,从第一特征集合中确定能够达到预设标准的可信的目标特征。最后将目标特征关联的第一用户确定为筛选得到的目标用户。
在目标用户的筛选过程中,本申请实施例既根据第一用户的第一特征与第二用户的第二特征之间的相似度确定了第一用户能够获得预设资格的概率,又根据预测概率分布确定了第一用户的第一特征的可信度。相比于现有技术只根据预测概率筛选目标用户,本申请实施例还额外关注用于筛选得到目标用户的特征是否真实准确,从而可以从第一特征集合中得到较为真实准确且预测概率达到预设标准的目标特征,以使根据目标特征得到的目标用户能够符合预设资格的概率提升。
附图说明
通过参考附图,本申请实施例的目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施例,其中:
图1为本申请实施例提供的用户筛选方法所涉及的一种应用场景的结构示意图;
图2为本申请实施例提供的一种用户筛选方法的流程示意图;
图3为本申请实施例提供的另一种用户筛选方法的流程示意图;
图4为本申请实施例提供的一种预测概率分布的示意图;
图5为本申请实施例提供的一种用户筛选装置的结构示意图;
图6为本申请实施例提供的另一种用户筛选装置的结构示意图;
图7为本申请实施例提供的一种服务器结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象(例如第一特征和第二特征分别表示为不同类型用户的用户特征,其他类似),而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请实施例中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行,另外,所显示的或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,模块之间的间接耦合或通信连接可以是电性或其他类似的形式,本申请实施例中均不作限定。并且,作为分离部件说明的模块或子模块可以是也可以不是物理上的分离,可以是也可以不是物理模块,或者可以分布到多个电路模块中,可以根据实际的需要选择其中的部分或全部模块来实现本申请实施例方案的目的。
本申请实施例提供一种用户筛选方法,可用于不活跃的老用户回归或新用户推广场景,涉及至少一个用户筛选装置,该用户筛选装置用于从多个第一用户中确定目标用户筛选结果。其中,用户筛选装置可为从多个第一用户中确定目标用户筛选结果的应用程序,或为安装了从多个第一用户中确定目标用户筛选结果的应用程序的服务器。
本申请实施例提供的方案涉及人工智能(Artificial Intelligence,AI)、机器学习(Machine Learning,ML)等技术,具体通过如下实施例进行说明:
AI是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
AI技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
一些实施方式中,如图1所示,其示出了本申请实施例提供的用户筛选方法所涉及的一种应用场景的结构示意图。该应用场景可以包括用户筛选装置10和计算设备20,用户筛选装置10和计算设备20都可以为服务器。用户筛选装置10以及计算设备20可以通过有线或无线通信方式进行直接或间接地连接,计算设备20的数量可以有一个或多个:
计算设备20用于向用户筛选装置10发送获取的包含多个第一用户的第一特征的用户特征集合或多个第一用户的评估信息,其中,每个第一用户特征可以对应一个第一用户,第一用户为未获得预设资格的用户。
用户筛选装置10中可以部署预测模型,并且可以在接收到多个第一用户的评估信息之后,根据多个第一用户的评估信息提取得到每个第一用户的第一特征,并生成包含每个第一用户的第一特征的第一特征集合;以及根据所述第一特征集合中的每个第一特征与第二用户的第二特征之间的相似度,得到预测概率分布集合;其中,所述预测概率分布集合中包括多个预测概率分布,每一预测概率分布关联一个第一用户,所述预测概率分布中包括多个预测概率;同一预测概率分布的每个预测概率侧重的评估维度不同;所述预测概率表示所述预测概率关联的第一用户能够获得所述预设资格的概率,所述第二用户为已获得所述预设资格的用户;并且根据所述预测概率分布集合,获取置信度集合,所述置信度集合包括至少一个第一用户的第一特征的置信度;以及根据各个预测概率分布和各个第一特征的置信度,从所述第一特征集合中确定目标特征,并将与所述目标特征关联的第一用户确定为筛选得到的目标用户。
需要说明的是,本申请实施例涉及的服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
可选地,用户筛选装置10和计算设备20之间通过网络进行通信,且附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面,将结合几个实施例对本申请技术方案进行详细的介绍说明。
图2为本申请实施例提供的一种用户筛选方法的流程示意图,该方法可由用户筛选装置执行,从多个未获得预设资格的第一用户中确定能够获得预设资格的目标用户。需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请实施例在此方面不受任何限制。相反,本申请实施例可以应用于适用的任何场景。请参阅图2,该方法包括以下步骤:
步骤S201,获取第一特征集合。
本申请实施例中,所述第一特征集合中包括多个第一特征,每个第一特征关联一个第一用户,所述第一用户为未获得预设资格的用户。其中,本申请实施例可以适用于新用户筛选、老用户回流、信贷领域的拒客回捞等多种应用场景,预设标准可以根据应用场景的不同进行调整。
举例来说,在新用户筛选场景下,新用户由于未使用过产品,那么普遍属于未获得预设资格的用户。所述第一用户的第一特征也与具体的用户筛选场景相关,例如在游戏软件内测新用户筛选场景下,所述第一用户可以是未获得内测资格的用户,所述第一特征可以是第一用户的兴趣特征,所述兴趣特征可以基于用户的游戏喜好信息和游戏行为信息确定。可以理解的是,所述新用户筛选还可以是其他产品或服务的新用户筛选,例如软件新用户,信贷新用户,旅游新用户或餐饮新用户等。
在老用户回流场景中,第一用户可以是曾经活跃过而现在不再活跃的用户。具体来说,所述第一用户为第一周期活跃且第二周期以及第三周期均不活跃的未回归用户;类似地,具有能够与第一用户的第一特征进行相似度对比的第二特征的第二用户为第一周期活跃且第二周期不活跃以及第三周期活跃的已回归用户;其中,在时间顺序上,第一周期早于第二周期,第二周期早于第三周期;所述第一特征和第二特征包括与用户兴趣相关的特征;所述预测概率表示第一用户重新活跃的概率。
例如在游戏老用户回流场景下,为了提高游戏产品的流量,可以对不再活跃的老用户进行推广营销,吸引当前不再活跃的老用户重新投入游戏中。然而推广营销是需要成本的,如果对所有不再活跃的老用户都进行推广营销,则可能需要花费高昂的营销费用和资源。由此,可以从老用户中筛选一部分重新活跃概率较大的用户作为目标用户,进行营销推广。与所述新用户筛选场景相同,所述老用户回流也不仅仅限于游戏老用户回流,还可以是其他产品或服务领域的老用户回流,本申请实施例对此不做限定。
在拒客回捞场景中,第一用户可以为经历过初步筛选但未获得信贷资格的用户(即被风险控制策略评估后,应该拒绝的用户)。由于初步筛选的方式通常较为简单,可能会将合格的用户(例如预测的出现逾期事件的概率处于初步筛选的阈值边界的用户)排除在外。因此,可以对未获得信贷资格的第一用户再次进行更加精准的筛选,将未获得信贷资格的第一用户中可能符合信贷资格的用户再次筛选出来,提高第一用户的利用率。
另外,未获得信贷资格的用户中可能包含还款逾期风险较高的用户,例如黑名单用户或失信执行记录用户等,还款逾期风险较高的用户显然不具备成为优质用户的条件。因此,还可以从未获得信贷资格的用户中将还款逾期风险较高的用户剔除,从而得到还款逾期风险在可控范围内的第一用户。
本申请实施例中,提取到的每个第一用户的第一特征可以代表对应第一用户各个维度的信息。例如,第一用户特征可以包括多个第一子特征,多个第一子特征可以分别代表但不限于第一用户的信用状况信息、个人信息、工作信息、教育信息以及资产信息等用户子特征。
举例来说,在拒客回捞应用场景中,第一用户的信用状况信息中可以包括第一用户的守信记录、违约记录以及失信执行记录等;第一用户的个人信息中可以包括第一用户的年龄、籍贯以及父母信息等;第一用户的工作信息中可以包括第一用户的职业、公司信息、职称信息以及工作地点等;第一用户的教育信息中可以包括第一用户的学历、学校名称、上学地点以及专业信息等;第一用户的资产信息中可以包括第一用户的存款信息、负债信息以及固定资产等。
可以理解的是,对第一用户是否可以获取预设资格的评估过程有益的信息都可以作为第一特征的部分或全部,本领域的技术人员可以根据实际应场景对第一特征涉及的信息维度进行增减,本申请实施例不做限定。
作为一种可选的实施方式,步骤S201获取第一特征集合的方式具体可以为:通过预先建立的预测模型从至少一个第一用户的评估信息进行提取,得到第一特征集合。其中,所述第一特征集合中包括每个第一用户分别关联的第一特征。
本申请实施例中,所述预测模型可以是基于人工智能技术构建的神经网络模型,例如可以是逻辑回归模型、贝叶斯网络模型或梯度提升树模型,本申请实施例对此不做限定。与第一特征类似,所述第二特征可以是根据第二用户的信息提取到的。根据第二特征中包括的多个第二子特征构建的预测模型,可以以第二用户的第二特征为依据,对第一用户的第一特征进行评估,得出所述第一用户能够获得预设资格的概率,有利于提升预测得到的第一用户能够获得预设资格的概率的准确性。
可选的,第一用户的评估信息可以是第一用户的信用状况信息、个人信息、工作信息、教育信息以及资产信息等,对此,本申请实施例不做限定。第一用户的评估信息可以包括但不限于第一特征中第一子特征对应的信息。
步骤S202,根据所述第一特征集合中的每个第一特征与第二用户的第二特征之间的相似度,得到预测概率分布集合。
本申请实施例中,所述预测概率分布集合中包括多个预测概率分布,每一预测概率分布关联一个第一用户,所述预测概率分布中包括多个预测概率。具体来说,针对每个第一用户,本申请实施例均会基于其第一特征输出一个预测概率分布,该预测概率分布的每个预测概率侧重的评估维度不同;例如,在游戏老用户回流场景下,所述预测概率可以表示老用户重新活跃起来的概率,假设本申请实施例中的预测概率分布包括两个预测概率,那么一个预测概率可以认为是从侧重兴趣维度评估的老用户重新活跃起来的概率,另外一个测概率可以认为是从侧重行为维度评估的老用户重新活跃起来的概率。
需要说明的是,虽然不同的预测概率侧重的评估维度不同,但是不代表一个预测概率仅从一个评估维度得到;例如,若一个预测概率可以认为是从侧重兴趣维度评估的老用户重新活跃起来的概率,那么则表示在评估得到该预测概率时,兴趣维度的第一特征对结果的影响较大,行为维度的第一特征对结果的影响较小。但是并不代表得出该预测概率的过程完全不考虑行为维度的特征。由此,本申请实施例在评估得到各个预测概率时,既全面考虑了不同评估维度,还分别侧重不同的评估维度,使得最终得到的预测概率结果既全面可靠,又不会千篇一律的仅仅根据同一个评估标准。
本申请实施例中,将第二用户的第二特征与第一用户的第一特征进行相似度对比,可以从第一特征中得到与第二特征相似的目标特征,并将目标特征对应的第一用户确定为筛选后的目标用户。目标用户可以认为是与第二用户的第二用户特征较为相似的用户,即可以认为目标用户与第二用户都能够获得预设资格。
其中,第二用户的第二特征中也可以包括多个第二子特征,且第二特征中包括的多个第二子特征与第一特征中包括的多个第一子特征可以是类别一一对应的。即可以认为第二特征中的任意一个第二子特征与其对应的第一特征中的第二子特征的特征类别是相同的;例如,第二特征中的第二子特征的特征类别为违约记录时,与第二特征中的第二子特征对应的第一特征中的第一子特征的特征类别也是违约记录。
本申请实施例中,为了提升预测概率分布集合的全面性,可以将所述第一特征集合输入预测模型,得到所述预测概率分布集合。所述预测模型包括多个预测子模型,所述多个预测子模型能够从不同的评估维度确定输入模型的第一特征与第二特征之间的相似度;针对同一个第一特征,每个预测子模型均侧重一个评估维度确定所述第一特征与第二特征之间的相似度,并输出一个预测概率。
所述预测模型可以基于人工智能领域的各种模型构建技术建立,例如可以是逻辑回归模型、深度神经网络模型、贝叶斯模型、梯度提升树模型或多层感知机等等,本领域的技术人员可以根据实际应用场景选择不同的模型,本申请实施例对此不做限定。
本申请实施例中,由于各个预测子模型可能侧重不同的评估维度,而第一特征可能包括的信息不全,即第一特征可能不包括一些评估维度需要依赖的评估信息,因此各个预测子模型基于同一个第一特征进行评估时,可能出现得到的预测概率异常的情况。由此,本申请实施例中可以将多个预测概率中的异常预测概率删除,进而可以得到正常的多个预测概率。
其中,将得到的多个预测概率中的异常预测概率删除方式可以为:预先设置概率区间,如果得到的预测概率不处于该概率区间,则可以认为该预测概率为异常预测概率,需要进行删除。
为了得到能够从不同的评估维度确定输入模型的第一特征与第二特征之间的相似度的所述多个预测子模型,本申请实施例从训练过程以及训练后的调整过程两个方面提供一些可行的实施方式,具体包括方式①和方式②:
方式①从模型的训练过程着手,以得到能够从不同的评估维度确定输入模型的第一特征与第二特征之间的相似度的所述多个预测子模型。
具体来说,一个预测子模型基于一个第二子特征集合以及与所述第二子特征集合关联的标签集合训练得到,不同的预测子模型基于不同的第二子特征集合训练得到。所述第二特征包括多个第二子特征,每一第二子特征集合中包括从所述多个第二子特征中筛选得到的多个目标第二子特征,任意两个第二子特征集合存在差集。
也即任意两个第二子特征集合中可以存在部分相同的目标第二子特征,也可以不存在相同的目标第二子特征;且任意两个第二子特征集合不会出现目标第二子特征完全相同的情况。任意一个第二子特征集合中包括的目标第二子特征的特征数量可以小于或等于第二特征包括的第二子特征的特征数量。
任意两个第二子特征集合存在差集,保证了预测子模型针对预设标准的评估准确性的同时,还兼顾了评估维度的全面性和多样性;即各个不同的预测子模型不是根据同一个维度的第二子特征进行评估,而是根据不同维度的第二子特征进行评估,避免了评估维度单一造成的信息茧房效应。
为了保证每个预测子模型均能侧重不同的评估维度确定输入模型的第一特征与第二特征之间的相似度,一个所述第二子特征集合中的超过第一预设比例的多个目标第二子特征与同一个评估维度的预测概率的关联度均大于第一预设值。具体来说,若基于一个第二子特征集合A训练一个预测子模型a,且第二子特征集合A中包括目标第二子特征A1、目标第二子特征A2和目标第二子特征A3;其中目标第二子特征A1和A2与兴趣维度的预测概率的关联度均大于第一预设值;那么,基于所述第二子特征集合A训练训练得到的预测子模型a则侧重兴趣维度。
可以理解的是,为了保证各个第二子特征集合中均包括优势数量的关联同一个评估维度的目标第二子特征,所述第一预设比例可以设置为50%;即任意一个第二子特征集合中,均至少包括50%的与特定评估维度的关联度大于第一预设值的目标第二子特征。
在本申请实施例中,所述目标第二子特征为与一个评估维度的预测概率的关联度大于第一预设值的第二子特征,也即所述目标第二子特征对至少一个评估维度的预测概率结果存在较大影响。由此,在基于一个第二子特征集合训练预测子模型时,能够使得所述预测子模型侧重所述第二子特征集合中具备优势数量的目标第二子特征关联的评估维度。
可以理解的是,为了使得各个预测子模型均侧重不同的维度,所述第二子特征集合也仅仅存在一个目标第二子特征数量具备优势的评估维度。即任意一个第二子特征集合仅仅只能使得预测子模型侧重一个评估维度。
所述第二子特征与一个评估维度的预测概率之间的关联度可以事先计算,例如根据第二子特征与预测概率之间的协方差,互信息度或信息熵等参数确定。所述一个评估维度的预测概率也可以事先确定,由于第二子特征是训练数据,因此可以将所述一个评估维度的预测概率作为训练数据的标签。若所述关联度大于第一预设值,则可以认为所述第二子特征对所述评估维度的预测概率的影响较大。所述第一预设值可以根据实际应用场景确定,例如可以根据经验值设置,此处不再具体说明。
本申请实施例中,目标第二子特征的筛选方式可以通过预先建立的特征工程来实现,通过预先建立的特征工程,可以从第二特征的多个第二子特征中,将与预测概率关联度大于第一预设值的部分第二子特征作为目标第二子特征;从而在建立基础预测模型时仅仅根据与预测概率关联度大于第一预设值的部分第二子特征,提高了基础预测模型对第二子特征的利用效率。其中,所述关联度可以通过计算第二子特征与预测概率之间的协方差、信息熵或互信息等方式确定,例如,若一个第二子特征和预测概率的协方差是正值且大于第一预设值,则说明两者之间正相关且关联度较强。
方式①预先构建多个侧重单一评估维度的第二子特征集合,然后再利用各个第二子特征集合训练得到各个侧重单一评估维度的预测子模型。本方式①从训练过程出发,得到了能够从不同的评估维度确定输入模型的第一特征与第二特征之间的相似度的所述多个预测子模型,使得根据一个第一特征得到的多个预测概率既准确又多样,为后续的置信度计算和目标特征筛选过程提供了更加准确的依据。
方式②从模型训练之后的调整过程着手,以得到能够从不同的评估维度确定输入模型的第一特征与第二特征之间的相似度的所述多个预测子模型。
具体来说,所述多个预测子模型基于同一个基础预测模型调整得到;所述基础预测模型基于所述第二特征以及与所述第二特征关联的标签训练得到。
在本申请实施例中,所述基础预测模型基于第二特征直接训练得到,也即基于均衡的第二子特征训练得到,不再侧重某一个特定的评估维度,而是对所有评估维度平等的看待。由此,方便后续对模型的参数进行调整,使得调整后的多个预测子模型分别侧重不同的评估维度。
所述基础预测模型中包括多个模型参数;所述预测子模型与所述基础预测模型之间,第二预设比例的模型参数取值不同,且同一个模型参数的取值差异符合预设范围;任意两个预测子模型之间至少存在一个取值不同的模型参数。
可以理解的是,由于多个预测子模型都是基于同一个基础预测模型调整得到,所以可以认为各个预测子模型的评估标准大体上是一致的。另外,由于各个预测子模型都是基于所述基础预测模型调整后得到的,由此,可以认为所述各个预测子模型的评估标准在细节上存在差异。
为了使得各个预测子模型的评估标准大体一致,细节不同,本申请实施例中提供两种调整所述基础预测模型的方式,具体为调整方式(1)和调整方式(2):
调整方式(1),首先确定所述基础预测模型包括的各个模型参数对输出结果的贡献度,所述贡献度的确定方式可以是基于损失函数对各个模型参数的二阶导数计算,或者通过损失函数值的变化确定。以上各个贡献度确认方式属于神经网络剪枝技术中的常见计算方式,本领域的技术人员可以根据实际情况自由选择,本申请实施例中不再赘述。
在得到所述基础预测模型包括的各个模型参数的贡献度之后,根据贡献度对各个模型参数进行排名,然后对贡献度排名在末尾的预设数量或预设比例的模型参数进行调整。
对各个模型参数调整的具体方式可以是:从每一待修改模型参数的取值范围内随机取得一个数值,将该数值确定为待修改模型参数的新值,以实现对基础预测模型的模型参数的取值进行调整,从而得到多个模型参数的取值进行了调整的预测子模型。
由于调整选取的是对模型输出结果的贡献度较小的一些模型参数,为了保证调整后的模型的输出结果产生相应的改变,所述模型参数的取值范围可以设置的偏离原值较远。更进一步地,为了提高调整效率且保证调整效果符合预期,可以根据模型参数的贡献度设置调整时的取值范围,例如贡献度低的模型参数设置较大的调整,贡献度较高的模型参数设置较小的调整。
由于模型参数对哪个评估维度的输出结果影响较大可能无法非常准确的确定。为了保证各个预测子模型能够侧重不同的评估维度,由此,在本申请实施例中,所述各个预测子模型是基于所述基础预测模型的不同模型参数调整得到;例如,所述基础预测模型包括三个模型参数:权重W1、权重W2和权重W3,那么,可以分别对三个模型参数进行调整得到三个预测子模型;具体来说,可以单独调整权重W1得到预测子模型1,单独调整权重W2得到预测子模型2,单独调整权重W3得到预测子模型3。由此,本申请实施例中得到的预测子模型的评估标准大体上一致,且存在细节上的不同,不同的预测子模型能够侧重不同的评估维度。
考虑到,贡献度排名末尾的模型参数对模型输出结果的影响较小,可能需要调整模型参数较大幅值或调整较多数量的模型参数,才能对模型的输出结果产生一些影响。为了提高调整效率,在本申请实施例中也可以从贡献度排名前列的若干模型参数中选出待调整的模型参数。可以理解的是,由于所述待调整的模型参数对模型输出结果的影响较大,由此,可以设置较小的调整取值范围,使得调整后得到的各个预测子模型的输出结果与所述基于预测模型的输出结果不会偏离太多,即依然保持足够的准确性。
可以理解的是,在一些可行的方式中,在对待调整的模型参数进行取值的调整时,也可能将所述模型参数的取值调整为0,即直接剪去所述模型参数。
调整方式(1)基于各个模型参数的贡献度确定待调整的模型参数和调整时的取值,既保证了调整效率,又保证了调整后得到的预测子模型的预测精度。
调整方式(2),可以随机选取预设比例的模型参数,然后对这些随机选取的模型参数进行微小的值调整。预设比例可以根据所述基础预测模型的模型参数规模设置,为了保证不会使得调整后得到的预测子模型的输出结果与所述基础预测模型产生太大偏差,所述预设比例一般应该比较小,例如可以设置为百分之一到百分之十之间。
对各个模型参数调整的具体方式可以是:从每一待修改模型参数的取值范围内随机取得一个数值,将该数值确定为待修改模型参数的新值,以实现对基础预测模型的模型参数的取值进行调整,从而得到多个模型参数的取值进行了调整的预测子模型。
调整方式(2)随机选取了预设比例的模型参数进行取值调整,既保证了调整的多样性,即调整后得到的预测子模型侧重的评估维度不同,又保证了调整后得到的预测子模型的预测精度。
在方式①和方式②介绍了如何通过调整基础预测模型得到多个预测子模型之后,接下来介绍如何建立(基础)预测模型。
考虑到用于训练预测模型的第二特征可能包括很多个维度的信息,且不同的神经网络适合处理不同类型的特征。因此,本申请实施例中,根据所述第二特征的类型训练采用不同神经网络技术的预测模型,然后在基于第一特征进行第一用户的预测概率评估时,也根据第一特征的类型选择合适的预测模型,以便得到更加准确的预测概率。
在本申请实施例中,所述预测模型包括第一预测模型和第二预测模型;所述第一预测模型包括多个第一预测子模型,所述多个第一预测子模型均为梯度提升树模型;所述第二预测模型包括多个第二预测子模型,所述多个第二预测子模型均为逻辑回归模型;任一个所述第一特征均包括多个第一子特征。
本申请实施例中,可以从多个第二子特征中,确定出特征类别相同的部分关联第二子特征或相互之间关联度大于第二预设值的部分关联用户子特征。如果多个关联第二子特征占所有第二子特征的比例大于第三预设比例,此时可以以梯度提升树方式构建基础预测模型,即基础预测模型可以为梯度提升树模型;如果多个关联第二子特征占所有第二子特征的比例小于等于第三预设比例,此时可以以逻辑回归方式构建基础预测模型,即基础预测模型可以为逻辑回归模型。
根据关联度大于第二预设值的部分关联第二子特征占所有第二子特征的比例,确定基础预测模型具体的模型建立方式,提高了基础预测模型与多个第二子特征之间的适配性。其中,所述关联度可以通过计算第二子特征之间的协方差、信息熵或互信息等方式确定,例如,若一个第二子特征a和一个第二子特征b的协方差是正值且大于第二预设值,则说明两者之间正相关,且两者之间的关联度较强。
本申请实施例中,特征类别可以有多个。特征类别中可以涵盖多个关联第二子特征,同一个特征类别中涵盖的多个关联第二子特征之间相关联。例如,当特征类别为个人信息类别时,个人信息类别涵盖的关联第二子特征可以为年龄、籍贯以及父母信息等;当特征类别为工作信息类别时,工作信息类别涵盖的关联第二子特征可以为职业、公司信息、职称信息以及工作地点等。
本申请实施例中,对基础预测模块中的多个模型参数进行调整,得到的预测子模型的模型类型与基础预测模型的模型类型可以相同。例如,当基础预测模型为梯度提升树模型时,根据基础预测模型得到的第一预测子模型均为梯度提升树模型;当基础预测模型为逻辑回归模型时,根据基础预测模型得到的第二预测子模型均为逻辑回归模型。本申请实施例中,所述第一预测子模型或第二预测子模型的总数量可以为20~50个。
本申请实施例中,可以从获取的第二子特征中确定出相关联的关联第二子特征的数量;并且可以根据相关联的关联第二子特征的数量与全部第二子特征的数量,确定出相关联的关联第二子特征在全部第二子特征中所占的比例;以及可以根据比例对第二子特征的特征类型进行区分。如果相关联的关联第二子特征占比较大,可以认为第二子特征适用于非线性模型(例如梯度提升树模型);如果相关联的关联第二子特征占比较小,可以认为第二子特征适用于线性模型(例如逻辑回归模型)。通过对第二子特征的中相关联的关联第二子特征的占比进行分析,可以建立更加适用的基础预测模型,提升了基于基础预测模型调整得到的预测子模型的预测准确性。
由于梯度提升树模型为非线性模型,且致力于寻找最优的特征分割节点,数据处理复杂度低,且具备特征空间的分割能力,由此在处理相互之间关联度较大(互相影响较大)的特征更具优势,即不会被互相影响的特征干扰,具有较强的特征组合能力。由此,若第一特征为关联类型,则适合梯度提升树模型进行预测处理,即梯度提升树模型对关联类型的第一特征预测的概率更加准确且高效。
由于逻辑回归模型为线性模型,不具有特征组合能力,更加适合处理相关性较弱的稀疏特征。由此,本申请实施例中,若第一特征为独立类型,则适合逻辑回归模型进行预测处理,即逻辑回归模型对独立类型的第一特征的预测概率更加准确且高效。
在介绍了如何建立基础预测模型和预测子模型之后,所述将所述第一特征集合输入预测模型,得到所述预测概率分布集合,包括:
确定各个第一特征的特征类型;其中,所述特征类型为关联类型或独立类型;将关联类型的第一特征输入所述第一预测模型,得到所述第一特征关联的第一用户的预测概率分布;将独立类型的第一特征输入所述第二预测模型,得到所述第一特征关联的第一用户的预测概率分布。
其中,关联类型的第一特征中包括的关联第一子特征数量与全部第一子特征数量的比例大于第三预设比例;独立类型的第一特征中包括的关联第一子特征数量与全部第一子特征数量的比例小于等于所述第三预设比例;若从属于同一个第一特征的多个第一子特征之间的关联度大于第二预设值,则所述多个第一子特征均为关联子特征。
在基于各个第一特征获取与所述第一特征关联的第一用户的预测概率分布之后,接下来执行步骤S203,根据所述预测概率分布集合,获取置信度集合。
本申请实施例中,所述置信度集合包括至少一个第一用户的第一特征的置信度。其中,所述第一用户的第一特征的置信度为所述第一用户关联的预测概率分布中包括的多个预测概率的方差。
本申请实施例中,可以先计算同一个预测概率分布中多个预测概率的平均值,然后根据平均值以及多个预测概率计算得到多个预测概率的方差,即所述第一特征的置信度。通过置信度的大小可以看出多个预测概率的分布情况,如果置信度较大,则多个预测概率的分布较为离散;如果置信度较小,则多个预测概率的分布较为密集。同一个第一用户的多个预测概率都是基于相同的第一特征得到的,理论上各个预测概率应该差别不大,即较为统一和密集。若多个预测概率的分布较为离散,则可能说明第一特征存在问题;例如其中一些信息真实准确,一些信息存在虚假或夸张,从而根据真实信息得到的预测概率和根据虚假信息得到的预测概率不同,即导致得到的多个预测概率不统一。可见,置信度较小的第一特征对应的预测概率分布更为准确。
可以理解的是,各个第一特征的置信度还可以根据各个第一特征关联的预测概率分布的标准差确定,确定过程与方差确定过程大同小异,此处不再赘述。
另外,各个第一特征的置信度还可以根据各个第一特征的特征值与标准用户的特征值进行差异对比确定;例如,可以预先设置标准用户,各个标准用户均预先确定了各个特征类别的标准特征值,由此,若第一特征的特征值与相同特征类别的标准特征值存在较大差异,则可以认为所述第一特征不可信。所述置信度可以根据所述第一特征的特征值与相同特征类别的标准特征值存在的差异确定,所述置信度可以与所述差异成正比,即所述差异越大,则置信度越大,例如可以直接将所述差异确定为置信度。
在获取置信度集合之后,接下来执行步骤S204,根据各个预测概率分布和各个第一特征的置信度,从所述第一特征集合中确定目标特征,并将与所述目标特征关联的第一用户确定为筛选得到的目标用户。
本申请实施例中,可以根据各个第一特征关联的预测概率分布的平均值,对第一特征集合中的每个第一特征进行排序,得到各个第一特征对应的第一排序序号;根据各个第一特征对应的置信度对各个第一特征进行排序,得到各个第一特征对应的第二排序序号;根据各个第一特征对应的第一排序序号和第二排序序号对第一特征集合中的每个第一特征再次进行排序,得到最终的排序结果;根据最终的排序结果,从第一特征集合中确定目标特征。
可选的,选取目标特征的方式可以为:从序列中序号最小的第一特征开始选取,直至选取的第一特征的数量与筛选数量相同时停止,将选取的第一特征作为待筛选特征;将大于预设阈值的置信度对应的待筛选特征删除(置信度大于预设阈值可以认为该待筛选特征得到的多个预测概率不可信),并确定删除的待筛选特征的特征数量;从剩余序列中选取与特征数量相同且序号最小的待筛选特征,直至待筛选特征的数量与筛选数量相同且置信度均小于等于预设阈值;将待筛选特征确定为本次选取的目标特征。本申请实施例中可以根据需求确定筛选数量,无需每次都将全部的目标用户进行筛选,既简化了目标用户的筛选过程,还可以提高获取目标用户的灵活性。
可选的,预测概率分布的平均值的权重可以大于置信度的权重。因此,可以预先设置平均值的第一权重以及置信度的第二权重,第一权重大于第二权重,并且可以根据平均值的第一排序序号、第一权重、置信度的第二排序序号以及第二权重再次根据预设排序方式进行排序,得到各个第一特征的排序值,根据得到的各个第一特征的排序值进行最终的排序。即根据排序值从小到大进行排序,即排序值越小,排序值对应的第一特征的最终排序的序号越小,从而得到最后的排序结果。
为了更加清楚的说明本申请实施例的用户筛选方法,下面以基础预测模型基于贝叶斯预测模型建立为例对用户筛选过程进行详细说明。请参阅图3,图3为本申请实施例提供的另一种用户筛选方法的流程示意图。图3中包括第一用户和第二用户,第一用户可以为未获得预设资格的用户;第二用户可以为已获得预设资格的用户;在提取第一用户的第一信用特征之前,还可以将与预设标准偏差较大的黑名单用户删除,以避免第一用户中出现与预设标准偏差较大的用户。
首先,贝叶斯预测模型可以由基础预测模型重构得到;例如可以通过修改基础预测模型中的任意一个或多个模型参数的取值得到多个预测子模型,即修改一次基础预测模型的取值就可以得到一个预测子模型;修改不同的模型参数的取值或将相同的模型参数的取值改为不同的数值,都可以得到不同的预测子模型。
接下来,可以将第一特征输入至贝叶斯预测模型,以使贝叶斯预测模型预测得到预测概率分布集合。即贝叶斯预测模型中的每一个预测子模型都可以输出一个预测概率,并且可以对输出的每一个预测概率进行异常检测,将异常预测概率删除;以及可以根据预测概率分布集合计算得到置信度集合,进而可以根据每一第一用户的预测概率分布集合和置信度集合,从第一用户中筛选得到目标用户。
请一并参阅表1和表2,表1为第二用户-用户特征表,表2为第一用户-(用户特征&概率分布&置信度)表,接下来根据表1和表2对用户筛选方法进行说明。
表1
表2
其中,表1中的第二用户1、第二用户2……第二用户n可以是已获得预设资格的用户,可以对第二用户1、第二用户2……第二用户n进行特征提取,得到各个第二用户的用户特征1、用户特征2……用户特征n。其中,用户特征2可以表示第二用户是否获得预设资格,如果获得,则用户特征2赋值1,如果未获得,则用户特征2赋值0。从表1中可以看出,第二用户1未获得预设资格,第二用户2和第二用户n获得预设资格。根据表1中的第二用户的用户特征,可以构建包含多个预测子模型的预测模型。
表2中的第一用户a、第一用户b……第一用户n可以是未获得预设资格的用户,且表2中的用户特征1、用户特征2……用户特征n与表2中的用户特征1、用户特征2……用户特征n一一对应。可以将表2中每一第一用户的用户特征1、用户特征2……用户特征n分别输入至预测模型中,以使预测模型中的多个预测子模型对输入的用户特征进行处理,预测模型中的多个预测子模型可以输出第一用户能够获得预设资格的预测概率。
从表2中可见,第一用户a的用户特征1(a1)、用户特征2(a2)……用户特征n(an)可以输入至预测模型中。预测模型中的预测子模型1可以根据输入的第一用户a的用户特征得到第一用户a达到预设标准的预测概率0.75,预测模型中的基础预测模型2可以根据输入的第一用户a的用户特征得到第一用户a达到预设标准的预测概率0.68,预测模型中的基础预测模型n可以根据输入的第一用户a的用户特征得到第一用户a达到预设标准的预测概率0.81;根据基础预测模型1的预测概率、基础预测模型2的预测概率……基础预测模型n的预测概率,可以计算得到第一用户a的置信度为0.004。
第一用户b的用户特征1(b1)、用户特征2(b2)……用户特征n(bn)可以输入至预测模型中。预测模型中的预测子模型1可以根据输入的第一用户b的用户特征得到第一用户b获得预设资格的预测概率0.25,预测模型中的预测子模型2可以根据输入的第一用户b的用户特征得到第一用户b获得预设资格的预测概率0.43,预测模型中的预测子模型n可以根据输入的第一用户b的用户特征得到第一用户b获得预设资格的预测概率0.52;根据预测子模型1的预测概率、预测子模型2的预测概率……预测子模型n的预测概率,可以计算得到第一用户b的置信度为0.019。
第一用户n的用户特征1(n1)、用户特征2(n2)……用户特征n(nn)可以输入至预测模型中。预测模型中的预测子模型1可以根据输入的第一用户n的用户特征得到第一用户n获得预设资格的预测概率0.67,预测模型中的预测子模型2可以根据输入的第一用户n的用户特征得到第一用户n获得预设资格的预测概率0.84,预测模型中的预测子模型n可以根据输入的第一用户n的用户特征得到第一用户n获得预设资格的预测概率0.75;根据预测子模型1的预测概率、预测子模型2的预测概率……预测子模型n的预测概率,可以计算得到第一用户n的置信度为0.007。
为了更加方便直观的看出第一用户a、第一用户b、……、第一用户n的预测概率分布的离散情况和置信度,本申请实施例根据表2的内容绘制了图4。根据图4可以看出第一用户a的概率分布较为集中,置信度小;第一用户b的概率分布较为离散,置信度大。根据各个第一用户的置信度对每个第一用户进行排序,置信度越小,置信度对应的第一用户的排序序号越小,可以从第一用户中选取排序在前10%的第一用户作为优质的目标用户。
本申请实施例中提出的用户筛选方法所针对的是基于以机器学习为代表的人工智能所构建的机器学习模型,包括但不限于特征提取、特征对比、概率预测等各个适用不同应用场景的机器学习模型,并对机器学习模型如何根据获取的第二用户和第一用户,从第一用户中筛选出优质的目标用户的方法。
本申请实施例能够从第一特征集合中得到较为真实准确且预测概率达到预设标准的目标特征,以使根据目标特征关联得到的目标用户获得预设资格的概率提升。此外,本申请还可以以第二用户的特征为依据,提升预测模型预测得到的第一用户获得预设资格的概率的准确性。此外,本申请还可以提升预测概率分布集合的全面性。此外,本申请还可以避免评估维度单一造成的信息茧房效应。此外,本申请还可以得到更加全面多样的预测概率。此外,本申请还可以提升预测模型的预测准确性。
在介绍了本申请实施例中的方法之后,接下来,参考图5对本申请实施例中的一种用户筛选装置50进行说明,该装置包括:
输入输出单元501,用于获取第一特征集合,其中,所述第一特征集合中包括多个第一特征,每个第一特征关联一个第一用户,所述第一用户为未获得预设资格的用户.
处理单元502,用于根据所述第一特征集合中的每个第一特征与第二用户的第二特征之间的相似度,得到预测概率分布集合。
其中,所述预测概率分布集合中包括多个预测概率分布,每一预测概率分布关联一个第一用户,所述预测概率分布中包括多个预测概率;同一预测概率分布的每个预测概率侧重的评估维度不同;所述预测概率表示所述预测概率关联的第一用户能够获得所述预设资格的概率,所述第二用户为已获得所述预设资格的用户。
所述处理单元502,还用于根据所述预测概率分布集合,获取置信度集合,所述置信度集合包括至少一个第一用户的第一特征的置信度;
所述处理单元502,还用于根据各个所述预测概率分布和各个所述第一特征的置信度,从所述第一特征集合中确定目标特征,并将与所述目标特征关联的第一用户确定为筛选得到的目标用户。
所述输入输出单元501,还用于输出所述目标用户。
在一个可选的实施方式中,所述处理单元502,还用于获取所述第一用户的预测概率分布的方差;以及将所述方差作为所述第一用户的第一特征的置信度。
在一个可选的实施方式中,所述处理单元502,还用于将所述第一特征集合输入预测模型,得到所述预测概率分布集合;其中,所述预测模型包括多个预测子模型,所述多个预测子模型能够从不同的评估维度确定输入模型的第一特征与第二特征之间的相似度;针对同一个第一特征,每个预测子模型均侧重一个评估维度确定所述第一特征与第二特征之间的相似度,并输出一个预测概率。
在一个可选的实施方式中,一个预测子模型基于一个第二子特征集合以及与所述第二子特征集合关联的标签集合训练得到,不同的预测子模型基于不同的第二子特征集合训练得到;所述第二特征包括多个第二子特征,每一第二子特征集合中包括从所述多个第二子特征中筛选得到的多个目标第二子特征,任意两个第二子特征集合存在差集;所述目标第二子特征与一个评估维度的预测概率的关联度大于第一预设值;一个所述第二子特征集合中的超过第一预设比例的多个目标第二子特征与同一个评估维度的预测概率的关联度均大于第一预设值。
在一个可选的实施方式中,所述多个预测子模型基于同一个基础预测模型调整得到;所述基础预测模型基于所述第二特征以及与所述第二特征关联的标签训练得到;所述基础预测模型中包括多个模型参数;所述预测子模型与所述基础预测模型之间,第二预设比例的模型参数取值不同,且同一个模型参数的取值差异符合预设范围;任意两个预测子模型之间至少存在一个取值不同的模型参数。
在一个可选的实施方式中,所述预测模型包括第一预测模型和第二预测模型;所述第一预测模型包括多个第一预测子模型,所述多个第一预测子模型均为梯度提升树模型;所述第二预测模型包括多个第二预测子模型,所述多个第二预测子模型均为逻辑回归模型;任一个所述第一特征均包括多个第一子特征。
所述处理单元502,还用于确定各个第一特征的特征类型;其中,所述特征类型为关联类型或独立类型;将关联类型的第一特征输入所述第一预测模型,得到所述第一特征关联的第一用户的预测概率分布;将独立类型的第一特征输入所述第二预测模型,得到所述第一特征关联的第一用户的预测概率分布;其中,关联类型的第一特征中包括的关联第一子特征数量与全部第一子特征数量的比例大于第三预设比例;独立类型的第一特征中包括的关联第一子特征数量与全部第一子特征数量的比例小于等于所述第三预设比例;若从属于同一个第一特征的多个第一子特征之间的关联度大于第二预设值,则所述多个第一子特征均为关联第一子特征。
在一个可选的实施方式中,所述第一用户为第一周期活跃且第二周期以及第三周期均不活跃的未回归用户;所述第一用户为第一周期活跃且第二周期不活跃以及第三周期活跃的已回归用户;其中,在时间顺序上,第一周期早于第二周期,第二周期早于第三周期;所述第一特征和所述第二特征包括与用户兴趣相关的特征;所述预测概率表示第一用户重新活跃的概率。
本申请实施例的用户筛选装置能够从第一特征集合中得到较为真实准确且预测概率达到预设标准的目标特征,以使根据目标特征关联得到的目标用户能够获得预设资格的概率提升。此外,本申请还可以以第二用户的特征为依据,提升预测模型预测得到的第一用户获得预设资格的概率的准确性。此外,本申请还可以提升预测概率分布集合的全面性。此外,本申请还可以避免评估维度单一造成的信息茧房效应。此外,本申请还可以得到更加全面多样的预测概率。此外,本申请还可以提升预测模型的预测准确性。
上面从模块化功能实体的角度对本申请实施例中的用户筛选装置50进行了描述,下面从硬件处理的角度对本申请实施例中的用户筛选装置50进行描述。
需要说明的是,在本申请实施例各实施例(包括图5所示的实施例)中所有的输入输出单元对应的实体设备可以为收发器,所有的处理单元对应的实体设备可以为处理器。图5所示的装置可以具有如图6所示的结构,当装置具有如图6所示的结构时,图6中的处理器、发射器和接收器实现前述对应该装置的装置实施例提供的处理单元502和输入输出单元501相同或相似的功能,图6中的存储器存储处理器执行上述用户筛选方法时需要调用的计算机程序。
例如,图5所示的用户筛选装置50可以具有如图6所示的结构,当图5所示的装置具有如图6所示的结构时,图6中的处理器和收发器能够实现前述对应该用户筛选装置50的装置实施例提供的处理单元502和输入输出单元501相同或相似的功能,图6中的存储器存储处理器执行上述用户筛选方法时需要调用的计算机程序。在本申请实施例图5所示的实施例中的输入输出单元所对应的实体设备可以为输入输出接口,处理单元对应的实体设备可以为处理器。
图7是本申请实施例提供的一种服务器结构示意图,该服务器70可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processingunits,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示未标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器70上执行存储介质730中的一系列指令操作。
服务器70还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口757,和/或,一个或一个以上操作系统741,例如Windows Server,Mac OS X,Unix,Linux,FreeBSD等等。
例如,上述实施例中由用户筛选装置所执行的步骤可以基于该图7所示的服务器70的结构。例如,所述处理器722通过调用存储器732中的指令,执行以下操作:
根据输入输出接口758获取第一特征集合,其中,所述第一特征集合中包括多个第一特征,每个第一特征关联一个第一用户,所述第一用户为未获得预设资格的用户;
根据所述第一特征集合中的每个第一特征与第二用户的第二特征之间的相似度,得到预测概率分布集合;
其中,所述预测概率分布集合中包括多个预测概率分布,每一预测概率分布关联一个第一用户,所述预测概率分布中包括多个预测概率;同一预测概率分布的每个预测概率侧重的评估维度不同;所述预测概率表示所述预测概率关联的第一用户能够获得所述预设资格的概率,所述第二用户为已获得所述预设资格的用户;
根据所述预测概率分布集合,获取置信度集合,所述置信度集合包括至少一个第一用户的第一特征的置信度;
根据各个所述预测概率分布和各个所述第一特征的置信度,从所述第一特征集合中确定目标特征,并将与所述目标特征关联的第一用户确定为筛选得到的目标用户。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请实施例所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机计算机程序时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
以上对本申请实施例所提供的技术方案进行了详细介绍,本申请实施例中应用了具体个例对本申请实施例的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请实施例的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请实施例的限制。
Claims (10)
1.一种用户筛选方法,包括:
获取第一特征集合,其中,所述第一特征集合中包括多个第一特征,每个第一特征关联一个第一用户,所述第一用户为未获得预设资格的用户;
根据所述第一特征集合中的每个第一特征与第二用户的第二特征之间的相似度,得到预测概率分布集合;
其中,所述预测概率分布集合中包括多个预测概率分布,每一预测概率分布关联一个第一用户,所述预测概率分布中包括多个预测概率;同一预测概率分布的每个预测概率侧重的评估维度不同;所述预测概率表示所述预测概率关联的第一用户能够获得所述预设资格的概率,所述第二用户为已获得所述预设资格的用户;
根据所述预测概率分布集合,获取置信度集合,所述置信度集合包括至少一个第一用户的第一特征的置信度;
根据各个所述预测概率分布和各个所述第一特征的置信度,从所述第一特征集合中确定目标特征,并将与所述目标特征关联的第一用户确定为筛选得到的目标用户。
2.根据权利要求1所述的用户筛选方法,其中,获取一个第一用户的第一特征的置信度,包括:
获取所述第一用户的预测概率分布的方差;
将所述方差作为所述第一用户的第一特征的置信度。
3.根据权利要求1或2所述的用户筛选方法,其中,所述根据所述第一特征集合中的每个第一特征与第二用户的第二特征之间不同评估维度的相似度,得到预测概率分布集合,包括:
将所述第一特征集合输入预测模型,得到所述预测概率分布集合;
其中,所述预测模型包括多个预测子模型,所述多个预测子模型能够从不同的评估维度确定输入模型的第一特征与第二特征之间的相似度;针对同一个第一特征,每个预测子模型均侧重一个评估维度确定所述第一特征与第二特征之间的相似度,并输出一个预测概率。
4.根据权利要求3所述的用户筛选方法,其中,一个预测子模型基于一个第二子特征集合以及与所述第二子特征集合关联的标签集合训练得到,不同的预测子模型基于不同的第二子特征集合训练得到;所述第二特征包括多个第二子特征,每一第二子特征集合中包括从所述多个第二子特征中筛选得到的多个目标第二子特征,任意两个第二子特征集合存在差集;
所述目标第二子特征与一个评估维度的预测概率的关联度大于第一预设值;一个所述第二子特征集合中的超过第一预设比例的多个目标第二子特征与同一个评估维度的预测概率的关联度均大于第一预设值。
5.根据权利要求3所述的用户筛选方法,其中,所述多个预测子模型基于同一个基础预测模型调整得到;
所述基础预测模型基于所述第二特征以及与所述第二特征关联的标签训练得到;所述基础预测模型中包括多个模型参数;
所述预测子模型与所述基础预测模型之间,第二预设比例的模型参数取值不同,且同一个模型参数的取值差异符合预设范围;
任意两个预测子模型之间至少存在一个取值不同的模型参数。
6.根据权利要求5所述的用户筛选方法,其中,所述预测模型包括第一预测模型和第二预测模型;所述第一预测模型包括多个第一预测子模型,所述多个第一预测子模型均为梯度提升树模型;所述第二预测模型包括多个第二预测子模型,所述多个第二预测子模型均为逻辑回归模型;
任一个所述第一特征均包括多个第一子特征;
所述将所述第一特征集合输入预测模型,得到所述预测概率分布集合,包括:
确定各个第一特征的特征类型;其中,所述特征类型为关联类型或独立类型;
将关联类型的第一特征输入所述第一预测模型,得到所述第一特征关联的第一用户的预测概率分布;
将独立类型的第一特征输入所述第二预测模型,得到所述第一特征关联的第一用户的预测概率分布;
其中,关联类型的第一特征中包括的关联第一子特征数量与全部第一子特征数量的比例大于第三预设比例;
独立类型的第一特征中包括的关联第一子特征数量与全部第一子特征数量的比例小于等于所述第三预设比例;
若从属于同一个第一特征的多个第一子特征之间的关联度大于第二预设值,则所述多个第一子特征均为关联第一子特征。
7.根据权利要求1或2所述的用户筛选方法,其中,所述第一用户为第一周期活跃且第二周期以及第三周期均不活跃的未回归用户;
所述第一用户为第一周期活跃且第二周期不活跃以及第三周期活跃的已回归用户;
其中,在时间顺序上,第一周期早于第二周期,第二周期早于第三周期;
所述第一特征和所述第二特征包括与用户兴趣相关的特征;所述预测概率表示第一用户重新活跃的概率。
8.一种用户筛选装置,包括:
输入输出单元,用于获取第一特征集合,其中,所述第一特征集合中包括多个第一特征,每个第一特征关联一个第一用户,所述第一用户为未获得预设资格的用户;
处理单元,用于根据所述第一特征集合中的每个第一特征与第二用户的第二特征之间的相似度,得到预测概率分布集合;
其中,所述预测概率分布集合中包括多个预测概率分布,每一预测概率分布关联一个第一用户,所述预测概率分布中包括多个预测概率;同一预测概率分布的每个预测概率侧重的评估维度不同;所述预测概率表示所述预测概率关联的第一用户能够获得所述预设资格的概率,所述第二用户为已获得所述预设资格的用户;
所述处理单元,还用于根据所述预测概率分布集合,获取置信度集合,所述置信度集合包括至少一个第一用户的第一特征的置信度;
所述处理单元,还用于根据各个所述预测概率分布和各个所述第一特征的置信度,从所述第一特征集合中确定目标特征,并将与所述目标特征关联的第一用户确定为筛选得到的目标用户。
9.一种处理设备,所述处理设备包括:
至少一个处理器、存储器和输入输出单元;
其中,所述存储器用于存储计算机程序,所述处理器用于调用所述存储器中存储的计算机程序来执行如权利要求1~7中任一项所述的方法。
10.一种计算机可读存储介质,其包括指令,当其在计算机上运行时,使得计算机执行如权利要求1~7中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736024.8A CN114820085B (zh) | 2022-06-27 | 2022-06-27 | 用户筛选方法、相关装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736024.8A CN114820085B (zh) | 2022-06-27 | 2022-06-27 | 用户筛选方法、相关装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114820085A true CN114820085A (zh) | 2022-07-29 |
CN114820085B CN114820085B (zh) | 2022-09-02 |
Family
ID=82522984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210736024.8A Active CN114820085B (zh) | 2022-06-27 | 2022-06-27 | 用户筛选方法、相关装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114820085B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8396777B1 (en) * | 2007-07-19 | 2013-03-12 | Spigit, Inc. | Prediction market database, related methods, devices and systems |
CN110210006A (zh) * | 2019-06-11 | 2019-09-06 | 秒针信息技术有限公司 | 一种数据筛选方法及数据筛选装置 |
CN110232151A (zh) * | 2019-05-22 | 2019-09-13 | 温州大学 | 一种混合概率分布检测的QoS预测模型的构建方法 |
CN111507768A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种潜在用户的确定方法、模型训练的方法及相关装置 |
CN113635896A (zh) * | 2021-07-31 | 2021-11-12 | 华为技术有限公司 | 一种驾驶行为确定方法及其相关设备 |
CN114330482A (zh) * | 2021-11-11 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
-
2022
- 2022-06-27 CN CN202210736024.8A patent/CN114820085B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8396777B1 (en) * | 2007-07-19 | 2013-03-12 | Spigit, Inc. | Prediction market database, related methods, devices and systems |
CN110232151A (zh) * | 2019-05-22 | 2019-09-13 | 温州大学 | 一种混合概率分布检测的QoS预测模型的构建方法 |
CN110210006A (zh) * | 2019-06-11 | 2019-09-06 | 秒针信息技术有限公司 | 一种数据筛选方法及数据筛选装置 |
CN111507768A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种潜在用户的确定方法、模型训练的方法及相关装置 |
CN113635896A (zh) * | 2021-07-31 | 2021-11-12 | 华为技术有限公司 | 一种驾驶行为确定方法及其相关设备 |
CN114330482A (zh) * | 2021-11-11 | 2022-04-12 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114820085B (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Huang et al. | Data poisoning attacks to deep learning based recommender systems | |
CN111931062A (zh) | 一种信息推荐模型的训练方法和相关装置 | |
CN111506820B (zh) | 推荐模型、方法、装置、设备及存储介质 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN113536097B (zh) | 基于自动特征分组的推荐方法及装置 | |
WO2020135642A1 (zh) | 一种基于生成对抗网络的模型训练方法及设备 | |
CN113761359B (zh) | 数据包推荐方法、装置、电子设备和存储介质 | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN113449011A (zh) | 基于大数据预测的信息推送更新方法及大数据预测系统 | |
CN114519435A (zh) | 模型参数更新方法、模型参数更新装置和电子设备 | |
CN114245185B (zh) | 视频推荐方法、模型训练方法、装置、电子设备及介质 | |
CN115130536A (zh) | 特征提取模型的训练方法、数据处理方法、装置及设备 | |
CN116823410B (zh) | 数据处理方法、对象处理方法、推荐方法及计算设备 | |
CN109829593B (zh) | 目标对象的信用度确定方法、装置、存储介质及电子装置 | |
WO2020135420A1 (zh) | 对用户进行分类的方法和装置 | |
CN114820085B (zh) | 用户筛选方法、相关装置及存储介质 | |
CN113034231B (zh) | 一种基于SaaS云服务的多供应链商品智能推荐系统及方法 | |
CN112818241B (zh) | 一种内容推广方法、装置、计算机设备和存储介质 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
CN115248894A (zh) | 一种信息推荐方法、装置和计算机可读存储介质 | |
CN113886674A (zh) | 资源推荐方法、装置、电子设备及存储介质 | |
Lee et al. | An enhanced memory-based collaborative filtering approach for context-aware recommendation | |
CN112488767B (zh) | 一种客户群体划分方法及装置 | |
Sohrabi et al. | A clustering based feature selection approach to detect spam in social networks | |
Li et al. | Generating ordered list of recommended items: a hybrid recommender system of microblog |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |