CN113298121A - 基于多数据源建模的消息发送方法、装置和电子设备 - Google Patents

基于多数据源建模的消息发送方法、装置和电子设备 Download PDF

Info

Publication number
CN113298121A
CN113298121A CN202110484137.9A CN202110484137A CN113298121A CN 113298121 A CN113298121 A CN 113298121A CN 202110484137 A CN202110484137 A CN 202110484137A CN 113298121 A CN113298121 A CN 113298121A
Authority
CN
China
Prior art keywords
data
submodel
data source
value
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110484137.9A
Other languages
English (en)
Other versions
CN113298121B (zh
Inventor
朱婷
张潮华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qiyue Information Technology Co Ltd
Original Assignee
Shanghai Qiyue Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qiyue Information Technology Co Ltd filed Critical Shanghai Qiyue Information Technology Co Ltd
Priority to CN202110484137.9A priority Critical patent/CN113298121B/zh
Publication of CN113298121A publication Critical patent/CN113298121A/zh
Application granted granted Critical
Publication of CN113298121B publication Critical patent/CN113298121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Development Economics (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多数据源建模的消息发送方法,其特征在于,该方法包括如下步骤:分别获取来自多个不同数据源的设备数据,所述不同数据源的设备数据中特征相互重叠;分别使用来自每一数据源的数据生成对应于每一数据源的样本数据集,并将每一样本数据集划分为对应的训练数据集和测试数据集;针对每一数据源,使用对应于该数据源的训练数据集训练得到对应的子模型,从而得到多个子模型;针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重;根据所述多个子模型的权重,将所述多个子模型的输出值进行加权融合,计算新设备的评分;根据所述评分和预定策略向该新设备发送消息。本发明能够提高设备评分的精度和准确度。

Description

基于多数据源建模的消息发送方法、装置和电子设备
技术领域
本发明涉及计算机信息处理领域,具体而言,涉及一种基于多数据源建模的消息发送方法、装置、电子设备及计算机可读介质。
背景技术
在现有技术中,互联网平台在开展业务时,需要设备打开该平台的网页,或者通过APP访问平台服务。但是,对于从未访问过平台的设备,平台也会通过一些第三方渠道向大量的设备(例如手机、电脑)发送信息,以邀请或吸引更多设备所有人关注平台,使用平台服务,甚至注册成为用户。例如,有些互联网平台会通过社交媒体APP或移动网络的短消息方式将相关信息发送到更广泛的设备上。
但是,由于发送的消息面很广,如果具有不良行为的设备接收到相关信息,其可能对平台造成损害。这是的不良行为是指设备的关联用户可能操作设备而进行的不良行为,例如非法获取数据、网络攻击、薅羊毛、恶意拼团、借贷等等。为此,互联网平台往往需要对需要发送消息的设备是否可能产生不良行为进行预测,以便提前将风险较大的设备剔除。由此,基于机器学习的风险预测模型被广泛应用,但是,由于与设备关联的数据(设备属性、设备关联人属性、设备关联人的行为历史、设备所处的地域,等等)可能来自不同的供应渠道。当其中某个渠道提供的数据质量下降,甚至断供时,将极大的模型的稳定性和准确度。
传统机器学习的模型都是建立在训练数据和测试数据服从相同的数据分布的基础上的。图1是根据现有技术生成分类模型的一个例子。如附图1所述,汇集来自多个数据源的数据,在多个数据源的数据集合的基础上生成训练数据,可以在训练数据上面训练得到一个分类模型用于测试数据。要想实现设备资料的自动化、智能化的审核,先得有大量的样本和标签数据,但往往单一的机构或组织很难具有大量高质量的样本和标签数据,此时就需要多方联合起来共享样本和标签数据。但随着公众和政府对用户数据隐私保护的日益重视,外部资信数据的监管力度不断加强,各方的样本和标签数据无法直接共享,数据效果变差,甚至存在断供风险的可能性,另一方面,为降低查询成本,分级调用而成的数据缺失也给风险模型和准入策略的开发优化带来一定挑战。此外,使用单模型进行计算,也存在不稳定性。因此,有必要提供更有效的风险评估方法,以便在向设备发送消息时更精确地预测和消除风险。
发明内容
本发明的主要目的在于提供一种基于多数据源建模的消息发送方法、装置、电子设备及计算机可读介质,旨在降低因数据断供造成的高偏差和高方差的问题,提高对设备评分的精度和准确度,降低向设备发送消息时的风险。
为了解决上述技术问题,本发明第一方面提出一种基于多数据源建模的消息发送方法,其特征在于,该方法包括如下步骤:分别获取来自多个不同数据源的设备数据,所述不同数据源的设备数据中特征相互重叠;分别使用来自每一数据源的数据生成对应于每一数据源的样本数据集,并将每一样本数据集划分为对应的训练数据集和测试数据集;针对每一数据源,使用对应于该数据源的训练数据集训练得到对应的子模型,从而得到多个子模型;针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重;根据所述多个子模型的权重,将所述多个子模型的输出值进行加权融合,计算新设备的评分;根据所述评分和预定策略向该新设备发送消息。根据本发明的一种优选实施方式,所述针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重,具体为:分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,并作为后续子模型加权融合的权重系数。
根据本发明的一种优选实施方式,所述针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重,具体为:分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,根据每个子模型的AUC值以及每个子模型的初始预设权重计算每个子模型的权重。
根据本发明的一种优选实施方式,所述针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重,具体为:针对每个子模型的初始权重值,分别判断各子模型的初始权重值是否收敛,如果不满足该收敛条件,对不满足该收敛条件的初始权重值进行调整。
根据本发明的一种优选实施方式,分别对来自每一数据源的数据进行预处理的步骤。
根据本发明的一种优选实施方式,所述分别对来自每一数据源的数据进行预处理,具体为对所述数据做缺失值填充,统计完数据的缺率后,舍弃缺失率超过预定阈值的数据,使用相似数据替代缺失的数据进行训练。
根据本发明的一种优选实施方式,如果没有相似数据,则后续不使用来自该数据源的数据训练得到对应的子模型,并调整其他子模型的权重以供融合。
根据本发明的一种优选实施方式,所述多个子模型是相同类型的子模型;或,所述多个子模型包括至少两种不同类型的子模型。
为了解决上述技术问题,本发明第二方面提出一种基于多数据源建模的消息发送装置,其特征在于,包括:数据获取模块,分别获取来自多个不同数据源的设备数据,所述不同数据源的设备数据中特征相互重叠;数据处理模块,分别使用来自每一数据源的数据生成对应于每一数据源的样本数据集,并将每一样本数据集划分为对应的训练数据集和测试数据集;子模型训练模块,针对每一数据源,使用对应于该数据源的训练数据集训练得到对应的子模型,从而得到多个子模型;子模型权重确定模块,针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重;评分计算模块,根据所述多个子模型的权重,将所述多个子模型的输出值进行加权融合,计算新设备的评分;消息发送模块,根据所述评分和预定策略向该新设备发送消息。
根据本发明的一种优选实施方式,所述子模型权重确定模块分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,并作为后续子模型加权融合的权重系数。
根据本发明的一种优选实施方式,所述子模型权重确定模块分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,根据每个子模型的AUC值以及每个子模型的初始预设权重计算每个子模型的权重。
根据本发明的一种优选实施方式,所述子模型权重确定模块针对每个子模型的初始权重值,分别判断各子模型的初始权重值是否收敛,如果不满足该收敛条件,对不满足该收敛条件的初始权重值进行调整。
根据本发明的一种优选实施方式,所述数据处理模块分别对来自每一数据源的数据进行预处理。
根据本发明的一种优选实施方式,所述分别对来自每一数据源的数据进行预处理,具体为对所述数据做缺失值填充,统计完数据的缺率后,舍弃缺失率超过预定阈值的数据,使用相似数据替代缺失的数据进行训练。
根据本发明的一种优选实施方式,如果没有相似数据,则后续不使用来自该数据源的数据训练得到对应的子模型,并调整其他子模型的权重以供融合。
根据本发明的一种优选实施方式,所述多个子模型是相同类型的子模型;或,所述多个子模型包括至少两种不同类型的子模型。
为了解决上述技术问题,本发明第三方面提出一种电子设备,包括:处理器;以及存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行前述的方法。
为了解决上述技术问题,本发明第四方面提出一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现前述的方法。
由于本发明可融合来自不同数据源的的设备数据,训练出可自动评估设备数据是否存在风险的目标模型,实现了设备资料风险的智能识别,能更准确的识别设备资料的风险,提升设备资料风险识别的准确率。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是根据现有技术生成分类模型的一个方案。
图2是根据本发明的多数据源建模的消息发送方法的一个实施方式的主要流程示意图。
图3是根据本发明的多数据源建模的消息发送装置的一个实施例的示意结构框图。
图4是根据本发明的基于多数据源建模的消息发送系统的一实施例的结构框架示意图。
图5是根据本发明的所述系统的一个更具体的实施例的结构框图。
图6是本发明的一个计算机可读介质的一个实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
【实施例1】
下面先结合图2对本发明的基于多数据源建模的消息发送方法进行说明。图2是根据本发明的基于多数据源建模的消息发送方法的一个实施方式的主要流程示意图。
如图2所示,该方法包括下述步骤:
S201,分别获取来自多个不同数据源的设备数据。
所述多个数据源可以来自任意积累有设备数据的组织或机构,可包括但不限于数据提供商、互联网(例如社交网站)、移动营运商、APP营运商、第三方支付平台、电商平台、快递公司、信用机构、和金融机构等。所述设备数据以各种不同的格式存储于所述多个数据源的各类业务数据库中。
上述设备数据可以包括但不限于设备ID、品牌、使用年限、操作系统、关联人身份证明凭证、资质证明凭证、信用证明凭证、设备所处网段信息、地域信息、卫星定位信息等资料中的至少一种。以数据源为电商平台,设备为电商平台的接入设备为例,设备资料可以是设备关联人发起入驻电商平台的请求时提交的门头照、网站、营业执照等资质凭证。
所述不同数据源的样本数据可以不同,但来自不同数据源的样本数据中特征相互重叠,这样不同数据源的联合可以使样本数据量增多,但一个样本中的特征并不会增多。
在一个特定实施方式中,不同数据源的至少部分设备数据来自不同的设备,以及不同数据源的设备数据中包含的特征相同。
在一个特定实施方式中,数据源的设备数据可以包括积累的全部或一批设备的数据,其中,一个设备的数据可以看作一个样本。
S202,分别对来自每一数据源的数据进行预处理,生成对应于每一数据源的样本数据集,并将每一样本数据集划分为对应的训练数据集和测试数据集。
具体的,对分别对来自每一数据源的设备数据进行一系列的清洗、转换等操作,从而使得数据满足模型训练对数据的要求,例如:
缺失值填充,例如统计完数据的缺率后,舍弃缺失率超过预定阈值的数据,使用相似数据替代缺失的数据进行训练。离群值检测,例如采用隔离森林法对数据进行离群值检测检测,按预先设置的阈值(例如10%)的比率舍弃离群值。
数据分箱,例如选择合适的数据间隔,完成数据分箱操作。
特征编码,例如采用WOE编码法完成对数据的编码。
数据降维,例如采用主成分分析法对数据进行降维处理,以消除冗余特征。
数据平衡,例如采用SMOTE过采样法进行负样本数据平衡,以弥补样本数据过少带来的模型过拟合问题。
样本对齐,例如对应从外部参与方获取的数据,需要采用样本对齐技术对数据进行处理等。
在经过数据预处理后,来源于不同的数据源的数据均已经转化为可以直接输入模型的特征数据,且可训练的样本数据的ID也已经达成一致。
S203,针对每一数据源,使用对应于该数据源的训练数据集训练得到对应的子模型,从而得到多个子模型。
在一个特定实施方式中,所述多个子模型是相同类型的子模型,对于每一数据源,使用该数据源的设备数据训练得到对应的子模型。
在一个特定实施方式中,所述多个子模型包括至少两种不同类型的子模型,这些子模型由各自的特征子集训练而成。在数据处理阶段需针对数据记录进行特定方式的特征子集划分处理,并将划分出的特征子集应用于相应的子模型。
S204,针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重。
在一个特定实施方式中,用主成分分析法确定权重:指标权重等于以主成分的方差贡献率为权重,对该指标在各主成分线性组合中的系数的加权平均的归一化。因此,要确定指标权重需要知道三点:1)指标在各主成分线性组合中的系数;2)主成分的方差贡献率;3)指标权重的归一化。
可以选取接收者操作特征(Receiver Operating Characteristic,简称ROC)曲线下的面积(Area under Curve,简称AUC)作为评估函数。
在一个特定实施方式中,分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,以用作筛选指标,并作为后续子模型加权融合的权重系数。
在一个特定实施方式中,分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,根据每个子模型的AUC值以及每个子模型的初始预设权重计算每个子模型的权重。
具体的,将连续变量输入至对应的子模型后进行逐步逻辑回归训练,生成每个连续变量的最初逻辑回归系数,并根据最初逻辑回归系数选择性的对异常的连续变量进行进一步的清理以及提调整分箱,能够更加准确的评估用户。
将每一测试数据集按照预设对应关系分别输入至每个子模型中进行测试,获取每个子模型的AUC值;判断每个子模型的AUC值是否小于对应的初始预设AUC值,其中,每一个子模型分别对应于一个预设AUC值。当子模型的AUC值小于预设AUC值时,继续对剩余连续变量进行分箱;当子模型的AUC值等于预设AUC值时,即子模型准确率达到最大,那么则不再执行分箱步骤。通过对子模型中的剩余连续变量进行多次分箱处理,直至子模型的AUC值达到预设值(即最大值),使得子模型的评分更加准确。
在本示例中,该评价指标值为AUC值。但是不限于此,在其他示示例中,还可以是KS值和/或ROS值,或者是AUC值、KS值和ROS值的平均值等。上述仅作为示例进行说明,不能理解为对本发明的限制。
在一个特定实施方式中,针对每个子模型的初始权重值,分别判断各子模型的初始权重值是否收敛,当判断不满足该收敛条件时,对不满足该收敛条件的初始权重值进行调整。
由于各子模型对应的权重值可以是随机赋予的一个初始值,所以在拟合生成数据模型时,若各权重值是发散的,则可能会影响该模型的准确度,所以为了提高该异常判断模型的准确度,针对每个子模型的初始权重值,分别判断各子模型的初始权重值是否收敛,并在所述初始权重值的判断结果满足收敛条件时,根据收敛的子模型的初始权重值,拟合得到该风险评估判断模型。或者,当判断不满足该收敛条件时,对不满足该收敛条件的初始权重值进行调整。如果某一个子模型的权重值收敛,而其它子模型的权重值不收敛时,可以继续对各权重值进行训练,直至各权重值均收敛为止,并以此为该收敛条件,对各权重值进行判断;或者,也可仅针对不收敛的权重值进行训练,直至各权重值均收敛为止。或者,也可以对至少一个子模型的初始权重值进行调整,即对该子模型的初始权重值进行训练。
在一个特定实施方式中,可以采用最大期望算法(ExpectationMaximizationAlgorithm,EM算法),对该子模型对应的初始权重值进行E步计算,得到各初始权重值的更新权重值,并根据该更新权重值与该初始权重值,判断该初始权重值是否收敛。
如果收敛,将训练得到的权重值作为用于拟合模型的对应子模型的权重值,否则继续对该维度对应的子模型训练得到的权重值再次进行训练,直到训练后的权重值收敛为止。
也可仅针对不收敛的权重值进行训练,直到所有权重值都收敛为止。
根据本发明一种优选实施方式,如果数据源的缺失率超过预定阈值但没有相似数据进行替换时,年后续不使用来自该数据源的数据训练得到对应的子模型,并调整其他子模型的权重以供融合。
根据本发明一种优选实施方式,实时检测各数据源的质量,包括该数据源的数据占所有数据的比例、数据本身的有效值比例(完整度),更新周期等,并据此计算得到一个质量分。更进一步的,可以使得该数据源的权重值与这个质量分进行实时的关联,不断的调整,例如使权重值与这个质量分成反比。
更进一步来说,当监测到数据源的质量分下降到特定值,或者数据源的数据量降低到特定值时,使用虚拟数据补充该数据源,同时降低该子模型的权重。
此外,如果监测到数据源的质量分低于一个下限时值时,表明该数据源的数据接近无效,此时,无需等待该数据源完全断开,而是自动地将该数据源的权重降为0,其他数据源的权重相应提高。
S205,根据所述多个子模型的权重,将所述多个子模型进行加权融合,计算新设备的评分。
例如,在一个特定实施方式中,以评价指标值为AUC值为示例,则对包含了n个子模型的风险评估模型的计算式如下:
Ht(x)=wauc1×ht1(x)+wauc2×ht2(x)+……+waucn×htn(x)
其中,x为模型的输入值(即表示设备特征的值);Ht(x)为模型的输出值(即设备风险评估值);hti(x)分别为各子模型的计算式;ti分别为各子模型表现最好的迭代次数;wauci为各子模型的权重系数,其中i为正整数,i大于等于2,且i小于等于n。
这样,对于需要发送消息的新设备,使用上述融合多个子模型的总模型对设备进行评分,得到该设备可能产生不良行为的概率。
具体的,首先获取新设备的设备数据,设备数据可以包括但不限于设备ID、品牌、使用年限、操作系统、设备关联人的身份证明凭证、资质证明凭证、信用证明凭证、设备所处网段信息、地域信息、卫星定位信息等资料中的至少一种。
对所述新设备的设备数据也可以进行一定的预处理,以符合模型输入的格式要求。
S206、根据所述评分和预定策略向该新用户设备发送消息。
在获取了新设备可能产生不良行为的概率之后,根据既定的策略向该设备发送信息。例如,对于所述评分表示其发生不良行为的概率大于一个阈值(如80%),则不向该设备发送任何消息,或者仅发送“谢谢关注”等提示性消息。
所述发送消息的策略可以预先设定,也可通过发送消息后的设备行为表现由机器自行设定。如果是后者,也可以建立机器学习模型。采用历史的设备中对于特定消息发送后的设备行为表现进行训练,以设定发送特定消息时的不良行为评分阈值。例如,对于发送“邀请信息”的所有历史设备,对其后其不良行为进行记录后作为样本对模型进行训练,得到:当设备的不良行为评分大于N时,其其发生不良行为的概率大于一个阈值(如80%)。由此,当向设备发送“邀请信息”时,排除不良行为评分大于N的设备。
【实施例2】
图3是根据本发明的基于多数据源建模的消息发送装置的一个实施例的示意结构框图。
如图3所示,该装置包括设备数据获取模块401、数据处理模块402、子模型训练模块403、子模型权重确定模块404、加权融合模块405、消息发送模块406。所述设备数据获取模块401、数据处理模块402、子模型训练模块403、子模型权重确定模块404、加权融合模块405、消息发送模块406分别对应于实施例1中的方法步骤S201-206,在此不再赘述。
【实施例3】
图4是根据本发明的基于多数据源建模的消息发送系统的一实施例的结构框架示意图。如图4所示,该系统包括存储器和数据处理装置,存储器用于存储计算机可执行程序(或指令等),数据处理装置,用于读取所述存储器中的计算机可执行程序(或指令等),以执行前述的风险评估模型的训练方法、和/或风险评估方法,如实施例1中的方法。该系统可以是本地系统,也可以是分布式系统。本发明的存储器可以是本地存储器,也可以是分布式存储系统,例如云存储系统等。而数据处理器则包括至少一个具有人数字信息处理能力的装置,例如CPU、GPU、多处理器系统或云处理器。
【实施例4】
下面结合图5所示具体说明一个本地系统的结构的例子。该系统可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明系统的该实施例中描述的细节,应视为对于上述方法或装置/系统的实施例的补充而非限制,仅为一种本地系统状况的示例性说明,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,该示例性实施例的本地系统200以通用数据处理设备的形式表现。该系统的示例200的组件可以包括但不限于:至少一个处理单元210(即具体的数据处理装置的示例)、至少一个存储单元220(即具体的存储器的示例)、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。
其中,所述存储单元220存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元210执行,使得所述处理单元210执行本发明各种实施方式的步骤。例如,所述处理单元210可以执行前述实施例1至2的方法的各个步骤。
所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(ROM)2203。所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
本地系统200也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得设备能经由这些外部设备300与该系统200交互,和/或使得该系统200能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口250进行,还可以通过网络适配器260与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,电子设备200中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
【实施例5】
具体地,还包括一种计算机可读介质,所述计算机可读介质存储一个或多个程序,其中,当所述一个或多个程序被处理器执行时,实现前述实施例1、2中涉及本发明的方法的实施例步骤。图6是本发明的一个计算机可读介质的一个实施例的示意图。所述计算机程序可以存储于一个或多个计算机可读介质上,该可读介质可以是本地或分布式的如云存储等。
本领域技术人员可以理解,实现上述实施例的全部或部分步骤被实现为由数据处理设备(包括计算机)执行的程序,即计算机程序。在该计算机程序被执行时,可以实现本发明提供的上述方法。而且,所述的计算机程序可以存储于计算机可读存储介质即计算可读介质中,该存储介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、磁盘、光盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合比如多个存储介质组成的存储阵列,例如磁盘或磁带存储阵列。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法。进一步,所述的存储介质不限于集中式存储,其也可以是分布式存储,例如基于云计算的云存储。应当理解,为了精简本发明并帮助本领域的技术人员理解本发明的各个方面,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时在单个实施例中进行描述,或者参照单个图进行描述。但是,不应将本发明解释成示例性实施例中包括的特征均为本专利权利要求的必要技术特征。
进一步,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。所述计算机可读介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
因而,本发明可以执行计算机程序的方法、系统、电子装置或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
应当理解,可以对本发明的一个实施例的设备中包括的模块、单元、组件等进行自适应性地改变以把它们设置在与该实施例不同的设备中。可以把实施例的设备包括的不同模块、单元或组件组合成一个模块、单元或组件,也可以把它们分成多个子模块、子单元或子组件。本发明的实施例中的模块、单元或组件可以以硬件方式实现,也可以以一个或者多个处理器上运行的软件方式实现,或者以它们的组合实现。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
综上所述,本发明可以执行计算机程序的方法、装置、系统或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种基于多数据源建模的消息发送方法,其特征在于,该方法包括如下步骤:
分别获取来自多个不同数据源的设备数据,所述不同数据源的设备数据中特征相互重叠;
分别使用来自每一数据源的数据生成对应于每一数据源的样本数据集,并将每一样本数据集划分为对应的训练数据集和测试数据集;
针对每一数据源,使用对应于该数据源的训练数据集训练得到对应的子模型,从而得到多个子模型;
针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重;
根据所述多个子模型的权重,将所述多个子模型的输出值进行加权融合,计算新设备的评分;
根据所述评分和预定策略向该新设备发送消息。
2.如权利要求1所述的方法,其特征在于:
所述针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重,具体为:
分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,并作为后续子模型加权融合的权重系数。
3.如权利要求1所述的方法,其特征在于:
所述针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重,具体为:
分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,根据每个子模型的AUC值以及每个子模型的初始预设权重计算每个子模型的权重。
4.如权利要求1所述的方法,其特征在于:
所述针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重,具体为:
针对每个子模型的初始权重值,分别判断各子模型的初始权重值是否收敛,如果不满足该收敛条件,对不满足该收敛条件的初始权重值进行调整。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
分别对来自每一数据源的数据进行预处理的步骤。
6.根据权利要求5所述的方法,其特征在于:
所述分别对来自每一数据源的数据进行预处理,具体为对所述数据做缺失值填充,统计完数据的缺率后,舍弃缺失率超过预定阈值的数据,使用相似数据替代缺失的数据进行训练。
7.根据权利要求6所述的方法,其特征在于:
如果没有相似数据,则后续不使用来自该数据源的数据训练得到对应的子模型,并调整其他子模型的权重以供融合。
8.根据权利要求1-7任一项所述的方法,其特征在于:
所述多个子模型是相同类型的子模型;
或,所述多个子模型包括至少两种不同类型的子模型。
9.一种基于多数据源建模的消息发送装置,其特征在于,包括:
数据获取模块,分别获取来自多个不同数据源的设备数据,所述不同数据源的设备数据中特征相互重叠;
数据处理模块,分别使用来自每一数据源的数据生成对应于每一数据源的样本数据集,并将每一样本数据集划分为对应的训练数据集和测试数据集;
子模型训练模块,针对每一数据源,使用对应于该数据源的训练数据集训练得到对应的子模型,从而得到多个子模型;
子模型权重确定模块,针对每一数据源,根据各个子模型自身的贡献,对贡献值做标准化处理,得到各个子模型的权重;
评分计算模块,根据所述多个子模型的权重,将所述多个子模型的输出值进行加权融合,计算新设备的评分;
消息发送模块,根据所述评分和预定策略向该新设备发送消息。
10.如权利要求9所述的装置,其特征在于:
所述子模型权重确定模块分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,并作为后续子模型加权融合的权重系数。
11.如权利要求9所述的装置,其特征在于:
所述子模型权重确定模块分别使用来自每一数据源的测试数据集输入到对应的子模型进行测试,获得每个子模型的AUC值,根据每个子模型的AUC值以及每个子模型的初始预设权重计算每个子模型的权重。
12.如权利要求9所述的装置,其特征在于:
所述子模型权重确定模块针对每个子模型的初始权重值,分别判断各子模型的初始权重值是否收敛,如果不满足该收敛条件,对不满足该收敛条件的初始权重值进行调整。
13.根据权利要求9-12任一项所述的装置,其特征在于:
所述数据处理模块分别对来自每一数据源的数据进行预处理。
14.根据权利要求13所述的装置,其特征在于:
所述分别对来自每一数据源的数据进行预处理,是指对所述数据做缺失值填充,统计完数据的缺率后,舍弃缺失率超过预定阈值的数据,使用相似数据替代缺失的数据进行训练。
15.根据权利要求14所述的装置,其特征在于:
如果没有相似数据,则后续不使用来自该数据源的数据训练得到对应的子模型,并调整其他子模型的权重以供融合。
16.根据权利要求9-15任一项所述的装置,其特征在于:
所述多个子模型是相同类型的子模型;
或,所述多个子模型包括至少两种不同类型的子模型。
17.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-8中任一项所述的方法。
18.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-8中任一项所述的方法。
CN202110484137.9A 2021-04-30 2021-04-30 基于多数据源建模的消息发送方法、装置和电子设备 Active CN113298121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110484137.9A CN113298121B (zh) 2021-04-30 2021-04-30 基于多数据源建模的消息发送方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110484137.9A CN113298121B (zh) 2021-04-30 2021-04-30 基于多数据源建模的消息发送方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN113298121A true CN113298121A (zh) 2021-08-24
CN113298121B CN113298121B (zh) 2023-08-18

Family

ID=77320957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110484137.9A Active CN113298121B (zh) 2021-04-30 2021-04-30 基于多数据源建模的消息发送方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN113298121B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130623A (zh) * 2022-09-01 2022-09-30 浪潮通信信息系统有限公司 数据融合方法、装置、电子设备及存储介质
CN117764631A (zh) * 2024-02-22 2024-03-26 山东中翰软件有限公司 基于源端静态数据建模的数据治理优化方法及系统
CN118051740A (zh) * 2024-02-27 2024-05-17 四川省地球物理调查研究所 融合多数据源的地质构造分析方法及存储介质
CN118069660A (zh) * 2024-04-22 2024-05-24 中航信移动科技有限公司 一种多数据源的数据归一化方法、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108076154A (zh) * 2017-12-21 2018-05-25 广东欧珀移动通信有限公司 应用信息推荐方法、装置及存储介质和服务器
CN110263251A (zh) * 2019-06-17 2019-09-20 广东电网有限责任公司 一种基于上下文模型的运维知识推送方法及装置
CN111553759A (zh) * 2020-03-25 2020-08-18 平安科技(深圳)有限公司 一种产品信息推送方法、装置、设备及存储介质
CN112241494A (zh) * 2020-12-10 2021-01-19 平安科技(深圳)有限公司 基于用户行为数据的关键信息推送方法及装置
CN112258312A (zh) * 2020-10-16 2021-01-22 银联商务股份有限公司 个人信用评分方法及其系统、电子设备及存储介质
CN112270545A (zh) * 2020-10-27 2021-01-26 上海淇馥信息技术有限公司 基于迁移样本筛选的金融风险预测方法、装置和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108076154A (zh) * 2017-12-21 2018-05-25 广东欧珀移动通信有限公司 应用信息推荐方法、装置及存储介质和服务器
CN110263251A (zh) * 2019-06-17 2019-09-20 广东电网有限责任公司 一种基于上下文模型的运维知识推送方法及装置
CN111553759A (zh) * 2020-03-25 2020-08-18 平安科技(深圳)有限公司 一种产品信息推送方法、装置、设备及存储介质
CN112258312A (zh) * 2020-10-16 2021-01-22 银联商务股份有限公司 个人信用评分方法及其系统、电子设备及存储介质
CN112270545A (zh) * 2020-10-27 2021-01-26 上海淇馥信息技术有限公司 基于迁移样本筛选的金融风险预测方法、装置和电子设备
CN112241494A (zh) * 2020-12-10 2021-01-19 平安科技(深圳)有限公司 基于用户行为数据的关键信息推送方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115130623A (zh) * 2022-09-01 2022-09-30 浪潮通信信息系统有限公司 数据融合方法、装置、电子设备及存储介质
CN117764631A (zh) * 2024-02-22 2024-03-26 山东中翰软件有限公司 基于源端静态数据建模的数据治理优化方法及系统
CN118051740A (zh) * 2024-02-27 2024-05-17 四川省地球物理调查研究所 融合多数据源的地质构造分析方法及存储介质
CN118069660A (zh) * 2024-04-22 2024-05-24 中航信移动科技有限公司 一种多数据源的数据归一化方法、电子设备及存储介质
CN118069660B (zh) * 2024-04-22 2024-07-12 中航信移动科技有限公司 一种多数据源的数据归一化方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN113298121B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN113298121B (zh) 基于多数据源建模的消息发送方法、装置和电子设备
CN111681091B (zh) 基于时间域信息的金融风险预测方法、装置及存储介质
CN110119413A (zh) 数据融合的方法和装置
CN112700252B (zh) 一种信息安全性检测方法、装置、电子设备和存储介质
CN110599335A (zh) 一种基于多模型的用户金融风险评估方法和装置
CN112508580A (zh) 基于拒绝推断方法的模型构建方法、装置和电子设备
CN111127178A (zh) 数据处理方法与装置、存储介质、电子设备
CN112561685B (zh) 客户的分类方法和装置
CN112039702B (zh) 基于联邦学习和相互学习的模型参数训练方法及装置
CN108428001B (zh) 信用分值预测方法及装置
CN113627566A (zh) 一种网络诈骗的预警方法、装置和计算机设备
CN114186626A (zh) 一种异常检测方法、装置、电子设备及计算机可读介质
US20180349476A1 (en) Evaluating theses using tree structures
CN112561320A (zh) 机构风险预测模型的训练方法、机构风险预测方法和装置
CN111582645B (zh) 基于因子分解机的app风险评估方法、装置和电子设备
CN113762973A (zh) 数据处理方法、装置、计算机可读介质及电子设备
CN113935738B (zh) 交易数据处理方法、装置、存储介质及设备
CN117437020A (zh) 商户风险判定方法、装置、电子设备和介质
CN117113222A (zh) 数据分析模型的生成方法、生成装置和电子设备
CN111382909A (zh) 基于生存分析模型扩展坏样本的拒绝推断方法及相关设备
CN115545088B (zh) 模型构建方法、分类方法、装置和电子设备
CN113568739B (zh) 用户资源额度分配方法、装置及电子设备
CN114239985A (zh) 汇率预测方法、装置、电子设备及存储介质
CN114493853A (zh) 信用等级评价方法、装置、电子设备及存储介质
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant