CN114090873A - 匹配数据的方法、装置、设备和计算机可读介质 - Google Patents
匹配数据的方法、装置、设备和计算机可读介质 Download PDFInfo
- Publication number
- CN114090873A CN114090873A CN202111262497.0A CN202111262497A CN114090873A CN 114090873 A CN114090873 A CN 114090873A CN 202111262497 A CN202111262497 A CN 202111262497A CN 114090873 A CN114090873 A CN 114090873A
- Authority
- CN
- China
- Prior art keywords
- data
- users
- user
- classified
- acquired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了匹配数据的方法、装置、设备和计算机可读介质,涉及计算机技术领域。该方法的一具体实施方式包括:针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据;采用预设分类模型,将所述用户按照再次获取数据的概率分为多类;针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户;按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据。该实施方式能够提高匹配数据的准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种匹配数据的方法、装置、设备和计算机可读介质。
背景技术
随着人工智能技术浪潮的到来,机器学习与深度学习的应用日益成熟,人工智能结合的行业已经逐步发展为智能、数字、科技护体的新形态。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:采用常规匹配数据的方式,随机选择客户并统一发送消息,导致匹配数据的准确率较低。
发明内容
有鉴于此,本发明实施例提供一种匹配数据的方法、装置、设备和计算机可读介质,能够提高匹配数据的准确率。
为实现上述目的,根据本发明实施例的一个方面,提供了一种匹配数据的方法,包括:
针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据;
采用预设分类模型,将所述用户按照再次获取数据的概率分为多类;
针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户;
按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据。
所述用户信息包括以下一种或多种:用户标识、年龄、性别和收入权重;
所述用户浏览记录包括以下一种或多种:预设时间段内的浏览总次数、预设时间段内的浏览总时长和预设时间段内的访问页面数量和是否N天活跃,N是大于等于1的实数。
所述预设分类模型是依据再次获取训练数据的等级、用户信息、用户浏览记录和已获取训练数据确定的,所述再次获取训练数据的等级是基于复购率或已购保单数量确定。
所述分类用户的相似用户是基于概率大于预设阈值的分类用户的历史浏览记录和历史获取记录确定的。
所述针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户,包括:
针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录、浏览行为的评分、历史获取记录和获取行为的评分,确定所述分类用户的待获取数据;
基于所述分类用户的待获取数据,选择出所述分类用户的相似用户。
所述按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据,包括:
按照所述分类用户的历史浏览时间和历史浏览渠道,确定发送数据的预设时间和所述预设时间的预设渠道;
将所述分类用户的待获取数据和所述相似用户的已获取数据,作为匹配数据;
按照所述预设渠道和所述预设时间,发送所述匹配数据。
所述结合二分类模型,判断所述客户用户会再次获取数据之前,还包括:
在所述用户信息、所述已获取数据的参数和所述用户浏览记录中,剔除高相关性的参数。
根据本发明实施例的第二方面,提供了一种匹配数据的装置,包括:
判断模块,用于针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据;
分类模块,用于采用预设分类模型,将所述用户按照再次获取数据的概率分为多类;
数据模块,用于针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户;
匹配模块,用于按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据。
根据本发明实施例的第三方面,提供了一种匹配数据的电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的方法。
根据本发明实施例的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述的方法。
上述发明中的一个实施例具有如下优点或有益效果:针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据;采用预设分类模型,将所述用户按照再次获取数据的概率分为多类;针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户;按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据。
首先,利用二分类模型在已获取数据中,筛选出会再次获取数据的用户。再摒除大量非再次获取数据的用户的情况下,采用预设分类模型分类再次获取数据的用户。上述分类的用户数量远远小于原始用户的数量,因而缩短匹配数据的时间。
其次,针对再次获取数据的用户,一方面从该用户自身出发预测待获取数据,另一个从相似用户出发获取数据,进而提高匹配数据的准确率。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的匹配数据的方法的主要流程的示意图;
图2是根据本发明实施例的判断用户会再次获取数据的流程示意图;
图3是根据本发明实施例的确定分类用户的待获取数据和分类用户的相似用户的流程示意图;
图4是根据本发明实施例的为分类用户匹配数据的流程示意图;
图5是根据本发明实施例的筛选用户的示意图;
图6是根据本发明实施例的发送任务的示意图;
图7是根据本发明实施例的匹配数据的装置的主要结构的示意图;
图8是本发明实施例可以应用于其中的示例性系统架构图;
图9是适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
人工智能已逐步应用到保险服务流程和保险公司经营的各个环节,如:千人千面保险产品、基于用户的动态产品定价、风控降低理赔风险、OCR识别快速车险理赔、反欺诈模型降低赔付风险和NLP规范坐席术语以洞察电销用户喜好等。
千人千面的定制化产品与多形态的精准触达交叉,是人工智能在保险行业应用的一个重要领域。借助人工智能,为用户分群,洞察不同群体用户偏好、预测未来动向,致力于精准化多形态营销,以及提升用户的召回率。
目前,常规匹配数据的方式是随机筛选出一批失效的用户以统一发送消息以实现数据的匹配,进而实现对用户的营销。上述盲目的营销方式,由于没有挖掘到用户的真正需求,营销效果不佳,且运营成本偏高。
为了解决匹配数据的准确性较低,可以采用以下本发明实施例中的技术方案。
参见图1,图1是根据本发明实施例的匹配数据的方法主要流程的示意图,通过分析已获取数据的用户,从用户自身和相似用户两方面实现数据的匹配。如图1所示,具体包括以下步骤:
S101、针对已获取数据的用户,按照用户信息、已获取数据的参数和用户浏览记录,结合二分类模型,判断用户会再次获取数据。
在本发明的实施例中,针对已获取数据的用户再次匹配数据。其中,已获取数据的用户是已经存在获取数据记录的用户。作为一个示例,已获取数据的用户包括存在购买记录的用户,即购买记录的次数大于等于1。
参见图2,图2是根据本发明实施例的判断用户会再次获取数据的流程示意图,具体包括以下步骤:
S201、清洗已获取数据的原始用户,得到已获取数据的用户。
已获取数据的用户涉及数据较多,但并非每个用户的用户信息均是完整的。那么,对于已获取数据的原始用户需要清洗,才能得到已获取数据的用户。可以理解的是,已获取数据的用户是在已获取数据的原始用户的基础上,经清洗和剔除获得的用户。
下面简要介绍清洗原始数据的具体过程。
已获取数据的原始用户的特征存储在Hadoop平台上。作为一个示例,已获取数据的原始用户的特征包括以下一种或多种:用户标识(ID),投保人年龄,投保人性别,收入权重,保单件数,浏览总次数,浏览总时长,访问页面数,是否30天活跃和是否60天活跃等。
对于已获取数据的原始用户的特征存在不完整的情况,即存在缺失值的情况,需要处理缺失值。作为一个示例,采用以下一种或多种方式处理缺失值:填0法、零值差值、均值插补、中位数插补、固定值插补、临近值插补和拉格朗日插值法。
处理缺失值后,可以按照预设参数区间清洗上述原始用户的特征。对于原始用户的特征预设参数区间,已获取数据的原始用户经清洗后,得到处于预设参数区间内的原始用户,即已获取数据的用户。
S202、针对已获取数据的用户,按照用户信息、已获取数据的参数和用户浏览记录,结合二分类模型,判断用户会再次获取数据。
在本发明实施例中,采用二分类模型,判断用户是否会再次获取数据。其中,所使用的二分类模型是经训练得到的模型。作为一个示例,二分类模型是在以下算法的基础上训练得到的。Adaboost算法、 GBDT算法、SVM算法、LR算法、RF算法和Xgboost算法。在训练模型的过程中,采用AUC、查准率和查全率,衡量模型的训练效果。
针对已获取数据的原始用户,将用户信息、已获取数据的参数和用户浏览记录,输入二分类模型就可以判断出用户是否会再次获取数据。
其中,用户信息包括用户ID、投保人年龄、投保人性别和收入权重。收入权重包括投保人的收入占家庭收入的比例。已获取数据的参数包括:已购保单的数量和已购保单的购买价格。用户浏览记录包括:预设时间段内的浏览总次数、预设时间段内的浏览总时长和预设时间段内的访问页面数量、是否N天活跃和是否N天活跃,N是大于等于 1的实数。N的数值可以按照实际应用场景预设。
在图2的实施例中,针对清洗后原始用户,结合二分类模型,判断出再次会获取数据的用户。
在本发明实施例中,采用二分类模型将用户分为两类,第一类是非再次获取数据的用户,第二类是会再次获取数据的用户。对于第一类用户,无需匹配数据;对于第二类用户,可能需要匹配数据。可知,二分类模型的作用在于剔除无需匹配数据的用户,进而筛选出需要匹配数据的用户。
S102、采用预设分类模型,将用户按照再次获取数据的概率分为多类。
在本发明实施例中,采用预设分类模型,将用户按照再次获取数据的概率分为多类。需要说明的是,预设分类模型是经训练得到的模型。作为一个示例,预设分类模型是根据XGBoost算法或RF算法建立的。
在本发明的一个实施例中,预设分类模型是依据再次获取训练数据的等级、用户基本信息、用户浏览信息和已获取训练数据确定的。
在本发明实施例中,采用预设分类模型,将用户按照再次获取数据的概率分为多类。需要说明的是,所分类的用户,并非原始用户,而是会再次获取数据的用户。也就是说,相比于原始客户,会再次获取数据的用户数量大大减少,那么采用预设分类模型分类,能够提高准确性和缩短分类时间。
下面示例性地说明,建立预设分类模型的过程。
再次获取训练数据的等级是用户再次获取训练数据的等级。再次获取训练数据的等级可以基于复购率或已购保单数量确定。
作为一个示例,再次获取训练数据的等级包括等级1、等级2和等级3。
等级1:复购率≤60%;或,保单数量为2单或3单。
等级2:60%<复购率≤80%;或,3单<保单数量<12单。
等级3:复购率≥80%;或,保单数量≥12单。
预设分类模型是基于再次获取训练数据的等级、用户信息、用户浏览记录和已获取训练数据确定的。也就是说,利用训练数据所涉及的再次获取训练数据的等级和已获取训练数据,训练得到预设分类模型。
得到预设分类模型后,在预设分类模型中输入:再次获取数据的等级、用户信息、用户浏览记录和已获取训练数据。预设分类模型输出用户再次获取数据的概率。然后,按照再次获取数据的概率,将用户分为多类。
作为一个示例,依据预设阈值,将用户分为大于预设阈值的一类和小于等于预设阈值的一类。这样做的目的在于:再次获取数据的概率大于预设阈值的用户,往往会再次获取数据。通过预设阈值精选用户,在减少匹配数据的用户的同时,缩短匹配数据的耗时。
在本发明的一个实施例中,以已获取数据的参数包括投保人购买保单为例,比较XGBoost算法或RF算法进行示例性的说明。
将投保人购买保单在两单及两单以上的客户,定义为“复购客户”。其中,续保客户也认为是复购客户,保单的件均保费大于80元以上,复购率的公式如下:
n次复购率=第n次的复购人数/(第n-1次的复购人数), n=2,3,4,...
复购率划分如表1所示,表1是保单作为样本的复购率划分示意表:
表1
抽取保单样本129144条数据,等级1:等级2:等级3=4:3:3。等级1的样本共计57276条,等级2的样本共计35000条,等级3的样本共计36868条。具体详情见表2:
表2
复购等级 | 人数 | 占比 |
1 | 57276 | 44.4% |
2 | 35000 | 27.1% |
3 | 36868 | 28.5% |
总计 | 129144 | 100.0% |
针对上述样本进行数据统计分析复购概率,统计样本的覆盖率,用填0法预处理数据,并分析各个指标的相关性。
借助XGBoost算法和RF算法训练,经各个指标对比分析,发现 RF算法效果优于XGBoost算法,具体对比效果如表3所示。表3是评估XGBoost算法和RF算法的指标对比。
表3
评估方式 | XGBoost | RF |
MSE | 0.9721 | 0.9338 |
Kappa值 | 0.9540 | 0.96900 |
Mse:代表均方误差,误差越小越好,由此可见RF算法优于GBDT 模型算法。
Kappa系数是衡量分类精度的指标,计算公式为:K=(P0-Pe)/(1-Pe); P0为实际一致率,Pe为理论一致率,由此可见RF算法优于XGBoost 算法。
在上述实施例中,二分类模型用于判断用户是否会再次获取数据;预设分类模型用于确定用户再次获取数据的概率;预设阈值用于精选需要匹配数据的用户。
由于二分类模型与预设分类模型的训练数据不同,因而二分类模型与预设分类模型的作用不同。先通过二分类模型筛选出用户会再次获取数据;然后采用预设分类模型,确定用户再次获取数据的概率。最后,利用预设阈值精选出需要匹配数据的用户。
采用二分类模型、预设分类模型和预设阈值层层筛选,减少用户数量的同时,提高用户分类的速度和正确率。
S103、针对概率大于预设阈值的分类用户,结合分类用户的历史浏览记录和历史获取记录,确定分类用户的待获取数据和分类用户的相似用户。
概率大于预设阈值的分类用户,再次获取数据的可能性较大。进而,从两方面着手,即历史浏览记录和历史获取记录,确定待获取数据和相似用户。也就是说,待获取数据是基于概率大于预设阈值的分类用户的历史浏览记录和历史获取记录确定的;相似用户是基于概率大于预设阈值的分类用户的历史浏览记录和历史获取记录确定的。作为一个示例,预设阈值为50%。
需要说明的是,下文所涉及的技术方案是在再次获取数据的概率大于预设阈值的分类用户的基础上实现的,因此下述涉及的分类用户是指:再次获取数据的概率大于预设阈值的分类用户。
参见图3,图3是根据本发明实施例的确定分类用户的待获取数据和分类用户的相似用户的流程示意图,具体包括以下步骤:
S301、针对概率大于预设阈值的分类用户,结合分类用户的历史浏览记录和历史获取记录,确定分类用户的待获取数据。
分类用户的待获取数据是该用户获取可能性较大的数据。从分类用户自身而言,获取曾经浏览过数据和/或已获取数据的可能性较大。
考虑到分类用户并非首次获取数据,因此存在历史浏览记录和历史获取记录的可能性较大,因而能够结合分类用户的历史浏览记录和历史获取记录,确定分类用户的待获取数据。
当然,对于历史浏览记录和/或历史获取记录为空的分类用户,可以预设历史浏览记录和/或历史获取记录,从而确定待获取数据。作为一个示例,预设历史浏览记录包括用户常用商品的浏览记录。历史获取记录包括用户常用商品的购买记录。
在本发明实施例中,分类用户的历史浏览记录具体包括历史浏览次数和历史浏览时长。其中,历史浏览时长是指在一次浏览过程中的时长。作为一个示例,历史浏览次数包括两次,第一次历史浏览次数的历史浏览时长是10分钟;第二次历史浏览次数的历史浏览时长是5 分钟。
基于历史浏览次数和历史浏览时长,确定浏览行为的评分。作为一个示例,浏览行为的评分=历史浏览次数×0.3+历史浏览时长× 0.7。其中,0.3和0.7是预设权重,预设权重可以根据实际需要调整。
在本发明实施例中,历史获取记录包括物品件数和单价。基于物品件数和单价,确定获取行为的评分。作为一个示例,获取行为的评分=产品件数×0.5+单价×0.5。
结合上述浏览行为的评分和获取行为的评分,最终确定产品评分。其中,预设浏览行为的权重和获取行为的权重。作为一个示例,浏览行为的权重=0.4,获取行为的权重=0.6。按照产品评分将前K个产品的数据作为分类用户的待获取数据。K是大于0的预设参数。
可以理解的是,分类用户的待获取数据与浏览过的产品和已获取的产品相关性较高。
S302、基于分类用户的待获取数据,选择出分类用户的相似用户。
在本发明的实施例中,一方面从分类用户的历史记录中着手,确定待获取数据;另一方面从用户着手,确定分类用户的相似用户。
具体来说,以分类用户的待获取数据作为确定相似用户的依据。一般来说,两个用户获取相同的数据,则两个用户是相似用户的可能性较大。
作为一个示例,对于用户A的所有类目数据的喜好度向量和用户 B的所有类目数据的喜欢度向量而言,在多维空间的夹角可以用向量余弦公式计算。其中,喜好度向量是由多种类的数据组成的向量。向量中的每个元素代表用户对于该数据的已获取。如:1代表已获取;0代表未获取。进而,以余弦相似度衡量用户A与用户B的相似程度。作为一个示例,用户已购买的产品的数据,标记为已获取;用户未购买的产品的数据,标记为未获取。
下面简要介绍余弦相似度。
余弦相似度使用原理是采用余弦函数。向量是空间中带箭头的线段,2个向量之间的夹角越小,表明2个向量的相似度越相近,多个属性的向量表示为r(x1,x2,...,xn)。
对于用户A的对于所有类目商品的喜好度向量rA(A1,A2,...,An)和用户B的向量rB(B1,B2,...,Bn)而言,两者在多维空间的夹角可以用向量余弦公式计算:
余弦值的值域在-1,1之间,0表示完全垂直90°,-1表示夹角180°, 1表示夹角为0°。系数越靠近1,向量夹角越小,两个用户的相关性越高。
用户A和用户B而言,他们的相似度为:
作为一个示例,相似程度与余弦相似度的对应关系包括:
非常相似:0.8—1.0;
比较相似:0.6—0.8;
一般:0.4—0.6;
不太相似:0—0.4;
完全不相似:-1.0—0。
基于分类用户的待获取数据,获知并按照余弦相似度,确定分类用户的相似用户。作为一个示例,将余弦相似度0.8—1.0之间的用户,作为分类用户的相似用户。
可以理解的是,基于分类用户的待获取数据确定该分类用户与其他用户的余弦相似度。基于上述余弦相似度和相似程度与余弦相似度的对应关系,选择出分类用户的相似用户。考虑到分类用户的待获取数据是由历史浏览记录和历史获取记录确定的。那么,相似用户是基于概率大于预设阈值的分类用户的历史浏览记录和历史获取记录确定的。
在图3的实施例中,对于概率大于预设阈值的分类用户,基于历史浏览记录和历史获取记录,确定待获取数据和相似用户,以提高匹配数据的准确性和丰富性。
S104、按照分类用户的待获取数据、相似用户、分类用户的历史浏览时间和历史浏览渠道,为分类用户匹配数据。
为分类用户匹配数据涉及数据、时间和渠道,即在预设时间,在预设渠道以数据为基础,实现为分类用户匹配数据。
参见图4,图4是根据本发明实施例的为分类用户匹配数据的流程示意图,具体包括以下步骤:
S401、按照分类用户的历史浏览时间和历史浏览渠道,确定发送数据的预设时间和预设渠道。
对于分类用户来说,一般会在固定时间浏览数据。按照分类用户的历史浏览时间确定预设时间。作为一个示例,分类用户A在早晨8 点和下午8点浏览数据,因此将发送数据的预设时间确定为早晨8点和下午8点。
用户可以通过多种浏览渠道获取数据。作为一个示例,渠道包括以下一种或多种,应用(APP)主动获取、APP推送、网页主动获取、网页推送和电话沟通。
按照分类用户的历史浏览渠道确定预设渠道。作为一个示例,分类用户A通常接收APP推送的数据;分类用户B接听电话以获取数据。
在本发明的一个实施例中,考虑到分类用户会随着浏览时间的不同,通过不同的浏览渠道获取数据。作为一个示例,用户A在早晨8 点通过APP推送获取数据,用户A在下午4点通过网页主动获取数据,用户A在晚上9点从APP主动获取数据。
针对于上述情况,可以按照历史浏览时间和历史浏览渠道,确定发送数据的预设时间和预设渠道。也就是说,发送数据的预设时间不同,则预设渠道可能是不同的。
S402、将分类用户的待获取数据和相似用户的已获取数据,作为匹配数据。
分类用户的相似用户已获取的数据,并不完全与分类用户已获取的数据相同,因此可以将相似用户已获取的数据中,与分类用户已获取数据不同的数据作为匹配数据。
此外,分类用户的待获取数据是分类用户获取可能性较大的数据。进而还可以将分类用户的待获取数据作为匹配数据。
可以理解的是,匹配数据由两部分组成,一部分是相似用户已获取的数据,且并非分类用户已获取的数据;另一部分是分类用户的待获取数据。
S403、按照预设渠道和预设时间,发送匹配数据。
在确定发送数据的预设时间和发送数据的预设渠道之后,就可以发送匹配数据。作为一个示例,为了提醒用户,可以多次发送同样的匹配数据。如:在第一预设时间,通过第一预设渠道,发送匹配数据1;在第二预设时间,通过第二预设渠道,发送匹配数据2。
在图4的实施例中,通过预设时间和预设渠道,为分配用户匹配数据。由于发送匹配数据的时间和渠道符合用户习惯,进而能够提高匹配的准确率。
下面以为用户匹配数据为例,示例性说明按照预设渠道和预设时间,发送匹配数据。
首先,筛选出再次获取数据的概率大于预设阈值的分类用户。根据上述分类用户的ID、历史浏览记录和历史获取记录,确定待获取数据。作为一个示例,数据具体是产品。可以基于用户历史浏览记录和历史获取记录所涉及产品与其他产品的相似度,采用协同过滤算法,计算出用户喜爱的产品列表。此外,还可以将相似用户已获取的产品中,与用户已获取产品不同的产品增加到产品列表中。也就是说,产品列表包括匹配数据。
参见图5,图5是根据本发明实施例的筛选用户的示意图。图5中是涉及筛选用户。具体可以通过图5所示软件界面实现。需要说明的是,图5筛选用户是概率大于预设阈值的分类用户,即需要匹配数据的用户。
图5需要填写或选择多项内容。如:客群名称、客群描述和筛选条件。其中,筛选条件可以从可选指标中选择。可选指标包括:客群总数、身份证、可触达数量、手机数量、设备数量和邮箱数量。其中,设备数量不仅包括手机数量,还包括其他终端的数量,如:平板电脑和个人电脑等。上述产品列表中的产品,在销售平台上配置标签后向 ID对应的用户销售。
对于匹配数据的方式,即销售产品的方式,可以采用以下策略:
策略一:根据购买小时偏好制定,每个用户的推荐时间。
策略二:根据购买产品的平台偏好,制定每个用户的推荐渠道。
策略三:根据浏览用户的浏览时间偏好,制定每个用户下发消息的时间。
向用户下发数据的渠道包括:APP主动获取、APP推送、网页主动获取、网页推送和电话沟通中的一种或多种。
参见表4,表4是销售产品对应渠道的统计表。其中,销售方案已标识区分,APP1即应用1;PC即通过个人电脑下发数据;WAP即通过移动终端浏览器下发数据;健康APP即健康类APP;官网APP即销售产品的官方网站;社交APP即社交类APP。
表4
对于每件产品可以结合表4中的销售方案,选择产品列表中的前几名产品,按照每个客户的推荐时间通过渠道发送,向用户定时定向的个性化销售。
在表4的销售方案中,通过统计可知销售方案S20180087较佳,因为该方案在各个渠道销量最多。那么,可以采用销售方案S20180087 销售产品。
作为一个示例,可以采用ABTest监控效果。如:通过选择不同的推荐时间,实现ABTest,以确定更好的推荐时间;再如:通过选择不同的推荐渠道,实现ABTest,以确定更优的推荐渠道。
参见图6,图6是根据本发明实施例的发送任务的示意图。以发送任务的方式为用户匹配数据。
图6需要填写以下几个选项。任务类型、任务名称、发送模式、 客群名称、发送渠道和消息模板。其中,任务类型包括单任务和任务 组。发送模型可以选择立即发送或按照预设时间发送。客群名称即图5 中所填写的内容。发送渠道可以在APP、网页和电话中选择。消息模 板是指发送消息所对应的模板。作为一个示例,消息模型可以选择APP 和通知内容。
在本发明的一个实施例中,可以通过包括图5和图6的智能营销平台按照预设渠道和预设时间,向用户发送匹配数据。在智能营销平台中可以填写任务类型、预设渠道和预设时间等。如:任务类型包括单任务和任务组。
在本发明的一个实施例中,二分类模型筛选出用户会再次获取数据;预设分类模型确定用户再次获取数据的概率。为分类用户匹配数据后,可以将上述匹配数据作为匹配成功的数据,以更新二分类模型和预设分类模型。
作为一个示例,采用预设周期更新二分类模型和预设分类模型。其中,二分类模型的更新周期可以不同于,预设分类模型的更新周期。作为另一个示例,确定匹配成功的数据之后,就可以实时以匹配成功的数据,更新二分类模型和/或预设分类模型。
在上述实施例中,针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据;采用预设分类模型,将所述用户按照再次获取数据的概率分为多类;针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户;按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据。
首先,利用二分类模型在已获取数据中,筛选出会再次获取数据的用户。再摒除大量非再次获取数据的用户的情况下,采用预设分类模型分类再次获取数据的用户。上述分类的用户数量远远小于原始用户的数量,因而缩短匹配数据的时间。
其次,针对再次获取数据的用户,一方面从该用户自身出发预测待获取数据,另一个从相似用户出发获取数据,进而提高匹配数据的准确率。
参见图7,图7是根据本发明实施例的匹配数据的装置的主要结构的示意图,匹配数据的装置可以实现匹配数据的方法,如图7所示,匹配数据的装置具体包括:
判断模块701,用于针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据;
分类模块702,用于采用预设分类模型,将所述用户按照再次获取数据的概率分为多类;
数据模块703,用于针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户;
匹配模块704,用于按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据。
在本发明的一个实施例中,所述用户信息包括以下一种或多种:用户标识、年龄、性别和收入权重;
所述用户浏览记录包括以下一种或多种:预设时间段内的浏览总次数、预设时间段内的浏览总时长和预设时间段内的访问页面数量和是否N天活跃,N是大于等于1的实数。
在本发明的一个实施例中,所述预设分类模型是依据再次获取训练数据的等级、用户信息、用户浏览记录和已获取训练数据确定的,所述再次获取训练数据的等级是基于复购率或已购保单数量确定。
在本发明的一个实施例中,所述分类用户的相似用户是基于概率大于预设阈值的分类用户的历史浏览记录和历史获取记录确定的。
在本发明的一个实施例中,数据模块703,具体用于针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录、浏览行为的评分、历史获取记录和获取行为的评分,确定所述分类用户的待获取数据;
基于所述分类用户的待获取数据,选择出所述分类用户的相似用户。
在本发明的一个实施例中,匹配模块704,具体用于按照所述分类用户的历史浏览时间和历史浏览渠道,确定发送数据的预设时间和所述预设时间的预设渠道;
将所述分类用户的待获取数据和所述相似用户的已获取数据,作为匹配数据;
按照所述预设渠道和所述预设时间,发送所述匹配数据。
在本发明的一个实施例中,判断模块701,还用于在所述用户信息、所述已获取数据的参数和所述用户浏览记录中,剔除高相关性的参数。
图8示出了可以应用本发明实施例的匹配数据的方法或匹配数据的装置的示例性系统架构800。
如图8所示,系统架构800可以包括终端设备801、802、803,网络804和服务器805。网络804用以在终端设备801、802、803和服务器805之间提供通信链路的介质。网络804可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备801、802、803通过网络804与服务器805 交互,以接收或发送消息等。终端设备801、802、803上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备801、802、803可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器805可以是提供各种服务的服务器,例如对用户利用终端设备801、802、803所浏览的购物类网站提供支持的后台管理服务器 (仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息-- 仅为示例)反馈给终端设备。
需要说明的是,本发明实施例所提供的匹配数据的方法一般由服务器805执行,相应地,匹配数据的装置一般设置于服务器805中。
应该理解,图8中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
下面参考图9,其示出了适于用来实现本发明实施例的终端设备的计算机系统900的结构示意图。图9示出的终端设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908 加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/ 输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被中央处理单元(CPU) 901执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括判断模块、分类模块、数据模块和匹配模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,判断模块还可以被描述为“用于针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:
针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据;
采用预设分类模型,将所述用户按照再次获取数据的概率分为多类;
针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户;
按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据。
根据本发明实施例的技术方案,针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据;采用预设分类模型,将所述用户按照再次获取数据的概率分为多类;针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户;按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据。
首先,利用二分类模型在已获取数据中,筛选出会再次获取数据的用户。再摒除大量非再次获取数据的用户的情况下,采用预设分类模型分类再次获取数据的用户。上述分类的用户数量远远小于原始用户的数量,因而缩短匹配数据的时间。
其次,针对再次获取数据的用户,一方面从该用户自身出发预测待获取数据,另一个从相似用户出发获取数据,进而提高匹配数据的准确率。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种匹配数据的方法,其特征在于,包括:
针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据;
采用预设分类模型,将所述用户按照再次获取数据的概率分为多类;
针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户;
按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据。
2.根据权利要求1所述匹配数据的方法,其特征在于,所述用户信息包括以下一种或多种:用户标识、年龄、性别和收入权重;
所述用户浏览记录包括以下一种或多种:预设时间段内的浏览总次数、预设时间段内的浏览总时长和预设时间段内的访问页面数量和是否N天活跃,N是大于等于1的实数。
3.根据权利要求1所述匹配数据的方法,其特征在于,所述预设分类模型是依据再次获取训练数据的等级、用户信息、用户浏览记录和已获取训练数据确定的,所述再次获取训练数据的等级是基于复购率或已购保单数量确定。
4.根据权利要求1所述匹配数据的方法,其特征在于,所述分类用户的相似用户是基于概率大于预设阈值的分类用户的历史浏览记录和历史获取记录确定的。
5.根据权利要求1所述匹配数据的方法,其特征在于,所述针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户,包括:
针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录、浏览行为的评分、历史获取记录和获取行为的评分,确定所述分类用户的待获取数据;
基于所述分类用户的待获取数据,选择出所述分类用户的相似用户。
6.根据权利要求1所述匹配数据的方法,其特征在于,所述按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据,包括:
按照所述分类用户的历史浏览时间和历史浏览渠道,确定发送数据的预设时间和所述预设时间的预设渠道;
将所述分类用户的待获取数据和所述相似用户的已获取数据,作为匹配数据;
按照所述预设渠道和所述预设时间,发送所述匹配数据。
7.根据权利要求1所述匹配数据的方法,其特征在于,所述结合二分类模型,判断所述客户用户会再次获取数据之前,还包括:
在所述用户信息、所述已获取数据的参数和所述用户浏览记录中,剔除高相关性的参数。
8.一种匹配数据的装置,其特征在于,包括:
判断模块,用于针对已获取数据的用户,按照用户信息、已获取数据的参数和所述用户浏览记录,结合二分类模型,判断所述用户会再次获取数据;
分类模块,用于采用预设分类模型,将所述用户按照再次获取数据的概率分为多类;
数据模块,用于针对所述概率大于预设阈值的分类用户,结合所述分类用户的历史浏览记录和历史获取记录,确定所述分类用户的待获取数据和所述分类用户的相似用户;
匹配模块,用于按照所述分类用户的待获取数据、所述相似用户、所述分类用户的历史浏览时间和历史浏览渠道,为所述分类用户匹配数据。
9.一种匹配数据的电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111262497.0A CN114090873A (zh) | 2021-10-28 | 2021-10-28 | 匹配数据的方法、装置、设备和计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111262497.0A CN114090873A (zh) | 2021-10-28 | 2021-10-28 | 匹配数据的方法、装置、设备和计算机可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114090873A true CN114090873A (zh) | 2022-02-25 |
Family
ID=80297992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111262497.0A Pending CN114090873A (zh) | 2021-10-28 | 2021-10-28 | 匹配数据的方法、装置、设备和计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114090873A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118296174A (zh) * | 2024-04-17 | 2024-07-05 | 杭州银山科技有限公司 | 一种基于ai算法的图片展示方法 |
-
2021
- 2021-10-28 CN CN202111262497.0A patent/CN114090873A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118296174A (zh) * | 2024-04-17 | 2024-07-05 | 杭州银山科技有限公司 | 一种基于ai算法的图片展示方法 |
CN118296174B (zh) * | 2024-04-17 | 2024-09-17 | 杭州银山科技有限公司 | 一种基于ai算法的图片展示方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504120B2 (en) | Determining a temporary transaction limit | |
CN107220852A (zh) | 用于确定目标推荐用户的方法、装置和服务器 | |
CN107247786A (zh) | 用于确定相似用户的方法、装置和服务器 | |
CN107808314B (zh) | 用户推荐方法及装置 | |
CN110020162B (zh) | 用户识别方法和装置 | |
CN113627846A (zh) | 一种库存调整方法、装置、电子设备及计算机可读介质 | |
CN110097302B (zh) | 分配订单的方法和装置 | |
CN110111167A (zh) | 一种确定推荐对象的方法和装置 | |
US20220261591A1 (en) | Data processing method and apparatus | |
CN112241327A (zh) | 分享信息处理方法、装置、存储介质与电子设备 | |
CN110738508A (zh) | 一种数据分析方法和装置 | |
US10474688B2 (en) | System and method to recommend a bundle of items based on item/user tagging and co-install graph | |
CN114090873A (zh) | 匹配数据的方法、装置、设备和计算机可读介质 | |
CN111767469A (zh) | 一种养老服务推荐方法和装置 | |
CN112287208A (zh) | 用户画像生成方法、装置、电子设备及存储介质 | |
CN111798282A (zh) | 一种信息处理方法、终端及存储介质 | |
CN110838019A (zh) | 确定试用品发放人群的方法和装置 | |
CN110689032A (zh) | 数据处理方法及系统、计算机系统和计算机可读存储介质 | |
CN114925275A (zh) | 产品推荐方法、装置、计算机设备及存储介质 | |
CN114493132A (zh) | 资源分配方法、装置和电子设备 | |
CN113269610A (zh) | 银行产品的推荐方法、装置及存储介质 | |
CN115082844A (zh) | 相似人群扩展方法、装置、电子设备和可读存储介质 | |
CN113781146A (zh) | 产品信息的推荐方法、装置、设备和存储介质 | |
CN110874386A (zh) | 建立类目映射关系的方法和装置 | |
CN113269600B (zh) | 一种信息发送的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |