CN112417315A - 基于网站注册的用户画像生成方法、装置、设备和介质 - Google Patents
基于网站注册的用户画像生成方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN112417315A CN112417315A CN202011473435.XA CN202011473435A CN112417315A CN 112417315 A CN112417315 A CN 112417315A CN 202011473435 A CN202011473435 A CN 202011473435A CN 112417315 A CN112417315 A CN 112417315A
- Authority
- CN
- China
- Prior art keywords
- registered
- user
- website
- current
- websites
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000009193 crawling Effects 0.000 claims abstract description 11
- 238000004590 computer program Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 21
- 238000012163 sequencing technique Methods 0.000 claims description 12
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Abstract
本申请涉及大数据技术领域,尤其是一种基于网站注册的用户画像生成方法、装置、设备和介质。所述方法包括:获取用户对应的注册网站列表,注册网站列表是预先从预设网站的服务器爬取对应的包括注册用户标识以及注册标志的注册记录,并根据用户标识对注册标志表征注册的注册记录进行分类得到的;将所述网站注册列表中的注册网站与预设分类的标准网站的标识进行比较,以对所述注册网站进行分类;统计每一分类中注册网站的数量;根据每一分类中注册网站的数量计算得到用户画像。采用本方法能够提高用户画像的准确性。此外,本发明还涉及区块链技术,用户画像以及注册网站列表可存储于区块链节点中。
Description
技术领域
本申请涉及大数据技术领域,特别是涉及一种基于网站注册的用户画像生成方法、装置、设备和介质。
背景技术
随着大数据技术的发展,出现了各种各样的场景,其中对于用户进行画像构建是一个比较重要的长江,对用户进行画像构建是通过对用户进行打标签、划分客群、构建画像,有助于加深企业对用户的理解,从而提供有针对性的服务和营销,减轻企业的营销成本,并提升实际业务上的质量和效率。
然而,目前的用户画像需要抽取用户的属性标签(如学历、性别等),传统的用户画像方法根据某一平台上的用户的社交、使用习惯数据抽取用户的属性标签,容易因数据单一、数据缺陷导致抽取用户属性标签的准确率低。如何提升抽取用户属性标签的准确率成为亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确性的基于网站注册的用户画像生成方法、装置、设备和介质。
一种基于网站注册的用户画像生成方法,所述方法包括:
获取用户对应的注册网站列表,所述注册网站列表是预先从预设网站的服务器爬取对应的包括注册用户标识以及注册标志的注册记录,并根据所述用户标识对注册标志表征注册的注册记录进行分类得到的;
将所述网站注册列表中的注册网站与预设分类的标准网站的标识进行比较,以对所述注册网站进行分类;
统计每一分类中注册网站的数量;
根据每一分类中注册网站的数量计算得到用户画像。
在其中一个实施例中,所述根据每一分类中注册网站的数量计算得到用户画像,包括:
获取预设的多个场景、各个场景对应的多个标签以及多个标签对应的阈值;
获取所述多个场景各自对应的当前注册网站类型;
从所统计的每一分类中的注册网站的数量中,选取与所述当前注册网站类型对应的当前注册数量;
将所述当前注册数量与所述阈值进行比较得到标签;
将所得到的标签进行组合得到用户画像。
在其中一个实施例中,所述根据每一分类中注册网站的数量计算得到用户画像,包括:
获取当前场景,以及所述当前场景对应的当前注册网站类型;
从所统计的每一分类中的注册网站的数量中,选取与所述当前注册网站类型对应的当前注册数量;
根据所述当前注册数量进行模型训练得到用户画像模型,根据所述用户画像模型得到用户画像。
在其中一个实施例中,所述根据所述当前注册数量进行模型训练得到用户画像模型,包括:
根据所述当前注册数量生成第一预设维度的第一特征向量;
获取根据用户基本信息生成的第二预设维度的第二特征向量;
根据所述第一特征向量和所述第二特征向量生成用户画像模型;
所述根据所述用户画像模型得到用户画像,包括:
根据所述用户画像模型得到表征产品需求概率的用户画像;
所述方法还包括:
根据所述产品需求概率对用户进行排序,按照所述排序向用户推送对应的产品。
在其中一个实施例中,所述根据所述当前注册数量进行模型训练得到用户画像模型,包括:
根据所述当前注册数量生成基于评分卡模型的用户画像模型;
所述根据所述用户画像模型得到用户画像,包括:
将所述当前注册数量与所述评分卡模型中各个分段的网站数量进行比较以确定用户风险评分;
根据所述用户风险评分得到对应的用户画像。
一种基于网站注册的用户画像生成装置,所述装置包括:
网站列表获取模块,用于获取用户对应的注册网站列表,所述注册网站列表是预先从预设网站的服务器爬取对应的包括注册用户标识以及注册标志的注册记录,并根据所述用户标识对注册标志表征注册的注册记录进行分类得到的;
分类模块,用于将所述网站注册列表中的注册网站与预设分类的标准网站的标识进行比较,以对所述注册网站进行分类;
统计模块,用于统计每一分类中注册网站的数量;
画像生成模块,用于根据每一分类中注册网站的数量计算得到用户画像。
在其中一个实施例中,所述画像生成模块包括:
第一场景获取单元,用于获取预设的多个场景、各个场景对应的多个标签以及多个标签对应的阈值;
第一当前注册网站类型获取单元,用于获取所述多个场景各自对应的当前注册网站类型;
数量选取单元,用于从所统计的每一分类中的注册网站的数量中,选取与所述当前注册网站类型对应的当前注册数量;
比较单元,用于将所述当前注册数量与所述阈值进行比较得到标签;
第一画像生成单元,用于将所得到的标签进行组合得到用户画像。
在其中一个实施例中,所述画像生成模块包括:
第二场景获取单元,用于获取当前场景,以及所述当前场景对应的当前注册网站类型;
第二当前注册网站类型获取单元,用于从所统计的每一分类中的注册网站的数量中,选取与所述当前注册网站类型对应的当前注册数量;
模型生成单元,用于根据所述当前注册数量进行模型训练得到用户画像模型,根据所述用户画像模型得到用户画像。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例中的方法的步骤。
一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中的方法的步骤。
上述基于网站注册的用户画像生成方法、装置、设备和介质,充分考虑到用户的网站注册情况,将每个人的网站注册情况进行量化和结构化,从而可以根据用户的网站注册情况得到用户画像,提高了用户画像的准确性。
附图说明
图1为一个实施例中基于网站注册的用户画像生成方法的应用场景图;
图2为一个实施例中基于网站注册的用户画像生成方法的流程示意图;
图3为一个实施例中的注册网站的分类示意图;
图4为图2所示实施例中的步骤S208的一个实施例的流程示意图;
图5为图2所示实施例中的步骤S208的另一实施例的流程图;
图6为一个实施例中基于网站注册的用户画像生成装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的基于网站注册的用户画像生成方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104可以从终端102获取到用户对应的注册网站列表,例如遍历终端102中安装的应用程序以获取到对应的注册网站列表,其中可选地,服务器104还可以基于终端102中安装的应用程序的使用时间以及安装时间来获取到对应的注册网站列表,这样服务器104可以将所述网站注册列表中的注册网站与预设分类的标准网站的标识进行比较,以对注册网站进行分类进行,并统计每一分类中注册网站的数量,从而根据每一分类中注册网站的数量计算得到用户画像。这样充分考虑到用户的网站注册情况,将每个人的网站注册情况进行量化和结构化,从而可以根据用户的网站注册情况得到用户画像,提高了用户画像的准确性。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于网站注册的用户画像生成方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
S202:获取用户对应的注册网站列表,注册网站列表是预先从预设网站的服务器爬取对应的包括注册用户标识以及注册标志的注册记录,并根据用户标识对注册标志表征注册的注册记录进行分类得到的。
具体地,注册网站列表可以是根据预先设置的网站来进行获取的,例如从各个网站的服务器爬取对应的用户是否注册的信息,其中为了保证用户的隐私的安全性,本实施例中仅是获取都用户是否注册的信息,至于注册的具体信息则不会进行爬取,优选地,可以通过一标志位的方式来设置用户是否注册的信息,若是标志位为0,则用户没有注册,否则用户已经注册,并将用户已经注册的信息存储到对应的用户的注册网站列表。例如注册网站列表是预先从预设网站的服务器爬取对应的包括注册用户标识以及注册标志的注册记录,并根据用户标识对注册标志表征注册的注册记录进行分类得到的。
具体地,该获取用户对应的注册网站列表可以是与用户终端相连接,获取用户终端中已经安装的应用程序或者是与各个网站服务器相连接,读取各个网站服务器中的已经注册的用户,并生成注册网站列表。
S204:将所述网站注册列表中的注册网站与预设分类的标准网站的标识进行比较,以对注册网站进行分类进行。
具体地,结合图3,图3为一个实施例中的注册网站的分类示意图。其中服务器可以预设注册网站的类型,例如根据用户画像的维度,如财富、风险、兴趣、行业四个维度,每个维度包括若干个不同种类的网站集合,每个集合下又覆盖了若干个注册网站。其中网站的类别可以是预先进行设置,例如包括:保险从业者类网站、保险类网站、车友会网站、程序员类网站、电影类网站、儿童早教类网站、二次元类网站、法律类网站、高端酒店类网站、公考类网站、航空公司类网站、会计类网站、婚恋类网站、加油充电类网站、建筑类网站、健身类网站、教师类网站、金融投资服务/资讯类网站、境外游/品质类旅游网站、理财类网站、留学生类网站、论文期刊类网站、旅游类网站、美食类网站、美妆护肤类网站、萌宠类网站、母婴类网站、品质生活类网站、汽车保养类网站、汽车类网站、汽车综合门户类网站、奢侈品类网站、摄影类网站、网贷类网站、养生类网站、医生类网站、游戏类网站、中小学教育类网站、综合学历类网站、视频类网站。
服务器根据以上类别对注册网站进行分类。其中分类的时候,服务器可以将注册网站的标识与预设分类的标准网站的标识进行比较,以确定注册网站的分类,之所以采用网站标识是由于标识采用的是序列码的方式,而非复杂的自然语言,这样可以提高分类的效率。
S206:统计每一分类中注册网站的数量。
具体地,服务器在对注册网站进行分类的时候,可以设置对应每一类型的计数器,当存在注册网站被分到该类时,则计数器的数量递增,且在同一用户的注册网站列表处理完成后,则对计数器进行清空处理,从而完成注册网站的数量的统计工作。
S208:根据每一分类中注册网站的数量计算得到用户画像。
具体地,由于不同规模网站的宣传力度不同,某些网站的注册人数基数要远大于其他网站,所以在网站之间进行注册数的横向对比没有太多意义,应对全部样本在相同类型网站的注册数进行对比,注册数目越大,说明在该维度的表现越为明显。在不同场景、不同模型中,数据/建模人员可以将不同类型网站的注册个数作为特征引入,也可以直接作为规则的阈值进行使用,具体的使用方法可视场景而定,具体可以参见下文。
需要强调的是,为进一步保证上述注册网站列表和用户画像的私密和安全性,上述注册网站列表和用户画像还可以存储于一区块链的节点中。
上述基于网站注册的用户画像生成方法、装置、设备和介质,充分考虑到用户的网站注册情况,将每个人的网站注册情况进行量化和结构化,从而可以根据用户的网站注册情况得到用户画像,提高了用户画像的准确性。
在其中一个实施例中,参见图4所示,图4为图2所示实施例中的步骤S208的流程示意图,在该实施例中,该步骤S208,即根据每一分类中注册网站的数量计算得到用户画像,包括:
S402:获取预设的多个场景、各个场景对应的多个标签以及多个标签对应的阈值。
S404:获取多个场景各自对应的当前注册网站类型。
具体地,场景与用户画像的对应关系是基于各行业与场景的业务经验建立的。在本实施例中,应用场景仅设置客户价值、产品需求、权益、渠道四种,但其分别对应的细分场景是基于40个网站类别进行扩展,在其他实施例中,应用场景可以设置更多个,其中每个场景的类别标签可以包括多个,例如每一类型的网站对应一个,或者是多个相关类型的网站对应一个类别标签。
S406:从所统计的每一分类中的注册网站的数量中,选取与当前注册网站类型对应的当前注册数量。
S408:将当前注册数量与阈值进行比较得到标签。
具体地,用户画像的生成方法可以包括:如果若是某个用户的注册网站包括3个奢侈品类网站、2个留学生类网站,而基于所积累的历史数据统计,奢侈品类网站的平均注册数为1.5个,留学生类网站的平均注册数为0.3个,(每类网站的具体阈值也可以根据业务经验来设定,若对客户的净值水平要求较高,可适当调高阈值再作判断),而此人这两类网站的注册数均远高于平均水平,于是为该用户添加一个“潜在高净值客户”的标签。
S410:将所得到的标签进行组合得到用户画像。
具体地,根据上述判断,可以为用户添加多个标签,而多个标签的组合即为用户画像。
上述实施例中,建立场景与用户画像的对应关系,从而场景可以对用用户的注册网站,进而可以通过用户的注册网站来得到用户标签,从而可以得到用户画像。
在其中一个实施例中,参见图5所示,图5为图2所示实施例中的步骤S208的另一实施例的流程图,在该实施例中,该步骤S208,即根据每一分类中注册网站的数量计算得到用户画像,包括:
S502:获取当前场景,以及当前场景对应的当前注册网站类型。
S504:从所统计的每一分类中的注册网站的数量中,选取与当前注册网站类型对应的当前注册数量。
S506:根据当前注册数量进行模型训练得到用户画像模型,根据用户画像模型得到用户画像。
具体地,当前场景可以是根据模型需要所设置的,例如营销场景或者是风控场景等,每种场景则对应关注有对应的注册网站类型,获取该种场景对应的注册网站类型对应的注册数量,从而可以根据所获取的数据来进行模型的训练得到用户画像模型,例如将所获取的注册网站类型的数量添加到模型训练的训练数据中,即包括了其他的类型的特征,还增加了网站类型这一特征,从而使得模型更加完善。最后根据训练得到的模型来进行用户画像的处理。
在其中一个实施例中,根据当前注册数量进行模型训练得到用户画像模型,包括:根据当前注册数量生成第一预设维度的第一特征向量;获取根据用户基本信息生成的第二预设维度的第二特征向量;根据第一特征向量和第二特征向量生成用户画像模型;根据用户画像模型得到用户画像,包括:根据用户画像模型得到表征产品需求概率的用户画像;上述方法还包括:根据产品需求概率对用户进行排序,按照排序向用户推送对应的产品。
具体地,在该实施例中,该注册网站类型的数量作为特征引入到模型中,用于不同场景的预测/推荐。例如现有一个需求,需要找出一批客户样本中哪些人有视频会员需求,即预测给哪些人推送视频会员权益获得响应的概率更大,那么就可以将“视频类网站注册个数”作为特征引入,结合其他维度数据进行模型训练。比如通过决策树模型来预测每个人对该权益推送的响应概率,然后按概率大小进行排序,业务方可选择前X%客群进行重点营销。
在其中一个实施例中,根据当前注册数量进行模型训练得到用户画像模型,包括:根据当前注册数量生成基于评分卡模型的用户画像模型;根据用户画像模型得到用户画像,包括:将当前注册数量与评分卡模型中各个分段的网站数量进行比较以确定用户风险评分;根据用户风险评分得到对应的用户画像。
具体地,上述实施例中是营销场景,营销场景用决策树模型偏多,而本实施例中是风控场景,涉及基于逻辑回归的评分卡模型更多。在评分卡模型的结果中,每个特征不同的枚举值会对应不同的分数,比如“网贷类网站注册个数”这个字段X,若X=0,则该项得分为10分;若0<X<=3,则该项得分为7.5分;若3<x<=5,则该项得分为5分;若8<x<=10,则该项得分为2.5分;若x>10,则该项得分为0分。而信用分的总分越大,表示该客户的信用越好,因此可以根据该设置来获取用户画像。
应该理解的是,虽然图2、图4和图5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、图4和图5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种基于网站注册的用户画像生成装置,包括:网站列表获取模块100、分类模块200、统计模块300和画像生成模块400,其中:
网站列表获取模块100,用于获取用户对应的注册网站列表,注册网站列表是预先从预设网站的服务器爬取对应的包括注册用户标识以及注册标志的注册记录,并根据用户标识对注册标志表征注册的注册记录进行分类得到的;
分类模块200,用于将所述网站注册列表中的注册网站与预设分类的标准网站的标识进行比较,以对注册网站进行分类进行;
统计模块300,用于统计每一分类中注册网站的数量;
画像生成模块400,用于根据每一分类中注册网站的数量计算得到用户画像。
在其中一个实施例中,上述的画像生成模块400包括:
第一场景获取单元,用于获取预设的多个场景、各个场景对应的多个标签以及多个标签对应的阈值;
第一当前注册网站类型获取单元,用于获取多个场景各自对应的当前注册网站类型;
数量选取单元,用于从所统计的每一分类中的注册网站的数量中,选取与当前注册网站类型对应的当前注册数量;
比较单元,用于将当前注册数量与阈值进行比较得到标签;
第一画像生成单元,用于将所得到的标签进行组合得到用户画像。
在其中一个实施例中,上述的画像生成模块400包括:
第二场景获取单元,用于获取当前场景,以及当前场景对应的当前注册网站类型;
第二当前注册网站类型获取单元,用于从所统计的每一分类中的注册网站的数量中,选取与当前注册网站类型对应的当前注册数量;
模型生成单元,用于根据当前注册数量进行模型训练得到用户画像模型,根据用户画像模型得到用户画像。
在其中一个实施例中,上述的模型生成单元可以包括:
第一特征向量生成子单元,用于根据当前注册数量生成第一预设维度的第一特征向量;
第二特征向量生成子单元,用于获取根据用户基本信息生成的第二预设维度的第二特征向量;
第一模型生成子单元,用于根据第一特征向量和第二特征向量生成用户画像模型;
上述模型生成单元还用于根据用户画像模型得到表征产品需求概率的用户画像;
上述的基于网站注册的用户画像生成装置还可以包括:
推送模块,用于根据产品需求概率对用户进行排序,按照排序向用户推送对应的产品。
在其中一个实施例中,上述的模型生成单元可以包括:
第二模型生成子单元,用于根据当前注册数量生成基于评分卡模型的用户画像模型;
评分计算子单元,用于将当前注册数量与评分卡模型中各个分段的网站数量进行比较以确定用户风险评分;
画像生成子单元,用于根据用户风险评分得到对应的用户画像。
关于基于网站注册的用户画像生成装置的具体限定可以参见上文中对于基于网站注册的用户画像生成方法的限定,在此不再赘述。上述基于网站注册的用户画像生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储注册网站列表。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于网站注册的用户画像生成方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取用户对应的注册网站列表,注册网站列表是预先从预设网站的服务器爬取对应的包括注册用户标识以及注册标志的注册记录,并根据用户标识对注册标志表征注册的注册记录进行分类得到的;将所述网站注册列表中的注册网站与预设分类的标准网站的标识进行比较,以对注册网站进行分类进行;统计每一分类中注册网站的数量;根据每一分类中注册网站的数量计算得到用户画像。
在一个实施例中,处理器执行计算机程序时所实现的根据每一分类中注册网站的数量计算得到用户画像,包括:获取预设的多个场景、各个场景对应的多个标签以及多个标签对应的阈值;获取多个场景各自对应的当前注册网站类型;从所统计的每一分类中的注册网站的数量中,选取与当前注册网站类型对应的当前注册数量;将当前注册数量与阈值进行比较得到标签;将所得到的标签进行组合得到用户画像。
在一个实施例中,处理器执行计算机程序时所实现的根据每一分类中注册网站的数量计算得到用户画像,包括:获取当前场景,以及当前场景对应的当前注册网站类型;从所统计的每一分类中的注册网站的数量中,选取与当前注册网站类型对应的当前注册数量;根据当前注册数量进行模型训练得到用户画像模型,根据用户画像模型得到用户画像。
在一个实施例中,处理器执行计算机程序时所实现的根据当前注册数量进行模型训练得到用户画像模型,包括:根据当前注册数量生成第一预设维度的第一特征向量;获取根据用户基本信息生成的第二预设维度的第二特征向量;根据第一特征向量和第二特征向量生成用户画像模型;处理器执行计算机程序时所实现的根据用户画像模型得到用户画像,包括:根据用户画像模型得到表征产品需求概率的用户画像;处理器执行计算机程序时还实现以下步骤:根据产品需求概率对用户进行排序,按照排序向用户推送对应的产品。
在一个实施例中,处理器执行计算机程序时所实现的根据当前注册数量进行模型训练得到用户画像模型,包括:根据当前注册数量生成基于评分卡模型的用户画像模型;处理器执行计算机程序时所实现的根据用户画像模型得到用户画像,包括:将当前注册数量与评分卡模型中各个分段的网站数量进行比较以确定用户风险评分;根据用户风险评分得到对应的用户画像。
在一个实施例中,提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取用户对应的注册网站列表,注册网站列表是预先从预设网站的服务器爬取对应的包括注册用户标识以及注册标志的注册记录,并根据用户标识对注册标志表征注册的注册记录进行分类得到的;将所述网站注册列表中的注册网站与预设分类的标准网站的标识进行比较,以对注册网站进行分类进行;统计每一分类中注册网站的数量;根据每一分类中注册网站的数量计算得到用户画像。
在一个实施例中,计算机程序被处理器执行时所实现的根据每一分类中注册网站的数量计算得到用户画像,包括:获取预设的多个场景、各个场景对应的多个标签以及多个标签对应的阈值;获取多个场景各自对应的当前注册网站类型;从所统计的每一分类中的注册网站的数量中,选取与当前注册网站类型对应的当前注册数量;将当前注册数量与阈值进行比较得到标签;将所得到的标签进行组合得到用户画像。
在一个实施例中,计算机程序被处理器执行时所实现的根据每一分类中注册网站的数量计算得到用户画像,包括:获取当前场景,以及当前场景对应的当前注册网站类型;从所统计的每一分类中的注册网站的数量中,选取与当前注册网站类型对应的当前注册数量;根据当前注册数量进行模型训练得到用户画像模型,根据用户画像模型得到用户画像。
在一个实施例中,计算机程序被处理器执行时所实现的根据当前注册数量进行模型训练得到用户画像模型,包括:根据当前注册数量生成第一预设维度的第一特征向量;获取根据用户基本信息生成的第二预设维度的第二特征向量;根据第一特征向量和第二特征向量生成用户画像模型;计算机程序被处理器执行时所实现的根据用户画像模型得到用户画像,包括:根据用户画像模型得到表征产品需求概率的用户画像;处理器执行计算机程序时还实现以下步骤:根据产品需求概率对用户进行排序,按照排序向用户推送对应的产品。
在一个实施例中,计算机程序被处理器执行时所实现的根据当前注册数量进行模型训练得到用户画像模型,包括:根据当前注册数量生成基于评分卡模型的用户画像模型;计算机程序被处理器执行时所实现的根据用户画像模型得到用户画像,包括:将当前注册数量与评分卡模型中各个分段的网站数量进行比较以确定用户风险评分;根据用户风险评分得到对应的用户画像。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种基于网站注册的用户画像生成方法,所述方法包括:
获取用户对应的注册网站列表,所述注册网站列表是预先从预设网站的服务器爬取对应的包括注册用户标识以及注册标志的注册记录,并根据所述用户标识对注册标志表征注册的注册记录进行分类得到的;
将所述网站注册列表中的注册网站与预设分类的标准网站的标识进行比较,以对所述注册网站进行分类;
统计每一分类中注册网站的数量;
根据每一分类中注册网站的数量计算得到用户画像。
2.根据权利要求1所述的方法,其特征在于,所述根据每一分类中注册网站的数量计算得到用户画像,包括:
获取预设的多个场景、各个场景对应的多个标签以及多个标签对应的阈值;
获取所述多个场景各自对应的当前注册网站类型;
从所统计的每一分类中的注册网站的数量中,选取与所述当前注册网站类型对应的当前注册数量;
将所述当前注册数量与所述阈值进行比较得到标签;
将所得到的标签进行组合得到用户画像。
3.根据权利要求1所述的方法,其特征在于,所述根据每一分类中注册网站的数量计算得到用户画像,包括:
获取当前场景,以及所述当前场景对应的当前注册网站类型;
从所统计的每一分类中的注册网站的数量中,选取与所述当前注册网站类型对应的当前注册数量;
根据所述当前注册数量进行模型训练得到用户画像模型,根据所述用户画像模型得到用户画像。
4.根据权利要求3所述的方法,其特征在于,所述根据所述当前注册数量进行模型训练得到用户画像模型,包括:
根据所述当前注册数量生成第一预设维度的第一特征向量;
获取根据用户基本信息生成的第二预设维度的第二特征向量;
根据所述第一特征向量和所述第二特征向量生成用户画像模型;
所述根据所述用户画像模型得到用户画像,包括:
根据所述用户画像模型得到表征产品需求概率的用户画像;
所述方法还包括:
根据所述产品需求概率对用户进行排序,按照所述排序向用户推送对应的产品。
5.根据权利要求3所述的方法,其特征在于,所述根据所述当前注册数量进行模型训练得到用户画像模型,包括:
根据所述当前注册数量生成基于评分卡模型的用户画像模型;
所述根据所述用户画像模型得到用户画像,包括:
将所述当前注册数量与所述评分卡模型中各个分段的网站数量进行比较以确定用户风险评分;
根据所述用户风险评分得到对应的用户画像。
6.一种基于网站注册的用户画像生成装置,其特征在于,所述装置包括:
网站列表获取模块,用于获取用户对应的注册网站列表,所述注册网站列表是预先从预设网站的服务器爬取对应的包括注册用户标识以及注册标志的注册记录,并根据所述用户标识对注册标志表征注册的注册记录进行分类得到的;
分类模块,用于将所述网站注册列表中的注册网站与预设分类的标准网站的标识进行比较,以对所述注册网站进行分类;
统计模块,用于统计每一分类中注册网站的数量;
画像生成模块,用于根据每一分类中注册网站的数量计算得到用户画像。
7.根据权利要求6所述的装置,其特征在于,所述画像生成模块包括:
第一场景获取单元,用于获取预设的多个场景、各个场景对应的多个标签以及多个标签对应的阈值;
第一当前注册网站类型获取单元,用于获取所述多个场景各自对应的当前注册网站类型;
数量选取单元,用于从所统计的每一分类中的注册网站的数量中,选取与所述当前注册网站类型对应的当前注册数量;
比较单元,用于将所述当前注册数量与所述阈值进行比较得到标签;
第一画像生成单元,用于将所得到的标签进行组合得到用户画像。
8.根据权利要求6所述的装置,其特征在于,所述画像生成模块包括:
第二场景获取单元,用于获取当前场景,以及所述当前场景对应的当前注册网站类型;
第二当前注册网站类型获取单元,用于从所统计的每一分类中的注册网站的数量中,选取与所述当前注册网站类型对应的当前注册数量;
模型生成单元,用于根据所述当前注册数量进行模型训练得到用户画像模型,根据所述用户画像模型得到用户画像。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011473435.XA CN112417315A (zh) | 2020-12-15 | 2020-12-15 | 基于网站注册的用户画像生成方法、装置、设备和介质 |
PCT/CN2021/124602 WO2022127339A1 (zh) | 2020-12-15 | 2021-10-19 | 基于网站注册的用户画像生成方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011473435.XA CN112417315A (zh) | 2020-12-15 | 2020-12-15 | 基于网站注册的用户画像生成方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417315A true CN112417315A (zh) | 2021-02-26 |
Family
ID=74775153
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011473435.XA Pending CN112417315A (zh) | 2020-12-15 | 2020-12-15 | 基于网站注册的用户画像生成方法、装置、设备和介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112417315A (zh) |
WO (1) | WO2022127339A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362162A (zh) * | 2021-06-29 | 2021-09-07 | 深圳壹账通智能科技有限公司 | 基于网络行为数据的风控识别方法、装置、电子设备及介质 |
WO2022127339A1 (zh) * | 2020-12-15 | 2022-06-23 | 深圳壹账通智能科技有限公司 | 基于网站注册的用户画像生成方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202297A (zh) * | 2016-06-30 | 2016-12-07 | 北京奇虎科技有限公司 | 识别用户兴趣的方法及装置 |
CN106874435A (zh) * | 2017-01-25 | 2017-06-20 | 北京航空航天大学 | 用户画像构建方法和装置 |
WO2017157146A1 (zh) * | 2016-03-15 | 2017-09-21 | 平安科技(深圳)有限公司 | 基于用户画像的个性化推荐方法、装置、服务器及存储介质 |
US20190147366A1 (en) * | 2017-11-13 | 2019-05-16 | International Business Machines Corporation | Intelligent Recommendations Implemented by Modelling User Profile Through Deep Learning of Multimodal User Data |
CN111091351A (zh) * | 2019-12-16 | 2020-05-01 | 北京政信1890智能科技有限公司 | 用户画像构建方法、装置、电子设备和可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417315A (zh) * | 2020-12-15 | 2021-02-26 | 深圳壹账通智能科技有限公司 | 基于网站注册的用户画像生成方法、装置、设备和介质 |
-
2020
- 2020-12-15 CN CN202011473435.XA patent/CN112417315A/zh active Pending
-
2021
- 2021-10-19 WO PCT/CN2021/124602 patent/WO2022127339A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017157146A1 (zh) * | 2016-03-15 | 2017-09-21 | 平安科技(深圳)有限公司 | 基于用户画像的个性化推荐方法、装置、服务器及存储介质 |
CN106202297A (zh) * | 2016-06-30 | 2016-12-07 | 北京奇虎科技有限公司 | 识别用户兴趣的方法及装置 |
CN106874435A (zh) * | 2017-01-25 | 2017-06-20 | 北京航空航天大学 | 用户画像构建方法和装置 |
US20190147366A1 (en) * | 2017-11-13 | 2019-05-16 | International Business Machines Corporation | Intelligent Recommendations Implemented by Modelling User Profile Through Deep Learning of Multimodal User Data |
CN111091351A (zh) * | 2019-12-16 | 2020-05-01 | 北京政信1890智能科技有限公司 | 用户画像构建方法、装置、电子设备和可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022127339A1 (zh) * | 2020-12-15 | 2022-06-23 | 深圳壹账通智能科技有限公司 | 基于网站注册的用户画像生成方法、装置、设备和介质 |
CN113362162A (zh) * | 2021-06-29 | 2021-09-07 | 深圳壹账通智能科技有限公司 | 基于网络行为数据的风控识别方法、装置、电子设备及介质 |
WO2023272862A1 (zh) * | 2021-06-29 | 2023-01-05 | 深圳壹账通智能科技有限公司 | 基于网络行为数据的风控识别方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2022127339A1 (zh) | 2022-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3985578A1 (en) | Method and system for automatically training machine learning model | |
CN112613501A (zh) | 信息审核分类模型的构建方法和信息审核方法 | |
CN109493199A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN109783730A (zh) | 产品推荐方法、装置、计算机设备和存储介质 | |
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
CN111192153B (zh) | 人群关系网络构建方法、装置、计算机设备和存储介质 | |
CN112861662B (zh) | 基于人脸和交互文本的目标对象行为预测方法及相关设备 | |
WO2022127339A1 (zh) | 基于网站注册的用户画像生成方法、装置、设备和介质 | |
CN110888911A (zh) | 样本数据处理方法、装置、计算机设备及存储介质 | |
CN111881901A (zh) | 截图内容检测方法、设备及计算机可读存储介质 | |
CN115423578B (zh) | 基于微服务容器化云平台的招投标方法和系统 | |
CN107633257B (zh) | 数据质量评估方法及装置、计算机可读存储介质、终端 | |
CN110837653A (zh) | 标签预测方法、装置以及计算机可读存储介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN110569340A (zh) | 文本信息验证方法、装置、计算机设备和存储介质 | |
CN112685639A (zh) | 活动推荐方法、装置、计算机设备和存储介质 | |
CN113268567A (zh) | 多属性文本匹配方法、装置、设备和存储介质 | |
CN110991538B (zh) | 样本分类方法、装置、存储介质和计算机设备 | |
CN112084408B (zh) | 名单数据筛选方法、装置、计算机设备及存储介质 | |
CN115690819A (zh) | 一种基于大数据的识别方法及其系统 | |
CN112069230B (zh) | 数据分析方法、装置、设备及存储介质 | |
CN111652767B (zh) | 用户画像构建方法、装置、计算机设备和存储介质 | |
WO2021129368A1 (zh) | 一种客户类型的确定方法及装置 | |
CN110610378A (zh) | 产品需求分析方法、装置、计算机设备和存储介质 | |
CN114581214A (zh) | 一种信贷风险评估方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210226 |