CN110688566A - 基于用户画像的数据推送方法、系统、设备及存储介质 - Google Patents

基于用户画像的数据推送方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN110688566A
CN110688566A CN201910841556.6A CN201910841556A CN110688566A CN 110688566 A CN110688566 A CN 110688566A CN 201910841556 A CN201910841556 A CN 201910841556A CN 110688566 A CN110688566 A CN 110688566A
Authority
CN
China
Prior art keywords
target
target object
user
data
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910841556.6A
Other languages
English (en)
Inventor
徐宁
刘会哲
王远
郑喜民
喻宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910841556.6A priority Critical patent/CN110688566A/zh
Publication of CN110688566A publication Critical patent/CN110688566A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于用户画像的数据推送方法,包括:获取待匹配的各个目标对象对应的目标对象画像,每个目标对象画像包括所述目标对象对应的多个目标对象关联数据;接收目标用户通过客户端提供的JSON格式的电子表单;对所述电子表单进行解析以得到所述电子表单的多个目标字段中的多个目标字段信息;根据所述多个目标字段信息生成所述目标用户的用户能力画像;计算所述用户能力画像与各个所述目标对象画像之间的关联系数;根据所述关联系数确定待推送的多个目标对象;向所述目标用户的客户端推送所述待推送的多个目标对象对应的目标对象关联数据。本发明实施例的有益效果在于:能够提高给用户推送数据的数据准确度。

Description

基于用户画像的数据推送方法、系统、设备及存储介质
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种基于用户画像的数据推送方法、系统、设备及存储介质。
技术背景
随着互联网技术的发展以及留学申请量的日益增长,留学机构及创新企业推出了在线填写学生信息、快速推荐外国学校的在线系统,例如51offer、my offer、口袋留学等。上述在线系统的通常做法是:(1)根据留学申请人输入的部分成绩以及各个学校以往的招生分数,将留学申请人与一个或多个学校进行匹配,并将匹配的一个或多个学校推荐并展示给留学申请人。(2)在系统页面上推荐近期的成功案例,并基于这些成功案例向留学申请推荐相应的学校。
不难理解,当前在线系统为每个留学申请人推送咨询信息的依据过于简单,所推送的数据准确度普遍偏低,进而导致需要将留学申请人转去线下服务,增加人工成本。因此,有必要提供一种数据推送技术以提高被推送数据的数据准确度。
发明内容
有鉴于此,本发明实施例的目的是提供一种基于用户画像的数据推送方法、系统、设备及存储介质,能够提高给用户推送数据的数据准确度。
为实现上述目的,本发明实施例提供了一种基于用户画像的数据推送方法,包括:
获取待匹配的各个目标对象对应的目标对象画像,每个目标对象画像包括所述目标对象对应的多个目标对象关联数据;
接收目标用户通过客户端提供的JSON格式的电子表单;
对所述电子表单进行解析以得到所述电子表单的多个目标字段中的多个目标字段信息;
根据所述多个目标字段信息生成所述目标用户的用户能力画像;
计算所述用户能力画像与各个所述目标对象画像之间的关联系数;
根据所述关联系数确定待推送的多个目标对象;
向所述目标用户的客户端推送所述待推送的多个目标对象对应的目标对象关联数据。
进一步地,所述获取待匹配的各个目标对象对应的目标对象画像的步骤之前,还包括:
从数据源中爬取多个目标对象关联数据,以构建目标对象数据库;
将所述目标对象关联数据映射于所述目标对象形成目标对象画像,并存储于所述目标对象数据库中。
进一步地,所述计算所述目标用户的用户能力画像与各个所述目标对象画像之间的关联系数的步骤,包括:
根据所述多个目标字段信息的第一目标字段信息,从所述目标对象数据库中筛选出与所述第一目标字段信息匹配的一个或多个目标对象关联数据;
根据所述一个或多个目标对象关联数据和所述多个目标字段信息中的至少部分目标字段信息,计算所述目标用户与各个目标对象之间的关联系数,所述关联系数为余弦相似度系数。
进一步地,所述计算所述目标用户的用户能力画像与各个所述目标对象画像之间的关联系数的步骤,包括:
对所述多个目标字段信息进行向量化处理以得到所述目标用户对应的特征向量;
对各个目标对象关联数据进行向量化处理以得到各个所述目标对象对应的目标对象特征向量;
根据所述目标用户对应的特征向量与各个所述目标对象对应的目标对象特征向量生成相应的二部图;
根据二部图计算所述用户能力画像与所述目标对象画像的关联系数。
进一步地,所述二部图的计算公式如下:
Figure BDA0002193880110000031
其中,s(a,b)表示所述用户能力画像与所述目标对象画像之间的关联系数,C是一个常数,a表示所述用户能力画像,i表示所述目标字段信息的个数,b表示所述目标对象画像,j表示所述目标对象关联数据的个数;I(a)表示所有目标字段信息的集合,I(b)表示所有目标对象关联数据,每个数据表示一个节点;I(a)、I(b)分别代表a、b相连的二部图的节点集合,s(Ii(a)、Ii(b))即为相连的二部图的目标对象画像与用户能力画像的节点间的相似度。
进一步地,所述根据所述关联系数确定待推送的多个目标对象的步骤,包括:
计算所述目标用户与各个目标对象之间的余弦相似度;
筛选出余弦相似度大于预设阈值的目标对象作为所述待推送的多个目标对象;
当所述待推送的多个目标对象的样本数量过大时,则进行二次筛选以得到所述待推送的多个目标对象。
进一步地,所述进行二次筛选以得到所述待推送的多个目标对象的步骤包括:
获取与所述第一目标字段信息匹配的原始对象数据集,所述原始对象数据集包括多个正样本数据和多个负样本数据;
基于对所述原始对象数据集的多个字段进行分析,得到每个字段的信息值,其中,信息值用于表示在留学申请因素中对留学申请成功率的影响程度;
根据每个字段的信息值,从所述多个字段中筛选出多个重要字段,并基于多个重要字段计算所述目标用户与各个目标对象之间的余弦相似度;
根据所述目标用户与各个目标对象之间的余弦相似度,从所述多个目标对象中筛选出待推送的多个目标对象。
为实现上述目的,本发明实施例还提供了一种基于用户画像的数据推送系统,包括:
获取模块,用于获取待匹配的各个目标对象对应的目标对象画像,每个目标对象画像包括所述目标对象对应的多个目标对象关联数据;
接收模块,用于接收目标用户通过客户端提供的JSON格式的电子表单;
解析模块,用于对所述电子表单进行解析以得到所述电子表单的多个目标字段中的多个目标字段信息;
生成模块,用于根据所述多个目标字段信息生成所述目标用户的用户能力画像;
计算模块,用于计算所述用户能力画像与各个所述目标对象画像之间的关联系数;
选择模块,用于根据所述关联系数确定待推送的多个目标对象;
推送模块,用于向所述目标用户的客户端推送所述待推送的多个目标对象对应的目标对象关联数据。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的基于用户画像的数据推送系统,所述基于用户画像的数据推送系统被所述处理器执行时实现如上所述的基于用户画像的数据推送方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于用户画像的数据推送方法的步骤。
本发明实施例提供的基于用户画像的数据推送方法、系统、设备及存储介质,通过建立用户能力画像和目标对象画像,进一步对两者的关联程度进行计算,匹配到关联系数最高的目标对象,更精准的对目标用户进行目标对象的推荐。
附图说明
图1为本发明实施例基于用户画像的数据推送方法实施例一的流程图。
图2为本发明实施例数据获取的流程图。
图3为本发明实施例步骤S100的流程图。
图4为本发明实施例步骤S108的流程图。
图5为本发明实施例步骤S108的另一实施例流程图。
图6为本发明实施例步骤S110的流程图。
图7为本发明实施例步骤S110C的流程图。
图8为本发明实施例数据更新的流程图。
图9为本发明实施例基于用户画像的数据推送系统实施例二的程序模块示意图。
图10为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参阅图1,示出了本发明实施例一之基于用户画像的数据推送方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100、获取待匹配的各个目标对象对应的目标对象画像,每个目标对象画像包括所述目标对象对应的多个目标对象关联数据。
示例1:
若目标对象为海外留学学校,从一个或多个数据源中爬取多个目标对象的多个目标对象关联数据,每个目标对象关联数据由多个字段数据构成,所述多个字段数据包括:学校基本数据、录取学生数据、学校硬实力要求数据与学校录取偏好数据。所述学校基本数据包括外国学校所属国家、所在城市/区域、学校设置、学位设置、世界排名、国内排名、学校类型、气候等。所述录取学生数据包括申请人数、录取人数、录取率、男女比例、学费、国际学生比例、亚裔生比例、最受欢迎的专业等。所述学校硬实力要求数据包括录取成功的学生的GPA、班级排名、标准化考试成绩、中学课程难易程度,及上述各项的权重。所述学校录取偏好数据包括推荐信、面试、学术及竞赛、领导力活动、公益活动、体育、对学校感兴趣程度、校友亲属、海外交换经历等。
具体的,基于用户录入、合作留学机构及学校数据收集、资深留学顾问团队梳理、学校公开、爬虫技术等渠道收集大量学校及申请成功的用户相关数据,并进行规范化加工治理,利用Hadoop平台、平安云等平台的数据库进行数据存储管理,基于数据库中的数千所海外大学基本信息和留学机构的资深留学顾问团队根据丰富成功案例总结、提炼出的海外大学成功申请要素,构建目标对象画像,明确录取偏好。
示例2:
若目标对象为申请留学学生,从一个或多个数据源中爬取多个目标对象的多个目标对象关联数据,每个目标对象关联数据由多个字段数据构成,所述多个字段数据包括:就读学校排名、学历层次、GPA(平均学分绩点,Grade Point Average)分数、班级排名、获奖评分、兴趣广度、竞赛成绩,体育活动成绩,器乐等级,费用预算,海外交换时长等。
例如,获取M个目标对象对应的M个目标对象关联数据,每个目标对象关联数据中包括N个字段的N个字段数据,M个目标对象关联数据分别为:
A1(a11,a12,a13,……a1N)
A1(a11,a12,a13,……a1N)
A2(a21,a22,a23,……a2N)
A2(a21,a22,a23,……a2N)
...
...
AM(aM1,aM2,aM3,……aMN)
AM(aM1,aM2,aM3,……aMN)
参阅图3,步骤S100进一步包括:对各个数据源的原始数据进行ETL(Extract-Transformation-Loading,数据的抽取、转换和加载)操作,以得到所述多个目标对象关联数据。具体如下。
步骤S100A,将多个字段的字段名称与各个数据源中相应字段的字段名之间建立映射关系;
步骤S100B,根据所述映射关系,从所述多个数据源中抽取多个目标对象的多个目标对象关联数据;
示例性的,当同一目标对象的同一字段对应有多个数据源中的多个字段数据时,根据各个数据源的预设权重系数,选择权重系数最高的数据源对应的字段数据,例如:
以“就读学校排名”为例,当同一目标用户的留学申请数据被收录在多个数据源,当各个数据源对该目标用户对其就读学校排名的排名数值不同,则取平均数值或者权重系数最高的数据源中的排名数值。
步骤S100B进一步包括:建立一个守护进程,所述守护进程用于以预定频率读取各个数据源的日志信息,以根据各个数据源的日志信息监控所述各个数据源的数据更新状态;当所述守护进程检测到存在数据更新量大于指定阈值的一个或多个目标数据源时,则触发针对所述目标对象数据库的一个或多个数据更新任务,即启动对应的一个或多个工作进程,每个工作进程从对应的一个目标数据源中抽取数据;当一个或多个工作进程对应的数据抽取操完成时,将对应的一个或多个进程切换到停止状态。
过于频繁的启动和停止工作进程,会消耗比较多个的计算机资源,因此,步骤S100B进一步包括:还包括动态调整所述指定阈值,分析所述指定阈值在不同数值的情况下,各个工作进程在等同时长的时间段中的被启动次数以及每次被启动后的运行时间,比较各个时间段中的被启动次数和每次被启动后的运行平均时间的乘积数值,将乘机数值最大的时间段对应的指定阈值配置为当前阈值。
步骤S100C,清洗缺失多个字段数据的无效目标对象,以从所述多个数据源中的获取有效的多个目标对象所对应的多个目标对象关联数据。
步骤S100D,将每个目标对象关联数据中的多个字段数据填充到所述目标对象数据库中对应的多个字段中。
所述多个目标对象关联数据中对应的多个字段数据可以构成N个特征列,例如:
将a11,a21,a31,……aM1填充至一个字段名对应的字段中,构成一特征列;将a12,a22,a32,……aM2填充至一个字段名对应的字段中,构成一特征列…;将a13,a23,a33,……aMN填充至一个字段名对应的字段中,构成一特征列。
进一步的,参阅图2,步骤S100之前,还包括:
步骤S10,从数据源中爬取多个目标对象关联数据,以构建目标对象数据库;
步骤S11,将所述目标对象关联数据映射于所述目标对象形成目标对象画像,并存储于所述目标对象数据库中。
步骤S102、接收目标用户通过客户端提供的JSON格式的电子表单。
具体的,所述多个目标字段信息被保存于目标数据订单中,根据所述多个目标字段信息获取目标用户的用户能力画像,所述用户能力画像包括对应的多个目标用户关联数据。
步骤S104、对所述电子表单进行解析以得到所述电子表单的多个目标字段中的多个目标字段信息。
具体的,所述电子表单由多个目标字段构成,所述多个目标字段的字段种类可以包括文本框、复选框、单选框、下拉选择框等,所述多个目标字段可以包括基础字段和可扩展字段。
所述基础字段,如:对应于“目标用户ID”的字段、对应于“目标用户属性”的多个字段等。该对应于“目标用户ID”的字段,可以包括:字段名称“ID”,字段类型“文本Text”,为输入框。
所述可扩展字段,为根据实际要求选择的字段。例如,当本实施例中的目标用户具有开发地域限制时,所述多个字段可以包括对应于“开发地域”的字段。该对应于“开发地域”的,可以包括:字段名称“国家”,字段类型“下拉框Dropbox”。
进一步的,客户端将所述电子表单传输至计算机设备中。为了防止电子表单被第三方篡改或被第三方攻击拦截安全,可以基于QUIC协议将所述电子表单传输到所述计算机设备中。
步骤S106、根据所述多个目标字段信息生成所述目标用户的用户能力画像。
在示例性的实施例中,接收目标用户通过客户端输入的个性化资料、参与社会活动、提升语言技能等,随着学生行为的变化,平台构建的用户能力画像会实时更新。
所述目标用户的目标用户关联数据包括目标用户的基本数据、意愿数据与提升数据。所述基本数据包括就读学校排名、学历层次、GPA(平均学分绩点,Grade PointAverage)分数、班级排名、获奖评分、兴趣广度、竞赛成绩、体育活动成绩与器乐等级等关联数据。所述意愿数据包括费用预算,海外交换时长、计划留学的年份、想去的国家、城市、学校排名、学科及专业意向、最看重的择校因素等关联数据。所述提升数据包括标准化考试成绩如托福雅思等、社会活动经历、公益活动经历、领导力活动、实习经历、面试能力、推荐信、文书质量等;此外,还包括如更新的语言考试成绩、推荐信、个人才艺视频、器乐考级证书等关联数据。
步骤S108、计算所述用户能力画像与各个所述目标对象画像之间的关联系数。
当对应于示例1时,参阅图4,步骤S108包括:
步骤S108A1,对所述多个目标字段信息进行向量化处理以得到所述目标用户对应的特征向量。
具体的,通过word2doc模型将目标字段信息进行向量化处理。
步骤S108A2,对各个目标对象关联数据进行向量化处理以得到各个所述目标对象对应的目标对象特征向量。
具体的,通过word2doc模型将目标对象关联数据进行向量化处理。
步骤S108A3,根据所述目标用户对应的特征向量与各个所述目标对象对应的目标对象特征向量生成相应的二部图;
步骤S108A4,根据二部图计算所述用户能力画像与所述目标对象画像的关联系数。
所述二部图的计算公式如下:
Figure BDA0002193880110000101
其中,s(a,b)表示所述用户能力画像与所述目标对象画像之间的关联系数,C是一个常数,a表示所述用户能力画像,i表示所述目标字段信息的个数,b表示所述目标对象画像,j表示所述目标对象关联数据的个数;I(a)表示所有目标字段信息的集合,I(b)表示所有目标对象关联数据,每个数据表示一个节点;I(a)、I(b)分别代表a、b相连的二部图的节点集合,s(Ii(a)、Ii(b))即为相连的二部图的目标对象画像与用户能力画像的节点间的相似度;定义自己与自己的关联系数s(a,a)=1;同时若I(a)或I(b)有一个为空,则s(a,b)=0。
进一步地,可通过迭代方式计算所述用户能力画像的多维目的向量与所述目标对象画像的关联系数,计算公式1如下:
其中p表示二部图关联边的权重,N为二部图节点数。
上面的式子可以继续转换为计算公式2:
Figure BDA0002193880110000103
如果用矩阵表示,则相似度矩阵3为:
S=CWTSW;
其中W是将权重值p构成的矩阵P归一化后的矩阵。
由于自己和自己的相似度为1,那么可以去掉对角线上的值,再加上单位矩阵,则为计算公式4:
S=CWTSW+I-Diag(diag(CWTSW));
对S矩阵按照上式1-3进行若干轮迭代,当S矩阵的值基本稳定不变后,即就得到二部图的相似度矩阵,从多维度计算相似度矩阵,求得相似度矩阵值即为用户能力画像与目标对象画像之间的关联系数。
当对应于示例2时,参阅图5,步骤S108包括:
步骤S108B1,根据所述多个目标字段信息的第一目标字段信息,从所述目标对象数据库中筛选出与所述第一目标字段信息匹配的一个或多个目标对象关联数据;
所述第一目标字段信息可以是“意向学校字段”中的“意向学校ID”,如意向学校名称。示例性的,如果解析所述“意向学校字段”的内容为“剑桥大学”,则从所述目标对象数据库的相应字段中筛选出包含“剑桥大学”的多个目标对象关联数据,即申请“剑桥大学”的多个目标对象的多个目标对象关联数据;
步骤S108B2,根据所述一个或多个目标对象关联数据和所述多个目标字段信息中的至少部分目标字段信息,计算所述目标用户与各个目标对象之间的关联系数,所述关联系数为余弦相似度系数;
所述多个目标字段信息中的至少部分目标字段信息,可以包括如下:就读学校排名,学历层次,GPA分数,班级排名,获奖评分,兴趣广度,竞赛成绩,体育活动成绩,器乐等级,费用预算,海外交换时长等。
所述每个目标对象关联数据中也相应地包括如下字段信息:就读学校排名,学历层次,GPA分数,班级排名,获奖评分,兴趣广度,竞赛成绩,体育活动成绩,器乐等级,费用预算,海外交换时长等。
进一步的,具体步骤如下:
(1)根据所述多个目标字段信息,定义所述目标用户对应的特征向量;
例如,“就读学校排名”是3,则特征向量的第一个值是3;“学历层次”是高,则特征向量的第二个值是1(预先规定学历层次分为“高”、“中”、“低”);“GPA分数”是87,则特征向量的第三个值是87,依次类推,最终将所述多个目标字段信息量化为用一组数字表示的特征向量,示例性的,对应所述目标用户的特征向量为(3,1,87,12,55,1,99,87,3,2253,333)。
(2)根据各个目标对象关联数据,定义各个目标对象对应的目标对象特征向量;
具体定义步骤请参考步骤(1);
(3)根据所述目标用户对应的特征向量以及各个目标对象对应的目标对象特征向量,计算所述目标用户与各个目标对象之间的余弦相似度;
公式如下:
Figure BDA0002193880110000121
其中,cos(θ)为所述目标用户与相应目标对象之间的余弦值,其中,余弦值越接近1,表示所述目标用户与相应目标对象之间的相似度越高;Ax表示所述目标用户对应的特征向量中的第x个元素的值,Bx表示相应的目标对象对应的目标对象特征向量中的第x个元素的值,n为特征向量中的元素数量。
步骤S110、根据所述关联系数确定待推送的多个目标对象。
示例性的:
多个目标对象关联数据为三梯次的学校ID,所述三梯次包括保底学校、冲刺学校与核心学校。所述保底学校为所述关联系数排名前三的三所外国学校;所述冲刺学校为从外国学校中除保底学校外且学校硬实力要求的排名高于保底学校的50%的学校里选出的关联系数最高的3所外国学校;所述核心学校为学校硬实力要求的排名后50%的外国学校中选出相似程度最高的4所外国学校。
示例性的:
当对应于示例1时,多个目标对象关联数据为相似度矩阵值最高的几个目标对象的目标对象关联数据,进一步的,步骤S106包括:根据所述目标用户与各个目标对象之间的相似度矩阵值,从所述多个目标对象中筛选出多个目标对象,并将所述多个目标对象推送到所述目标用户的客户端中。
当对应于示例2时,参阅图6,步骤S110包括;
步骤S110A,计算所述目标用户与各个目标对象之间的余弦相似度;
步骤S110B,筛选出余弦相似度大于预设阈值的目标对象作为所述待推送的多个目标对象;
步骤S110C,当所述待推送的多个目标对象的样本数量过大时,则进行二次筛选以得到所述待推送的多个目标对象。
进一步的,参阅图7,步骤S110C进一步包括:
步骤S110C1,获取与所述第一目标字段信息匹配的原始对象数据集,所述原始对象数据集包括多个正样本数据和多个负样本数据;
正样本数据,为与所述第一目标字段信息匹配的且留学申请成功的样本数据;
负样本数据,为与所述第一目标字段信息匹配的且留学申请失败的样本数据。
步骤S110C2,基于对所述原始对象数据集的多个字段进行分析,得到每个字段的信息值,其中,信息值用于表示在留学申请因素中对留学申请成功率的影响程度;
以计算特征列(a11,a21,a31,……aM1)对应的字段(就读学校排名)的信息值为例:
Figure BDA0002193880110000131
IVk=WoEk*(Pyk-Pnk);
Figure BDA0002193880110000132
WoEk(Weight of Evidence,证据权重),是一种将数值做离散化处理的方式,WoEk值表达的是变量取某个值对留学申请结果的一种影响,Pyk表示将特征列进行离散处理后,每个排名区间的留学申请成功数量与全部排名区间的留学申请成功数量之比;Pnk表示每个排名区间的留学申请失败数量与全部排名区间的留学申请失败数量之比。IVk表示每个排名区间的信息值,IV表示该特征列的全部排名区间的信息值。
步骤S110C3,根据每个字段的信息值,从所述多个字段中筛选出多个重要字段,并基于多个重要字段计算所述目标用户与各个目标对象之间的余弦相似程度。
步骤S110C4,根据所述目标用户与各个目标对象之间的余弦相似度,从所述多个目标对象中筛选出待推送的多个目标对象。
步骤S112、向所述目标用户的客户端推送所述待推送的多个目标对象对应的目标对象关联数据。
具体的,从所述目标用户的多个目标字段信息中提取所述目标用户的即时通讯ID,以及从各个目标对象的目标对象关联数据中提取相应即时通讯ID,将所述各个目标对象的即时通讯ID推送到各个所述目标用户的即时通讯工具中的好友推荐列表中。
进一步的,将各个目标对象对应的可视化信息推送到所述目标用户的即时通信工具中的好友推荐列表中,每个目标对象对应的可视化信息被显示在好友推荐列表中的对应目标对象所在栏位。
进一步的,参阅图8,步骤S112之后,还包括数据更新:
步骤S114、在目标时间段内更新所述目标用户的用户能力画像。
具体的,目标时间段根据所述目标用户的留学计划进行设置,若目标用户在大一时期有想留学的想法,目标时间段可以为一年,根据每年目标用户的变化,更新目标用户的用户能力画像。
步骤S116、根据更新后的用户能力画像重新推推送目标对象。
进一步地,目标用户可能在学习的过程中,确定了目标对象之后,进一步提升自身的能力,将该数据加入原用户能力画像中,重新计算用户能力画像与目标对象的目标对象画像的关联系数,从而实时更新。
进一步地,持续追踪目标用户的目标对象的申请及录取情况,将申请/未申请、录取/未录取等情况记录到目标对象数据库中作为新的正负目标对象,并根据新目标对象定期更新目标对象数据库。
本发明实施例通过建立用户能力画像和目标对象画像,进一步对两者的关联程度进行计算,匹配到关联系数最高的目标对象,更精准的对目标用户进行目标对象的推荐,且实时更新用户能力画像,并根据目标用户的更新后的用户能力画像更新推荐目标对象。
实施例二
请继续参阅图9,示出了本发明基于用户画像的数据推送系统实施例二的程序模块示意图。在本实施例中,基于用户画像的数据推送系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于用户画像的数据推送方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于用户画像的数据推送系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块200,用于获取待匹配的各个目标对象对应的目标对象画像,每个目标对象画像包括所述目标对象对应的多个目标对象关联数据。
接收模块202,用于接收目标用户通过客户端提供的JSON格式的电子表单。
解析模块204,用于对所述电子表单进行解析以得到所述电子表单的多个目标字段中的多个目标字段信息。
生成模块206,用于根据所述多个目标字段信息生成所述目标用户的用户能力画像。
计算模块208,用于计算所述用户能力画像与各个所述目标对象画像之间的关联系数。
选择模块210,用于根据所述关联系数确定待推送的多个目标对象。
推送模块212,用于向所述目标用户的客户端推送所述待推送的多个目标对象对应的目标对象关联数据。
实施例三
参阅图10,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图10所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于用户画像的数据推送系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的基于用户画像的数据推送系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于用户画像的数据推送系统20,以实现实施例一的基于用户画像的数据推送方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述服务器2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述服务器2与外部终端相连,在所述服务器2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(Wideband CodeDivision Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是,图10仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述基于用户画像的数据推送系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图9示出了所述实现基于用户画像的数据推送系统20实施例二的程序模块示意图,该实施例中,所述基于用户画像的数据推送系统20可以被划分为获取模块200、接收模块202、解析模块204、生成模块206、计算模块208、选择模块210及推送模块212。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述基于用户画像的数据推送系统20在所述计算机设备2中的执行过程。所述程序模块200-212的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于用户画像的数据推送系统20,被处理器执行时实现实施例一的基于用户画像的数据推送方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于用户画像的数据推送方法,其特征在于,包括:
获取待匹配的各个目标对象对应的目标对象画像,每个目标对象画像包括所述目标对象对应的多个目标对象关联数据;
接收目标用户通过客户端提供的JSON格式的电子表单;
对所述电子表单进行解析以得到所述电子表单的多个目标字段中的多个目标字段信息;
根据所述多个目标字段信息生成所述目标用户的用户能力画像;
计算所述用户能力画像与各个所述目标对象画像之间的关联系数;
根据所述关联系数确定待推送的多个目标对象;
向所述目标用户的客户端推送所述待推送的多个目标对象对应的目标对象关联数据。
2.根据权利要求1所述的数据推送方法,其特征在于,所述获取待匹配的各个目标对象对应的目标对象画像的步骤之前,还包括:
从数据源中爬取多个目标对象关联数据,以构建目标对象数据库;
将所述目标对象关联数据映射于所述目标对象形成目标对象画像,并存储于所述目标对象数据库中。
3.根据权利要求1所述的数据推送方法,其特征在于,所述计算所述目标用户的用户能力画像与各个所述目标对象画像之间的关联系数的步骤,包括:
根据所述多个目标字段信息的第一目标字段信息,从所述目标对象数据库中筛选出与所述第一目标字段信息匹配的一个或多个目标对象关联数据;
根据所述一个或多个目标对象关联数据和所述多个目标字段信息中的至少部分目标字段信息,计算所述目标用户与各个目标对象之间的关联系数,所述关联系数为余弦相似度系数。
4.根据权利要求1所述的数据推送方法,其特征在于,所述计算所述目标用户的用户能力画像与各个所述目标对象画像之间的关联系数的步骤,包括:
对所述多个目标字段信息进行向量化处理以得到所述目标用户对应的特征向量;
对各个目标对象关联数据进行向量化处理以得到各个所述目标对象对应的目标对象特征向量;
根据所述目标用户对应的特征向量与各个所述目标对象对应的目标对象特征向量生成相应的二部图;
根据二部图计算所述用户能力画像与所述目标对象画像的关联系数。
5.根据权利要求4所述的数据推送方法,其特征在于,所述二部图的计算公式如下:
Figure FDA0002193880100000021
其中,s(a,b)表示所述用户能力画像与所述目标对象画像之间的关联系数,C是一个常数,a表示所述用户能力画像,i表示所述目标字段信息的个数,b表示所述目标对象画像,j表示所述目标对象关联数据的个数;I(a)表示所有目标字段信息的集合,I(b)表示所有目标对象关联数据,每个数据表示一个节点;I(a)、I(b)分别代表a、b相连的二部图的节点集合,s(Ii(a)、Ii(b))即为相连的二部图的目标对象画像与用户能力画像的节点间的相似度。
6.根据权利要求1所述的数据推送方法,其特征在于,所述根据所述关联系数确定待推送的多个目标对象的步骤,包括:
计算所述目标用户与各个目标对象之间的余弦相似度;
筛选出余弦相似度大于预设阈值的目标对象作为所述待推送的多个目标对象;
当所述待推送的多个目标对象的样本数量过大时,则进行二次筛选以得到所述待推送的多个目标对象。
7.根据权利要求6所述的数据推送方法,其特征在于,所述进行二次筛选以得到所述待推送的多个目标对象的步骤包括:
获取与所述第一目标字段信息匹配的原始对象数据集,所述原始对象数据集包括多个正样本数据和多个负样本数据;
基于对所述原始对象数据集的多个字段进行分析,得到每个字段的信息值,其中,信息值用于表示在留学申请因素中对留学申请成功率的影响程度;
根据每个字段的信息值,从所述多个字段中筛选出多个重要字段,并基于多个重要字段计算所述目标用户与各个目标对象之间的余弦相似度;
根据所述目标用户与各个目标对象之间的余弦相似度,从所述多个目标对象中筛选出待推送的多个目标对象。
8.一种基于用户画像的数据推送系统,其特征在于,包括:
获取模块,用于获取待匹配的各个目标对象对应的目标对象画像,每个目标对象画像包括所述目标对象对应的多个目标对象关联数据;
接收模块,用于接收目标用户通过客户端提供的JSON格式的电子表单;
解析模块,用于对所述电子表单进行解析以得到所述电子表单的多个目标字段中的多个目标字段信息;
生成模块,用于根据所述多个目标字段信息生成所述目标用户的用户能力画像;
计算模块,用于计算所述用户能力画像与各个所述目标对象画像之间的关联系数;
选择模块,用于根据所述关联系数确定待推送的多个目标对象;
推送模块,用于向所述目标用户的客户端推送所述待推送的多个目标对象对应的目标对象关联数据。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的基于用户画像的数据推送系统,所述基于用户画像的数据推送系统被所述处理器执行时实现如权利要求1-7中任一项所述的基于用户画像的数据推送方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-7中任一项所述的基于用户画像的数据推送方法的步骤。
CN201910841556.6A 2019-09-06 2019-09-06 基于用户画像的数据推送方法、系统、设备及存储介质 Pending CN110688566A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910841556.6A CN110688566A (zh) 2019-09-06 2019-09-06 基于用户画像的数据推送方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910841556.6A CN110688566A (zh) 2019-09-06 2019-09-06 基于用户画像的数据推送方法、系统、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110688566A true CN110688566A (zh) 2020-01-14

Family

ID=69107877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910841556.6A Pending CN110688566A (zh) 2019-09-06 2019-09-06 基于用户画像的数据推送方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110688566A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444368A (zh) * 2020-03-25 2020-07-24 平安科技(深圳)有限公司 构建用户画像的方法、装置、计算机设备及存储介质
CN111582932A (zh) * 2020-03-25 2020-08-25 平安壹钱包电子商务有限公司 场景间信息推送方法、装置、计算机设备及存储介质
CN111710429A (zh) * 2020-05-29 2020-09-25 平安医疗健康管理股份有限公司 信息的推送方法及装置、计算机设备、存储介质
CN111708920A (zh) * 2020-06-06 2020-09-25 谢国柱 基于人工智能的互联网大数据处理方法及智能云服务平台
CN111709843A (zh) * 2020-05-09 2020-09-25 中国人民财产保险股份有限公司 一种客户画像的生成方法、装置及电子设备
CN111858728A (zh) * 2020-06-29 2020-10-30 国家计算机网络与信息安全管理中心 不同数据源的数据抽取方法、装置、设备及存储介质
CN112131611A (zh) * 2020-09-14 2020-12-25 北京锐安科技有限公司 数据正确性验证方法、装置、设备、系统及存储介质
CN113094586A (zh) * 2021-04-21 2021-07-09 腾讯音乐娱乐科技(深圳)有限公司 推送ugc的方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140052663A1 (en) * 2012-08-20 2014-02-20 Milestones Media, LLC System and method for electronic evaluation and selection of schools based on user inputs
CN104574234A (zh) * 2014-07-17 2015-04-29 星腾科留学股份有限公司 大学申请机会最优化教育咨询系统
CN105184708A (zh) * 2015-08-14 2015-12-23 北京联校传奇信息科技有限公司 一种留学申请匹配方法及系统
CN107784379A (zh) * 2016-08-30 2018-03-09 源渠(上海)信息技术有限公司 一种留学申请预测系统及方法
CN108335047A (zh) * 2018-02-12 2018-07-27 藕丝科技(深圳)有限公司 进行学校申请的个人竞争力智能评估系统及方法
CN109658296A (zh) * 2018-08-31 2019-04-19 北京沃达新创国际教育科技有限公司 一种智能留学服务平台

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140052663A1 (en) * 2012-08-20 2014-02-20 Milestones Media, LLC System and method for electronic evaluation and selection of schools based on user inputs
CN104574234A (zh) * 2014-07-17 2015-04-29 星腾科留学股份有限公司 大学申请机会最优化教育咨询系统
CN105184708A (zh) * 2015-08-14 2015-12-23 北京联校传奇信息科技有限公司 一种留学申请匹配方法及系统
CN107784379A (zh) * 2016-08-30 2018-03-09 源渠(上海)信息技术有限公司 一种留学申请预测系统及方法
CN108335047A (zh) * 2018-02-12 2018-07-27 藕丝科技(深圳)有限公司 进行学校申请的个人竞争力智能评估系统及方法
CN109658296A (zh) * 2018-08-31 2019-04-19 北京沃达新创国际教育科技有限公司 一种智能留学服务平台

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444368A (zh) * 2020-03-25 2020-07-24 平安科技(深圳)有限公司 构建用户画像的方法、装置、计算机设备及存储介质
CN111582932A (zh) * 2020-03-25 2020-08-25 平安壹钱包电子商务有限公司 场景间信息推送方法、装置、计算机设备及存储介质
CN111444368B (zh) * 2020-03-25 2023-01-17 平安科技(深圳)有限公司 构建用户画像的方法、装置、计算机设备及存储介质
CN111709843A (zh) * 2020-05-09 2020-09-25 中国人民财产保险股份有限公司 一种客户画像的生成方法、装置及电子设备
CN111709843B (zh) * 2020-05-09 2023-07-28 中国人民财产保险股份有限公司 一种客户画像的生成方法、装置及电子设备
CN111710429A (zh) * 2020-05-29 2020-09-25 平安医疗健康管理股份有限公司 信息的推送方法及装置、计算机设备、存储介质
CN111708920A (zh) * 2020-06-06 2020-09-25 谢国柱 基于人工智能的互联网大数据处理方法及智能云服务平台
CN111708920B (zh) * 2020-06-06 2021-01-08 广东和邦网络科技有限公司 基于人工智能的互联网大数据处理方法及智能云服务平台
CN111858728A (zh) * 2020-06-29 2020-10-30 国家计算机网络与信息安全管理中心 不同数据源的数据抽取方法、装置、设备及存储介质
CN112131611A (zh) * 2020-09-14 2020-12-25 北京锐安科技有限公司 数据正确性验证方法、装置、设备、系统及存储介质
CN112131611B (zh) * 2020-09-14 2024-02-06 北京锐安科技有限公司 数据正确性验证方法、装置、设备、系统及存储介质
CN113094586A (zh) * 2021-04-21 2021-07-09 腾讯音乐娱乐科技(深圳)有限公司 推送ugc的方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110688566A (zh) 基于用户画像的数据推送方法、系统、设备及存储介质
WO2019174141A1 (zh) 调查问卷生成方法、服务器及计算机可读存储介质
US11019017B2 (en) Social media influence of geographic locations
CN108287857B (zh) 表情图片推荐方法及装置
Novi Inverardi et al. Maximum entropy density estimation from fractional moments
WO2018059016A1 (zh) 针对机器学习的特征处理方法及特征处理系统
DE102015009910A1 (de) Automatische Aggregation von Online-Benutzerprofilen
Raykov On testability of missing data mechanisms in incomplete data sets
CN110659318A (zh) 基于大数据的策略推送方法、系统及计算机设备
CN110060750B (zh) 医疗数据推送方法、系统、计算机设备及可读存储介质
CN110727860A (zh) 基于互联网美容平台的用户画像方法、装置、设备及介质
CN107809370B (zh) 用户推荐方法及装置
CN110580284A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN111696656A (zh) 一种互联网医疗平台的医生评价方法、装置
JP6927526B2 (ja) 人工知能を用いた質疑応答システム
US20210240701A1 (en) Information processing apparatus, determination method, non-transitory computer readable medium storing program, and information processing system
CN112819548A (zh) 用户画像生成方法及装置、可读存储介质、电子设备
CN110929519B (zh) 实体属性抽取方法及装置
CN110766047B (zh) 数据匹配方法、系统、计算机设备和计算机可读存储介质
CN114675767A (zh) 一种信息采集方法、装置、电子设备以及存储介质
CN113469752A (zh) 内容推荐方法、装置、存储介质及电子设备
CN113656738A (zh) 网站分类方法、装置、电子设备及可读存储介质
Conte et al. A Test of the Rational Expectations Hypothesis using data from a Natural Experiment
CN113656545A (zh) 智能面试方法、装置、计算机设备及存储介质
CN114596108A (zh) 一种对象推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination