CN110766047A - 数据匹配方法、系统、计算机设备和计算机可读存储介质 - Google Patents

数据匹配方法、系统、计算机设备和计算机可读存储介质 Download PDF

Info

Publication number
CN110766047A
CN110766047A CN201910872804.3A CN201910872804A CN110766047A CN 110766047 A CN110766047 A CN 110766047A CN 201910872804 A CN201910872804 A CN 201910872804A CN 110766047 A CN110766047 A CN 110766047A
Authority
CN
China
Prior art keywords
source object
feature vector
feature
sample
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910872804.3A
Other languages
English (en)
Other versions
CN110766047B (zh
Inventor
徐宁
刘会哲
王远
喻宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910872804.3A priority Critical patent/CN110766047B/zh
Publication of CN110766047A publication Critical patent/CN110766047A/zh
Application granted granted Critical
Publication of CN110766047B publication Critical patent/CN110766047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据匹配方法,所述方法包括:从一个或多个设备中获取源对象的源对象信息,所述源对象信息包括源对象基本信息和目标对象信息;根据所述源对象基本信息构建所述源对象特征向量;根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,其中,所述条件特征向量包括匹配所述目标对象所需的多个条件特征标签对应的多个条件特征参数;及推送所述数据匹配策略至所述源对象关联的客户端中。本发明实施例提供了数据匹配方法系统、计算机设备和计算机可存储介质。本发明实施例可以向不同的对象推送相匹配的方法,从而提升数据推送的准确性。

Description

数据匹配方法、系统、计算机设备和计算机可读存储介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据匹配方法及系统、计算机设备及计算机可读存储介质。
背景技术
随着互联网的蓬勃发展,大数据应用的行业越来越多,数据匹配也越来越受到重视。
目前,数据匹配应用的领域颇广,例如留学申请、病情状况和股市起伏等都会涉及。以留学申请为例,大部分提供在线智能择校的传统留学机构,仅仅是获取学生的联系方式,将学生转去线下服务,并不会根据意愿学校为学生制定提升计划。部分为学生制定提升计划的留学机构不过是人为制定,主观性较强,有些非人为制定的提升计划也不过是机器按照同一标准统一推送。所以现有的数据匹配存在以下问题:第一,人为参与过多,不够智能;第二,数据匹配较为粗糙,不够准确。
因此,有必要提供一种更加智能和准确的数据匹配方案。
发明内容
有鉴于此,本发明实施例的目的是提供一种数据匹配方法、系统、计算机设备和计算机可读存储介质,本发明可以向不同的对象推送相匹配的方法,从而提升数据推送的准确性。
为实现上述目的,本发明实施例提供了一种数据匹配方法,包括以下步骤:
从一个或多个设备中获取源对象的源对象信息,所述源对象信息包括源对象基本信息和目标对象信息;
根据所述源对象基本信息构建所述源对象特征向量,所述源对象特征向量包括用于表征源对象能力的多个特征标签的多个源对象特征参数;
根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,其中,所述条件特征向量包括匹配所述目标对象所需的多个条件特征标签对应的多个条件特征参数;及
推送所述数据匹配策略至所述源对象关联的客户端中,以便所述源对象根据所述数据匹配策略提升所述源对象与所述目标对象之间的匹配度。
优选地,获取所述条件特征向量的步骤,包括:
获取与所述目标对象匹配的多个其他对象的多个样本数据集合,以构建多个样本特征向量;
基于所述多个样本特征向量,通过均值计算得到所述条件特征向量。
优选地,所述根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,包括:
根据所述源对象特征向量与所述条件特征向量,通过以下公式计算所述源对象和目标对象之间的余弦相似度:
Figure BDA0002203371280000021
其中,cos(θ)为所述源对象和目标对象之间的余弦相似度;Ai表示所述源对象特征向量中的第i个元素的值,Bi表示条件特征向量中的第i个元素的值,n为特征向量中的元素数量。
优选地,获取所述源对象特征向量中的每个源对象特征参数的步骤,包括:
获取所述目标对象匹配的多个其他源对象的多个样本数据集合;
根据所述多个样本数据集合得到多个特征列,每个特征列由同一个样本特征对应的多个样本原始数据构成;
对各个源对象原始数据在对应的特征列中进行数据排序;及
根据各个源对象原始数据在对应特征列中的数据排序结果,将所述各个源对象原始数据转换为对应的源对象特征参数,所述源对象特征参数用于构建所述源对象特征向量。
优选地,所述根据各个源对象原始数据在对应特征列中的数据排序结果,将所述各个源对象原始数据转换为对应的源对象特征参数,包括:
根据所述数据排序结果,得到所述各个源对象的各个样本特征在对应特征列中的排名百分比gi
根据所述排名百分比计算各个源对象的各个样本特征对应的特征参数hihi,公式如下:
hi=a*(1-gi);
其中,i表示各个源对象的第i个样本特征,hi表示各个源对象在第i个样本特征的特征参数,gi表示各个源对象的第i个样本特征在第i个特征列中的排名百分比,a表示数值常量。
优选地,所述根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,包括:
根据各个源对象的各个样本特征对应的特征参数hi,计算各个源对象的各个样本特征对应的偏差值di,公式如下:;
Figure BDA0002203371280000031
其中,i表示各个源对象的第i个样本特征,hi表示各个源对象的第i个样本特征的特征参数,fi表示第i个特征列中的多个特征参数的平均值,xi表示第i个特征列中的多个特征参数的标准差,b、c均表示数值常量。
根据各个源对象的各个样本特征对应的偏差值di,生成针对第i个样本特征对应的策略数据。
为实现上述目的,本发明实施例还提供了一种数据匹配系统,包括:
获取模块,用于从一个或多个设备中获取源对象的源对象信息,所述源对象信息包括源对象基本信息和目标对象信息;
构建模块,用于根据所述源对象基本信息构建所述源对象特征向量,所述源对象特征向量包括用于表征源对象能力的多个特征标签的多个源对象特征参数;
生成模块,用于根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,其中,所述条件特征向量包括匹配所述目标对象所需的多个条件特征标签对应的多个条件特征参数;及
推送模块,用于推送所述数据匹配策略至所述源对象关联的客户端中,以便所述源对象根据所述数据匹配策略提升所述源对象与所述目标对象之间的匹配度。
进一步地,所述生成模块还用于:
获取与所述目标对象匹配的多个其他对象的多个样本数据集合,以构建多个样本特征向量;
基于所述多个样本特征向量,通过均值计算得到所述条件特征向量。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的数据匹配方法的步骤。
相较于现有技术,本发明实施例提供的数据匹配方法、系统、计算机设备及计算机可读存储介质,获取源对象信息中的源对象基本信息与目标对象信息,根据所述源对象基本信息与所述目标对象信息的差异生成源对象与目标对象之间的数据匹配策略,并将所述数据匹配策略推送到所述源对象关联的客户端中。通过本发明实施例,可以向不同的用户推送与所述用户信息相匹配目标对象信息,极大的提升了目标对象数据推送的准确性。
附图说明
图1为本发明数据匹配方法实施例一的流程图。
图2为本发明数据匹配方法实施例一中步骤S102的流程图。
图3为本发明数据匹配方法实施例一中步骤S104的流程图。
图4为本发明数据匹配系统实施例二的程序方块图。
图5为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参阅图1,示出了本发明实施例一之数据匹配方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。具体如下:
步骤S100,从一个或多个设备中获取源对象的源对象信息,所述源对象信息包括源对象基本信息和目标对象信息。
示例性地,当多个用户需要申请意向学校时,多个用户可在同一个设备输入自身的信息以及意向学校信息,所述多个用户也可各自在不同的设备输入各自的信息以及各自的意向学校信息。当然,用户可以指学生或家属,在本实施例中,以学生为例进行说明。
在一较佳实施例中,所述从一个或多个设备中获取所述源对象信息的步骤包括:接收学生通过客户端提供的JSON等格式的电子测评表单;所述电子测试表单包括多个字段,如姓名字段、意向学校字段等;所述多个字段的字段种类可以包括文本框、复选框、单选框、下拉选择框等;解析所述电子测评表单,并将所述电子测评表单中的各个字段的字段信息载入到数据表中。
示例性地,所述源对象基本信息可以为学生基本信息,例如:学生姓名、该学生的平时成绩等。
示例性地,所述目标对象信息可以为目标学校信息,例如:A学校。
步骤S102,根据所述源对象基本信息构建所述源对象特征向量,所述源对象特征向量包括用于表征源对象能力的多个特征标签的多个源对象特征参数。
示例性地,根据所述目标对象下的多个源对象基本信息,获取所述多个源对象的多个特征,以根据所述多个特征构建所述目标对象下的源对象的特征向量。例如:获取成功报考A学校的多个学生信息,并从该些学生信息中获取多个特征,并构建特征向量。
在示例性的实施例中,如图2所示,步骤S102可以包括步骤S102A~S102D。
步骤S102A,获取所述目标对象匹配的多个其他源对象的多个样本数据集合。
示例性地,多个其他源对象可以为多个已成功申请目标学校的学生,多个样本数据集合可以为多个学生的数据集合,所述数据集合包括但不限于:研究经历信息、论文成果信息、推荐信信息、学校专业信息,海外经历信息、公益活动信息、工作经历信息、就读学校信息、GPA信息、托福信息、GRE信息等。
步骤S102B,根据所述多个样本数据集合得到多个特征列,每个特征列由同一个样本特征对应的多个样本原始数据构成。
步骤S102C,对各个源对象原始数据在对应的特征列中进行数据排序。
示例性地,所述数据排序的方式可以为:研究经历—按研究经历所在学校排名进行排序(Quacquarelli Symonds机构每年会给出全球学校、专业排名)、论文成果—按所发表论文的影响因子总和进行排序、推荐信—按推荐人的h-index高低进行排序、海外经历—按海外经历所在学校进行排序、学校—按QS学校排名进行排序、学校专业—按QS专业排名进行排序、英语—按成绩进行排序、公益活动—按公益活动时长进行排序等。
步骤S102D,根据各个源对象原始数据在对应特征列中的数据排序结果,将所述各个源对象原始数据转换为对应的源对象特征参数,所述源对象特征参数用于构建所述源对象特征向量。
可选地,所述根据各个源对象原始数据在对应特征列中的数据排序结果,将所述各个源对象原始数据转换为对应的源对象特征参数,包括:
根据所述数据排序结果,得到所述各个源对象的各个样本特征在对应特征列中的排名百分比gi
根据所述排名百分比计算各个源对象的各个样本特征对应的特征参数hi,公式如下:
hi=a*(1-gi);
其中,i表示各个源对象的第i个样本特征,hi表示各个源对象在第i个样本特征的特征参数,gi表示各个源对象的第i个样本特征在第i个特征列中的排名百分比,a表示数值常量。在一较佳实施例中,为了表征百分比中的具体数值,且为了方便计算,将a取值为100。
示例性地,学生A的托福成绩在数据库中数据排序结果的百分比排名为63%,那学生A的托福成绩特征参数就为100*(1-63%)=37。
步骤S104,根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,其中,所述条件特征向量包括匹配所述目标对象所需的多个条件特征标签对应的多个条件特征参数。
示例性地,将构建的源对象特征向量与所述目标对象的条件特征向量进行对比,并根据对比结果生成所述源对象与所述目标对象之间的数据匹配策略。
在示例性的实施例中,如图3所示,步骤S104可以包括步骤S104A~S104B。
步骤S104A,获取与所述目标对象匹配的多个其他对象的多个样本数据集合,以构建多个样本特征向量。
示例性地,多个其他对象的多个样本数据集合包括但不限于:研究经历信息、论文成果信息、推荐信信息、学校专业信息,海外经历信息、公益活动信息、工作经历信息、就读学校信息、GPA信息、托福信息、GRE信息等。
步骤S104B,基于所述多个样本特征向量,通过均值计算得到所述条件特征向量。
示例性地,所述根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略的步骤,包括:
根据所述源对象特征向量与所述条件特征向量,通过以下公式计算所述源对象和目标对象之间的余弦相似度:
Figure BDA0002203371280000071
其中,cos(θ)为所述源对象和目标对象之间的余弦相似度;Ai表示所述源对象特征向量中的第i个元素的值,Bi表示条件特征向量中的第i个元素的值,n为特征向量中的元素数量。
示例性地,所述根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,包括:
根据各个源对象的各个样本特征对应的特征参数hi,计算各个源对象的各个样本特征对应的偏差值di,公式如下:;
其中,i表示各个源对象的第i个样本特征,hi表示各个源对象的第i个样本特征的特征参数,fi表示第i个特征列中的多个特征参数的平均值,xi表示第i个特征列中的多个特征参数的标准差,b、c均表示数值常量;
根据各个源对象的各个样本特征对应的偏差值di,生成针对第i个样本特征对应的策略数据。
需要说明的是,为了方便计算,在本实施例中,将b取值为10,c取值为50。
示例性地,所述偏差值可以为学生A的各个样本特征标签与目标学校录取标准的各个样本特征标签的能力差距,根据计算的能力差距可为学生A制定专属提升计划。
步骤S106,推送所述数据匹配策略至所述源对象关联的客户端中。
所述数据匹配策略用于引导提升所述源对象与所述目标对象之间的匹配度。
示例性地,可根据所述数据匹配策略生成留学提升计划的web页面,将web页面推送到学生A的客户端。
示例性地,例如对于软能力水平还未达到目标学校标准的学生,而可通过平台得到提升,所述平台提供拥有大量信息的资料库,所述资料库包括但不限于留学政策、最新留学资讯、名师直播课程、在线顾问和AI模拟面试等,帮助学生了解最新讯息,提升面试、文书撰写、推荐信等软能力水平;对于语言类能力水平还未达到目标学校标准的学生,则通过自适应学习平台根据学生当前语言能力(学生输入值)及目标(目标院校要求值),结合学生计划的留学时间,为学生制定学习计划,并推送学习课程,所述自适应学习平台会根据学生的学习及答题情况,推断学生知识点的掌握程度,强化未掌握的知识点,帮助学生学好语言,提升考试成绩;对于公益活动信息还未达到目标学校标准的学生,则通过平台向学生有针对性推送公益活动,例如哈佛注重学生做活动的持久力和热情,以及社会贡献,那么如果学生申请哈佛欠缺相应社会活动,系统会智能推荐长期性、能够为社会带来贡献的公益活动给学生。
实施例二
请继续参阅图4,示出了本发明数据匹配系统20实施例二的程序模块示意图。在本实施例中,基于数据匹配系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述数据匹配方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述数据匹配系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块200,用于从一个或多个设备中获取源对象的源对象信息,所述源对象信息包括源对象基本信息和目标对象信息。
示例性地,当多个用户需要申请意向学校时,多个用户可在同一个设备输入自身的信息以及意向学校信息,所述多个用户也可各自在不同的设备输入各自的信息以及各自的意向学校信息。当然,用户可以指学生或家属,在本实施例中,以学生为例进行说明。
构建模块202,用于根据所述源对象基本信息构建所述源对象特征向量,所述源对象特征向量包括用于表征源对象能力的多个特征标签的多个源对象特征参数。
示例性地,根据所述目标对象下的多个源对象基本信息,获取所述多个源对象的多个特征,以使所述构建模块202根据所述多个特征构建所述目标对象下的源对象的特征向量。例如:获取成功还报考A学校的多个学生信息,并从该些学生信息中获取多个特征,并构建特征向量。
所述构建模块202还用于获取所述目标对象匹配的多个其他源对象的多个样本数据集合;根据所述多个样本数据集合得到多个特征列,每个特征列由同一个样本特征对应的多个样本原始数据构成;对各个源对象原始数据在对应的特征列中进行数据排序;根据各个源对象原始数据在对应特征列中的数据排序结果,将所述各个源对象原始数据转换为对应的源对象特征参数,所述源对象特征参数用于构建所述源对象特征向量。
示例性地,多个其他源对象可以为多个已成功申请目标学校的学生,多个样本数据集合可以为多个学生的数据集合,所述数据集合包括但不限于:研究经历信息、论文成果信息、推荐信信息、学校专业信息、海外经历信息、公益活动信息、工作经历信息、就读学校信息、GPA信息、托福信息、GRE信息等。
示例性地,所述数据排序的方式可以为:研究经历—按研究经历所在学校排名进行排序(Quacquarelli Symonds机构每年会给出全球学校、专业排名)、论文成果—按所发表论文的影响因子总和进行排序、推荐信—按推荐人的h-index高低进行排序、海外经历—按海外经历所在学校进行排序、学校—按QS学校排名进行排序、学校专业—按QS专业排名进行排序、英语—按成绩进行排序、公益活动—按公益活动时长进行排序等等。
示例性地,所述根据各个源对象原始数据在对应特征列中的数据排序结果,将所述各个源对象原始数据转换为对应的源对象特征参数,包括:
根据所述数据排序结果,得到所述各个源对象的各个样本特征在对应特征列中的排名百分比gi
根据所述排名百分比计算各个源对象的各个样本特征对应的特征参数hi,公式如下:
hi=a*(1-gi);
其中,i表示各个源对象的第i个样本特征,hi表示各个源对象在第i个样本特征的特征参数,gi表示各个源对象的第i个样本特征在第i个特征列中的排名百分比,a表示数值常量。在一较佳实施例中,为了表征百分比中的具体数值,且为了方便计算,将a取值为100。
示例性地,学生A的托福成绩在数据库中数据排序结果的百分比排名为63%,那学生A的托福成绩特征参数就为100*(1-63%)=37。
生成模块204,用于根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,其中,所述条件特征向量包括匹配所述目标对象所需的多个条件特征标签对应的多个条件特征参数;基于所述多个样本特征向量,通过均值计算得到所述条件特征向量。
示例性地,将构建的源对象特征向量与所述目标对象的条件特征向量进行对比,并根据对比结果生成所述源对象与所述目标对象之间的数据匹配策略。
示例性的,所述生成模块204还用于获取与所述目标对象匹配的多个其他对象的多个样本数据集合,以构建多个样本特征向量。
示例性地,多个其他对象的多个样本数据集合包括但不限于:研究经历信息、论文成果信息、推荐信信息、学校专业信息,海外经历信息、公益活动信息、工作经历信息、就读学校信息、GPA信息、托福信息、GRE信息等。
示例性的,所述生成模块204还用于:根据所述源对象特征向量与所述条件特征向量,通过以下公式计算所述源对象和目标对象之间的余弦相似度:
Figure BDA0002203371280000111
其中,cos(θ)为所述源对象和目标对象之间的余弦相似度;Ai表示所述源对象特征向量中的第i个元素的值,Bi表示条件特征向量中的第i个元素的值,n为特征向量中的元素数量。
示例性的,所述生成模块204还用于:根据各个源对象的各个样本特征对应的特征参数hi,计算各个源对象的各个样本特征对应的偏差值di,公式如下:;
其中,i表示各个源对象的第i个样本特征,hi表示各个源对象的第i个样本特征的特征参数,fi表示第i个特征列中的多个特征参数的平均值,xi表示第i个特征列中的多个特征参数的标准差,b、c均表示数值常量;
根据各个源对象的各个样本特征对应的偏差值di,生成针对第i个样本特征对应的策略数据。
需要说明的是,为了方便计算,在本实施例中,将b取值为10,c取值为50。
示例性地,所述偏差值可以为学生A的各个样本特征标签与目标学校录取标准的各个样本特征标签的能力差距,根据计算的能力差距可为学生A制定专属提升计划。
推送模块206,用于推送所述数据匹配策略至所述源对象关联的客户端中。
所述数据匹配策略用于引导提升所述源对象与所述目标对象之间的匹配度。
示例性地,可根据所述数据匹配策略生成留学提升计划的web页面,将web页面推送到学生A的客户端。
示例性地,例如对于软能力水平还未达到目标学校标准的学生,而可通过平台得到提升,所述平台提供拥有大量信息的资料库,所述资料库包括但不限于留学政策、最新留学资讯、名师直播课程、在线顾问和AI模拟面试等,帮助学生了解最新讯息,提升面试、文书撰写、推荐信等软能力水平;对于语言类能力水平还未达到目标学校标准的学生,则通过自适应学习平台根据学生当前语言能力(学生输入值)及目标(目标院校要求值),结合学生计划的留学时间,为学生制定学习计划,并推送学习课程,所述自适应学习平台会根据学生的学习及答题情况,推断学生知识点的掌握程度,强化未掌握的知识点,帮助学生学好语言,提升考试成绩;对于公益活动信息还未达到目标学校标准的学生,则通过平台向学生有针对性推送公益活动,例如哈佛注重学生做活动的持久力和热情,以及社会贡献,那么如果学生申请哈佛欠缺相应社会活动,系统会智能推荐长期性、能够为社会带来贡献的公益活动给学生。
实施例三
参阅图5,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及数据匹配系统统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的数据匹配系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行数据匹配系统20,以实现实施例一的数据匹配方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。
需要指出的是,图5仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述数据匹配系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图4示出了所述实现数据匹配系统20实施例二的程序模块示意图,该实施例中,所述数据匹配系统20可以被划分为获取模块200、构建模块202、生成模块204和推送模块206。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述数据匹配系统20在所述计算机设备2中的执行过程。所述程序模块200-206的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储数据匹配系统20,被处理器执行时实现实施例一的数据匹配方法。
相较于现有技术,本发明实施例提供的数据匹配方法、系统、计算机设备及计算机可读存储介质,获取到源对象的源对象信息之后,根据所述源对象基本信息构建所述源对象特征向量,然后根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,在将所述数据匹配策略推送到所述源对象关联的客户端中。因此,本发明实施例可以向不同的对象推送相匹配的方法,从而提升数据推送的准确性。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种数据匹配方法,其特征在于,所述方法包括:
从一个或多个设备中获取源对象的源对象信息,所述源对象信息包括源对象基本信息和目标对象信息;
根据所述源对象基本信息构建所述源对象特征向量,所述源对象特征向量包括用于表征源对象能力的多个特征标签的多个源对象特征参数;
根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,其中,所述条件特征向量包括匹配所述目标对象所需的多个条件特征标签对应的多个条件特征参数;及
推送所述数据匹配策略至所述源对象关联的客户端中,以便所述源对象根据所述数据匹配策略提升所述源对象与所述目标对象之间的匹配度。
2.根据权利要求1所述的数据匹配方法,其特征在于,还包括获取所述条件特征向量的步骤:
获取与所述目标对象匹配的多个其他对象的多个样本数据集合,以构建多个样本特征向量;
基于所述多个样本特征向量,通过均值计算得到所述条件特征向量。
3.根据权利要求1所述的数据匹配方法,其特征在于,所述根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,包括:
根据所述源对象特征向量与所述条件特征向量,通过以下公式计算所述源对象和目标对象之间的余弦相似度:
Figure FDA0002203371270000011
其中,cos(θ)为所述源对象和目标对象之间的余弦相似度;Ai表示所述源对象特征向量中的第i个元素的值,Bi表示条件特征向量中的第i个元素的值,n为特征向量中的元素数量。
4.根据权利要求1所述的数据匹配方法,其特征在于,还包括获取所述源对象特征向量中的每个源对象特征参数的步骤:
获取所述目标对象匹配的多个其他源对象的多个样本数据集合;
根据所述多个样本数据集合得到多个特征列,每个特征列由同一个样本特征对应的多个样本原始数据构成;
对各个源对象原始数据在对应的特征列中进行数据排序;及
根据各个源对象原始数据在对应特征列中的数据排序结果,将所述各个源对象原始数据转换为对应的源对象特征参数,所述源对象特征参数用于构建所述源对象特征向量。
5.根据权利要求4所述的数据匹配方法,其特征在于,所述根据各个源对象原始数据在对应特征列中的数据排序结果,将所述各个源对象原始数据转换为对应的源对象特征参数,包括:
根据所述数据排序结果,得到所述各个源对象的各个样本特征在对应特征列中的排名百分比gi
根据所述排名百分比计算各个源对象的各个样本特征对应的特征参数hi,公式如下:
hi=a*(1-gi);
其中,i表示各个源对象的第i个样本特征,hi表示各个源对象在第i个样本特征的特征参数,gi表示各个源对象的第i个样本特征在第i个特征列中的排名百分比,a表示数值常量。
6.根据权利要求5所述的数据匹配方法,其特征在于,所述根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,包括:
根据各个源对象的各个样本特征对应的特征参数hi,计算各个源对象的各个样本特征对应的偏差值di,公式如下:
Figure FDA0002203371270000021
其中,i表示各个源对象的第i个样本特征,hi表示各个源对象的第i个样本特征的特征参数,fi表示第i个特征列中的多个特征参数的平均值,xi表示第i个特征列中的多个特征参数的标准差,b、c均表示数值常量;
根据各个源对象的各个样本特征对应的偏差值di,生成针对第i个样本特征对应的策略数据。
7.一种数据匹配系统,其特征在于,所述系统包括:
获取模块,用于从一个或多个设备中获取源对象的源对象信息,所述源对象信息包括源对象基本信息和目标对象信息;
构建模块,用于根据所述源对象基本信息构建所述源对象特征向量,所述源对象特征向量包括用于表征源对象能力的多个特征标签的多个源对象特征参数;
生成模块,用于根据所述源对象特征向量与条件特征向量,生成所述源对象和目标对象之间的数据匹配策略,其中,所述条件特征向量包括匹配所述目标对象所需的多个条件特征标签对应的多个条件特征参数;
推送模块,用于推送所述数据匹配策略至所述源对象关联的客户端中,以便所述源对象根据所述数据匹配策略提升所述源对象与所述目标对象之间的匹配度。
8.根据权利要求7所述的数据匹配系统,其特征在于,所述生成模块还用于:
获取与所述目标对象匹配的多个其他对象的多个样本数据集合,以构建多个样本特征向量;
基于所述多个样本特征向量,通过均值计算得到所述条件特征向量。
9.一种计算机设备,所述计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的数据匹配方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1至6中任一项所述的数据匹配方法的步骤。
CN201910872804.3A 2019-09-16 2019-09-16 数据匹配方法、系统、计算机设备和计算机可读存储介质 Active CN110766047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910872804.3A CN110766047B (zh) 2019-09-16 2019-09-16 数据匹配方法、系统、计算机设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910872804.3A CN110766047B (zh) 2019-09-16 2019-09-16 数据匹配方法、系统、计算机设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110766047A true CN110766047A (zh) 2020-02-07
CN110766047B CN110766047B (zh) 2024-05-28

Family

ID=69329603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910872804.3A Active CN110766047B (zh) 2019-09-16 2019-09-16 数据匹配方法、系统、计算机设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110766047B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612789A (zh) * 2020-12-15 2021-04-06 平安消费金融有限公司 数据存取方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015043133A (ja) * 2013-08-26 2015-03-05 陽介 天野 留学支援システム
CN105184708A (zh) * 2015-08-14 2015-12-23 北京联校传奇信息科技有限公司 一种留学申请匹配方法及系统
KR20170025038A (ko) * 2015-08-27 2017-03-08 주식회사 캠퍼스나인 웹 플랫폼 기반의 유학 지원 방법 및 장치
CN107784379A (zh) * 2016-08-30 2018-03-09 源渠(上海)信息技术有限公司 一种留学申请预测系统及方法
CN109151023A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 任务分配方法、装置及存储介质
CN109829110A (zh) * 2019-01-29 2019-05-31 四川长虹电器股份有限公司 一种学习资料的个性化推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015043133A (ja) * 2013-08-26 2015-03-05 陽介 天野 留学支援システム
CN105184708A (zh) * 2015-08-14 2015-12-23 北京联校传奇信息科技有限公司 一种留学申请匹配方法及系统
KR20170025038A (ko) * 2015-08-27 2017-03-08 주식회사 캠퍼스나인 웹 플랫폼 기반의 유학 지원 방법 및 장치
CN107784379A (zh) * 2016-08-30 2018-03-09 源渠(上海)信息技术有限公司 一种留学申请预测系统及方法
CN109151023A (zh) * 2018-08-21 2019-01-04 平安科技(深圳)有限公司 任务分配方法、装置及存储介质
CN109829110A (zh) * 2019-01-29 2019-05-31 四川长虹电器股份有限公司 一种学习资料的个性化推荐方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612789A (zh) * 2020-12-15 2021-04-06 平安消费金融有限公司 数据存取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN110766047B (zh) 2024-05-28

Similar Documents

Publication Publication Date Title
CN110688566A (zh) 基于用户画像的数据推送方法、系统、设备及存储介质
CN110060750B (zh) 医疗数据推送方法、系统、计算机设备及可读存储介质
US20200279226A1 (en) System and methods that facilitate hiring and recruitment
CN107918640A (zh) 样本确定方法及装置
CN110874710B (zh) 一种招聘辅助方法及装置
CN110659318A (zh) 基于大数据的策略推送方法、系统及计算机设备
CN111460290B (zh) 信息的推荐方法、装置、设备和存储介质
CN110503565A (zh) 行为风险识别方法、系统、设备及可读存储介质
CN109461016B (zh) 数据评分方法、装置、计算机设备及存储介质
CN113157863A (zh) 问答数据处理方法、装置、计算机设备及存储介质
CN110263651B (zh) 一种辅助在线批阅试题的方法、装置和存储介质
CN108038655A (zh) 部门需求的推荐方法、应用服务器及计算机可读存储介质
CN110580284A (zh) 一种实体消歧方法、装置、计算机设备及存储介质
CN108681871B (zh) 一种提示信息的方法、终端设备及计算机可读存储介质
CN116701584A (zh) 基于电力用户画像的智能问答方法、装置以及电子设备
CN110766047B (zh) 数据匹配方法、系统、计算机设备和计算机可读存储介质
US11361032B2 (en) Computer driven question identification and understanding within a commercial tender document for automated bid processing for rapid bid submission and win rate enhancement
CN111144512B (zh) 基于EMLo预训练模型的职业指导方法、装置及存储介质
Liao et al. Tail behavior and limit distribution of maximum of logarithmic general error distribution
Sowumni et al. Framework for academic advice through mobile applications
CN117114901A (zh) 基于人工智能的投保数据处理方法、装置、设备及介质
US20230351153A1 (en) Knowledge graph reasoning model, system, and reasoning method based on bayesian few-shot learning
US20200175455A1 (en) Classification of skills
CN113722437B (zh) 基于人工智能的用户标签识别方法、装置、设备及介质
CN110929163B (zh) 课程推荐方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant