CN112182333A - 基于随机森林的人才时空大数据处理方法及系统 - Google Patents

基于随机森林的人才时空大数据处理方法及系统 Download PDF

Info

Publication number
CN112182333A
CN112182333A CN202011025917.9A CN202011025917A CN112182333A CN 112182333 A CN112182333 A CN 112182333A CN 202011025917 A CN202011025917 A CN 202011025917A CN 112182333 A CN112182333 A CN 112182333A
Authority
CN
China
Prior art keywords
talent
space
data
time data
spatiotemporal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011025917.9A
Other languages
English (en)
Inventor
李钊
郭志伟
于杨
李慧娟
彭志进
张盼盼
李霄鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Huazhi Talent Technology Co ltd
Original Assignee
Shandong Ecloud Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Ecloud Information Technology Co ltd filed Critical Shandong Ecloud Information Technology Co ltd
Priority to CN202011025917.9A priority Critical patent/CN112182333A/zh
Publication of CN112182333A publication Critical patent/CN112182333A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据处理领域,提供了一种基于随机森林的人才时空大数据处理方法及系统。其中,基于随机森林的人才时空大数据处理方法包括获取人才时空数据,并根据人才时空数据的类型进行分类存储;分类调取人才时空数据并进行清洗操作,将清洗后的人才时空数据标签化;将标签化的人才时空数据与具体分值映射,基于随机森林评估出相应人才时空数据对应的人才评分作为相应人才的画像,以实现人才的量化评估及精确匹配调度。

Description

基于随机森林的人才时空大数据处理方法及系统
技术领域
本发明属于大数据处理领域,尤其涉及一种基于随机森林的人才时空大数据处理方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
人才的大数据的处理一直受到数据质量和时空关系的制约,如同名学者的冲突性,不同业务系统人才数据的冗余性和缺失性,分布式爬取人才数据缺失性,评估系统评价的异常性,同一学者在不同地区流动和不同单位的合作关系复杂性,同一学者在时间维度发表不同主题论文的专注性,而发明人发现,人才又可以和人才附加数据相关联(比如:专利,论文,成果,课题,创办企业,违规违纪信息),汇聚和清洗多种来源的数据来构建人才画像和进行人才大数据处理成为一项难点。
发明内容
为了解决上述问题,本发明提供一种基于随机森林的人才时空大数据处理方法及系统,其实现了人才的量化评估及精确匹配调度。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种基于随机森林的人才时空大数据处理方法。
一种基于随机森林的人才时空大数据处理方法,包括:
获取人才时空数据,并根据人才时空数据的类型进行分类存储;
分类调取人才时空数据并进行清洗操作,将清洗后的人才时空数据标签化;
将标签化的人才时空数据与具体分值映射,基于随机森林评估出相应人才时空数据对应的人才评分作为相应人才的画像,以实现人才的量化评估及精确匹配调度。
本发明的第二个方面提供一种基于随机森林的人才时空大数据处理系统。
一种基于随机森林的人才时空大数据处理系统,包括:
数据获取及存储模块,其用于获取人才时空数据,并根据人才时空数据的类型进行分类存储;
数据清洗及标签化模块,其用于分类调取人才时空数据并进行清洗操作,将清洗后的人才时空数据标签化;
量化评估模块,其用于将标签化的人才时空数据与具体分值映射,基于随机森林评估出相应人才时空数据对应的人才评分作为相应人才的画像,以实现人才的量化评估及精确匹配调度。
本发明的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于随机森林的人才时空大数据处理方法中的步骤。
本发明的第四个方面提供一种计算机设备。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于随机森林的人才时空大数据处理方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明采用汇聚人才时空大数据的技术手段,将人才时空数据触达到时间维度和空间维度,包含不同地区的合作单位,不同时间发表论文的方向,不同地区合作者,提升高层次人员价值评估及预测人才迁移的准确性,辅助政府部门招才引智;提供了一种时空数据的全流程处理方法,包括采集,治理,存储,标签化,评估预测;支持增量更新,定时采集,数据获取快,数据治理效果良好,人员实际价值与评估曲线拟合度较高。本发明支持时空大数据的快速存取,查询延迟低,支持时间维度,空间维度及关键词的匹配查询。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的一种基于随机森林的人才时空大数据处理方法流程图;
图2是本发明实施例的分布式爬虫数据的流程图;
图3是本发明实施例的随机森林模型训练过程。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
参照图1,本实施例的一种基于随机森林的人才时空大数据处理方法,包括:
步骤1:获取人才时空数据,并根据人才时空数据的类型进行分类存储。
时空数据来源于业务系统(申报评估系统或人才地图)或分布式系统爬取互联网数据(政府或学校网站),如图2所示,或者通过第三方接口推送过来或者统计分析出来,获取的数据是原始数据,存在冗余性,冲突性,异常性,缺失性,需要数据清洗模块进行清洗。
业务系统基于OLTP实时产生数据,通过消息队列rocketMq缓冲数据,存储于关系型数据库,关系型数据库采用负载均衡集群方式部署。
分布式爬取采用scrapy分布式爬取架构,由以前的requests队列每台主机分别维护转化为一台master主机维护爬取队列,其他从机负责数据抓取,数据处理,数据存储。
第三方接口会推送人员的违法违纪等附加信息,验证人员手机号,人员身份证号等。例如:采用json格式的RestApi对外接口,通用性好。
统计数据需要统计分析现有数据得来,如关系数据,通过论文作者,合作单位,论文方向找出师生关系,同事关系,合作关系等。主要用到知识图谱的图搜索和图查找。
在具体实施中,结构化数据存储于云平台mysql-cluster集群中,mysql-cluster集群是分布式部署,具有高扩展性,高可靠性和可用性,在性能和扩展上具有自动分片,多主复制等特点,无需更改程序即可向外扩展增加读写性能,同时部署灵活,无单点故障。
No-Sql数据库存储,人才专利和论文数据数据存储在ElasticSearch中,ElasticSearch主要有全文检索和数据分析功能,支持分布式扩展。
非结构化数据如文件(jpg,png)存储于fastDfs文件服务器集群中,fastDfs具有负载均衡,冗余备份,同时具有高性能及高可靠性。
图数据库存储,人物关系数据存储于主流的图数据库Neo4j中,存储内容为人物节点,人物属性,人物关系三元组。
步骤2:分类调取人才时空数据并进行清洗操作,将清洗后的人才时空数据标签化。
数据清洗是后续数据分析的前提,可以提高分析的准确性。人才业务数据存在非常多的标签,如奖励级别,课题级别,SCI论文次数,人员重复出现次数等。数据清洗就是处理这些问题数据,包含一致性检查,数据去重,异常值处理,缺失值处理。这里使用自研的数据治理平台,具有面板动态选择处理组件,定时调度,数据组件丰富等优点。
具体地,一致性检查主要是检查数据值的取值范围,校验是否超出合理范围,对超出合理范围的数据进行修正。一致性检查的内容包括字段的唯一性校验,数据范围校验,数据格式校验,身份证校验,空值校验。
重复数据包含两种,一种是完全重复,根据人员主键和姓名保留一条数据,一种是部分重复,需要根据身份证号,姓名,单位,性别,先判断是否是一个人,对于是一个人先进行数据合并在进行去重处理。
常用的异常处理方法有线箱图,聚类,Z-score标准化等处理异常数据方法。
线箱图算法通过统计90%,75%,50%,25%,10%分位数数据,超过90%分位数数据和低于10%分位数数据归纳为异常数据。
聚类方法本质上是检测离群点,聚类的常用检测方法有基于密度检测,基于距离的检测。
基于密度的公式
Figure BDA0002702113130000061
N是包含x的k近邻集合,|N|是k近邻集合大小,y是其中一个近邻。
基于距离检测,本质上划分许多簇,计算簇中每个点到簇中心的相对距离,相对距离大的点即为异常点,相对距离的计算公式=点到簇的中心距离/所有点到簇中心距离的中位数。
z-score方法:用z-score标准化后的阈值作为判断标准,当标准化后的得分超过阈值为异常。
缺失值的处理方法有删除(含大量缺失值,只有少量有效值),补全(主要是均值补全和手动补全)。
指标的标签化借助自研的标签平台,标签平台核心功能包括人工打标签,规则打标签,算法打标签。人工打标签主要借助维护好的标签组和标签值进行手工打标签,规则打标签首先要维护好规则明细,如某字段大于数据300,规则组由多规则明细组合而成,并且有逻辑与或非关系,添加数据源后打标签可以根据规则组自动打标签。算法打标签基于高斯贝叶斯(GaussianNB)文本分类器,根据训练好的模型选择字自动打标签
其中,指标标签包括一级指标,二级指标,其中一级指标包含学术能力,基本素养,管理能力,荣誉称号,科研成果,课题,背景调查,绩效评估及产业化落地。
学术能力二级指标包括h因子,它引总次数,SCI论文数,SCI前两位论文数,中科院各分区论文数;
例如:基本素养二级指标包括学位,年龄,专业技术职务,毕业院校层级,海外经历,博后经历;
管理能力二级指标包括行政职务,行政工龄,学生培养,企业管理;
荣誉称号二级指标包括称号级别,称号数量;
科研成果二级指标包括成果级别,奖励等级,本人排名,数量;
课题二级指标包括课题级别,课题职位,课题数量;
背景调查二级指标包括个人失信,个人劳动仲裁,违法违纪信息,工作履历,履职表现;
绩效评估及产业化落地二级指标包括个人绩效,创新创业成果,技术应用。
步骤3:将标签化的人才时空数据与具体分值映射,基于随机森林评估出相应人才时空数据对应的人才评分作为相应人才的画像,以实现人才的量化评估及精确匹配调度。
在具体实施中,将一级及二级指标通过标签化或专家规则与具体分值映射,如基本素养里年龄二级指标,攀登学者侧重55岁专家,特聘学者侧重45岁专家,青年学者侧重35岁专家,将个人实际年龄与申请的不同领域年龄规则分值对应(不同领域有不同年龄段的分值表)如55岁申请攀登学者是100分,申请特聘学者只有40分,申请青年学者也只有40分。同时基本素养一级指标里有多个二级指标包含年龄,专业技术职务,海外经历等,需要根据不同学者场景赋予不同的二级指标权重,赋予权重有些可以通过有监督学习算法训练历史数据得来,有些可以通过专家判断得到。
综合评估各一级指标分数算出总分使用有监督学习随机森林算法,随机森林是一种有监督学习,可训练模型用于预测,随机森林本质是决策树的组合,众多决策树之间相互没有影响,在随机构建森林后让每颗决策树分别判断,最终投票判断哪一类最多就归为哪一类,样本训练10000次得到最优模型可提取指标间权重。将提取出的指标权重与一级指标分运算算出总分。
总分X(i):各一级指标与权重相乘+一票否决项。
X(i)=(1-b)*∑aixi+bxi
b是一票否决项影响参数,b为0或1;b=1,即一票否决发生时其他因素xi不起作用,只由一票否决项的影响程度体现;b=0,即一票否决不发生时,其他因素xi及影响因子ai共同起作用。一票否决项为
如图3所示,本实施例的随机森林模型的训练流程为:
对原始训练集可放回的随机抽样组成k组训练集;
对每个样本从t个特征选取m个特征;
对每个子训练集构建最优模型进行分类
根据k个模型投票表决最优结果
根据最优模型得到m个特征指标间权重。
实施例二
本实施例提供了一种基于随机森林的人才时空大数据处理系统,包括:
数据获取及存储模块,其用于获取人才时空数据,并根据人才时空数据的类型进行分类存储;
数据清洗及标签化模块,其用于分类调取人才时空数据并进行清洗操作,将清洗后的人才时空数据标签化;
量化评估模块,其用于将标签化的人才时空数据与具体分值映射,基于随机森林评估出相应人才时空数据对应的人才评分作为相应人才的画像,以实现人才的量化评估及精确匹配调度。
本实施例的基于随机森林的人才时空大数据处理系统与实施例一所述的基于随机森林的人才时空大数据处理方法中的步骤一一对应,其具体实施过程如实施例一所述,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的基于随机森林的人才时空大数据处理方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于随机森林的人才时空大数据处理方法中的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于随机森林的人才时空大数据处理方法,其特征在于,包括:
获取人才时空数据,并根据人才时空数据的类型进行分类存储;
分类调取人才时空数据并进行清洗操作,将清洗后的人才时空数据标签化;
将标签化的人才时空数据与具体分值映射,基于随机森林评估出相应人才时空数据对应的人才评分作为相应人才的画像,以实现人才的量化评估及精确匹配调度。
2.如权利要求1所述的基于随机森林的人才时空大数据处理方法,其特征在于,采用分布式爬虫方法获取人才时空数据;
或通过第三方接口获取人才时空数据;
或从业务系统的关系型数据库中调取人才时空数据。
3.如权利要求1所述的基于随机森林的人才时空大数据处理方法,其特征在于,将人才时空数据中的结构化数据存储至云平台集群中。
4.如权利要求1所述的基于随机森林的人才时空大数据处理方法,其特征在于,将人才时空数据中的非结构化数据存储于文件服务器集群中;
或人才时空数据中的人物关系数据存储于主流的图数据库Neo4j中,存储内容为人物节点,人物属性,人物关系三元组。
5.如权利要求1所述的基于随机森林的人才时空大数据处理方法,其特征在于,对人才时空数据的清洗操作包含一致性检查、数据去重、异常值处理和缺失值处理。
6.如权利要求1所述的基于随机森林的人才时空大数据处理方法,其特征在于,在将清洗后的人才时空数据标签化的过程中,基于高斯贝叶斯文本分类器,根据训练好的模型选择字自动打标签。
7.如权利要求1所述的基于随机森林的人才时空大数据处理方法,其特征在于,基于随机森林评估出相应人才时空数据对应的人才评分的过程中,人才时空数据对应的人才评分总分等于各一级指标与权重相乘+一票否决项。
8.一种基于随机森林的人才时空大数据处理系统,其特征在于,包括:
数据获取及存储模块,其用于获取人才时空数据,并根据人才时空数据的类型进行分类存储;
数据清洗及标签化模块,其用于分类调取人才时空数据并进行清洗操作,将清洗后的人才时空数据标签化;
量化评估模块,其用于将标签化的人才时空数据与具体分值映射,基于随机森林评估出相应人才时空数据对应的人才评分作为相应人才的画像,以实现人才的量化评估及精确匹配调度。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于随机森林的人才时空大数据处理方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于随机森林的人才时空大数据处理方法中的步骤。
CN202011025917.9A 2020-09-25 2020-09-25 基于随机森林的人才时空大数据处理方法及系统 Pending CN112182333A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011025917.9A CN112182333A (zh) 2020-09-25 2020-09-25 基于随机森林的人才时空大数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011025917.9A CN112182333A (zh) 2020-09-25 2020-09-25 基于随机森林的人才时空大数据处理方法及系统

Publications (1)

Publication Number Publication Date
CN112182333A true CN112182333A (zh) 2021-01-05

Family

ID=73944981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011025917.9A Pending CN112182333A (zh) 2020-09-25 2020-09-25 基于随机森林的人才时空大数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN112182333A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815338A (zh) * 2016-12-25 2017-06-09 北京中海投资管理有限公司 一种大数据的实时存储、处理和查询系统
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
CN107908606A (zh) * 2017-10-31 2018-04-13 上海壹账通金融科技有限公司 基于不同信息源自动生成报表的方法和系统
US20180189709A1 (en) * 2017-01-04 2018-07-05 Dion Sullivan System and method for analyzing media for talent discovery
CN108280542A (zh) * 2018-01-15 2018-07-13 深圳市和讯华谷信息技术有限公司 一种用户画像模型的优化方法、介质以及设备
WO2019010371A1 (en) * 2017-07-07 2019-01-10 Dion Sullivan Dion SYSTEM AND METHOD FOR MULTIMEDIA TALENT DISCOVERY MEDIA ANALYSIS
CN111047193A (zh) * 2019-12-13 2020-04-21 上海海豚企业征信服务有限公司 一种基于信用大数据标签的企业信用评分模型生成算法
CN111461770A (zh) * 2020-03-23 2020-07-28 汇通达网络股份有限公司 一种基于模型的用户画像系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815338A (zh) * 2016-12-25 2017-06-09 北京中海投资管理有限公司 一种大数据的实时存储、处理和查询系统
US20180189709A1 (en) * 2017-01-04 2018-07-05 Dion Sullivan System and method for analyzing media for talent discovery
CN107103050A (zh) * 2017-03-31 2017-08-29 海通安恒(大连)大数据科技有限公司 一种大数据建模平台及方法
WO2019010371A1 (en) * 2017-07-07 2019-01-10 Dion Sullivan Dion SYSTEM AND METHOD FOR MULTIMEDIA TALENT DISCOVERY MEDIA ANALYSIS
CN107908606A (zh) * 2017-10-31 2018-04-13 上海壹账通金融科技有限公司 基于不同信息源自动生成报表的方法和系统
CN108280542A (zh) * 2018-01-15 2018-07-13 深圳市和讯华谷信息技术有限公司 一种用户画像模型的优化方法、介质以及设备
CN111047193A (zh) * 2019-12-13 2020-04-21 上海海豚企业征信服务有限公司 一种基于信用大数据标签的企业信用评分模型生成算法
CN111461770A (zh) * 2020-03-23 2020-07-28 汇通达网络股份有限公司 一种基于模型的用户画像系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚占雷 等: "科研人才分类分级评价研究", 西南民族大学学报(人文社会科学版), pages 237 - 239 *
池雪花;章成志;: "基于分段回归的学者学术影响力预测研究", 文献与数据学报, no. 04 *

Similar Documents

Publication Publication Date Title
Ciolacu et al. Education 4.0—Fostering student's performance with machine learning methods
JP2021504789A (ja) Esg基盤の企業評価遂行装置及びその作動方法
Balakrishnan Significance of classification techniques in prediction of learning disabilities
Weng et al. Using text classification and multiple concepts to answer e-mails
Liu et al. Learning to predict population-level label distributions
CN113626499B (zh) 一种基于大数据数仓技术的学生画像挖掘实现方法
CN112000801A (zh) 基于机器学习的政务文本分类、热点问题挖掘方法及系统
CN114358014A (zh) 基于自然语言的工单智能诊断方法、装置、设备及介质
Lottering et al. A model for the identification of students at risk of dropout at a university of technology
Mutar et al. Smoke detection based on image processing by using grey and transparency features
Deepika et al. Relief-F and Budget Tree Random Forest Based Feature Selection for Student Academic Performance Prediction.
CN110033191B (zh) 一种商业人工智能的分析方法及系统
Punlumjeak et al. Big data analytics: Student performance prediction using feature selection and machine learning on microsoft azure platform
Mohler et al. Hawkes binomial topic model with applications to coupled conflict-twitter data
Smith Event detection in educational records: an application of big data approaches
Huda et al. Aspect-based sentiment analysis in tourism industry for tourism recommender system
la Red Martínez et al. Contributions from data mining to study academic performance of students of a tertiary institute
CN112506930B (zh) 一种基于机器学习技术的数据洞察系统
Gao et al. Statistics and Analysis of Targeted Poverty Alleviation Information Integrated with Big Data Mining Algorithm
Kamal et al. Metaheuristics Method for Classification and Prediction of Student Performance Using Machine Learning Predictors
CN112182333A (zh) 基于随机森林的人才时空大数据处理方法及系统
Whitlock et al. Data science for ai leaders
Ramanathan et al. Apply of sum of difference method to predict placement of students’ using educational data mining
Roy et al. Automated resume classification using machine learning
Alghalibi et al. Deep Tweets Analyzer Model for Twitter Mood Visualization and Prediction Based Deep Learning Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220325

Address after: 250013 Shanke Zhongchuang space 203-g, No. 19 Keyuan Road, Lixia District, Jinan City, Shandong Province

Applicant after: Shandong Shanke intellectual property operation center Co.,Ltd.

Address before: 250014 3rd floor, block B, Yinhe building, 2008 Xinluo street, high tech Zone, Jinan City, Shandong Province

Applicant before: SHANDONG ECLOUD INFORMATION TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220531

Address after: 250014 3rd floor, block B, Yinhe building, 2008 Xinluo street, high tech Zone, Jinan City, Shandong Province

Applicant after: SHANDONG ECLOUD INFORMATION TECHNOLOGY CO.,LTD.

Address before: 250013 Shanke Zhongchuang space 203-g, No. 19 Keyuan Road, Lixia District, Jinan City, Shandong Province

Applicant before: Shandong Shanke intellectual property operation center Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221223

Address after: Room 305, Block B, Yinhe Building, No. 2008, Xinluo Street, Jinan Area, China (Shandong) Pilot Free Trade Zone, Jinan, Shandong 250098

Applicant after: Shandong Huazhi Talent Technology Co.,Ltd.

Address before: 250014 3rd floor, block B, Yinhe building, 2008 Xinluo street, high tech Zone, Jinan City, Shandong Province

Applicant before: SHANDONG ECLOUD INFORMATION TECHNOLOGY CO.,LTD.

TA01 Transfer of patent application right