CN116127194A - 一种企业推荐方法 - Google Patents

一种企业推荐方法 Download PDF

Info

Publication number
CN116127194A
CN116127194A CN202310081099.1A CN202310081099A CN116127194A CN 116127194 A CN116127194 A CN 116127194A CN 202310081099 A CN202310081099 A CN 202310081099A CN 116127194 A CN116127194 A CN 116127194A
Authority
CN
China
Prior art keywords
data
sample
enterprise
score
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310081099.1A
Other languages
English (en)
Inventor
林湘闽
程光剑
李磊
刘锦豪
杨献祥
徐杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Intelligent Industry Technology Innovation Research Institute
Original Assignee
Jiangxi Intelligent Industry Technology Innovation Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Intelligent Industry Technology Innovation Research Institute filed Critical Jiangxi Intelligent Industry Technology Innovation Research Institute
Priority to CN202310081099.1A priority Critical patent/CN116127194A/zh
Publication of CN116127194A publication Critical patent/CN116127194A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种企业推荐方法,包括以下步骤:获取目标企业的信息数据;对样本数据进行聚类分群处理,得到若干个样本群;计算得到每个样本群中样本数据的偏差评分及权重评分;基于偏差评分及权重评分得到每个样本数据的数据评分,汇总全部数据评分,得到目标企业的总评分数据;当用户进行搜索时,根据总评分数据的排名推荐对应的目标企业。通过聚类算法对样本数据进行聚类分群处理,同时计算样本群的指标均值,基于指标均值与每个样本数据的指标值的偏差量得到偏差评分,基于赋权法计算得到各个样本数据的权重评分,并通过偏差评分对权重评分进行调整,消除数据差异带来的影响,提高企业评分排名的计算准确性,提高用户体验。

Description

一种企业推荐方法
技术领域
本发明涉及信息数据处理技术领域,特别涉及一种企业推荐方法。
背景技术
目前给用户推荐企业时一般分为热门企业推荐或者基于用户的搜索记录通过协同过滤等推荐算法进行企业信息推荐。
现有技术中,热门推荐主要是基于用户以前无搜索行为的情况下,按照全网的企业被搜索次数进行热度推送,但热度推送并不意味着这家企业是优质企业;传统的基于用户搜索记录推荐,因未考虑企业本身的影响而使得用户无法获取理想的推荐结果,用户体验较差。
发明内容
针对现有技术的不足,本发明的目的在于提供一种企业推荐方法,旨在解决现有技术中用户体验较差的技术问题。
为了实现上述目的,本发明是通过如下技术方案来实现的:一种企业推荐方法,包括以下步骤:获取目标企业的信息数据,其中,所述信息数据包括若干个样本数据,所述样本数据包括指标值;基于聚类算法对若干个所述样本数据进行聚类分群处理,得到若干个样本群;计算所述样本群的指标均值,并基于所述指标均值与所述指标值的偏差量,得到所述样本数据的偏差评分;基于赋权法计算所述样本群中各个样本数据的权重评分;基于所述偏差评分及所述权重评分得到每个所述样本数据的数据评分,汇总全部所述数据评分,得到所述目标企业的总评分数据;当用户进行搜索时,根据所述总评分数据的排名推荐对应的目标企业。
与现有技术相比,本发明的有益效果在于:通过聚类算法对样本数据进行聚类分群处理,同时根据每个样本群的具体情况计算得出不同的指标均值,基于指标均值与每个样本数据的指标值的偏差量得到偏差评分,基于赋权法计算得到各个样本数据的权重评分,并通过偏差评分对权重评分进行调整,消除数据差异带来的影响,提高企业评分排名的计算准确性,以推送优质企业给用户,提高用户体验。
根据上述技术方案的一方面,所述根据所述总评分数据的排名推荐对应的目标企业的步骤具体包括:
基于所述信息数据构建企业知识图谱;
根据所述总评分数据的排名推荐对应的目标企业中知识图谱的信息。
根据上述技术方案的一方面,当用户进行搜索时,根据所述总评分数据的排名推荐对应的目标企业的步骤具体包括:
当收到无确定搜索信号时,推荐每个行业中所述总评分数据排名最高的企业;
当收到准确的企业名称时,展示对应的企业的知识图谱,并按所述总评分数据的排名推荐若干个相关企业。
根据上述技术方案的一方面,所述基于所述信息数据构建企业知识图谱的步骤具体包括:
爬取目标企业的年报数据,并对所述年报数据中的结构化数据及非结构化数据进行分类识别;
对所述年报数据进行知识抽取,所述知识抽取包括实体抽取、关系抽取及属性抽取;
将所述结构化数据按实体、关系及属性经程序编码后存入Neo4j图数据库中;
将所述非结构化数据,使用自然语言处理模型抽取实体和关系,保留在预设抽取实体集合中的新增关系,并将结果存入Neo4j图数据库中,以得到目标企业的知识图谱。
根据上述技术方案的一方面,爬取目标企业的年报数据,并对所述年报数据中的结构化数据及非结构化数据进行分类识别的步骤之后,所述方法还包括:
对所述非结构化数据进行结构化处理,得到格式统一的结构化数据。
根据上述技术方案的一方面,所述得到格式统一的结构化数据的步骤之后,所述方法还包括:
根据以下公式对所述样本数据进行数据标准化处理:
Figure SMS_1
式中,m表示所述样本数据的数量,n表示所述指标值,
Figure SMS_2
表示第i行第j列的样本值,
Figure SMS_3
表示标准化处理后的样本值,
Figure SMS_4
表示取第j列中最小值,
Figure SMS_5
表示取第j列中最大值。
根据上述技术方案的一方面,基于聚类算法对若干个所述样本数据进行聚类分群处理,得到若干个样本群的步骤具体包括:
使用k-means聚类算法对样本按行聚类,将原始样本群S,聚类后分为t个样本群,每个样本群标记为S1,S2,…,St,其中,t为聚类中心数目。
根据上述技术方案的一方面,计算所述样本群的指标均值,并基于所述指标均值与所述指标值的偏差量,得到所述样本数据的偏差评分的步骤具体包括:
根据以下公式计算样本群
Figure SMS_6
中第j个指标的标准差
Figure SMS_7
Figure SMS_8
式中,k=1,...,t,
Figure SMS_9
为第k类样本群的样本个数,i=1,...,
Figure SMS_10
,j=1,...,n,n表示所述指标值,
Figure SMS_11
为第k类样本群中第i行第j列对应的指标值,
Figure SMS_12
为第k类样本群中第j列的指标均值;
根据以下公式计算所述样本数据的偏差评分:
Figure SMS_13
根据上述技术方案的一方面,所述基于赋权法计算所述样本群中各个样本数据的权重评分的步骤具体包括:
根据以下公式计算样本群
Figure SMS_14
的相关系数矩阵
Figure SMS_15
Figure SMS_16
式中,
Figure SMS_17
Figure SMS_18
分别为任意两列指标对应的指标值;
根据以下公式计算第k类样本群中各个指标包含的信息量
Figure SMS_19
Figure SMS_20
式中,
Figure SMS_21
为所述相关系数矩阵
Figure SMS_22
中第i行第j列对应的数值;
根据以下公式计算第k类样本群中各个指标的权重
Figure SMS_23
Figure SMS_24
根据以下公式计算k类样本群中各个样本数据的CRITIC权重评分:
Figure SMS_25
根据上述技术方案的一方面,基于所述偏差评分及所述权重评分得到每个所述样本数据的数据评分的步骤具体包括:
根据以下公式计算所述样本数据的数据评分:
Figure SMS_26
式中,
Figure SMS_27
为第k个类样本群中第i个样本的数据评分。
附图说明
本发明的上述与/或附加的方面与优点从结合下面附图对实施例的描述中将变得明显与容易理解,其中:
图1为本发明第一实施例中企业推荐方法的流程图;
图2为本发明第二实施例中企业推荐方法的流程图;
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的多实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
请参阅图1,所示为本发明第一实施例中的企业推荐方法的流程图,包括以下步骤:
步骤S100,获取目标企业的信息数据,其中,所述信息数据包括若干个样本数据,所述样本数据包括指标值。具体来说,在本步骤中,上述信息数据包括年报数据等,年报作为各种经营信息和会计信息得集合体,包含企业基本情况、会计数据、股东变动及股东情况等数据,能够较全面的反应公司的整体情况。年报数据一般以pdf等格式保存,爬取指定k(k≥1)年的企业年报数据并保存在指定目录下,上述样本数据指的是我们用来做计算的所有数据,一个样本数据通常指的是一条数据,比如“企业1、报告年份、净利润、营业收入”组成的一条数据,上述指标值对应的就是里面的名称,这里举的例子指标值n=4,即该条样本数据的指标值为4。
步骤S110,基于聚类算法对若干个所述样本数据进行聚类分群处理,得到若干个样本群。具体来说,在本步骤中,上述聚类算法采用k-means聚类算法对样本按行聚类,聚类中心数目采用手肘方法确定。
步骤S120,计算所述样本群的指标均值,并基于所述指标均值与所述指标值的偏差量,得到所述样本数据的偏差评分。在本步骤中,首先通过对全部数据进行聚类分群,并通过对各个样本群中的指标值求出指标均值和偏差量,并基于上述指标均值与偏差量得到各个样本数据的偏差评分。
步骤S130,基于赋权法计算所述样本群中各个样本数据的权重评分。具体来说,在本步骤中,上述赋权法采用客观赋权法,具体可以采用熵权法、CRITIC权重法、信息量权重法或独立性权重法等,通过基于样本数据的权重值及指标值求出该样本数据的权重评分。
步骤S140,基于所述偏差评分及所述权重评分得到每个所述样本数据的数据评分,汇总全部所述数据评分,得到所述目标企业的总评分数据。
步骤S150,当用户进行搜索时,根据所述总评分数据的排名推荐对应的目标企业。
综上,本发明上述实施例当中的企业推荐方法,通过聚类算法对样本数据进行聚类分群处理,同时根据每个样本群的具体情况计算得出不同的指标均值,基于指标均值与指标值的偏差量得到每个样本数据的偏差评分,基于赋权法计算得到各个样本数据的权重评分,并通过偏差评分对权重评分进行调整,消除数据差异带来的影响,提高企业评分排名的计算准确性,以推送优质企业给用户,提高用户体验。
请查阅图2,所示为本发明第二实施例中的企业推荐方法的流程图,包括以下步骤:
步骤S200,爬取目标企业的年报数据,并对所述年报数据中的结构化数据及非结构化数据进行分类识别。可以理解地,在本步骤中,上述在爬取目标企业的年报数据之前,首先需要将需要的目标企业列表存储于REDIS数据库中,然后采用多线程爬虫技术获取REDIS中需要爬取数据的企业名称,在爬取指定网站中目标企业的相关数据,每爬取完一批企业数据后删除REDIS数据库中对应的企业名称,直至REDIS数据库中所有企业为空后停止,并将爬取后的企业数据存入指定企业数据库中。此外,由于上市企业年报数据披露的内容和格式有统一的规定,针对上述爬取的企业pdf格式的年报数据,利用python编写解析程序。如财务数据、企业员工数据都是以表格存储,可以预设财务、员工等标签,按标签解析对应的数据。解析后的数据按类型分为结构化数据和非结构化数据。结构化数据如企业基本信息、财务信息等存入关系型数据库表中,半结构化或非结构化数据如企业新闻舆情、商品评价信息等数据存入MongoDB等非关系型数据库,以供后续计算分析使用。上述单个结构化数据及非结构化数据均为样本数据,每条样本数据均包括与其对应的指标值。
步骤S210,对所述非结构化数据进行结构化处理,得到格式统一的结构化数据。原始数据的格式可能有很多,比如表格数据,文本数据,我们需要将不同类型的数据整合成统一的格式,像二维表一样,这就是数据结构化。具体来说,当数据本身为结构化类型数据时,只需要进行简单的预处理,包含数据缺失值的填充、错误数据的修正等;当数据为非结构化类型数据时,如新闻舆情文本数据,利用分类算法对该数据进行分类(可先标注小部分样本数据,然后训练模型)预测,最后将统计后的每类样本数作为企业的特征。
优选地,在本步骤中,为便于后续的聚类分群处理,需要对样本数据进行标准化处理(数据归一化处理),上述步骤S210还包括以下步骤:
步骤S211,根据以下公式对样本数据进行数据标准化处理:
Figure SMS_28
式中,m表示所述样本数据的数量,n表示所述指标值,
Figure SMS_29
表示第i行第j列的样本值,
Figure SMS_30
表示标准化处理后的样本值,
Figure SMS_31
表示取第j列中最小值,
Figure SMS_32
表示取第j列中最大值。数据归一化处理的目的是为了消除量纲带来的影响,有的指标数值特别大(比如100000),有的指标数据特别小(比如10),相差10000倍,在模型计算的时候不进行归一化处理数值小的指标很容易会被剔出来。
步骤S220,基于聚类算法对若干个所述样本数据进行聚类分群处理,得到若干个样本群。在本实施例中,上述步骤S220具体包括以下步骤:
步骤S221,使用k-means聚类算法对样本按行聚类,将原始样本群S,聚类后分为t个样本群,每个样本群标记为S1,S2,…,St,其中,t为聚类中心数目。
可以理解地,现有技术中基于知识图谱计算重要性(评分)的技术是对所有样本的指标统一进行主客观赋权计算获得,然后基于得到的重要性分数按高低推荐给用户。这种计算方式没有考虑样本不同群体之间的差异,而实际上推荐本质是将人群分类继而给不同的人群进行推荐,本实施例通过聚类算法对样本按行聚类,将样本分为不同的群体;然后分别在不同的群体中使用改进后的评分计算公式进行计算,可以降低不同样本群之间的差异。
步骤S230,计算所述样本群的指标均值,并基于所述指标均值与指标值的偏差量,得到所述样本数据的偏差评分。可以理解地,上述指标均值即样本群中的指标值总和/样本数。在本实施例中,上述步骤S230具体包括以下步骤:
步骤S231,根据以下公式计算样本群
Figure SMS_33
中第j个指标的标准差
Figure SMS_34
Figure SMS_35
式中,k=1,...,t,
Figure SMS_36
为第k类样本群的样本个数,i=1,...,
Figure SMS_37
,j=1,...,n,n表示所述指标值,
Figure SMS_38
为第k类样本群中第i行第j列对应的指标值,
Figure SMS_39
为第k类样本群中第j列的指标均值;
步骤S232,根据以下公式计算所述样本数据的偏差评分:
Figure SMS_40
步骤S240,基于赋权法计算所述样本群中各个样本数据的权重评分。在本实施例中,上述步骤S240具体包括以下步骤:
步骤S241,根据以下公式计算样本群
Figure SMS_41
的相关系数矩阵
Figure SMS_42
Figure SMS_43
式中,
Figure SMS_44
Figure SMS_45
分别为任意两列指标对应的指标值;
步骤S242,根据以下公式计算第k类样本群中各个指标包含的信息量
Figure SMS_46
Figure SMS_47
式中,
Figure SMS_48
为所述相关系数矩阵
Figure SMS_49
中第i行第j列对应的数值;
步骤S243,根据以下公式计算第k类样本群中各个指标的权重
Figure SMS_50
Figure SMS_51
步骤S244,根据以下公式计算k类样本群中各个样本数据的CRITIC权重评分:
Figure SMS_52
步骤S250,基于所述偏差评分及所述权重评分得到每个所述样本数据的数据评分。具体来说,在本实施例中,上述步骤S250具体包括以下步骤:
步骤S251,根据以下公式计算所述样本数据的数据评分:
Figure SMS_53
式中,
Figure SMS_54
为第k个类样本群中第i个样本的数据评分。
此外,在本实施例的一些应用场景中,通过分别使用现有的基于CRITIC权重计算的评分结果与本方案计算的评分结果组成两个数据集,即S1与S2,在S1与S2中评分作为模型的预测值,将S1与S2分别按7:3切分为两块分别作为训练与预测,使用回归算法对数据进行计算,以模型的均方误差作为评判标准,结果显示使用本方案的模型均方误差更低。
步骤S260,对所述年报数据进行知识抽取,所述知识抽取包括实体抽取、关系抽取及属性抽取。
步骤S270,将所述结构化数据按实体、关系及属性经程序编码后存入Neo4j图数据库中;将所述非结构化数据,使用自然语言处理模型抽取实体和关系,保留在预设抽取实体集合中的新增关系,并将结果存入Neo4j图数据库中,以得到目标企业的知识图谱。具体来说,在本步骤中,在图数据库中,实体作为图数据库的点存储,实体与实体之间的关系作为边存储,属性作为点的属性存储。
步骤S280,当收到无确定搜索信号时,推荐每个行业中所述总评分数据排名最高的企业。具体来说,在本步骤中,上述评分最高的企业其推荐的信息包括企业知识图谱中存储的基本面信息与经过处理的文本统计信息。
步骤S290,当收到准确的企业名称时,展示对应的企业的知识图谱,并按所述总评分数据的排名推荐若干个相关企业。
综上,本发明上述实施例当中的企业推荐方法,通过聚类算法对样本数据进行聚类分群处理,同时根据每个样本群的具体情况计算得出不同的指标均值,基于指标均值与每个样本数据的指标值的偏差量得到偏差评分,并通过偏差评分对权重评分进行调整,消除数据差异带来的影响,提高企业评分排名的计算准确性,以推送优质企业给用户,能够从企业综合指标的角度来给用户进行企业推荐,丰富用户的相关企业数据获取量;同时也能给没有确定性搜索的用户提供行业中较优质的企业,减少搜索时间,提高搜索效率。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出多种变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种企业推荐方法,其特征在于,包括以下步骤:
获取目标企业的信息数据,其中,所述信息数据包括若干个样本数据,所述样本数据包括指标值;
基于聚类算法对若干个所述样本数据进行聚类分群处理,得到若干个样本群;
计算所述样本群的指标均值,并基于所述指标均值与所述指标值的偏差量,得到所述样本数据的偏差评分;
基于赋权法计算所述样本群中各个样本数据的权重评分;
基于所述偏差评分及所述权重评分得到每个所述样本数据的数据评分,汇总全部所述数据评分,得到所述目标企业的总评分数据;
当用户进行搜索时,根据所述总评分数据的排名推荐对应的目标企业。
2.根据权利要求1所述的企业推荐方法,其特征在于,所述根据所述总评分数据的排名推荐对应的目标企业的步骤具体包括:
基于所述信息数据构建企业知识图谱;
根据所述总评分数据的排名推荐对应的目标企业中知识图谱的信息。
3.根据权利要求2所述的企业推荐方法,其特征在于,当用户进行搜索时,根据所述总评分数据的排名推荐对应的目标企业的步骤具体包括:
当收到无确定搜索信号时,推荐每个行业中所述总评分数据排名最高的企业;
当收到准确的企业名称时,展示对应的企业的知识图谱,并按所述总评分数据的排名推荐若干个相关企业。
4.根据权利要求2所述的企业推荐方法,其特征在于,所述基于所述信息数据构建企业知识图谱的步骤具体包括:
爬取目标企业的年报数据,并对所述年报数据中的结构化数据及非结构化数据进行分类识别;
对所述年报数据进行知识抽取,所述知识抽取包括实体抽取、关系抽取及属性抽取;
将所述结构化数据按实体、关系及属性经程序编码后存入Neo4j图数据库中;
将所述非结构化数据,使用自然语言处理模型抽取实体和关系,保留在预设抽取实体集合中的新增关系,并将结果存入Neo4j图数据库中,以得到目标企业的知识图谱。
5.根据权利要求4所述的企业推荐方法,其特征在于,爬取目标企业的年报数据,并对所述年报数据中的结构化数据及非结构化数据进行分类识别的步骤之后,所述方法还包括:
对所述非结构化数据进行结构化处理,得到格式统一的结构化数据。
6.根据权利要求5所述的企业推荐方法,其特征在于,所述得到格式统一的结构化数据的步骤之后,所述方法还包括:
根据以下公式对所述样本数据进行数据标准化处理:
Figure QLYQS_1
式中,m表示所述样本数据的数量,n表示所述指标值,
Figure QLYQS_2
表示第i行第j列的样本值,
Figure QLYQS_3
表示标准化处理后的样本值,
Figure QLYQS_4
表示取第j列中最小值,
Figure QLYQS_5
表示取第j列中最大值。
7.根据权利要求1所述的企业推荐方法,其特征在于,基于聚类算法对若干个所述样本数据进行聚类分群处理,得到若干个样本群的步骤具体包括:
使用k-means聚类算法对样本按行聚类,将原始样本群S,聚类后分为t个样本群,每个样本群标记为S1,S2,…,St,其中,t为聚类中心数目。
8.根据权利要求7所述的企业推荐方法,其特征在于,计算所述样本群的指标均值,并基于所述指标均值与所述指标值的偏差量,得到所述样本数据的偏差评分的步骤具体包括:
根据以下公式计算样本群
Figure QLYQS_6
中第j个指标的标准差
Figure QLYQS_7
Figure QLYQS_8
式中,k=1,...,t,
Figure QLYQS_9
为第k类样本群的样本个数,i=1,...,
Figure QLYQS_10
,j=1,...,n,n表示所述指标值,
Figure QLYQS_11
为第k类样本群中第i行第j列对应的指标值,
Figure QLYQS_12
为第k类样本群中第j列的指标均值;
根据以下公式计算所述样本数据的偏差评分:
Figure QLYQS_13
9.根据权利要求8所述的企业推荐方法,其特征在于,所述基于赋权法计算所述样本群中各个样本数据的权重评分的步骤具体包括:
根据以下公式计算样本群
Figure QLYQS_14
的相关系数矩阵
Figure QLYQS_15
Figure QLYQS_16
式中,
Figure QLYQS_17
Figure QLYQS_18
分别为任意两列指标对应的指标值;
根据以下公式计算第k类样本群中各个指标包含的信息量
Figure QLYQS_19
Figure QLYQS_20
式中,
Figure QLYQS_21
为所述相关系数矩阵
Figure QLYQS_22
中第i行第j列对应的数值;
根据以下公式计算第k类样本群中各个指标的权重
Figure QLYQS_23
Figure QLYQS_24
根据以下公式计算k类样本群中各个样本数据的CRITIC权重评分:
Figure QLYQS_25
10.根据权利要求9所述的企业推荐方法,其特征在于,基于所述偏差评分及所述权重评分得到每个所述样本数据的数据评分的步骤具体包括:
根据以下公式计算所述样本数据的数据评分:
Figure QLYQS_26
式中,
Figure QLYQS_27
为第k个类样本群中第i个样本的数据评分。
CN202310081099.1A 2023-02-08 2023-02-08 一种企业推荐方法 Pending CN116127194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310081099.1A CN116127194A (zh) 2023-02-08 2023-02-08 一种企业推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310081099.1A CN116127194A (zh) 2023-02-08 2023-02-08 一种企业推荐方法

Publications (1)

Publication Number Publication Date
CN116127194A true CN116127194A (zh) 2023-05-16

Family

ID=86304381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310081099.1A Pending CN116127194A (zh) 2023-02-08 2023-02-08 一种企业推荐方法

Country Status (1)

Country Link
CN (1) CN116127194A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117436830A (zh) * 2023-12-20 2024-01-23 陕西青叶海棠网络科技有限责任公司 一种毕业生就业企业鉴别系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117436830A (zh) * 2023-12-20 2024-01-23 陕西青叶海棠网络科技有限责任公司 一种毕业生就业企业鉴别系统
CN117436830B (zh) * 2023-12-20 2024-06-14 陕西青叶海棠网络科技有限责任公司 一种毕业生就业企业鉴别系统

Similar Documents

Publication Publication Date Title
US10459971B2 (en) Method and apparatus of generating image characteristic representation of query, and image search method and apparatus
CN103914478B (zh) 网页训练方法及系统、网页预测方法及系统
US20140207786A1 (en) System and methods for computerized information governance of electronic documents
CN105045875B (zh) 个性化信息检索方法及装置
CN111445028A (zh) Ai驱动的交易管理系统
CN107577688A (zh) 基于媒体信息采集的原创文章影响力分析系统
CN105159932B (zh) 一种数据检索引擎和排序系统和方法
US20140101201A1 (en) Distributed data warehouse
CN112035658A (zh) 基于深度学习的企业舆情监测方法
CN104268142B (zh) 基于可拒绝策略的元搜索结果排序方法
US10387805B2 (en) System and method for ranking news feeds
Liu et al. Has this bug been reported?
CN107895303B (zh) 一种基于ocean模型的个性化推荐的方法
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
CN111026868B (zh) 一种多维度舆情危机预测方法、终端设备及存储介质
CN116644184B (zh) 基于数据聚类的人力资源信息管理系统
CN112184021B (zh) 一种基于相似支持集的答案质量评估方法
WO2024131524A1 (zh) 一种基于食物图像分割的抑郁症膳食管理方法
CN108509588B (zh) 一种基于大数据的律师评估方法及推荐方法
CN116127194A (zh) 一种企业推荐方法
CN116680320A (zh) 一种基于大数据的混合匹配方法
CN114588633A (zh) 一种内容推荐方法
CN113920366A (zh) 一种基于机器学习的综合加权主数据识别方法
CN111221915B (zh) 基于CWK-means的在线学习资源质量分析方法
CN111598645A (zh) 一种融合随机森林与协同过滤二手房推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination