CN116127194A

CN116127194A - 一种企业推荐方法

Info

Publication number: CN116127194A
Application number: CN202310081099.1A
Authority: CN
Inventors: 林湘闽; 程光剑; 李磊; 刘锦豪; 杨献祥; 徐杰
Original assignee: Jiangxi Intelligent Industry Technology Innovation Research Institute
Current assignee: Jiangxi Intelligent Industry Technology Innovation Research Institute
Priority date: 2023-02-08
Filing date: 2023-02-08
Publication date: 2023-05-16

Abstract

本发明提供一种企业推荐方法，包括以下步骤：获取目标企业的信息数据；对样本数据进行聚类分群处理，得到若干个样本群；计算得到每个样本群中样本数据的偏差评分及权重评分；基于偏差评分及权重评分得到每个样本数据的数据评分，汇总全部数据评分，得到目标企业的总评分数据；当用户进行搜索时，根据总评分数据的排名推荐对应的目标企业。通过聚类算法对样本数据进行聚类分群处理，同时计算样本群的指标均值，基于指标均值与每个样本数据的指标值的偏差量得到偏差评分，基于赋权法计算得到各个样本数据的权重评分，并通过偏差评分对权重评分进行调整，消除数据差异带来的影响，提高企业评分排名的计算准确性，提高用户体验。

Description

一种企业推荐方法

技术领域

本发明涉及信息数据处理技术领域，特别涉及一种企业推荐方法。

背景技术

目前给用户推荐企业时一般分为热门企业推荐或者基于用户的搜索记录通过协同过滤等推荐算法进行企业信息推荐。

现有技术中，热门推荐主要是基于用户以前无搜索行为的情况下，按照全网的企业被搜索次数进行热度推送，但热度推送并不意味着这家企业是优质企业；传统的基于用户搜索记录推荐，因未考虑企业本身的影响而使得用户无法获取理想的推荐结果，用户体验较差。

发明内容

针对现有技术的不足，本发明的目的在于提供一种企业推荐方法，旨在解决现有技术中用户体验较差的技术问题。

为了实现上述目的，本发明是通过如下技术方案来实现的：一种企业推荐方法，包括以下步骤：获取目标企业的信息数据，其中，所述信息数据包括若干个样本数据，所述样本数据包括指标值；基于聚类算法对若干个所述样本数据进行聚类分群处理，得到若干个样本群；计算所述样本群的指标均值，并基于所述指标均值与所述指标值的偏差量，得到所述样本数据的偏差评分；基于赋权法计算所述样本群中各个样本数据的权重评分；基于所述偏差评分及所述权重评分得到每个所述样本数据的数据评分，汇总全部所述数据评分，得到所述目标企业的总评分数据；当用户进行搜索时，根据所述总评分数据的排名推荐对应的目标企业。

与现有技术相比，本发明的有益效果在于：通过聚类算法对样本数据进行聚类分群处理，同时根据每个样本群的具体情况计算得出不同的指标均值，基于指标均值与每个样本数据的指标值的偏差量得到偏差评分，基于赋权法计算得到各个样本数据的权重评分，并通过偏差评分对权重评分进行调整，消除数据差异带来的影响，提高企业评分排名的计算准确性，以推送优质企业给用户，提高用户体验。

根据上述技术方案的一方面，所述根据所述总评分数据的排名推荐对应的目标企业的步骤具体包括：

基于所述信息数据构建企业知识图谱；

根据所述总评分数据的排名推荐对应的目标企业中知识图谱的信息。

根据上述技术方案的一方面，当用户进行搜索时，根据所述总评分数据的排名推荐对应的目标企业的步骤具体包括：

当收到无确定搜索信号时，推荐每个行业中所述总评分数据排名最高的企业；

当收到准确的企业名称时，展示对应的企业的知识图谱，并按所述总评分数据的排名推荐若干个相关企业。

根据上述技术方案的一方面，所述基于所述信息数据构建企业知识图谱的步骤具体包括：

爬取目标企业的年报数据，并对所述年报数据中的结构化数据及非结构化数据进行分类识别；

对所述年报数据进行知识抽取，所述知识抽取包括实体抽取、关系抽取及属性抽取；

将所述结构化数据按实体、关系及属性经程序编码后存入Neo4j图数据库中；

将所述非结构化数据，使用自然语言处理模型抽取实体和关系，保留在预设抽取实体集合中的新增关系，并将结果存入Neo4j图数据库中，以得到目标企业的知识图谱。

根据上述技术方案的一方面，爬取目标企业的年报数据，并对所述年报数据中的结构化数据及非结构化数据进行分类识别的步骤之后，所述方法还包括：

对所述非结构化数据进行结构化处理，得到格式统一的结构化数据。

根据上述技术方案的一方面，所述得到格式统一的结构化数据的步骤之后，所述方法还包括：

根据以下公式对所述样本数据进行数据标准化处理：

；

式中，m表示所述样本数据的数量，n表示所述指标值，

表示第i行第j列的样本值，

表示标准化处理后的样本值，

表示取第j列中最小值，

表示取第j列中最大值。

根据上述技术方案的一方面，基于聚类算法对若干个所述样本数据进行聚类分群处理，得到若干个样本群的步骤具体包括：

使用k-means聚类算法对样本按行聚类，将原始样本群S，聚类后分为t个样本群，每个样本群标记为S₁，S₂，…，S_t，其中，t为聚类中心数目。

根据上述技术方案的一方面，计算所述样本群的指标均值，并基于所述指标均值与所述指标值的偏差量，得到所述样本数据的偏差评分的步骤具体包括：

根据以下公式计算样本群

中第j个指标的标准差

：

；

式中，k＝1，...，t，

为第k类样本群的样本个数，i＝1，...，

，j＝1，...，n，n表示所述指标值，

为第k类样本群中第i行第j列对应的指标值，

为第k类样本群中第j列的指标均值；

根据以下公式计算所述样本数据的偏差评分：

。

根据上述技术方案的一方面，所述基于赋权法计算所述样本群中各个样本数据的权重评分的步骤具体包括：

根据以下公式计算样本群

的相关系数矩阵

：

；

式中，

与

分别为任意两列指标对应的指标值；

根据以下公式计算第k类样本群中各个指标包含的信息量

：

；

式中，

为所述相关系数矩阵

中第i行第j列对应的数值；

根据以下公式计算第k类样本群中各个指标的权重

；

；

根据以下公式计算k类样本群中各个样本数据的CRITIC权重评分：

。

根据上述技术方案的一方面，基于所述偏差评分及所述权重评分得到每个所述样本数据的数据评分的步骤具体包括：

根据以下公式计算所述样本数据的数据评分：

；

式中，

为第k个类样本群中第i个样本的数据评分。

附图说明

本发明的上述与/或附加的方面与优点从结合下面附图对实施例的描述中将变得明显与容易理解，其中：

图1为本发明第一实施例中企业推荐方法的流程图；

图2为本发明第二实施例中企业推荐方法的流程图；

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的多实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

需要说明的是，当元件被称为“固设于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及／或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参阅图1，所示为本发明第一实施例中的企业推荐方法的流程图，包括以下步骤：

步骤S100，获取目标企业的信息数据，其中，所述信息数据包括若干个样本数据，所述样本数据包括指标值。具体来说，在本步骤中，上述信息数据包括年报数据等，年报作为各种经营信息和会计信息得集合体，包含企业基本情况、会计数据、股东变动及股东情况等数据，能够较全面的反应公司的整体情况。年报数据一般以pdf等格式保存，爬取指定k(k≥1)年的企业年报数据并保存在指定目录下，上述样本数据指的是我们用来做计算的所有数据，一个样本数据通常指的是一条数据，比如“企业1、报告年份、净利润、营业收入”组成的一条数据，上述指标值对应的就是里面的名称，这里举的例子指标值n=4，即该条样本数据的指标值为4。

步骤S110，基于聚类算法对若干个所述样本数据进行聚类分群处理，得到若干个样本群。具体来说，在本步骤中，上述聚类算法采用k-means聚类算法对样本按行聚类，聚类中心数目采用手肘方法确定。

步骤S120，计算所述样本群的指标均值，并基于所述指标均值与所述指标值的偏差量，得到所述样本数据的偏差评分。在本步骤中，首先通过对全部数据进行聚类分群，并通过对各个样本群中的指标值求出指标均值和偏差量，并基于上述指标均值与偏差量得到各个样本数据的偏差评分。

步骤S130，基于赋权法计算所述样本群中各个样本数据的权重评分。具体来说，在本步骤中，上述赋权法采用客观赋权法，具体可以采用熵权法、CRITIC权重法、信息量权重法或独立性权重法等，通过基于样本数据的权重值及指标值求出该样本数据的权重评分。

步骤S140，基于所述偏差评分及所述权重评分得到每个所述样本数据的数据评分，汇总全部所述数据评分，得到所述目标企业的总评分数据。

步骤S150，当用户进行搜索时，根据所述总评分数据的排名推荐对应的目标企业。

综上，本发明上述实施例当中的企业推荐方法，通过聚类算法对样本数据进行聚类分群处理，同时根据每个样本群的具体情况计算得出不同的指标均值，基于指标均值与指标值的偏差量得到每个样本数据的偏差评分，基于赋权法计算得到各个样本数据的权重评分，并通过偏差评分对权重评分进行调整，消除数据差异带来的影响，提高企业评分排名的计算准确性，以推送优质企业给用户，提高用户体验。

请查阅图2，所示为本发明第二实施例中的企业推荐方法的流程图，包括以下步骤：

步骤S200，爬取目标企业的年报数据，并对所述年报数据中的结构化数据及非结构化数据进行分类识别。可以理解地，在本步骤中，上述在爬取目标企业的年报数据之前，首先需要将需要的目标企业列表存储于REDIS数据库中，然后采用多线程爬虫技术获取REDIS中需要爬取数据的企业名称，在爬取指定网站中目标企业的相关数据，每爬取完一批企业数据后删除REDIS数据库中对应的企业名称，直至REDIS数据库中所有企业为空后停止，并将爬取后的企业数据存入指定企业数据库中。此外，由于上市企业年报数据披露的内容和格式有统一的规定，针对上述爬取的企业pdf格式的年报数据，利用python编写解析程序。如财务数据、企业员工数据都是以表格存储，可以预设财务、员工等标签，按标签解析对应的数据。解析后的数据按类型分为结构化数据和非结构化数据。结构化数据如企业基本信息、财务信息等存入关系型数据库表中，半结构化或非结构化数据如企业新闻舆情、商品评价信息等数据存入MongoDB等非关系型数据库，以供后续计算分析使用。上述单个结构化数据及非结构化数据均为样本数据，每条样本数据均包括与其对应的指标值。

步骤S210，对所述非结构化数据进行结构化处理，得到格式统一的结构化数据。原始数据的格式可能有很多，比如表格数据，文本数据，我们需要将不同类型的数据整合成统一的格式，像二维表一样，这就是数据结构化。具体来说，当数据本身为结构化类型数据时，只需要进行简单的预处理，包含数据缺失值的填充、错误数据的修正等；当数据为非结构化类型数据时，如新闻舆情文本数据，利用分类算法对该数据进行分类（可先标注小部分样本数据，然后训练模型）预测，最后将统计后的每类样本数作为企业的特征。

优选地，在本步骤中，为便于后续的聚类分群处理，需要对样本数据进行标准化处理（数据归一化处理），上述步骤S210还包括以下步骤：

步骤S211，根据以下公式对样本数据进行数据标准化处理：

；

式中，m表示所述样本数据的数量，n表示所述指标值，

表示第i行第j列的样本值，

表示标准化处理后的样本值，

表示取第j列中最小值，

表示取第j列中最大值。数据归一化处理的目的是为了消除量纲带来的影响，有的指标数值特别大（比如100000），有的指标数据特别小（比如10），相差10000倍，在模型计算的时候不进行归一化处理数值小的指标很容易会被剔出来。

步骤S220，基于聚类算法对若干个所述样本数据进行聚类分群处理，得到若干个样本群。在本实施例中，上述步骤S220具体包括以下步骤：

步骤S221，使用k-means聚类算法对样本按行聚类，将原始样本群S，聚类后分为t个样本群，每个样本群标记为S₁，S₂，…，S_t，其中，t为聚类中心数目。

可以理解地，现有技术中基于知识图谱计算重要性（评分）的技术是对所有样本的指标统一进行主客观赋权计算获得，然后基于得到的重要性分数按高低推荐给用户。这种计算方式没有考虑样本不同群体之间的差异，而实际上推荐本质是将人群分类继而给不同的人群进行推荐，本实施例通过聚类算法对样本按行聚类，将样本分为不同的群体；然后分别在不同的群体中使用改进后的评分计算公式进行计算，可以降低不同样本群之间的差异。

步骤S230，计算所述样本群的指标均值，并基于所述指标均值与指标值的偏差量，得到所述样本数据的偏差评分。可以理解地，上述指标均值即样本群中的指标值总和/样本数。在本实施例中，上述步骤S230具体包括以下步骤：

步骤S231，根据以下公式计算样本群

中第j个指标的标准差

：

；

式中，k＝1，...，t，

为第k类样本群的样本个数，i＝1，...，

，j＝1，...，n，n表示所述指标值，

为第k类样本群中第i行第j列对应的指标值，

为第k类样本群中第j列的指标均值；

步骤S232，根据以下公式计算所述样本数据的偏差评分：

。

步骤S240，基于赋权法计算所述样本群中各个样本数据的权重评分。在本实施例中，上述步骤S240具体包括以下步骤：

步骤S241，根据以下公式计算样本群

的相关系数矩阵

：

；

式中，

与

分别为任意两列指标对应的指标值；

步骤S242，根据以下公式计算第k类样本群中各个指标包含的信息量

：

；

式中，

为所述相关系数矩阵

中第i行第j列对应的数值；

步骤S243，根据以下公式计算第k类样本群中各个指标的权重

；

；

步骤S244，根据以下公式计算k类样本群中各个样本数据的CRITIC权重评分：

。

步骤S250，基于所述偏差评分及所述权重评分得到每个所述样本数据的数据评分。具体来说，在本实施例中，上述步骤S250具体包括以下步骤：

步骤S251，根据以下公式计算所述样本数据的数据评分：

；

式中，

为第k个类样本群中第i个样本的数据评分。

此外，在本实施例的一些应用场景中，通过分别使用现有的基于CRITIC权重计算的评分结果与本方案计算的评分结果组成两个数据集，即S₁与S₂，在S₁与S₂中评分作为模型的预测值，将S₁与S₂分别按7:3切分为两块分别作为训练与预测，使用回归算法对数据进行计算，以模型的均方误差作为评判标准，结果显示使用本方案的模型均方误差更低。

步骤S260，对所述年报数据进行知识抽取，所述知识抽取包括实体抽取、关系抽取及属性抽取。

步骤S270，将所述结构化数据按实体、关系及属性经程序编码后存入Neo4j图数据库中；将所述非结构化数据，使用自然语言处理模型抽取实体和关系，保留在预设抽取实体集合中的新增关系，并将结果存入Neo4j图数据库中，以得到目标企业的知识图谱。具体来说，在本步骤中，在图数据库中，实体作为图数据库的点存储，实体与实体之间的关系作为边存储，属性作为点的属性存储。

步骤S280，当收到无确定搜索信号时，推荐每个行业中所述总评分数据排名最高的企业。具体来说，在本步骤中，上述评分最高的企业其推荐的信息包括企业知识图谱中存储的基本面信息与经过处理的文本统计信息。

步骤S290，当收到准确的企业名称时，展示对应的企业的知识图谱，并按所述总评分数据的排名推荐若干个相关企业。

综上，本发明上述实施例当中的企业推荐方法，通过聚类算法对样本数据进行聚类分群处理，同时根据每个样本群的具体情况计算得出不同的指标均值，基于指标均值与每个样本数据的指标值的偏差量得到偏差评分，并通过偏差评分对权重评分进行调整，消除数据差异带来的影响，提高企业评分排名的计算准确性，以推送优质企业给用户，能够从企业综合指标的角度来给用户进行企业推荐，丰富用户的相关企业数据获取量；同时也能给没有确定性搜索的用户提供行业中较优质的企业，减少搜索时间，提高搜索效率。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出多种变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。