CN112347318B - 划分企业所属行业类别的方法、设备及介质 - Google Patents

划分企业所属行业类别的方法、设备及介质 Download PDF

Info

Publication number
CN112347318B
CN112347318B CN202011158181.2A CN202011158181A CN112347318B CN 112347318 B CN112347318 B CN 112347318B CN 202011158181 A CN202011158181 A CN 202011158181A CN 112347318 B CN112347318 B CN 112347318B
Authority
CN
China
Prior art keywords
recruitment
industry
recruitment position
matrix
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011158181.2A
Other languages
English (en)
Other versions
CN112347318A (zh
Inventor
周祥
陈小霞
葛阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Shuzhi Zhengtong Technology Co ltd
Original Assignee
Hangzhou Shuzhi Zhengtong Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Shuzhi Zhengtong Technology Co ltd filed Critical Hangzhou Shuzhi Zhengtong Technology Co ltd
Priority to CN202011158181.2A priority Critical patent/CN112347318B/zh
Publication of CN112347318A publication Critical patent/CN112347318A/zh
Application granted granted Critical
Publication of CN112347318B publication Critical patent/CN112347318B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种划分企业所属行业类别的方法、电子设备及计算机存储介质,涉及信息分类技术领域,旨在解决现有技术中难以划分企业所属的新兴行业类别的问题。该方法包含以下步骤:根据每个企业的招聘岗位名称构建初步行业‑招聘岗位矩阵;将初步行业‑招聘岗位矩阵进行相似岗位去重后,进行按列求和,删除求和结果大于阈值的列,得到目标行业‑招聘岗位矩阵;获取目标企业的招聘岗位,将目标企业的招聘岗位与目标行业‑招聘岗位矩阵组成的招聘岗位集合进行匹配,得到岗位向量;将目标行业‑招聘岗位矩阵与岗位向量相乘,得到匹配度集合;将匹配度集合中降序排序第一位的元素的行业作为所述目标企业的行业类别。

Description

划分企业所属行业类别的方法、设备及介质
技术领域
本发明涉及信息分类技术领域,尤其涉及一种划分企业所属行业类别的方法、设备及介质。
背景技术
随着各地新兴产业的发展,产业的划分成为当前各地政府部门高度关注的问题。然而现行的国民经济行业分类实际上是以往历次技术革命的产物,适应于工业文明成熟期的经济社会形态,而新一代信息技术及其他战略性新兴产业,其领域及行业划分则是适应新一轮科技革命和产业变革要求设定的,也就是说基于现有的统计标准难以直接划分某企业所属的新兴产业类别。
目前针对现有的统计标准难以划分企业所属的新兴行业类别的问题,尚未提出有效的解决方法。
发明内容
本发明实施例提供了一种划分企业所属行业类别的方法、设备及介质,以至少解决现有技术中难以划分企业所属的新兴行业类别的问题。
第一方面,本发明实施例提供了一种划分企业所属行业类别的方法,包括以下步骤:
获取属于不同行业的若干企业的招聘岗位数据,对所述招聘岗位数据进行预处理,得到格式统一的招聘岗位名称;
将每个企业的招聘岗位名称映射为一个向量,以构建初步行业-招聘岗位矩阵,其中所述若干企业的招聘岗位名称构成所述初步行业-招聘岗位矩阵的一个空间,每个招聘岗位名称对应所述初步行业-招聘岗位矩阵的一个维度;
根据所述若干企业的招聘岗位名称进行相似岗位合并,得到相似招聘岗位集合;
根据所述相似招聘岗位集合,将所述初步行业-招聘岗位矩阵中的相似招聘岗位名称对应的列进行横向求和,将所述横向求和结果大于1的值置为1,反之置为0,并通过所述横向求和形成的新列替换所述相似招聘岗位名称对应的所有列,得到新的行业-招聘岗位矩阵;
将所述新的行业-招聘岗位矩阵按列求和,删除按列求和结果大于阈值的列,得到目标行业-招聘岗位矩阵;
将所述目标行业-招聘岗位矩阵中的列分别组成招聘岗位集合,并按照所述目标行业-招聘岗位矩阵的列序号进行对应编号;
获取目标企业的招聘岗位,将所述目标企业的招聘岗位与所述招聘岗位集合中的元素进行匹配,将匹配成功的所述目标企业的招聘岗位赋值为1,反之赋值为0,得到所述目标企业的岗位向量;
将所述目标岗位向量与所述目标行业-招聘岗位矩阵作乘法运算,得到匹配度集合;
将所述匹配度集合中的元素进行降序排列,将排序第一位的元素对应的行业作为所述目标企业的行业类别。
在其中一些实施例中,所述获取属于不同行业的若干企业的招聘岗位数据之前,包括:
通过网络爬虫技术从网页抓取所述属于不同行业的若干企业的招聘岗位数据。
在其中一些实施例中,所述对所述招聘岗位数据进行预处理,得到格式统一的招聘岗位名称,包括:
对所述招聘岗位数据进行清洗,形成格式统一的招聘岗位名称。
在其中一些实施例中,所述构建初步行业-招聘岗位矩阵,还包括:
设置所述初步行业-招聘岗位矩阵的每个维度的坐标值。
在其中一些实施例中,所述设置所述初步行业-招聘岗位矩阵的每个维度的坐标值,包括以下取值规则:
若招聘岗位名称r在行业i中,则行业i对应招聘岗位名称r的维度的坐标值设置为1,反之设置为0。
在其中一些实施例中,所述根据所述若干企业的招聘岗位名称进行相似岗位合并,得到相似招聘岗位集合,包括:
将同时包含中文和英文的招聘岗位名称进行拆分,得到中文字符串和英文字符串;
将招聘岗位名称中的中文字符串拆分为单个汉字;
统计任意两个招聘岗位名称之间的相同字符个数,将统计结果形成矩阵,其中所述矩阵中的元素表示招聘岗位名称中相同字符的计算结果;
将所述矩阵进行聚类,得到相似招聘岗位集合。
在其中一些实施例中,所述将所述矩阵进行聚类,包括:
采用谱聚类算法将所述矩阵进行聚类。
在其中一些实施例中,所述得到所述目标企业的岗位向量,还包括:
将所述目标企业的岗位向量设置为列向量。
第二方面,本发明实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的划分企业所属行业类别的方法。
第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的划分企业所属行业类别的方法。
相比于现有技术,本发明实施例提供一种划分企业所属行业类别的方法、设备及介质,通过求取企业的招聘岗位与所述行业关键岗位的匹配度,确定企业所属行业,解决了基于现有统计标准难以划分企业所属新兴行业类别的问题,实现了对企业类别的划分符合新兴(现有)产业分类。
本发明的一个或多个实施例的细节在以下附图和描述中提出,以使本发明的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明划分企业所属行业类别的方法的流程图;
图2是实施例2的电子设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案更加清楚明白,以下结合附图及实施例,对本发明的进行描述和说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。基于本发明提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
本发明提出一种划分企业所属行业类别的方法、设备及介质,根据企业和职位之间的关联关系为基础进行行业类别判断和划分。具体地,因企业是产业的微观单位,职位是一个企业组织结构的基本单位,是由单一或者多元任务要素组成的整体、有实际作用的工作活动,它可以非常直接的反映企业的经营活动。新职业的出现,是社会发展和产业变革的映射,一批职业随着技术发展而消失,另一批职业随着产业升级、新型服务消费兴起而诞生。例如:当以云计算、大数据、人工智能为代表的新一代数字技术正成为推动全球进入数字经济新时代的动力时,人工智能工程技术人员、数字化管理师、工业机器人系统操作员、大数据工程技术人员新职业取代旧职业;当电子竞技逐渐被主流认可,电子竞技运营师和电子竞技员位列新职业目录。
而企业通过招聘网站发布招聘信息,基于招聘信息即可很好地区分企业所属的行业类别。因此通过网络爬虫获取最新招聘信息,我们可以捕获属于某一新兴产业的新职位数据,通过职位数据快速推断企业所属的新兴产业。针对很多招聘岗位的描述不一致,但是实质内容是一致的情况,可以通过统计岗位相同字符的个数来判断招聘岗位的相似性;然后通过招聘岗位分布,提取各行业关键岗位,最后基于企业的招聘岗位与所有行业关键岗位的匹配度确定企业所属行业。
实施例1
根据上述原理,本实施例提供一种对划分企业所属行业类别的方法,图1图1是本发明划分企业所属行业类别的方法的流程图,如图1所示,划分企业所属行业类别的方法,具体包括以下步骤:
S101、获取属于不同行业的若干企业的招聘岗位数据,对所述招聘岗位数据进行预处理,得到格式统一的招聘岗位名称。
获取上述招聘岗位数据之前,可根据公开资料搜集一定数据的属于不同行业的相关企业,再获取所有这些企业的招聘岗位数据。
S102、将每个企业的招聘岗位名称映射为一个向量,以构建初步行业-招聘岗位矩阵,其中所述若干企业的招聘岗位名称构成所述初步行业-招聘岗位矩阵的一个空间,每个招聘岗位名称对应所述初步行业-招聘岗位矩阵的一个维度。
S103、根据所述若干企业的招聘岗位名称进行相似岗位合并,得到相似招聘岗位集合;
S104、根据所述相似招聘岗位集合,将所述初步行业-招聘岗位矩阵中的相似招聘岗位名称对应的列进行横向求和,将所述横向求和结果大于1的值置为1,反之置为0,并通过所述横向求和形成的新列替换所述相似招聘岗位名称对应的所有列,得到新的行业-招聘岗位矩阵;
S105、将所述新的行业-招聘岗位矩阵按列求和,删除按列求和结果大于阈值的列,得到目标行业-招聘岗位矩阵;
如果某个招聘岗位出现在每个行业里,那么这一招聘岗位不能用来区分不同行业,比如各行各业均存在“财务主管”这个岗位。而属于特有行业的岗位,如属于“电子竞技”行业的“电子竞技运营师”即可用于区分行业,即可作为该行业的关键岗位,因此为了得到各个行业的关键岗位,需要筛选行业-招聘岗位矩阵中的关键岗位,删除不能区分行业的非关键岗位。S105中,通过将所述新的行业-招聘岗位矩阵按列求和,删除按列求和结果大于阈值的列,即可保留关键岗位,得到包含各个行业关键岗位的目标行业-招聘岗位矩阵,该目标-招聘岗位矩阵可用于划分企业所属的行业类别。
可根据企业数量灵活设置上述阈值的取值。在本实施例中,将所述阈值的取值设定为所搜集的企业数量的百分之五十。
S106、将所述目标行业-招聘岗位矩阵中的列分别组成招聘岗位集合,并按照所述目标行业-招聘岗位矩阵的列序号进行对应编号;
例如,第一列的元素组成的招聘岗位集合,即编号为1,以此类推。
S107、获取目标企业的招聘岗位,将所述目标企业的招聘岗位与所述招聘岗位集合中的元素进行匹配,将匹配成功的所述目标企业的招聘岗位赋值为1,反之赋值为0,得到所述目标企业的岗位向量;
上述目标企业为未知行业类别的企业。
S108、将所述目标岗位向量与所述目标行业-招聘岗位矩阵作乘法运算,得到匹配度集合;将所述匹配度集合中的元素进行降序排列,将排序第一位的元素对应的行业作为所述目标企业的行业类别。
优选地,所述获取属于不同行业的若干企业的招聘岗位数据之前,包括:
通过网络爬虫技术从网页抓取所述属于不同行业的若干企业的招聘岗位数据。
首先,搜集到一定数量的属于不同行业的企业,再运用网络爬虫技术,编写脚本程序,通过解析文档,从网页抓取所有企业的招聘岗位数据,从而得到属于不同行业的若干企业的招聘岗位数据。
需要注意的是,上述属于不同行业的企业数量可根据实际确定,在此不作限定,企业数量的限定不会影响执行本实施例的划分企业所属行业类别的方法。另外,网络爬虫技术,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,可以实现自动采集所有其能够访问到的页面内容。网络爬虫为本领域的常规数据获取手段,在此不再赘述,可选用python、java等编程语言编写网络爬虫脚本。
优选地,所述对所述招聘岗位数据进行预处理,得到格式统一的招聘岗位名称,包括:
对所述招聘岗位数据进行清洗,形成格式统一的招聘岗位名称。
数据清洗为数据预处理的常规操作,通过数据清洗,可形成规范、格式统一的招聘岗位名称,例如,清洗前的招聘岗位数据为“客服代表+只要有付出,就定会有回报+一对一带薪培训”、“Java developer for Cash Equities”、“SecretaryPersonalAssistant行政秘书”、“.NET开发工程师”,经数据清洗后,分别得到招聘岗位名称“客服代表”、“现金股票java开发人员”、“行政秘书”、“.net开发工程师”。
优选地,所述构建初步行业-招聘岗位矩阵,还包括:
设置所述初步行业-招聘岗位矩阵的每个维度的坐标值。
在本实施例中,所述设置所述初步行业-招聘岗位矩阵的每个维度的坐标值,包括以下取值规则:
若招聘岗位名称r在行业i中,则行业i对应招聘岗位名称r的维度的坐标值设置为1,反之设置为0。
在本实施例中,将每个企业的招聘岗位名称映射为一个向量,构建的初步行业-招聘岗位矩阵M_first如下:
Figure BDA0002743438180000091
其中i=1,2,…,I,r=1,2,…,R,
Figure BDA0002743438180000092
当然,在其他实施例中,也可采用其他的取值规则设置所述初步行业招聘岗位矩阵的每个维度的坐标值。
优选地,所述根据所述若干企业的招聘岗位名称进行相似岗位合并,得到相似招聘岗位集合,包括如下步骤:
将同时包含中文和英文的招聘岗位名称进行拆分,得到中文字符串和英文字符串;
例如:“区块链商务BD”拆分后为{“区块链商务”,“BD”},“AI开发工程师”拆分后为{“AI”,“开发工程师”}。
将招聘岗位名称中的中文字符串拆分为单个汉字;
此处提及的招聘岗位名称包括经上一步骤拆分后招聘岗位名称或未执行上一步骤的只包含中文字符的招聘岗位名称。对于上一个步骤的拆分结果或不包括英文的招聘岗位名称进行拆分,本步骤只涉及拆分结果的中文部分,将中文字符串继续拆分为单个汉字。例如:{“区块链商务”,“BD”}拆分后得到{“区”,“块”,“链”,“商”“务”,“BD”},“数据分析师”拆分后得到{“数”,“据”,“分”,“析”“师”}。
统计任意两个招聘岗位名称之间的相同字符个数,将统计结果形成矩阵,其中所述矩阵中的元素表示招聘岗位名称中相同字符的计算结果;
在本步骤中,英文字符串作为单个字符对待,得到的统计结果形成矩阵M_sec:
Figure BDA0002743438180000101
其中,r=1,2,…R。
将所述矩阵进行聚类,得到相似招聘岗位集合。
所述聚类可选用(K均值)聚类等本领域公知的聚类算法实现,且聚类算法的应用为公知常识,在此不再赘述聚类算法的具体计算过程。
在本实施例中,所述将所述矩阵进行聚类,包括:
采用谱聚类算法将所述矩阵进行聚类。
谱聚类是基于谱图划分理论的聚类算法,适用于具有任何分布形状的样本空间,可求解到全局最优解,为本领域公知的聚类算法,因此通过谱聚类算法对矩阵进行聚类的过程在此不再赘述。将谱聚类算法应用到上一步骤中得到的矩阵M_sec的聚类,得到相似招聘岗位集合,例如:聚类结果R1包含的招聘岗位有“区块链编辑”、“区块链主编”、“社群运营区块链”、“区块链运营经理”等;聚类结果R2包含的招聘岗位有“5G软件开发工程师”、“5G基站开发工程师”、“5G软件开发”等。
得到相似招聘岗位集合后,根据相似招聘岗位集合,将矩阵M_first中各相似招聘岗位对应的列进行横向求和,形成若干新列,将新列替换矩阵M_first中各相似招聘岗位对应的所有列,得到新的行业-招聘岗位矩阵。
对新的行业-招聘岗位按列求和,删除按列求和结果大于预设阈值对应的列,得到包含关键岗位的目标行业-招聘岗位矩阵M_first_new:
Figure BDA0002743438180000111
其中:i=1,2,…I,r′=1,2,…R′,
Figure BDA0002743438180000112
然后,将矩阵M_first_new中的列分别构成招聘岗位集合,每个招聘岗位集合根据其所在的列进行编号,形成如下集合:
R_set={R1,R2,....,RR′};其中R1、R2、…RR′分别表示M_first_new中的每列元素对应的招聘岗位集合。
在其中一些实施例中,所述得到所述目标企业的岗位向量,还包括:
将所述目标企业的岗位向量设置为列向量。
在本实施例中,将目标企业的每一个招聘岗位与R_set中每一个元素进行匹配,得到目标企业的岗位向量,将其设置为列向量com_m:
Figure BDA0002743438180000121
将岗位向量com_m与目标行业-招聘岗位矩阵M_first_new作乘法,得到目标企业的招聘岗位与各个行业招聘岗位(关键岗位)的匹配度匹配度Mi:形成目标企业的招聘岗位与各个行业招聘岗位(关键岗位)的匹配度集合com_ind:
Figure BDA0002743438180000122
其中,
Figure BDA0002743438180000123
最后对匹配度集合com_ind中的元素(匹配度)进行降序排列,即
[Mi′ Mi′-1 … Mi′-I+1],其排序第一的元素对应的行业i′即为目标企业的所属行业,从而实现对目标企业的行业类别划分。
实施例2
图2为本发明实施例2提供的一种电子设备的结构示意图,如图2所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图2所示。该电子设备包括处理器、存储器、输入装置和输出装置;其中该电子设备中处理器的数量可以是一个或多个,图2中以一个处理器为例;电子设备中的处理器、存储器、输入装置和输出装置可以通过总线或其他方式连接,图2中以通过总线连接为例。
存储器作为一种计算机可读存储介质,可以包括高速随机存取存储器、非易失性存储器等,可用于存储操作系统、软件程序、计算机可执行程序和数据库,如本发明实施例1的划分企业所属行业类别的方法对应的程序指令/模块,还可以包括内存,可用于为操作系统和计算机程序提供运行环境。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。
处理器用于提供计算和控制能力,可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。处理器通过运行存储在存储器中的计算机可执行程序、软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现实施例1的划分企业所属行业类别的方法。
该电子设备的输出装置可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
该电子设备还可包括网络接口/通信接口,该电子设备的网络接口用于与外部的终端通过网络连接通信。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所述更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现实施例1的划分企业所属行业类别的方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
实施例3
本发明实施例3还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于实现划分企业所属行业类别的方法,该方法包括:
获取属于不同行业的若干企业的招聘岗位数据,对所述招聘岗位数据进行预处理,得到格式统一的招聘岗位名称;
将每个企业的招聘岗位名称映射为一个向量,以构建初步行业-招聘岗位矩阵,其中所述若干企业的招聘岗位名称构成所述初步行业-招聘岗位矩阵的一个空间,每个招聘岗位名称对应所述初步行业-招聘岗位矩阵的一个维度;
根据所述若干企业的招聘岗位名称进行相似岗位合并,得到相似招聘岗位集合;
根据所述相似招聘岗位集合,将所述初步行业-招聘岗位矩阵中的相似招聘岗位名称对应的列进行横向求和,将所述横向求和结果大于1的值置为1,反之置为0,并通过所述横向求和形成的新列替换所述相似招聘岗位名称对应的所有列,得到新的行业-招聘岗位矩阵;
将所述新的行业-招聘岗位矩阵按列求和,删除按列求和结果大于阈值的列,得到目标行业-招聘岗位矩阵;
将所述目标行业-招聘岗位矩阵中的列分别组成招聘岗位集合,并按照所述目标行业-招聘岗位矩阵的列序号进行对应编号;
获取目标企业的招聘岗位,将所述目标企业的招聘岗位与所述招聘岗位集合中的元素进行匹配,将匹配成功的所述目标企业的招聘岗位赋值为1,反之赋值为0,得到所述目标企业的岗位向量;
将所述目标岗位向量与所述目标行业-招聘岗位矩阵作乘法运算,得到匹配度集合;
将所述匹配度集合中的元素进行降序排列,将排序第一位的元素对应的行业作为所述目标企业的行业类别。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述实施例的划分企业所属行业类别的方法操作,还可以执行本发明任意实施例所提供的划分企业所属行业类别的方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的划分企业所属行业类别的方法。
值得注意的是,上述划分企业所属行业类别的方法的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (10)

1.一种划分企业所属行业类别的方法,其特征在于,包括以下步骤:
获取属于不同行业的若干企业的招聘岗位数据,对所述招聘岗位数据进行预处理,得到格式统一的招聘岗位名称;
将每个企业的招聘岗位名称映射为一个向量,以构建初步行业-招聘岗位矩阵,其中所述若干企业的招聘岗位名称构成所述初步行业-招聘岗位矩阵的一个空间,每个招聘岗位名称对应所述初步行业-招聘岗位矩阵的一个维度;
根据所述若干企业的招聘岗位名称进行相似岗位合并,得到相似招聘岗位集合;
根据所述相似招聘岗位集合,将所述初步行业-招聘岗位矩阵中的相似招聘岗位名称对应的列进行横向求和,将所述横向求和结果大于1的值置为1,反之置为0,并通过所述横向求和形成的新列替换所述相似招聘岗位名称对应的所有列,得到新的行业-招聘岗位矩阵;
将所述新的行业-招聘岗位矩阵按列求和,删除按列求和结果大于阈值的列,得到目标行业-招聘岗位矩阵;
将所述目标行业-招聘岗位矩阵中的列分别组成招聘岗位集合,并按照所述目标行业-招聘岗位矩阵的列序号进行对应编号;
获取目标企业的招聘岗位,将所述目标企业的招聘岗位与所述招聘岗位集合中的元素进行匹配,将匹配成功的所述目标企业的招聘岗位赋值为1,反之赋值为0,得到所述目标企业的岗位向量;
将所述目标岗位向量与所述目标行业-招聘岗位矩阵作乘法运算,得到匹配度集合;
将所述匹配度集合中的元素进行降序排列,将排序第一位的元素对应的行业作为所述目标企业的行业类别。
2.如权利要求1所述的划分企业所属行业类别的方法,其特征在于,所述获取属于不同行业的若干企业的招聘岗位数据之前,包括:
通过网络爬虫技术从网页抓取所述属于不同行业的若干企业的招聘岗位数据。
3.如权利要求1所述的划分企业所属行业类别的方法,其特征在于,所述对所述招聘岗位数据进行预处理,得到格式统一的招聘岗位名称,包括:
对所述招聘岗位数据进行清洗,形成格式统一的招聘岗位名称。
4.如权利要求1所述的划分企业所属行业类别的方法,其特征在于,所述构建初步行业-招聘岗位矩阵,还包括:
设置所述初步行业-招聘岗位矩阵的每个维度的坐标值。
5.如权利要求4所述的划分企业所属行业类别的方法,其特征在于,所述设置所述初步行业-招聘岗位矩阵的每个维度的坐标值,包括以下取值规则:
若招聘岗位名称r在行业i中,则行业i对应招聘岗位名称r的维度的坐标值设置为1,反之设置为0。
6.如权利要求1所述的划分企业所属行业类别的方法,其特征在于,所述根据所述若干企业的招聘岗位名称进行相似岗位合并,得到相似招聘岗位集合,包括:
将同时包含中文和英文的招聘岗位名称进行拆分,得到中文字符串和英文字符串;
将招聘岗位名称中的中文字符串拆分为单个汉字;
统计任意两个招聘岗位名称之间的相同字符个数,将统计结果形成矩阵,其中所述矩阵中的元素表示招聘岗位名称中相同字符的计算结果;
将所述矩阵进行聚类,得到相似招聘岗位集合。
7.如权利要求6所述的划分企业所属行业类别的方法,其特征在于,所述将所述矩阵进行聚类,包括:
采用谱聚类算法将所述矩阵进行聚类。
8.如权利要求1所述的划分企业所属行业类别的方法,其特征在于,所述得到所述目标企业的岗位向量,还包括:
将所述目标企业的岗位向量设置为列向量。
9.一种电子设备,包括存储器、处理器以及存储所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至8任一项所述的划分企业所属行业类别的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8任一项所述的划分企业所属行业类别的方法。
CN202011158181.2A 2020-10-26 2020-10-26 划分企业所属行业类别的方法、设备及介质 Active CN112347318B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011158181.2A CN112347318B (zh) 2020-10-26 2020-10-26 划分企业所属行业类别的方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011158181.2A CN112347318B (zh) 2020-10-26 2020-10-26 划分企业所属行业类别的方法、设备及介质

Publications (2)

Publication Number Publication Date
CN112347318A CN112347318A (zh) 2021-02-09
CN112347318B true CN112347318B (zh) 2022-08-02

Family

ID=74360181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011158181.2A Active CN112347318B (zh) 2020-10-26 2020-10-26 划分企业所属行业类别的方法、设备及介质

Country Status (1)

Country Link
CN (1) CN112347318B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116361726B (zh) * 2023-04-03 2024-03-29 全拓科技(杭州)股份有限公司 一种基于多维大数据分析的数据处理方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100023630A (ko) * 2008-08-22 2010-03-04 고려대학교 산학협력단 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
CN102937985A (zh) * 2012-10-25 2013-02-20 南京理工大学 一种基于用户心智模型的网站分类优化分析方法
CN103049581A (zh) * 2013-01-21 2013-04-17 北京航空航天大学 一种基于一致性聚类的Web文本分类方法
CN105426548A (zh) * 2015-12-29 2016-03-23 海信集团有限公司 一种基于多用户的视频推荐方法及装置
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN109783818A (zh) * 2019-01-17 2019-05-21 上海三零卫士信息安全有限公司 一种企业行业多标签分类方法
CN110134759A (zh) * 2019-05-13 2019-08-16 极智(上海)企业管理咨询有限公司 一种获取企业的行业信息的方法
CN110428139A (zh) * 2019-07-05 2019-11-08 阿里巴巴集团控股有限公司 基于标签传播的信息预测方法及装置
CN110619067A (zh) * 2019-08-27 2019-12-27 深圳证券交易所 基于行业分类的检索方法、检索装置及可读存储介质
CN110990529A (zh) * 2019-11-28 2020-04-10 爱信诺征信有限公司 企业的行业明细划分方法及系统
CN111062198A (zh) * 2019-12-10 2020-04-24 重庆撼地大数据有限公司 一种基于大数据的企业类别分析方法及相关设备
CN111209397A (zh) * 2019-12-30 2020-05-29 中伯伦(北京)信息技术有限公司 一种确定企业产业类别的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100023630A (ko) * 2008-08-22 2010-03-04 고려대학교 산학협력단 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
CN102937985A (zh) * 2012-10-25 2013-02-20 南京理工大学 一种基于用户心智模型的网站分类优化分析方法
CN103049581A (zh) * 2013-01-21 2013-04-17 北京航空航天大学 一种基于一致性聚类的Web文本分类方法
CN105426548A (zh) * 2015-12-29 2016-03-23 海信集团有限公司 一种基于多用户的视频推荐方法及装置
CN107944480A (zh) * 2017-11-16 2018-04-20 广州探迹科技有限公司 一种企业行业分类方法
CN109783818A (zh) * 2019-01-17 2019-05-21 上海三零卫士信息安全有限公司 一种企业行业多标签分类方法
CN110134759A (zh) * 2019-05-13 2019-08-16 极智(上海)企业管理咨询有限公司 一种获取企业的行业信息的方法
CN110428139A (zh) * 2019-07-05 2019-11-08 阿里巴巴集团控股有限公司 基于标签传播的信息预测方法及装置
CN110619067A (zh) * 2019-08-27 2019-12-27 深圳证券交易所 基于行业分类的检索方法、检索装置及可读存储介质
CN110990529A (zh) * 2019-11-28 2020-04-10 爱信诺征信有限公司 企业的行业明细划分方法及系统
CN111062198A (zh) * 2019-12-10 2020-04-24 重庆撼地大数据有限公司 一种基于大数据的企业类别分析方法及相关设备
CN111209397A (zh) * 2019-12-30 2020-05-29 中伯伦(北京)信息技术有限公司 一种确定企业产业类别的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于聚类分析法的岗位分类评价研究;邹君;《中国优秀博硕士学位论文全文数据库(硕士)经济与管理科学辑》;中国学术期刊(光盘版)电子杂志社;20140215;J152-436页 *

Also Published As

Publication number Publication date
CN112347318A (zh) 2021-02-09

Similar Documents

Publication Publication Date Title
CN109543925B (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CN109284371B (zh) 反欺诈方法、电子装置及计算机可读存储介质
CN110458324B (zh) 风险概率的计算方法、装置和计算机设备
CN110837590B (zh) 资讯推送方法、装置、计算机设备和存储介质
CN110674360B (zh) 一种用于数据的溯源方法和系统
CN112395500A (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN113554175B (zh) 一种知识图谱构建方法、装置、可读存储介质及终端设备
CN113298354B (zh) 业务衍生指标的自动生成方法、装置及电子设备
CN112052891A (zh) 机器行为识别方法、装置、设备及计算机可读存储介质
CN111259952A (zh) 异常用户识别方法、装置、计算机设备及存储介质
CN112685639A (zh) 活动推荐方法、装置、计算机设备和存储介质
CN112347318B (zh) 划分企业所属行业类别的方法、设备及介质
CN107330705A (zh) 一种根据多数据源防欺诈的方法和系统
CN112464660B (zh) 文本分类模型构建方法以及文本数据处理方法
CN110399432A (zh) 一种表的分类方法、装置、计算机设备及存储介质
CN110765778B (zh) 一种标签实体处理方法、装置、计算机设备和存储介质
CN112465648A (zh) 一种风险数据的评估方法、装置、计算机设备及存储介质
CN116049510A (zh) 企业最终股东的分析方法、系统、设备及介质
CN115544007A (zh) 标签预处理方法、装置、计算机设备和存储介质
US20220215142A1 (en) Extensible Agents in Agent-Based Generative Models
WO2022150343A1 (en) Generation and evaluation of secure synthetic data
CN113961811A (zh) 基于事件图谱的话术推荐方法、装置、设备及介质
Gopala Krishnan et al. Predictive algorithm and criteria to perform big data analytics
Almadany et al. A novel algorithm for estimation of Twitter users location using public available information
US11892989B2 (en) System and method for predictive structuring of electronic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant