CN112434211A

CN112434211A - 一种数据处理方法、装置、存储介质及设备

Info

Publication number: CN112434211A
Application number: CN202011219352.8A
Authority: CN
Inventors: 蔡艳
Original assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Current assignee: Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date: 2020-11-04
Filing date: 2020-11-04
Publication date: 2021-03-02

Abstract

本说明书提供一种数据处理方法、装置、存储介质及设备，该方法中，获取招聘数据集中各描述任职要求的文本，根据文本中包含的短语的权重及文本的主题概率分布筛选出关键短语，从筛选结果中获取得到指定职位对应的关键短语集，再结合聚类和融合处理，提取出用于描述该指定职位的至少一种技能需求的数据。这样，整个过程都不需要预先定义好的技能词典，从而减少了技能词典的构造成本，而且还可以有效发现新的技能词汇，不会造成词语遗漏，数据处理的精确度较高。

Description

一种数据处理方法、装置、存储介质及设备

技术领域

本说明书涉及计算机技术领域，尤其涉及一种数据处理方法、装置、存储介质及设备。

背景技术

随着互联网技术的发展，人们通常通过互联网的招聘网站进行求职，招聘网站会根据海量招聘信息的任职要求，统计出各职位对应的技能需求，以帮助求职者更高效地求职。

由于招聘信息一般是非结构化文本，相关技术采用的数据处理方法是引入预先定义好的技能词典，根据该技能词典对招聘信息的任职要求文本进行分词，抽取每一份任职要求对应的技能需求。然而，这种方式需要预先定义好的技能词典，因此，若招聘数据中描述技能的词语未记录在技能词典中，则该方法无法识别出来，造成词语的遗漏，数据处理效果的精确度较低。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种数据处理方法、装置、存储介质及设备。

根据本说明书实施例的第一方面，提供一种数据处理方法，所述方法包括：

获取招聘数据集，对所述招聘数据集中每份招聘数据提取出描述任职要求的文本；

根据所述文本中包含的短语的权重及所述文本的主题概率分布，从所述文本中筛选出至少一个关键短语；

根据筛选结果，获取指定职位对应的关键短语集；

对所述指定职位对应的关键短语集进行聚类处理，获得多类关键短语子集后，基于语义相似度进行融合，根据融合结果获得用于描述所述指定职位的至少一种技能需求的数据。

在某些例子中，对所述指定职位对应的关键短语集进行聚类处理，获得多类关键短语子集，包括：

对所述指定职位对应的关键短语集中各关键短语分别进行向量表征，得到各关键短语的特征向量；

根据预设的类别数，对所述各关键短语的特征向量进行聚类运算，获得多类关键短语子集。

在某些例子中，上述用于描述所述指定职位的至少一种技能需求的数据基于每类关键短语子集的代表实体的第一频数确定；其中，所述第一频数是指所述关键短语子集中关键短语在所述指定职位对应的招聘数据中出现的次数；所述代表实体是所述关键短语子集中第一频数最高的关键短语。

在某些例子中，上述基于语义相似度进行融合处理，包括：

确定每类关键短语子集中代表实体与其他关键短语的语义相似度，将语义相似度大于第一预设值的其他关键短语的第一频数累加至所述代表实体的第一频数。

在某些例子中，上述基于语义相似度进行融合处理，包括：

若所有关键短语子集中任意两个代表实体之间的语义相似度高于第二预设值，将第一频数低的代表实体的第一频数累加至第一频数高的代表实体的第一频数上，并将第一频数低的代表实体对应的关键短语子集删除。

在某些例子中，上述用于描述所述指定职位的至少一种技能需求的数据包括：用于描述通用型技能需求的通用数据和用于描述专业型技能需求的专业数据；

所述通用数据和专业数据通过如下方式确定：

获取通用候选集；所述通用候选集中包括的关键短语，是基于筛选出的所有关键短语的第二频数确定的；所述第二频数是指关键短语在所述招聘数据集中出现的次数；

利用通用候选集和所述用于描述所述指定职位的至少一种技能需求的数据的交集，确定所述通用数据和所述专业数据。

在某些例子中，上述通用候选集的获取方式包括：

将筛选出的所有关键短语按照各自的第二频数进行降序排列；

计算各关键短语与排列在所述关键短语前面的其余关键短语之间的语义相似度，若该语义相似度高于第三预设值，则将第二频数低的关键短语的第二频数累加至第二频数高的关键短语的第二频数，并将第二频数低的关键短语删除；

将各关键短语按照第二频数重新排序，根据重新排序的结果获取通用候选集。

根据本说明书实施例的第二方面，提供一种数据处理装置，所述装置包括：

文本提取模块，用于获取招聘数据集，对所述招聘数据集中每份招聘数据提取出描述任职要求的文本；

文本筛选模块，用于根据所述文本中包含的短语的权重及所述文本的主题概率分布，从所述文本中筛选出至少一个关键短语；

短语获取模块，用于根据筛选结果，获取指定职位对应的关键短语集；

技能获取模块，用于对所述指定职位对应的关键短语集进行聚类处理，获得多类关键短语子集后，基于语义相似度进行融合，根据融合结果获得用于描述所述指定职位的至少一种技能需求的数据。

根据本说明书实施例的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现说明书实施例中任一项方法。

根据本说明书实施例的第四方面，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现说明书实施例中任一项方法。

本说明书的实施例提供的技术方案可以包括以下有益效果：

本说明书实施例中，公开了一种数据处理方法、装置、存储介质及设备，该方法中，获取招聘数据集中各描述任职要求的文本，根据文本中包含的短语的权重及文本的主题概率分布筛选出关键短语，从筛选结果中获取得到指定职位对应的关键短语集，再结合聚类和融合处理，提取出用于描述该指定职位的至少一种技能需求的数据。这样，整个过程都不需要预先定义好的技能词典，从而减少了技能词典的构造成本，而且还可以有效发现新的技能词汇，不会造成词语遗漏，数据处理的精确度较高。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的一种数据处理方法的流程图；

图2是本说明书实施例数据处理装置所在计算机设备的一种硬件结构图；

图3是本说明书根据一示例性实施例示出的一种数据处理装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

随着互联网技术的发展，人们通常通过互联网的招聘网站进行求职，招聘网站会根据海量招聘信息的任职要求，统计出各职位对应的技能需求并展示给求职者。这样，求职者可以了解到不同职位对应的技能需求，从而可以根据自己的技能优势选择更为合适的职位，或者有根据性地提升自身的技术能力。同时，对于企业来说，其也可以建立其不同职位的技术栈，有利于整体技术能力的管理和提升。

相关技术中从招聘信息中提取技能需求数据的方法是引入预先定义好的技能词典，根据该技能词典对招聘信息的任职要求文本进行分词，抽取每一份任职要求对应的技能需求，例如，针对某任职要求文本中的一句语句“熟悉平面空间规划，精通各种风格的室内设计”，由于技能词典中定义有“平面空间规划”和“室内设计”这两个词语，因此，在分词时不会将这两个词语分别拆分为“平面”、“空间”、“规划”三个分词，或“室内”、“设计”两个分词，而是直接抽取这两个词语作为该招聘信息的候选技能实体。然而，这一方法需要预先定义好的技能词典，因此，若招聘数据中描述技能的词语未记录在技能词典中，则该方法无法识别出来，造成词语的遗漏，数据处理效果的精确度较低。基于此，本说明书实施例提供一种数据处理方法，以解决上述问题。

接下来对本说明书实施例进行说明。

如图1所示，图1是本说明书根据一示例性实施例示出的一种数据处理方法的流程图，所述方法包括：

在步骤101、获取招聘数据集，对所述招聘数据集中每份招聘数据提取出描述任职要求的文本；

本说明书实施例提供的是一种从招聘数据集中抽取出描述技能需求的数据的方法，这里的招聘数据集可以是指从招聘网站上抓取到的网络数据，根据实际需要，可以是选取预设时间段内的招聘数据，预设时间段可以为获取日向前推算一周内，或者一个月内等等。可以理解的，招聘数据集包括多份招聘数据，每份招聘数据对应一个职位，而每个职位可以对应一份或多份招聘数据，例如，某企业发布了8份招聘数据，以招聘1个软件开发工程师、2个软件测试工程师、5个销售员，则每份招聘数据对应该企业需求的一个职位，而“软件开发工程师”、“软件测试工程师”和“销售员”这三个职位对应的招聘数据的份数依次为1份、2份、5份。

通常来说，一份招聘数据中会包括招聘职位、岗位职责、任职要求、岗位待遇等信息，提取描述任职要求的文本的方式可以是：先从招聘数据中识别出这些信息作为标签，以此将每份招聘数据划分成若干个部分的文本，并获取其中对应任职要求这一标签的相关文本。可以理解的，任职要求除了技能需求之外，往往还可以包括学历要求、属地要求等等，其中，学历要求可以包括以下任意一项：初中及以下、高中、专科、本科、硕士、博士；属地要求可以包括：本市户口、市外户口等。

在步骤102、根据所述文本中包含的短语的权重及所述文本的主题概率分布，从所述文本中筛选出至少一个关键短语；

在某些例子中，本步骤中提到的短语可以是对文本分词之后，根据词性将相邻的分词融合后得到。可以理解的，词语是词和短语的合称，而描述技能需求的数据通常是短语的形式，比如“软件测试”、“数据库开发”等等。具体地，可以采用Jieba、SnowNLP之类的分词工具对文本进行分词和词性标注，去除虚词或停用词，由于描述技能要求的词语大部分是名词加名词、名词加动词之类的结构，因此，可以根据词性将相邻的分词进行融合，形成短语，例如“软件测试”，就是由“软件”和“测试”两个分词融合得到。需要说明的是，由于一些招聘数据的任职要求文本中可能包含有如“Python”、“Photoshop”之类的英文单词，因此，在某些例子中，针对此类文本，可以先将英文单词抽取出来，再与分词融合后得到的中文的短语进行融合，共同进行后续的筛选步骤。当然，描述其他要求的词语也可能具有类似的结构，因此对于融合得到的短语，需要进行筛选，以得到关键短语。在本说明书实施例中，基于短语的权重及文本的主题概率分布进行筛选以得到关键短语，其中，短语的权重是用于评估短语对整个招聘数据集或者其所在的招聘数据中的重要程度；文本的主题概率分布是用于推测短语的主题分布，即短语与主题的相关性。也就是说，结合各短语的重要程度和相关主题，确定出代表每个文本的关键短语。

本步骤中所提到的短语的权重可以基于TF-IDF算法计算得到。TF-IDF(TermFrequency-Inverse Document Frequency，词频-逆向文本频率)算法是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度，其含义是指：字词的重要性随着它在一份文件中出现的次数成正比增加，同时随着它在语料库中出现的次数成反比下降。具体地，某一短语的权重可以由组成该短语的各分词的TF-IDF值得到，各分词的TF-IDF值可以由其TF值和IDF值的乘积得到，其中，该分词的TF值表示该分词在文本中出现的频率，可以由该分词在当前文本中出现的次数除以其他词条在当前文本中出现的次数得到；该分词的IDF值表示该分词的普遍程度，可以由总文件数目处于包含该分词的文件的数目，再将得到的商取对数得到。另外，在某些例子中，由于部分招聘数据中，一份描述任职要求的文本对应的词汇量较小，因此，在计算分词的TF值时，可以用对应招聘数据集对应的所有文本作为当前文本来计算。还有，由于描述技能需求的数据通常包含较多的名词性词汇，因此，还可以根据不同的词性进行不同的加权，以提高最终筛选出的关键短语的质量。

本步骤中所提到的文本的主题概率分布可以基于预先训练好的LDA模型计算得到。LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)模型是一种文档主题生成模型，用以将语料库中每篇文档的主题按照概率分布的形式给出。在某些例子中，LDA模型的训练过程可以包括：对语料库中每篇文档中的每个词，随机赋一个主题编号；重新扫描语料库，对每个词按照吉布斯采样公式重新采样它的主题，在语料中进行更新；重复语料库的重新采样过程直到吉布斯采样收敛；统计语料库的主题-词汇共现频率矩阵，该矩阵即为LDA的模型。这里的语料库可以是自制的文档集合，如各种技术相关的文档组成的集合；也可以是从通用的数据库，如gensim(一个自然语言处理库)中获取的语料数据而建立得到。训练好的LDA模型可以用于根据输入的文本，输出文本的主题概率分布。所述文本的主题概率分布是指：所述文本所属的至少一个主题，每个所述主题对应有至少一个所述文本包含的短语，以及每个短语属于对应主题的概率。因此，使用训练好的LDA模型，将每份招聘数据中描述任职要求的文本作为输入，可以得到该文本的主题概率分布，即文本的主题分布和各个主题下每个词的概率分布，由于这里的文本是描述任职要求的文本，因此通常会包含与技能相关的主题，则可以获取每个短语属于与技能相关的主题的概率，用于表示该短语与技能相关的主题之间的相关度，从而使得筛选出的关键短语更符合技能需求。

在某些例子中，在计算得到文本中各短语的权重和主题概率分布后，可以将短语的权重和短语属于与技能相关的主题的概率的乘积，作为该短语的最终权重，进而根据文本中包含的各短语的最终权重，筛选出关键短语。例如，设置一阈值，当任一短语的最终权重高于该阈值，则该短语确定为该文本的关键短语；或者，将文本中各短语按照最终权重从高到低进行排列，取排列在前的预设个数的短语作为该文本的关键短语。通过权重和主题概率分布，筛选得到的关键短语可以极大程度地代表其所在的文本。当然，在其他一些实施例中，可以根据具体场景对筛选条件进行不同的设置，本说明书对此不作限制。

在步骤103、根据筛选结果，获取指定职位对应的关键短语集；

可以理解的，本步骤中提到的指定职位可以是指特定一种职位，也可以是指招聘数据集中的任意一种职位。需要说明的是，同一职位在不同招聘数据中的表述可能是不同的，比如，一企业发布的“网页设计师”的招聘职位和另一企业分布的“网页美工”的招聘职位是相同的，因此，可以先将招聘数据集按照职位进行分类，在分类时将表示同一职位的不同表述归为同一类别，从而在获取指定职位对应的关键短语集时，获取指定职位所在类别的各招聘数据筛选出的所有关键短语作为其关键短语集。这样，避免了因不同表述带来的误差，提高了最终获取得到的数据的准确性。

在步骤104、对所述指定职位对应的关键短语集进行聚类处理，获得多类关键短语子集后，基于语义相似度进行融合，根据融合结果获得用于描述所述指定职位的至少一种技能需求的数据。

由于关键短语集中的关键短语有可能存在重复的情况，因此需要对其进行进一步的融合去重。在某些例子中，本步骤中对所述指定职位对应的关键短语集进行聚类处理，获得多类关键短语子集包括：对所述指定职位对应的关键短语集中各关键短语分别进行向量表征，得到各关键短语的特征向量；根据预设的类别数，对所述各关键短语的特征向量进行聚类运算，获得多类关键短语子集。可以理解的，关键短语在聚类处理时需要先映射成向量的形式，这种将词语映射成实数域上的向量的技术叫做词嵌入技术。在通过词嵌入模型，将关键短语集中各关键短语进行向量表征，得到各关键短语的特征向量后，对各特征向量进行聚类运算，以得到多类关键短语子集。这里的聚类运算可以采用K-means算法，K-means算法的全称是K均值聚类算法，其步骤是：预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心；聚类中心以及分配给它们的对象代表一个聚类，当全部对象被分配完毕，每个聚类的聚类中心会根据聚类中现有的对象被重新计算，直到满足终止条件，其终止条件包括：少于最小数目的对象被分配给不同的聚类、或少于最小数目的聚类中心发生变化、或误差平方和局部最小。由于无法预先判断指定职位对应的技能需求的数量，预设类别数可以设置一个较大的聚类数目，在一些实施例中，K-means算法中K值可以设置为20至30中的一个数值。

在聚类后，可以对各关键短语子集进行融合处理，这里的融合处理可以包括同一类别下的纵向融合，也可以包括不同类别间的横向融合，或者包括纵向融合结合横向融合的合并处理。

首先，同一类别下的纵向融合可以包括：确定每类关键短语子集中代表实体与其他关键短语的语义相似度，将语义相似度大于第一预设值的其他关键短语的第一频数累加至所述代表实体的第一频数。这里的第一频数是指关键短语在其指定职位对应的招聘数据中出现的次数，例如指定职位“室内设计师”的招聘数据有50份，其中关键短语“平面设计”在这些招聘数据中出现的次数是5次，则该关键短语“平面设计”的第一频数为5。这里的代表实体是指关键短语子集中第一频数最高的关键短语。也就是说，同一类别下的纵向融合，可以是比较每类关键短语子集中代表实体与其他关键短语的语义相似度，若相似则视为重复，将相应的第一频数进行融合，用以更新该代表实体的第一频数。

其次，不同类别间的横向融合可以包括：若所有关键短语子集中任意两个代表实体之间的语义相似度高于第二预设值，将第一频数低的代表实体的第一频数累加至第一频数高的代表实体的第一频数上，并将第一频数低的代表实体对应的关键短语子集删除。也就是说，不同类别间的横向融合，是两两比较各类关键短语子集的代表实体的语义相似度，同样的，若相似则视为重复，将相应的第一频数进行融合，用以更新比较前第一频数高的代表实体的第一频数。

关键短语间的语义相似度可以通过word2vec确定，word2vec是一种用来重构语义上下文的算法或模型，它将词汇空间映射到一个高维实向量空间中，在确定词汇的语义相似度时，可以通过其对应向量的余弦相似度表示。当然，在其他一些实施例中，关键短语间的语义相似度也可以基于其他机器学习的算法来确定，如DSSM(Deep StructuredSemantic Models，深度语义匹配模型)算法等，本说明书对此不作限制。另外，还可以创建实体别名表来对关键短语间的语义相似度进行辅助计算，在筛选出招聘数据集的所有关键短语后，可以在开放知识库中依次检索各关键短语，找到其对应的别名、缩写、全称、外文名等信息，建立实体别名表，从而在确定关键短语间的语义相似度时，可以通过实体别名表判断两个关键短语间是否存在别名关系，是则直接视为重复，否则通过计算两个关键短语之间及各自别名之间的语义相似度来确定是否相似。

需要说明的是，前面提到的第一预设值和第二预设值可以根据具体场景来设置，其中，由于同类别下的关键短语本身具有一定的相似性，因此可以设置较小的第一预设值以防止融合效果差，而不同类别间的关键短语本身相似性不高，因此可以设置较大的第二预设值以防止过度融合。

本说明书实施例旨在获取的用于描述指定职位的至少一种技能需求的数据可以基于每类关键短语子集的代表实体的第一频数确定。在经聚类、融合之后，将剩余的关键短语子集的代表实体按照第一频数从高到低进行排列，取排列在前预设个数的代表实体作为技能需求数据。经大量实验证明，这样获取得到的数据可以精准地描述职位的技能需求。另外，需要注意的是，由于聚类时包含英文的关键短语容易被归为同一个类，因此，在某些实施例中，可以将包含英文的关键短语抽取出来，归于英文候选集，不参与聚类处理，这样，在获取技能需求数据时，可以基于每类关键短语子集的代表实体的第一频数和英文候选集的关键短语的第一频数确定。

还有，用于描述指定职位的至少一种技能需求的数据包括用于描述通用型技能需求的通用数据和用于描述专业性技能需求的专业数据。比如说，大多数任职要求中都包含了“团队合作能力”和“沟通表达能力”，对于技术型岗位来说，这两种能力大概率属于通用技能，想从事技术职位的学生并不需要对这类技能过高关注，但对于销售相关的职位来说，这两种能力更偏向于专业技能，是想从事这类职位的求职者需要大力提升的。相关技术中并没有对专业技能和通用技能进行区分，对于求职者来说需要自己去辨别区分，缺乏方便性。本说明书的一些实施例中，对此进行了改进，通过以下方式区分出通用数据和专业数据：获取通用候选集；所述通用候选集中包括的关键短语，是基于筛选出的所有关键短语的第二频数确定的；所述第二频数是指关键短语在所述招聘数据集中出现的次数；利用通用候选集和所述用于描述所述指定职位的至少一种技能需求的数据的交集，确定所述通用数据和所述专业数据。也就是说，根据筛选出的所有关键短语在全量的招聘数据下的出现频数，获取通用候选集，则该通用候选集中的关键短语均为招聘信息中常用的通用技能，再利用该通用候选集和前面得到的用于描述指定职位的至少一种技能需求的数据的交集，确定出该数据中的通用数据，则剩余部分即为该数据中的专业数据。

在某些例子中，该通用候选集的获取方式包括：将筛选出的所有关键短语按照各自的第二频数进行降序排序；计算各关键短语与排列在所述关键短语前面的其余关键短语之间的语义相似度，若该语义相似度高于第三预设值，则将第二频数低的关键短语的第二频数累加至第二频数高的关键短语的第二频数，并将第二频数低的关键短语删除；将各关键短语按照第二频数重新排序，根据重新排序的结果获取通用候选集。这里提高的语义相似度的计算方式与融合处理步骤中确定语义相似度的方式是一致的，在此不再赘述。也就是说，通过按照第二频数从高到低排列各关键短语，各关键短语依次计算与排列在前面的其他关键短语的语义相似度，若相似则视为重复，则保留第二频数较高的实体作为最终展示实体，将第二频数较低的实体作为最终展示实体的别名，同时将第二频数进行融合，最后，按照第二频数将融合后的各关键短语进行重新排序，抽取排序在前面的预设个数的关键短语组合成通用候选集。通过排序的方式，实现融合的快速处理，当然，在其他一些实施例中，还可以通过其他的方式进行融合处理。

职位技能的更新是较为迅速的，尤其是新工具层出不穷，本说明书实施例的方法在需要更新招聘数据时，只需要根据前面的步骤，从更新的招聘数据中筛选出关键短语，融合或统计出各自的第一频数，依次与原先得到的技能需求的数据进行语义相似度比较，若相似，则直接更新第一频数，若不相似，则根据其第一频数的大小判断是否作为新数据加入该技能需求的数据中，从而实现新的技能的发现。还有，在获取得到用于描述指定职位的至少一种技能需求的数据后，可以将该数据制作成该指定职位的标签，或者，绘制出职位-技能的图谱，以方便展示。在一些场景中，还可以加入职位-专业的关联，根据招聘数据中描述专业要求的文本，可得到用于描述指定职位的至少一种匹配专业的数据，进而结合前面得到的技能需求的数据，绘制出职位-专业-技能的图谱。

本说明书实施例的方法，获取招聘数据集中各描述任职要求的文本，根据文本中包含的短语的权重及文本的主题概率分布筛选出关键短语，从筛选结果中获取得到指定职位对应的关键短语集，再结合聚类和融合处理，提取出用于描述该指定职位的至少一种技能需求的数据。由于是直接抽取的关键短语，不需要技能词典，从而减少了技能词典的构造成本，而且，在需要更新招聘信息时，只需要从更新的招聘信息中抽取出新的关键短语，再与更新前的技能需求集进行比较即可，实现了实时增量的更新。

为了对本说明书的方法做更为详细的介绍，接下来以一具体实例进行说明：

一人力资源服务平台在提取近期招聘信息对应的职位技能需求时，采用了本说明书实施例的方案，其过程包括：

S201、获取上周周一至周日期间各企业发布在该平台中的招聘数据作为招聘数据集，对其中每份招聘数据提取出描述任职要求的文本；

S202、针对每个文本，采用Jieba分词工具进行分词和词性标注，将“且”、“的”、“在”之类的虚词或停用词去除，再根据词性将相邻的分词进行融合，形成短语，例如，文本内容“具有/良好/英语/书面/能力”中，五个分词的词性依次为动词、形容词、名词、名词、名词，则可以将词性相同的三个相邻分词组成一个短语“英语书面能力”；

S203、使用TF-IDF算法计算文本中各分词的权重，并根据各分词的权重获得文本中包含的短语的权重；使用训练好的LDA模型，计算文本的主题概率分布，以得到各短语的主题概率分布，例如，一文本涉及四个主题，其中一个主题为“技能”，还有一个主题为“地点”，该文本中包含10个词语，其中，短语“英语书面能力”属于主题“技能”的概率是0.5，属于主题“地点”的概率是0；

S204、根据文本中各短语的权重及文本的主题概率分布计算各短语的最终权重，例如，短语“英语书面能力”的权重是0.2，属于主题“技能”的概率是0.5，其最终权重为其权重和其属于与技能相关的主题的概率的乘积，即为0.1；

S205、根据文本中各短语的最终权重，若一短语的最终权重超过第一阈值，则该短语为该文本的关键短语；本步骤中筛选出招聘数据集的所有关键短语；

S206、在开放知识库中依次检索招聘数据集中的关键短语，得到其别名、缩写、外文名等信息，建立实体别名表；

S207、从所有关键短语中，获取指定职位对应的关键短语集，这里的指定职位是招聘数据集对应的其中一种职位，以“软件工程师”为例，其关键短语集记作关键短语集A；

S208、通过词嵌入模型，对关键短语集A中各关键短语分别进行向量表征，得到各关键短语的特征向量，对其特征向量采用K-means算法进行聚类，预设的类别数K＝30；其中，若关键短语包含英文词语，该关键短语不作聚类处理，归入英文候选集B中；最终获得30类关键短语子集，分别记为子集1、子集2……子集30；

S209、聚类后，将每类关键短语子集中第一频数最高的关键短语确定为代表实体，第一频数是指关键短语在指定职位对应的招聘数据中出现的次数；通过word2vec模型和实体别名表，确定每类关键短语子集中代表实体与其他关键短语的语义相似度，将语义相似度大于第一预设值的其他关键短语的第一频数累加至该代表实体的第一频数，并且将该其他关键短语作为该代表实体的别名，融合至实体别名表中；在本步骤中，第一预设值设置为65％；

S210、通过word2vec模型和实体别名表，确定任意两个子集对应的代表实体之间的语义相似度，比如，子集1的代表实体和子集2的代表实体之间的语义相似度高于第二预设值，且子集1的代表实体的第一频数高于子集2的代表实体的第一频数，则将子集2的代表实体的第一频数累加至子集1的代表实体的第一频数上，并将子集2删除，以此遍历所有关键短语子集；在本步骤中，第二预设值设置为90％；

S211、根据第一频数，对各关键短语子集的代表实体以及英文候选集B中的关键短语进行降序排列，取排列在前十五个的代表实体，作为指定职位“软件工程师”对应的技能需求数据，记作数据集C；

S212、将步骤S205筛选得到的所有关键短语的第二频数进行降序排列，第二频数是指关键短语在招聘数据集中出现的次数；通过word2vec模型和实体别名表，从排列在第二位的关键短语开始依次计算与排列在前面的关键短语之间的语义相似度，若该语义相似度高于第三预设值，则将第二频数低的关键短语的第二频数累加至第二频数高的关键短语的第二频数，并将第二频数低的关键短语删除，遍历所有关键短语后，按照第二频数重新进行降序排列，取排列在前三十位的关键短语形成通用候选集D；

S213、将通用候选集D和数据集C的交集，确定为数据集C中描述通用型技能需求的数据，其余部分为数据集C中描述专业性技能需求的数据，根据这一结果绘制职业-技能的图谱。

通过上述流程，人力资源服务平台可以方便、精准地提取出用于描述指定职位的技能需求的数据，从而能够展示出各招聘职位对应的技能需求，使得求职者可以选择合适自身的职位或者有根据性地提升自己的能力，还使得企业便于管理和提升自身的整体技术能力的。

与前述方法的实施例相对应，本说明书还提供了数据处理装置及其所应用的终端的实施例。

本说明书数据处理装置的实施例可以应用在计算机设备上，例如服务器或终端设备。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本说明书实施例数据处理装置所在计算机设备的一种硬件结构图，除了图2所示的处理器210、内存230、网络接口220、以及非易失性存储器240之外，实施例中装置231所在的服务器或电子设备，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

相应地，本说明书实施例还提供一种计算机存储介质，所述存储介质中存储有程序，所述程序被处理器执行时实现上述任一实施例中的方法。

本说明书实施例可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

如图3所示，图3是本说明书根据一示例性实施例示出的数据处理装置的框图，所述装置包括：

文本提取模块31，用于获取招聘数据集，对所述招聘数据集中每份招聘数据提取出描述任职要求的文本；

文本筛选模块32，用于根据所述文本中包含的短语的权重及所述文本的主题概率分布，从所述文本中筛选出至少一个关键短语；

短语获取模块33，用于根据筛选结果，获取指定职位对应的关键短语集；

技能获取模块34，用于对所述指定职位对应的关键短语集进行聚类处理，获得多类关键短语子集后，基于语义相似度进行融合，根据融合结果获得用于描述所述指定职位的至少一种技能需求的数据。

上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

根据筛选结果，获取指定职位对应的关键短语集；

2.根据权利要求1所述的数据处理方法，其特征在于，对所述指定职位对应的关键短语集进行聚类处理，获得多类关键短语子集，包括：

3.根据权利要求1所述的数据处理方法，其特征在于，所述用于描述所述指定职位的至少一种技能需求的数据基于每类关键短语子集的代表实体的第一频数确定；其中，所述第一频数是指所述关键短语子集中关键短语在所述指定职位对应的招聘数据中出现的次数；所述代表实体是所述关键短语子集中第一频数最高的关键短语。

4.根据权利要求3所述的数据处理方法，其特征在于，所述基于语义相似度进行融合处理，包括：

5.根据权利要求3或4所述的数据处理方法，其特征在于，所述基于语义相似度进行融合处理，包括：

6.根据权利要求1所述的数据处理方法，其特征在于，所述用于描述所述指定职位的至少一种技能需求的数据包括：用于描述通用型技能需求的通用数据和用于描述专业型技能需求的专业数据；

所述通用数据和专业数据通过如下方式确定：

7.根据权利要求6所述的数据处理方法，其特征在于，所述通用候选集的获取方式包括：

8.一种数据处理装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1～7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现权利要求1～7任一项所述的方法。