CN107315807B

CN107315807B - 人才推荐方法和装置

Info

Publication number: CN107315807B
Application number: CN201710497014.2A
Authority: CN
Inventors: 李微; 王泽华; 吴志成; 张健; 徐衔; 郭晓茹
Original assignee: Sanluoxuan Big Data Technology Kunshan Co ltd
Current assignee: Sanluoxuan Big Data Technology Kunshan Co ltd
Priority date: 2017-06-26
Filing date: 2017-06-26
Publication date: 2020-08-04
Anticipated expiration: 2037-06-26
Also published as: CN107315807A

Abstract

本发明提供了一种人才推荐方法和装置；其中，该方法包括从预设的数据库中获取文本数据；其中，文本数据至少包括文章、论文和网页文本中的一种；根据文本数据的发布时间，对文本数据进行分类；采用分层狄利克雷过程的方式，对每个类型对应的文本数据进行主题提取处理；根据处理结果，获取当前时间段的热门主题；将热门主题对应的文本数据的作者作为人才进行推荐。本发明可以灵活准确地获取每个时间段内的主题以及当前的热门主题，避免了人为设置主题个数造成的提取出的主题冗余度大或主题遗漏的问题，进而提高了根据热门主题推荐人才的准确性和灵活性。

Description

人才推荐方法和装置

技术领域

本发明涉及数据检索技术领域，尤其是涉及一种人才推荐方法和装置。

背景技术

为了获取主题随着时间的演化规律，现有技术中通常通过如下三种方法：一是将时间信息结合到LDA模型，在LDA模型中引入时间因素，使得每个主题增添了一个时间属性，进而表达主题在不同时间的分布情况；二是首先使用LDA获取主题，再检索并量化主题在时间上的分布情况；三是先将文本离散到与之对应的时间窗上，再根据每个时间窗上的文本集合进行主题提取。

上述三种方法均属于简单主题演化，采用上述方法进行主题演化时，易造成不同时间窗主题个数固定的问题，进而导致根据热门主题进行人才推荐的方式灵活度和准确度较低。

针对上述人才推荐的方式灵活度和准确度较低的问题，尚未提出有效的解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种人才推荐方法和装置，以提高根据热门主题推荐人才的准确性和灵活性。

第一方面，本发明实施例提供了一种人才推荐方法，包括：从预设的数据库中获取文本数据；其中，文本数据至少包括文章、论文和网页文本中的一种；根据文本数据的发布时间，对文本数据进行分类；采用分层狄利克雷过程的方式，对每个类型对应的文本数据进行主题提取处理；根据处理结果，获取当前时间段的热门主题；将热门主题对应的文本数据的作者作为人才进行推荐。

结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，上述根据文本数据的发布时间，对文本数据进行分类的步骤，包括：提取文本数据的发布时间；将发布时间分别与预先设置的多个时间段进行匹配；根据匹配结果确定文本数据所属的时间段。

结合第一方面的第一种可能的实施方式，本发明实施例提供了第一方面的第二种可能的实施方式，其中，上述采用分层狄利克雷过程的方式，对每个类型对应的文本数据进行主题提取处理的步骤，包括：逐一获取每个时间段对应的文本数据；采用分层狄利克雷过程的方式，对每个时间段对应的文本数据进行主题提取处理，生成每个时间段对应的主题。

结合第一方面的第二种可能的实施方式，本发明实施例提供了第一方面的第三种可能的实施方式，其中，上述根据处理结果，获取当前时间段对应的热门主题的步骤，包括：计算各个时间段内主题的出现频率，生成主题的演变规律；其中，演变规律为主题的出现频率与各个时间段的对应关系；根据主题的演变规律，确定当前时间段对应的热门主题。

结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，上述将热门主题对应的文本数据的作者作为人才进行推荐的步骤，包括：获取热门主题对应的文本数据的作者；按照预设的排序条件，对作者进行排序；其中，预设的排序条件至少包括同一作者的文本数据的数量和文本数据的权重值中的一种；将排序结果满足预设阈值的作者作为人才进行推荐。

第二方面，本发明实施例提供了一种人才推荐装置，包括：数据获取模块，用于从预设的数据库中获取文本数据；其中，文本数据至少包括文章、论文和网页文本中的一种；分类模块，用于根据文本数据的发布时间，对文本数据进行分类；主题提取模块，用于采用分层狄利克雷过程的方式，对每个类型对应的文本数据进行主题提取处理；主题获取模块，用于根据处理结果，获取每个类型对应的热门主题；人才推荐模块，用于将热门主题对应的文本数据的作者作为人才进行推荐。

结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，上述分类模块，包括：时间提取单元，用于提取文本数据的发布时间；匹配单元，用于将发布时间分别与预先设置的多个时间段进行匹配；确定单元，用于根据匹配结果确定文本数据所属的时间段。

结合第二方面的第一种可能的实施方式，本发明实施例提供了第二方面的第二种可能的实施方式，其中，上述主题提取模块，包括：数据获取单元，用于逐一获取每个时间段对应的文本数据；主题提取单元，用于采用分层狄利克雷过程的方式，对每个时间段对应的文本数据进行主题提取处理，生成每个时间段对应的主题。

结合第二方面的第二种可能的实施方式，本发明实施例提供了第二方面的第三种可能的实施方式，其中，上述主题获取模块，包括：计算单元，用于计算各个时间段内主题的出现频率，生成主题的演变规律；其中，演变规律为主题的出现频率与各个时间段的对应关系；主题确定单元，用于根据主题的演变规律，确定当前时间段对应的热门主题。

结合第二方面，本发明实施例提供了第二方面的第四种可能的实施方式，其中，上述人才推荐模块，包括：作者获取单元，用于获取热门主题对应的文本数据的作者；排序单元，用于按照预设的排序条件，对作者进行排序；其中，预设的排序条件至少包括同一作者的文本数据的数量和文本数据的权重值中的一种；人才推荐单元，用于将排序结果满足预设阈值的作者作为人才进行推荐。

本发明实施例带来了以下有益效果：

本发明实施例提供的一种人才推荐方法和装置，根据文本数据的发布时间，对获取到的文本数据进行分类；再采用分层狄利克雷过程的方式，对每个类型对应的文本数据进行主题提取处理，并获取当前时间段的热门主题；进而将热门主题对应的文本数据的作者作为人才进行推荐。该方式可以灵活准确地获取每个时间段内的主题以及当前的热门主题，避免了人为设置主题个数造成的提取出的主题冗余度大或主题遗漏的问题，进而提高了根据热门主题推荐人才的准确性和灵活性。

本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的第一种人才推荐方法的流程图；

图2为本发明实施例提供的第二种人才推荐方法的流程图；

图3为本发明实施例提供的第三种人才推荐方法的流程图；

图4为本发明实施例提供的一种人才推荐装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到现有的人才推荐方式灵活度和准确度较低的问题，本发明实施例提供了一种人才推荐方法和装置；该技术可以应用于通过论文、文章及其他文本资料的数据库中获取当前热门主题的专家人才的场景中，尤其可以应用于通过主题演化模型的方式获取当前热门主题的专家人才的场景中。

为便于对本实施例进行理解，首先对本发明实施例所公开的一种人才推荐方法进行详细介绍。

实施例一：

参见图1所示的第一种人才推荐方法的流程图，该方法包括如下步骤：

步骤S102，从预设的数据库中获取文本数据；其中，该文本数据至少包括文章、论文和网页文本中的一种；

例如，上述数据库可以为涵盖有多个领域(包括工业、农业、医药等等)、多种文献形式(包括学位论文、会议论文、报纸期刊文献等)的综合数据库，也可以为单一领域，专一文献形式的专业型数据库。当使用专业型数据库进行处理时，可以获得当前领域内热门的主题，及其对应的人才。

步骤S104，根据文本数据的发布时间，对文本数据进行分类；

可以根据当前领域的发展程度，预先设置分类标准，也即设置分类的时间段；例如，可以根据文本数据的发布年份、季度或者月份，对文本数据进行分类；对于发展变化较快的领域，可以适当选择较短的时间段进行分类，对于发展变化较慢的领域，可以适当选择较长的时间段进行分类。

步骤S106，采用分层狄利克雷过程的方式，对每个类型对应的文本数据进行主题提取处理；

狄利克雷过程是一种应用于非参数贝叶斯模型中的随机过程，尤其可以作为先验分布应用在概率图模型中；与传统的参数模型相比，狄利克雷过程的应用更加广泛且模型更加灵活。狄利克雷过程可以实现一组数据的聚类和分析，当对于多组数据的聚类时，仅利用狄利克雷过程的混合模型难以实现建模分析。

另外，潜在狄利克雷过程(Latent Dirichlet Allocation，简称为LDA)也是一种贝叶斯模型，多应用于文本主题提取、推荐系统、音乐视频内容、新闻报纸数据的处理等领域中。

上述分层狄利克雷过程(Hierarchical Dirichlet Processes，简称为HDP)可以实现多文档之间共享无限多个聚类。与上述LDA相比，HDP模型不但能实现聚类和推断等功能，而且能够自动生成聚类数目，大大增强了算法的鲁棒性，同时，提取的主题个数更加灵活，准确，对不同文本数据的适应性更强。

步骤S108，根据处理结果，获取当前时间段的热门主题；

具体地，该处理结果可以为通过上述步骤S106获得的各个时间段对应的主题、主题分布以及相关参数；该步骤S108中，按照主题的演变过程，从上述结果中可以获得当前时间段的热门主题。

在实际实现时，通常采用前一时间段对应的主题、主题分布以及相关参数等作为后一时间段先验参数，对后一时间段对应的文本数据进行处理，直至最后的当前时间段的处理，进而获取当前时间段的热门主题。

步骤S110，将热门主题对应的文本数据的作者作为人才进行推荐。

在实际实现时，上述步骤S110中可以生成一个推荐人才的名单，也可以直接将推荐的人才推送至人才需求端，例如，企业、高校的通信终端等。

本发明实施例提供的一种人才推荐方法，根据文本数据的发布时间，对获取到的文本数据进行分类；再采用分层狄利克雷过程的方式，对每个类型对应的文本数据进行主题提取处理，并获取当前时间段的热门主题；进而将热门主题对应的文本数据的作者作为人才进行推荐。该方式可以灵活准确地获取每个时间段内的主题以及当前的热门主题，避免了人为设置主题个数造成的提取出的主题冗余度大或主题遗漏的问题，进而提高了根据热门主题推荐人才的准确性和灵活性。

实施例二：

参见图2所示的第二种人才推荐方法的流程图，该方法在实施例一中提供的人才推荐方法的基础上实现，该方法包括如下步骤：

步骤S202，从预设的数据库中获取文本数据；其中，该文本数据至少包括文章、论文和网页文本中的一种；

步骤S204，提取文本数据的发布时间；

步骤S206，将发布时间分别与预先设置的多个时间段进行匹配，根据匹配结果确定文本数据所属的时间段；

例如，如果以一年为时间段，并获取最近十年内，每年的主题时，上述多个时间段可以为2017年、2016年、…直至2008年共10个时间段；判断文本数据的发布时间所属的具体时间段；例如，发布时间为2016年6月22日所属的时间段为2016年。

步骤S208，逐一获取每个时间段对应的文本数据；

步骤S210，采用分层狄利克雷过程的方式，对每个时间段对应的文本数据进行主题提取处理，生成每个时间段对应的主题；

步骤S212，计算各个时间段内主题的出现频率，生成主题的演变规律；其中，演变规律为主题的出现频率与各个时间段的对应关系；

步骤S214，根据主题的演变规律，确定当前时间段对应的热门主题。

在实际实现时，可以采用迭代的形式，将前一时间段生成的相关参数，输入至后一时间段的处理过程中，以指导生成后一时间段的主题演变规律，直至生成最后的当前时间段对应的演变规律；通过该方式，可以根据历史时间段内的主题演变规律，获得更为准确的当前的热门主题，进而预测未来预设时间段的热门主题的演化规律。

步骤S216，获取热门主题对应的文本数据的作者；

步骤S218，按照预设的排序条件，对作者进行排序；其中，预设的排序条件至少包括同一作者的文本数据的数量和文本数据的权重值中的一种；

步骤S220，将排序结果满足预设阈值的作者作为人才进行推荐。

如果当前热门主题数量较多，或者热门主题对应的文本数据的作者的数量较多，则在进行人才推荐之前，需要进行筛选；具体可以设定多种排序条件，例如，当前热门主题下，同一作者的文本数据的数量，或者根据文本数据本身的重要程度设置的权重值等等，具体根据人才推荐的实际需求进行设置。

本发明实施例提供的一种人才推荐方法，采用分层狄利克雷过程的方式，生成每个时间段对应的主题，通过计算各个时间段内主题的出现频率，可以获得主题的演变规律，进而确定当前时间段对应的热门主题，并将满足预设条件的人才进行推荐。通过该方式，可以根据历史时间段内的主题演变规律，获得更为准确的当前的热门主题，进而预测未来预设时间段的热门主题的演化规律，进而提高了根据热门主题推荐人才的准确性和灵活性。

实施例三：

参见图3所示的第三种人才推荐方法的流程图，该方法在实施例一或二中提供的人才推荐方法的基础上实现；该方法通过使用HDP模型将传统的主题模型扩展成较为具体的主题层次，从而解决仅使用LDA中时间窗内主题数目固定的问题，该方法包括如下步骤：

步骤S302，将论文等学术文章按照时间段(也可以称为时间窗)进行分类；

步骤S304，采用HDP对每个时间段内的文章集合提取主题；

步骤S306，按照主题的演变过程获取当前时间段的热门主题；

步骤S308，从热门主题对应的文章作者中筛选人才进行推荐。

由上述步骤S302至步骤S308可知，该方法首先按照简单主题演化模型中的先离散时间后获取主题的方法，将学术文章离散到各个时间窗中；然后，对时间窗内的文章集合使用HDP模型进行主题的提取；该方式采用HDP提取各个时间窗内的主体，再根据主题演变过程找出当前最热门的技术主题，按照主题的热度进行专家推荐，以获取热门主题下的专家人才。

本发明实施例提供的人才推荐方法，使用HDP模型解决了时间段内主题数目固定的问题，可以帮助用户找出当前热门主题下的对应人才，使得根据热门主题的演变进行人才推荐的方式变得更加灵活、准确。

实施例四：

对应于上述方法实施例，参见图4所示的一种人才推荐装置的结构示意图，该装置包括：

数据获取模块40，用于从预设的数据库中获取文本数据；其中，文本数据至少包括文章、论文和网页文本中的一种；

分类模块41，用于根据文本数据的发布时间，对文本数据进行分类；

主题提取模块42，用于采用分层狄利克雷过程的方式，对每个类型对应的文本数据进行主题提取处理；

主题获取模块43，用于根据处理结果，获取每个类型对应的热门主题；

人才推荐模块44，用于将热门主题对应的文本数据的作者作为人才进行推荐。

进一步，上述分类模块，包括：时间提取单元，用于提取文本数据的发布时间；匹配单元，用于将发布时间分别与预先设置的多个时间段进行匹配；确定单元，用于根据匹配结果确定文本数据所属的时间段。

进一步，上述主题提取模块，包括：数据获取单元，用于逐一获取每个时间段对应的文本数据；主题提取单元，用于采用分层狄利克雷过程的方式，对每个时间段对应的文本数据进行主题提取处理，生成每个时间段对应的主题。

进一步，上述主题获取模块，包括：计算单元，用于计算各个时间段内主题的出现频率，生成主题的演变规律；其中，演变规律为主题的出现频率与各个时间段的对应关系；主题确定单元，用于根据主题的演变规律，确定当前时间段对应的热门主题。

进一步，上述人才推荐模块，包括：作者获取单元，用于获取热门主题对应的文本数据的作者；排序单元，用于按照预设的排序条件，对作者进行排序；其中，预设的排序条件至少包括同一作者的文本数据的数量和文本数据的权重值中的一种；人才推荐单元，用于将排序结果满足预设阈值的作者作为人才进行推荐。

本发明实施例提供的一种人才推荐装置，根据文本数据的发布时间，对获取到的文本数据进行分类；再采用分层狄利克雷过程的方式，对每个类型对应的文本数据进行主题提取处理，并获取当前时间段的热门主题；进而将热门主题对应的文本数据的作者作为人才进行推荐。该方式可以灵活准确地获取每个时间段内的主题以及当前的热门主题，避免了人为设置主题个数造成的提取出的主题冗余度大或主题遗漏的问题，进而提高了根据热门主题推荐人才的准确性和灵活性。

本发明实施例所提供的人才推荐方法和装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种人才推荐方法，其特征在于，包括：

从预设的数据库中获取文本数据；其中，所述文本数据至少包括文章、论文和网页文本中的一种；

根据所述文本数据的发布时间，对所述文本数据进行分类；

采用分层狄利克雷过程的方式，对每个类型对应的所述文本数据进行主题提取处理；

根据处理结果，获取当前时间段的热门主题；

将所述热门主题对应的所述文本数据的作者作为人才进行推荐；

所述根据所述文本数据的发布时间，对所述文本数据进行分类的步骤，包括：

提取所述文本数据的发布时间；

将所述发布时间分别与预先设置的多个时间段进行匹配；

根据匹配结果确定所述文本数据所属的时间段；

所述采用分层狄利克雷过程的方式，对每个类型对应的所述文本数据进行主题提取处理的步骤，包括：

逐一获取每个时间段对应的所述文本数据；

采用分层狄利克雷过程的方式，对每个时间段对应的所述文本数据进行主题提取处理，生成每个时间段对应的主题；

所述根据处理结果，获取当前时间段对应的热门主题的步骤，包括：

计算各个时间段内所述主题的出现频率，生成所述主题的演变规律；其中，所述演变规律为所述主题的出现频率与各个时间段的对应关系；

根据所述主题的所述演变规律，确定当前时间段对应的热门主题。

2.根据权利要求1所述的方法，其特征在于，所述将所述热门主题对应的所述文本数据的作者作为人才进行推荐的步骤，包括：

获取所述热门主题对应的所述文本数据的作者；

按照预设的排序条件，对所述作者进行排序；其中，预设的排序条件至少包括同一作者的所述文本数据的数量和所述文本数据的权重值中的一种；

将排序结果满足预设阈值的所述作者作为人才进行推荐。

3.一种人才推荐装置，其特征在于，包括：

数据获取模块，用于从预设的数据库中获取文本数据；其中，所述文本数据至少包括文章、论文和网页文本中的一种；

分类模块，用于根据所述文本数据的发布时间，对所述文本数据进行分类；

主题提取模块，用于采用分层狄利克雷过程的方式，对每个类型对应的所述文本数据进行主题提取处理；

主题获取模块，用于根据处理结果，获取每个类型对应的热门主题；

人才推荐模块，用于将所述热门主题对应的所述文本数据的作者作为人才进行推荐；

所述分类模块，包括：

时间提取单元，用于提取所述文本数据的发布时间；

匹配单元，用于将所述发布时间分别与预先设置的多个时间段进行匹配；

确定单元，用于根据匹配结果确定所述文本数据所属的时间段；

所述主题提取模块，包括：

数据获取单元，用于逐一获取每个时间段对应的所述文本数据；

主题提取单元，用于采用分层狄利克雷过程的方式，对每个时间段对应的所述文本数据进行主题提取处理，生成每个时间段对应的主题；

所述主题获取模块，包括：

计算单元，用于计算各个时间段内所述主题的出现频率，生成所述主题的演变规律；其中，所述演变规律为所述主题的出现频率与各个时间段的对应关系；

主题确定单元，用于根据所述主题的所述演变规律，确定当前时间段对应的热门主题。

4.根据权利要求3所述的装置，其特征在于，所述人才推荐模块，包括：

作者获取单元，用于获取所述热门主题对应的所述文本数据的作者；

排序单元，用于按照预设的排序条件，对所述作者进行排序；其中，预设的排序条件至少包括同一作者的所述文本数据的数量和所述文本数据的权重值中的一种；

人才推荐单元，用于将排序结果满足预设阈值的所述作者作为人才进行推荐。