CN112100999A

CN112100999A - 一种简历文本相似度匹配方法和系统

Info

Publication number: CN112100999A
Application number: CN202010954398.8A
Authority: CN
Inventors: 吴晓军
Original assignee: Hebei Jilian Human Resources Service Group Co ltd
Current assignee: Hebei Jilian Human Resources Service Group Co ltd
Priority date: 2020-09-11
Filing date: 2020-09-11
Publication date: 2020-12-18
Anticipated expiration: 2040-09-11
Also published as: CN112100999B

Abstract

本公开提供了一种简历文本相似度匹配方法，用于向招聘职位推荐简历，所述方法包括：获取招聘职位的第一文本和多个简历的第二文本；解析所述第一文本，从所述第一文本提取到数值文本、短文本和自由文本；解析所述多个第二文本，从每个第二文本提取到数值文本、短文本和自由文本；计算第一文本与第二文本的第一相似度、第二相似度和第三相似度；计算所述第一相似度、第二相似度以及第三相似度的加权和；以及将所述加权和按照降序排序，选取排序靠前的第二文本作为推荐简历。本公开还提供了一种简历文本相似度匹配的系统。

Description

一种简历文本相似度匹配方法和系统

技术领域

本公开涉及信息技术领域，特别涉及一种处理文本信息的方法、系统、电子设备及计算机可读存储介质。

背景技术

在现有的提供互联网招聘服务的网站中，常规的方法是由招聘方发布需要招聘的职位，对该职位感兴趣的求职者向该职位投递简历。也有一些招聘网站，会自动匹配求职者与职位的相关性，向相关性高的求职者推送职位，提高招聘的效果。

但是，常见的简历职位匹配算法通常是直接计算简历文本和职位文本之间的语义相似度，根据语义相似度对求职者简历或招聘方职位进行排序。传统的简历和职位语义相似度计算，主要通过TF-IDF等特征提取算法来提取简历和招聘文件的字词特征，然后用字词特征的语义表示计算简历和职位相似度。然而，这种方式不能很好地提取到简历和招聘职位的整体语义表示，匹配的准确度不高。此外，这种匹配也仅仅利用了简历和职位文本的字词信息，没有本体知识信息，同样导致匹配不精准。

因此，急需一种简历职位匹配算法，其能够全面的，综合各种信息，实现高效精确的简历和职位匹配和推荐。

发明内容

有鉴于此，本公开实施例的目的在于提供一种处理文本信息的方法,通过综合文本的字词语义表示、本体领域知识，结合深度学习算法，实现高效精确的简历和职位匹配。

根据本公开的第一方面，提供了一种处理文本信息的方法，用于向招聘职位推荐简历，所述方法包括：

获取招聘职位的第一文本和多个简历的第二文本；

解析所述第一文本，从所述第一文本提取数值文本、短文本和自由文本，其中，所述第一文本的数值文本至少包括工作时间、薪资范围，短文本至少包括工作地点、最低学历、职位类别、职位名称，自由文本包括职位描述和职位要求；

解析多个所述第二文本，从每个第二文本提取数值文本、短文本和自由文本，其中，所述第二文本的数值文本包括至少工作时间、期望薪资，短文本至少包括期望工作地点、期望职位类别、期望职位、学历、学校、专业，自由文本至少包括工作经历、项目经历；

计算所述第一文本的数值文本与所述第二文本的数值文本之间的相似度，得到第一相似度，其中，计算所述第一相似度的方法包括，分别将所述第一文本和第二文本的数值文本中的数值映射到预设区间，如果两者属于同一区间，则相似度为1，如果两者属于相邻区间，则相似度为0.5，其他情况，相似度为0；

分别计算所述第一文本的短文本与所述第二文本的短文本之间的相似度，得到第二相似度，其中，计算所述第二相似度的方法包括，基于预先设定的知识图谱规则，为符合规则的短文本之间的相似度赋予规则设定的值；

分别计算所述第一文本的自由文本与所述第二文本的自由文本之间的相似度，得到第三相似度，其中，计算所述第三相似度的方法包括，将所述第一文本的自由文本和第二文本的自由文本通过预先训练好的基于主题的相似度模型；

计算所述第一相似度、第二相似度以及第三相似度的加权和；以及

将所述加权和按照降序排序，选取排序靠前的第二文本作为推荐简历。

在一个可能的实施例中，其中，所述知识图谱规则至少包括：学历知识、中国地理知识、工作性质知识、职位名称知识、高校知识、专业体系知识。

在一个可能的实施例中，所述计算加权和的公式为：

其中，R代表简历，J代表招聘职位，Sim表示相似度，∑_i c_i*Sim(k_i，l_i) 表示计算短文本的每一项之间的相似度，并加权求和，∑_j c_j*Sim(m_j，n_j) 表示计算数值文本的每一项之间的相似度，并加权求和，λ*Sim(p，q)是计算自由文本之间的相似度，k_i表示简历中的短文本第i个属性，l_i表示职位中的短文本第i个属性，c_i是短文本的加权系数，m_j表示简历中的数值文本第j个属性，n_j表示职位中的数值文本的第j个属性，c_j是数值文本的加权系数，p是简历的自由文本，q是职位的自由文本，λ 是自由文本的加权系数。

在一个可能的实施例中，所述高校知识包括：判断第二文本和第一文本的学校是否是985、211、一本、二本、其他大学、非大学，分别赋值为1、0.8、0.6、0.4、0.2、0，得到学校分数，如果第二文本的学校分数与第一文本的学校分数之差的绝对值小于预设阈值，则相似度为1，否则为0。

在一个可能的实施例中，所述中国地理知识包括：将中国地理知识按照省、地级市、县划分为树形结构，分为三个层级；如果第一文本与第二文本的工作地点对应的第一层级不同，则相似度为0；如果第一层级相同且第二层级不同，则相似度为0.3；如果第一层级和第二层级相同，且第三级不同，则相似度为0.7；如果第一层级到第三层级全部相同，则相似度为1。

在一个可能的实施例中，所述计算所述第三相似度的方法包括：

计算所述第一文本的自由文本与所述相似度模型的多个主题的第一相关向量；

计算所述第二文本的自由文本与所述相似度模型的多个主题的第二相关向量；

计算所述第一相关向量和所述第二相关向量的相似度，作为所述第三相似度。

在一个可能的实施例中，所述计算所述第一相关向量和所述第二相关向量的相似度，作为所述第三相似度包括：

计算第一相关向量与第二相关向量之间的余弦距离。

根据本公开的第二方面，提供了一种处理文本信息的系统，用于向招聘职位推荐简历，包括：

文本获取单元，获取招聘职位的第一文本和多个简历的第二文本；

第一文本解析单元，用于解析所述第一文本，从所述第一文本提取数值文本、短文本和自由文本，其中，所述第一文本的数值文本至少包括工作时间、薪资范围，短文本至少包括工作地点、最低学历、职位类别、职位名称，自由文本包括职位描述和职位要求；

第二文本解析单元，用于解析多个所述第二文本，从每个第二文本提取数值文本、短文本和自由文本，其中，所述第二文本的数值文本包括至少工作时间、期望薪资，短文本至少包括期望工作地点、期望职位类别、期望职位、学历、学校、专业，自由文本至少包括工作经历、项目经历；

第一相似度计算单元，用于计算所述第一文本的数值文本与所述第二文本的数值文本之间的相似度，得到第一相似度，其中，计算所述第一相似度的方法包括，分别将所述第一文本和第二文本的数值文本中的数值映射到预设区间，如果两者属于同一区间，则相似度为1，如果两者属于相邻区间，则相似度为0.5，其他情况，相似度为0；

第二相似度计算单元，用于分别计算所述第一文本的短文本与所述第二文本的短文本之间的相似度，得到第二相似度，其中，计算所述第二相似度的方法包括，基于预先设定的知识图谱规则，为符合规则的短文本之间的相似度赋予规则设定的值；

第三相似度计算单元，用于分别计算所述第一文本的自由文本与所述第二文本的自由文本之间的相似度，得到第三相似度，其中，计算所述第三相似度的方法包括，将所述第一文本的自由文本和第二文本的自由文本通过预先训练好的基于主题的相似度模型；

加权和单元，用于计算所述第一相似度、第二相似度以及第三相似度的加权和；

目标文本单元，用于将所述加权和按照降序排序，选取排序靠前的第二文本作为推荐简历。

根据本公开的第三方面，提供一种电子设备，包括：存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的方法。

根据本公开的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，该指令被处理器执行时使处理器执行如第一方面所述的方法。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了根据本公开实施例的典型的处理文本信息的方法的示意图。

图2示出了根据本公开实施例的典型的待处理的第一文本的示意图。

图3示出了根据本公开实施例的典型的待处理的第二文本的示意图。

图4示出了根据本公开实施例的典型的计算第三相似度的方法的示意图。

图5示出了根据本公开实施例的典型的处理文本信息的系统的示意图。

图6示出了用于实现本公开实施例的电子设备的结构示意图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思，除非上下文另外明确指出。此外，在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

随着技术的发展，人们在手机端、电脑端通过互联网找工作，招聘方在互联网上发布职位需求，变得越来越普遍。招聘网站虽然越来越多，但形式主要还是招聘方发布职位，求职者看到后投递该职位，虽然载体转到了互联网上，但核心本质并没有不同。现有技术中，常见的简历职位匹配算法通常是直接计算简历文本和职位文本之间的语义相似度，根据语义相似度对求职者简历或招聘方职位进行排序。传统的简历和职位语义相似度计算，主要通过TF-I DF等特征提取算法来提取简历和招聘文件的字词特征，然后用字词特征的语义表示计算简历和职位相似度。然而，这种方式不能很好地提取到简历和招聘职位的整体语义表示，匹配的准确度不高。此外，这种匹配也仅仅利用了简历和职位文本的字词信息，没有本体知识信息，同样导致匹配不精准。

有鉴于此，本公开提出了一种简历职位匹配算法，其能够综合文本的字词语义表示、本体领域知识，结合深度学习算法，实现了高效精确的简历和职位匹配和推荐。

以下结合附图详细描述本公开。

图2示出了根据本公开实施例的典型的待处理的第一文本的示意图。第一文本，即招聘方发布的职位。常规的招聘方发布的职位，一般包含职位名称、职位描述、公司、行业等。其中职位描述会具体说明岗位职责、岗位要求等内容。

图3示出了根据本公开实施例的典型的待处理的第二文本的示意图。第二文本，即求职者的简历。常规的求职者简历，包括教育背景、工作履历、技能、期望职位、期望薪资等。

本公开使用从各大招聘网站爬取的招聘职位文本约10万条，收集某社交网络提供的脱密简历文本数据约10万条，对职位文本和简历文本，发现了如下规律，并按照这些规律，将不同文本中不同属性模块划分为：

规则文本包括：简历中的期望工作地点、工作时间、职位类别、职位名称、学历、学校、专业、期望薪资等；职位中的工作地点、工作时间、学历要求、职位类别、职位名称、薪资等。

自由文本包括：求职者的工作经历、项目经历、职位中的职位描述和要求。

其中，规则文本又包括：1)简历中的工作时间、期望薪资、招聘中的工作时间、薪资属性值为数值，因此将这些属性模块统称为数值文本。简历中的期望工作地点、期望职位类别、期望职位、学历、学校、专业。2)招聘职位中的工作地点、工作时间、最低学历、职位类别、职位名称，这些模块属性值为文本，且文本字符短、信息量少。因此统称这些属性模块为短文本。

通过步骤101获取如图2所示的第一文本，通过步骤102获取如图3 所示的第二文本。

通过步骤103，解析所述第一文本，从所述第一文本提取数值文本、短文本和自由文本，其中，所述第一文本的数值文本至少包括工作时间、薪资范围，短文本至少包括工作地点、最低学历、职位类别、职位名称，自由文本包括职位描述和职位要求。

通过步骤104，解析多个所述第二文本，从每个第二文本提取数值文本、短文本和自由文本，其中，所述第二文本的数值文本包括至少工作时间、期望薪资，短文本至少包括期望工作地点、期望职位类别、期望职位、学历、学校、专业，自由文本至少包括工作经历、项目经历。

在步骤103和步骤104中，提取的方法可以是通常的自然语言处理技术，例如，将自由文本、短文本和数值文本的名称建立词典，再根据词典进行分词等技术，或其他技术手段，本公开不做限制。

步骤105、步骤106和步骤107是三个并行的步骤。

在步骤105中，计算所述第一文本的数值文本与所述第二文本的数值文本之间的相似度，得到第一相似度，其中，计算所述第一相似度的方法包括，分别将所述第一文本和第二文本的数值文本中的数值映射到预设区间，如果两者属于同一区间，则相似度为1，如果两者属于相邻区间，则相似度为0.5，其他情况，相似度为0。

例如，将薪资的数值区间分块为：10000以下、10000-12000、 12000-14000、14000-16000，作为预设区间。

第一文本中的薪资，其数值为10000，其中一个第二文本中的期望的薪资为15000，则第一文本的薪资与第二文本的期望薪资之间属于其他情况，则相似度为0.另一个第二文本的期望的薪资11000，则属于同一区间，则相似度为1。另一个第二文本的期望的薪资13000，则属于相邻区间，则相似度为0.5。类似的，例如薪资，工作时间、上班距离等这样的数值文本类型，可以按照上述方法，计算得到对应属性的第一相似度。

在步骤106中，本公开使用基于知识图谱的方法计算第二相似度。

基于预先设定的知识图谱规则，为符合规则的短文本之间的相似度赋予规则设定的值，得到第二相似度。以下详细说明预先设定的规则。

第一文本的短文本可以包括：工作地点、工作性质、职位名称、学历要求、学校要求、专业要求。

第二文本的短文本可以包括：期望工作地点、工作性质、期望职位名称、学历、学校、专业。

本公开使用的知识图谱包括：学历知识、中国地理知识、工作性质知识、职位名称知识、高校知识、专业体系知识。

以下使用工作地点为例进行详细说明。

中国地理知识按照树形划分。如下：

第一级：华北、华东、华中、东北、西北、华南、西南；

华北包括：北京、天津、河北、内蒙古、山西；

华东包括：江苏、浙江、上海、江西、安徽、山东、福建、台湾；

华南包括：广东、香港、澳门、海南、广西；

华中包括：湖南、湖北、河南；

东北包括：黑龙江、吉林、辽宁；

西北包括：新疆、青海、甘肃、陕西、宁夏；

西南包括：贵州、四川、重庆、云南、西藏；

第二级：各省的市；

第三级：各市的区县。

如果第一文本与第二文本的工作地点对应的第一层级不同，则相似度为0，如果第一层级相同且第二层级不同，则相似度为0.3，如果第一层级和第二层级相同，且第三级不同，则相似度为0.7，如果第一层级到第三层级全部相同，则相似度为1。

同样的，对于工作性质来说，仅当第二文本和第一文本的工作性质相同时，相似度为1，否则都为0。需要注意是，如果简历和职位没有填写工作性质，则默认为全职。

同样的，对于职位名称来说，可以使用以下方法进行计算：

第一级行业：化工、金融、建筑、计算机、旅游、医药卫生、农业等等。

第二级行业：计算机行业为例，运维/技术支持、软件/互联网开发、产品/运营管理、硬件开发、质量管理/测试、通信技术开发、IT 管理/项目协调，其他一级行业不再一一列出。

使用第二文本的职位名称和第一文本的职位名称进行匹配，也可以结合招聘公司所在行业，判断第一级行业分类，如果第一级都不同 (第二级也必然不同)，则相似度为0，如果第一级相同第二级不同，相似度为0.5，如果第一级第二级都相同，则相似度为1。

还可以提供三级职位名称。以软件互联网开发为例，包括java，数据库、深度学习等。类似的，如果第一级不同，相似度为0，第一级相同，第二级以后都不同，则相似度为0.3，第一级和第二级相同，但第三级不同，相似度为0.7，第一级到第三级全部相同，则相似度为1。

同样的，对于高校，根据中国高校知识体系，判断简历和职位的学校是否是985、211、一本、二本、其他大学、非大学。分别赋值为 1、0.8、0.6、0.4、0.2、0。如果第二文本的学校分数与第一文本的学校分数之差的绝对值小于预设阈值，认为简历和职位更匹配，相似度为1，否则为0。需要注意的是，第一文本中没有要求的，则相似度默认为0。例如，第一文本的学校分数是1，第二文本的学校也是1，阈值是0.2，则第二文本的学校分数与第一文本的学校分数之差的绝对值为0，小于预设阈值0.2，所以，此时对于高校这个属性来说，第二相似度为1。

对于学历，学历体系分为：博士、硕士、本科、专科、其他。如果简历的学历分数与职位的要求学校分数之差的绝对值小于预设阈值，认为简历和职位更匹配，相似度为1，否则为0。需要注意的是，第一文本中没有要求的，则相似度默认为0。

对于专业，参考高校专业分类体系计算相似度。

第一级行业：数学、物理、化学、建筑、计算机、自动化、通信、哲学、经济学、法学等。

第二级行业：以计算机为例：计算机科学与技术、软件工程、网络工程、信息安全、人工智能等等，其他一级行业不再一一列出。

使用第二文本的专业名称和第一文本的要求专业名称，也可以结合招聘公司所在行业，判断第一级行业分类，进行匹配，如果第一级都不同，则相似度为0，如果第一级相同且第二级不同，相似度为0.5，如果第一级第二级都相同，则相似度为1。

对于上述的几种知识图谱中的各个分类体系，是建议性的、示例性的介绍，目的是说明本公开的构思，可以根据实际情况，优化、修改成符合需要的分类体系，形成知识图谱，从而计算第二相似度，本公开对此不作限制。

至此，可以根据计算得到第一文本和第二文本之间的多个短文本的相似度。

通过步骤107，分别计算所述第一文本的自由文本与所述第二文本的自由文本之间的相似度，得到第三相似度，其中，计算所述第三相似度的方法包括，将所述第一文本的自由文本和第二文本的自由文本通过预先训练好的基于主题的相似度模型，得到第三相似度。

具体的计算方法包括：

步骤401：按照现有的词典，对所述第一文本和第二文本中的词语进行分词，包括断句、分词、去除停用词。

步骤402：对得到的分词词语，提取二阶表达和三阶表达，计算每个二阶表达的互信息值和每个三阶表达的互信息值，并基于互信息值，对所述二阶表达和所述三阶表达进行降序排列，选择排序靠前的二阶表达和三阶表达对所述分词词语进行降序排列，选择排序靠前的多个分词，得到第一分词结果。

一阶表达，也就是每个单词。二阶表达，例如，算法工程师，这种接续方式，将算法与工程师连接起来。三阶表达：即将自然、语言、处理连接起来，得到自然语言处理。

计算互信息值的公式如下示出：

互信息值体现了两个变量之间的相互依赖程度。二元互信息是指两个事件相关性的量，互信息值越高,表明X和Y相关性越高,则X和Y组成短语的可能性越大；反之,互信息值越低,X和Y之间相关性越低,则X 和Y之间存在短语边界的可能性越大。公式中的X和Y指的是两个相邻的单词，P值是它的出现概率。

例如在一个文本中，“算法工程师”是算法与工程师连接形成的二阶表达，一共出现了3次，而二阶表达一共有252个，所以上式的P(X,Y)＝3/252。同理可以求出P(X)P(Y)。

步骤403：对第一分词结果中的多个词语，分别计算其左、右邻字的信息熵，并基于所述信息熵，对符合第一阈值范围的词语进行合并，对符合第二阈值范围的词语进行拆分，得到第二分词结果，将其加入现有的词典，作为新词词典；第二阈值范围可以根据实际情况自行设置。

计算一个词的左、右邻字的信息熵的目的是，用信息熵来衡量一个文本片段的左邻字集合和右邻字集合有多随机，即利用信息熵，设置合理的阈值，对在阈值范围的分词予以保留，说明这些词是固定词组的可能性较大，否则，左、右邻字是随机在一起的可能性较大，可以不予保留。

步骤404：按照新词词典对所述本地职位信息中的词语进行分词，得到第二分词词语。

步骤405：使用TF-IDF方法，对第二分词词语进行过滤，保留符合第三阈值范围的词语，得到第三分词词语；第三阈值范围可以根据实际情况自行设置。

对第二分词词语进行过滤的原因是，尽管有了新词词典，分词还是会分出一大堆乱七八糟的词。例如，H5 vue、前端、页面、五险一金、团建、员工福利、成长、职责、技能、学习、优先、经验、了解。前面4个词是关键词，后面十几个词价值太低了，应该删除。所以使用用TF-IDF方法，设置合理的第三阈值范围，可以过滤掉在职位描述中的通用词，例如，优先，经验，精通，了解等。

步骤406：可以根据从多个招聘网站爬取的原始分类词语，统计其出现在每一个第二文本的中的概率，保留符合第四阈值范围的词语，得到第四分词词语。例如，从爬取的多个招聘网站中获得的职位信息的原始分类词语有职责、技能、成长。经过统计发现这些词出现在第二文本中的概率是99％，则删去这写词，因为这些词几乎出现在了所有的简历和职位中，几乎没有信息含量。这样做进一步加强过滤了步骤 305遗漏的应该过滤的内容。

步骤407：将第四分词词语转化为词向量，对所述词向量进行聚类，得到多个词簇，作为生成的主题。可以使用word2vec或其他方法将第四分词词语转化为词向量，kmeans聚类方法或其他聚类方法将所述词向量进行聚类。

步骤408：计算第一文本与生成的主题的第一相关向量。

步骤409：计算第二文本与生成的主题的第二相关向量。

其中，计算第一相关向量和第二相关向量的方法都是分别将第一文本和第二文本通过基于主题的LDA机器学习模型进行计算。其中，训练机器学习模型的数据可以由多个第二文本的第三分词词语与所述现有的词典的交集得到，也可以由其他方法得到，本公开不做限制。

例如，对于前端工程师这个职位，在第一文本中，提取的第四分词词语为：H5、html、css、vue、node、js、页面、美观。

聚类之后，生成的主题分别为主题1、主题2、主题3、主题4，则通过基于主题的LDA机器学习模型，计算得到：

P(属于主题1)＝0.1；

P(属于主题2)＝0.3；

P(属于主题3)＝0.2；

P(属于主题4)＝0.8；

P为概率。

则第一相关向量为：v1＝[0.1,0.3,0.2,0.8]。

同理，对于一个第二文本，计算得到第二相关向量，例如v2＝[0.2, 0.3,0.2,0.7]。

步骤410：由于两个文本的匹配程度可以用向量的距离来表示，所以通过计算第一相关向量与第二相关向量之间的余弦距离或欧几里德距离或曼哈顿距离，可以反应职位与简历之间的匹配程度，得到第三相似度。

通过步骤108，可以计算所述第一相似度、第二相似度以及第三相似度的加权和。所述计算加权和的公式为：

其中，R代表简历，J代表招聘职位，Sim表示相似度， ∑_i c_i*Sim(k_i，l_i)表示计算短文本的每一项之间的相似度，并加权求和， ∑_j c_j*Sim(m_j，n_j)表示计算数值文本的每一项之间的相似度，并加权求和，λ*Sim(p，q)是计算自由文本之间的相似度，k_i表示简历中的短文本第i个属性，l_i表示职位中的短文本第i个属性，c_i是短文本的加权系数，m_j表示简历中的数值文本第j个属性，n_j表示职位中的数值文本的第j个属性，c_j是数值文本的加权系数，p是简历的自由文本，q是职位的自由文本，λ是自由文本的加权系数。

步骤109中，将所述加权和按照降序排序，选取排序靠前的第二文本作为推荐简历。

图5示出了根据本公开实施例的典型的处理文本信息的系统的示意图。该系统500用于向招聘职位推荐简历，包括：

文本获取单元501，获取招聘职位的第一文本和多个简历的第二文本；

第一文本解析单元502，用于解析所述第一文本，从所述第一文本提取数值文本、短文本和自由文本，其中，所述第一文本的数值文本至少包括工作时间、薪资范围，短文本至少包括工作地点、最低学历、职位类别、职位名称，自由文本包括职位描述和职位要求；

第二文本解析单元503，用于解析多个所述第二文本，从每个第二文本提取数值文本、短文本和自由文本，其中，所述第二文本的数值文本包括至少工作时间、期望薪资，短文本至少包括期望工作地点、期望职位类别、期望职位、学历、学校、专业，自由文本至少包括工作经历、项目经历；

第一相似度计算单元504，用于计算所述第一文本的数值文本与所述第二文本的数值文本之间的相似度，得到第一相似度，其中，计算所述第一相似度的方法包括，分别将所述第一文本和第二文本的数值文本中的数值映射到预设区间，如果两者属于同一区间，则相似度为1，如果两者属于相邻区间，则相似度为0.5，其他情况，相似度为0；

第二相似度计算单元505，用于分别计算所述第一文本的短文本与所述第二文本的短文本之间的相似度，得到第二相似度，其中，计算所述第二相似度的方法包括，基于预先设定的知识图谱规则，为符合规则的短文本之间的相似度赋予规则设定的值；

第三相似度计算单元506，用于分别计算所述第一文本的自由文本与所述第二文本的自由文本之间的相似度，得到第三相似度，其中，计算所述第三相似度的方法包括，将所述第一文本的自由文本和第二文本的自由文本通过预先训练好的基于主题的相似度模型；

加权和单元507，用于计算所述第一相似度、第二相似度以及第三相似度的加权和；

目标文本单元508，用于将所述加权和按照降序排序，选取排序靠前的第二文本作为推荐简历。

图6示出了用于实现本公开的实施例的电子设备的结构示意图。如图6所示，电子设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。 CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出 (I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，包括承载指令的在计算机可读介质，在这样的实施例中，该指令可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该指令被中央处理单元(CPU)601执行时，执行本公开中描述的各个方法步骤。

尽管已经描述了示例实施例，但是对于本领域技术人员来说显而易见的是，在不脱离本公开构思的精神和范围的情况下，可以进行各种改变和修改。因此，应当理解，上述示例实施例不是限制性的，而是说明性的。

Claims

1.一种处理文本信息的方法，用于向招聘职位推荐简历，所述方法包括：

获取招聘职位的第一文本和多个简历的第二文本；

2.如权利要求1所述的方法，其中，所述知识图谱规则至少包括：学历知识、中国地理知识、工作性质知识、职位名称知识、高校知识、专业体系知识。

3.如权利要求1所述的方法，所述计算加权和的公式为：

其中，R代表简历，J代表招聘职位，Sim表示相似度，∑_ic_i*Sim(k_i，l_i)表示计算短文本的每一项之间的相似度，并加权求和，∑_jc_j*Sin(m_j，n_j)表示计算数值文本的每一项之间的相似度，并加权求和，λ*Sim(p，q)是计算自由文本之间的相似度，k_i表示简历中的短文本第i个属性，l_i表示职位中的短文本第i个属性，c_i是短文本的加权系数，m_j表示简历中的数值文本第j个属性，n_j表示职位中的数值文本的第j个属性，c_j是数值文本的加权系数，p是简历的自由文本，q是职位的自由文本，λ是自由文本的加权系数。

4.如权利要求2所述的方法，所述高校知识包括：判断第二文本和第一文本的学校是否是985、211、一本、二本、其他大学、非大学，分别赋值为1、0.8、0.6、0.4、0.2、0，得到学校分数,如果第二文本的学校分数与第一文本的学校分数之差的绝对值小于预设阈值，则相似度为1，否则为0。

5.如权利要求2所述的方法，所述中国地理知识包括：将中国地理知识按照省、地级市、县划分为树形结构，分为三个层级，如果第一文本与第二文本的工作地点对应的第一层级不同，则相似度为0，如果第一层级相同且第二层级不同，则相似度为0.3，如果第一层级和第二层级相同，且第三级不同，则相似度为0.7，如果第一层级到第三层级全部相同，则相似度为1。

6.如权利要求1所述的方法，所述计算所述第三相似度的方法包括：

7.如权利要求6所述的方法，所述计算所述第一相关向量和所述第二相关向量的相似度，作为所述第三相似度包括：

计算第一相关向量与第二相关向量之间的余弦距离。

8.一种处理文本信息的系统，用于向招聘职位推荐简历，包括：

文本获取单元，用于获取招聘职位的第一文本和多个简历的第二文本；

9.一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器执行如权利要求1至7任一项所述方法。

10.一种计算机可读存储介质，其上存储有可执行指令，所述可执行指令被处理器执行时使处理器执行如权利要求1至7任一项所述方法。