CN110377560B

CN110377560B - 一种简历信息的结构化方法及装置

Info

Publication number: CN110377560B
Application number: CN201910650930.4A
Authority: CN
Inventors: 李德彦; 刘大双; 晋耀红
Original assignee: Dingfu Intelligent Technology Co Ltd
Current assignee: Dingfu Intelligent Technology Co Ltd
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-11-26
Anticipated expiration: 2039-07-18
Also published as: CN110377560A

Abstract

本申请提供了一种简历信息的结构化方法及装置，其中，所述方法包括：转化待结构化简历的文件格式为标准文件格式，得到处理后简历；解析所述处理后简历，获得所述处理后简历中的前置信息；结合所述前置信息与提取项目名称，确定处理后简历中的待提取内容；按照预设技术关键词词表，抽取所述待提取内容中对应的关键词；根据各关键词，生成结构化简历。本申请所提供的表格式简历的结构化方法及装置，能够有效解决现有简历结构化方法所提取的信息不准确的问题，通过本申请的方法所获的结构化简历能够更加便于招聘人员审阅以及简历信息管理平台的管理工作。

Description

一种简历信息的结构化方法及装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种简历信息的结构化方法及装置。

背景技术

简历信息是招聘公司判定求职者是否符合职位要求的重要依据。招聘人员会通过接收邮件、登录招聘网站等方式浏览大量的简历信息，而这些简历信息往往是采用不同的表格模板制作的，因此，简历信息的格式具有一定的多样性，令招聘人员难以以统一的标准进行查找和审阅。

为了解决上述问题，简历管理平台会选择将简历信息结构化，进而得到具有统一格式的简历信息，以便网站管理和招聘人员审阅。具体地，首先，简历管理平台会指定几个关键词，例如公司名称、薪资范围、工作地点，自我评价等；然后，从各个简历信息中提取与这些关键词对应的内容，并将其整理为预设的顺序，进行重新发布。这样，各种各样的简历信息就具有了统一的格式。

但是，简历信息仅具有统一的格式，也不能满足招聘人员的审阅需要。简历信息中通常包括可结构化信息，例如姓名、薪资要求、工作地点等，这些信息比较简短和简单，便于审阅；同时，简历信息中还包括非结构化信息，例如自我评价等，这些信息不仅篇幅较长，句式结构和语义更加复杂，难以通过简单地整理和分析，提取出其中所包含的关键信息。因此，极易遗漏简历信息中包含的关键信息，令结构化后的简历信息不准确。

发明内容

本申请提供了一种简历信息的结构化方法及装置，以解决现有简历结构化方法提取信息不准确的问题。

第一方面，本申请实施例提供了一种简历信息的结构化方法，包括：

转化待结构化简历的文件格式为标准文件格式，得到处理后简历，所述待结构化简历为表格式简历，所述标准文件格式为符合代码操作标准的格式；

解析所述处理后简历，获得所述处理后简历中的前置信息，所述前置信息为代表处理后简历中内容按照属性分类的信息；

结合所述前置信息与提取项目名称，确定处理后简历中的待提取内容；

按照预设技术关键词词表，抽取所述待提取内容中对应的关键词；

根据各所述关键词，生成结构化简历。

第二方面，本申请实施例提供了一种简历信息的结构化装置，包括：

格式转化单元，用于转化待结构化简历的文件格式为标准文件格式，得到处理后简历，所述待结构化简历为表格式简历，所述标准文件格式为符合代码操作标准的格式；

文件解析单元，用于解析所述处理后简历，获得所述处理后简历中的前置信息，所述前置信息为代表处理后简历中内容按照属性分类的信息；

待提取内容确定单元，用于结合所述前置信息与提取项目名称，确定处理后简历中的待提取内容；

关键词抽取单元，用于按照预设技术关键词词表，抽取所述待提取内容中对应的关键词；

简历生成单元，用于根据各所述关键词，生成结构化简历。

由以上技术可知，本申请提供了一种简历信息的结构化方法及装置，首先，将待结构化简历的文件格式转化为符合代码操作标准的标准文件格式，以便于后续对待结构化简历中内容的解析和提取。通过解析处理后简历，能够获得处理后简历中的前置信息，进而结合前置信息和结构化简历模板中的各个提取项目名称，确定处理后简历中的待提取内容。然后，根据预设技术关键词词表，能够确定并对应抽取出待提取内容中的关键词，该关键词即为待结构化简历中的关键信息。最后，将得到的关键词对应填写至结构化简历模板中的可填写区域内，能够得到具有形式统一、信息完整、准确的结构化简历。可见，本申请所提供的表格式简历的结构化方法及装置，能够有效解决现有简历结构化方法所提取的信息不准确的问题，通过本申请的方法所获的结构化简历能够更加便于招聘人员审阅以及简历信息管理平台的管理工作。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种简历信息的结构化方法的流程图；

图2为本申请实施例提供的一种转化文件格式的方法的流程图；

图3为本申请实施例提供的一种确定前置信息的方法的流程图；

图4为本申请实施例提供的一种表格式简历的示意图；

图5为本申请实施例提供的一种结构化简历模板的示意图；

图6为本申请实施例提供的一种确定待提取内容的方法的流程图；

图7为本申请实施例提供的另一种表格式简历的示意图；

图8为本申请实施例提供的一种确定寻获项目名称的方法的流程图；

图9为本申请实施例提供的一种表格级别示意图；

图10为本申请实施例提供的一种同类待提取内容的封装方法的流程图；

图11为本申请实施例提供的一种确定关键词的方法的流程图；

图12为本申请实施例提供的一种更新预设技术关键词词表的方法的流程图；

图13为本申请实施例提供的一种模板填写方法的流程图；

图14为本申请实施例提供的一种结构化简历的示意图；

图15为本申请实施例提供的一种简历信息的结构化装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

但是，简历信息仅具有统一的格式，并不能真正便于招聘人员的审阅。简历信息中通常包括可结构化信息，例如姓名、薪资要求、工作地点等，这些信息比较简短和简单，便于审阅；同时，简历信息中还包括非结构化信息，例如自我评价等，这些信息不仅篇幅较长，句式结构和语义更加复杂，难以通过简单地整理和分析，提取出其中所包含的关键信息。

由此可见，现有的简历结构化方法极易遗漏简历信息中包含的关键信息，令结构化后的简历信息不准确。

为了解决上述问题，本申请实施例提供了一种简历信息的结构化方法及装置。

下面是本申请的方法实施例。

图1为本申请实施例提供的一种简历信息的结构化方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多个可操作设备中。

请参阅图1，该方法包括以下步骤：

S1、转化待结构化简历的文件格式为标准文件格式，得到处理后简历，所述待结构化简历为表格式简历，所述标准文件格式为符合代码操作标准的格式。

本申请中的待结构化简历即为各个需要结构化的简历信息，由于简历信息的制作者不同，因此，简历信息会具有不同的文件格式。例如，有的人使用word制作简历信息，则待结构化简历的文件格式即为doc或者docx格式；有的人使用pdf制作简历信息，则待结构化简历的文件格式即为pdf格式；有的人使用绘图软件制作简历信息，则待结构化简历的文件格式即为jpg格式等。在这些待结构化简历中存在一些文件格式不符合代码操作标准的格式，例如word格式。由于执行待结构化简历的结构化操作是通过执行相应的代码来实现的，因此，不符合代码操作标准，则会造成该待结构化简历无法实现后续的结构化操作。因此，需要将待结构化简历的文件格式转化为标准文件格式，例如html格式。

具体地，请参阅图2，为本申请实施例提供的一种转化文件格式的方法的流程图，所述方法包括：

S101、根据待转化简历的文件名后缀，确定所述待转化简历的当前文件格式；

S102、确定标准文件格式，所述标准文件格式为预设标准文件格式集中与当前文件格式的语言格式最接近的文件格式；

S103、转化所述待结构化简历的文件格式为标准文件格式，得到处理后简历。

通常待转化简历的文件格式，能够通过文件名后缀进行区分。例如，简历A.docx，文件名后缀为docx，则该待转化简历的文件格式为word格式；简历B.jpg，文件名后缀为jpg，则该带转化简历的文件格式为图片格式。

标准文件格式并非唯一的，只要是能够符合代码操作标准的文件格式都可以作为标准文件格式，例如，html格式、html5格式、xhtml格式等。但是，每个标准文件格式都具有自己特有的书写习惯，不同的待转化简历当前具有的文件格式也具有各自特有的书写习惯。因此，与不同的待转化简历当前具有的文件格式的书写习惯相似的标准文件格式也是不同的。例如，如果当前待转化文件的文件格式为图片格式，由于html5格式具有更强的绘图功能，相应的，其在图片方面的书写习惯较其他标准文件格式，更贴近待转化文件的文件格式。因此，选择html5格式作为当前待转化文件的标准文件格式。这样，针对不同的待转化简历，确定具有针对性的标准文件格式，不仅令转化更加快速，同时，能够提高转化的有效性和准确性，避免转化过程中的数据遗漏及错转的问题。

S2、解析所述处理后简历，获得所述处理后简历中的前置信息，所述前置信息为代表处理后简历中内容按照属性分类的信息。

解析文件，即为分解文件内容，并从分解后的内容中分析出所需部分内容的过程。转化为具有标准文件格式的处理后简历之后，通过解析处理后简历，能够获得处理后简历中属于前置信息部分的内容。解析的过程可以采用语义分析分析技术、正则匹配法、文本结构匹配法等多种方法。

如果采用语义分析技术，具体地，请参阅图3，为本申请实施例提供的一种确定前置信息的方法的流程图，所述方法包括：

S201、划分所述处理后简历，得到简历分词；

S202、划分相似简历分词，得到简历分词分类，所述相似简历分词为语义相似度计算值大于预设相似阈值的简历分词，所述语义相似度计算值为任意两个简历分词之间的语义相似度值；

S203、确定前置信息，所述前置信息为同一简历分词分类中，与其余相似简历分词的语义相似度值均大于或者等于预设相似度阈值的相似简历分词。

首先，利用语义分析技术将处理后简历进行分词，得到简历分词。

示例地，处理后简历为：

基本信息：

姓名：陈××；性别：男。

学历背景：

专业：计算机科学；学历：本科。

通过分词可以得到“基本信息”、“姓名”、“陈××”、“性别”、“男”、“学历背景”、“专业”、“计算机科学”、“学历”、“本科”。

利用语义分析技术，计算上述分词彼此之间的语义相似度，例如，计算“基本信息”与“姓名”之间的语义相似度为0.6，“姓名”与“陈××”之间的语义相似度为0.7，“学历背景”与“专业”之间的语义相似度为0.6，“专业”与“计算机科学”之间的语义相似度为0.8，“基本信息”与“学历背景”之间的语义相似度为0.3。如果预设相似阈值为0.5，则可以确定“基本信息”与“姓名”，“姓名”与“陈××”，“学历背景”与“专业”，“专业”与“计算机科学”为相似简历分词，而“基本信息”与“学历背景”不是。根据这个方法，可以得知，“基本信息”、“姓名”、“陈××”、“性别”、“男”为相似简历分词，这些相似简历分词为同一简历分词分类；“学历背景”、“专业”、“计算机科学”、“学历”、“本科”为相似简历分词，这些相似简历分词为同一简历分词分类。

在同一简历分词分类中，计算各个相似简历分词之间的语义相似度值，例如，同一简历分词分类“基本信息”、“姓名”、“陈××”、“性别”、“男”中，只有“基本信息”与“姓名”、“陈××”、“性别”、“男”之间的语义相似度值均大于预设相似度阈值，因此，“基本信息”为前置信息。

也可以采用信息匹配法来确定前置信息，如果采用这种方法，通常，需要预先设置一个前置信息库，在前置信息库中存储有大量可以表示前置信息的特征词，例如基本信息、学历背景、自然信息、人员信息、学业经历等。当处理后简历中出现与前置信息库中的特征词相匹配的分词时，则该分词即可被确定为前置信息。其中，相匹配是指分词与特征词的语义相似度大于或者等于预设匹配阈值。

如果采用正则匹配法，则适用于可以用唯一形式表达的前置信息。例如，在上述示例中，前置信息“基本信息”和“学历背景”均可以用“文本：__”的形式表示，因此，将该表达形式设置为对应的正则表达式，根据该正则表达式，则可以准确地从处理后简历中确定出各个前置信息。

如果采用文本结构匹配法，则可以利用文本结构模型，或者表格识别模型，识别出处理后简历的文本结构、或者表格结构。如果利用文本结构模型识别上述示例中的文本结构，可知，“基本信息”和“学历背景”单独成行；而“姓名”、“性别”、“专业”和“学历”均与其他待选项目名称以及对应的其他单词成行。根据单独成行的文本结构规则，可以确定出“基本信息”和“学历背景”为前置信息。表格识别模型则主要针对表格式简历，如图4所示，为本申请实施例提供的一种表格式简历的示意图，可见，“基本信息”和“学历背景”单独占据表格中的一个行，即该行中只有一个单元格有文本内容，而“姓名”、“性别”、“专业”和“学历”均与其他待选项目名称以及对应的其他单词占据表格中的一个行，即该行同时具有多个单元格有文本内容。根据单独成行的表格结构规则，和/或单个单元格有文本内容的规则，可以确定出“基本信息”和“学历背景”为前置信息。

同时，还可以采用其他具有解析功能的方法来确定前置信息，此处将不再赘述。

S3、结合所述前置信息与提取项目名称，确定处理后简历中的待提取内容。

由于简历的制作人是根据不同的模板制作的简历，因此，简历中所包含的信息也五花八门，但是，并非全部的简历信息均是被需要的。因此，需要以提取项目名称作为依据，一一对应地确定出处理后简历中需要被提取和结构化的待提取内容。

简历信息根据制作人的不同，具有不同的内容，但是，并不是简历信息中的全部信息均为需要提取的信息，因此，在结构化简历信息之前，可以首先生成结构化简历模板，该模板带有提取项目名称，作为决定待结构化简历信息中需要被提取部分的依据。该模板可以具有对应的自定义输入区域，以便输入对应的提取内容。

具体地，如图5所示，为本申请实施例提供的一种结构化简历模板的示意图。其中，①为提取项目名称，②为自定义输入区域。

具体地，可以采用以下方法生成结构化简历模板。

S311、从简历库中获取简历样本，所述简历样本为带有项目名称及对应内容的简历；

S312、利用语义分析技术，提取所述简历样本中的项目名称；

S313、对应每一个项目名称，生成一个可填写区域；

S314、生成简历模板样本，所述简历模板样本由项目名称及所述项目名称对应的可填写区域组成；

S315、训练各简历模板样本，得到结构化简历模板。

简历库中包含多种多样的简历样本，为了便于训练模型，需要从简历库中挑选与结构化简历模板形式贴近的简历作为样本，即优选带有项目名称及其对应内容的简历样本，这种简历样本无需预先根据简历内容提取项目名称，能够大大简化训练难度。如果所挑选的简历样本不带有项目名称，则需要确定出简历样本中的项目名称。利用语义分析技术，划分简历内容为各个分词，并通过计算各个分词之间的语义相似度值，将全部分词划分为不同类别的分词组，同一分词组中的各个分词之间的语义相似度均大于或等于预设语义相似度阈值。然后，在同一分词组中确定出与其余分词的语义相似度均大于或者等于预设阈值的分词，这个分词即为项目名称，项目名称为同一分词中所涵盖语义范围最广的分词；或者，根据简历样本中各部分简历内容的字符长度，确定项目名称，通常，项目名称的字符长度都较短，因此，可以确定字符长度小于预设长度阈值的内容为项目名称。对应每一个项目名称，生成一个可填写区域。将项目名称与可填写区域结合，共同构成简历模板样本。通过训练大量的简历模板样本，得到具有代表性的项目名称，并以该项目名称作为提取项目名称，得到最后的结构化简历模板。

此外，也可以根据实际需要，直接确定所需要的提取项目名称，生成特定的结构化简历模板。

结构化简历模板中各提取项目名称的排序可以根据使用者的偏好程度确定，也可以随机确定。

在确定出带有提取项目名称的结构化简历模板之后，可以利用该模板确定待提取内容。具体地，请参阅图6，为本申请实施例提供的一种确定待提取内容的方法的流程图，所述方法包括：

S321、确定目标前置信息，所述目标前置信息为与提取项目名称的语义相似度大于预设相似度阈值的前置信息；

S322、确定所述目标前置信息在处理后简历中的位置信息；

S323、根据所述位置信息，生成查询语句，所述查询语句为具有逐级查询功能的语句；

S324、按照所述查询语句，确定对应的寻获项目名称；

S325、根据所述提取项目名称，从全部所述寻获项目名称中确定待提取项目名称，所述待提取项目名称为与所述提取项目名称的语义相似度高于预设提取阈值的寻获项目名称；

S326、确定待提取内容，所述待提取内容为与所述待提取项目名称对应的简历内容。

现今的大部分简历制作人为了令简历看起来更加有层次、有结构，均采用表格式简历，即以表格式简历模板为基础，在模板中的相应位置内填写简历信息，如图7所示，为本申请实施例提供的另一种表格式简历的示意图。对于这些表格式简历，可以首先确定出全部前置信息中的目标前置信息，如通过计算各个前置信息与结构化简历模板中给出的提取项目名称的语义相似度，如果语义相似度大于预设相似度阈值，则该前置信息为目标前置信息。例如，处理后简历中的前置信息有“基本信息”、“学历背景”、“情感经历”；结构化简历模板中的提取项目名称有“个人简介”、“学业经历”。通过计算语义相似度可知，没有与“情感经历”对应的提取项目名称，而“基本信息”与“个人简介”、“学历背景”与“学业经历”相互对应，因此，“基本信息”、“学历背景”均为目标前置信息。

如图7所示，根据上步所得的目标前置信息，可以确定该目标前置信息在处理后简历中的位置，并得到相关的位置信息。例如，“基本信息”在处理后简历的第一张表格、第一行、第一个单元格，对应的位置信息可以用(1,1,1)来表示。

对应于目标前置信息的位置信息，可以生成相应的查询语句。由得到前置信息的过程可知，与前置信息位于同一个待选项目名称属性分类中，还包含若干待选项目名称，通常在建立表格时，这些待选项目名称的位置会与对应的前置信息的位置存在嵌套、递进、分属等级别关系。因此，通过生成的各条查询语句，以目标前置信息的位置为源头，通过逐级查询的方法，可以找到与该目标前置信息具有对应关系的待选项目名称的所在位置，得到寻获项目名称。

具体地，请参阅图8，为本申请实施例提供的一种确定寻获项目名称的方法的流程图，所述方法包括：

S3241、以所述目标前置信息的位置信息为起点，利用所述查询语句，确定子目标表格，所述子目标表格为包含所述目标前置信息，且表格标签的级别低于目标前置信息的表格标签级别的表格；

S3242、利用所述查询语句，确定所述子目标表格中的全部子标准单元格，所述子标准单元格为同时具有可分组标签和同一类名的标准单元格；

S3243、确定寻获项目名称，所述寻获项目名称为子标准单元格中的项目名称。

通常，目标前置信息的位置信息至少包含有表格标签、行标签和标准单元格标签。由于处理后简历可能同时包含多个并列等级的表格，例如在不同页面出现的表格，或者同一页面同一图层出现的表格等，表格标签能够定位目标前置信息所在的表格，通常，该表格为表格标签级别最高的表格，例如一级表格。然后，根据行标签和标准单元格标签，能够定位目标前置信息所在的标准单元格。上述过程在查询语句中可以表示为“table(一级表格标签)→tr(一级行标签)→td(一级标准单元格标签)”。

以目标前置信息的位置信息为起点，利用查询语句逐级查询的功能，开始逐级查找寻获项目名称。首先，查询语句查询至具有较低表格标签级别的子目标表格，该子目标表格通常为嵌套、或者包含在一级表格内的包含部分内容的表格。如图9所示，其中，③即为一级表格，④即为二级表格(或者较低级别表格)。因为，是以目标位置信息的位置信息为起点进行查询动作的，因此，该子目标表格中必然包含目标位置信息对应的标准单元格。上述过程在查询语句中可以表示为“table(一级表格标签)→tr(一级行标签)→td(一级标准单元格标签)→table(二级表格标签)”。

同时，表格式简历的建立方法是将需要填写同类内容的标准单元格标记同一类名标签。由于目标前置信息对应的待选项目名称均为相似待选项目名称，即具有相同的属性分类，因此，在子目标表格中具有该类名标签的标准单元格就应该为对应于待选项目名称所在的标准单元格。需要注意的是，只有带有可分组标签的标准单元格，才能够以分类的形式建立在子目标表格中，因此，可分组标签是待选项目名称所在标准单元格的建立基础。可见，继续利用查询语句逐级查询的功能，能够查询至子目标表格中的全部子标准单元格，而这些子标准单元格均为与目标前置信息相对应的待选项目名称。上述过程在查询语句中可以表示为“table(一级表格标签)→tr(一级行标签)→td(一级标准单元格标签)→table(二级表格标签)→tbody(可分组标签)→td class(类名)”。

子标准单元格可以根据所携带的文本内容分为带有项目名称的子标准单元格和带有项目名称对应的具体内容的子标准单元格。最后，通过获取子标准单元格中的文本内容，确定带有项目名称的子标准单元格为寻获标准单元格，并将其中的项目名称确定为寻获项目名称。上述过程在查询语句中可以表示为“table(一级表格标签)→tr(一级行标签)→td(一级标准单元格标签)→table(二级表格标签)→tbody(可分组标签)→td class(类名)→txt(文本内容)”。

例如，目标前置信息为“基本信息”，“基本信息”的位置信息为处理后简历的第一张表格、第一行、第一个单元格，即(1,1,1)。以此位置信息为起点，利用查询语句，可以查询至“基本信息”所在的子目标表格③；随后，利用查询语句，可以进一步查询至在子目标表格③中具有同一类名标签的子标准单元格⑤、⑥、⑦、⑧，其中，⑤和⑦为带有项目名称的子标准单元格，因此，项目名称“姓名”和“性别”即为寻获项目名称。

针对不同的目标前置信息，均可以利用对应的查询语句准确查找出相应的寻获项目名称，进而确定待结构化简历中的全部寻获项目名称。

同样的，并非全部寻获项目名称均被需要，因此，依然需要以结构化简历模板上的提取项目名称为依据，从全部寻获项目名称中挑选出待提取项目名称。通过计算各寻获项目名称与各提取项目名称的语义相似度，最终确定语义相似度大于预设提取阈值的寻获项目名称为待提取项目名称。

例如，寻获项目名称包含“姓名”、“性别”、“专业”、“学历”、“婚否”，结构化简历模板中的提取项目名称包含“姓名”、“性别”、“专业”、“学历”。可见，并没有与“婚否”相对应的提取项目名称，其余各项寻获项目名称均有对应的提取项目名称，且语义相似度均大于预设提取阈值，因此，确定待提取项目名称为“姓名”、“性别”、“专业”、“学历”。

其中，与各待提取项目名称“姓名”、“性别”、“专业”、“学历”对应的简历内容依次为“陈××”、“男”、“计算机科学”、“本科”，因此，可将上述内容确定为待提取内容。

由以上步骤得到的待抽取内容包含多部分内容，为了方便同类内容的管理和存放，可以将同类待提取内容进行封装处理。具体地，请参阅图10，为本申请实施例提供的一种同类待提取内容的封装方法的流程图，所述方法包括：

S331、确定同类待提取内容，所述同类待提取内容为同一前置信息对应的待提取内容；

S332、封装所述同类待提取内容，得到封装对象。

可见，封装后，“陈××”、“男”为一个封装对象；“计算机科学”、“本科”为一个封装对象。

S4、按照预设技术关键词词表，抽取所述待提取内容中对应的关键词。

待提取内容可以分为简单内容和复杂内容两类，其中，简单内容为字符长度较短，且句式简单，形式唯一的内容，例如“陈××”、“计算机科学”等；复杂内容为字符长度较长，且语句量较多，句式较复杂的内容，例如“我比较喜欢编程，尤其擅长java编程，曾经参加过编程夏令营，也多次参加过编程比赛。”对于简单内容，可以直接将其作为关键词进行抽取；对于复杂内容则需要首先确定关键词，再进行抽取工作。

具体地，请参阅图11，为本申请实施例提供的一种确定关键词的方法的流程图，所述方法包括：

S411、划分所述待提取内容，得到分词；

S412、计算所述分词与预设技术关键词词表中各技术关键词的语义相似度；

S413、确定关键词，所述关键词为与技术关键词的语义相似度大于预设词语相似度阈值的单词。

例如，利用语义分析技术，可以将“我比较喜欢编程，尤其擅长java编程，曾经参加过编程夏令营，也多次参加过编程比赛。”划分为“我”、“比较”、“喜欢”、“编程”、“尤其”、“擅长”、“java”、“编程”、“曾经”、“参加”、“过”、“编程夏令营”、“也”、“多次”、“参加”、“过”、“编程比赛”。

计算上述各个单词与预设技术关键词词表中各技术关键词的语义相似度，其中，预设技术关键词词表为包含某一，或者某几个技术领域的具有技术代表性的关键词的词表。例如，预设技术关键词词表包含计算机、医疗、教育领域，则对应包含技术关键词有“编程”、“Java”、“C++”、“计算机科学”、“计算机”、“医疗器械”、“手术”、“医药执照”、“药理学”、“临床经验”、“课后辅导”、“教育基金”、“支教”等海量关键词。这些技术关键词可以为根据历史技术关键词样本训练而成，也可以人为规定。

本实施例中，根据预设技术关键词词表中与计算机领域相关的技术关键词，可以确定关键词为“编程”、“java”、“编程夏令营”、“编程比赛”。进一步地，为了保证语义的完整性，预设技术关键词词表中还可添加表示程度的关键词，例如“优秀”、“一般”、“不好”、“非常不好”等。据此，本实施例的关键词还可以包含“比较”、“喜欢”、“尤其”、“擅长”、“多次”。

对于一些涉及比较小众领域的简历信息，预设技术关键词词表中可能没有相关领域的技术关键词，此时，需要首先更新预设技术关键词词表，再确定关键词。具体地，请参阅图12，为本申请实施例提供的一种更新预设技术关键词词表的方法的流程图，所述方法包括：

S421、确定所述待提取内容的内容类型；

S422、如果所述内容类型与所述预设技术关键词词表的内容类型不同，则在所述预设技术关键词词表中增加补充词表，得到更新后技术关键词词表，所述补充词表为与待提取内容的内容类型相同的技术关键词词表；

S423、按照所述更新后技术关键词词表，抽取待提取内容中对应的关键词。

利用语义分析技术，可以确定出待提取内容的内容类型，例如，待提取内容为“我喜欢追星，能够清楚的获知明星的详细行程，并且有多次接机的经历，也组织过小型明星生日会。”利用语义分析技术可以确定出该待提取内容的内容类型为明星助理类。但是，预设技术关键词词表中仅包含计算机、医疗和教育的内容类型。则需要在预设技术关键词词表中增加关于明星助理类的补充词表，得到更新后技术关键词词表。其中，补充词表可以为根据网上关于明星助理类内容训练得到的技术关键词词表。最后，根据更新后的技术关键词词表，抽取待提取内容中对应的关键词。

S5、填写各所述关键词至所述结构化简历模板中的可填写区域内，得到结构化简历。

由于待结构化简历文件格式的转换、利用查询语句查询待提取项目名称、抽取待提取内容等过程，会造成上述步骤得到的关键词所对应的待抽取项目名称中含有英文字符。例如，“name”“陈××”；“major”“计算机科学”。由于结构化简历模板上的提取项目名称为中文字符，且中文字符更方便阅读，因此，需要将待抽取项目名称中包含的英文字符转换为中文字符，以提高填写对应性和可读性。具体地，请参阅图13，为本申请实施例提供的一种模板填写方法的流程图，所述方法包括：

S501、确定所述关键词所对应的待抽取项目名称中的英文字符，所述待抽取项目名称为待结构化简历中与待提取内容对应的项目名称；

S502、根据预设映射文件，转换所述英文字符为对应的中文字符，得到中文化待抽取项目名称；

S503、按照所述中文化待抽取项目名称与所述提取项目名称对应原则，填写各关键词至结构化简历模板中的可填写区域内，得到结构化简历。

示例地，确定出“name”“陈××”；“major”“计算机科学”中的英文字符为“name”和“major”。预设映射文件中包含与各个英文字符一一对应的中文字符，例如“姓名”、“专业”，其中，“姓名”与“name”对应，“专业”与“major”对应。可见，根据预设映射文件，能够将“name”和“major”转换为对应的中文字符，得到中文化待抽取项目名称“姓名”、“专业”。找到结构化简历模板中与中文化待抽取项目名称对应的提取项目名称“姓名”、“专业”，然后将“陈××”和“计算机科学”对应填写至可填写区域，即可获得如图14所示的结构化简历。

请参阅图15，为本申请实施例提供的一种简历信息的结构化装置的结构示意图，所述装置包括：

格式转化单元1，用于转化待结构化简历的文件格式为标准文件格式，得到处理后简历，所述待结构化简历为表格式简历，所述标准文件格式为符合代码操作标准的格式；

文件解析单元2，用于解析所述处理后简历，获得所述处理后简历中的前置信息，所述前置信息为代表处理后简历中内容按照属性分类的信息；

待提取内容确定单元3，用于结合所述前置信息与提取项目名称，确定处理后简历中的待提取内容；

关键词抽取单元4，用于按照预设技术关键词词表，抽取所述待提取内容中对应的关键词；

简历生成单元5，用于根据各所述关键词，生成结构化简历。

可选地，所述格式转化单元1包括：文件格式确定单元，用于根据待转化简历的文件名后缀，确定所述待转化简历的当前文件格式；标准文件格式确定单元，用于确定标准文件格式，所述标准文件格式为预设标准文件格式集中与当前文件格式的语言格式最接近的文件格式；转化单元，用于转化所述待结构化简历的文件格式为标准文件格式，得到处理后简历。

可选地，所述文件解析单元2包括：待选项目名称确定单元，用于确定处理后简历中的待选项目名称，所述待选项目名称为语义范围值大于预设范围阈值所对应的字符，且所述字符的字符长度小于或者等于预设长度阈值；待选项目名称属性分类划分单元，用于利用语义分析技术，划分相似待选项目名称，得到待选项目名称属性分类，所述相似待选项目名称为语义相似度大于预设相似阈值的待选项目名称；前置信息确定单元，用于确定前置信息，所述前置信息为所述待选项目名称属性分类中最高语义范围值所对应的待选项目名称。

可选地，所述待提取内容确定单元3包括：划分单元，用于划分所述处理后简历，得到简历分词；分类单元，用于划分相似简历分词，得到简历分词分类，所述相似简历分词为语义相似度计算值大于预设相似阈值的简历分词，所述语义相似度计算值为任意两个简历分词之间的语义相似度值；信息确定单元，用于确定前置信息，所述前置信息为同一简历分词分类中，与其余相似简历分词的语义相似度值均大于或者等于预设相似度阈值的相似简历分词。

可选地，所述查询单元包括：子目标表格确定单元，用于以所述目标前置信息的位置信息为起点，利用所述查询语句，确定子目标表格，所述子目标表格为包含所述目标前置信息，且表格标签的级别低于目标前置信息的表格标签级别的表格；子标准单元格确定单元，用于利用所述查询语句，确定所述子目标表格中的全部子标准单元格，所述子标准单元格为同时具有可分组标签和同一类名的标准单元格；寻获项目名称确定单元，用于确定寻获项目名称，所述寻获项目名称为子标准单元格中的项目名称。

可选地，所述待提取内容确定单元3还包括：同类待提取内容确定单元，用于确定同类待提取内容，所述同类待提取内容为同一前置信息对应的待提取内容；封装单元，用于封装所述同类待提取内容，得到封装对象。

可选地，所述关键词抽取单元4包括：分词单元，用于划分所述待提取内容为单词；相似度计算单元，用于计算所述单词与预设技术关键词词表中各技术关键词的语义相似度；关键词确定单元，用于确定关键词，所述关键词为与技术关键词的语义相似度大于预设词语相似度阈值的单词。

可选地，所述关键词抽取单元4还包括：内容类型确定单元，用于确定所述待提取内容的内容类型；词表更新单元，用于如果所述内容类型与所述预设技术关键词词表的内容类型不同，则在所述预设技术关键词词表中增加补充词表，得到更新后技术关键词词表，所述补充词表为与待提取内容的内容类型相同的技术关键词词表；抽取单元，用于按照所述更新后技术关键词词表，抽取待提取内容中对应的关键词。

可选地，所述简历生成单元5包括：英文字符确定单元，用于确定所述关键词所对应的待抽取项目名称中的英文字符，所述待抽取项目名称为待结构化简历中与待提取内容对应的项目名称；字符中文化单元，用于根据预设映射文件，转换所述英文字符为对应的中文字符，得到中文化待抽取项目名称；填写单元，用于按照所述中文化待抽取项目名称与所述提取项目名称对应原则，填写各关键词至结构化简历模板中的可填写区域内，得到结构化简历。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种简历信息的结构化方法，其特征在于，所述方法包括：

根据各所述关键词，生成结构化简历；

其中，所述结合所述前置信息与提取项目名称，确定处理后简历中的待提取内容具体包括：

以目标前置信息在处理后简历中的位置信息为起点，利用查询语句，确定子目标表格，所述子目标表格为包含所述目标前置信息，且表格标签的级别低于目标前置信息的表格标签级别的表格，其中，所述目标前置信息为与提取项目名称的语义相似度大于预设相似度阈值的前置信息，所述查询语句为具有逐级查询功能的语句；

利用所述查询语句，确定所述子目标表格中的全部子标准单元格，所述子标准单元格为同时具有可分组标签和同一类名的标准单元格；

确定寻获项目名称，所述寻获项目名称为子标准单元格中的项目名称；

根据所述提取项目名称，从全部所述寻获项目名称中确定待提取项目名称，所述待提取项目名称为与所述提取项目名称的语义相似度高于预设提取阈值的寻获项目名称；

确定待提取内容，所述待提取内容为与所述待提取项目名称对应的简历内容。

2.根据权利要求1所述的方法，其特征在于，所述转化待结构化简历的文件格式为标准文件格式，得到处理后简历包括：

根据待转化简历的文件名后缀，确定所述待转化简历的当前文件格式；

确定标准文件格式，所述标准文件格式为预设标准文件格式集中与当前文件格式的语言格式最接近的文件格式；

转化所述待结构化简历的文件格式为标准文件格式，得到处理后简历。

3.根据权利要求1所述的方法，其特征在于，所述解析处理后简历，获得处理后简历中的前置信息包括：

划分所述处理后简历，得到简历分词；

划分相似简历分词，得到简历分词分类，所述相似简历分词为语义相似度计算值大于预设相似阈值的简历分词，所述语义相似度计算值为任意两个简历分词之间的语义相似度值；

确定前置信息，所述前置信息为同一简历分词分类中，与其余相似简历分词的语义相似度值均大于或者等于预设相似度阈值的相似简历分词。

4.根据权利要求1所述的方法，其特征在于，所述以目标前置信息在处理后简历中的位置信息为起点，利用查询语句，确定子目标表格包括：

确定目标前置信息；

确定所述目标前置信息在处理后简历中的位置信息；

根据所述位置信息，生成查询语句。

5.根据权利要求1所述的方法，其特征在于，所述结合前置信息与结构化简历模板中的提取项目名称，确定处理后简历中的待提取内容之后包括：

确定同类待提取内容，所述同类待提取内容为同一前置信息对应的待提取内容；

封装所述同类待提取内容，得到封装对象。

6.根据权利要求1-5中任一所述的方法，其特征在于，所述按照预设技术关键词词表，抽取待提取内容中对应的关键词包括：

划分所述待提取内容，得到分词；

计算所述分词与预设技术关键词词表中各技术关键词的语义相似度；

确定关键词，所述关键词为与技术关键词的语义相似度大于预设词语相似度阈值的单词。

7.根据权利要求6所述的方法，其特征在于，所述按照预设技术关键词词表，抽取待提取内容中对应的关键词还包括：

确定所述待提取内容的内容类型；

如果所述内容类型与所述预设技术关键词词表的内容类型不同，则在所述预设技术关键词词表中增加补充词表，得到更新后技术关键词词表，所述补充词表为与待提取内容的内容类型相同的技术关键词词表；

按照所述更新后技术关键词词表，抽取待提取内容中对应的关键词。

8.根据权利要求1所述的方法，其特征在于，所述根据各关键词，生成结构化简历包括：

确定所述关键词所对应的待抽取项目名称中的英文字符，所述待抽取项目名称为待结构化简历中与待提取内容对应的项目名称；

根据预设映射文件，转换所述英文字符为对应的中文字符，得到中文化待抽取项目名称；

按照所述中文化待抽取项目名称与所述提取项目名称对应原则，生成结构化简历。

9.一种简历信息的结构化装置，其特征在于，所述装置包括：

简历生成单元，用于根据各所述关键词，生成结构化简历；

其中，所述待提取内容确定单元还包括：

子目标表格确定单元，用于以目标前置信息在处理后简历中的位置信息为起点，利用查询语句，确定子目标表格，所述子目标表格为包含所述目标前置信息，且表格标签的级别低于目标前置信息的表格标签级别的表格，其中，所述目标前置信息为与提取项目名称的语义相似度大于预设相似度阈值的前置信息，所述查询语句为具有逐级查询功能的语句；

子标准单元格确定单元，用于利用所述查询语句，确定所述子目标表格中的全部子标准单元格，所述子标准单元格为同时具有可分组标签和同一类名的标准单元格；

寻获项目名称确定单元，用于确定寻获项目名称，所述寻获项目名称为子标准单元格中的项目名称；

所述待提取内容确定单元，还用于根据所述提取项目名称，从全部所述寻获项目名称中确定待提取项目名称，所述待提取项目名称为与所述提取项目名称的语义相似度高于预设提取阈值的寻获项目名称；确定待提取内容，所述待提取内容为与所述待提取项目名称对应的简历内容。