CN110442862B - 基于招聘信息的数据处理方法及装置 - Google Patents
基于招聘信息的数据处理方法及装置 Download PDFInfo
- Publication number
- CN110442862B CN110442862B CN201910627109.0A CN201910627109A CN110442862B CN 110442862 B CN110442862 B CN 110442862B CN 201910627109 A CN201910627109 A CN 201910627109A CN 110442862 B CN110442862 B CN 110442862B
- Authority
- CN
- China
- Prior art keywords
- skill
- entity
- text
- sample
- skill entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于招聘信息的数据处理方法及装置,涉及数据处理技术领域,该方法包括:针对招聘信息文本集中每一招聘信息文本,分别执行进行如下操作,得到每一招聘信息文本中各技能实体的分值:识别出一个招聘信息文本包括的至少一个技能实体,并确定所述至少一个技能实体中每个技能实体的熟练程度要求;对于所述至少一个技能实体中的每个技能实体,均应用预定义的熟练程度要求与分值的对应关系,确定该技能实体对应所述一个招聘信息文本的分值;分别计算所述招聘信息文本集中包括的各技能实体的总分值。缓解了高校或培训学校的培养计划和企业的人才需求的不对等的问题,可以更好的衡量企业的实际需要。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种基于招聘信息的数据处理方法及装置。
背景技术
企业招聘主要包括校园招聘和社会招聘的形式。校园招聘主要是依据高校或培训学校的培养计划以及招聘企业的人才需求进行招聘,例如,某公司需要一位数据库开发工程师,那么,该企业可以去招收培养计划中包含数据库开发的相关专业的毕业生。而社会招聘一般是针对具有一定工作经验的人,主要依据是教育背景以及工作经验,例如,某公司需要一位数据库开发工程师,那么,该企业可以去招聘工作经验中包含数据库开发的社会人士,但是,社会人士一般需要具备相关的教育背景才能从事相关工作,取得相关工作经验。
所以,企业的人才需求与高校或培训学校的培养计划对等,关乎着企业能否顺利的招到适合公司的员工,还关乎着毕业生是否能够找到心仪的工作。
发明内容
本发明的目的在于提供一种基于招聘信息的数据处理方法及装置,以缓解了高校或培训学校的培养计划和企业的人才需求的不对等的问题。
第一方面,本公开提供了一种基于招聘信息的数据处理方法。包括:针对招聘信息文本集中每一招聘信息文本,分别执行进行如下操作,得到每一招聘信息文本中各技能实体的分值:识别出一个招聘信息文本包括的至少一个技能实体,并确定所述至少一个技能实体中每个技能实体的熟练程度要求;对于所述至少一个技能实体中的每个技能实体,均应用预定义的熟练程度要求与分值的对应关系,确定该技能实体对应所述一个招聘信息文本的分值。分别计算所述招聘信息文本集中包括的各技能实体的总分值,其中,一个技能实体的总分值用于表征该一个技能实体的重要程度。
第二方面,本公开提供了一种基于招聘信息的数据处理装置。该装置包括:识别模块,用于识别出一个招聘信息文本包括的至少一个技能实体,并确定所述至少一个技能实体中每个技能实体的熟练程度要求;确定模块,用于对于所述至少一个技能实体中的每个技能实体,均应用预定义的熟练程度要求与分值的对应关系,确定该技能实体对应所述一个招聘信息文本的分值;其中,通过所述识别模块和所述确定模块,针对招聘信息文本集中每一招聘信息文本,分别得到每一招聘信息文本中各技能实体的分值;计算模块,用于分别计算所述招聘信息文本集中包括的各技能实体的总分值,其中,一个技能实体的总分值用于表征该一个技能实体的重要程度。
第三方面,本公开提供了一种电子设备。该电子设备包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以前述第一方面所述的方法。
第四方面,本公开提供了一种机器可读存储介质。所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被处理器调用和执行时,所述机器可执行指令促使所述处理器实现前述第一方面所述的方法。
本公开提供的一种基于招聘信息的数据处理方法及装置,可以根据企业对技能的熟练程度的要求,以及企业对具有该技能的需求量,来综合评价该技能的重要程度,其中,企业对技能的熟练程度的要求可以根据招聘信息中技能实体的熟练程度要求来确定,企业对具有该技能的需求量可以根据包括该技能对应的技能实体的招聘信息来确定,从而可以从更多的维度来对技能的重要程度进行评价,得到的评价可以更好的衡量企业的实际需要,依据该评价可以更好的对等培养计划和人才需求。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种基于招聘信息的数据处理方法流程示意图;
图2为本公开实施例提供的一种基于招聘信息的数据处理方法的分类模型训练流程示意图;
图3为本公开实施例提供的一种基于招聘信息的数据处理方法的实体属性识别流程示意图;
图4为本公开实施例提供的一种基于招聘信息的数据处理方法的技能实体对齐流程示意图;
图5为本公开实施例提供的另一种基于招聘信息的数据处理方法的技能实体对齐流程示意图;
图6为本公开实施例提供的一种基于招聘信息的数据处理方装置结构示意图;
图7为本公开实施例提供的另一种基于招聘信息的数据处理方装置结构示意图;
图8为本公开实施例提供的一种电子设备结构示意图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前为了实现培养计划和人才需求的对等的问题,高校或培训学校可以将在招聘信息中出现的频率高的技能加入培养计划中。但是,技能的出现的频率并不能体现出该技能的重要程度,从而不能有效地体现企业实际对拥有该技能的人才的需求。基于此,本公开实施例提供了一种基于招聘信息的数据处理方法及装置,可以使得根据招聘信息更有效确定的企业的人才需求,进而使得培养计划和人才需求更对等。
下面结合附图以及具体实施,对本公开进行进一步地介绍。
图1为本公开实施例提供的一种基于招聘信息的数据处理方法流程示意图。该方法应用于电子设备,该方法可以包括如下步骤:
步骤S110,针对招聘信息文本集中每一招聘信息文本,分别执行进行如下步骤S112-S114对应的操作,得到每一招聘信息文本中各技能实体的分值:
步骤S112,识别出一个招聘信息文本包括的至少一个技能实体,并确定所述至少一个技能实体中每个技能实体的熟练程度要求。
其中,招聘信息文本集可以包括多条招聘信息文本,该多条招聘信息文本可以为获取的指定时间窗内的招聘信息文本。该指定时间窗可以根据高校或培训学校的培养计划的调整周期确定,该培养计划的调整周期可以根据实际需要设置。
例如,以普通高等教育学校的培养计划为例,该培养计划的调整周期一般是依托于招生周期,该招生周期一般以学年为单位,一学年的长度可以等于一年,那么该培养计划的调整周期可以设置为一年。该普通高等教育学校可以获取过去一年内的多条招聘信息文本,并将该过去一年内的多条招聘信息文本作为参考依据,调整下一学年招收的学生的培养计划。
另外,该依次从招聘信息文本集中获取当前招聘信息文本的顺序可以包括多种,例如,采用随机的顺序、依据设定的排序确定顺序、依据获取时间确定顺序或者依据发布时间确定顺序等中的一种多种的组合。例如,可以按照发布时间进行排序,然后根据该排序依次获取。
其中,上述技能实体可以指描述技能类型的文字,例如,数据库、Oracle、MySql或者面向对象等等。
上述熟练程度要求可以通过描述技能实体熟练程度的词表示,或者,也可以为按照熟练程度划分的等级的词表示,其中,每个等级对应至少一个描述技能实体熟练程度的词。
例如,该招聘信息可以为“熟练掌握数据库”,该“熟练”可以为熟练程度要求,该“数据库”为技能实体。
再例如,可以将描述技能实体熟练程度的词划分为多个技能等级,每个等技能级对应一个熟练程度要求,例如,A、B、C、D四个技能等级,该技能等级可以为熟练程度要求,且A<B<C<D。其中,D等级对应的描述技能实体熟练程度的词可以包括精通、博士、高级等等;C等级对应的描述技能实体熟练程度的词可以包括熟练、硕士、中级等等;B等级对应的描述技能实体熟练程度的词可以包括熟悉、本科、初级等等;A等级对应的描述技能实体熟练程度的词可以包括了解、专科、见习等等。如果该招聘信息为“熟练掌握数据库”,根据该“熟练”可以确定熟练程度要求为C。
在具体实现时,在识别出招聘信息文本中包括的至少一个技能实体后,可以依据该招聘信息文本的语义确定该至少一个技能实体中的每个技能实体的熟练程度要求。该招聘信息文本的语义可以根据其包括的熟练程度要求或用于表征技能熟练程度的词与技能实体之间的关联确定。
步骤S114,对于所述至少一个技能实体中的每个技能实体,均应用预定义的熟练程度要求与分值的对应关系,确定该技能实体对应所述一个招聘信息文本的分值。
可以预先根据熟练程度要求对应的技能实体的熟练程度定义分值。
在一个示例中,可以按照熟练程度越高分值越高的规则定义熟练程度要求与分值的对应关系。例如,熟练程度划分为四个等级,分别对应1到4分。
例如,通过上述步骤S112-S114可以得到一个招聘信息文本的多个技能实体和熟练程度要求的组合:“MySql”(精通)、“MySql”(熟悉)、“Oracle”(熟练)、“c++”(了解)、“数据库”(熟练)。
预先建立熟练程度要求与数值的对应关系为:“了解”-1,“熟悉”-2,“熟练”-3,“精通”-4。基于该对应关系计算上述当前招聘信息文本的示例每个技能实体的分值如下表1所示:
表1
技能实体 | 分值 |
“MySql” | 4+2=6 |
“Oracle” | 3 |
“c++” | 1 |
“数据库” | 3 |
在另一个示例中,还可以定义按照熟练程度越高分值越低的规则定义熟练程度要求与分值的对应关系。例如,熟练程度划分为四个等级,分别对应-1到-4分。
需要说明的是,上述示例仅是本公开提出的熟练程度要求与分值的对应关系的部分实现方式,在实际应用中,还可以采用其他的方式,此处不再赘述。
针对招聘信息文本集中的每个招聘信息文本可以全部依次作为当前招聘信息文本进行上述步骤S112和S114的后,得到招聘信息文本集包括的所有技能实体中的每个对应招聘信息文本集的所有分值。基于每个技能实体对应的所有分值,可以对该技能实体的重要程度进行评价,具体如步骤S120所述。
步骤S120,分别计算所述招聘信息文本集中包括的各技能实体的总分值。其中,一个技能实体的总分值用于表征该一个技能实体的重要程度。
由于招聘信息文本集中包括多条招聘信息文本,在各条招聘信息文本中可以包括相同的技能实体,所以通过执行上述步骤S110-S120,同一技能实体可以确定多个分值,通过综合该多个分值可以最终得到该技能实体的总分值。
其中,综合的方式可以包括多种,例如,累加、累减或者其他运算方式。具体可以根据总分值评价技能实体的重要程度的方式确定。
例如,该总分值可以为该技能实体在所有技能实体中的重要程度占比,此时,可以累加该技能实体的所有分值并与累加所有技能实体的所有分值计算百分比。
再例如,可以为每个技能设置初始分值,例如,该初始分值为100,如果根据熟练程度越高分值越高的规则定义熟练程度要求与分值的对应关系,可以根据该技能实体对应的所有分值,在该初始值的基础上进行减法操作,当该技能实体对应的总分值为0时,则确定该技能实体达到了加入培养计划的标准。
通过本公开实施例,可以根据企业对技能的熟练程度的要求,以及企业对具有该技能的需求量,来综合评价该技能的重要程度,其中,企业对技能的熟练程度的要求可以根据招聘信息中技能实体的熟练程度要求来确定,企业对具有该技能的需求量可以根据包括该技能对应的技能实体的招聘信息来确定,从而可以从更多的维度来对技能的重要程度进行评价,得到的评价可以更好的衡量企业的实际需要,依据该评价可以更好的对等培养计划和人才需求。
在一些实施例中,招聘信息文本集的来源可以包括多种,例如,可以从各个招聘网站来获取,也可以通过公司的官网来获取,还可以通过收集一些招聘会的数据来获取等等。对于不同的来源,权威程度可以是不同的,所以,可以为来源设置系数,在计算技能实体对应当前招聘信息文本的分值时,可以乘以该系数后,再根据乘以系数后的分值计算总分值。例如,来源为招聘网站的系数为0.8,来源为公司官网的系数为1。
通过在确定技能实体的重要程度时,结合数据来源的系数,可以增加招聘信息的可靠性,进而能更好的衡量企业的实际需要。
在具体实现时,每个招聘信息文本中可以包括多个熟练程度要求或用于表征技能实体熟练程度的词,此时,为了使确定的技能实体的熟练程度要求更准确,在一个些实施例中,上述步骤S114中确定至少一个技能实体中每个技能实体的熟练程度要求,具体可以通过如下步骤实现:
步骤1)、基于已识别出的至少一个技能实体,对一个招聘信息文本进行分词处理,得到分词文本。
步骤2)、对于至少一个技能实体中的每个技能实体,均根据该技能实体在分词文本中与其他分词之间的距离,确定该技能实体的熟练程度要求,该其他分词包括该分词文本中除该技能实体以外的分词。
在步骤1)中,在对招聘信息文本进行分词处理可以采用分词算法进行分词。例如,jieba(结巴)分词算法。
举例来说,对于一个招聘信息文本“熟练掌握MySql等数据库语言”,在上述招聘信息文本中,根据已经识别得到的技能实体,可知“MySql”是一个技能实体,根据这个技能实体,可以把招聘信息文本分成三部分,该技能实体的左边为一个字符串,该技能实体本身为一个字符串,该技能实体的右边为一个字符串,然后采用分词算法对技能实体左边的字符串和技能实体右边的字符串进行分词,最后,再把这三部分拼接起来,例如,通过“/”进行拼接,得到“熟练/掌握/MySql/等/数据库/语言”。
另外,在步骤1)中,可以根据技能实体和熟练程度要求对招聘信息文本进行分词处理。例如,将招聘信息文本与预先确定的技能实体库和用于表示技能熟练度的词(或熟练程度要求)库进行比对,确定招聘信息文本包括的技能实体和用于表示技能熟练度的词。例如,将招聘信息文本“熟练掌握MySql等数据库语言”在预先确定的技能实体库(包括MySql和数据库)和用于表示技能熟练度的词库(包括熟练)进行比对,得到的分词文本为“熟练/掌握/MySql/等/数据库/语言”。
在上述步骤2)中,为了使确定的技能实体的熟练程度要求更准确,可以在多个熟练程度要求中,选择与技能实体语义最近的表征熟练程度要求的词作为该技能实体的熟练程度要求,或者,作为该技能实体的熟练程度的确定依据。
其中,语义是否相近可以根据词与词之间的距离确定,距离越近语义越接近。例如,可以根据技能实体和用于表示技能熟练度的词之间的距离或该距离的某种函数(如取对数,取平方根等等),确定与技能实体语义最近的用于表示技能熟练度的词所属的熟练程度要求,作为该技能实体的熟练程度要求。其中,技能实体和用于表示技能熟练度要求的词之间的距离越小或该距离的某种函数对应的值越小,与技能实体语义越接近。
例如,招聘信息文本为“了解J2EE规范,了解熟悉各种常用设计模式”,该招聘信息文本包括“J2EE”和“设计模式”两个技能实体,以及“了解”和“熟悉”两个熟练程度要求,得到的分词文本为“了解/J2EE/规范/,/了解/熟悉/各种常用/设计模式”,根据距离确定熟练程度要求“了解”与技能实体“J2EE”最近,熟练程度要求“熟悉”与技能实体“设计模式”最近,依此,可以确定技能实体“J2EE”的熟练程度要求为“了解”,可以确定技能实体“设计模式”的熟练程度要求为“熟悉”。
再例如,招聘信息文本为“了解J2EE规范,了解熟悉各种常用设计模式”,该招聘信息文本对应的分词文本中对应有“了解”和“熟悉”两个用于表征技能熟练程度的词,可以预定义用于表征技能熟练程度的词与技能等级的对应关系,根据距离确定熟练程度要求“了解”与技能实体“J2EE”最近,熟练程度要求“熟悉”与技能实体“设计模式”最近,依此,可以确定技能实体“J2EE”的熟练程度要求为“了解”对应的技能等级,可以确定技能实体“设计模式”的熟练程度要求为“熟悉”对应的技能等级。
另外,招聘信息文本可以包括多个技能实体,为了降低其他技能实体对判断结果的干扰,对于上述步骤1),还可以通过如下步骤实现:
步骤A,对所述一个招聘信息文本进行分词处理,得到分词中间文本;
步骤B,复制分词中间文本,得到与至少一个技能实体中的每个技能实体一一对应的分词复制文本;
例如,对为“熟练掌握MySql、Oracle等数据库,sql语言”的招聘信息文本进行分词,并复制分词文本,将会得到4个分词复制文本。如下:
分词复制文本1:“熟练/掌握/“MySql”/、/Oracle/等/数据库/,/sql/语言”;
分词复制文本2:“熟练/掌握/MySql/、/“Oracle”/等/数据库/,/sql/语言”;
分词复制文本3:“熟练/掌握/MySql/、/Oracle/等/“数据库”/,/sql/语言”;
分词复制文本4:“熟练/掌握/MySql/、/Oracle/等/数据库/,/“sql”/语言”。
步骤C,对于至少一个技能实体中的每个技能实体对应的分词复制文本,均在该分词复制文本中删除除该技能实体之外的其他技能实体,得到该技能实体对应的分词文本。
例如,结合上述招聘信息文本为“熟练掌握MySql、Oracle等数据库,sql语言”的的例子,得到分别与一个技能实体对应的4个分词文本如下:
分词文本1:“熟练/掌握/“MySql”/、/等/,/语言”;
分词文本2:“熟练/掌握/、/“Oracle”/等/,/语言”;
分词文本3:“熟练/掌握/、/等/“数据库”/,/语言”;
分词文本4:“熟练/掌握/、/等/,/“sql”/语言”。
通过本公开实施例,可以根据招聘信息技能实体与用来表征技能熟练程度的词的距离来确定,技能实体的熟练程度要求,从而可以精确的确定技能实体的熟练程度要求,依据该方法确定的技能实体的熟练程度要求,来对人才需求进行评价可以更好的对等培养计划和人才需求。
在实际应用中,上述方法可以通过机器学习来实现。此时,该方法可以包括模型训练过程和使用训练好的模型的过程。
下面首先对模型训练的过程进行详细的描述。
本公开通过机器学习主要实现技能实体识别和/或熟练程度要求识别的过程。
其中,实体识别主要用于识别出招聘信息文本中的技能实体,在技能实体识别中,可以将技能的类别命名为技能实体,例如,该技能实体可以为“面向对象”、“MySql”、“sql”或“Spring3”等。
熟练程度要求识别主要用于识别出招聘信息文本中技能实体的熟练程度要求。在熟练程度要求识别中,定义熟练程度要求的方式包括多种,例如前述图1所示的步骤S112中的相关描述可以相互参照理解。熟练程度要求识别的目的是为了更加贴近招聘信息表达的含义,所以可以根据实际需要定义熟练程度要求。例如,定义技能熟练程度要求有4类,分别为“精通”、“熟练”、“熟悉”、“了解”,其中,“精通”、“熟练”、“熟悉”、“了解”所修饰的技能实体熟练程度是不一样的。
其中,为了实现技能实体识别或熟练程度要求识别,可以分别设置机器学习模型,技能实体识别可以通过序列标注模型来实现,熟练程度要求识别可以通过分类模型来实现。
序列标注模型还有很多种,例如,BILSTM-CRF、CRF等等。下面以通过IDCNN-CRF模型来实现技能实体识别为例进行进一步地介绍。
其中,通过向IDCNN-CRF模型,输入一个序列,对应输出该序列的标签序列,根据该输出的标签序列各个标签的含义,可以确定对应的实体技能。
该各个标签的含义可以预定义。例如,可以设计标签集为{“技能—B”,“技能—I”,“技能—E”,“技能—S”,“O”},其中“技能—B”表示技能实体的开始,“技能—I”表示技能实体的中间,“技能—E”表示技能实体的结尾,“技能—S”表示单字作为技能实体,“O”表示为非技能实体。预先标注的训练样本集。其中训练样本集中的一个训练样本如下表2所示:
表2
具 | O |
备 | O |
良 | O |
好 | O |
的 | O |
面 | 技能—B |
向 | 技能—I |
对 | 技能—I |
象 | 技能—E |
编 | O |
程 | O |
能 | O |
力 | O |
根据上述训练样本集可以训练IDCNN-CRF模型,然后根据训练后的IDCNN-CRF模型可以对招聘信息文本中的技能实体进行识别。
对于熟练程度要求的识别主要是通过提取招聘信息文本中的特征,根据该特征进行分类的方式来实现。用于熟练程度要求的识别的分类模型可以根据训练样本集进行训练,该训练样本集包括招聘信息文本样本、技能实体标注和与技能实体标注对应的熟练程度要求标签。
如图2所示,该训练过程具体可以包括如下步骤:
步骤S210,确定训练样本集,所述训练样本集包括多个训练样本,每一训练样本包括一招聘信息文本样本、该一招聘信息文本样本对应的至少一个技能实体样本和该至少一个技能实体样本中每个技能实体样本的熟练程度要求标签;
步骤S220,基于每一训练样本的至少一个技能实体样本,对该训练样本的招聘信息文本样本进行分词处理,得到分词文本样本;
步骤S230,在每一训练样本的分词文本样本中提取该训练样本的至少一个技能实体样本中每个技能实体样本对应的特征向量。
步骤S240,依次根据每一训练样本的每一技能实体样本的特征向量以及该技能实体样本的熟练程度要求标签,对初始分类模型进行训练得到训练后的分类模型。
在步骤S220中,对于招聘信息文本样本的分词,可以使用分词工具(例如,jieba),但是,需要保证技能实体不会被分词,对于分词可以结合前述步骤S110的相关描述进行参照理解。例如,对于一个标注技能实体后的招聘信息文本样本“熟练掌握MySql等大型相关数据库语言”,根据其标注可知“MySql”是一个技能实体样本,在分词时,需要保证“MySql”不会被分词。
再例如,对于下面的招聘信息文本样本:
“熟练掌握MySql、Oracle等数据库,sql语言”
经过分词处理后,得到分词文本样本:
“熟练/掌握/MySql/、/Oracle/等/数据库/,/sql/语言”
其中,“/”表示分词的标志。
这里可以不做标点符号和停用词(例如,等)的去除处理,因为有些标点符号是对预测性能有影响的,例如,顿号“、”,通过这个顿号,表达的是并列关系,因此得到技能实体样本“MySql”和“Oracle”的熟练程度要求可以是一样的。
对于上述分词后的招聘信息文本样本,可以包括多个技能实体,为了分别对技能实体进行预测,上述步骤S230还可以包括样本分割的操作。该样本分割的操作包括:对一个招聘信息文本样本进行分词处理,得到分词中间文本样本;复制分词中间文本样本,得到与技能实体一一对应的分词复制文本样本。
例如,结合上述招聘信息文本样本为“熟练掌握MySql、Oracle等数据库,sql语言”的例子,经过样本分割将会得到如下4个分词复制文本样本:
分词复制文本样本1:“熟练/掌握/“MySql”/、/Oracle/等/数据库/,/sql/语言”;
分词复制文本样本2:“熟练/掌握/MySql/、/“Oracle”/等/数据库/,/sql/语言”;
分词复制文本样本3:“熟练/掌握/MySql/、/Oracle/等/“数据库”/,/sql/语言”;
分词复制文本样本4:“熟练/掌握/MySql/、/Oracle/等/数据库/,/“sql”/语言”。
从上面的例子中,分词复制文本样本1用于对技能实体样本“MySql”进行预测其熟练程度要求;同样的,分词复制文本样本2用于对技能实体样本“Oracle”进行预测其熟练程度要求;分词复制文本样本3用于对技能实体样本“数据库”进行预测其熟练程度要求,分词复制文本样本4用于对技能实体样本“sql”进行预测其熟练程度要求。
结合上述招聘信息文本样本为“熟练掌握MySql、Oracle等数据库,sql语言”的例子,经过样本分割后上述的分词复制文本样本1,是为了预测样本1中的出现的词技能实体“MySql”的熟练程度要求,而分词复制文本样本1中的其他技能实体“Oracle”、“数据库”和“sql”对于技能实体“MySql”属性识别可能会存在干扰,因此,在步骤S230还可以包括对样本进行清洗的操作,该清洗操作包括如下步骤:对于每一分词复制文本,均在该技能实体对应的分词复制文本中删除其他技能实体,得到该技能实体的分词文本,该其他技能实体包括技能实体对应的分词复制文本中除该技能实体以外的技能实体。
在对样本进行清洗的操作时,其他技能实体可以作为冗余词被删除。例如,上述分词复制文本样本1、分词复制文本样本2、分词复制文本样本3、分词复制文本样本4去除这些技能实体后,得到的分词文本样本如下所示:
分词文本样本1`:“熟练/掌握/MySql/、/等/,/语言”
分词文本样本2`:“熟练/掌握/、/Oracle/等/,/语言”
分词文本样本3`:“熟练/掌握/、/等/数据库/,/语言”
分词文本样本4`:“熟练/掌握/、/等/,/sql/语言”
对于上述步骤S230,该技能实体对应的特征向量包括分词词典中各分词的特征值,所述分词词典中包括该分词文本中除技能实体以外的其他分词;对于该其他分词中每个分词的特征值,均根据该其他分词与该技能实体在分词文本中的距离确定;所述分词词典中除其他分词以外的分词的特征值为默认值。
该特征向量可以基于词频的特征向量,或者,还可以提取基于距离折扣词频(Discount Term Frequency,DTF)值的特征向量。其中,基于DTF值的特征向量,可以基于距离和词频两个维度来确定特征向量中分词的特征值。
其中,特征向量可以根据预先确定的分词词典确定,例如,该分词词典可以包括1000个特征词,那么该特征向量可以包括对应于该1000个特征词的特征值,招聘信息文本样本包括的分词对应的特征取值可以根据分词与技能实体之间的距离确定,其他分词对应的特征值可以为默认值,例如,默认值可以为0。
例如,可以提取上述的分词文本样本1`、分词文本样本2`、分词文本样本3`和分词文本样本4`中的其他分词的特征值包括其他分词与该技能实体样本之间的距离折扣词频DTF值的DTF值。
其中,样本的其他分词与该技能实体样本的DTF值根据如下公式确定:
在式(1)中,其中,W表示一个其他分词;Wsample表示分词文本样本中的所有W;center表示该技能实体样本;distance(w,center)表示分词文本样本中W与center之间的距离函数;1/distance(w,center)表示W与center之间的词频距离折扣。
例如,对于上述分词文本样本1`、分词文本样本2`、其DTF值的计算如下:
分词文本样本1`:“熟练/掌握/MySql/、/等/,/语言”:
其中,center=“MySql”,分词文本包括的分词集合={“熟练”,“掌握”,“、”,“等”,“,”,“语言”};
DTF(“W=熟练”)=1/2;Wsample=分词集合中的“熟练”;该“熟练”出现了一次,该一次的词频距离折扣为1/2,“理解”的DTF值等于该一次对应的词频距离折扣。
同理,DTF(“W=掌握”)=1/1;DTF(“W=、”)=1/1;DTF(“W=等”)=1/2;DTF(“W=,”)=1/3;DTF(“W=语言”)=1/4。
分词文本样本2`:“熟练/掌握/、/Oracle/等/,/语言”:
其中,center=“Oracle”,分词文本包括的分词集合={“熟练”,“掌握”,“、”,“等”,“,”,“语言”};
DTF(“熟练”)=1/3;DTF(“掌握”)=1/2;DTF(“、”)=1/1;DTF(“等”)=1/1;DTF(“,”)=1/2;DTF(“语言”)=1/3。
再例如,对于招聘信息文本样本“理解J2EE规范,理解熟悉各种常用设计模式”分词后,得到分词中间文本样本:
“理解/J2EE/规范/,/理解/熟悉/各种/常用/设计模式”
分割后,得到分词样本复制文本:
分词样本复制文本5:“理解/“J2EE”/规范/,/理解/熟悉/各种/常用/设计模式”
分词样本复制文本6:“理解/J2EE/“规范”/,/理解/熟悉/各种/常用/设计模式”
去除实体后,得到分词样本文本:
分词样本文本5`:“理解/J2EE/规范/,/理解/熟悉/各种/常用”
分词样本文本6`:“理解/规范/,/理解/熟悉/各种/常用/设计模式”
对于上述分词样本文本5`、分词样本文本6`、其DTF值的计算如下:
分词样本文本5`:“理解/J2EE/规范/,/理解/熟悉/各种/常用”
其中,center=“J2EE”;
分词样本文本包括分词集合={“理解”,“规范”,“,”,“理解”,“熟悉”,“各种”,“常用”}
DTF(“W=理解”)=1/1+1/3=4/3;Wsample=分词集合中的“理解”,该“理解”出现了两次,第一次的词频距离折扣为1/1,第二次的词频距离折扣为1/3,“理解”的DTF值等于该两次对应的词频距离折扣的和。
同理,DTF(“W=规范”)=1/1;DTF(“W=,”)=1/2;DTF(“W=熟悉”)=1/4;DTF(“W=各种”)=1/5;DTF(“W=常用”)=1/6。
分词样本文本6`:“理解/规范/,/理解/熟悉/各种/常用/设计模式”
其中,center=“设计模式”;
分词样本文本包括分词集合={“理解”,“规范”,“,”,“理解”,“熟悉”,“各种”,“常用”};
DTF(“理解”)=1/7+1/4=11/28;DTF(“规范”)=1/6;DTF(“,”)=1/5;
DTF(“熟悉”)=1/3;DTF(“各种”)=1/2;DTF(“常用”)=1/1。
对于训练样本中,基于每个词对应每个招聘信息文本样本包括的各个DTF值,以及该招聘信息文本样本对应的熟练程度要求标签,对分类模型进行训练。
例如,假设分词词典包括{分词1,分词2,……,分词n-1,分词n},针对分词样本文本1`而言,假设分词样本文本1`包括分词1,分词2和分词3,那么,就可以将计算出的分词1与技能实体(即中心词)之间的距离作为分词1的特征值(DTF 1),同理,可以计算出分词2和分词3的特征值(DTF 2和DTF 3),并将分词词典中除分词1,分词2和分词3之外的其它分词的特征值设置为预设值(如,设置为0),即可得到该技能实体对应于分词样本文本1`的特征向量,即{DTF 1,DTF 2,DTF 3,0,……,0}。
下面对使用训练好的模型的过程进行进一步的介绍,如图3所示,具体可以包括如下步骤:
步骤S310,依次从招聘信息文本集中获取一个招聘信息文本。
步骤S320,通过预先训练的序列标注模型识别出每一招聘信息文本包括的至少一个技能实体。
步骤S330,基于已识别出的每个技能实体,对当前招聘信息文本进行分词处理,得到分词文本。
步骤S340,对于至少一个技能实体中的每个技能实体对应的分词文本,均在该分词文本中提取该技能实体对应的特征向量。
步骤S350,对于至少一个技能实体中的每个技能实体,均应用预先训练的分类模型,根据该技能实体的特征向量,确定该技能实体的熟练程度要求。
上述该步骤S310与前述步骤S110类似,可相互参照理解此处不再赘述。
在步骤S320中,预先训练的序列标注模型可以参见前述技能实体识别的相关描述,此处不再赘述。
在使用预先训练的序列标注模型识别时,将一个招聘信息文本作为输入,输出得到该招聘信息文本对应的标签序列,根据该输出的标签序列各个标签的含义,可以确定改招聘信息文本对应的实体技能。
在步骤S330中,对于招聘信息文本的分词,可以使用分词工具(例如,jieba),但是,需要保证技能实体不会被分词,对于分词可以结合前述步骤S110的相关描述。
上述当前招聘信息文本可以包括多个技能实体,为了降低技能实体间的相互影响,上述步骤S330可以包括如下步骤:
步骤1),对一个招聘信息文本进行分词处理,得到分词中间文本。
步骤2),复制分词中间文本,得到与至少一个技能实体中的每个技能实体一一对应的分词复制文本;
步骤3),对于至少一个技能实体中的每个技能实体对应的分词复制文本,均在该分词复制文本中删除除该技能实体之外的其他技能实体,得到该技能实体对应的分词文本。
对于上述步骤S340,特征向量可以根据预先确定的分词词典确定,例如,该分词词典可以包括1000个特征词,那么该特征向量可以包括对应于该1000个特征词的特征值,分词文本包括的分词对应的特征取值可以根据分词与技能实体之间的距离确定,其他分词对应的特征值可以为默认值,例如,默认值可以为0。其中,可以计算其他分词与该技能实体在分词文本中的DTF值,将该DTF值作为该其他分词的特征值,其中,该其他分词与该技能实体之间的DTF值可以根据上述式(1)确定,此时,在式(1)中W表示一个其他分词;Wsample表示分词文本中的所有W;center表示该技能实体;distance(w,center)表示分词文本中W与center之间的距离函数;1/distance(w,center)表示W与center之间的词频距离折扣。
例如,对于上述步骤S330,得到的分词文本为“了解/J2EE/规范”,可以将技能实体“J2EE”作为中心词,计算中心词与特征词之间的DTF值,将该DTF值作为特征词的对应特征向量的元素值,应用预先训练的分类模型根据该特征向量进行分类。其中,该特征词可以包括分词文本中中心词以外的分词。
或者,对于上述步骤3)得到的分词文本,“了解/J2EE/,/了解/熟悉/各种/常用”,可以将技能实体“J2EE”作为中心词,计算中心词与特征词之间的DTF值,将该DTF值作为对应特征向量的元素值,应用预先训练的分类模型根据该特征向量进行分类。
通过本公开实施例,可以根据机器学习来确定,技能实体以及的技能实体熟练程度要求,通过基于DTF值的特征向量,依次对招聘信息文本中抽取出更多的有关技能实体的其他维度信息,有助于在每个技能的得分计算上更加精细、精准,在每个技能的信息表达上更加完全。
另外,为了应对同一个技能实体不同表达,还可以对技能实体进行对齐,使得最终的结果与市场上招聘信息的表达尽可能一致,具体可以通过如下步骤实现:
步骤S410,根据预设规则判断招聘信息文本集中包括的技能实体中是否存在等价的技能实体;
步骤S420,如果存在,将所述等价的技能实体对齐为同一个技能实体。如果不存在则无需进行实体对齐。
其中,上述预设规则包括下述一项或多项:
根据预先确定的等价数据库判断;
或者,编辑距离小于预设值的两个实体技能等价。
例如,结合图5所示,为了应对同一个技能实体不同表达的对齐问题,上述步骤S410-S420具体可以通过如下步骤实现:
步骤S510,判断技能实体501和技能实体502是否在技能实体对齐库中。
如果S510的判断结果为是,执行S520。
如果S510的判断结果为否,执行S530-S560。
步骤S520,将技能实体501和技能实体502对齐为一个技能实体。
步骤S530,对技能实体501和技能实体502进行预处理。
步骤S540,判断技能实体501和技能实体502的编辑距离是否小于阈值。
如果S540的判断结果为是,执行S550。
如果S540的判断结果为否,执行S560。
步骤S550,将技能实体501和技能实体502对齐为一个技能实体。
步骤S560,维持技能实体501和技能实体502,即不对技能实体501和技能实体502进行对齐操作。
在步骤S510中技能实体对齐库可以为预先总结的一些的技能实体对齐对。
在步骤S530中,通过预处理可以去除技能实体中的除数字字母汉字之外的字符,例如,去除技能实体“spring-mvc”字符串中的“-”。
在步骤S540中,编辑距离(例如levenshtein)用于度量两个字符串之间相似度,可以指两个字符串之间,由一个转成另一个所需的最少编辑操作次数,其中,允许的编辑操作包括一个字符替换成另一个字符,插入一个字符,删除一个字符。
另外,技能实体501和技能实体502为从招聘信息文本集中识别出的任意两个技能实体。
图6为本申请实施例提供的一种基于招聘信息的数据处理装置结构示意图。如图6所示,该装置包括:
识别模块601,用于识别出一个招聘信息文本包括的至少一个技能实体,并确定所述至少一个技能实体中每个技能实体的熟练程度要求;
确定模块602,用于对于所述至少一个技能实体中的每个技能实体,均应用预定义的熟练程度要求与分值的对应关系,确定该技能实体对应所述一个招聘信息文本的分值;
其中,该识别模块601和确定模块602可以统称为分值确定模块,通过该分值确定模块,可以针对招聘信息文本集中每一招聘信息文本,分别得到每一招聘信息文本中各技能实体的分值;
计算模块603,用于分别计算所述招聘信息文本集中包括的各技能实体的总分值,其中,一个技能实体的总分值用于表征该一个技能实体的重要程度。
在一些实施例中,上述识别模块601具体用于:
基于已识别出的所述至少一个技能实体,对所述一个招聘信息文本进行分词处理,得到分词文本;
对于所述至少一个技能实体中的每个技能实体,均根据该技能实体在分词文本中与其他分词之间的距离,确定该技能实体的熟练程度要求,该其他分词包括该分词文本中除该技能实体以外的分词。
在一些实施例中,上述识别模块601具体用于:
对所述一个招聘信息文本进行分词处理,得到分词中间文本;
复制所述分词中间文本,得到与所述至少一个技能实体中的每个技能实体一一对应的分词复制文本;
对于至少一个技能实体中的每个技能实体对应的分词复制文本,均在该分词复制文本中删除除该技能实体之外的其他技能实体,得到该技能实体对应的分词文本。
在一些实施例中,上述识别模块601具体用于:
对于所述至少一个技能实体中的每个技能实体对应的分词文本,均在该分词文本中提取该技能实体对应的特征向量;其中,该技能实体对应的特征向量包括分词词典中各分词的特征值,所述分词词典中包括该分词文本中除技能实体以外的其他分词;对于该其他分词中每个分词的特征值,均根据该其他分词与该技能实体在分词文本中的距离确定;所述分词词典中除其他分词以外的分词的特征值为默认值;
应用训练后的分类模型,根据该技能实体对应的特征向量,确定该技能实体的熟练程度要求;
其中,所述分类模型为随机森林模型或逻辑回归模型。
在一些实施例中,上述识别模块601具体用于:
所述装置还包括训练模块,用于:
确定训练样本集,所述训练样本集包括多个训练样本,每一训练样本包括一招聘信息文本样本、该一招聘信息文本样本对应的至少一个技能实体样本和该至少一个技能实体样本中每个技能实体样本的熟练程度要求标签;
基于每一训练样本的至少一个技能实体样本,对该训练样本的招聘信息文本样本进行分词处理,得到分词文本样本;
在每一训练样本的分词文本样本中提取该训练样本的至少一个技能实体样本中每个技能实体样本对应的特征向量;
依次根据每一训练样本的每一技能实体样本的特征向量以及该技能实体样本的熟练程度要求标签,对初始分类模型进行训练得到训练后的分类模型。
在一些实施例中,该装置还包括对齐模块,具体用于:
根据预设规则判断所述招聘信息文本集中包括的所有技能实体中是否存在等价的技能实体;
如果存在,将所述等价的技能实体对齐为同一个技能实体;
其中,所述预设规则包括下述一项或多项:
根据预先确定的等价数据库判断;
或者,
编辑距离小于预设值的两个实体技能等价。
图7为本申请实施例提供的一种基于招聘信息的数据处理装置结构示意图。图7所示的装置为图6所示的装置中的一种可选的结构,如图7所示,该装置包括:识别模块601、确定模块602和计算模块603。其中,识别模块601具体可以包括:
获取模块701,用于依次从招聘信息文本集中获取一个招聘信息文本。
序列标注模型702,用于识别出一个招聘信息文本包括的技能实体。
分词模块703,用于基于已识别出的所述至少一个技能实体,对一个招聘信息文本进行分词处理,得到分词文本。
分类模块704,用于对于所述至少一个技能实体中的每个技能实体对应的分词文本,均在该分词文本中提取该技能实体对应的特征向量;并应用训练后的分类模型,根据该技能实体对应的特征向量,确定该技能实体的熟练程度要求。
在一些实施例中,分词模块703具体可以包括:
分词子模块,用于对所述一个招聘信息文本进行分词处理,得到分词中间文本。
复制模块用于,复制所述分词中间文本,得到与所述至少一个技能实体中的每个技能实体一一对应的分词复制文本。
删除模块用于,对于至少一个技能实体中的每个技能实体对应的分词复制文本,均在该分词复制文本中删除除该技能实体之外的其他技能实体,得到该技能实体对应的分词文本。
分类模块704,可以包括:
特征提取模块,用于对于所述至少一个技能实体中的每个技能实体对应的分词文本,均在该分词文本中提取该技能实体对应的特征向量;
分类模型,用于根据该技能实体对应的特征向量,确定该技能实体的熟练程度要求。
图8为本公开实施方式提供的一种电子设备的结构示意图,该网络设备包括:处理器800、存储器801、总线802和通信接口803,所述处理器800、通信接口803和存储器801通过总线802连接;处理器800用于执行存储器801中存储的可执行模块,例如图1-图5所示的方法实施例对应的计算机程序。
其中,对于图8中的存储器可能包含高速随机存取存储器(RAM,Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序,前述本申请任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器中,或者由处理器实现。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本公开实施方式还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现本公开实施例提供的上述SDN控制器配置恢复方法。
在本申请所提供的几个实施方式中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施方式仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施方式的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种基于招聘信息的数据处理方法,其特征在于,包括:
针对招聘信息文本集中每一招聘信息文本,分别执行进行如下操作,得到每一招聘信息文本中各技能实体的分值:
识别出一个招聘信息文本包括的至少一个技能实体,并确定所述至少一个技能实体中每个技能实体的熟练程度要求;
对于所述至少一个技能实体中的每个技能实体,均应用预定义的熟练程度要求与分值的对应关系,确定该技能实体对应所述一个招聘信息文本的分值;
分别计算所述招聘信息文本集中包括的各技能实体的总分值,其中,一个技能实体的总分值用于表征该一个技能实体的重要程度;
所述确定所述至少一个技能实体中每个技能实体的熟练程度要求包括:
基于已识别出的所述至少一个技能实体,对所述一个招聘信息文本进行分词处理,得到分词文本;
对于所述至少一个技能实体中的每个技能实体对应的分词文本,均在该分词文本中提取该技能实体对应的特征向量;其中,该技能实体对应的特征向量包括分词词典中各分词的特征值,所述分词词典中包括该分词文本中除技能实体以外的其他分词;对于该其他分词中每个分词的特征值,均根据该其他分词与该技能实体在分词文本中的距离确定;所述分词词典中除其他分词以外的分词的特征值为默认值;应用训练后的分类模型,根据该技能实体对应的特征向量,确定该技能实体的熟练程度要求;其中,所述分类模型为随机森林模型或逻辑回归模型,该其他分词包括该分词文本中除该技能实体之外的分词。
2.根据权利要求1所述的方法,其特征在于,基于已识别出的所述至少一个技能实体,对所述一个招聘信息文本进行分词处理,得到分词文本包括:
对所述一个招聘信息文本进行分词处理,得到分词中间文本;
复制所述分词中间文本,得到与所述至少一个技能实体中的每个技能实体一一对应的分词复制文本;
对于所述至少一个技能实体中的每个技能实体对应的分词复制文本,均在该分词复制文本中删除除该技能实体之外的其他技能实体,得到该技能实体对应的分词文本。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定训练样本集,所述训练样本集包括多个训练样本,每一训练样本包括一招聘信息文本样本、该一招聘信息文本样本对应的至少一个技能实体样本和该至少一个技能实体样本中每个技能实体样本的熟练程度要求标签;
基于每一训练样本的至少一个技能实体样本,对该训练样本的招聘信息文本样本进行分词处理,得到分词文本样本;
在每一训练样本的分词文本样本中提取该训练样本的至少一个技能实体样本中每个技能实体样本对应的特征向量;
依次根据每一训练样本的每一技能实体样本的特征向量以及该技能实体样本的熟练程度要求标签,对初始分类模型进行训练得到训练后的分类模型。
5.根据权利要求1所述的方法,其特征在于,在分别计算所述招聘信息文本集中包括的各技能实体的总分值之前,所述方法还包括:
根据预设规则判断所述招聘信息文本集中包括的所有技能实体中是否存在等价的技能实体;
如果存在,将所述等价的技能实体对齐为同一个技能实体;
其中,所述预设规则包括下述一项或多项:
根据预先确定的等价数据库判断;
或者,
编辑距离小于预设值的两个实体技能等价。
6.一种基于招聘信息的数据处理装置,其特征在于,包括:
识别模块,用于识别出一个招聘信息文本包括的至少一个技能实体,并确定所述至少一个技能实体中每个技能实体的熟练程度要求;
确定模块,用于对于所述至少一个技能实体中的每个技能实体,均应用预定义的熟练程度要求与分值的对应关系,确定该技能实体对应所述一个招聘信息文本的分值;
其中,通过所述识别模块和所述确定模块,针对招聘信息文本集中每一招聘信息文本,分别得到每一招聘信息文本中各技能实体的分值;
计算模块,用于分别计算所述招聘信息文本集中包括的各技能实体的总分值,其中,一个技能实体的总分值用于表征该一个技能实体的重要程度;
所述识别模块具体用于:
基于已识别出的所述至少一个技能实体,对所述一个招聘信息文本进行分词处理,得到分词文本;
对于所述至少一个技能实体中的每个技能实体对应的分词文本,均在该分词文本中提取该技能实体对应的特征向量;其中,该技能实体对应的特征向量包括分词词典中各分词的特征值,所述分词词典中包括该分词文本中除技能实体以外的其他分词;对于该其他分词中每个分词的特征值,均根据该其他分词与该技能实体在分词文本中的距离确定;所述分词词典中除其他分词以外的分词的特征值为默认值;应用训练后的分类模型,根据该技能实体对应的特征向量,确定该技能实体的熟练程度要求;其中,所述分类模型为随机森林模型或逻辑回归模型,该其他分词包括该分词文本中除该技能实体以外的分词。
7.根据权利要求6所述的装置,其特征在于,所述识别模块具体用于:
对所述一个招聘信息文本进行分词处理,得到分词中间文本;
复制所述分词中间文本,得到与所述至少一个技能实体中的每个技能实体一一对应的分词复制文本;
对于所述至少一个技能实体中的每个技能实体对应的分词复制文本,均在该分词复制文本中删除除该技能实体之外的其他技能实体,得到该技能实体对应的分词文本。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括训练模块,用于:
确定训练样本集,所述训练样本集包括多个训练样本,每一训练样本包括一招聘信息文本样本、该一招聘信息文本样本对应的至少一个技能实体样本和该至少一个技能实体样本中每个技能实体样本的熟练程度要求标签;
基于每一训练样本的至少一个技能实体样本,对该训练样本的招聘信息文本样本进行分词处理,得到分词文本样本;
在每一训练样本的分词文本样本中提取该训练样本的至少一个技能实体样本中每个技能实体样本对应的特征向量;
依次根据每一训练样本的每一技能实体样本的特征向量以及该技能实体样本的熟练程度要求标签,对初始分类模型进行训练得到训练后的分类模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627109.0A CN110442862B (zh) | 2019-07-11 | 2019-07-11 | 基于招聘信息的数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910627109.0A CN110442862B (zh) | 2019-07-11 | 2019-07-11 | 基于招聘信息的数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110442862A CN110442862A (zh) | 2019-11-12 |
CN110442862B true CN110442862B (zh) | 2022-08-09 |
Family
ID=68430322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910627109.0A Active CN110442862B (zh) | 2019-07-11 | 2019-07-11 | 基于招聘信息的数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442862B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569131A (zh) * | 2021-05-14 | 2021-10-29 | 南京奥派信息产业股份公司 | 一种招聘语料标注方法、装置、存储介质和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667177A (zh) * | 2009-09-23 | 2010-03-10 | 清华大学 | 双语文本的对齐方法及装置 |
WO2013165923A1 (en) * | 2012-04-30 | 2013-11-07 | Gild, Inc. | Recruitment enhancement system |
CN107885725A (zh) * | 2017-11-06 | 2018-04-06 | 山东浪潮云服务信息科技有限公司 | 一种处理招聘数据的方法及装置 |
CN108280583A (zh) * | 2018-01-26 | 2018-07-13 | 重庆工商大学 | 基于大数据的岗位技能需求分析方法 |
CN109558429A (zh) * | 2018-11-16 | 2019-04-02 | 广东百城人才网络股份有限公司 | 基于互联网大数据的人才服务双向推荐方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2013205850A1 (en) * | 2012-07-02 | 2014-01-16 | Bliip Ip Pty Ltd | Assessment method and apparatus |
US20180181544A1 (en) * | 2016-12-28 | 2018-06-28 | Google Inc. | Systems for Automatically Extracting Job Skills from an Electronic Document |
-
2019
- 2019-07-11 CN CN201910627109.0A patent/CN110442862B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101667177A (zh) * | 2009-09-23 | 2010-03-10 | 清华大学 | 双语文本的对齐方法及装置 |
WO2013165923A1 (en) * | 2012-04-30 | 2013-11-07 | Gild, Inc. | Recruitment enhancement system |
CN107885725A (zh) * | 2017-11-06 | 2018-04-06 | 山东浪潮云服务信息科技有限公司 | 一种处理招聘数据的方法及装置 |
CN108280583A (zh) * | 2018-01-26 | 2018-07-13 | 重庆工商大学 | 基于大数据的岗位技能需求分析方法 |
CN109558429A (zh) * | 2018-11-16 | 2019-04-02 | 广东百城人才网络股份有限公司 | 基于互联网大数据的人才服务双向推荐方法及系统 |
Non-Patent Citations (3)
Title |
---|
Aniwat Phaphuangwittayakul * |
Supalin Saranwong等."Analysis Of Skill Demand In Thai Labor Market From Online Jobs Recruitments Websites".《2018 15th International Joint Conference on Computer Science and Software Engineering (JCSSE)》.2018, * |
国内招聘类网站的数据类岗位人才需求特征挖掘;张俊峰等;《情报杂志》;20180428(第06期);第176-182页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110442862A (zh) | 2019-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
US20200073882A1 (en) | Artificial intelligence based corpus enrichment for knowledge population and query response | |
CN112215004B (zh) | 一种基于迁移学习在军事装备文本实体抽取中的应用方法 | |
CN110990525A (zh) | 一种基于自然语言处理的舆情信息抽取及知识库生成方法 | |
CN106557462A (zh) | 命名实体识别方法和系统 | |
CN112149421A (zh) | 一种基于bert嵌入的软件编程领域实体识别方法 | |
Contreras et al. | Automated essay scoring with ontology based on text mining and nltk tools | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN110929034A (zh) | 一种基于改进lstm的商品评论细粒度情感分类方法 | |
CN103823794A (zh) | 一种关于英语阅读理解测试疑问式简答题的自动化命题方法 | |
CN108388660A (zh) | 一种改进的电商产品痛点分析方法 | |
CN113204967B (zh) | 简历命名实体识别方法及系统 | |
CN110674296B (zh) | 一种基于关键词的资讯摘要提取方法及系统 | |
CN109766547B (zh) | 一种句子相似度计算方法 | |
CN116362699A (zh) | 一种岗位匹配报告生成方法 | |
CN113934814B (zh) | 古诗文主观题自动评分方法 | |
Sinha et al. | NLP-based automatic answer evaluation | |
CN110442862B (zh) | 基于招聘信息的数据处理方法及装置 | |
CN111191029B (zh) | 基于监督学习和文本分类的ac构建方法 | |
CN107783958B (zh) | 一种目标语句识别方法及装置 | |
CN116541711A (zh) | 模型训练方法、课程推荐方法、装置、设备及介质 | |
CN115238093A (zh) | 一种模型训练的方法、装置、电子设备及存储介质 | |
Cao et al. | Skill requirements analysis for data analysts based on named entities recognition | |
CN115759078A (zh) | 文本信息的处理方法、系统、设备及存储介质 | |
Ibrahim et al. | A data mining framework for analyzing students’ feedback of assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |