CN110377907B - 一种招聘信息标准化方法及装置 - Google Patents
一种招聘信息标准化方法及装置 Download PDFInfo
- Publication number
- CN110377907B CN110377907B CN201910651888.8A CN201910651888A CN110377907B CN 110377907 B CN110377907 B CN 110377907B CN 201910651888 A CN201910651888 A CN 201910651888A CN 110377907 B CN110377907 B CN 110377907B
- Authority
- CN
- China
- Prior art keywords
- content
- keywords
- determining
- preset
- recruitment information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种招聘信息标准化方法及装置,其中,所述方法包括:按照第一类关键词和第二类关键词,确定招聘信息中的可结构化内容和非结构化内容;划分所述非结构化内容为单句;合并同内容单句,得到若干基础内容;从所述基础内容中确定优选内容;生成标准化招聘信息。本申请所提供的招聘信息标准化方法能够不仅能够提取出各类招聘信息中的可结构化内容,还能够提取出各类招聘信息中的非结构化内容,同时对非结构化内容进行分析,准确确定出对应于标准模板的基础内容和优选内容,令生成的标准招聘信息更加清晰、准确,大大便利了求职人员的工作。
Description
技术领域
本申请涉及信息处理及文本挖掘技术领域,尤其涉及一种招聘信息标准化方法及装置。
背景技术
招聘信息是众多求职者准确定位求职公司及职位的重要依据。通常,求职者会登录招聘网站上浏览各种招聘信息,以定位求职公司及职位。但是,招聘网站汇聚了各种公司发布的招聘信息,由于各个公司招聘信息的格式和内容存在差异,因此,不仅为招聘网站统计招聘信息带来不便,而且不便于求职者查找需要的招聘信息。
为了解决上述问题,招聘网站会选择将招聘信息标准化,进而得到具有统一格式的招聘信息,以便网站管理和求职者查询。具体地,首先,招聘网站的管理平台会指定几个关键词,例如公司名称、薪资范围、工作地点,工作描述等;然后,从各个招聘信息中提取与这些关键词对应的内容,并将其整理为预设的顺序,进行重新发布。这样,各种各样的招聘信息就具有了统一的格式。
但是,招聘信息仅具有统一的格式,并不能真正便于求职者查询需要的信息。招聘信息中通常包括结构化信息,例如公司名称、薪资范围、工作地点等,这些信息比较简短和简单,便于整理和查询;同时,招聘信息中还包括非结构化信息,例如工作描述等,这些信息不仅篇幅较长,句式结构和语义更加复杂,难以简单提取出其中所包含的关键信息。因此,即使将招聘信息整理为统一格式,也难以真正准确的提取出招聘信息的非结构信息中所包含的关键信息。
发明内容
本申请提供了一种招聘信息标准化方法及装置,以解决现有各类招聘信息统一整理后信息不准确的问题。
第一方面,本申请提供了一种招聘信息标准化方法,包括:
按照第一类关键词和第二类关键词,确定招聘信息中的可结构化内容和非结构化内容,所述第一类关键词用于对应提取招聘信息中的可结构化内容,所述第二类关键词用于对应提取招聘信息中的非结构化内容;
划分所述非结构化内容为单句;
合并同内容单句,得到若干基础内容,所述同内容单句为描述同一第二类关键词的单句;
从所述基础内容中确定优选内容,所述优选内容为包含第三类关键词的单句,所述第三类关键词为基于所述第二类关键词设置的具有优选效果的关键词;
生成标准化招聘信息,所述标准化招聘信息包含所述可结构化内容、所述基础内容和所述优选内容。
第二方面,本申请提供了一种招聘信息标准化装置,包括:
招聘内容分类单元,用于按照第一类关键词和第二类关键词,确定招聘信息中的可结构化内容和非结构化内容,所述第一类关键词用于对应提取招聘信息中的可结构化内容,所述第二类关键词用于对应提取招聘信息中的非结构化内容;
划分单元,用于划分所述非结构化内容为单句;
基础内容确定单元,用于合并同内容单句,得到若干基础内容,所述同内容单句为描述同一第二类关键词的单句;
优选内容确定单元,用于从所述基础内容中确定优选内容,所述优选内容为包含第三类关键词的单句,所述第三类关键词为基于所述第二类关键词设置的具有优选效果的关键词;
信息生成单元,用于生成标准化招聘信息,所述标准化招聘信息包含所述可结构化内容、所述基础内容和所述优选内容。
由以上技术可知,本申请提供了一种招聘信息标准化方法及装置,其中,首先,按照第一类关键词和第二类关键词,确定各类招聘信息中的可结构化内容和非结构化内容。针对非结构化内容,将非结构化内容划分为单句,并根据所描述的第二类关键词,合并同内容单句,得到若干基础内容。由于第三类关键词是基于第二类关键词的选择词语,因此,可以从基础内容中继续根据第三类关键词确定优选内容。最后,得到标准化招聘信息。本申请所提供的招聘信息标准化方法能够不仅能够提取出各类招聘信息中的可结构化内容,还能够提取出各类招聘信息中的非结构化内容,同时对非结构化内容进行分析,准确确定出对应于标准模板的基础内容和优选内容,令生成的标准招聘信息更加清晰、准确,大大便利了求职人员的工作。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种招聘信息标准化方法的流程图;
图2为本申请实施例提供的一种标准招聘模板的示意图;
图3为本申请实施例提供的一种划分内容类型的方法的流程图;
图4为本申请实施例提供的一种划分单句的方法的流程图;
图5为本申请实施例提供的一种合并同内容单句的方法的流程图;
图6为本申请实施例提供的一种确定优选内容的方法的流程图;
图7为本申请实施例提供的一种标准化招聘信息的示意图;
图8为本申请实施例提供的一种招聘信息标准化装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
招聘信息是众多求职者准确定位求职公司及职位的重要依据。通常,求职者会登录招聘网站上浏览各种招聘信息,以定位求职公司及职位。但是,招聘网站汇聚了各种公司发布的招聘信息,由于各个公司招聘信息的格式和内容存在差异,因此,不仅为招聘网站统计招聘信息带来不便,而且不便于求职者查找需要的招聘信息。
为了解决上述问题,招聘网站会选择将招聘信息标准化,进而得到具有统一格式的招聘信息,以便网站管理和求职者查询。具体地,首先,招聘网站的管理平台会指定几个关键词,例如公司名称、薪资范围、工作地点,工作描述等;然后,从各个招聘信息中提取与这些关键词对应的内容,并将其整理为预设的顺序,进行重新发布。这样,各种各样的招聘信息就具有了统一的格式。
但是,招聘信息仅具有统一的格式,并不能真正便于求职者查询需要的信息。招聘信息中通常包括结构化信息,例如公司名称、薪资范围、工作地点等,这些信息比较简短和简单,便于整理和查询;同时,招聘信息中还包括非结构化信息,例如工作描述等,这些信息不仅篇幅较长,句式结构和语义更加复杂,难以简单提取出其中所包含的关键信息。因此,即使将招聘信息整理为统一格式,也难以真正准确的提取出招聘信息的非结构信息中所包含的关键信息。
由此可见,采用现有的招聘信息标准化的方法统一不同的招聘信息,虽然能够在形式上统一招聘信息,但是无法真正做到在内容上对各类招聘信息的准确分类提取,尤其是无法实现对各类招聘信息中非结构化内容的准确提取和统一,因此,依然会令求职者难以快速、准确的查找到需要的招聘信息。
为了解决上述问题,本申请实施例提供了一种招聘信息标准化方法及装置。
下面是本申请的方法实施例。
图1为本申请实施例提供的一种招聘信息标准化方法的流程图。该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种可操作设备中。
请参见图1,该方法包括以下步骤:
S1、按照第一类关键词和第二类关键词,确定招聘信息中的可结构化内容和非结构化内容,所述第一类关键词用于对应提取招聘信息中的可结构化内容,所述第二类关键词用于对应提取招聘信息中的非结构化内容。
在提取各类招聘信息的内容之前,可以首先制定一个标准招聘模板,该标准招聘模板不仅具备规定需要提取的招聘信息内容的第一类关键词、第二类关键词和第三类关键词,同时具备能够对应输入各类关键词对应内容的自定义区域,例如可填写空白区域,从而保证最后得到的标准招聘信息不仅内容准确,而且格式统一、固定,方便求职人员浏览和查找,也方便网站进行管理。如图2所示,为本申请实施例提供的一种标准招聘模板的示意图,其中,①为第一类关键词,②为第二类关键词,③为第三类关键词,④为对应填写第一类关键词、第二类关键词和第三类关键词的可填写区域。
其中,标准招聘模板的格式不限于本申请实施例提供的示例,可以根据需要调整。
其中,第一类关键词、第二类关键词和第三类关键词为根据招聘单位的历史招聘信息数据,求职人员的历史求职信息数据等确定的。同时第一类关键词、第二类关键词、第三类关键词中各关键词在标准招聘模板中的排列顺序,可以根据招聘单位的历史关注信息、求职人员的历史关注信息、求职人员的历史查找信息等进行排序。
而且,标准招聘模板不仅指单一的款式,而是在一份标准招聘信息生成之后,可以根据浏览的人员不同,变换为适应的模板形式进行展示。例如,对于招聘单位,可以采用学历要求、岗位要求、能力要求等排在模板前列的标准招聘模板进行展示;而对于同一个招聘信息,对于求职人员,可以将生成的标准招聘信息,按照薪资范围、福利待遇等排在模板前列的另一种标准招聘模板进行展示。
在生成标准招聘模板之后,根据模板内的各类关键词提取各招聘信息中的内容。
各类招聘信息中同时存在可结构化内容和非结构化内容,例如“学历要求、工作年限、招聘岗位、福利待遇、薪资范围”等对应的内容即为可结构化内容,这些可结构化内容通常能够通过字符长短、正则表达式的匹配等方法快速且准确地确定出来。但是,类似于“岗位要求和能力要求”等对应的内容即为非结构化内容,这些非结构化内容通常篇幅较长,句式复杂,无法通过单一的方法快速确定出来,即使通过统一的方法确定出来,也容易产生内容遗漏、语义不准等问题。
在本申请中,先根据第一类关键词和第二类关键词,将招聘信息整体区分为可结构化内容和非结构化内容。具体地,请参阅图3,为本申请实施例提供的一种划分内容类型的方法的流程图,所述方法包括:
S111、获取招聘信息中各部分内容的字符长度;
S112、确定预划分可结构化内容和预划分非结构化内容,所述预划分结构化内容为字符长度小于预设长度阈值的招聘信息,所述预划分非结构化内容为字符长度大于或等于预设长度阈值的招聘信息;
S113、确定可结构化内容和非结构化内容,所述可结构化内容为所述预划分可结构化内容中包含第一类关键词的内容,所述非结构化内容为所述预划分非结构化内容中包含第二类关键词的内容。
由于招聘信息中可结构化内容与非结构化内容在字符长度上存在较为明显的区别,所以,可以首先根据字符长度对招聘信息进行预划分,对应得到预划分可结构化内容和预划分非结构化内容。
示例地:学历要求:本科以上学历;
工作描述:需要吃苦耐劳,能够长期出差,最好是有驾照,能够熟练分析地图,适应野外生活。
显然,学历要求和工作描述的招聘信息在字符上存在明显差异,可将学历要求确定为预划分可结构化内容,将工作描述确定为预划分非结构化内容。
通常,一份招聘信息中会包含多种多样的招聘要求,但是,并不是全部的招聘要求都需要被提取。
示例地:学历要求:本科以上学历;
工作描述:需要吃苦耐劳,能够长期出差,最好是有驾照,能够熟练分析地图,适应野外生活;
工作经验:两年以上工作经验。
可以发现,学历要求和工作经验应该为预划分可结构化内容,对应于第一类关键词;工作描述为预划分非结构化内容,对应于第二类关键词。但是,标准招聘模板中的第一类关键词为学历要求,第二类关键词为岗位要求,可见,标准招聘模板中并未规定需要提取工作经验的相关内容,因此,“工作经验:两年以上工作经验”为不包含第一类关键词的内容,因此,最后可以确定可结构化内容为“学历要求:本科以上学历”;非结构化内容为“工作描述:需要吃苦耐劳,能够长期出差,最好是有驾照,能够熟练分析地图,适应野外生活”。
需要注意的是,本申请所提供的划分内容类型的方法,还可以采用另一种划分顺序,具体地,
S121、确定待划分内容,所述待划分内容为包含所述第一类关键词或者第二类关键词的招聘信息;
S122、获取所述待划分内容中各部分内容的字符长度;
S123、确定可结构化内容和非结构化内容,所述可结构化内容为字符长度小于预设长度阈值的待划分内容,所述非结构化内容为字符长度大于或等于预设长度阈值的待划分内容。
可以首先筛选出包含标准招聘模板中需要提取的内容的待划分内容,然后再根据字符长度来区分可结构化内容和非结构化内容。
其中,可结构化内容在划分的过程中即可被准确地提取出来,通常,可结构化内容的提取通过字符长度,或者预先设定的与第一类关键词对应的正则表达式,被准确确定并提取出来,这些可结构化内容可以直接对应至各个第一类关键词,无需进行进一步处理。
需要注意的是,被剔除的招聘信息,也可以作为扩充样本,添加至现有标准招聘模板中,形成新的标准招聘模板,从而令标准招聘模板越来越完善。
S2、划分所述非结构化内容为单句。
将获得的非结构化内容先划分为若干单句,便于后续对非结构化内容的分析和提取。
具体地,如图4所示,为本申请实施例提供的一种划分单句的方法的流程图,所述方法包括:
S201、识别非结构化内容中的标点;
S202、将全部所述标点统一为预设符号;
S203、识别非结构化内容中的数字标号;
S204、在带有所述数字标号的单句的末尾添加所述预设符号;
S205、确定问题预设符号,所述问题预设符号为连续出现的预设符号组,且所述预设符号组内各预设符号之间无字符;
S206、将所述问题预设符号统一为所预设符号;
S207、以所述预设符号为分割点,划分所述非结构化内容为单句。
示例地,工作描述:1.需要吃苦耐劳;2、能够长期出差3、最好是有驾照。4、能够熟练分析地图;5.适应野外生活
可见,该非结构化内容中存在“;”“,”“。”等多种形式的标点,这些标点将非结构化内容分割为若干短句,但是,多种多样的标点会对统一处理分句带来困难。因此,首先将全部标点统一为同一个预设符号。该预设符号可以为非结构化内容中本身存在的标点,例如“;”;也可以为一个没有出现在非结构化内容中的符号,例如“、”“#”、“*”等。如果将预设符号设定为“;”,则统一标点后的非结构化内容为“工作描述;1.需要吃苦耐劳;2、能够长期出差3、最好是有驾照;4、能够熟练分析地图;5.适应野外生活”。
但是,在某些招聘信息的非结构化内容中,有些短句的末尾并不带有标点,例如“2、能够长期出差3、最好是有驾照”,本来应该为两个短句,但是仅根据标点划分,则无法准确分开,但是,通常对于这些没有标点的短句,会在开头带有数字标号。
接上例,工作描述;1.需要吃苦耐劳;2、能够长期出差3、最好是有驾照;4、能够熟练分析地图;5.适应野外生活
显然,在这种情况中,数字标号是分割短句的标志,除了在上述示例中给出的数字标点形式“1.”和“2、”,还可以包括“1”、“1)”等多种形式。可以利用正则表达式定位非结构化内容中的各个数字标号。在确定了各个数字标号之后,在带有数字标号的单句的末尾添加预设符号,则得到处理后的非结构化内容为“工作描述;1.需要吃苦耐劳;;2、能够长期出差;3、最好是有驾照;;4、能够熟练分析地图;;5.适应野外生活;”。可见,出现了两个“;”相连的问题预设符号,此时,如果按照“;”进行划分,则会出现0字符单句,因此,需要消除问题预设符号,即将问题预设符号再替换为预设符号,即为“工作描述;1.需要吃苦耐劳;2、能够长期出差;3、最好是有驾照;4、能够熟练分析地图;5.适应野外生活;”。之后,可以以预设符号“;”为分割点,将非结构化内容划分为单句,即为“工作描述”,“1.需要吃苦耐劳”,“2、能够长期出差”,“3、最好是有驾照”,“4、能够熟练分析地图”,“5.适应野外生活”。
可见,本申请实施例所提供的划分单句的方法,能够准确将非结构化内容划分为单句,从而保证后续提取内容的准确性。
S3、合并同内容单句,得到若干基础内容,所述同内容单句为描述同一第二类关键词的单句。
将非结构化内容分割为单句之后,这些单句之间并非完全割裂的,某些单句同时描述同一第二类关键词,而这些单句可能分散于非结构化内容中,因此,需要将同内容单句合并到一起,得到基础内容。具体地,如图5所示,为本申请实施例提供的一种合并同内容单句的方法的流程图,所述方法包括:
S301、确定代表关键词,所述代表关键词为单句中与第二类特征词的语义相似度大于预设相似度阈值的词语,所述第二类特征词为所述第二类关键词所对应的预设特征词库中的词语;
S302、确定分隔符,所述分隔符为每种代表关键词中第一个出现的代表关键词;
S303、确定同内容单句,所述同内容单句为两个分隔符之间的全部单句;
S304、合并所述同内容单句,得到若干基础内容。
示例地,“工作描述”,“1.需要吃苦耐劳”,“2、能够长期出差”,“3、最好是有驾照”,“4、能够熟练分析地图”,“5.适应野外生活”。
第二类关键词为代表招聘信息中关于能力、要求、规则等非结构化内容的关键词,例如,岗位要求、能力要求等。其中,各个第二类关键词都会对应一个预设特征词库,例如,“岗位要求”所对应的特征词库中包含“吃苦耐劳”、“出差”、“生活能力”等第二类特征词,“能力要求”所对应的特征词库中包含“驾照”、“CET6”、“JAVA”等第二类特征词。通过计算单句中每个词语与第二类关键词对应的各个第二类特征词之间的语义相似度,可以确定单句与第二类关键词之间的对应关系。例如,“1.需要吃苦耐劳”包含词语“需要”、“吃苦”、“耐劳”,其中,“吃苦”和“耐劳”与“岗位要求”的特征词“吃苦耐劳”之间的语义相似度大于预设相似度阈值,那么,代表关键词即为“吃苦”和“耐劳”,而“1.需要吃苦耐劳”则与“岗位要求”之间为对应关系。同理可知,“2、能够长期出差”的代表关键词为“长期”和“出差”;“3、最好是有驾照”的代表关键词为“驾照”;“4、能够熟练分析地图”的代表关键词为“分析”和“地图”;“5.适应野外生活”的代表关键词为“野外”和“生活”。其中,“吃苦”、“耐劳”、“长期”、“出差”、“野外”、“生活”均为对应于“岗位要求”的同一种代表关键词;“驾照”、“分析”、“地图”均为对应于“能力要求”的同一种代表关键词。每种代表关键词中第一个出现的代表关键词分别为“吃苦”、“驾照”、“野外”,因此,这三个代表关键词为分隔符。
两个分隔符之间的全部单句即为同内容单句,如果分隔符恰好位于非结构化内容的首句或者末句,则该首句或者末句为同内容单句。因此,得到同内容单句为“1.需要吃苦耐劳”和“2、能够长期出差”;“3、最好是有驾照”和“4、能够熟练分析地图”;“5.适应野外生活”。
将同内容单句进行合并,需要注意的是,由于“5.适应野外生活”与“1.需要吃苦耐劳”、“2、能够长期出差”对应于同一个第二类关键词,因此,三者本质上也是同内容单句,因此,虽然三者之间存在间隔,但是在合并的过程中,需要将三者合并到一起,则基础内容为“1.需要吃苦耐劳;2、能够长期出差;5.适应野外生活;”和“3、最好是有驾照;4、能够熟练分析地图;”。
S4、从所述基础内容中确定优选内容,所述优选内容为包含第三类关键词的单句,所述第三类关键词为基于所述第二类关键词设置的具有优选效果的关键词。
在基础内容的基础上,招聘信息中会增加一些优选内容,这些优选内容为满足基础内容,且进一步满足第三类关键词的内容。具体地,请参阅图6,为本申请实施例提供的一种确定优选内容的方法的流程图,所述方法包括:
S401、确定目标基础内容,所述目标基础内容为与所述第三类关键词对应的第二类关键词所在的基础内容;
S402、划分目标基础内容中各单句为分词;
S403、确定优选关键词,所述优选关键词为与第三类特征词的语义相似度大于预设语义相似度阈值的分词,所述第三类特征词为所述第三类关键词所对应的预设特征词库中的词语;
S404、确定优选内容,所述优选内容为所述优选关键词所在的单句。
示例地,基础内容为“1.需要吃苦耐劳;2、能够长期出差;5.适应野外生活;”和“3、最好是有驾照;4、能够熟练分析地图;”。
根据上例可知,“3、最好是有驾照;4、能够熟练分析地图;”与第二类关键词“能力要求”为对应关系,而“能力要求关键词”与“能力要求”为对应关系,因此,“3、最好是有驾照;4、能够熟练分析地图;”与第二类关键词“能力要求”为目标基础内容。
第三类关键词为以第二类关键词为基础,进一步表述第二类关键词的程度、是非、有无等优选内容的关键词,例如,能力要求关键字。其中,各个第三类关键词均带有对应的预设特征词库,例如,所述预设特征词库中包含“有”、“优秀”、“会”、“熟练”等第三类特征词。通过将基础内容中各个单句划分为词语,然后计算各个词语与第三类特征词之间的语义相似度,即可确定出优选关键词。例如,“3、最好是有驾照”,划分为词语为“最好”、“是”、“具有”、“驾照”,其中,“具有”与第三类特征词“有”的语义相似度大于预设语义相似度阈值,那么,“具有”即为优选关键词,其所在的单句“3、最好是有驾照”即为优选内容。同理可知,“4、能够熟练分析地图;”也为优选内容。
其中,为了确定优选关键词,也可以根据预先设定的与第三类特征词对应的正则表达式对目标基础内容进行匹配和提取。
可见,通过本申请实施例提供的确定优选内容的方法,能够清晰的提取出招聘单位优先考虑的条件,令求职者一目了然,方便查询。
S5、生成标准化招聘信息,所述标准化招聘信息包含所述可结构化内容、所述基础内容和所述优选内容。
根据可结构化内容、基础内容和优选内容所对应的第一类关键词、第二类关键词和第三类关键词,将提取出的内容填写至对应的可填写空白区域,最终得到标准化招聘信息,如图7所示。这样,招聘公司所公布的招聘信息不仅具有统一的格式,而且各部分的关键内容全部被完整、准确地提取出来,令招聘网站和求职人员均能够快速、准确地查询需要的信息。
请参阅图8,为本申请实施例提供的一种招聘信息标准化装置的结构示意图。所述装置包括:
招聘内容分类单元1,用于按照第一类关键词和第二类关键词,确定招聘信息中的可结构化内容和非结构化内容,所述第一类关键词用于对应提取招聘信息中的可结构化内容,所述第二类关键词用于对应提取招聘信息中的非结构化内容;
划分单元2,用于划分所述非结构化内容为单句;
基础内容确定单元3,用于合并同内容单句,得到若干基础内容,所述同内容单句为描述同一第二类关键词的单句;
优选内容确定单元4,用于从所述基础内容中确定优选内容,所述优选内容为包含第三类关键词的单句,所述第三类关键词为基于所述第二类关键词设置的具有优选效果的关键词;
信息生成单元5,用于生成标准化招聘信息,所述标准化招聘信息包含所述可结构化内容、所述基础内容和所述优选内容。
可选地,所述招聘内容分类单元2包括:获取单元,用于获取招聘信息中各部分内容的字符长度;预划分内容确定单元,用于确定预划分可结构化内容和预划分非结构化内容,所述预划分结构化内容为字符长度小于预设长度阈值的招聘信息,所述预划分非结构化内容为字符长度大于或等于预设长度阈值的招聘信息;最终内容确定单元,用于确定可结构化内容和非结构化内容,所述可结构化内容为所述预划分可结构化内容中包含第一类关键词的内容,所述非结构化内容为所述预划分非结构化内容中包含第二类关键词的内容。
可选地,所述划分单元3包括:标点识别单元,用于识别非结构化内容中的标点;符号统一单元,用于将全部所述标点统一为预设符号;数字标号识别单元,用于识别非结构化内容中的数字标号;符号添加单元,用于在带有所述数字标号的单句的末尾添加所述预设符号;问题符号确定单元,用于确定问题预设符号,所述问题预设符号为连续出现的预设符号组,且所述预设符号组内各预设符号之间无字符;问题符号统一单元,用于将所述问题预设符号统一为所预设符号;单句划分单元,用于以所述预设符号为分割点,划分所述非结构化内容为单句。
可选地,所述基础内容确定单元4包括:代表关键词确定单元,用于确定代表关键词,所述代表关键词为单句中与第二类特征词的语义相似度大于预设相似度阈值的词语,所述第二类特征词为所述第二类关键词所对应的预设特征词库中的词语;分隔符确定单元,用于确定分隔符,所述分隔符为每种代表关键词中第一个出现的代表关键词;同内容单句确定单元,用于确定同内容单句,所述同内容单句为两个分隔符之间的全部单句;合并单元,用于合并所述同内容单句,得到若干基础内容。
可选地,所述优选内容确定单元5包括:目标基础内容确定单元,用于确定目标基础内容,所述目标基础内容为与所述第三类关键词对应的第二类关键词所在的基础内容;分词划分单元,用于划分目标基础内容中各单句为分词;优选关键词确定单元,用于确定优选关键词,所述优选关键词为与第三类特征词的语义相似度大于预设语义相似度阈值的分词,所述第三类特征词为所述第三类关键词所对应的预设特征词库中的词语;关键词对应单元,用于确定优选内容,所述优选内容为所述优选关键词所在的单句。
由以上技术可知,本申请提供了一种招聘信息标准化方法及装置,其中,首先,按照第一类关键词和第二类关键词,确定各类招聘信息中的可结构化内容和非结构化内容。针对非结构化内容,将非结构化内容划分为单句,并根据所描述的第二类关键词,合并同内容单句,得到若干基础内容。由于第三类关键词是基于第二类关键词的选择词语,因此,可以从基础内容中继续根据第三类关键词确定优选内容。最后,得到标准化招聘信息。本申请所提供的招聘信息标准化方法能够不仅能够提取出各类招聘信息中的可结构化内容,还能够提取出各类招聘信息中的非结构化内容,同时对非结构化内容进行分析,准确确定出对应于标准模板的基础内容和优选内容,令生成的标准招聘信息更加清晰、准确,大大便利了求职人员的工作。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (8)
1.一种招聘信息标准化方法,其特征在于,所述方法包括:
按照第一类关键词和第二类关键词,确定招聘信息中的可结构化内容和非结构化内容,所述第一类关键词用于对应提取招聘信息中的可结构化内容,所述第二类关键词用于对应提取招聘信息中的非结构化内容;
划分非结构化内容为单句;
合并同内容单句,得到若干基础内容,所述同内容单句为描述同一第二类关键词的单句;
从基础内容中确定优选内容,所述优选内容为包含第三类关键词的单句,所述第三类关键词为以第二类关键词为基础,进一步表述第二类关键词的程度、是非、有无的关键词;
生成标准化招聘信息并展示,所述标准化招聘信息包含所述可结构化内容、所述基础内容和所述优选内容;
其中,所述从基础内容中确定优选内容包括:
确定目标基础内容,所述目标基础内容为与所述第三类关键词对应的第二类关键词所在的基础内容;
划分目标基础内容中各单句为分词;
确定优选关键词,所述优选关键词为与第三类特征词的语义相似度大于预设语义相似度阈值的分词,所述第三类特征词为所述第三类关键词所对应的预设特征词库中的词语;
确定优选内容,所述优选内容为所述优选关键词所在的单句。
2.根据权利要求1所述的方法,其特征在于,所述按照第一类关键词和第二类关键词,确定招聘信息中的可结构化内容和非结构化内容包括:
获取招聘信息中各部分内容的字符长度;
确定预划分可结构化内容和预划分非结构化内容,所述预划分可结构化内容为字符长度小于预设长度阈值的招聘信息,所述预划分非结构化内容为字符长度大于或等于预设长度阈值的招聘信息;
确定可结构化内容和非结构化内容,所述可结构化内容为所述预划分可结构化内容中包含第一类关键词的内容,所述非结构化内容为所述预划分非结构化内容中包含第二类关键词的内容。
3.根据权利要求1所述的方法,其特征在于,所述划分非结构化内容为单句包括:
识别非结构化内容中的标点;
将全部所述标点统一为预设符号;
识别非结构化内容中的数字标号;
在带有所述数字标号的单句的末尾添加所述预设符号;
确定问题预设符号,所述问题预设符号为连续出现的预设符号组,且所述预设符号组内各预设符号之间无字符;
将所述问题预设符号统一为所预设符号;
以所述预设符号为分割点,划分所述非结构化内容为单句。
4.根据权利要求1所述的方法,其特征在于,所述合并同内容单句,得到若干基础内容包括:
确定代表关键词,所述代表关键词为单句中与第二类特征词的语义相似度大于预设相似度阈值的词语,所述第二类特征词为所述第二类关键词所对应的预设特征词库中的词语;
确定分隔符,所述分隔符为每种代表关键词中第一个出现的代表关键词;
确定同内容单句,所述同内容单句为两个分隔符之间的全部单句;
合并所述同内容单句,得到若干基础内容。
5.一种招聘信息标准化装置,其特征在于,所述装置包括:
招聘内容分类单元,用于按照第一类关键词和第二类关键词,确定招聘信息中的可结构化内容和非结构化内容,所述第一类关键词用于对应提取招聘信息中的可结构化内容,所述第二类关键词用于对应提取招聘信息中的非结构化内容;
划分单元,用于划分所述非结构化内容为单句;
基础内容确定单元,用于合并同内容单句,得到若干基础内容,所述同内容单句为描述同一第二类关键词的单句;
优选内容确定单元,用于从所述基础内容中确定优选内容,所述优选内容为包含第三类关键词的单句,所述第三类关键词为以第二类关键词为基础,进一步表述第二类关键词的程度、是非、有无的关键词;
信息生成单元,用于生成标准化招聘信息并展示,所述标准化招聘信息包含所述可结构化内容、所述基础内容和所述优选内容;
其中,所述优选内容确定单元包括:
目标基础内容确定单元,用于确定目标基础内容,所述目标基础内容为与所述第三类关键词对应的第二类关键词所在的基础内容;
分词划分单元,用于划分目标基础内容中各单句为分词;
优选关键词确定单元,用于确定优选关键词,所述优选关键词为与第三类特征词的语义相似度大于预设语义相似度阈值的分词,所述第三类特征词为所述第三类关键词所对应的预设特征词库中的词语;
关键词对应单元,用于确定优选内容,所述优选内容为所述优选关键词所在的单句。
6.根据权利要求5所述的装置,其特征在于,所述招聘内容分类单元包括:
获取单元,用于获取招聘信息中各部分内容的字符长度;
预划分内容确定单元,用于确定预划分可结构化内容和预划分非结构化内容,所述预划分可结构化内容为字符长度小于预设长度阈值的招聘信息,所述预划分非结构化内容为字符长度大于或等于预设长度阈值的招聘信息;
最终内容确定单元,用于确定可结构化内容和非结构化内容,所述可结构化内容为所述预划分可结构化内容中包含第一类关键词的内容,所述非结构化内容为所述预划分非结构化内容中包含第二类关键词的内容。
7.根据权利要求5所述的装置,其特征在于,所述划分单元包括:
标点识别单元,用于识别非结构化内容中的标点;
符号统一单元,用于将全部所述标点统一为预设符号;
数字标号识别单元,用于识别非结构化内容中的数字标号;
符号添加单元,用于在带有所述数字标号的单句的末尾添加所述预设符号;
问题符号确定单元,用于确定问题预设符号,所述问题预设符号为连续出现的预设符号组,且所述预设符号组内各预设符号之间无字符;
问题符号统一单元,用于将所述问题预设符号统一为所预设符号;
单句划分单元,用于以所述预设符号为分割点,划分所述非结构化内容为单句。
8.根据权利要求5所述的装置,其特征在于,所述基础内容确定单元包括:
代表关键词确定单元,用于确定代表关键词,所述代表关键词为单句中与第二类特征词的语义相似度大于预设相似度阈值的词语,所述第二类特征词为所述第二类关键词所对应的预设特征词库中的词语;
分隔符确定单元,用于确定分隔符,所述分隔符为每种代表关键词中第一个出现的代表关键词;
同内容单句确定单元,用于确定同内容单句,所述同内容单句为两个分隔符之间的全部单句;
合并单元,用于合并所述同内容单句,得到若干基础内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910651888.8A CN110377907B (zh) | 2019-07-18 | 2019-07-18 | 一种招聘信息标准化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910651888.8A CN110377907B (zh) | 2019-07-18 | 2019-07-18 | 一种招聘信息标准化方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110377907A CN110377907A (zh) | 2019-10-25 |
CN110377907B true CN110377907B (zh) | 2023-09-08 |
Family
ID=68253999
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910651888.8A Active CN110377907B (zh) | 2019-07-18 | 2019-07-18 | 一种招聘信息标准化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110377907B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460813B (zh) * | 2020-03-04 | 2023-04-18 | 北京网聘咨询有限公司 | 招聘信息和求职简历匹配的方法及系统 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6874002B1 (en) * | 2000-07-03 | 2005-03-29 | Magnaware, Inc. | System and method for normalizing a resume |
JP2006031204A (ja) * | 2004-07-14 | 2006-02-02 | Recruit Co Ltd | 情報マッチング装置 |
CN102779114A (zh) * | 2011-05-12 | 2012-11-14 | 商业对象软件有限公司 | 利用自动规则生成的非结构化数据支持 |
CN102999523A (zh) * | 2011-09-16 | 2013-03-27 | 陆敏 | 一种才智数字化的方法 |
CN105117863A (zh) * | 2015-09-28 | 2015-12-02 | 北京橙鑫数据科技有限公司 | 简历职位匹配方法及装置 |
CN105808744A (zh) * | 2016-03-11 | 2016-07-27 | 百度在线网络技术(北京)有限公司 | 信息预测的方法和装置 |
US9665641B1 (en) * | 2013-04-09 | 2017-05-30 | Guangsheng Zhang | System, methods, and user interface for automated job search |
CN107194617A (zh) * | 2017-07-06 | 2017-09-22 | 北京航空航天大学 | 一种app软件工程师软技能分类系统及方法 |
CN107392433A (zh) * | 2017-06-27 | 2017-11-24 | 北京神州泰岳软件股份有限公司 | 一种提取企业关联关系信息的方法和装置 |
CN107590133A (zh) * | 2017-10-24 | 2018-01-16 | 武汉理工大学 | 基于语义的招聘职位与求职简历匹配的方法及系统 |
US10146751B1 (en) * | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
KR101964632B1 (ko) * | 2017-12-26 | 2019-04-02 | (주)사람인에이치알 | 구인 구직 서비스에서의 이력서 양식 제공 방법 |
CN109634994A (zh) * | 2018-12-21 | 2019-04-16 | 深圳市览网络股份有限公司 | 一种简历与职位的匹配推送方法及计算机设备和存储介质 |
CN109753909A (zh) * | 2018-12-27 | 2019-05-14 | 广东人啊人网络技术开发有限公司 | 一种基于内容分块和BiLSTM模型的简历解析方法 |
CN109800284A (zh) * | 2018-12-19 | 2019-05-24 | 中国电子科技集团公司第二十八研究所 | 一种面向任务的非结构化信息智能问答系统构建方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7587395B2 (en) * | 2005-07-27 | 2009-09-08 | John Harney | System and method for providing profile matching with an unstructured document |
IN2014CH00068A (zh) * | 2014-01-07 | 2015-07-10 | Formcept Technologies And Solutions Private Ltd | |
US20190095868A1 (en) * | 2017-09-28 | 2019-03-28 | Facebook, Inc. | Methods and systems for converting unstructured text into structured job postings |
-
2019
- 2019-07-18 CN CN201910651888.8A patent/CN110377907B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6874002B1 (en) * | 2000-07-03 | 2005-03-29 | Magnaware, Inc. | System and method for normalizing a resume |
JP2006031204A (ja) * | 2004-07-14 | 2006-02-02 | Recruit Co Ltd | 情報マッチング装置 |
CN102779114A (zh) * | 2011-05-12 | 2012-11-14 | 商业对象软件有限公司 | 利用自动规则生成的非结构化数据支持 |
CN102999523A (zh) * | 2011-09-16 | 2013-03-27 | 陆敏 | 一种才智数字化的方法 |
US9665641B1 (en) * | 2013-04-09 | 2017-05-30 | Guangsheng Zhang | System, methods, and user interface for automated job search |
US10146751B1 (en) * | 2014-12-31 | 2018-12-04 | Guangsheng Zhang | Methods for information extraction, search, and structured representation of text data |
CN105117863A (zh) * | 2015-09-28 | 2015-12-02 | 北京橙鑫数据科技有限公司 | 简历职位匹配方法及装置 |
CN105808744A (zh) * | 2016-03-11 | 2016-07-27 | 百度在线网络技术(北京)有限公司 | 信息预测的方法和装置 |
CN107392433A (zh) * | 2017-06-27 | 2017-11-24 | 北京神州泰岳软件股份有限公司 | 一种提取企业关联关系信息的方法和装置 |
CN107194617A (zh) * | 2017-07-06 | 2017-09-22 | 北京航空航天大学 | 一种app软件工程师软技能分类系统及方法 |
CN107590133A (zh) * | 2017-10-24 | 2018-01-16 | 武汉理工大学 | 基于语义的招聘职位与求职简历匹配的方法及系统 |
KR101964632B1 (ko) * | 2017-12-26 | 2019-04-02 | (주)사람인에이치알 | 구인 구직 서비스에서의 이력서 양식 제공 방법 |
CN109800284A (zh) * | 2018-12-19 | 2019-05-24 | 中国电子科技集团公司第二十八研究所 | 一种面向任务的非结构化信息智能问答系统构建方法 |
CN109634994A (zh) * | 2018-12-21 | 2019-04-16 | 深圳市览网络股份有限公司 | 一种简历与职位的匹配推送方法及计算机设备和存储介质 |
CN109753909A (zh) * | 2018-12-27 | 2019-05-14 | 广东人啊人网络技术开发有限公司 | 一种基于内容分块和BiLSTM模型的简历解析方法 |
Non-Patent Citations (1)
Title |
---|
招聘面试人工智能系统的框架与模块研究;杨真;陈建安;;江苏大学学报(社会科学版)(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110377907A (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908635B (zh) | 建立文本分类模型以及文本分类的方法、装置 | |
US10521464B2 (en) | Method and system for extracting, verifying and cataloging technical information from unstructured documents | |
US20180260385A1 (en) | Symbol management | |
US20080270386A1 (en) | Document retrieval system and document retrieval method | |
US11263714B1 (en) | Automated document analysis for varying natural languages | |
US20070067317A1 (en) | Navigating through websites and like information sources | |
US10936667B2 (en) | Indication of search result | |
US11393237B1 (en) | Automatic human-emulative document analysis | |
CN113495900A (zh) | 基于自然语言的结构化查询语言语句获取方法及装置 | |
US20140101542A1 (en) | Automated data visualization about selected text | |
CN112035675A (zh) | 医疗文本标注方法、装置、设备及存储介质 | |
KR20150059208A (ko) | 소셜 웹 미디어의 이벤트 시공간 연관성 분석 장치 및 그 방법 | |
US20210390251A1 (en) | Automatic generation of form application | |
CN110990651B (zh) | 地址数据处理方法、装置、电子设备及计算机可读介质 | |
CN114495143A (zh) | 一种文本对象识别方法、装置、电子设备及存储介质 | |
Owen et al. | Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections. | |
WO2023038722A1 (en) | Entry detection and recognition for custom forms | |
CN111369294A (zh) | 软件造价估算方法及装置 | |
CN110377907B (zh) | 一种招聘信息标准化方法及装置 | |
CN102902705A (zh) | 定位数据中的歧义 | |
CN109670183B (zh) | 一种文本重要性的计算方法、装置、设备和存储介质 | |
CN114842982B (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
JP5877775B2 (ja) | コンテンツ管理装置、コンテンツ管理システム、コンテンツ管理方法、プログラム、及び記憶媒体 | |
CN112069273A (zh) | 地址文本的分类方法、装置、电子设备及存储介质 | |
CN113517047A (zh) | 医学数据的获取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province Applicant after: Dingfu Intelligent Technology Co.,Ltd. Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |