CN110334112A - 一种简历信息检索方法及装置 - Google Patents
一种简历信息检索方法及装置 Download PDFInfo
- Publication number
- CN110334112A CN110334112A CN201910649230.3A CN201910649230A CN110334112A CN 110334112 A CN110334112 A CN 110334112A CN 201910649230 A CN201910649230 A CN 201910649230A CN 110334112 A CN110334112 A CN 110334112A
- Authority
- CN
- China
- Prior art keywords
- information
- candidate
- result
- data
- unidentified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种简历信息检索方法及装置,能够根据用户输入内容和用户选择的筛选条件得到检索信息;然后,根据检索信息从数据库中获取包含候选结果第一候选集,候选结果包括结构化数据;然后,根据用户输入内容中的未识别信息,从第一候选集中筛选得到第二候选集;最后,根据未识别信息与第二候选集中的结构化数据之间的语义相似度,从第二候选集中筛选得到目标集。由此,本申请通过用户直接输入内容和选择筛选条件两种途径确定检索信息,使用筛选信息和未识别信息对数据库进行两次筛选,又结合未识别信息和结构化数据的语义相似度进行第三次筛选,最终得到目标集。从而,在无需人工参与的情况下,提高了信息检索的准确性和工作效率。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种简历信息检索方法及装置。
背景技术
企业内的各个部门的日常工作中常常涉及数据的管理,例如人才信息的检索、项目信息的管理、财务信息的管理等等。以企业的人力资源部门为例,企业HR(HumanResource,人力资源顾问)在从事招聘工作时,需要反复与多个招聘网站去检索匹配招聘岗位需求的求职者简历。由于各个岗位或职业的求职者众多,大量的简历展示在招聘网站中,并且HR在检索时需要对简历逐一浏览,才能确定求职者是否满足企业的岗位需求,因此,检索简历对于HR来说是一项非常繁重的工作,耗时费力,并且效率不高。
另外,一些求职者虽然在照片网站上投放了自己的简历,但在他们的工作状态(例如:已离职、在职等)发生改变之后,并没有及时修改其简历中的求职状态(例如:已离职,正在求职;在职,正在求职;未求职等),从而导致HR可能浏览到一些过期的简历,或者,在有接触意向的求职者改变求职状态时不能及时发现,从而不利于企业吸收人才。
可见,在企业内的各个部门的日常工作中,在信息检索方面的工作效率还有待提高。
发明内容
本申请实施例提供了一种简历信息检索方法及装置,以解决企业部门在涉及到信息检索工作中效率低的问题。
第一方面,本申请实施例提供了一种简历信息检索方法,该方法包括:从用户输入内容中识别出结构化筛选信息,并与用户选择的筛选条件中包含的结构化筛选信息组合得到检索信息;根据所述检索信息从数据库中获取第一候选集,所述第一候选集包括至少一个候选结果,每个候选结果包括多个相互关联的结构化数据;建立用户输入内容中的未识别信息与所述结构化数据之间的映射,并根据所述未识别信息和映射的所述结构化数据的内容匹配度,筛选所述第一候选集中的至少一个候选结果得到第二候选集;根据所述未识别信息与所述结构化数据的语义相似度,筛选所述第二候选集中的至少一个候选结果得到目标集。
第二方面,本申请实施例提供了一种简历信息检索装置,该装置包括:检索信息生成模块,用于从用户输入内容中识别出结构化筛选信息,并与用户选择的筛选条件中包含的结构化筛选信息组合得到检索信息;第一检索模块,用于根据所述检索信息从数据库中获取第一候选集,所述第一候选集包括至少一个候选结果,每个候选结果包括多个相互关联的结构化数据;第二检索模块,用于建立用户输入内容中的未识别信息与所述结构化数据之间的映射,并根据所述未识别信息和映射的所述结构化数据的内容匹配度,筛选所述第一候选集中的至少一个候选结果得到第二候选集内容匹配度;第三检索模块,用于根据所述未识别信息与所述结构化数据的语义相似度,筛选所述第二候选集中的至少一个候选结果得到目标集。
由以上技术方案可知,本申请实施例提供了一种简历信息检索方法及装置,能够从用户输入内容中识别出结构化筛选信息,与用户选择的筛选条件中包含的结构化筛选信息组合得到检索信息;然后,根据检索信息从数据库中获取第一候选集,第一候选集包括至少一个候选结果,每个候选结果包括多个相互关联的结构化数据;然后,建立用户输入内容中的未识别信息与所述结构化数据之间的映射,并根据所述未识别信息和映射的所述结构化数据的内容匹配度,筛选所述第一候选集中的至少一个候选结果得到第二候选集;最后,根据未识别信息与第二候选集中的结构化数据之间的语义相似度,从第二候选集中筛选得到目标集。由此,本申请通过用户直接输入内容和选择筛选条件两种途径确定检索信息,使用筛选信息中的结构化筛选信息和未识别信息对数据库进行两次筛选,又结合未识别信息和结构化数据的语义相似度对前两次筛选的结果进行进一步筛选,从而,从而,在无需人工参与的情况下,提高了信息检索的准确性和工作效率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种简历信息检索方法的流程图;
图2是本申请实施例提供的一种简历信息检索方法步骤S101的流程图;
图3是本申请实施例提供的一种简历信息检索方法步骤S103的流程图;
图4为本申请实施例提供的一种简历信息检索方法步骤S104的流程图;
图5是本申请实施例提供的维护第二标签字段的流程图;
图6是本申请实施例提供的一种信息采集方法的流程图;
图7是本申请实施例提供的一种简历信息检索装置的结构示意图;
图8是本申请实施例提供的另一种简历信息检索装置的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
企业内的各个部门的日常工作中常常涉及数据的管理,例如人才信息的检索、项目信息的管理、财务信息的管理等等。以企业的人力资源部门为例,企业HR(HumanResource,人力资源顾问)在从事招聘工作时,需要往复与多个招聘网站去检索匹配招聘岗位需求的求职者简历。由于各个岗位或职业的求职者众多,大量的简历展示在招聘网站中,并且HR在检索时需要对简历逐一浏览,才能确定求职者是否满足企业的岗位需求,因此,检索简历对于HR来说是一项非常繁重的工作,耗时费力,并且效率不高。
为了提高企业内部人力资源部门的工作效率,本申请提供了一种简历信息检索方法,可以应用于服务器、PC(个人电脑)、平板电脑和手机等多种设备中。该方法能够根据企业的个性化需求构建人才库,并提供相关人才信息的智能检索,将企业HR从大量繁琐的数据采集和检索的工作中解放出来,提高数据采集效率和数据管理的效率。
图1是本申请实施例提供的一种简历信息检索方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,从用户输入内容中识别出结构化筛选信息,并与用户选择的筛选条件中包含的结构化筛选信息组合得到检索信息。
用户可以通过语音输入、文字输入的方式输入要检索的内容,本方法首先将用户输入的内容识别成文本,然后从文本中识别出与预设的结构化数据类别相对应的结构化筛选信息,并提取出来。当本申请的方法应用到企业的人才信息检索时,上述结构化数据的类别可以包括:地域、工作年限、岗位名称、关键技术、学历、专业、学校级别等。
那么,基于上述结构化数据的类别,当用户输入“北京211软件工程”时,通过解析可以得到以下结构化筛选信息:
北京(对应“地域”);211(对应“学校级别”);软件工程(对应“专业”);
筛选条件的确定可以包括:在预先构建的结构化的人才数据库的基础上,利用预设的地域、学历、学校级别、工作年限、职位名称和简历更新时间等结构化数据类别设置不同的选项,例如对工作年限,可以设置:应届、0~3年、3~5年、5~10年等。从而,用户可以根据自身对人才的要求和期望,选择不同的选项。
用户可以根据企业的人才需求确定每一类结构化数据具体包含哪些选项,例如“职位名称”可以设置的选项有:运维、JAVA开发工程师、前端工程师、大数据工程师等。另外,当识别到用户正在这些选项做出选择时,本方法可以根据结构化筛选信息识别结果为用户推荐选项,例如;当结构化筛选信息包含“JAVA”时,推荐选项可以是“JAVA开发工程师”等。
其他结构化数据,例如:“地域”可以具体包含“目前工作城市”“期望城市”“不限于XX(地名)”“XX(地名)”等结构化筛选信息;“工作年限”“期望薪资”“年龄”等适用于区段筛选的结构化数据可以设置“不限”,“0~3年”等结构化筛选信息,还可以灵活设置的区间;“教育经历”可以包含“不限”“最低XXX”“985”“211”等结构化筛选信息,可以是单选项也可以是复选项;“信息更新时间”可以包含“不限”“一个月前”“一年前”等结构化筛选信息;“求职状态”可以包含“在职,考虑跳槽”“已离职,正在求职”等结构化筛选信息。上述结构化筛选信息均可以通过下拉列表的方式呈现,当用户选择好每一个选项之后,本方法即可以确定出筛选条件,例如包含“不限于北京”“硕士”“26~35周岁”等结构化筛选信息。
本申请将上述从用户输入内容中识别出结构化筛选信息与从筛选条件选取的结构化筛选信息,以生成检索信息。在一个实施例中,检索信息是具有逻辑与关系的第一检索表达式,因此,步骤S101如图2所示,可以包括以下步骤:
步骤S201,从用户输入内容中识别至少一个结构化筛选信息;
步骤S202,根据所述筛选条件包含的结构化筛选信息,生成具有逻辑与关系的第二检索表达式。
具体地,在用户通过选择确定筛选条件之后,本申请结合搜索引擎的检索脚本语言,对筛选条件中包含的结构化筛选信息进行合并,生成具有逻辑与关系的第二检索表达式,例如:
结构化筛选信息1∩结构化筛选信息2∩结构化筛选信息3
步骤S203,将从用户输入内容中识别的结构化筛选信息与所述第二检索表达式进行合并,得到所述第一检索表达式。
例如,从用户输入内容中识别的结构化筛选信息包括:结构化筛选信息4、结构化筛选信息5和结构化筛选信息6,那么最终的生成的第一检索表达式(即检索信息)可以是:
结构化筛选信息1∩结构化筛选信息2∩结构化筛选信息3∩结构化筛选信息4∩结构化筛选信息5∩结构化筛选信息6
由此,本申请允许从用户输入内容和选择筛选条件两种方式相结合地生成第一检索表达式,如果用户有明确的检索目标,用户可以输入相应的内容,如果用户一时无法总结出明确的检索目标,则可以通过逐一选择选项的方式确定筛选条件。因此,本申请提供的方法能够提高第一检索表达式维度的丰富性。
步骤S102,根据所述检索信息从数据库中获取第一候选集,所述第一候选集包括至少一个候选结果,每个候选结果包括多个相互关联的结构化数据。
如果是企业人力资源部门的信息管理,数据库就是企业的人才库,该人才库包含大量求职者简历的结构化数据。那么,每一条候选结果就是一份简历在人才库中对应的全部结构化数据,这些数据由于属于一个求职者,因此是相互关联的。并且,检索信息中的每一个结构化筛选信息均能够在候选结构中匹配到对应的结构化数据。
由此,实现了根据结构化筛选信息对数据库进行第一轮检索,从数据库筛选出包含全部结构化筛选信息的候选结果,得到第一候选集,那么在接下来的检索步骤中,就可以将第一候选集作为筛选范围,由此减小了检索量,提高检索效率。
步骤S103,建立用户输入内容中的未识别信息与所述结构化数据之间的映射,并根据所述未识别信息和映射的所述结构化数据的内容匹配度,筛选所述第一候选集中的至少一个候选结果得到第二候选集。
在一个实施例中,可以根据用户输入内容中的未识别信息的数据长度,建立未识别信息与第一候选集中的结构化数据之间的映射。在不同类型的结构化数据中,其数据值的长度会存在差别,例如:“地域”类的数据长度大多在四个字符以内(例如:北京、石家庄、齐齐哈尔等);“公司名称”类的数据长度可以超过十个字符(例如:北京XXXX股份有限公司等);“专业”类的数据长度一般要比“地域”这类结构化数据稍长一些(例如:计算机科学与技术等)。根据上述数据长度与结构化数据类型之间存在的规律,步骤S103如图3所示,可以包括以下步骤:
步骤S301,根据所述未识别信息的数据长度,对所述未识别信息进行粗分类,每个粗分类映射所述第一候选集中的至少一种结构化数据。
示例地,如果是企业人力资源部门的信息管理,那么可以根据未识别信息的数据长度进行如下的粗分类:
将数据长度小于或者等于4个字符的未识别信息划分为一类,映射到“地域”“学历”“关键技术”等结构化数据,用于与上述结构化数据进行模糊匹配;将数据长度大于或者等于4个字符并且小于或者等于10个字符的未识别信息划分为一类,映射到“岗位名称”“行业”“学校名称”“公司名称”“项目名称”和“关键技术”等结构化数据,用于与上述结构化数据进行模糊匹配;将数据长度大于或者等于十个字符的未识别信息划分为一类,映射到“公司名称”“工作描述”“工作职责”“项目名称”“项目描述”“关键技术”等结构化数据,用于与上述结构化数据进行匹配。
从上述示例中可以看出,“关键技术”“项目名称”“公司名称”等结构化数据,均与至少两类检索项建立了映射,说明未识别信息与结构化数据的映射可以是一对一的映射,也可以是一对多的映射,有利于提高模糊匹配的容错率和鲁棒性。
步骤S302,获取所述第一候选集中的每个候选结果与所述未识别信息的第一匹配得分,所述第一匹配得分为候选结果的结构化数据与映射的所述未识别信息的匹配度的加权和。
本申请中,用户可以针对不同的结构化数据在检索需求中的价值高低,为不同的结构化数据设置不同的权值,在计算未识别信息与映射的结构化数据之间的匹配度之后,与对应的权值相乘,得到加权匹配度,再将得到的多个映射的加权匹配度相加,得到检索信息与候选结果的第一匹配得分。
步骤S303,从所述第一候选集中筛选出所述第一匹配得分大于预设第一得分阈值的候选结果,得到所述第二候选集。
在一些实施中,未识别信息与结构化数据之间的字符相似度可以是大于零的正值,也可以是小于零的负值,因此可以将第一得分阈值设置为0,当第一匹配得分大于0时,说明未识别信息与候选结果总体上来说具有正向匹配关系,因此,可以将所有第一匹配得分大于0的候选结果筛选出来,以得到第二候选集。
由此,实现了根据未识别信息对数据库进行第二轮检索,从第一候选集中进一步筛选出一部分与未识别信息匹配度较高的候选结果,得到第二候选集,那么在接下来的检索步骤中,就可以将第二候选集作为筛选范围,进一步减小了检索量,提高检索效率,并提高检索的精确度。
步骤S104,根据所述未识别信息与所述结构化数据的语义相似度,筛选所述第二候选集中的至少一个候选结果得到目标集。
图4为本申请实施例提供的一种简历信息检索方法步骤S104的流程图。
在一个实施例中,如图4所示,步骤S104可以包括以下步骤:
步骤S401,根据预先训练的词向量模型,将所述未识别信息和所述第二候选集中的结构化数据进行向量化表示。
词向量模型可以根据要检索信息的种类,使用大规模的已知数据训练得到。例如,在简历检索业务中,可以预先搜集大量的简历,对简历中内容进行标注,然后输入到词向量模型,以训练得到适用于简历数据的词向量模型。
在得到词向量模型之后,使用该词向量模型对未识别信息和第二候选集中的结构化数据表示成向量形式,实现以向量表达式未识别信息和结构化数据的语义。
步骤S402,获取所述第二候选集中的每个候选结果与所述未识别信息的第二匹配得分,所述第二匹配得分为候选结果的结构化数据与映射的所述未识别信息的语义相似度的加权和。
其中,语义相似度可以是向量化表示的结构化数据和未识别信息之间的余弦相似度。本申请实施例根据不同类型的结构化数据对信息检索的重要程度,为不同类型的结构化数据预先分配了不同的权重值,用于对语义相似度进行加权。那么,对于任意一个候选结果来说,它与未识别信息的第二匹配得分就是它包含的所有结构化数据与映射的未识别信息的语义相似度的加权和。
步骤S403,从所述第二候选集中筛选出所述第二匹配得分大于预设第二得分阈值的候选结果,得到所述目标集。
在步骤S403中,根据第二匹配得分从高到低的顺序对候选结果进行排序,并根据预设的第二得分阈值,选出第二匹配得分大于第二得分阈值的候选结果,得到目标集。该目标集就是本方法信息检索的结果。
在一些实施例中,候选结果还包括第一标签字段,该方法还可以包括:对于目标集中的每个候选结果,判断所述结构化筛选信息与所述候选结果的结构化数据的内容是否相同,如果相同,则在所述第一标签字段中添加预设的标签信息。
示例地,如果检索信息中存在“岗位名称”这一类别的结构化筛选信息,那么本申请会在简历的“工作经历信息”这一栏目中提取结构化数据,以获取求职者最近的工作经历对应的岗位名称,并判断这两个岗位名称是否相同,如果相同,则会在简历的第一标签字段中添加“最近工作职位相同”的标签信息。
以此类推,逐一将检索信息中的每一项结构化筛选信息与候选结果中的结构化数据进行匹配,如果相同,则在第一标签字段中添加对应的标签信息。例如,对于一篇简历来说,它可添加的标签信息可以包括:最近工作职位相同、最近工作内容相关、技术相同(以及技术相同的数量)、职位相同(以及职位相同的数量)、工作内容相关(工作内容相关的数量)、最近就职的竞争对手公司(以及竞争对手公司数量)、专业匹配、学历匹配、学校等级匹配和工作年限匹配等。
在一些实施例中,目标集以列表的形式展示各个候选结果,并在列表中展示候选结果的一部分结构化数据。例如,对于简历来说,简历列表中可以展示求职者的年龄、工作年限、地域、教育经历等信息,以便企业的HR根据这些信息确定出感兴趣的简历,并选中这些简历查看简历的全部信息。
在一些实施例中,目标集中的候选结果还用于被添加第二标签字段。例如企业HR可以了解到求职者由于一些原因不再继续求职时,可以在第二标签字段中添加“候选人”等标签。
图5是本申请实施例提供的维护第二标签字段的流程图。
如图5所示,在一些实施例中,目标集中的候选结果还用于被添加第二标签字段,成为被关注结果。当目标集中包含被关注结果时,本申请实施例提供的方法还包括以下维护第二标签字段的步骤:
步骤S501,判断所述被关注结果是否发生更新。
步骤S502,如果所述被关注结果发生更新,判断所述被关注结果的更新时间是否晚于其被添加第二标签字段的时间。
步骤S503,如果所述被关注结果的更新时间晚于其被添加第二标签字段的时间,则判断所述被关注结果的更新时间与其被添加第二标签字段的时间间隔是否大于预设时间阈值。
步骤S504,如果大于预设时间阈值,则生成用于提示所述被关注结果发生更新的提示信息。
例如在简历筛选中,如果HR希望关注某位求职者的求职动态,可以为该求职者的简历添加“候选人”标签,则本申请实施例提供的方法会对该简历进行监控,如果发现该简历内容发生了更新,则首先判断该简历的更新时间是否在简历被添加“候选人”标签之后;如果简历的更新时间是否在简历被添加“候选人”标签之后,则继续判断简历的更新时间与简历被添加“候选人”标签的时间间隔是否大于时间阈值,例如是否大于三个月;如果大于三个月,在而生成提示消息,以帮助HR自动跟进求职者的求职动态,提升面试通过率,降低时间成本;如果不大于三个月,则不提示任何信息。在上述方法中,可以创建一个信息列表,所有更新的提示消息都加入到这个信息列表中,并按照时间排序。
本申请实施例还提供了一种信息采集方法。该信息采集方法如图6所示可以包括以下步骤:
步骤S601,从至少一个网站数据源爬取包括预设关键词的网页数据。
以从网站获取简历数据为例:首先,可以配置一个采集模板,该模板包括采集的目标网站,以及用于登录到该目标网站的登录信息,例如:企业名称、登录账号和密码等,利用配置好的登录信息,可以实现自动登录到目标网站;然后,使用预先设定的关键词,定时检索网站内的简历数据,并爬取到本地,并对采集的简历数据进行查重和定期更新等操作。
在一些实施例中,可以对目标网站执行多源采集,多源采集是指配置多个目标网站,并登录到多个网站进行多线程采集。还可以对目标网站执行多元采集,多元采集是指配置多个采集单元,例如在简历数据采集中,以招聘岗位配置采集单元,每个采集单元对应设置至少一个关键词,从而针对各个招聘岗位分别采集简历数据。
在一些实施例中,针对以招聘岗位为采集单元采集到的简历数据,还可以配置对应的岗位信息和负责人信息,例如:岗位名称、部门名称、负责人、负责人职务、负责人联系方式等,从而可以通过上述信息快速定位到有人才需求的部门及其负责人。
步骤S602,基于所述数据库的数据存储结构,从所述网页数据中解析获取结构化数据。
示例地,对于简历数据库来说,其数据存储结构可以由学历、工作年限、岗位名称、职位名称、工作年限等结构化数据组成,因此,在解析简历时,可以有针对性地从简历中解析上述结构化数据。
步骤S603,将所述结构化数据存储至所述数据库中。
由以上技术方案可知,本申请实施例提供了一种简历信息检索方法,包括:从用户输入内容中识别出结构化筛选信息,与用户选择的筛选条件中包含的结构化筛选信息组合得到检索信息;然后,根据检索信息从数据库中获取第一候选集,第一候选集包括至少一个候选结果,每个候选结果包括多个相互关联的结构化数据;然后,建立用户输入内容中的未识别信息与所述结构化数据之间的映射,并根据所述未识别信息和映射的所述结构化数据的内容匹配度,筛选所述第一候选集中的至少一个候选结果得到第二候选集;最后,根据未识别信息与第二候选集中的结构化数据之间的语义相似度,从第二候选集中筛选得到目标集。由此,通过用户直接输入内容和选择筛选条件两种途径确定检索信息,使用筛选信息中的结构化筛选信息和未识别信息对数据库进行两次筛选,又结合未识别信息和结构化数据的语义相似度对前两次筛选的结果进行进一步筛选,从而,在无需人工参与的情况下,提高了信息检索的准确性和工作效率。
本申请提供了一种简历信息检索装置,该装置可用于执行本申请的方法实施例,对于本申请装置实施例未公开的技术细节,请参照本申请的方法实施例。
图7是本申请实施例提供的一种简历信息检索装置的结构示意图。如图7所示,该装置包括:
检索信息生成模块701,用于从用户输入内容中识别出结构化筛选信息,并与用户选择的筛选条件中包含的结构化筛选信息组合得到检索信息;
第一检索模块702,用于根据所述检索信息从数据库中获取第一候选集,所述第一候选集包括至少一个候选结果,每个候选结果包括多个相互关联的结构化数据;
第二检索模块703,用于建立用户输入内容中的未识别信息与所述结构化数据之间的映射,并根据所述未识别信息和映射的所述结构化数据的内容匹配度,筛选所述第一候选集中的至少一个候选结果得到第二候选集内容匹配度;
第三检索模块704,用于根据所述未识别信息与所述结构化数据的语义相似度,筛选所述第二候选集中的至少一个候选结果得到目标集。
在一个实施例中,当该装置用于信息采集时,如图8所示,还包括:
爬取模块801,用于从至少一个网站数据源爬取包括预设关键词的网页数据;
解析模块802,用于基于所述数据库的数据存储结构,从所述网页数据中解析获取结构化数据;
存储模块803,用于将所述结构化数据存储至所述数据库中。
由以上技术方案可知,本申请实施例提供了一种简历信息检索装置,用于:从用户输入内容中识别出结构化筛选信息,与用户选择的筛选条件中包含的结构化筛选信息组合得到检索信息;然后,根据检索信息从数据库中获取第一候选集,第一候选集包括至少一个候选结果,每个候选结果包括多个相互关联的结构化数据;然后,建立用户输入内容中的未识别信息与所述结构化数据之间的映射,并根据所述未识别信息和映射的所述结构化数据的内容匹配度,筛选所述第一候选集中的至少一个候选结果得到第二候选集;最后,根据未识别信息与第二候选集中的结构化数据之间的语义相似度,从第二候选集中筛选得到目标集。由此,通过用户直接输入内容和选择筛选条件两种途径确定检索信息,使用筛选信息中的结构化筛选信息和未识别信息对数据库进行两次筛选,又结合未识别信息和结构化数据的语义相似度对前两次筛选的结果进行进一步筛选,从而,在无需人工参与的情况下,提高了信息检索的准确性和工作效率。
本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
Claims (10)
1.一种简历信息检索方法,其特征在于,包括:
从用户输入内容中识别出结构化筛选信息,并与用户选择的筛选条件中包含的结构化筛选信息组合得到检索信息;
根据所述检索信息从数据库中获取第一候选集,所述第一候选集包括至少一个候选结果,每个候选结果包括多个相互关联的结构化数据;
建立用户输入内容中的未识别信息与所述结构化数据之间的映射,并根据所述未识别信息和映射的所述结构化数据的内容匹配度,筛选所述第一候选集中的至少一个候选结果得到第二候选集;
根据所述未识别信息与所述结构化数据的语义相似度,筛选所述第二候选集中的至少一个候选结果得到目标集。
2.根据权利要求1所述的方法,其特征在于,还包括:
从至少一个网站数据源爬取包括预设关键词的网页数据;
基于所述数据库的数据存储结构,从所述网页数据中解析获取结构化数据;
将所述结构化数据存储至所述数据库中。
3.根据权利要求1所述的方法,其特征在于,所述检索信息包括具有逻辑与关系的第一检索表达式,所述从用户输入内容中识别出结构化筛选信息,并与用户选择的筛选条件中包含的结构化筛选信息组合得到检索信息,包括:
从用户输入内容中识别至少一个结构化筛选信息;
根据所述筛选条件包含的结构化筛选信息,生成具有逻辑与关系的第二检索表达式;
将从用户输入内容中识别的结构化筛选信息与所述第二检索表达式进行合并,得到所述第一检索表达式。
4.根据权利要求1所述的方法,其特征在于,所述建立用户输入内容中的未识别信息与所述结构化数据之间的映射,并根据所述未识别信息和映射的所述结构化数据的内容匹配度,筛选所述第一候选集中的至少一个候选结果得到第二候选集,包括:
根据所述未识别信息的数据长度,对所述未识别信息进行粗分类,每个粗分类映射所述第一候选集中的至少一种结构化数据;
获取所述第一候选集中的每个候选结果与所述未识别信息的第一匹配得分,所述第一匹配得分为候选结果的结构化数据与映射的所述未识别信息的匹配度的加权和;
从所述第一候选集中筛选出所述第一匹配得分大于预设第一得分阈值的候选结果,得到所述第二候选集。
5.根据权利要求1所述的方法,其特征在于,所述根据未识别信息与所述第二候选集中的结构化数据之间的语义相似度,筛选所述第二候选集中的至少一个候选结果得到目标集,包括:
根据预先训练的词向量模型,将所述未识别信息和所述第二候选集中的结构化数据进行向量化表示;
获取所述第二候选集中的每个候选结果与所述未识别信息的第二匹配得分,所述第二匹配得分为候选结果的结构化数据与映射的所述未识别信息的语义相似度的加权和;
从所述第二候选集中筛选出所述第二匹配得分大于预设第二得分阈值的候选结果,得到所述目标集。
6.根据权利要求5所述的方法,其特征在于,所述将未识别信息进行向量化表示,包括:大量数据训练得到词向量模型,并使用所述词向量模型对所述未识别信息进行向量化表示。
7.根据权利要求1所述的方法,其特征在于,所述目标集中的候选结果还包括第一标签字段,所述方法还包括:
对于目标集中的每个候选结果,判断所述结构化筛选信息与所述候选结果的结构化数据的内容是否相同,如果相同,则在所述第一标签字段中添加预设的标签信息。
8.根据权利要求1所述的方法,其特征在于,所述目标集中的候选结果还用于被添加第二标签字段,成为被关注结果,所述方法还包括:
判断所述被关注结果是否发生更新;
如果所述被关注结果发生更新,判断所述被关注结果的更新时间是否晚于其被添加第二标签字段的时间;
如果所述被关注结果的更新时间晚于其被添加第二标签字段的时间,则判断所述被关注结果的更新时间与其被添加第二标签字段的时间间隔是否大于预设时间阈值;
如果大于预设时间阈值,则生成用于提示所述被关注结果发生更新的提示信息。
9.一种简历信息检索装置,其特征在于,包括:
检索信息生成模块,用于从用户输入内容中识别出结构化筛选信息,并与用户选择的筛选条件中包含的结构化筛选信息组合得到检索信息;
第一检索模块,用于根据所述检索信息从数据库中获取第一候选集,所述第一候选集包括至少一个候选结果,每个候选结果包括多个相互关联的结构化数据;
第二检索模块,用于建立用户输入内容中的未识别信息与所述结构化数据之间的映射,并根据所述未识别信息和映射的所述结构化数据的内容匹配度,筛选所述第一候选集中的至少一个候选结果得到第二候选集;
第三检索模块,用于根据所述未识别信息与所述结构化数据的语义相似度,筛选所述第二候选集中的至少一个候选结果得到目标集。
10.根据权利要求9所述的装置,其特征在于,还包括:
爬取模块,用于从至少一个网站数据源爬取包括预设关键词的网页数据;
解析模块,用于基于所述数据库的数据存储结构,从所述网页数据中解析获取结构化数据;
存储模块,用于将所述结构化数据存储至所述数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910649230.3A CN110334112B (zh) | 2019-07-18 | 2019-07-18 | 一种简历信息检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910649230.3A CN110334112B (zh) | 2019-07-18 | 2019-07-18 | 一种简历信息检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110334112A true CN110334112A (zh) | 2019-10-15 |
CN110334112B CN110334112B (zh) | 2021-04-20 |
Family
ID=68145903
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910649230.3A Active CN110334112B (zh) | 2019-07-18 | 2019-07-18 | 一种简历信息检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334112B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414522A (zh) * | 2020-02-18 | 2020-07-14 | 北京网聘咨询有限公司 | 基于网络爬虫的招聘信息可视化分析系统 |
CN112908436A (zh) * | 2021-02-09 | 2021-06-04 | 北京药明津石医药科技有限公司 | 临床试验数据结构化方法、临床试验推荐方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117863A (zh) * | 2015-09-28 | 2015-12-02 | 北京橙鑫数据科技有限公司 | 简历职位匹配方法及装置 |
CN107315798A (zh) * | 2017-06-19 | 2017-11-03 | 北京神州泰岳软件股份有限公司 | 基于多主题语义标签信息映射的结构化处理方法及装置 |
CN107590133A (zh) * | 2017-10-24 | 2018-01-16 | 武汉理工大学 | 基于语义的招聘职位与求职简历匹配的方法及系统 |
CN109634994A (zh) * | 2018-12-21 | 2019-04-16 | 深圳市览网络股份有限公司 | 一种简历与职位的匹配推送方法及计算机设备和存储介质 |
CN109768878A (zh) * | 2018-11-28 | 2019-05-17 | 中通服建设有限公司 | 一种基于大数据的网络工单计算方法及装置 |
-
2019
- 2019-07-18 CN CN201910649230.3A patent/CN110334112B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117863A (zh) * | 2015-09-28 | 2015-12-02 | 北京橙鑫数据科技有限公司 | 简历职位匹配方法及装置 |
CN107315798A (zh) * | 2017-06-19 | 2017-11-03 | 北京神州泰岳软件股份有限公司 | 基于多主题语义标签信息映射的结构化处理方法及装置 |
CN107590133A (zh) * | 2017-10-24 | 2018-01-16 | 武汉理工大学 | 基于语义的招聘职位与求职简历匹配的方法及系统 |
CN109768878A (zh) * | 2018-11-28 | 2019-05-17 | 中通服建设有限公司 | 一种基于大数据的网络工单计算方法及装置 |
CN109634994A (zh) * | 2018-12-21 | 2019-04-16 | 深圳市览网络股份有限公司 | 一种简历与职位的匹配推送方法及计算机设备和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111414522A (zh) * | 2020-02-18 | 2020-07-14 | 北京网聘咨询有限公司 | 基于网络爬虫的招聘信息可视化分析系统 |
CN111414522B (zh) * | 2020-02-18 | 2023-03-24 | 北京网聘咨询有限公司 | 基于网络爬虫的招聘信息可视化分析系统 |
CN112908436A (zh) * | 2021-02-09 | 2021-06-04 | 北京药明津石医药科技有限公司 | 临床试验数据结构化方法、临床试验推荐方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110334112B (zh) | 2021-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5607164B2 (ja) | セマンティック・トレーディング・フロア | |
US20140214711A1 (en) | Intelligent job recruitment system and method | |
CN111782965A (zh) | 意图推荐方法、装置、设备及存储介质 | |
US20120215795A1 (en) | System and Method For Intelligent Job Hunt | |
US9183278B2 (en) | Computerized information system for creating patent data summaries and method therefor | |
US20130041896A1 (en) | Context and process based search ranking | |
US8914366B1 (en) | Evaluating clustering based on metrics | |
Patel et al. | CaPaR: a career path recommendation framework | |
US11556851B2 (en) | Establishing a communication session between client terminals of users of a social network selected using a machine learning model | |
US20120330947A1 (en) | Name-Search System and Method | |
CN111078835A (zh) | 简历评估方法、装置、计算机设备及存储介质 | |
Jacob et al. | sCooL: A system for academic institution name normalization | |
US10409866B1 (en) | Systems and methods for occupation normalization at a job aggregator | |
CN110334112A (zh) | 一种简历信息检索方法及装置 | |
CN115757689A (zh) | 一种信息查询系统、方法及设备 | |
CN112015908A (zh) | 知识图谱的构建方法及系统、查询方法及系统 | |
Bogárdi-Mészöly et al. | Tag and topic recommendation systems | |
CN108550019A (zh) | 一种简历筛选方法及装置 | |
US20130159293A1 (en) | Generating a supplemental description of an entity | |
US20140222788A1 (en) | Research recommendation system | |
CN109271491A (zh) | 基于非结构化文本信息的云服务推荐方法 | |
US11436244B2 (en) | Intelligent data enrichment using knowledge graph | |
Michalowski et al. | Automatically utilizing secondary sources to align information across sources | |
Seth et al. | A Tale of Two (Similar) Cities-Inferring City Similarity through Geo-spatial Query Log Analysis. | |
Hettiarachchi et al. | Next generation data classification and linkage: Role of probabilistic models and artificial intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 230000 zone B, 19th floor, building A1, 3333 Xiyou Road, hi tech Zone, Hefei City, Anhui Province Applicant after: Dingfu Intelligent Technology Co., Ltd Address before: Room 630, 6th floor, Block A, Wanliu Xingui Building, 28 Wanquanzhuang Road, Haidian District, Beijing Applicant before: DINFO (BEIJING) SCIENCE DEVELOPMENT Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |