CN110991162A - 基于浏览器的自然语言处理方法及装置、设备、存储介质 - Google Patents

基于浏览器的自然语言处理方法及装置、设备、存储介质 Download PDF

Info

Publication number
CN110991162A
CN110991162A CN201911169912.0A CN201911169912A CN110991162A CN 110991162 A CN110991162 A CN 110991162A CN 201911169912 A CN201911169912 A CN 201911169912A CN 110991162 A CN110991162 A CN 110991162A
Authority
CN
China
Prior art keywords
resume
experience
text
information
repeated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911169912.0A
Other languages
English (en)
Inventor
李蒙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leaguer Network Technology Shanghai Co Ltd
Original Assignee
Leaguer Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leaguer Network Technology Shanghai Co Ltd filed Critical Leaguer Network Technology Shanghai Co Ltd
Priority to CN201911169912.0A priority Critical patent/CN110991162A/zh
Publication of CN110991162A publication Critical patent/CN110991162A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于浏览器的自然语言处理方法及装置、设备、存储介质。该方法包括获取第一简历;其中所述第一简历通过接入第三招聘平台获取;解析所述第一简历中的简历文本,得到文本特征信息,其中所述文本特征信息中至少包括:求职者姓名、工作经历以及教育经历;根据文本特征信息在简历储备库中对比信息是否重复;如果重复,则匹配出相似的第二简历。本申请解决了基于浏览器的自然语言处理方式效果不佳的技术问题。通过本申请通过解析候选人简历中的特征信息并在公司人才储备数据库中快速精准识别出是否有相同的人选。此外本申请可作为插件在浏览器中进行使用。

Description

基于浏览器的自然语言处理方法及装置、设备、存储介质
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种基于浏览器的自然语言处理方法及装置、设备、存储介质。
背景技术
在浏览器上安装的比价插件,能够基于当前页面浏览的商品,自动比较同款商品。
发明人发现,其无法解决大段落文本识别和大数据处理的问题。
针对相关技术中基于浏览器的自然语言处理方式效果不佳的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种基于浏览器的自然语言处理方法及装置、设备、存储介质,以解决基于浏览器的自然语言处理方式效果不佳的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于浏览器的自然语言处理方法。
根据本申请的基于浏览器的自然语言处理方法包括:获取第一简历;其中所述第一简历通过接入第三招聘平台获取;解析所述第一简历中的简历文本,得到文本特征信息,其中所述文本特征信息中至少包括:求职者姓名、工作经历以及教育经历;根据文本特征信息在简历储备库中对比信息是否重复;如果重复,则匹配出相似的第二简历。
进一步地,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据姓氏、工作经历和教育经历作为文本特征信息在简历储备库中对比信息是否重复,其中所述工作经历选取第一份工作时间段的工作经历;所述教育经历选取最早教育时间段的教育经历。
进一步地,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据姓氏、第二工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,其中所述第二工作经历选取第二份工作时间段的工作经历。
进一步地,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据姓氏、第三工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,其中所述第三工作经历选取两个连续时间段的工作经历。
进一步地,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据文本特征信息在简历储备库中匹配出待选的简历文本,并对比文本相似度是否大于阈值;
如果重复,则匹配出相似的第二简历包括:
如果大于阈值则认为重复,并匹配出相似的第二简历。
为了实现上述目的,根据本申请的另一方面,提供了一种基于浏览器的自然语言处理装置。
根据本申请的基于浏览器的自然语言处理装置包括:获取模块,用于获取第一简历;其中所述第一简历通过接入第三招聘平台获取;解析模块,用于解析所述第一简历中的简历文本,得到文本特征信息,其中所述文本特征信息中至少包括:求职者姓名、工作经历以及教育经历;对比模块,用于根据文本特征信息在简历储备库中对比信息是否重复;匹配模块,用于如果重复,则匹配出相似的第二简历。
进一步地,所述对比模块,用于
根据姓氏、工作经历和教育经历作为文本特征信息在简历储备库中对比信息是否重复,其中所述工作经历选取第一份工作时间段的工作经历;所述教育经历选取最早教育时间段的教育经历;
根据姓氏、第二工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,其中所述第二工作经历选取第二份工作时间段的工作经历;
根据姓氏、第三工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,其中所述第三工作经历选取两个连续时间段的工作经历。
进一步地,所述对比模块,用于
根据文本特征信息在简历储备库中匹配出待选的简历文本,并对比文本相似度是否大于阈值;
所述匹配模块,用于
如果大于阈值则认为重复,并匹配出相似的第二简历。
为了实现上述目的,根据本申请的又一个方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于浏览器的自然语言处理方法的步骤。
为了实现上述目的,根据本申请的再一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于浏览器的自然语言处理方法的步骤。
在本申请实施例中基于浏览器的自然语言处理方法及装置、设备、存储介质,采用获取第一简历的方式,通过解析所述第一简历中的简历文本,得到文本特征信息,达到了根据文本特征信息在简历储备库中对比信息是否重复;如果重复,则匹配出相似的第二简历的目的,从而实现了通过解析后选择人简历中的特征信息并在公司人才储备数据库中快速精准识别出是否有相同的人选的技术效果,进而解决了基于浏览器的自然语言处理方式效果不佳的技术问题。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于浏览器的自然语言处理方法流程示意图;
图2是根据本申请实施例的基于浏览器的自然语言处理装置结构示意图;
图3是根据本申请实施例的设备结构示意图;
图4是根据本申请实施例的处理流程示意图;
图5是根据本申请实施例的处理方法原理示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。
并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。
此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请是基于市面上绝大部分简历特征建立的解析方法,对于一篇简历无论篇幅长短,都能够快速精准识别哪些是工作经历,哪些是教育经历,哪些是公司名称,哪些是职位名称等所有简历特征,并根据这些特征在公司人才储备数据库中快速精准识别出是否有相同的人选。此外,本申请还支持跨平台服务,一个人选若在多个招聘平台都投递了简历,依然可以精准识别出来,大大节省了企业的招聘成本,提高招聘效率。
如图1所示,该方法包括如下的步骤S101至步骤S104:
步骤S101,获取第一简历;
所述第一简历通过接入第三招聘平台获取。
具体地,企业HR或招聘顾问在第三方招聘平台浏览简历,即可获取第一简历合适的人选简历。
步骤S102,解析所述第一简历中的简历文本,得到文本特征信息,
其中所述文本特征信息中至少包括:求职者姓名、工作经历以及教育经历。
解析所述第一简历中的简历文本,得到文本特征信息,得到包括求职者姓名、工作经历以及教育经历的文本内容。
具体地,对当前页面的所有简历内容进行文本解析,解析完成之后接着对文本内容进行识别,鉴于大部分简历的结构基本相同,基于此可以有效识别出人选的基本信息、工作经历、教育经历等相关特征。
步骤S103,根据文本特征信息在简历储备库中对比信息是否重复;
根据所述解析到的文本特征信息在本地简历储备库中对比信息是否重复。
具体地,识别出上述人选特征信息后,开始向公司储备人才数据库服务器发送数据请求,数据库接收到人选的相关特征信息后,然后进行检索。
步骤S104,如果重复,则匹配出相似的第二简历。
如果根据文本特征信息在简历储备库中对比信息是重复,则匹配出相似的第二简历。所述第二简历储存在本地的人才信息数据库中。
在服务器中如果检索到有符合条件的人选,就向浏览器返回该人选的简历信息,此时HR或者招聘顾问在看到该人选的简历信息后,如果核实发现确实是同一人,就没必要再去购买这份简历。如果核实发现不是同一人,则可以考虑购买。
从以上的描述中,可以看出,本申请实现了如下技术效果:
在本申请实施例中,采用获取第一简历的方式,通过解析所述第一简历中的简历文本,得到文本特征信息,达到了根据文本特征信息在简历储备库中对比信息是否重复;如果重复,则匹配出相似的第二简历的目的,从而实现了通过解析后选择人简历中的特征信息并在公司人才储备数据库中快速精准识别出是否有相同的人选的技术效果,进而解决了基于浏览器的自然语言处理方式效果不佳的技术问题。
根据本申请实施例,作为本实施例中的优选,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据姓氏、工作经历和教育经历作为文本特征信息在简历储备库中对比信息是否重复,
其中所述工作经历选取第一份工作时间段的工作经历;所述教育经历选取最早教育时间段的教育经历。
根据所述姓氏、所述工作经历和所述教育经历作为文本特征信息在简历储备库中对比信息是否重复,可以快速完成简历筛选。
具体地,能够有效识别目标简历的相关特征信息,对网页上的一份简历解析之后,能够识别出姓名、性别、年龄、出生年、公司名称、职位名称、学校名称、专业名称等相关信息。由于一份简历内容都会比较长,如果用整份简历的内容去服务器检索,服务器会直接卡死崩掉,此时需要提取简历解析算法识别出的一些关键简历特征去服务器检索,识别出一些相似的简历,然后再用文本识别算法去比对这些简历与目标简历的相似度,相似度最高且达到一定准确度的那份简历即为要找的那份简历。
根据本申请实施例,作为本实施例中的优选,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据姓氏、第二工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,
其中所述第二工作经历选取第二份工作时间段的工作经历。
根据所述姓氏、所述第二工作经历和所述教育经历为文本特征信息在简历储备库中对比信息是否重复,可以增加简历筛选的准确率。
具体地,能够有效识别目标简历的相关特征信息,对网页上的一份简历解析之后,能够识别出姓名、性别、年龄、出生年、公司名称、职位名称、学校名称、专业名称等相关信息。由于一份简历内容都会比较长,如果用整份简历的内容去服务器检索,服务器会直接卡死崩掉,此时需要提取简历解析算法识别出的一些关键简历特征去服务器检索,识别出一些相似的简历,然后再用文本识别算法去比对这些简历与目标简历的相似度,相似度最高且达到一定准确度的那份简历即为要找的那份简历。
根据本申请实施例,作为本实施例中的优选,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据姓氏、第三工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,
其中所述第三工作经历选取两个连续时间段的工作经历。
根据所述姓氏、所述第三工作经历和所述教育经历为文本特征信息在简历储备库中对比信息是否重复,能够提高对比信息的准确率和速度。
具体地,能够有效识别目标简历的相关特征信息,对网页上的一份简历解析之后,能够识别出姓名、性别、年龄、出生年、公司名称、职位名称、学校名称、专业名称等相关信息。由于一份简历内容都会比较长,如果用整份简历的内容去服务器检索,服务器会直接卡死崩掉,此时需要提取简历解析算法识别出的一些关键简历特征去服务器检索,识别出一些相似的简历,然后再用文本识别算法去比对这些简历与目标简历的相似度,相似度最高且达到一定准确度的那份简历即为要找的那份简历。
根据本申请实施例,作为本实施例中的优选,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据文本特征信息在简历储备库中匹配出待选的简历文本,并对比文本相似度是否大于阈值;
如果重复,则匹配出相似的第二简历包括:
如果大于阈值则认为重复,并匹配出相似的第二简历。
具体地,通过对比文本相似度是否大于阈值,如果大于阈值则认为重复,并匹配出相似的第二简历。第二简历为企业人才库数据库中的已经有的简历文本,第一简历为通过第三方获取的候选人的简历文本。
基于第三方招聘平台的简历同本公司储备人才库中的简历进行识别和比对,通过这种比对以发现第三方招聘平台上的简历与本公司简历库中的简历是否重复,若重复了就不再购买,从而达到为企业减少简历购买成本的目的。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
根据本申请实施例,还提供了一种用于实施上述方法的基于浏览器的自然语言处理装置,如图2所示,该装置包括:获取模块10,用于获取第一简历;其中所述第一简历通过接入第三招聘平台获取;解析模块11,用于解析所述第一简历中的简历文本,得到文本特征信息,其中所述文本特征信息中至少包括:求职者姓名、工作经历以及教育经历;对比模块12,用于根据文本特征信息在简历储备库中对比信息是否重复;匹配模块13,用于如果重复,则匹配出相似的第二简历。
本申请实施例的获取模块10中所述第一简历通过接入第三招聘平台获取。
具体地,企业HR或招聘顾问在第三方招聘平台浏览简历,即可获取第一简历合适的人选简历。
本申请实施例的解析模块11中解析所述第一简历中的简历文本,得到文本特征信息,得到包括求职者姓名、工作经历以及教育经历的文本内容。
具体地,对当前页面的所有简历内容进行文本解析,解析完成之后接着对文本内容进行识别,鉴于大部分简历的结构基本相同,基于此可以有效识别出人选的基本信息、工作经历、教育经历等相关特征。
本申请实施例的对比模块12中根据所述解析到的文本特征信息在本地简历储备库中对比信息是否重复。
具体地,识别出上述人选特征信息后,开始向公司储备人才数据库服务器发送数据请求,数据库接收到人选的相关特征信息后,然后进行检索。
本申请实施例的匹配模块13中如果根据文本特征信息在简历储备库中对比信息是重复,则匹配出相似的第二简历。所述第二简历储存在本地的人才信息数据库中。
在服务器中如果检索到有符合条件的人选,就向浏览器返回该人选的简历信息,此时HR或者招聘顾问在看到该人选的简历信息后,如果核实发现确实是同一人,就没必要再去购买这份简历。如果核实发现不是同一人,则可以考虑购买。
根据本申请实施例,作为本实施例中的优选,所述对比模块12,用于根据姓氏、工作经历和教育经历作为文本特征信息在简历储备库中对比信息是否重复,其中所述工作经历选取第一份工作时间段的工作经历;所述教育经历选取最早教育时间段的教育经历;根据姓氏、第二工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,其中所述第二工作经历选取第二份工作时间段的工作经历;根据姓氏、第三工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,其中所述第三工作经历选取两个连续时间段的工作经历。
具体地,能够有效识别目标简历的相关特征信息,对网页上的一份简历解析之后,能够识别出姓名、性别、年龄、出生年、公司名称、职位名称、学校名称、专业名称等相关信息。由于一份简历内容都会比较长,如果用整份简历的内容去服务器检索,服务器会直接卡死崩掉,此时需要提取简历解析算法识别出的一些关键简历特征去服务器检索,识别出一些相似的简历,然后再用文本识别算法去比对这些简历与目标简历的相似度,相似度最高且达到一定准确度的那份简历即为要找的那份简历。
根据本申请实施例,作为本实施例中的优选,
所述对比模块12,用于根据文本特征信息在简历储备库中匹配出待选的简历文本,并对比文本相似度是否大于阈值;所述匹配模块13,用于如果大于阈值则认为重复,并匹配出相似的第二简历。
具体地,通过对比文本相似度是否大于阈值,如果大于阈值则认为重复,并匹配出相似的第二简历。第二简历为企业人才库数据库中的已经有的简历文本,第一简历为通过第三方获取的候选人的简历文本。
基于第三方招聘平台的简历同本公司储备人才库中的简历进行识别和比对,通过这种比对以发现第三方招聘平台上的简历与本公司简历库中的简历是否重复,若重复了就不再购买,从而达到为企业减少简历购买成本的目的。
本申请实施例还提供了一种计算机设备。如图3所示,计算机设备30可以包括:至少一个处理器301,例如CPU,至少一个网络接口304,用户接口303,存储器305,至少一个通信总线302,可选地,还可以包括显示屏306。其中,通信总线302用于实现这些组件之间的连接通信。其中,用户接口303可以包括触摸屏、键盘或鼠标等等。网络接口304可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通过网络接口304可以与服务器建立通信连接。存储器305可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器,存储器305包括本发明实施例中的flash。存储器305可选的还可以是至少一个位于远离前述处理器301的存储系统。如图3所示,作为一种计算机存储介质的存储器305中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。
需要说明的是,网络接口304可以连接接收器、发射器或其他通信模块,其他通信模块可以包括但不限于WiFi模块、蓝牙模块等,可以理解,本发明实施例中计算机设备也可以包括接收器、发射器和其他通信模块等。
处理器301可以用于调用存储器305中存储的程序指令,并使计算机设备30执行以下操作:
获取第一简历;其中所述第一简历通过接入第三招聘平台获取;
解析所述第一简历中的简历文本,得到文本特征信息,其中所述文本特征信息中至少包括:求职者姓名、工作经历以及教育经历;
根据文本特征信息在简历储备库中对比信息是否重复;
如果重复,则匹配出相似的第二简历。
请参考图4和图5,本申请提供了计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现所述的基于浏览器的自然语言处理方法的步骤具体地包括如下的操作步骤:
步骤一,企业HR或招聘顾问需在浏览器中安装该插件;
步骤二,企业HR或招聘顾问在第三方招聘平台浏览简历,当看中某一份合适的人选简历时,点击该插件进行文本识别;
步骤三,该插件开始对当前页面的所有简历内容进行文本解析,解析完成之后接着对文本内容进行识别,鉴于大部分简历的结构基本相同,该插件基于此可以有效识别出人选的基本信息、工作经历、教育经历等相关特征。
优选地,对于一篇简历无论篇幅长短,都能够快速精准识别哪些是工作经历,哪些是教育经历,哪些是公司名称,哪些是职位名称等所有简历特征。
步骤四,该插件在识别出上述人选特征信息后,开始向公司储备人才数据库服务器发送数据请求,数据库接收到人选的相关特征信息后,然后进行检索;
步骤五,服务器中若检索到有符合条件的人选,就向插件返回该人选的简历信息,此时HR或者招聘顾问在看到该人选的简历信息后,核实发现确实是同一人,就没必要再去购买这份简历。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种基于浏览器的自然语言处理方法,其特征在于,包括:
获取第一简历;其中所述第一简历通过接入第三招聘平台获取;
解析所述第一简历中的简历文本,得到文本特征信息,其中所述文本特征信息中至少包括:求职者姓名、工作经历以及教育经历;
根据文本特征信息在简历储备库中对比信息是否重复;
如果重复,则匹配出相似的第二简历。
2.根据权利要求1所述的基于浏览器的自然语言处理方法,其特征在于,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据姓氏、工作经历和教育经历作为文本特征信息在简历储备库中对比信息是否重复,其中所述工作经历选取第一份工作时间段的工作经历;所述教育经历选取最早教育时间段的教育经历。
3.根据权利要求1所述的基于浏览器的自然语言处理方法,其特征在于,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据姓氏、第二工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,其中所述第二工作经历选取第二份工作时间段的工作经历。
4.根据权利要求1所述的基于浏览器的自然语言处理方法,其特征在于,根据文本特征信息在简历储备库中对比信息是否重复包括:
根据姓氏、第三工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,其中所述第三工作经历选取两个连续时间段的工作经历。
5.根据权利要求1所述的基于浏览器的自然语言处理方法,其特征在于,
根据文本特征信息在简历储备库中对比信息是否重复包括:
根据文本特征信息在简历储备库中匹配出待选的简历文本,并对比文本相似度是否大于阈值;
如果重复,则匹配出相似的第二简历包括:
如果大于阈值则认为重复,并匹配出相似的第二简历。
6.一种基于浏览器的自然语言处理装置,其特征在于,包括:
获取模块,用于获取第一简历;其中所述第一简历通过接入第三招聘平台获取;
解析模块,用于解析所述第一简历中的简历文本,得到文本特征信息,其中所述文本特征信息中至少包括:求职者姓名、工作经历以及教育经历;
对比模块,用于根据文本特征信息在简历储备库中对比信息是否重复;
匹配模块,用于如果重复,则匹配出相似的第二简历。
7.根据权利要求6所述的基于浏览器的自然语言处理装置,其特征在于,所述对比模块,用于
根据姓氏、工作经历和教育经历作为文本特征信息在简历储备库中对比信息是否重复,其中所述工作经历选取第一份工作时间段的工作经历;所述教育经历选取最早教育时间段的教育经历;
根据姓氏、第二工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,其中所述第二工作经历选取第二份工作时间段的工作经历;
根据姓氏、第三工作经历和教育经历为文本特征信息在简历储备库中对比信息是否重复,其中所述第三工作经历选取两个连续时间段的工作经历。
8.根据权利要求6所述的基于浏览器的自然语言处理装置,其特征在于,所述对比模块,用于
根据文本特征信息在简历储备库中匹配出待选的简历文本,并对比文本相似度是否大于阈值;
所述匹配模块,用于
如果大于阈值则认为重复,并匹配出相似的第二简历。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述的基于浏览器的自然语言处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任一项所述的基于浏览器的自然语言处理方法的步骤。
CN201911169912.0A 2019-11-25 2019-11-25 基于浏览器的自然语言处理方法及装置、设备、存储介质 Pending CN110991162A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911169912.0A CN110991162A (zh) 2019-11-25 2019-11-25 基于浏览器的自然语言处理方法及装置、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911169912.0A CN110991162A (zh) 2019-11-25 2019-11-25 基于浏览器的自然语言处理方法及装置、设备、存储介质

Publications (1)

Publication Number Publication Date
CN110991162A true CN110991162A (zh) 2020-04-10

Family

ID=70086828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911169912.0A Pending CN110991162A (zh) 2019-11-25 2019-11-25 基于浏览器的自然语言处理方法及装置、设备、存储介质

Country Status (1)

Country Link
CN (1) CN110991162A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723269A (zh) * 2020-06-28 2020-09-29 上海沃锐企业发展有限公司 一种简历查重方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729532A (zh) * 2017-10-30 2018-02-23 北京拉勾科技有限公司 一种简历匹配方法及计算设备
CN109472310A (zh) * 2018-11-12 2019-03-15 深圳八爪网络科技有限公司 确定两份简历为相同人才的识别方法及装置
CN109902726A (zh) * 2019-02-02 2019-06-18 天津字节跳动科技有限公司 简历信息处理方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729532A (zh) * 2017-10-30 2018-02-23 北京拉勾科技有限公司 一种简历匹配方法及计算设备
CN109472310A (zh) * 2018-11-12 2019-03-15 深圳八爪网络科技有限公司 确定两份简历为相同人才的识别方法及装置
CN109902726A (zh) * 2019-02-02 2019-06-18 天津字节跳动科技有限公司 简历信息处理方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723269A (zh) * 2020-06-28 2020-09-29 上海沃锐企业发展有限公司 一种简历查重方法

Similar Documents

Publication Publication Date Title
CN111144723B (zh) 人岗匹配推荐方法及系统、存储介质
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN111125343B (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
US9767144B2 (en) Search system with query refinement
WO2020077824A1 (zh) 异常问题的定位方法、装置、设备及存储介质
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
US8856129B2 (en) Flexible and scalable structured web data extraction
JP5721818B2 (ja) 検索におけるモデル情報群の使用
CN112889042A (zh) 机器学习中超参数的识别与应用
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
US10489637B2 (en) Method and device for obtaining similar face images and face image information
CN109564573A (zh) 来自计算机应用元数据的平台支持集群
US9411917B2 (en) Methods and systems for modeling crowdsourcing platform
US9552415B2 (en) Category classification processing device and method
US9542474B2 (en) Forensic system, forensic method, and forensic program
KR20190128246A (ko) 검색 방법 및 장치 및 비-일시적 컴퓨터-판독가능 저장 매체
CN103488465A (zh) 功能配置推荐方法及系统
US20190065455A1 (en) Intelligent form creation
CN113239173B (zh) 问答数据的处理方法、装置、存储介质与电子设备
CN109522923A (zh) 客户地址聚合方法、装置及计算机可读存储介质
CN114253990A (zh) 数据库查询方法、装置、计算机设备和存储介质
US11010393B2 (en) Library search apparatus, library search system, and library search method
CN110991162A (zh) 基于浏览器的自然语言处理方法及装置、设备、存储介质
CN110442614B (zh) 元数据的搜索方法及装置、电子设备、存储介质
CN109918420B (zh) 一种竞争对手推荐方法、服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination