CN114117222A - 简历文档匹配方法、装置、计算设备及存储介质 - Google Patents

简历文档匹配方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN114117222A
CN114117222A CN202111426084.1A CN202111426084A CN114117222A CN 114117222 A CN114117222 A CN 114117222A CN 202111426084 A CN202111426084 A CN 202111426084A CN 114117222 A CN114117222 A CN 114117222A
Authority
CN
China
Prior art keywords
resume document
job description
target resume
target
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111426084.1A
Other languages
English (en)
Inventor
汪洲
李长亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Beijing Kingsoft Digital Entertainment Co Ltd
Priority to CN202111426084.1A priority Critical patent/CN114117222A/zh
Publication of CN114117222A publication Critical patent/CN114117222A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种简历文档匹配方法、装置、计算设备及存储介质,其中所述简历人岗匹配方法包括:获取待匹配的目标简历文档以及预设的职位描述;提取目标简历文档中的文本内容;根据文本内容及职位描述,确定目标简历文档与职位描述的语义相似度;基于语义相似度,确定目标简历文档与职位描述的匹配结果。通过上述方法,根据从目标简历文档中提取的文本内容和职位描述,确定出目标简历文档与职位描述的语义相似度,挖掘出了目标简历文档和职位描述之间的语义信息,根据目标简历文档和职位描述的语义相似度来进行简历文档匹配,提高了匹配结果的准确度。

Description

简历文档匹配方法、装置、计算设备及存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种简历文档匹配方法。本申请同时涉及一种简历文档匹配装置、一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,自动化的简历文档匹配在招聘中得到了非常广泛的应用,极大地方便了求职者和用人单位的招聘效率。简历文档匹配是指将求职者的简历文档与用人单位发布的用人需求进行匹配,既可以针对求职者的简历文档推荐最合适的岗位,也可以针对用人需求推荐最合适的求职者。
当前,简历文档匹配通常是对求职者的简历文档和用人单位的用人需求分别提取关键词,然后对提取的关键词进行匹配,根据匹配结果来判断简历文档是否满足用人单位的用人需求。
然而,根据关键词进行匹配仅能匹配出字符完全相同的关键词,适用性较差,在实际应用中,简历文档匹配结果的准确度较低。
发明内容
有鉴于此,本申请实施例提供了一种简历文档匹配方法,以解决现有技术中存在的技术缺陷。本申请实施例同时提供了一种简历文档匹配装置,一种计算设备,以及一种计算机可读存储介质。
根据本申请实施例的第一方面,提供了一种简历文档匹配方法,包括:
获取待匹配的目标简历文档以及预设的职位描述;
提取目标简历文档中的文本内容;
根据文本内容及职位描述,确定目标简历文档与职位描述的语义相似度;
基于语义相似度,确定目标简历文档与职位描述的匹配结果。
根据本申请实施例的第二方面,提供了一种简历文档匹配装置,包括:
获取模块,被配置为获取待匹配的目标简历文档以及预设的职位描述;
提取模块,被配置为提取目标简历文档中的文本内容;
确定模块,被配置为根据文本内容及职位描述,确定目标简历文档与职位描述的语义相似度;
匹配模块,被配置为基于语义相似度,确定目标简历文档与职位描述的匹配结果。
根据本申请实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器执行所述计算机可执行指令时实现所述简历文档匹配方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述简历文档匹配方法的步骤。
本申请提供的简历文档匹配方法,通过获取待匹配的目标简历文档以及预设的职位描述,然后提取目标简历文档中的文本内容,根据提取的文本内容及职位描述,确定出目标简历文档与职位描述的语义相似度,基于语义相似度,可确定出目标简历文档与职位描述的匹配结果。通过上述方法,根据从目标简历文档中提取的文本内容和职位描述,确定出目标简历文档与职位描述的语义相似度,挖掘出了目标简历文档和职位描述之间的语义信息,根据目标简历文档和职位描述的语义相似度来进行简历文档匹配,提高了匹配结果的准确度。
附图说明
图1示出了根据本申请一实施例提供的一种简历文档匹配系统的结构示意图;
图2示出了根据本申请一实施例提供的一种简历文档匹配方法的流程图;
图3示出了根据本申请一实施例提供的一种提取目标简历文档中文本内容的方法流程图;
图4示出了根据本申请一实施例提供的一种提取职位描述中文本内容的方法流程图;
图5示出了根据本申请一实施例提供的一种确定目标简历文档与职位描述语义相似度的方法流程图;
图6示出了根据本申请一实施例提供的一种确定目标简历文档与职位描述中相应部分的语义相似度的方法流程图;
图7示出了根据本申请一实施例提供的一种目标简历文档与职位描述匹配的方法流程图;
图8示出了根据本申请一实施例提供的一种确定目标岗位的方法流程图;
图9示出了根据本申请一实施例提供的一种推荐简历待添加内容的方法流程图;
图10示出了根据本申请一实施例提供的一种目标简历文档修正的方法流程图;
图11示出了根据本申请一实施例提供的一种错句检测的方法流程图;
图12示出了根据本申请一实施例提供的又一种简历文档匹配方法的流程图;
图13示出了本申请一实施例提供的一种简历文档匹配装置的结构示意图;
图14示出了根据本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。
首先,对本发明一个或多个实施例涉及的名词术语进行解释。
基于转换器的双向编码表征(BERT,BidirectionalEncoderRepresentationfromTransformers)模型:是一个预训练语言模型,通过大量的数据训练,BERT模型能够在多个不同层次提取关系特征,根据句子上下文获取词义,避免歧义的出现,进而更全面反映句子语义。
职位描述(JD,jobdescription):招聘方对招聘岗位的职位、工作职责、岗位责任等要求的具体说明。
String方法:是一种将自然语言转换为字符串的方法,将自然语言转换为字符串数据从而更有利于机器识别,提高机器文本识别的效率。
在本申请中,提供了一种简历文档匹配方法。本申请同时涉及一种简历文档匹配装置、一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种简历文档匹配系统的结构示意图。
本申请的简历文档匹配系统包括训练端和应用端,训练端对语义相似度模型进行训练,然后将训练好的语义相似度模型发送至应用端,应用端用来向训练端提供样本,并接收训练端训练好的模型,利用模型对待匹配的目标简历文档与职位描述进行匹配得到匹配结果,其中,应用端和训练端可以是一个终端设备中不同的应用程序,也可以是不同终端设备中的应用程序。
在本实施例中,训练端对语义相似度模型进行训练可以通过以下方法实现:选择大量简历文档数据(例如基本信息、求职意向、工作经历、教育经历、科研方向、学术成果、自我评价等)以及职位描述数据(例如招聘对象、学校类型、毕业时间、专业能力、项目经历等)作为BERT模型的训练样本集,随机掩盖一部分的简历文档数据以及职位描述数据,通过调整模型的参数使得BERT模型来预测被掩盖的简历文档数据以及职位描述数据,然后经过多次迭代训练最终达到预设阈值,将达到预设阈值的BERT模型作为训练好的BERT模型。
应用端对目标简历文档进行匹配具体可以通过以下方法实现:获取待匹配的目标简历文档以及预设的职位描述,然后提取目标简历文档中的文本内容,根据文本内容及职位描述,利用训练端训练好的语义相似度模型确定目标简历文档与职位描述的语义相似度,最后基于语义相似度,确定目标简历文档与职位描述的匹配结果。
另外,应用端对目标简历文档进行匹配具体还可以通过以下方法实现:获取待匹配的目标简历文档以及预设的职位描述,然后提取目标简历文档中的文本内容,利用无监督算法(例如词频-逆向文本频率(TF-IDF,Term Frequency-InverseDocumentFrequency)、欧式距离法等)确定目标简历文档与职位描述之间的语义相似度,最后基于语义相似度,确定目标简历文档与职位描述的匹配结果。本申请对目标简历文档进行匹配的方式不做限定。
通过上述方法,根据从目标简历文档中提取的文本内容和预设的职位描述,确定出目标简历文档与职位描述的语义相似度,挖掘出了目标简历文档和职位描述之间的语义信息,根据目标简历文档和职位描述的语义相似度来进行简历文档匹配,提高了匹配结果的准确度。
图2示出了根据本申请一实施例提供的一种简历文档匹配方法的流程图,具体包括以下步骤:
S202、获取待匹配的目标简历文档以及预设的职位描述。
实现简历文档匹配方法的执行主体可以是具有简历文档匹配功能的计算设备,例如具有简历文档匹配功能的服务器、终端等。
目标简历文档是指应聘者编辑的简历文档,可以包括基本信息、求职意向、工作经历、教育经历、科研方向、学术成果、自我评价等。职位描述是招聘方对招聘岗位的职位、工作职责、岗位责任等要求的具体说明,可以包括招聘对象、学校类型、毕业时间、专业能力、项目经历等。
目标简历文档以及职位描述可以为文本、图片等格式,获取目标简历文档和职位描述的方式有多种,例如,可以是用户发送目标简历文档以及职位描述的获取指令,相应地,在接收到该获取指令后,开始对目标简历文档以及职位描述进行获取;也可以是每隔预设时长,自动获取指定的待匹配目标简历文档及职位描述等。本申请对获取待匹配目标简历文档及职位描述的方式不做任何限定。
S204、提取目标简历文档中的文本内容。
当获取到待匹配的目标简历文档之后,需要从目标简历文档中提取字符串类型的文本内容,其中,从目标文档中提取字符串类型文本内容的方式有多种,例如,可以运用String方法对目标简历文档中的文本内容进行提取;也可以运用StringBuffer方法或者StringBuilder方法对目标简历文档中的文本内容进行提取。在一种优选的实现方式中,运用String方法对目标简历文档中的文本内容进行提取。运用String方法对文本内容进行提取的目的是为了将自然语言形式的文本转换为字符串形式文本,更有利于机器识别,提高简历文档匹配效率。
在本申请实施例的一种可能的实现方式中,识别出该目标简历文档的格式为文本格式,便将该目标简历文档中的文本内容提取出来,然后运用String方法将自然语言形式的文本转换为字符串形式的文本内容,其中,提取目标简历文档中的文本内容可以是将目标简历文档中的文本内容全部提取出来,也可以是按照预设的提取规则进行部分文本内容的提取,例如仅提取目标简历文档中关于教育经历、工作经历、项目经历等文本内容。
在本申请实施例的另一种可能的实现方式中,识别出目标简历文档的格式为图片格式,则运用光学字符识别(OCR,OpticalCharacterRecognition)技术对该目标简历文档进行文本提取,例如,针对pdf格式的目标简历文档,运用OCR技术,识别出文字区域,然后对文字区域进行矩形分割,拆分成不同的字符,然后对字符进行分类进而识别出文本内容。运用String方法将识别出的文本转换为字符串类型的文本内容。
S206、根据文本内容及职位描述,确定目标简历文档与职位描述的语义相似度。
在本申请实施例的一种实现方式中,可以通过预先训练好的语义相似度模型确定目标简历文档与职位描述的语义相似度。语义相似度模型可以为BERT模型,BERT模型是一个预训练语言模型,通过大量的数据训练,该模型能够在多个不同层次提取关系特征,根据句子上下文获取词义,避免歧义的出现,进而更全面反映句子的语义。需要说明的是,语义相似度模型不仅可以是BERT模型,任何输入为一对句子,输出为句子之间相似度得分的神经网络模型都可作为本申请的语义相似度模型,本申请对语义相似度模型的类型不做任何限定。
BERT模型为预训练得到的,例如,选择大量简历文档数据(例如基本信息、求职意向、工作经历、教育经历、科研方向、学术成果、自我评价等)以及职位描述数据(例如招聘对象、学校类型、毕业时间、专业能力、项目经历等)作为BERT模型的训练样本集,随机掩盖一部分的简历文档数据以及职位描述数据,通过调整模型的参数使得BERT模型来预测被掩盖的简历文档数据以及职位描述数据,然后经过多次迭代训练最终达到预设阈值,将达到预设阈值的BERT模型作为训练好的BERT模型。
在本申请实施例的一种可能的实现方式中,提取到目标简历文档中的文本内容之后,便将该文本内容以及预设的职位描述输入至BERT模型中,从而确定目标简历文档与职位描述的语义相似度。
当然,利用BERT模型确定目标简历文档与职位描述的语义相似度仅仅为一种实现方式,还可以通过特征匹配、字符比对等方式进行语义相似度的确定,BERT模型作为一种深度学习模型,具有较高的准确性和计算速度,因此在本申请实施例中可以作为优选实施例被采用。
S208、基于语义相似度,确定目标简历文档与职位描述的匹配结果。
基于语义相似度确定出的目标简历文档与职位描述的匹配结果,表征了目标简历文档与职位描述相匹配的程度,语义相似度越高,则说明目标简历文档与职位描述之间的匹配程度越高。若目标简历文档与职位描述的语义相似度达到预设阈值,则表示目标简历文档与职位描述匹配成功;若目标简历文档与职位描述的语义相似度未达到预设阈值,则表示目标简历文档与职位描述匹配失败。
在本申请实施例的一种可能的实现方式中,预先设置目标简历文档与职位描述的语义相似度阈值为90,将目标简历文档的文本内容及职位描述输入至训练好的BERT模型中,得到目标简历文档的文本内容及职位描述的相似度为95,则确定目标简历文档与职位描述匹配成功。
上述实施方式中,通过获取待匹配的目标简历文档以及预设的职位描述,然后提取目标简历文档中的文本内容,根据提取的文本内容及职位描述,确定出目标简历文档与职位描述的语义相似度,基于语义相似度,可确定出目标简历文档与职位描述的匹配结果。通过上述方法,根据从目标简历文档中提取的文本内容和职位描述,确定出目标简历文档与职位描述的语义相似度,挖掘出了目标简历文档和职位描述之间的语义信息,根据目标简历文档和职位描述的语义相似度来进行简历文档匹配,提高了匹配结果的准确度。
在图2所示实施例中,在提取目标简历文档中的文本内容时,可以对目标简历文档进行标准化处理,相应地,提取目标简历文档中的文本内容的步骤具体如图3所示,图3示出了根据本申请一实施例提供的一种提取目标简历文档中文本内容的方法流程图,具体包括以下步骤:
S302、基于指定简历格式,对目标简历文档进行标准化处理。
S304、提取标准化处理后目标简历文档中各部分的文本内容。
指定简历格式是指根据简历文档中的不同内容而划分出的不同部分,例如,简历格式可以划分为基本信息部分、教育经历部分、工作经历部分等。对目标简历文档进行标准化处理是指将目标简历文档按照指定简历格式进行内容归类。
由于目标简历文档的个性化因素,每个应聘者的简历文档排版、内容描述形式都不相同,通常情况下,未经过标准化处理的目标简历文档中包含有许多无用信息,如果将应聘者的简历文档与职位描述直接进行语义相似度匹配,则会造成匹配结果不准确,降低简历文档匹配的准确度。因此,需要按照指定简历格式对目标简历文档进行标准化处理,不仅可以筛除无用信息,而且可以针对不同的目标简历文档提供一种统一的简历文档格式,提高目标简历文档匹配结果的准确度。
对目标简历文档进行标准化处理的方式有多种,可以是对空格、不可识别的字符等无用信息进行删除;也可以预先在数据库中构建简历格式各部分对应的关键词,将目标简历文档中的文本内容与关键词进行匹配;也可以基于预先建立的关键词对照表,对目标简历文档进行匹配等。
在本申请实施例的一种实现方式中,通过预先在数据库中构建简历文档各部分对应的关键词,将目标简历文档中的文本内容与关键词进行匹配的方式对目标简历文档进行标准化处理。表1示意性地列举出了对目标简历文档进行标准化处理的关键词。
表1简历文档标准化处理关键词表
Figure BDA0003378486260000071
Figure BDA0003378486260000081
以表1为示例,基于简历文档的4个部分,预先构建4个数据库,分别为基本信息数据库、教育经历数据库、工作经历数据库以及技能特长数据库,其中,基本信息数据库中包含有基本信息部分所对应的关键词,例如“基本信息、基础信息、个人资料、个人概况、个人简介、个人简述、基本资料、年龄、性别、身份信息”等;教育经历数据库中包含有教育经历部分所对应的关键词,例如“毕业院校、在校经历、校内经历、社团活动、学生工作、教育实践、科研论文、科研方向,学术成果、获奖情况、专业能力、主修课程、校内职务、实践调研”等;工作经历数据库中包含有工作经历部分所对应的关键词,例如“工作背景、工作经验、职业经历、项目介绍、项目经验”等;技能特长数据库中包含有技能特长部分所对应的关键词,例如“C语言、Java、C++”等。
在本申请实施例的一种可能实现的方式中,获取到待匹配的目标简历文档时,读取目标简历文档的文本内容中包含有“基本资料、专业能力、主修课程、年龄、性别、毕业院校、职业经历、C语言”,将目标简历文档的文本内容按照表1中指定的简历格式所对应的关键词进行标准化处理,得到标准化处理的结果为:“基本信息部分:基本资料、年龄、性别;教育经历部分:毕业院校、主修课程、专业能力;工作经历部分:职业经历;技能特长部分:C语言”。然后依次提取标准化处理后目标简历文档中基本信息部分、教育经历部分、工作经历部分的文本内容。
在上述实施方式中,基于指定简历格式,对目标简历文档进行标准化处理,然后提取标准化处理后目标简历文档中各部分的文本内容,从而可以针对不同的目标简历文档提供一种统一的简历文档格式,提高了目标简历文档匹配结果的准确度。
基于图2、图3所示实施例,除了需要从目标简历文档中提取文本内容以外,为了方便将目标简历文档与职位描述进行对比,还需要从职位描述中提取文本内容,相应地,提取职位描述中的文本内容的步骤具体如图4所示,图4示出了根据本申请一实施例提供的一种提取职位描述中文本内容的方法流程图,具体包括以下步骤:
S402、基于指定简历格式,对职位描述进行标准化处理。
S404、提取标准化处理后职位描述中各部分的文本内容。
同图3所示实施例,指定的简历格式是指根据职位描述中的不同内容而划分出的不同部分,例如,简历格式可以划分为基本信息部分、教育经历部分、工作经历部分等。具体标准化处理的方式,可以与图3所示实施例中的方式相同,这里不再赘述。
在本申请实施例的第一种可能实现的方式中,在获取到待匹配的目标简历文档和预设职位描述以后,通过预先构建的简历格式各部分所对应的关键词,将预设职位描述中的文本内容与关键词进行匹配,即,仅对预设职位描述进行标准化处理。
在本申请实施例的第二种可能实现的方式中,在获取到待匹配的目标简历文档和预设职位描述以后,通过预先构建的简历格式各部分所对应的关键词,将目标简历文档以及预设职位描述中的文本内容与关键词进行匹配,即,对目标简历文档和预设职位描述分别进行标准化处理。
在上述实施方式中,基于指定简历格式,对预设职位描述进行标准化处理,然后提取标准化处理后预设职位描述中各部分的文本内容,从而可以针对不同的职位描述提供一种统一的简历文档格式,提高了目标简历文档与预设职位描述匹配结果的准确度。
在图2所示实施例中,在确定目标简历文档与职位描述的语义相似度时,具体采用的方式可以如图5所示,图5示出了根据本申请一实施例提供的一种确定目标简历文档与职位描述语义相似度的方法流程图,具体包括以下步骤:
S502、根据目标简历文档中各部分的文本内容及职位描述中相应部分的文本内容,确定目标简历文档中各部分与职位描述中相应部分的语义相似度。
S504、将各个语义相似度加权,得到目标简历文档与职位描述的语义相似度。
在本实施例中,在依次提取出目标简历文档以及职位描述中各部分的文本内容之后,便将目标简历文档中各部分的文本内容及职位描述中相应部分的文本分别进行语义相似度计算,确定出目标简历文档中各部分的文本内容及职位描述中相应部分的文本的相似度,再将各个语义相似度进行加权,得到目标简历文档与职位描述的语义相似度。
在本申请实施例的第一种可能实现的方式中,在获取到待匹配的目标简历文档以后,通过预先构建的简历格式各部分所对应的关键词,将目标简历文档以及预设职位描述中的文本内容与关键词进行匹配,即,对目标简历文档以及预设职位描述分别进行标准化处理。将目标简历文档的文本内容按照表1中指定的简历格式所对应的关键词进行标准化处理,得到标准化处理的结果为:“基本信息部分:基本资料、年龄、性别;教育经历部分:毕业院校、主修课程、专业能力;工作经历部分:职业经历;技能特长部分:C语言”。
将职位描述的文本内容按照表1中指定的简历格式所对应的关键词进行标准化处理,得到标准化处理的结果为:“基本信息部分:基本资料、个人简介;教育经历部分:毕业院校、主修课程、学术成果;工作经历部分:职业经历;技能特长部分:C语言、Java、C++。
然后分别提取经过标准化处理后目标简历文档及职位描述中的基本信息部分、教育经历部分、工作经历部分、技能特长部分的文本内容,并确定各部分之间的相似度,将各部分之间的相似度进行加权,得到目标简历文档与职位描述的语义相似度,若目标简历文档与职位描述的语义相似度达到预设阈值时,确定目标简历文档与职位描述的匹配成功;若目标简历文档与职位描述的语义相似度未达到预设阈值,则确定目标简历文档与职位描述匹配失败。
在本申请实施例的第二种可能实现的方式中,在获取到待匹配的目标简历文档以及预设职位描述以后,通过预先在服务器数据库中构建的简历格式各部分所对应的关键词,将目标简历文档中的文本内容与关键词进行匹配,即,仅对目标简历文档进行标准化处理。
然后分别提取经过标准化处理后的目标简历文档以及未经过标准化处理后的职位描述中的基本信息部分、教育经历部分、工作经历部分、技能特长部分的文本内容,并确定各部分之间的相似度,将各部分之间的相似度进行加权,得到目标简历文档与职位描述的语义相似度,若目标简历文档与职位描述的语义相似度达到预设阈值时,确定目标简历文档与职位描述的匹配成功;若目标简历文档与职位描述的语义相似度未达到预设阈值,则确定目标简历文档与职位描述匹配失败。
在本申请实施例的第三种可能实现的方式中,在获取到待匹配的目标简历文档以及预设职位描述以后,通过预先在服务器数据库中构建的简历格式各部分所对应的关键词,将预设职位描述的文本内容与关键词进行匹配,即,仅对预设职位描述进行标准化处理。
然后分别提取未经过标准化处理后的目标简历文档以及经过标准化处理后的职位描述中的基本信息部分、教育经历部分、工作经历部分、技能特长部分的文本内容,并确定各部分之间的相似度,将各部分之间的相似度进行加权,得到目标简历文档与职位描述的语义相似度,若目标简历文档与职位描述的语义相似度达到预设阈值时,确定目标简历文档与职位描述的匹配成功;若目标简历文档与职位描述的语义相似度未达到预设阈值,则确定目标简历文档与职位描述匹配失败。
在本申请实施例的第四种可能实现的方式中,在获取到待匹配的目标简历文档以及预设职位描述以后,直接提取目标简历文档以及职位描述中的基本信息部分、教育经历部分、工作经历部分、技能特长部分的文本内容,并确定各部分之间的相似度,将各部分之间的相似度进行加权,得到目标简历文档与职位描述的语义相似度,若目标简历文档与职位描述的语义相似度达到预设阈值时,确定目标简历文档与职位描述的匹配成功;若目标简历文档与职位描述的语义相似度未达到预设阈值,则确定目标简历文档与职位描述匹配失败。
在上述实施方式中,根据目标简历文档中各部分的文本内容及职位描述中相应部分的文本内容,从而能够确定出目标简历文档中各部分与职位描述中相应部分的语义相似度,然后将各个语义相似度加权,进而得到目标简历文档与职位描述的语义相似度,根据目标简历文档与职位描述的语义相似度,可以提高目标简历文档匹配结果的准确度。
在图5所示实施例中,目标简历文档中具体可以包括工作经历部分;职位描述中具体可以包括岗位要求部分,则在确定目标简历文档与职位描述中相应部分的语义相似度时,具体采用的方式可以如图6所示,图6示出了根据本申请一实施例提供的一种确定目标简历文档与职位描述中相应部分的语义相似度的方法流程图,具体包括以下步骤:
S602、将工作经历部分的文本内容与岗位要求部分的文本内容进行匹配,得到工作经历重叠度。
S604、若工作经历重叠度大于预设阈值,则将工作经历部分的文本内容和岗位要求部分的文本内容输入预先训练的语义相似度模型,得到工作经历部分和所述岗位要求部分的经历相似度。
工作经历重叠度是指工作经历部分与岗位要求部分重合的百分比,工作经历重叠度的作用是为了确定工作经历部分与岗位要求部分是否有进行语义相似度计算的必要,若工作经历重叠度大于预设阈值,便将工作经历部分的文本内容和岗位要求部分的文本内容输入至语义相似度模型中;若工作经历重叠度小于预设阈值,则直接确定目标简历文档中的工作经历部分与职位描述中的岗位要求部分匹配失败,从而减轻了语义相似度模型的计算量,提高了目标简历文档的匹配效率。
在本实施例中,基于指定的简历格式将目标简历文档中的工作经历部分的文本内容与职位描述中岗位要求部分的文本内容进行关键词匹配,若工作经历部分与岗位要求部分关键词匹配的重合百分比大于预设阈值的时候,便将工作经历部分与岗位要求部分的关键词一并输入至语义相似度模型中,得到工作经历部分与岗位要求部分的经历相似度。
在本申请实施例的一种可能实现的方式中,语义相似度模型可以为BERT模型,BERT模型是一个预训练语言模型,通过大量的数据训练,该模型能够在多个不同层次提取关系特征,根据句子上下文获取词义,避免歧义的出现,进而更全面反映句子的语义。以预设工作经历重叠度的阈值为30%为例,提取标准化处理后目标简历文档中工作经历部分的文本内容的关键词为“人工智能、编程设计、C语言”,提取标准化处理后的职位描述中岗位要求部分的文本内容的关键词为“人工智能、Java、C语言、C++”,将工作经历部分的文本内容中的关键词与岗位要求部分的文本中的关键词进行匹配,得到工作经历重叠度为50%大于预设工作经历重叠度阈值。将工作经历部分的文本内容和岗位要求部分的文本内容输入预先训练好的BERT模型中,进而得到工作经历部分和岗位要求部分的经历相似度分值。
通过上述方法,先将工作经历部分的文本内容与岗位要求部分的文本内容进行匹配,得到工作经历重叠度,从而确定工作经历部分与岗位要求部分是否有进行语义相似度计算的必要,从而减轻了语义相似度模型的计算量,提高了目标简历文档的匹配效率;将工作经历重叠度与语义相似度模型相结合,从而提高了目标简历文档匹配结果的准确性。
当然,在一些实现中,也可以将目标简历文档中的某一部分的文本内容与职位描述对应部分(对应关系一般是预先设定的)的文本内容进行匹配,得到文本内容重叠度,只有在文本内容重叠度大于一定阈值的情况下,才会继续进行目标简历文档与职位描述匹配的步骤,同样能够提高目标简历文档匹配结果的准确性。
基于图6所示实施例,目标简历文档中具体还可以包括教育经历部分和职位需求部分;职位描述中具体还可以包括职位部分,除了计算经历相似度以外,还可以计算职位相似度,相应地,目标简历文档与职位描述匹配的方式可以如图7所示,图7示出了根据本申请一实施例提供的一种目标简历文档与职位描述匹配的方法流程图,具体包括以下步骤:
S702、将职位需求部分的文本内容和职位部分的文本内容输入语义相似度模型,得到职位需求部分和职位部分的职位相似度。
S704、从教育经历部分和工作经历部分中分别提取关键信息和附加信息。
S706、基于关键信息与预设关键信息条件的匹配结果,分配第一分值。
S708、基于附加信息与预设附加信息条件的匹配结果,分配第二分值。
S710、对经历相似度、职位相似度、第一分值、第二分值进行加权,得到目标简历文档与职位描述的匹配度。
S712、根据匹配度,确定目标简历文档与职位描述的匹配结果。
目标简历文档还包括教育经历部分和职位需求部分,其中,教育经历部分是指应聘者的教育背景;职位需求部分是指应聘者所需求的职位。职位描述包括职位部分,其中,职位部分是指招聘方所招聘的岗位。关键信息是指招聘方对应聘者的基本要求。附加信息是指招聘方预设的对应聘者的加分项,例如,通过英语六级考试、荣誉证书、熟悉Python语言等等,应聘者满足的附加信息越多,相应的其简历文档匹配的成功率也越高。
在对目标简历文档中职位需求部分和职位描述中的职位部分进行相似度对比得到职位相似度之后,还需要从教育经历部分和工作经历部分中分别提取关键信息和附加信息。从教育经历部分和工作经历部分分别提取关键信息和附加信息的方式有多种,可以从教育经历部分中提取关键信息,从工作经历部分提取附加信息;也可以从教育经历部分中提取附加信息,从工作经历部分提取关键信息;也可以从教育经历部分中提取关键信息和附加信息,并从工作经历部分中提取关键信息和附加信息。当然,还可以将教育经历部分与工作经历部分先进行整合,然后再从整合的内容中提取关键信息和经历信息,即关键信息中包含教育经历部分和工作经历部分对应内容,附加信息中包含教育经历部分和工作经历部分对应内容,将整合后的内容分别与关键信息数据库、附加信息数据库进行比对,即可提取出关键信息和附加信息。
在本申请实施例中,预先构建2个关键词数据库,分别为关键信息数据库以及附加信息数据库,其中关键信息数据库中包含有关键信息所对应的关键词,例如“982/211院校、本科、计算机、软件、编程”;附加信息数据库中包含有附加信息所对应的关键词,例如“C语言、Python语言、英语六级、荣誉证书、项目经验”等。
在从教育经历部分和工作经历部分中分别提取关键信息和附加信息之后,便基于目标简历文档的关键信息与预设关键信息条件进行匹配,得到第一分值,第一分值表征了关键信息与预设关键信息条件的匹配程度,匹配程度(例如判断相同的词的多少;或者按照先匹配教育经历再匹配工作经历的顺序,判断重合度)越高,则分配更高的第一分值。基于目标简历文档的教育经历部分和工作经历部分中提取出的附加信息,与预设附加信息条件进行匹配,得到第二分值,第二分值表征了附加信息与预设附加信息条件的匹配程度,匹配程度(例如判断相同的词的多少;或者按照附加技能需求的先后顺序判断重合度)越高,则分配更高的第二分值。
在具体实现中,可以分别从教育经历部分和工作经历部分提取到关键信息,因此,针对教育经历部分可以计算出一个第一分值,针对工作经历部分还可以计算出另一个第一分值,那么,针对这种情况,可以根据针对教育经历部分和工作经历部分的两个第一分值,计算最终的第一分值,具体的计算方式可以是求二者的平均值,也可以是根据对教育经历部分和工作经历部分的关注程度分别分配不同的权重,例如对教育经历部分更关注,则会相应分配更大的权重,然后基于分配的权重,对两个第一分值进行加权,得到最终的第一分值。同理,可以分别从教育经历部分和工作经历部分提取到附加信息,因此,针对教育经历部分可以计算出一个第二分值,针对工作经历部分还可以计算出另一个第二分值,那么,针对这种情况,可以根据针对教育经历部分和工作经历部分的两个第二分值,计算最终的第二分值,具体的计算方式可以是求二者的平均值,也可以是根据对教育经历部分和工作经历部分的关注程度分别分配不同的权重,例如对教育经历部分更关注,则会相应分配更大的权重,然后基于分配的权重,对两个第二分值进行加权,得到最终的第二分值。
在另一种实现方式中,将教育经历部分与工作经历部分先进行整合,然后再从整合的内容中提取关键信息和经历信息,则可以基于提取的关键信息计算出第一分值,基于提取的附加信息计算出第二分值。例如,将目标简历文档中教育经历部分以及工作经历部分进行整合后得到“教育经历部分:就读于211院校,2021届计算机专业本科毕业生,本科期间通过英语六级;工作经历部分:熟悉Python语言,有软件开发项目经验”,将整合后的内容与关键信息数据库中的关键词进行关键词匹配,匹配得到的关键词为:211院校、本科、计算机专业,进而得出匹配分值为90,并将此得分作为第一分值。然后将整合后的内容与附加信息数据库中的关键词进行关键词匹配,匹配得到的关键词为:英语六级、Python语言、项目经验,进而得出匹配分值为80,并将此得分作为第二分值。
在根据教育经历部分和工作经历部分得到第一分值以及第二分值之后,便将经历相似度、职位相似度、第一分值、第二分值进行加权,进而得到目标简历文档与职位描述的匹配度,若该匹配度达到了预设阈值,则确定目标简历文档与职位描述匹配成功;若匹配度未达到预设阈值,则确定目标简历文档与职位描述匹配失败。
例如,预设一个匹配度阈值,并根据实际需要对经历相似度、职位相似度、关键信息条件以及附加信息条件分配相应的权重,将目标简历文档中工作经历部分的文本内容和职位描述中岗位要求部分的文本内容输入预先训练好的BERT模型中,进而得到工作经历部分和岗位要求部分的经历相似度分值;将目标简历文档中职位需求部分的文本内容和职位描述中职位部分的文本内容输入至训练好的BERT模型中,得到职位需求部分和职位部分的职位相似度分值;将教育经历部分以及工作经历部分的文本内容与服务器中关键信息数据库中的关键词进行关键词匹配,得到第一分值;将教育经历部分以及工作经历部分的文本内容与服务器中附加信息数据库中的关键词进行关键词匹配,得到第二分值;则基于经历相似度、职位相似度、关键信息条件以及附加信息条件所各自对应的权重,将经历相似度分值、职位相似度分值、第一分值、第二分值进行加权,得到加权结果,大于预设匹配度阈值,则确定目标简历文档与职位描述匹配成功。
在上述实施方式中,将工作经历部分的文本内容和岗位要求部分的文本内容输入语义相似度模型,得到工作经历部分和岗位要求部分的经历相似度分值;将职位需求部分的文本内容和职位部分的文本内容输入语义相似度模型,得到职位需求部分和职位部分的职位相似度分值;然后从教育经历部分和工作经历部分中提取关键信息和附加信息,基于关键信息与预设关键信息条件的匹配结果,分配第一分值;基于附加信息与预设附加信息条件的匹配结果,分配第二分值;最后将经历相似度分值、职位相似度分值、第一分值、第二分值进行加权得到目标简历文档与职位描述的匹配度;根据匹配度,确定目标简历文档与职位描述的匹配结果。通过上述方法,基于经历相似度、职位相似度、第一分值、第二分值共同确定目标简历文档与职位描述的匹配结果,从而更加准确的确定出目标简历文档与职位描述的语义相似度,挖掘出了目标简历文档和职位描述之间的语义信息,提高了匹配结果的准确度。
基于图6、图7所示实施例,在提取目标简历文档中的文本内容的步骤之后,还可以确定出指示的目标岗位,相应地,确定目标岗位的步骤具体如图8所示,图8示出了根据本申请一实施例提供的一种确定目标岗位的方法流程图,具体包括以下步骤:
S802、分别从工作经历部分、岗位要求部分中提取关键词。
S804、对从工作经历部分中提取的关键词和从岗位要求部分中提取的关键词取交集。
S806、根据交集,确定目标岗位。
目标简历文档中包括工作经历部分、教育经历部分、职位需求部分;职位描述中包括职位部分、岗位要求部分。职位需求是指应聘者所需求的职位。岗位要求是指招聘方对招聘岗位的具体要求。
在简历文档匹配的实际应用过程中,有时会出现应聘者对职位需求描述不清楚的情况,例如,应聘者在简历文档的职位需求部分填写的是测试工程师,而招聘方所提供的岗位有软件测试工程师、硬件测试工程师,如果直接将职位需求部分的文本内容与职位部分的文本内容输入语义相似度模型中,则会出现岗位匹配错误的情况。因此,在进行目标简历文档匹配之间,需要根据目标简历文档中工作经历部分与职位描述中岗位要求部分,确定目标岗位。
在本申请实施例的一种可能的实现方式中,将目标简历文档中的文本内容提取出来之后,提取文本内容中工作经历部分的关键词与职位描述中岗位要求部分的关键词进行对比,提取关键词交集作为对比结果,然后基于对比结果确定具体的目标岗位。
例如,目标简历文档中职位需求部分为“测试工程师”,工作经历部分为“有软件测试项目经验、熟悉Java等编程语言、参加过软件开发项目、受过软件测试专业培训”;职位描述中职位部分为“软件测试工程师、硬件测试工程师”,软件测试工程师所对应的岗位要求部分为“需要熟悉编程语言、有软件测试经历”,硬件测试工程师所对应的岗位要求部分为“熟练电子元器件焊接及维修、掌握硬件产品的硬件结构、熟悉电路基本原理”。提取出目标简历文档中工作经历部分的关键词为“软件测试、Java、编程语言、软件开发、软件测试”,提取职位描述中职位部分所对应的岗位要求部分的关键词,即软件测试工程师对应的岗位要求部分的关键词为“编程语言、软件测试”,硬件测试工程师对应的岗位要求部分的关键词为“电子元器件、硬件、电路”,从目标简历文档的工作经历部分与职位描述中岗位要求部分提取关键词交集为“编程语言、软件测试”,即确定目标简历文档中职位需求部分填写的“测试工程师”所对应的目标岗位为“软件测试工程师”。
在上述实施方式中,分别从工作经历部分、岗位要求部分中提取关键词,对从工作经历部分中提取的关键词和从岗位要求部分中提取的关键词取交集,根据交集,确定目标岗位。通过上述方法,能够确定目标简历文档中职位需求在职位描述中所对应的目标岗位,避免了因职位需求表述不清而产生目标简历文档匹配错误的情况,提高了目标简历文档匹配的正确率。
基于图2所示实施例,在提取目标简历文档中的文本内容的步骤之后,还可以做出简历待添加内容的推荐,相应地,推荐简历待添加内容的步骤具体如图9所示,图9示出了根据本申请一实施例提供的一种推荐简历待添加内容的方法流程图,具体包括以下步骤:
S902、将文本内容与职位描述进行对比,确定职位描述中包含、且目标简历文档中未包含的简历待添加内容。
S904、向终端发送推荐添加信息,其中,推荐添加信息中包括简历待添加内容。
获取到待匹配的目标简历文档以及预设的职位描述后,提取出目标简历文档中的文本内容,然后将该文本内容与职位描述进行对比,确定出职位描述中包含、且目标简历文档中未包含的简历待添加内容,并将该简历待添加内容作为推荐添加信息发送至终端。
在本申请实施例的一种可能实现的方式中,将目标简历文档的文本内容按照指定的简历格式进行标准化处理后,得到标准化处理的结果为:“基本信息部分:基本资料、年龄、性别;教育经历部分:毕业院校、主修课程、专业能力;工作经历部分:职业经历”;然后将职位描述中的文本内容按照指定的简历格式进行标准化处理,得到标准化处理的结果为:“基本信息部分:基本资料、年龄、性别;教育经历部分:毕业院校、主修课程、专业能力;工作经历部分:职业经历;技能特长部分:C语言”,将目标简历文档中的文本内容与职位描述中的文本内容进行对比,对比结果显示在职位描述的文本内容中包含技能特长部分,而目标简历文档的文本内容中并未包含该技能特长部分,因此将职位描述中的技能特长部分作为推荐添加信息发送至终端。通过上述方法,应聘方可根据推荐添加信息对应修改简历文档,从而提高目标简历文档匹配的准确率。
基于图2所示实施例,在获取目标简历文档的步骤之后,还可以对目标简历文档进行修正,相应地,目标简历文档修正的步骤具体如图10所示,图10示出了根据本申请一实施例提供的一种目标简历文档修正的方法流程图,具体包括以下步骤:
S1002、对目标简历文档进行分析,确定目标简历文档存在的缺陷。
S1004、确定缺陷对应的修正策略。
S1006、向终端发送推荐修正信息,其中,推荐修正信息携带缺陷的标识以及缺陷对应的修正策略。
目标简历文档存在缺陷是指目标简历文档中的文本内容条理性差和/或目标简历文档的文本内容与职位描述相似度低。修正策略是指针对不同的缺陷所采取的不同修正提示。推荐修正信息中携带有缺陷的标识以及缺陷对应的修正策略。
在本实施例中,在获取到待匹配的目标简历文档后,会对目标简历文档进行分析,判断目标简历文档中是否存在文本内容条理性差、目标简历文档的文本内容与职位描述相似度低的情况,若确定目标简历文档存在缺陷,则将缺陷部分进行标识处理,并根据存在的缺陷向终端发送对应的修正提示,其中,将缺陷部分进行标识处理可以是将缺陷部分进行加粗、添加下划线、增加底色等。
在本申请实施例的第一种可能实现的方式中,当获取到待匹配的目标简历文档后,对目标简历文档进行段落识别,例如某行文字前面有空格,则识别该行文字为段落的开始,某行文字后面有多个空格则识别为段落的末尾;若识别出目标简历文档仅为一段时,则确定该目标简历文档的文本内容条理性差,相应的,将该简历文本内容进行加粗处理,并针对文本内容条理性差的缺陷,向终端发送“请分段书写”的修正信息。
在本申请实施例的第二种可能实现的方式中,预先在招聘方服务器或者终端中创建一个公司简介数据库,数据库中可以包含全国各公司的名称及简介。当获取到待匹配的目标简历文档后,若识别出目标简历文档中包含有关于“公司”的描述时,将该公司描述与公司简介数据库中的公司名称进行关键词匹配,若关键词匹配失败时,则确定目标简历文档的缺陷为工作经历描述不清楚,相应的,针对目标职位描述中公司描述部分添加下划线作为缺陷标识,并向终端发送“补充公司简介”的修正信息。
在本申请实施例的第三种可能实现的方式中,当获取到待匹配的目标简历文档后,根据目标简历文档的文本内容以及职位描述,确定目标简历文档与职位描述的语义相似度,若相似度低于预设阈值时,则确定目标简历文档与职位描述的相似度过低,相应的,针对目标简历文档中与职位描述相似度过低的部分添加底色作为缺陷标识并向终端发送“补充简历文档”的修正信息。
在上述实施方式中,在获取待匹配的目标简历文档的步骤之后,对目标简历文档进行分析,确定目标简历文档存在的缺陷;然后确定缺陷对应的修正策略,并向终端发送推荐修正信息,避免了由于目标简历文档存在缺陷而发生目标简历文档匹配错误的情况,提高了目标简历文档匹配的准确率。
基于图2所示实施例,在提取目标简历文档中的文本内容的步骤之后,还可以进行错句检测,相应地,错句检测的步骤具体如图11所示,图11示出了根据本申请一实施例提供的一种错句检测的方法流程图,具体包括以下步骤:
S1102、利用预设的错误检测规则,对文本内容进行错句检测。
S1104、若检测到文本内容中存在错句,则向终端发送错句提示。
错误检测规则是指对目标简历文档进行错句检测的规则。
在本申请实施例的一种可能实现的方式中,错句检测模型先通过结巴分词器对目标简历文档中的句子进行切词,由于句子中有可能含有错别字,因此,从字粒度和词粒度两方面对错句进行检测,其中,字粒度可以通过语言模型困惑度检测句子中的某个字的似然概率值低于句子文本平均值,则判定该字是疑似错别字的概率大;词粒度可以通过结巴分词器对句子进行切词,然后将切分后的词语与预设的词典库中的词进行匹配,若匹配失败则判定该词是错别词的概率大。若检测到文本内容的句子存在错字或者错词,则判定该句子为错句,并向终端发送错句提示。
在本申请实施例的另一种可能实现的方式中,可以利用BERT错句检测模型对文本内容进行错句检测,其中BERT错句检测模型是由相似字检测模块、重复字检测模块、专业词汇检测模块以及基于深度学习的检测模块组成。当提取出目标简历文档中的文本内容之后,将该文本内容输入至BERT错句检测模型中进行错句检测,若检测到文本内容存在错句,则向终端发送错句提示。
通过上述方法,能够避免由于目标简历文档中存在错误而出现目标文档匹配措施的情况发生,从而提高了目标简历文档匹配的准确性。
图12示出了根据本申请一实施例提供的又一种简历文档匹配方法的流程图。
输入待匹配的目标简历文档,将待匹配的目标简历文档以及预设的职位描述分别进行标准化处理,并提取标准化处理后的目标简历文档以及职位描述中各部分的文本内容。将目标简历文档中工作经历部分的文本内容和职位描述中岗位要求部分的文本内容输入语义相似度模型,得到经历相似度;将目标简历文档中职位需求部分的文本内容和职位描述中职位部分的文本内容输入语义相似度模型,得到职位相似度;从目标简历文档中教育经历部分中提取出关键信息和附加信息,并从工作经历部分中提取出关键信息和附加信息,将教育经历部分和工作经历部分的关键信息与预设关键信息条件进行匹配,得到关键信息匹配结果;将教育经历部分和工作经历部分的附加信息与预设附加信息条件进行匹配,得到附加信息匹配结果;基于经历相似度、职位相似度、关键信息匹配结果、附加信息匹配结果进行加权,最终得到目标简历文档匹配结果。
在提取目标简历文档的文本内容之后,会根据目标简历文档中的工作经历部分以及职位描述中的岗位要求部分进行岗位细粒度分析,确定目标岗位;还会针对目标简历文档,进行添加信息识别,即将目标简历文档中的文本内容与职位描述进行对比,确定职位描述中包含、且目标简历文档中未包含的简历待添加内容,并根据简历待添加内容生成推荐添加信息。
在获取到待匹配的目标简历文档之后,会对目标简历文档进行分析,并进行缺陷识别,即确定目标文档存在的缺陷,根据存在的缺陷生成对应的修正信息;还会利用预设的错误检测规则对目标简历文档中的文本内容进行错句识别,即若检测到文本内容存在错句,则生成错句提示。
在针对目标简历文档确定目标岗位,生成推荐添加信息、修正信息以及错句提示之后,服务器会整合上述结果生成对目标简历文档进行完善的简历建议,并将简历建议发送至终端。
通过上述方法,根据从目标简历文档中提取的文本内容和职位描述,确定出目标简历文档与职位描述的语义相似度,挖掘出了目标简历文档和职位描述之间的语义信息,根据目标简历文档和职位描述的语义相似度来进行简历文档匹配,提高了匹配结果的准确度。
与上述方法实施例相对应,本申请还提供了简历文档匹配装置实施例,图13示出了本申请一实施例提供的一种简历文档匹配装置的结构示意图。如图13所示,该装置包括:
获取模块1302,被配置为获取待匹配的目标简历文档以及预设的职位描述;
提取模块1304,被配置为提取目标简历文档中的文本内容;
确定模块1306,被配置为根据文本内容及职位描述,确定目标简历文档与职位描述的语义相似度;
匹配模块1308,被配置为基于语义相似度,确定目标简历文档与职位描述的匹配结果。
可选地,提取模块1304,进一步被配置为基于指定简历格式,对目标简历文档进行标准化处理;提取标准化处理后目标简历文档中各部分的文本内容。
可选地,该装置还包括:
职位描述处理模块,被配置为基于指定简历格式,对职位描述进行标准化处理;提取标准化处理后职位描述中各部分的文本内容;
可选地,确定模块1306,进一步被配置为根据目标简历文档中各部分的文本内容及职位描述中相应部分的文本内容,确定目标简历文档中各部分与职位描述中相应部分的语义相似度;将各个语义相似度加权,得到目标简历文档与职位描述的语义相似度。
可选地,目标简历文档包括工作经历部分;职位描述包括岗位要求部分;
确定模块1306,进一步被配置为将工作经历部分的文本内容与岗位要求部分的文本内容进行匹配,得到工作经历重叠度;若工作经历重叠度大于预设阈值,则将工作经历部分的文本内容和岗位要求部分的文本内容输入预先训练的语义相似度模型,得到工作经历部分和岗位要求部分的经历相似度。
可选地,目标简历文档还包括教育经历部分和职位需求部分;职位描述还包括职位部分;
确定模块1306,还被配置为将职位需求部分的文本内容和职位部分的文本内容输入语义相似度模型,得到职位需求部分和职位部分的职位相似度;从教育经历部分和工作经历部分中提取关键信息和附加信息;基于关键信息与预设关键信息条件的匹配结果,分配第一分值;基于所述附加信息与预设附加信息条件的匹配结果,分配第二分值;
匹配模块1308,进一步被配置为对经历相似度、职位相似度、第一分值、第二分值进行加权,得到目标简历文档与职位描述的匹配度;根据匹配度,确定目标简历文档与职位描述的匹配结果。
可选地,该装置还包括:
关键词提取模块,被配置为分别从工作经历部分、岗位要求部分中提取关键词;
交集模块,被配置为对从工作经历部分中提取的关键词和从岗位要求部分中提取的关键词取交集;
目标岗位确定模块,被配置为根据交集,确定目标岗位。
可选地,该装置还包括:
对比模块,被配置为将文本内容与职位描述进行对比,确定职位描述中包含、且目标简历文档中未包含的简历待添加内容;
推荐添加信息发送模块,被配置为向终端发送推荐添加信息,其中,推荐添加信息包括简历待添加内容。
可选地,该装置还包括:
分析模块,被配置为对目标简历文档进行分析,确定目标简历文档存在的缺陷;
修正策略模块,被配置为确定缺陷对应的修正策略;
推荐修正信息发送模块,被配置为向终端发送推荐修正信息,其中,推荐修正信息携带缺陷的标识以及缺陷对应的修正策略。
可选地,该装置还包括:
检测模块,被配置为利用预设的错误检测规则,对文本内容进行错句检测;
错句提示发送模块,被配置为若检测到文本内容中存在错句,则向终端发送错句提示。
本申请提供的简历文档匹配装置,通过获取待匹配的目标简历文档以及预设的职位描述,然后提取目标简历文档中的文本内容,根据提取的文本内容及职位描述,确定出目标简历文档与职位描述的语义相似度,基于语义相似度,可确定出目标简历文档与职位描述的匹配结果。通过上述方法,根据从目标简历文档中提取的文本内容和职位描述,确定出目标简历文档与职位描述的语义相似度,挖掘出了目标简历文档和职位描述之间的语义信息,根据目标简历文档和职位描述的语义相似度来进行简历文档匹配,提高了匹配结果的准确度。
上述为本实施例的一种简历文档匹配装置的示意性方案。需要说明的是,该简历文档匹配装置的技术方案与上述的简历文档匹配方法的技术方案属于同一构思,简历文档匹配装置的技术方案未详细描述的细节内容,均可以参见上述简历文档匹配方法的技术方案的描述。此外,装置实施例中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。
图14示出了根据本申请一实施例提供的一种计算设备1400的结构框图。该计算设备1400的部件包括但不限于存储器1410和处理器1420。处理器1420与存储器1410通过总线1430相连接,数据库1450用于保存数据。
计算设备1400还包括接入设备1440,接入设备1440使得计算设备1400能够经由一个或多个网络1460通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备1440可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本申请的一个实施例中,计算设备1400的上述部件以及图14中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图14所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备1400可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备1400还可以是移动式或静止式的服务器。
其中,处理器1420用于执行所述简历文档匹配方法的计算机可执行指令。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的简历文档匹配方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述简历文档匹配方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于简历文档匹配方法。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的简历文档匹配方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述简历文档匹配方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (13)

1.一种简历文档匹配方法,其特征在于,包括:
获取待匹配的目标简历文档以及预设的职位描述;
提取所述目标简历文档中的文本内容;
根据所述文本内容及所述职位描述,确定所述目标简历文档与所述职位描述的语义相似度;
基于所述语义相似度,确定所述目标简历文档与所述职位描述的匹配结果。
2.根据权利要求1所述的方法,其特征在于,所述提取所述目标简历文档中的文本内容的步骤,包括:
基于指定简历格式,对所述目标简历文档进行标准化处理;
提取标准化处理后所述目标简历文档中各部分的文本内容。
3.根据权利要求1所述的方法,其特征在于,在所述根据所述文本内容及所述职位描述,确定所述目标简历文档与所述职位描述的语义相似度的步骤之前,所述方法还包括:
基于指定简历格式,对所述职位描述进行标准化处理;
提取标准化处理后所述职位描述中各部分的文本内容。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述根据所述文本内容及所述职位描述,确定所述目标简历文档与所述职位描述的语义相似度的步骤,包括:
根据所述目标简历文档中各部分的文本内容及所述职位描述中相应部分的文本内容,确定所述目标简历文档中各部分与所述职位描述中相应部分的语义相似度;
将各个所述语义相似度加权,得到所述目标简历文档与所述职位描述的语义相似度。
5.根据权利要求4所述的方法,其特征在于,所述目标简历文档包括工作经历部分;所述职位描述包括岗位要求部分;
所述根据所述目标简历文档中各部分的文本内容及所述职位描述中相应部分的文本内容,确定所述目标简历文档中各部分与所述职位描述中相应部分的语义相似度的步骤,包括:
将所述工作经历部分的文本内容与所述岗位要求部分的文本内容进行匹配,得到工作经历重叠度;
若所述工作经历重叠度大于预设阈值,则将所述工作经历部分的文本内容和所述岗位要求部分的文本内容输入预先训练的语义相似度模型,得到所述工作经历部分和所述岗位要求部分的经历相似度。
6.根据权利要求5所述的方法,其特征在于,所述目标简历文档还包括教育经历部分和职位需求部分;所述职位描述还包括职位部分;所述方法还包括:
将所述职位需求部分的文本内容和所述职位部分的文本内容输入所述语义相似度模型,得到所述职位需求部分和所述职位部分的职位相似度;
从所述教育经历部分和所述工作经历部分中分别提取关键信息和附加信息;
基于所述关键信息与预设关键信息条件的匹配结果,分配第一分值;
基于所述附加信息与预设附加信息条件的匹配结果,分配第二分值;
所述基于所述语义相似度,确定所述目标简历文档与所述职位描述的匹配结果的步骤,包括:
对所述经历相似度、所述职位相似度、所述第一分值、所述第二分值进行加权,得到所述目标简历文档与所述职位描述的匹配度;
根据所述匹配度,确定所述目标简历文档与所述职位描述的匹配结果。
7.根据权利要求5或6所述的方法,其特征在于,在所述提取所述目标简历文档中的文本内容的步骤之后,所述方法还包括:
分别从所述工作经历部分、所述岗位要求部分中提取关键词;
对从所述工作经历部分中提取的关键词和从所述岗位要求部分中提取的关键词取交集;
根据所述交集,确定目标岗位。
8.根据权利要求1-3中任一项所述的方法,其特征在于,在所述提取所述目标简历文档中的文本内容的步骤之后,所述方法还包括:
将所述文本内容与所述职位描述进行对比,确定所述职位描述中包含、且所述目标简历文档中未包含的简历待添加内容;
向终端发送推荐添加信息,所述推荐添加信息包括所述简历待添加内容。
9.根据权利要求1-3中任一项所述的方法,其特征在于,在所述获取待匹配的目标简历文档的步骤之后,所述方法还包括:
对所述目标简历文档进行分析,确定所述目标简历文档存在的缺陷;
确定所述缺陷对应的修正策略;
向终端发送推荐修正信息,所述推荐修正信息携带所述缺陷的标识以及所述缺陷对应的修正策略。
10.根据权利要求1-3中任一项所述的方法,其特征在于,在所述提取所述目标简历文档中的文本内容的步骤之后,所述方法还包括:
利用预设的错误检测规则,对所述文本内容进行错句检测;
若检测到所述文本内容中存在错句,则向终端发送错句提示。
11.一种简历文档匹配装置,其特征在于,包括:
获取模块,被配置为获取待匹配的目标简历文档以及预设的职位描述;
提取模块,被配置为提取所述目标简历文档中的文本内容;
确定模块,被配置为根据所述文本内容及所述职位描述,确定所述目标简历文档与所述职位描述的语义相似度;
匹配模块,被配置为基于所述语义相似度,确定所述目标简历文档与所述职位描述的匹配结果。
12.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令实现权利要求1至10任意一项所述简历文档匹配方法的步骤。
13.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1至10任意一项所述简历文档匹配方法的步骤。
CN202111426084.1A 2021-11-26 2021-11-26 简历文档匹配方法、装置、计算设备及存储介质 Pending CN114117222A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111426084.1A CN114117222A (zh) 2021-11-26 2021-11-26 简历文档匹配方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111426084.1A CN114117222A (zh) 2021-11-26 2021-11-26 简历文档匹配方法、装置、计算设备及存储介质

Publications (1)

Publication Number Publication Date
CN114117222A true CN114117222A (zh) 2022-03-01

Family

ID=80370757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111426084.1A Pending CN114117222A (zh) 2021-11-26 2021-11-26 简历文档匹配方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN114117222A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562837A (zh) * 2023-07-12 2023-08-08 深圳须弥云图空间科技有限公司 人岗匹配方法、装置、电子设备及计算机可读存储介质
CN117454317A (zh) * 2023-12-25 2024-01-26 辽宁邮电规划设计院有限公司 一种融合数据治理方法及系统
CN117609618A (zh) * 2023-11-27 2024-02-27 北京五八赶集信息技术有限公司 职位信息的推荐方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117863A (zh) * 2015-09-28 2015-12-02 北京橙鑫数据科技有限公司 简历职位匹配方法及装置
CN109634994A (zh) * 2018-12-21 2019-04-16 深圳市览网络股份有限公司 一种简历与职位的匹配推送方法及计算机设备和存储介质
CN110377702A (zh) * 2019-07-18 2019-10-25 中科鼎富(北京)科技发展有限公司 一种简历信息匹配方法及装置
KR20200023259A (ko) * 2018-08-24 2020-03-04 김보언 인공지능 모델을 이용한 전문가 매칭 서비스 제공방법, 장치 및 프로그램
CN111144723A (zh) * 2019-12-17 2020-05-12 埃摩森网络科技(上海)有限公司 人岗匹配推荐方法及系统、存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117863A (zh) * 2015-09-28 2015-12-02 北京橙鑫数据科技有限公司 简历职位匹配方法及装置
KR20200023259A (ko) * 2018-08-24 2020-03-04 김보언 인공지능 모델을 이용한 전문가 매칭 서비스 제공방법, 장치 및 프로그램
CN109634994A (zh) * 2018-12-21 2019-04-16 深圳市览网络股份有限公司 一种简历与职位的匹配推送方法及计算机设备和存储介质
CN110377702A (zh) * 2019-07-18 2019-10-25 中科鼎富(北京)科技发展有限公司 一种简历信息匹配方法及装置
CN111144723A (zh) * 2019-12-17 2020-05-12 埃摩森网络科技(上海)有限公司 人岗匹配推荐方法及系统、存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116562837A (zh) * 2023-07-12 2023-08-08 深圳须弥云图空间科技有限公司 人岗匹配方法、装置、电子设备及计算机可读存储介质
CN117609618A (zh) * 2023-11-27 2024-02-27 北京五八赶集信息技术有限公司 职位信息的推荐方法、装置、电子设备及存储介质
CN117454317A (zh) * 2023-12-25 2024-01-26 辽宁邮电规划设计院有限公司 一种融合数据治理方法及系统
CN117454317B (zh) * 2023-12-25 2024-03-19 辽宁邮电规划设计院有限公司 一种融合数据治理方法及系统

Similar Documents

Publication Publication Date Title
WO2021169111A1 (zh) 简历筛选方法、装置、计算机设备和存储介质
CN114117222A (zh) 简历文档匹配方法、装置、计算设备及存储介质
CN111324743A (zh) 文本关系抽取的方法、装置、计算机设备及存储介质
CN111144191B (zh) 字体识别方法、装置、电子设备及存储介质
CN111177326A (zh) 基于精标注文本的关键信息抽取方法、装置及存储介质
CN110929573A (zh) 基于图像检测的试题检查方法及相关设备
CN112487139B (zh) 基于文本的自动出题方法、装置及计算机设备
CN112883732A (zh) 基于关联记忆网络的中文细粒度命名实体识别方法及装置
CN112069815B (zh) 成语填空题的答案选择方法、装置和计算机设备
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN112468659A (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN107844531B (zh) 答案输出方法、装置和计算机设备
Chowdhury et al. Indian language identification using time-frequency image textural descriptors and GWO-based feature selection
CN115204156A (zh) 关键词提取方法及装置
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN113641794A (zh) 简历文本的评估方法、装置及服务器
CN116029306A (zh) 一种限定域文科简答题自动评分方法
CN111259115A (zh) 内容真实性检测模型的训练方法、装置和计算设备
CN114120342A (zh) 简历文档识别方法、装置、计算设备及存储介质
CN112015903B (zh) 题目判重方法、装置、存储介质、计算机设备
CN114662477A (zh) 基于中医对话的停用词表生成方法、装置及存储介质
CN113918704A (zh) 基于机器学习的问答方法、装置、电子设备及介质
CN111930908A (zh) 基于人工智能的答案识别方法及装置、介质、电子设备
US20200294410A1 (en) Methods, systems, apparatuses and devices for facilitating grading of handwritten sheets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination