CN113962196A - 一种简历处理方法、装置、电子设备及存储介质 - Google Patents
一种简历处理方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113962196A CN113962196A CN202011595911.5A CN202011595911A CN113962196A CN 113962196 A CN113962196 A CN 113962196A CN 202011595911 A CN202011595911 A CN 202011595911A CN 113962196 A CN113962196 A CN 113962196A
- Authority
- CN
- China
- Prior art keywords
- text
- resume
- category
- preprocessed
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种简历处理方法、装置、电子设备及存储介质,该方法包括:获取待转换的简历;对所述待转换的简历进行格式转换,得到格式转换后的简历;对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接;对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别;根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。采用本申请,可以使得最终生成的简历的信息更加完善且更加准确。本申请涉及区块链技术,如可将目标简历中的关键信息写入区块链。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种简历处理方法、装置、电子设备及存储介质。
背景技术
互联网招聘时代,企业每天都会收到大量的电子简历,这些简历来自于招聘网站、猎头等各种不同的渠道,简历文件格式和内容表达形式多种多样,由于简历文本内容和格式上的多样性,使得阅读和筛选合适的简历需要耗费大量的人力和资源;同时,由于人工智能技术的发展,企业的招聘系统也越来越智能化,可以实现线上的人岗匹配,人才搜索,智能面试等功能,这些功能需要先从简历中提取出有效的结构化信息。因此,从简历中快速解析出有价值的结构化信息,具有很高的商业价值和实用价值。
现有的简历解析方法一般为基于规则的信息抽取方法。这种方法一般根据关键字,词典或文本位置来匹配字段信息,虽然在特定的简历格式上能取得不错的效果,但是需要依赖人工建立抽取模型和抽取规则,适用于在某个有限知识领域的信息抽取场景。这种方法难以穷举信息抽取的常用表达式,导致信息抽取的召回率偏低,并且,人工先验知识获取的疏漏也会导致信息抽取的准确率偏低。采用这种方法生成简历,将导致最终解析生成的简历的信息不够完善并且不够准确。
发明内容
本申请实施例提供了一种简历处理方法、装置、电子设备及存储介质,可以使得最终解析生成的简历的信息更加完善且更加准确。
第一方面,本申请实施例提供了一种简历处理方法,包括:
获取待转换的简历;
对所述待转换的简历进行格式转换,得到格式转换后的简历;
对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接;
对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别;
根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。
可选的,所述预处理包括文本替换,所述对所述格式转换后的简历进行预处理,得到预处理后的简历,包括:
对所述格式转换后的简历进行分词处理,得到第一分词结果,所述第一分词结果包括至少一个存在对应的标准词的词组;
从词集合中确定出所述第一分词结果中各词组对应的标准词;所述词集合包括多个标准词以及所述多个标准词中每个标准词对应的词组,每个标准词对应的词组包括至少一个非标准词,所述非标准词与所述标准词同义;
利用所述第一分类结果中各词组的标准词,替换所述格式转换后的简历中的所述词组中各个词,得到执行了文本替换操作的简历;
根据所述执行了文本替换操作的简历获得预处理后的简历。
可选的,所述根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历前,所述方法还包括:
在所述预处理后的简历的排版方式为单列排版时,根据所述各个文本对应的标题分割所述各个文本;
在所述预处理后的简历的排版方式为两列排版且有简历分割线时,根据所述各个文本的位置信息确定出简历分割线,并根据所述各个文本对应的标题分割所述简历分割线两边的文本;
在所述预处理后的简历的排版方式为两列排版且没有简历分割线时,在所述预处理后的简历中按照垂直坐标查找距离第一标题最近的第二标题作为下边界,并在所述第一标题和所述第二标题之间的文本行中按水平坐标查找距离所述第一标题最近的第三标题作为左右边界,根据下边界和左右边界分割所述第一标题对应的文本。
可选的,所述对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别,包括:
对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,所述第二分词结果包括所述各个文本对应的词组;
确定所述第二分类结果包括的各词组的类别;
根据所述各个文本对应的词组的类别确定所述各个文本对应的类别。
可选的,所述根据所述各个文本对应的词组的类别确定所述各个文本对应的类别,包括:
根据所述各个文本对应的词组的类别,从所述各个文本中确定出第一文本以及第二文本,所述第一文本对应的词组的类别为一个,所述第二文本对应的词组对应的类别为多个;
在所述第二文本对应的词组的类别包括目标类别时,从所述第二文本对应的词组的类别中删除所述目标类别,得到所述第二文本对应的类别,所述目标类别为所述第一文本对应的类别。
可选的,所述对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,包括:
对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体;
根据所述各个文本对应的命名实体对所述各个文本进行分词处理,得到第二分词结果。
可选的,所述对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体,包括:
利用命名实体识别模型对预处理后的简历包括的目标文本进行命名实体识别;
在对所述目标文本进行命名实体识别失败时,计算其它预处理后的简历包括的目标文本对应的第一命名实体和第二命名实体之间的距离;
计算距离的众数,根据距离的众数确定所述预处理后的简历包括的目标文本对应的第一命名实体。
第二方面,本申请实施例提供了一种简历处理装置,包括:
获取模块,用于获取待转换的简历;
格式转换模块,用于对所述待转换的简历进行格式转换,得到格式转换后的简历;
处理模块,用于对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接;
分类模块,用于对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别;
所述处理模块,还用于根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。
第三方面,本申请实施例提供了一种电子设备,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如第一方面所述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面所述的方法。
综上所述,电子设备可以对该待转换的简历进行格式转换,得到格式转换后的简历以进行预处理,得到预处理后的简历;电子设备对该预处理后的简历包括的各个文本进行分类,得到该各个文本对应的类别,并根据该各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历,相较于现有技术基于规则的信息提取的方法,本申请采用该过程使得信息提取的召回率和准确率都有明显提升,因此,相较于基于规则的信息提取方法生成的简历,本申请实施例使得最终生成的简历的信息更加完善且更加准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本申请实施例提供的一种简历处理方法的流程示意图;
图2是本申请实施例提供的另一种简历处理方法的流程示意图;
图3是本申请实施例提供的一种简历处理装置的结构示意图;
图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
请参阅图1,为本申请实施例提供的一种简历处理方法的流程示意图。该方法可以应用于电子设备。该电子设备可以为用户终端或服务器。用户终端可以为笔记本电脑、台式电脑等智能终端。服务器可以为一个服务器或服务器集群。具体地,该方法可以包括以下步骤:
S101、获取待转换的简历。
S102、对所述待转换的简历进行格式转换,得到格式转换后的简历。
在步骤S101-步骤S102中,电子设备可以获取待转换的简历,并对该待转换的简历进行格式转换,得到格式转换后的简历。该待转换的简历可以为不同渠道获取到的待转换的多个简历中的任意一份。该格式转换后的简历可以为标准化格式。格式转换支持多种语言(中文/英文/繁体/中英混杂/中英双语)、多种格式(doc、docx、pdf、wps、html、mht、rtf、txt、jpg、jpeg、png等)的转换。其中,标准化格式可以为预先设定的格式,如doc、pdf。
在一个实施例中,电子设备可以确定该待转换的简历的应用场景,并根据场景与标准化格式的对应关系确定出该待转换的简历对应的标准化格式,然后根据该待转换的简历对应的标准化格式对该待转换的简历进行格式转换,得到格式转换后的简历。或者,电子设备可以确定该多个简历的格式的众数,并将不为该众数对应的格式的简历统一转换为该众数对应的格式。其中,格式的众数可以理解为运用次数最多的格式,如多个简历的格式中,pdf格式的简历数量最多,则将不为pdf格式的简历转换为pdf格式。在一个实施例中,电子设备还可以对待转换的简历中的内容进行语言转换,得到语言转换后的简历,如将中英文混合简历统一翻译为中文简历或英文简历。
在一个实施例中,电子设备对待转换的简历进行格式转换后,可以提取简历中的文本以对格式转换后的简历进行预处理。方法一,可以针对不同的后缀,采用不同的方法来提取简历中的文本。例如pdf格式的简历通过封装pdfbox的一些方法来提取简历中的文本。再如,word,html通过封装tika的一些方法来提取简历中的文本。方法二,对于方法一中不能处理的简历,识别文件的content-type,例如text/plain、text/html、text/xml、application/zip,针对不同的文件格式,分析文件编码格式检测出里面的文本标签,分析文本结构并提取出文本。
S103、对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接。
在一个实施例中,在预处理包括文本切分时,电子设备对该格式转换后的简历进行预处理,得到预处理后的简历的方式可以如下:电子设备利用滑动窗口机制确定待转换的简历的文本边界,并根据文本边界对该简历中的文本进行切分,得到执行了文本切分操作的简历。例如,在该待转换的简历为中英文双语简历时,电子设备可以利用滑动窗口机制确定待转换的简历的中英文文本边界,并根据中英文边界对该简历中的文本进行切分,得到执行了文本切分操作的简历。
在一个实施例中,在该预处理包括文本替换时,电子设备对该格式转换后的简历进行预处理,得到预处理后的简历的方式可以如下:电子设备对该格式转换后的简历进行分词处理,得到第一分词结果,该第一分词结果包括至少一个存在对应的标准词的词组;电子设备从词集合中确定出该第一分词结果中各词组对应的标准词;该词集合包括多个标准词以及该多个标准词中每个标准词对应的词组,每个标准词对应的词组包括至少一个非标准词,该非标准词与该标准词同义;电子设备利用该第一分类结果中各词组的标准词,替换该格式转换后的简历中的该词组中各个词,得到执行了文本替换操作的简历;根据该执行了文本替换操作的简历获得预处理后的简历。举例来说,词集合中包括标准词“学校”,以及学校对应的词组“school、學校、校园儿”,“school、學校、校园儿”中的词均为非标准词。电子设备当第一分词结果包括词组“school”时,可以采用标准词“学校”替换格式转换后的简历中的词组“school”,得到执行了文本替换操作的简历,并根据执行了文本替换操作的简历获得预处理后的简历。
在一个实施例中,电子设备对该格式转换后的简历进行分词处理,得到第一分词结果可以替换为电子设备对执行了文本切分操作的简历进行分词处理,得到第一分词结果。
在一个实施例中,当预处理的方式包括文本拼接时,电子设备对该格式转换后的简历进行预处理,得到预处理后的简历的方式可以如下:电子设备对该格式转换后的简历中的断行的文本进行拼接处理,得到执行了文本拼接操作的简历。
在一个实施例中,电子设备对该格式转换后的简历进行分词处理,得到第一分词结果还可以替换为电子设备可以对该执行了文本切分操作的简历中的断行的文本进行拼接处理,得到执行了文本拼接操作的简历,电子设备对该执行了文本拼接操作的简历进行分词处理,得到第一分词结果。
S104、对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别。
在一个实施例中,电子设备可以调用分类模型识别该预处理后的简历包括的各个文本对应的类别。该分类模型可以为预训练的卷积神经网络模型或预训练的TextCNN模型。各个文本对应的类别可以包括以下至少一项:基础信息,教育经历,工作经历,普通文本等类别。例如,对卷积神经网络模型的训练方式可以如下:电子设备将简历样本中的各个文本进行标注,得到简历样本中各个文本的标注数据(例如,可以将标题文本标注为对应标题,并将除标题文本之外的其它文本标注为没有No标签),利用标注好的数据训练卷积神经网络模型,得到分类模型。
S105、根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。
电子设备在确定预处理后的简历中各个文本对应的类别之后,可以根据各个文本对应的类别,将各个文本导入至预先简历模板该类别对应的区域中,得到目标简历,采用该过程可以方便用户对简历进行清晰查阅,通过上述方式多多份简历进行处理后,可以使得各个简历的内容具备同一样式。
在一个实施例中,电子设备可以在该预处理后的简历的排版方式为单列排版时,根据该各个文本对应的标题分割该各个文本;电子设备可以在该预处理后的简历的排版方式为两列排版且有简历分割线时,根据该各个文本的位置信息确定出简历分割线,并根据该各个文本对应的标题分割该简历分割线两边的文本;电子设备可以在该预处理后的简历的排版方式为两列排版且没有简历分割线时,在该预处理后的简历中按照垂直坐标查找距离第一标题最近的第二标题作为下边界,并在该第一标题和该第二标题之间的文本行中按水平坐标查找距离该第一标题最近的第三标题作为左右边界,根据下边界和左右边界分割该第一标题对应的文本。采用该过程,可以有效分割出预处理后的简历包括的各个文本。例如,该预处理后的简历的排版方式为两列排版且没有简历分割线,预处理后的简历的第i行文本存在标题X1。电子设备可以在预处理后的简历中第i+1行及之后的文本中按垂直坐标查找距离标题X1最近的标题X2,作为下边界,并在X1和X2之间的文本行中按水平坐标查找距离标题X1最近的标题X3作为左右边界,从而根据下边界和左右边界分割标题X1对应的文本。
可见,图1所示的实施例中,电子设备可以对待转换的简历进行格式转换,得到格式转换后的简历,并对该格式转换后的简历进行预处理,得到预处理后的简历,从而对该预处理后的简历包括的各个文本进行分类,得到该各个文本对应的类别,并根据该各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历,使得最终生成的简历的信息更加完善且更加准确。
在一个实施例中,电子设备可以提取目标简历包括的关键信息,如摘要信息,并将该关键信息写入区块链,这样企业等存在招聘需求的机构便可以在区块链上查看该关键信息,以了解相关找工作的对象的基本情况,便于展开招聘工作。在一个实施例中,本申请还可以采用大数据技术从不同渠道获取到多个待转换的简历。
请参阅图2,为本申请实施例提供的另一种简历处理方法的流程示意图。该方法可以应用于电子设备。该电子设备可以为用户终端或服务器。用户终端可以为笔记本电脑、台式电脑等智能终端。服务器可以为一个服务器或服务器集群。具体地,该方法可以包括以下步骤:
S201、获取待转换的简历。
S202、对所述待转换的简历进行格式转换,得到格式转换后的简历。
S203、对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接。
其中,步骤S201-步骤S203参见图1实施例的步骤S101-步骤S103,本申请实施例在此不做赘述。
S204、对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,所述第二分词结果包括所述各个文本对应的词组。
S205、确定所述第二分类结果包括的各词组的类别。
S206、根据所述各个文本对应的词组的类别确定所述各个文本对应的类别。
在步骤S204-步骤S206中,电子设备可以对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,并确定该第二分类结果包括的各词组的类别,从而根据该各个文本对应的词组的类别确定该各个文本对应的类别。例如,该各个文本包括“毕业于XX大学”,对其分词处理后得到词组“大学”,电子设备可以确定“大学”对应的类别为“学校”,电子设备可以根据“学校”确定“毕业于XX大学”对应的类别。
在一个实施例中,电子设备根据该各个文本对应的词组的类别确定该各个文本对应的类别的方式可以为电子设备将该各个文本对应的词组的类别确定为该各个文本对应的类别。例如,电子设备可以将“学校”确定为“毕业于XX大学”对应的类别。
在一个实施例中,电子设备根据该各个文本对应的词组的类别确定该各个文本对应的类别的方式可以如下:电子设备根据该各个文本对应的词组的类别,从该各个文本中确定出第一文本以及第二文本,该第一文本对应的词组的类别为一个,该第二文本对应的词组对应的类别为多个;电子设备在该第二文本对应的词组的类别包括目标类别时,从该第二文本对应的词组的类别中删除该目标类别,得到该第二文本对应的类别,该目标类别为该第一文本对应的类别。例如,该各个文本包括“从大学毕业后进入到XX公司学习”,“从大学毕业后进入到XX公司学习”对应的词组的类别包括“学校”和“公司”。电子设备可以从该各个文本中确定出“从大学毕业后进入到XX公司学习”作为第二文本,电子设备在确定各个文本中存在第一文本对应的词组的类别为“学校”时,可以“从大学毕业后进入到XX公司学习”对应的词组的类别中删除“学校”,并将“公司”确定为“从大学毕业后进入到XX公司学习”对应的类别。
在一个实施例中,电子设备对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果的方式可以如下:电子设备对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体,并根据所述各个文本对应的命名实体对所述各个文本进行分词处理,得到第二分词结果。
在一个实施例中,电子设备对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体的方式可以如下:电子设备利用命名实体识别模型对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体。本申请实施例针对简历中不易识别的特殊字段,如中文简历中不常见的公司名或者中英混杂的公司名,训练了基于词向量的idcnn+crf模型作为命名实体识别模型。电子设备可以将文本分词后,对词语用300维的向量进行编码,然后将文本的向量矩阵表示作为idcnn+crf模型的输入,学习文本间依赖关系,得到命名实体识别模型。之后将简历中的文本输入给命名实体识别模型,命名实体识别模型就会给文本中的公司名实体,学校名实体等打上标签。在一个实施例中,对于英文简历,设计了char+word embedding融合的方式,用bilstm模型学习字向量char embedding,然后与词向量word embedding进行拼接,再将拼接后的向量embedding输入到bilstm+crf模型进行训练,得到命名实体识别模型。
在一个实施例中,电子设备可以在对该目标文本进行命名实体识别失败时,计算其它预处理后的简历包括的目标文本对应的第一命名实体和第二命名实体之间的距离,并计算距离的众数,根据距离的众数确定该预处理后的简历包括的目标文本对应的第一命名实体。例如,电子设备可以在对该目标文本识别学校名(或公司名)失败时,计算其它预处理后的简历包括的学校名和在读时间(在职时间)的距离,在其它预处理后的简历为多个时,便可以得到多个距离,这时便可以根据众数对应的距离确定该目标文本对应的学校名。
在一个实施例中,电子设备可以在对该目标文本进行命名实体识别失败时,基于构建的字典树采用模糊匹配的方法,查找出目标文本对应的命名实体。在一个实施例中,该字典树中的部分实体可被掩码mask符号(例如‘#’号)遮盖,在进行模糊匹配的时候,mask遮盖部分不参与匹配,这样可以大幅度减少字典所占内存,对于有公共前缀的实体,匹配命中实体中最长的记录。
在一个实施例中,电子设备可以获取已构建的语料库以及不常见公司名文本,通过bert模型提取这些数据的文本特征,并为文本特征设置正负样例的标签,正样例代表常见文本(如常见公司名),负样例代表不常见文本(如不常见公司名),将这些文本特征及对应的标签作为逻辑回归模型的输入以对逻辑回规模型进行训练,得到二分类模型。电子设备可以将目标文本剔除已识别出的命名实体(如岗位名和时间)后,剩下的文本通过二分类模型判断是否为常见文本(如常见公司名),如果为不常见,则确定该目标文本剩下的文本为公司名,并将该剩下的文本确定为该目标文本对应的命名实体。
在一个实施例中,电子设备根据该各个文本对应的词组的类别确定该各个文本对应的类别的方式可以如下:电子设备根据该各个文本对应的词组的类别,从该各个文本中确定出第二文本,该第二文本对应的词组对应的类别为多个;电子设备可以确定第二文本对应的词组中每个词组的权重,并确定每个词组的词向量;电子设备基于每个词组的权重对每个词组的词向量进行处理,得到第二文本的句向量,并将该句向量输入至预训练的分类器中,得到该第二文本对应的类别,每个词组的权重可由每个词组在预设简历集合中的词频确定,词频越高,权重越高,通过上述方式可实现模型以及权重对文本进行分类。
在一个实施例中,针对英文简历中的标题常出现的拼写错误的情况,电子设备可以将简历中的标题文本与正确标题的词库进行匹配,并在匹配失败时计算标题文本中的单词与该单词在正确标题单词库中对应的单词之间的Levenstein距离,从该单词在正确标题单词库中对应的单词中,选取Levenstein距离最小且单词前缀相同的单词来进行修正该标题文本中的单词。
S207、根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。
其中,步骤S207参见图1实施例的S105,本申请实施例在此不做赘述。
可见,图2所示的实施例中,电子设备在得到预处理后的简历后,可以对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,并确定该第二分类结果包括的各词组的类别,从而根据该各个文本对应的词组的类别确定该各个文本对应的类别,达到对该预处理后的简历包括的各个文本进行分类,得到该各个文本对应的类别的目的,该过程可以准确的对文本进行分类。
请参阅图3,为本申请实施例提供的一种简历处理装置的结构示意图。该简历处理装置可以应用于前述提及的电子设备。具体地,该简历处理装置可以包括:
获取模块301,用于获取待转换的简历。
格式转换模块302,用于对所述待转换的简历进行格式转换,得到格式转换后的简历。
处理模块303,用于对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接。
分类模块304,用于对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别。
处理模块303,还用于根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。
在一种可选的实施方式中,所述预处理包括文本替换,处理模块303对所述格式转换后的简历进行预处理,得到预处理后的简历,具体为对所述格式转换后的简历进行分词处理,得到第一分词结果,所述第一分词结果包括至少一个存在对应的标准词的词组;从词集合中确定出所述第一分词结果中各词组对应的标准词;所述词集合包括多个标准词以及所述多个标准词中每个标准词对应的词组,每个标准词对应的词组包括至少一个非标准词,所述非标准词与所述标准词同义;利用所述第一分类结果中各词组的标准词,替换所述格式转换后的简历中的所述词组中各个词,得到执行了文本替换操作的简历;根据所述执行了文本替换操作的简历获得预处理后的简历。
在一种可选的实施方式中,处理模块303,还用于在根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历前,在所述预处理后的简历的排版方式为单列排版时,根据所述各个文本对应的标题分割所述各个文本;在所述预处理后的简历的排版方式为两列排版且有简历分割线时,根据所述各个文本的位置信息确定出简历分割线,并根据所述各个文本对应的标题分割所述简历分割线两边的文本;在所述预处理后的简历的排版方式为两列排版且没有简历分割线时,在所述预处理后的简历中按照垂直坐标查找距离第一标题最近的第二标题作为下边界,并在所述第一标题和所述第二标题之间的文本行中按水平坐标查找距离所述第一标题最近的第三标题作为左右边界,根据下边界和左右边界分割所述第一标题对应的文本。
在一种可选的实施方式中,分类模块304对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别,具体为对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,所述第二分词结果包括所述各个文本对应的词组;确定所述第二分类结果包括的各词组的类别;根据所述各个文本对应的词组的类别确定所述各个文本对应的类别。
在一种可选的实施方式中,分类模块304根据所述各个文本对应的词组的类别确定所述各个文本对应的类别,具体为根据所述各个文本对应的词组的类别,从所述各个文本中确定出第一文本以及第二文本,所述第一文本对应的词组的类别为一个,所述第二文本对应的词组对应的类别为多个;在所述第二文本对应的词组的类别包括目标类别时,从所述第二文本对应的词组的类别中删除所述目标类别,得到所述第二文本对应的类别,所述目标类别为所述第一文本对应的类别。
在一种可选的实施方式中,分类模块304对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,具体为对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体;根据所述各个文本对应的命名实体对所述各个文本进行分词处理,得到第二分词结果。
在一种可选的实施方式中,分类模块304对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体,利用命名实体识别模型对预处理后的简历包括的目标文本进行命名实体识别;在对所述目标文本进行命名实体识别失败时,计算其它预处理后的简历包括的目标文本对应的第一命名实体和第二命名实体之间的距离;计算距离的众数,根据距离的众数确定所述预处理后的简历包括的目标文本对应的第一命名实体。
可见,图3所示的实施例中,简历处理装置可以对待转换的简历进行格式转换,得到格式转换后的简历,并对该格式转换后的简历进行预处理,得到预处理后的简历,从而对该预处理后的简历包括的各个文本进行分类,得到该各个文本对应的类别,并根据该各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历,使得最终生成的简历的信息更加完善且更加准确。
请参阅图4,为本申请实施例提供的一种电子设备的结构示意图。本实施例中所描述的电子设备可以包括:一个或多个处理器1000和存储器2000。处理器1000和存储器2000可以通过总线连接。
处理器1000可以是中央处理模块(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器2000可以是高速RAM存储器,也可为非不稳定的存储器(non-volatilememory),例如磁盘存储器。存储器2000用于存储一组程序代码,处理器1000可以调用存储器2000中存储的程序代码。具体地:
处理器1000,用于获取待转换的简历;对所述待转换的简历进行格式转换,得到格式转换后的简历;对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接;对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别;根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。
在一个实施例中,所述预处理包括文本替换,处理器1000对所述格式转换后的简历进行预处理,得到预处理后的简历,具体为对所述格式转换后的简历进行分词处理,得到第一分词结果,所述第一分词结果包括至少一个存在对应的标准词的词组;从词集合中确定出所述第一分词结果中各词组对应的标准词;所述词集合包括多个标准词以及所述多个标准词中每个标准词对应的词组,每个标准词对应的词组包括至少一个非标准词,所述非标准词与所述标准词同义;利用所述第一分类结果中各词组的标准词,替换所述格式转换后的简历中的所述词组中各个词,得到执行了文本替换操作的简历;根据所述执行了文本替换操作的简历获得预处理后的简历。
在一个实施例中,处理器1000,还用于在根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历前,在所述预处理后的简历的排版方式为单列排版时,根据所述各个文本对应的标题分割所述各个文本;在所述预处理后的简历的排版方式为两列排版且有简历分割线时,根据所述各个文本的位置信息确定出简历分割线,并根据所述各个文本对应的标题分割所述简历分割线两边的文本;在所述预处理后的简历的排版方式为两列排版且没有简历分割线时,在所述预处理后的简历中按照垂直坐标查找距离第一标题最近的第二标题作为下边界,并在所述第一标题和所述第二标题之间的文本行中按水平坐标查找距离所述第一标题最近的第三标题作为左右边界,根据下边界和左右边界分割所述第一标题对应的文本。
在一个实施例中,处理器1000对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别,具体为对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,所述第二分词结果包括所述各个文本对应的词组;确定所述第二分类结果包括的各词组的类别;根据所述各个文本对应的词组的类别确定所述各个文本对应的类别。
在一个实施例中,处理器1000根据所述各个文本对应的词组的类别确定所述各个文本对应的类别,具体为根据所述各个文本对应的词组的类别,从所述各个文本中确定出第一文本以及第二文本,所述第一文本对应的词组的类别为一个,所述第二文本对应的词组对应的类别为多个;在所述第二文本对应的词组的类别包括目标类别时,从所述第二文本对应的词组的类别中删除所述目标类别,得到所述第二文本对应的类别,所述目标类别为所述第一文本对应的类别。
在一个实施例中,处理器1000对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,具体为对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体;根据所述各个文本对应的命名实体对所述各个文本进行分词处理,得到第二分词结果。
在一个实施例中,处理器1000对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体,具体为利用命名实体识别模型对预处理后的简历包括的目标文本进行命名实体识别;在对所述目标文本进行命名实体识别失败时,计算其它预处理后的简历包括的目标文本对应的第一命名实体和第二命名实体之间的距离;计算距离的众数,根据距离的众数确定所述预处理后的简历包括的目标文本对应的第一命名实体。
具体实现中,本申请实施例中所描述的处理器1000可执行图1实施例、图2实施例所描述的实现方式,也可执行本申请实施例所描述的实现方式,在此不再赘述。
在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以是两个或两个以上模块集成在一个模块中。上述集成的模块既可以采样硬件的形式实现,也可以采样软件功能模块的形式实现。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的计算机可读存储介质可为易失性的或非易失性的。例如,该计算机存储介质可以为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
以上所揭露的仅为本申请一种较佳实施例而已,当然不能以此来限定本申请之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本申请权利要求所作的等同变化,仍属于本申请所涵盖的范围。
Claims (10)
1.一种简历处理方法,其特征在于,包括:
获取待转换的简历;
对所述待转换的简历进行格式转换,得到格式转换后的简历;
对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接;
对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别;
根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括文本替换,所述对所述格式转换后的简历进行预处理,得到预处理后的简历,包括:
对所述格式转换后的简历进行分词处理,得到第一分词结果,所述第一分词结果包括至少一个存在对应的标准词的词组;
从词集合中确定出所述第一分词结果中各词组对应的标准词;所述词集合包括多个标准词以及所述多个标准词中每个标准词对应的词组,每个标准词对应的词组包括至少一个非标准词,所述非标准词与所述标准词同义;
利用所述第一分类结果中各词组的标准词,替换所述格式转换后的简历中的所述词组中各个词,得到执行了文本替换操作的简历;
根据所述执行了文本替换操作的简历获得预处理后的简历。
3.根据权利要求1所述的方法,其特征在于,所述根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历前,所述方法还包括:
在所述预处理后的简历的排版方式为单列排版时,根据所述各个文本对应的标题分割所述各个文本;
在所述预处理后的简历的排版方式为两列排版且有简历分割线时,根据所述各个文本的位置信息确定出简历分割线,并根据所述各个文本对应的标题分割所述简历分割线两边的文本;
在所述预处理后的简历的排版方式为两列排版且没有简历分割线时,在所述预处理后的简历中按照垂直坐标查找距离第一标题最近的第二标题作为下边界,并在所述第一标题和所述第二标题之间的文本行中按水平坐标查找距离所述第一标题最近的第三标题作为左右边界,根据下边界和左右边界分割所述第一标题对应的文本。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别,包括:
对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,所述第二分词结果包括所述各个文本对应的词组;
确定所述第二分类结果包括的各词组的类别;
根据所述各个文本对应的词组的类别确定所述各个文本对应的类别。
5.根据权利要求4所述的方法,其特征在于,所述根据所述各个文本对应的词组的类别确定所述各个文本对应的类别,包括:
根据所述各个文本对应的词组的类别,从所述各个文本中确定出第一文本以及第二文本,所述第一文本对应的词组的类别为一个,所述第二文本对应的词组对应的类别为多个;
在所述第二文本对应的词组的类别包括目标类别时,从所述第二文本对应的词组的类别中删除所述目标类别,得到所述第二文本对应的类别,所述目标类别为所述第一文本对应的类别。
6.根据权利要求4所述的方法,其特征在于,所述对预处理后的简历包括的各个文本进行分词处理,得到第二分词结果,包括:
对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体;
根据所述各个文本对应的命名实体对所述各个文本进行分词处理,得到第二分词结果。
7.根据权利要求6所述的方法,其特征在于,所述对预处理后的简历包括的各个文本进行命名实体识别,得到各个文本对应的命名实体,包括:
利用命名实体识别模型对预处理后的简历包括的目标文本进行命名实体识别;
在对所述目标文本进行命名实体识别失败时,计算其它预处理后的简历包括的目标文本对应的第一命名实体和第二命名实体之间的距离;
计算距离的众数,根据距离的众数确定所述预处理后的简历包括的目标文本对应的第一命名实体。
8.一种简历处理装置,其特征在于,包括:
获取模块,用于获取待转换的简历;
格式转换模块,用于对所述待转换的简历进行格式转换,得到格式转换后的简历;
处理模块,用于对所述格式转换后的简历进行预处理,得到预处理后的简历,所述预处理包括以下至少一项:文本切分、文本替换以及文本拼接;
分类模块,用于对所述预处理后的简历包括的各个文本进行分类,得到所述各个文本对应的类别;
所述处理模块,还用于根据所述各个文本对应的类别,将各个文本导入到预设简历模板中,得到目标简历。
9.一种电子设备,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011595911.5A CN113962196A (zh) | 2020-12-29 | 2020-12-29 | 一种简历处理方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011595911.5A CN113962196A (zh) | 2020-12-29 | 2020-12-29 | 一种简历处理方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113962196A true CN113962196A (zh) | 2022-01-21 |
Family
ID=79460195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011595911.5A Pending CN113962196A (zh) | 2020-12-29 | 2020-12-29 | 一种简历处理方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113962196A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114266255A (zh) * | 2022-03-01 | 2022-04-01 | 深圳壹账通科技服务有限公司 | 基于聚类模型的语料分类方法、装置、设备及存储介质 |
-
2020
- 2020-12-29 CN CN202011595911.5A patent/CN113962196A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114266255A (zh) * | 2022-03-01 | 2022-04-01 | 深圳壹账通科技服务有限公司 | 基于聚类模型的语料分类方法、装置、设备及存储介质 |
CN114266255B (zh) * | 2022-03-01 | 2022-05-17 | 深圳壹账通科技服务有限公司 | 基于聚类模型的语料分类方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427623B (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN111723215B (zh) | 基于文本挖掘的生物技术信息知识图谱构建装置与方法 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN113191148A (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN113051356A (zh) | 开放关系抽取方法、装置、电子设备及存储介质 | |
CN111814482B (zh) | 文本关键数据的提取方法、系统和计算机设备 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN115080750B (zh) | 基于融合提示序列的弱监督文本分类方法、系统和装置 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN113468887A (zh) | 基于边界与片段分类的学者信息关系抽取方法和系统 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN115952791A (zh) | 基于机器阅读理解的篇章级事件抽取方法、装置、设备及存储介质 | |
CN111783710A (zh) | 医药影印件的信息提取方法和系统 | |
CN111178080A (zh) | 一种基于结构化信息的命名实体识别方法及系统 | |
CN112380848B (zh) | 文本生成方法、装置、设备及存储介质 | |
CN110888983B (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
CN113962196A (zh) | 一种简历处理方法、装置、电子设备及存储介质 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN115115432A (zh) | 基于人工智能的产品信息推荐方法及装置 | |
CN114842982A (zh) | 一种面向医疗信息系统的知识表达方法、装置及系统 | |
Suriyachay et al. | Thai named entity tagged corpus annotation scheme and self verification | |
KR101126186B1 (ko) | 형태적 중의성 동사 분석 장치, 방법 및 그 기록 매체 | |
CN114398492B (zh) | 一种在数字领域的知识图谱构建方法、终端及介质 | |
CN113821618B (zh) | 一种电子病历是否类细项提取方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |