CN113095075A - 一种简历文件解析方法 - Google Patents
一种简历文件解析方法 Download PDFInfo
- Publication number
- CN113095075A CN113095075A CN202110360385.2A CN202110360385A CN113095075A CN 113095075 A CN113095075 A CN 113095075A CN 202110360385 A CN202110360385 A CN 202110360385A CN 113095075 A CN113095075 A CN 113095075A
- Authority
- CN
- China
- Prior art keywords
- resume
- file
- files
- preset
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/116—Details of conversion of file system types or formats
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种简历文件解析方法,包括:获取用户上传和/或投递的简历文件;基于预设文件类别对简历文件进行分类;对分类后的简历文件进行解析获取简历文件中的文本内容;基于预设分析框架对文本内容进行中文分词得到结构化文件。本发明的有益效果为:通过对获取到的简历文件进行分类,然后对分类后的简历文件进行解析,得到解析后的文本内容,对文本内容进行中文分词进而得到机构化的简历文件,从而使得对简历文件的解析更加的准确不易出错。
Description
技术领域
本发明属于数据处理技术领域,具体涉及一种建立文件解析方法。
背景技术
简历信息是招聘公司判定求职者是否符合职位要求的重要依据。招聘人员会通过接收邮件、登录招聘网站等方式浏览大量的简历信息,而这些简历信息往往是采用不同的表格模板制作的。而目前市场上存在的简历分析的方法,通常采用将简历文本生成图片,然后对图片进行模块化切割,再采用图像识别技术获取到特定模块的文本。
上述通过图像模块化处理的方式来获得简历信息的方式,对简历信息的格式要求非常的严格,对与不同模块格式的简历,很容易出现模块划分出错的情况,进而导致解析率不高。
发明内容
为了解决现有技术存在的易出错、解析率不高等问题,本发明提供了一种简历文件解析方法,其具有准确率高、解析更加准确等特点。
根据本发明的具体实施方式的一种简历文件解析方法,包括:
获取用户上传和/或投递的简历文件;
基于预设文件类别对所述简历文件进行分类;
对分类后的所述简历文件进行解析获取所述简历文件中的文本内容;
基于预设分析框架对所述文本内容进行中文分词得到结构化文件。
进一步地,所述基于预设文件类别对所述简历文件进行分类包括:
使用文本转换器将所述简历文件转换为所述预设文件类别。
进一步地,所述预设文件类别包括:word格式、excel格式和pdf格式。
进一步地,所述基于预设分析框架对所述文本内容进行中文分词得到结构化文件包括:
基于中文分词ansj框架对所述文本内容进行中文分词。
进一步地,所述获取用户上传和/或投递的简历文件包括:
基于linux服务器上的web接口获取所述简历文件。
本发明的有益效果为:通过对获取到的简历文件进行分类,然后对分类后的简历文件进行解析,得到解析后的文本内容,对文本内容进行中文分词进而得到机构化的简历文件,从而使得对简历文件的解析更加的准确不易出错。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据一示例性实施例提供的简历文件解析方法的流程图;
图2是根据一示例性实施例提供的解析后的简历文件图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
参照图1所示,本发明的实施例提供了一种简历文件解析方法,具体包括以下步骤:
101、获取用户上传和/或投递的简历文件;
根据用户一般的操作对于简历的投递都会采用网站直接上传或登录相应的招聘公司的网站进行投递的方式进行简历的上传,这样只需和相应的服务器建立连接,从相应网站的服务器就能够获得到相应的简历文件,在获得相应的简历文件后可进行随后的步骤。
102、基于预设文件类别对简历文件进行分类;
因为用户上传的简历文件的格式并不统一,用户会根据自身的习惯或喜好上传各种格式的简历文件,通过对这些简历文件进行相应的分类,能够对简历文件进行更好的管理。
103、对分类后的简历文件进行解析获取简历文件中的文本内容;
随后可对分类好的简历文件进行相应的解析,以获取到简历文件中的文本内容。
104、基于预设分析框架对文本内容进行中文分词得到结构化文件。
可采用具备中文分析功能的分析框架对文本内容进行结构化的分词,进而生成结构化的数据文件,这样能够不限于图像的模块化的数据,能够将文本内容生成固定形式的文件,而不仅局限于简历文件形式的变化具有更准确和更高的解析力。
作为上述实施例可行的实现方式,因为简历文件的格式即预设文件的类别可包括word格式、excel格式、pdf格式等格式。基于预设文件类别对简历文件进行分类包括:使用文本转换器将简历文件转换为预设文件类别。
可根据需要采用文本转换器将简历文件转换为自己想要的格式,然后进行相应格式转换。其中文本转换器为现有技术中已经非常成熟的技术,因此可直接采用常用的文件转换器进行文本格式的转换即可,本发明在此不再赘述。、其中对分类后的简历文件进行解析获取简历文件中的文本内容具体包括:
因为解析的文本内容一般都是以word的形式进行存储的,因此可采用ApachePOI对Word的处理,Apache POI是一个流行的API,使用Java程序创建,修改和显示MS-Office文件。它是由Apache Software Foundation开发和发布的一个开源库,用于使用Java程序设计或修改MS-Office文件。它包含用于将用户输入数据或文件解码为MS-Office文档的类和方法。对于.docx文件,可使用类org.apache.poi.xwpf.extractor.XPFFWordExtractor从Word文件中提取和返回文本数据进而生成。
基于预设分析框架对文本内容进行中文分词得到结构化文件包括:基于中文分词ansj框架对文本内容进行中文分词。
中文分词(Chinese Word Segmentation)指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂的多、困难的多。
ansj框架是基于n-Gram+CRF+HMM的中文分词的java实现,分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上。可通过下载jar包,直接导入项目中,可下载其各种词库(library文件夹),然后直接将该文件夹拷贝到项目的根目录下。这样项目启动的时候就会自动加载词库。
能够进行关键词提取如:
System.out.println("关键词提取");
KeyWordComputer kwc=new KeyWordComputer(5);
Collection<Keyword>result=kwc.computeArticleTfidf(str);
System.out.println(result);
具体的分词程序如下:
参照图2所示为处理后的简历文件,能够生成相应的json格式化数据以便于进行数据的传输和存储。
获取用户上传和/或投递的简历文件包括:
基于linux服务器上的web接口获取简历文件。在具体使用时可将集成有本发明简历文件解析方法的应用程序安装到linux服务器上,通过web接口上传文件流信息,返回解析后的json格式化数据。
本发明上述实施例所提供的简历文件解析方法,将不同格式的简历文本数据进行智能解析,解决各类简历文件智能解析成结构化json数据,使得解析的准确度更高不易出错。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (5)
1.一种简历文件解析方法,其特征在于,包括:
获取用户上传和/或投递的简历文件;
基于预设文件类别对所述简历文件进行分类;
对分类后的所述简历文件进行解析获取所述简历文件中的文本内容;
基于预设分析框架对所述文本内容进行中文分词得到结构化文件。
2.根据权利要求1所述的简历文件解析方法,其特征在于,所述基于预设文件类别对所述简历文件进行分类包括:
使用文本转换器将所述简历文件转换为所述预设文件类别。
3.根据权利要求1所述的简历文件解析方法,其特征在于,所述预设文件类别包括:word格式、excel格式和pdf格式。
4.根据权利要求1所述的简历文件解析方法,其特征在于,所述基于预设分析框架对所述文本内容进行中文分词得到结构化文件包括:
基于中文分词ansj框架对所述文本内容进行中文分词。
5.根据权利要求1所述的简历文件解析方法,其特征在于,所述获取用户上传和/或投递的简历文件包括:
基于linux服务器上的web接口获取所述简历文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110360385.2A CN113095075A (zh) | 2021-04-02 | 2021-04-02 | 一种简历文件解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110360385.2A CN113095075A (zh) | 2021-04-02 | 2021-04-02 | 一种简历文件解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113095075A true CN113095075A (zh) | 2021-07-09 |
Family
ID=76673220
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110360385.2A Pending CN113095075A (zh) | 2021-04-02 | 2021-04-02 | 一种简历文件解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113095075A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016045153A1 (zh) * | 2014-09-25 | 2016-03-31 | 中国科学院软件研究所 | 基于文本履历信息的信息可视化方法及智能可视分析系统 |
CN107392143A (zh) * | 2017-07-20 | 2017-11-24 | 中国科学院软件研究所 | 一种基于svm文本分类的简历精确解析方法 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
CN110377560A (zh) * | 2019-07-18 | 2019-10-25 | 中科鼎富(北京)科技发展有限公司 | 一种简历信息的结构化方法及装置 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
-
2021
- 2021-04-02 CN CN202110360385.2A patent/CN113095075A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016045153A1 (zh) * | 2014-09-25 | 2016-03-31 | 中国科学院软件研究所 | 基于文本履历信息的信息可视化方法及智能可视分析系统 |
CN107392143A (zh) * | 2017-07-20 | 2017-11-24 | 中国科学院软件研究所 | 一种基于svm文本分类的简历精确解析方法 |
CN108874928A (zh) * | 2018-05-31 | 2018-11-23 | 平安科技(深圳)有限公司 | 简历数据信息解析处理方法、装置、设备及存储介质 |
CN110377560A (zh) * | 2019-07-18 | 2019-10-25 | 中科鼎富(北京)科技发展有限公司 | 一种简历信息的结构化方法及装置 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9411790B2 (en) | Systems, methods, and media for generating structured documents | |
US8224641B2 (en) | Language identification for documents containing multiple languages | |
US7627562B2 (en) | Obfuscating document stylometry | |
US9875319B2 (en) | Automated data parsing | |
US20170277946A1 (en) | Hierarchical Information Extraction Using Document Segmentation and Optical Character Recognition Correction | |
CN109684634B (zh) | 情感分析方法、装置、设备及存储介质 | |
US20070233465A1 (en) | Information extracting apparatus, and information extracting method | |
US20080288239A1 (en) | Localization and internationalization of document resources | |
US9588941B2 (en) | Context-based visualization generation | |
US7584414B2 (en) | Export to excel | |
US20130054226A1 (en) | Recognizing chemical names in a chinese document | |
CN114692628A (zh) | 样本生成方法、模型训练方法、文本抽取方法和装置 | |
US11645452B2 (en) | Performance characteristics of cartridge artifacts over text pattern constructs | |
CN116521621A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
Teahan | A compression-based toolkit for modelling and processing natural language text | |
US8060490B2 (en) | Analyzer engine | |
US8224642B2 (en) | Automated identification of documents as not belonging to any language | |
US8069032B2 (en) | Lightweight windowing method for screening harvested data for novelty | |
CN112380337A (zh) | 基于富文本的高亮方法及装置 | |
CN113095075A (zh) | 一种简历文件解析方法 | |
CN114743012B (zh) | 一种文本识别方法及装置 | |
CN112836477B (zh) | 代码注释文档的生成方法、装置、电子设备及存储介质 | |
US20150019208A1 (en) | Method for identifying a set of sentences in a digital document, method for generating a digital document, and associated device | |
CN115294585A (zh) | 一种标准文档数据的提取方法及装置 | |
KR102640811B1 (ko) | 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |