CN1167026C - 汉语个人简历信息处理系统和方法 - Google Patents

汉语个人简历信息处理系统和方法 Download PDF

Info

Publication number
CN1167026C
CN1167026C CNB011052856A CN01105285A CN1167026C CN 1167026 C CN1167026 C CN 1167026C CN B011052856 A CNB011052856 A CN B011052856A CN 01105285 A CN01105285 A CN 01105285A CN 1167026 C CN1167026 C CN 1167026C
Authority
CN
China
Prior art keywords
text
resume
mark
text block
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB011052856A
Other languages
English (en)
Other versions
CN1367446A (zh
Inventor
楠 吕
吕楠
郑飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiancheng Wuyou Network Information Technology (Beijing) Co., Ltd.
Original Assignee
Shanghai Branch Co Qiancheng Wuyou Network Information Technology (beijing) Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Branch Co Qiancheng Wuyou Network Information Technology (beijing) Co filed Critical Shanghai Branch Co Qiancheng Wuyou Network Information Technology (beijing) Co
Priority to CNB011052856A priority Critical patent/CN1167026C/zh
Publication of CN1367446A publication Critical patent/CN1367446A/zh
Application granted granted Critical
Publication of CN1167026C publication Critical patent/CN1167026C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

汉语个人简历信息处理方法和系统,包括对输入的汉语个人简历文本进行预处理形成已标注的第一简历文本;对第一简历文本进行分词处理形成已标注的第二简历文本;对第二简历文本中的个人简历常用专有名词组进行识别标注形成已标注的第三简历文本;对已标注的第三简历文本进行文本结构分析形成已标注并具有特定类型的文本块。该方法和系统可以对个人简历文本进行处理,抽取出简历文本中的主要信息,最终形成一种统一的格式。

Description

汉语个人简历信息处理系统和方法
技术领域
本发明涉及中文信息处理和计算语言学中的自然语言理解,尤其涉及一种汉语个人简历信息处理系统和方法。
背景技术
个人简历信息是人才招聘工作中的一种信息资源,是企事业单位寻求人才的基本数据。尤其是随着网络技术的发展,越来越多的企事业单位已寻求通过互联网来发现和招聘人才。上网猎取人才不仅可以使企事业的人事部门摆脱繁重和复杂的传统人力劳动,而且,网络丰富的信息资源为企事业单位提供了广阔的人才选择余地。与此同时,作为提供了个人简历信息的各类人才,同样也增加了被选择录用的机会。另一方面,正因为网上投递简历的方便性,求职者在短时间内可以同时申请很多职位,导致许多在互联网上进行招聘的企业每天都要收到成百上千的电子简历文本。这样,招聘人才的企业人事部门就需要投入大量人力处理所收到的大量电子简历文本,增加了新的负担。同时,由于各种个人简历的设计风格以及各人书写习惯的不同,个人简历信息的具体格式因人而异,千变万化,给数据库建立和人才信息检索带来诸多不便。传统的方法只能依靠人工进行分类处理这些格式各异的电子简历,将求职者的信息手工录入到数据库中。为了减轻企事业人事部门新的负担,就需要有一种自动处理任意格式的简历文本的方法,从简历文本中自动提取出企业最为关心的关键信息。
发明内容
本发明的目的的在于提供一种自动从任意书写格式的汉语个人简历文本中提取相关信息并进行格式化处理的汉语个人简历信息处理系统和方法。
根据本发明的一个方面,提供一种汉语个人简历信息处理方法,该方法包括以下步骤:
对输入的个人简历文本进行预处理,形成已标注的第一简历文本,所述预处理包括对输入的个人简历文本中包括数字、外文单词和标点符号类型的字符进行识别和标记,以及对个人简历文本中包括日期时间、URL网页地址和电子邮件地址类型的字符进行识别和标记;
利用常规词典和简历词典对所述第一简历文本进行分词处理,形成已标注的第二简历文本;
利用专有名词组识别知识库和第一规则解释器对所述第二简历文本中的个人简历常用专有名词组进行识别标注,形成已标注的第三简历文本;
对已标注的第三简历文本进行文本结构分析,形成已标注并具有特定类型的文本块,所述文本结构分析包括按自然段落对第三简历文本进行初始分块,对已经初始分块的文本块进行模式匹配标注,对经过模式匹配标注的混合文本块进行分割,形成具有单一类型的文本块,以及将所述分割后具有相同类型的各文本块合并组合成单一类型的大文本块。
根据本发明的另一方面,提供一种汉语个人简历信息处理系统,该系统包括:
用以对输入的汉语个人简历文本中的字符、单词、词组和专有名词进行标注的简历文本信息识别标注装置,所述简历文本识别标注装置包括:
用以对文本中的特定字符进行识别标注的预处理装置;
利用常规词典和简历词典对所述文本进行分词处理的分词处理装置;
利用第一知识库和第一规则解释器对所述文本中的个人简历常用专有名词组进行识别标注的专有名词识别标注装置,所述第一知识库含有个人简历常用专有名词组的结构特征规则,所述第一规则解释器用以对第一知识库中的词组结构特征规则进行解释分析,以及
用以对识别标注后的个人简历文本进行分块并对分块后的文本块进行标注、分割和合并组合的简历文本结构分析标注装置,所述简历文本结构分析标注装置包括:
用以按自然段落对所述文本进行初始分块的简历文本分块装置;
利用第二知识库和第二规则解释器对所述初始分块的文本块进行匹配标注的文本块标注装置,所述第二知识库含有根据简历文本中不同类型的文本块的特征构造的模式规则,所述第二规则解释器用以对第二知识库中的模式规则进行解释和分析;
利用第一数据库和特定的决策标准对经过模式匹配标注的混合文本块的首部进行确定性标注的文本块首部标注装置,所述第一数据库含有从大量真实简历文本统计出来的不同信息在不同类型文本块中出现频率的统计数据;
利用简历文本分块线索词典及概率数据库对经过标注的文本块进行分割,形成具有单一类型的文本块的文本块分割装置,所述分块线索词典及概率数据库含有从大量真实简历文本中训练、提取出来的分块线索词以及这些词成为简历文本分块标记的概率统计数据;
将所述分割后具有相同类型的各文本块合并组合成单一类型的大文本块的文本块组合装置。
采用本发明的汉语个人简历信息处理系统和方法,可以对任何书写习惯形成的个人简历文本进行处理,抽取出简历文本中的主要信息,最终形成一种统一的格式,给人才数据库建立和人才信息检索带来了方便。
以下将结合附图和较佳实施例对本发明作进一步的详细描述。本发明的其它的目的、特征和效果将在以下的描述中变得更加清楚。
附图说明
图1是表示根据本发明的汉语个人简历信息处理系统的方框图;
图2是表示根据本发明的汉语个人简历信息处理系统的操作流程图;
图3是表示图2所示操作流程图中有关预处理流程的更详细的流程图;
图4是表示图2所示操作流程图中有关简历文本结构分析流程的更详细的流程图。
具体实施方式
参见图1,本发明的汉语个人简历信息处理系统包括用以对输入的个人简历文本中的字符、单词、词组和专有名词进行标注的简历文本信息识别标注装置1;用以对识别标注后的个人简历文本进行分块并对分块后的文本块进行标注、分割和合并组合的简历文本结构分析标注装置2;以及按照特定的顺序汇总各类信息,作为信息提取结果输出的信息收集汇总装置3。
其中,简历文本信息识别标注装置1包括:用以对文本中的特定字符进行识别标注的预处理装置11;对所述文本进行分词处理的分词处理装置12;以及对所述文本中的个人简历常用专有名词组进行识别标注的专有名词识别标注装置13。
简历文本结构分析标注装置2包括:用以按自然段落对所述文本进行初始分块的简历文本分块装置21;对所述初始分块的文本块进行匹配标注的文本块标注装置22;对经过标注的文本块进行分割,形成具有单一类型的文本块的文本块分割装置23;以及将所述分割后具有相同类型的各文本块合并组合成单一类型的大文本块的文本块组合装置24。
接下来参见图2至图4,它表示根据本发明的汉语个人简历信息处理系统的操作流程图。步骤S1,系统输入汉语个人简历文本。步骤S2,系统对输入的个人简历文本进行预处理,它包括步骤S21,系统对原始个人简历文本中的数字、外文单词和标点符号等进行识别和标记;步骤S22,系统进一步对该文本中的日期时间、URL网页地址和电子邮件地址等进行识别标记。至此,系统形成已标注的第一简历文本。
步骤S3,系统利用常规词典和简历词典对第一简历文本进行分词处理。其中,简历词典是针对中文简历文本专门构造的一种专用词典,它包含了大量从真实简历文本中提取出的粒度较大的组合词汇。经过分词处理步骤后,系统形成已标注的第二简历文本。在第二简历文本中,出现了可供识别的中文单词、常用词组和个人简历专有名词及词组,例如,“北京”、“清华”、“本科”、“毕业”、“无忧工作网”、“开发部”、“工程师”、“技术总监”、“教育背景”、“工作经历”、“兴趣爱好”等等。
步骤S4,系统利用专有名词组识别知识库(下称第一知识库)和第一规则解释器对上述第二简历文本中的个人简历常用专有名词组(例如人名、教育机构名称、专业名称、工作单位名称、工作部门名称、职称职务名称、项目名称、担当角色等)进行识别标注。其中,第一知识库是针对个人简历中常用的专有名词组的特点构造的,它包含了许多个人简历常用专有名词组的结构特征规则。例如,根据该规则,类似“地点名词(如北京、上海、江苏省)+一个或多个其他名词(如航空、交通)+教育机构名称后缀(如大学、学院)”这一结构的专有名词组将被识别和标注为“教育机构名称”。第一规则解释器用以对第一知识库中的词组结构特征规则进行解释分析,从而识别出上述个人简历常用专有名词组。经过专有名词识别标注步骤后,系统形成已标注的第三简历文本。
步骤S5,系统对已标注的第三简历文本进行文本结构分析。它包括步骤S51,按自然段落对第三简历文本进行初始分块;步骤S52,系统利用文本模式知识库(下称第二知识库)和第二规则解释器对已经初始分块的文本块进行匹配标注。经过匹配标注后的文本块既可能是只包含单一类型信息的文本快,也可能是包含多种类型信息的混合文本块。其中,第二知识库包含了许多根据简历文本中不同类型的文本块的特征构造的模式规则。而第二规则解释器则用以对第二知识库中的模式规则进行解释和分析。例如,根据该规则,上述文本块中类似“存在时间起止范围AND存在教育机构名称AND存在专业名称AND存在学位名称”的将被标注为“教育背景块”。步骤S53,系统利用第一数据库和特定的决策标准确定混合文本块的首部类型,所谓首部指该文本块的最前面的连续若干句,并且这些句子只包含同一类型的信息,紧跟在首部之后的一句(如果有的话)包含的信息类型与首部的信息类型不同。其中,第一数据库也称为“信息频率权值数据库”,它包含许多从大量真实简历文本统计出来的不同信息在不同类型文本块中出现频率的统计数据。步骤S54,系统利用简历文本分块线索词典及概率数据库对上述混合文本块进行分割,即将该文本块分割成更细、具有单一类型的文本块。其中,该分块线索词典及概率数据库包含许多从大量真实简历文本中训练、提取出来的分块线索词以及这些词成为简历文本分块标记的概率统计数据。步骤S55,系统将以上分割后具有相同类型的各文本块合并组合成单一类型的大文本块。例如,基本信息块、教育背景块、工作经验块、项目经验块、求职要求块和其它信息块等。
步骤S6,系统从各类文本块中收集相应的信息,要收集的信息均已在前面的各步骤中被逐渐识别标注出来了。例如,从个人基本信息块中收集姓名、性别、出生日期、婚姻状况、邮政编码、电话号码、Email地址、居住城市、通信地址或居住地址、身份证号码等信息;从教育背景文本块中收集接受教育的起止年月、教育机构名称、系名或专业名称、学历或学位名称、最高学历名称、外语极其等级程度等信息;从工作经验文本块中收集工作起止年月、所在单位名称、所在部门名称、担任的职称职务、工作年数等信息;从项目经验文本块中收集项目起止年月、项目名称、开发工具名称、硬件环境名称、软件环境名称以及担任的角色或者职责等信息;从求职要求文本块中收集从事的行业、工作职能名称、工作地点、月薪要求、期望的单位性质等信息、从其它信息文本块中收集未包含在在上述文本块内的其它信息,如专业技能、培训经历、获得的证书名称、奖励名称、个人兴趣和个人爱好等信息。
步骤S7,系统按照特定的顺序汇总各类信息,作为信息提取结果输出。
以上所述仅仅是本发明的汉语个人简历信息处理系统和方法的较佳实施例。根据本发明的构思,本领域的熟练人员还可以对此作出各种修改和变换,但这种修改和变换均属于本发明的范围。

Claims (6)

1.一种汉语个人简历信息处理方法,其特征在于包括以下步骤:
对输入的个人简历文本进行预处理,形成已标注的第一简历文本,所述预处理包括对输入的个人简历文本中包括数字、外文单词和标点符号类型的字符进行识别和标记,以及对个人简历文本中包括日期时间、URL网页地址和电子邮件地址类型的字符进行识别和标记;
利用常规词典和简历词典对所述第一简历文本进行分词处理,形成已标注的第二简历文本;
利用专有名词组识别知识库和第一规则解释器对所述第二简历文本中的个人简历常用专有名词组进行识别标注,形成已标注的第三简历文本;
对已标注的第三简历文本进行文本结构分析,形成已标注并具有特定类型的文本块,所述文本结构分析包括按自然段落对第三简历文本进行初始分块,对已经初始分块的文本块进行模式匹配标注,对经过模式匹配标注的混合文本块进行分割,形成具有单一类型的文本块,以及将所述分割后具有相同类型的各文本块合并组合成单一类型的大文本块。
2.如权利要求1所述的方法,其特征在于进一步包括从各个特定类型的文本块中收集相应的信息的步骤。
3.如权利要求2所述的方法,其特征在于进一步包括按照特定的顺序汇总各类信息,作为信息提取结果输出的步骤。
4.如权利要求1所述的方法,其特征在于进一步包括在对混合文本块进行分割之前确定所述混合文本块的首部类型的步骤。
5.一种汉语个人简历信息处理系统,其特征在于包括:
用以对输入的汉语个人简历文本中的字符、单词、词组和专有名词进行标注的简历文本信息识别标注装置,所述简历文本识别标注装置包括:
用以对文本中的特定字符进行识别标注的预处理装置;
利用常规词典和简历词典对所述文本进行分词处理的分词处理装置;
利用第一知识库和第一规则解释器对所述文本中的个人简历常用专有名词组进行识别标注的专有名词识别标注装置,所述第一知识库含有个人简历常用专有名词组的结构特征规则,所述第一规则解释器用以对第一知识库中的词组结构特征规则进行解释分析,以及
用以对识别标注后的个人简历文本进行分块并对分块后的文本块进行标注、分割和合并组合的简历文本结构分析标注装置,所述简历文本结构分析标注装置包括:
用以按自然段落对所述文本进行初始分块的简历文本分块装置;
利用第二知识库和第二规则解释器对所述初始分块的文本块进行匹配标注的文本块标注装置,所述第二知识库含有根据简历文本中不同类型的文本块的特征构造的模式规则,所述第二规则解释器用以对第二知识库中的模式规则进行解释和分析;
利用第一数据库和特定的决策标准对经过模式匹配标注的混合文本块的首部进行确定性标注的文本块首部标注装置,所述第一数据库含有从大量真实简历文本统计出来的不同信息在不同类型文本块中出现频率的统计数据;
利用简历文本分块线索词典及概率数据库对经过标注的文本块进行分割,形成具有单一类型的文本块的文本块分割装置,所述分块线索词典及概率数据库含有从大量真实简历文本中训练、提取出来的分块线索词以及这些词成为简历文本分块标记的概率统计数据;
将所述分割后具有相同类型的各文本块合并组合成单一类型的大文本块的文本块组合装置。
6.如权利要求5所述的系统,其特征在于进一步包括按照特定的顺序汇总各类信息,作为信息提取结果输出的信息收集汇总装置。
CNB011052856A 2001-01-22 2001-01-22 汉语个人简历信息处理系统和方法 Expired - Lifetime CN1167026C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB011052856A CN1167026C (zh) 2001-01-22 2001-01-22 汉语个人简历信息处理系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB011052856A CN1167026C (zh) 2001-01-22 2001-01-22 汉语个人简历信息处理系统和方法

Publications (2)

Publication Number Publication Date
CN1367446A CN1367446A (zh) 2002-09-04
CN1167026C true CN1167026C (zh) 2004-09-15

Family

ID=4654368

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB011052856A Expired - Lifetime CN1167026C (zh) 2001-01-22 2001-01-22 汉语个人简历信息处理系统和方法

Country Status (1)

Country Link
CN (1) CN1167026C (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103514200A (zh) * 2012-06-27 2014-01-15 镇江睿泰信息科技有限公司 一种求职简历的组合式制作发布系统及方法
CN104318340B (zh) * 2014-09-25 2017-07-07 中国科学院软件研究所 基于文本履历信息的信息可视化方法及智能可视分析系统
CN106815206A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置
CN106815208A (zh) * 2015-12-01 2017-06-09 北京国双科技有限公司 法律裁判文书的解析方法及装置
CN106815207B (zh) * 2015-12-01 2020-08-11 北京国双科技有限公司 用于法律裁判文书的信息处理方法及装置
CN107145584B (zh) * 2017-05-10 2020-06-19 西南科技大学 一种基于n-gram模型的简历解析方法
CN108845980B (zh) * 2018-05-30 2022-08-09 深圳市元征科技股份有限公司 一种简历生成方法、系统、装置及计算机可读存储介质
CN109271479A (zh) * 2018-09-29 2019-01-25 广东润弘科技有限公司 一种简历结构化处理方法
CN109471924A (zh) * 2018-10-18 2019-03-15 国云科技股份有限公司 一种同名同音人才简历的识别匹配分析方法
CN109740147B (zh) * 2018-12-14 2023-08-04 国云科技股份有限公司 一种大数量人才简历去重匹配分析方法
TWI736831B (zh) * 2019-01-28 2021-08-21 洽吧智能股份有限公司 文字關係解析方法與系統
CN111737969B (zh) * 2020-07-27 2020-12-08 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN112052646B (zh) * 2020-08-27 2024-03-29 安徽聚戎科技信息咨询有限公司 一种文本数据标注方法
CN112149389A (zh) * 2020-09-27 2020-12-29 南方电网数字电网研究院有限公司 简历信息结构化处理方法、装置、计算机设备和存储介质
CN112651236B (zh) * 2020-12-28 2021-10-01 中电金信软件有限公司 提取文本信息的方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN1367446A (zh) 2002-09-04

Similar Documents

Publication Publication Date Title
CN1167026C (zh) 汉语个人简历信息处理系统和方法
US8543373B2 (en) System for compiling word usage frequencies
US8935197B2 (en) Systems and methods for facilitating open source intelligence gathering
US8204881B2 (en) Information search, retrieval and distillation into knowledge objects
US7117200B2 (en) Synthesizing information-bearing content from multiple channels
US7464078B2 (en) Method for automatically extracting by-line information
US20080275859A1 (en) Method and system for disambiguating informational objects
US20070220063A1 (en) Event data translation system
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
WO2000043915A1 (en) Generating personalized user profiles for utilizing the generated user profiles to perform adaptive internet searches
CN107885793A (zh) 一种微博热点话题分析预测方法及系统
CN107145584A (zh) 一种基于n‑gram模型的简历解析方法
CN112051986B (zh) 基于开源知识的代码搜索推荐装置及方法
CN102073641A (zh) 对消费者生成媒体信息进行处理的方法、装置和程序
CN111177401A (zh) 一种电网自由文本知识抽取方法
CN111191413B (zh) 一种基于图排序模型的事件核心内容自动标记方法、装置及系统
CA3063471A1 (en) Automated classification of network-accessible content
CN109710730B (zh) 一种基于自然语言分析处理的巡视信息系统及分析方法
CN114238735B (zh) 一种互联网数据智能采集方法
CN112488593B (zh) 一种用于招标的辅助评标系统及方法
CN113934910A (zh) 一种自动优化、更新的主题库构建方法,及热点事件实时更新方法
CN113051455A (zh) 一种基于网络文本数据的水务舆情识别方法
CN113742496B (zh) 一种基于异构资源融合的电力知识学习系统及方法
CN116562785B (zh) 审计迎审系统
KR100871470B1 (ko) 색인 데이터를 구축하기 위한 검색 시스템 및 이를 위한 방법

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: QIANCHENGWUYOU NETWORKS INFORMATION TECHNOLOGY(BE

Free format text: FORMER OWNER: SHANGHAI BRANCH CO., QIANCHENG WUYOU NETWORK INFORMATION TECHNOLOGY (BEIJING) CO

Effective date: 20050311

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20050311

Address after: 100022, China Merchants Building, No. 118, Jianguo Road, 32, Beijing, Chaoyang District

Patentee after: Qiancheng Wuyou Network Information Technology (Beijing) Co., Ltd.

Address before: 200001, building 17, new one hundred building, 800 East Nanjing Road, Shanghai

Patentee before: Shanghai Branch Co., Qiancheng Wuyou Network Information Technology (Beijing) Co

CX01 Expiry of patent term

Granted publication date: 20040915

CX01 Expiry of patent term