CN107145584A - 一种基于n‑gram模型的简历解析方法 - Google Patents

一种基于n‑gram模型的简历解析方法 Download PDF

Info

Publication number
CN107145584A
CN107145584A CN201710325550.4A CN201710325550A CN107145584A CN 107145584 A CN107145584 A CN 107145584A CN 201710325550 A CN201710325550 A CN 201710325550A CN 107145584 A CN107145584 A CN 107145584A
Authority
CN
China
Prior art keywords
resume
keyword
conventional field
resolved
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710325550.4A
Other languages
English (en)
Other versions
CN107145584B (zh
Inventor
杨春明
张晖
李建飞
李波
赵旭剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest University of Science and Technology
Original Assignee
Southwest University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest University of Science and Technology filed Critical Southwest University of Science and Technology
Priority to CN201710325550.4A priority Critical patent/CN107145584B/zh
Publication of CN107145584A publication Critical patent/CN107145584A/zh
Application granted granted Critical
Publication of CN107145584B publication Critical patent/CN107145584B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于n‑gram模型的简历解析方法,该方法为:预先收集简历样本,将常用字段关键词划分为不同类别形成分类词典,采用n‑gram模型统计出每一常用字段关键词转变到各样本关联词的转移概率,查找待解析简历中与常用字段关键词相匹配的目标关键词,如果目标关键词对应的转移概率大于预定阈值,根据目标关键词更新每一常用字段关键词对应的转移概率,并对待解析简历中的有效关键词增加前缀标注和后缀标注,对待解析简历的文本内容进行分段提取并输出。本发明能够基于n‑gram模型与词典分段技术进行自动化的简历解析,能够提高信息抽取准确率并支持不同文件格式,可为招聘网站、公司HR部门提供丰富的人才资源库。

Description

一种基于n-gram模型的简历解析方法
技术领域
本发明涉及计算机科学技术领域,特别是涉及一种基于n-gram模型的简历解析方法。
背景技术
随着互联网技术的迅速发展,网络中容纳了海量的、类型各异的原始数据信息。在日常生活中,简历是一类十分常见而又重要的文本,它包含了作者的基本情况、工作经验等信息。因此,如何从海量的简历中自动、迅速、准确地抽取有用的信息,成为各大招聘网站、公司和企业的HR部门迫切需求。
简历解析本质上是文本信息抽取的应用体现。目前的文本信息抽取模型主要有3种:基于词典的抽取模型、基于规则的抽取模型和基于隐马尔可夫模型的抽取模型。
现有的应用上述3种文本信息抽取模型的简历解析方案多采用简单的关键字匹配方法,对自由格式的文本适应性弱、信息抽取准确率低,只能处理特定格式的简历。
发明内容
本发明主要解决的技术问题是提供一种基于n-gram模型的简历解析方法,能够提高信息抽取准确率并支持不同文件格式。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于n-gram模型的简历解析方法,包括:S1:收集预定数量的简历样本;S2:统计所述简历样本中的常用字段关键词,并将常用字段关键词按照不同描述类型划分为不同类别,形成分类词典;S3:将所述简历样本中紧邻每一常用字段关键词之后出现的非关键词记为样本关联词,并采用n-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率;S4:将待解析简历的文件格式转换为纯文本格式;S5:采用最大匹配算法在所述待解析简历中查找与分类词典中的常用字段关键词相匹配的目标关键词;S6:判断所述目标关键词对应的转移概率是否大于预定阈值,如果大于预定阈值,则将目标关键词判定为有效关键词;S7:将所述待解析简历中紧邻每一有效关键词之后出现的非关键词记为有效关联词,并根据所述有效关联词更新每一常用字段关键词对应的转移概率;S8:利用所述分类词典对待解析简历中的有效关键词增加前缀标注和后缀标注;S9:根据所述前缀标注和后缀标注对待解析简历的文本内容进行分段提取,并将分段提取后的文本内容按照预定格式进行输出。
优选的,所述非关键词为连续两个字符,所述步骤S3具体为;采用tri-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。
优选的,所述步骤S5具体包括:将所述待解析简历的文本内容按照预定长度进行切分,形成待分词文本;扫描所述待分词文本,当扫描到与分类词典中的常用字段关键词相匹配的第一个字符时,从所述第一个字符开始记录,直到扫描不到与分类词典中的常用字段关键词相匹配的字符为止;将记录下的所有字符组成目标关键词。
优选的,所述根据所述有效关联词更新每一常用字段关键词对应的转移概率的步骤具体为:判断所述各样本关联词中是否存在与有效关联词相同的样本关联词;如果存在与有效关联词相同的样本关联词,则更新每一常用字段关键词转变到有效关联词的转移概率;如果不存在与有效关联词相同的样本关联词,则统计每一常用字段关键词转变到有效关联词的转移概率。
优选的,所述步骤S8具体包括:查询所述有效关键词在所述分类词典中所属的类别;按照所属的类别对待解析简历中的有效关键词增加前缀标注和后缀标注。
优选的,所述步骤S9具体包括:将所述待解析简历中当前有效关键词的后缀标注与下一个有效关键词的前缀标注之间或者与所述待解析简历的文本结束符之间的文本内容作为当前有效关键词的描述信息;依次提取每一有效关键词及其对应的描述信息;将每一有效关键词及其对应的描述信息按照预定格式进行输出。
优选的,所述预定格式为Json格式。
优选的,所述待解析简历的文件格式至少包括doc格式、pdf格式或html格式。
优选的,所述简历样本的语言为中文。
与现有技术相比,本发明可以获得以下技术效果:
1)由于基于n-gram模型,具有对不同格式的简历适应性好、准确率高的优点。
2)可以为不同文件格式、自由排版的简历提取所有关键字,不但方便求职者快速投递简历,提高求职效率;也方便招聘网站、单位实现自动化抽取信息并存储为人才资源库,同时提高了招聘网站、单位对简历的筛选效率,具有很强的实用性。
附图说明
图1是本发明实施例提供的简历解析方法的流程示意图。
具体实施例
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参阅图1,是本发明实施例提供的简历解析方法的流程示意图。本实施例的简历解析方法包括以下步骤:
S1:收集预定数量的简历样本。
其中,简历样本可以从各类招聘网站上收集。述简历样本的语言为中文,也可以为英文或其他语言。简历样本的文件格式可以是doc格式、pdf格式或html格式。预订数量可以根据实际需要设定,例如是300份。
S2:统计简历样本中的常用字段关键词,并将常用字段关键词按照不同描述类型划分为不同类别,形成分类词典。
其中,常用字段关键词是预先设定的关键字。不同描述类型用于区分常用字段关键词表述的类别,常用字段关键词的类别划分举例如下:
(1)姓名、性别、年龄等信息的描述类型为基本信息类,因此将姓名、性别、年龄等信息划分为类别I;
(2)工作经验、工作经历、就业经历等信息的描述类型为工作经验类,因此将作经验、工作经历、就业经历等信息划分为类别W;
(3)教育经历、学历等信息的描述类型为教育经验类,因此将教育经历、学历等信息划分为类别E;
(4)外语水平、计算机水平等信息的描述类型为其他技能类,因此将外语水平、计算机水平等信息划分为类别S。
分类词典结构如下所示:
姓名I
性别I
年龄I
......
教育经历E
学历E
......
工作经验W
工作经历W
.......
技能S
外语水平S
.......
S3:将简历样本中紧邻每一常用字段关键词之后出现的非关键词记为样本关联词,并采用n-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。
其中,非关键词的字符个数与n的取值有关,在本实施例中,非关键词为连续两个字符,则n的取值为3,步骤S3具体为;采用tri-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。
转移概率可以采用五元组来表示,五元组的数据形式为(常用字段关键词,字符1,字符2,出现频数,转移概率)。例如对于“工作经验:有20年日用品行业销售…”这样的序列,需要统计常用字段关键词“工作经验”转变到样本关联词“:有”的转移概率,则转移概率保存为如下五元组:
("工作经验",":","有","23","0.0241")。
S4:将待解析简历的文件格式转换为纯文本格式。
其中,可以采用已有的文件格式转换包,将待解析简历的文件格式转换为纯文本格式。
S5:采用最大匹配算法在待解析简历中查找与分类词典中的常用字段关键词相匹配的目标关键词。
其中,最终查找到的目标关键词可能为多个,也可能没有。在本实施例中,步骤S5具体包括:
将待解析简历的文本内容按照预定长度进行切分,形成待分词文本;
扫描待分词文本,当扫描到与分类词典中的常用字段关键词相匹配的第一个字符时,从第一个字符开始记录,直到扫描不到与分类词典中的常用字段关键词相匹配的字符为止;
将记录下的所有字符组成目标关键词转变到各样本关联词的转移概率。
举例而言,假设预定长度为一个字符,待分词文本为sentence[]={"工","作","经","验",":","有","2","0","年"},分类词典中的常用字段关键词为工作和工作经验,那么扫描过程如下:
(1)从sentence[1]开始扫描,当扫描到sentence[2]的时候,发现"工作"与常用字段关键词“工作”相匹配。但此时还不能将字符“工作”切分出来,因为还不能确定“工作”是否已经是最长的常用字段关键词。
(2)继续扫描sentence[3],发现"工作经"并不是分类词典中的常用字段关键词。但是还不能确定"工作经"是否已经是最长的目标关键词,因为"工作经"是常用字段关键词“工作经验”的前缀。
(3)继续扫描sentence[4],发现"工作经验"是分类词典中的常用字段关键词,记录下继续扫描下去:
(4)当扫描sentence[5]的时候,发现"工作经验:"并不是分类词典中的常用字段关键词,也不是常用字段关键词的前缀。因此可以切分出前面最大的词——"工作经验",即进行最大匹配。
由此可见,最大匹配出的目标关键词必须保证下一个扫描不是常用字段关键词或常用字段关键词的前缀才可以结束。
S6:判断目标关键词对应的转移概率是否大于预定阈值,如果大于预定阈值,则将目标关键词判定为有效关键词。
其中,预定阈值可以根基实际需要设定。目标关键词对应的转移概率即为与目标关键词匹配的常用字段关键词。
S7:将待解析简历中紧邻每一有效关键词之后出现的非关键词记为有效关联词,并根据有效关联词更新每一常用字段关键词对应的转移概率。
其中,在本实施例中,根据有效关联词更新每一常用字段关键词对应的转移概率的步骤具体包括:
判断各样本关联词中是否存在与有效关联词相同的样本关联词;
如果存在与有效关联词相同的样本关联词,则更新每一常用字段关键词转变到有效关联词的转移概率;
如果不存在与有效关联词相同的样本关联词,则统计每一常用字段关键词转变到有效关联词的转移概率。
其中,有效关联词确定后,如果有效关联词存在于常用字段关键词对应的各样本关联词中,则先将对应的五元组中的出现频数和总频数增加一,再将对应的五元组中的出现频数除以总频数即可得到新的转移概率,将新的转移概率写入五元组中;如果有效关联词没有存在于常用字段关键词对应的各样本关联词中,则建立一个新的五元组,新的五元组的出现频数为一,将出现频数除以总频数即可得到转移概率,将转移概率写入新的五元组中。
S8:利用分类词典对待解析简历中的有效关键词增加前缀标注和后缀标注。
其中,在本实施例中,步骤S8具体包括:
查询有效关键词在分类词典中所属的类别;
按照所属的类别对待解析简历中的有效关键词增加前缀标注和后缀标注。
其中,增加前缀标注和后缀标注,有效关键词的数据结构变为类别_S+有效关键词+类别_E。举例而言,例如查找到有效关键词为姓名,姓名属于基本信息类,增加前缀标注和后缀标注后,变为I_S姓名I_E。
其中,经过步骤S8处理后,待解析简历的文本内容变为:
类别_S+有效关键词1+类别_E+描述信息+
类别_S+有效关键词2+类别_E+描述信息+
……
文本结束符。
S9:根据前缀标注和后缀标注对待解析简历的文本内容进行分段提取,并将分段提取后的文本内容按照预定格式进行输出。
其中,在本实施例中,步骤S9具体包括:
将待解析简历中当前有效关键词的后缀标注与下一个有效关键词的前缀标注之间或者与待解析简历的文本结束符之间的文本内容作为当前有效关键词的描述信息;
依次提取每一有效关键词及其对应的描述信息;
将每一有效关键词及其对应的描述信息按照预定格式进行输出。
其中,提取描述信息后,当前有效关键词的后缀标注类别_E到下一个有效关键词的前缀标注类别_S之间的文本内容,即为当前有效关键词对应的描述信息,对于最后一个有效关键词,其对应的描述信息为最后一个有效关键词的后缀标注类别_E与文本结束符之前的文本内容。
每一有效关键词及其对应的描述信息可以输出到统一的数据表中,并且预定格式可以是Json格式。
通过上述方式,本发明实施例的简历解析方法通过预先收集简历样本,将常用字段关键词划分为不同类别形成分类词典,采用n-gram模型统计出每一常用字段关键词转变到各样本关联词的转移概率,需要处理待解析简历时,首先查找待解析简历中与常用字段关键词相匹配的目标关键词,如果目标关键词对应的转移概率大于预定阈值,则根据目标关键词更新每一常用字段关键词对应的转移概率,并对待解析简历中的有效关键词增加前缀标注和后缀标注,再对待解析简历的文本内容进行分段提取并输出,从而能够提高信息抽取准确率并支持不同文件格式。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于n-gram模型的简历解析方法,其特征在于,包括:
S1:收集预定数量的简历样本;
S2:统计所述简历样本中的常用字段关键词,并将常用字段关键词按照不同描述类型划分为不同类别,形成分类词典;
S3:将所述简历样本中紧邻每一常用字段关键词之后出现的非关键词记为样本关联词,并采用n-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率;
S4:将待解析简历的文件格式转换为纯文本格式;
S5:采用最大匹配算法在所述待解析简历中查找与分类词典中的常用字段关键词相匹配的目标关键词;
S6:判断所述目标关键词对应的转移概率是否大于预定阈值,如果大于预定阈值,则将目标关键词判定为有效关键词;
S7:将所述待解析简历中紧邻每一有效关键词之后出现的非关键词记为有效关联词,并根据所述有效关联词更新每一常用字段关键词对应的转移概率;
S8:利用所述分类词典对待解析简历中的有效关键词增加前缀标注和后缀标注;
S9:根据所述前缀标注和后缀标注对待解析简历的文本内容进行分段提取,并将分段提取后的文本内容按照预定格式进行输出。
2.根据权利要求1所述的简历解析方法,其特征在于,所述非关键词为连续两个字符,所述步骤S3具体为;采用tri-gram模型统计每一常用字段关键词转变到各样本关联词的转移概率。
3.根据权利要求1所述的简历解析方法,其特征在于,所述步骤S5具体包括:
将所述待解析简历的文本内容按照预定长度进行切分,形成待分词文本;
扫描所述待分词文本,当扫描到与分类词典中的常用字段关键词相匹配的第一个字符时,从所述第一个字符开始记录,直到扫描不到与分类词典中的常用字段关键词相匹配的字符为止;
将记录下的所有字符组成目标关键词。
4.根据权利要求1所述的简历解析方法,其特征在于,所述根据所述有效关联词更新每一常用字段关键词对应的转移概率的步骤具体为:
判断所述各样本关联词中是否存在与有效关联词相同的样本关联词;
如果存在与有效关联词相同的样本关联词,则更新每一常用字段关键词转变到有效关联词的转移概率;
如果不存在与有效关联词相同的样本关联词,则统计每一常用字段关键词转变到有效关联词的转移概率。
5.根据权利要求1所述的简历解析方法及系统,其特征在于,所述步骤S8具体包括:
查询所述有效关键词在所述分类词典中所属的类别;
按照所属的类别对待解析简历中的有效关键词增加前缀标注和后缀标注。
6.根据权利要求5所述的简历解析方法,其特征在于,所述步骤S9具体包括:
将所述待解析简历中当前有效关键词的后缀标注与下一个有效关键词的前缀标注之间或者与所述待解析简历的文本结束符之间的文本内容作为当前有效关键词的描述信息;
依次提取每一有效关键词及其对应的描述信息;
将每一有效关键词及其对应的描述信息按照预定格式进行输出。
7.根据权利要求1、5或6所述的简历解析方法,其特征在于,所述预定格式为Json格式。
8.根据权利要求1所述的简历解析方法,其特征在于,所述待解析简历的文件格式至少包括doc格式、pdf格式或html格式。
9.根据权利要求1所述的简历解析方法,其特征在于,所述简历样本的语言为中文。
CN201710325550.4A 2017-05-10 2017-05-10 一种基于n-gram模型的简历解析方法 Active CN107145584B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710325550.4A CN107145584B (zh) 2017-05-10 2017-05-10 一种基于n-gram模型的简历解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710325550.4A CN107145584B (zh) 2017-05-10 2017-05-10 一种基于n-gram模型的简历解析方法

Publications (2)

Publication Number Publication Date
CN107145584A true CN107145584A (zh) 2017-09-08
CN107145584B CN107145584B (zh) 2020-06-19

Family

ID=59777947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710325550.4A Active CN107145584B (zh) 2017-05-10 2017-05-10 一种基于n-gram模型的简历解析方法

Country Status (1)

Country Link
CN (1) CN107145584B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170715A (zh) * 2017-12-01 2018-06-15 厦门快商通信息技术有限公司 一种文本分类内容提取方法及文本结构化处理方法
CN108280202A (zh) * 2018-01-30 2018-07-13 湖南蚁坊软件股份有限公司 一种动态可扩展的实时流标签框架
CN108595396A (zh) * 2018-03-28 2018-09-28 福建榕基软件工程有限公司 一种简历的自动生成方法及终端
CN108763176A (zh) * 2018-04-10 2018-11-06 达而观信息科技(上海)有限公司 一种文档处理方法及装置
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN110969056A (zh) * 2018-09-29 2020-04-07 杭州海康威视数字技术股份有限公司 文档图像的文档版面分析方法、装置及存储介质
CN111143517A (zh) * 2019-12-30 2020-05-12 浙江阿尔法人力资源有限公司 人选标签预测方法、装置、设备和存储介质
CN111325031A (zh) * 2020-02-17 2020-06-23 北京字节跳动网络技术有限公司 简历解析方法及装置
CN113312913A (zh) * 2021-07-30 2021-08-27 北京惠每云科技有限公司 一种病例书的切分方法、装置、电子设备及可读存储介质
CN115471184A (zh) * 2022-08-30 2022-12-13 成都鱼泡科技有限公司 一种招聘信息的智能化推送方法及系统
CN117058699A (zh) * 2023-08-28 2023-11-14 深圳夸夸菁领科技有限公司 一种基于LayoutLMv3模型的简历版块划分方法、系统及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311183B1 (en) * 1998-08-07 2001-10-30 The United States Of America As Represented By The Director Of National Security Agency Method for finding large numbers of keywords in continuous text streams
CN1367446A (zh) * 2001-01-22 2002-09-04 前程无忧网络信息技术(北京)有限公司上海分公司 汉语个人简历信息处理系统和方法
US7046847B2 (en) * 2000-06-23 2006-05-16 International Business Machines Corporation Document processing method, system and medium
CN1904896A (zh) * 2005-07-28 2007-01-31 株式会社东芝 结构化文档处理装置、搜索装置及结构化文档系统和方法
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
CN103294764A (zh) * 2012-02-29 2013-09-11 国际商业机器公司 用于从电子文档提取信息的方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6311183B1 (en) * 1998-08-07 2001-10-30 The United States Of America As Represented By The Director Of National Security Agency Method for finding large numbers of keywords in continuous text streams
US7046847B2 (en) * 2000-06-23 2006-05-16 International Business Machines Corporation Document processing method, system and medium
CN1367446A (zh) * 2001-01-22 2002-09-04 前程无忧网络信息技术(北京)有限公司上海分公司 汉语个人简历信息处理系统和方法
CN1904896A (zh) * 2005-07-28 2007-01-31 株式会社东芝 结构化文档处理装置、搜索装置及结构化文档系统和方法
US7493293B2 (en) * 2006-05-31 2009-02-17 International Business Machines Corporation System and method for extracting entities of interest from text using n-gram models
CN103294764A (zh) * 2012-02-29 2013-09-11 国际商业机器公司 用于从电子文档提取信息的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭海蓉等: "基于增量图聚类的动态多文档摘要算法", 《计算机应用研究》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108170715B (zh) * 2017-12-01 2020-10-23 厦门快商通信息技术有限公司 一种文本结构化处理方法
CN108170715A (zh) * 2017-12-01 2018-06-15 厦门快商通信息技术有限公司 一种文本分类内容提取方法及文本结构化处理方法
CN108280202A (zh) * 2018-01-30 2018-07-13 湖南蚁坊软件股份有限公司 一种动态可扩展的实时流标签框架
CN108280202B (zh) * 2018-01-30 2020-10-30 湖南蚁坊软件股份有限公司 一种动态可扩展的实时流标签系统
CN108595396A (zh) * 2018-03-28 2018-09-28 福建榕基软件工程有限公司 一种简历的自动生成方法及终端
CN108595396B (zh) * 2018-03-28 2023-08-04 福建榕基软件工程有限公司 一种简历的自动生成方法及终端
CN108763176A (zh) * 2018-04-10 2018-11-06 达而观信息科技(上海)有限公司 一种文档处理方法及装置
CN108932294A (zh) * 2018-05-31 2018-12-04 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN108932294B (zh) * 2018-05-31 2024-01-09 平安科技(深圳)有限公司 基于索引的简历数据处理方法、装置、设备及存储介质
CN110969056A (zh) * 2018-09-29 2020-04-07 杭州海康威视数字技术股份有限公司 文档图像的文档版面分析方法、装置及存储介质
CN110969056B (zh) * 2018-09-29 2023-08-08 杭州海康威视数字技术股份有限公司 文档图像的文档版面分析方法、装置及存储介质
CN111143517A (zh) * 2019-12-30 2020-05-12 浙江阿尔法人力资源有限公司 人选标签预测方法、装置、设备和存储介质
CN111143517B (zh) * 2019-12-30 2023-09-05 浙江阿尔法人力资源有限公司 人选标签预测方法、装置、设备和存储介质
CN111325031A (zh) * 2020-02-17 2020-06-23 北京字节跳动网络技术有限公司 简历解析方法及装置
CN111325031B (zh) * 2020-02-17 2023-06-23 抖音视界有限公司 简历解析方法及装置
CN113312913A (zh) * 2021-07-30 2021-08-27 北京惠每云科技有限公司 一种病例书的切分方法、装置、电子设备及可读存储介质
CN115471184A (zh) * 2022-08-30 2022-12-13 成都鱼泡科技有限公司 一种招聘信息的智能化推送方法及系统
CN117058699A (zh) * 2023-08-28 2023-11-14 深圳夸夸菁领科技有限公司 一种基于LayoutLMv3模型的简历版块划分方法、系统及存储介质
CN117058699B (zh) * 2023-08-28 2024-04-19 深圳夸夸菁领科技有限公司 一种基于LayoutLMv3模型的简历版块划分方法、系统及存储介质

Also Published As

Publication number Publication date
CN107145584B (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN107145584A (zh) 一种基于n‑gram模型的简历解析方法
CN103399901B (zh) 一种关键词抽取方法
Hagen et al. Query segmentation revisited
CN108460014A (zh) 企业实体的识别方法、装置、计算机设备及存储介质
Ahmed et al. Language identification from text using n-gram based cumulative frequency addition
CN102662969B (zh) 一种基于网页结构语义的互联网信息对象定位方法
CN102043808B (zh) 利用网页结构抽取双语词条的方法及设备
CN111488466B (zh) 中文带标记错误语料生成方法、计算装置和存储介质
CN107392143A (zh) 一种基于svm文本分类的简历精确解析方法
CN105243129A (zh) 商品属性特征词聚类方法
Mori et al. A machine learning approach to recipe text processing
CN112231494B (zh) 信息抽取方法、装置、电子设备及存储介质
KR20100031800A (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
AU2005203239A1 (en) Phrase-based indexing in an information retrieval system
CN109145260A (zh) 一种文本信息自动提取方法
CN107357777B (zh) 提取标签信息的方法和装置
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN110134799B (zh) 一种基于bm25算法的文本语料库的搭建和优化方法
CN113360647B (zh) 一种基于聚类的5g移动业务投诉溯源分析方法
CN113157860B (zh) 一种基于小规模数据的电力设备检修知识图谱构建方法
Tang et al. Overview of the NTCIR-9 Crosslink Task: Cross-lingual Link Discovery.
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
CN114595661A (zh) 用于评审投标文件的方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant