CN111460084A - 一种简历结构化抽取模型训练方法及系统 - Google Patents

一种简历结构化抽取模型训练方法及系统 Download PDF

Info

Publication number
CN111460084A
CN111460084A CN202010258249.8A CN202010258249A CN111460084A CN 111460084 A CN111460084 A CN 111460084A CN 202010258249 A CN202010258249 A CN 202010258249A CN 111460084 A CN111460084 A CN 111460084A
Authority
CN
China
Prior art keywords
resume
entity
structured
modified
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010258249.8A
Other languages
English (en)
Inventor
李靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202010258249.8A priority Critical patent/CN111460084A/zh
Publication of CN111460084A publication Critical patent/CN111460084A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种简历结构化抽取模型训练方法及系统,所述方法包括:通过预设结构化抽取模型对简历信息进行结构化信息识别得到预设结构化字段对应的简历实体;将所述预设结构化字段与对应的简历实体关联并与简历实体一同向用户显示以使用户对抽取结果进行评价,本发明可将抽取的简历实体与对应的预设结构化字段一同向用户显示,提高模型训练效率及准确度。

Description

一种简历结构化抽取模型训练方法及系统
技术领域
本发明涉及简历信息处理技术领域,尤其涉及一种简历结构化抽取模型训练方法及系统。
背景技术
现阶段,简历自动化抽取领域,已经基本可以做到对一份非结构化的简历,按预设结构化字段完成相应的信息抽取,但是在简历抽取中还是无法做到100%的正确,为了能够提升抽取正确率,需要不断的优化迭代抽取程序和模型。
目前在简历结构化抽取模型训练过程中,模型及程序迭代需要人工对简历抽取效果进行标注评测,单靠人眼看的效率低下,而且容易出错。此外,现有的训练样本在一次训练效果测试后无法再次使用,因此,在训练简历结构化抽取模型过程中需要大量的训练样本,导致训练成本高,效率低。
发明内容
本发明的一个目的在于提供一种简历结构化抽取模型训练方法,将抽取的简历实体与对应的预设结构化字段一同向用户显示,提高模型训练效率及准确度。本发明的另一个目的在于提供一种简历结构化抽取模型训练系统。本发明的再一个目的在于提供一种计算机设备。本发明的还一个目的在于提供一种可读介质。
为了达到以上目的,本发明一方面公开了一种简历结构化抽取模型训练方法,包括:
通过预设结构化抽取模型对简历信息进行结构化信息识别得到预设结构化字段对应的简历实体;
将所述预设结构化字段与对应的简历实体关联并与简历实体一同向用户显示以使用户对抽取结果进行评价。
优选的,所述方法进一步包括:
基于用户输入的修改信息确定修改后的简历实体,根据修改后的简历实体和对应的预设结构化字段形成所述结构化抽取模型的训练样本;
将所述训练样本输入所述结构化抽取模型进行模型训练。
优选的,所述基于用户输入的修改信息确定修改后的简历实体,根据修改后的简历实体和对应的预设结构化字段形成所述结构化抽取模型的训练样本具体包括:
根据用户输入的修改信息确定待修改的预设结构化字段和修改后的简历实体;
根据所述修改后的简历实体和对应的预设结构化字段形成Json格式文件的训练样本。
优选的,所述方法进一步包括:
将所述修改后的简历实体和待修改的预设结构化字段与对应的预设结构化字段和简历实体关联并一同向用户显示。
本发明还公开了一种简历结构化抽取模型训练系统,包括:
简历实体抽取单元,用于通过预设结构化抽取模型对简历信息进行结构化信息识别得到预设结构化字段对应的简历实体;
抽取结果显示单元,用于将所述预设结构化字段与对应的简历实体关联并与简历实体一同向用户显示以使用户对抽取结果进行评价。
优选的,所述系统进一步包括训练样本生成单元,用于基于用户输入的修改信息确定修改后的简历实体,根据修改后的简历实体和对应的预设结构化字段形成所述结构化抽取模型的训练样本,将所述训练样本输入所述结构化抽取模型进行模型训练。
优选的,所述训练样本生成单元具体用于根据用户输入的修改信息确定待修改的预设结构化字段和修改后的简历实体,根据所述修改后的简历实体和对应的预设结构化字段形成Json格式文件的训练样本。
优选的,所述抽取结果显示单元进一步用于将所述修改后的简历实体和待修改的预设结构化字段与对应的预设结构化字段和简历实体关联并一同向用户显示。
本发明还公开了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,
所述处理器执行所述程序时实现如上所述方法。
本发明还公开了一种计算机可读介质,其上存储有计算机程序,
该程序被处理器执行时实现如上所述方法。
本发明首先通过预设的结构化抽取模型对简历信息进行结构化信息识别得到预设结构化字段对应的简历实体。将预设结构化字段与识别得到的简历实体一同向用户展示,以使用户可以直观观察简历结构化抽取模型的抽取效果并进行评价。本发明通过采用预设结构化字段与结构化抽取模型抽取得到的简历实体进行关联显示,使用户可以简单快速的实现模型抽取效果的判断,极大的提升了模型抽取结构评价的效率和准确度,以提升简历结构化抽取模型的训练效果,缩短训练周期。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明简历结构化抽取模型训练方法一个具体实施例的流程图;
图2示出本发明简历结构化抽取模型训练方法一个具体实施例中非结构化简历的示意图;
图3示出本发明简历结构化抽取模型训练方法一个具体实施例中结构化简历的示意图;
图4示出本发明简历结构化抽取模型训练方法一个具体实施例基于修改信息形成训练样本的流程图;
图5示出本发明简历结构化抽取模型训练方法一个具体实施例形成Json格式文件的训练样本的流程图;
图6示出本发明简历结构化抽取模型训练方法一个具体例子中显示预设结构化字段的示意图;
图7示出本发明简历结构化抽取模型训练方法一个具体例子中显示修改信息的示意图;
图8示出本发明简历结构化抽取模型训练系统一个具体实施例的结构图之一;
图9示出本发明简历结构化抽取模型训练系统一个具体实施例的结构图之二;
图10示出适于用来实现本发明实施例的计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的一个方面,本实施例公开了一种简历结构化抽取模型训练方法。如图1所示,本实施例中,所述方法包括:
S100:通过预设结构化抽取模型对简历信息进行结构化信息识别得到预设结构化字段对应的简历实体。
S200:将所述预设结构化字段与对应的简历实体关联并与简历实体一同向用户显示以使用户对抽取结果进行评价。
本发明首先通过预设的结构化抽取模型对简历信息进行结构化信息识别得到预设结构化字段对应的简历实体。将预设结构化字段与识别得到的简历实体一同向用户展示,以使用户可以直观观察简历结构化抽取模型的抽取效果并进行评价。本发明通过采用预设结构化字段与结构化抽取模型抽取得到的简历实体进行关联显示,使用户可以简单快速的实现模型抽取效果的判断,极大的提升了模型抽取结构评价的效率和准确度,以提升简历结构化抽取模型的训练效果,缩短训练周期。
在一个具体例子中,对于如图2所示的简历,可以通过预设结构化抽取模型进行结构化信息提取技术提取得到简历实体,形成结构化简历,如图3所示。在一些实施例中,简历信息可以是WORD或PDF等形式的文档,对于WORD形式的文档,可以直接识别得到简历实体,对于PDF形式的文档,可以通过基于OCR或机器学习技术形成的结构化抽取模型进行文字识别得到简历实体。模型进一步对简历实体进行特征分析,得到与简历实体对应的预设结构化字段,根据预设结构化字段与匹配的简历实体形成结构化简历。
在优选的实施方式中,如图4所示,所述方法进一步包括:
S310:基于用户输入的修改信息确定修改后的简历实体,根据修改后的简历实体和对应的预设结构化字段形成所述结构化抽取模型的训练样本。
S320:将所述训练样本输入所述结构化抽取模型进行模型训练。
可以理解的是,在该优选的实施方式中,可向用户提供输入修改信息的输入窗口。当用户根据抽取得到的简历实体和对应的预设结构化字段进行抽取效果评价时,若抽取得到的简历实体存在错误时,用户可输入修改信息对抽取的简历实体进行修正。进一步的,可根据用户输入的修改信息确定与待修改的预设结构化字段对应的修改后的简历实体,该修改后的简历实体为模型需要识别得到的准确的简历实体,根据修改后的简历实体和对应的预设结构化字段形成训练样本以用于简历结构化抽取模型的迭代训练,提高模型的识别准确率和训练样本的利用率,缩短模型训练周期。
在优选的实施方式中,如图5所示,所述S310具体可包括:
S311:根据用户输入的修改信息确定待修改的预设结构化字段和修改后的简历实体。
S312:根据所述修改后的简历实体和对应的预设结构化字段形成Json格式文件的训练样本。
可以理解的是,该优选的实施方式中,根据修改后的简历实体和对应的预设结构化字段形成Json格式文件的训练样本,该Json格式文件的训练样本可为训练结构化抽取模型的模型训练模块直接读取使用,对抽取模型进行训练。其中,模型训练模块为本领域的常规技术手段,本领域技术人员可根据需求设置可读取Json格式文件的模型训练模块,在此不再赘述。通过根据用户输入的修改信息自动生成Json格式文件以便于后续的模型迭代优化过程,无需用户手动设置,极大的提高了模型训练的效率和准确性。
在优选的实施方式中,所述方法进一步包括:
S400:将所述修改后的简历实体和待修改的预设结构化字段与对应的预设结构化字段和简历实体关联并一同向用户显示。
可以理解的是,根据用户输入的修改信息得到待修改的预设结构化字段和对应的修改后的简历实体,将待修改的预设结构化字段和对应的修改后的简历实体与对应的预设结构化字段和识别得到的简历实体关联并一同向用户显示,以使用户可以直观观察到修改的信息是否准确,保证迭代训练样本的准确性。
下面以一个具体例子来对本发明作进一步的说明。对于图1示出的非结构化简历,通过简历结构化抽取模型对该非结构化简历进行结构化信息识别得到非结构化简历中的简历实体以及与简历实体对应的预设结构化字段。
为了便于用户对简历结构化抽取模型的结构化抽取结果进行评价,将抽取得到的简历实体在简历信息中对应的简历实体高亮显示,并将该简历实体对应的预设结构化字段与该简历实体一同向用户显示。例如,如图6所示,从简历信息中识别得到“华中科技大学会”的简历实体,向用户显示简历信息,并将简历信息中的“华中科技大学会”的简历实体的背景色设置为高亮色,该高亮色可以是与黄色等用户预先定义的颜色。进一步将“华中科技大学会”对应的预设结构化字段“University”设置在与“华中科技大学会”对应的位置,并通过箭头等关联图标使预设结构化字段“University”与简历实体“华中科技大学会”关联,即将预设结构化字段与对应的简历实体关联并一同向用户显示,以使用户对简历实体抽取结果进行评价。
用户对此次简历结构化抽取模型的抽取结果进行评价,显然,本次抽取得到的“华中科技大学会”是错误的,并非一个有效的学校(University)实体,抽取模型需要迭代优化。则基于用户的修改请求可向用户展示一个输入窗口,接收用户通过输入窗口输入的修改信息,根据该修改信息可得到待修改的预设结构化字段和对应的修改后的简历实体。类似的,可通过将包括待修改的预设结构化字段和修改后的简历实体的修改信息设置在识别得到的简历实体和预设结构化字段的对应位置,并通过箭头等关联图标将修改信息与简历实体和预设结构化字段关联并一同向用户显示,如图7所示,以便于用户确认输入的修改信息是否准确。
基于相同原理,本实施例还公开了一种简历结构化抽取模型训练系统。如图8所示,本实施例中,所述系统包括简历实体抽取单元11和抽取结果显示单元12。
其中,所述简历实体抽取单元11用于通过预设结构化抽取模型对简历信息进行结构化信息识别得到预设结构化字段对应的简历实体。
所述抽取结果显示单元12用于将所述预设结构化字段与对应的简历实体关联并与简历实体一同向用户显示以使用户对抽取结果进行评价。
本发明首先通过预设的结构化抽取模型对简历信息进行结构化信息识别得到预设结构化字段对应的简历实体。将预设结构化字段与识别得到的简历实体一同向用户展示,以使用户可以直观观察简历结构化抽取模型的抽取效果并进行评价。本发明通过采用预设结构化字段与结构化抽取模型抽取得到的简历实体进行关联显示,使用户可以简单快速的实现模型抽取效果的判断,极大的提升了模型抽取结构评价的效率和准确度,以提升简历结构化抽取模型的训练效果,缩短训练周期。
在优选的实施方式中,如图9所示,所述系统进一步包括训练样本生成单元13。所述训练样本生成单元13用于基于用户输入的修改信息确定修改后的简历实体,根据修改后的简历实体和对应的预设结构化字段形成所述结构化抽取模型的训练样本,将所述训练样本输入所述结构化抽取模型进行模型训练。
可以理解的是,在该优选的实施方式中,可向用户提供输入修改信息的输入窗口。当用户根据抽取得到的简历实体和对应的预设结构化字段进行抽取效果评价时,若抽取得到的简历实体存在错误时,用户可输入修改信息对抽取的简历实体进行修正。进一步的,可根据用户输入的修改信息确定与待修改的预设结构化字段对应的修改后的简历实体,该修改后的简历实体为模型需要识别得到的准确的简历实体,根据修改后的简历实体和对应的预设结构化字段形成训练样本以用于简历结构化抽取模型的迭代训练,提高模型的识别准确率和训练样本的利用率,缩短模型训练周期。
在优选的实施方式中,所述训练样本生成单元13具体用于根据用户输入的修改信息确定待修改的预设结构化字段和修改后的简历实体,根据所述修改后的简历实体和对应的预设结构化字段形成Json格式文件的训练样本。
可以理解的是,在该优选的实施方式中,可向用户提供输入修改信息的输入窗口。当用户根据抽取得到的简历实体和对应的预设结构化字段进行抽取效果评价时,若抽取得到的简历实体存在错误时,用户可输入修改信息对抽取的简历实体进行修正。进一步的,可根据用户输入的修改信息确定与待修改的预设结构化字段对应的修改后的简历实体,该修改后的简历实体为模型需要识别得到的准确的简历实体,根据修改后的简历实体和对应的预设结构化字段形成训练样本以用于简历结构化抽取模型的迭代训练,提高模型的识别准确率和训练样本的利用率,缩短模型训练周期。
在优选的实施方式中,所述抽取结果显示单元12进一步用于将所述修改后的简历实体和待修改的预设结构化字段与对应的预设结构化字段和简历实体关联并一同向用户显示。
可以理解的是,根据用户输入的修改信息得到待修改的预设结构化字段和对应的修改后的简历实体,将待修改的预设结构化字段和对应的修改后的简历实体与对应的预设结构化字段和识别得到的简历实体关联并一同向用户显示,以使用户可以直观观察到修改的信息是否准确,保证迭代训练样本的准确性。
由于该系统解决问题的原理与以上方法类似,因此本系统的实施可以参见方法的实施,在此不再赘述。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机设备,具体的,计算机设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
在一个典型的实例中计算机设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法。
下面参考图10,其示出了适于用来实现本申请实施例的计算机设备600的结构示意图。
如图10所示,计算机设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中,还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶反馈器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包括用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种简历结构化抽取模型训练方法,其特征在于,包括:
通过预设结构化抽取模型对简历信息进行结构化信息识别得到预设结构化字段对应的简历实体;
将所述预设结构化字段与对应的简历实体关联并与简历实体一同向用户显示以使用户对抽取结果进行评价。
2.根据权利要求1所述的简历结构化抽取模型训练方法,其特征在于,所述方法进一步包括:
基于用户输入的修改信息确定修改后的简历实体,根据修改后的简历实体和对应的预设结构化字段形成所述结构化抽取模型的训练样本;
将所述训练样本输入所述结构化抽取模型进行模型训练。
3.根据权利要求2所述的简历结构化抽取模型训练方法,其特征在于,所述基于用户输入的修改信息确定修改后的简历实体,根据修改后的简历实体和对应的预设结构化字段形成所述结构化抽取模型的训练样本具体包括:
根据用户输入的修改信息确定待修改的预设结构化字段和修改后的简历实体;
根据所述修改后的简历实体和对应的预设结构化字段形成Json格式文件的训练样本。
4.根据权利要求2所述的简历结构化抽取模型训练方法,其特征在于,所述方法进一步包括:
将所述修改后的简历实体和待修改的预设结构化字段与对应的预设结构化字段和简历实体关联并一同向用户显示。
5.一种简历结构化抽取模型训练系统,其特征在于,包括:
简历实体抽取单元,用于通过预设结构化抽取模型对简历信息进行结构化信息识别得到预设结构化字段对应的简历实体;
抽取结果显示单元,用于将所述预设结构化字段与对应的简历实体关联并与简历实体一同向用户显示以使用户对抽取结果进行评价。
6.根据权利要求5所述的简历结构化抽取模型训练系统,其特征在于,所述系统进一步包括训练样本生成单元,用于基于用户输入的修改信息确定修改后的简历实体,根据修改后的简历实体和对应的预设结构化字段形成所述结构化抽取模型的训练样本,将所述训练样本输入所述结构化抽取模型进行模型训练。
7.根据权利要求6所述的简历结构化抽取模型训练系统,其特征在于,所述训练样本生成单元具体用于根据用户输入的修改信息确定待修改的预设结构化字段和修改后的简历实体,根据所述修改后的简历实体和对应的预设结构化字段形成Json格式文件的训练样本。
8.根据权利要求6所述的简历结构化抽取模型训练系统,其特征在于,所述抽取结果显示单元进一步用于将所述修改后的简历实体和待修改的预设结构化字段与对应的预设结构化字段和简历实体关联并一同向用户显示。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,
所述处理器执行所述程序时实现如权利要求1-4任一项所述方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,
该程序被处理器执行时实现如权利要求1-4任一项所述方法。
CN202010258249.8A 2020-04-03 2020-04-03 一种简历结构化抽取模型训练方法及系统 Pending CN111460084A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010258249.8A CN111460084A (zh) 2020-04-03 2020-04-03 一种简历结构化抽取模型训练方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010258249.8A CN111460084A (zh) 2020-04-03 2020-04-03 一种简历结构化抽取模型训练方法及系统

Publications (1)

Publication Number Publication Date
CN111460084A true CN111460084A (zh) 2020-07-28

Family

ID=71681424

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010258249.8A Pending CN111460084A (zh) 2020-04-03 2020-04-03 一种简历结构化抽取模型训练方法及系统

Country Status (1)

Country Link
CN (1) CN111460084A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488103A (zh) * 2020-11-30 2021-03-12 上海寻梦信息技术有限公司 地址信息抽取方法、模型训练方法及相关设备
CN115495554A (zh) * 2022-09-23 2022-12-20 深圳今日人才信息科技有限公司 一种简历信息模块化的评估方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020065830A1 (en) * 1997-12-21 2002-05-30 Interactive Search, Inc. System and method for interactively entering data into a database
CN107038157A (zh) * 2017-05-05 2017-08-11 百度在线网络技术(北京)有限公司 基于人工智能的识别错误发现方法、装置及存储介质
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN110442841A (zh) * 2019-06-20 2019-11-12 平安科技(深圳)有限公司 识别简历的方法及装置、计算机设备、存储介质
CN110781658A (zh) * 2019-10-14 2020-02-11 北京字节跳动网络技术有限公司 简历解析方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020065830A1 (en) * 1997-12-21 2002-05-30 Interactive Search, Inc. System and method for interactively entering data into a database
CN107038157A (zh) * 2017-05-05 2017-08-11 百度在线网络技术(北京)有限公司 基于人工智能的识别错误发现方法、装置及存储介质
CN108447534A (zh) * 2018-05-18 2018-08-24 灵玖中科软件(北京)有限公司 一种基于nlp的电子病历数据质量管理方法
CN110442841A (zh) * 2019-06-20 2019-11-12 平安科技(深圳)有限公司 识别简历的方法及装置、计算机设备、存储介质
CN110781658A (zh) * 2019-10-14 2020-02-11 北京字节跳动网络技术有限公司 简历解析方法、装置、电子设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112488103A (zh) * 2020-11-30 2021-03-12 上海寻梦信息技术有限公司 地址信息抽取方法、模型训练方法及相关设备
CN115495554A (zh) * 2022-09-23 2022-12-20 深圳今日人才信息科技有限公司 一种简历信息模块化的评估方法

Similar Documents

Publication Publication Date Title
US11062090B2 (en) Method and apparatus for mining general text content, server, and storage medium
US10978042B2 (en) Method and apparatus for generating speech synthesis model
EP3872652A2 (en) Method and apparatus for processing video, electronic device, medium and product
CN110070076B (zh) 用于选取训练用样本的方法和装置
CN110968663A (zh) 一种问答系统的答案展示方法及装置
CN111460084A (zh) 一种简历结构化抽取模型训练方法及系统
CN110110198A (zh) 一种网页信息抽取方法及装置
CN109426415B (zh) 一种生成级联选择器的方法及装置
CN107066302B (zh) 缺陷检测方法、装置及服务终端
CN114092948B (zh) 一种票据识别方法、装置、设备以及存储介质
CN108491387B (zh) 用于输出信息的方法和装置
CN114090792A (zh) 基于对比学习的文档关系抽取方法及其相关设备
CN117312140A (zh) 测试用例的生成方法、装置、电子设备及存储介质
CN108664610B (zh) 用于处理数据的方法和装置
CN115470790A (zh) 一种识别文件中的命名实体的方法和装置
CN115168575A (zh) 应用于审计领域的主语补全方法及相关设备
CN109857838B (zh) 用于生成信息的方法和装置
CN111475641B (zh) 一种数据抽取方法、装置、存储介质及设备
CN114141236A (zh) 语言模型更新方法、装置、电子设备及存储介质
CN111767290B (zh) 用于更新用户画像的方法和装置
CN113360590A (zh) 兴趣点信息的更新方法、装置、电子设备及存储介质
CN110895924B (zh) 一种文档内容朗读方法、装置、电子设备及可读存储介质
CN110990528A (zh) 一种问答方法、装置及电子设备
CN111352979B (zh) 一种基于简历信息的行业分析方法及系统
CN113312484B (zh) 对象标签处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220922

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.