CN114048744A - 基于实体抽取的任职记录生成方法、装置及设备 - Google Patents

基于实体抽取的任职记录生成方法、装置及设备 Download PDF

Info

Publication number
CN114048744A
CN114048744A CN202111266091.XA CN202111266091A CN114048744A CN 114048744 A CN114048744 A CN 114048744A CN 202111266091 A CN202111266091 A CN 202111266091A CN 114048744 A CN114048744 A CN 114048744A
Authority
CN
China
Prior art keywords
entity
company
job
data
record
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111266091.XA
Other languages
English (en)
Inventor
于又任
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yancheng Tianyanchawei Technology Co ltd
Original Assignee
Yancheng Jindi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yancheng Jindi Technology Co Ltd filed Critical Yancheng Jindi Technology Co Ltd
Priority to CN202111266091.XA priority Critical patent/CN114048744A/zh
Publication of CN114048744A publication Critical patent/CN114048744A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,其实施方式提供了一种基于实体抽取的任职记录生成方法、装置及设备。其中基于实体抽取的任职记录生成方法,包括:获取简介文本数据;采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,且所述命名实体识别模型采用标注好的训练样本进行训练后得到;将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。本发明提供的实施方式能够提升生成的任职记录的可解释性。

Description

基于实体抽取的任职记录生成方法、装置及设备
技术领域
本发明涉及数据处理技术领域,具体地涉及一种基于实体抽取的任职记录生成方法、一种基于实体抽取的任职记录生成装置、一种基于实体抽取的任职记录生成方法设备以及对应的存储介质。
背景技术
随着深度学习技术的发展,特别是在自然语言处理(NLP)方向的进步,极大的提高了人们在处理文本这种非结构化数据方面的效率。命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是自然语言处理(NLP)中的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如地名,人员、组织、位置、时间表达式、数量、货币值、百分比等。公司高管的简介中一般会出现该人员的历任公司和历任公司职位,利用深度学习中的命名实体识别技术,对公司名和公司职位进行标注得到数据集来训练模型,训练好的模型可以准确的提取出公司名和公司职位,后续通过结构化的组合,即可得出比较准确的人员任职公司和在公司的相应公司职位。现有的命名实体识别结合关系抽取的技术,可以进行公司名和对应公司职位的抽取,但这种抽取方式获取的结果精度一般,且可解释性很低。
发明内容
本发明实施例的目的是提供一种基于实体抽取的任职记录生成方法、装置及设备。
为了实现上述目的,本发明第一方面提供一种基于实体抽取的任职记录生成方法,所述方法包括:
获取简介文本数据;采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,且所述命名实体识别模型采用标注好的训练样本进行训练后得到;将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。
优选的,所述命名实体识别模型中的双向长短期记忆网络采用预训练的语言表征模型网络进行替换。
优选的,所述命名实体识别模型采用标注好的训练样本进行训练后得到,包括:采集简介文本数据的训练样本;对所述训练样本中的任职公司和公司职位进行标注;将标注后的训练样本转换为所述命名实体识别模型的适配数据格式,并将所述标注后的训练样本分为训练数据集合、验证数据集合和测试数据集合;采用所述训练数据集合对所述命名实体识别模型进行训练,采用所述验证数据集合验证训练后的命名实体识别模型;采用所述测试数据集合评估所述训练后的命名实体识别模型。
优选的,将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录,包括:获取所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序;按照所述顺序遍历所述任职公司实体和所述公司职位实体,将任职公司实体进行缓存,将公司职位实体与缓存的任职公司实体组合成为预设格式的任职记录;被缓存的任职公司实体在被组合至少一次且下一个任职公司实体进入缓存时从缓存中被清除;所述一个预设格式的任职记录中包括一个任职公司实体和一个公司职位实体。
优选的,将公司职位实体与缓存的任职公司实体组合成为预设格式的任职记录之前,所述方法还包括:确定缓存中不存在任职公司实体,将所述公司职位实体与空值的任职公司实体组合成为预设格式的任职记录。
优选的,获取所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序,包括:根据所述数据标注,将简介文本数据中的任职公司实体和公司职位实体按序存储至队列或者数组中;根据所述任职公司实体和所述公司职位实体在所述队列或者数组中的存储位置确定所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序。
优选的,所述生成方法还包括:对任职公司实体为空值的预设格式的任职记录进行标注。
在本发明的第二方面,还提供了一种基于实体抽取的任职记录生成装置,包括:数据获取模块,用于获取简介文本数据;实体抽取模块,用于采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,并采用标注好的训练样本进行训练后得到;以及记录生成模块,用于将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。
在本发明的第三方面,还提供了一种基于实体抽取的任职记录生成设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的基于实体抽取的任职记录生成方法的步骤。
在本发明的第四方面,还提供了一种计算机可读存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行前述的基于实体抽取的任职记录生成方法。
本发明第五方面提供一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述的基于实体抽取的任职记录生成方法。
上述技术方案具有以下有益效果:本发明提供的实施例应用于企业级的数据库中,用这些海量数据训练出来的命名实体识别模型对任职公司和公司职位的抽取有着很高的精度。通过使用实施例中的规则对抽取出的任职公司和公司职位进行就近匹配,保证最终生成的任职记录的可解释性。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1示意性示出了根据本发明实施方式的基于实体抽取的任职记录生成方法的实施示意图;
图2示意性示出了根据本发明实施方式的采用训练样本训练命名实体识别模型的实施示意图;
图3示意性示出了根据本发明实施方式的基于实体抽取的任职记录生成装置的结构示意图。
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
图1示意性示出了根据本发明实施方式的基于实体抽取的任职记录生成方法的实施示意图。如图1所示,本实施方式提供一种基于实体抽取的任职记录生成方法,包括:
S01、获取简介文本数据;
此处的获取包括但不限于文本数据的直接输入、从数据库中导入和从文件中读入等方式。在数据库中,储存有多个公司名和公司职位名,这些数据均可以成为本步骤中获取简介文本数据的数据源。
S02、采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,并采用标注好的训练样本进行训练后得到;
采用双向长短期记忆网络和条件随机场网络所组成的命名实体识别模型进行识别,不仅能够适用于通用的多种类型的命名实体,还可以对特定的命名实体进行识别,识别精度高。
其中,采用标注好的训练样本进行训练后得到,大致包括数据采集、数据标注、样本构建、模型训练、模型验证等步骤。
S03、将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。
在本实施例中,为了使生成的任职记录进行标准化的输出或者便于下一步的数据处理,可以预设任职记录的格式,该格式中包括列名、连接符、公司职位实体的格式和任职公司实体的格式。
本步骤通过一定的组合方式,使任职公司实体和公司职位实体生成的任职记录的可解释性更强,更利于后续的数据处理。
通过以上实施方式,能够从海量的简介文本数据中快速准确地提取到任职记录。相较于现有技术中都任职记录生成方法,具有更好的可解释性。相比命名实体识别与关系抽取的组合,使用命名实体识别与规则进行组合的方式可以极大程度的保证抽取结果的可控性,防止出现公司名和公司职位之前明明不相关却被关联在了一块,但却无法对这种问题的出现进行合理解释的问题,同时该方案相比于关系抽取有更高的召回率。
在本申请一实施方式中,所述命名实体识别模型中的双向长短期记忆网络采用BERT网络进行替换。前一实施方式中的命名实体识别模型采用LSTM+CRF的组合进行公司名和公司职位实体的抽取,具有简单、高效、易于实现并行训练等优点。如果对提取的时效性不做相关限制的话,则可以通过使用BERT+CRF的组合进行替换,从而提升实体抽取的精确率和召回率。BERT(Bidirectional Encoder Representations from Transformers),是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。
图2示意性示出了根据本发明实施方式的采用训练样本训练命名实体识别模型的实施示意图,如图2所示。在本申请一实施方式中,所述命名实体识别模型采用标注好的训练样本进行训练后得到,包括以下步骤:
S11:采集数据;
在数据库中,储存着多个公司名称和公司职位,这些公司名称和公司职位以简介文本数据或数据进行存储,拉取以上数据用于后续的数据标注;
S12:对采集得到的数据进行标注;
在本实施例中,S12具体为:采用正则匹配的方式或者用第三方工具对步骤S11数据中的公司名称和公司职位进行标注。
其中,深度学习训练出的命名实体识别模型的好坏,很大程度上是由标注后的训练样本的质量决定的,由于具有定制化的完备的公司名称和公司职位的集合,使用正则匹配的方式配合灵活的标注策略对公司名称和公司职位进行标注的时候,会使得训练样本的集合具有很好的质量。
S13:对标注后的数据进行格式转换,将转换后的数据进行功能划分;
命名实体识别具有BIO,BIOES,BMES等不同的标注方法,通过序列处理程序将标注好的数据集转换为深度学习模型(此处为命名实体识别模型)可识别的数据格式;
在本实施例中,将转换后的数据进行功能划分具体包括:将转换后的数据分别划分成训练数据集合(训练集)、验证数据集合(验证集)和测试数据集合(测试集)。
S14:构建或选择待训练模型;
在深度学习中的命名实体识别领域,双向长短期记忆网络(BiLSTM)和条件随机场(CRF)组合而成的模型由于具有简单、高效、易于实现并行训练等被广泛采用。双向长短期记忆网络(BiLSTM)可以学习文本序列的语义信息包括正向和反向的,条件随机场可以学习到文本的特征转移特性,二者结合使用在通用的命名实体识别任务上具有可观的效果。本步骤的位置可以在S15之前的任何位置,此处仅为一个示例。
S15:根据划分后的数据对模型进行训练。
本实施例中,划分后的数据包括:训练数据,验证数据和测试数据,训练数据是用来训练模型中的参数,验证数据是为了选择模型中的超参数,测试数据则是为了测试模型在真实生产环境中的效果。
在本实施例中,数据输入模型之前,会经过文本处理程序将字符数据编码成模型可以直接利用的阿拉伯数字。通过观察模型训练过程中的 loss,acc等参数的大小,可以了解模型的训练效果。
通过以上实施方式,能够获取到识别效果更高的命名实体识别模型。
在本申请一实施方式中,将所述任职公司实体和所述公司职位实体进行组合,生成任职记录,包括:获取所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序;按照所述顺序遍历所述任职公司实体和所述公司职位实体,将任职公司实体进行缓存,将公司职位实体与缓存的任职公司实体组合成为预设格式的任职记录;被缓存的任职公司实体在被组合至少一次且下一个任职公司实体进入缓存时从缓存中被清除;所述一个预设格式的任职记录中包括一个任职公司实体和一个公司职位实体。
现有技术中均未提供标准的规则实现任职记录的组合和生成。本实施例依循原简介文本数据中的自然语言逻辑,对提取到的任职公司实体和公司职位实体进行预设的处理规则,从而使生成的任职记录的可解释性更强。
本实施方式将任职公司实体和公司职位实体的可能出现顺序分为以下多种情况,对其处理过程分别进行说明。情况一,公司职位实体之前未出现任何任职公司实体,则生成包括空值和该公司职位实体的任职记录;情况二,出现连续任职公司实体之后出现一个公司职位实体,则将该公司职位实体与连续任职公司实体分别组合,生成与任职公司实体数量相等的任职记录;情况三,不连续的一个任职公司实体之后出现连续公司职位实体,则将该任职公司实体与连续的公司职位实体分别组合,生成与公司职位实体数量相等的任职记录;情况四,连续任职公司实体之后出现连续的公司职位实体,则可视为情况二和情况三的组合,将每个任职公司实体和每个公司职位实体相互组合,形成多条任职记录。
例如:获取到的任职公司实体和公司职位实体的顺序为:(公司职位实体1,任职公司实体1,任职公司实体2,公司职位实体2,公司职位实体3,任职公司实体3,公司职位实体4),则生成以下多条任职记录:(空值,公司职位实体1)、(任职公司实体1,公司职位实体2)、(任职公司实体2,公司职位实体2)、(任职公司实体1,公司职位实体3)、(任职公司实体 2,公司职位实体3)和(任职公司实体3,公司职位实体4)。其中,任职公司实体1和任职公司实体2,公司职位实体2和公司职位实体3进行相互组合,能够生成4条任职记录。通过以上实施方式,能够对大量的任职公司实体和公司职位实体利用软件程序进行批量处理,快速生成可解释性更强的任职记录。
以下是采用命名实体识别模型和生成规则生成任职记录的步骤,接前述的步骤S15进行描述,包括:
S16:根据命名实体识别模型对简介文本数据进行数据标注;
在本实施例中,模型训练完成后得到命名实体识别模型,通过使用该模型对公司高管的简介文本数据进行数据标注,从而获取其中的任职公司实体和公司职位实体;
S17:存储获取的任职公司实体和公司职位实体;
在本实施例中,获取到任职公司实体和公司职位实体后,按照预设方式存储任职公司实体和公司职位实体;
具体的,按照顺序对任职公司实体进行遍历,遇到任职公司实体则进行缓存或存储,若该任职公司实体之后还是任职公司实体,则记录连续出现的任职公司实体,直到遇到一个公司职位实体;按照顺序对公司职位实体进行遍历,若该公司职位实体之后为公司职位实体,则记录连续出现的公司职位实体;
S18:按照预设格式对记录的任职公司实体和公司职位实体进行组合。
对S17中缓存的任职公司实体和公司职位实体进行组合,保证每一个任职公司实体都与每一个公司职位实体产出一条任职记录。
为了更好地说明S17至S18的执行结果,举例如下:
简介文本数据如下:张三:男,1963年出生,中国国籍,无境外永久居留权,复旦大学EMBA,高级工程师。1994年9月至2012年2月担任 A股份有限公司董事;1998年2月至2005年11月担任B集团股份有限公司副董事长、副总裁;2003年9月至2010年3月担任C通信股份有限公司董事长;2005年1月至2011年3月担任D文化传播有限责任公司董事长;2007年5月至2014年3月担任E科技股份有限公司董事长;2011年 10月至今担任F投资管理有限公司执行董事兼经理,2014年4月至今担任公司副董事长。
经本发明提供的方法处理后的结果为:
姓名:张三
出生日期:1963年
{'company':”,'job':'高级工程师'}
{'company':'A股份有限公司','job':'董事'}
{'company':'B集团股份有限公司','job':'副董事长'}
{'company':'B集团股份有限公司','job':'副总裁'}
{'company':'C通信股份有限公司','job':'董事长'}
{'company':'D文化传播有限责任公司','job':'董事长'}
{'company':'E科技股份有限公司','job':'董事长'}
{'company':'F投资管理有限公司','job':'执行董事'}
{'company':'F投资管理有限公司','job':'经理'}
{'company':'本公司','job':'副董事长'}。
在本申请一实施方式中,获取所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序,包括:根据所述数据标注,将简介文本数据中的任职公司实体和公司职位实体按序存储至队列或者数组中;根据所述任职公司实体和公司职位实体在所述队列或者数组的存储位置确定所述任职公司实体和公司职位实体的顺序。在实际的采用软件程序对任职公司实体和公司职位实体的处理过程中,可以采用队列或者数组等数据结构进行实现。首先建立空的队列或者数组,再通过遍历该具有数据标注的简介文本数据,依次提取任职公司实体和公司职位实体存储至队列或者数组中,以此得到体现任职公司实体和公司职位实体顺序的队列或者数组。
在本申请一实施方式中,所述生成方法还包括:对任职公司实体为空值的任职记录进行标注。当生成的任职记录为(空值,公司职位实体)时,需要对其标注,以提醒该条任职记录可能需要进行关注或进一步的处理。
图3示意性示出了根据本发明实施方式的基于实体抽取的任职记录生成装置的结构示意图,如图3所示。本实施方式提供了一种基于实体抽取的任职记录生成装置,包括:数据获取模块,用于获取简介文本数据;实体抽取模块,用于采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,并采用标注好的训练样本进行训练后得到;以及记录生成模块,用于将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。
上述的基于实体抽取的任职记录生成装置中的各个功能模块的具体限定可以参见上文中对于基于实体抽取的任职记录生成方法的限定,在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在本发明提供的一些实施方式中,还提供了一种基于实体抽取的任职记录生成设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的基于实体抽取的任职记录生成方法的步骤。此处的处理器具有数值计算和逻辑运算的功能,其至少具有数据处理能力的中央处理器CPU、随机存储器RAM、只读存储器ROM、多种I/O口和中断系统等。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现前述的方法。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
在本发明提供的一些实施方式中,还提供了一种计算机可读存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行前述的基于实体抽取的任职记录生成方法。
在本发明提供的一种实施方式中,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述的基于实体抽取的任职记录生成方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于实体抽取的任职记录生成方法,其特征在于,所述方法包括:
获取简介文本数据;
采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,且所述命名实体识别模型采用标注好的训练样本进行训练后得到;
将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。
2.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型中的双向长短期记忆网络采用预训练的语言表征模型网络进行替换。
3.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型采用标注好的训练样本进行训练后得到,包括:
采集简介文本数据的训练样本;
对所述训练样本中的任职公司和公司职位进行标注;
将标注后的训练样本转换为所述命名实体识别模型的适配数据格式,并将所述标注后的训练样本分为训练数据集合、验证数据集合和测试数据集合;
采用所述训练数据集合对所述命名实体识别模型进行训练,采用所述验证数据集合验证训练后的命名实体识别模型;采用所述测试数据集合评估所述训练后的命名实体识别模型。
4.根据权利要求1所述的方法,其特征在于,将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录,包括:
获取所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序;
按照所述顺序遍历所述任职公司实体和所述公司职位实体,将任职公司实体进行缓存,将公司职位实体与缓存的任职公司实体组合成为预设格式的任职记录;被缓存的任职公司实体在被组合至少一次且下一个任职公司实体进入缓存时从缓存中被清除;
所述一个预设格式的任职记录中包括一个任职公司实体和一个公司职位实体。
5.根据权利要求4所述的方法,其特征在于,将公司职位实体与缓存的任职公司实体组合成为预设格式的任职记录之前,所述方法还包括:
确定缓存中不存在任职公司实体,
将所述公司职位实体与空值的任职公司实体组合成为预设格式的任职记录。
6.根据权利要求4所述的方法,其特征在于,获取所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序,包括:
根据所述数据标注,将简介文本数据中的任职公司实体和公司职位实体按序存储至队列或者数组中;
根据所述任职公司实体和所述公司职位实体在所述队列或者数组中的存储位置确定所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:对任职公司实体为空值的预设格式的任职记录进行标注。
8.一种基于实体抽取的任职记录生成装置,其特征在于,包括:
数据获取模块,用于获取简介文本数据;
实体抽取模块,用于采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,且所述命名实体识别模型采用标注好的训练样本进行训练后得到;以及
记录生成模块,用于将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。
9.一种基于实体抽取的任职记录生成设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的基于实体抽取的任职记录生成方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行权利要求1至7中任一项权利要求所述的基于实体抽取的任职记录生成方法。
CN202111266091.XA 2021-10-28 2021-10-28 基于实体抽取的任职记录生成方法、装置及设备 Pending CN114048744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111266091.XA CN114048744A (zh) 2021-10-28 2021-10-28 基于实体抽取的任职记录生成方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111266091.XA CN114048744A (zh) 2021-10-28 2021-10-28 基于实体抽取的任职记录生成方法、装置及设备

Publications (1)

Publication Number Publication Date
CN114048744A true CN114048744A (zh) 2022-02-15

Family

ID=80206303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111266091.XA Pending CN114048744A (zh) 2021-10-28 2021-10-28 基于实体抽取的任职记录生成方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114048744A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN109948120A (zh) * 2019-04-02 2019-06-28 深圳市前海欢雀科技有限公司 一种基于二元化的简历解析方法
CN110471912A (zh) * 2019-07-23 2019-11-19 中国平安人寿保险股份有限公司 一种员工属性信息校验方法、装置及终端设备
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN111241302A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 职位信息图谱生成方法、装置、设备和介质
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
WO2021043085A1 (zh) * 2019-09-04 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN113095082A (zh) * 2021-04-15 2021-07-09 湖南四方天箭信息科技有限公司 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065374A1 (en) * 2018-08-23 2020-02-27 Shenzhen Keya Medical Technology Corporation Method and system for joint named entity recognition and relation extraction using convolutional neural network
CN109753909A (zh) * 2018-12-27 2019-05-14 广东人啊人网络技术开发有限公司 一种基于内容分块和BiLSTM模型的简历解析方法
CN109948120A (zh) * 2019-04-02 2019-06-28 深圳市前海欢雀科技有限公司 一种基于二元化的简历解析方法
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110471912A (zh) * 2019-07-23 2019-11-19 中国平安人寿保险股份有限公司 一种员工属性信息校验方法、装置及终端设备
WO2021043085A1 (zh) * 2019-09-04 2021-03-11 平安科技(深圳)有限公司 命名实体识别方法、装置、计算机设备及存储介质
CN111241302A (zh) * 2020-01-15 2020-06-05 北京百度网讯科技有限公司 职位信息图谱生成方法、装置、设备和介质
CN111737969A (zh) * 2020-07-27 2020-10-02 北森云计算有限公司 一种基于深度学习的简历解析方法和系统
CN113095082A (zh) * 2021-04-15 2021-07-09 湖南四方天箭信息科技有限公司 一种基于多任务模型进行文本处理的方法、装置、计算机装置及计算机可读取存储介质

Similar Documents

Publication Publication Date Title
US11348352B2 (en) Contract lifecycle management
US11860684B2 (en) Few-shot named-entity recognition
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN116152843B (zh) 合同模板待填写内容的类别识别方法、装置及存储介质
CN109885821A (zh) 基于人工智能的文章撰写方法及装置、计算机存储介质
CN110490304B (zh) 一种数据处理方法及设备
US9563847B2 (en) Apparatus and method for building and using inference engines based on representations of data that preserve relationships between objects
CN117591663B (zh) 一种基于知识图谱的大模型prompt生成方法
CN111339311A (zh) 基于生成式网络抽取结构化事件的方法、装置与处理器
CN113342935A (zh) 语义识别方法、装置、电子设备及可读存储介质
CN113220885A (zh) 一种文本处理方法和系统
CN108962228A (zh) 模型训练方法和装置
CN114048744A (zh) 基于实体抽取的任职记录生成方法、装置及设备
Shang et al. Deep learning generic features for cross-media retrieval
CN115640810A (zh) 一种电力系统通信敏感信息识别方法、系统及存储介质
CN115982363A (zh) 基于提示学习的小样本关系分类方法、系统、介质及电子设备
CN111475641B (zh) 一种数据抽取方法、装置、存储介质及设备
AU2019290658B2 (en) Systems and methods for identifying and linking events in structured proceedings
CN113515949A (zh) 使用一般和目标领域知识的弱监督语义实体识别
CN113139382A (zh) 命名实体识别方法及装置
CN112668332A (zh) 一种三元组抽取方法、装置、设备及存储介质
CN112417871B (zh) 一种基于神经网络模型的文本实体间关系预测方法
CN117648072A (zh) 应用设计方案的确定方法、装置以及电子设备
CN116468396B (zh) 一种基于意图分析模型的水利业务处理方法、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230731

Address after: Room 404-405, 504, Building B-17-1, Big data Industrial Park, Kecheng Street, Yannan High tech Zone, Yancheng, Jiangsu Province, 224000

Applicant after: Yancheng Tianyanchawei Technology Co.,Ltd.

Address before: 224000 room 501-503, building b-17-1, Xuehai road big data Industrial Park, Kecheng street, Yannan high tech Zone, Yancheng City, Jiangsu Province

Applicant before: Yancheng Jindi Technology Co.,Ltd.