CN115169349A - 基于albert的中文电子简历命名实体识别方法 - Google Patents

基于albert的中文电子简历命名实体识别方法 Download PDF

Info

Publication number
CN115169349A
CN115169349A CN202210760880.7A CN202210760880A CN115169349A CN 115169349 A CN115169349 A CN 115169349A CN 202210760880 A CN202210760880 A CN 202210760880A CN 115169349 A CN115169349 A CN 115169349A
Authority
CN
China
Prior art keywords
albert
chinese
word
sequence
electronic resume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210760880.7A
Other languages
English (en)
Inventor
余丹丹
黄洁
党同心
张克
王硕
熊芳勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information Engineering University of PLA Strategic Support Force
Original Assignee
Information Engineering University of PLA Strategic Support Force
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information Engineering University of PLA Strategic Support Force filed Critical Information Engineering University of PLA Strategic Support Force
Priority to CN202210760880.7A priority Critical patent/CN115169349A/zh
Publication of CN115169349A publication Critical patent/CN115169349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于计算机技术领域,特别涉及一种基于ALBERT的中文电子简历命名实体识别方法,利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取,将中文字符映射为融合字特征、位置特征和文本特征的字向量;通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;学习特征矩阵中相邻标签之间的依赖关系,并通过设置标签之间转移的约束条件来获取全局最优标签序列。本发明利用ALBERT模型来实现电子简历中文字符特征的提取,能够减少计算参数,加快训练速度;并进一步利用BiLSTM提取上下文语义信息,通过CRF学习标签之间以来关系来获取全局最优标签序列,具有较好的鲁棒性和实用性。

Description

基于ALBERT的中文电子简历命名实体识别方法
技术领域
本发明属于计算机技术领域,特别涉及一种基于ALBERT的中文电子简历命名实体识别 方法。
背景技术
大数据和互联网技术的发展为人们的生活带来了便捷,网络招聘与在线简历投递已成为 当下人们寻求职务的主流方式,各大企业的人力资源部门会收到海量电子简历,如何快速高 效的从这些电子简历中提取出企业感兴趣的关键信息是一个亟待解决的问题。电子简历属于 文本信息,命名实体识别可以自动从大量的非结构化文本信息中抽取出事先定义好的实体类 型。不同于通用领域的实体识别只分辨出组织、时间和位置,电子简历信息中包含的实体类 型更丰富,且较为统一,实体识别难度更高。
目前电子简历命名实体识别(Named Entity Recognition,NER)的研究方法主要有三种:基 于规则和词典匹配的方法、基于统计机器学习的方法以及基于深度学习的方法。基于规则和 词典匹配的方法是由领域专家设计实体抽取规则,然后根据规则生成涵盖实体的词典,进而 对文本中的实体进行抽取。该方法只要有完整合理的语言规则或词典,就能取得良好的效果。 基于统计机器学习的方法将NER任务转换为将简历中的实体分配特定类型标签。通过分析语 料库特点,人工选定特征建立统计学习模型,在大规模语料上进行训练来完成实体标注。常 用的统计学习模型有最大熵模型(Maximum Entropy Model,MEM)、隐马尔可夫模型(Hidden Markov Model,HMM)和条件随机场(Conditional RandomField,CRF)等。当下,深度学习方法 被广泛应用到命名实体识别任务中,其以低人工参与度和高识别准确率的优势迅速在NER任 务中占领了主要地位。其中,基于规则和词典匹配的方法依赖于专家经验,规则和词典的开 发不仅需要丰富的专业知识,而且极其耗时费力,在字典中完整列出所有规则或定义所有相 关实体概念也是相当困难的,这极大地限制了此类方法的识别效果和迁移能力;基于统计机 器学习的方法虽然能解决基于规则和词典匹配方法的问题,但仍旧需要准确的特征工程和庞 大的语料库;基于深度学习的BERT模型仍存在一些弊端,其具有大量的模型参数,对于模型 训练,其有效性依赖于较大的数据量和较长的时间。在某些特定领域,文本数据获取困难, 标注成本大,BERT模型的效果便不再理想。
发明内容
为此,本发明提供一种基于ALBERT的中文电子简历命名实体识别方法,使用较少的模 型参数和较短的训练时间达到更优的电子简历命名实体识别性能,便于实际场景应用。
按照本发明所提供的设计方案,提供一种基于ALBERT的中文电子简历命名实体识别方 法,包含如下内容:
利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取,将中文字符映射 为融合字特征、位置特征和文本特征的字向量;
通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;
学习特征矩阵中相邻标签之间的依赖关系,并通过设置标签之间转移的约束条件来获取 全局最优标签序列。
作为本发明基于ALBERT的中文电子简历命名实体识别方法,进一步地,ALBERT模型 包含字嵌入层和编码层,其中,针对输入的中文字符序列,字嵌入层通过查询词汇表将每个 字符转换为字向量,并利用文本向量区分不同句子,位置向量区分输入字符序列的时序性, 将字向量、文本向量和位置向量进行相加;并利用编码层对三向量相加的结果进行训练学习 获取融合字特征、位置特征和文本特征的字向量。
作为本发明基于ALBERT的中文电子简历命名实体识别方法,进一步地,ALBERT模型 采用O(V×H)→O(V×E+E×H)当H>>E的因式分解过程来设置字向量维度,其中,E表示字 向量大小,H表示隐藏层大小,V表示词汇表大小,模型参数规模由O(V×H)转换为 O(V×E+E×H)。
作为本发明基于ALBERT的中文电子简历命名实体识别方法,进一步地,ALBERT模型 中共享全连接层和注意力层的全部参数,其中,共享参数过程表示为 O(12×L×H×H)→O(12×H×H),L为隐藏层数量,H表示隐藏层大小。
作为本发明基于ALBERT的中文电子简历命名实体识别方法,进一步地,ALBERT模型 中利用注意力机制将每个字向量分解为Q、K、V三个子向量,利用每个字符的Q子向量与上下文字符的子向量K、子向量V,通过子向量之间的点乘运算使字符融合上下文语义信息。
作为本发明基于ALBERT的中文电子简历命名实体识别方法,进一步地,子向量之间的 点乘运算表示为Attention(Q,K,V)=Softmax(QKT/dk -1/2)V,其中,dk表示字向量维。
作为本发明基于ALBERT的中文电子简历命名实体识别方法,进一步地,ALBERT模型 中利用多头注意力机制从不同角度计算输入中文字符之间的相似度,进而依据相似度来获取 每个中文字符的动态字向量。
作为本发明基于ALBERT的中文电子简历命名实体识别方法,进一步地,利用BiLSTM 提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;并通过条件随机场CRF学习 特征矩阵中相邻标签之间的依赖关系来获取全局最优标签序列。
作为本发明基于ALBERT的中文电子简历命名实体识别方法,进一步地,CRF中,利用 标签转移矩阵来生成标签序列概率,并通过对标签序列概率进行归一化处理来获取标签序列 条件概率;对于给定的训练样本,利用训练样本的对数似然函数的最大化求解来获取输入中 文字符的最优标签序列。
作为本发明基于ALBERT的中文电子简历命名实体识别方法,进一步地,训练样本p(y,x) 的对数似然函数表示为:
Figure BDA0003724239670000031
其中,yk表示预设标签组合中第 k个正确标签序列。
本发明的有益效果:
本发明利用ALBERT模型来实现电子简历中文字符特征的提取,能够减少计算参数,加 快训练速度;并进一步利用BiLSTM提取上下文语义信息,通过CRF学习标签之间以来关系 来获取全局最优标签序列,具有较好的鲁棒性和实用性。
附图说明:
图1为实施例中基于ALBERT的中文电子简历命名实体识别流程示意;
图2为实施例中ALBERT嵌入层示意;
图3为实施例中整体模型框架示意;
图4为实施例中LSTM单元结构示意。
具体实施方式:
为使本发明的目的、技术方案和优点更加清楚、明白,下面结合附图和技术方案对本发 明作进一步详细的说明。
针对现有电子简历实体识别准确率低,采用BERT预训练语言模型虽能取得较高的准确 率,但BERT模型参数量过大,训练时间长,其实际应用场景受限等的情形,本发明实施例, 参见图1所示,提供一种基于ALBERT的中文电子简历命名实体识别方法,包含如下内容:
S101、利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取,将中文字 符映射为融合字特征、位置特征和文本特征的字向量;
S102、通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;
S103、学习特征矩阵中相邻标签之间的依赖关系,并通过设置标签之间转移的约束条件 来获取全局最优标签序列。
本案实施例中,利用ALBERT模型来实现电子简历中文字符特征的提取,能够减少计算 参数,加快训练速度。
进一步地,ALBERT模型包含字嵌入层和编码层,其中,针对输入的中文字符序列,字 嵌入层通过查询词汇表将每个字符转换为字向量,并利用文本向量区分不同句子,位置向量 区分输入字符序列的时序性,将字向量、文本向量和位置向量进行相加;并利用编码层对三 向量相加的结果进行训练学习获取融合字特征、位置特征和文本特征的字向量。
基于ALBERT模型的字嵌入实现对语料集中字的向量化表达,参见图2所示,分为两个 部分:一部分为字嵌入层,即图中的xt→Dt;另一部分为Transformer的编码层,即图中的Trm;字嵌入层首先通过查询词汇表将每个字符转换为字向量,即将文本序列表示为 x={x1,x2,…,xn},此外,还有文本向量和位置向量,文本向量用来区分输入的不同句话,分别用0和1表示,位置向量表示输入序列的时序性,然后三特征向量相加形成Dt,最后通过多层Transformer(Trm)训练学习得到特征向量Ht,Ht融合了字特征、位置特征以及文本特征,是充分学习了上下文信息的字向量。与现有BERT模型相比,本案实施例中的ALBERT可采 用嵌入向量参数因式分解、跨层参数共享等方法,能够进一步有效减少计算参数,加快训练速度。
在BERT模型中,词向量维度与隐藏层向量维度是相等的,但这种设置并不合理,词向 量仅包含词的信息,而隐藏层向量学习了上下文语义,融合了词向量特征、文本特征以及位 置特征,包含了更多的信息,且若训练词表过大,会造成模型达到数亿甚至数十亿的参数量, 这对硬件设备的计算能力是极高的挑战。因此,本案实施例中的ALBERT模型采用因式分解 的方式来降低参数量,被映射到低维空间的one-hot向量通过高维矩阵分配到高维空间,如公 式(1)所示,以此来减少参数量。例如,在ALBERT-base模型中,词向量大小等于128,则总 参数量为12M,当词向量大小等于768时,BERT-base的总参数量为108M。表1展示了在 进行嵌入向量参数因式分解后BERT与ALBERT不同版本下的参数量对比。
O(V×H)→O(V×E+E×H)当H>>E (1)
式中,E表示词向量大小,H表示隐藏层大小,V表示词表大小,模型参数规模由 O(V×H)转换为O(V×E+E×H),当H>>E时,参数量显著降低。
表1 BERT和ALBERT模型的参数分析
Figure BDA0003724239670000041
Figure BDA0003724239670000051
进一步地,本案实施例中的ALBERT采用跨层参数共享的方式来进一步减少参数量以及 提升模型稳定性。通过共享全连接层和注意力层的全部参数使训练速度大幅度提高,模型效 果稍有降低。如公式(2)所示。
O(12×L×H×H)→O(12×H×H) (2)
式中,L为隐藏层数量,共享隐藏层参数后,参数量从O(12×L×H×H)降为O(12×H×H)。
为了弥补由于参数减少而造成的性能损失,本案实施例中的ALBERT可将BERT模型采 用的NSP(Next Sentence Prediction)训练任务替换为SOP(Sentence-OrderPrediction)。因为, NSP包含了主题预测和关系连贯性预测两个训练任务,主题预测较为简单,容易造成了下游 任务性能的降低。本案中的ALBERT则只保留了关系连贯性预测,正样本和NSP任务中的 正样本相同,为同一篇文章中两个顺序相连的句子,负样本则通过调换正样本中两个句子的 顺序来获得。
ALBERT模型实为双向多层Transformer的编码结构,Transformer的核心为注意力机制, 首先将每个字向量分解为Q(Query),K(Key),V(Value)三个子向量,使每个字符的Q与上下文字符的K点乘,计算相似度权重,再点乘V,使该字符融合了上下文语义信息。具 体计算公式可如(3)所示。
Attention(Q,K,V)=Softmax(QKT/dk -1/2)V (3)
其中,Q,K,V表示输入文本经过变换后的输入矩阵,dk表示字向量维度,为避免当字向 量维度过大时SoftMax操作后梯度变小的现象,使QKT的点乘结果除以缩放因子
Figure BDA0003724239670000052
为了扩展模型关注不同位置的能力,可通过增加注意单元的“表示子空间”,Transformer 采用“多头(MultiHead)”模式,公式如(4)和(5)所示:
headi=Attention(QWi Q,KWi K,VWi V) (4)
MultiHead(Q,K,V)=Concat(head1,…,headk)Wo (5)
式中,Wi Q、Wi K、Wi V分别表示第i个head的Q、K、V,Wo表示输出矩阵。
进一步地,本案实施例中的ALBERT通过Transformer中的多头注意力机制从不同角度 计算输入字符之间的相似度,以此获得每个字符的动态词向量作为BiLSTM层的输入。
参见图3所示,ALBERT层的输入为n个字序列,在ALBERT层将输入的每个字符映射为字向量,通过对输入文本进行特征提取,输出为融合了字特征、位置特征和文本特征的字向量Ht;利用BiLSTM提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;并通过条件随机场CRF学习特征矩阵中相邻标签之间的依赖关系来获取全局最优标签序列。其中, BiLSTM层为正向
Figure BDA0003724239670000061
和反向
Figure BDA0003724239670000062
的组合,字向量序列Ht经 过该层提取出上下文语义信息,并得到特征矩阵Pt;CRF层通过学习标签之间的依赖关系, 为标签之间的转移添加约束条件,最终获取全局最优标签序列。
为避免远距离依赖问题,本案实施例可采用双向LSTM(Long Short-Term Memory,LSTM) 网络学习上下文语义信息,LSTM通过引入门的机制控制信息的记忆和遗忘比例。LSTM的 隐藏层由特殊的存储单元组成。每个单元包含四个部分:循环记忆单元、处理输入信息的输 入门、控制输出信息的输出门和丢弃不重要信息的遗忘门。对于每个位置t,LSTM用输入向 量Ht和前一个状态Pt-1计算当前隐藏状态Pt。LSTM单元结构如图4所示。其计算公式如式(6) ~式(11)所示:
Figure BDA0003724239670000063
Figure BDA0003724239670000064
Figure BDA0003724239670000065
Figure BDA0003724239670000066
Figure BDA0003724239670000067
Figure BDA0003724239670000068
其中,
Figure BDA0003724239670000069
分别表示t时刻的遗忘门、输出门、输入门和记忆单元状态。
Figure BDA00037242396700000610
为待学习的权重矩阵,bf,bo,bi,bc代表各个门控单元的偏 置向量。σ()和tanh()为不同神经单元的激活函数。
在自然语言处理问题中,每个词都受到其前后词的影响,考虑文本的上下文信息对当前 词状态的判断具有重要意义。因此,本案实施例可采用BiLSTM进行特征提取。BiLSTM模 块可以同时考虑句子中每个字符的上下文信息,并将其结合起来,得到更全面的表示。BiLSTM 模块从嵌入层接收输入向量H=[H1,…,Hn],进一步获取文本的序列信息,学习文本的上下文 特征,经过正向
Figure BDA0003724239670000071
和反向
Figure BDA0003724239670000072
对信息融合后,返回另一 个n维序列P=[P1,…,Pn],与输入序列的每一步输入信息相对应。Pt的最终表示如公式(12)所 示。
Figure BDA0003724239670000073
本案实施例中,进一步地,CRF中,利用标签转移矩阵来生成标签序列概率,并通过对 标签序列概率进行归一化处理来获取标签序列条件概率;对于给定的训练样本,利用训练样 本的对数似然函数的最大化求解来获取输入中文字符的最优标签序列。
CRF层的作用为学习标签间的转移矩阵,降低错误标签出现的概率。BiLSTM层可以通 过softmax函数获取输入字符在各个标签类型下的得分,但是,softmax层输出的标签得分是 相互独立的,会出现一些非法的情况。例如,姓名的开头词B-NAME后面跟着籍贯的非开头 词I-LOC等。CRF层可以利用相邻标签之间的依赖信息进行句子级标签标注,通过添加标签 的转移分数矩阵计算出整体序列的最优解,得到全局最优标签。
以序列P=[P1,P2,…,Pn]为输入,CRF层利用过去和未来标签预测出最可能的标签序列 y=(y1,y2,…,yn),定义转移矩阵
Figure BDA0003724239670000074
其中lij表示从标签i转移到标签j的概率,则产 生标记序列y=(y1,y2,…,yn)的概率为:
Figure BDA0003724239670000075
对于p(x,y)使用Soft max函数做归一化,则得到标记序列y的条件概率为:
Figure BDA0003724239670000076
假设所有的标签组合为Y,yj′∈Y表示Y中第j个正确标签序列。则对于给定的训练样本p(y,x) 的对数似然为:
Figure BDA0003724239670000077
训练时通过使用维特比算法最大化对数似然函数得到针对输入序列x=(x1,x2,…,xn)的最优标签 序列:
Figure BDA0003724239670000081
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和 数值并不限制本发明的范围。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技 术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进 行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发 明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变 化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术 方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。 因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种基于ALBERT的中文电子简历命名实体识别方法,其特征在于,包含如下内容:
利用已训练的ALBERT模型对输入的电子简历中文字符进行特征提取,将中文字符映射为融合字特征、位置特征和文本特征的字向量;
通过提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;
学习特征矩阵中相邻标签之间的依赖关系,并通过设置标签之间转移的约束条件来获取全局最优标签序列。
2.根据权利要求1所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,ALBERT模型包含字嵌入层和编码层,其中,针对输入的中文字符序列,字嵌入层通过查询词汇表将每个字符转换为字向量,并利用文本向量区分不同句子,位置向量区分输入字符序列的时序性,将字向量、文本向量和位置向量进行相加;并利用编码层对三向量相加的结果进行训练学习获取融合字特征、位置特征和文本特征的字向量。
3.根据权利要求1或2所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,ALBERT模型采用O(V×H)→O(V×E+E×H)当H>>E的因式分解过程来设置字向量维度,其中,E表示字向量大小,H表示隐藏层大小,V表示词汇表大小,模型参数规模由O(V×H)转换为O(V×E+E×H)。
4.根据权利要求1或2所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,ALBERT模型中共享全连接层和注意力层的全部参数,其中,共享参数过程表示为O(12×L×H×H)→O(12×H×H),L为隐藏层数量,H表示隐藏层大小。
5.根据权利要求1所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,ALBERT模型中利用注意力机制将每个字向量分解为Q、K、V三个子向量,利用每个字符的Q子向量与上下文字符的子向量K、子向量V,通过子向量之间的点乘运算使字符融合上下文语义信息。
6.根据权利要求5所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,子向量之间的点乘运算表示为Attention(Q,K,V)=Softmax(QKT/dk -1/2)V,其中,dk表示字向量维。
7.根据权利要求1或6所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,ALBERT模型中利用多头注意力机制从不同角度计算输入中文字符之间的相似度,进而依据相似度来获取每个中文字符的动态字向量。
8.根据权利要求1所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,利用BiLSTM提取字向量序列中的上下文语义信息来获取电子简历特征矩阵;并通过条件随机场CRF学习特征矩阵中相邻标签之间的依赖关系来获取全局最优标签序列。
9.根据权利要求8所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,CRF中,利用标签转移矩阵来生成标签序列概率,并通过对标签序列概率进行归一化处理来获取标签序列条件概率;对于给定的训练样本,利用训练样本的对数似然函数的最大化求解来获取输入中文字符的最优标签序列。
10.根据权利要求1所述的基于ALBERT的中文电子简历命名实体识别方法,其特征在于,训练样本p(y,x)的对数似然函数表示为:
Figure FDA0003724239660000021
其中,y′k表示预设标签组合中第k个正确标签序列。
CN202210760880.7A 2022-06-30 2022-06-30 基于albert的中文电子简历命名实体识别方法 Pending CN115169349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210760880.7A CN115169349A (zh) 2022-06-30 2022-06-30 基于albert的中文电子简历命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210760880.7A CN115169349A (zh) 2022-06-30 2022-06-30 基于albert的中文电子简历命名实体识别方法

Publications (1)

Publication Number Publication Date
CN115169349A true CN115169349A (zh) 2022-10-11

Family

ID=83489596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210760880.7A Pending CN115169349A (zh) 2022-06-30 2022-06-30 基于albert的中文电子简历命名实体识别方法

Country Status (1)

Country Link
CN (1) CN115169349A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116976351A (zh) * 2023-09-22 2023-10-31 之江实验室 基于学科实体的语言模型构建方法以及学科实体识别装置
CN117933259A (zh) * 2024-03-25 2024-04-26 成都中医药大学 基于局部文本信息的命名实体识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116976351A (zh) * 2023-09-22 2023-10-31 之江实验室 基于学科实体的语言模型构建方法以及学科实体识别装置
CN116976351B (zh) * 2023-09-22 2024-01-23 之江实验室 基于学科实体的语言模型构建方法以及学科实体识别装置
CN117933259A (zh) * 2024-03-25 2024-04-26 成都中医药大学 基于局部文本信息的命名实体识别方法

Similar Documents

Publication Publication Date Title
Chang et al. Chinese named entity recognition method based on BERT
CN112989834B (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
Zhang et al. A text sentiment classification modeling method based on coordinated CNN‐LSTM‐attention model
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
CN113239700A (zh) 改进bert的文本语义匹配设备、系统、方法及存储介质
CN113010693A (zh) 融合指针生成网络的知识图谱智能问答方法
CN111914556B (zh) 基于情感语义转移图谱的情感引导方法及系统
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
Hu et al. Considering optimization of English grammar error correction based on neural network
CN111191464A (zh) 基于组合距离的语义相似度计算方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
US20230259708A1 (en) System and methods for key-phrase extraction
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN113076718B (zh) 一种商品属性抽取方法及其系统
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
CN114969343B (zh) 结合相对位置信息的弱监督文本分类方法
Cai et al. Multi-view and attention-based bi-lstm for weibo emotion recognition
CN115169429A (zh) 一种轻量化方面级文本情感分析方法
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质
Xin et al. Automatic annotation of text classification data set in specific field using named entity recognition
Aggarwal et al. Text sequence modeling and deep learning
Wu et al. A Text Emotion Analysis Method Using the Dual‐Channel Convolution Neural Network in Social Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination