CN109710930A - 一种基于深度神经网络的中文简历解析方法 - Google Patents
一种基于深度神经网络的中文简历解析方法 Download PDFInfo
- Publication number
- CN109710930A CN109710930A CN201811566222.4A CN201811566222A CN109710930A CN 109710930 A CN109710930 A CN 109710930A CN 201811566222 A CN201811566222 A CN 201811566222A CN 109710930 A CN109710930 A CN 109710930A
- Authority
- CN
- China
- Prior art keywords
- word
- sequence
- information
- resume
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
为了解决传统简历解析方法效率低、泛化能力差、成本高等缺点,提出了一种基于深度神经网络的中文简历解析方法。首先采用基于注意力机制的BLSTM神经网络模型对字根以及字序列进行建模,获得包含字内部信息以及字序列信息的特征向量;然后采用BLSTM‑CRF模型对特征进行学习,进而提取出文本简历中的特征,最终解析出简历中的信息元。
Description
技术领域
本发明涉及中文简历解析方法自然语言处理领域,特别涉及基于ABLSTM-CRF的中文简历解析方法
背景技术
现代信息技术和存储技术的快速发展以及互联网的迅速蔓延,形成了巨大的信息海洋,为人们提供了一个触手可及的知识来源,给我们的生活带来了极大的便利。基本上可以说,互联网正在以前所未有的速度改变着人们的生产生活方式。同时引起人们注意的是,在这随着信息不断汇聚而成的汪洋大海中,人们要准确高效地找到想要的信息就好像大海捞针一样,变得越来越耗时耗力。特别是每年的招聘季,企业HR在对海量纷繁复杂格式自由的简历文本进行筛选审查无疑是头疼的。此外证券市场监管机构要从招股书中的董监高简介信息中抽取简历信息用于市场监管,依靠传统人工抽取审查,或者是基于规则模板的抽取方法,显然这两种方法效率低且成本高。研发智能高效的简历解析技术从文本简历中抽取出人物的基本信息元对人物信息数据库的构建,社会行为预测,社会关系网络链接,人才管理,市场监管是极其重要的。与此同时,这个技术可以延伸至电子病历信息元的抽取、产品说明信息解析、微博信息抽取等医疗、社交领域。
发明内容
针对传统的简历解析主要有两种典型的方法,基于规则模版的简历解析和基于统计的简历解析。基于规则的模版的简历解析技术能够很好的把简历信息元抽取,准确率高,但是每个规则模版只能应用到同一模版的文本简历中;基于统计的信息抽取要求用户输入一定量的数据,然后通过规律、分类、聚类等人工只能和数据挖掘的方法进行解析,他减少了用户维护模版的代价。但是也要准备大量的数据,而且准确率一定程度上跟数据的选取和数量有关。
针对此缺点,提出利用ABLSTM-CRF深度神经网络模型来对简历进行解析,使得从大规模的复杂信息中抽取有用信息成为可能。主要分为三个步骤:
步骤101:构建基于深度神经网络的中文简历解析框架;
步骤102:构建基于注意力机制的BLSTM深度神经网络模型,对词进行向量表示;
步骤103:构建BLSTM-CRF解析中文简历。
优先地,所述步骤101构建基于深度学习的中文简历解析框架包括:
传统的简历解析方法主要是基于规则、基于统计、基于浅层神经网络,不足以达到大批量处理无规则的简历,因此本文采用深度学习框架来对简历进行解析;
本文主要研究的是采用深度神经网络对简历进行解析,该方法主要是利用深度神经网络具有主动学习特征的能力,进而获得相应的特征,然后根据特征对相应的信息元进行标注。
优先地,所述步骤102采用基于注意力机制的BLSTM深度神经网络模型框架获取相应特征表征,解决目标问题包括:基于深度学习模型的任务中,无论采用英文数据集还是中文数据集,对词进行向量表示这是必不可少的步骤,词表示的好坏将直接影响到模型对简历信息元标注结果的好坏,对于中文的简历解析中,很大程度上都选择采用的特征表征的方法是词向量表示方法,词向量的表示方法一般都用的是主流的Glove和Word2Vec工具,这样的特征表征只能学习有限的特征信息。
针对此缺陷,提出了使用基于注意力机制的BLSTM模型对词进行向量表示,利用BLSTM的门机制,采用BLSTM对中文文字的词根进行建模,然后将获得的包含词根信息的字向量再进行一次序列建模,使得词向量获得相应的字序列信息和词根信息,为了更好的进行一个向量表示,在BLSTM的串联的时候引入注意力机制(ABLSTM),更好对前向LSTM和后向LSTM的输入进行权重串联,获得一个更好的词向量表示。
采用基于ABLSTM模型对词向量进行表示,主要分为两个步骤:
①数据集:提供训练数据集、验证数据集、测试数据集;
②ABLSTM:基于注意力机制的双向长短时记忆神经网络模型,基于注意力机制来对词根序列和字序列进行向量表示,获得一个更好的向量表示;
具体如下:
采用了一个新的词向量表示方法,即使用ABLSTM模型对向量进行表示,首先将词语进行分词,然后拆分成单个字,然后将字拆分成其象形词根,利用BLSTM对象形词根进行建模,获得包含字内部信息的字向量,然后再利用BLSTM对字进行建模,获得包含字序列信息的词向量,此方法可以更好的对词进行向量表示。
对于给定一个包含n个字的非结构化文本简历字序列:
Char=(char1,...,charn)
将序列进行词根拆分,然后输入到双向LSTM神经网络模型中,利用BLSTM对词根进行建模,获得一个包含字内部信息的字向量,然后再利用双向LSTM的前向LSTM对字序列进行建模生成一个包含字序列以及字序列上文信息的向量表示CharFi,同理后向LSTM反向读取字序列,将字序列以及字序列的下文信息表示为CharBi,然后将CharFi和CharBi连接形成一个包含字序列以及上下文信息的词表示:
Wd=[CharFi:CharBi]
此表示方法获得了字序列与词语之间的关系,与主流的Stanford的Glove和Google的Word2Vec相比,此方法对模型性能具有一个显著的提升。此方法可应用于其他需词表示的深度神经网络模型中。
优先地,所述步骤103构建BLSTM-CRF解析中文简历,具体由两个主要步骤组成包括:由步骤102获得词向量表示、基于BLSTM-CRF模型对中文简历进行解析。
经过BLSTM对非结构化文本简历的字序列进行建模之后,获得一个包含字序列信息的中文词语序列:
Wd=(wd1,...,wdi)
将词序列输入到BLSTM神经网络中,利用BLSTM中的前向LSTM将词wdi及其上文信息表示为WordFi,同理利用后向LSTM将词wdi及其上文信息表示为WordBi,最终将BLSTM的前向LSTM输出结果和后向LSTM的输出结果级联起来形成一个新的特征表示ht=[WordFi:WordBi],ht直接作为特征来为每个输出yt做出独立的标记决策,此方法有效的将词及其上下文信息用向量表示,此方法有效的将词及其上下文信息用向量表示;
在本文的非结构化文本简历信息解析任务中,输出标签之间有一个非常强的依赖关系。例如:B-org.company标签的后面不能跟着I-gsp.company或除I-org.company以外的其他标签。因此为了建模标签的依赖关系,本文采用CRF来建模整个句子的输出标签。假定得到非结构化文本简历信息的输出目标序列(即对应的标签序列)为:
y=(y1,...,yn)
为了有效的获得非结构化文本简历信息的目标序列,模型的分值公式定义如下:
其中P表示的是双向LSTM的输出分值矩阵,其大小为n×k,k表示的是目标标签的数量,n表示词序列的长度。A表示的是转移分值矩阵。y0和yn+1分别表示的是一个序列的开始和结束的标志,因此A方阵的大小为k+2;
在所有简历信息的标签序列上,CRF生成目标序列y的概率为:
其中YX代表简历信息序列X对应的所有可能标签序列;
在训练过程中,为了获得简历信息正确的标签序列,将采用最大化正确标签序列的条件似然对数概率:
由上述的表述可以看出本文训练神经网络是为了尽可能输出非结构化简历信息有效的标签序列。因此如下公式给出的最大分值公式用于预测最合适的标签序列:
因为是对输出之间的相互作用进行建模因此采用动态规划的方法计算件似然对数概率公司中的求和以及最大分值公式中的最大后验序列y*。
最终获得中文简历中所需要关注的信息元的实体标签,然后根据信息元的实体标签,解析出相应的中文简历中所需要关注的信息元。
附图说明
图1本发明所使用的基于深度学习的中文简历解析框架;
图2本发明所提基于ABLSTM的词向量表示示意图;
图3本发明所使用的BLSTM-CRF示意图;
具体实施方式
为使本发明的目的、技术方案和优点表达得更加清楚明白,下面结合附图及具体实施案例对本发明做进一步详细说明。
图1本发明所使用的基于深度学习的中文简历解析框架,具体包括:
采用深度学习学习框架即ABLSTM-CRF模型对中文简历进行解析,对文本简历进行标注标签,然后根据标签信息,将文本简历中的信息元根据标签处理成相应格式进行存储。
图2是本发明所提基于ABLSTM的词向量表示示意图,包括以下步骤:
本文采用基于ABLSTM对词进行向量表示,主要分为两个步骤:
①数据集:提供训练数据集,验证数据集,测试数据集;
②ABLSTM:基于注意力机制的双向长短时记忆神经网络模型,基于注意力机制来对词根序列和字序列进行向量表示,获得一个更好的向量表示;
具体如下:
首先,对获得的简历信息的数据文本D={D_1…D_n},其中D_n表示第n个数据文本。然后对简历数据文本D={D_1…D_n}进行处理:
1.对文档中的文字利用分词模型进行分词,得到一个个词Word={word_1……word_n},其中word_n表示第n个字。
例如:为了让大家更好地模拟真实考场,我们完全仿照真题样式设计了这套“大黑”哟!
分词后得到的结果是:为了/让/大家/更好/地/模拟/真实/考场/,/我们/完全/仿照/真题/样式//设计了/这/套/“/大/黑/”/哟/!/
2.对文档中的文字利用分字代码进行分字,得到一个个单字Char={char_1……char_n},其中char_n表示第n个字。
例如:为了让大家更好地模拟真实考场,我们完全仿照真题样式设计了这套“大黑”哟!
字分割后得到的结果是:为/了/让/大/家/更/好/地/模/拟/真/实/考/场/,/我/们/完/全/仿/照/真/题/样/式/设/计/了/这/套/“/大/黑/”/哟/!/
同时对字的组成部分进行拆分,得到他的组成部分Pict={pict_1……pict_n},其中pict_n表示的字的组成部分。
3.同时对字的组成部分进行拆分,得到他的组成部分Pict={pict_1……pict_n},其中pict_n表示的字的组成部分。
例如:朝/明
其象形词根组成部分分割得到的是:十/日/十/月/日/月
然后,用BLSTM对词根进行建模,获得一个包含字内部信息的字向量,然后再利用双向LSTM的前向LSTM对字序列进行建模生成一个包含字序列以及字序列上文信息的向量表示CharFi,同理后向LSTM反向读取字序列,将字序列以及字序列的下文信息表示为CharBi,然后将CharFi和CharBi连接形成一个包含字序列以及上下文信息的词表示:
Wd=[CharFi:CharBi]
此表示方法获得了字序列与词语之间的关系,与主流的Stanford的Glove和Google的Word2Vec相比,此方法对模型性能具有一个显著的提升。此方法可应用于其他需词表示的深度神经网络模型中。
图3本发明所使用的BLSTM-CRF示意图;
由图2模型进行序列建模生成一个包含字序列信息和字内部信息的词向量,然后输入到图3模型中进行简历解析。
具体如下:
由ABLSTM对非结构化文本简历的字序列进行建模之后,获得一个包含字序列信息的中文词语序列:
Wd=(wd1,...,wdi)
将词序列输入到BLSTM神经网络中,利用BLSTM中的前向LSTM将词wdi及其上文信息表示为WordFi,同理利用后向LSTM将词wdi及其上文信息表示为WordBi,最终将BLSTM的前向LSTM输出结果和后向LSTM的输出结果级联起来形成一个新的特征表示ht=[WordFi:WordBi],ht直接作为特征来为每个输出yt做出独立的标记决策,此方法有效的将词及其上下文信息用向量表示,此方法有效的将词及其上下文信息用向量表示;
在本文的非结构化文本简历信息解析任务中,输出标签之间有一个非常强的依赖关系。例如:B-org.company标签的后面不能跟着I-gsp.company或除I-org.company以外的其他标签。因此为了建模标签的依赖关系,本文采用CRF来建模整个句子的输出标签。假定得到非结构化文本简历信息的输出目标序列(即对应的标签序列)为:
y=(y1,...,yn)
为了有效的获得非结构化文本简历信息的目标序列,模型的分值公式定义如下:
其中P表示的是双向LSTM的输出分值矩阵,其大小为n×k,k表示的是目标标签的数量,n表示词序列的长度。A表示的是转移分值矩阵。y0和yn+1分别表示的是一个序列的开始和结束的标志,因此A方阵的大小为k+2;
在所有简历信息的标签序列上,CRF生成目标序列y的概率为:
其中YX代表简历信息序列X对应的所有可能标签序列;
在训练过程中,为了获得简历信息正确的标签序列,将采用最大化正确标签序列的条件似然对数概率:
由上述的表述可以看出本文训练神经网络是为了尽可能输出非结构化简历信息有效的标签序列。因此如下公式给出的最大分值公式用于预测最合适的标签序列:
因为是对输出之间的相互作用进行建模因此采用动态规划的方法计算件似然对数概率公司中的求和以及最大分值公式中的最大后验序列y*。
最终获得中文简历中所需要关注的信息元的实体标签,然后根据信息元的实体标签,解析出相应的中文简历中所需要关注的信息元,根据规则处理成统一的格式对解析出来的简历信息元进行存储。
Claims (4)
1.一种基于深度神经网络的中文简历解析方法,其特征在于,包括以下步骤:
步骤101:构建基于深度神经网络的中文简历解析框架;
步骤102:构建ABLSTM深度神经网络模型,对词进行向量表示;
步骤103:构建BLSTM-CRF模型解析中文简历。
2.根据权利要求1所述的一种基于深度神经网络的中文简历解析方法,其特征在于,所述步骤101构建基于深度学习的中文简历解析框架包括:
传统的简历解析方法主要是基于规则、基于统计、基于浅层神经网络,不足以达到大批量处理无规则的简历,因此本文采用深度学习框架来对简历进行解析;
本文主要研究的是采用深度神经网络对简历进行解析,该方法主要是利用深度神经网络具有主动学习特征的能力,进而获得相应的特征,然后根据特征对相应的信息元进行标注。
3.根据权利要求1所述的一种基于深度神经网络的中文简历解析方法,其特征在于,所述步骤102采用基于ABLSTM深度神经网络模型框架获取相应特征表征,解决目标问题包括:基于深度学习模型的任务中,无论采用英文数据集还是中文数据集,对词进行向量表示这是必不可少的步骤,词表示的好坏将直接影响到模型对简历信息元标注结果的好坏,对于中文的简历解析中,很大程度上都选择采用的特征表征的方法是词向量表示方法,词向量的表示方法一般都用的是主流的Glove和Word2Vec工具,这样的特征表征只能学习有限的特征信息;
针对此缺陷,提出了使用ABLSTM模型对词进行向量表示,利用BLSTM的门机制,采用BLSTM对中文文字的词根进行建模,然后将获得的包含词根信息的字向量再进行一次序列建模,使得词向量获得相应的字序列信息和词根信息,为了更好的进行一个向量表示,在BLSTM的串联的时候引入注意力机制(ABLSTM),更好对前向LSTM和后向LSTM的输入进行权重串联,获得一个更好的词向量表示;
采用基于ABLSTM模型对词向量进行表示,主要分为两个步骤:
①数据集:提供训练数据集、验证数据集、测试数据集;
②ABLSTM:基于注意力机制的双向长短时记忆神经网络模型,基于注意力机制来对词根序列和字序列进行向量表示,获得一个更好的向量表示;
具体如下:
采用了一个新的词向量表示方法,即使用ABLSTM模型对向量进行表示,首先将词语进行分词,然后拆分成单个字,然后将字拆分成其象形词根,利用BLSTM对象形词根进行建模,获得包含字内部信息的字向量,然后再利用BLSTM对字进行建模,获得包含字序列信息的词向量,此方法可以更好的对词进行向量表示;
对于给定一个包含n个字的非结构化文本简历字序列:
Char=(char1,...,charn)
将序列进行词根拆分,然后输入到双向LSTM神经网络模型中,
利用BLSTM对词根进行建模,获得一个包含字内部信息的字向量,然后再利用双向LSTM的前向LSTM对字序列进行建模生成一个包含字序列以及字序列上文信息的向量表示CharFi,同理后向LSTM反向读取字序列,将字序列以及字序列的下文信息表示为CharBi,然后将CharFi和CharBi连接形成一个包含字序列以及上下文信息的词表示:
Wd=[CharFi:CharBi]
此表示方法获得了字序列与词语之间的关系,与主流的Stanford的Glove和Google的Word2Vec相比,此方法对模型性能具有一个显著的提升,此方法可应用于其他需词表示的深度神经网络模型中。
4.根据权利要求1所述的基于ABLSTM-CRF的中文简历解析方法,其特征在于,所述步骤103构建BLSTM-CRF解析中文简历,具体由两个主要步骤组成包括:由步骤102获得词向量表示、基于BLSTM-CRF模型对中文简历进行解析;
经过BLSTM对非结构化文本简历的字序列进行建模之后,获得一个包含字序列信息的中文词语序列:
Wd=(wd1,...,wdi)
将词序列输入到BLSTM神经网络中,利用BLSTM中的前向LSTM将词wdi及其上文信息表示为WordFi,同理利用后向LSTM将词wdi及其上文信息表示为WordBi,最终将BLSTM的前向LSTM输出结果和后向LSTM的输出结果级联起来形成一个新的特征表示ht=[WordFi:WordBi],ht直接作为特征来为每个输出yt做出独立的标记决策,此方法有效的将词及其上下文信息用向量表示,此方法有效的将词及其上下文信息用向量表示;
在本文的非结构化文本简历信息解析任务中,输出标签之间有一个非常强的依赖关系;例如:B-org.company标签的后面不能跟着I-gsp.company或除I-org.company以外的其他标签。因此为了建模标签的依赖关系,本文采用CRF来建模整个句子的输出标签;假定得到非结构化文本简历信息的输出目标序列(即对应的标签序列)为:
y=(y1,...,yn)
为了有效的获得非结构化文本简历信息的目标序列,模型的分值公式定义如下:
其中P表示的是双向LSTM的输出分值矩阵,其大小为n×k,k表示的是目标标签的数量,n表示词序列的长度。A表示的是转移分值矩阵;y0和yn+1分别表示的是一个序列的开始和结束的标志,因此A方阵的大小为k+2;
在所有简历信息的标签序列上,CRF生成目标序列y的概率为:
其中YX代表简历信息序列X对应的所有可能标签序列;
在训练过程中,为了获得简历信息正确的标签序列,将采用最大化正确标签序列的条件似然对数概率:
由上述的表述可以看出本文训练神经网络是为了尽可能输出非结构化简历信息有效的标签序列;因此如下公式给出的最大分值公式用于预测最合适的标签序列:
因为是对输出之间的相互作用进行建模因此采用动态规划的方法计算件似然对数概率公司中的求和以及最大分值公式中的最大后验序列y*;
最终获得中文简历中所需要关注的信息元的实体标签,然后根据信息元的实体标签,解析出相应的中文简历中所需要关注的信息元,根据规则处理成统一的格式对解析出来的简历信息元进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811566222.4A CN109710930A (zh) | 2018-12-20 | 2018-12-20 | 一种基于深度神经网络的中文简历解析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811566222.4A CN109710930A (zh) | 2018-12-20 | 2018-12-20 | 一种基于深度神经网络的中文简历解析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710930A true CN109710930A (zh) | 2019-05-03 |
Family
ID=66257038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811566222.4A Pending CN109710930A (zh) | 2018-12-20 | 2018-12-20 | 一种基于深度神经网络的中文简历解析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710930A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111667158A (zh) * | 2020-05-26 | 2020-09-15 | 南开大学 | 一种基于多图神经网络联合学习的工作技能预测方法 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
WO2020252919A1 (zh) * | 2019-06-20 | 2020-12-24 | 平安科技(深圳)有限公司 | 识别简历的方法及装置、计算机设备、存储介质 |
CN112199519A (zh) * | 2020-11-18 | 2021-01-08 | 北京观微科技有限公司 | 一种基于Bert的实体关系流水线抽取方法和系统 |
CN112257777A (zh) * | 2020-10-21 | 2021-01-22 | 平安科技(深圳)有限公司 | 基于隐马尔可夫模型的离职预测方法及相关装置 |
CN115544971A (zh) * | 2022-09-21 | 2022-12-30 | 中国科学院地理科学与资源研究所 | 古气候重建数据处理方法及装置 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168957A (zh) * | 2017-06-12 | 2017-09-15 | 云南大学 | 一种中文分词方法 |
CN107291828A (zh) * | 2017-05-27 | 2017-10-24 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询解析方法、装置及存储介质 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
CN108363701A (zh) * | 2018-04-13 | 2018-08-03 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN108664474A (zh) * | 2018-05-21 | 2018-10-16 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
CN108764835A (zh) * | 2018-05-24 | 2018-11-06 | 广州合摩计算机科技有限公司 | 逆向人才推送信息方法和装置 |
CN108829662A (zh) * | 2018-05-10 | 2018-11-16 | 浙江大学 | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN108829678A (zh) * | 2018-06-20 | 2018-11-16 | 广东外语外贸大学 | 一种汉语国际教育领域命名实体识别方法 |
CN108875809A (zh) * | 2018-06-01 | 2018-11-23 | 大连理工大学 | 联合attention机制与神经网络的生物医学实体关系分类方法 |
-
2018
- 2018-12-20 CN CN201811566222.4A patent/CN109710930A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107291828A (zh) * | 2017-05-27 | 2017-10-24 | 北京百度网讯科技有限公司 | 基于人工智能的口语查询解析方法、装置及存储介质 |
CN107168957A (zh) * | 2017-06-12 | 2017-09-15 | 云南大学 | 一种中文分词方法 |
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN108268444A (zh) * | 2018-01-10 | 2018-07-10 | 南京邮电大学 | 一种基于双向lstm、cnn和crf的中文分词方法 |
CN108363701A (zh) * | 2018-04-13 | 2018-08-03 | 达而观信息科技(上海)有限公司 | 命名实体识别方法及系统 |
CN108829662A (zh) * | 2018-05-10 | 2018-11-16 | 浙江大学 | 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统 |
CN108664474A (zh) * | 2018-05-21 | 2018-10-16 | 众安信息技术服务有限公司 | 一种基于深度学习的简历解析方法 |
CN108764835A (zh) * | 2018-05-24 | 2018-11-06 | 广州合摩计算机科技有限公司 | 逆向人才推送信息方法和装置 |
CN108875809A (zh) * | 2018-06-01 | 2018-11-23 | 大连理工大学 | 联合attention机制与神经网络的生物医学实体关系分类方法 |
CN108829801A (zh) * | 2018-06-06 | 2018-11-16 | 大连理工大学 | 一种基于文档级别注意力机制的事件触发词抽取方法 |
CN108829678A (zh) * | 2018-06-20 | 2018-11-16 | 广东外语外贸大学 | 一种汉语国际教育领域命名实体识别方法 |
Non-Patent Citations (8)
Title |
---|
AYISHATHAHIRA C H等: "Combination of Neural Networks and Conditional Random Fields for Efficient Resume Parsing", 《2018 INTERNATIONAL CET CONFERENCE ON CONTROL, COMMUNICATION, AND COMPUTING》 * |
CHUANHAI DONG等: ""Character-Based LSTM-CRF with Radical-Level Features for Chinese Named Entity Recognition", 《NLPCC-ICCPOL 2016》 * |
LING LUO等: "An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition", 《BIOINFORMATICS》 * |
PENG ZHOU等: "Attention-based bidirectional long short-term memory networks for relation classification", 《PROCEEDINGS OF THE 54TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
司念文等: "基于注意力长短时记忆网络的中文词性标注模型", 《计算机科学》 * |
王学锋等: "基于深度学习的军事命名实体识别方法", 《装甲兵工程学院学报》 * |
陈毅等: "基于特征融合的中文简历解析方法研究", 《网络首发地址: HTTP://KNS.CNKI.NET/KCMS/DETAIL/11.2127.TP.20181026.1554.019.HTML》 * |
黄胜等: "基于深度学习的简历信息实体抽取方法", 《计算机工程与设计》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020252919A1 (zh) * | 2019-06-20 | 2020-12-24 | 平安科技(深圳)有限公司 | 识别简历的方法及装置、计算机设备、存储介质 |
CN111667158A (zh) * | 2020-05-26 | 2020-09-15 | 南开大学 | 一种基于多图神经网络联合学习的工作技能预测方法 |
CN111667158B (zh) * | 2020-05-26 | 2022-06-10 | 南开大学 | 一种基于多图神经网络联合学习的工作技能预测方法 |
CN111737969A (zh) * | 2020-07-27 | 2020-10-02 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
CN111737969B (zh) * | 2020-07-27 | 2020-12-08 | 北森云计算有限公司 | 一种基于深度学习的简历解析方法和系统 |
CN112257777A (zh) * | 2020-10-21 | 2021-01-22 | 平安科技(深圳)有限公司 | 基于隐马尔可夫模型的离职预测方法及相关装置 |
WO2021179715A1 (zh) * | 2020-10-21 | 2021-09-16 | 平安科技(深圳)有限公司 | 基于隐马尔可夫模型的离职预测方法及相关装置 |
CN112257777B (zh) * | 2020-10-21 | 2023-09-05 | 平安科技(深圳)有限公司 | 基于隐马尔可夫模型的离职预测方法及相关装置 |
CN112199519A (zh) * | 2020-11-18 | 2021-01-08 | 北京观微科技有限公司 | 一种基于Bert的实体关系流水线抽取方法和系统 |
CN115544971A (zh) * | 2022-09-21 | 2022-12-30 | 中国科学院地理科学与资源研究所 | 古气候重建数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710930A (zh) | 一种基于深度神经网络的中文简历解析方法 | |
CN113254599B (zh) | 一种基于半监督学习的多标签微博文本分类方法 | |
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
CN110597997B (zh) | 一种军事想定文本事件抽取语料库迭代式构建方法及装置 | |
CN108664474B (zh) | 一种基于深度学习的简历解析方法 | |
CN108572967A (zh) | 一种创建企业画像的方法及装置 | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
CN110909736B (zh) | 一种基于长短期记忆模型与目标检测算法的图像描述方法 | |
CN109241383B (zh) | 一种基于深度学习的网页类型智能识别方法及系统 | |
CN109766432A (zh) | 一种基于生成对抗网络的中文摘要生成方法和装置 | |
CN107871158A (zh) | 一种结合序列文本信息的知识图谱表示学习方法及装置 | |
CN110188195B (zh) | 一种基于深度学习的文本意图识别方法、装置及设备 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN113448843B (zh) | 基于缺陷分析的图像识别软件测试数据增强方法及装置 | |
CN113434688B (zh) | 用于舆情分类模型训练的数据处理方法和装置 | |
CN109815478A (zh) | 基于卷积神经网络的药化实体识别方法及系统 | |
CN112800229A (zh) | 基于知识图嵌入的涉案领域的半监督方面级情感分析方法 | |
CN111967267A (zh) | 一种基于XLNet的新闻文本地域提取的方法及系统 | |
CN111710428A (zh) | 一种建模全局和局部上下文交互的生物医学文本表示方法 | |
CN112287240A (zh) | 基于双嵌入多层卷积神经网络的案件微博评价对象抽取方法及装置 | |
CN117493486B (zh) | 基于数据重放的可持续金融事件抽取系统及方法 | |
CN117034948B (zh) | 基于多特征自适应融合的段落识别方法、系统及存储介质 | |
Bai et al. | Gated character-aware convolutional neural network for effective automated essay scoring | |
CN115392255A (zh) | 一种面向桥梁检测文本的少样本机器阅读理解方法 | |
Pan et al. | Personalized Food Image Classification: Benchmark Datasets and New Baseline |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190503 |