CN110442860A - 基于时间卷积网络的命名实体识别方法 - Google Patents
基于时间卷积网络的命名实体识别方法 Download PDFInfo
- Publication number
- CN110442860A CN110442860A CN201910602993.2A CN201910602993A CN110442860A CN 110442860 A CN110442860 A CN 110442860A CN 201910602993 A CN201910602993 A CN 201910602993A CN 110442860 A CN110442860 A CN 110442860A
- Authority
- CN
- China
- Prior art keywords
- word
- feature
- network
- label
- convolutional network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种基于时间卷积网络的命名实体识别方法。方法步骤为:首先构建特征表示层,其主要由词向量和字符特征层组成。词向量层和字符向量层分别接受单词和字符作为输入,分别将离散的One‑hot表示映射到各自的连续稠密的低维特征空间中。然后将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征。其次将拼接后的特征作为时间卷积网络的输入,经过融合卷积核大小不同的时间卷积网络提取不同特征,得到最终的特征h1h2…hn。最后将得到的特征作为CRF层的输入,CRF对上下文标注进一步约束后,输出序列标注结果y1y2...yn。本发明的TCN网络相较于现有的LSTM网络,识别精度稍有提高,训练时间仅为LSTM网络的约1/3。
Description
技术领域
本发明涉及命名实体识别领域,具体涉及一种基于时间卷积网络的命名实体识别方法。
背景技术
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。目前,主流的命名实体识别方法都是神经网络模型。如基于CNN(Convolutional Neural Network)的命名实体识别方法。但传统的CNN网络的感受野较小且大小固定,无法记忆长时信息。在命名别实体识别任务上,最常用的网络是LSTM,但LSTM只能串行处理,运算速度较慢。例如,申请号2017109467319的中国专利提供了一种基于LSTM-CNN的命名实体识别方法。该方法在训练阶段将带有标签的训练语料数据转换为字符级的语料数据,然后训练基于LSTM-CNN的深度学习模型;在预测阶段将没有标签的测试语料数据转换为字符级的语料数据,然后使用训练阶段训练好的深度学习模型进行预测。该方法就存在只能串行处理,运行速度较慢的问题。
针对上述问题,本发明使用TCN(temporal convolutional network)来进行命名实体识别任务。
发明内容
为了消除传统命名实体识别方法的以上缺陷,本发明提出了一种基于时间卷积网络的命名实体识别方法,该模型在TCN的基础上,利用卷积核大小不同的TCN网络在不同的感受野下分别提取特征,并对二者提取的特征进行融合,最后利用CRF算法对其进行解码,获得最终的标记结果。
为实现上述目的,本发明采用以下步骤:
步骤1:采用词向量和字符级向量构建特征表示层,作为模型的输入;
步骤2:经过融合卷积核大小不同的时间卷积网络提取的不同特征,得到最终的特征h1h2...hn;
步骤3:将提取的特征作为CRF层的输入,CRF对上下文标注进一步约束后,输出序列标注结果y1y2...yn。
所述的步骤1构建特征表示层的主要步骤的依据如下:
特征表示层将输入单词序列映射为连续稠密的特征向量,该特征向量捕获了单词的语义信息、句法信息以及形态学信息。定义一个固定大小的词典Dword和一个固定大小的字符集Dchar;给定长度为N的句子{w1,w2,...,wn},将句中每个单词映射为词向量rword∈Rword和字符级向量rchar∈Rchar拼接而成的词表示xn=[rword;rchar],其中词向量捕获了单词的语义信息和句法信息,字符级向量捕获了单词的词形信息。
所述的步骤2构造网络层的主要步骤的依据如下:
时间卷积网络通过使用因果卷积,保证前面时间步的预测不会使用未来的信息,其公式如下:
TCN网络采用1*3和1*5两种规模的卷积核,分别提取文本的特征,最后将二者提取的特征进行融合;
并且通过使用空洞卷积扩大感受野。空洞卷积的原理是,在保持输入不变的情况下,向卷积核中添加一些值为0的权重,对于一维的输入序列x∈R^n和卷积核f:{0,1...,k-1}→R,空洞卷积的公式为:
最后该网络通过加入了残差的跳层连接来提高准确率。在残差模块内,有1层空洞卷积和ReLU激励函数,且每个卷积核的权重都经过了归一化,每个空洞卷积后都增加了Dropout以实现正则化。
所述的步骤3构造CRF层的主要步骤的依据如下:
假定引入转移得分矩阵A,矩阵元素Aij表示标签i转移到标签j的转移得分,令y0,yn+1为句中的起始标签和终止标签,标签种类为k,则A∈R(k+2)(k+2)。设句子长度为n,则输出层的得分矩阵为P∈Rn*k,矩阵元素Pi,j表示第i个单词在第j个标签下的输出得分。在输入为X=(x1,x2,...,xn),输出标签序列y=(y1,y2,...,yn),则该标签的总得分为:
对所有可能的序列路径进行归一化,产生关于输出序列y的概率分布:
在训练过程中,最大化关于正确标签序列的对数概率:
由上式可知,该式可以促使模型生成正确的标签序列;在解码阶段,预测总得分最高的序列为最优的序列
在预测阶段使用维特比算法来求解最优序列。
本发明的有益效果在于TCN通过使用一维因果卷积可以充分的提取序列中的时序信息,解决了普通卷积操作无法获取时序信息的缺陷。此外,TCN的反向传播路径和序列的时间方向不同,这避免了RNN系列模型经常出现的梯度爆炸和梯度消失问题,且可以大规模并行处理,网络的训练和验证时间都会变短。而且TCN通过堆叠更多的卷积层、使用更大的膨胀系数以及增大卷积核的大小,提高了感受野大小改变的灵活性,解决了普通卷积操作感受野较小无法记忆长时信息的问题。
附图说明
图1为网络整体的架构图,为所提出模型的整体架构,主要由特征表示层、TCN和CRF层三部分组成;
图2为网络特征提取部分结构图;
图3为残差块结构图。
具体实施方式
以下结合附图和实施例对本发明作进一步详细说明。
实施例:请参见图1,为本发明所提出模型的整体架构,主要由特征表示层、TCN和CRF层三部分组成。其中,特征表示层主要由词向量和字符特征层组成。词向量层和字符向量层分别接受单词和字符作为输入,并且将离散的One-hot表示映射到各自的连续稠密的低维特征空间中;然后,将词向量和字符级向量进行拼接以表示单词在特定语义空间下的特征;随后将拼接后的特征作为TCN的输入,经过融合卷积核大小不同的TCN提取的不同特征,得到最终的特征h1h2...hn,并以此作为CRF层的输入,CRF对上下文标注进一步约束后,输出序列标注结果y1y2...yn。
本发明实验数据来自于CoNLL2003英文命名实体识别数据集和GENIA数据集,分别验证该模型在通用领域和垂直领域的有效性。CoNLL2003数据集来自路透社新闻语料。为了方便研究,该数据集已经预先划分了训练集、验证集和测试集,避免了测试语料不统一无法有效比较结果的问题。
CoNLL2003训练集中共有23499个实体、验证集共有5942个实体、测试集共有5648个实体,包括人名(PER)、地名(LOC)、组织名(ORG)和其他实体(MISC)4类实体。GENIA数据集,其标记语料为生物医学文本。该数据集为了避免测试语料不统一,也预先划定了训练集和测试集,GENIA语料包括Protein、DNA、RNA、Cell Type和Cell Line五类实体,其中训练集一共有51301个实体,测试集一共有8662个实体。其步骤如下:
步骤1:采用词向量和字符级向量构建特征表示层,作为模型的输入。
步骤2:经过融合卷积核大小不同的时间卷积网络提取的不同特征,得到最终的特征h1h2...hn;
步骤3:将提取的特征作为CRF层的输入,CRF对上下文标注进一步约束后,输出序列标注结果y1y2...yn。
按照上述步骤,将本发明分别与常用的命名实体识别模型LSTM、BiLSTM_CRF进行对比。对比结果表明本发明所提出的TCN_CRF模型在效率上均优于传统的网络模型。
本发明实施例所提出的TCN-CRF模型利用卷积核大小不同的TCN网络在不同的感受野下分别提取特征,并对二者提取的特征进行融合,最后利用CRF算法对其进行解码,获得最终的标记结果。
上述实施例所述仅为本发明较佳的一部分实施例,在此不可能也没必要列举所有可能的实施例,因此本发明的保护范围不被该实施例限定;任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其主要精神加以等同替换或改变,均属于本发明的保护范围,本发明的保护范围由权利要求书及其等同物确定。
Claims (4)
1.基于时间卷积网络的命名实体识别方法,其特征在于,包括以下步骤:
步骤1:采用词向量和字符级向量构建特征表示层,作为模型的输入;
步骤2:经过融合卷积核大小不同的时间卷积网络提取的不同特征,得到最终的特征h1h2…hn;
步骤3:将提取的特征作为CRF层的输入,CRF对上下文标注进一步约束后,输出序列标注结果y1y2...yn。
2.根据权利要求1所述的基于时间卷积网络的命名实体识别方法,其特征在于,步骤1构建特征表示层的主要步骤是根据:
特征表示层将输入单词序列映射为连续稠密的特征向量,该特征向量捕获了单词的语义信息、句法信息以及形态学信息;定义一个固定大小的词典Dword和一个固定大小的字符集Dchar;给定长度为N的句子{w1,w2,...,wn},将句中每个单词映射为词向量rword∈Rword和字符级向量rchar∈Rchar拼接而成的词表示xn=[rword;rchar],其中词向量捕获了单词的语义信息和句法信息,字符级向量捕获了单词的词形信息。
3.根据权利要求1所述的基于时间卷积网络的命名实体识别方法,其特征在于,步骤2构造网络层的主要步骤是根据:
时间卷积网络通过使用因果卷积,保证前面时间步的预测不会使用未来的信息,其公式如下:
TCN网络采用1*3和1*5两种规模的卷积核,分别提取文本的特征,最后将二者提取的特征进行融合;
并且通过使用空洞卷积扩大感受野;空洞卷积的原理是,在保持输入不变的情况下,向卷积核中添加一些值为0的权重,对于一维的输入序列x∈R^n和卷积核f:{0,1...,k-1}→R,空洞卷积的公式为:
最后该网络通过加入了残差的跳层连接来提高准确率;在残差模块内,有1层空洞卷积和ReLU激励函数,且每个卷积核的权重都经过了归一化,每个空洞卷积后都增加了Dropout以实现正则化。
4.根据权利要求1所述的基于时间卷积网络的命名实体识别方法,其特征在于,步骤3构造CRF层的主要步骤是根据:
假定引入转移得分矩阵A,矩阵元素Aij表示标签i转移到标签j的转移得分,令y0,yn+1为句中的起始标签和终止标签,标签种类为k,则A∈R(k+2)(k+2)。设句子长度为n,则输出层的得分矩阵为矩阵元素Pi,j表示第i个单词在第j个标签下的输出得分,在输入为X=(x1,x2,...,xn),输出标签序列y=(y1,y2,...,yn),则该标签的总得分为:
对所有可能的序列路径进行归一化,产生关于输出序列y的概率分布:
在训练过程中,最大化关于正确标签序列的对数概率:
由上式可知,该式可以促使模型生成正确的标签序列;在解码阶段,预测总得分最高的序列为最优的序列;
在预测阶段使用维特比算法来求解最优序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910602993.2A CN110442860A (zh) | 2019-07-05 | 2019-07-05 | 基于时间卷积网络的命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910602993.2A CN110442860A (zh) | 2019-07-05 | 2019-07-05 | 基于时间卷积网络的命名实体识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110442860A true CN110442860A (zh) | 2019-11-12 |
Family
ID=68429098
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910602993.2A Pending CN110442860A (zh) | 2019-07-05 | 2019-07-05 | 基于时间卷积网络的命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110442860A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111458769A (zh) * | 2020-05-26 | 2020-07-28 | 南京大学 | 用于输电线路环境气象数据预测的方法及系统 |
CN112925825A (zh) * | 2021-02-25 | 2021-06-08 | 南京大学 | 用于输电线路的多气象因子预测方法 |
CN113869065A (zh) * | 2021-10-15 | 2021-12-31 | 梧州学院 | 一种基于“单词-短语”注意力机制的情感分类方法和系统 |
CN114943229A (zh) * | 2022-04-15 | 2022-08-26 | 西北工业大学 | 一种基于多级别特征融合的软件缺陷命名实体识别方法 |
CN117077672A (zh) * | 2023-07-05 | 2023-11-17 | 哈尔滨理工大学 | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN109190578A (zh) * | 2018-09-13 | 2019-01-11 | 合肥工业大学 | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 |
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN109859285A (zh) * | 2019-01-25 | 2019-06-07 | 天津大学 | 基于空洞卷积网络的电阻抗图像重建方法 |
-
2019
- 2019-07-05 CN CN201910602993.2A patent/CN110442860A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460013A (zh) * | 2018-01-30 | 2018-08-28 | 大连理工大学 | 一种基于细粒度词表示模型的序列标注模型 |
CN109190578A (zh) * | 2018-09-13 | 2019-01-11 | 合肥工业大学 | 基于时域卷积网络与循环神经网络融合的手语视频翻译方法 |
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN109859285A (zh) * | 2019-01-25 | 2019-06-07 | 天津大学 | 基于空洞卷积网络的电阻抗图像重建方法 |
Non-Patent Citations (2)
Title |
---|
GUILLAUME LAMPLE 等: "Neural Architectures for Named Entity Recognition", 《HTTPS://ARXIV.ORG/PDF/1603.01360.PDF》 * |
蒋思源: "机器之心GitHub项目:从循环到卷积,探索序列建模的奥秘", 《HTTPS://T.CJ.SINA.CN/ARTICLES/VIEW/3996876140/EE3B7D6C019005NFL?VT=4》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111458769A (zh) * | 2020-05-26 | 2020-07-28 | 南京大学 | 用于输电线路环境气象数据预测的方法及系统 |
CN112925825A (zh) * | 2021-02-25 | 2021-06-08 | 南京大学 | 用于输电线路的多气象因子预测方法 |
CN113869065A (zh) * | 2021-10-15 | 2021-12-31 | 梧州学院 | 一种基于“单词-短语”注意力机制的情感分类方法和系统 |
CN113869065B (zh) * | 2021-10-15 | 2024-04-12 | 梧州学院 | 一种基于“单词-短语”注意力机制的情感分类方法和系统 |
CN114943229A (zh) * | 2022-04-15 | 2022-08-26 | 西北工业大学 | 一种基于多级别特征融合的软件缺陷命名实体识别方法 |
CN114943229B (zh) * | 2022-04-15 | 2024-03-12 | 西北工业大学 | 一种基于多级别特征融合的软件缺陷命名实体识别方法 |
CN117077672A (zh) * | 2023-07-05 | 2023-11-17 | 哈尔滨理工大学 | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 |
CN117077672B (zh) * | 2023-07-05 | 2024-04-26 | 哈尔滨理工大学 | 一种基于词汇增强和tcn-bilstm模型的中文命名实体识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444721B (zh) | 一种基于预训练语言模型的中文文本关键信息抽取方法 | |
CN110442860A (zh) | 基于时间卷积网络的命名实体识别方法 | |
CN111897949B (zh) | 一种基于Transformer的引导性文本摘要生成方法 | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN109829159B (zh) | 一种古汉语文本的一体化自动词法分析方法及系统 | |
CN112417880B (zh) | 一种面向法院电子卷宗的案情信息自动抽取方法 | |
CN109145190B (zh) | 一种基于神经机器翻译技术的局部引文推荐方法及系统 | |
CN106844349B (zh) | 基于协同训练的垃圾评论识别方法 | |
CN108460013A (zh) | 一种基于细粒度词表示模型的序列标注模型 | |
CN107423290A (zh) | 一种基于层次结构的神经网络机器翻译模型 | |
CN106383816A (zh) | 基于深度学习的中文少数民族地区地名的识别方法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN111144119B (zh) | 一种改进知识迁移的实体识别方法 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112905736B (zh) | 一种基于量子理论的无监督文本情感分析方法 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN113869053A (zh) | 一种面向司法文本命名实体识别的方法及系统 | |
CN111444704A (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN114662495A (zh) | 一种基于深度学习的英文文献污染物信息抽取方法 | |
CN115935914A (zh) | 一种入院记录缺失文本补充方法 | |
CN113673241B (zh) | 一种基于范例学习的文本摘要生成框架系统及方法 | |
CN114330349A (zh) | 一种特定领域命名实体识别方法 | |
CN104134017B (zh) | 一种基于紧凑特征表示的蛋白质作用关系对抽取方法 | |
CN111597810A (zh) | 一种半监督解耦的命名实体识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |