CN112926323B - 基于多级残差卷积与注意力机制的中文命名实体识别方法 - Google Patents
基于多级残差卷积与注意力机制的中文命名实体识别方法 Download PDFInfo
- Publication number
- CN112926323B CN112926323B CN202110102206.5A CN202110102206A CN112926323B CN 112926323 B CN112926323 B CN 112926323B CN 202110102206 A CN202110102206 A CN 202110102206A CN 112926323 B CN112926323 B CN 112926323B
- Authority
- CN
- China
- Prior art keywords
- character
- vector
- sequence
- convolution
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 230000007246 mechanism Effects 0.000 title claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 6
- 230000007704 transition Effects 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 49
- 238000012549 training Methods 0.000 claims description 19
- 238000010586 diagram Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 5
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000011478 gradient descent method Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 5
- 125000004122 cyclic group Chemical group 0.000 abstract description 3
- 230000008034 disappearance Effects 0.000 abstract 1
- 238000004880 explosion Methods 0.000 abstract 1
- 101001013832 Homo sapiens Mitochondrial peptide methionine sulfoxide reductase Proteins 0.000 description 6
- 102100031767 Mitochondrial peptide methionine sulfoxide reductase Human genes 0.000 description 6
- 230000000694 effects Effects 0.000 description 6
- 230000008520 organization Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Character Discrimination (AREA)
Abstract
基于多级残差卷积与注意力机制的中文命名实体识别方法,属于自然语言处理领域。该方法采用联合注意力机制的多级残差卷积网络。针对传统循环神经网络处理序列信息时模型效率低下的问题,本发明引入多级残差卷积,以获得不同范围内的局部上下文信息,并充分利用硬件的计算能力,显著提高模型效率。此外,循环神经网络由于梯度消失和梯度爆炸问题,无法有效地获取全局上下文信息,极大地影响网络的性能。本发明在网络中引入注意力机制,通过构建每个字符与句子之间的关系,计算出每个字符的重要性权重,从而学习全局信息。最终本发明利用条件随机场对字符标签的转移概率进行计算以获得合理的预测结果,进一步提高了命名实体识别模型的鲁棒性。
Description
技术领域
本发明属于自然语言处理领域,特别涉及一种基于多级残差卷积与注意力机制的中文命名实体识别方法。
背景技术
命名实体识别一直是自然语言处理研究的重点,其主要目标是从文本中识别人名、地名、组织机构名等实体。作为NLP(Natural Language Processing,自然语言处理)中一项基本任务,命名实体识别对自动问答、关系抽取等任务有着重要作用。目前,中文命名实体识别主要分为基于词语和基于字符的两类方法。由于实体大多以词语的形式出现,所以基于词语的方法可以充分利用词语信息进行实体识别,但是词语需由句子经过分词获得,而分词工具的表现参差不齐,很难获得理想的分词效果。相较而言,基于字符的命名实体识别方法以单个字符为单位,不存在分词错误的情况。因此,本发明采用基于字符的方法,针对其效率低下和难以获取上下文信息的问题,提出独特的多级残差卷积和注意力方法来有效提高中文命名实体识别效果。
目前,基于字符的命名实体识别方法主要使用循环神经网络及其变体,例如长短时记忆网络和门控循环单元,并且发展势头十分强劲。虽然循环神经网络可以充分利用历史信息及未来信息处理当前信息,但仍面临以下问题:(1)如何在不引入复杂的外部知识的前提下,使模型获得更多的语义信息。(2)如何克服原有模型的缺陷,有效地获取全局上下文信息。(3)如何在提高模型效率的同时,不降低模型的精度。
基于以上考虑,本发明提出一个基于多级残差卷积与注意力机制的网络用于中文命名实体识别。首先通过数据增强和多模态向量简化语义信息的利用过程;其次,使用多级残差卷积替代循环神经网络,获取不同范围内的局部上下文信息,并降低模型复杂度;然后使用自注意力机制突出重要的字符,获取全局上下文信息;最后使用条件随机场计算字符标签的转移概率,获得合理的预测结果。
发明内容
本发明的主要目的是提出一种基于多级残差卷积与注意力机制(Multi-levelCNN with Residual structure and Attention mechanism,RAMCNN)的中文命名实体识别方法,更好地处理句子序列,获取文本信息,以进行高效的命名实体识别。
为了实现上述目的,本发明提供如下技术方案:
步骤一、扩充训练集:对现有的数据进行增强,获得最终的训练集Si表示训练集中第i个句子,N为句子数。
步骤二、生成多模态向量:对每个句子cj表示句子中第j个字符,M是句子中字符数,模型(本文提出的模型)在不同的字符向量查找表中找到cj对应的向量表示在第k个向量查找表中cj对应的向量。将cj在所有向量查找表中对应的向量拼接,作为该字符最终的向量表示,记为/>
步骤三、获取局部上下文信息:使用卷积神经网络对每个句子Si的原始特征图做卷积,并对卷积后的结果/>做最大池化,得到带有局部上下文信息的特征图/>
步骤四、获取融合的局部上下文信息:多级残差卷积网络使用残差连接将原始特征图与卷积池化后的带有局部上下文信息的特征图/>进行融合,将融合后的特征图/>作为下一层卷积网络的输入特征。将每一层卷积网络的输出特征图按列维度进行拼接,将拼接结果/>作为多级残差卷积网络的最终输出特征图。
步骤五:获取全局上下文信息:首先将步骤四中拼接后的特征图通过按列维度求平均的方式转化为一个句子向量ese,将ese与随机初始化的权重矩阵WQuery相乘,计算出句子的查询向量esq;其次将拼接后的特征图/>分别与随机初始化的权重矩阵WKey与WValue相乘,计算出键特征图/>和值特征图/>kp和vp分别表示第p个字符的键向量和值向量,M为字符数;然后通过计算每个字符的键向量与句子的查询向量之间的关系,得到每个字符对句子的重要程度/>sq表示第q个字符对句子的重要程度,M为字符数;再使用softmax函数对escore归一化,计算出每个字符的重要性权重向量/>wi是第i个字符的重要性权重,M为字符数;最终将eweight与字符的值特征图ecv相乘,得到带有全局上下文信息的特征图。
步骤六、特征图维度映射:使用全连接层将步骤五中输出的特征图映射为维度与字符标签类别数相同的特征图。
步骤七、条件随机场输出预测序列:使用维特比算法解码出文本序列对应的正确概率最大的标签序列。
与现有的技术相比,本发明具有以下有益效果:
1.步骤一中提出的数据增强算法完全基于现有的训练集扩充数据量,与传统的引入带有大量噪声的外部知识的方法相比,该增强算法无需对数据进行处理即可直接使用,有助于模型充分学习数据之间的联系,减少过拟合,提升识别精度。
2.步骤二中使用的多模态向量由预训练好的字符向量查找表生成,与现有的使用神经网络抽取并增加特征的方法相比,更简单高效地增加了字符特征,便于模型利用更丰富的语义知识进行实体识别。
3.步骤三和步骤四中构建的多级残差卷积网络通过尺度不同的卷积核有效地学习到不同范围内的上下文信息,并通过残差连接对其进行融合以获取更丰富的文本信息。由于卷积网络可以充分利用硬件的计算加速能力,所以该网络比循环神经网络有更高的效率,极大地提高了实体识别速度。
4.步骤五中注意力机制通过计算每个字符与句子之间的关系计算字符对句子的重要程度,学习全局上下文信息。与计算两两字符之间关系的方法相比,该注意力机制有效地减少了计算量并提升了模型识别精度。
附图说明
图1为本发明的算法流程图;
图2为本发明的整体模型图;
图3为多级残差卷积框架图;
图4为注意力机制框架图。
具体实施方式
以下根据实施例和附图对本发明的技术方案进行进一步说明。
图2表示本发明的算法模型图。模型包括数据增强、多模态向量层、多级残差卷积、注意力机制、条件随机场5个关键部分。为了对本发明进行更好的说明,下面以公开的中文命名实体识别数据集Resume为例进行阐述。
上述技术方案中步骤一中数据增强算法为:
把训练集样本中具有相同类型的实体交换位置,生成新的训练集。然后将原始训练集和新生成的训练集合并作为新的训练集,即可达到扩充数据量的目的。例如,训练集中有两个样本分别包含“南京人大代表”和“北京欢迎您”,由于“南京”和“北京”都是被标注为“地点”类型的实体,所以经过数据增强后会生成两个新样本,里面分别包含“北京人大代表”和“南京欢迎您”。因此数据增强可以让相同的实体具有不同的上下文,从而更好地学到语义知识。算法如表1所示。
表1数据增强算法
其中Etype表示存放所有实体类型的列表。Atype表示存放类型为type的实体的列表。Btype表示Atype打乱后形成的列表。A和B分别表示用来存放Atype和Btype的列表。
步骤二中字符向量查找表是由语言模型在大规模语料库上训练而来,查找表以文本文件形式存储,每行是一个字符串,字符串的内容为字符以及字符对应的向量。经多次实验证明,本发明采用两个字符向量查找表生成多模态向量的效果最佳。本示例中用于生成字符向量的模型为skip-gram模型,但本发明并不限于使用该模型生成字符向量。
步骤三和步骤四中多级残差卷积的构建方法为:
首先利用卷积网络对步骤二中由多个字符的多模态向量组成的特征图进行卷积池化操作,使得每个字符向量融合了邻近字符的信息;然后使用残差连接对卷积前后的特征图进行融合,作为下一卷积层的输入,目的在于使模型可以同时利用卷积特征和原始特征;最后将每一卷积层的结果拼接,作为多级残差卷积网络的最终输出。多级残差卷积中卷积核的个数可根据硬件环境和实验效果而定,具体而言,本发明运行在内存为12GB的GTX1080Ti显卡上,经多次实验证明,当卷积核个数为128时,模型取得最高精度。多级残差卷积框架如图3所示。
步骤五中注意力网络的构建方法为:
首先将步骤四中多级残差卷积输出的特征图按列维度求平均,将其转为一个句子向量;然后构建特征图中每个字符向量与句子向量之间的关系,计算出每个字符对于句子的重要程度;最后使用softmax函数对重要程度进行归一化,计算出每个字符的重要性权重。注意力机制框架如图4所示。
步骤六中特征图维度映射的目的是将特征图中每个字符向量映射为维度与标签类型数相同的概率向量。步骤七中使用条件随机场输出预测序列的具体方法如下:
在实体识别任务中,标签之间普遍存在依赖关系。例如人名实体不会以“I-PER”作为起始;多数情况下,“B-PER”后面应该紧接“I-PER”,“I-PER”后面因该紧接“I-PER”或“O”。因此,在做序列标注时需要使用条件随机场构建标签之间的依赖关系,从而得到更合理的预测结果。
假设输入序列S对应输出序列y,其得分可以由下式算出。
其中U是状态转移矩阵,V是概率向量,n是标签类别数。
假设所有输出序列集合为YS,所以由输入序列S得到输出序列y的概率P(y|S)计算如下:
其中y′∈YS,exp(·)表示以e为底的指数函数。
由于正确序列yr对应的概率P(yr|S)最大,所以需要最大化P(yr|S)以获得模型中的参数。由于公式是指数形式,最大化P(yr|S)等同于最大化log(P(yr|S)),而模型一般都是通过最小化损失函数来求出参数,所以本发明使用下式作为损失函数,并使用梯度下降法最小化该式,即可获得模型参数。
-log(P(yr[S))=-s(S,yr)+log(Σy′exp(s(S,y′))
求出模型参数后,即可对文本序列进行解码,预测标签序列。最直观的方法是穷举所有可能的标签序列并计算出它们的得分,将得分最高的标签序列作为预测序列。该过程可以用维特比算法进行简化。
维特比算法是一种动态规划算法,其对于每个位置的字符,分别计算出与当前字符的各个标签组合后s(S,y)最大的标签序列y。因为虽然有多个标签序列可以与当前字符的各个标签组成新的标签序列,但只有与各个标签组合后得分最高的标签序列才是最有可能正确的标签序列。然后记录组合后s(S,y)最大的标签序列y以便最后进行回溯。当计算出最后一个字符对应的所有标签的分数后,得分最高的标签序列即为最合理的预测序列。
为验证本发明的准确性和鲁棒性,本发明在公开的Resume数据集和MSRA数据集上进行了实验。Resume数据集由[Zhang Y,Yang J.Chinese NER Using LatticeLSTM.InProceedings of the 56th Annual Meeting of the Association forComputational Linguistics,Vol.1,pp.1554-1564,2018.]发布,其中实体有八种类型,分别是人名、地名、组织机构名、国家名、教育机构名、职业、职称和种族背景。MSRA数据集由[Levow GA.The third international Chinese language processing bakeoff:Wordsegmentation and named entity recognition.InProceedings of the Fifth SIGHANWorkshop on Chinese Language Processing,pp.108-117,2006.]发布,其中实体有三种类型,分别是人名、地名和组织机构名。数据集详细数据统计如表2所示。
表2数据集详细数据统计
Resume数据集的类别是丰富的,并且实体间存在复杂的包含关系,例如职业、职称实体中往往包含组织机构名,因此在该数据集进行命名实体识别是具有挑战性的。MSRA数据集数据量较大,包含最常规的三种类别,且地名和组织机构名之间也存在复杂的包含关系,可以有效地测试模型在常用场景下的效果,具有代表性。
实验参数设置:
表3数据库实验参数设置
数据集 | 类别数 | 字符向量维度 | 学习率 | 迭代次数 |
Resume | 8 | 100 | 0.00005 | 400 |
MSRA | 3 | 100 | 0.00005 | 400 |
表4为本发明提出的方法在Resume数据集和MSRA数据集上的测试结果,本发明在这两个数据集上都取得了较高的识别率,分别是95.01%和93.02%。尽管这两个数据集的实体间存在复杂的包含关系,但本发明提出的方法对该问题具有很好的鲁棒性,因此表现相对较好。
表4在UCF101和Penn Action上的识别率
数据集 | Resume | MSRA |
RAMCNN | 95.01% | 93.02% |
本发明提出的模型主要包含两个部分,多级残差卷积和注意力机制。从表5可以看出,针对Resume数据集,单纯使用由全连接层组成的基线网络,精度可达到92.96%。在基线网络中加入多级残差卷积,精度提升至94.30%。在此基础上再加入注意力机制,精度进一步提升至95.01%。实验结果显示,多级残差卷积可以有效地获取并融合不同范围内的局部上下文信息,而注意力机制则进一步获取全局上下文信息。这两种方法对命名实体识别的性能都产生了积极的影响,有效地提升了识别精度。
表5在Resume数据集上的两个方法的影响
上面结合附图对本发明的具体实施方式做了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (5)
1.基于多级残差卷积与注意力机制的中文命名实体识别方法,其特征在于,步骤如下:
步骤一、扩充训练集:对现有的数据进行增强,获得最终的训练集Si表示训练集中第i个句子,N为句子数;
步骤二、生成多模态向量:对每个句子cj表示句子中第j个字符,M是句子中字符数,模型在不同的字符向量查找表中找到cj对应的向量/>表示在第k个向量查找表中cj对应的向量;将cj在所有向量查找表中对应的向量拼接,作为该字符最终的向量表示,记为/>
步骤三、获取局部上下文信息:使用卷积神经网络对每个句子Si的原始特征图做卷积,并对卷积后的结果/>做最大池化,得到带有局部上下文信息的特征图
步骤四、获取融合的局部上下文信息:多级残差卷积网络使用残差连接将原始特征图与卷积池化后的带有局部上下文信息的特征图/>进行融合,将融合后的特征图作为下一层卷积网络的输入特征;将每一层卷积网络的输出特征图按列维度进行拼接,将拼接结果/>作为多级残差卷积网络的最终输出特征图;
步骤五:获取全局上下文信息:首先将步骤四中拼接后的特征图通过按列维度求平均的方式转化为一个句子向量ese,将ese与随机初始化的权重矩阵WQuery相乘,计算出句子的查询向量esq;其次将拼接后的特征图/>分别与随机初始化的权重矩阵WKey与WValue相乘,计算出键特征图/>和值特征图/>kp和vp分别表示第p个字符的键向量和值向量,M为字符数;然后通过计算每个字符的键向量与句子的查询向量之间的关系,得到每个字符对句子的重要程度/>sq表示第q个字符对句子的重要程度,M为字符数;再使用softmax函数对escore归一化,计算出每个字符的重要性权重向量wi是第i个字符的重要性权重,M为字符数;最终将eweight与字符的值特征图ecv相乘,得到带有全局上下文信息的特征图;
步骤六、特征图维度映射:使用全连接层将步骤五中输出的特征图映射为维度与字符标签类别数相同的特征图;
步骤七、条件随机场输出预测序列:使用维特比算法解码出文本序列对应的正确概率最大的标签序列。
2.根据权利要求1所述的基于多级残差卷积与注意力机制的中文命名实体识别方法,其特征在于,所述的步骤一中,数据增强的具体过程是:对命名实体识别的原始训练集的所有句子中相同类型的实体进行交换,生成新的句子以组成新的训练集;将原始训练集与新的训练集合并作为最终的训练集Si表示训练集中第i个句子,N为句子数。
3.根据权利要求1所述的基于多级残差卷积与注意力机制的中文命名实体识别方法,其特征在于,所述的步骤二中字符向量查找表是由语言模型在大规模语料库上训练而来,查找表以文本文件形式存储,每行是一个字符串,字符串的内容为字符以及字符对应的向量。
4.根据权利要求1所述的基于多级残差卷积与注意力机制的中文命名实体识别方法,其特征在于,所述的步骤七的具体过程为:
设输入序列S对应输出序列y,其得分由下式算出:
其中U是状态转移矩阵,V是概率向量,n是标签类别数;
设所有输出序列集合为YS,所以由输入序列S得到输出序列y的概率P(y|S)计算如下:
其中y′∈YS,exp(·)表示以e为底的指数函数;
由于正确序列yr对应的概率P(yr|S)最大,所以需要最大化P(yr|S)以获得模型中的参数;由于公式是指数形式,最大化P(yr|S)等同于最大化log(P(yr|S));
使用下式作为损失函数,并使用梯度下降法最小化该式,即可获得模型参数;
-log(P(yr|S))=-s(s,yr)+log(∑y′exp(s(s,y′)))
求出模型参数后,即可对文本序列进行解码,预测标签序列;
利用维特比算法穷举所有可能的标签序列并计算出它们的得分,将得分最高的标签序列作为预测序列,维特比算法具体为:
首先对于每个位置的字符,分别计算出与当前字符的各个标签组合后s(S,y)最大的标签序列y;然后记录组合后s(S,y)最大的标签序列y以便最后进行回溯;当计算出最后一个字符对应的所有标签的分数后,得分最高的标签序列即为最合理的预测序列。
5.根据权利要求1所述的基于多级残差卷积与注意力机制的中文命名实体识别方法,其特征在于,所述的步骤四中多级残差卷积由残差结构和多层卷积神经网络组成,除第一层卷积网络之外,每一层卷积网络的输入都是前一层卷积网络的输入和卷积池化后的输出经过残差连接后得到的特征图,最终将所有卷积网络的输出进行拼接,作为多级残差卷积的输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110102206.5A CN112926323B (zh) | 2021-01-26 | 2021-01-26 | 基于多级残差卷积与注意力机制的中文命名实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110102206.5A CN112926323B (zh) | 2021-01-26 | 2021-01-26 | 基于多级残差卷积与注意力机制的中文命名实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926323A CN112926323A (zh) | 2021-06-08 |
CN112926323B true CN112926323B (zh) | 2024-02-02 |
Family
ID=76166114
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110102206.5A Active CN112926323B (zh) | 2021-01-26 | 2021-01-26 | 基于多级残差卷积与注意力机制的中文命名实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926323B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487796B (zh) * | 2020-11-27 | 2022-02-18 | 北京智谱华章科技有限公司 | 一种用于序列标注的方法、装置和电子设备 |
CN113836923B (zh) * | 2021-08-27 | 2023-06-27 | 山西清众科技股份有限公司 | 一种基于多级上下文特征提取的命名实体识别方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175330A (zh) * | 2019-05-29 | 2019-08-27 | 广州伟宏智能科技有限公司 | 一种基于注意力机制的命名实体识别方法 |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
CN110866401A (zh) * | 2019-11-18 | 2020-03-06 | 山东健康医疗大数据有限公司 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111914097A (zh) * | 2020-07-13 | 2020-11-10 | 吉林大学 | 基于注意力机制和多层级特征融合的实体抽取方法与装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11574122B2 (en) * | 2018-08-23 | 2023-02-07 | Shenzhen Keya Medical Technology Corporation | Method and system for joint named entity recognition and relation extraction using convolutional neural network |
-
2021
- 2021-01-26 CN CN202110102206.5A patent/CN112926323B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
CN110175330A (zh) * | 2019-05-29 | 2019-08-27 | 广州伟宏智能科技有限公司 | 一种基于注意力机制的命名实体识别方法 |
CN110866401A (zh) * | 2019-11-18 | 2020-03-06 | 山东健康医疗大数据有限公司 | 基于注意力机制的中文电子病历命名实体识别方法及系统 |
CN111444721A (zh) * | 2020-05-27 | 2020-07-24 | 南京大学 | 一种基于预训练语言模型的中文文本关键信息抽取方法 |
CN111914097A (zh) * | 2020-07-13 | 2020-11-10 | 吉林大学 | 基于注意力机制和多层级特征融合的实体抽取方法与装置 |
Non-Patent Citations (5)
Title |
---|
Attention-based deep residual learning network for entity relation extraction in Chinese EMRs;Zhichang Zhang等;4th China Health Information Processing Conference;全文 * |
Attention-based Multi-level Feature Fusion for Named Entity Recognition;Zhiwei Yang等;Proceedings of the Twenty-Ninth International Joint Conference on Artificial Intelligence (IJCAI-20);全文 * |
加入自注意力机制的BERT命名实体识别模型;毛明毅等;智能系统学习;第15卷(第4期);全文 * |
基于双向预训练语言模型的文本情感分类;马力等;西安邮电大学学报;第25卷(第05期);全文 * |
基于混合神经网络的中文命名实体识别研究;汪文浩;中国硕士学位论文全文数据库(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112926323A (zh) | 2021-06-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN114003698B (zh) | 一种文本检索方法、系统、设备及存储介质 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
CN112069826B (zh) | 融合主题模型和卷积神经网络的垂直域实体消歧方法 | |
CN111400455A (zh) | 基于知识图谱的问答系统的关系检测方法 | |
CN113590784B (zh) | 三元组信息抽取方法、装置、电子设备、及存储介质 | |
CN112926323B (zh) | 基于多级残差卷积与注意力机制的中文命名实体识别方法 | |
CN114091450B (zh) | 一种基于图卷积网络的司法领域关系抽取方法和系统 | |
CN115062109B (zh) | 一种基于实体对注意力机制的实体关系联合抽取方法 | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113221571B (zh) | 基于实体相关注意力机制的实体关系联合抽取方法 | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN113204611A (zh) | 建立阅读理解模型的方法、阅读理解方法及对应装置 | |
CN114969275A (zh) | 一种基于银行知识图谱的对话方法及其系统 | |
CN112349294B (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN111159345A (zh) | 一种中文知识库答案获取方法及其装置 | |
WO2022242074A1 (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN117057350B (zh) | 中文电子病历命名实体识别方法和系统 | |
CN112949637A (zh) | 基于idcnn和注意力机制的招投标文本实体识别方法 | |
CN116680407A (zh) | 一种知识图谱的构建方法及装置 | |
CN114625830B (zh) | 一种中文对话语义角色标注方法及系统 | |
Chu et al. | IterVM: iterative vision modeling module for scene text recognition | |
CN113111136B (zh) | 一种基于ucl知识空间的实体消歧方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |