CN113139050A - 基于命名实体识别附加标签和先验知识的文本摘要生成方法 - Google Patents

基于命名实体识别附加标签和先验知识的文本摘要生成方法 Download PDF

Info

Publication number
CN113139050A
CN113139050A CN202110503654.6A CN202110503654A CN113139050A CN 113139050 A CN113139050 A CN 113139050A CN 202110503654 A CN202110503654 A CN 202110503654A CN 113139050 A CN113139050 A CN 113139050A
Authority
CN
China
Prior art keywords
text
sequence
abstract
label
original text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110503654.6A
Other languages
English (en)
Other versions
CN113139050B (zh
Inventor
强保华
汪晨
王玉峰
彭博
李宝莲
陈金勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
CETC 54 Research Institute
Original Assignee
Guilin University of Electronic Technology
CETC 54 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology, CETC 54 Research Institute filed Critical Guilin University of Electronic Technology
Priority to CN202110503654.6A priority Critical patent/CN113139050B/zh
Publication of CN113139050A publication Critical patent/CN113139050A/zh
Application granted granted Critical
Publication of CN113139050B publication Critical patent/CN113139050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于命名实体识别附加标签和先验知识的文本摘要生成方法,该方法包括:在原始文本的基础上添加命名实体识别的附加标签;将添加附加标签的文本基于字符进行处理,同时根据原始文本生成对应的向量字典并对文本向量化;将得到的向量化文本作为生成式摘要模块的输入进行编码,解码阶段引入注意力机制,获取全局信息;使用原始文本中的词集构建先验知识库,与得到的序列做加权平均;解码阶段得到的结果通过集束搜索方法进行文本还原;删除标签输出原始文本的摘要结果。本发明中附加标签的添加使得实体类识别更准确,生成的摘要不会出现名称不全现象;先验知识的引入使得生成的摘要语义更加贴近原文,减少了出现与文本相关性不大的语句。

Description

基于命名实体识别附加标签和先验知识的文本摘要生成方法
技术领域
本发明涉及计算机自然语言处理技术领域,具体涉及一种基于命名实体识别附加标签和先验知识的文本摘要生成方法。
背景技术
文本自动摘要(Text Summarization)是指通过自动分析一篇或多篇给定的文章,根据一些语法以及句法等信息分析其中的关键信息,通过压缩、精简得到一篇可读性较高且简明扼要的文章摘要,这个摘要可以由文章中的关键句构成,也可以重新生成,其长度不超过或远少于原文本的一半,根据摘要的生成方法可以分为抽取式摘要、生成式摘要和压缩式摘要。抽取式摘要简单来说就是抽取出主旨句以及与主旨密切相关的句子组成摘要,内容全部来自于原文,此方法易于实现且每个摘要句内部语句通顺,但是得到的摘要内容冗长,连贯性难以保证。生成式摘要是在理解原文意思的基础上,对文本进行深层次信息的进行挖掘,根据要点信息进行信息融合,该方法可以像人工撰写摘要一样完成摘要内容,得到更加凝练的摘要,所以得到了广泛的应用与研究。由于文本内容更新太快,尤其是新闻类文本,涉及过多的人名、地名、组织名等,面对全新的文本内容,即使是生成式自动摘要也难以保证可读性和连贯性,甚至有些人名、地名都识别不全,严重影响摘要效果;而且摘要的生成是逐字生成,人名、地名识别错误会导致后续误差累计,增加摘要里与原文相关低的语句。
发明内容
为克服上述缺陷,本发明提供一种基于命名实体识别附加标签和先验知识的文本摘要生成方法,在原始文本基础上添加命名实体识别的附加标签以及引入先验知识生成摘要。附加标签的添加使得摘要的实体类识别更准确,生成的摘要不会出现人名、地名、机构名不全导致的语句不连贯问题;先验知识的引入使得生成的摘要语义更加贴近原文,提高了生成摘要的准确性,减少了生成的摘要里出现与文本相关性不大的语句。
本发明的技术方案主要包括以下步骤:
S1:输入待生成摘要的原始文本。
S2:将原始文本输入到命名实体识别(NER)模块中进行实体标记,在原始文本的基础上添加命名实体识别的附加标签。
S3:将添加附加标签的文本基于字符进行处理(文本中的英语单词和附加标签不处理),同时根据原始文本生成对应的向量字典并对文本向量化表示。
S4:将S3得到的向量化文本作为生成式摘要模块的输入,将输入进行编码,解码阶段引入注意力机制,获取全局信息。
S5:使用原始文本中的词集构建先验知识库,与S4得到的序列做加权平均。
S6:解码阶段得到的结果通过集束搜索方法进行文本还原,得到还原的文本摘要结果。
S7:由于生成摘要阶段添加了附加标签,得到的文本摘要结果包含标签,删除标签输出原始文本的摘要结果。
具体实施方式
下面通过具体的实施例,对本发明做进一步的详细说明。
实施例技术方案主要步骤如下:
S1:输入待生成摘要的原始文本。
S2:将原始文本输入到命名实体识别(NER)模块中进行实体标记,在原始文本的基础上添加命名实体识别的附加标签。
对于原始文本,利用命名实体识别进行实体标记。实体标记的标签类别主要分为三类:PERSON(人名)、ORG(组织)、LOC(地名);实体标记的标签边界定义分别为:<PERSON></PERSON>,<ORG></ORG>,<LOC></LOC>。利用第三方库Stanford-NER对原始文本进行实体标记,给定原始文本为X={x1,x2,......,xn},生成带附加标签的文本序列
Figure BDA0003057445590000021
n表示文本序列的长度。
S3:将文本序列Xe基于字符进行处理(文本中的英语单词和附加标签不处理),同时根据原始文本生成对应的向量字典并对文本向量化表示。
将文本基于字符分词处理,以空格为分割标志,中文文本中的英语单词则不分割,完整保留;分词后的文本序列
Figure BDA0003057445590000022
按照字符出现顺序向量标记,重复字符只标记一次,生成的向量字典表示为V={v1,v2,......vm},其中m表示为文本序列中出现的字符数量;另外,向量字典中添加<start>和<end>标签的向量表示,记录每个文本的开始和结束;利用向量字典V对文本序列
Figure BDA0003057445590000031
向量化表示为
Figure BDA0003057445590000032
其中
Figure BDA0003057445590000033
为文本序列
Figure BDA0003057445590000034
的向量化表示,
Figure BDA0003057445590000035
Figure BDA0003057445590000036
中的一项,
Figure BDA0003057445590000037
a表示该序列的长度。
S4:将步骤S3得到的向量化文本序列
Figure BDA0003057445590000038
作为生成式摘要模块的输入,将输入进行编码,解码阶段引入注意力机制,获取全局信息。
生成式摘要模块给予seq2seq模型构建,分为encoder和decoder两个部分,将S3得到的向量化文本作为生成式摘要模块的encoder部分的输入,得到的结果再作为decoder部分的输入。
所述生成式模块具体实现步骤如下:
S4-1:序列
Figure BDA0003057445590000039
输入生成式摘要模块的Encoder部分,把序列
Figure BDA00030574455900000310
中的每一项
Figure BDA00030574455900000311
(每一项的长度不固定,取决于该项原始文本的长度)编码为固定大小的向量,包含了输入文本序列的全部信息。经过Encoder编码后的向量表示为
Figure BDA00030574455900000312
编码阶段使用双向长短时记忆网络(BiLSTM),记忆门的神经元
Figure BDA00030574455900000313
输入门神经元
Figure BDA00030574455900000314
遗忘门神经元
Figure BDA00030574455900000315
输出门神经元
Figure BDA00030574455900000316
其中σ为sigmoid函数,Wf,bf,wi,bi,Wc,bc是各个门神经元的参数,
Figure BDA00030574455900000317
是当前t时刻的输入。
S4-2:生成式摘要模块的Decoder部分将编码得到的序列
Figure BDA00030574455900000318
作为输入,经过解码生成的输出序列表示为Yn={y1,y2,......yn};解码阶段,根据编码得到的序列
Figure BDA00030574455900000319
和从第1时刻到第t-1时刻输出结果的集合Yt-1={y1,y2,......yt-1}来预测第t时刻的输出结果yt,计算公式为
Figure BDA00030574455900000320
当到达第n时刻最终得到序列Yn;其中y1表示第1时刻输出的结果,y2表示第2时刻输出的结果,yt-1表示第t-1时刻输出的结果。
S4-3:在生成式摘要模块的Decoder部分引入注意力机制(Attention),将解码的输出序列Yn做为Attention的输入。根据上述S4-2,解码时不仅利用Encoder编码的序列
Figure BDA0003057445590000041
还要逐字查阅输入序列Yn的每一个字符,结合上文信息解码当前时间t的输出。注意力机制(Attention)的公式定义为
Figure BDA0003057445590000042
其中
Figure BDA0003057445590000043
一般地,K=V,用解码生成的输出序列Y表示,编码得到的序列
Figure BDA0003057445590000044
表示为Q。通过Q的每一项与K的每一项进行相似度计算得到权重,使用softmax函数对这些权重进行归一化处理,最后将权重和V中相应的每一项进行加权求和得到最终输出序列Ya。
S5:使用原始文本中的词集构建先验知识库,与步骤S4得到的序列Ya做加权平均。
使用原始文本中的词集构建先验知识库,根据文本序列Xe和对应的摘要得到先验知识库的向量序列Xpre=(X1,X2,...,Xn),其中Xn=1表示该词在摘要中出现过,Xn=0表示该词没有在摘要中出现过,Xn=2表示该词为标记过的实体(仅表示出现过的词,不一定连续出现、词序相同或标题完全包含在原始文本中)。将Xpre经过一个缩放平移得到:
Figure BDA0003057445590000045
其中s,t为训练参数。将
Figure BDA0003057445590000046
与Ya加权平均后使用softmax函数得到序列
Figure BDA0003057445590000047
S6:解码阶段得到的结果通过集束搜索方法进行文本还原,得到还原的文本摘要结果。
对解码阶段得到的输出序列
Figure BDA0003057445590000048
进行还原得到最终的摘要结果序列Ybeam,采用集束搜索方法。在对输出序列
Figure BDA0003057445590000049
每一项计算时,只保留当前最优的topk个候选结果。一般地,topk=3,即每次还原计算时保留使
Figure BDA00030574455900000410
最大的3个Y1,将Y1分别代入
Figure BDA00030574455900000411
仍然保留使P最大的3个Y2,依次递归,直到出现<end>标签表示还原摘要结束。
S7:由于生成摘要阶段添加了附加标签,得到的文本摘要结果包含标签,删除标签输出原始文本的摘要结果。
还原摘要的序列Ybeam包含命名实体识别的附加标签,根据定义的实体标记的标签边界,删除对应标签,最终得到原始文本的摘要结果。
本发明的有益效果:
在原始文本的基础上添加命名实体识别的附加标签,有助于生成摘要阶段识别标记的实体(人名、地名、机构名);使用生成式摘要模型,模型训练阶段学习全局信息,根据人类阅读习惯,逐字生成摘要。根据已有标签的原始文本和训练集对应的摘要构建先验知识库,在摘要生成阶段引入先验知识库,有助于生成摘要阶段使用与原始文本相关度较大的语句并且更贴近原始文本的语义风格。由于原始文本已添加实体标签,也能针对实体信息训练,生成摘要时能够更准确的识别实体类。并且,摘要是逐字生成,对于实体类生成不准确,误差累计会影响之后的摘要生成。摘要里实体类的准确生成在一定程度上,能提高摘要的可读性和连贯性;先验知识库的引入,也能使摘要的语义更加贴近原文,进一步加强摘要的可读性和准确性,减少摘要里与原文低相关度的词语。

Claims (1)

1.基于命名实体识别附加标签和先验知识的文本摘要生成方法,其特征在于,包括以下步骤:
(1)将原始文本输入到命名实体识别模块中进行实体标记,在原始文本的基础上添加命名实体识别的附加标签:实体标记的标签类别分为PERSON、ORG和LOC三类,PERSON表示人名,ORG表示组织,LOC表示地名;实体标记的标签边界定义分别为<PERSON></PERSON>,<ORG></ORG>,<LOC></LOC>;利用第三方库Stanford-NER对原始文本进行实体标记,给定原始文本为X={x1,x2,......,xn},生成带附加标签的文本序列
Figure FDA0003057445580000011
n表示文本序列的长度;
(2)将文本序列Xe基于字符进行处理,同时根据原始文本生成对应的向量字典并对文本向量化:将文本基于字符分词处理,生成文本序列
Figure FDA0003057445580000012
以空格为分割标志,中文文本中的英语单词不分割,完整保留;分词后的文本序列
Figure FDA0003057445580000013
按照字符出现顺序向量标记,重复字符只标记一次,生成的向量字典表示为V={v1,v2,......vm},其中m表示文本序列中出现的字符数量;另外,向量字典中添加<start>和<end>标签的向量表示,分别记录每个文本的开始和结束;利用向量字典V对文本序列
Figure FDA0003057445580000014
向量化表示为
Figure FDA0003057445580000015
Figure FDA0003057445580000016
其中
Figure FDA0003057445580000017
Figure FDA0003057445580000018
中的一项,
Figure FDA0003057445580000019
a表示该序列的长度;
(3)将步骤(2)得到的向量化文本序列
Figure FDA00030574455800000110
作为生成式摘要模块的输入,将输入进行编码,解码阶段引入注意力机制,获取全局信息;所述生成式摘要模块具体实现步骤如下:
S3-1:序列
Figure FDA00030574455800000111
输入生成式摘要模块的Encoder部分,把序列
Figure FDA00030574455800000112
中的每一项
Figure FDA00030574455800000113
编码为固定大小的向量,经过Encoder编码后的向量表示为
Figure FDA00030574455800000114
编码阶段使用双向长短时记忆网络BiLSTM,记忆门的神经元
Figure FDA00030574455800000115
输入门神经元
Figure FDA00030574455800000116
遗忘门神经元
Figure FDA00030574455800000117
输出门神经元
Figure FDA00030574455800000118
其中σ为sigmoid函数,Wf,bf,Wi,bi,Wc,bc是各个门神经元的参数,
Figure FDA00030574455800000119
是当前t时刻的输入;
S3-2:生成式摘要模块的Decoder部分将编码得到的序列
Figure FDA0003057445580000021
作为输入,经过解码生成的输出序列表示为Yn,Yn={y1,y2,......yn};解码阶段,根据编码得到的序列
Figure FDA0003057445580000022
和从第1时刻到第t-1时刻输出结果的集合Yt-1={y1,y2,......yt-1}来预测第t时刻的输出结果yt,计算公式为
Figure FDA0003057445580000023
当到达第n时刻最终得到序列Yn;其中y1表示第1时刻输出的结果,y2表示第2时刻输出的结果,yt-1表示第t-1时刻输出的结果;
S3-3:在生成式摘要模块的Decoder部分引入注意力机制Attention,将解码的输出序列Yn做为Attention的输入;注意力机制Attention的公式定义为
Figure FDA0003057445580000024
其中
Figure FDA0003057445580000025
选择K=V,用解码生成的输出序列Yn表示,编码得到的序列
Figure FDA0003057445580000026
表示为Q,通过Q的每一项与K的每一项进行相似度计算得到权重,使用softmax函数对这些权重进行归一化处理,最后将权重和V中相应的每一项进行加权求和得到包含全局信息的序列Ya;
(4)使用原始文本中的词集构建先验知识库,与步骤(3)得到的序列Ya做加权平均:根据文本序列Xe和对应的摘要得到先验知识库的向量序列Xpre=(X1,X2,...,Xn),其中Xn=1表示该词在摘要中出现过,Xn=0表示该词没有在摘要中出现过,Xn=2表示该词为标记过的实体;将Xpre经过一个缩放平移得到:
Figure FDA0003057445580000027
其中s,t为训练参数,将
Figure FDA0003057445580000028
与Ya加权平均后使用softmax函数得到序列
Figure FDA0003057445580000029
(5)解码阶段得到的结果通过集束搜索方法进行文本还原,得到还原的文本摘要结果:在对输出序列
Figure FDA00030574455800000210
每一项计算时,只保留当前最优的topk个候选结果,选择topk=3,即每次还原计算时保留使
Figure FDA00030574455800000211
最大的3个Y1,将Y1分别代入
Figure FDA0003057445580000031
仍然保留使P最大的3个Y2,依次递归,直到出现<end>标签表示还原摘要结束;
(6)根据定义的实体标记的标签边界,删除对应标签,最终得到原始文本的摘要结果。
CN202110503654.6A 2021-05-10 2021-05-10 基于命名实体识别附加标签和先验知识的文本摘要生成方法 Active CN113139050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110503654.6A CN113139050B (zh) 2021-05-10 2021-05-10 基于命名实体识别附加标签和先验知识的文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110503654.6A CN113139050B (zh) 2021-05-10 2021-05-10 基于命名实体识别附加标签和先验知识的文本摘要生成方法

Publications (2)

Publication Number Publication Date
CN113139050A true CN113139050A (zh) 2021-07-20
CN113139050B CN113139050B (zh) 2022-07-19

Family

ID=76817781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110503654.6A Active CN113139050B (zh) 2021-05-10 2021-05-10 基于命名实体识别附加标签和先验知识的文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN113139050B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150002A (zh) * 2023-11-01 2023-12-01 浙江大学 一种基于动态知识引导的摘要生成方法、系统及装置

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262361A1 (en) * 2012-04-02 2013-10-03 Playence GmBH System and method for natural language querying
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
US20180082197A1 (en) * 2016-09-22 2018-03-22 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
CN109033074A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 新闻摘要生成方法、装置、设备及计算机可读介质
CN109522411A (zh) * 2018-11-12 2019-03-26 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法
CN110688479A (zh) * 2019-08-19 2020-01-14 中国科学院信息工程研究所 一种用于生成式摘要的评估方法及排序网络
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111709241A (zh) * 2020-05-27 2020-09-25 西安交通大学 一种面向网络安全领域的命名实体识别方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130262361A1 (en) * 2012-04-02 2013-10-03 Playence GmBH System and method for natural language querying
CN106250412A (zh) * 2016-07-22 2016-12-21 浙江大学 基于多源实体融合的知识图谱构建方法
US20180082197A1 (en) * 2016-09-22 2018-03-22 nference, inc. Systems, methods, and computer readable media for visualization of semantic information and inference of temporal signals indicating salient associations between life science entities
CN109033074A (zh) * 2018-06-29 2018-12-18 北京百度网讯科技有限公司 新闻摘要生成方法、装置、设备及计算机可读介质
CN109522411A (zh) * 2018-11-12 2019-03-26 南京德磐信息科技有限公司 一种基于神经网络的写作辅助方法
CN110688479A (zh) * 2019-08-19 2020-01-14 中国科学院信息工程研究所 一种用于生成式摘要的评估方法及排序网络
CN111241267A (zh) * 2020-01-10 2020-06-05 科大讯飞股份有限公司 摘要提取和摘要抽取模型训练方法及相关装置、存储介质
CN111709241A (zh) * 2020-05-27 2020-09-25 西安交通大学 一种面向网络安全领域的命名实体识别方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
石磊 等: ""基于序列到序列模型的生成式文本摘要研究综述"", 《情报学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117150002A (zh) * 2023-11-01 2023-12-01 浙江大学 一种基于动态知识引导的摘要生成方法、系统及装置
CN117150002B (zh) * 2023-11-01 2024-02-02 浙江大学 一种基于动态知识引导的摘要生成方法、系统及装置

Also Published As

Publication number Publication date
CN113139050B (zh) 2022-07-19

Similar Documents

Publication Publication Date Title
CN109933801B (zh) 基于预测位置注意力的双向lstm命名实体识别方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN110083831A (zh) 一种基于BERT-BiGRU-CRF的中文命名实体识别方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111897949A (zh) 一种基于Transformer的引导性文本摘要生成方法
CN111241816A (zh) 一种新闻标题自动生成方法
CN113190656B (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113239663B (zh) 一种基于知网的多义词中文实体关系识别方法
CN111666758A (zh) 中文分词方法、训练设备以及计算机可读存储介质
CN115292463B (zh) 一种基于信息抽取的联合多意图检测和重叠槽填充的方法
CN111209749A (zh) 一种将深度学习应用于中文分词的方法
CN115310448A (zh) 一种基于bert和字词向量结合的中文命名实体识别方法
CN113553848A (zh) 长文本分类方法、系统、电子设备、计算机可读存储介质
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN114912453A (zh) 基于增强序列特征的中文法律文书命名实体识别方法
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN115545033A (zh) 融合词汇类别表征的中文领域文本命名实体识别方法
CN114723013A (zh) 一种多粒度知识增强的语义匹配方法
CN113139050B (zh) 基于命名实体识别附加标签和先验知识的文本摘要生成方法
CN114564953A (zh) 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型
CN116069924A (zh) 一种融合全局和局部语义特征的文本摘要生成方法及系统
CN115358227A (zh) 一种基于短语增强的开放域关系联合抽取方法及系统
CN112634878B (zh) 语音识别后处理方法和系统及相关设备
CN114330350A (zh) 一种命名实体识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant