CN113255344A - 一种融合主题信息的关键词生成方法 - Google Patents

一种融合主题信息的关键词生成方法 Download PDF

Info

Publication number
CN113255344A
CN113255344A CN202110525483.7A CN202110525483A CN113255344A CN 113255344 A CN113255344 A CN 113255344A CN 202110525483 A CN202110525483 A CN 202110525483A CN 113255344 A CN113255344 A CN 113255344A
Authority
CN
China
Prior art keywords
document
distribution
word
topic
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110525483.7A
Other languages
English (en)
Other versions
CN113255344B (zh
Inventor
马甲林
成洁怡
魏丹丹
焦英杰
李翔
朱全银
赵春晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huaiyin Institute of Technology
Original Assignee
Huaiyin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huaiyin Institute of Technology filed Critical Huaiyin Institute of Technology
Priority to CN202110525483.7A priority Critical patent/CN113255344B/zh
Publication of CN113255344A publication Critical patent/CN113255344A/zh
Application granted granted Critical
Publication of CN113255344B publication Critical patent/CN113255344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理和关键词提取技术领域,公开了一种融合主题信息的关键词生成方法,对语料库C进行预处理得到向量模型;采用word2vec对Xbow预训练得到词向量Xseq;将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档‑主题分布θ;将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;将文档‑主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;采用集束搜索,生成关键词的排名列表。与现有技术相比,本发明不仅强调了标题对整个文档的主导作用,还使得生成的词更加契合文档的主题。

Description

一种融合主题信息的关键词生成方法
技术领域
本发明涉及自然语言处理和关键词提取技术领域,具体涉及一种融合主题信息的关键词生成方法。
背景技术
关键词通常为一个或多个能够描述文档主题信息的词语或词组。随着自然语言处理研究的逐步深入,关键词作为表达文档主题意义的最小单位在多项自然语言处理任务诸如文本分类、文本摘要、信息检索中都发挥了重要的作用。一般来说,可以细分为关键词抽取技术和关键词生成技术。其中,关键词抽取技术指从文档中筛选得到能表达文档主题的单词(词组),该关键词必然出现在文档中出现,而关键词生成技术指从词表中选择与文档主题相近的单词(词组)作为该文档的关键词,与该关键词是否在文档中出现出关。例如,在科技文献中,作者给出的关键词有很多并不会在正文中出现。同时,文档的标题是作者对文档内容的概括,对文档的关键词具有重要的导向性作用,但大多关键词生成方法都只是简单地将文档标题和正文同等对待。而文档的主题信息,也能够更好地丰富文档的语义信息。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种融合主题信息的关键词生成方法,不仅强调了标题对整个文档的主导作用,还使得生成的更加契合文档的主题。
技术方案:本发明提供了一种融合主题信息的关键词生成方法,包括如下步骤:
步骤1:输入语料库C并进行预处理得到向量模型Xbow,Xbow={T1,T2,...,TN}为C中所有文档的向量空间表示模型,N为语料库文档数量;
步骤2:采用word2vec对Xbow预训练得到词向量Xseq
步骤3:将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档-主题分布θ;
步骤4:将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;
步骤5:将文档-主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;
步骤6:采用集束搜索,生成关键词的排名列表。
进一步地,所述步骤3具体过程为:
步骤3.1:通过多层感知机将Xbow编码为一个连续的潜在高斯变量Z,Z服从N(μ,σ2)分布:μ=fμ(fε(Xbow)),logσ=fσ(fε(Xbow)),其中,Z表示Xbow的主题,μ和σ均是通过神经网络生成的,N(μ,σ2)来表示各向同性的高斯分布,σ2是协方差矩阵的对角线,f*(·)是具有RuLU激活函数的多层感知机;
步骤3.2:使用softmax函数,构建文档-主题分布θ=softmax(W1 TZ),作为文档的主题分布向量来辅助关键词的生成,其中,W1为L*K的矩阵,L为Z的维数,K为主题数。
进一步地,所述步骤4具体过程为遍历语料库C中每一个文档及其标题中的所有词,依次按照如下原理进行编码:
步骤4.1:进行第一层序列编码层,使用两个双向门控循环单元网络(GRU)分别xi和tj进行编码,将上下文的语义信息整合到每个单词的表示中:
Figure BDA0003064479230000021
Figure BDA0003064479230000022
Figure BDA0003064479230000023
Figure BDA0003064479230000024
Figure BDA0003064479230000025
Figure BDA0003064479230000026
其中,xi为语料库中文档的第i个单词的向量,tj为该文档标题的第j个词的向量;ui和vj分别为第i个单词和第j个标题词的上下文向量;→表示向右的编码方向,←表示向左的编码方向;
步骤4.2:第二层为基于注意力机制的匹配层,用于聚合标题中的每个单词的相关信息,聚合操作
Figure BDA0003064479230000027
具体为:
Figure BDA0003064479230000028
Figure BDA0003064479230000029
si,j=(ui)TW1vj
其中,ci是文档x的第i个单词的聚合后的信息向量,si,j是ui和vj未归一化的注意力权重,αi,j是ui和vj的归一化的注意力权重;
步骤4.3:第三层为合并层,将上下文向量ui和聚合后的信息向量ci作为信息合并层的输入,获得以标题为导向的上下文表示,存储为M:
Figure BDA0003064479230000031
Figure BDA0003064479230000032
Figure BDA0003064479230000033
Figure BDA0003064479230000034
其中,ui是一个残差连接,λ∈(0,1)是相应的超参数。
进一步地,所述步骤5具体过程如下:
步骤5.1:将文档-主题分布θ输入单向门控循环单元网络(GRU),用于添加主题信息θ,具体公式为sj=fGRU([zj;θ],sj-1),其中,zj为第j个解码器的输入,sj为第j个时刻的隐藏状态,sj-1为前一个隐藏状态;
步骤5.2:对序列M进行解码,通过注意力机制捕获重要信息,预测第j个关键词,其注意力分布为α'ij
步骤5.3:解码器根据注意力分布α'ij,即单词的概率分布,来找到下一个单词,通过注意力分布来产生一个编码器隐藏状态的加权和,作为主题感知的上下文向量为cj
Figure BDA0003064479230000035
步骤5.4:将上下文向量cj与解码器状态sj连接,通过两个线性层,用一个softmax函数来得到词汇表中所有词的概率分布pgen:pgen=softmax(Wgen[sj;cj]+bgen),其中,Wgen,bgen是可训练参数;
步骤5.5:输入主题敏感的上下文向量为cj、解码器状态sj,计算时间步长为j的生成概率λj,具体公式如下:λj=sigmoid(Wλ[zj;sj;cj;θ]+bλ),其中,Wλ,bλ是可训练参数,λj∈[0,1],λj被用作一个软开关,用于判断是从原文中直接提取关键词,还是原文档以外的语料库中生成关键词;
步骤5.6:将生成词汇与原文档中出现的所有单词合并为扩展词汇表,它的概率分布为pj
步骤5.7:文档-主题分布θ和编码M作为输入,生成关键词Y的概率。
进一步地,所述注意力分布α'ij为:
Figure BDA0003064479230000041
Figure BDA0003064479230000042
其中,vα,Wα,bα是可训练参数,fα(·)表示第i个词与第j个待预测目标词之间的语义信息。
进一步地,所述步骤5.6中的概率分布pj为:
Figure BDA0003064479230000043
其中,若是生成的原文档中没有的单词,则pgen=0;
进一步地,所述关键词Y的概率具体为:
Figure BDA0003064479230000044
其中,Y<j=<y1,y2,...,yj-1>,Y为生成的关键词,X为语料中的词汇,Pr(yj|Y<j,M,θ)用pj表示,是单词在扩展词汇表的分布。
有益效果:
1、本发明将神经主题模型与Seq2Seq(序列到序列)模型相结合,先采用神经主题模型抽取出主题词。利用主题词来辅助关键词的生成,使得生成的短语更加契合文本的主题。
2、本发明采用基于注意力机制的层次化编码器,其匹配层是由两部分组成,第一部分是标题到标题的自匹配,用来加强标题本身的重要信息;另一部分是正文到标题的匹配部分,每个正文中的词也根据语义关联聚合相关的标题信息。该匹配层,和以往的方法相比,能够更充分地利用标题信息,突出标题在文档中的重要性。
3、本发明采用加入复制机制的循环神经网络,不仅可以从原文档中复制词作为关键词,还可以生成文档中没有出现过的关键词,关键词的抽取方法更优。
具体实施方式
下面结合具体实例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明公开的一种融合主题信息的关键词生成方法,包括如下步骤:
步骤1:输入语料库C并进行预处理得到向量模型Xbow,Xbow={T1,T2,...,TN}为C中所有文档的向量空间表示模型,N为语料库文档数量;
具体的,本发明实施例采用的语料库是公开数据集KP20k,数据集共有567,830篇论文。
具体的,对语料库预训练词向量前采用python的结巴分词工具包对预料库中的所有文档进行分词和去停用词,并进行预处理得到向量模型Xbow
步骤2:采用word2vec对Xbow预训练得到词向量Xseq
具体的,对语料库预训练词向量采用python开源的gensim包中的word2vec模型进行训练。
步骤3:将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档-主题分布θ。
步骤3.1:通过多层感知机将Xbow编码为一个连续的潜在高斯变量Z,Z服从N(μ,σ2)分布:μ=fμ(fε(Xbow)),logσ=fσ(fε(Xbow)),其中,Z表示Xbow的主题,μ和σ均是通过神经网络生成的,N(μ,σ2)来表示各向同性的高斯分布,σ2是协方差矩阵的对角线,f*(·)是具有RuLU激活函数的多层感知机。
步骤3.2:使用softmax函数,构建文档-主题分布θ=softmax(W1 TZ),作为文档的主题分布向量来辅助关键词的生成,其中,W1为L*K的矩阵,L为Z的维数,K为主题数。
步骤4:将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M。
步骤4.1:进行第一层序列编码层,使用两个双向门控循环单元网络(GRU)分别xi和tj进行编码,将上下文的语义信息整合到每个单词的表示中:
Figure BDA0003064479230000051
Figure BDA0003064479230000052
Figure BDA0003064479230000053
Figure BDA0003064479230000054
Figure BDA0003064479230000055
Figure BDA0003064479230000056
其中,xi为语料库中文档的第i个单词的向量,tj为该文档标题的第j个词的向量;ui和vj分别为第i个单词和第j个标题词的上下文向量;→表示向右的编码方向,←表示向左的编码方向;
步骤4.2:第二层为基于注意力机制的匹配层,用于聚合标题中的每个单词的相关信息,聚合操作
Figure BDA0003064479230000061
具体为:
Figure BDA0003064479230000062
Figure BDA0003064479230000063
si,j=(ui)TW1vj
其中,ci是文档x的第i个单词的聚合后的信息向量,si,j是ui和vj未归一化的注意力权重,αi,j是ui和vj的归一化的注意力权重;
步骤4.3:第三层为合并层,将上下文向量ui和聚合后的信息向量ci作为信息合并层的输入,获得以标题为导向的上下文表示,存储为M:
Figure BDA0003064479230000064
Figure BDA0003064479230000065
Figure BDA0003064479230000066
Figure BDA0003064479230000067
其中,ui是一个残差连接,λ∈(0,1)是相应的超参数。
步骤5:将文档-主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布。
步骤5.1:将文档-主题分布θ输入单向门控循环单元网络(GRU),用于添加主题信息θ,具体公式为sj=fGRU([zj;θ],sj-1),其中,zj为第j个解码器的输入,sj为第j个时刻的隐藏状态,sj-1为前一个隐藏状态。
步骤5.2:对序列M进行解码,通过注意力机制捕获重要信息,预测第j个关键词,其注意力分布为α'ij,注意力分布α'ij为:
Figure BDA0003064479230000071
Figure BDA0003064479230000072
其中,vα,Wα,bα是可训练参数,fα(·)表示第i个词与第j个待预测目标词之间的语义信息。
步骤5.3:解码器根据注意力分布α'ij,即单词的概率分布,来找到下一个单词,通过注意力分布来产生一个编码器隐藏状态的加权和,作为主题感知的上下文向量为cj
Figure BDA0003064479230000073
步骤5.4:将上下文向量cj与解码器状态sj连接,通过两个线性层,用一个softmax函数来得到词汇表中所有词的概率分布pgen:pgen=softmax(Wgen[sj;cj]+bgen),其中,Wgen,bgen是可训练参数;
步骤5.5:输入主题敏感的上下文向量为cj、解码器状态sj,计算时间步长为j的生成概率λj,具体公式如下:λj=sigmoid(Wλ[zj;sj;cj;θ]+bλ),其中,Wλ,bλ是可训练参数,λj∈[0,1],λj被用作一个软开关,用于判断是从原文中直接提取关键词,还是原文档以外的语料库中生成关键词;
步骤5.6:将生成词汇与原文档中出现的所有单词合并为扩展词汇表,它的概率分布为pj,概率分布pj为:
Figure BDA0003064479230000074
其中,若是生成的原文档中没有的单词,则pgen=0
步骤5.7:文档-主题分布θ和编码M作为输入,生成关键词Y的概率。
关键词Y的概率具体为:
Figure BDA0003064479230000075
其中,Y<j=<y1,y2,...,yj-1>,Y为生成的关键词,X为语料中的词汇,Pr(yj|Y<j,M,θ)用pj表示,是单词在扩展词汇表的分布。
步骤6:采用集束搜索,生成关键词的排名列表。
为进一步说明本发明提供方法的实施效果,另选用最大的公开数据集KP20k作为训练数据集,数据集共有567,830篇论文,其中527,830用于训练,20,000篇用于验证,20,000篇用于测试。采用本发明提供的关键词生成方法来预测前5个、10个关键词,对比了多个现有的关键词抽取算法(TF-IDF、TextRank、Seq2Seq-copy、Seq2Seq-corr),以F1值作为性能指标预测前5个、10个关键词,F1=2*(准确率*召回率)/(准确率+召回率),F1的值是精准率与召回率的调和平均数。F1的取值范围从0到1的数量越大,表明实现越理想。
其中,Precision(精准率)=TP/(TP+FP),Recall(召回率)=TP/(TP+FN)。
实验结果如表1所示:
表1五个模型生成关键词的F1指标
Figure BDA0003064479230000081
由表1可见,本发明提出的关键词抽取方法比其他四种方法的评价指标F1值更优。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。

Claims (7)

1.一种融合主题信息的关键词生成方法,其特征在于,包括如下步骤:
步骤1:输入语料库C并进行预处理得到向量模型Xbow,Xbow={T1,T2,...,TN}为C中所有文档的向量空间表示模型,N为语料库文档数量;
步骤2:采用word2vec对Xbow预训练得到词向量Xseq
步骤3:将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档-主题分布θ;
步骤4:将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;
步骤5:将文档-主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;
步骤6:采用集束搜索,生成关键词的排名列表。
2.根据权利要求1所述的融合主题信息的关键词生成方法,其特征在于,所述步骤3具体过程为:
步骤3.1:通过多层感知机将Xbow编码为一个连续的潜在高斯变量Z,Z服从N(μ,σ2)分布:μ=fμ(fε(Xbow)),logσ=fσ(fε(Xbow)),其中,Z表示Xbow的主题,μ和σ均是通过神经网络生成的,N(μ,σ2)来表示各向同性的高斯分布,σ2是协方差矩阵的对角线,f*(·)是具有RuLU激活函数的多层感知机;
步骤3.2:使用softmax函数,构建文档-主题分布θ=softmax(W1 TZ),作为文档的主题分布向量来辅助关键词的生成,其中,W1为L*K的矩阵,L为Z的维数,K为主题数。
3.根据权利要求1所述的融合主题信息的关键词生成方法,其特征在于,所述步骤4具体过程为遍历语料库C中每一个文档及其标题中的所有词,依次按照如下原理进行编码:
步骤4.1:进行第一层序列编码层,使用两个双向门控循环单元网络(GRU)分别对xi和tj进行编码,将上下文的语义信息整合到每个单词的表示中:
Figure FDA0003064479220000011
Figure FDA0003064479220000012
Figure FDA0003064479220000021
Figure FDA0003064479220000022
Figure FDA0003064479220000023
Figure FDA0003064479220000024
其中,xi为语料库中文档的第i个单词的向量,tj为该文档标题的第j个词的向量;ui和vj分别为第i个单词和第j个标题词的上下文向量;→表示向右的编码方向,←表示向左的编码方向;
步骤4.2:第二层为基于注意力机制的匹配层,用于聚合标题中的每个单词的相关信息,聚合操作
Figure FDA00030644792200000211
具体为:
Figure FDA0003064479220000025
Figure FDA0003064479220000026
si,j=(ui)TW1vj
其中,ci是文档x的第i个单词的聚合后的信息向量,si,j是ui和vj未归一化的注意力权重,αi,j是ui和vj的归一化的注意力权重;
步骤4.3:第三层为合并层,将上下文向量ui和聚合后的信息向量ci作为信息合并层的输入,获得以标题为导向的上下文表示,存储为M:
Figure FDA0003064479220000027
Figure FDA0003064479220000028
Figure FDA0003064479220000029
Figure FDA00030644792200000210
其中,ui是一个残差连接,λ∈(0,1)是相应的超参数。
4.根据权利要求3所述的融合主题信息的关键词生成方法,其特征在于,所述步骤5具体过程如下:
步骤5.1:将文档-主题分布θ输入单向门控循环单元网络(GRU),用于添加主题信息θ,具体公式为sj=fGRU([zj;θ],sj-1),其中,zj为第j个解码器的输入,sj为第j个时刻的隐藏状态,sj-1为前一个隐藏状态;
步骤5.2:对序列M进行解码,通过注意力机制捕获重要信息,预测第j个关键词,其注意力分布为α'ij
步骤5.3:解码器根据注意力分布α'ij,即单词的概率分布,来找到下一个单词,通过注意力分布来产生一个编码器隐藏状态的加权和,作为主题感知的上下文向量为cj
Figure FDA0003064479220000031
步骤5.4:将上下文向量cj与解码器状态sj连接,通过两个线性层,用一个softmax函数来得到词汇表中所有词的概率分布pgen:pgen=softmax(Wgen[sj;cj]+bgen),其中,Wgen,bgen是可训练参数;
步骤5.5:输入主题敏感的上下文向量为cj、解码器状态sj,计算时间步长为j的生成概率λj,具体公式如下:λj=sigmoid(Wλ[zj;sj;cj;θ]+bλ),其中,Wλ,bλ是可训练参数,λj∈[0,1],λj被用作一个软开关,用于判断是从原文中直接提取关键词,还是原文档以外的语料库中生成关键词;
步骤5.6:将生成词汇与原文档中出现的所有单词合并为扩展词汇表,它的概率分布为pj
步骤5.7:文档-主题分布θ和编码M作为输入,生成关键词Y的概率。
5.根据权利要求4所述的融合主题信息的关键词生成方法,其特征在于,所述注意力分布α'ij为:
Figure FDA0003064479220000032
Figure FDA0003064479220000033
其中,vα,Wα,bα是可训练参数,fα(·)表示第i个词与第j个待预测目标词之间的语义信息。
6.根据权利要求4所述的融合主题信息的关键词生成方法,其特征在于,所述步骤5.6中的概率分布pj为:
Figure FDA0003064479220000041
其中,若是生成的原文档中没有的单词,则pgen=0。
7.根据权利要求4所述的融合主题信息的关键词生成方法,其特征在于,所述关键词Y的概率具体为:
Figure FDA0003064479220000042
其中,Y<j=<y1,y2,...,yj-1>,Y为生成的关键词,X为语料中的词汇,Pr(yj|Y<j,M,θ)用pj表示,是单词在扩展词汇表的分布。
CN202110525483.7A 2021-05-13 2021-05-13 一种融合主题信息的关键词生成方法 Active CN113255344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110525483.7A CN113255344B (zh) 2021-05-13 2021-05-13 一种融合主题信息的关键词生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110525483.7A CN113255344B (zh) 2021-05-13 2021-05-13 一种融合主题信息的关键词生成方法

Publications (2)

Publication Number Publication Date
CN113255344A true CN113255344A (zh) 2021-08-13
CN113255344B CN113255344B (zh) 2024-05-17

Family

ID=77181838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110525483.7A Active CN113255344B (zh) 2021-05-13 2021-05-13 一种融合主题信息的关键词生成方法

Country Status (1)

Country Link
CN (1) CN113255344B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563311A (zh) * 2022-10-21 2023-01-03 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140173425A1 (en) * 2012-12-17 2014-06-19 Hewlett-Packard Development Company, L. P. Presenting documents to a user based on topics and collective opinions expressed in the documents
CN107967257A (zh) * 2017-11-20 2018-04-27 哈尔滨工业大学 一种级联式作文生成方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110134951A (zh) * 2019-04-29 2019-08-16 淮阴工学院 一种分析文本数据潜在主题短语的方法及系统
CN111581967A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种联合LW2V与Triplet网络的新闻主题事件检测方法
CN111813907A (zh) * 2020-06-18 2020-10-23 浙江工业大学 一种自然语言问答技术中的问句意图识别方法
CN112101014A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种混合特征融合的中文化工文献分词方法
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140173425A1 (en) * 2012-12-17 2014-06-19 Hewlett-Packard Development Company, L. P. Presenting documents to a user based on topics and collective opinions expressed in the documents
CN107967257A (zh) * 2017-11-20 2018-04-27 哈尔滨工业大学 一种级联式作文生成方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法
CN110119765A (zh) * 2019-04-18 2019-08-13 浙江工业大学 一种基于Seq2seq框架的关键词提取方法
CN110134951A (zh) * 2019-04-29 2019-08-16 淮阴工学院 一种分析文本数据潜在主题短语的方法及系统
CN111581967A (zh) * 2020-05-06 2020-08-25 西安交通大学 一种联合LW2V与Triplet网络的新闻主题事件检测方法
CN111813907A (zh) * 2020-06-18 2020-10-23 浙江工业大学 一种自然语言问答技术中的问句意图识别方法
CN112101028A (zh) * 2020-08-17 2020-12-18 淮阴工学院 一种多特征双向门控领域专家实体抽取方法及系统
CN112101014A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种混合特征融合的中文化工文献分词方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
NOURAH ALSWAIDAN 等: "A survey of state-of-the-art approaches for emotion recognition in text", 《KNOWLEDGE AND INFORMATION SYSTEMS》, vol. 62, 18 March 2020 (2020-03-18), pages 2937 - 2987, XP037179095, DOI: 10.1007/s10115-020-01449-0 *
刘明童 等: "联合自编码任务的多机智融合复述生成模型", 《北京大学学报(自然科学版)》, vol. 56, no. 1, 26 September 2019 (2019-09-26), pages 53 - 60 *
方强强 等: "专家多源信息融合算法研究", 《江苏海洋大学学报(自然科学版)》, vol. 29, no. 4, 15 December 2020 (2020-12-15), pages 16 - 23 *
黄天烁: "关键词提取与生成的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 4, 15 April 2021 (2021-04-15), pages 138 - 1055 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563311A (zh) * 2022-10-21 2023-01-03 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统
CN115563311B (zh) * 2022-10-21 2023-09-15 中国能源建设集团广东省电力设计研究院有限公司 一种文档标注和知识库管理方法及知识库管理系统

Also Published As

Publication number Publication date
CN113255344B (zh) 2024-05-17

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
Xiang et al. A convolutional neural network-based linguistic steganalysis for synonym substitution steganography
CN113239181B (zh) 基于深度学习的科技文献引文推荐方法
CN111581973B (zh) 一种实体消歧方法及系统
CN110825848B (zh) 一种基于短语向量的文本分类方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
Gambhir et al. Deep learning-based extractive text summarization with word-level attention mechanism
CN113987187A (zh) 基于多标签嵌入的舆情文本分类方法、系统、终端及介质
Wadud et al. Word embedding methods for word representation in deep learning for natural language processing
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
Wang et al. Chinese text classification method based on BERT word embedding
Leng et al. Deepreviewer: Collaborative grammar and innovation neural network for automatic paper review
Yang et al. Text classification based on convolutional neural network and attention model
CN113255344A (zh) 一种融合主题信息的关键词生成方法
Sharma et al. Improving extractive text summarization performance using enhanced feature based RBM method
CN111914084A (zh) 一种基于深度学习的带有情感标签文本生成及评估系统
Derbentsev et al. Sentiment Analysis of Electronic Social Media Based on Deep Learning
Li et al. Convolutional transformer with sentiment-aware attention for sentiment analysis
Yin et al. Contextbert: Enhanced implicit sentiment analysis using implicit-sentiment-query attention
CN114925695A (zh) 一种命名实体识别方法、系统、设备及存储介质
Lai et al. Bi-directional attention comparison for semantic sentence matching
Chen et al. Multi-Label Text Classification Based on BERT and Label Attention Mechanism
Akilan et al. Quantifying the impact of complementary visual and textual cues under image captioning
Zhang et al. Research on chinese intent recognition based on bert pre-trained model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant