CN113255344A - 一种融合主题信息的关键词生成方法 - Google Patents
一种融合主题信息的关键词生成方法 Download PDFInfo
- Publication number
- CN113255344A CN113255344A CN202110525483.7A CN202110525483A CN113255344A CN 113255344 A CN113255344 A CN 113255344A CN 202110525483 A CN202110525483 A CN 202110525483A CN 113255344 A CN113255344 A CN 113255344A
- Authority
- CN
- China
- Prior art keywords
- document
- distribution
- word
- topic
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 239000013598 vector Substances 0.000 claims abstract description 44
- 230000007246 mechanism Effects 0.000 claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims abstract description 8
- 230000001537 neural effect Effects 0.000 claims abstract description 6
- 230000000306 recurrent effect Effects 0.000 claims abstract description 5
- 230000010076 replication Effects 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 10
- 230000004931 aggregating effect Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 4
- 241000288105 Grus Species 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 7
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract 1
- 230000011218 segmentation Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理和关键词提取技术领域,公开了一种融合主题信息的关键词生成方法,对语料库C进行预处理得到向量模型;采用word2vec对Xbow预训练得到词向量Xseq;将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档‑主题分布θ;将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;将文档‑主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;采用集束搜索,生成关键词的排名列表。与现有技术相比,本发明不仅强调了标题对整个文档的主导作用,还使得生成的词更加契合文档的主题。
Description
技术领域
本发明涉及自然语言处理和关键词提取技术领域,具体涉及一种融合主题信息的关键词生成方法。
背景技术
关键词通常为一个或多个能够描述文档主题信息的词语或词组。随着自然语言处理研究的逐步深入,关键词作为表达文档主题意义的最小单位在多项自然语言处理任务诸如文本分类、文本摘要、信息检索中都发挥了重要的作用。一般来说,可以细分为关键词抽取技术和关键词生成技术。其中,关键词抽取技术指从文档中筛选得到能表达文档主题的单词(词组),该关键词必然出现在文档中出现,而关键词生成技术指从词表中选择与文档主题相近的单词(词组)作为该文档的关键词,与该关键词是否在文档中出现出关。例如,在科技文献中,作者给出的关键词有很多并不会在正文中出现。同时,文档的标题是作者对文档内容的概括,对文档的关键词具有重要的导向性作用,但大多关键词生成方法都只是简单地将文档标题和正文同等对待。而文档的主题信息,也能够更好地丰富文档的语义信息。
发明内容
发明目的:针对现有技术中存在的问题,本发明提供一种融合主题信息的关键词生成方法,不仅强调了标题对整个文档的主导作用,还使得生成的词更加契合文档的主题。
技术方案:本发明提供了一种融合主题信息的关键词生成方法,包括如下步骤:
步骤1:输入语料库C并进行预处理得到向量模型Xbow,Xbow={T1,T2,...,TN}为C中所有文档的向量空间表示模型,N为语料库文档数量;
步骤2:采用word2vec对Xbow预训练得到词向量Xseq;
步骤3:将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档-主题分布θ;
步骤4:将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;
步骤5:将文档-主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;
步骤6:采用集束搜索,生成关键词的排名列表。
进一步地,所述步骤3具体过程为:
步骤3.1:通过多层感知机将Xbow编码为一个连续的潜在高斯变量Z,Z服从N(μ,σ2)分布:μ=fμ(fε(Xbow)),logσ=fσ(fε(Xbow)),其中,Z表示Xbow的主题,μ和σ均是通过神经网络生成的,N(μ,σ2)来表示各向同性的高斯分布,σ2是协方差矩阵的对角线,f*(·)是具有RuLU激活函数的多层感知机;
步骤3.2:使用softmax函数,构建文档-主题分布θ=softmax(W1 TZ),作为文档的主题分布向量来辅助关键词的生成,其中,W1为L*K的矩阵,L为Z的维数,K为主题数。
进一步地,所述步骤4具体过程为遍历语料库C中每一个文档及其标题中的所有词,依次按照如下原理进行编码:
步骤4.1:进行第一层序列编码层,使用两个双向门控循环单元网络(GRU)分别xi和tj进行编码,将上下文的语义信息整合到每个单词的表示中:
其中,xi为语料库中文档的第i个单词的向量,tj为该文档标题的第j个词的向量;ui和vj分别为第i个单词和第j个标题词的上下文向量;→表示向右的编码方向,←表示向左的编码方向;
si,j=(ui)TW1vj
其中,ci是文档x的第i个单词的聚合后的信息向量,si,j是ui和vj未归一化的注意力权重,αi,j是ui和vj的归一化的注意力权重;
步骤4.3:第三层为合并层,将上下文向量ui和聚合后的信息向量ci作为信息合并层的输入,获得以标题为导向的上下文表示,存储为M:
其中,ui是一个残差连接,λ∈(0,1)是相应的超参数。
进一步地,所述步骤5具体过程如下:
步骤5.1:将文档-主题分布θ输入单向门控循环单元网络(GRU),用于添加主题信息θ,具体公式为sj=fGRU([zj;θ],sj-1),其中,zj为第j个解码器的输入,sj为第j个时刻的隐藏状态,sj-1为前一个隐藏状态;
步骤5.2:对序列M进行解码,通过注意力机制捕获重要信息,预测第j个关键词,其注意力分布为α'ij;
步骤5.3:解码器根据注意力分布α'ij,即单词的概率分布,来找到下一个单词,通过注意力分布来产生一个编码器隐藏状态的加权和,作为主题感知的上下文向量为cj,
步骤5.4:将上下文向量cj与解码器状态sj连接,通过两个线性层,用一个softmax函数来得到词汇表中所有词的概率分布pgen:pgen=softmax(Wgen[sj;cj]+bgen),其中,Wgen,bgen是可训练参数;
步骤5.5:输入主题敏感的上下文向量为cj、解码器状态sj,计算时间步长为j的生成概率λj,具体公式如下:λj=sigmoid(Wλ[zj;sj;cj;θ]+bλ),其中,Wλ,bλ是可训练参数,λj∈[0,1],λj被用作一个软开关,用于判断是从原文中直接提取关键词,还是原文档以外的语料库中生成关键词;
步骤5.6:将生成词汇与原文档中出现的所有单词合并为扩展词汇表,它的概率分布为pj;
步骤5.7:文档-主题分布θ和编码M作为输入,生成关键词Y的概率。
进一步地,所述注意力分布α'ij为:
其中,vα,Wα,bα是可训练参数,fα(·)表示第i个词与第j个待预测目标词之间的语义信息。
进一步地,所述步骤5.6中的概率分布pj为:
其中,若是生成的原文档中没有的单词,则pgen=0;
进一步地,所述关键词Y的概率具体为:
其中,Y<j=<y1,y2,...,yj-1>,Y为生成的关键词,X为语料中的词汇,Pr(yj|Y<j,M,θ)用pj表示,是单词在扩展词汇表的分布。
有益效果:
1、本发明将神经主题模型与Seq2Seq(序列到序列)模型相结合,先采用神经主题模型抽取出主题词。利用主题词来辅助关键词的生成,使得生成的短语更加契合文本的主题。
2、本发明采用基于注意力机制的层次化编码器,其匹配层是由两部分组成,第一部分是标题到标题的自匹配,用来加强标题本身的重要信息;另一部分是正文到标题的匹配部分,每个正文中的词也根据语义关联聚合相关的标题信息。该匹配层,和以往的方法相比,能够更充分地利用标题信息,突出标题在文档中的重要性。
3、本发明采用加入复制机制的循环神经网络,不仅可以从原文档中复制词作为关键词,还可以生成文档中没有出现过的关键词,关键词的抽取方法更优。
具体实施方式
下面结合具体实例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明公开的一种融合主题信息的关键词生成方法,包括如下步骤:
步骤1:输入语料库C并进行预处理得到向量模型Xbow,Xbow={T1,T2,...,TN}为C中所有文档的向量空间表示模型,N为语料库文档数量;
具体的,本发明实施例采用的语料库是公开数据集KP20k,数据集共有567,830篇论文。
具体的,对语料库预训练词向量前采用python的结巴分词工具包对预料库中的所有文档进行分词和去停用词,并进行预处理得到向量模型Xbow。
步骤2:采用word2vec对Xbow预训练得到词向量Xseq。
具体的,对语料库预训练词向量采用python开源的gensim包中的word2vec模型进行训练。
步骤3:将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档-主题分布θ。
步骤3.1:通过多层感知机将Xbow编码为一个连续的潜在高斯变量Z,Z服从N(μ,σ2)分布:μ=fμ(fε(Xbow)),logσ=fσ(fε(Xbow)),其中,Z表示Xbow的主题,μ和σ均是通过神经网络生成的,N(μ,σ2)来表示各向同性的高斯分布,σ2是协方差矩阵的对角线,f*(·)是具有RuLU激活函数的多层感知机。
步骤3.2:使用softmax函数,构建文档-主题分布θ=softmax(W1 TZ),作为文档的主题分布向量来辅助关键词的生成,其中,W1为L*K的矩阵,L为Z的维数,K为主题数。
步骤4:将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M。
步骤4.1:进行第一层序列编码层,使用两个双向门控循环单元网络(GRU)分别xi和tj进行编码,将上下文的语义信息整合到每个单词的表示中:
其中,xi为语料库中文档的第i个单词的向量,tj为该文档标题的第j个词的向量;ui和vj分别为第i个单词和第j个标题词的上下文向量;→表示向右的编码方向,←表示向左的编码方向;
si,j=(ui)TW1vj
其中,ci是文档x的第i个单词的聚合后的信息向量,si,j是ui和vj未归一化的注意力权重,αi,j是ui和vj的归一化的注意力权重;
步骤4.3:第三层为合并层,将上下文向量ui和聚合后的信息向量ci作为信息合并层的输入,获得以标题为导向的上下文表示,存储为M:
其中,ui是一个残差连接,λ∈(0,1)是相应的超参数。
步骤5:将文档-主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布。
步骤5.1:将文档-主题分布θ输入单向门控循环单元网络(GRU),用于添加主题信息θ,具体公式为sj=fGRU([zj;θ],sj-1),其中,zj为第j个解码器的输入,sj为第j个时刻的隐藏状态,sj-1为前一个隐藏状态。
步骤5.2:对序列M进行解码,通过注意力机制捕获重要信息,预测第j个关键词,其注意力分布为α'ij,注意力分布α'ij为:
其中,vα,Wα,bα是可训练参数,fα(·)表示第i个词与第j个待预测目标词之间的语义信息。
步骤5.3:解码器根据注意力分布α'ij,即单词的概率分布,来找到下一个单词,通过注意力分布来产生一个编码器隐藏状态的加权和,作为主题感知的上下文向量为cj,
步骤5.4:将上下文向量cj与解码器状态sj连接,通过两个线性层,用一个softmax函数来得到词汇表中所有词的概率分布pgen:pgen=softmax(Wgen[sj;cj]+bgen),其中,Wgen,bgen是可训练参数;
步骤5.5:输入主题敏感的上下文向量为cj、解码器状态sj,计算时间步长为j的生成概率λj,具体公式如下:λj=sigmoid(Wλ[zj;sj;cj;θ]+bλ),其中,Wλ,bλ是可训练参数,λj∈[0,1],λj被用作一个软开关,用于判断是从原文中直接提取关键词,还是原文档以外的语料库中生成关键词;
步骤5.6:将生成词汇与原文档中出现的所有单词合并为扩展词汇表,它的概率分布为pj,概率分布pj为:
其中,若是生成的原文档中没有的单词,则pgen=0
步骤5.7:文档-主题分布θ和编码M作为输入,生成关键词Y的概率。
关键词Y的概率具体为:
其中,Y<j=<y1,y2,...,yj-1>,Y为生成的关键词,X为语料中的词汇,Pr(yj|Y<j,M,θ)用pj表示,是单词在扩展词汇表的分布。
步骤6:采用集束搜索,生成关键词的排名列表。
为进一步说明本发明提供方法的实施效果,另选用最大的公开数据集KP20k作为训练数据集,数据集共有567,830篇论文,其中527,830用于训练,20,000篇用于验证,20,000篇用于测试。采用本发明提供的关键词生成方法来预测前5个、10个关键词,对比了多个现有的关键词抽取算法(TF-IDF、TextRank、Seq2Seq-copy、Seq2Seq-corr),以F1值作为性能指标预测前5个、10个关键词,F1=2*(准确率*召回率)/(准确率+召回率),F1的值是精准率与召回率的调和平均数。F1的取值范围从0到1的数量越大,表明实现越理想。
其中,Precision(精准率)=TP/(TP+FP),Recall(召回率)=TP/(TP+FN)。
实验结果如表1所示:
表1五个模型生成关键词的F1指标
由表1可见,本发明提出的关键词抽取方法比其他四种方法的评价指标F1值更优。
上述实施方式只为说明本发明的技术构思及特点,其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种融合主题信息的关键词生成方法,其特征在于,包括如下步骤:
步骤1:输入语料库C并进行预处理得到向量模型Xbow,Xbow={T1,T2,...,TN}为C中所有文档的向量空间表示模型,N为语料库文档数量;
步骤2:采用word2vec对Xbow预训练得到词向量Xseq;
步骤3:将Xbow输入到基于变分自编码器的GSM神经主题模型生成文档-主题分布θ;
步骤4:将Xseq输入到带有注意力机制的层次化编码模型进行编码输出为M;
步骤5:将文档-主题分布θ和编码M输入,采用加入注意力机制和复制机制的循环神经网络对其进行解码,并生成关键词的概率分布;
步骤6:采用集束搜索,生成关键词的排名列表。
2.根据权利要求1所述的融合主题信息的关键词生成方法,其特征在于,所述步骤3具体过程为:
步骤3.1:通过多层感知机将Xbow编码为一个连续的潜在高斯变量Z,Z服从N(μ,σ2)分布:μ=fμ(fε(Xbow)),logσ=fσ(fε(Xbow)),其中,Z表示Xbow的主题,μ和σ均是通过神经网络生成的,N(μ,σ2)来表示各向同性的高斯分布,σ2是协方差矩阵的对角线,f*(·)是具有RuLU激活函数的多层感知机;
步骤3.2:使用softmax函数,构建文档-主题分布θ=softmax(W1 TZ),作为文档的主题分布向量来辅助关键词的生成,其中,W1为L*K的矩阵,L为Z的维数,K为主题数。
3.根据权利要求1所述的融合主题信息的关键词生成方法,其特征在于,所述步骤4具体过程为遍历语料库C中每一个文档及其标题中的所有词,依次按照如下原理进行编码:
步骤4.1:进行第一层序列编码层,使用两个双向门控循环单元网络(GRU)分别对xi和tj进行编码,将上下文的语义信息整合到每个单词的表示中:
其中,xi为语料库中文档的第i个单词的向量,tj为该文档标题的第j个词的向量;ui和vj分别为第i个单词和第j个标题词的上下文向量;→表示向右的编码方向,←表示向左的编码方向;
si,j=(ui)TW1vj
其中,ci是文档x的第i个单词的聚合后的信息向量,si,j是ui和vj未归一化的注意力权重,αi,j是ui和vj的归一化的注意力权重;
步骤4.3:第三层为合并层,将上下文向量ui和聚合后的信息向量ci作为信息合并层的输入,获得以标题为导向的上下文表示,存储为M:
其中,ui是一个残差连接,λ∈(0,1)是相应的超参数。
4.根据权利要求3所述的融合主题信息的关键词生成方法,其特征在于,所述步骤5具体过程如下:
步骤5.1:将文档-主题分布θ输入单向门控循环单元网络(GRU),用于添加主题信息θ,具体公式为sj=fGRU([zj;θ],sj-1),其中,zj为第j个解码器的输入,sj为第j个时刻的隐藏状态,sj-1为前一个隐藏状态;
步骤5.2:对序列M进行解码,通过注意力机制捕获重要信息,预测第j个关键词,其注意力分布为α'ij;
步骤5.4:将上下文向量cj与解码器状态sj连接,通过两个线性层,用一个softmax函数来得到词汇表中所有词的概率分布pgen:pgen=softmax(Wgen[sj;cj]+bgen),其中,Wgen,bgen是可训练参数;
步骤5.5:输入主题敏感的上下文向量为cj、解码器状态sj,计算时间步长为j的生成概率λj,具体公式如下:λj=sigmoid(Wλ[zj;sj;cj;θ]+bλ),其中,Wλ,bλ是可训练参数,λj∈[0,1],λj被用作一个软开关,用于判断是从原文中直接提取关键词,还是原文档以外的语料库中生成关键词;
步骤5.6:将生成词汇与原文档中出现的所有单词合并为扩展词汇表,它的概率分布为pj;
步骤5.7:文档-主题分布θ和编码M作为输入,生成关键词Y的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110525483.7A CN113255344B (zh) | 2021-05-13 | 2021-05-13 | 一种融合主题信息的关键词生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110525483.7A CN113255344B (zh) | 2021-05-13 | 2021-05-13 | 一种融合主题信息的关键词生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113255344A true CN113255344A (zh) | 2021-08-13 |
CN113255344B CN113255344B (zh) | 2024-05-17 |
Family
ID=77181838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110525483.7A Active CN113255344B (zh) | 2021-05-13 | 2021-05-13 | 一种融合主题信息的关键词生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113255344B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563311A (zh) * | 2022-10-21 | 2023-01-03 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种文档标注和知识库管理方法及知识库管理系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140173425A1 (en) * | 2012-12-17 | 2014-06-19 | Hewlett-Packard Development Company, L. P. | Presenting documents to a user based on topics and collective opinions expressed in the documents |
CN107967257A (zh) * | 2017-11-20 | 2018-04-27 | 哈尔滨工业大学 | 一种级联式作文生成方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN110119765A (zh) * | 2019-04-18 | 2019-08-13 | 浙江工业大学 | 一种基于Seq2seq框架的关键词提取方法 |
CN110134951A (zh) * | 2019-04-29 | 2019-08-16 | 淮阴工学院 | 一种分析文本数据潜在主题短语的方法及系统 |
CN111581967A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 |
CN111813907A (zh) * | 2020-06-18 | 2020-10-23 | 浙江工业大学 | 一种自然语言问答技术中的问句意图识别方法 |
CN112101014A (zh) * | 2020-08-20 | 2020-12-18 | 淮阴工学院 | 一种混合特征融合的中文化工文献分词方法 |
CN112101028A (zh) * | 2020-08-17 | 2020-12-18 | 淮阴工学院 | 一种多特征双向门控领域专家实体抽取方法及系统 |
-
2021
- 2021-05-13 CN CN202110525483.7A patent/CN113255344B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140173425A1 (en) * | 2012-12-17 | 2014-06-19 | Hewlett-Packard Development Company, L. P. | Presenting documents to a user based on topics and collective opinions expressed in the documents |
CN107967257A (zh) * | 2017-11-20 | 2018-04-27 | 哈尔滨工业大学 | 一种级联式作文生成方法 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN110119765A (zh) * | 2019-04-18 | 2019-08-13 | 浙江工业大学 | 一种基于Seq2seq框架的关键词提取方法 |
CN110134951A (zh) * | 2019-04-29 | 2019-08-16 | 淮阴工学院 | 一种分析文本数据潜在主题短语的方法及系统 |
CN111581967A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 |
CN111813907A (zh) * | 2020-06-18 | 2020-10-23 | 浙江工业大学 | 一种自然语言问答技术中的问句意图识别方法 |
CN112101028A (zh) * | 2020-08-17 | 2020-12-18 | 淮阴工学院 | 一种多特征双向门控领域专家实体抽取方法及系统 |
CN112101014A (zh) * | 2020-08-20 | 2020-12-18 | 淮阴工学院 | 一种混合特征融合的中文化工文献分词方法 |
Non-Patent Citations (4)
Title |
---|
NOURAH ALSWAIDAN 等: "A survey of state-of-the-art approaches for emotion recognition in text", 《KNOWLEDGE AND INFORMATION SYSTEMS》, vol. 62, 18 March 2020 (2020-03-18), pages 2937 - 2987, XP037179095, DOI: 10.1007/s10115-020-01449-0 * |
刘明童 等: "联合自编码任务的多机智融合复述生成模型", 《北京大学学报(自然科学版)》, vol. 56, no. 1, 26 September 2019 (2019-09-26), pages 53 - 60 * |
方强强 等: "专家多源信息融合算法研究", 《江苏海洋大学学报(自然科学版)》, vol. 29, no. 4, 15 December 2020 (2020-12-15), pages 16 - 23 * |
黄天烁: "关键词提取与生成的研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 4, 15 April 2021 (2021-04-15), pages 138 - 1055 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563311A (zh) * | 2022-10-21 | 2023-01-03 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种文档标注和知识库管理方法及知识库管理系统 |
CN115563311B (zh) * | 2022-10-21 | 2023-09-15 | 中国能源建设集团广东省电力设计研究院有限公司 | 一种文档标注和知识库管理方法及知识库管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113255344B (zh) | 2024-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110348016B (zh) | 基于句子关联注意力机制的文本摘要生成方法 | |
CN110119765B (zh) | 一种基于Seq2seq框架的关键词提取方法 | |
Xiang et al. | A convolutional neural network-based linguistic steganalysis for synonym substitution steganography | |
CN113239181B (zh) | 基于深度学习的科技文献引文推荐方法 | |
CN111581973B (zh) | 一种实体消歧方法及系统 | |
CN110825848B (zh) | 一种基于短语向量的文本分类方法 | |
CN111414481A (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
Gambhir et al. | Deep learning-based extractive text summarization with word-level attention mechanism | |
CN113987187A (zh) | 基于多标签嵌入的舆情文本分类方法、系统、终端及介质 | |
Wadud et al. | Word embedding methods for word representation in deep learning for natural language processing | |
CN112818698A (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
Wang et al. | Chinese text classification method based on BERT word embedding | |
Leng et al. | Deepreviewer: Collaborative grammar and innovation neural network for automatic paper review | |
Yang et al. | Text classification based on convolutional neural network and attention model | |
CN113255344A (zh) | 一种融合主题信息的关键词生成方法 | |
Sharma et al. | Improving extractive text summarization performance using enhanced feature based RBM method | |
CN111914084A (zh) | 一种基于深度学习的带有情感标签文本生成及评估系统 | |
Derbentsev et al. | Sentiment Analysis of Electronic Social Media Based on Deep Learning | |
Li et al. | Convolutional transformer with sentiment-aware attention for sentiment analysis | |
Yin et al. | Contextbert: Enhanced implicit sentiment analysis using implicit-sentiment-query attention | |
CN114925695A (zh) | 一种命名实体识别方法、系统、设备及存储介质 | |
Lai et al. | Bi-directional attention comparison for semantic sentence matching | |
Chen et al. | Multi-Label Text Classification Based on BERT and Label Attention Mechanism | |
Akilan et al. | Quantifying the impact of complementary visual and textual cues under image captioning | |
Zhang et al. | Research on chinese intent recognition based on bert pre-trained model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |