CN109918510B - 跨领域关键词提取方法 - Google Patents

跨领域关键词提取方法 Download PDF

Info

Publication number
CN109918510B
CN109918510B CN201910235391.8A CN201910235391A CN109918510B CN 109918510 B CN109918510 B CN 109918510B CN 201910235391 A CN201910235391 A CN 201910235391A CN 109918510 B CN109918510 B CN 109918510B
Authority
CN
China
Prior art keywords
topic
domain
text
neural network
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910235391.8A
Other languages
English (en)
Other versions
CN109918510A (zh
Inventor
陈恩红
王亚楠
刘淇
秦川
徐童
王怡君
熊辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201910235391.8A priority Critical patent/CN109918510B/zh
Publication of CN109918510A publication Critical patent/CN109918510A/zh
Application granted granted Critical
Publication of CN109918510B publication Critical patent/CN109918510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种跨领域关键词提取方法,包括:构建基于主题的对抗神经网络,其使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。该方法可实现无标签或少量标签的目标领域的关键词提取,相比传统模型,有效地利用了相关领域的信息。对于提取结果,在评价指标F1上有一定的提高。

Description

跨领域关键词提取方法
技术领域
本发明涉及迁移学习和关键词提取领域,尤其涉及一种跨领域关键词提取方法。
背景技术
关键词提取是一种从文本中自动提取高度概括文章内容的短语的任务。已有的关键词提取方法通常分为有监督和无监督两大类。有监督方法把关键词提取当成一个分类任务,从文本中得到的候选短语被分为关键短语和非关键短语。虽然有监督的关键词提取方法效果比较好但需要大量的有标签数据来训练一个鲁棒的模型。同时当有标签数目比较少时,可以使用无监督的关键词提取方法:基于图的排序方法,聚类方法,语言模型方法。然而,无监督的关键词提取方法的效果并不如用充分有标签数据训练的有监督方法。
此外,现有的大部分有监督和无监督的关键词提取方法都集中在单领域关键词提取,无法实现跨领域关键词的提取。
发明内容
本发明的目的是提供一种跨领域关键词提取方法,可以实现无标签或少量标签的目标领域的关键词提取,并具有较好的提取效果。
本发明的目的是通过以下技术方案实现的:
一种跨领域关键词提取方法,包括:
构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;
在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;
在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。
由上述本发明提供的技术方案可以看出,利用基于主题的对抗神经网络模型类进行跨领域关键词提取,可以实现无标签或少量标签的目标领域的关键词提取,相比传统模型,有效地利用了相关领域的信息。对于提取结果,在评价指标F1上有一定的提高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种跨领域关键词提取方法的流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供一种跨领域关键词提取方法,主要包括:
构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;
在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;
在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词。
为了便于理解,下面结合附图1对上述方案做详细的介绍。
一、数据爬取与数据预处理。
1、数据爬取。
从若干不同领域中爬取一定量的文本数据;所述文本数据包括:论文的题目、摘要和/或对应的关键词。
示例性的,可以根据中国计算机学会推荐国际学术会议和期刊目录选取了三个不同的领域:数据挖掘领域,语言与软件领域,计算机图形学领域。然后,依据这三个领域的国际学术会议和期刊爬取了对应的论文题目、摘要以及对应的关键词(如果有关键词的话)。
2、数据预处理。
1)对于爬取到的论文的题目和摘要,将二者拼接在一起作为一个文本;
2)对文本内容进行分词处理,把文本中的数字统一用数字0代替;
3)构建词向量所用的词表,选择词频数大于等于设定值(例如,设为15)的所有单词来构建词表,
对源领域和目标领域的文本均采用上述方式进行预处理,源领域文本与目标领域文本对应的词表分别记为x与x′(x与x′均可理解为一个样本)。
若还爬取到了关键词,则直接输入至关键词标注器进行关键词标注。
二、构建基于主题的对抗神经网络。
本发明实施例中,所构建的基于主题的对抗神经网络主要包括如下四个部分:基于主题的编码器,领域判别器,目标领域的双向解码器,关键词标注器。
1、基于主题的编码器。
所述基于主题的编码器,包括双向长短期记忆网络和主题注意力机制模块。
1)双向长短期记忆网络(BiLSTM)。
对于源领域文本对应的词表x=(x1,x2,...,xn),其中n是源领域文本的长度;首先使用WordEmbedding的方法把文本映射成向量形式E=(e1,e1,...,en),再使用双向长短期记忆网络对向量序列E进行编码,向量ei在两个方向的隐向量为:
Figure BDA0002007258260000031
Figure BDA0002007258260000032
最终向量ei的隐向量表示为:
Figure BDA0002007258260000033
LSTM细胞单元为:
ii=σ(Wxiei+Whihi-1+bi)
fi=σ(Wxfei+Whfhi-1+bf)
oi=σ(Wxoei+Whohi-1+bo)
Figure BDA0002007258260000045
Figure BDA0002007258260000046
hi=oi⊙φ(ci)
其中,i,f,o,c分别是输入门,输出门,遗忘门和记忆门;σ是sigmoid激活函数,是相应门的权重、偏置Wx*为相应门的权重,Wh*为对应上一时刻的权重,b*为偏置,
Figure BDA0002007258260000044
对于目标领域文本对应的词表x′做相同的处理,最终向量ei′的隐向量记为hi′。
2)主题注意力机制模块
双向长短期记忆网络只考虑局部上下文的语义关系。然而关键词与文中的全局主题信息有关,因此,使用来考虑文本中每个词与主题的联系:
首先,使用预训练的LDA模型计算源领域中文档的主题分布来得到主题向量z;
然后,衡量隐向量hi与主题向量z相关性的门ti
ti=tanh(Wzhi+Uzz+bz)
上式中,Wz、Uz、bz是参数矩阵;
基于主题的特征向量表示如下:
Figure BDA0002007258260000041
从而得到源领域文本对应的词表x所对应的主题特征向量序列
Figure BDA0002007258260000042
对于目标领域做相同的处理,得到目标领域文本对应的词表x′所对应的主题特征向量序列
Figure BDA0002007258260000043
2、领域判别器
本发明实施例中,为了解决两个领域数据分布不一致的问题,通过带有对抗损失函数的领域判别器来学习领域无关的特征连接两个不同的领域。将判别器的参数表示为θd,基于主题的编码器的参数表示为θenc。在训练的过程中,领域判别器优化θd的参数来最小化判别器的损失函数来正确的区分出源领域和目标领域的特征表示。相反地,优化基于主题的编码器的参数θenc来最大化领域判别器的损失函数以降低判别器的准确率。最终这个对抗训练使得基于主题的编码器学到的主题特征向量序列(即,hz与hz′)是领域无关的,可以更好地泛化到其它领域。
因为卷积神经网络已经展示出了它在序列分类任务中有效性,本发明实施例中,带有对抗损失函数的领域判别器使用卷积神经网络来实现。
以主题特征向量序列hz为例进行说明,卷积神经网络地输入是基于主题的编码器输出的主题特征向量序列
Figure BDA0002007258260000051
其中dh是LSTM细胞单元的大小;对该主题特征向量序列使用带有一个过滤器
Figure BDA0002007258260000052
窗口大小为c个单词的卷积操作得到的新的特征向量如下:
q=f(Wq*hz+bq)
其中,*是卷积操作,
Figure BDA0002007258260000053
表示参数偏置,f是非线性的激活函数,可使用ELU激活函数;
最后,使用时间上的最大值池化操作来取它的最大值:
Figure BDA0002007258260000054
以上过程是使用一个过滤器,通过使用多个过滤器Wq以及多个窗口大小c来得到主题特征向量序列的多个特征;
对主题特征向量序列hz′做相同的处理,得到多个特征。
在得到的这些特征上,使用softmax层来预测领域标签d∈{0,1},其中,0,1分别表示源领域和目标领域;
领域判别器的目标是区分出源领域和目标领域样本的领域特征以及最小化下面的目标函数:
Figure BDA0002007258260000055
其中,
Figure BDA0002007258260000056
是源领域的有标签样本数目,
Figure BDA0002007258260000057
是源领域的无标签样本数目,Nt是目标领域的无标签样本数目,
Figure BDA0002007258260000058
是预测的第j个样本的领域标签的概率,dj是正确的领域标签,di∈{0,1}。
预测领域标签的目的主要是进行对抗训练,当领域判别器不能正确分类领域特征时,我们学习到领域无关的特征。
3、双向自编码器
带有对抗损失函数的领域判别器的主要目的是学习领域无关的特征并且想要消除所有的领域特有的信息。这对目标领域的关键词提取任务可能是有害的。为了保护目标领域的私有信息,本发明实施例提出在目标领域使用带有双向重建损失函数的解码器。这个无监督的损失函数可以鼓励模型保留目标领域主要的语义信息并且有效地利用目标领域地无标签数据。具体地,使用双向解码器从正向和反向来重建BiLSTM编码器的输出序列。
对于前向解码器,输出记为
Figure BDA0002007258260000061
对于在第t个时间步预测的单词
Figure BDA00020072582600000614
在字典上的概率分布:
Figure BDA0002007258260000062
其中,权重
Figure BDA0002007258260000063
偏置
Figure BDA0002007258260000064
是训练参数,x′<t表示第t个时间步之前的输入单词序列{x1′,...,xt-1′},使用LSTM基于之前时间步的真实值et-1计算隐层状态st
Figure BDA0002007258260000065
其中,
Figure BDA0002007258260000066
是初始化的状态,使用前向编码器的最后一个状态来初始化前向解码器。
采用相同的方式,得到后向解码器的预测每一个单词的概率分布
Figure BDA0002007258260000067
并且使用后向编码器的最后一个状态初始化后向解码器;
最终目标领域的双向重建损失函数是:
Figure BDA0002007258260000068
其中,Nt是目标领域的无标签样本数目,lm是第m个文本序列的长度;x′t是第t个单词的独热编码,
Figure BDA0002007258260000069
是前向解码器预测的第t个单词的概率分布,
Figure BDA00020072582600000610
是后向解码器预测的第t个单词的概率分布。
4、关键词标注器。
关键词标注器的输入是基于主题的编码器的输出。关键词标注器通过预测基于主题的编码器输出的主题特征向量中每个词的标签从而得到关键短语;每个词的标签有5种:B表示关键短语的开始,M表示关键短语的中间部分,E表示关键短语的结尾,S表示单个词成为关键短语,O表示当前词不是任何关键短语的一部分;这些标签之间有着强烈的依赖关系,例如标签M不可能在标签B前面。因此,我们使用条件随机场(CRF)来建模这些标签之间的依赖关系。
在训练阶段,对于给定的基于主题的编码器输出的主题特征向量序列
Figure BDA00020072582600000611
Figure BDA00020072582600000612
以及相应的标签序列y=(y1,y2,...,yn);序列y在hz下的条件概率为:
Figure BDA00020072582600000613
Figure BDA0002007258260000071
Figure BDA0002007258260000072
其中,y(hz)是对于hz所有可能的标签序列,
Figure BDA0002007258260000076
是得分,其中
Figure BDA0002007258260000077
是标签的数目;
Figure BDA0002007258260000078
是给第i个单词分配标签yi的得分;
Figure BDA00020072582600000716
标签转移概率矩阵,Wg和bg分别是可训练的权重和偏置参数。
对于条件随机场的训练,最小化在源领域的有标签样本上的负的似然函数:
Figure BDA0002007258260000073
测试时,使用Viterbi算法搜索具有最高条件概率的标签序列:
Figure BDA0002007258260000074
三、模型参数的训练。
本步骤主要对上一步骤所建立的基于主题的对抗神经网络中的所有参数矩阵或向量进行训练。总体的训练目标函数看成是基于主题的编码器(参数为θenc)、关键词标注器(参数为θtagger)、目标领域双向解码器(参数为θdec)和领域判别器(参数为θd)之间的一个最小最大游戏:
Figure BDA0002007258260000075
其中,α与β为设定的权值;
为了愚弄领域判别器学习出领域无关的特征,使用领域判别器的损失函数
Figure BDA0002007258260000079
的负的梯度来更新θenc,同时结合关键词标注器的损失函数
Figure BDA00020072582600000710
双向重建损失函数
Figure BDA00020072582600000711
得到总的损失函数
Figure BDA00020072582600000712
来更新θenc,其中总的损失函数
Figure BDA00020072582600000713
为:
Figure BDA00020072582600000714
上式中,α′与β′均为设定的权值;
整个训练过程交替进行,我们使用
Figure BDA00020072582600000715
更新参数θd,使用
Figure BDA00020072582600000717
更新参数θenc、θtagg er、θdec,所有参数的更新都使用反向传播算法。
四、对目标领域的文章提取关键词。
在测试阶段,将给定的目标领域的文本输入至训练好的基于主题的对抗神经网络,结合基于主题的编码器以及关键词标注器,得到文本序列的标签,整合得到对应的关键短语。
本发明实施例上述方案中,利用基于主题的对抗神经网络模型类进行跨领域关键词提取,可以实现无标签或少量标签的目标领域的关键词提取,相比传统模型,有效地利用了相关领域的信息。对于提取结果,在评价指标F1上有一定的提高。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (7)

1.一种跨领域关键词提取方法,其特征在于,包括:
构建基于主题的对抗神经网络,该基于主题的对抗神经网络使用基于主题的编码器对源领域和目标领域的文本基于主题进行编码,并引入对抗学习来与双向自编码器来确保基于主题的编码器学习到的特征与领域无关以及保留目标领域的私有特征,最后由主题的对抗神经网络中的关键词标注器结合基于主题的编码器的输出,完成关键词提取;
在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数;
在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词;
其中,引入对抗学习来确保基于主题的编码器学习到的特征与领域无关,其通过带有对抗损失函数的领域判别器来实现;
所述带有对抗损失函数的领域判别器使用卷积神经网络来实现;
卷积神经网络输入基于主题的编码器输出的主题特征向量序列
Figure FDA0003816597270000011
其中dh是LSTM细胞单元的大小;对该主题特征向量序列使用带有一个过滤器
Figure FDA0003816597270000012
窗口大小为c个单词的卷积操作得到的新的特征向量如下:
q=f(Wq*hz+bq)
其中,*是卷积操作,
Figure FDA0003816597270000013
f是非线性的激活函数;
最后,使用时间上的最大值池化操作来取它的最大值:
Figure FDA0003816597270000014
以上过程是使用一个过滤器,通过使用多个过滤器Wq以及多个窗口大小c来得到向量序列的多个特征;
对主题特征向量序列hz′做相同的处理,得到多个特征;
在得到的这些特征上,使用softmax层来预测领域标签d∈{0,1},其中,0,1分别表示源领域和目标领域;
领域判别器的目标是区分出源领域和目标领域样本的领域特征以及最小化下面的目标函数:
Figure FDA0003816597270000015
其中,
Figure FDA0003816597270000016
是源领域的有标签样本数目,
Figure FDA0003816597270000017
是源领域的无标签样本数目,Nt是目标领域的无标签样本数目,
Figure FDA0003816597270000021
是预测的第j个样本的领域标签的概率,dj是正确的领域标签。
2.根据权利要求1所述的一种跨领域关键词提取方法,其特征在于,所述基于主题的编码器,包括双向长短期记忆网络和主题注意力机制模块;其中:
对于源领域文本对应的词表x=(x1,x2,…,xn),其中n是文本的长度;首先使用WordEmbedding的方法把文本映射成向量形式E=(e1,e2,…,en),再使用双向长短期记忆网络对向量序列E进行编码,向量ei在两个方向的隐向量为:
Figure FDA0003816597270000022
Figure FDA0003816597270000023
最终向量ei的隐向量表示为:
Figure FDA0003816597270000024
LSTM细胞单元为:
ii=σ(Wxiei+Whihi-1+bi)
fi=σ(Wxfei+Whfhi-1+bf)
oi=σ(Wxoei+Whohi-1+bo)
Figure FDA0003816597270000025
Figure FDA0003816597270000026
hi=oi⊙φ(ci)
其中,i,f,o,c分别是输入门,输出门,遗忘门和记忆门;σ是sigmoid激活函数是相应门的权重、偏置,Wx*为相应门的权重,Wh*为对应上一时刻的权重,b*为偏置,
Figure FDA0003816597270000029
对于目标领域文本对应的词表x′做相同的处理,最终向量ei′的隐向量记为hi′;
之后,使用主题注意力机制模块来考虑文本中每个词与主题的联系:
首先,使用预训练的LDA模型计算源领域中文档的主题分布来得到主题向量z;
然后,衡量隐向量hi与主题向量z相关性的门ti
ti=tanh(Wzhi+Uzz+bz)
上式中,Wz、Uz、bz是参数矩阵;
基于主题的特征向量表示如下:
Figure FDA0003816597270000027
从而得到源领域文本对应的词表x所对应的主题特征向量序列
Figure FDA0003816597270000028
Figure FDA0003816597270000031
对于目标领域做相同的处理,得到目标领域文本对应的词表x′所对应的主题特征向量序列
Figure FDA0003816597270000032
3.根据权利要求1所述的一种跨领域关键词提取方法,其特征在于,引入双向自编码器来保留目标领域的私有特征;其中:
对于前向解码器,输出记为
Figure FDA0003816597270000033
对于在第t个时间步预测的单词
Figure FDA0003816597270000034
在字典上的概率分布:
Figure FDA0003816597270000035
其中,权重
Figure FDA0003816597270000036
偏置
Figure FDA0003816597270000037
是训练参数,x′<t表示第t个时间步之前的输入单词序列{x1′,…,xt-1′},使用LSTM基于之前时间步的真实值et-1计算隐层状态st
Figure FDA0003816597270000038
其中
Figure FDA0003816597270000039
是初始化的状态,使用前向编码器的最后一个状态来初始化前向解码器;
采用相同的方式,得到后向解码器的预测每一个单词的概率分布
Figure FDA00038165972700000310
并且使用后向编码器的最后一个状态初始化后向解码器;
最终目标领域的双向重建损失函数是:
Figure FDA00038165972700000311
其中,Nt是目标领域的无标签样本数目,lm是第m个文本序列的长度;
Figure FDA00038165972700000312
是前向解码器预测的第t个单词的概率分布,
Figure FDA00038165972700000313
是后向解码器预测的第t个单词的概率分布。
4.根据权利要求3所述的一种跨领域关键词提取方法,其特征在于,关键词标注器通过预测基于主题的编码器输出的主题特征向量中每个词的标签从而得到关键短语;每个词的标签有5种:B表示关键短语的开始,M表示关键短语的中间部分,E表示关键短语的结尾,S表示单个词成为关键短语,O表示当前词不是任何关键短语的一部分;使用条件随机场来建模这些标签之间的依赖关系;
在训练阶段,对于基于主题的编码器输出的主题特征向量序列
Figure FDA00038165972700000314
Figure FDA00038165972700000315
以及相应的标签序列y=(y1,y2,…,yn);序列y在hz下的条件概率为:
Figure FDA00038165972700000316
Figure FDA0003816597270000041
Figure FDA0003816597270000042
其中,
Figure FDA0003816597270000043
是对于hz所有可能的标签序列,
Figure FDA0003816597270000044
是得分,其中
Figure FDA0003816597270000045
是标签的数目;
Figure FDA0003816597270000046
是给第i个单词分配标签yi的得分;
Figure FDA0003816597270000047
标签转移概率矩阵,Wg和bg分别是可训练的权重和偏置参数和是可训练的参数;
对于条件随机场的训练,最小化在源领域的有标签样本上的负的似然函数:
Figure FDA0003816597270000048
测试时,使用Viterbi算法搜索具有最高条件概率的标签序列:
Figure FDA0003816597270000049
5.根据权利要求4所述的一种跨领域关键词提取方法,其特征在于,所述在训练阶段,不断优化基于主题的对抗神经网络内的各部分参数包括:
总体的训练目标函数看成是基于主题的编码器的参数θenc、关键词标注器的参数θtagger、目标领域双向解码器的参数θdec和领域判别器的参数θd之间的一个最小最大游戏:
Figure FDA00038165972700000410
其中,α与β为设定的权值;
使用领域判别器的损失函数
Figure FDA00038165972700000411
的负的梯度来更新θenc,同时结合关键词标注器的损失函数
Figure FDA00038165972700000412
双向重建损失函数
Figure FDA00038165972700000413
得到总的损失函数
Figure FDA00038165972700000414
来更新θenc,其中总的损失函数
Figure FDA00038165972700000415
为:
Figure FDA00038165972700000416
上式中,α′与β′均为设定的权值;
整个训练过程交替进行,使用
Figure FDA00038165972700000417
更新参数θd,使用
Figure FDA00038165972700000418
更新参数θenc、θtagger、θdec,所有参数的更新都使用反向传播算法。
6.根据权利要求1或5所述的一种跨领域关键词提取方法,其特征在于,在测试阶段,将目标领域的文本输入至训练好的基于主题的对抗神经网络,从而提取出关键词包括:
将给定的目标领域的文本输入至训练好的基于主题的对抗神经网络,结合基于主题的编码器以及关键词标注器,得到文本序列的标签,整合得到对应的关键短语。
7.根据权利要求1所述的一种跨领域关键词提取方法,其特征在于,在构建基于主题的对抗神经网络之前还包括:数据爬取与数据预处理的步骤;其中:
数据爬取包括:从若干不同领域中爬取一定量的文本数据;所述文本数据包括:论文的题目、摘要和/或对应的关键词;
数据预处理包括:对于爬取到的论文的题目和摘要,将二者拼接在一起作为一个文本;对文本内容进行分词处理,把文本中的数字统一用数字0代替;构建词向量所用的词表,选择词频数大于等于设定值的所有单词来构建词表;
若还爬取到了关键词,则直接输入至关键词标注器进行关键词标注。
CN201910235391.8A 2019-03-26 2019-03-26 跨领域关键词提取方法 Active CN109918510B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910235391.8A CN109918510B (zh) 2019-03-26 2019-03-26 跨领域关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910235391.8A CN109918510B (zh) 2019-03-26 2019-03-26 跨领域关键词提取方法

Publications (2)

Publication Number Publication Date
CN109918510A CN109918510A (zh) 2019-06-21
CN109918510B true CN109918510B (zh) 2022-10-28

Family

ID=66967108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910235391.8A Active CN109918510B (zh) 2019-03-26 2019-03-26 跨领域关键词提取方法

Country Status (1)

Country Link
CN (1) CN109918510B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263343B (zh) * 2019-06-24 2021-06-15 北京理工大学 基于短语向量的关键词抽取方法及系统
CN110472238B (zh) * 2019-07-25 2022-11-18 昆明理工大学 基于层级交互注意力的文本摘要方法
CN110674648B (zh) * 2019-09-29 2021-04-27 厦门大学 基于迭代式双向迁移的神经网络机器翻译模型
CN110766073B (zh) * 2019-10-22 2023-10-27 湖南科技大学 一种强化主题注意力机制的移动应用分类方法
US11494647B2 (en) * 2019-12-06 2022-11-08 Adobe Inc. Slot filling with contextual information
CN111274815B (zh) 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN111444712B (zh) * 2020-03-25 2022-08-30 重庆邮电大学 一种关键词提取方法、终端、计算机可读存储介质
CN111813924B (zh) * 2020-07-09 2021-04-09 四川大学 基于可扩展动态选择与注意力机制的类别检测算法及系统
CN111881257B (zh) * 2020-07-24 2022-06-03 广州大学 基于主题词和语句主旨的自动匹配方法、系统及存储介质
CN111680669A (zh) * 2020-08-12 2020-09-18 江西风向标教育科技有限公司 一种试题分割方法、系统及可读存储介质
CN112100327B (zh) * 2020-08-31 2022-05-31 北京航空航天大学 一种基于综合特征提取的对话摘要生成方法及系统
CN112463956B (zh) * 2020-11-26 2022-08-23 重庆邮电大学 基于对抗学习和分层神经网络的文本摘要生成系统和方法
CN112528667B (zh) * 2020-11-27 2022-10-14 北京大学 一种语义解析上的领域迁移方法和装置
CN112464656B (zh) * 2020-11-30 2024-02-13 中国科学技术大学 关键词抽取方法、装置、电子设备和存储介质
CN115329070B (zh) * 2022-06-29 2023-03-24 北京数美时代科技有限公司 基于关键词的分类模型文本对抗方法、系统和电子设备
CN115809665B (zh) * 2022-12-13 2023-07-11 杭州电子科技大学 一种基于双向多粒度注意力机制的无监督关键词抽取方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733380B2 (en) * 2017-05-15 2020-08-04 Thomson Reuters Enterprise Center Gmbh Neural paraphrase generator

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108984524A (zh) * 2018-07-05 2018-12-11 北京理工大学 一种基于变分神经网络主题模型的标题生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合领域知识与深度学习的机器翻译领域自适应研究;丁亮等;《情报科学》;20171005(第10期);全文 *

Also Published As

Publication number Publication date
CN109918510A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109918510B (zh) 跨领域关键词提取方法
Zhou et al. Recurrent convolutional neural network for answer selection in community question answering
Gasmi et al. LSTM recurrent neural networks for cybersecurity named entity recognition
Yang et al. Adversarial learning for chinese ner from crowd annotations
Jabreel et al. Target-dependent sentiment analysis of tweets using bidirectional gated recurrent neural networks
Zhang et al. A hierarchical multi-input and output bi-GRU model for sentiment analysis on customer reviews
Yang et al. Advanced community question answering by leveraging external knowledge and multi-task learning
CN111222318A (zh) 基于双通道双向lstm-crf网络的触发词识别方法
Gan et al. Unsupervised learning of sentence representations using convolutional neural networks
Thattinaphanich et al. Thai named entity recognition using Bi-LSTM-CRF with word and character representation
Huang et al. Text classification with document embeddings
Omara et al. Emotion analysis in arabic language applying transfer learning
Rajalakshmi et al. Sentimental analysis of code-mixed Hindi language
Mechti et al. A decision system for computational authors profiling: From machine learning to deep learning
Ghosal et al. A deep multimodal investigation to determine the appropriateness of scholarly submissions
Narendra et al. Named entity recognition based resume parser and summarizer
Yu et al. Leveraging auxiliary tasks for document-level cross-domain sentiment classification
Omidvar et al. Learning to determine the quality of news headlines
Xiao et al. Multi-Task CNN for classification of Chinese legal questions
CN111914084A (zh) 一种基于深度学习的带有情感标签文本生成及评估系统
CN113590819B (zh) 一种大规模类别层级文本分类方法
Zhang et al. Hierarchical attention networks for grid text classification
Song Distilling knowledge from user information for document level sentiment classification
Reddy et al. An approach for suggestion mining based on deep learning techniques
Liu et al. Suggestion mining from online reviews usingrandom multimodel deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant