CN109543031A - 一种基于多任务对抗学习的文本分类方法 - Google Patents

一种基于多任务对抗学习的文本分类方法 Download PDF

Info

Publication number
CN109543031A
CN109543031A CN201811201446.5A CN201811201446A CN109543031A CN 109543031 A CN109543031 A CN 109543031A CN 201811201446 A CN201811201446 A CN 201811201446A CN 109543031 A CN109543031 A CN 109543031A
Authority
CN
China
Prior art keywords
feature
network
multitask
sharing
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811201446.5A
Other languages
English (en)
Inventor
陆璐
贾志豪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201811201446.5A priority Critical patent/CN109543031A/zh
Publication of CN109543031A publication Critical patent/CN109543031A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多任务对抗学习的文本分类方法,包括以下步骤:预训练词嵌入向量;构建多任务特征提取器,提炼出多领域文本数据的共享特征和私有特征;引入多领域的对抗网络,使得共享特征空间包含更多共享特征和更少的私有特征;引入特征矩阵的正交约束,消除同时存在于共享特征空间和私有特征空间中的冗余特征;设计联合损失函数,构建完整的多任务对抗学习分类器;将共享网络层剥离出来,用于新目标领域文本数据的分类预测。本发明可直接应用于实际多领域文本数据的分类任务中,采用本发明中的多任务学习分类方法可以解决单任务学习会忽略任务之间所富含的关联信息的问题,且通过对抗网络和正交约束可提高文本分类的准确率。

Description

一种基于多任务对抗学习的文本分类方法
技术领域
本发明涉及自然语言处理领域中的信息挖掘和文本分类领域,特别涉及一种基于多任务对抗学习的文本分类方法。
背景技术
信息时代以惊人的速度发展,容纳了海量的各种类型的信息,其中包括文本信息、声音信息、图像信息等。文本分类作为处理和组织大量文本数据的关键技术,可以较大程度上解决信息杂乱的问题,方便用户准确定位信息,提高信息检索的效率,大大降低组织整理文档耗费的人力资源。因此,越多越多的自然语言处理研究和实践人员开始高度关注基于机器学习和深度学习的文本分类方法,并不断提出新的模型优化文本分类的准确性。
基于机器学习的传统文本分类方法,首先从文本数据中提出特征,常用的特征计算有TF/IDF,互信息量,信息增益、X2统计量、N-Gram等方法。这些特征主要利用的是统计学分析获取的特征。进一步地,文本分类方法运用如支持向量机、随机森林、逻辑回归等监督学习模型构造分类器得到分类模型,最终对新文本数据进行分类预测。
基于深度学习的文本分类方法,使用一些神经网络模型如卷积神经网络CNN、长短期记忆网络LSTM等模型来做特征的提取,往往取得了更好的分类效果。然而,面对多领域(任务)文本分类处理,分别对单一领域(任务)的文本数据集进行训练学习效果有限,效率也不高;另一方面,多任务学习中的Shared-Private模型可以同时学习多领域文本数据的共享特征和私有特征,且通过引入对抗训练网络和特征矩阵的正交约束,多领域的文本分类准确率得到进一步提升,训练学习得到的共享网络层还可以进行保存,用于缺乏训练数据的新目标领域的文本分类预测。
基于上述动机和技术,本发明提出一种基于多任务对抗学习的文本分类方法。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于多任务对抗学习的文本分类方法,结合多任务中的Shared-Private模型、对抗训练网络和特征矩阵的正交约束模型,解决现有文本分类方法单任务学习会忽略多任务之间所富含的关联信息的问题,进一步提高分类的准确率。该方法操作简易,只需在已有的多任务文本数据集上训练出一种文本分类模型,然后提供新目标领域的文本数据集即可提供一套对该领域文本数据集的分类预测结果,为新领域文本自动分类整理提供参考依据。
本发明的目的通过以下的技术方案实现:
一种基于多任务对抗学习的文本分类方法,包括以下步骤:
1)基于word2vec模型,在未贴标签的大规模数据集上预训练wordembeddings词嵌入向量,用于文本数据的矩阵向量化;
2)构建基于Shared-Private模型的多任务特征提取网络,利用步骤1)得到的预训练词向量初始化Shared-Private网络的输入;
3)引入多领域对抗网络,优化步骤2)得到的共享特征空间,使之包含更多的共享特征和更少的私有特征;
4)引入特征矩阵的正交约束模型,在步骤3)中优化共享特征空间的基础上,消除共享特征空间和私有特征空间中的冗余特征;
5)在步骤2)、步骤3)和步骤4)的基础上,设计带超参数的联合损失函数,训练出基于多任务对抗学习的文本分类模型;
6)保存步骤5)中得到的共享特征提取网络,维持网络参数不变,用于新目标领域的文本数据分类预测。
步骤2)中,所述构建基于Shared-Private模型的多任务特征提取网络,
具体包括以下内容:
Shared-Private模型包含两个部分:a)全局唯一的共享特征提取网络由一个长短期记忆网络(LSTM)和一个卷积神经网络网络(CNN)并行组成,简称为Parallel LC网络层,用以提取任务(领域)无关的共享特征;b)多个任务(领域)特定的私有特征提取网络均由一个CNN构建,用以提取依赖特定任务(领域)的私有特征;最后,两部分得到的共享特征和私有特征进行融合,输入到一个紧接着softmax层的全连接层以输出分类标签的概率分布。
步骤3)中,所述多领域对抗网络,具体包括以下内容:
使用步骤2)Parallel LC网络层得到的共享特征集合FS会输入到一个多领域的分类器D中,用以判别输入数据的领域类型;对抗训练体现在:对于给定的FS(可能含有私有特征),分类器D将计算领域分类的损失函数LD,通过在分类器D和Parallel LC层之间构建一个梯度逆转层,Parallel LC层的领域损失函数转换为-LD,经过梯度下降训练后,ParallelLC层的参数将最小化损失函数-LD,从而最大化损失函数LD;最终,分类器D将不能根据共享特征判别输入数据的领域类型,此时Parallel LC层学习的共享特征空间将包含最多的领域共享特征,而不包含特定领域的私有特征。
步骤4)中,所述特征矩阵的正交约束模型,具体包括以下内容:
使用步骤2)得到的共享特征分别来源于Parallel LC层的LSTM和CNN的输出,因此基于矩阵正交计算公式,约束模型将分别以Parallel LC提取出的两种共享特征矩阵与唯一的私有特征矩阵为输入,计算两种正交约束损失函数,最后联合最小化这两种损失函数将消除同时存在于共享特征空间和私有特征空间中的冗余特征。
步骤5)中,所述多任务对抗学习的文本分类模型,其优化目标包含步骤2)、步骤3)和步骤4)对应的三种损失函数,并且以带超参数的形式进行线性相加;同时,通过步骤5)训练出的共享网络层Paralle LC将进行保存,维持网络参数不变,用于步骤6)中新目标领域文本数据的分类预测。
本发明与现有技术相比,具有如下优点和有益效果:
本发明利用了多任务中的Shared‐Private模型,以CNN和LSTM组成共享特征提取器,以对抗学习网络和矩阵正交约束为优化手段,解决单一任务和模型的文本分类方法忽略了多任务所富含的关联信息的问题,进而提高文本分类的准确性。
附图说明
图1为本发明所述基于多任务对抗学习的文本分类方法的流程图。
图2为本发明所述基于Shared-Private模型的文本分类方法的网络示意图。
图3为本发明所述基于多任务对抗学习的文本分类的详细网络示意图。
图4为本发明所述基于共享网络层的新目标领域文本分类的网络示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1,一种基于多任务对抗学习的文本分类方法,包括以下步骤:
步骤1)基于word2vec模型,在未贴标签的大规模数据集上预训练wordembeddings词嵌入向量,用于文本数据的矩阵向量化。具体实现如下:本发明选择pythongensim库中的word2vec模型,pip install gensim安装好库后,即可导入使用。在调用Word2Vec接口时,主要有以下参数:1)sg:sg=1时为skip-gram算法,对低频词敏感;默认sg=0为CBOW算法。2)size:输出词向量的维数,值太小会导致词映射冲突影响结果,值太大则会耗内存并使算法计算变慢,一般值取为100到200之间。3)window:句子中当前词与目标词之间的最大距离,3表示在目标词前看3-b个词,后面看b个词(b在0-3之间随机)。4)min_count:对词进行过滤,频率小于min-count的单词则会被忽视,默认值为5。5)sample:表示更高频率的词被随机下采样到所设置的阈值,默认值为1e-3。表1展示了Word2Vec训练亚马逊中文书评语料(12万+句子文本)后的测试函数接口。
表1:Word2Vec预训练词向量
训练模型 model=Word2Vec(sentences,size=200)
查看某个词的词向量 model["书"]
计算两个词的相似度 model.similarity("不错","好")
计算某个词的相关词列表 model.most_similar("书",topn=20)
保存模型 model.save("书评.model")
步骤2)构建基于Shared-Private模型的多任务特征提取网络,利用步骤1)得到的预训练词向量初始化Shared-Private网络的输入。基于Shared-Private模型的神经网络具体实现如下:一方面,每个领域的文本数据都将输入到一个全局唯一的共享特征提取网络层中,该网络层由一个卷积神经网络(CNN)和一个长短期记忆网络(LSTM)并行组成,简称Parallel LC,从局部和整体角度分别提取多领域文本的共享特征。另一方面,每个领域的文本数据还将分别输入对应自身特定领域的私有特征提取网络层中,该网路层由一个卷积神经网络(CNN)构建,从而提取出特定领域的私有特征。然后,对每个领域,共享特征和本领域的私有特征进行融合,输入到一个紧接着softmax层的全连接层中,最终输出分类标签的预测结果。本发明的CNN由一个包含卷积核大小为3,4,5且卷积核数量均为128的卷积层、一个最大值池化层组成,LSTM单元的隐藏层大小为128,实现的工具是Tensorflow(https:// tensorflow.google.cn/)。图2以两个文本领域为例展示了基于Shared-Private模型的多任务文本特征提取网络的示意图,其中LS为针对某个特定领域,预测结果分布和真实标签分布的交叉损失函数,xm和xn为两个领域文本数据的输入。
步骤3)引入多领域对抗网络,优化步骤2)得到的共享特征空间,使之包含更多的共享特征和更少的私有特征。多领域对抗网络具体实现如下:Parallel LC网络层得到的共享特征集合FS将输入到一个多领域的分类器D中,由一个全连接层和一个softmax层构成,用以判别输入数据的领域类型。对于给定的FS(可能含有私有特征),D将计算领域分类的损失函数LD,通过在D和Parallel LC层之间构建一个梯度逆转层,Parallel LC层的领域损失函数转换为-LD,Parallel LC层的参数将最小化损失函数-LD,从而最大化损失函数LD。最终,分类器D将不能根据共享特征判别输入数据的领域类型,此时Parallel LC层学习的共享特征空间将包含最多的领域共享特征,而不包含特定领域的私有特征。我们使用Ladv表示此步骤产生的对抗网络损失函数,此处即相当于-LD,两者的关系如下,其中θS和θD分别表示共享特征提取层Parallel LC和多领域判别分类器D中的网络参数。
步骤4)引入特征矩阵的正交约束模型,在步骤3)中优化共享特征空间的基础上,消除共享特征空间和私有特征空间中的冗余特征。具体实现如下:使用步骤2)得到的共享特征分别来源于Parallel LC层LSTM和CNN的输出,基于矩阵正交计算公式,约束模型将分别以Parallel LC提取出的两种共享特征矩阵与唯一的私有特征矩阵为输入,计算两种正交约束损失函数,最后联合最小化这两种损失函数,将消除同时存在于共享特征空间和私有特征空间中的冗余特征,使共享特征空间和私有特征空间从互不相干的两个侧面分别提取输入文本的信息。特征矩阵的正交计算公式如下,其中LO为正交约束损失函数,K为文本领域的总数量,分别表示对应某个文本领域k,Parallel LC层LSTM和CNN输出的共享特征矩阵,Pk表示私有特征提取网络CNN输出的私有特征矩阵,AT表示矩阵A的转置矩阵,表示矩阵Frobenius范数的平方。
步骤5)在步骤2)、步骤3)和步骤4)的基础上,设计带超参数的联合损失函数,训练出基于多任务对抗学习的文本分类模型。图3以两个文本领域为例展示了完整的基于多任务对抗学习的网络架构。具体实现如下:步骤2)基于共享特征和私有特征的融合,计算出特定领域的文本分类损失函数LS,步骤3)基于对抗学习网络,通过一个梯度逆转层,最小化多领域判别分类器D中的网络参数,且最大化共享特征提取网络层Parallel LC中的网络参数,得到对抗训练损失函数Ladv,步骤4)分别以Parallel LC提取出的两种共享特征矩阵与唯一的私有特征矩阵为输入,计算两种正交约束损失函数并相加得到正交约束损失函数LO。最终,完整的基于多任务对抗学习的文本分类模型的总优化目标即损失函数定义为LS、Ladv和LO三者的线性加权之和:
L=Ls+αLadv+βLo
表2展示了本发明的基于多任务对抗学习的文本分类方法和其它基于深度学习方法的特点对比分析。其中,本发明的方法(模型)定义为Adversarial Shared-Private,它以Shared-Private模型为基础,引入了对抗学习的方法,其中对抗学习的含义包含两层:一方面是多领域共享特征的对抗学习,另一方面是通过矩阵正交约束带来的领域共享特征和私有特征的对抗学习。
表2:本发明的方法与其它深度学习方法的对比分析
步骤6)保存步骤5)中得到的共享特征提取网络,维持网络参数不变,用于新目标领域的文本数据分类预测。具体实现如下:通过步骤5)训练得到完整的基于多任务对抗学习的文本分类器,保存模型中的共享特征提取网络层Parallel LC,维持网络参数不变,新目标领域的文本数据输入该网络层,提取出的特征将输入到一个全连接层和一个softmax分类层中,最终输出该文本数据的分类预测标签。因此,本发明只需完整地训练多任务对抗学习文本分类模型,即可将共享特征网络层导出保存,支持文本分类需求的即调即用。图4展示了基于共享网络层的新目标领域文本分类的网络示意图。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (5)

1.一种基于多任务对抗学习的文本分类方法,其特征在于,包括以下步骤:
1)基于word2vec模型,在未贴标签的大规模数据集上预训练word embeddings词嵌入向量,用于文本数据的矩阵向量化;
2)构建基于Shared-Private模型的多任务特征提取网络,利用步骤1)得到的预训练词向量初始化Shared-Private网络的输入;
3)引入多领域对抗网络,优化步骤2)得到的共享特征空间,使之包含更多的共享特征和更少的私有特征;
4)引入特征矩阵的正交约束模型,在步骤3)中优化共享特征空间的基础上,消除共享特征空间和私有特征空间中的冗余特征;
5)在步骤2)、步骤3)和步骤4)的基础上,设计带超参数的联合损失函数,训练出基于多任务对抗学习的文本分类模型;
6)保存步骤5)中得到的共享特征提取网络,维持网络参数不变,用于新目标领域的文本数据分类预测。
2.根据权利要求1所述基于多任务对抗学习的文本分类方法,其特征在于,步骤2)中,所述构建基于Shared-Private模型的多任务特征提取网络,
具体包括以下内容:
Shared-Private模型包含两个部分:a)全局唯一的共享特征提取网络由一个长短期记忆网络和一个卷积神经网络网络并行组成,简称为Parallel LC网络层,用以提取任务无关的共享特征;b)多个任务特定的私有特征提取网络均由一个CNN构建,用以提取依赖特定任务的私有特征;最后,两部分得到的共享特征和私有特征进行融合,输入到一个紧接着softmax层的全连接层以输出分类标签的概率分布。
3.根据权利要求1所述基于多任务对抗学习的文本分类方法,其特征在于,步骤3)中,所述多领域对抗网络,具体包括以下内容:
使用步骤2)Parallel LC网络层得到的共享特征集合FS会输入到一个多领域的分类器D中,用以判别输入数据的领域类型;对抗训练体现在:对于给定的FS,分类器D将计算领域分类的损失函数LD,通过在分类器D和Parallel LC层之间构建一个梯度逆转层,Parallel LC层的领域损失函数转换为-LD,经过梯度下降训练后,Parallel LC层的参数将最小化损失函数-LD,从而最大化损失函数LD;最终,分类器D将不能根据共享特征判别输入数据的领域类型,此时Parallel LC层学习的共享特征空间将包含最多的领域共享特征,而不包含特定领域的私有特征。
4.根据权利要求1所述基于多任务对抗学习的文本分类方法,其特征在于,步骤4)中,所述特征矩阵的正交约束模型,具体包括以下内容:
使用步骤2)得到的共享特征分别来源于Parallel LC层的LSTM和CNN的输出,因此基于矩阵正交计算公式,约束模型将分别以Parallel LC提取出的两种共享特征矩阵与唯一的私有特征矩阵为输入,计算两种正交约束损失函数,最后联合最小化这两种损失函数将消除同时存在于共享特征空间和私有特征空间中的冗余特征。
5.根据权利要求1所述基于多任务对抗学习的文本分类方法,其特征在于,步骤5)中,所述多任务对抗学习的文本分类模型,其优化目标包含步骤2)、步骤3)和步骤4)对应的三种损失函数,并且以带超参数的形式进行线性相加;同时,通过步骤5)训练出的共享网络层Paralle LC将进行保存,维持网络参数不变,用于步骤6)中新目标领域文本数据的分类预测。
CN201811201446.5A 2018-10-16 2018-10-16 一种基于多任务对抗学习的文本分类方法 Pending CN109543031A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811201446.5A CN109543031A (zh) 2018-10-16 2018-10-16 一种基于多任务对抗学习的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811201446.5A CN109543031A (zh) 2018-10-16 2018-10-16 一种基于多任务对抗学习的文本分类方法

Publications (1)

Publication Number Publication Date
CN109543031A true CN109543031A (zh) 2019-03-29

Family

ID=65843804

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811201446.5A Pending CN109543031A (zh) 2018-10-16 2018-10-16 一种基于多任务对抗学习的文本分类方法

Country Status (1)

Country Link
CN (1) CN109543031A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110196981A (zh) * 2019-06-11 2019-09-03 百度在线网络技术(北京)有限公司 文本表示方法、装置、设备和存储介质
CN110532377A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于对抗训练和对抗学习网络的半监督文本分类方法
CN110704619A (zh) * 2019-09-24 2020-01-17 支付宝(杭州)信息技术有限公司 文本分类方法、装置及电子设备
CN110795410A (zh) * 2019-10-08 2020-02-14 华南师范大学 一种多领域文本分类方法
CN111046760A (zh) * 2019-11-29 2020-04-21 山东浪潮人工智能研究院有限公司 一种基于域对抗网络的笔迹鉴定方法
CN111062484A (zh) * 2019-11-19 2020-04-24 中科鼎富(北京)科技发展有限公司 基于多任务学习的数据集选取方法及装置
CN111178401A (zh) * 2019-12-16 2020-05-19 上海航天控制技术研究所 一种基于多层对抗网络的空间目标分类方法
CN111259446A (zh) * 2020-01-16 2020-06-09 深圳前海微众银行股份有限公司 基于联邦迁移学习的参数处理方法、设备及存储介质
CN111767949A (zh) * 2020-06-28 2020-10-13 华南师范大学 一种基于特征和样本对抗共生的多任务学习方法及其系统
CN112084769A (zh) * 2020-09-14 2020-12-15 深圳前海微众银行股份有限公司 依存句法模型优化方法、装置、设备及可读存储介质
CN112183547A (zh) * 2020-10-19 2021-01-05 中国科学院计算技术研究所 基于多模态数据的多任务学习方法及系统
CN113127431A (zh) * 2020-01-10 2021-07-16 浙江大学 智能多任务特征数据共享方法及装置
CN113704565A (zh) * 2021-10-28 2021-11-26 浙江大学 基于全局区间误差的学习型时空索引方法、装置及介质
CN114201635A (zh) * 2021-11-12 2022-03-18 东北大学 一种基于多视图图数据特征学习的案源线索分类方法
CN114490951A (zh) * 2022-04-13 2022-05-13 长沙市智为信息技术有限公司 一种多标签文本分类方法及模型
US11423333B2 (en) 2020-03-25 2022-08-23 International Business Machines Corporation Mechanisms for continuous improvement of automated machine learning
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108304890A (zh) * 2018-03-16 2018-07-20 科大讯飞股份有限公司 一种分类模型的生成方法及装置
US10095992B1 (en) * 2016-07-01 2018-10-09 Intraspexion, Inc. Using classified text, deep learning algorithms and blockchain to identify risk in low-frequency, high value situations, and provide early warning

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10095992B1 (en) * 2016-07-01 2018-10-09 Intraspexion, Inc. Using classified text, deep learning algorithms and blockchain to identify risk in low-frequency, high value situations, and provide early warning
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN108304890A (zh) * 2018-03-16 2018-07-20 科大讯飞股份有限公司 一种分类模型的生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PENGFEI LIU ET AL.: "Adversarial Multi-task Learning for Text Classification", 《 COMPUTATION AND LANGUAGE》 *
YOON KIM: "Convolutional Neural Networks for Sentence Classification", 《COMPUTATION AND LANGUAGE》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532377B (zh) * 2019-05-13 2021-09-14 南京大学 一种基于对抗训练和对抗学习网络的半监督文本分类方法
CN110532377A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于对抗训练和对抗学习网络的半监督文本分类方法
CN110196981B (zh) * 2019-06-11 2023-07-25 百度在线网络技术(北京)有限公司 文本表示方法、装置、设备和存储介质
CN110196981A (zh) * 2019-06-11 2019-09-03 百度在线网络技术(北京)有限公司 文本表示方法、装置、设备和存储介质
CN110704619A (zh) * 2019-09-24 2020-01-17 支付宝(杭州)信息技术有限公司 文本分类方法、装置及电子设备
CN110795410A (zh) * 2019-10-08 2020-02-14 华南师范大学 一种多领域文本分类方法
CN111062484A (zh) * 2019-11-19 2020-04-24 中科鼎富(北京)科技发展有限公司 基于多任务学习的数据集选取方法及装置
CN111062484B (zh) * 2019-11-19 2023-06-09 鼎富智能科技有限公司 基于多任务学习的数据集选取方法及装置
CN111046760B (zh) * 2019-11-29 2023-08-08 山东浪潮科学研究院有限公司 一种基于域对抗网络的笔迹鉴定方法
CN111046760A (zh) * 2019-11-29 2020-04-21 山东浪潮人工智能研究院有限公司 一种基于域对抗网络的笔迹鉴定方法
CN111178401A (zh) * 2019-12-16 2020-05-19 上海航天控制技术研究所 一种基于多层对抗网络的空间目标分类方法
CN111178401B (zh) * 2019-12-16 2023-09-12 上海航天控制技术研究所 一种基于多层对抗网络的空间目标分类方法
CN113127431A (zh) * 2020-01-10 2021-07-16 浙江大学 智能多任务特征数据共享方法及装置
CN111259446B (zh) * 2020-01-16 2023-08-22 深圳前海微众银行股份有限公司 基于联邦迁移学习的参数处理方法、设备及存储介质
CN111259446A (zh) * 2020-01-16 2020-06-09 深圳前海微众银行股份有限公司 基于联邦迁移学习的参数处理方法、设备及存储介质
US11423333B2 (en) 2020-03-25 2022-08-23 International Business Machines Corporation Mechanisms for continuous improvement of automated machine learning
CN111767949A (zh) * 2020-06-28 2020-10-13 华南师范大学 一种基于特征和样本对抗共生的多任务学习方法及其系统
CN112084769B (zh) * 2020-09-14 2024-07-05 深圳前海微众银行股份有限公司 依存句法模型优化方法、装置、设备及可读存储介质
CN112084769A (zh) * 2020-09-14 2020-12-15 深圳前海微众银行股份有限公司 依存句法模型优化方法、装置、设备及可读存储介质
CN112183547A (zh) * 2020-10-19 2021-01-05 中国科学院计算技术研究所 基于多模态数据的多任务学习方法及系统
CN113704565A (zh) * 2021-10-28 2021-11-26 浙江大学 基于全局区间误差的学习型时空索引方法、装置及介质
CN114201635A (zh) * 2021-11-12 2022-03-18 东北大学 一种基于多视图图数据特征学习的案源线索分类方法
CN114490951A (zh) * 2022-04-13 2022-05-13 长沙市智为信息技术有限公司 一种多标签文本分类方法及模型
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质
CN116738298B (zh) * 2023-08-16 2023-11-24 杭州同花顺数据开发有限公司 一种文本分类方法、系统和存储介质

Similar Documents

Publication Publication Date Title
CN109543031A (zh) 一种基于多任务对抗学习的文本分类方法
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN111177569B (zh) 基于人工智能的推荐处理方法、装置及设备
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN110532571A (zh) 文本处理方法及相关装置
CN107329995B (zh) 一种语义受控的答案生成方法、装置及系统
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN111767408A (zh) 一种基于多种神经网络集成的因果事理图谱构建方法
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
TWI695277B (zh) 自動化網站資料蒐集方法
CN110442718A (zh) 语句处理方法、装置及服务器和存储介质
CN108509517B (zh) 一种面向实时新闻内容的流式话题演化跟踪方法
CN110110225B (zh) 基于用户行为数据分析的在线教育推荐模型及构建方法
CN107291694A (zh) 一种自动评阅作文的方法和装置、存储介质及终端
CN109543034A (zh) 基于知识图谱的文本聚类方法、装置及可读存储介质
CN105528437A (zh) 一种基于结构化文本知识提取的问答系统构建方法
Fu et al. A convolutional neural network for clickbait detection
CN108170678A (zh) 一种文本实体抽取方法与系统
CN107273348A (zh) 一种文本的话题和情感联合检测方法及装置
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN104391969B (zh) 确定用户查询语句句法结构的方法及装置
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN112749558A (zh) 一种目标内容获取方法、装置、计算机设备和存储介质
Li et al. Research on sentiment classification for tang poetry based on tf-idf and fp-growth
CN109472032A (zh) 一种实体关系图的确定方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190329

RJ01 Rejection of invention patent application after publication