CN113535948B - 引入要点信息的LSTM-Attention文本分类方法 - Google Patents

引入要点信息的LSTM-Attention文本分类方法 Download PDF

Info

Publication number
CN113535948B
CN113535948B CN202110615580.5A CN202110615580A CN113535948B CN 113535948 B CN113535948 B CN 113535948B CN 202110615580 A CN202110615580 A CN 202110615580A CN 113535948 B CN113535948 B CN 113535948B
Authority
CN
China
Prior art keywords
sentence
attention
lstm
vector
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110615580.5A
Other languages
English (en)
Other versions
CN113535948A (zh
Inventor
付钰
于游
杨金宝
王坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval University of Engineering PLA
Original Assignee
Naval University of Engineering PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval University of Engineering PLA filed Critical Naval University of Engineering PLA
Priority to CN202110615580.5A priority Critical patent/CN113535948B/zh
Publication of CN113535948A publication Critical patent/CN113535948A/zh
Application granted granted Critical
Publication of CN113535948B publication Critical patent/CN113535948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种引入要点信息的LSTM‑Attention文本分类方法,提出了句子要点信息提取方法,通过该方法能够对句子要点信息进行提取,再通过句子要点信息对文本的语义进行表述,丰富特征语义信息,再选取加入注意力机制的长短时记忆网络作为分类器学习,通过将词向量和句子向量分别作为网络输入得到的结果进行拼接即可得到文本最终类别。本发明提出的方法能够解决文本分类中特征稀疏的问题,有效提高了文本分类的准确性。

Description

引入要点信息的LSTM-Attention文本分类方法
技术领域
本发明涉及文本自动分类技术领域,具体涉及一种引入要点信息的LSTM-Attention文本分类方法。
背景技术
近年来,随着互联网产业快速形成和计算机网络的广泛应用,海量文本数据汇入网络中,呈现爆炸式增长,如何有效地对这些数据进行分门别类是合理管理与使用数据的前提。文本自动分类技术是指按照一定的规则对文本进行类别划分的过程,主要方法有基于规则的分类方法和基于统计的分类方法两种。
伴随着机器学习和深度学习技术的发展,新的文本分类算法被不断提出,如朴素贝叶斯、支持向量机(SupportVector Machine,SVM)、决策树以及神经网络学习等方法。目前,在深度学习学习领域,应用较为广泛的文本方法为以循环神经网络为基础改进的LSTM-Attention模型,然而现有的LSTM-Attention模型是以词向量为基础,词向量表示方法虽然能够有效避免词袋模型维度词、特征稀疏的问题,但是仍然无法有效地对复杂的文本语义信息进行描述。
发明内容
针对文本分类过程中特征稀疏,无法全面的表示文本信息的问题,本发明旨在提供一种引入要点信息的LSTM-Attention文本分类方法。
为了实现上述目的,本发明所采用的技术方案如下:
一种引入要点信息的LSTM-Attention文本分类方法,其特征在于,包括以下步骤:
步骤1:输入带分类的文本信息;
步骤2:利用句子要点信息提取方法处理输入的文本信息,得到长度一定的句子要点向量和词向量;
步骤3:分别对句子要点向量和词向量构建引入句子要点信息的LSTM-Attention模型,并进行学习训练,得到带权重的输出向量Hc和H;
步骤4:将得到的输出向量Hc和H进行拼接,得到拼接向量;
步骤5:按拼接向量所占的比重进而进行计算得到其所属已知类别的概率p,通过该概率p输出最终的分类结果。
进一步地,步骤2所述的提取方法包括以下步骤:
步骤21:对输入的文本信息进行分割,将其分割成多个句子,在对每个句子进行分词和词性标注,得到分词和词性信息,构建词向量;
步骤22:根据分词位置和词性信息提取出句子的要点信息;
步骤23:利用PV-DM方法构造句子要点信息向量。
进一步地,步骤3所述的引入句子要点信息的LSTM-Attention模型包括双向LSTM输入层、注意力层以及输出层,且注意力层中使用注意力生成模型,其包括输入模块、编码层和注意力生成模块以及输出模块;
所述编码层的编码器采用LSTM,通过所述注意力生成模型能够得到输出权重α为:
α=soft max(tanh(ht·Wi+bi)+tanh(ht-1·Wc+bc)·Wα+bα) (2),
ht为经编码层编码后的语义编码信息,Wi、Wc、Wα、为网络训练参数、bi、bc、bα为偏置;
根据得到的词向量与句向量的输出权重,即可得到词向量带权重的输出向量H以及句子要点向量带权重的输出向量Hc。
进一步地,步骤4所述的拼接向量的拼接公式为:
Hf=λ·H+(1-λ)·Hc (3),
其中,λ为均衡因子,Hf为拼接向量。
进一步地,步骤5所述的所属类的概率的计算公式为:
p=soft max(Hf) (4)。
本发明的有益效果是:
本发明提出的方法通过句子要点信息对文本的语义进行表述,能更全面的表示文本的语义信息,并在一定程度上增加了文本主体语义在分类中的影响力,能够更全面的表示文本的语义信息,解决传统文本分类中特征稀疏的难题;再以长短时记忆网络作为分类器学习,加入注意力模型,对网络输出权重进行调整,可以有效提高文本分类的准确性。
附图说明
图1为传统的LSTM-Attention结构图;
图2为本发明中的引入要点的LSTM-Attention模型;
图3为本发明中的注意力生成模型图;
图4为本发明中的要点信息抽取结果的示例图;
图5为实施例中均衡因子λ取不同值时的分类结果;
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
本发明的核心思路为:通过提出一种句子要点信息提取方法,利用该方法更全面的表示文本的语义信息,解决传统文本分类中特征稀疏的问题;再通过要点信息对文本的语义进行表述,丰富特征语义信息,以长短时记忆网络作为分类器学习,加入注意力模型,对网络输出权重进行调整,最终提高文本分类的准确性。
1、引入要点信息的LSTM-Attention模型
为充分利用句子中的语义信息,本发明利用句子信息要点对传统的LSTM-Attention模型进行改进,将要点事件融入到模型中去,通过训练模型使得模型自动获取词、句子要点信息与文本类别之间的关系,最终通过词向量与句子要点向量输出的拼接方法,从而实现精准文本分类。
(1)传统的LSTM-Attention模型
基于注意力机制的LSTM模型是指将注意力机制引入到LSTM模型中,其基本结构如附图1所示。从图中可以看出:其包含输入层(双向LSTM层)、Attention机制层(注意力机制)和输出层(softmax)结构;其中,双向LSTM层,从前向和后向两个方向对输入层送来的数据进行训练;Attention机制层是先计算每个时序的权重,然后将所有时序输出的向量进行加权和作为输出向量,送给输出层。
此时的输出向量H为:
Figure BDA0003097304770000041
其中,αi为对所有时刻注意力通过softmax函数进行规一化后得到的权重,其计算式为:
Figure BDA0003097304770000042
其中,V,W为注意力网络模型中的参数,b为偏置,V·tanh(hiW+b)为i时刻隐藏状态的得分,为了防止过拟合,本发明采用Dropout方法来防止过拟合。
(2)引入句子要点信息的LSTM-Attention模型
本发明构建了引入句子要点信息的LSTM-Attention模型,其是在上述的LSTM-Attention模型的基础上,增加一个与句子要点相关联的连接,所述的引入要点信息的LSTM-Attention模型的基本结构如附图2所示。从图中可以看出,其包含词向量LSTM-Attention模型和句子向量LSTM-Attention模型,其中词向量LSTM-Attention模型包括输入层(双向LSTM网络)且输入的是词向量,Attention机制层(注意力机制)和输出层(softmax)结构,其最终输出的是带权重的词向量H;而句子向量LSTM-Attention模型包括输入层(双向LSTM网络)、Attention机制层(注意力机制)和输出层(softmax)结构,其输入的是句子向量,最终输出的是带权重的句子向量Hc,最后将词向量和句子要点向量得到的计算结果进行拼接,根据词向量和句向量计算结果所占的比重计算最终结果,得到属于类的概率。
基于引入要点信息的LSTM-Attention模型的文本分类方法包括以下步骤:
步骤1:输入带分类的文本信息;
步骤2:对文本进行分词和词性标注,得到词向量X=(x1,x2,…,xm),依据分词结果抽取句子要点信息,并利用PV-DM方法生成句子要点向量Core=(c1,c2,…,cm);
步骤3:分别对词向量和句子要点向量构建LSTM-Attention网络并进行学习训练,得到矩阵权重、偏移量等网络训练参数,最后得到输出向量Hc和H;
其中,在注意力生成模型中的编码器选择LSTM,此处的LSTM仅用于注意力生成模型中,与引入要点信息的LSTM-Attention模型中的LSTM分类器无关。本发明的注意力生成模型如附图3所示。根据附图3可知,设输入为S=(s1,s2,…,st),则经编码层后得到的语义编码可以表示为:ht=f(U·st+W·ht-1+b),再结合LSTM网络的计算,可以得到权重为:
α=soft max(tanh(ht·Wi+bi)+tanh(ht-1·Wc+bc)·Wα+bα) (2),
其中,ht为经编码层编码后的语义编码信息,Wi、Wc、Wα、为网络训练参数、bi、bc、bα为偏置;
利用上述的注意力生成模型分别能得到词和句子的注意力权重,继而得到带权重的输出H和Hc。
步骤4:对词向量和句子要点向量得到的计算结果进行拼接,得到拼接向量,根据词向量和句向量计算结果所占的比重计算最终结果,得到属于类的概率。其中,拼接公式为:
Hf=λ·H+(1-λ)·Hc (3),
其中,λ为均衡因子,Hf为拼接向量;
步骤5:通过计算所述拼接向量所占的比重从而得到的归属类的概率p为:
p=softmax(Hf) (4);
最终,通过p得到最终的文本分类结果并输出。
2、句子要点抽取算法
句子要点信息是指能反应句子主体语义的成份,是在不改变原句子语义信息的基础上,对句子的一个浓缩。通常情况下,规范性文本的句子相对较长,上下文衔接紧凑,结构完整,语法规范,句子中常常会出现一些承上启下的句子,如“总得来说”、“有专家认为”等,这类用语与文本或句子的主题相关性小,会给文本分析带来冗余,对其进行分析会产生较大的代价,故而在对文本操作过程中,应当尽量避免此类情况。
为了减少在文本段落向量构造过程中出现过多冗余的现象,本发明提出一种引入句子要点的句子表示方法。该方法包括以下步骤:
首先,对文本句子进行分词操作,得到分词后的结果,然后根据分词结果中词的词性、位置等信息对提取出句子的要点信息,抽取出的要点信息如附图4所示的例子。
其次,利用PV-DM方法构造句子要点信息向量,通过将文本的段落矩阵与段落中的词向量进行矩阵拼接;
最后,将拼接后的向量作为神经网络学习的输入,在网络学习训练时,利用当前输入预测下一词,并将下一词出现的最大似然估计作为目标,采用随机梯度下降的方法训练网络参数,最终得到长度一定的段落向量(也称为句子向量)。
表1为上述句子要点信息抽取算法的实现伪代码,其中,集合N、V、R为词性集合,分别表示为:
N={n,nr,nr1,nr2,nrj,nrf,ns,nsf,nt,nz,nl,ng};
V={v,vd,vn,vshi,vyou,vf,vx,vi,vl,vg};
R={r,rr,rz,rzt,rzs,rzv,ry,ryt,rys,ryv,rg};
表1句子要点信息抽取算法
Figure BDA0003097304770000071
根据句子中词的词性对句子成份进行筛选,只留下能表示句子核心要点的部分,可以大大地减少句子中的冗余,并且不改变句子要表达的语义信息,能够提高后续可操作性。
实施例:
为了验证本文提出的引入要点信息的LSTM-Attention分类方法的可行性,本发明对其进行了仿真实验验证。
1、实验环境和配置
本仿真实验在Anaconda3.7、Keras、Jieba、Gensim上运行。
2、数据来源
本仿真实验所使用的实验数据来自于搜狗语料库——搜狐新闻数据(Sogou CS),该数据收集来自搜狐新闻2012年6月至7月期间国内、国际、社会、娱乐等18个频道的新闻数据,包含的数据有:URL、标题、正文内容等,可从搜狗实验室下载得到格式为.dat的数据包,大小为1.43GB。且其中的参数设定为:词向量维度100,句向量维度100维,Attention中的LSTM隐藏层单元个数为100,编码层中LSTM隐藏单元个数为200,池化层2层,初始学习率匀为0.001,动量为0.95,Dropout设置为0.4。
3、效果评估指标
在对NPL处理时的分析指标主要有准确率、召回率和F1值。其中,准确率是检验方法的查准率,召回率是检验方法的查全率,F1值是查准率与查全率的综合值。
4、实验过程
首先,设定实验中的参数为:词向量维度100,句向量维度100维,Attention中的LSTM隐藏层单元个数为100,编码层中LSTM隐藏单元个数为200,池化层2层,初始学习率匀为0.001,动量为0.95,Dropout设置为0.4;
其次,需要确定上述模型中均衡因子λ的取值,在语料库中从经济、科技、体育、娱乐四个频道各取1000篇,800篇训练,200篇测试,记录不同均衡因子λ取值情况下实验的F1值,F1值结果如附图5所示。从附图5可知,在λ≤0.5的情况下,随着λ的不断增加,实验的F1值逐步提升,说明词向量对于文本分类的影响是十分重要的;当λ≥0.8时,实验的F1值逐步下降,这说明,词向量虽然对文本分类的影响是重要的,但并不是越多越好,当中考虑词向量的时候,会忽略掉文本中一些与文本类别相关的联系;并且可以发现,词向量对文本分类的影响要高于句向量。观察可知,实验F1值最高时,λ的取值为0.7;
再次,剩余的800篇文本进行分类实验,得到的结果如表2所示。
表2引入要点信息的LSTM-Attention
文本分类结果
Figure BDA0003097304770000091
表2中的每一行表示文本真实类别,列为通过实验得到的实验类别。
最后,将本发明提出的引入要点的LSTM-Attention模型与利用基于词向量的LSTM-Attention模型、基于句向量的LSTM-Attention模型进行对比实验,实验得到的平均准确率、召回率、F1值如表3所示。
表3对比实验结果
Figure BDA0003097304770000092
Figure BDA0003097304770000101
从表3可知:基于句向量的LSTM-Attention模型的实验效果最差,这是因为虽然该方法考虑了文本的语义信息,但在句向量提取过程中过滤掉过多的有用信息;引入要点信息的LSTM模型有效结合了词向量和句向量的优点,相比于基于词向量的LSTM-Attention模型,实验结果有明显改善,在加入了注意力机制后,其准确率得到了进一步提升。通过表3,可以发现,引入要点信息的LSTM-Attention模型在文本分类过程中的平均准确率、召回率、F1值要明显优于其他几种方法。
在引入要点信息的LSTM-Attention的文本分类方法(方法1)中,首先需要对句子进行化简之后才能得到对应的句向量,为验证该步骤的有效性,与不对句向量预先进行化简而直接利用PV-DM方法将其转化为句向量的方法(方法2)进行对比,实验结果如表4所示。
表4句向量化简步骤的对比实验结果
Figure BDA0003097304770000102
从表4可知,引入要点信息的方法在准确率、召回率和F1值上要优于未经化简的方法,这说明提取要点信息的方法相比于直接操作的方法可以有效去除句子中的冗余成份,增加句子主体成份(语义)在分类中的比重。虽然,引入要点信息的LSTM-Attention方法在构建句向量时,去掉了部分可能与类别相关的词,但是在分类过程中所使用的词向量在一定程度上能够弥补句子化简所导致的成份丢失。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (3)

1.一种引入要点信息的LSTM-Attention文本分类方法,其特征在于,包括以下步骤:
步骤1:输入待分类的文本信息;
步骤2:利用句子要点信息提取方法处理输入的文本信息,得到长度一定的句子要点向量和词向量;
步骤2所述的提取方法包括:
步骤21:对输入的文本信息进行分割,将其分割成多个句子,在对每个句子进行分词和词性标注,得到分词和词性信息,构建词向量;
步骤22:根据分词位置和词性信息提取出句子的要点信息;
步骤23:利用PV-DM方法构造句子要点信息向量;
步骤3:分别对句子要点向量和词向量构建引入句子要点信息的LSTM-Attention模型,并进行学习训练,得到带权重的输出向量Hc和H;
所述引入句子要点信息的LSTM-Attention模型包括:双向LSTM输入层、注意力层以及输出层,且注意力层中使用注意力生成模型,其包括输入模块、编码层和注意力生成模块以及输出模块;
所述编码层的编码器采用LSTM,通过所述注意力生成模型能够得到输出权重α为:
α=softmax(tanh(ht·Wi+bi)+tanh(ht-1·Wc+bc)·Wα+bα) (2),
ht为经编码层编码后的语义编码信息,Wi、Wc、Wα、为网络训练参数、bi、bc、bα为偏置;
根据得到的词向量与句向量的输出权重,即可得到词向量带权重的输出向量H以及句子要点向量带权重的输出向量Hc;
步骤4:将得到的输出向量Hc和H进行拼接,得到拼接向量;
步骤5:按拼接向量所占的比重进而进行计算得到其所属已知类别的概率p,通过该概率p输出最终的分类结果。
2.根据权利要求1所述的引入要点信息的LSTM-Attention文本分类方法,其特征在于,步骤4所述的拼接向量的拼接公式为:
Hf=λ·H+(1-λ)·Hc (3),
其中,λ为均衡因子,Hf为拼接向量。
3.根据权利要求1所述的引入要点信息的LSTM-Attention文本分类方法,其特征在于,步骤5所述的所属类的概率的计算公式为:
p=softmax(Hf) (4)。
CN202110615580.5A 2021-06-02 2021-06-02 引入要点信息的LSTM-Attention文本分类方法 Active CN113535948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110615580.5A CN113535948B (zh) 2021-06-02 2021-06-02 引入要点信息的LSTM-Attention文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110615580.5A CN113535948B (zh) 2021-06-02 2021-06-02 引入要点信息的LSTM-Attention文本分类方法

Publications (2)

Publication Number Publication Date
CN113535948A CN113535948A (zh) 2021-10-22
CN113535948B true CN113535948B (zh) 2022-08-16

Family

ID=78095112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110615580.5A Active CN113535948B (zh) 2021-06-02 2021-06-02 引入要点信息的LSTM-Attention文本分类方法

Country Status (1)

Country Link
CN (1) CN113535948B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN110807084A (zh) * 2019-05-15 2020-02-18 北京信息科技大学 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN112215001A (zh) * 2020-10-29 2021-01-12 北京信息科技大学 一种谣言识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN109635109A (zh) * 2018-11-28 2019-04-16 华南理工大学 基于lstm并结合词性及多注意力机制的句子分类方法
CN110807084A (zh) * 2019-05-15 2020-02-18 北京信息科技大学 一种基于注意力机制的Bi-LSTM和关键词策略的专利术语关系抽取方法
CN111401061A (zh) * 2020-03-19 2020-07-10 昆明理工大学 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法
CN112215001A (zh) * 2020-10-29 2021-01-12 北京信息科技大学 一种谣言识别方法及系统

Also Published As

Publication number Publication date
CN113535948A (zh) 2021-10-22

Similar Documents

Publication Publication Date Title
CN110348016B (zh) 基于句子关联注意力机制的文本摘要生成方法
Ghosh et al. Fracking sarcasm using neural network
KR102008845B1 (ko) 비정형 데이터의 카테고리 자동분류 방법
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN107229610A (zh) 一种情感数据的分析方法及装置
CN108846017A (zh) 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
Rana et al. Emotion based hate speech detection using multimodal learning
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN115393692A (zh) 基于生成式预训练语言模型的联想文本到图像生成方法
CN112328797A (zh) 一种基于神经网络和注意力机制的情感分类方法及系统
CN113033610B (zh) 一种多模态融合敏感信息分类检测方法
CN113220890A (zh) 一种基于预训练的结合新闻标题和新闻长文本内容的深度学习方法
CN114969304A (zh) 基于要素图注意力的案件舆情多文档生成式摘要方法
CN112347766A (zh) 一种处理微博文本认知歪曲的多标签分类方法
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN116578705A (zh) 基于预训练语言模型与集成神经网络的微博情感分类方法
Zhang et al. Exploring deep recurrent convolution neural networks for subjectivity classification
Chen et al. Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network
CN115630653A (zh) 一种基于BERT与BiLSTM的网络流行语情感分析方法
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
CN112199503B (zh) 一种基于特征增强的非平衡Bi-LSTM的中文文本分类方法
CN113961706A (zh) 一种基于神经网络自注意力机制的精确文本表示方法
Campbell et al. Content+ context networks for user classification in twitter

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant