CN112733498B - 一种改进中文自动文本摘要自注意力计算的方法 - Google Patents
一种改进中文自动文本摘要自注意力计算的方法 Download PDFInfo
- Publication number
- CN112733498B CN112733498B CN202011226337.6A CN202011226337A CN112733498B CN 112733498 B CN112733498 B CN 112733498B CN 202011226337 A CN202011226337 A CN 202011226337A CN 112733498 B CN112733498 B CN 112733498B
- Authority
- CN
- China
- Prior art keywords
- attention
- matrix
- training
- random
- calculation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 title claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 35
- 238000012360 testing method Methods 0.000 claims abstract description 10
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 abstract description 18
- 238000013519 translation Methods 0.000 description 7
- 238000006073 displacement reaction Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种改进中文自动文本摘要自注意力计算的方法,本方法将中文自动文本摘要attention机制运用在中文文本摘要时计算的复杂度。首先对数据集划分为训练集与测试集。可用的摘要不仅需要保证生成的摘要是语言通顺的,还需要保证摘要表达的意思是文章的主要内容,且摘要表达了一个完整的语义。本发明除了关注改进attention的计算复杂度的同时,让其能够更好的运用在中文文本摘要领域方向。在原attention计算矩阵的时间复杂度为O(n2)的基础上,将时间复杂度降低至O(n),同时该方法通用型也较强,能够运用在多种任务,不限于中文文本摘要。
Description
技术领域
本发明属于计算机自然语言处理技术领域。其中主要涉及的知识包括一些attention运用、词向量表示、句子抽取生成、Transformer模型使用方法、深度学习自动文本摘要方法等。
背景技术
随着互联网产生的文本数据越来越多,文本信息过载问题日益严重,近几年文本信息的爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,而自动文本摘要(automatic text summarization),对各类文本进行一个“降维”处理,为文本的简约化提供了良好的手段。
自动文本摘要有非常多的应用场景,如自动报告生成、新闻标题生成、搜索结果预览等。
在自然语言处理领域,Bahdanau等人在14年发表的论文《Neural MachineTranslation by Jointly Learning to Align and Translate》中,第一次将Attention机制应用于NLP中。Attention机制是一种注意力(资源)分配机制,在某个特定时刻,总是重点关注跟它相关的内容,其他内容则进行选择性忽视,这样的对齐能让文本翻译或者摘要生成更具针对性。Romain Paulus等人在2017年提出了内注意力机制(intra-attentionmechanism)和新的训练方法,通过架构创新和若干tricks提升模型概括长文本的能力,在CNN/Daily Mail、New York Times数据集上达到了新的state-of-the-art,有效地提升了文本摘要的生成质量。Google团队2017年发布了名为《Attention Is All You Need》的文章,即不用CNN和RNN单元,只用Self-Attention和Encoder-Decoder Attention,就完全实现了端到端的翻译任务。并且在WMT-14英德、英法翻译任务中,BLEU值达到了28.4和41.0的高分。因为同样可以并行计算,模型的训练及生成速度也有所提升。Self-Attention相比于之前的模型更加关注句子的内部结构。
目前,传统的Transformer模型以及attention机制运用在文本摘要方向仍然存在一些问题。Tranformer-based模型在处理长文本时有着天然的劣势。因为传统模型采用的是“全连接”型的attention机制,即每一个“token”都要与其他所有“token”进行交互。其attention复杂度高达O(n2)。此前的解决办法是将长文切分为若干个较短的text span,然后逐个处理。这就导致不同的text span之间无法进行交互,因而必然存在大量information loss。当然,我们也可以通过添加一些其他机制来加强这种text span之间的交互。但这种新增机制实现起来通常比较复杂,而且往往是限定于特定任务的,通用性不强。
发明内容
基于上述分析,本发明主要设计了一种进行中文文本摘要时,改进attention注意力计算的方法。整体网络模型借助Transformer模型,主要包含两个部分:文本编码器以及文本解码器。本发明希望将中文自动文本摘要attention机制运用在中文文本摘要时计算的复杂度。在对模型进行训练时,为了弥补训练数据的不足,需要进行多组微博数据的标注补充。模型训练与测试所用的数据来自于LCSTS开源数据集
首先对数据集划分为训练集与测试集。可用的摘要不仅需要保证生成的摘要是语言通顺的,还需要保证摘要表达的意思是文章的主要内容,且摘要表达了一个完整的语义。
在训练集上,对文本数据首先去除空格以及特殊字符,并根据频率去除低频词或字,然后构建出我们所需要的字典,字典的key为词,value为每个词的对应的id。然后将需要处理的文章根据字典转换为相应的id,根据transformer模型规则构建文本位置信息。Attention方法的设计机制是对于每一个token,只对固定窗口大小的附近token计算localattention,同时运用空洞卷积的理论以及添加随机attention分布进行计算在对每一个进行token编码时,普通机制只能考虑到长度为s的上下文。本发明改进借鉴了空洞卷积的思想,提出空洞随机滑窗机制,在不增加计算负荷的前提下,拓宽模型视野。其做法中被attend到的两个相邻token之间会存在大小为d的间隙。当transformer的层数为n时,则视场范围可达到s*d*n。由于考虑了更加丰富的上下文信息,空洞随机窗口机制比普通attention机制表现更佳。计算attention矩阵时先建立空洞窗口注意力矩阵以及随机注意力矩阵,之后将两个矩阵结合得到试验用矩阵。
为个实现上述目的,本发明采用以下技术方案:为了更好的实现整个方法,首选Python作为方法编写语言。模型的实现与训练主要使用了PyTorch进行实现。在设计空洞卷积矩阵时,规定空洞率为2,对每一个“token”随机两个随机注意力。在原有的attention计算公式,
Attention(Q,K,V)=Softmax(Q,KT,V)
上进行加工,模型的输入序列为X,
X=(x1,x2,…,xn)∈R
其中Qds,Kds,Vds表示本发明中使用的空洞随机窗口QKV矩阵,Ni表示所有需要计算attention的个数。
最后再利用ROUGE-N来进行结果优劣的评分,ROUGE是评估自动文摘以及机器翻译的一组指标。它通过将自动生成的摘要或翻译与一组参考摘要(通常是人工生成的)进行比较计算,得出相应的分值,以衡量自动生成的摘要或翻译与参考摘要之间的“相似度”。其中ROUGE-N的公式,
一种改进中文自动文本摘要自注意力计算的方法主要包括:
步骤1、收集微博文章摘要数据集,并对微博文本摘要数据进行清洗。
步骤2、构建attention计算矩阵。
步骤3、fine-tuning新的attention-based网络,直至模型收敛。
步骤4、对步骤3构建的模型进行训练相同数据集,分别使用原有attention和改进后的空洞随机窗口attention进行训练
步骤5、使用步骤4的训练结果,选择在测试集上Rouge评分最优作为结果并计算。
作为优选,步骤1采取以下步骤:
步骤1.1、将微博文章摘要划分为训练集和测试集。
步骤1.2、在训练集上,对文本数据首先去除空格以及特殊字符,并根据频率去除低频词或字,然后构建出我们所需要的字典,字典的key为词,value为每个词的对应的id。
步骤1.3、使用词嵌入向量对数据进行编码。
步骤1.4、根据Transformer模型规则添加position id。
作为优选,步骤2具体包括以下步骤:
步骤2.1、使用在Transformer定义的Attention矩阵的基础上建立attention计算矩阵。
步骤2.2、借助空洞卷积的思想对于每个“token”定义空洞率为2的空洞卷积局部attention矩阵
步骤2.3、对每个“token”给予随机2-3个attention计算块,得到随机attention矩阵。
步骤2.4、将每个“token”的空洞卷积attention矩阵和随机attention矩阵相结合得到空洞窗口随机矩阵
作为优选,步骤3具体包括以下步骤
步骤3.1、选择损失函数为交叉熵损失函数(Cross Entropy Loss):
步骤3.2、加载预训练模型,训练新的attention-based网络步骤3.3、设置预训练模型后接的全连接网络节点个数为1024
步骤3.4、Dropout值设置为0.8
步骤3.5、观察Loss和Accuracy,当Loss与Accuracy收敛时停止迭代
作为优选,步骤4具体包括以下步骤
步骤4.1、对于每一个input做embedding,得到n个embedding矩阵后分别计算attention。
步骤4.2、使用相同的embedding,换成本发明的空洞随机窗口attention计算矩阵计算attention。
作为优选,步骤5具体包括以下步骤
步骤5.1、使用ROUGE-N评分作为两种attention计算矩阵得到的最终结果的优劣。
步骤5.2、对比两种attention矩阵模型训练结果的ROUGE-N评分,得到最终结论。
与现有技术相比,本发明具有以下优势:
本发明除了关注改进attention的计算复杂度的同时,让其能够更好的运用在中文文本摘要领域方向。改进了Transformer的传统attention机制对于每一个token,只对空洞窗口大小的附近token计算local attention以及添加随机attention,虽然只计算localattention会让计算稍简单,但是增加随机attention能更好的提升上下文的关联度。在原attention计算矩阵的时间复杂度为O(n2)的基础上,将时间复杂度降低至O(n),同时该方法通用型也较强,能够运用在多种任务,不限于中文文本摘要。
附图说明:
图1:本发明流程结构图
图2:encoder-decoder结构图
图3:attention计算矩阵示例以及形成过程
表1:不同attention矩阵计算出的结果在ROUGE-N上的评分结果
具体实施方式:
以下结合具体网络模型实例,并参照附图,对本发明进一步详细说明。
本发明所用到的硬件设备有PC机一台,1080显卡1块;这一部分,我们进行了广泛的实验,以探讨我们提出的方法的影响。本发明设计的网络架构运行流程图如图1所示,具体包括以下步骤:
步骤1、收集微博文章摘要数据集,并对微博文本摘要数据进行清洗。
步骤2、构建attention计算矩阵。
步骤3、fine-tuning新的attention-based网络,直至模型收敛。
步骤4、对步骤3构建的模型进行训练相同数据集,分别使用原有attention和改进后的空洞随机窗口attention进行训练
步骤5、使用步骤4的训练结果,选择在测试集上Rouge评分最优作为结果并计算。
作为优选,步骤1采取以下步骤:
步骤1.1、将微博文章摘要划分为训练集和测试集。
步骤1.2、在训练集上,对文本数据首先去除空格以及特殊字符,并根据频率去除低频词或字,然后构建出我们所需要的字典,字典的key为词,value为每个词的对应的id。
步骤1.3、使用词嵌入向量对数据进行编码。
步骤1.4、根据Transformer模型规则添加position id。
作为优选,步骤2具体包括以下步骤:
步骤2.1、使用在Transformer定义的Attention矩阵的基础上建立attention计算矩阵。
步骤2.2、借助空洞卷积的思想对于每个“token”定义空洞率为2的空洞卷积局部attention矩阵
步骤2.3、对每个“token”给予随机2-3个attention计算块,得到随机attention矩阵。
步骤2.4、将每个“token”的空洞卷积attention矩阵和随机attention矩阵相结合得到空洞窗口随机矩阵
作为优选,步骤3具体包括以下步骤
步骤3.1、选择损失函数为交叉熵损失函数(Cross Entropy Loss):
步骤3.2、加载预训练模型,训练新的attention-based网络步骤3.3、设置预训练模型后接的全连接网络节点个数为1024
步骤3.4、Dropout值设置为0.8
步骤3.5、观察Loss和Accuracy,当Loss与Accuracy收敛时停止迭代
作为优选,步骤4具体包括以下步骤
步骤4.1、对于每一个input做embedding,得到n个embedding矩阵后分别计算attention。
步骤4.2、使用相同的embedding,换成本发明的空洞随机窗口attention计算矩阵计算attention。
作为优选,步骤5具体包括以下步骤
步骤5.1、使用ROUGE-N评分作为两种attention计算矩阵得到的最终结果的优劣。
步骤5.2、对比两种attention矩阵模型训练结果的ROUGE-N评分,得到最终结论。
图1表示了本发明的研究方法,图2表现了Transformer中的Encoder-Decoder核心结构。本发明研究核心在图3展现,图3左上方为原Transformer的attention计算矩阵,右上方为随机attention计算矩阵,左下方为空洞窗口attention计算矩阵,右下方为两矩阵结合得到的空洞窗口随机attention计算矩阵。表1展示了不同attention计算矩阵在ROUGE-N上的表现,能够看出本发明在LCSTS数据集上ROUGE-N评分超越了Transformer原有的attention机制,同时在训练中复杂度也从O(n2)降低至O(n)。
表1
以上实施例仅为本发明的示例性实施例,不用于限制本发明,本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内,对本发明做出各种修改或等同替换,这种修改或等同替换也应视为落在本发明的保护范围内。
Claims (3)
1.一种改进中文自动文本摘要自注意力计算的方法,其特征在于,包括以下步骤:
步骤1、收集微博文章摘要数据集,并对微博文本摘要数据进行清洗;
步骤2、构建attention计算矩阵;
步骤3、fine-tuning新的attention-based网络,直至模型收敛;
步骤4、对步骤3构建的模型进行训练相同数据集,分别使用原有attention和改进后的空洞随机窗口attention进行训练;
步骤5、使用步骤4的训练结果,选择在测试集上Rouge评分最优作为结果并计算;
步骤2具体包括以下步骤:
步骤2.1、使用在Transformer定义的Attention矩阵的基础上建立attention计算矩阵;
步骤2.2、借助空洞卷积的思想对于每个“token”定义空洞率为2的空洞卷积局部attention矩阵
步骤2.3、对每个“token”给予随机2-3个attention计算块,得到随机attention矩阵;
步骤2.4、将每个“token”的空洞卷积attention矩阵和随机attention矩阵相结合得到空洞窗口随机矩阵;
步骤3具体包括以下步骤:
步骤3.1、选择损失函数为交叉熵损失函数:
步骤3.2、加载预训练模型,训练新的attention-based网络;
步骤3.3、设置预训练模型后接的全连接网络节点个数为1024;
步骤3.4、Dropout值设置为0.8;
步骤3.5、观察Loss和Accuracy,当Loss与Accuracy收敛时停止迭代;
步骤4具体包括以下步骤:
步骤4.1、对于每一个input做embedding,得到n个embedding矩阵后分别计算attention;
步骤4.2、使用相同的embedding,换成空洞随机窗口attention计算矩阵计算attention。
2.根据权利要求1所述的一种改进中文自动文本摘要自注意力计算的方法,其特征在于,步骤1采取以下步骤:
步骤1.1、将微博文章摘要划分为训练集和测试集;
步骤1.2、在训练集上,对文本数据首先去除空格以及特殊字符,并根据频率去除低频词或字,然后构建出所需要的字典,字典的key为词,value为每个词的对应的id;
步骤1.3、使用词嵌入向量对数据进行编码;
步骤1.4、根据Transformer模型规则添加position id。
3.根据权利要求1所述的一种改进中文自动文本摘要自注意力计算的方法,其特征在于,步骤5具体包括以下步骤:
步骤5.1、使用ROUGE-N评分作为两种attention计算矩阵得到的最终结果的优劣;
步骤5.2、对比两种attention矩阵模型训练结果的ROUGE-N评分,得到最终结论。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011226337.6A CN112733498B (zh) | 2020-11-06 | 2020-11-06 | 一种改进中文自动文本摘要自注意力计算的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011226337.6A CN112733498B (zh) | 2020-11-06 | 2020-11-06 | 一种改进中文自动文本摘要自注意力计算的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112733498A CN112733498A (zh) | 2021-04-30 |
CN112733498B true CN112733498B (zh) | 2024-04-16 |
Family
ID=75597388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011226337.6A Active CN112733498B (zh) | 2020-11-06 | 2020-11-06 | 一种改进中文自动文本摘要自注意力计算的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112733498B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051897B (zh) * | 2021-05-25 | 2021-09-10 | 中国电子科技集团公司第三十研究所 | 一种基于Performer结构的GPT2文本自动生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110765264A (zh) * | 2019-10-16 | 2020-02-07 | 北京工业大学 | 一种增强语义相关性的文本摘要生成方法 |
CN110765768A (zh) * | 2019-10-16 | 2020-02-07 | 北京工业大学 | 一种优化的文本摘要生成方法 |
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
-
2020
- 2020-11-06 CN CN202011226337.6A patent/CN112733498B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020107878A1 (zh) * | 2018-11-30 | 2020-06-04 | 平安科技(深圳)有限公司 | 文本摘要生成方法、装置、计算机设备及存储介质 |
CN110209801A (zh) * | 2019-05-15 | 2019-09-06 | 华南理工大学 | 一种基于自注意力网络的文本摘要自动生成方法 |
CN110765264A (zh) * | 2019-10-16 | 2020-02-07 | 北京工业大学 | 一种增强语义相关性的文本摘要生成方法 |
CN110765768A (zh) * | 2019-10-16 | 2020-02-07 | 北京工业大学 | 一种优化的文本摘要生成方法 |
CN110933518A (zh) * | 2019-12-11 | 2020-03-27 | 浙江大学 | 一种利用卷积多层注意力网络机制生成面向查询的视频摘要的方法 |
Non-Patent Citations (2)
Title |
---|
Kuan Xu 等.aDMSCN: A Novel Perspective for User Intent Prediction in Customer Service Bots.CIKM '20: Proceedings of the 29th ACM International Conference on Information & Knowledge Management.2020,全文. * |
一种基于BERT的自动文本摘要模型构建方法;岳一峰 等;计算机与现代化;20200115(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112733498A (zh) | 2021-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Sentiment analysis of Chinese micro-blog text based on extended sentiment dictionary | |
Ren et al. | Context-augmented convolutional neural networks for twitter sarcasm detection | |
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
Nagamanjula et al. | A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis | |
CN110598219A (zh) | 一种面向豆瓣网电影评论的情感分析方法 | |
Lavanya et al. | Twitter sentiment analysis using multi-class SVM | |
CN111460158B (zh) | 一种基于情感分析的微博话题公众情感预测方法 | |
Jia et al. | Chinese micro-blog sentiment classification based on emotion dictionary and semantic rules | |
CN107704996A (zh) | 一种基于情感分析的教师评价系统 | |
CN112163607A (zh) | 基于多维度和多层次联合建模的网络社会媒体情感分类方法 | |
Jian et al. | [Retracted] LSTM‐Based Attentional Embedding for English Machine Translation | |
CN113283236A (zh) | 一种复杂中文文本中的实体消歧方法 | |
Bandhakavi et al. | Emotion‐aware polarity lexicons for Twitter sentiment analysis | |
Lai et al. | Transconv: Relationship embedding in social networks | |
Zhang et al. | Exploring deep recurrent convolution neural networks for subjectivity classification | |
CN116595975A (zh) | 一种基于句信息进行词信息增强的方面级情感分析方法 | |
CN112733498B (zh) | 一种改进中文自动文本摘要自注意力计算的方法 | |
Bouraoui et al. | A comprehensive review of deep learning for natural language processing | |
CN111460146A (zh) | 一种基于多特征融合的短文本分类方法及系统 | |
CN111985223A (zh) | 一种基于长短记忆网络和情感词典结合的情感计算方法 | |
Sha et al. | Resolving entity morphs based on character-word embedding | |
Yu et al. | Multi-module Fusion Relevance Attention Network for Multi-label Text Classification. | |
Li et al. | DENA: display name embedding method for Chinese social network alignment | |
Chen et al. | Sentiment analysis of animated film reviews using intelligent machine learning | |
Zhang et al. | Research on answer selection based on LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |