CN111046233B - 一种基于视频评论文本的视频标签确定方法 - Google Patents

一种基于视频评论文本的视频标签确定方法 Download PDF

Info

Publication number
CN111046233B
CN111046233B CN201911347396.6A CN201911347396A CN111046233B CN 111046233 B CN111046233 B CN 111046233B CN 201911347396 A CN201911347396 A CN 201911347396A CN 111046233 B CN111046233 B CN 111046233B
Authority
CN
China
Prior art keywords
video
comment
document
label
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201911347396.6A
Other languages
English (en)
Other versions
CN111046233A (zh
Inventor
王瑞琛
杜歆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911347396.6A priority Critical patent/CN111046233B/zh
Publication of CN111046233A publication Critical patent/CN111046233A/zh
Application granted granted Critical
Publication of CN111046233B publication Critical patent/CN111046233B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于视频评论文本的视频标签确定方法。该方法包括:(1)对视频评论进行数据清洗以及预处理;(2)使用预处理后的评论文档D以及对应的视频标签训练多层注意力网络模型;(3)将目标视频的评论文档输入至训练好的多层注意力网络模型,确定目标视频的标签。本发明提供的视频标签确定方法,能有效确定视频所需对应的标签。

Description

一种基于视频评论文本的视频标签确定方法
技术领域
本发明属于数据处理技术领域,涉及一种基于视频评论文本的视频标签确定方法。具体来说,涉及一种当给定目标视频的用户评论后,从评论中获取关键信息,并确定目标视频标签的方法。
背景技术
为了更好的帮助用户检索视频,视频门户网站通常会对视频打上多个标签,以使用户能快速了解视频的主题和风格,帮助用户快速检索到想看的视频,从而提高用户体验以及视频点击率。
现有技术中,视频标签通常采用人工手动标注的方法,即在视频上传时由上传者人工选择对应的标签,由于主要依赖视频上传者的主观判断,以及缺乏用户的有效反馈,人工上传的标签存在一定的随意性和主观性。
而申请人发现,视频评论作为观众对视频的直接反馈,如果基于用户的评论来确定视频的标签,不仅可以降低人工的成本,也可以将用户的观感考虑进来,得到更接近用户体验的标签。
目前普遍使用的文本标签获得的方法主要是TF-IDF、LDA、TextRank等无监督关键字提取方法,和SVM、TextCNN、RNN等有监督文档分类方法。
在TF-IDF、LDA、TextRank等无监督方法中,通常直接使用统计学方法从文本中提取关键词作为标签。当用户的表达较为隐晦,未直接使用标签词时,容易提取不到准确地关键词;或者多个近义词表达同一个关键字时,会无法联系到不同关键词之间的相关性。
SVM、TextCNN、RNN等有监督方法,使用了机器学习模型,能解决无监督方法中的部分问题,但是由于没有考虑到不同评论、不同词语对于标签确定的贡献程度,此类方法存在收敛缓慢,分类效果差的问题。
由于以上问题,如何利用用户的评论信息,获取视频的关键评论,评论的关键词并确定视频的标签则是一个亟待解决的问题。
发明内容
本发明的目的在于针对现有技术的不足,提供了一种基于视频评论文本的视频标签确定方法。
本发明的目的是通过以下技术方案来实现的:一种基于视频评论文本的视频标签确定方法,该方法包括以下步骤:
(1)对视频评论进行数据清洗以及预处理:获取原始评论数据,将每条原始评论数据中的特殊符号、标点符号等非文本信息删除,再进行分词处理、并删除停用词,得到预处理后的评论文档D。
(2)使用预处理后的评论文档D以及对应的视频标签训练多层注意力网络模型。包括以下步骤:
(2.1)对视频标签进行独热编码,将视频标签编码成固定长度的独热编码l。
(2.2)对预处理后的评论文档D进行过采样和欠采样处理,并对每个评论文档中的评论按照从长到短的顺序排序,得到文档集D’。
(2.3)使用所述文档集D’和对应的独热编码l训练多层注意力网络模型,得到训练好的多层注意力网络模型。
(3)将目标视频的评论文档输入至训练好的多层注意力网络模型,确定目标视频的标签,具体包括以下子步骤:
(3.1)对目标视频的评论文档进行步骤1所述的数据清洗以及预处理。
(3.2)将步骤3.1预处理后的目标视频的的评论文档输入到训练好的多层注意力网络模型中,得到每个标签的预测置信度。
(3.3)将每个标签的预测置信度从高到低进行排序,并将预测置信度高于阈值的标签确定为目标视频的标签。
进一步地,步骤2.2中欠采样和过采样处理具体为:
欠采样处理过程为:当标签对应的文档数高于阈值时,从需要采样的标签对应的文档集中随机抽取m个文档,组成欠采样文档集;
过采样处理过程为:当标签对应的文档数低于阈值时,从需要采样的标签对应的文档集{d1,d2,d3,...,dn}中,依次对文档集{d1,d2,d3,...,dn}中的文档di的评论有放回地随机抽取,得到多个文档
Figure BDA0002333769750000021
组成过采样文档集,j表示有放回地随机抽取的次数。
进一步地,多层注意力网络模型的训练过程为:
(a)采用word2vec方法对文档集D’进行训练,得到词向量矩阵。并将词向量矩阵复制到多层注意力网络模型中,作为模型初始参数。
(b)对于文档集D’中的评论文档,挑选最长的x条评论,评论不足x的文档集D’中的评论文档,用空评论补齐。对于x条评论中的每条评论,截取前y个词,词数不足y的评论用空格补齐,获得截断补齐后的文档集,将截断补齐后的文档集随机划分为训练集和验证集。
(c)将训练集输入到多层注意力网络模型中,得到各个标签的预测置信度,并计算预测置信度和独热编码l之间的二元交叉熵误差。
(d)根据计算出来的二元交叉熵误差,使用优化算法更新多层注意力网络模型中的参数。
(e)重复步骤(c)-(d),直至多层注意力网络模型在验证集上的误差不再下降为止,获得训练好的多层注意力网络模型。
本发明的有益效果是:(1)通过用户的评论信息进行视频标签确定,降低了人工成本、利用了用户侧反馈信息来对标签进行确定;(2)为解决样本不均衡问题,采用抽样重构的方法实现过采样,提高信息的利用率,降低过拟合的风险。
附图说明
图1为本发明方法中基于视频评论文本的视频标签确定方法流程图;
图2为本发明方法中多层注意力网络模型训练流程图;
图3为本发明方法中多层注意力网络模型结构示意图;
图4为本发明方法中为基于目标视频评论文档为目标视频确定标签流程图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述,本发明的目的和效果将变得更加明显。
图1给出了本发明的方法流程图,本发明对基于视频评论文本为视频确定标签分成三个步骤,即对视频评论文本进行预处理、对多层注意力网络模型进行训练,基于目标视频评论文档确定目标视频的标签。
如图1所示,在步骤101中,评论文本预处理的具体步骤如下:基于原始评论数据,将每条原始评论数据中的特殊符号、标点符号等非文本信息删除,原始评论数据中可能会包括一些emoji表情,标点符号等无意义的符号,因此使用正则表达式删除评论中的特殊符号。再进行分词处理,由于中文的词语之间没有天然分隔,故中文自然语言处理最基本的步骤就是分词,需要利用算法将长句拆分成单词,目前有很多成熟的中文分词方案可以选择,本方案采用了结巴分词;从分词后的文本中删除停用词,中文中很多词语只是提供语法辅助作用,没有具体的含义和价值,例如中文中的助词,可通过停用词库删除停用词;最终得到预处理后的评论文档D。
如图2所示,在步骤102中,使用预处理后的评论文档D以及对应的视频标签训练多层注意力网络模型,具体步骤如下:
(2.1)对视频标签进行独热编码,将视频标签编码成固定长度的独热编码l。
(2.2)对预处理后的评论文档D进行过采样和欠采样处理,并对每个评论文档中的评论按照从长到短的顺序排序,得到文档集D’。具体过程如下:
(2.2.1)标签统计结果显示,标签的统计分布不均衡。由于多层注意力网络模型会受样本分布影响,如果样本统计分布相差过大,模型的预测结果会被占比高的标签所支配。为了解决这个问题,需要先对样本进行均衡化操作。下面对于样本均衡化操作进行进一步描述:
欠采样处理过程为:当标签对应的文档数高于阈值时,从需要采样的标签对应的文档集中随机抽取m个文档,组成欠采样文档集,以降低文档集大小;
过采样处理过程为:当标签对应的文档数低于阈值时,从需要采样的标签对应的文档集{d1,d2,d3,...,dn}中,依次对文档集{d1,d2,d3,...,dn}中的文档di的评论有放回地随机抽取,得到多个文档
Figure BDA0002333769750000041
组成过采样文档集,以扩充文档集,j表示有放回地随机抽取的次数。
(2.2.2)将视频文档di中的所有评论根据长度从长到短进行排序。将评论按照长度进行排序,可以降低每次训练时数据的稀疏性,提高模型的收敛速度。(重新编排用语)
(2.3)使用所述文档集D’和对应的独热编码l训练多层注意力网络模型,得到训练好的多层注意力网络模型。
如图3所示,图中神经网络结构的功能为,输入一个由多条评论组成的文档,对于每一条评论转成词向量表示的矩阵;之后通过词编码层提取不同词之间时序上的特征;通过词注意力层得到不同词对于评论向量生成的权重,加权求和得到评论的特征向量表示;串联文档中的所有评论的特征向量,输入到评论编码层,提取不同评论的时序特征;通过评论注意力层得到不同评论对于文档向量生成的权重,加权求和得到此文档的特征向量表示;最后通过全连接层和softmax层输出所有标签的预测置信度。
如图3所示,301结构为词嵌入层,功能是给定一条由词集{w1,w2,w3,...,wn}组成的评论c,通过预训练好的词向量,将词集转换成词向量集
Figure BDA0002333769750000042
通过词嵌入层,可以获得词语的分布式表示,使单个词具有更丰富的特征。词嵌入层的权重可以在训练中进行更新,提高模型的准确率,但是会降低模型的训练效率。
如图3所示,302结构为词编码层,具体是由双向门控循环神经网络(gatedrecurrent unit,GRU)构成。GRU由重置门和更新门来控制序列中信息流,因此可以提高模型的对长时序信息流的信息获取能力。双向GRU不仅可以获得过去的信息,还可以获取未来的信息。对于一条评论ci,其中ci为词向量组成的序列
Figure BDA0002333769750000043
其中T表示序列长度。正向GRU将序列从1到T编码得到
Figure BDA0002333769750000044
反向GRU将序列从T到1编码,得到
Figure BDA0002333769750000045
将两串编码数据串联,得到评论编码:
Figure BDA0002333769750000051
如图3所示,303结构为词注意力层。由于不同词语对于最后的标签确定的贡献不一样,所以需要找出那些关键的词语,并赋予更高的权重。具体结构如下所示:
uit=tanh(Wwhit+bw) (2)
Figure BDA0002333769750000052
ci=∑tαithit (4)
其中,Ww是单层全连接层权重,通过全连接学习得到hit的隐层表示uit;uw表示背景向量,和uit求内积并归一化后得到权重αit;再根据权重αit对词编码hit加权求和得到评论向量ci
如图3所示,304结构为评论编码层。结构和302词编码层类似,输入为一篇文档中所有评论经过303生成的评论向量集{c1,c2,c3,...,cN},输出为经过编码的评论向量集{h1,h2,h3,...,hN}
如图3所示,305结构为评论注意力层,结构和303词注意力层类似,输入为304结构生成的评论向量集{h1,h2,h3,...,hN},输出为文档向量d。
如图3所示,306结构为输入层,由全连接层和softmax层组成。由于该任务为多标签分类问题,先通过全连接层将文档向量d降维成与K维向量,其中K为标签的总个数。并通过softmax将概率归一化输出,即
Figure BDA0002333769750000053
构建多层注意力机制网络模型需要初始化网络的参数包括词集合大小、词嵌入层隐层数、词编码层隐层数、评论编码层隐层数、评论嵌入层隐层数、单次迭代批量大小、输出分类数目等。然后需要初始化网络权重,包括词嵌入层的网络权重、词编码层的初始隐藏状态、评论编码层的初始隐藏状态、注意力层的矩阵权重。其中,编码层的隐藏状态,注意力层的矩阵权重,初始都设置为0。此外还需要初始化最大迭代周期、学习速率、优化器、损失函数等参数。
多层注意力机制网络模型的训练过程如下:
(a)采用word2vec方法对文档集D’进行训练,得到词向量矩阵。并将词向量矩阵复制到多层注意力网络模型中,作为模型初始参数。
(b)对于文档集D’中的评论文档,挑选最长的x条评论,评论不足x的文档集D’中的评论文档,用空评论补齐。对于x条评论中的每条评论,截取前y个词,词数不足y的评论用空格补齐,获得截断补齐后的文档集,将截断补齐后的文档集随机划分为训练集和验证集。
(c)将训练集输入到多层注意力网络模型中,得到各个标签的预测置信度,并计算预测置信度和独热编码l之间的二元交叉熵误差(binary/categorical cross entropy)。即
Figure BDA0002333769750000061
其中N为单次迭代训练样本集合,M标签集合。yij表示样本i对于标签j的真实值,
Figure BDA0002333769750000062
表示样本i对于标签j预测置信度。
(d)根据计算出来的二元交叉熵误差,使用优化算法更新多层注意力网络模型中的参数。这里的优化算法包括但不限于梯度下降算法以及各种梯度下降算法的变种。
(e)重复步骤(c)-(d),每次输入固定批量大小的训练集,根据误差反向传播对神经网络参数进行调整,直至多层注意力网络模型在验证集上的误差不再下降为止,获得训练好的多层注意力网络模型。
(3)将目标视频的评论文档输入至训练好的多层注意力网络模型,确定目标视频的标签,具体步骤如图4所示:
(3.1)对目标视频的评论文档进行步骤1所述的数据清洗以及预处理。
(3.2)将步骤3.1预处理后的目标视频的的评论文档输入到训练好的多层注意力网络模型中,得到每个标签的预测置信度。
(3.3)将每个标签的预测置信度从高到低进行排序,并将预测置信度高于阈值的标签确定为目标视频的标签。
以上仅为本发明具体实施方式,不能以此来限定本发明的范围,本技术领域内的一般技术人员根据本创作所作的均等变化,以及本领域内技术人员熟知的改变,都应仍属本发明涵盖的范围。

Claims (2)

1.一种基于视频评论文本的视频标签确定方法,其特征在于,该方法包括以下步骤:
(1)对视频评论进行数据清洗以及预处理:获取原始评论数据,将每条原始评论数据中包括特殊符号、标点符号在内的非文本信息删除,再进行分词处理、并删除停用词,得到预处理后的评论文档D;
(2)使用预处理后的评论文档D以及对应的视频标签训练多层注意力网络模型;包括以下步骤:
(2.1)对视频标签进行独热编码,将视频标签编码成固定长度的独热编码l;
(2.2)对预处理后的评论文档D进行过采样和欠采样处理,并对每个评论文档中的评论按照从长到短的顺序排序,得到文档集D’;
(2.3)使用所述文档集D’和对应的独热编码l训练多层注意力网络模型,得到训练好的多层注意力网络模型;
多层注意力网络模型的训练过程为:
(a)采用word2vec方法对文档集D’进行训练,得到词向量矩阵;并将词向量矩阵复制到多层注意力网络模型中,作为模型初始参数;
(b)对于文档集D’中的评论文档,挑选最长的x条评论,评论不足x的文档集D’中的评论文档,用空评论补齐;对于x条评论中的每条评论,截取前y个词,词数不足y的评论用空格补齐,获得截断补齐后的文档集,将截断补齐后的文档集随机划分为训练集和验证集;
(c)将训练集输入到多层注意力网络模型中,得到各个标签的预测置信度,并计算预测置信度和独热编码l之间的二元交叉熵误差;
(d)根据计算出来的二元交叉熵误差,使用优化算法更新多层注意力网络模型中的参数;
(e)重复步骤(c)-(d),直至多层注意力网络模型在验证集上的误差不再下降为止,获得训练好的多层注意力网络模型;
(3)将目标视频的评论文档输入至训练好的多层注意力网络模型,确定目标视频的标签,具体包括以下子步骤:
(3.1)对目标视频的评论文档进行步骤1所述的数据清洗以及预处理;
(3.2)将步骤(3.1)预处理后的目标视频的评论文档输入到训练好的多层注意力网络模型中,得到每个标签的预测置信度;
(3.3)将每个标签的预测置信度从高到低进行排序,并将预测置信度高于阈值的标签确定为目标视频的标签。
2.根据权利要求1所述视频标签确定方法,其特征在于,步骤(2.2)中欠采样和过采样处理具体为:
欠采样处理过程为:当标签对应的文档数高于阈值时,从需要采样的标签对应的文档集中随机抽取m个文档,组成欠采样文档集;
过采样处理过程为:当标签对应的文档数低于阈值时,从需要采样的标签对应的文档集{d1,d2,d3,…,dn}中,依次对文档集{d1,d2,d3,…,dn}中的文档di的评论有放回地随机抽取,得到多个文档
Figure FDA0003547171720000021
组成过采样文档集,j表示有放回地随机抽取的次数。
CN201911347396.6A 2019-12-24 2019-12-24 一种基于视频评论文本的视频标签确定方法 Expired - Fee Related CN111046233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911347396.6A CN111046233B (zh) 2019-12-24 2019-12-24 一种基于视频评论文本的视频标签确定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911347396.6A CN111046233B (zh) 2019-12-24 2019-12-24 一种基于视频评论文本的视频标签确定方法

Publications (2)

Publication Number Publication Date
CN111046233A CN111046233A (zh) 2020-04-21
CN111046233B true CN111046233B (zh) 2022-05-13

Family

ID=70238843

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911347396.6A Expired - Fee Related CN111046233B (zh) 2019-12-24 2019-12-24 一种基于视频评论文本的视频标签确定方法

Country Status (1)

Country Link
CN (1) CN111046233B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113095405B (zh) * 2021-04-13 2024-04-30 沈阳雅译网络技术有限公司 基于预训练及双层注意力的图像描述生成系统的构建方法
CN113255360A (zh) * 2021-04-19 2021-08-13 国家计算机网络与信息安全管理中心 基于层次化自注意力网络的文档评级方法和装置
CN114466251B (zh) * 2022-04-08 2022-06-17 深圳市致尚信息技术有限公司 一种基于视频的分类标签标志处理方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809218A (zh) * 2015-04-30 2015-07-29 北京奇艺世纪科技有限公司 一种ugc视频分类方法及装置
CN106227793A (zh) * 2016-07-20 2016-12-14 合网络技术(北京)有限公司 一种视频与视频关键词相关度的确定方法及装置
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108363725A (zh) * 2018-01-08 2018-08-03 浙江大学 一种用户评论观点提取和观点标签生成的方法
CN110502665A (zh) * 2019-08-27 2019-11-26 北京百度网讯科技有限公司 视频处理方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10438071B2 (en) * 2017-01-25 2019-10-08 Echelon Corporation Distributed system for mining, correlating, and analyzing locally obtained traffic data including video

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809218A (zh) * 2015-04-30 2015-07-29 北京奇艺世纪科技有限公司 一种ugc视频分类方法及装置
CN106227793A (zh) * 2016-07-20 2016-12-14 合网络技术(北京)有限公司 一种视频与视频关键词相关度的确定方法及装置
CN108363725A (zh) * 2018-01-08 2018-08-03 浙江大学 一种用户评论观点提取和观点标签生成的方法
CN108363753A (zh) * 2018-01-30 2018-08-03 南京邮电大学 评论文本情感分类模型训练与情感分类方法、装置及设备
CN110502665A (zh) * 2019-08-27 2019-11-26 北京百度网讯科技有限公司 视频处理方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
a text-mining-based self-admitted technical debt detection tool;Zhongxin Liu;《ICSE:satd detector:a text-mining-based self-admitted technical debt detection tool》;ICSE 18th;20180527;全文 *
基于文本挖掘的视频资源分类研究;艾丽丽;《基于文本挖掘的视频资源分类研究》;中国优秀硕士论文全文库;20140131;全文 *

Also Published As

Publication number Publication date
CN111046233A (zh) 2020-04-21

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN110442707B (zh) 一种基于seq2seq的多标签文本分类方法
CN110059188B (zh) 一种基于双向时间卷积网络的中文情感分析方法
CN110825845B (zh) 一种基于字符与自注意力机制的层次文本分类方法及中文文本分类方法
CN108009148B (zh) 基于深度学习的文本情感分类表示方法
CN111026869B (zh) 一种利用基于多层注意力的序列生成网络进行多罪名预测的方法
CN111046233B (zh) 一种基于视频评论文本的视频标签确定方法
CN111027595B (zh) 双阶段语义词向量生成方法
CN111626063A (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN111143563A (zh) 基于bert与lstm及cnn融合的文本分类方法
CN110969020A (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN109273054B (zh) 基于关系图谱的蛋白质亚细胞区间预测方法
CN111400494B (zh) 一种基于GCN-Attention的情感分析方法
CN111984791B (zh) 一种基于注意力机制的长文分类方法
CN110472245B (zh) 一种基于层次化卷积神经网络的多标记情绪强度预测方法
CN109947936B (zh) 一种基于机器学习动态检测垃圾邮件的方法
CN113094502A (zh) 一种多粒度外卖用户评论情感分析方法
CN112732872A (zh) 面向生物医学文本的基于主题注意机制的多标签分类方法
CN110955745B (zh) 一种基于深度学习的文本哈希检索方法
CN112699243A (zh) 基于法条图卷积网络文本的案件文书案由分类方法及介质
CN116245110A (zh) 基于图注意力网络的多维度信息融合用户立场检测方法
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法
CN113220964B (zh) 一种基于网信领域短文本的观点挖掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220513