CN113901801B - 基于深度学习的文本内容安全检测方法 - Google Patents

基于深度学习的文本内容安全检测方法 Download PDF

Info

Publication number
CN113901801B
CN113901801B CN202111084273.5A CN202111084273A CN113901801B CN 113901801 B CN113901801 B CN 113901801B CN 202111084273 A CN202111084273 A CN 202111084273A CN 113901801 B CN113901801 B CN 113901801B
Authority
CN
China
Prior art keywords
data
text
word
algorithm
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111084273.5A
Other languages
English (en)
Other versions
CN113901801A (zh
Inventor
金梅
秦芊
张立国
薛静芳
申前
黄文汉
孟子杰
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yanshan University
Original Assignee
Yanshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yanshan University filed Critical Yanshan University
Priority to CN202111084273.5A priority Critical patent/CN113901801B/zh
Publication of CN113901801A publication Critical patent/CN113901801A/zh
Application granted granted Critical
Publication of CN113901801B publication Critical patent/CN113901801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种基于深度学习的文本内容安全检测方法。该方法包括算法部分,对应的检测器是一个卷积神经网络框架。本发明算法整体架构采用的是长短记忆网络LSTM,此结构是一种循环神经网络,实现简单并具有长期记忆功能;在此基础上,还加入了注意力机制,此机制可将计算机有限的资源高效利用,并且使用时能并行,可在减少网络参数的情况下提升准确率。另外,本发明的算法部分还加入了残差结构,使得学习结果对网络权重的波动变化更加敏感,同时残差结果对数据的波动更加敏感。本方法提出基于深度的方法,通过改变模型参数,可构建出不同的文本内容检测器。

Description

基于深度学习的文本内容安全检测方法
技术领域
本发明涉及文本目标检测技术领域,具体涉及一种基于深度学习的文本内容安全检测方法。
背景技术
近年来随着互联网行业的高速发展,智能手机用户呈爆炸性增长,网络平台已经成为人们获取和交流信息的重要平台。互联网不仅拓宽了信息传播的广度和深度,也为大众提供了一个自由发表言论的平台。实时消息会通过这些平台传播给广大网友。由此可见,文本内容的安全性至关重要,尤其是各式各样App中文本内容的安全性更加重要。
目前存在的检测文本内容的方法是关键字检测,主流的文本检测使用的是长短记忆网络LSTM结构,此结构也是一种RNN,实现简单,具有长期记忆功能,主要采用门的机制,能一定程度上解决梯度消失和爆炸的问题。随着深度学习的发展,目前也出现了一些基于深度学习的文本检测,例如LSTM+cTc等方法,虽然对LSTM算法有所改进,但仍有改进的空间。
发明内容
本发明的目的是为了克服背景技术中的不足之处,基于深度学习的文本内容安全检测方法,融合注意力机制,构建一个检测文本安全的方法,尤其适用于社交App。该方法将注意力机制进行改进,将Attention模型跟长短记忆网络LSTM结构相结合,使神经网络专注于特征子集的能力并且对输入的特征没有任何的限制。在计算能力有限的情况下,注意力机制是解决信息超载问题的主要手段的一种资源分配方式,将资源分配给更重要的任务,同时也能并行处理问题。与传统的LSTM算法相比,能在减少网络参数的情况下大大提升准确率等性能。
本发明是通过以下技术方案实现的:一种基于深度学习的文本内容安全检测方法,该方法基于改进的LSTM结构,包括以下过程:
S1、采用爬虫方式从各社交App上获取独立的数据集作为训练数据,原始数据均转换为文本格式的词汇;
S2、对原始数据进行预处理,并采用将词汇重构为数字向量的word2vec算法简化计算与存储,该算法采用自然语言处理的模型—continuous Bag-of-Words,根据目标单词的上下文预测该目标单词含义,以实现文本检测,从而获得标词汇在给定句子中出现的概率,此概率为
P(wt|wt-c:wt+c)
对于给定的一句话w1、w2…wt,该模型的目标函数就是最大化上式的对数似然函数:
其中,L为似然函数、t为句子中向量的索引值、T为句子长度、c为上下文大小、wt-c为句子中第一个向量、wt+c为句子中末尾向量;
wt为要预测的目标单词条件概率由如下表达式计算:
其中,n为任意一个句子的索引值、N为句子的个数、为一篇文章中句子的平均长度、j为句子的索引值;
S3、将处理后的数据利用随机森林算法减少冗余信息,之后再利用注意力Attention算法进行处理;
S4、将S3中处理后的数据通过改进的LSTM模型进行训练并保存最终权重,所述LSTM模型中引入了改进版注意力机制,所述改进版注意力机制在传统注意力机制的全连接层之前添加了残差结构,以便于优化并提高准确率;
S5、将S4中处理后的数据并行传入到两个LSTM单元中进行训练,第一个LSTM单元对文本内容进行分类,如果属于第一类就不进行任何处理,如果属于第二类就给发送此文本的用户发送警告信息。另一个单元是检测文本中的敏感词汇,如果检测到了敏感词汇,则删除此文本的同时给发送此文本的用户发送警告信息。
优选地,在所述S1中,通过调用已有词库对采集不充足样本进行补充;在所述S2中,对原始数据集进行正负样本的标定,将褒义或中性的词标为正样本,贬义的词标为负样本。
优选地,所述S3中,所述Attention算法的改进结构具体为:
a、将数据进行融合处理,转化张量tensor的维度;
b、将a中数据进行重塑reshape处理,改变张量tensor的形状;
c、将b中数据传入残差结构的两层3*3的卷积层,数据通过卷积操作之后再与未处理的数据进行相加;
d、将c中数据再次进行两次特征融合处理;
e、将d中数据进行展平flatten操作之后送入全连接层进行预测。
优选地,所述残差结构的内部设有残差块,残差块使用跳跃连接以减少神经网络中梯度消失的问题。
优选地,通过word2vec算法将所有的词表示成低维稠密向量,从而能在词向量空间定性衡量词与词之间的相似性,并利用word2vec的词袋模型弱化词汇排序的重要性。
优选地,在所述Attention算法结构中加入残差结构,增加学习结果对网络权重波动的敏感度,所述安全检测方法通过改变模型参数,能构建不同的社交App文本内容检测器。
与现有技术相比,本发明具有以下有益效果:
(1)本发明应用于社交App内容检测时,结合了当下主流两种文本检测方法,将文本内容检测和关键词检测相结合,基于二者的优点,能更好地检测出一些不良的隐讳内容,也增强了方法的鲁棒性;
(2)在对样本进行标注时,采用随机森林算法,大大提升了样本筛选的效率;
(3)本发明在注意力机制网络中加入了残差结构,在降低过拟合的风险同时能使网络更加专注于文本特征提取;上述方法相结合,使得模型的精度有较高地提升,提供一种更加精准的文本检测方法。
附图说明
图1是本发明的使用流程图;
图2是本发明核心算法流程图;
图3是本发明数据获取及处理流程图;
图4是本发明随机森林算法流程图;
图5是本发明LSTM算法流程图;
图6是LSTM内部结构图;
图7是本发明改进的注意力机制流程图。
具体实施方式
下面将结合本发明实施例中图,对本发明实施例中的技术方案进行清楚、完整地描述。通常在此处图中描述和展示出的本发明实施例的组件能以各种不同的配置来布置和设计。因此,以下对在图中提供的本发明实施例的详细描述并非旨在限制本发明要求保护的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的其他所有实施例,都属于本发明保护的范围。
一种针对社交App的基于深度学习的文本内容安全检测方法,如图1~图7所示,主要包括算法部分。算法部分主要指的是对数据的采集和处理以及按要求训练的部分。训练好的模型用来检测社交App文本内容。本发明采用获取独立的数据集,这样能训练出更加精准有效的模型。数据集能采用爬虫的方式从各大社交App上获取,获取成功后还需将数据集贴上正负样本的标签用于训练。由于数据集是文本格式,不同于图像可用数字表示,因此要将文本转化成数字格式。这里采用word2vec算法来进行转化。
word2vec算法用以将词汇重构为数字向量。该模型为浅而双层的神经网络,用来训练以重新构建语言学之词文本。网络以词来表现,并需要猜测相邻词位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec可用来映射每一个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
数据集通过word2vec处理之后,为了减少冗余信息,本发明优化了随机森林算法,这样能更好的优化随机森林算法。随机森林算法是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。
接着,经过处理的处理后的数据需要通过以长短记忆网络LSTM为核心的模型进行训练。在此模型中,本发明对注意力Attention机制有所修改,能使模型更有效的保存重要的信息。经过注意力机制处理后,数据将并行地传入到两个LSTM单元中进行训练,其中一个单元是对文本内容进行分类,如果属于第一类就不进行任何处理,如果属于第二类就给发送此文本的用户发送警告信息。另一个单元是检测文本中的敏感词汇,如果检测到了敏感词汇,则删除此文本并给发送此文本的用户发送警告信息。
图1所示是本发明的使用流程图。该图清晰地展示了本发明的使用流程。先利用爬虫技术获取社交App的文本内容,之后将这些内容送入到训练好的模型进行检测,如果检测出违规内容,则将对应的给予警告等处理。
图2所示是发明核心算法流程图。结合图1,其核心内容如下:
S1、获取训练数据,采用爬虫方式从各社交App上获取独立的数据集作为训练数据,原始数据为词汇,如果所采集的样本不充足,可用现有的词库进行补充;
S2、对原始数据进行处理,并采用word2vec算法将词汇转换成数字向量,方便计算机存储和计算;
S3、将处理后的数据利用随机森林算法减少冗余信息,之后再利用Attention算法进行处理;
图3是本发明数据获取及处理流程图,首先要利用爬虫技术获取信息,接下来传入word2vec模型进行转化,转化完成之后输入到随机森林进行下一步处理;
S4、将S3中处理后的数据通过改进的LSTM模型进行训练并保存最终权重,LSTM模型中引入了改进版注意力机制,改进版注意力机制在传统注意力机制的全连接层之前添加了残差结构,以便于优化并提高准确率;
S5、将S4中处理后的数据并行传入到两个LSTM单元中进行训练,第一个LSTM单元对文本内容进行分类,如果属于第一类就不进行任何处理,如果属于第二类就给发送此文本的用户发送警告信息。本实施例中文本中正值代表褒义或中性的词,负值代表贬义的词,因此本实施例中的第一类和第二类文本内容以相应的文本总值来进行分类。另一个单元是检测文本中的敏感词汇,如果检测到了敏感词汇,则删除此文本的同时给发送此文本的用户发送警告信息。
本发明应用于社交App内容检测时,结合了当下主流两种文本检测方法,将文本内容检测和关键词检测相结合,基于二者的优点,能更好地检测出一些隐讳内容,也增强了方法的鲁棒性;本发明还在注意力机制网络中加入了残差结构,在降低过拟合的风险同时能使网络更加专注于文本特征提取;上述方法相结合,使得模型的精度有较高地提升。
word2vec是Google在2013年提出的自然语言处理模型,它的特点是将所有的词表示成低维稠密向量,从而能在词向量空间定性衡量词与词之间的相似性。相似的词在向量空间上的夹角会越小。本发明采用的模型为continuous Bag-of-Words。CBOW根据目标单词的上下文预测该目标单词含义,以实现文本检测的目的,给定目标单词的上下文预测该目标单词是什么,能用条件概率来建模这个问题,我们的模型是求一个单词在给定句子中出现的概率,此概率为:
P(wt|wt-c:wt+c)⑴
对于给定的一句话w1,w2…wt,该模型的目标函数就是最大化上式的对数似然函数:
其中,L为似然函数、t为句子中向量的索引值、T为句子长度、c为上下文大小、wt-c为句子中第一个向量、wt+c为句子中末尾向量;
wt为要预测的目标单词条件概率由softmax给出:
其中,n为任意一个句子的索引值、N为句子的个数、为一篇文章中句子的平均长度、j为句子的索引值。
图4是本发明中随机森林算法流程图,随机森林是一个包含多个决策树的分类器。如图所示将处理过的样本有放回地抽样后分成两个簇,输入到两颗决策树中,最终得到结果。
图5~图6是本发明LSTM算法流程图。经上述步骤处理后,数据要经过Attention结构处理,接着再输入到LSTM层,最后进行展平输入全连接层进行最后的预测。
RNN的主线是一条顶部水平贯穿的线,也就是我们所称的长期记忆c线,即细胞状态,它达到了序列学习的目的。而LSTM也是以这一条顶部水平贯穿的c线为主线,在每个时间点,都会有一个对应的状态。这个状态记录了之前的信息。在每个时间点,都能通过调节权重的输入,遗忘等方式去修正该状态。LSTM主要特点是,通过遗忘门,输入门,输出门对于状态c的影响,最终决定每一个时间点,要忘记多少,记住多少,输出多少,最后把这个状态一直传递下去,从而达到能控制其不会忘记遥远的重要信息,也不会把附近的不重要的信息看的太重的作用。
图7是本发明改进的注意力机制流程图。注意力机制是在计算能力有限的情况下,将计算资源分配给更重要的任务。在神经网络学习中,一边而言模型的参数越多则模型的表达能力越强,模型所存储的信息量也越大,但这会带来信息过载的问题,通过引入注意力机制,在众多的输入信息中聚焦于当前任务更为关键的信息,降低对其他信息的关注度,甚至过滤掉无关信息,就能解决信息过载问题,并提高任务处理准确性。对于文本识别来说,给定一篇较为长篇幅的文本,如果要检测部分内容,那只需要把相关的片段挑出来让神经网络进行处理,而不需要把所有内容都输入到网络中。
Attention机制的基本思想是,打破了传统编码器-解码器结构在编解码时都依赖于内部一个固定长度向量的限制。Attention机制的实现是通过保留LSTM编码器对输入序列的中间输出结果,然后训练一个模型对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。
如果用键值对来表示输入信息,那么注意力机制就能看成是一种软寻址操作:把输入信息X看做是存储器中存储的内容,元素由地址Key(键)和值Value组成,当前有个Key=Query的查询,目标是取出存储器中对应的Value值,即Attention值。而在软寻址中,并非需要硬性满足Key=Query的条件来取出存储信息,而是通过计算Query与存储器内元素的地址Key的相似度来决定,从对应的元素Value中取出多少内容。每个地址Key对应的Value值都会被抽取内容出来,然后求和,这就相当于由Query与Key的相似性来计算每个Value值的权重,然后对Value值进行加权求和。加权求和得到最终的Value值,也就是Attention值。
以上的计算可归纳成三个过程:
1.根据Query和Key计算二者的相似度。能用上面所列出的加性模型、点积模型或余弦相似度来计算,得到注意力得分Si:
Si=F(Q,ki)⑸
2.用softmax函数对注意力得分进行数值转换。一方面能进行归一化,得到所有权重系数之和为1的概率分布,另一方面能用softmax函数的特性突出重要元素的权重:
3.根据权重系数对Value进行加权求和:
Si表示注意力得分、αi表示重要元素权重、Attention表示最终结果。
改进后的Attention的结构具体为:
a、将数据进行permute处理,转化tensor的维度;
b、将a中数据进行reshape处理,改变tensor形状;
c、将b中数据传入残差结构的两层3*3的卷积层,数据通过卷积操作之后再与未处理的数据进行相加;
d、将c中数据再次进行permute和merge处理;
e、将d中数据进行flatten展平操作之后送入全连接层进行预测。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明能有而各种更改。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。因注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

Claims (5)

1.一种基于深度学习的文本内容安全检测方法,其特征在于:其包括以下过程:
S1、采用爬虫方式从各社交App上获取独立的数据集作为训练数据,原始数据均转换为文本格式的词汇;
S2、对原始数据进行预处理,并采用将词汇重构为数字向量的word2vec算法简化计算与存储,该算法采用自然语言处理的模型-continuousBag-of-Words模型,根据目标单词的上下文预测该目标单词含义,以实现文本检测,从而获得标词汇在给定句子中出现的概率,此概率为:
P(wt|wt-c:wt+c)
对于给定的一句话w1、w2...wt,该模型的目标函数就是最大化上式的对数似然函数:
其中,L为似然函数、t为句子中向量的索引值、T为句子长度、c为上下文大小、wt-c为句子中第一个向量、wt+c为句子中末尾向量;
wt为要预测的目标单词条件概率由如下表达式计算:
其中,n为任意一个句子的索引值、N为句子的个数、为一篇文章中句子的平均长度、j为句子的索引值;
S3、将处理后的数据利用随机森林算法减少冗余信息,之后再利用改进注意力Attention算法进行处理;改进注意力Attention算法具体为:
a、将数据进行融合处理,转化张量tensor的维度;
b、将a中数据进行重塑reshape处理,改变张量tensor的形状;
c、将b中数据传入残差结构的两层3*3的卷积层,数据通过卷积操作之后再与未处理的数据进行相加;
d、将c中数据再次进行两次特征融合处理;
e、将d中数据进行展平flatten操作之后送入全连接层进行预测;
S4、将S3中处理后的数据通过改进的长短记忆网络LSTM模型进行训练并保存最终权重,所述LSTM模型中引入了改进版注意力机制,所述改进版注意力机制在传统注意力机制的全连接层之前添加了残差结构,以便于优化并提高准确率;
S5、将S4中处理后的数据并行传入到两个LSTM单元中进行训练,第一个LSTM单元对文本内容进行分类,如果属于第一类就不进行任何处理,如果属于第二类就给发送此文本的用户发送警告信息;另一个单元是检测文本中的敏感词汇,如果检测到了敏感词汇,则删除此文本的同时给发送此文本的用户发送警告信息。
2.根据权利要求1所述的基于深度学习的文本内容安全检测方法,其特征在于,在所述S1中,通过调用已有词库对采集不充足样本进行补充;在所述S2中,对原始数据集进行正负样本的标定,将褒义或中性的词标为正样本,贬义的词标为负样本。
3.根据权利要求1所述的基于深度学习的文本内容安全检测方法,其特征在于,所述残差结构的内部设有残差块,残差块使用跳跃连接以减少神经网络中梯度消失的问题。
4.根据权利要求1所述的基于深度学习的文本内容安全检测方法,其特征在于,通过word2vec算法将所有的词表示成低维稠密向量,从而能在词向量空间定性衡量词与词之间的相似性,并利用word2vec的词袋模型弱化词汇排序的重要性。
5.根据权利要求3所述的基于深度学习的文本内容安全检测方法,其特征在于,在所述Attention算法结构中加入残差结构,增加学习结果对网络权重波动的敏感度,所述安全检测方法通过改变模型参数,能构建不同的社交App文本内容检测器。
CN202111084273.5A 2021-09-14 2021-09-14 基于深度学习的文本内容安全检测方法 Active CN113901801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111084273.5A CN113901801B (zh) 2021-09-14 2021-09-14 基于深度学习的文本内容安全检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111084273.5A CN113901801B (zh) 2021-09-14 2021-09-14 基于深度学习的文本内容安全检测方法

Publications (2)

Publication Number Publication Date
CN113901801A CN113901801A (zh) 2022-01-07
CN113901801B true CN113901801B (zh) 2024-05-07

Family

ID=79028466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111084273.5A Active CN113901801B (zh) 2021-09-14 2021-09-14 基于深度学习的文本内容安全检测方法

Country Status (1)

Country Link
CN (1) CN113901801B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117332039A (zh) * 2023-09-20 2024-01-02 鹏城实验室 文本检测方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190085882A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN110619045A (zh) * 2019-08-27 2019-12-27 四川大学 一种基于卷积神经网络和自注意力的文本分类模型
CN112070040A (zh) * 2020-09-11 2020-12-11 上海海事大学 一种用于视频字幕的文本行检测方法
CN112836056A (zh) * 2021-03-12 2021-05-25 南宁师范大学 一种基于网络特征融合的文本分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110083705B (zh) * 2019-05-06 2021-11-02 电子科技大学 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190085882A (ko) * 2018-01-11 2019-07-19 네오사피엔스 주식회사 기계학습을 이용한 텍스트-음성 합성 방법, 장치 및 컴퓨터 판독가능한 저장매체
CN110619045A (zh) * 2019-08-27 2019-12-27 四川大学 一种基于卷积神经网络和自注意力的文本分类模型
CN112070040A (zh) * 2020-09-11 2020-12-11 上海海事大学 一种用于视频字幕的文本行检测方法
CN112836056A (zh) * 2021-03-12 2021-05-25 南宁师范大学 一种基于网络特征融合的文本分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于模糊神经网络的多传感器信息融合技术及应用;翁建华, 陈艳, 张立国, 蔡文龙;传感技术学报;20040115(第04期);全文 *
基于深度学习的问答匹配方法;荣光辉;黄震华;计算机应用;20171010;第37卷(第10期);全文 *

Also Published As

Publication number Publication date
CN113901801A (zh) 2022-01-07

Similar Documents

Publication Publication Date Title
CN108920622B (zh) 一种意图识别的训练方法、训练装置和识别装置
CN110263324B (zh) 文本处理方法、模型训练方法和装置
CN110083705B (zh) 一种用于目标情感分类的多跳注意力深度模型、方法、存储介质和终端
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN107516110B (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
CN108363753A (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
CN110502753A (zh) 一种基于语义增强的深度学习情感分析模型及其分析方法
CN109214006A (zh) 图像增强的层次化语义表示的自然语言推理方法
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN114462420A (zh) 一种基于特征融合模型的虚假新闻检测方法
Zhou Research on sentiment analysis model of short text based on deep learning
CN113901801B (zh) 基于深度学习的文本内容安全检测方法
CN109308316A (zh) 一种基于主题聚类的自适应对话生成系统
CN115775349A (zh) 基于多模态融合的假新闻检测方法和装置
CN115062727A (zh) 一种基于多阶超图卷积网络的图节点分类方法及系统
Zhang et al. SC-BiCapsNet: a sentiment classification model based on bi-channel capsule network
Luo et al. Multi-featured cyberbullying detection based on deep learning
CN113627550A (zh) 一种基于多模态融合的图文情感分析方法
CN116452241B (zh) 一种基于多模态融合神经网络的用户流失概率计算方法
CN110888944B (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
Sun et al. Chinese microblog sentiment classification based on convolution neural network with content extension method
CN115329073A (zh) 一种基于注意力机制的方面级文本情感分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant