CN112905794B - 基于迁移学习的互联网垃圾信息检测方法及系统 - Google Patents

基于迁移学习的互联网垃圾信息检测方法及系统 Download PDF

Info

Publication number
CN112905794B
CN112905794B CN202110205954.6A CN202110205954A CN112905794B CN 112905794 B CN112905794 B CN 112905794B CN 202110205954 A CN202110205954 A CN 202110205954A CN 112905794 B CN112905794 B CN 112905794B
Authority
CN
China
Prior art keywords
training
model
corpus
internet
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110205954.6A
Other languages
English (en)
Other versions
CN112905794A (zh
Inventor
刘立峰
王旭颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Comleader Information Technology Co Ltd
Henan Xinda Wangyu Technology Co Ltd
Original Assignee
Zhuhai Comleader Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Comleader Information Technology Co Ltd filed Critical Zhuhai Comleader Information Technology Co Ltd
Priority to CN202110205954.6A priority Critical patent/CN112905794B/zh
Publication of CN112905794A publication Critical patent/CN112905794A/zh
Application granted granted Critical
Publication of CN112905794B publication Critical patent/CN112905794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了基于迁移学习的互联网垃圾信息检测方法及系统,该方法包括以下步骤:对带标记的第一语料进行预处理,得到相应的第一词向量序列,预训练BERT模型;构建垃圾信息检测模型,包括训练好的BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理后,对垃圾信息检测模型进行训练和测试,其中第二语料与第一语料对应同一种语言;对不带标记的第二语料进行预处理,得到相应的第三词向量序列,通过训练好的垃圾信息检测模型,确定是否含有互联网有害信息。本发明减少了训练所需的有标签的第二语料的数据量,缩短模型训练时间,节省计算资源,同时确保模型的准确性和稳定性。

Description

基于迁移学习的互联网垃圾信息检测方法及系统
技术领域
本发明涉及人工智能垃圾信息检测的技术领域,特别涉及一种基于迁移学习的互联网垃圾信息检测方法及系统。
背景技术
随着我国互联网技术的不断发展,各种社交网站平台如微博,微信公众号等如雨后春笋般大量涌现并且繁荣发展,网络上的信息通过此类平台逐渐渗透到人们日常生活中的各个角落。然而,这些信息中往往也夹杂着大量无用甚至有害的垃圾信息,推广传播这些有害信息不仅会降低正常用户的平台使用体验满意度,更有可能诱导一部分网络用户不知不觉中收到网络诈骗的侵害。
现有的针对互联网有害信息识别的自然语言处理深度学习模型往往需要大量的有标签数据进行训练,而在实际应用中,很难获得针对某一特殊领域或者特殊用户群体的大量的有标签的训练信息,因而造成互联网垃圾信息识别能力低下,且成本高昂。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种基于迁移学习的互联网垃圾信息检测方法,能够有效降低识别成本,提高互联网垃圾信息的检测能力。
本发明还提出一种具有上述基于迁移学习的互联网垃圾信息检测方法的基于迁移学习的互联网垃圾信息检测系统。
本发明还提出一种具有上述基于迁移学习的互联网垃圾信息检测方法的计算机可读存储介质。
根据本发明的第一方面实施例的基于迁移学习的互联网垃圾信息检测方法,包括以下步骤:S100,对带标记的第一语料进行预处理,得到相应的第一词向量序列,输入BERT模型,获得隐藏层的输出,经过全连接层,再进入Softmax分类器,对所述BERT模型的训练和测试,得到预训练好的所述BERT模型;S200,构建垃圾信息检测模型,所述垃圾信息检测模型包括预训练好的所述BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理,得到相应的第二词向量序列,基于训练好的所述BERT模型,获取隐藏层输出的第二语义特征向量,并基于LSTM网络模型获取第三语义特征向量,经过全连接层输入Softmax分类器,对所述垃圾信息检测模型进行训练和测试,其中所述第二语料与所述第一语料对应同一种语言;S300,对不带标记的所述第二语料进行预处理,得到相应的第三词向量序列,通过训练好的所述垃圾信息检测模型,确定是否含有互联网有害信息。
根据本发明实施例的基于迁移学习的互联网垃圾信息检测方法,至少具有如下有益效果:通过将预训练的BERT模型与LSTM网络组合,构建深度迁移模型,减少了训练所需的有标签的第二语料的数据量,可以大大缩短模型训练时间,节省计算资源,同时确保模型的准确性和稳定性。
根据本发明的一些实施例,所述步骤S100包括:S110,按预设规则将对带标记的所述第一语料划分为第一训练集与第一测试集,并分别进行预处理,生成数据字典,进行文本字符化,得到相应的第一文本序列,通过字符标识对所述第一文本序列进行分割,得到所述第一词向量序列;S120,基于所述第一训练集的所述第一词向量序列对所述BERT模型进行预训练,获得隐藏层的输出的第一语义特征向量,经过全连接层输入至Softmax分类器,计算第一训练准确率,根据所述第一训练准确率调整所述BERT模型的超参数并进行迭代训练;S130,基于所述第一测试集的所述第一词向量序列对所述BERT模型进行测试,计算第一测试准确率,根据所述第一测试准确率调整所述BERT模型的超参数并进行迭代训练。
根据本发明的一些实施例,所述步骤S120还包括:若所述第一训练集的迭代训练次数大于等于第一预设最大迭代数或者所述第一训练准确率大于等于第一预设阈值,则转入步骤S130。
根据本发明的一些实施例,所述步骤S130还包括:若检测到所述BERT模型的超参数的调整次数大于等于第一最大值,则输出预训练好的所述BERT模型。
根据本发明的一些实施例,所述步骤S200包括:S210,按预设规则将带互联网垃圾信息标记的所述第二语料划分为第二训练集与第二测试集,并分别进行预处理,生成数据字典,进行文本字符化,得到相应的第二文本序列,通过字符标识对所述第二文本序列进行分割,得到相应的所述第二词向量序列;S220,基于所述第二训练集的所述第二词向量序列对所述垃圾信息检测模型进行预训练,基于预训练好的所述BERT模型提取语义特征,得到隐藏层输出的所述第二语义特征向量,基于LSTM网络模型对所述第二语义特征向量提取特征,得到所述第三语义特征向量,将所述第三语义特征向量经过全连接层输入Softmax分类器,计算第二训练准确率,根据所述第二训练准确率调整所述垃圾信息检测模型的超参数并进行迭代训练;S230,基于所述第二测试集的所述第二词向量序列对所述垃圾信息检测模型进行测试,计算第二测试准确率,根据所述第二测试准确率调整所述垃圾信息检测模型的超参数并进行迭代训练。
根据本发明的一些实施例,所述步骤S220还包括:若所述第二训练集的迭代训练次数大于等于第二预设最大迭代数或者所述第二训练准确率大于等于第二预设阈值,则转入步骤S230。
根据本发明的一些实施例,所述步骤S230还包括:若检测到所述垃圾信息检测模型的超参数的调整次数大于等于第二最大值,则输出训练好的所述垃圾信息检测模型。
根据本发明的一些实施例,对于所述BERT模型及所述垃圾信息检测模型,训练数据沿神经网络正向传播,损失则通过采用Adam优化算法沿神经网络反向传播并且更新相应的网络超参数;测试数据利用训练好的模型的权重,沿神经网络正向传播至Softmax分类器进行分类预测。
根据本发明的第二方面实施例的基于迁移学习的互联网垃圾信息检测系统,包括:第一训练模块,用于对带标记的第一语料进行预处理,得到相应的第一词向量序列,输入BERT模型,获得隐藏层的输出,经过全连接层,再进入Softmax分类器,对所述BERT模型的训练和测试,得到预训练好的所述BERT模型;第二训练模块,用于构建垃圾信息检测模型,所述垃圾信息检测模型包括训练好的所述BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理,得到相应的第二词向量序列,基于训练好的所述BERT模型,获取隐藏层输出的第一语义特征向量,并基于LSTM网络模型获取第二语义特征向量,经过全连接层输入Softmax分类器,对所述垃圾信息检测模型进行训练和测试,其中所述第二语料与所述第一语料对应同一种语言;信息检测模块,用于对不带标记的所述第二语料进行预处理,得到相应的第三词向量序列,通过训练好的所述垃圾信息检测模型,确定是否含有互联网有害信息。
根据本发明实施例的基于迁移学习的互联网垃圾信息检测系统,至少具有如下有益效果:通过将预训练的BERT模型与LSTM网络组合,构建深度迁移模型,减少了训练所需的有标签的第二语料的数据量,可以大大缩短模型训练时间,节省计算资源,同时确保模型的准确性和稳定性。
根据本发明的第三方面实施例的计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据本发明的第一方面实施例的方法。
根据本发明实施例的计算机可读存储介质,至少具有与本发明的第一方面实施例的方法同样的有益效果。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的方法的流程示意图。
图2为本发明实施例的方法中对BERT模型训练和测试的整体流程示意图。
图3为本发明实施例的方法中的垃圾信息检测模型的结构示意框图。
图4为本发明实施例的方法中将BERT模型迁移至垃圾信息检测模型的训练流程图。
图5为本发明实施例的方法中对垃圾信息检测模型训练和测试的整体流程示意图。
图6为本发明实施例的系统的模块示意框图。
附图标记:
第一训练模块100、第二训练模块200、信息检测模块300。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个及两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。在本发明的描述中,步骤标号仅是为了描述的方便或者引述的方便所作出的标识,各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
术语解释:
深度学习:深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
迁移学习:迁移学习是一种机器学习的方法,指的是一个预训练的模型被重新用在另一个任务中。
BERT(Bidirectional Encoder Representations from Transformers,双向Transformer编码表达):BERT是由谷歌团队于2018年发表的基于大规模开放语料的通用NLP预训练模型,BERT被设计成一个深度双向语言表征模型,使得神经网络更有效地从第一层本身一直到最后一层捕获来自目标词的左右上下文的信息,只需微调就可吸收专业领域知识,适用于包括分类,回归,机器翻译,问答系统等等下游任务。
LSTM(Long Short Term Memory Networks,长短时记忆网络):LSTM是循环神经网络的延伸和拓展,增加遗忘机制和保存机制,当有一个新的输入时,模型首先忘掉那些无作用的长期记忆信息,然后学习新输入的有价值信息,然后存入长期记忆中。模型需要学会分辨长期记忆的重点,避免一直使用完整的长期记忆,而是知道哪些部分是当下需要使用的知识。
参照图1,本发明的实施例的方法包括:S100,对带标记的第一语料进行预处理,得到相应的第一词向量序列,输入BERT模型,获得隐藏层的输出,经过全连接层,再进入Softmax分类器,对BERT模型的训练和测试,得到预训练好的BERT模型;S200,构建垃圾信息检测模型,垃圾信息检测模型包括预训练好的BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理,得到相应的第二词向量序列,基于预训练好的BERT模型,获取隐藏层输出的第二语义特征向量,并基于LSTM网络模型获取第三语义特征向量,经过全连接层输入Softmax分类器,对垃圾信息检测模型进行训练和测试,其中第二语料与第一语料对应同一种语言;S300,对不带标记的第二语料进行预处理,得到相应的第三词向量序列,通过训练好的垃圾信息检测模型,确定是否含有互联网有害信息。
本发明的实施例的方法,对神经网络模型的训练包括两个步骤:第一步,先通过大批量样本的带标记的第一语料对BERT模型进行预训练;第二步,将预训练好的BERT模型迁移并与LSTM网络模型连接,构建垃圾信息检测模型,输入与第一语料对应同一种语言的带互网垃圾信息标记的第二语料(即互联网数据),进行训练,得到训练好的垃圾信息检测模型。该垃圾信息检测模型即可部署对不标记的第二语料(即互联网数据)进行检测,确定是否含有互联网有害信息。
下面将以中文语料为例,描述本发明的实施例的方法中,对神经网络模型的训练步骤。
如图2所示,首先,对大批量的中文的第一语料进行预处理,针对数每条语料,通过生成数据字典进行文本字符化,以获得不同语料对应的不同序列,在每一个序列中,用字符标识作为该序列的第一个标记,并通过字符标识对该序列进行分割,最后得到每条第一语料的第一词向量序列。将第一词向量序列输入BERT模型,获得隐藏层输出的第一语义特征向量,即文本中各个各个字\词融合全文语义信息后的向量表示,然后经过全连接层,通过Softmax进行归一化概率预测分类,对BERT模型进行训练和测试。本发明的实施例中将第一语料划分为第一训练集和第一测试集,分别对BERT模型进行训练和测试,如图2所示,如果第一训练集的生成的第一训练准确率小于第一预设阈值且迭代训练次数小于第一预设最大迭代数,则通过BERT模型的训练超参数,继续进行迭代训练;如果第一训练集的迭代训练次数大于等于第一预设最大迭代数或者第一训练准确率大于等于第一预设阈值,则本次训练结束,转入测试步骤。通过第二测试集对BERT模型进行测试,计算第一测试准确率,根据第一测试准确率调整BERT模型的超参数并进行迭代训练(图2中未标识),若测试BERT模型过程中检测到BERT模型的超参数的调整次数大于等于第一最大值,则输出预训练好的BERT模型。
预训练好的BERT模型结合LSTM网络模型构建垃圾信息检测模型,该垃圾信息检测模型的结构参照图3,包括:预训练好的BERT模型、LSTM网络模型、全连接层及Softmax分类器。对垃圾信息检测模型的训练过程参照图4。首先,对带互联网垃圾信息标记的第二语料进行预行预处理,第二语料为与第一语料对应同一语言(本实施例为中文)的互联网数据,且已被打上垃圾信息标记。预处理过程为:针对数每条语料,通过生成数据字典进行文本字符化,以获得不同语料对应的不同序列,在每一个序列中,用字符标识作为该序列的第一个标记,并通过字符标识对该序列进行分割,最后得到每条第二语料对应的第二词向量序列。然后通过预训练好的BERT模型对第二词向量序列进行特征提取,获得隐藏层的输出第二语义特征向量,即文本中各个字\词融合全文语义信息后的向量表示。接着通过LSTM网络对提取出的第二语义特征向量进行深一步的特征提取,以获得第三语义特征向量,即每个语料序列对应的深层语义特征向量表示。第三语义特征向量被输入Softmax进行归一化概率预测,获得输出的概率预测向量,基于概率预测向量,进行语料性质分析,决定是否含有互联网有害信息。
参照图5,本发明的实施例中,将对带互联网垃圾信息标记的第二语料划分为第二训练集和第二测试集完成对垃圾信息检测模型的训练。第二训练集及第二测试集中的第二语料均按同样的方式进行预处理,预处理过程如下:对第二语料进行预处理,生成数据字典,进行文本字符化,得到相应的第二文本序列,通过字符标识对第二文本序列进行分割,得到相应的第二词向量序列。第二训练集输入上述垃圾信息检测模型,计算第二训练准确率,根据该第二训练准确率,调整垃圾信息检测模型超参数并进行迭代训练,直至第二训练集的迭代训练次数大于等于第二预设最大迭代数或者第二训练准确率大于等于第二预设阈值,则进行测试步骤。通过第二测试集对该垃圾信息检测模型进行测试,计算第二测试准确率,根据第二测试准确率调整垃圾信息检测模型的超参数并进行迭代训练(图5中未标识出)。若对垃圾信息检测模型的测试过程中,检测到垃圾信息检测模型的超参数的调整次数大于等于第二最大值,则输出训练好的垃圾信息检测模型。
此外,对整个模型训练过程中,训练数据沿神经网络正向传播,损失采用Adam优化算法沿神经网络反向传播并且更新网络参数;测试数据利用训练好的模型的权重,沿神经网络正向传播至Softmax分类器进行分类预测。
本发明的实施例的系统,参照图6,包括:第一训练模块100,用于对带标记的第一语料进行预处理,得到相应的第一词向量序列,输入BERT模型,获得隐藏层的输出,经过全连接层,再进入Softmax分类器,对BERT模型的训练和测试;第二训练模块200,用于构建垃圾信息检测模型,垃圾信息检测模型包括训练好的BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理,得到相应的第二词向量序列,基于训练好的BERT模型,获取隐藏层输出的第一语义特征向量,并基于LSTM网络模型获取第二语义特征向量,经过全连接层输入Softmax分类器,对垃圾信息检测模型进行训练和测试,其中第二语料与第一语料对应同一种语言;信息检测模块300,用于对不带标记的第二语料进行预处理,得到相应的第三词向量序列,通过训练好的垃圾信息检测模型,确定是否含有互联网有害信息。
尽管本文描述了具体实施方案,但是本领域中的普通技术人员将认识到,许多其它修改或另选的实施方案同样处于本公开的范围内。例如,结合特定设备或组件描述的功能和/或处理能力中的任一项可以由任何其它设备或部件来执行。另外,虽然已根据本公开的实施方案描述了各种例示性具体实施和架构,但是本领域中的普通技术人员将认识到,对本文所述的例示性具体实施和架构的许多其它修改也处于本公开的范围内。
上文参考根据示例性实施方案所述的系统、方法、系统和/或计算机程序产品的框图和流程图描述了本公开的某些方面。应当理解,框图和流程图中的一个或多个块以及框图和流程图中的块的组合可分别通过执行计算机可执行程序指令来实现。同样,根据一些实施方案,框图和流程图中的一些块可能无需按示出的顺序执行,或者可以无需全部执行。另外,超出框图和流程图中的块所示的那些部件和/或操作以外的附加部件和/或操作可存在于某些实施方案中。
因此,框图和流程图中的块支持用于执行指定功能的装置的组合、用于执行指定功能的元件或步骤的组合以及用于执行指定功能的程序指令装置。还应当理解,框图和流程图中的每个块以及框图和流程图中的块的组合可以由执行特定功能、元件或步骤的专用硬件计算机系统或者专用硬件和计算机指令的组合来实现。
本文所述的程序模块、应用程序等可包括一个或多个软件组件,包括例如软件对象、方法、数据结构等。每个此类软件组件可包括计算机可执行指令,所述计算机可执行指令响应于执行而使本文所述的功能的至少一部分(例如,本文所述的例示性方法的一种或多种操作)被执行。
软件组件可以用各种编程语言中的任一种来编码。一种例示性编程语言可以为低级编程语言,诸如与特定硬件体系结构和/或操作系统平台相关联的汇编语言。包括汇编语言指令的软件组件可能需要在由硬件架构和/或平台执行之前由汇编程序转换为可执行的机器代码。另一种示例性编程语言可以为更高级的编程语言,其可以跨多种架构移植。包括更高级编程语言的软件组件在执行之前可能需要由解释器或编译器转换为中间表示。编程语言的其它示例包括但不限于宏语言、外壳或命令语言、作业控制语言、脚本语言、数据库查询或搜索语言、或报告编写语言。在一个或多个示例性实施方案中,包含上述编程语言示例中的一者的指令的软件组件可直接由操作系统或其它软件组件执行,而无需首先转换成另一种形式。
软件组件可存储为文件或其它数据存储构造。具有相似类型或相关功能的软件组件可一起存储在诸如特定的目录、文件夹或库中。软件组件可为静态的(例如,预设的或固定的)或动态的(例如,在执行时创建或修改的)。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (8)

1.一种基于迁移学习的互联网垃圾信息检测方法,其特征在于,包括以下步骤:
S100,对带标记的第一语料进行预处理,得到相应的第一词向量序列,输入BERT模型,获得隐藏层的输出,经过全连接层,再进入Softmax分类器,对所述BERT模型的训练和测试,得到预训练好的所述BERT模型;
S200,构建垃圾信息检测模型,所述垃圾信息检测模型包括预训练好的所述BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理,得到相应的第二词向量序列,基于训练好的所述BERT模型,获取隐藏层输出的第二语义特征向量,并基于LSTM网络模型获取第三语义特征向量,经过全连接层输入Softmax分类器,对所述垃圾信息检测模型进行训练和测试,其中所述第二语料与所述第一语料对应同一种语言;
S300,对不带标记的所述第二语料进行预处理,得到相应的第三词向量序列,通过训练好的所述垃圾信息检测模型,确定是否含有互联网有害信息;
其中,所述步骤S100包括:
S110,按预设规则将对带标记的所述第一语料划分为第一训练集与第一测试集,并分别进行预处理,生成数据字典,进行文本字符化,得到相应的第一文本序列,通过字符标识对所述第一文本序列进行分割,得到所述第一词向量序列;
S120,基于所述第一训练集的所述第一词向量序列对所述BERT模型进行预训练,获得隐藏层的输出的第一语义特征向量,经过全连接层输入至Softmax分类器,计算第一训练准确率,根据所述第一训练准确率调整所述BERT模型的超参数并进行迭代训练;
S130,基于所述第一测试集的所述第一词向量序列对所述BERT模型进行测试,计算第一测试准确率,根据所述第一测试准确率调整所述BERT模型的超参数并进行迭代训练;
其中,所述步骤S200包括:
S210,按预设规则将带互联网垃圾信息标记的所述第二语料划分为第二训练集与第二测试集,并分别进行预处理,生成数据字典,进行文本字符化,得到相应的第二文本序列,通过字符标识对所述第二文本序列进行分割,得到相应的所述第二词向量序列;
S220,基于所述第二训练集的所述第二词向量序列对所述垃圾信息检测模型进行预训练,基于预训练好的所述BERT模型提取语义特征,得到隐藏层输出的所述第二语义特征向量,基于LSTM网络模型对所述第二语义特征向量提取特征,得到所述第三语义特征向量,将所述第三语义特征向量经过全连接层输入Softmax分类器,计算第二训练准确率,根据所述第二训练准确率调整所述垃圾信息检测模型的超参数并进行迭代训练;
S230,基于所述第二测试集的所述第二词向量序列对所述垃圾信息检测模型进行测试,计算第二测试准确率,根据所述第二测试准确率调整所述垃圾信息检测模型的超参数并进行迭代训练。
2.根据权利要求1所述的基于迁移学习的互联网垃圾信息检测方法,其特征在于,所述步骤S120还包括:若所述第一训练集的迭代训练次数大于等于第一预设最大迭代数或者所述第一训练准确率大于等于第一预设阈值,则转入步骤S130。
3.根据权利要求1所述的基于迁移学习的互联网垃圾信息检测方法,其特征在于,所述步骤S130还包括:若检测到所述BERT模型的超参数的调整次数大于等于第一最大值,则输出预训练好的所述BERT模型。
4.根据权利要求1所述的基于迁移学习的互联网垃圾信息检测方法,其特征在于,所述步骤S220还包括:若所述第二训练集的迭代训练次数大于等于第二预设最大迭代数或者所述第二训练准确率大于等于第二预设阈值,则转入步骤S230。
5.根据权利要求4所述的基于迁移学习的互联网垃圾信息检测方法,其特征在于,所述步骤S230还包括:若检测到所述垃圾信息检测模型的超参数的调整次数大于等于第二最大值,则输出训练好的所述垃圾信息检测模型。
6.根据权利要求4所述的基于迁移学习的互联网垃圾信息检测方法,其特征在于,对于所述BERT模型及所述垃圾信息检测模型,训练数据沿神经网络正向传播,损失则通过采用Adam优化算法沿神经网络反向传播并且更新相应的网络超参数;测试数据利用训练好的模型的权重,沿神经网络正向传播至Softmax分类器进行分类预测。
7.一种基于迁移学习的互联网垃圾信息检测系统,使用权利要求1至6中任一项的方法,其特征在于,包括:
第一训练模块,用于对带标记的第一语料进行预处理,得到相应的第一词向量序列,输入BERT模型,获得隐藏层的输出,经过全连接层,再进入Softmax分类器,对所述BERT模型的训练和测试,得到预训练好的所述BERT模型;
第二训练模块,用于构建垃圾信息检测模型,所述垃圾信息检测模型包括预训练好的所述BERT模型、LSTM网络模型、全连接层及Softmax分类器;以及,对带互联网垃圾信息标记的第二语料进行预处理,得到相应的第二词向量序列,基于训练好的所述BERT模型,获取隐藏层输出的第一语义特征向量,并基于LSTM网络模型获取第二语义特征向量,经过全连接层输入Softmax分类器,对所述垃圾信息检测模型进行训练和测试,其中所述第二语料与所述第一语料对应同一种语言;
信息检测模块,用于对不带标记的所述第二语料进行预处理,得到相应的第三词向量序列,通过训练好的所述垃圾信息检测模型,确定是否含有互联网有害信息。
8.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6中任一项的方法。
CN202110205954.6A 2021-02-24 2021-02-24 基于迁移学习的互联网垃圾信息检测方法及系统 Active CN112905794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110205954.6A CN112905794B (zh) 2021-02-24 2021-02-24 基于迁移学习的互联网垃圾信息检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110205954.6A CN112905794B (zh) 2021-02-24 2021-02-24 基于迁移学习的互联网垃圾信息检测方法及系统

Publications (2)

Publication Number Publication Date
CN112905794A CN112905794A (zh) 2021-06-04
CN112905794B true CN112905794B (zh) 2023-01-06

Family

ID=76106781

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110205954.6A Active CN112905794B (zh) 2021-02-24 2021-02-24 基于迁移学习的互联网垃圾信息检测方法及系统

Country Status (1)

Country Link
CN (1) CN112905794B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213843A (zh) * 2018-07-23 2019-01-15 北京密境和风科技有限公司 一种垃圾文本信息的检测方法及装置
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110929506A (zh) * 2019-12-04 2020-03-27 杭州安恒信息技术股份有限公司 一种垃圾信息检测方法、装置、设备及可读存储介质
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理系统及方法
CN111475649A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质
CN111507099A (zh) * 2020-06-19 2020-08-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN112256945A (zh) * 2020-11-06 2021-01-22 四川大学 一种基于深度神经网络的社交网络粤语谣言检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019204086A1 (en) * 2018-04-18 2019-10-24 HelpShift, Inc. System and methods for processing and interpreting text messages
US11574148B2 (en) * 2018-11-05 2023-02-07 Royal Bank Of Canada System and method for deep reinforcement learning
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN110377714A (zh) * 2019-07-18 2019-10-25 泰康保险集团股份有限公司 基于迁移学习的文本匹配方法、装置、介质及设备
CN110580287A (zh) * 2019-08-20 2019-12-17 北京亚鸿世纪科技发展有限公司 基于迁移学习和on-lstm的情感分类方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213843A (zh) * 2018-07-23 2019-01-15 北京密境和风科技有限公司 一种垃圾文本信息的检测方法及装置
CN110334210A (zh) * 2019-05-30 2019-10-15 哈尔滨理工大学 一种基于bert与lstm、cnn融合的中文情感分析方法
CN110929506A (zh) * 2019-12-04 2020-03-27 杭州安恒信息技术股份有限公司 一种垃圾信息检测方法、装置、设备及可读存储介质
CN111143563A (zh) * 2019-12-27 2020-05-12 电子科技大学 基于bert与lstm及cnn融合的文本分类方法
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理系统及方法
CN111475649A (zh) * 2020-04-02 2020-07-31 中国人民解放军国防科技大学 基于深度学习的虚假新闻预测方法、系统、装置、介质
CN111507099A (zh) * 2020-06-19 2020-08-07 平安科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN112256945A (zh) * 2020-11-06 2021-01-22 四川大学 一种基于深度神经网络的社交网络粤语谣言检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
用于文本分类的多探测任务语言模型微调;傅群超等;《北京邮电大学学报》;20191215(第06期);第80-87页 *

Also Published As

Publication number Publication date
CN112905794A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN109992782B (zh) 法律文书命名实体识别方法、装置及计算机设备
US20200249918A1 (en) Deep learning enhanced code completion system
US20170132288A1 (en) Extracting and Denoising Concept Mentions Using Distributed Representations of Concepts
US11157272B2 (en) Automatic identification of appropriate code reviewers using machine learning
CN111159385A (zh) 一种基于动态知识图谱的无模板通用智能问答方法
CN112100377B (zh) 文本分类方法、装置、计算机设备和存储介质
CN116821318B (zh) 基于大语言模型的业务知识推荐方法、装置及存储介质
CN113035311A (zh) 一种基于多模态注意力机制的医学图像报告自动生成方法
US20230259707A1 (en) Systems and methods for natural language processing (nlp) model robustness determination
US20200279079A1 (en) Predicting probability of occurrence of a string using sequence of vectors
US20220414463A1 (en) Automated troubleshooter
CN114510570A (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN114037055A (zh) 数据处理系统、方法、装置、设备及存储介质
CN113947086A (zh) 样本数据生成方法、训练方法、语料生成方法和装置
CN116244412A (zh) 多意图识别方法及装置
CN112035629B (zh) 基于符号化知识与神经网络的问答模型的实现方法
CN116628177B (zh) 针对网络安全平台的交互数据处理方法及系统
CN110941828B (zh) 基于AndroGRU的安卓恶意软件静态检测方法
CN112905794B (zh) 基于迁移学习的互联网垃圾信息检测方法及系统
KR20210098820A (ko) 전자 장치, 전자 장치의 제어 방법 및 판독 가능한 기록 매체
CN112084788A (zh) 一种影像字幕隐式情感倾向自动标注方法及系统
US20230062307A1 (en) Smart document management
CN115658845A (zh) 一种适用于开源软件供应链的智能问答方法及装置
CN115146267A (zh) Office文档中宏病毒的检测方法、装置、电子设备及存储介质
WO2022242923A1 (en) Artificial intelligence based cognitive test script generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231218

Address after: 519060 No.1, Pingdong 1st Road, Nanping Science and Technology Industrial Park, Zhuhai City, Guangdong Province

Patentee after: ZHUHAI COMLEADER INFORMATION TECHNOLOGY Co.,Ltd.

Patentee after: HENAN XINDA WANGYU TECHNOLOGY Co.,Ltd.

Address before: 519060 No.1, Pingdong 1st Road, Nanping Science and Technology Industrial Park, Zhuhai City, Guangdong Province

Patentee before: ZHUHAI COMLEADER INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right