CN113704473A - 基于长文本特征提取优化的媒体假新闻检测方法及系统 - Google Patents

基于长文本特征提取优化的媒体假新闻检测方法及系统 Download PDF

Info

Publication number
CN113704473A
CN113704473A CN202111005192.1A CN202111005192A CN113704473A CN 113704473 A CN113704473 A CN 113704473A CN 202111005192 A CN202111005192 A CN 202111005192A CN 113704473 A CN113704473 A CN 113704473A
Authority
CN
China
Prior art keywords
data
text
long
media
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111005192.1A
Other languages
English (en)
Inventor
马坤
汤长昊
纪科
杨波
陈贞翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Jinan
Original Assignee
University of Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Jinan filed Critical University of Jinan
Priority to CN202111005192.1A priority Critical patent/CN113704473A/zh
Publication of CN113704473A publication Critical patent/CN113704473A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种基于长文本特征提取优化的媒体假新闻检测方法及系统,对获取的媒体数据进行预处理;对预处理后的媒体数据根据数据对齐的统一长度分为长文本与短文本,并采用不同方式提取相应类别的新闻文本特征,输出文本特征的向量化表示;根据所述媒体数据的应用场景,利用不同的预训练后的深度学习分类模型对文本特征的向量化表示进行真假性预测,得到检测结果。本发明能够减少数据噪声问题,解决自编码模型存在的预训练‑微调阶段的学习偏差,降低特征维度,解决长文本信息丢失问题,提高特征学习能力。

Description

基于长文本特征提取优化的媒体假新闻检测方法及系统
技术领域
本发明属于机器学习和文本分类技术领域,涉及一种基于长文本 特征提取优化的媒体假新闻检测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必 然构成在先技术。
随着网络技术的快速发展,我们逐渐进入自媒体时代。相比于 传统新闻,自媒体新闻存在高便携性与低门槛性,其质量普遍低于传 统新闻。为了吸引读者注意,假新闻事件层出不穷。不仅会误导不明 真相的读者,而且会造成恶劣的社会影响。
国内外对于假新闻检测方向的研究主要分为传统机器学习方式 以及深度学习方式。传统机器学习主要依赖于人工提取新闻内容特征, 如统计特征或语义特征。典型的传统机器学习分类器包括朴素贝叶斯 分类器、支持向量机(SVM)、决策树等。但是新闻的语言模式高度依 赖于特定事件和相应的领域知识,因此难以通过手工制作数据特征。 与传统机器学习方式相比,深度学习构建神经网络可以更加准确的学 习文本内容表示。循环神经网络(RNN)与卷积神经网络(CNN)分 别被应用到假新闻检测中,RNN可以将时间序列中的文本内容表示 建模为特征向量,卷积神经网络(CNN)可以从新闻文本中抽取局部 和全局特征。之后又有学者提出了LSTM、RCNN、DPCNN等模型。 实验结果表明,基于深度学习的模型具有良好的性能。但是CNN和 LSTM在长文本语义特征的提取上都存在着天然的缺陷。由于卷积核 的大小限制,CNN无法捕获长距离依赖关系。LSTM虽然克服了RNN 在学习长距离依赖时存在的梯度消失问题,但仍然不能有效地捕获长 距离依赖关系。2017年谷歌提出了Transformer模型,注意机制被 广泛应用于各种Seq2Seq模型中,并在语义学习中表现出强大的优势。 之后有学者提出了ELMo,它使用双向LSTM构建语言模型。相比传 统神经网络构建的上下文无关词向量,它能够对多义词进行建模。但 是LSTM为串行机制,训练时间长,并且相较于Transformer模型在 特征提取方面能力不足。相比ELMo模型,GPT使用Transformer作 为特征提取器,能够更好的捕获长距离语言结构。但是由于使用的是 单向语言模型,对于语境信息的学习不够深入。BERT采用Masked Language Model(MLM)学习目标实现了双向语言模型训练,较比单 向训练的语言模型能够学习到更加深入的语境理解。然而,BERT只 在预训练阶段使用了MLM学习目标,这导致了预训练和微调阶段的 学习误差。
词嵌入也是提高模型性能的重要因素。在词嵌入与神经网络结 合后,便广泛地应用于自然语言处理中。ELMo采用双向的长短期记 忆网络(Long Short-Term Memory,LSTM)进行预训练,将词向量 结合上下文来学习词义,由静态词向量转化为动态词向量。GPT首次提出了无监督的预训练和有监督的微调,使得训练好的模型能够更好 地适应下游任务。BERT采用双向Transformer结构训练语言模型, 使得该模型对语境的理解更加深刻。在文本分类任务中数据是参差不 齐的,这样就给模型训练带来了困难,因此在训练之前需要进行数据 对齐。目前的文本分类方法大多针对短文本,而对于长文本数据通常 采取的做法是先进行截断,再采用和短文本一样的方法来处理。这种 做法必然会导致文本信息的缺失。所产生的不完整的文本序列不仅仅 会丢失文本特征,还会产生文本歧义。同时截断后保留的部分还会有 相当多许多的对分类没有影响或影响很小的特征,影响分类性能。
目前在中文社交媒体假新闻检测领域的研究主要是以分析文本 特征为主,并运用分类或者排序方法对文本信息可信度进行评估。该 领域的研究主要存在以下几点问题:
社交媒体数据包含了很多嘈杂的数据,比如表情符号、标点符 号和不可读的代码。
模型难以学习到深层次的语义理解,自编码模型存在预训练和 微调阶段的学习偏差。
对于长文本特征表示方法的研究存在严重的信息丢失与维度过 高问题,且长文本不能捕获任何超过预定义上下文长度的长距离依赖。
发明内容
本发明为了解决上述问题,提出了一种基于长文本特征提取优化 的媒体假新闻检测方法及系统,本发明能够减少数据噪声问题,解决 自编码模型存在的预训练-微调阶段的学习偏差,降低特征维度,解 决长文本信息丢失问题,提高特征学习能力。
根据一些实施例,本发明采用如下技术方案:
一种基于长文本特征提取优化的媒体假新闻检测方法,包括以下 步骤:
对获取的媒体数据进行预处理;
对预处理后的媒体数据根据数据对齐的统一长度分为长文本与 短文本,并采用不同方式提取相应类别的新闻文本特征,输出文本特 征的向量化表示;
根据所述媒体数据的应用场景,利用不同的预训练后的深度学习 分类模型对文本特征的向量化表示进行真假性预测,得到检测结果。
作为可选择的实施方式,所述数据预处理过程包括:
剔除数据中的无效值和缺失值;
以词为单位对中文数据进行分词处理,以保证词义的完整性;
剔除数据中的包含特殊字符、标点符号和乱码的噪声。
作为可选择的实施方式,所述统一长度为数据集的平均长度,若 预处理后的数据长度大于统一长度则划分为长文本,反之划分为短文 本。
作为可选择的实施方式,采用不同方式提取相应类别的新闻文本 特征的具体过程包括:
对多个长文本实例的输入分别采用针对微调阶段的二次词遮蔽 学习方法进行处理,每条实例得到两条不同遮蔽的标记序列,对两条 标记序列采用保留边缘特征的数据对齐方法得到重构后的长文本特 征向量表示;
对于短文本数据采用填充方式进行数据对齐,为标记序列不足统 一长度的部分进行补零,并使用BERT预训练模型作为嵌入层,学习 短文本特征向量表示;
将长文本与短文本特征向量表示输入到基于BERT的注意力网络 层学习单词间依赖关系,得到深层特征表示。
作为进一步的限定,采用保留边缘特征的数据对齐方法的具体过 程包括:
对两条标记序列分别添加起始位;
采用迁移学习的方式,使用BERT预训练模型作为嵌入层,将步 骤起始位后的标记序列转化为向量表示,得到两条长文本特征向量表 示;
将两条长文本特征向量首尾连接,拉伸为一条一维向量;
以统一长度为标准长度,将一维向量从前往后进行裁剪,剔除不 足统一长度的向量,最终得到两条包含长文本边缘特征的重构向量。
作为进一步的限定,将长文本与短文本特征向量表示输入到基于BERT的注意力网络层学习单词间依赖关系的具体过程包括:
将多维向量输入到基于BERT的注意力网络层;
将输入的每条数据向量复制成Query、Key和Value三个向量矩 阵;
以目标词为Query,上下文中的其他词为Key,计算它们之间的 相似度;
对相似度结果利用Softmax操作归一化为概率分布,并与矩阵V 相乘得到注意力权重表示。
作为可选择的实施方式,根据所述媒体数据的应用场景,利用不 同的预训练后的深度学习分类模型对文本特征的向量化表示进行真 假性预测的具体过程包括:
根据具体应用场景,选择一深度学习分类模型,预先对深度学习 分类模型进行训练,利用训练后的深度学习分类模型,对得到的文本 特征的向量表示进行解码,得到最终检测结果。
一种基于长文本特征提取优化的媒体假新闻检测系统,包括:
数据预处理模块,被配置为对获取的媒体数据进行预处理;
特征编码模块,被配置为对预处理后的媒体数据根据数据对齐的 统一长度分为长文本与短文本,并采用不同方式提取相应类别的新闻 文本特征,输出文本特征的向量化表示;
特征解码模块,被配置为根据所述媒体数据的应用场景,利用不 同的预训练后的深度学习分类模型对文本特征的向量化表示进行处 理,得到检测结果。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于 由终端设备的处理器加载并执行所述方法的步骤。
一种终端设备,包括处理器和计算机可读存储介质,处理器用于 实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于 由处理器加载并执行所述方法的步骤。
与现有技术相比,本发明的有益效果为:
本发明采用深度学习的方式代替传统机器学习方式,可以更加准 确的学习文本内容表示。
本发明在处理过程中,预先根据中文社交媒体数据的特点,对数 据进行预处理,以减少数据噪声。
本发明在处理长文本时,利用优化长文本特征提取方法,提高了 模型对不平衡数据集的关键特征学习能力;使用针对微调阶段的二次 词遮蔽目标进行训练,解决了自编码模型存在的预训练与微调阶段的 学习偏差;采用保留边缘特征的数据对齐方法,学习到长文本的完整 语义信息。
本发明采用基于BERT的注意力网络层来捕获长距离依赖关系, 利用自注意力机制加强对语境语义以及词间依赖关系的学习。允许模 型根据不同应用场景连接不同分类器,提高模型对不同类型样本的泛 化能力。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较 佳实施例,并配合所附附图,作详细说明如下。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步 理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对 本发明的不当限定。
图1是实施例一的整体流程示意图;
图2是实施例一的长文本处理流程示意图;
图3是实施例一的词遮蔽机制示意图;
图4是实施例二的系统架构图示意图。
具体实施方式:
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一 步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本 发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式, 而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除 非上下文另外明确指出,否则单数形式也意图包括复数形式,此外, 还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其 指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一:
如图1所示,本实施例提供基于长文本特征提取优化的中文社交 媒体假新闻检测方法,主要包括:数据预处理、数据特征编码、数据 特征解码的过程。
数据预处理:给定新闻数据集N={n1,n2,n3,...,nd}以及新闻标 签集Y={y1,y2,y3,...,yd},每条新闻数据n对应一个标签y。为了增 强模型特征学习效果,在新闻数据n输入到模型前对其进行数据预处 理得到token序列X。所述数据预处理包括数据清洗、中文分词和去 停用词。
所述数据清洗剔除了训练集中的无效值和缺失值,如仅含表情符 号或态度中立的样本,此类样本不仅与真假新闻分类无关,还会影响 模型对特征的学习。同时对数据样本进行正则化操作,主要包括统一 单词大小写、删除标点符号。
所述中文分词是指根据中文数据的文法特点,将连续的字序列数 据以词为单位进行划分。
所述去停用词是指删除文本序列中某些无意义的字、词或符号。 此类字符没有实际含义,对于分类没有影响,但是会影响模型学习效 率。
数据特征编码:如图2所示,以预处理后的文本序列 X={x1,x2,x3,...,xd}作为模型的输入,利用生成模型从输入序列中 捕获上下文信息,输出文本序列的特征向量V={v1,v2,v3,...,vd}, 其中x为一个token,v为x对应的向量表示。所述数据特征编码包括 长文本数据特征编码、短文本数据特征编码以及深度特征提取。
将数据预处理后的数据根据数据对齐的统一长度Seq_len分为长 文本与短文本,并采用不同方式提取新闻文本特征,输出特征的向量 化表示;
定义数据对齐的统一长度Seq_len约等于数据集的平均长度,且 为2的整数次方。根据预处理后的数据长度与Seq_len之间的大小关 系将其划分为长文本与短文本,若数据长度大于Seq_len则划分为长 文本,反之划分为短文本。
所述长文本数据特征编码主要包括针对微调阶段的二次词遮蔽 学习方法和保留边缘特征的数据对齐方法。
所述二次词遮蔽学习方法通过在微调阶段对token序列进行词遮 蔽来消除自编码模型存在的预训练-微调阶段学习误差。采用两次词 遮蔽的目的是为了防止关键词被遮蔽从而造成模型无法学习到关键 特征的情况。对预处理后的文本序列X={x1,x2,x3,...,xd},选取其 中15%的token进行处理。
如图3所示,对目标遮蔽token x,有80%的概率替换为特殊标 记[MASK],10%的概率替换为序列X的其他token,10%的概率保持 不变。文本序列X={x1,x2,x3,...,xd}经过二次词遮蔽方法得到两条 遮蔽后的文本序列
Figure BDA0003236902360000101
和文本序列
Figure BDA0003236902360000102
所述保留边缘特征的数据对齐方法通过对遮蔽学习后的两条文 本序列的特征向量进行整体重构,得到包含原新闻数据的全部特征的 向量表示。
首先,对文本序列X1和X2添加起始位x0=[CLS],得到
Figure BDA0003236902360000111
Figure BDA0003236902360000112
所述起始位 [CLS]标记用于表明数据的开始以及与前文数据做区分。
其次,使用BERT预训练模型作为嵌入层,将token序列X′1与X′2转化为向量表示,得到两条长文本特征向量表示
Figure BDA0003236902360000113
Figure BDA0003236902360000114
所述BERT 预训练模型可根据具体应用场景选择,如RoBERTa。
再次,将特征向量V1与V2进行串联,得到串联向量
Figure BDA0003236902360000115
Figure BDA0003236902360000116
最后,以Seq_len长度为标准长度,将V′从前往后进行裁剪,得 到一组裁剪后的向量集E={V′1,V′2,…,V′e}。随后剔除向量集中长度 不足Seq_len的向量,由于残缺向量只存在于裁剪的末尾处,因此只 需要剔除向量V′e。通常来说剔除残缺向量后会剩余两条向量V′1,V′2, 且包含原新闻数据的全部特征。
短文本数据特征编码是对于短文本数据采用padding的方式进 行数据对齐,为token序列不足Seq_len的部分补[0],并使用BERT 预训练模型作为嵌入层,学习短文本特征向量表示。
将长文本与短文本特征向量表示进行深度特征提取。
所述深度特征提取通过一个基于BERT的注意力网络层捕获长距 离依赖关系,利用自注意机制来加强对语境语义和词间依赖关系的学 习。所述注意力网络层由8个相同的神经网络层组成,每层有4个子 层,包括多头注意力层、残差连接层、前馈神经网络层以及第二个残 差连接层。长短文本经过数据特征编码所得到的词嵌入矩阵V输入到 注意力网络层学习自注意力。注意力网络层的每个子层经过下列步骤:
首先,将词嵌入矩阵输入到多头注意力层,依靠不同的线性投影 将每个token的Query向量(Q)、Key向量(K)和Value向量(V) 投影h次,此处h次即所谓多头。
其次,并行计算放缩点积Attention,即 headi=Attention(QWi Q,KWi K,VWi V),其中矩阵Wi Q,Wi K,Wi V指 的是待训练的不同权值参数,由于多头注意力层有h个头,因此矩阵W 有h个维度,Wi表示W矩阵的第i个维度。
再次,将h次放缩点击Attention的结果进行串联,再进行一次 线性变换得到多头注意力表示,H=MultiHead(Q,K,V)= Concat(head1,head2,…,headh)Wo。其中Wo为待训练的权值参数。
最后,将多头注意力表示进行残差连接以及归一化,然后进行非 线性变换得到每个子层的输出,同时作为下一子层的输入。其中使用 ReLU作为激活函数。具体过程如下:
u=tanh(WhH+b)
Figure BDA0003236902360000121
其中Wh为待训练的权值参数,n为偏置项。
数据特征解码:本发明可以根据具体应用场景连接不同分类器, 所述分类器为各种神经网络模型,包括但不限于CNN、RNN、LSTM。 当然,这种连接选择可以根据经验,也可以利用样本数据验证确定, 根据具体需求(如精确度、准确度、分类速度等),确定一分类器。
在本实施例中,以CNN为例进行说明,CNN主要由卷积层、池 化层与全连接层组成。经过注意力网络层所得到的深层数据特征表示 V被输入到CNN进行解码,具体过程如下:
首先,经过注意力网络层输出词嵌入矩阵 Vatt={v1,v2,v3,...,vd},其中
Figure BDA0003236902360000131
R表示实数集合,dw表示向 量维度。
其次,对词嵌入矩阵Vatt进行卷积提取特征,具体操作如下: c=f(Wcv+h-1)+b。其中Wc为可学习参数,b为偏置项,h为 卷积核尺寸。经过卷积得到特征矩阵C。
再次,采用最大池化的方式处理特征矩阵C,得到特征向量cmax, 并将其输送到全连接层。经过全连接层处理得到最终文本特征向量v。
最后,对模型进行训练来优化网络参数,如使用交叉熵损失函数 训练模型参数,使目标函数损失最小化,得到最优网络结构。
实施例二:
一种基于长文本特征提取优化的媒体假新闻检测系统,如图4所 示,包括:
数据预处理模块,被配置为对获取的媒体数据进行预处理;
特征编码模块,被配置为对预处理后的媒体数据根据数据对齐的 统一长度分为长文本与短文本,并采用不同方式提取相应类别的新闻 文本特征,输出文本特征的向量化表示;
特征解码模块,被配置为根据所述媒体数据的应用场景,利用不 同的预训练后的深度学习分类模型对文本特征的向量化表示进行处 理,得到检测结果;
预测显示模块,获取检测结果,并使用可视化界面反馈给用户。
日志模块,被配置为记录一定时间内的历史检测记录,方便用户 随时查看。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系 统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全 软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明 可采用在一个或多个其中包含有计算机可用程序代码的计算机可用 存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上 实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算 机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序 指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图 和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指 令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理 设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处 理设备的处理器执行的指令产生用于实现在流程图一个流程或多个 流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数 据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计 算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实 现在流程图一个流程或多个流程和/或方框图一个方框或多个方框 中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理 设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产 生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令 提供用于实现在流程图一个流程或多个流程和/或方框图一个方框 或多个方框中指定的功能的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明, 对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本 发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应 包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非 对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的 技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出 的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:包括以下步骤:
对获取的媒体数据进行预处理;
对预处理后的媒体数据根据数据对齐的统一长度分为长文本与短文本,并采用不同方式提取相应类别的新闻文本特征,输出文本特征的向量化表示;
根据所述媒体数据的应用场景,利用不同的预训练后的深度学习分类模型对文本特征的向量化表示进行真假性预测,得到检测结果。
2.如权利要求1所述的一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:所述数据预处理过程包括:
剔除数据中的无效值和缺失值;
以词为单位对中文数据进行分词处理,以保证词义的完整性;
剔除数据中的包含特殊字符、标点符号和乱码的噪声。
3.如权利要求1所述的一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:所述统一长度为数据集的平均长度,若预处理后的数据长度大于统一长度则划分为长文本,反之划分为短文本。
4.如权利要求1所述的一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:采用不同方式提取相应类别的新闻文本特征的具体过程包括:
对多个长文本实例的输入分别采用针对微调阶段的二次词遮蔽学习方法进行处理,每条实例得到两条不同遮蔽的标记序列,对两条标记序列采用保留边缘特征的数据对齐方法得到重构后的长文本特征向量表示;
对于短文本数据采用填充方式进行数据对齐,为标记序列不足统一长度的部分进行补零,并使用BERT预训练模型作为嵌入层,学习短文本特征向量表示;
将长文本与短文本特征向量表示输入到基于BERT的注意力网络层学习单词间依赖关系,得到深层特征表示。
5.如权利要求4所述的一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:采用保留边缘特征的数据对齐方法的具体过程包括:
对两条标记序列分别添加起始位;
采用迁移学习的方式,使用BERT预训练模型作为嵌入层,将步骤起始位后的标记序列转化为向量表示,得到两条长文本特征向量表示;
将两条长文本特征向量首尾连接,拉伸为一条一维向量;
以统一长度为标准长度,将一维向量从前往后进行裁剪,剔除不足统一长度的向量,最终得到两条包含长文本边缘特征的重构向量。
6.如权利要求4所述的一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:将长文本与短文本特征向量表示输入到基于BERT的注意力网络层学习单词间依赖关系的具体过程包括:
将多维向量输入到基于BERT的注意力网络层;
将输入的每条数据向量复制成Query、Key和Value三个向量矩阵;
以目标词为Query,上下文中的其他词为Key,计算它们之间的相似度;
对相似度结果利用Softmax操作归一化为概率分布,并与矩阵V相乘得到注意力权重表示。
7.如权利要求1所述的一种基于长文本特征提取优化的媒体假新闻检测方法,其特征是:根据所述媒体数据的应用场景,利用不同的预训练后的深度学习分类模型对文本特征的向量化表示进行真假性预测的具体过程包括:
根据具体应用场景,选择一深度学习分类模型,预先对深度学习分类模型进行训练,利用训练后的深度学习分类模型,对得到的文本特征的向量表示进行解码,得到最终检测结果。
8.一种基于长文本特征提取优化的媒体假新闻检测系统,其特征是:包括:
数据预处理模块,被配置为对获取的媒体数据进行预处理;
特征编码模块,被配置为对预处理后的媒体数据根据数据对齐的统一长度分为长文本与短文本,并采用不同方式提取相应类别的新闻文本特征,输出文本特征的向量化表示;
特征解码模块,被配置为根据所述媒体数据的应用场景,利用不同的预训练后的深度学习分类模型对文本特征的向量化表示进行处理,得到检测结果。
9.一种计算机可读存储介质,其特征是:其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-7中任一项所述的方法的步骤。
10.一种终端设备,其特征是:包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1-7中任一项所述的方法的步骤。
CN202111005192.1A 2021-08-30 2021-08-30 基于长文本特征提取优化的媒体假新闻检测方法及系统 Pending CN113704473A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111005192.1A CN113704473A (zh) 2021-08-30 2021-08-30 基于长文本特征提取优化的媒体假新闻检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111005192.1A CN113704473A (zh) 2021-08-30 2021-08-30 基于长文本特征提取优化的媒体假新闻检测方法及系统

Publications (1)

Publication Number Publication Date
CN113704473A true CN113704473A (zh) 2021-11-26

Family

ID=78656865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111005192.1A Pending CN113704473A (zh) 2021-08-30 2021-08-30 基于长文本特征提取优化的媒体假新闻检测方法及系统

Country Status (1)

Country Link
CN (1) CN113704473A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357168A (zh) * 2021-12-31 2022-04-15 成都信息工程大学 一种文本分类方法
CN115100664A (zh) * 2022-06-20 2022-09-23 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114357168A (zh) * 2021-12-31 2022-04-15 成都信息工程大学 一种文本分类方法
CN114357168B (zh) * 2021-12-31 2022-08-02 成都信息工程大学 一种文本分类方法
CN115100664A (zh) * 2022-06-20 2022-09-23 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统
CN115100664B (zh) * 2022-06-20 2024-04-09 济南大学 基于相关性信息扩展的多模态虚假新闻识别方法及系统

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN110263325B (zh) 中文分词系统
CN111626063A (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN110222218B (zh) 基于多尺度NetVLAD和深度哈希的图像检索方法
CN112215013B (zh) 一种基于深度学习的克隆代码语义检测方法
CN109992775B (zh) 一种基于高级语义的文本摘要生成方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112487807A (zh) 一种基于膨胀门卷积神经网络的文本关系抽取方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
CN109918507B (zh) 一种基于TextCNN改进的文本分类方法
CN113704473A (zh) 基于长文本特征提取优化的媒体假新闻检测方法及系统
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113065349A (zh) 基于条件随机场的命名实体识别方法
CN110955745B (zh) 一种基于深度学习的文本哈希检索方法
Peng et al. Image to LaTeX with graph neural network for mathematical formula recognition
CN113496123B (zh) 谣言检测方法、装置、电子设备及存储介质
CN116226357B (zh) 一种输入中包含错误信息场景下的文档检索方法
CN112989839A (zh) 一种基于关键词特征嵌入语言模型的意图识别方法及系统
CN115840815A (zh) 基于指针关键信息的自动摘要生成方法
CN115994220A (zh) 一种基于语义挖掘的接触网文本数据缺陷识别方法及设备
CN113312903B (zh) 一种5g移动业务产品词库的构建方法及系统
CN115048929A (zh) 敏感文本监测方法及装置
CN112069831B (zh) 基于bert模型和增强混合神经网络的不实信息检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination