CN111506794A - 一种基于机器学习的谣言管理方法和装置 - Google Patents
一种基于机器学习的谣言管理方法和装置 Download PDFInfo
- Publication number
- CN111506794A CN111506794A CN202010306592.5A CN202010306592A CN111506794A CN 111506794 A CN111506794 A CN 111506794A CN 202010306592 A CN202010306592 A CN 202010306592A CN 111506794 A CN111506794 A CN 111506794A
- Authority
- CN
- China
- Prior art keywords
- content
- rumor
- target
- target content
- characterization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明公开了一种基于机器学习的谣言管理方法和装置,可基于待管理的目标内容,获取与目标内容关联的真实度表征信息;通过谣言内容识别模型和辟谣内容识别模型,基于真实度表征信息分别获取目标内容的谣言内容表征特征和辟谣内容表征特征,以对目标内容进行谣言内容识别和辟谣内容识别;将为谣言内容的目标内容存储至谣言数据库;将为辟谣内容的目标内容存储至辟谣数据库,由此,本申请的谣言数据库和辟谣数据库以审核加数据沉淀得到,而谣言内容识别模型和辟谣内容识别模型分别基于谣言库和辟谣库训练得到,有利于提升模型的识别效率和准确度,进而增大谣言库和辟谣库的数据量和准确性,形成良性循环,有利于快速发现谣言以及控制谣言的传播。
Description
技术领域
本发明涉及机器学习技术领域,具体涉及一种基于机器学习的谣言管理方法和装置。
背景技术
在互联网快速发展的时代,随着内容生产的门槛降低,产量持续攀升的背景下,各种内容生产和分发平台获得了极大的快速发展,内容生态体系持续繁荣。而随着社交媒体的发展,谣言可以通过社交媒体以核裂变的方式快速传播,这往往会引发诸多不安定因素,并对经济和社会产生巨大的影响。
谣言从产生到传播直至造成危害,往往会经历一段时间的演化,在这期间会有大量的相关信息伴随源信息而发布。内容的大繁荣也带来了信息过载和各种虚假网络谣言问题。为了减少虚假信息,有必要对网络内容进行认证和审核。但大型资讯聚合类平台每天的内容如新闻的发布量可能在数十万万条以上,若完全依靠人工审核,所需人力资源是巨大的,有些方案中也会将用户举报的内容作为谣言,但是这种方案中用户举报数量有限,且往往是谣言已经造成负面影响才被举报,不利于快速发现和控制谣言,降低谣言影响。
发明内容
本发明实施例提供一种基于机器学习的谣言管理方法和装置,可以基于谣言数据库和辟谣数据库,快速发现谣言和控制谣言的传播,降低网络谣言危害。
本发明实施例提供一种基于机器学习的谣言管理方法,该谣言管理方法包括:
基于待管理的目标内容,获取与所述目标内容关联的真实度表征信息,所述真实度表征信息用于从至少一个真实度表征维度体现所述目标内容的真实度;
通过谣言内容识别模型,基于所述真实度表征信息获取所述目标内容的谣言内容表征特征,基于所述谣言内容表征特征对所述目标内容进行谣言内容识别,其中,所述谣言内容识别模型,是以谣言数据库中的历史谣言内容作为样本训练得到;
通过辟谣内容识别模型,基于所述真实度表征信息获取所述目标内容的辟谣内容表征特征,基于所述辟谣内容表征特征对所述目标内容进行辟谣内容识别,其中,所述辟谣内容识别模型是以辟谣数据库中的历史辟谣内容作为样本训练得到;
若所述目标内容为谣言内容,将所述目标内容作为新的历史谣言内容存储至所述谣言数据库,控制所述目标内容在目标内容发布平台的发布状态处于非现存发布状态;
若所述目标内容为辟谣内容,将所述目标内容作为新的历史辟谣内容存储至所述辟谣数据库。
本发明实施例还提供一种基于机器学习的谣言管理装置,该谣言管理装置包括:
获取单元,用于基于待管理的目标内容,获取与所述目标内容关联的真实度表征信息,所述真实度表征信息用于从至少一个真实度表征维度体现所述目标内容的真实度;
谣言内容识别单元,用于通过谣言内容识别模型从所述真实度表征信息中获取所述目标内容的谣言内容表征特征,基于所述谣言内容表征特征对所述目标内容进行谣言内容识别,其中,所述谣言内容识别模型是以谣言数据库中的历史谣言内容作为样本训练得到;
辟谣内容识别单元,用于通过辟谣内容识别模型从所述真实度表征信息中获取所述目标内容的辟谣内容表征特征,基于所述辟谣内容表征特征对所述目标内容进行辟谣内容识别,其中,所述辟谣内容识别模型是以辟谣数据库中的历史辟谣内容作为样本训练得到;
谣言内容管理单元,用于若所述目标内容为谣言内容,将所述目标内容作为历史谣言内容存储至所述谣言数据库,并控制所述目标内容的目标内容发布平台上不存在所述目标内容;
辟谣内容管理单元,用于若所述目标内容为辟谣内容,将所述目标内容作为历史辟谣内容存储至所述辟谣数据库。
本发明实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明实施例还提供一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
采用本发明实施例,基于待管理的目标内容,获取与目标内容关联的真实度表征信息,真实度表征信息用于从至少一个真实度表征维度体现目标内容的真实度;通过谣言内容识别模型,基于真实度表征信息获取目标内容的谣言内容表征特征,基于谣言内容表征特征对目标内容进行谣言内容识别,其中,谣言内容识别模型,是以谣言数据库中的历史谣言内容作为样本训练得到;通过辟谣内容识别模型,基于真实度表征信息获取目标内容的辟谣内容表征特征,基于辟谣内容表征特征对目标内容进行辟谣内容识别,其中,辟谣内容识别模型是以辟谣数据库中的历史辟谣内容作为样本训练得到;若目标内容为谣言内容,将目标内容作为新的历史谣言内容存储至谣言数据库,控制目标内容在目标内容发布平台的发布状态处于非现存发布状态;若目标内容为辟谣内容,将目标内容作为新的历史辟谣内容存储至辟谣数据库,由此,本申请的谣言数据库和辟谣数据库以审核加上数据沉淀得到,而谣言内容识别模型和辟谣内容识别模型分别基于谣言数据库和辟谣数据库训练得到,有利于提升模型的识别效率和准确度,优化对谣言和辟谣的识别,更有利于增大谣言和辟谣数据库,形成良性循环,有利于快速发现谣言以及控制谣言的传播。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的谣言管理方法的场景示意图;
图2a是本发明实施例提供的一种基于机器学习的谣言管理方法的流程图;
图2b是本发明实施例提供的另一种基于机器学习的谣言管理系统的架构图;
图3a是本发明实施例中对目标内容进行多模态特征获取的示意图;
图3b是本发明实施例中基于互动信息的谣言挖掘模型的示意图;
图3c是本发明实施例中TextCNN的一种可选结构示意图;
图3d是本发明实施例中对目标内容进行文本内容表征向量提取的示意图;
图4是本发明实施例提供的一种基于机器学习的谣言管理装置的结构示意图;
图5是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于机器学习的谣言管理方法、装置、计算机设备和存储介质。具体地,本实施例提供适用于基于机器学习的谣言管理装置的谣言管理方法,该基于机器学习的谣言管理装置可以集成在计算机设备中。
该计算机设备可以为终端等设备,例如可以为手机、平板电脑、笔记本电脑、台式电脑等。
该计算机设备还可以为服务器等设备,该服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器,但并不局限于此。
本实施例的基于机器学习的谣言管理方法,可以由服务器实现,也可以由终端和服务器共同实现。
下面以终端和服务器共同实现该基于机器学习的谣言管理方法为例,对该方法进行说明。
参考图1,本发明实施例提供的谣言管理系统包括终端10和服务器20等;终端10与服务器20之间通过网络连接,比如,通过有线或无线网络连接等,其中,终端10可以作为内容生产者的终端存在。
其中,终端10,可以为内容生产者的终端,用于向服务器20发送待上传至目标内容发布平台的内容。
服务器20,可以用于接收终端10发送的内容,将该内容作为待管理的目标内容,基于待管理的目标内容,获取与目标内容关联的真实度表征信息,真实度表征信息用于从至少一个真实度表征维度体现目标内容的真实度;通过谣言内容识别模型,基于真实度表征信息获取目标内容的谣言内容表征特征,基于谣言内容表征特征对目标内容进行谣言内容识别,其中,谣言内容识别模型,是以谣言数据库中的历史谣言内容作为样本训练得到;通过辟谣内容识别模型,基于真实度表征信息获取目标内容的辟谣内容表征特征,基于辟谣内容表征特征对目标内容进行辟谣内容识别,其中,辟谣内容识别模型是以辟谣数据库中的历史辟谣内容作为样本训练得到;若目标内容为谣言内容,将目标内容作为新的历史谣言内容存储至谣言数据库,控制目标内容在目标内容发布平台的发布状态处于非现存发布状态;若目标内容为辟谣内容,将目标内容作为新的历史辟谣内容存储至辟谣数据库。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本发明实施例将从基于机器学习的谣言管理装置的角度进行描述,该基于机器学习的谣言管理装置具体可以集成在服务器中。
本发明实施例提供了一种基于机器学习的谣言管理方法,该方法涉及机器学习(Machine learning,ML)技术领域,尤其涉及其包括的深度学习(Deep Learning)领域中的人工神经网络(artificial neural network)技术领域,本实施例中的模型,可以基于人工神经网络的结构构建。
如图2a所示,本实施例的基于机器学习的谣言管理方法的流程可以如下:
201、基于待管理的目标内容,获取与目标内容关联的真实度表征信息,真实度表征信息用于从至少一个真实度表征维度体现目标内容的真实度;
为了便于后续内容的描述,在此对本实施例涉及的部分名词进行解释说明。
内容发布平台:可以理解为可发布内容的任意形式的平台,包括网页形式的平台,客户端形式的平台,或者集成在客户端中的平台。例如各种新闻类客户端,网页形式的搜索引擎等等。
图文内容:由内容发布平台推荐给用户阅读的内容如文章等,可能会包含视频和/或图片,以文章为例,文章通常是自媒体通过公众号发布在内容发布平台的信息。
MCN(Multi-Channel Network,多频道网络):是一种多频道网络的产品形态,将PGC(PGC(Professional Generated Content,指专业生产内容)内容联合起来,在资本的有力支持下,保障内容的持续输出,从而最终实现商业的稳定变现。
UGC(User Generated Content)指用户原创内容。
PUGC(Professional User Generated Content,“专业用户生产内容”或“专家生产内容”):是以UGC形式,产出的相对接近PGC的专业图文和视频内容。
客户端:运行在终端上的应用程序,可以为用户提供对应的服务,例如即时通讯客户端等各种可接受消息及Feeds流信息的应用
服务端:部署在(多组)服务器上、专门为客户端程序提供远程网络服务的服务器程序。
Feeds(web feed、news feed、syndicated feed):消息来源,是一种资料格式,网站透过它将最新资讯传播给用户,通常以Timeline时间轴方式排列,时间轴是Feeds最原始最直接也最基本的展示形式。用户能够订阅网站的先决条件是,网站提供了消息来源。将feed汇流于一处称为聚合(aggregation),而用于聚合的软体称为聚合器(aggregator)。对最终用户而言,聚合器是专门用来订阅网站的软件,一般亦称为RSS阅读器、feed阅读器、新闻阅读器等。
本实施例中,基于机器学习的谣言管理方法对应的装置可以设置于谣言管理系统中,参考图2b,图2b示出了将本实施例的基于机器学习的谣言管理方法应用于谣言管理系统,对内容进行谣言管理的原理架构图。
以下基于图2b,对本实施例的谣言管理系统中的模块进行说明。
一.内容生产端和内容消费端
(1)内容生产端:PGC或者UGC等MCN内容的生产者使用的终端,生产者通过移动端或者后端接口API系统,向对应的内容发布平台发布图文内容或者视频内容,这些内容都是推荐分发内容的主要内容来源;
(2)内容生产端可以通过与上下行内容接口服务器(参考图2b)的通讯,触发A1上传发布内容的步骤,可选的发布内容包括但不限于图文内容和视频内容,图文内容来源通常是一个轻量级发布端和编辑内容入口,视频内容发布通常是一个拍摄摄影端,视频内容生产过程中,可以对待发布视频选择搭配的音乐,滤镜模板和视频的美化功能等等,然后配以一段文字说明和描述得到待发布的视频内容;
(3)内容消费端作为消费者,和上下行内容接口服务器通讯,内容发布平台可通过上下行内容接口服务器向内容消费端推送推荐内容,若用户进入内容发布平台的展示页面,则内容消费端执行图2b的步骤B1获取访问内容的索引信息,然后执行步骤B2和内容存储服务器通讯,获取内容,该内容包括内容发布平台的推荐内容,用户订阅的专题内容等。
一个可选的示例中,图2b中的内容存储服务器存储有内容源文件比如视频源文件,图文源文件,而内容的元信息比如标题,作者,封面图,分类,Tag信息等等存储在内容数据库(参考图2b);
(4)内容消费端通常通过Feeds流方式浏览内容数据,同时用户和内容的互动信息如评论,转发,收藏还有内容的举报负反馈也上报给“统计接口和评论挖掘谣言服务”模块(参考图2b)。
二.上下行内容接口服务器
(1)上下行内容接口服务器和内容生产端直接通讯,从内容生产端提交的数据,通常包括内容的元信息和源文件;
(2)上下行内容接口服务器将图文内容的元信息,比如文件大小,封面图链接,码率,标题,发布时间,作者、视频文件大小,视频格式等信息写入内容数据库(参考步骤A3),将源文件写入内容存储服务模块(参考步骤A2)。
(3)上下行内容接口服务器将内容生产端提交的内容,同步给调度中心模块(参考步骤A4),进行后续的内容处理和流转。
三.内容数据库
(1)内容的核心数据库,所有生产者发布内容的元信息都保存在这个业务数据库当中,内容的元信息还可以包括:原创标记,人工审核过程中对内容的分类(包括一,二,三级别分类和标签信息,比如一篇讲解XX品牌手机的文章,一级分科是科技,二级分类是智能手机,三级分类是国内手机,标签信息是XX品牌XX型号);
(2)本实施例的人工审核过程当中会读取内容数据库当中的信息,同时人工审核的结果和状态也会回传进入内容数据库(参考步骤A8);
(3)调度中心对内容处理主要包括机器处理和人工审核处理,本实施例的机器处理系统包括统计接口和评论挖掘谣言服务模块,谣言过滤服务模块,以及排重服务模块等等,处理结果会写入内容数据库,完全重复一样的内容不会给人工进行重复的二次处理;
(4)后续抽取标签的时候会从内容数据库读取内容的元信息。
四.调度中心和人工审核系统
(1)调度中心模块,负责内容流转的整个调度过程,通过上下行内容接口服务器接收入库的内容(参考步骤A4),然后从内容数据库中获取内容的元信息(参考步骤A9);
(2)调度中心调度人工审核系统和机器处理系统,控制调度的顺序和优先级;
(3)通过人工审核系统审核的非谣言内容被启用,然后通过内容出口分发服务模块(通常是推荐引擎或者搜索引擎或者运营)对应的展示页面提供给终端的内容消费者(参考步骤A11和A12),也就是消费端获得的内容索引信息;
(4)人工审核系统是人工服务能力的载体,可以用于审核过滤政治敏感,色情,法律不允许等机器无法确定判断的内容,同时还可以对进行视频内容的标签标注和二次确认;
(5)人工审核过程当中,对于处理链路流程当中的网络谣言虚假直接标记上报出来,将谣言写入谣言数据库(参考步骤A7和D1),作为后面机器学习训练的数据来源,例如,作为谣言内容识别模型训练的数据来源;
(6)本实施例中还可以通过爬虫系统(参考图2b)获取社交网络上的辟谣内容及谣言事件专题内容,也调用人工审核系统复核,复核结果写入谣言数据库和辟谣数据库,作为建模和下一步处理的素材。
五.内容存储服务
(1)内容存储服务模块,通常由一组分布范围很广,便于用户就近接入的存储服务器,通常外围还有CDN加速服务器进行分布式缓存加速,通过上下行内容接口服务器将内容生产端上传的内容保存起来;
(2)内容消费端在获取内容索引信息后,可直接访问视频内容存储服务器下载对应的内容;
(3)排重过程当中,若发现完全一样的数据,执行去重操作,在内容存储服务上只需要保存一份相同内容,节省存储空间。
六.辟谣数据库
(1)可以从人工审核标记的内容当中保存辟谣内容至辟谣数据库;
(2)网络爬虫获取的社交网络的辟谣内容经过复核后,可以写入辟谣数据库;
(3)对于目标内容发布平台上的新增文章内容,可以通过内容向量化方式获取其内容向量和辟谣数据库当中内容的向量进行检索匹配,若匹配到相似的辟谣内容,则新增文章内容作为辟谣内容直接写入辟谣数据库;
(4)可以直接从辟谣数据库当中获取内容,作为目标内容发布平台为消费端提供的辟谣频道中的内容,同时可以将辟谣数据库作为辟谣数据来源为浏览过的谣言内容实现精准辟谣;
七.谣言数据库
(1)按照上面描述保存人工复核标记谣言内容和评论分析结合用户群体智慧,通过谣言内容识别模型识别到的谣言内容;
(2)内容生产者发布了新的内容,可先和谣言数据库做相关内容匹配,匹配成功后作为谣言内容拦截,同时入谣言数据库,同时对谣言内容的生产者进行相应的管理,例如明确标记,降权打击乃至封号;
八.谣言检测服务
(1)按照上面描述的谣言数据库和辟谣数据库的应用流程,实现谣言检测的调度服务;
(2)接受调度中心的主动调度服务,实现网络谣言虚假内容的处理过程,包括存量和新增的谣言匹配处理;
十.统计接口和评论挖掘服务
(1)接受内容消费端和人工审核系统分别在内容消费过程当中和内容审核处理过程当中的统计数据上报,同时对上报的数据进行量化的分析,指导不同级别质量标题的分布;
(2)主动接受内容消费端举报和反馈的低质量标题内容作为后续机器学习的样本;
十一.爬虫系统
(1)通过爬虫收集互联网上各种来源的谣言及辟谣信息,提取谣言事件和谣言及辟谣内容主题,然后调用人工审核系统复核,构建辟谣数据库;
(2)辟谣信息写入辟谣数据库;
本实施例的谣言管理方法可以基于图2b中的“统计接口和评论挖掘谣言服务”以及“谣言过滤服务”模块实现。
本实施例中,内容分发系统对应的内容发布平台视为目标内容发布平台。本实施例中描述的内容分发平台,对应的,参考图2b,该内容发布平台可以基于上下行内容接口服务器,通过网页或客户端向用户提供上下行内容接口,用户通过上行内容接口,可以触发A1步骤,上传待发布的内容至系统,或者用户提供下行内容接口,可以触发B1步骤,获取内容的索引信息,然后基于索引信息触发B2步骤,从内容存储服务中获取内容源文件。
本实施例中,待管理的目标内容包括但不限于目标内容发布平台的现存内容和待发布内容。
可选的,步骤“基于待管理的目标内容,获取与目标内容关联的关联信息”前,还可以包括:
若接收到待上传至目标内容发布平台的内容,将内容作为待管理的目标内容。
其中,上传内容的终端为上述的内容生产端。
可选的,步骤“基于待管理的目标内容,获取与目标内容关联的关联信息”前,还可以包括:
从目标内容发布平台的现存发布内容中,获取满足检测条件的内容作为待管理的目标内容。
本实施的内容在目标内容平台包括至少三种发布状态:未发布状态,现存发布状态,和已发布并删除状态。
本实施例的现存发布内容为处于现存发布状态的内容,该状态下,用户可以从目标内容发布平台中获取该内容。
本实施例中,检测条件可以基于内容的发布时间确定,例如将距离当前时刻预设时间段内的现存发布内容作为待管理的目标内容,或者检测条件还可以基于内容的谣言检测次数确定,例如将低于预设谣言检测次数的现存发布内容作为待管理的目标内容,或者,检测条件还可以基于内容的生产者确定,例如将谣言内容的生产者生产的内容作为待管理的目标内容等等。
本实施例中,待管理的目标内容的真实度表征信息,可以体现目标内容的真实度,用于分析目标内容是否为谣言或辟谣内容。
本实施例中内容的真实度指的是在内容中描述的每一个具体事实与客观实际的符合程度。
202、通过谣言内容识别模型,基于真实度表征信息获取目标内容的谣言内容表征特征,基于谣言内容表征特征对目标内容进行谣言内容识别,其中,谣言内容识别模型,是以谣言数据库中的历史谣言内容作为样本训练得到;
本实施例中,谣言内容识别模型是以谣言数据库中的谣言作为训练样本训练得到,可选的,本实施例的谣言数据库中的历史谣言内容的数据源为至少两个,该数据源包括但不限于历史谣言内容的内容发布平台。本实施例可以收集多个内容发布平台的谣言扩充谣言数据库,提升训练样本量,提升模型的识别效果。其中,在训练谣言内容识别模型时,样本的标签包括谣言标识信息,谣言标识信息用于表示样本中的内容为谣言内容或非谣言内容,例如,可以以标识1表示谣言内容,标识0表示非谣言内容。
可选的,本实施例中,真实度表征维度包括但不限于目标内容本身的维度,目标内容的作者维度,以及目标内容与谣言数据库或辟谣数据库中的内容的相似维度;本实施例中可以利用同一个模型对多个真实度表征维度的信息进行分析,以实现对目标内容的谣言识别。可选的谣言内容识别模型包括:多模态谣言内容识别模型,该多模态谣言内容识别模型可以基于目标内容本身的维度,目标内容的作者维度的真实度表征信息进行谣言识别。
一个示例中,真实度表征信息包括目标内容,以及目标内容的生产者的用户信息。步骤“通过谣言内容识别模型,基于真实度表征信息获取目标内容的谣言内容表征特征,基于谣言内容表征特征对目标内容进行谣言内容识别”,可以包括:
通过多模态谣言内容识别模型,基于目标内容的文本内容提取文本模态特征;
通过多模态谣言内容识别模型,基于目标内容的图像内容提取图像模态特征;
通过多模态谣言内容识别模型,基于用户信息,获取目标内容的生产者模态特征;
对文本模态特征,图像模态特征和生产者模态特征进行融合,得到融合后特征作为谣言内容表征特征;
通过多模态谣言内容识别模型,基于谣言内容表征特征对目标内容进行谣言内容识别。
可选的,对文本模态特征,图像模态特征和生产者模态特征进行融合,可以包括:对文本模态特征,图像模态特征和生产者模态特征进行拼接。
本实施例的图像模态特征的提取涉及计算机视觉技术(Computer Vision,CV)中的图像语义理解(Image Semantic Understanding,ISU),尤其涉及图像特征提取技术(Image feature extraction)和图像转文字(Image2Text/Image Caption)技术,本实施例中,通过图像特征提取技术和图像转文字(Image2Text/Image Caption)技术,可以提取图像语义特征。
其中,图像模态特征包括但不限于图像语义特征以及图像显示特征,其中,图像显示特征是与图像显示相关的特征,比如图像尺寸,图像后缀类型,图像模式(RGB、灰度等),清晰度、亮度,直方图分布特征,各通道的均值方差等统计特征。其中,图像尺寸和清晰度特征尤为重要,图像尺寸可以识别图像的来源,比如手机截图的尺寸和相机照片尺寸截然不同,一般认为图像越清晰越是真的,因为图像经过PS篡改之后清晰度会下降,或者,在谣言传播过程中的每一次保存和发送都可能会降低图片清晰度。所以图像尺寸和清晰度特征有利于识别谣言内容。
可选的,对于生产者而言,一个好的账号,粉丝比较活跃,内容启用率也不错,反之,一些谣言内容是用临时申请的账号发布,粉丝数不高,内容发布量等也不高。生产者的用户信息包括但不限于账号粉丝数目、关注数、粉丝活跃数,发文数量,发文启用率,账号简介等等信息,生产者模态特征包括但不限于账号粉丝数目、关注数、粉丝活跃数,发文数量,发文启用率,账号简介等用户画像特征。
可选的,本实施例中,针对文本内容,文本模态特征可以包括通过至少两种不同的文本特征提取子模型(属于多模态谣言识别模型的一部分)提取的文本特征,本实施例的文本特征提取子模型包括但不限于bert对话模型,TF-IDF(term frequency–inversedocument frequency,词频-逆文本频率指数)模型,N-gram模型,Word2Vec模型等等。
步骤“通过多模态谣言内容识别模型,基于目标内容的文本内容提取文本模态特征”,可以包括:
通过多模态谣言内容识别模型中的第一文本特征提取子模型,基于目标内容的文本内容提取第一文本特征;
通过多模态谣言内容识别模型中的第二文本特征提取子模型,基于目标内容的文本内容提取第二文本特征;
基于第一文本特征和第二文本特征,得到文本内容的文本模态特征。
其中,第一文本特征和第二文本特征,可以是对目标内容中的文本内容进行词向量提取得到的不同的词向量,第一文本特征提取子模型和第二文本特征提取子模型可以是不同的词向量模型。
其中,可以对第一文本特征和第二文本特征进行拼接,得到文本模态特征。
例如,图3a示出了多模态谣言内容识别模型的谣言识别原理图,其中,第一文本特征可以为用tfidf提取到的n-gram特征,第二文本特征可以为Bert模型提取到的文本特。图3a中的谣言内容识别层可以基于GBDT(GradientBoostingDecisionTree,梯度提升迭代决策树)的结构实现。
本实施例中,提取文本模态特征前,可以基于jieba分词库对文本进行分词,然后基于分词结果提取文本模态特征。
本实施例对图像内容提取图像语义特征的模型可以是任意可用的模型,包括但不限于densent121,例如可以将densent121预训练模型的最后一个全连接层的输出作为图像内容的隐式语义特征。图像显示特征可以从图像本身的特征工程中获取,图像模态特征可以是对图像语义特征和图像显示特征进行融合,如拼接得到。
可选的,本实施例中,若待管理的目标内容为已发布内容,真实度表征信息包括目标内容的用户历史互动信息,谣言内容识别模型还包括:基于互动信息的谣言挖掘模型,其中,已发布内容可以理解为在某内容发布平台(如目标内容发布平台)上发布的内容。
步骤“通过谣言内容识别模型,基于真实度表征信息获取目标内容的谣言内容表征特征,基于谣言内容表征特征对目标内容进行谣言内容识别”,可以包括:
基于谣言挖掘模型,获取用户历史互动信息的情感倾向特征作为目标内容的谣言内容表征特征;
基于情感倾向特征,对针对目标内容的情感倾向进行识别,其中,若识别结果中情感倾向为负面情感倾向,则目标内容为谣言内容。
本实施例中的情感倾向特征是谣言内容识别模型从用户历史互动信息中提取的,可以用于判断用户历史互动信息中体现的情感倾向的特征。
可选的,一个示例中,谣言挖掘模型包括特征获取层和情感倾向识别层,特征提取层用于从用户历史互动信息中提取情感倾向特征,情感倾向识别层用于基于情感倾向特征对用户历史互动信息的情感倾向进行分类,可选的,分类结果包括两类,一类是倾向正面情感,一类是倾向负面情感。谣言挖掘模型的训练样本包括谣言内容的用户历史互动信息,样本标签为用户历史互动信息的真实情感倾向信息,例如,样本标签中,可以用数值1标识倾向负向情感,用数值0标识倾向负向情感,由此,谣言挖掘模型在不断的训练过程中,其特征提取层可以不断学习用户历史互动信息中可以表达情感倾向的特征,提升情感倾向特征的提取准确性。
本实施例的用户历史互动信息包括但不限于用户对内容的评论信息,投诉信息,若内容为视频内容,则用户互动信息还可以包括弹幕信息。对于内容的用户历史互动信息,可以从内容对应的互动内容数据库中读取,例如从内容对应的互动内容数据库中读取评论。
在一个示例中,情感倾向特征可以基于互动信息中的词汇本身以及词汇的顺序提取。
可选的,参考图3b所示的谣言挖掘模型结构示意图,本实施例的谣言挖掘模型的特征获取层包括第一特征获取层和第二特征获取层,谣言挖掘模型还包括与第一特征获取层和第二特征获取层连接的情感倾向识别层;
步骤“基于谣言挖掘模型,获取用户历史互动信息的情感倾向特征作为目标内容的谣言内容表征特征”,包括:
基于第一特征获取层对用户历史互动信息中的词汇进行分析,提取用户历史互动信息的词汇特征;
通过第二特征获取层对用户历史互动信息中的词序进行分析,提取用户历史互动信息的词汇对应的词序特征;
通过情感倾向识别层,基于词汇特征和词序特征,提取情感倾向特征作为针对目标内容的谣言内容表征特征。
在一个示例中,谣言挖掘模型可以只包括第一特征获取层或第二特征获取层,情感倾向特征可以是词汇特征或词序特征。
其中,情感倾向特征可以是对词汇特征和词序特征进行融合得到,如将词汇特征和词序特征进行拼接得到情感倾向特征。
本实施例的词汇特征,可以理解为第一特征获取层从用户历史互动信息中提取的第一语义特征;词序特征,可以理解为第二特征获取层从用户历史互动信息中提取的带有词序信息的第二语义特征。
本实施例中,第一特征获取层可以基于CNN(Convolutional Neural Network,卷积神经网络)实现,第二特征获取层可以基于LSTM(Long Short-Term Memory,长短期记忆网络)实现,例如,第一特征提取层为TextCNN层,本实施例可以通过TextCNN+LSTM有监督学习的模型构建谣言挖掘模型。
其中,TextCNN提取类似于n-gram的特征,忽略了词序,所以在词序不敏感的场景效果很好,一般CNN是一个很强的baseline即基准线,LSTM可以捕捉到序列信息,在情感分析这种词序很重要的应用场景中效果更好。两者结合,识别效果更加准确。
本实施例中,对负面情感突出的内容可以识别为谣言内容,或者作为疑似谣言内容直接传输到复核通道当中进行(人工)复核,复核确认为谣言后作为谣言样本写入谣言数据库。
本实施例的负面情感信息主要来自用户负反馈UGC评论内容互动和主动的谣言内容投诉。可以依据用户在评论当中提到的内容质量问题来针对性地找到样本。比如互动信息中明确提到内容是瞎编,说到内容造谣,骂小编造谣,骂小编骗人都可以作为情感负面倾向的样本来建立谣言挖掘模型。并基于样本对谣言挖掘模型进行训练。
参考图3c,图3c示出了一个可选的TextCNN的模型结构。
如上图整个模型由四部分构成:输入层、卷积层、池化层、全连接层。
(1)输入层(词嵌入层):TextCNN模型的输入层需要输入一个定长的文本序列L,比L短的样本序列需要填充,比L长的序列需要截取。最终输入层输出的是文本序列中各个词汇对应的词向量,其中,每个词向量的长度相同,由此,将用户历史互动信息转换为了向量矩阵的形式;
(2)卷积层:TextCNN模型使用多个不同尺寸的卷积核。卷积核的高度,即窗口值,可以理解为N-gram模型中的N,表示局部词序的长度,窗口值也是一个超参数,一般选取2-8之间的值,可选的,本实施例可以取4,这样处理,每次可以计算N个词向量的卷积。
(3)池化层:使用Max-pool(最大值池化),减少了模型参数,保证了不定长的卷积层输出上获得一个定长的全连接层的输入。卷积层与池化层在本实施例的核心作用就是特征提取的功能,从输入的定长文本序列中,利用局部词序信息,提取初级的特征,并组合初级的特征为高级特征,通过卷积与池化操作,省去了特征工程。
(4)全连接层:作用是分类器,本实施例可以使用只有一层隐藏层的全连接网络,输出层可以设为两个神经元,相当于把卷积与池化层提取的特征输入到一个LR(LogisticRegression,逻辑回归)分类器中进行分类。分类结果包括:是谣言内容和不是谣言内容。
可选的,本实施例中TextCNN由于和LSTM结合实现谣言识别模型,可以与LSTM共享情感倾向识别层,例如共享上述的全连接层(4),而将池化层输出的高级特征作为上述的词汇特征。
可选的,真实度表征信息包括目标内容;谣言内容识别模型包括第一语义获取模型;步骤“通过谣言内容识别模型,基于真实度表征信息获取目标内容的谣言内容表征特征,基于谣言内容表征特征对目标内容进行谣言内容识别”,可以包括:
通过第一语义获取模型,对目标内容的文本内容进行语义向量的提取,得到用于表征文本内容的语义的文本内容表征向量;
获取谣言数据库中历史谣言内容的文本内容表征向量;
对目标内容和谣言数据库中的历史谣言内容进行文本内容表征向量的相似度计算,其中,计算得到的相似度为目标内容的谣言内容表征特征;
若相似度高于预设第一相似度阈值,确定目标内容为谣言内容。
本实施例中,第一语义获取模型可以是bert模型,词袋模型,Word2vec模型等等。本实施例中,第一语义获取模型是一个语言模型,其可以采用无标注的语料进行训练,其中,其训练的语料,可以包括谣言数据库和辟谣数据库以及从其他的预料数据库中获取的内容。或者,第一语义获取模型可以采用现有的已经训练好的语言模型。
本实施例的文本内容表征向量包括但不限于对标题和正文进行向量化得到的向量。
可选的,步骤“通过第一语义获取模型,对目标内容的文本内容进行语义向量的提取,得到用于表征文本内容的语义的文本内容表征向量”,可以包括:
对目标内容的文本内容进行段落分割,得到若干段句子,其中,标题也作为一个句子;
通过第一语义获取模型对将每段句子进行语义向量提取;
将所有句子的向量组合在一起得到目标内容的文本内容表征向量。
本实施例中,谣言数据库中对应谣言内容存储有其文本内容表征向量,该文本内容表征向量可以参考上述描述,在此不再赘述。
其中,语义向量可以为词向量组成的向量,或者也可以是句向量。
本实施例中,文本内容表征向量的相似度,可以以向量距离表示。例如以欧氏距离表示。
BERT本质上是一个两段式的NLP(Nature Language processing,自然语言处理)模型。第一个阶段叫做:Pre-training,跟WordEmbedding类似,利用现有无标记的语料训练一个语言模型。第二个阶段叫做:Fine-tuning,利用预训练好的语言模型,完成具体的NLP下游任务。
本实施例当中,Bert模型可以用于对谣言数据库和辟谣数据库中内容做预处理,即对内容的标题和正文文本内容进行向量化,为后面对目标内容与谣言及辟谣数据库进行向量化匹配做准备。本实施例中,对目标内容在谣言数据库和辟谣数据库中的向量匹配和检索可以使用Faiss来进行,它可以支持海量向量的检索和匹配。
参考图3d,以内容为文章为例,示出了对文章的文本内容表征向量即文章向量的获取方案。先对文章分段,再对每一段的内容基于bert模型提取向量,将得到的向量拼接成更高维度的向量作为文章向量。
在一个示例中,谣言内容识别模型可以包括第一孪生识别模型,第一孪生识别模型为孪生模型,具有两个输入,可以用来衡量两个输入的相似程度。步骤“通过谣言内容识别模型,基于真实度表征信息获取目标内容的谣言内容表征特征,基于谣言内容表征特征对目标内容进行谣言内容识别”,可以包括:
将目标内容和谣言数据库中的历史谣言内容输入第一孪生识别模型;
通过第一孪生识别模型分别对目标内容和历史谣言内容,提取文本内容表征向量;
对目标内容和谣言数据库中的历史谣言内容进行文本内容表征向量的相似度计算,其中,计算得到的相似度为目标内容的谣言内容表征特征;
若相似度高于预设第一相似度阈值,确定目标内容为谣言内容。
其中,对目标内容和谣言数据库中的历史谣言内容进行文本内容表征向量的相似度计算可以由第一孪生识别模型实现,具体的,第一孪生识别模型可以基于目标内容和谣言数据库中的历史谣言内容的文本内容表征向量,计算损失函数,将损失函数的计算结果作为目标内容和谣言数据库中的历史谣言内容的相似度。
203、通过辟谣内容识别模型,基于真实度表征信息获取目标内容的辟谣内容表征特征,基于辟谣内容表征特征对目标内容进行辟谣内容识别,其中,辟谣内容识别模型是以辟谣数据库中的历史辟谣内容作为样本训练得到;
可选的,辟谣内容识别模型的样本的标签信息包括辟谣标识信息,用于标识内容为辟谣内容还是非辟谣内容,例如,以标识1表示样本中的内容为辟谣内容,以标识0表示样本中的内容为非辟谣内容。真实度表征信息包括目标内容;辟谣内容识别模型包括第二语义获取模型;步骤“通过辟谣内容识别模型,基于真实度表征信息获取目标内容的辟谣内容表征特征,基于辟谣内容表征特征对目标内容进行辟谣内容识别”,可以包括:
通过第二语义获取模型,对目标内容的文本内容进行语义向量的提取,得到表征文本内容的语义的文本内容表征向量;
获取辟谣数据库中历史辟谣内容的文本内容表征向量;
对目标内容和辟谣数据库中的历史辟谣内容进行文本内容表征向量的相似度计算,其中,计算得到的相似度为目标内容的辟谣内容表征特征;
若相似度高于预设第二相似度阈值,确定目标内容为辟谣内容。
本实施例中,第二语义获取模型与第一语义获取模型,可以采用相同的网络结构实现,可选的,第二语义获取模型和第一语义获取模型的参数不同。例如第二语义获取模型也可以为Bert模型,上述基于第二语义获取模型提取文本内容表征向量的方案可以参考上述关于第一语义获取模型的描述,在此不再赘述。
在一个示例中,辟谣内容识别模型包括第二孪生识别模型,第二孪生识别模型为孪生模型,步骤“通过辟谣内容识别模型,基于真实度表征信息获取目标内容的辟谣内容表征特征,基于辟谣内容表征特征对目标内容进行辟谣内容识别”,可以包括:
将目标内容和辟谣数据库中的历史辟谣内容输入第二孪生识别模型;
通过第二孪生识别模型分别对目标内容和历史辟谣内容,提取文本内容表征向量;
对目标内容和辟谣数据库中的历史辟谣内容进行文本内容表征向量的相似度计算,其中,计算得到的相似度为目标内容的辟谣内容表征特征;
若相似度高于预设第二相似度阈值,确定目标内容为辟谣内容。
具体的,第二孪生识别模型对相似度的计算可以参考第一孪生识别模型的描述,在此不再赘述。
本实施例中,可以对谣言数据库中的谣言进行特征标注,可选的,标注信息中包括谣言的标题属性特征,该标题属性特征包括但不限于:标题字数,修辞手法,情感,标点符号,格式等特征。
申请人经分析发现:1.谣言标题一般较长:谣言的语料进行分析,平均每个谣言的标题长度为23~24个字左右,相较于一般的新闻标题相对较长。通常的统计,新闻媒体的新闻标题平均为16个字左右。更多的字数意味着可以提供更多信息,使受众光看标题就知道内容,例如某些标题涉及到了三个人物、和带有悬念的狗的情节。同时,更多的字数也提供了更多腾转挪移的空间,便于标题制造转折,增加戏剧性与张力。
2.大量使用第一、二人称代词,给人身临其境之感:在很多谣言的制造者常常以第一人称或第二人称视角,表面上看是自己真实的经历,具有高度的可信性,并方便展开大段的内心独白,表达恐慌、焦急、忧虑的情绪,以造成同情或恐慌,达到吸引眼球的目的。
3.权威加持与恐惧诉求是最常用话语修辞:例如通过对网络谣言标题进行词频分析,词频最高的十个词依次是专家(258)、农村(191)、石头(190)、人类(128)、神秘(127)、真相(121)、鉴定(117)、曝光(108)、科学家(103)、美女(96),这些通过对谣言库样本定期统计可以分析。网络谣言,经常增加性元素的内容,以此来博取更多眼球关注,如经常使用“美女”“怀孕”“离婚”“出轨”“妹子”“性感”等关键词,这些标题在网络谣言中屡见不鲜,尤其是在一些社会新闻类的谣言中。在标题经常出现“一定”“绝对”“只因为”等绝对化用语,“揭秘”“真相”“曝光”等表示悬念的用语,“震惊”“惊呆”等夸张性用语,“竟然”“没想到”“居然”等表示意外的用语,“必看”“警惕”“扩散”等诱导性用语的标题,这些可以通过关键词Pattern识别作为样本。
4.大量使用感叹号和问号进行情绪唤起:现有样本分析谣言标题中最常用的是感叹号(29%)、问号(18.9%)和冒号(13.1%),感叹号是加重语气、吸引别人注意的常用手段,很多标题不止一个感叹号,很多是三个四个感叹号连着使用,形成祈使语气,给人一种急切关注的心理压迫感,如《惊呆!火星确实存在外星人!!!!!》;而问号则是引起阅读兴趣、吊人胃口和制造悬念的主要手法,如《【辟谣】XX步行街发生XX事件??真相是……》,而冒号则是采用借用专家或权威名头,实现第一人称视角的真实假象,如《你的配偶可能是外星人?专家:500万异形藏匿地球》。
5.使用新闻式和数字式标题增强信度:按照谣言标题的行文格式,本报告将网络谣言的标题分为新闻式、疑问式、祈使式、故事式、恐吓式、炫耀式、数字式、聊天式、建议式、真理式、利益式、号召式、悬念式、反问式总计14种。网络谣言的标题形式可谓是各种各样,覆盖了所有的标题写作风格,其中很多网络谣言是以新闻式的写作风格出现的(17.1%),伪装成信息会增加更多的网民关注,并且还有公信力加持,认为是传统媒体报道的,不是假消息;其次是数字式的谣言标题,占到了总体的14.4%,在标题中直接使用言之凿凿的数据,增强谣言标题的可信度;再次是祈使式,通过呼吁号召,来增强危机感和参与到相关行动中的紧迫感。
而对于谣言内容的议题,其议题包装也具有特殊之处,谣言的标注还包括已:内容议题特征,议题类型,叙事结构,内容类型等等。
谣言标注的议题包装特征包括但不限于如下特征:
1.选题偏好:科学常识类与社会时政类谣言数量最多,根据谣言议题的不同,本文将谣言分为以下七类:科学常识、社会时政、军事领域、国际领域、历史文化、明星八卦、财经新闻。
2.叙事结构:结构化与程式化:网络谣言在叙事结构上具有一定的程式化结构:一是题目必须耸人听闻,引起民众读下去的悬念或者呼吁,如经常使用的标题《不要点赞,要转发!!!!》;二是直接切入正题,国内外对比,讲事实,现身说法,给人一种身临其境的感觉;三是使用专家或者权威之口,强调这种事实的重要,借专家之口危言耸听,恶化结果,让受众不寒而栗;四是首尾呼应,加强语气,绑架舆论获取最大的心理认同。
3.选题建构:大量运用故事元素。故事情节叙述从本质上讲比基本事实来的更加生动,包含着叙述者与倾听者的感情,故事同时本身也是一种社交货币,很多造谣者恰恰利用故事的这一优势,将谣言巧妙地切入到一个有趣的故事中,以故事为导入,最终达到造谣、传谣的目的。如《XX店承认:在中国所售产品具有XXX成分》。
4.扯明星、蹭热点产生舆论叠加效应很多谣言越来越善于伪装自己,扯明星、蹭热点事件,个别造谣者甚至熟谙“事件营销”之道,借势上位,加上明星的加持、热点事件的东风,一下子使得谣言呈现几何级的传播速率,如《从A明星的签名看看XXXXX!》、《传B明星XXXXX,真假?还是博眼球》。娱乐相关谣言内容占比非常高。
5.诉诸视频或图片等感性元素,移花接木混淆视听:移动互联网飞速发展,图片和视频等传输技术增强,这类谣言的比例在不断上升,甚至个别图片直接以信息图的形式,躲避辟谣平台的关键词检索而不断重复被疯传。这类谣言的危害特别大,主要是“有图有真相”的思维定势,再加上形成的视觉冲击力,很多被传播者很快成为信息的接受者,进而随手转发。
6.嵌入社会关系网:社交货币源自社交媒体中经济学(Social Economy)的概念,它是用来衡量用户分享品信息的倾向性问题,社会中两个或两个以上的多个个体,在获取认同感与联系感之前对于自身知识储备的消耗,或者说是谈资,利用人们乐于与他人分享的特质,来塑造自己的产品或思想,从而达到口碑传播的目的。谣言在社交网络传播时有时会扮演社交货币的价值:所以在社交网络上传播非常广泛,所以这也通过爬虫系统来搜集社交网络上谣言内容和话题热门排行榜,作为人工标记时候参考的关键事件来源。
其中,本实施例在构建谣言识别模型的时候,可以基于上述标注的特征进行构建,然后基于标注的谣言内容进行模型的训练。
204、若目标内容为谣言内容,将目标内容作为新的历史谣言内容存储至谣言数据库,控制目标内容在目标内容发布平台的发布状态处于非现存发布状态;
对于未发布至目标内容发布平台的目标内容,步骤“控制目标内容在目标内容发布平台的发布状态处于非现存发布状态”,包括:
不执行将目标内容发布至目标内容发布平台的步骤。
也即,若该目标内容为内容生产者上传至目标内容发布平台的内容,则对该目标内容进行拦截,避免其在目标内容发布平台上发布。
对于目标内容为目标内容发布平台的现存发布内容的场景,步骤“控制目标内容在目标内容发布平台的发布状态处于非现存发布状态”,包括:
在目标内容发布平台上删除目标内容。
可选的,步骤“将目标内容作为新的历史谣言内容存储至谣言数据库”,包括:
若目标内容为谣言内容,确定目标内容关联的谣言事件;
建立目标内容与谣言事件的第一对应关系;
将目标内容作为新的历史谣言内容,与第一对应关系一起存储至谣言数据库。
205、若目标内容为辟谣内容,将目标内容作为新的历史辟谣内容存储至辟谣数据库。
可选的,步骤“若目标内容为辟谣内容,将目标内容作为新的历史辟谣内容存储至辟谣数据库”,可以包括:
若目标内容为辟谣内容,确定目标内容关联的谣言事件;
建立目标内容与谣言事件的对应关系(为区分,记为第二对应关系);
将目标内容作为新的历史辟谣内容,与对应关系一起存储至辟谣数据库。
本实施例中,还可以针对谣言事件,向特定生产者发送辟谣内容生产请求,接收该特定生产者发送的辟谣内容,将该辟谣内容与谣言事件对应地存入辟谣数据库。其中,辟谣内容生产请求中包括谣言事件,以及所述目标内容。
可选的,本实施例中,还可以从其他内容发布平台的辟谣内容聚合集合中获取辟谣内容,识别辟谣内容关联的谣言事件,将该辟谣内容与谣言事件对应地存入辟谣数据库。可选的,可以通过爬虫系统从其他内容发布平台的辟谣内容聚合集合中获取辟谣内容。
本实施例中,考虑到人工识别的精确性,在将目标内容作为新的历史谣言内容存储至谣言数据库前,还可以包括:
将识别为谣言内容的目标内容,发送至目标内容发布平台对应的人工审核平台,触发针对目标内容的人工审核;
接收人工审核平台发送的人工审核结果,若人工审核结果中目标内容为谣言内容,则继续将目标内容作为新的历史谣言内容存储至谣言数据库的步骤。
其中,若人工识别该目标内容为非谣言内容或为辟谣内容,则进行相应的处理,例如对于非谣言内容和辟谣内容,若其为待发布状态,则在目标内容发布平台上发布该目标内容,对于辟谣内容,还可以将其写入辟谣数据库。
可选的,本实施例中,谣言数据库的历史谣言内容还可以包括从人工审核平台发送的谣言内容,该谣言内容可以未经本实施例的模型识别,仅由人工识别。
本实施例的方法,还可以包括:获取目标内容发布平台的第一历史发布内容中的用户举报内容,将用户举报内容发送至目标内容发布平台对应的人工审核平台,将人工审核平台反馈的人工审核结果中的谣言内容,作为新的历史谣言内容存储至谣言数据库。
本实施例的用户举报内容可以包括用户举报为谣言的内容。
可选的,本实施例中,若目标内容为谣言内容,还可以对谣言生产者进行管理,谣言管理方法还可以包括:
对目标内容的生产者的用户账号进行信任度等级降级处理,其中,用户账号为生产者在目标内容发布平台的账号;
或者,对目标内容的生产者的用户账号进行封号处理。
本实施例中的信任度等级,指的是内容生产平台对内容生产者生产安全内容(如非谣言内容)的信任度的等级,信任度等级越高,则表示平台认为内容生产者越不可能发布谣言内容。
本实施例中,对于不同的信任度等级,可以设置不同的内容发布限制规则,内容发布限制规则用于对内容生产者在内容生产平台上的内容发布进行限制,信任度等级越高,则内容发布限制规则对内容发布的限制越小,信任度等级越低,则内容发布限制规则对内容发布的限制越大。
例如,内容发布限制规则包括但不限于:限制内容日发布量不超过信任度等级对应的最大发布量,以及限制内容推荐
权重不高于信任度等级对应的最高内容推荐权重,可以理解的是,信任度等级越高,则限制规则中最大发布量和内容推荐权重越大,对生产者的内容发布限制越小,由此,基于信任度等级的机制,可以限制发布过谣言的生产者的内容生产,促使其对发布内容严格把关。
可选的,对于信任度降级处理,即为降低内容生产者的信任度等级,例如信任度等级总共设置有五个等级,第一信任度等级最低,第五信任度等级最高。内容生产者A当前的信任度等级为第4级,最大内容日发布量为5篇,若检测到A生产了谣言内容,则将A的信任度等级从第4级,降为第3级,在一些示例中,还可以根据内容生产者生产的谣言内容的数量确定一次降级处理中信任度等级降低的等级数,例如,若谣言内容的数量大于第一预设阈值,可以一次降低三个信任度等级,谣言内容的数量大于第二预设阈值且不超过第一预设阈值,可以一次性降低两个信任度等级,谣言内容的数量不超过第二预设阈值,可以一次性降低一个信任度等级。其中,若降低信任度等级降级后,信任度等级低于第一信任度等级,则对内容生产者的账号封号。
可选的,若目标内容为谣言内容,本实施例的方法还包括:
为目标内容的生产者的用户账号设置谣言者标识;
当接收到终端的内容请求时,确定内容请求所请求的内容的内容生产者;
若内容生产者的用户账号对应设置有谣言者标识,向终端推送谣言预警提示信息,谣言预警提示信息用于提示内容生产者发布过谣言内容。
其中,谣言预警提示信息可以以文字,图片或语音等形式展示,本实施例对此没有限制。
若目标内容为谣言内容,本实施例的方法还包括:
获取目标内容的生产者在目标内容发布平台上的第二历史发布内容;
获取与第二历史发布内容关联的真实度表征信息;
通过谣言内容识别模型,基于第二历史发布内容的真实度表征信息中,获取第二历史发布内容的谣言内容表征特征;
基于谣言内容表征特征对第二历史发布内容进行谣言内容识别;
基于识别结果对第二历史发布内容和/或目标内容的生产者的用户账号进行管理。
本实施例中,对于第二历史发布内容的谣言内容识别参考前述内容的相关描述,在此不再赘述。
步骤“基于识别结果对第二历史发布内容和/或目标内容的生产者的用户账号进行管理”,可以包括:
若识别结果中第二历史发布内容包含谣言内容,则将该谣言内容写入谣言数据库,从目标内容发布平台删除该谣言内容,对该内容生产者封号。
本实施例中,还可以通过向谣言的阅读者针对性地推送辟谣内容,提升辟谣速度和力度,避免谣言的传播,提升用户体验。
可选的,当目标内容为目标内容发布平台的现存发布内容,本实施例还包括:若目标内容为谣言内容,确定与目标内容关联的谣言事件;从辟谣数据库中获取针对谣言事件进行辟谣的目标历史辟谣内容;确定目标内容的历史阅读用户;向历史阅读用户推送目标历史辟谣内容。
其中,推送的时候,当显示目标内容发布平台对应的展示页面时,在展示页面上的特定位置以特定形式显示目标历史辟谣内容。例如以置顶的方式显示目标历史辟谣内容,并且对应地显示与目标历史辟谣内容对应的用户历史阅读谣言的描述信息(如标题)。
本实施例中,可以定时对谣言数据库和辟谣数据库进行排重处理,保证数据库中不存在相同内容,避免对数据库的资源占用。
可选的,排重处理还可以在内容写入谣言数据库或辟谣数据库时触发。
采用本实施例,可以基于用户对内容的主动反馈互动信息来发现和挖掘谣言内容,响应和发现谣言速度能快速提升;基于机器与人工协作,无论是平台的增量还是存量内容,引入语义向量与谣言库和辟谣库内容匹配,流程上通过发文识别+提示人工+机器高效把关,审核拦截+数据沉淀构建谣言库和辟谣库效率大大提升;并且可以严格控制谣言的源头;同时精准辟谣,将辟谣信息精准推送给看过该谣言文章的用户,为看过该谣言的人做精准澄清,同时将最新的辟谣内容以醒目的方式直接展示给用户,最大程度降低网络谣言的危害和传播。
为了更好地实施以上方法,相应的,本发明实施例还提供一种基于机器学习的谣言管理装置,该谣言管理装置具体可以集成在终端中,例如以客户端的形式集成在终端中。
参考图4,该谣言管理装置包括:
获取单元401,用于基于待管理的目标内容,获取与目标内容关联的真实度表征信息,真实度表征信息用于从至少一个真实度表征维度体现目标内容的真实度;
谣言内容识别单元402,用于通过谣言内容识别模型从真实度表征信息中获取目标内容的谣言内容表征特征,基于谣言内容表征特征对目标内容进行谣言内容识别,其中,谣言内容识别模型是以谣言数据库中的历史谣言内容作为样本训练得到;
辟谣内容识别单元403,用于通过辟谣内容识别模型从真实度表征信息中获取目标内容的辟谣内容表征特征,基于辟谣内容表征特征对目标内容进行辟谣内容识别,其中,辟谣内容识别模型是以辟谣数据库中的历史辟谣内容作为样本训练得到;
谣言内容管理单元404,用于若目标内容为谣言内容,将目标内容作为历史谣言内容存储至谣言数据库,并控制目标内容的目标内容发布平台上不存在目标内容;
辟谣内容管理单元405,用于若目标内容为辟谣内容,将目标内容作为历史辟谣内容存储至辟谣数据库。
可选的,真实度表征信息包括目标内容,以及目标内容的生产者的用户信息;谣言内容识别模型包括多模态谣言内容识别模型;谣言内容识别单元402,用于通过多模态谣言内容识别模型,基于目标内容的文本内容提取文本模态特征;通过多模态谣言内容识别模型,基于目标内容的图像内容提取图像模态特征;通过多模态谣言内容识别模型,基于用户信息,获取目标内容的生产者模态特征;对文本模态特征,图像模态特征和生产者模态特征进行融合,得到融合后特征作为谣言内容表征特征;通过多模态谣言内容识别模型,基于谣言内容表征特征对目标内容进行谣言内容识别。
可选的,若待管理的目标内容为已发布内容,真实度表征信息包括目标内容的用户历史互动信息,谣言内容识别模型还包括:基于互动信息的谣言挖掘模型;
谣言内容识别单元402,用于基于谣言挖掘模型,获取用户历史互动信息的情感倾向特征作为目标内容的谣言内容表征特征;基于情感倾向特征,对针对目标内容的情感倾向进行识别,其中,若识别结果中情感倾向为负面情感倾向,则目标内容为谣言内容。
可选的谣言挖掘模型包括第一特征获取层和第二特征获取层,以及与第一特征获取层和第二特征获取层连接的情感倾向识别层;
谣言内容识别单元402,用于:
基于第一特征获取层对用户历史互动信息中的词汇进行分析,提取用户历史互动信息的词汇特征;
通过第二特征获取层对用户历史互动信息中的词序进行分析,提取用户历史互动信息的词汇对应的词序特征;
通过情感倾向识别层,基于词汇特征和词序特征,提取情感倾向特征作为针对目标内容的谣言内容表征特征。
可选的,真实度表征信息包括目标内容;谣言内容识别模型包括第一语义获取模型;谣言内容识别单元402,用于:
通过第一语义获取模型,对目标内容的文本内容进行语义向量的提取,得到用于表征文本内容的语义的文本内容表征向量;
获取谣言数据库中历史谣言内容的文本内容表征向量;
对目标内容和谣言数据库中的历史谣言内容进行文本内容表征向量的相似度计算,其中,计算得到的相似度为目标内容的谣言内容表征特征;
若相似度高于预设第一相似度阈值,确定目标内容为谣言内容。
可选的,真实度表征信息包括目标内容;辟谣内容识别模型包括第二语义获取模型;辟谣内容识别单元403,用于通过第二语义获取模型,对目标内容的文本内容进行语义向量的提取,得到表征文本内容的语义的文本内容表征向量;获取辟谣数据库中历史辟谣内容的文本内容表征向量;对目标内容和辟谣数据库中的历史辟谣内容进行文本内容表征向量的相似度计算,其中,计算得到的相似度为目标内容的辟谣内容表征特征;若相似度高于预设第二相似度阈值,确定目标内容为辟谣内容。
可选的,本实施例的装置还包括:人工审核对接单元,用于在谣言内容管理单元404将所述目标内容作为新的历史谣言内容存储至所述谣言数据库前,将识别为谣言内容的目标内容,发送至目标内容发布平台对应的人工审核平台,触发针对目标内容的人工审核;接收人工审核平台发送的人工审核结果,若人工审核结果中目标内容为谣言内容,则控制谣言内容管理单元404继续将所述目标内容作为新的历史谣言内容存储至所述谣言数据库的步骤。
可选的,本实施例的装置还包括:举报内容处理单元,用于获取目标内容发布平台的第一历史发布内容中的用户举报内容,将用户举报内容发送至目标内容发布平台对应的人工审核平台,将人工审核平台反馈的人工审核结果中的谣言内容,作为新的历史谣言内容存储至谣言数据库。
可选的,本实施例的装置还包括:第一生产者管理单元,用于若目标内容为谣言内容,对目标内容的生产者的用户账号进行信任度等级降级处理,其中,用户账号为生产者在目标内容发布平台的账号;或者,对目标内容的生产者的用户账号进行封号处理。
可选的,本实施例的装置还包括:第二生产者管理单元,用于若目标内容为谣言内容,为目标内容的生产者的用户账号设置谣言者标识;当接收到终端的内容请求时,确定内容请求所请求的内容的内容生产者;若内容生产者的用户账号对应设置有谣言者标识,向终端推送谣言预警提示信息,谣言预警提示信息用于提示内容生产者发布过谣言内容。
可选的,本实施例的装置还包括:延伸管理单元,用于若目标内容为谣言内容,获取目标内容的生产者在目标内容发布平台上的第二历史发布内容;获取与第二历史发布内容关联的真实度表征信息;通过谣言内容识别模型,基于第二历史发布内容的真实度表征信息中,获取第二历史发布内容的谣言内容表征特征;基于谣言内容表征特征对第二历史发布内容进行谣言内容识别;基于识别结果对第二历史发布内容和/或目标内容的生产者的用户账号进行管理。
可选的,辟谣内容管理单元,用于:
若目标内容为辟谣内容,确定目标内容关联的谣言事件;
建立目标内容与谣言事件的对应关系;
将目标内容作为新的历史辟谣内容,与对应关系一起存储至辟谣数据库。
可选的,基于机器学习的谣言管理装置,还包括辟谣控制单元,用于当目标内容为目标内容发布平台的现存发布内容,若目标内容为谣言内容,确定与目标内容关联的谣言事件;从辟谣数据库中获取针对谣言事件进行辟谣的目标历史辟谣内容;确定目标内容的历史阅读用户;向历史阅读用户推送目标历史辟谣内容。
可选的,本实施例的谣言管理装置,还包括第一内容确定单元,用于在基于待管理的目标内容,获取与目标内容关联的关联信息前,若接收到待上传至目标内容发布平台的内容,将内容作为待管理的目标内容。
可选的,本实施例的谣言管理装置,还包括第二内容确定单元,用于在基于待管理的目标内容,获取与目标内容关联的关联信息前,从目标内容发布平台的现存发布内容中,获取满足检测条件的内容作为待管理的目标内容。
采用本实施例,可以基于谣言数据库和辟谣数据库实现对谣言的快速、准确识别,避免谣言的大面积传播,提升用户体验。
此外,本发明实施例还提供一种计算机设备,该计算机设备可以为终端或者服务器,如图5所示,其示出了本发明实施例所涉及的计算机设备的结构示意图,具体来讲:
该计算机设备可以包括一个或者一个以上处理核心的处理器701、一个或一个以上计算机可读存储介质的存储器502、电源503和输入单元504等部件。本领域技术人员可以理解,图5中示出的计算机设备结构并不构成对计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器501是该计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器502内的软件程序和/或模块,以及调用存储在存储器502内的数据,执行计算机设备的各种功能和处理数据,从而对计算机设备进行整体监控。可选的,处理器501可包括一个或多个处理核心;优选的,处理器501可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器501中。
存储器502可用于存储软件程序以及模块,处理器501通过运行存储在存储器502的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器502还可以包括存储器控制器,以提供处理器501对存储器502的访问。
计算机设备还包括给各个部件供电的电源503,优选的,电源503可以通过电源管理系统与处理器501逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源503还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该计算机设备还可包括输入单元504,该输入单元504可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,计算机设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,计算机设备中的处理器501会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中,并由处理器501来运行存储在存储器502中的应用程序,从而实现各种功能,如下:
基于待管理的目标内容,获取与目标内容关联的真实度表征信息,真实度表征信息用于从至少一个真实度表征维度体现目标内容的真实度;
通过谣言内容识别模型,基于真实度表征信息获取目标内容的谣言内容表征特征,基于谣言内容表征特征对目标内容进行谣言内容识别,其中,谣言内容识别模型,是以谣言数据库中的历史谣言内容作为样本训练得到;
通过辟谣内容识别模型,基于真实度表征信息获取目标内容的辟谣内容表征特征,基于辟谣内容表征特征对目标内容进行辟谣内容识别,其中,辟谣内容识别模型是以辟谣数据库中的历史辟谣内容作为样本训练得到;
若目标内容为谣言内容,将目标内容作为新的历史谣言内容存储至谣言数据库,控制目标内容在目标内容发布平台的发布状态处于非现存发布状态;
若目标内容为辟谣内容,将目标内容作为新的历史辟谣内容存储至辟谣数据库。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本发明实施例还提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本发明实施例所提供的基于机器学习的谣言管理方法。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本发明实施例所提供的谣言管理方法中的步骤,因此,可以实现本发明实施例所提供的基于机器学习的谣言管理方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本发明实施例所提供的一种基于机器学习的谣言管理方法、装置、计算机设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本发明的限制。
Claims (15)
1.一种基于机器学习的谣言管理方法,其特征在于,包括:
基于待管理的目标内容,获取与所述目标内容关联的真实度表征信息,所述真实度表征信息用于从至少一个真实度表征维度体现所述目标内容的真实度;
通过谣言内容识别模型,基于所述真实度表征信息获取所述目标内容的谣言内容表征特征,基于所述谣言内容表征特征对所述目标内容进行谣言内容识别,其中,所述谣言内容识别模型,是以谣言数据库中的历史谣言内容作为样本训练得到;
通过辟谣内容识别模型,基于所述真实度表征信息获取所述目标内容的辟谣内容表征特征,基于所述辟谣内容表征特征对所述目标内容进行辟谣内容识别,其中,所述辟谣内容识别模型是以辟谣数据库中的历史辟谣内容作为样本训练得到;
若所述目标内容为谣言内容,将所述目标内容作为新的历史谣言内容存储至所述谣言数据库,控制所述目标内容在目标内容发布平台的发布状态处于非现存发布状态;
若所述目标内容为辟谣内容,将所述目标内容作为新的历史辟谣内容存储至所述辟谣数据库。
2.根据权利要求1所述的基于机器学习的谣言管理方法,其特征在于,所述真实度表征信息包括所述目标内容,以及所述目标内容的生产者的用户信息;所述谣言内容识别模型包括多模态谣言内容识别模型;
所述通过谣言内容识别模型,基于所述真实度表征信息获取所述目标内容的谣言内容表征特征,基于所述谣言内容表征特征对所述目标内容进行谣言内容识别,包括:
通过所述多模态谣言内容识别模型,基于所述目标内容的文本内容提取文本模态特征;
通过所述多模态谣言内容识别模型,基于所述目标内容的图像内容提取图像模态特征;
通过所述多模态谣言内容识别模型,基于所述用户信息,获取所述目标内容的生产者模态特征;
对所述文本模态特征,图像模态特征和生产者模态特征进行融合,得到融合后特征作为谣言内容表征特征;
通过所述多模态谣言内容识别模型,基于所述谣言内容表征特征对所述目标内容进行谣言内容识别。
3.根据权利要求1所述的基于机器学习的谣言管理方法,其特征在于,若所述待管理的目标内容为已发布内容,所述真实度表征信息包括所述目标内容的用户历史互动信息,所述谣言内容识别模型还包括:基于互动信息的谣言挖掘模型;
所述通过谣言内容识别模型,基于所述真实度表征信息获取所述目标内容的谣言内容表征特征,基于所述谣言内容表征特征对所述目标内容进行谣言内容识别,包括:
基于所述谣言挖掘模型,获取所述用户历史互动信息的情感倾向特征作为所述目标内容的谣言内容表征特征;
基于所述情感倾向特征,对针对所述目标内容的情感倾向进行识别,其中,若识别结果中所述情感倾向为负面情感倾向,则所述目标内容为谣言内容。
4.根据权利要求3所述的基于机器学习的谣言管理方法,其特征在于,所述谣言挖掘模型包括第一特征获取层和第二特征获取层,以及与所述第一特征获取层和第二特征获取层连接的情感倾向识别层;
所述基于所述谣言挖掘模型,获取所述用户历史互动信息的情感倾向特征作为所述目标内容的谣言内容表征特征,包括:
基于所述第一特征获取层对所述用户历史互动信息中的词汇进行分析,提取所述用户历史互动信息的词汇特征;
通过所述第二特征获取层对所述用户历史互动信息中的词序进行分析,提取所述用户历史互动信息的词汇对应的词序特征;
通过所述情感倾向识别层,基于所述词汇特征和词序特征,提取情感倾向特征作为针对所述目标内容的谣言内容表征特征。
5.根据权利要求1所述的基于机器学习的谣言管理方法,其特征在于,所述真实度表征信息包括所述目标内容;所述谣言内容识别模型包括第一语义获取模型;所述辟谣内容识别模型包括第二语义获取模型;
所述通过谣言内容识别模型,基于所述真实度表征信息获取所述目标内容的谣言内容表征特征,基于所述谣言内容表征特征对所述目标内容进行谣言内容识别,包括:
通过所述第一语义获取模型,对所述目标内容的文本内容进行语义向量的提取,得到用于表征所述文本内容的语义的文本内容表征向量;
获取所述谣言数据库中历史谣言内容的文本内容表征向量;
对所述目标内容和所述谣言数据库中的历史谣言内容进行文本内容表征向量的相似度计算,其中,计算得到的相似度为所述目标内容的谣言内容表征特征;
若所述相似度高于预设第一相似度阈值,确定所述目标内容为谣言内容;
所述通过辟谣内容识别模型,基于所述真实度表征信息获取所述目标内容的辟谣内容表征特征,基于所述辟谣内容表征特征对所述目标内容进行辟谣内容识别,包括:
通过所述第二语义获取模型,对所述目标内容的文本内容进行语义向量的提取,得到表征所述文本内容的语义的文本内容表征向量;
获取所述辟谣数据库中历史辟谣内容的文本内容表征向量;
对所述目标内容和所述辟谣数据库中的历史辟谣内容进行文本内容表征向量的相似度计算,其中,计算得到的相似度为所述目标内容的辟谣内容表征特征;
若所述相似度高于预设第二相似度阈值,确定所述目标内容为辟谣内容。
6.根据权利要求1所述的基于机器学习的谣言管理方法,其特征在于,所述将所述目标内容作为新的历史谣言内容存储至所述谣言数据库前,还包括:
将识别为所述谣言内容的目标内容,发送至所述目标内容发布平台对应的人工审核平台,触发针对所述目标内容的人工审核;
接收所述人工审核平台发送的人工审核结果,若所述人工审核结果中所述目标内容为谣言内容,则继续所述将所述目标内容作为新的历史谣言内容存储至所述谣言数据库的步骤。
7.根据权利要求1所述的基于机器学习的谣言管理方法,其特征在于,还包括:
获取所述目标内容发布平台的第一历史发布内容中的用户举报内容,将所述用户举报内容发送至所述目标内容发布平台对应的人工审核平台,将所述人工审核平台反馈的人工审核结果中的谣言内容,作为新的历史谣言内容存储至所述谣言数据库。
8.根据权利要求1-7任一项所述的基于机器学习的谣言管理方法,其特征在于,若所述目标内容为谣言内容,所述方法还包括:
对所述目标内容的生产者的用户账号进行信任度等级降级处理,其中,所述用户账号为所述生产者在目标内容发布平台的账号;
或者,对所述目标内容的生产者的用户账号进行封号处理。
9.根据权利要求1-7任一项所述的基于机器学习的谣言管理方法,其特征在于,若所述目标内容为谣言内容,所述方法还包括:
为所述目标内容的生产者的用户账号设置谣言者标识;
当接收到终端的内容请求时,确定所述内容请求所请求的内容的内容生产者;
若所述内容生产者的用户账号对应设置有谣言者标识,向所述终端推送谣言预警提示信息,所述谣言预警提示信息用于提示所述内容生产者发布过谣言内容。
10.根据权利要求1-7任一项所述的基于机器学习的谣言管理方法,其特征在于,若所述目标内容为谣言内容,所述方法还包括:
获取所述目标内容的生产者在所述目标内容发布平台上的第二历史发布内容;
获取与所述第二历史发布内容关联的真实度表征信息;
通过所述谣言内容识别模型,基于所述第二历史发布内容的真实度表征信息中,获取所述第二历史发布内容的谣言内容表征特征;
基于所述谣言内容表征特征对所述第二历史发布内容进行谣言内容识别;
基于识别结果对所述第二历史发布内容和/或所述目标内容的生产者的用户账号进行管理。
11.根据权利要求1-7任一项所述的基于机器学习的谣言管理方法,其特征在于,所述若所述目标内容为辟谣内容,将所述目标内容作为新的历史辟谣内容存储至所述辟谣数据库,包括:
若所述目标内容为辟谣内容,确定所述目标内容关联的谣言事件;
建立所述目标内容与所述谣言事件的对应关系;
将所述目标内容作为新的历史辟谣内容,与所述对应关系一起存储至所述辟谣数据库。
12.根据权利要求1-7任一项所述的基于机器学习的谣言管理方法,其特征在于,当所述目标内容为所述目标内容发布平台的现存发布内容时,所述方法还包括:
若所述目标内容为谣言内容,确定与所述目标内容关联的谣言事件;
从所述辟谣数据库中获取针对所述谣言事件进行辟谣的目标历史辟谣内容;
确定所述目标内容的历史阅读用户;
向所述历史阅读用户推送所述目标历史辟谣内容。
13.根据权利要求1-7任一项所述的基于机器学习的谣言管理方法,其特征在于,所述基于待管理的目标内容,获取与所述目标内容关联的关联信息前,还包括:
若接收到待上传至目标内容发布平台的内容,将所述内容作为待管理的目标内容。
14.根据权利要求1-7任一项所述的基于机器学习的谣言管理方法,其特征在于,所述基于待管理的目标内容,获取与所述目标内容关联的关联信息前,还包括:
从所述目标内容发布平台的现存发布内容中,获取满足检测条件的内容作为待管理的目标内容。
15.一种基于机器学习的谣言管理装置,其特征在于,包括:
获取单元,用于基于待管理的目标内容,获取与所述目标内容关联的真实度表征信息,所述真实度表征信息用于从至少一个真实度表征维度体现所述目标内容的真实度;
谣言内容识别单元,用于通过谣言内容识别模型从所述真实度表征信息中获取所述目标内容的谣言内容表征特征,基于所述谣言内容表征特征对所述目标内容进行谣言内容识别,其中,所述谣言内容识别模型是以谣言数据库中的历史谣言内容作为样本训练得到;
辟谣内容识别单元,用于通过辟谣内容识别模型从所述真实度表征信息中获取所述目标内容的辟谣内容表征特征,基于所述辟谣内容表征特征对所述目标内容进行辟谣内容识别,其中,所述辟谣内容识别模型是以辟谣数据库中的历史辟谣内容作为样本训练得到;
谣言内容管理单元,用于若所述目标内容为谣言内容,将所述目标内容作为历史谣言内容存储至所述谣言数据库,并控制所述目标内容的目标内容发布平台上不存在所述目标内容;
辟谣内容管理单元,用于若所述目标内容为辟谣内容,将所述目标内容作为历史辟谣内容存储至所述辟谣数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306592.5A CN111506794A (zh) | 2020-04-17 | 2020-04-17 | 一种基于机器学习的谣言管理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010306592.5A CN111506794A (zh) | 2020-04-17 | 2020-04-17 | 一种基于机器学习的谣言管理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111506794A true CN111506794A (zh) | 2020-08-07 |
Family
ID=71869388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010306592.5A Pending CN111506794A (zh) | 2020-04-17 | 2020-04-17 | 一种基于机器学习的谣言管理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111506794A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035669A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于传播异质图建模的社交媒体多模态谣言检测方法 |
CN112200197A (zh) * | 2020-11-10 | 2021-01-08 | 天津大学 | 一种基于深度学习和多模态的谣言检测方法 |
CN112541081A (zh) * | 2020-12-21 | 2021-03-23 | 中国人民解放军国防科技大学 | 一种基于领域自适应的可迁移谣言检测方法 |
CN113536760A (zh) * | 2021-07-06 | 2021-10-22 | 中国科学院计算技术研究所 | 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 |
CN113743522A (zh) * | 2021-09-13 | 2021-12-03 | 五八同城信息技术有限公司 | 违规行为的检测方法及装置、电子设备 |
CN114444504A (zh) * | 2022-04-11 | 2022-05-06 | 西南交通大学 | 一种企业业务分类编码方法、装置、设备及可读存储介质 |
CN115168568A (zh) * | 2022-03-16 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
-
2020
- 2020-04-17 CN CN202010306592.5A patent/CN111506794A/zh active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035669A (zh) * | 2020-09-09 | 2020-12-04 | 中国科学技术大学 | 基于传播异质图建模的社交媒体多模态谣言检测方法 |
CN112200197A (zh) * | 2020-11-10 | 2021-01-08 | 天津大学 | 一种基于深度学习和多模态的谣言检测方法 |
CN112541081A (zh) * | 2020-12-21 | 2021-03-23 | 中国人民解放军国防科技大学 | 一种基于领域自适应的可迁移谣言检测方法 |
CN112541081B (zh) * | 2020-12-21 | 2022-09-16 | 中国人民解放军国防科技大学 | 一种基于领域自适应的可迁移谣言检测方法 |
CN113536760A (zh) * | 2021-07-06 | 2021-10-22 | 中国科学院计算技术研究所 | 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 |
CN113536760B (zh) * | 2021-07-06 | 2023-09-26 | 中国科学院计算技术研究所 | 引述句和辟谣模式句引导的“谣言-辟谣文章”匹配方法及系统 |
CN113743522A (zh) * | 2021-09-13 | 2021-12-03 | 五八同城信息技术有限公司 | 违规行为的检测方法及装置、电子设备 |
CN115168568A (zh) * | 2022-03-16 | 2022-10-11 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
CN115168568B (zh) * | 2022-03-16 | 2024-04-05 | 腾讯科技(深圳)有限公司 | 一种数据内容的识别方法、装置以及存储介质 |
CN114444504A (zh) * | 2022-04-11 | 2022-05-06 | 西南交通大学 | 一种企业业务分类编码方法、装置、设备及可读存储介质 |
CN114444504B (zh) * | 2022-04-11 | 2022-08-05 | 西南交通大学 | 一种企业业务分类编码方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506794A (zh) | 一种基于机器学习的谣言管理方法和装置 | |
CN106156365B (zh) | 一种知识图谱的生成方法及装置 | |
CN111615706A (zh) | 基于子流形稀疏卷积神经网络分析空间稀疏数据 | |
US20180357211A1 (en) | Constructing a Narrative Based on a Collection of Images | |
US20220237222A1 (en) | Information determining method and apparatus, computer device, and storage medium | |
US20200134398A1 (en) | Determining intent from multimodal content embedded in a common geometric space | |
CN110309114B (zh) | 媒体信息的处理方法、装置、存储介质和电子装置 | |
CN111507097A (zh) | 一种标题文本处理方法、装置、电子设备及存储介质 | |
CN111723295B (zh) | 一种内容分发方法、装置和存储介质 | |
CN110597963A (zh) | 表情问答库的构建方法、表情搜索方法、装置及存储介质 | |
CN112257661A (zh) | 低俗图像的识别方法、装置、设备及计算机可读存储介质 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
WO2019133506A1 (en) | Intelligent routing services and systems | |
KR20200087977A (ko) | 멀티모달 문서 요약 시스템 및 방법 | |
CN112883731A (zh) | 内容分类方法和装置 | |
CN113557521A (zh) | 使用机器学习从动画媒体内容项目提取时间信息的系统和方法 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
CN113392331A (zh) | 文本处理方法及设备 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113011126A (zh) | 文本处理方法、装置、电子设备及计算机可读存储介质 | |
CN113573128A (zh) | 一种音频处理方法、装置、终端以及存储介质 | |
CN116955707A (zh) | 内容标签的确定方法、装置、设备、介质及程序产品 | |
CN112989167B (zh) | 搬运账号的识别方法、装置、设备及计算机可读存储介质 | |
CN114547435A (zh) | 内容质量的识别方法、装置、设备及可读存储介质 | |
US11797780B1 (en) | Context-biased artificial intelligence video generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40029144 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |