CN107797998A - 含谣言用户生成内容识别方法和装置 - Google Patents

含谣言用户生成内容识别方法和装置 Download PDF

Info

Publication number
CN107797998A
CN107797998A CN201610754885.3A CN201610754885A CN107797998A CN 107797998 A CN107797998 A CN 107797998A CN 201610754885 A CN201610754885 A CN 201610754885A CN 107797998 A CN107797998 A CN 107797998A
Authority
CN
China
Prior art keywords
user
propagation
generated content
identified
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610754885.3A
Other languages
English (en)
Other versions
CN107797998B (zh
Inventor
贾淳硖
易玲玲
邱立威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610754885.3A priority Critical patent/CN107797998B/zh
Publication of CN107797998A publication Critical patent/CN107797998A/zh
Application granted granted Critical
Publication of CN107797998B publication Critical patent/CN107797998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种含谣言用户生成内容识别方法和装置,该方法包括:获取内容标识,所述内容标识用于标识待识别的用户生成内容;查询与所述内容标识对应的传播用户标识;查询与所述传播用户标识对应的传播用户属性;获取对应于所述内容标识的所述传播用户标识之间的传播关系;通过神经网络模型从所述传播用户属性和所述传播关系中提取传播特征;根据所述传播特征识别所述待识别的用户生成内容是否为含谣言用户生成内容。本发明提供的含谣言用户生成内容识别方法和装置,提高了识别含谣言用户生成内容的效率。

Description

含谣言用户生成内容识别方法和装置
技术领域
本发明涉及网络安全技术领域,特别是涉及一种含谣言用户生成内容识别方法和装置。
背景技术
网络技术的发展,使得人们可以基于网络进行互动,人们的交流方式从线下扩展到线上;而近来社交网络的快速发展,使得人们之间的互动更加方便快捷。目前,公众服务提供者可以编辑生成用户生成内容(User Generated Content,UGC),并将用户生成内容发布,关注该公众服务提供者的公众服务账号的用户可以查看该用户生成内容并转发。
然而,社交网络中信息传播迅速且广泛,一些公众服务提供者为了获得网民的广泛关注,可能会捏造事实生成含谣言用户生成内容,这种含谣言用户生成内容的传播扰乱了社交网络的正常秩序,具有很强的危害性。目前,识别含谣言用户生成内容主要靠人工审核,结合群众举报,但由于依赖人力,识别含谣言用户生成内容的效率较低。
发明内容
基于此,有必要针对目前通过人工审核识别含谣言用户生成内容的方式识别效率低的问题,提供一种可提高识别效率的含谣言用户生成内容识别方法和装置。
一种含谣言用户生成内容识别方法,包括:
获取内容标识,所述内容标识用于标识待识别的用户生成内容;
查询与所述内容标识对应的传播用户标识;
查询与所述传播用户标识对应的传播用户属性;
获取对应于所述内容标识的所述传播用户标识之间的传播关系;
通过神经网络模型从所述传播用户属性和所述传播关系中提取传播特征;
根据所述传播特征识别所述待识别的用户生成内容是否为含谣言用户生成内容。
一种含谣言用户生成内容识别装置,包括:
数据获取模块,用于获取内容标识,所述内容标识用于标识待识别的用户生成内容;查询与所述内容标识对应的传播用户标识;查询与所述传播用户标识对应的传播用户属性;获取对应于所述内容标识的所述传播用户标识之间的传播关系;
特征提取模块,用于通过神经网络模型从所述传播用户属性和所述传播关系中提取传播特征;
识别模块,用于根据所述传播特征识别所述待识别的用户生成内容是否为含谣言用户生成内容。
上述含谣言用户生成内容识别方法和装置,得到待识别的用户生成内容的传播用户属性和传播用户之间的传播关系,再利用神经网络模型从中提取出传播特征,该传播特征对于识别含谣言用户生成内容具有很好的区分性,不再依赖于人工审核,提高了识别含谣言用户生成内容的效率。
附图说明
图1为一个实施例中含谣言用户生成内容识别系统的应用环境图;
图2为一个实施例中服务器的内部结构示意图;
图3为一个实施例中含谣言用户生成内容识别方法的流程示意图;
图4为另一个实施例中含谣言用户生成内容识别方法的流程示意图;
图5为一个实施例中将传播图输入Graph LSTM神经网络模型后输出传播特征的示意图;
图6为一个实施例中含谣言用户生成内容识别方法的过程示意图;
图7为一个实施例中训练分类器的步骤的流程示意图;
图8为一个实施例中含谣言用户生成内容识别装置的结构框图;
图9为另一个实施例中含谣言用户生成内容识别装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中含谣言用户生成内容识别系统的应用环境图。参照图1,该系统包括服务器110和用户终端120。服务器110用于提供用户生成内容的生成服务接口及传播服务接口。用户终端120可用于调用服务器110提供的生成服务接口编辑用户生成内容,可用于调用服务器110提供的传播服务接口触发用户生成内容的传播,可用于接收服务器110推送的用户生成内容。用户生成内容通过服务器110在不同的用户终端120之间传播。服务器110用于获取用于标识待识别的用户生成内容的内容标识;服务器110用于查询与内容标识对应的传播用户标识;服务器110用于查询与传播用户标识对应的传播用户属性;服务器110用于获取对应于内容标识的传播用户标识之间的传播关系;服务器110用于通过神经网络模型从传播用户属性和传播关系中提取传播特征;服务器110用于根据传播特征识别待识别的用户生成内容是否为含谣言用户生成内容。服务器110还可以用于对识别为含谣言用户生成内容的用户生成内容的传播进行限制,比如禁止该用户生成内容的传播或者直接删除该用户生成内容。服务器110还可以对该用户生成内容对应的发布者标识所具有的权限进行限制,比如将该发布者标识所具有的发布用户生成内容的权限封禁。
图2为一个实施例中服务器的内部结构示意图。参照图2,服务器包括通过系统总线连接的处理器、非易失性存储介质、内存储器和网络接口。其中,该服务器的非易失性存储介质存储有操作系统和含谣言用户生成内容识别装置,该含谣言用户生成内容识别装置用于实现一种含谣言用户生成内容识别方法。该服务器的处理器用于提供计算和控制能力,支撑整个服务器的运行。该服务器的内存储器为非易失性存储介质中的含谣言用户生成内容识别装置的运行提供环境,该内存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种含谣言用户生成内容识别方法。服务器可以用独立的物理服务器或者服务器集群来实现。本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的服务器的限定,具体的服务器可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
图3为一个实施例中含谣言用户生成内容识别方法的流程示意图。其中,含谣言用户生成内容是指含有与客观事实不符的成分的用户生成内容。本实施例以该方法应用于上述图1中的服务器来举例说明。参照图3,该方法具体包括如下步骤:
S302,获取内容标识,内容标识用于标识待识别的用户生成内容。
用户生成内容是指由用户主动创作生成的可在社交网络中传播的数据对象。该用户生成内容可以是文章、视频或者音频。内容标识可将不同的用户生成内容区分开,内容标识在用户生成内容可传播的范围内是唯一的。
待识别的用户生成内容是指需要识别是否为含谣言用户生成内容的用户生成内容。服务器可将社交网络中的每个用户生成内容均作为待识别的用户生成内容,也可以仅将传播次数超过预设次数的用户生成内容作为待识别的用户生成内容。传播次数可以用转发次数表示。预设次数比如1000次。
在一个实施例中,服务器具体可从用户生成内容发布记录中获取内容标识。用户生成内容发布记录比如文章发表日志。
S304,查询与内容标识对应的传播用户标识。
具体地,服务器在需要识别待识别的用户生成内容是否为含谣言用户生成内容时,可根据记录的内容标识与传播用户标识之间的对应关系,查询与用于标识待识别的用户生成内容的内容标识所对应的传播用户标识。用户生成内容的传播比如将用户生成内容转发至指定的用户,或者将用户生成内容展示在传播用户的主页上。
内容标识与传播用户标识的对应关系,表示该内容标识所表示的用户生成内容被该传播用户标识所标识的传播用户所传播的关系。服务器可每在用户生成内容被传播时,将该用户生成内容的内容标识与用于标识传播该用户生成内容的传播用户的传播用户标识之间的对应关系记录在用户生成内容传播记录中。
S306,查询与传播用户标识对应的传播用户属性。
传播用户属性是传播用户标识所表示的传播用户的属性,可以包括该传播用户的性别属性、年龄属性和地域属性中的至少一种。性别属性可以是表示传播用户为男性或女性的数值,年龄属性可以是表示传播用户的年龄段的数值,地域属性则可以是表示传播用户所在身份的数值。服务器具体可根据传播用户标识,从用于存储用户注册时所填写的用户属性的数据库中查询与传播用户标识对应的传播用户属性。
在一个实施例中,传播用户属性还可以包括待识别的用户生成内容的传播时间。传播用户属性还可以包括待识别的用户生成内容被相应的传播用户传播后再次传播的次数。传播用户属性还可以包括描述传播用户对待识别的用户生成内容进行操作的数据。传播用户属性还可以包括待识别的用户生成内容被传播用户传播后被操作的数据。对用户生成内容的操作比如点击、阅读或者评论等。操作的数据比如操作的次数或者频率。
S308,获取对应于内容标识的传播用户标识之间的传播关系。
其中,传播用户标识之间的传播关系,表示待识别的用户生成内容在传播用户标识所表示的传播用户之间传播的流向。比如内容标识对应的传播用户标识包括A、B、C和D,则待识别的用户生成内容由A传播至B是A与B之间的传播关系,待识别的用户生成内容由C传播至D是C和D之间的传播关系。步骤S308可以在步骤S306之前或之后执行。服务器可从用户生成内容传播记录中查询与内容标识对应的传播用户标识,并查询对应于内容标识的传播用户标识之间的传播关系。用户生成内容传播记录比如文章转发日志。
S310,通过神经网络模型从传播用户属性和传播关系中提取传播特征。
其中,神经网络模型是指人工神经网络(Artificial Neural Networks)模型。神经网络模型包括多层,第一层是输入层,最顶上一层是输出层,中间包括零个或者多个隐含层,每一层包括一个或多个节点。输入层规模根据输入变量的数量决定,输出层规模则取决于设定的传播特征维数。隐含层包括多个神经元,调整神经元数量就可以调整神经网络模型的复杂度和表达能力。一般来说,神经网络越宽越深,其建模能力越强,但是训练这个模型所花的代价也越高。
具体地,服务器可将传播用户属性和传播关系组织成适合输入神经网络模型的形式并输入神经网络模型,将神经网络模型输出的数据作为传播特征。神经网络模型可采用递归神经网络模型,具体可采用时间递归神经网络(Recurrent Neural Network)模型或者结构递归神经网络(Recursive Neural Network)模型,时间递归神经网络模型可以是LSTM(Long-Short Term Memory,长短期记忆)神经网络模型。
S312,根据传播特征识别待识别的用户生成内容是否为含谣言用户生成内容。
神经网络模型可以分析出输入神经网络模型的数据的内在特性,输出的传播特征具有很好的区分性。识别待识别的用户生成内容是否为含谣言用户生成内容是一个二分类问题,具体地,服务器可将传播特征输入预先训练获得的分类器,输出待识别的用户生成内容是否为含谣言用户生成内容的识别结果。分类器可采用SVM(Support Vector Machine,支持向量机)分类器、逻辑回归(比如Softmax回归)分类器或者其它基于神经网络模型的分类器。
上述含谣言用户生成内容识别方法,得到待识别的用户生成内容的传播用户属性和传播用户之间的传播关系,再利用神经网络模型从中提取出传播特征,该传播特征对于识别含谣言用户生成内容具有很好的区分性,不再依赖于人工审核,提高了识别含谣言用户生成内容的效率。
在一个实施例中,该含谣言用户生成内容识别方法还包括:获取与传播用户标识存在社交关系的社交网络用户标识;查询社交网络用户标识对应的社交网络用户属性;步骤S310包括:通过神经网络模型从传播用户属性、传播关系和社交网络用户属性中提取待识别的用户生成内容的传播特征。
在一个实施例中,通过神经网络模型从传播用户属性、传播关系和社交网络用户属性中提取待识别的用户生成内容的传播特征的步骤包括:根据传播用户属性和传播关系构建传播图;传播图包括传播用户节点,传播用户节点与传播用户标识对应,包括相应的传播用户属性;传播用户节点间存在边时边表示相应传播用户节点之间的传播关系;将传播图以及与传播图中的传播用户节点对应的邻居节点输入Graph LSTM神经网络模型后输出传播特征;邻居节点与社交网络用户标识对应,包括相应的社交网络用户属性。其中,GraphLSTM神经网络模型是基于图的神经网络模型,图是指图论中表示物件与物件之间关系的数学对象。
图4为另一个实施例中含谣言用户生成内容识别方法的流程示意图。参照图4,该方法具体包括如下步骤:
S402,获取内容标识,内容标识用于标识待识别的用户生成内容。
S404,查询与内容标识对应的传播用户标识。
S406,查询与传播用户标识对应的传播用户属性。
S408,获取对应于内容标识的传播用户标识之间的传播关系。
S410,获取与传播用户标识存在社交关系的社交网络用户标识。
具体地,传播用户标识和社交网络用户标识均用于标识社交网络中的用户,这里传播用户标识特别指社交网络中传播待识别的用户生成内容的用户的标识,社交网络用户标识特别指社交网络中与传播用户具有社交关系的用户的标识。其中,与传播用户标识存在社交关系的社交网络用户标识,该社交网络用户标识所标识的用户可以称为该传播用户标识所标识用户的好友。
S412,查询社交网络用户标识对应的社交网络用户属性。
社交网络用户属性是社交网络用户标识所表示的社交网络用户的属性,可以包括该社交网络用户的性别属性、年龄属性和地域属性中的至少一种。
S414,根据传播用户属性和传播关系构建传播图;传播图包括传播用户节点,传播用户节点与传播用户标识对应,包括相应的传播用户属性;传播用户节点间存在边时边表示相应传播用户节点之间的传播关系。
具体地,服务器可构建传播图,该传播图包括传播用户节点,传播用户节点表示传播用户。传播用户节点之间可以存在边,该边表示该边所连接的传播用户节点之间的传播关系。传播用户节点包括相应传播用户标识所对应的传播用户属性。传播图可以表达待识别的用户生成内容的传播用户的属性、与该传播用户相关用户的属性以及待识别的用户生成内容的传播路径,基于传播图可以生成更具有区分性的传播特征。
S416,将传播图以及与传播图中的传播用户节点对应的邻居节点输入Graph LSTM神经网络模型后输出传播特征;邻居节点与社交网络用户标识对应,包括相应的社交网络用户属性。
其中,传播图中的每个传播用户节点对应有邻居节点,邻居节点表示与传播用户存在社交关系的社交网络用户。邻居节点包括相应社交网络用户标识所对应的社交网络用户属性。
Graph LSTM神经网络模型是一种基于图的时间递归神经网络模型。具体地,服务器可将传播图输入该Graph LSTM神经网络模型,由Graph LSTM神经网络模型利用输入的传播图进行时间递归运算并输出数据序列,服务器将Graph LSTM神经网络模型输出的数据序列作为待识别的用户生成内容的传播特征。
Graph LSTM神经网络模型通过添加跨越时间点的自连接隐藏层,具有对时间进行显示建模的能力。具体来讲,隐藏层的反馈不仅进入输出层,还会进入下一时间步的隐藏层。每个时间步的隐藏层可以作为Graph LSTM神经网络模型的其中一层。
图5为一个实施例中将传播图输入Graph LSTM神经网络模型后输出传播特征的示意图。参照图5,传播图输入Graph LSTM神经网络模型后,传播图中的每个传播用户节点在Graph LSTM神经网络模型中各个时间步的隐藏层(LSTM0-LSTMn)中运算时,综合该传播用户节点的传播用户属性、该传播用户节点所对应邻居节点的社交网络用户属性以及该传播用户节点在上一时间步的隐藏层输出的数据,得到当前时间步的隐藏层输出的数据,服务器可将Graph LSTM神经网络模型各个时间步的隐藏层所输出的数据作为传播特征。
S418,根据传播特征识别待识别的用户生成内容是否为含谣言用户生成内容。
上述含谣言用户生成内容识别方法,在提取传播特征时还结合了与传播用户标识存在社交关系的社交网络用户标识所对应的社交网络用户属性,可以进一步提升传播特征的区分性。而且,Graph LSTM神经网络模型是一种通用化、从顺序数据或多维数据泛化到一般图结构数据的LSTM神经网络模型,可以通过传播图中各传播用户节点的历史信息以及邻居节点的信息预测自身未来的信息,可进一步提高传播特征的区分性,进而提高识别含谣言用户生成内容的准确性。
在一个实施例中,该含谣言用户生成内容识别方法还包括:从待识别的用户生成内容中提取文本特征;将传播特征和文本特征融合为融合特征;步骤312包括:根据融合特征识别待识别的用户生成内容是否为含谣言用户生成内容。
具体地,待识别的用户生成内容包括文本内容,服务器可从该文本内容中提取出文本特征。文本特征可以采用文本统计特征,比如统计文本内容中关键词的词频,从而基于词频确定文本特征。
将传播特征和文本特征融合为融合特征,具体可将传播特征和文本特征按预定顺序排列得到融合特征;或者可以将传播特征和文本特征各自的局部特征组合为扩展特征后,将传播特征、文本特征以及扩展特征按预定顺序排列得到融合特征。
进一步地,服务器可将融合特征输入预先训练获得的分类器,输出待识别的用户生成内容是否为含谣言用户生成内容的识别结果。分类器训练时采用的训练样本的特征类型,与识别时所采用的融合特征的特征类型相同,就是说分类器训练时采用将训练样本的文本特征和传播特征融合得到的融合特征进行训练得到。
本实施例中,结合用户生成内容的传播特征和文本特征得到融合特征,基于该融合特征进行识别,可进一步提高识别含谣言用户生成内容的准确性。
在一个实施例中,从待识别的用户生成内容中提取文本特征的步骤包括:将待识别的用户生成内容输入用于将文本转化为词向量的卷积神经网络模型,得到词向量形式的文本特征。
具体地,词向量(Word Vector)是词向量是固定长度的实值向量,用于将文本转化为词向量的卷积神经网络模型可以将待识别的用户生成内容中的词投影到一定维度的语义空间上,每个词是语义空间中的一个点,语义空间中语义相似的词位置相邻。语义空间的维度数量可以自定义,一般设置为100~200维。
本实施例中,词向量形式的文本特征本身可以表达语义相关性,将文本特征与传播特征融合得到的融合特征在识别含谣言用户生成内容时具有更好的识别性能,可进一步提高识别含谣言用户生成内容的准确性。
在一个实施例中,该含谣言用户生成内容识别方法还包括:获取发布待识别的用户生成内容的发布者标识;查询与发布者标识对应的发布者属性;将传播特征和发布者属性融合为融合特征;步骤312包括:根据融合特征识别待识别的用户生成内容是否为含谣言用户生成内容。
其中,发布者是指发布待识别的用户生成内容的用户,可以是普通的社交网络用户,也可以是专门向公众提供信息服务的服务机构。发布者标识可以是普通的社交网络用户标识,也可以是专门向公众提供信息服务的公众服务账号。
发布者属性可以是关注该发布者标识的用户标识数、对发布者标识历史行为的评分值以及关注该发布者标识且处于活跃状态的用户标识数中的至少一种。其中,关注是指建立与发布者标识之间的关联的操作,建立了该关联的用户标识可接收到该发布者标识发布的信息。历史行为比如历史发布行为或者历史评论行为。处于活跃状态是指在距离当前时间的预设时间段内发生过操作行为。
将传播特征和发布者属性融合为融合特征,具体可将传播特征和发布者属性按预定顺序排列得到融合特征;或者可以将传播特征和发布者属性各自的局部特征组合为扩展特征后,将传播特征、发布者属性以及扩展特征按预定顺序排列得到融合特征。
进一步地,服务器可将融合特征输入预先训练获得的分类器,输出待识别的用户生成内容是否为含谣言用户生成内容的识别结果。分类器训练时采用的训练样本的特征类型,与识别时所采用的融合特征的特征类型相同,就是说分类器训练时采用将训练样本的发布者属性和传播特征融合得到的融合特征进行训练得到。
本实施例中,将发布者属性和传播特征融合得到的融合特征,在识别含谣言用户生成内容时具有更好的识别性能,可进一步提高识别含谣言用户生成内容的准确性。
在一个实施例中,参照图6,该方法还包括:从待识别的用户生成内容中提取文本特征;获取发布待识别的用户生成内容的发布者标识;查询与发布者标识对应的发布者属性;将传播特征、文本特征和发布者属性融合为融合特征;步骤312包括:根据融合特征识别待识别的用户生成内容是否为含谣言用户生成内容。
本实施例中,融合特征综合了传播特征、文本特征和发布者属性,在识别含谣言用户生成内容时具有更进一步的识别性能,可更进一步提高识别含谣言用户生成内容的准确性。
在一个实施例中,步骤S312包括:将传播特征输入分类器,输出待识别的用户生成内容是否为含谣言用户生成内容的识别结果。在步骤S302之前,该含谣言用户生成内容识别方法还包括训练分类器的步骤。
图7为一个实施例中训练分类器的步骤的流程示意图。参照图7,该训练分类器的步骤具体包括如下步骤:
S702,获取训练样本集,训练样本集中的用户生成内容对应有类别标签,类别标签用于标记相应的用户生成内容是否为含谣言用户生成内容。
具体地,服务器可收集大量确定为含谣言用户生成内容的正样本,以及大量确定为非含谣言用户生成内容的负样本,构成训练样本集。训练样本集中的每个用户生成内容对应有类别标签,该类别标签标记了所对应的用户生成内容属于含谣言用户生成内容还是非含谣言用户生成内容。服务器还可以对训练样本集进行数据清理后执行步骤S704。
S704,提取训练样本集中各用户生成内容的传播特征。
具体地,对于训练样本集中的每个用户生成内容,服务器可获取其内容标识,查询与该内容标识对应的传播用户标识,查询与该传播用户标识对应的传播用户属性,获取对应于该内容标识的传播用户标识之间的传播关系,从而通过神经网络模型从相应用户生成内容的传播用户属性和传播关系中提取出传播特征。
S706,根据训练样本集中各用户生成内容的传播特征和类别标签训练分类器。
具体地,分类器用于将待识别的用户生成内容分类为含谣言用户生成内容类和非含谣言用户生成内容类,训练样本集中的各用户生成内容已知类别标签和传播特征,于是利用训练样本集可以训练分类器中的各参数,使得训练后的分类器可以预测待识别的用户生成内容是否属于含谣言用户生成内容类。
在一个实施例中,服务器可获取训练样本集中各用户生成内容的文本特征,将训练样本集中各用户生成内容的传播特征和文本特征融合为融合特征后,根据训练样本集中各用户生成内容的融合特征和类别标签训练分类器。步骤S312包括:将融合特征输入分类器,输出待识别的用户生成内容是否为含谣言用户生成内容的识别结果。
在一个实施例中,服务器可获取训练样本集中各用户生成内容的发布者属性,将训练样本集中各用户生成内容的传播特征和发布者属性融合为融合特征后,根据训练样本集中各用户生成内容的融合特征和类别标签训练分类器。步骤S312包括:将融合特征输入分类器,输出待识别的用户生成内容是否为含谣言用户生成内容的识别结果。
在一个实施例中,服务器可获取训练样本集中各用户生成内容的发布者属性和文本特征,将训练样本集中各用户生成内容的传播特征、发布者属性和文本特征融合为融合特征后,根据训练样本集中各用户生成内容的融合特征和类别标签训练分类器。步骤S312包括:将融合特征输入分类器,输出待识别的用户生成内容是否为含谣言用户生成内容的识别结果。
本实施例中,分类器经过训练后具有良好的分类性能,利用分类器对传播特征进行分类,该分类结果可直接表示待识别的用户生成内容是否为含谣言用户生成内容,使得含谣言用户生成内容的识别准确且高效。
图8为一个实施例中含谣言用户生成内容识别装置800的结构框图。参照图8,该含谣言用户生成内容识别装置800包括:数据获取模块801、特征提取模块802和识别模块803。
数据获取模块801,用于获取内容标识,内容标识用于标识待识别的用户生成内容;查询与内容标识对应的传播用户标识;查询与传播用户标识对应的传播用户属性;获取对应于内容标识的传播用户标识之间的传播关系。
特征提取模块802,用于通过神经网络模型从传播用户属性和传播关系中提取传播特征。
识别模块803,用于根据传播特征识别待识别的用户生成内容是否为含谣言用户生成内容。
上述含谣言用户生成内容识别装置800,得到待识别的用户生成内容的传播用户属性和传播用户之间的传播关系,再利用神经网络模型从中提取出传播特征,该传播特征对于识别含谣言用户生成内容具有很好的区分性,不再依赖于人工审核,提高了识别含谣言用户生成内容的效率。
在一个实施例中,数据获取模块801还用于获取与传播用户标识存在社交关系的社交网络用户标识;查询社交网络用户标识对应的社交网络用户属性。
识别模块803还用于通过神经网络模型从传播用户属性、传播关系和社交网络用户属性中提取待识别的用户生成内容的传播特征。
本实施例中,在提取传播特征时还结合了与传播用户标识存在社交关系的社交网络用户标识所对应的社交网络用户属性,可以进一步提升传播特征的区分性。
在一个实施例中,数据获取模块801还用于根据传播用户属性和传播关系构建传播图;传播图包括传播用户节点,传播用户节点与传播用户标识对应,包括相应的传播用户属性;传播用户节点间存在边时边表示相应传播用户节点之间的传播关系。
特征提取模块802还用于将传播图以及与传播图中的传播用户节点对应的邻居节点输入Graph LSTM神经网络模型后输出传播特征;邻居节点与社交网络用户标识对应,包括相应的社交网络用户属性。
本实施例中,Graph LSTM神经网络模型是一种通用化、从顺序数据或多维数据泛化到一般图结构数据的LSTM神经网络模型,可以通过传播图中各传播用户节点的历史信息以及邻居节点的信息预测自身未来的信息,可进一步提高传播特征的区分性,进而提高识别含谣言用户生成内容的准确性。
图9为另一个实施例中含谣言用户生成内容识别装置800的结构框图。参照图9,含谣言用户生成内容识别装置800还包括特征融合模块804。
特征提取模块802还用于从待识别的用户生成内容中提取文本特征。
特征融合模块804用于将传播特征和文本特征融合为融合特征。
识别模块803还用于根据融合特征识别待识别的用户生成内容是否为含谣言用户生成内容。
本实施例中,结合用户生成内容的传播特征和文本特征得到融合特征,基于该融合特征进行识别,可进一步提高识别含谣言用户生成内容的准确性。
在一个实施例中,特征提取模块802还用于将待识别的用户生成内容输入用于将文本转化为词向量的卷积神经网络模型,得到词向量形式的文本特征。
在一个实施例中,数据获取模块801还用于获取发布待识别的用户生成内容的发布者标识;查询与发布者标识对应的发布者属性。
特征融合模块804用于将传播特征和发布者属性融合为融合特征。
识别模块803还用于根据融合特征识别待识别的用户生成内容是否为含谣言用户生成内容。
在一个实施例中,识别模块803还用于将传播特征输入分类器,输出待识别的用户生成内容是否为含谣言用户生成内容的识别结果。
本实施例中,将发布者属性和传播特征融合得到的融合特征,在识别含谣言用户生成内容时具有更好的识别性能,可进一步提高识别含谣言用户生成内容的准确性。
参照图9,含谣言用户生成内容识别装置800还包括训练模块805,用于获取训练样本集,训练样本集中的用户生成内容对应有类别标签,类别标签用于标记相应的用户生成内容是否为含谣言用户生成内容;提取训练样本集中各用户生成内容的传播特征;根据训练样本集中各用户生成内容的传播特征和类别标签训练分类器。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,该存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (14)

1.一种含谣言用户生成内容识别方法,包括:
获取内容标识,所述内容标识用于标识待识别的用户生成内容;
查询与所述内容标识对应的传播用户标识;
查询与所述传播用户标识对应的传播用户属性;
获取对应于所述内容标识的所述传播用户标识之间的传播关系;
通过神经网络模型从所述传播用户属性和所述传播关系中提取传播特征;
根据所述传播特征识别所述待识别的用户生成内容是否为含谣言用户生成内容。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取与所述传播用户标识存在社交关系的社交网络用户标识;
查询所述社交网络用户标识对应的社交网络用户属性;
所述通过神经网络模型从所述传播用户属性和所述传播关系中提取传播特征的步骤包括:
通过神经网络模型从所述传播用户属性、所述传播关系和所述社交网络用户属性中提取所述待识别的用户生成内容的传播特征。
3.根据权利要求2所述的方法,其特征在于,所述通过神经网络模型从所述传播用户属性、所述传播关系和所述社交网络用户属性中提取所述待识别的用户生成内容的传播特征的步骤包括:
根据所述传播用户属性和所述传播关系构建传播图;所述传播图包括传播用户节点,所述传播用户节点与所述传播用户标识对应,包括相应的传播用户属性;所述传播用户节点间存在边时所述边表示相应传播用户节点之间的传播关系;
将所述传播图以及与所述传播图中的传播用户节点对应的邻居节点输入Graph LSTM神经网络模型后输出传播特征;所述邻居节点与所述社交网络用户标识对应,包括相应的社交网络用户属性。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述待识别的用户生成内容中提取文本特征;
将所述传播特征和所述文本特征融合为融合特征;
所述根据所述传播特征识别所述待识别的用户生成内容是否为含谣言用户生成内容的步骤包括:
根据所述融合特征识别所述待识别的用户生成内容是否为含谣言用户生成内容。
5.根据权利要求4所述的方法,其特征在于,所述从所述待识别的用户生成内容中提取文本特征的步骤包括:
将所述待识别的用户生成内容输入用于将文本转化为词向量的卷积神经网络模型,得到词向量形式的文本特征。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取发布所述待识别的用户生成内容的发布者标识;
查询与所述发布者标识对应的发布者属性;
将所述传播特征和所述发布者属性融合为融合特征;
所述根据所述传播特征识别所述待识别的用户生成内容是否为含谣言用户生成内容的步骤包括:
根据所述融合特征识别所述待识别的用户生成内容是否为含谣言用户生成内容。
7.根据权利要求1所述的方法,其特征在于,所述根据所述传播特征识别所述待识别的用户生成内容是否为含谣言用户生成内容的步骤包括:
将所述传播特征输入分类器,输出所述待识别的用户生成内容是否为含谣言用户生成内容的识别结果;
所述获取内容标识的步骤之前,所述方法还包括:
获取训练样本集,所述训练样本集中的用户生成内容对应有类别标签,所述类别标签用于标记相应的用户生成内容是否为含谣言用户生成内容;
提取所述训练样本集中各用户生成内容的传播特征;
根据所述训练样本集中各用户生成内容的传播特征和类别标签训练分类器。
8.一种含谣言用户生成内容识别装置,其特征在于,包括:
数据获取模块,用于获取内容标识,所述内容标识用于标识待识别的用户生成内容;查询与所述内容标识对应的传播用户标识;查询与所述传播用户标识对应的传播用户属性;获取对应于所述内容标识的所述传播用户标识之间的传播关系;
特征提取模块,用于通过神经网络模型从所述传播用户属性和所述传播关系中提取传播特征;
识别模块,用于根据所述传播特征识别所述待识别的用户生成内容是否为含谣言用户生成内容。
9.根据权利要求8所述的装置,其特征在于,所述数据获取模块还用于获取与所述传播用户标识存在社交关系的社交网络用户标识;查询所述社交网络用户标识对应的社交网络用户属性;
所述识别模块还用于通过神经网络模型从所述传播用户属性、所述传播关系和所述社交网络用户属性中提取所述待识别的用户生成内容的传播特征。
10.根据权利要求9所述的装置,其特征在于,所述数据获取模块还用于根据所述传播用户属性和所述传播关系构建传播图;所述传播图包括传播用户节点,所述传播用户节点与所述传播用户标识对应,包括相应的传播用户属性;所述传播用户节点间存在边时所述边表示相应传播用户节点之间的传播关系;
所述特征提取模块还用于将所述传播图以及与所述传播图中的传播用户节点对应的邻居节点输入Graph LSTM神经网络模型后输出传播特征;所述邻居节点与所述社交网络用户标识对应,包括相应的社交网络用户属性。
11.根据权利要求8所述的装置,其特征在于,所述特征提取模块还用于从所述待识别的用户生成内容中提取文本特征;
所述装置还包括:
特征融合模块,用于将所述传播特征和所述文本特征融合为融合特征;
所述识别模块还用于根据所述融合特征识别所述待识别的用户生成内容是否为含谣言用户生成内容。
12.根据权利要求11所述的装置,其特征在于,所述特征提取模块还用于将所述待识别的用户生成内容输入用于将文本转化为词向量的卷积神经网络模型,得到词向量形式的文本特征。
13.根据权利要求8所述的装置,其特征在于,所述数据获取模块还用于获取发布所述待识别的用户生成内容的发布者标识;查询与所述发布者标识对应的发布者属性;
所述装置还包括:
特征融合模块,用于将所述传播特征和所述发布者属性融合为融合特征;
所述识别模块还用于根据所述融合特征识别所述待识别的用户生成内容是否为含谣言用户生成内容。
14.根据权利要求8所述的装置,其特征在于,所述识别模块还用于将所述传播特征输入分类器,输出所述待识别的用户生成内容是否为含谣言用户生成内容的识别结果;
所述装置还包括:训练模块,用于获取训练样本集,所述训练样本集中的用户生成内容对应有类别标签,所述类别标签用于标记相应的用户生成内容是否为含谣言用户生成内容;提取所述训练样本集中各用户生成内容的传播特征;根据所述训练样本集中各用户生成内容的传播特征和类别标签训练分类器。
CN201610754885.3A 2016-08-29 2016-08-29 含谣言用户生成内容识别方法和装置 Active CN107797998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610754885.3A CN107797998B (zh) 2016-08-29 2016-08-29 含谣言用户生成内容识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610754885.3A CN107797998B (zh) 2016-08-29 2016-08-29 含谣言用户生成内容识别方法和装置

Publications (2)

Publication Number Publication Date
CN107797998A true CN107797998A (zh) 2018-03-13
CN107797998B CN107797998B (zh) 2021-05-07

Family

ID=61528042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610754885.3A Active CN107797998B (zh) 2016-08-29 2016-08-29 含谣言用户生成内容识别方法和装置

Country Status (1)

Country Link
CN (1) CN107797998B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563686A (zh) * 2018-03-14 2018-09-21 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及系统
CN108833382A (zh) * 2018-05-31 2018-11-16 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN108830630A (zh) * 2018-04-09 2018-11-16 平安科技(深圳)有限公司 一种虚假消息的识别方法及其设备
CN109558483A (zh) * 2018-10-16 2019-04-02 北京航空航天大学 一种基于朴素贝叶斯模型的谣言识别方法
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和系统
CN110555198A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN110765108A (zh) * 2019-10-24 2020-02-07 西北工业大学 一种基于群智数据融合的假消息早期检测方法
CN112231562A (zh) * 2020-10-15 2021-01-15 北京工商大学 一种网络谣言识别方法及系统
CN112464082A (zh) * 2020-11-05 2021-03-09 重庆邮电大学 基于稀疏表示和张量补全的谣言-辟谣博弈传播控制方法
CN113742604A (zh) * 2021-08-24 2021-12-03 三峡大学 一种谣言检测方法、装置、电子设备和存储介质
CN116361839A (zh) * 2023-05-26 2023-06-30 四川易景智能终端有限公司 一种基于nlp的涉密屏蔽方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151585A (en) * 1998-04-24 2000-11-21 Microsoft Corporation Methods and apparatus for determining or inferring influential rumormongers from resource usage data
CN103902621A (zh) * 2012-12-28 2014-07-02 深圳先进技术研究院 一种鉴定网络谣言的方法和装置
CN104572807A (zh) * 2014-10-29 2015-04-29 中国科学院计算技术研究所 一种基于微博信息源的新闻认证方法及系统
CN104992142A (zh) * 2015-06-03 2015-10-21 江苏大学 一种基于深度学习和属性学习相结合的行人识别方法
CN105045857A (zh) * 2015-07-09 2015-11-11 中国科学院计算技术研究所 一种社交网络谣言识别方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151585A (en) * 1998-04-24 2000-11-21 Microsoft Corporation Methods and apparatus for determining or inferring influential rumormongers from resource usage data
CN103902621A (zh) * 2012-12-28 2014-07-02 深圳先进技术研究院 一种鉴定网络谣言的方法和装置
CN104572807A (zh) * 2014-10-29 2015-04-29 中国科学院计算技术研究所 一种基于微博信息源的新闻认证方法及系统
CN104992142A (zh) * 2015-06-03 2015-10-21 江苏大学 一种基于深度学习和属性学习相结合的行人识别方法
CN105045857A (zh) * 2015-07-09 2015-11-11 中国科学院计算技术研究所 一种社交网络谣言识别方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Z. YANG: "Emerging Rumor Identification for Social Media with Hot Topic Detection", 《2015 12TH WEB INFORMATION SYSTEM AND APPLICATION CONFERENCE》 *
贺刚: "微博谣言识别研究", 《图书情报工作》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108563686A (zh) * 2018-03-14 2018-09-21 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及系统
CN108563686B (zh) * 2018-03-14 2021-07-30 中国科学院自动化研究所 基于混合神经网络的社交网络谣言识别方法及系统
CN108830630A (zh) * 2018-04-09 2018-11-16 平安科技(深圳)有限公司 一种虚假消息的识别方法及其设备
WO2019196259A1 (zh) * 2018-04-09 2019-10-17 平安科技(深圳)有限公司 一种虚假消息的识别方法及其设备
CN108830630B (zh) * 2018-04-09 2020-04-10 平安科技(深圳)有限公司 一种虚假消息的识别方法及其设备
CN108833382A (zh) * 2018-05-31 2018-11-16 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN110555198A (zh) * 2018-05-31 2019-12-10 北京百度网讯科技有限公司 用于生成文章的方法、装置、设备和计算机可读存储介质
CN108833382B (zh) * 2018-05-31 2020-12-15 腾讯科技(深圳)有限公司 网络信息检测方法、装置、存储介质和计算机设备
CN109558483B (zh) * 2018-10-16 2021-06-18 北京航空航天大学 一种基于朴素贝叶斯模型的谣言识别方法
CN109558483A (zh) * 2018-10-16 2019-04-02 北京航空航天大学 一种基于朴素贝叶斯模型的谣言识别方法
CN110362818A (zh) * 2019-06-06 2019-10-22 中国科学院信息工程研究所 基于用户关系结构特征的微博谣言检测方法和系统
CN110765108A (zh) * 2019-10-24 2020-02-07 西北工业大学 一种基于群智数据融合的假消息早期检测方法
CN112231562A (zh) * 2020-10-15 2021-01-15 北京工商大学 一种网络谣言识别方法及系统
CN112231562B (zh) * 2020-10-15 2023-07-14 北京工商大学 一种网络谣言识别方法及系统
CN112464082A (zh) * 2020-11-05 2021-03-09 重庆邮电大学 基于稀疏表示和张量补全的谣言-辟谣博弈传播控制方法
CN112464082B (zh) * 2020-11-05 2022-06-28 重庆邮电大学 基于稀疏表示和张量补全的谣言-辟谣博弈传播控制方法
CN113742604A (zh) * 2021-08-24 2021-12-03 三峡大学 一种谣言检测方法、装置、电子设备和存储介质
CN113742604B (zh) * 2021-08-24 2024-04-16 三峡大学 一种谣言检测方法、装置、电子设备和存储介质
CN116361839A (zh) * 2023-05-26 2023-06-30 四川易景智能终端有限公司 一种基于nlp的涉密屏蔽方法
CN116361839B (zh) * 2023-05-26 2023-07-28 四川易景智能终端有限公司 一种基于nlp的涉密屏蔽方法

Also Published As

Publication number Publication date
CN107797998B (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN107797998A (zh) 含谣言用户生成内容识别方法和装置
Mridha et al. A comprehensive review on fake news detection with deep learning
Gong et al. Attentional graph convolutional networks for knowledge concept recommendation in moocs in a heterogeneous view
Niu et al. Multi-modal multi-scale deep learning for large-scale image annotation
Neelakandan et al. A gradient boosted decision tree-based sentiment classification of twitter data
Boenninghoff et al. Explainable authorship verification in social media via attention-based similarity learning
CN110399609B (zh) 意图识别方法、装置、设备及计算机可读存储介质
CN107633036A (zh) 一种微博用户画像方法、电子设备、存储介质、系统
CN106663129A (zh) 一种基于状态机上下文敏感多轮对话管理系统及方法
Hada et al. Rexplug: Explainable recommendation using plug-and-play language model
Collins et al. Fake news types and detection models on social media a state-of-the-art survey
CN102629275A (zh) 面向跨媒体新闻检索的人脸-人名对齐方法及系统
Mohamad Nezami et al. Face-cap: Image captioning using facial expression analysis
Jain et al. Video captioning: a review of theory, techniques and practices
CN105740382A (zh) 一种对短评论文本进行方面分类方法
Shojaee et al. A framework for fake review annotation
Zhang et al. Multimodal pre-training based on graph attention network for document understanding
Lu et al. Decomposed soft prompt guided fusion enhancing for compositional zero-shot learning
CN103853746A (zh) 词库生成方法及其系统、输入法及输入系统
CN106874397A (zh) 一种面向物联网设备的自动语义标注方法
Kumar et al. Ranking clarification questions via natural language inference
KR102206781B1 (ko) 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치
Ogudo et al. Sentiment analysis application and natural language processing for mobile network operators’ support on social media
CN108038204A (zh) 针对社交媒体的观点检索系统及方法
Feng et al. Towards bridged vision and language: Learning cross-modal knowledge representation for relation extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant