CN107992501A - 社交网络信息识别方法、处理方法及装置 - Google Patents

社交网络信息识别方法、处理方法及装置 Download PDF

Info

Publication number
CN107992501A
CN107992501A CN201610956467.2A CN201610956467A CN107992501A CN 107992501 A CN107992501 A CN 107992501A CN 201610956467 A CN201610956467 A CN 201610956467A CN 107992501 A CN107992501 A CN 107992501A
Authority
CN
China
Prior art keywords
information
target text
participle
phrase
deceptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610956467.2A
Other languages
English (en)
Other versions
CN107992501B (zh
Inventor
刘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610956467.2A priority Critical patent/CN107992501B/zh
Priority to PCT/CN2017/104275 priority patent/WO2018068664A1/zh
Publication of CN107992501A publication Critical patent/CN107992501A/zh
Priority to US16/026,786 priority patent/US10805255B2/en
Application granted granted Critical
Publication of CN107992501B publication Critical patent/CN107992501B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Primary Health Care (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网技术领域,尤其涉及一种社交网络信息识别方法、处理方法及装置。本发明通过对目标文本进行分词,将相邻两个分词作为一个词组,计算每个词组中两个分词的关联值,将其与虚假信息库和真实信息库中对应的两个词的关联值进行比对,根据关联值接近程度来确定目标文本中每个词组的信息类型,进而通过统计目标文本中所有词组的信息类型来确定目标文本的信息类型,实现了通过较为简单的算法快速识别网络虚假信息,可以为网络管理者快速反应提供重要的依据,便于网络管理者及时处理网络虚假信息,降低虚假信息传播造成的不良影响。

Description

社交网络信息识别方法、处理方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种社交网络信息识别方法、处理方法及装置。
背景技术
社交网络的流行和普及,使得社交网络中的信息数量呈现爆炸式地增长,然而信息质量却没有得到相应的提升,各种垃圾信息尤其是谣言等虚假信息充斥着整个社交网络,谣言的传播与扩散给人们的生活和社会的发展带来了极大的危害和负面影响。
谣言是指没有相应事实基础,却被捏造出来并通过一定手段推动传播的言论,在受众未被明确或暗示虚构的前提下,被捏造及传播的与事实不同甚至相反的言论即是谣言。由于普通用户的知识和信息量有限,无法识别出所有谣言,从而使谣言在社交网络中广泛传播。如果能够及时准确地识别出社交网络当中的谣言消息,不仅有助于营造良好的互联网环境,帮助人们更好地识别信息的真伪,及时杜绝恶意谣言带来的严重危害,还能在舆情监测、信息引导等方面发挥积极的作用。
目前已有的谣言识别方法主要可以分为两类,一类是基于人工的方法,其机制主要是通过对已发布的消息进行人工检举和判定,这类方法无法在谣言产生的初期遏制其传播与扩散,及时性差,并且需要大量的劳力和财力,成本性高;另一类方法是基于机器学习的方法,以微博为例,将微博内容是否为谣言作为分类问题来处理,并利用微博的各类特征,采用某种分类学习算法来进行谣言的识别,在分类特征的选择上,目前主要可以分成3种,分别是微博的内容、发布者以及微博的传播,在内容特征的选择上,主要是利用内容的浅层文本特征(如内容中是否包含链接、图片、是否提及他人等);在发布者的方面,主要是选择一些静态特征,包括发布者的粉丝数、朋友数等基本属性;这种机器学习方法虽然可以实现一定的谣言识别效果,但其内容特征选择较多,实施复杂。
发明内容
发明人通过分析大量虚假信息和对应的真实信息,发现在表达意思相似的两个文本中,各文本中关键词的相关性是相似的,而在表达意思不同的两个文本中,各文本中关键词的相关性差距甚大。以三段文本A、B和C为例,
文本A:羊肉能与绿豆同食;
文本B:羊肉可以和绿豆一起食用;
文本C:凉性的羊肉不能与绿豆同食;
通过提取各文本关键词,得到文本A中的关键词:羊肉、能、绿豆、同食,文本B中的关键词:羊肉、可以、绿豆、食用,文本C中的关键词:羊肉、不能、绿豆、同食;文本中各关键词是前后关联的,如果两个文本中关键词的关联性不同且不相似,而其中一个是正确的,那么另一个就是错误的,如两个文本中关键词的关联性相同或近似,则两个文本都是正确的或错误的。
基于上述原理,可以通过收集虚假信息和对应的真实信息,建立虚假信息库和真实信息库,需要识别社交网络中的信息是否为虚假信息时,通过分析该信息中关键词的相关性,来分别与真实信息库和虚假信息库中对应的关键词的相关性进行比对,与哪一类(虚假信息或真实信息)的相关度越接近则属于那一类的可能性越大。
第一方面,本发明提供一种社交网络信息识别方法,包括:
对目标文本进行分词处理,得到目标文本的分词;
按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
对目标文本中所有词组的信息类型进行统计,得到统计结果;
根据统计结果确定所述目标文本的信息类型。
优选地,所述对目标文本进行分词处理,得到目标文本的分词,包括:
获取目标文本;
对所述目标文本进行预处理,去除目标文本中的停用词;
采用字典分词法对所述目标文本进行分词处理,得到目标文本的分词。
优选地,所述根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,包括:
计算每个词组中两个分词的关联值;
提取虚假信息库中对应的所述两个分词的关联值,作为第一关联值;提取真实信息库中对应的所述两个分词的关联值,作为第二关联值;
根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型。
优选地,所述根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型,包括:
计算所述关联值与第一关联值的差值,得到第一差值;计算所述关联值与第二关联值的差值,得到第二差值;
比较所述第一差值的绝对值和第二差值的绝对值的大小,若第一差值的绝对值大于第二差值的绝对值,则确定该词组的信息类型为真实信息,若第一差值的绝对值小于第二差值的绝对值,则确定该词组的信息类型为虚假信息,若第一差值的绝对值与第二差值的绝对值相等,则确定该词组的信息类型为无偏向信息。
优选地,所述计算每个词组中两个分词的关联值,包括:
根据公式X(W12)=C(W2)*C(W12)/C(W1)计算得到词组中两个分词的关联值;
其中,X(W12)表示所述词组中两个分词的关联值,C(W1)表示所述词组中的第一个分词在目标文本中出现的频次,C(W2)表示所述词组中的第二个分词在目标文本中出现的频次,C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次,所述第一个分词在目标文本中的出现顺序早于第二个分词。
优选地,所述对目标文本中所有词组的信息类型进行统计,得到统计结果,包括:
获取目标文本中所有词组的信息类型;
统计各个信息类型的出现频次,得到统计结果。
优选地,所述根据统计结果确定所述目标文本的信息类型,包括:
比较虚假信息和真实信息的出现频次,将出现频次较高的信息类型确定为所述目标文本的信息类型,如果虚假信息的出现频次和真实信息的出现频次相同,则确定所述目标文本的信息类型为无偏向信息。
进一步地,所述对目标文本进行分词处理,得到目标文本的分词之前,还包括:
对虚假信息库中的虚假信息样本进行分词处理,得到虚假信息样本的分词,按照各分词在该虚假信息样本中的出现顺序,计算得到相邻两个分词的关联值;
对真实信息库中的真实信息样本进行分词处理,得到真实信息样本的分词,按照各分词在该真实信息样本中的出现顺序,计算得到相邻两个分词的关联值。
第二方面,本发明还提供一种社交网络信息处理方法,包括:
对目标文本进行分词处理,得到目标文本的分词;
按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
对目标文本中所有词组的信息类型进行统计,得到统计结果;
根据统计结果确定所述目标文本的信息类型;
根据目标文本的信息类型对所述目标文本进行处理。
优选地,所述根据目标文本的信息类型对所述目标文本进行处理,包括:若所述目标文本的信息类型为虚假信息,则删除社交网络中的所述目标文本。
第三方面,本发明提供一种社交网络信息识别装置,包括:
分词单元,用于对目标文本进行分词处理,得到目标文本的分词;
第一确定单元,用于按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
统计单元,用于对目标文本中所有词组的信息类型进行统计,得到统计结果;
第二确定单元,用于根据统计结果确定所述目标文本的信息类型。
优选地,所述分词单元包括:
第一获取子单元,用于获取目标文本;
处理子单元,用于对所述目标文本进行预处理,去除目标文本中的停用词;
分词子单元,用于采用字典分词法对经过处理子单元处理后的目标文本进行分词处理,得到目标文本的分词。
优选地,所述第一确定单元包括:
计算子单元,用于计算每个词组中两个分词的关联值;
提取子单元,用于提取虚假信息库中对应的所述两个分词的关联值,作为第一关联值,提取真实信息库中对应的所述两个分词的关联值,作为第二关联值;
确定子单元,用于根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型。
优选地,所述确定子单元包括:
计算模块,用于计算所述关联值与第一关联值的差值,得到第一差值;计算所述关联值与第二关联值的差值,得到第二差值;
确定模块,用于比较所述第一差值的绝对值和第二差值的绝对值的大小,若第一差值的绝对值大于第二差值的绝对值,则确定该词组的信息类型为真实信息,若第一差值的绝对值小于第二差值的绝对值,则确定该词组的信息类型为虚假信息,若第一差值的绝对值与第二差值的绝对值相等,则确定该词组的信息类型为无偏向信息。
优选地,所述计算子单元,具体用于根据公式X(W12)=C(W2)*C(W12)/C(W1)计算得到词组中两个分词的关联值;
其中,X(W12)表示所述词组中两个分词的关联值,C(W1)表示所述词组中的第一个分词在目标文本中出现的频次,C(W2)表示所述词组中的第二个分词在目标文本中出现的频次,C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次,所述第一个分词在目标文本中的出现顺序早于第二个分词。
优选地,所述统计单元包括:
第二获取子单元,用于获取目标文本中所有词组的信息类型,
统计子单元,用于统计各个信息类型的出现频次,得到统计结果;
所述第二确定单元,具体用于比较虚假信息和真实信息的出现频次,将出现频次较高的信息类型确定为所述目标文本的信息类型,如果虚假信息的出现频次和真实信息的出现频次相同,则确定所述目标文本的信息类型为无偏向信息。
进一步地,所述装置还包括:
预处理单元,用于对虚假信息库中的虚假信息样本进行分词处理,得到虚假信息样本的分词,按照各分词在该虚假信息样本中的出现顺序,计算得到相邻两个分词的关联值;还用于对真实信息库中的真实信息样本进行分词处理,得到真实信息样本的分词,按照各分词在该真实信息样本中的出现顺序,计算得到相邻两个分词的关联值。
第四方面,本发明提供一种社交网络信息处理装置,包括:
分词单元,用于对目标文本进行分词处理,得到目标文本的分词;
第一确定单元,用于按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
统计单元,用于对目标文本中所有词组的信息类型进行统计,得到统计结果;
第二确定单元,用于根据统计结果确定所述目标文本的信息类型;
处理单元,用于根据目标文本的信息类型对所述目标文本进行处理。
优选地,所述处理单元,具体用于当第二确定单元确定所述目标文本的信息类型为虚假信息时,删除社交网络中的所述目标文本。
本发明具有如下有益效果:
本发明通过对目标文本进行分词,将相邻两个分词作为一个词组,计算每个词组中两个分词的关联值,将其与虚假信息库和真实信息库中对应的两个词的关联值进行比对,根据关联值接近程度来确定目标文本中每个词组的信息类型,进而通过统计目标文本中所有词组的信息类型来确定目标文本的信息类型,实现了通过较为简单的算法快速识别网络虚假信息,可以为网络管理者快速反应提供重要的依据,便于网络管理者及时处理网络虚假信息,降低虚假信息传播造成的不良影响。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是可用于实施本发明实施例的社交网络信息识别方法的计算机终端的硬件结构框图;
图2是本发明实施例1揭示的社交网络信息识别方法的流程图;
图3是本发明实施例2揭示的社交网络信息识别方法的流程图;
图4是本发明实施例2揭示的确定词组所属信息类型的方法的流程图;
图5是本发明实施例3揭示的社交网络信息处理方法的流程图;
图6是本发明实施例4揭示的社交网络信息识别装置的示意图;
图7是本发明实施例4揭示的社交网络信息识别装置的示意图;
图8是本发明实施例5揭示的社交网络信息处理装置的示意图;
图9是根据本发明实施例的计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本实施例提供一种社交网络信息识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是可用于实施本发明的社交网络信息识别方法的计算机终端的硬件结构框图。如图1所示,计算机终端100可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的社交网络信息识别方法对应的程序指令/模块,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的社交网络信息识别方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端100的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在上述运行环境下,本申请提供了如图2所示的一种社交网络信息识别方法。该方法可以应用于智能终端设备中,由智能终端设备中的处理器执行,智能终端设备可以是智能手机、平板电脑等。智能终端设备中安装有至少一个应用程序,本发明实施例并不限定应用程序的种类,可以为系统类应用程序,也可以为软件类应用程序。
图2是本发明实施例一揭示的社交网络信息识别方法的流程图。如图2所示,该方法的一种可选的方案包括如下步骤:
步骤S201,对目标文本进行分词处理,得到目标文本的分词;
步骤S202,按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
步骤S203,对目标文本中所有词组的信息类型进行统计,得到统计结果;
步骤S204,根据统计结果确定所述目标文本的信息类型。
作为步骤S202的一种优选实施方式,所述根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,包括:
步骤S2021,根据公式X(W12)=C(W2)*C(W12)/C(W1)计算得到每个词组中两个分词的关联值;其中,X(W12)表示所述词组中两个分词的关联值,C(W1)表示所述词组中的第一个分词在目标文本中出现的频次,C(W2)表示所述词组中的第二个分词在目标文本中出现的频次,C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次,所述第一个分词在目标文本中的出现顺序早于第二个分词;
步骤S2022,提取虚假信息库中对应的所述两个分词的关联值,作为第一关联值;提取真实信息库中对应的所述两个分词的关联值,作为第二关联值;根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型;具体包括:计算所述关联值与第一关联值的差值,得到第一差值;计算所述关联值与第二关联值的差值,得到第二差值;比较所述第一差值的绝对值和第二差值的绝对值的大小,若第一差值的绝对值大于第二差值的绝对值,则确定该词组的信息类型为真实信息,若第一差值的绝对值小于第二差值的绝对值,则确定该词组的信息类型为虚假信息,若第一差值的绝对值与第二差值的绝对值相等,则确定该词组的信息类型为无偏向信息。
本发明通过建立虚假信息库和真实信息库,对虚假信息和对应的真实信息进行分析,计算得到虚假信息中相邻关键词的相关度和真实信息中相邻关键词的相关度,通过判断目标文本中相邻关键词的相关度与二者的接近程度,来确定目标文本中相邻关键词的信息类型,并进一步通过统计目标文本中所有相邻关键词的信息类型得到目标文本的信息类型,实现了通过较为简单的算法快速识别网络虚假信息,可以为网络管理者快速反应提供重要的依据。
实施例2
本实施例提供一种社交网络信息识别方法。在如实施例1的运行环境下,本申请提供了如图3所示的社交网络信息识别方法。如图3所示,图3是根据本发明实施例的社交网络信息识别方法的流程图,该方法的一种可选的方案包括如下步骤:
步骤一:对虚假信息库中的虚假信息样本及真实信息库中的真实信息样本进行处理。
虚假信息库中的虚假信息样本可以通过人工收集获得,真实信息库中的真实信息样本可以从已知的知识库(如各种百科知识)里提取得到。较优的,虚假信息样本和真实信息样本一一对应收录,当收集到一个错误的虚假信息样本,则对应的查找一个正确的真实信息样本,将虚假信息样本存入虚假信息库,将该真实信息样本存入真实信息库。
对信息样本的处理过程包括:对虚假信息库中的虚假信息样本进行分词处理,得到虚假信息样本的分词,按照各分词在该虚假信息样本中的出现顺序,计算得到相邻两个分词的关联值;对真实信息库中的真实信息样本进行分词处理,得到真实信息样本的分词,按照各分词在该真实信息样本中的出现顺序,计算得到相邻两个分词的关联值。
由于对虚假信息样本的预处理过程和对真实信息样本的预处理过程相同,下面就以虚假信息样本为例对预处理过程展开说明。
参见图3,对虚假信息样本的预处理过程包括:
S11:从虚假信息库中提取虚假信息样本,将虚假信息样本输入分词模块。
S12:利用分词模块对虚假信息样本进行分词处理,得到虚假信息样本的分词结果。
具体包括:
首先对虚假信息样本进行预处理,去除虚假信息样本中的停用词,停用词是人工收集得到的,主要包含标点符号、代词、语气词、助词、连词等,这些停用词一般没有特殊的意义,经常搭配别的词构成词或短语。
然后对去除停用词的虚假信息样本采用字典分词法进行分词,分词时可以采用正向最大匹配算法、逆向最大匹配算法或双向最大匹配算法,其中,正向最大匹配算法和逆向最大匹配算法是常用的分词方法,其具体步骤在此不再赘述,双向最大匹配算法具体为:对待分词文本分别采用正向最大匹配算法和逆向最大匹配算法进行分词,当正向最大匹配算法和逆向最大匹配算法得到的分词结果中词数不一致时,取分词数量较少的作为最终结果,若两种方法得到的分词结果中词数一致,则任取一个分词结果作为最终结果。
之后,统计各个分词在虚假信息样本中的出现频次,按照各分词在虚假信息样本中的出现顺序进行正向排序,并对应记录各分词在虚假信息样本中的出现频次。例如文本Q:温、热性的狗、羊肉就不能与寒、凉性的绿豆、西瓜同食。对文本Q进行分词处理后,可以得到一个矩阵样式的分词结果,如表一所示。
表一:
S13:将分词结果输入相关性计算模块,按照各分词在虚假信息样本中的出现顺序,计算相邻两个分词的相关性,得到相邻两个分词的关联值。
具体地,可以按照各分词在虚假信息样本中的出现顺序,根据公式X(W)=C(W02)*C(W)/C(W01)计算相邻两个分词的关联值;
其中,X(W)表示相邻两个分词的关联值,C(W01)表示两个分词中的第一个分词在虚假信息样本中出现的频次,C(W02)表示两个分词中的第二个分词在虚假信息样本中出现的频次,第一个分词的出现顺序早于第二个分词,C(W)表示第一个分词和第二个分词在虚假信息样本中有顺序的同时连续出现的频次。
S14:将相邻两个分词及其关联值对应存储。
步骤二:对目标文本进行分词处理,得到目标文本的分词。
对目标文本进行分词处理,得到目标文本的分词,具体包括:
S21:获取目标文本;目标文本可以从社交应用软件中获取得到,例如从微博中提取微博信息,将微博信息作为目标文本,从微信提取公众号文章或微信朋友圈消息,将该文章或者朋友圈消息作为目标文本。
S22:对所述目标文本进行预处理,去除目标文本中的停用词。
停用词是人工收集得到的,主要包含标点符号、代词、语气词、助词、连词等,这些停用词一般没有特殊的意义,经常搭配别的词构成词或短语,术语一般不包含停用词。停用词示例:“啊”、“哦”、“呃”、“以及”、“的”、“得”、“几乎”、“什么”、“我”、“它”、“我们”等。
S23:采用字典分词法对所述目标文本进行分词处理,得到目标文本的分词。
对去除停用词的目标文本采用字典分词法进行分词,分词时可以采用正向最大匹配算法、逆向最大匹配算法或双向最大匹配算法,其中,正向最大匹配算法和逆向最大匹配算法是常用的分词方法,其具体步骤在此不再赘述,双向最大匹配算法具体为:对待分词文本分别采用正向最大匹配算法和逆向最大匹配算法进行分词,当正向最大匹配算法和逆向最大匹配算法得到的分词结果中词数不一致时,取分词数量较少的作为最终结果,若两种方法得到的分词结果中词数一致,则任取一个分词结果作为最终结果。然后,统计各个分词在目标文本中的出现频次,按照各分词在文本中的出现顺序进行正向排序,并对应记录各分词在虚假信息样本中的出现频次,得到一个用矩阵表示的分词结果。
步骤三:按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息。
图4是本发明实施例揭示的确定词组所属信息类型的方法的流程图。参见图4,确定词组所属信息类型的方法包括:
S401:计算每个词组中两个分词的关联值。
具体地,可以根据公式X(W12)=C(W2)*C(W12)/C(W1)计算得到词组中两个分词的关联值;其中,X(W12)表示所述词组中两个分词的关联值,C(W1)表示所述词组中的第一个分词在目标文本中出现的频次,C(W2)表示所述词组中的第二个分词在目标文本中出现的频次,C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次,所述第一个分词在目标文本中的出现顺序早于第二个分词。
S402:提取虚假信息库中对应的所述两个分词的关联值,作为第一关联值;提取真实信息库中对应的所述两个分词的关联值,作为第二关联值。
S403:根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型。
优选地,所述根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型,包括:
计算所述关联值与第一关联值的差值,得到第一差值;计算所述关联值与第二关联值的差值,得到第二差值;
比较所述第一差值的绝对值和第二差值的绝对值的大小,若第一差值的绝对值大于第二差值的绝对值,则确定该词组的信息类型为真实信息,若第一差值的绝对值小于第二差值的绝对值,则确定该词组的信息类型为虚假信息,若第一差值的绝对值与第二差值的绝对值相等,则确定该词组的信息类型为无偏向信息。
例如,目标文本中相邻的两个分词“羊肉”、“绿豆”的关联值是4,虚假信息库中对应的两个词“羊肉”、“绿豆”的关联值是1,真实信息库中对应的两个词“羊肉”、“绿豆”的关联值是3,则可以将1作为第一关联值,将3作为第二关联值;计算得到第一差值的绝对值为3,第二差值的绝对值为1,可以确定该词组(“羊肉”和“绿豆”)的信息类型为真实信息。
步骤四:对目标文本中所有词组的信息类型进行统计,得到统计结果。
优选地,该步骤包括:获取目标文本中所有词组的信息类型;统计各个信息类型的出现频次,得到统计结果。
步骤五:根据统计结果确定所述目标文本的信息类型。
优选地,所述根据统计结果确定所述目标文本的信息类型,包括:
比较虚假信息和真实信息的出现频次,将出现频次较高的信息类型确定为所述目标文本的信息类型,如果虚假信息的出现频次和真实信息的出现频次相同,则确定所述目标文本的信息类型为无偏向信息。
需要说明的是,对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例3
本实施例提供一种社交网络信息处理方法。在如实施例1的运行环境下,本申请提供了如图5所示的社交网络信息处理方法。如图5所示,图5是根据本发明实施例的社交网络信息处理方法的流程图,该方法的一种可选的方案包括如下步骤:
S501:对目标文本进行分词处理,得到目标文本的分词;
S502:按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
S503:对目标文本中所有词组的信息类型进行统计,得到统计结果;
S504:根据统计结果确定所述目标文本的信息类型;
S505:根据目标文本的信息类型对所述目标文本进行处理。
优选地,所述根据目标文本的信息类型对所述目标文本进行处理,包括:若所述目标文本的信息类型为虚假信息,则删除社交网络中的所述目标文本。
其中,目标文本可以从社交应用软件中获取得到,例如从微博中提取微博信息,将微博信息作为目标文本,从微信提取公众号文章或微信朋友圈消息,将该文章或者朋友圈消息作为目标文本。当确定所述目标文本的信息类型为虚假信息时,则删除社交网络中对应的目标文本,例如目标文本为微信朋友圈消息,当确定该目标文本是虚假信息时,可通知网络管理者手动处理该信息,或则自动删除该朋友圈消息。
本实施例实现了通过较为简单的算法快速识别网络虚假信息,可以为网络管理者快速反应提供重要的依据,便于网络管理者及时处理网络虚假信息,降低或避免虚假信息传播造成的不良影响。
实施例4
本实施例提供一种社交网络信息识别装置。如图6所示,该装置包括分词单元10、第一确定单元20、统计单元30和第二确定单元40。
分词单元10,用于对目标文本进行分词处理,得到目标文本的分词;
第一确定单元20,用于按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
统计单元30,用于对目标文本中所有词组的信息类型进行统计,得到统计结果;
第二确定单元40,用于根据统计结果确定所述目标文本的信息类型。
该实施例的社交网络信息识别装置中,分词单元10用于执行本发明实施例1中的步骤S201,第一确定单元20用于执行本发明实施例1中的步骤S202,统计单元30用于执行本发明实施例1中的步骤S203,第二确定单元40用于执行本发明实施例1中的步骤S204。
参见图7,作为一种可选的实施方式,所述分词单元10包括第一获取子单元101、处理子单元102和分词子单元103。
第一获取子单元101,用于获取目标文本;
处理子单元102,用于对所述目标文本进行预处理,去除目标文本中的停用词;
分词子单元103,用于采用字典分词法对经过处理子单元处理后的目标文本进行分词处理,得到目标文本的分词。
作为一种可选的实施方式,,所述第一确定单元20包括计算子单元201、提取子单元202和确定子单元203。
计算子单元201,用于计算每个词组中两个分词的关联值;
提取子单元202,用于提取虚假信息库中对应的所述两个分词的关联值,作为第一关联值,提取真实信息库中对应的所述两个分词的关联值,作为第二关联值;
确定子单元203,用于根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型。
进一步地,所述确定子单元203包括计算模块2031和确定模块2032。
计算模块2031,用于计算所述关联值与第一关联值的差值,得到第一差值;计算所述关联值与第二关联值的差值,得到第二差值;
确定模块2032,用于比较所述第一差值的绝对值和第二差值的绝对值的大小,若第一差值的绝对值大于第二差值的绝对值,则确定该词组的信息类型为真实信息,若第一差值的绝对值小于第二差值的绝对值,则确定该词组的信息类型为虚假信息,若第一差值的绝对值与第二差值的绝对值相等,则确定该词组的信息类型为无偏向信息。
所述计算子单元201,具体用于根据公式X(W12)=C(W2)*C(W12)/C(W1)计算得到词组中两个分词的关联值;其中,X(W12)表示所述词组中两个分词的关联值,C(W1)表示所述词组中的第一个分词在目标文本中出现的频次,C(W2)表示所述词组中的第二个分词在目标文本中出现的频次,C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次,所述第一个分词在目标文本中的出现顺序早于第二个分词。
作为一种可选的实施方式,所述统计单元30包括:
第二获取子单元301,用于获取目标文本中所有词组的信息类型,
统计子单元302,用于统计各个信息类型的出现频次,得到统计结果;
所述第二确定单元40,具体用于比较虚假信息和真实信息的出现频次,将出现频次较高的信息类型确定为所述目标文本的信息类型,如果虚假信息的出现频次和真实信息的出现频次相同,则确定所述目标文本的信息类型为无偏向信息。
进一步地,所述装置还包括预处理单元和存储单元。
所述预处理单元,用于对虚假信息库中的虚假信息样本进行分词处理,得到虚假信息样本的分词,按照各分词在该虚假信息样本中的出现顺序,计算得到相邻两个分词的关联值;还用于对真实信息库中的真实信息样本进行分词处理,得到真实信息样本的分词,按照各分词在该真实信息样本中的出现顺序,计算得到相邻两个分词的关联值;
所述存储单元包括第一存储模块和第二存储模块,所述第一存储模块用于存储对虚假信息样本进行预处理得到的关联值及对应的分词,所述第二存储模块用于存储对真实信息样本进行预处理得到的关联值及对应的分词。
本发明通过对目标文本进行分词,将相邻两个分词作为一个词组,计算每个词组中两个分词的关联值,将其与虚假信息库和真实信息库中对应的两个词的关联值进行比对,根据关联值接近程度来确定目标文本中每个词组的信息类型,进而通过统计目标文本中所有词组的信息类型来确定目标文本的信息类型,实现了通过较为简单的算法快速识别网络虚假信息,可以为网络管理者快速反应提供重要的依据,便于网络管理者及时处理网络虚假信息,降低虚假信息传播造成的不良影响。
实施例5
本实施例提供一种社交网络信息处理装置。如图8所示,该装置包括分词单元10、第一确定单元20、统计单元30、第二确定单元40和处理单元50。
分词单元10,用于对目标文本进行分词处理,得到目标文本的分词;
第一确定单元20,用于按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
统计单元30,用于对目标文本中所有词组的信息类型进行统计,得到统计结果;
第二确定单元40,用于根据统计结果确定所述目标文本的信息类型;
处理单元50,用于根据目标文本的信息类型对所述目标文本进行处理。
该实施例的社交网络信息识别装置中,分词单元10用于执行本发明实施例3中的步骤S501,第一确定单元20用于执行本发明实施例3中的步骤S502,统计单元30用于执行本发明实施例3中的步骤S503,第二确定单元40用于执行本发明实施例3中的步骤S504,处理单元50用于执行本发明实施例3中的步骤S505。
优选地,所述处理单元50,具体用于当第二确定单元确定所述目标文本的信息类型为虚假信息时,删除社交网络中的所述目标文本。
实施例6
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例的一种社交网络信息识别方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
第一步,对目标文本进行分词处理,得到目标文本的分词。
第二步,按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息。
第三步,对目标文本中所有词组的信息类型进行统计,得到统计结果。
第四步,根据统计结果确定所述目标文本的信息类型。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取目标文本;对所述目标文本进行预处理,去除目标文本中的停用词;采用字典分词法对所述目标文本进行分词处理,得到目标文本的分词。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:计算每个词组中两个分词的关联值;提取虚假信息库中对应的所述两个分词的关联值,作为第一关联值;提取真实信息库中对应的所述两个分词的关联值,作为第二关联值;根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:计算所述关联值与第一关联值的差值,得到第一差值;计算所述关联值与第二关联值的差值,得到第二差值;比较所述第一差值的绝对值和第二差值的绝对值的大小,若第一差值的绝对值大于第二差值的绝对值,则确定该词组的信息类型为真实信息,若第一差值的绝对值小于第二差值的绝对值,则确定该词组的信息类型为虚假信息,若第一差值的绝对值与第二差值的绝对值相等,则确定该词组的信息类型为无偏向信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:获取目标文本中所有词组的信息类型;统计各个信息类型的出现频次,得到统计结果。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:比较虚假信息和真实信息的出现频次,将出现频次较高的信息类型确定为所述目标文本的信息类型,如果虚假信息的出现频次和真实信息的出现频次相同,则确定所述目标文本的信息类型为无偏向信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:对虚假信息库中的虚假信息样本进行分词处理,得到虚假信息样本的分词,按照各分词在该虚假信息样本中的出现顺序,计算得到相邻两个分词的关联值;对真实信息库中的真实信息样本进行分词处理,得到真实信息样本的分词,按照各分词在该真实信息样本中的出现顺序,计算得到相邻两个分词的关联值。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
实施例7
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例的一种社交网络信息处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
第一步,对目标文本进行分词处理,得到目标文本的分词;
第二步,按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
第三步,对目标文本中所有词组的信息类型进行统计,得到统计结果;
第四步,根据统计结果确定所述目标文本的信息类型;
第五步,根据目标文本的信息类型对所述目标文本进行处理。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:当所述目标文本的信息类型为虚假信息时,删除社交网络中的所述目标文本。
实施例8
本发明的实施例还提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,图9是根据本发明实施例的计算机终端的结构框图。如图9所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器901、存储器903、以及传输装置905。
其中,存储器903可用于存储软件程序以及模块,如本发明实施例中的社交网络信息识别方法和装置对应的程序指令/模块,处理器901通过运行存储在存储器903内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的社交网络信息识别。存储器903可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器903可进一步包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置905用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置905包括一个网络适配器,其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置905为射频模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器903用于存储预设动作条件和预设权限用户的信息、以及应用程序。
处理器901可以通过传输装置调用存储器903存储的信息及应用程序,以执行下述步骤:
第一步,对目标文本进行分词处理,得到目标文本的分词。
第二步,按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息。
第三步,对目标文本中所有词组的信息类型进行统计,得到统计结果。
第四步,根据统计结果确定所述目标文本的信息类型。
本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

Claims (19)

1.一种社交网络信息识别方法,其特征在于,包括:
对目标文本进行分词处理,得到目标文本的分词;
按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
对目标文本中所有词组的信息类型进行统计,得到统计结果;
根据统计结果确定所述目标文本的信息类型。
2.根据权利要求1所述的方法,其特征在于,所述对目标文本进行分词处理,得到目标文本的分词,包括:
获取目标文本;
对所述目标文本进行预处理,去除目标文本中的停用词;
采用字典分词法对所述目标文本进行分词处理,得到目标文本的分词。
3.根据权利要求1所述的方法,其特征在于,所述根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,包括:
计算每个词组中两个分词的关联值;
提取虚假信息库中对应的所述两个分词的关联值,作为第一关联值;提取真实信息库中对应的所述两个分词的关联值,作为第二关联值;
根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型。
4.根据权利要求3所述的方法,其特征在于,所述根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型,包括:
计算所述关联值与第一关联值的差值,得到第一差值;计算所述关联值与第二关联值的差值,得到第二差值;
比较所述第一差值的绝对值和第二差值的绝对值的大小,若第一差值的绝对值大于第二差值的绝对值,则确定该词组的信息类型为真实信息,若第一差值的绝对值小于第二差值的绝对值,则确定该词组的信息类型为虚假信息,若第一差值的绝对值与第二差值的绝对值相等,则确定该词组的信息类型为无偏向信息。
5.根据权利要求3所述的方法,其特征在于,所述计算每个词组中两个分词的关联值,包括:
根据公式X(W12)=C(W2)*C(W12)/C(W1)计算得到词组中两个分词的关联值;
其中,X(W12)表示所述词组中两个分词的关联值,C(W1)表示所述词组中的第一个分词在目标文本中出现的频次,C(W2)表示所述词组中的第二个分词在目标文本中出现的频次,C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次,所述第一个分词在目标文本中的出现顺序早于第二个分词。
6.根据权利要求1所述的方法,其特征在于,所述对目标文本中所有词组的信息类型进行统计,得到统计结果,包括:
获取目标文本中所有词组的信息类型;
统计各个信息类型的出现频次,得到统计结果。
7.根据权利要求6所述的方法,其特征在于,所述根据统计结果确定所述目标文本的信息类型,包括:
比较虚假信息和真实信息的出现频次,将出现频次较高的信息类型确定为所述目标文本的信息类型,如果虚假信息的出现频次和真实信息的出现频次相同,则确定所述目标文本的信息类型为无偏向信息。
8.根据权利要求1所述的方法,其特征在于,所述对目标文本进行分词处理,得到目标文本的分词之前,还包括:
对虚假信息库中的虚假信息样本进行分词处理,得到虚假信息样本的分词,按照各分词在该虚假信息样本中的出现顺序,计算得到相邻两个分词的关联值;
对真实信息库中的真实信息样本进行分词处理,得到真实信息样本的分词,按照各分词在该真实信息样本中的出现顺序,计算得到相邻两个分词的关联值。
9.一种社交网络信息处理方法,其特征在于,包括:
对目标文本进行分词处理,得到目标文本的分词;
按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
对目标文本中所有词组的信息类型进行统计,得到统计结果;
根据统计结果确定所述目标文本的信息类型;
根据目标文本的信息类型对所述目标文本进行处理。
10.根据权利要求9所述的方法,其特征在于,所述根据目标文本的信息类型对所述目标文本进行处理,包括:
若所述目标文本的信息类型为虚假信息,则删除社交网络中的所述目标文本。
11.一种社交网络信息识别装置,其特征在于,包括:
分词单元,用于对目标文本进行分词处理,得到目标文本的分词;
第一确定单元,用于按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
统计单元,用于对目标文本中所有词组的信息类型进行统计,得到统计结果;
第二确定单元,用于根据统计结果确定所述目标文本的信息类型。
12.根据权利要求11所述的装置,其特征在于,所述分词单元包括:
第一获取子单元,用于获取目标文本;
处理子单元,用于对所述目标文本进行预处理,去除目标文本中的停用词;
分词子单元,用于采用字典分词法对经过处理子单元处理后的目标文本进行分词处理,得到目标文本的分词。
13.根据权利要求11所述的装置,其特征在于,所述第一确定单元包括:
计算子单元,用于计算每个词组中两个分词的关联值;
提取子单元,用于提取虚假信息库中对应的所述两个分词的关联值,作为第一关联值,提取真实信息库中对应的所述两个分词的关联值,作为第二关联值;
确定子单元,用于根据所述关联值分别与第一关联值和第二关联值的接近程度,确定所述词组的信息类型。
14.根据权利要求13所述的装置,其特征在于,所述确定子单元包括:
计算模块,用于计算所述关联值与第一关联值的差值,得到第一差值;计算所述关联值与第二关联值的差值,得到第二差值;
确定模块,用于比较所述第一差值的绝对值和第二差值的绝对值的大小,若第一差值的绝对值大于第二差值的绝对值,则确定该词组的信息类型为真实信息,若第一差值的绝对值小于第二差值的绝对值,则确定该词组的信息类型为虚假信息,若第一差值的绝对值与第二差值的绝对值相等,则确定该词组的信息类型为无偏向信息。
15.根据权利要求13所述的装置,其特征在于,
所述计算子单元,具体用于根据公式X(W12)=C(W2)*C(W12)/C(W1)计算得到词组中两个分词的关联值;
其中,X(W12)表示所述词组中两个分词的关联值,C(W1)表示所述词组中的第一个分词在目标文本中出现的频次,C(W2)表示所述词组中的第二个分词在目标文本中出现的频次,C(W12)表示第一个分词和第二个分词在目标文本中有顺序的同时连续出现的频次,所述第一个分词在目标文本中的出现顺序早于第二个分词。
16.根据权利要求11所述的装置,其特征在于,
所述统计单元包括:
第二获取子单元,用于获取目标文本中所有词组的信息类型,
统计子单元,用于统计各个信息类型的出现频次,得到统计结果;
所述第二确定单元,具体用于比较虚假信息和真实信息的出现频次,将出现频次较高的信息类型确定为所述目标文本的信息类型,如果虚假信息的出现频次和真实信息的出现频次相同,则确定所述目标文本的信息类型为无偏向信息。
17.根据权利要求11所述的装置,其特征在于,所述装置还包括:
预处理单元,用于对虚假信息库中的虚假信息样本进行分词处理,得到虚假信息样本的分词,按照各分词在该虚假信息样本中的出现顺序,计算得到相邻两个分词的关联值;还用于对真实信息库中的真实信息样本进行分词处理,得到真实信息样本的分词,按照各分词在该真实信息样本中的出现顺序,计算得到相邻两个分词的关联值。
18.一种社交网络信息处理装置,其特征在于,包括:
分词单元,用于对目标文本进行分词处理,得到目标文本的分词;
第一确定单元,用于按照各分词在目标文本中的出现顺序,将相邻两个分词作为一个词组,根据虚假信息库和真实信息库中的信息,确定每个词组的信息类型,所述信息类型包括虚假信息、真实信息和无偏向信息;
统计单元,用于对目标文本中所有词组的信息类型进行统计,得到统计结果;
第二确定单元,用于根据统计结果确定所述目标文本的信息类型;
处理单元,用于根据目标文本的信息类型对所述目标文本进行处理。
19.根据权利要求18所述的装置,其特征在于,
所述处理单元,具体用于当第二确定单元确定所述目标文本的信息类型为虚假信息时,删除社交网络中的所述目标文本。
CN201610956467.2A 2016-10-13 2016-10-27 社交网络信息识别方法、处理方法及装置 Expired - Fee Related CN107992501B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610956467.2A CN107992501B (zh) 2016-10-27 2016-10-27 社交网络信息识别方法、处理方法及装置
PCT/CN2017/104275 WO2018068664A1 (zh) 2016-10-13 2017-09-29 网络信息识别方法和装置
US16/026,786 US10805255B2 (en) 2016-10-13 2018-07-03 Network information identification method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610956467.2A CN107992501B (zh) 2016-10-27 2016-10-27 社交网络信息识别方法、处理方法及装置

Publications (2)

Publication Number Publication Date
CN107992501A true CN107992501A (zh) 2018-05-04
CN107992501B CN107992501B (zh) 2021-12-14

Family

ID=62028486

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610956467.2A Expired - Fee Related CN107992501B (zh) 2016-10-13 2016-10-27 社交网络信息识别方法、处理方法及装置

Country Status (1)

Country Link
CN (1) CN107992501B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561601A (zh) * 2020-12-24 2021-03-26 辽宁师范大学 基于老年健康的信息服务在线推广系统及方法
CN115374372A (zh) * 2022-08-26 2022-11-22 广州工程技术职业学院 网络社区虚假信息快速识别方法及装置、设备、存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355517A (zh) * 2011-07-01 2012-02-15 宇龙计算机通信科技(深圳)有限公司 信息分类装置、信息分类方法和终端
CN102411592A (zh) * 2010-09-21 2012-04-11 阿里巴巴集团控股有限公司 一种文本分类方法和装置
CN102541899A (zh) * 2010-12-23 2012-07-04 阿里巴巴集团控股有限公司 一种信息识别方法及设备
US8332415B1 (en) * 2011-03-16 2012-12-11 Google Inc. Determining spam in information collected by a source
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
US20130311467A1 (en) * 2012-05-18 2013-11-21 Xerox Corporation System and method for resolving entity coreference
CN103744905A (zh) * 2013-12-25 2014-04-23 新浪网技术(中国)有限公司 垃圾邮件判定方法和装置
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN104778184A (zh) * 2014-01-15 2015-07-15 腾讯科技(深圳)有限公司 一种确定反馈关键词的方法和装置
CN105138512A (zh) * 2015-08-12 2015-12-09 小米科技有限责任公司 词组推荐方法及装置
CN105677862A (zh) * 2016-01-08 2016-06-15 上海数道信息科技有限公司 一种抓取网页内容的方法及装置
CN105956158A (zh) * 2016-05-17 2016-09-21 清华大学 基于海量微博文本和用户信息的网络新词自动提取的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102411592A (zh) * 2010-09-21 2012-04-11 阿里巴巴集团控股有限公司 一种文本分类方法和装置
CN102541899A (zh) * 2010-12-23 2012-07-04 阿里巴巴集团控股有限公司 一种信息识别方法及设备
US8332415B1 (en) * 2011-03-16 2012-12-11 Google Inc. Determining spam in information collected by a source
CN102355517A (zh) * 2011-07-01 2012-02-15 宇龙计算机通信科技(深圳)有限公司 信息分类装置、信息分类方法和终端
US20130311467A1 (en) * 2012-05-18 2013-11-21 Xerox Corporation System and method for resolving entity coreference
CN102929937A (zh) * 2012-09-28 2013-02-13 福州博远无线网络科技有限公司 基于文本主题模型的商品分类的数据处理方法
CN103744905A (zh) * 2013-12-25 2014-04-23 新浪网技术(中国)有限公司 垃圾邮件判定方法和装置
CN104778184A (zh) * 2014-01-15 2015-07-15 腾讯科技(深圳)有限公司 一种确定反馈关键词的方法和装置
CN104375989A (zh) * 2014-12-01 2015-02-25 国家电网公司 自然语言文本关键词关联网络构建系统
CN105138512A (zh) * 2015-08-12 2015-12-09 小米科技有限责任公司 词组推荐方法及装置
CN105677862A (zh) * 2016-01-08 2016-06-15 上海数道信息科技有限公司 一种抓取网页内容的方法及装置
CN105956158A (zh) * 2016-05-17 2016-09-21 清华大学 基于海量微博文本和用户信息的网络新词自动提取的方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112561601A (zh) * 2020-12-24 2021-03-26 辽宁师范大学 基于老年健康的信息服务在线推广系统及方法
CN112561601B (zh) * 2020-12-24 2024-04-05 辽宁师范大学 基于老年健康的信息服务在线推广系统及方法
CN115374372A (zh) * 2022-08-26 2022-11-22 广州工程技术职业学院 网络社区虚假信息快速识别方法及装置、设备、存储介质
CN115374372B (zh) * 2022-08-26 2023-04-07 广州工程技术职业学院 网络社区虚假信息快速识别方法及装置、设备、存储介质

Also Published As

Publication number Publication date
CN107992501B (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
CN110147722A (zh) 一种视频处理方法、视频处理装置及终端设备
CN105550583B (zh) 基于随机森林分类方法的Android平台恶意应用检测方法
CN104615608B (zh) 一种数据挖掘处理系统及方法
CN109471938A (zh) 一种文本分类方法及终端
CN111738011A (zh) 违规文本的识别方法及装置、存储介质、电子装置
CN107169106A (zh) 视频检索方法、装置、存储介质及处理器
CN110457404A (zh) 基于复杂异质网络的社交媒体账户分类方法
CN104915351A (zh) 图片排序方法及终端
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
CN108733791B (zh) 网络事件检测方法
CN106485146B (zh) 一种信息处理方法及服务器
CN108932669A (zh) 一种基于监督式层次分析法的异常账户检测方法
CN106815226A (zh) 文本匹配方法和装置
CN107679213A (zh) 一种习题搜索方法、系统及终端设备
CN107391509A (zh) 标签推荐方法及装置
CN107679135A (zh) 面向网络文本大数据的话题检测与跟踪方法、装置
CN107145516A (zh) 一种文本聚类方法及系统
CN108197474A (zh) 移动终端应用的分类和检测方法
CN108170678A (zh) 一种文本实体抽取方法与系统
CN107392311A (zh) 序列切分的方法和装置
CN110458296A (zh) 目标事件的标记方法和装置、存储介质及电子装置
CN102945246A (zh) 网络信息数据的处理方法及装置
CN106960153A (zh) 病毒的类型识别方法及装置
CN110019776A (zh) 文章分类方法及装置、存储介质
EP2988229A1 (en) Information retrieval method and device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20211214

CF01 Termination of patent right due to non-payment of annual fee