CN107741938A

CN107741938A - 一种网络信息识别方法及装置

Info

Publication number: CN107741938A
Application number: CN201610895856.9A
Authority: CN
Inventors: 刘杰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-10-13
Filing date: 2016-10-13
Publication date: 2018-02-27

Abstract

本发明实施例公开了一种网络信息识别方法及装置，其中，网络信息识别方法包括：获取待识别网络信息；计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信，本发明实施例能够有效识别谣言。

Description

一种网络信息识别方法及装置

技术领域

本发明实施例涉及通信技术领域，具体涉及一种网络信息识别方法及装置。

背景技术

随着网络技术的发展，网络上可传播的信息越来越多，有些网络信息是可信的，而有些网络信息则是不可信的(即谣言)。网络的发展，助长了谣言的传播，扩大了谣言的影响力，普通用户由于知识和信息量有限，无法识别谣言，这给用户造成了极大的困扰。

发明内容

有鉴于此，本发明实施例提供了一种网络信息识别方法及装置，能够有效识别谣言。

本发明实施例提供的网络信息识别方法，包括：

获取待识别网络信息；

计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；

根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信。

本发明实施例提供的网络信息识别装置，包括：

获取单元，用于获取待识别网络信息；

计算单元，用于计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；

确定单元，用于根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信。

本发明实施例中，后台可以自动获取待识别网络信息，根据待识别网络信息与可信网络信息的相似度，以及待识别网络信息与非可信网络信息的相似度，确定待识别网络信息是否可信，即利用相似度确定待识别网络信息是否可信，因而能够自动、有效地识别谣言。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例所提供的网络信息识别方法的一个场景示意图；

图2是本发明实施例所提供的网络信息识别方法的一个流程示意图；

图3是本发明实施例所提供的网络信息识别方法的另一流程示意图；

图4是本发明实施例所提供的网络信息识别装置的一个结构示意图；

图5是本发明实施例所提供的网络信息识别装置的另一结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

由于现有技术缺乏信息自动识别机制，用户只能凭借自身有限的知识自行识别网络信息是否可信，很多情况下，无法有效地识别出谣言，因而，本发明实施例提供了一种网络信息识别方法及装置，能够自动、有效地识别出谣言。本发明实施例提供的网络信息识别方法可实现在网络信息识别装置中，网络信息识别装置可以是后台服务器。本发明实施例网络信息识别方法一个具体实施场景可如图1所示，服务器获取待识别网络信息，待识别网络信息可以是用户在社交网络(例如微博、QQ空间)上发布的信息或言论，然后计算待识别网络信息与可信网络信息(可信数据库中的网络信息)的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息(非可信数据库中的网络信息)的相似度，记为第二相似度，根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信，然后输出识别结果，当确定待识别网络信息不可信时，服务器可以屏蔽掉待识别网络信息，以避免谣言继续传播，或者将待识别网络信息标记为可疑，以提示用户，即本发明实施例利用相似度来确定待识别网络信息是否可信，因而能够自动、有效地识别谣言。

以下分别进行详细说明，需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

实施例一

如图2所示，本实施例的方法包括以下步骤：

步骤201、获取待识别网络信息；

具体实现中，待识别网络信息可以是用户在社交网络(例如微博、QQ空间)上发布的信息或言论。当用户使用终端(例如手机、平板电脑、个人计算机等)在社交网络上发布信息或言论时，后台服务器可以获取用户发布的信息或言论，即获取待识别网络信息。

步骤202、计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；

具体实现中，可以预先收集可信网络信息及非可信网络信息，根据收集的可信网络信息建立可信数据库，以及根据收集的非可信网络信息建立非可信数据库。

可信网络信息可以从权威或可信的网站中提取，例如从百度百科、维基百科提取，因此，可信数据库中包含的网络信息可以认为是可信的。非可信网络信息目前可采用人工收集，非可信数据库中包含的网络信息可以认为是不可信的。

具体地，可以采用余弦定理算法计算待识别网络信息与可信数据库中的各个可信网络信息的相似度，此处可以得到多个相似度值。所计算得到的相似度值越大，说明两条信息的相似度越高，此步骤中，可以取计算所得的相似度的最大值记为第一相似度，即第一相似度为可信数据库中与待识别网络信息相似度最高的可信网络信息与待识别网络信息的相似度。

同样地，可以采用余弦定理算法计算待识别网络信息与非可信数据库中的各个非可信网络信息的相似度，此处可以得到多个相似度值。所计算得到的相似度值越大，说明两条信息的相似度越高，此步骤中，可以取计算所得的相似度的最大值记为第二相似度，即第二相似度为非可信数据库中与待识别网络信息相似度最高的非可信网络信息与待识别网络信息的相似度。

上面描述的方法，由于需要计算大量信息之间的相似度，而经实践证明，余弦定理算法的计算速度优于其他算法，因此，本实施例中，优选余弦定理算法计算两条信息的相似度，当然，除余弦定理算法之外，还可以采用其他算法计算两条信息的相似度，例如距离编辑算法等，此处对采用的具体算法不做限定。

另外，上面描述的方法，第一相似度与第二相似度是通过逐条计算待识别网络信息与可信数据库及非可信数据库中的各条网络信息的相似度得到的，实际中，还可以采用其他方式得到第一相似度及第二相似度。例如，采用关键字提取法，提取可信数据库中具有与待识别网络信息具有相同关键字的可信网络信息，计算该可信网络信息与待识别网络信息的相似度，记为第一相似度；提取非可信数据库中具有与待识别网络信息具有相同关键字的非可信网络信息，计算该非可信网络信息与待识别网络信息的相似度，记为第二相似度。

步骤203、根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信。

具体地，可以比较所述第一相似度与所述第二相似度的大小；当所述第一相似度大于所述第二相似度时，说明待识别网络信息与可信网络信息的相似度高于待识别网络信息与非可信网络信息的相似度，因此可以确定所述待识别网络信息可信；当所述第二相似度大于所述第一相似度时，说明待识别网络信息与非可信网络信息的相似度高于待识别网络信息与可信网络信息的相似度，因此可以确定所述待识别网络信息不可信。

以上识别方法同时使用到了可信数据库及非可信数据库，实际中，还可以单独采用其中一个数据库来识别网络信息是否可信。例如，仅采用可信数据库，通过余弦定理算法计算得到第一相似度，判断第一相似度是否大于第一预设阈值(例如0.8)，若大于，则认为待识别网络信息可信，若不大于，则认为待识别网络信息不可信；或者，仅采用非可信数据库，通过余弦定理算法计算得到第二相似度，判断第二相似度是否大于第二预设阈值(例如0.9)，若大于，则认为待识别网络信息不可信，若不大于，则认为待识别网络信息可信。

当确定待识别网络信息可信时，可以允许待识别网络信息显示在社交网络上；当确定待识别网络信息不可信时，可以采用一些处理措施，以提示其他用户或避免谣言传播，例如可以将所述待识别网络信息标记为可疑，或者屏蔽所述待识别网络信息。

本实施例中，后台服务器可以自动获取待识别网络信息，根据待识别网络信息与可信网络信息的相似度，以及待识别网络信息与非可信网络信息的相似度，确定待识别网络信息是否可信，即利用相似度确定待识别网络信息是否可信，因而能够自动、有效地识别谣言。

实施例二

实施例一所描述的方法，本实施例将举例作进一步详细说明，如图3所示，本实施例的方法包括：

步骤301、采集可信网络信息及非可信网络信息；

具体地，可信网络信息可以从权威或可信的网站中提取，例如从百度百科、维基百科提取，非可信网络信息目前可采用人工收集。

步骤302、根据采集的可信网络信息建立可信数据库，以及根据采集的非可信网络信息建立非可信数据库；

可信数据库中包含多个可信网络信息，可信数据库中包含的网络信息可以认为是可信的；非可信数据库中包含多个非可信网络信息，非可信数据库中包含的网络信息可以认为是非可信的。

步骤303、获取待识别网络信息；

步骤304、计算所述待识别网络信息与所述可信数据库中的各个可信网络信息的相似度，取计算所得的相似度的最大值记为第一相似度；

步骤305、计算所述待识别网络信息与所述非可信数据库中的各个非可信网络信息的相似度，取计算所得的相似度的最大值记为第二相似度；

下面举例说明采用余弦定理算法计算两条信息的相似度的过程，如下：

信息1：张三是一个歌手，也是一个演员。

信息2：张三不是一个演员，但是是一个歌手。

第一步：分词；

信息1：张三/是/一个/歌手，也/是/一个/演员。

信息2：张三/不/是/一个/演员，但是/是/一个/歌手。

第二步：去重复，列出识别的所有词；

张三、是、不、一个、演员、歌手、但是、也

第三步：计算词频(这里表示某个词在一个信息里出现的次数)；

信息1：张三1、是2、不0、一个2、演员1、歌手1、但是0、也1；

信息2：张三1、是2、不1、一个2、演员1、歌手1、但是1、也0；

第四步：构造词频向量；

信息1：[1,2,0,2,1,1,0,1]

信息2：[1,2,1,2,1,1,0,1]

上面构造的是两个多维的向量，其中每个维度的值就是词频，构造出了上面两个多维向量后，计算两条信息的相似度就变成了计算这两个向量的相似度了，我们知道，两个向量的相似度，可以通过向量的夹角的大小θ来表示，具体地，可以用两个向量的夹角的余弦值表示，余弦值越接近1，就表明夹角越接近0度，也就是两个向量越相似，即“余弦相似性”。

第五步：计算两个向量的夹角的余弦值；

Cosθ＝(1*1+2*2+0*1+2*2+1*1+1*1+0*0+1*1)/(sqrt(1^2+2^2+0^2+2^2+1^2+1^2+0^2+1^2)*sqrt(1^2+2^2+1^2+2^2+1^2+1^2+1^2+0^2+1^2))；

最终计算得到Cosθ≈0.961。

即这两个信息的相似度为0.961，相似度的值接近1，相似度较高。

需要说明的是，实际中，步骤304与步骤305的执行顺序也可以不分先后。

另外，步骤304、步骤305描述的方法，第一相似度与第二相似度是通过逐条计算待识别网络信息与可信数据库及非可信数据库中的各条网络信息的相似度得到的，实际中，还可以采用其他方式得到第一相似度及第二相似度。例如采用关键字提取法，提取可信数据库中具有与待识别网络信息具有相同关键字的可信网络信息，计算该可信网络信息与待识别网络信息的相似度，记为第一相似度；提取非可信数据库中具有与待识别网络信息具有相同关键字的非可信网络信息，计算该非可信网络信息与待识别网络信息的相似度，记为第二相似度。

步骤306、判断所述第一相似度是否大于所述第二相似度，若所述第一相似度大于所述第二相似度，则执行步骤307，若所述第一相似度小于所述第二相似度，则执行步骤308；

步骤307、确定所述待识别网络信息可信；

步骤308、确定所述待识别网络信息不可信。

实施例三

为了更好地实施以上方法，本发明实施例还提供一种网络信息识别装置，如图4所示，本实施例的装置包括：获取单元401，计算单元402及确定单元403，如下：

(1)获取单元401；

获取单元401，用于获取待识别网络信息。

具体实现中，待识别网络信息可以是用户在社交网络(例如微博、QQ空间)上发布的信息或言论。当用户使用终端(例如手机、平板电脑、个人计算机等)在社交网络上发布信息或言论时，获取单元401可以获取用户发布的信息或言论，即获取待识别网络信息。

(2)计算单元402；

计算单元402，用于计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度；

具体实现中，本实施例的网络信息识别装置还可以包括采集单元及建立单元，其中：

采集单元可以预先收集可信网络信息及非可信网络信息，建立单元可以根据收集的可信网络信息建立可信数据库，以及根据收集的非可信网络信息建立非可信数据库。

具体地，计算单元402可以包括第一计算子单元及第二计算子单元，其中：

第一计算子单元可以采用余弦定理算法计算待识别网络信息与可信数据库中的各个可信网络信息的相似度，此处可以得到多个相似度值。所计算得到的相似度值越大，说明两条信息的相似度越高，此步骤中，第一计算子单元可以取计算所得的相似度的最大值记为第一相似度，即第一相似度为可信数据库中与待识别网络信息相似度最高的可信网络信息与待识别网络信息的相似度。

同样地，第二计算子单元也可以采用余弦定理算法计算待识别网络信息与非可信数据库中的各个非可信网络信息的相似度，此处可以得到多个相似度值。所计算得到的相似度值越大，说明两条信息的相似度越高，此步骤中，第二计算子单元可以取计算所得的相似度的最大值记为第二相似度，即第二相似度为非可信数据库中与待识别网络信息相似度最高的非可信网络信息与待识别网络信息的相似度。

上面描述的方法，由于需要计算大量信息之间的相似度，而经实践证明，余弦定理算法的计算速度优于其他算法，因此，本实施例中，第一计算子单元及第二计算子单元优选余弦定理算法计算两条信息的相似度，当然，除余弦定理算法之外，还可以采用其他算法计算两条信息的相似度，例如距离编辑算法等，此处对采用的具体算法不做限定。

另外，上面描述的方法，第一相似度与第二相似度是通过逐条计算待识别网络信息与可信数据库及非可信数据库中的各条网络信息的相似度得到的，实际中，还可以采用其他方式得到第一相似度及第二相似度。例如采用关键字提取法，提取可信数据库中具有与待识别网络信息具有相同关键字的可信网络信息，计算该可信网络信息与待识别网络信息的相似度，记为第一相似度；提取非可信数据库中具有与待识别网络信息具有相同关键字的非可信网络信息，计算该非可信网络信息与待识别网络信息的相似度，记为第二相似度。

(3)确定单元403；

确定单元403，用于根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信。

具体地，确定单元403可以包括比较子单元，第一确定子单元及第二确定子单元，其中：

比较子单元可以比较所述第一相似度与所述第二相似度的大小，当所述第一相似度大于所述第二相似度时，说明待识别网络信息与可信网络信息的相似度高于待识别网络信息与非可信网络信息的相似度，因此第一确定子单元可以确定所述待识别网络信息可信；当所述第二相似度大于所述第一相似度时，说明待识别网络信息与非可信网络信息的相似度高于待识别网络信息与可信网络信息的相似度，因此第二确定子单元可以确定所述待识别网络信息不可信。

另外，本实施例的网络信息识别装置还可以包括处理单元，当确定待识别网络信息可信时，处理单元可以允许待识别网络信息显示在社交网络上；当确定待识别网络信息不可信时，处理单元可以采用一些处理措施，以提示其他用户或避免谣言传播，例如处理单元可以将所述待识别网络信息标记为可疑，或者屏蔽所述待识别网络信息。

需要说明的是，上述实施例提供的网络信息识别装置在实现网络信息识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的网络信息识别装置与网络信息识别方法属于同一构思，其具体实现过程详见方法实施例，此处不再赘述。

本实施例中，获取单元可以自动获取待识别网络信息，计算单元计算待识别网络信息与可信网络信息的相似度，以及计算待识别网络信息与非可信网络信息的相似度，确定单元根据所计算的相似度确定待识别网络信息是否可信，即本实施例中，利用相似度确定待识别网络信息是否可信，因而能够自动、有效地识别谣言。

实施例四

本发明实施例还提供了一种网络信息识别装置，如图5所示，其示出了本发明实施例所涉及的装置的结构示意图，具体来讲：

该装置可以包括一个或者一个以上处理核心的处理器501、一个或一个以上计算机可读存储介质的存储器502、射频(Radio Frequency，RF)电路503、电源505、输入单元505、以及显示单元506等部件。本领域技术人员可以理解，图5中示出的装置结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器501是该装置的控制中心，利用各种接口和线路连接整个装置的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行装置的各种功能和处理数据，从而对装置进行整体监控。可选的，处理器501可包括一个或多个处理核心；优选的，处理器501可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器501中。

存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据装置的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

RF电路503可用于收发信息过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器501处理；另外，将涉及上行的数据发送给基站。通常，RF电路503包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路503还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobilecommunication)、通用分组无线服务(GPRS，General Packet Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband CodeDivision Multiple Access)、长期演进(LTE，Long Term Evolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

装置还包括给各个部件供电的电源504(比如电池)，优选的，电源504可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源504还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该装置还可包括输入单元505，该输入单元505可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元505可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器501，并能接收处理器501发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元505还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

该装置还可包括显示单元506，该显示单元506可用于显示由用户输入的信息或提供给用户的信息以及装置的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元506可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-EmittingDiode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器501以确定触摸事件的类型，随后处理器501根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图5中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

尽管未示出，装置还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，装置中的处理器501会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器501来运行存储在存储器502中的应用程序，从而实现各种功能，如下：

获取待识别网络信息；

具体地，处理器501可以采用余弦定理算法计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及采用余弦定理算法计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度。

进一步地，处理器501还用于，

在获取待识别网络信息之前，采集可信网络信息及非可信网络信息；

根据采集的可信网络信息建立可信数据库，以及根据采集的非可信网络信息建立非可信数据库。

具体地，处理器501可以计算所述待识别网络信息与所述可信数据库中的各个可信网络信息的相似度，取计算所得的相似度的最大值记为第一相似度；

计算所述待识别网络信息与所述非可信数据库中的各个非可信网络信息的相似度，取计算所得的相似度的最大值记为第二相似度。

具体地，处理器501可按照如下方式确定待识别网络信息是否可信：

比较所述第一相似度与所述第二相似度的大小；

当所述第一相似度大于所述第二相似度时，确定所述待识别网络信息可信；

当所述第二相似度大于所述第一相似度时，确定所述待识别网络信息不可信。

进一步地，在确定所述待识别网络信息不可信时，处理器501还可以将所述待识别网络信息标记为可疑，或者屏蔽所述待识别网络信息。

由上可知，本实施例的装置可以自动获取待识别网络信息，然后计算待识别网络信息与可信网络信息的相似度，以及计算待识别网络信息与非可信网络信息的相似度，最后根据所计算的相似度确定待识别网络信息是否可信，即本实施例的装置可以利用相似度确定待识别网络信息是否可信，因而能够自动、有效地识别谣言。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，装置，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种网络信息识别方法，其特征在于，包括：

获取待识别网络信息；

2.根据权利要求1所述的方法，其特征在于，所述计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度包括：

采用余弦定理算法计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及采用余弦定理算法计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度。

3.根据权利要求1或2所述的方法，其特征在于，在获取待识别网络信息之前，所述方法还包括：

采集可信网络信息及非可信网络信息；

4.根据权利要求3所述的方法，其特征在于，所述计算所述待识别网络信息与可信网络信息的相似度，记为第一相似度，以及计算所述待识别网络信息与非可信网络信息的相似度，记为第二相似度包括：

计算所述待识别网络信息与所述可信数据库中的各个可信网络信息的相似度，取计算所得的相似度的最大值记为第一相似度；

5.根据权利要求4所述的方法，其特征在于，所述根据所述第一相似度及所述第二相似度确定所述待识别网络信息是否可信包括：

比较所述第一相似度与所述第二相似度的大小；

6.根据权利要求5所述的方法，其特征在于，在确定所述待识别网络信息不可信时，所述方法还包括：

将所述待识别网络信息标记为可疑，或者屏蔽所述待识别网络信息。

7.一种网络信息识别装置，其特征在于，包括：

获取单元，用于获取待识别网络信息；

8.根据权利要求7所述的装置，其特征在于，所述计算单元具体用于，

9.根据权利要求7或8所述的装置，其特征在于，所述装置还包括，

采集单元，用于在所述获取单元获取待识别网络信息之前，采集可信网络信息及非可信网络信息；

建立单元，用于根据采集的可信网络信息建立可信数据库，以及根据采集的非可信网络信息建立非可信数据库。

10.根据权利要求9所述的装置，其特征在于，所述计算单元包括：

第一计算子单元，用于计算所述待识别网络信息与所述可信数据库中的各个可信网络信息的相似度，取计算所得的相似度的最大值记为第一相似度；

第二计算子单元，用于计算所述待识别网络信息与所述非可信数据库中的各个非可信网络信息的相似度，取计算所得的相似度的最大值记为第二相似度。

11.根据权利要求10所述的装置，其特征在于，所述确定单元包括：

比较子单元，用于比较所述第一相似度与所述第二相似度的大小；

第一确定子单元，用于当所述第一相似度大于所述第二相似度时，确定所述待识别网络信息可信；

第二确定子单元，用于当所述第二相似度大于所述第一相似度时，确定所述待识别网络信息不可信。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

处理单元，用于在所述第二确定子单元确定所述待识别网络信息不可信时，将所述待识别网络信息标记为可疑，或者屏蔽所述待识别网络信息。