CN109271425A - 构建谣言数据库的方法、分析谣言数据的方法及电子设备 - Google Patents

构建谣言数据库的方法、分析谣言数据的方法及电子设备 Download PDF

Info

Publication number
CN109271425A
CN109271425A CN201811155698.9A CN201811155698A CN109271425A CN 109271425 A CN109271425 A CN 109271425A CN 201811155698 A CN201811155698 A CN 201811155698A CN 109271425 A CN109271425 A CN 109271425A
Authority
CN
China
Prior art keywords
rumour
article
database
mark
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811155698.9A
Other languages
English (en)
Inventor
宝腾飞
刘真
崔蕊
肖与
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201811155698.9A priority Critical patent/CN109271425A/zh
Publication of CN109271425A publication Critical patent/CN109271425A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种构建谣言数据库的方法、分析谣言数据的方法及电子设备,构建谣言数据库的方法包括:获取文章的属性标记为谣言属性的文章;根据文章的谣言关键词确定文章的领域类别;对文章中包含谣言内容的部分进行谣言标识,其中,谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;将进行谣言标识后的文章按照领域类别保存至谣言数据平台的谣言数据库中。本公开实施例按照预设规则构建了谣言数据库,随着谣言数据库中的数据不断增加,谣言数据库的使用会变的更加广泛,普通用户可以基于构建好的谣言数据库进行检索、查询等多方面业务,对阻止谣言的传播具有较为明显的效果。

Description

构建谣言数据库的方法、分析谣言数据的方法及电子设备
技术领域
本公开涉及互联网领域,特别涉及一种构建谣言数据库的方法、分析谣言数据的方法及电子设备。
背景技术
随着互联网的兴起、移动电子设备的普及,信息传播的速度也变得越来越快。一方面为人们的生活带来便利,另一方面也会造成不良影响。如果传播的文章是谣言,则该谣言就会迅速传播,这些谣言严重影响了用户辨别是非的能力,有的谣言还可能会影响用户的正常生活,甚至导致不必要的危害。
然而,现有技术中,谣言鉴定主要是专家鉴定,鉴定确定为谣言后再进行文章的删除,但限于审核人力成本,只能对热文做排查,处理效率比较低下。
由于现有的审核制度导致谣言文章到处散播,缺乏一种谣言的汇总方式,导致普通用户在阅读文章时无处可以鉴定其阅读的文章是否是谣言。
发明内容
有鉴于此,本公开实施例提出了一种构建谣言数据库的方法、分析谣言数据的方法及电子设备,用以解决现有技术的如下问题:由于现有的审核制度导致谣言文章到处散播,缺乏一种谣言的汇总方式,导致普通用户在阅读文章时无处可以鉴定其阅读的文章是否是谣言。
一方面,本公开实施例提出了一种构建谣言数据库的方法,包括:获取文章的属性标记为谣言属性的文章;根据所述文章的谣言关键词确定所述文章的领域类别;对所述文章中包含谣言内容的部分进行谣言标识,其中,所述谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;将进行谣言标识后的所述文章按照领域类别保存至谣言数据平台的谣言数据库中。
可选的,根据所述文章的谣言关键词确定所述文章的领域类别,包括:按照所述文章的谣言关键词进行聚类处理或者分类处理,以确定所述文章的领域类别。
另一方面,本公开实施例提出了一种分析谣言数据的方法,应用通过上述方法构建的谣言数据库,包括:接收对疑似谣言文章进行检索的请求;根据所述请求对所述疑似谣言文章进行谣言关键词提取;根据所述谣言关键词确定所述文章的领域类别;在谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章,并将所述达到预设概率的文章及其对应的谣言标识进行显示。
可选的,在所述谣言关键词为多个的情况下,在所述谣言数据库中检索与所述谣言关键词匹配概率达到预设概率的文章,并将所述达到预设概率的文章及其对应的谣言标识进行显示,包括:在所述谣言数据库的所述领域类别对应的谣言文章中检索与第一谣言关键词匹配概率达到第一预设概率的文章;在所述达到第一预设概率的文章中检索与第二谣言关键词匹配概率达到第二预设概率的文章;将所述达到第二预设概率的文章及其对应的谣言标识进行显示。
可选的,将所述达到预设概率的文章及其对应的谣言标识进行显示,包括:按照所述谣言关键词匹配概率由大到小的顺序依次显示谣言文章及其对应的谣言标识。
可选的,根据所述谣言关键词在所述谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章之后,还包括:检测所述达到预设概率的文章的数量是否达到预设数量;在所述达到预设概率的文章的数量达到所述预设数量的情况下,确定所述疑似谣言文章为谣言文章,并将所述谣言文章的属性标记为谣言属性。
可选的,将所述谣言文章的属性标记为谣言属性之后,还包括:按照预设规则在在谣言关键词中确定谣言判定基础词,并将所述谣言判定基础词添加至预设谣言判定基础词库中。
另一方面,本公开实施例提出了一种构建谣言数据库的装置,包括:获取模块,用于获取文章的属性标记为谣言属性的文章;第一确定模块,用于根据所述文章的谣言关键词确定所述文章的领域类别;标识模块,用于对所述文章中包含谣言内容的部分进行谣言标识,其中,所述谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;保存模块,用于将进行谣言标识后的所述文章按照领域类别保存至谣言数据平台的谣言数据库中。
另一方面,本公开实施例提出了一种分析谣言数据的装置,包括:接收模块,用于接收对疑似谣言文章进行检索的请求;提取模块,用于根据所述请求对所述疑似谣言文章进行谣言关键词提取;第二确定模块,用于根据所述谣言关键词确定所述文章的领域类别;检索模块,用于在谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章;显示模块,用于将所述达到预设概率的文章及其对应的谣言标识进行显示。
可选的,根据所述谣言关键词在所述谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章之后,还包括:检测模块,用于检测所述达到预设概率的文章的数量是否达到预设数量;标记模块,用于在所述达到预设概率的文章的数量达到所述预设数量的情况下,确定所述疑似谣言文章为谣言文章,并将所述谣言文章的属性标记为谣言属性。
另一方面,本公开实施例提出了一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述分析谣言数据的方法的步骤,或者,所述计算机程序被处理器执行时实现上述构建谣言数据库的方法的步骤。
另一方面,本公开实施例提出了一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,所述处理器在执行所述存储器上的计算机程序时实现上述分析谣言数据的方法的步骤,或者,所述处理器在执行所述存储器上的计算机程序时实现上述分析谣言数据的方法的步骤。
本公开实施例按照预设规则构建了谣言数据库,随着谣言数据库中的数据不断增加,谣言数据库的使用会变的更加广泛,普通用户可以基于构建好的谣言数据库进行检索、查询等多方面业务,对阻止谣言的传播具有较为明显的效果。
附图说明
图1为本公开一实施例提供的构建谣言数据库的方法的流程图;
图2为本公开另一实施例提供的分析谣言数据的方法的流程图;
图3为本公开另一实施例提供的分析谣言数据的方法的流程图;
图4为本公开另一实施例提供的构建谣言数据库的装置的结构示意图;
图5为本公开另一实施例提供的分析谣言数据的装置的结构示意图;
图6为本公开另一实施例提供的分析谣言数据的装置的结构示意图;
图7为本公开另一实施例提供的电子设备的结构示意图。
具体实施方式
下面参照附图对本公开多个实施例进行说明。
下面参照附图对本公开多个实施例进行说明。应当理解,此处所描述的具体实施例仅仅用以解释本公开,并不限定本公开。
本公开一实施例提供了一种构建谣言数据库的方法,该方法的流程如图1所示,包括步骤S101至S104:
S101,获取文章的属性标记为谣言属性的文章。
当一篇文章确定为谣言文章时,通常会从其所在的阅读上下架,因此,本公开实施例将所有下架的谣言文章都进行汇总,并加以利用。
S102,根据文章的谣言关键词确定文章的领域类别。
对于每一篇文章,其都会存在关键词,谣言文章也不例外,因此,本公开实施例通过谣言文章对应的关键词来确定其所属的领域类别,进而为每一篇谣言文章进行一个类别确定,例如,健康类别、财务类别等。
具体实现时,可以按照文章的谣言关键词进行聚类处理或者分类处理,以确定文章的领域类别。
S103,对文章中包含谣言内容的部分进行谣言标识,其中,谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言。
每一篇文章都分为标题和正文,有的谣言文章为了隐蔽谣言内容,通常会在文章中的某一些段落中记载一部分谣言,例如,在某一段落记载了“晚上睡前喝牛奶会容易拉肚子”;当然,更多的谣言文章会直接以标题和所有正文内容都是谣言的情况为主。综合上述考虑,本公开实施例为不同类型的谣言设置了不同的谣言标识,以便使用这些谣言文章时可以更加直观的看到那些地方是谣言内容。
S104,将进行谣言标识后的文章按照领域类别保存至谣言数据平台的谣言数据库中。
当执行完上述所有过程后,就可以按照领域类别将谣言文章存储到谣言数据库中。此时的谣言文章是按照类别进行区分的,方便后续使用谣言数据库中的文章。
本公开实施例按照预设规则构建了谣言数据库,随着谣言数据库中的数据不断增加,谣言数据库的使用会变的更加广泛,普通用户可以基于构建好的谣言数据库进行检索、查询等多方面业务,对阻止谣言的传播具有较为明显的效果。
本公开另一实施例提供了一种分析谣言数据的方法,该方法的流程如图2所示,包括步骤S201至S204:
S201,接收对疑似谣言文章进行检索的请求。
当普通用户怀疑某一篇文章是谣言文章时,其需要寻找一个主观上可以确定该文章是否为谣言文章的渠道,因此,其可以通过本公开上述第一实施例中构建好的谣言数据库对应的平台进行查询。
S202,根据请求对疑似谣言文章进行谣言关键词提取。
当接收到一个检索的请求后,就可以提取疑似谣言文章的关键词,并利用关键词在谣言数据库中进行查询。
S203,根据谣言关键词确定文章的领域类别。
S204,在谣言数据库的领域类别对应的谣言文章中检索与谣言关键词匹配概率达到预设概率的文章,并将达到预设概率的文章及其对应的谣言标识进行显示。具体的,可以是按照谣言关键词匹配概率由大到小的顺序依次显示谣言文章及其对应的谣言标识,以便于用户更加快速的查看到更为相近的文章。
在谣言关键词为多个的情况下,确定疑似谣言文章的检索就需要参考多个关键词,具体可以如下:在谣言数据库的领域类别对应的谣言文章中检索与第一谣言关键词匹配概率达到第一预设概率的文章;在达到第一预设概率的文章中检索与第二谣言关键词匹配概率达到第二预设概率的文章;将达到第二预设概率的文章及其对应的谣言标识进行显示。
本公开实施例利用谣言数据库进行谣言文章的检索,可以将与疑似谣言文章相关的所有谣言文章显示给用户,以便用户根据显示的内容对疑似谣言文章进行一个判断,对阻止谣言的传播具有较为明显的效果。
本公开另一实施例提供了一种分析谣言数据的方法,该方法的流程如图3所示,包括步骤S301至S307:
S301,接收对疑似谣言文章进行检索的请求。
当普通用户怀疑某一篇文章是谣言文章时,其需要寻找一个主观上可以确定该文章是否为谣言文章的渠道,因此,其可以通过本公开上述实施例中构建好的谣言数据库对应的平台进行查询。
S302,根据请求对疑似谣言文章进行谣言关键词提取。
当接收到一个检索的请求后,就可以提取疑似谣言文章的关键词,并利用来关键词在谣言数据库中进行查询。
S303,根据谣言关键词确定文章的领域类别。
S304,在谣言数据库的领域类别对应的谣言文章中检索与谣言关键词匹配概率达到预设概率的文章。
S305,检测达到预设概率的文章的数量是否达到预设数量。
S306,在达到预设概率的文章的数量达到预设数量的情况下,确定疑似谣言文章为谣言文章,并将谣言文章的属性标记为谣言属性。具有谣言属性的文章又可以录入到谣言数据库中,丰富谣言数据库。
实现过程中,如果达到预设概率的文章的数量达到了预设数量,则进一步确定疑似谣言文章是谣言文章的概率极大,则立即对该疑似谣言文章的属性进行调整。该过程可以自动判定用户想要鉴定的疑似谣言文章是否为谣言文章,用户可以在系统确定后进一步通过自己比较而学习谣言文章的谣言内容。
在一个优选实施过程中,当确定疑似谣言文章为谣言文章之后,还可以按照预设规则在在谣言关键词中确定谣言判定基础词,并将谣言判定基础词添加至预设谣言判定基础词库中。该谣言判定基础词库可以为通过用户评论自动鉴别谣言文章做基础,丰富了谣言文章鉴定的方式。
S307,将达到预设概率的文章及其对应的谣言标识进行显示。具体的,可以是按照谣言关键词匹配概率由大到小的顺序依次显示谣言文章及其对应的谣言标识,以便于用户更加快速的查看到更为相近的文章。
在谣言关键词为多个的情况下,确定疑似谣言文章的检索就需要参考多个关键词,具体可以如下:在谣言数据库的领域类别对应的谣言文章中检索与第一谣言关键词匹配概率达到第一预设概率的文章;在达到第一预设概率的文章中检索与第二谣言关键词匹配概率达到第二预设概率的文章;将达到第二预设概率的文章及其对应的谣言标识进行显示。
本公开实施例利用谣言数据库进行谣言文章的检索,可以将与疑似谣言文章相关的所有谣言文章显示给用户,以便用户根据显示的内容对疑似谣言文章进行一个判断,对阻止谣言的传播具有较为明显的效果。
本公开另一实施例提供了一种构建谣言数据库的装置,该装置的结构示意如图4所示,包括:
获取模块10,用于获取文章的属性标记为谣言属性的文章;第一确定模块11,与获取模块10耦合,用于根据文章的谣言关键词确定文章的领域类别;标识模块12,与第一确定模块11耦合,用于对文章中包含谣言内容的部分进行谣言标识,其中,谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;保存模块13,与标识模块12耦合,用于将进行谣言标识后的文章按照领域类别保存至谣言数据平台的谣言数据库中。
当一篇文章确定为谣言文章时,通常会从其所在的平台上下架,因此,本公开实施例获取模块将所有下架的谣言文章都进行汇总,并加以利用。
对于每一篇文章,其都会存在关键词,谣言文章也不例外,因此,本公开实施例第一确定模块通过谣言文章对应的关键词来确定其所属的领域类别,进而为每一篇谣言文章进行一个类别确定,例如,健康类别、财务类别等。
具体实现时,可以按照文章的谣言关键词进行聚类处理或者分类处理,以确定文章的领域类别。
每一篇文章都分为标题和正文,有的谣言文章为了隐蔽谣言内容,通常会在文章中的某一些段落中记载一部分谣言,例如,在某一段落记载了“晚上睡前喝牛奶会容易拉肚子”;当然,更多的谣言文章会直接以标题和所有正文内容都是谣言的情况为主。综合上述考虑,本公开实施例标识模块为不同类型的谣言设置了不同的谣言标识,以便使用这些谣言文章时可以更加直观的看到那些地方是谣言内容。
经过上述设置,此时的谣言文章是按照类别进行区分的,方便后续使用谣言数据库中的文章。
本公开实施例按照预设规则构建了谣言数据库,随着谣言数据库中的数据不断增加,谣言数据库的使用会变的更加广泛,普通用户可以基于构建好的谣言数据库进行检索、查询等多方面业务,对阻止谣言的传播具有较为明显的效果。
本公开另一实施例提供了一种分析谣言数据的装置,该装置的结构示意如图5所示,包括:
接收模块20,用于接收对疑似谣言文章进行检索的请求;提取模块21,与接收模块20耦合,用于根据请求对疑似谣言文章进行谣言关键词提取;第二确定模块22,与提取模块21耦合,用于根据谣言关键词确定文章的领域类别;检索模块23,与第二确定模块22耦合,用于在谣言数据库的领域类别对应的谣言文章中检索与谣言关键词匹配概率达到预设概率的文章;显示模块24,与检索模块23耦合,用于将达到预设概率的文章及其对应的谣言标识进行显示。
当普通用户怀疑某一篇文章是谣言文章时,其需要寻找一个主观上可以确定该文章是否为谣言文章的渠道,因此,其可以通过本公开上述实施例中构建好的谣言数据库对应的平台进行查询。
当接收模块接收到一个检索的请求后,提取模块就可以提取疑似谣言文章的关键词,检索模块利用关键词在谣言数据库中进行查询。
在谣言关键词为多个的情况下,确定疑似谣言文章的检索就需要参考多个关键词,具体可以如下:在谣言数据库的领域类别对应的谣言文章中检索与第一谣言关键词匹配概率达到第一预设概率的文章;在达到第一预设概率的文章中检索与第二谣言关键词匹配概率达到第二预设概率的文章;将达到第二预设概率的文章及其对应的谣言标识进行显示。具体的,显示模块可以是按照谣言关键词匹配概率由大到小的顺序依次显示谣言文章及其对应的谣言标识,以便于用户更加快速的查看到更为相近的文章。
本公开实施例利用谣言数据库进行谣言文章的检索,可以将与疑似谣言文章相关的所有谣言文章显示给用户,以便用户根据显示的内容对疑似谣言文章进行一个判断,对阻止谣言的传播具有较为明显的效果。
本公开另一实施例提供了一种分析谣言数据的装置,该装置的结构示意如图6所示,包括:
接收模块20,用于接收对疑似谣言文章进行检索的请求;提取模块21,与接收模块20耦合,用于根据请求对疑似谣言文章进行谣言关键词提取;第二确定模块22,与提取模块21耦合,用于根据谣言关键词确定文章的领域类别;检索模块23,与第二确定模块22耦合,用于在谣言数据库的领域类别对应的谣言文章中检索与谣言关键词匹配概率达到预设概率的文章;检测模块25,与检索模块23耦合,用于检测达到预设概率的文章的数量是否达到预设数量;标记模块26,与检测模块25耦合,用于在达到预设概率的文章的数量达到预设数量的情况下,确定疑似谣言文章为谣言文章,并将谣言文章的属性标记为谣言属性。显示模块24,与检索模块23耦合,用于将达到预设概率的文章及其对应的谣言标识进行显示。
当普通用户怀疑某一篇文章是谣言文章时,其需要寻找一个主观上可以确定该文章是否为谣言文章的渠道,因此,其可以通过本公开上述实施例中构建好的谣言数据库对应的平台进行查询。
当接收模块接收到一个检索的请求后,提取模块就可以提取疑似谣言文章的关键词,检索模块利用关键词在谣言数据库中进行查询。
在谣言关键词为多个的情况下,确定疑似谣言文章的检索就需要参考多个关键词,具体可以如下:在谣言数据库的领域类别对应的谣言文章中检索与第一谣言关键词匹配概率达到第一预设概率的文章;在达到第一预设概率的文章中检索与第二谣言关键词匹配概率达到第二预设概率的文章;将达到第二预设概率的文章及其对应的谣言标识进行显示。
实现过程中,检测模块检测达到预设概率的文章的数量是否达到了预设数量,如果达到预设概率的文章的数量达到了预设数量,则进一步确定疑似谣言文章是谣言文章的概率极大,则标记模块立即对该疑似谣言文章的属性进行调整。该过程可以自动判定用户想要鉴定的疑似谣言文章是否为谣言文章,用户可以在系统确定后进一步通过自己比较而学习谣言文章的谣言内容。
在一个优选实施过程中,当确定疑似谣言文章为谣言文章之后,还可以按照预设规则在在谣言关键词中确定谣言判定基础词,并将谣言判定基础词添加至预设谣言判定基础词库中。该谣言判定基础词库可以为通过用户评论自动鉴别谣言文章做基础,丰富了谣言文章鉴定的方式。
具体的,显示模块可以是按照谣言关键词匹配概率由大到小的顺序依次显示谣言文章及其对应的谣言标识,以便于用户更加快速的查看到更为相近的文章。
本公开实施例利用谣言数据库进行谣言文章的检索,可以将与疑似谣言文章相关的所有谣言文章显示给用户,以便用户根据显示的内容对疑似谣言文章进行一个判断,对阻止谣言的传播具有较为明显的效果。
本公开另一实施例提供了一种存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施例中构建谣言数据库的方法的步骤以及分析谣言数据的方法的步骤,此处不再赘述。
下面,结合具体实例对上述过程进行说明。
本实例的存储介质设置在一个可以阅读的内容平台上,可以作为该内容平台对应服务器的一部分存在。
当前社会背景下,某些账号或作者为谋取利益,争夺点击率,刻意利用网络平台制造一些蛊惑人心的谣言,引起社会恐慌。这种违背事实真相的行为,不仅会对平台的声誉形象造成影响,更会扰乱社会秩序和稳定。本公开实施例提出的方案,可以对已有的谣言文章做结构化处理,统一存放到谣言数据库中,一方面,能用来对谣言事件做细致的分析,从而能研究谣言机构的背后逻辑;另一方面,结构化的谣言数据也能用来拦截其它的类似谣言文章。
谣言数据库是一个巨大的假新闻与谣言文章存储库,目的在于当输入某条疑似谣言信息或关键词时,会自动根据库存文章内容进行匹配,从而输出多篇相关谣言文章;同时,该系统还可以实现添加,搜索,判断,检测,辟谣等功能,从而为谣言信息检索,语义模型的识别等提供平台载体。由于录入过程中已经对谣言文章做了结构化处理,引入大数据分析算法,比如聚类、分类等会更为容易,因而能分析到更多的谣言产生机制,比如健康类文章是谣言高发领域,占总量的30%多。
本实例基于谣言数据库的平台设置了谣言文章查看、检索、导入、检测、分析五个功能板块。
查看:对目前已录入的谣言文章进行查看,并支持按分类统计数据,用户可对每一篇谣言文章查看其辟谣信息,了解事实真相。
检索:在谣言库中搜寻具体文章,支持单条检索和批量检索,检索条件为文章id/url/title,批量检索为csv文件格式。
录入:对已经确定的谣言文章信息添加至谣言库中,支持单条导入和批量导入,批量导入为csv文件格式,支持指定具体谣言段落。其中,维护人员可通过站内排查方式,收集相关谣言文章并添加;支持批量添加;通过与审核任务打通,审核队列中(模型识别)遇到的谣言文章进行录入;通过与其它产品的谣言确认环节打通,将谣言及辟谣信息一键导入谣言库系统中。
检测:输入疑似谣言文章进行谣言与否的判断,因为录入时已经指定了谣言位置,比如标题和正文某部位,支持语义检测。
分析:对谣言库做聚类分析,得到最常见的谣言类型;按照时间顺序排列谣言事件,能分析谣言变化的过程。
本公开实施例可支持查看、检索、导入、分析等多功能;实现与外部辟谣机构的联动合作,其发表的辟谣文章连同谣言文章可一并录入至谣言数据库中;作为谣言文章样本量的载体,能够降低人力成本,提升辟谣的效率和权威性,体现头条谣言识别及打击的专业性;提升谣言识别的准确率,实现精准打击和辟谣,保持站内内容质量。
本公开另一实施例还提供了一种电子设备,下面参考图7,其示出了适于用来实现本公开实施例的电子设备800的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图7示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图7所示,电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图7示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,电子设备执行上述一个或者多个程序,实现时,该电子设备执行:获取文章的属性标记为谣言属性的文章;根据文章的谣言关键词确定文章的领域类别;对文章中包含谣言内容的部分进行谣言标识,其中,谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;将进行谣言标识后的文章按照领域类别保存至谣言数据平台的谣言数据库中。
电子设备执行上述一个或者多个程序时,当该电子设备在执行根据文章的谣言关键词确定文章的领域类别时,具体执行:按照文章的谣言关键词进行聚类处理或者分类处理,以确定文章的领域类别。
或者,上述计算机可读介质承载有一个或者多个程序,电子设备执行上述一个或者多个程序,实现时,该电子设备执行:接收对疑似谣言文章进行检索的请求;根据请求对疑似谣言文章进行谣言关键词提取;根据谣言关键词确定文章的领域类别;在谣言数据库的领域类别对应的谣言文章中检索与谣言关键词匹配概率达到预设概率的文章,并将达到预设概率的文章及其对应的谣言标识进行显示。
电子设备执行上述一个或者多个程序时,当该电子设备在执行在谣言关键词为多个的情况下,在谣言数据库中检索与谣言关键词匹配概率达到预设概率的文章,并将达到预设概率的文章及其对应的谣言标识进行显示时,具体执行:在谣言数据库的领域类别对应的谣言文章中检索与第一谣言关键词匹配概率达到第一预设概率的文章;在达到第一预设概率的文章中检索与第二谣言关键词匹配概率达到第二预设概率的文章;将达到第二预设概率的文章及其对应的谣言标识进行显示。
电子设备执行上述一个或者多个程序时,当该电子设备在执行将达到预设概率的文章及其对应的谣言标识进行显示时,具体执行:按照谣言关键词匹配概率由大到小的顺序依次显示谣言文章及其对应的谣言标识。
电子设备执行上述一个或者多个程序时,当该电子设备在执行根据谣言关键词在谣言数据库的领域类别对应的谣言文章中检索与谣言关键词匹配概率达到预设概率的文章之后,还执行:检测达到预设概率的文章的数量是否达到预设数量;在达到预设概率的文章的数量达到预设数量的情况下,确定疑似谣言文章为谣言文章,并将谣言文章的属性标记为谣言属性。
电子设备执行上述一个或者多个程序时,当该电子设备在执行将谣言文章的属性标记为谣言属性之后,还执行:按照预设规则在在谣言关键词中确定谣言判定基础词,并将谣言判定基础词添加至预设谣言判定基础词库中。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定。
以上对本公开多个实施例进行了详细说明,但本公开不限于这些具体的实施例,本领域技术人员在本公开构思的基础上,能够做出多种变型和修改实施例,这些变型和修改都应落入本公开所要求保护的范围之内。

Claims (12)

1.一种构建谣言数据库的方法,其特征在于,包括:
获取文章的属性标记为谣言属性的文章;
根据所述文章的谣言关键词确定所述文章的领域类别;
对所述文章中包含谣言内容的部分进行谣言标识,其中,所述谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;
将进行谣言标识后的所述文章按照领域类别保存至谣言数据平台的谣言数据库中。
2.如权利要求1所述的方法,其特征在于,根据所述文章的谣言关键词确定所述文章的领域类别,包括:
按照所述文章的谣言关键词进行聚类处理或者分类处理,以确定所述文章的领域类别。
3.一种分析谣言数据的方法,应用通过权利要求1或2所述方法构建的谣言数据库,其特征在于,包括:
接收对疑似谣言文章进行检索的请求;
根据所述请求对所述疑似谣言文章进行谣言关键词提取;
根据所述谣言关键词确定所述文章的领域类别;
在谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章,并将所述达到预设概率的文章及其对应的谣言标识进行显示。
4.如权利要求3所述的方法,其特征在于,在所述谣言关键词为多个的情况下,在所述谣言数据库中检索与所述谣言关键词匹配概率达到预设概率的文章,并将所述达到预设概率的文章及其对应的谣言标识进行显示,包括:
在所述谣言数据库的所述领域类别对应的谣言文章中检索与第一谣言关键词匹配概率达到第一预设概率的文章;
在所述达到第一预设概率的文章中检索与第二谣言关键词匹配概率达到第二预设概率的文章;
将所述达到第二预设概率的文章及其对应的谣言标识进行显示。
5.如权利要求3所述的方法,其特征在于,将所述达到预设概率的文章及其对应的谣言标识进行显示,包括:
按照所述谣言关键词匹配概率由大到小的顺序依次显示谣言文章及其对应的谣言标识。
6.如权利要求3至5中任一项所述的方法,其特征在于,根据所述谣言关键词在所述谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章之后,还包括:
检测所述达到预设概率的文章的数量是否达到预设数量;
在所述达到预设概率的文章的数量达到所述预设数量的情况下,确定所述疑似谣言文章为谣言文章,并将所述谣言文章的属性标记为谣言属性。
7.如权利要求6所述的方法,其特征在于,将所述谣言文章的属性标记为谣言属性之后,还包括:
按照预设规则在在谣言关键词中确定谣言判定基础词,并将所述谣言判定基础词添加至预设谣言判定基础词库中。
8.一种构建谣言数据库的装置,其特征在于,包括:
获取模块,用于获取文章的属性标记为谣言属性的文章;
第一确定模块,用于根据所述文章的谣言关键词确定所述文章的领域类别;
标识模块,用于对所述文章中包含谣言内容的部分进行谣言标识,其中,所述谣言标识至少包括以下之一:标题中包含谣言、文章中部分段落包含谣言、文章所有内容均为谣言;
保存模块,用于将进行谣言标识后的所述文章按照领域类别保存至谣言数据平台的谣言数据库中。
9.一种分析谣言数据的装置,其特征在于,包括:
接收模块,用于接收对疑似谣言文章进行检索的请求;
提取模块,用于根据所述请求对所述疑似谣言文章进行谣言关键词提取;
第二确定模块,用于根据所述谣言关键词确定所述文章的领域类别;
检索模块,用于在谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章;
显示模块,用于将所述达到预设概率的文章及其对应的谣言标识进行显示。
10.如权利要求9所述的装置,其特征在于,根据所述谣言关键词在所述谣言数据库的所述领域类别对应的谣言文章中检索与所述谣言关键词匹配概率达到预设概率的文章之后,还包括:
检测模块,用于检测所述达到预设概率的文章的数量是否达到预设数量;
标记模块,用于在所述达到预设概率的文章的数量达到所述预设数量的情况下,确定所述疑似谣言文章为谣言文章,并将所述谣言文章的属性标记为谣言属性。
11.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1或2所述方法的步骤,或者,所述计算机程序被处理器执行时实现权利要求3至7中任一项所述方法的步骤。
12.一种电子设备,至少包括存储器、处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器在执行所述存储器上的计算机程序时实现权利要求1或2所述方法的步骤,或者,所述处理器在执行所述存储器上的计算机程序时实现权利要求3至7中任一项所述方法的步骤。
CN201811155698.9A 2018-09-30 2018-09-30 构建谣言数据库的方法、分析谣言数据的方法及电子设备 Pending CN109271425A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811155698.9A CN109271425A (zh) 2018-09-30 2018-09-30 构建谣言数据库的方法、分析谣言数据的方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811155698.9A CN109271425A (zh) 2018-09-30 2018-09-30 构建谣言数据库的方法、分析谣言数据的方法及电子设备

Publications (1)

Publication Number Publication Date
CN109271425A true CN109271425A (zh) 2019-01-25

Family

ID=65195401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811155698.9A Pending CN109271425A (zh) 2018-09-30 2018-09-30 构建谣言数据库的方法、分析谣言数据的方法及电子设备

Country Status (1)

Country Link
CN (1) CN109271425A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188284A (zh) * 2019-04-25 2019-08-30 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及系统
CN110674383A (zh) * 2019-09-26 2020-01-10 支付宝(杭州)信息技术有限公司 舆情查询方法、装置及设备
CN111506710A (zh) * 2020-07-01 2020-08-07 平安国际智慧城市科技股份有限公司 基于谣言预测模型的信息发送方法、装置和计算机设备
CN111563126A (zh) * 2020-05-12 2020-08-21 卓尔智联(武汉)研究院有限公司 一种基于区块链系统的数据处理方法、装置和电子设备
CN111898340A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 文件的处理方法、设备及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010091353A (ko) * 2000-03-14 2001-10-23 김대성 인터넷 사이트를 이용한 루머가치의 재평가방법
CN105354342A (zh) * 2015-12-18 2016-02-24 魅族科技(中国)有限公司 一种检索的方法以及移动终端
CN106202211A (zh) * 2016-06-27 2016-12-07 四川大学 一种基于微博类型的集成微博谣言识别方法
CN106599286A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 一种信息监控辟谣实现方法和装置、移动终端
CN107330079A (zh) * 2017-06-29 2017-11-07 百度在线网络技术(北京)有限公司 基于人工智能呈现辟谣信息的方法和装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010091353A (ko) * 2000-03-14 2001-10-23 김대성 인터넷 사이트를 이용한 루머가치의 재평가방법
CN105354342A (zh) * 2015-12-18 2016-02-24 魅族科技(中国)有限公司 一种检索的方法以及移动终端
CN106202211A (zh) * 2016-06-27 2016-12-07 四川大学 一种基于微博类型的集成微博谣言识别方法
CN106599286A (zh) * 2016-12-23 2017-04-26 北京奇虎科技有限公司 一种信息监控辟谣实现方法和装置、移动终端
CN107330079A (zh) * 2017-06-29 2017-11-07 百度在线网络技术(北京)有限公司 基于人工智能呈现辟谣信息的方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188284A (zh) * 2019-04-25 2019-08-30 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及系统
CN110188284B (zh) * 2019-04-25 2022-01-28 中国科学院计算技术研究所 一种基于检索辅助的谣言检测方法及系统
CN110674383A (zh) * 2019-09-26 2020-01-10 支付宝(杭州)信息技术有限公司 舆情查询方法、装置及设备
CN110674383B (zh) * 2019-09-26 2022-07-12 支付宝(杭州)信息技术有限公司 舆情查询方法、装置及设备
CN111563126A (zh) * 2020-05-12 2020-08-21 卓尔智联(武汉)研究院有限公司 一种基于区块链系统的数据处理方法、装置和电子设备
CN111563126B (zh) * 2020-05-12 2022-12-20 卓尔智联(武汉)研究院有限公司 一种基于区块链系统的数据处理方法、装置和电子设备
CN111506710A (zh) * 2020-07-01 2020-08-07 平安国际智慧城市科技股份有限公司 基于谣言预测模型的信息发送方法、装置和计算机设备
CN111506710B (zh) * 2020-07-01 2020-11-06 平安国际智慧城市科技股份有限公司 基于谣言预测模型的信息发送方法、装置和计算机设备
CN111898340A (zh) * 2020-07-30 2020-11-06 北京字节跳动网络技术有限公司 文件的处理方法、设备及可读存储介质

Similar Documents

Publication Publication Date Title
US11625406B2 (en) Website scoring system
CN109271425A (zh) 构建谣言数据库的方法、分析谣言数据的方法及电子设备
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
WO2020143620A1 (zh) 显示区块链数据的方法、区块链浏览器、用户节点和介质
US8082264B2 (en) Automated scheme for identifying user intent in real-time
JP2023533475A (ja) キーワード推薦のための人工知能
CN103577452A (zh) 用于丰富网站内容的方法和装置、网站服务器
CN108090351A (zh) 用于处理请求消息的方法和装置
CN111314388B (zh) 用于检测sql注入的方法和装置
KR20140119269A (ko) 소셜 미디어 분석을 기반으로 복합이슈를 탐지하기 위한 장치, 시스템 및 그 방법
US10229194B2 (en) Providing known distribution patterns associated with specific measures and metrics
EP4174683A1 (en) Data evaluation method and apparatus, training method and apparatus, and electronic device and storage medium
CN110245357B (zh) 主实体识别方法和装置
CN109388696A (zh) 删除谣言文章的方法、装置、存储介质及电子设备
CN111563527B (zh) 异常事件检测方法以及装置
US20160162930A1 (en) Associating Social Comments with Individual Assets Used in a Campaign
CN104750692B (zh) 一种信息处理方法、信息检索方法及其对应的装置
WO2022222660A1 (zh) 对象展示方法、装置、电子设备及计算机可读存储介质
CN113987134A (zh) 工单检索方法、装置、电子设备及存储介质
CN111310016B (zh) 标签挖掘方法、装置、服务器和存储介质
CN112784046A (zh) 文本聚簇的方法、装置、设备及存储介质
CN109299261A (zh) 分析谣言数据的方法、装置、存储介质及电子设备
US20200104887A1 (en) Techniques for identifying ingenuine online reviews
US20240202450A1 (en) System and method for determining bias concept/document in a set of documents
CN113792549B (zh) 一种用户意图识别的方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination