CN108829656B - 网络信息的数据处理方法及数据处理装置 - Google Patents

网络信息的数据处理方法及数据处理装置 Download PDF

Info

Publication number
CN108829656B
CN108829656B CN201710304943.7A CN201710304943A CN108829656B CN 108829656 B CN108829656 B CN 108829656B CN 201710304943 A CN201710304943 A CN 201710304943A CN 108829656 B CN108829656 B CN 108829656B
Authority
CN
China
Prior art keywords
information
network information
network
target account
interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710304943.7A
Other languages
English (en)
Other versions
CN108829656A (zh
Inventor
郑博
刘日佳
黎新
万伟
陈谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710304943.7A priority Critical patent/CN108829656B/zh
Publication of CN108829656A publication Critical patent/CN108829656A/zh
Application granted granted Critical
Publication of CN108829656B publication Critical patent/CN108829656B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种网络信息的数据处理方法及数据处理装置,所述方法包括:接收网络信息,网络信息包括:发布账号、目标账号群、和信息内容;对信息内容进行文本分析,以生成信息源可信度;对目标账号群的系统日志进行行为分析,以生成目标行为可信度;根据信息源可信度、目标行为可信度、和对应账号的基本信息生成信用评分;根据信用评分匹配对应的控制策略,进而调整网络信息所对应的操作。本发明通过网络信息的信息源、对应账号的系统日志和基本信息进行可信度分析,进而形成常规信息和非常规信息,并对非常规信息进行各类限制操作,提高了网络信息审核的准确率和时效性,进而扼制非常规信息的传播渠道,且加快常规信息的发布速度。

Description

网络信息的数据处理方法及数据处理装置
技术领域
本发明属于数据处理领域,尤其涉及一种网络信息的数据处理方法及数据处理装置。
背景技术
网络媒体的兴起,为个人和机构参与进行网络信息传播提供了新的传播渠道,同时也产生了种种乱象。诸如谣言、色情、违法违规、标题党、非法传销等不良信息纷纷借网络媒体之名进行传播和发展,严重地危害了各大网络平台的健康发展。
目前,网络平台的维护和管理,主要借助人工审核、和用户举报等传统手段,同时通过一些规则和工具(例如敏感词、色情检测等)进行辅助检测和打击。
然而,现有的维护和管理方法,对于网络平台而言,过于粗放化,导致网络信息的发布或拦截过于依赖人工审核,不仅浪费人力成本,并且会造成时效性差、出错率高等问题。而网络媒体的传播速度之快,往往一定的时延会导致不良信息已进行了传播,甚至已经产生了危害。
发明内容
本发明的目的在于提供一种网络信息的数据处理方法及数据处理装置,旨在提高网络平台的审核准确率和时效性,进而扼制非常规信息的传播渠道,且加快常规信息的发布速度。
为解决上述技术问题,本发明实施例提供以下技术方案:
一种网络信息的数据处理方法,包括:
接收网络信息,所述网络信息包括:发布账号、目标账号群、和信息内容;
对所述信息内容进行文本分析,以生成信息源可信度;
获取所述目标账号群中各目标账号的系统日志,并对所述系统日志进行行为分析,以生成目标行为可信度;
获取发布账号的基本信息、和所述目标账号群中各目标账号的基本信息;
根据时间触发信号,获取在预设时间段内的信息源可信度、目标行为可信度、和所述基本信息,并代入到评分卡模型,以输出信用评分;
根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作。
为解决上述技术问题,本发明实施例还提供以下技术方案:
一种网络信息的数据处理装置,包括:
信息接收模块,用于接收网络信息,所述网络信息包括:发布账号、目标账号群、和信息内容;
源分析模块,用于对所述信息内容进行文本分析,以生成信息源可信度;
行为分析模块,用于获取所述目标账号群中各目标账号的系统日志,并对所述系统日志进行行为分析,以生成目标行为可信度;
账号获取模块,用于获取发布账号的基本信息、和所述目标账号群中各目标账号的基本信息;
评分输出模块,用于根据时间触发信号,获取在预设时间段内的信息源可信度、目标行为可信度、和所述基本信息,并代入到评分卡模型,以输出信用评分;
策略匹配模块,用于根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作。
本发明实施例提供的网络信息的数据处理方法及数据处理装置,通过网络信息的信息源、对应账号的系统日志和基本信息,对网络信息进行可信度分析,进而形成常规信息和非常规信息,并对非常规信息进行各类限制操作,提高了网络信息审核的准确率和时效性、对网络信息的发布更加自动化和智能化,减轻了网络平台运营的人力成本,且提高了响应速度和界面的友好性,同时不仅能够扼制非常规信息的传播渠道,还可以加快常规信息的发布速度。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其它有益效果显而易见。
图1是本发明实施例提供的网络信息的数据处理方法及处理装置的应用场景示意图;
图2是本发明实施例提供的网络信息的数据处理方法的流程示意图;
图3为本发明实施例提供的网络信息的数据处理方法的另一流程示意图;
图4是本发明实施例提供的信息源可信度的步骤细化示意图;
图5是本发明实施例提供的信用评分的步骤细化示意图;
图6是本发明实施例提供的监控平台的监控窗口示意图;
图7是本发明实施例提供的网络信息的数据处理装置的结构示意图;
图8是本发明实施例提供的网络信息的数据处理装置的另一结构示意图;
图9是本发明实施例提供的网络服务器的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
在以下的说明中,本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域技术人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本发明原理以上述文字来说明,其并不代表为一种限制,本领域技术人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语「模块」、「单元」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施,当然也可在硬件上进行实施,均在本发明保护范围之内。
参见图1,所示为本发明实施例提供的网络信息的数据处理方法及处理装置的应用场景示意图。
在所述应用场景中,存在:至少一个第一用户11、至少一个第二用户12、和至少一个第三用户13。
其中,第一用户11在第一终端设备21注册并登陆发布账号,并通过发布账号在网络服务器30中进行信息发布。此外,第一用户11还可以对发布的网络信息进行功能管理。所述功能管理,是指由用户对网络信息指定对应的操作,比如:可以关闭网络信息的转发功能、或网络信息需付费后才能阅读等。
第二用户12在第二终端设备22注册并登陆普通账号。普通账号可对所述发布账号进行信息浏览或具有浏览权限,属于发布账号的目标账号。同一发布账号的多个目标账号,构成目标账号群。
对目标账号群进行说明如下:对于一般不设置浏览权限的网络平台,比如微博,其私密性不强。因此,在信息发布时没有明显的目标账号群,在信息发布后根据网络信息的内容决定传播人群,进而形成目标账号群。对于设置浏览权限的网络平台,比如朋友圈,其私密性较强。因此,在信息发布时即可根据浏览权限获取目标账号群。
所述第三用户13,用于对发送至第三终端设备23的网络信息进行信息审核,并将审核结果发送至网络服务器30,由网络服务器30根据审核结果进行网络信息的发布或拦截。
网络服务器30,连接于所述第一终端设备21、第二终端设备22、和第三终端设备23。
网络服务器30接收来自于发布账号的网络信息,对网络信息进行数据处理以输出信用评分,并根据信用评分为网络信息匹配对应的操作。此外,还筛选出预定评分区间的网络信息,并发送至第三终端23所运行的审核平台进行信息审核。
网络服务器30接收来自于第一终端21的网络信息,并对所述网络信息进行信息存储31,所述网络信息包括:发布账号、目标账号群、和信息内容;对存储的信息内容进行信息源分析32,以生成信息源可信度;获取所述目标账号群中各目标账号的系统日志,并对所述系统日志进行目标行为分析33,以生成目标行为可信度;从目标账号的信用记录34和发布账号的信用记录35中,获取发布账号的基本信息、和所述目标账号群中各目标账号的基本信息;根据时间触发信号,获取在预设时间段内的信息源可信度、目标行为可信度、和所述基本信息,并代入到评分卡模型进行内容信用分析36,以输出信用评分;根据所述信用评分匹配对应的控制策略,并在对所述网络信息进行分发处理38后,根据所述控制策略调整所述网络信息所对应的操作,进而实现传播控制37。
此外,所述网络服务器300还根据发布账号的信用记录35对发布账号进行管理30,以及根据目标账号的信用记录34对目标账号进行管理39。
可以理解为,本发明实施例可以根据预设评分区间将将网络信息生成常规信息、非常规信息、和待定信息;然后将其中的常规信息按发布账号所指定的功能进行信息的分发处理;将非常规信息按照调整的操作进行发布;将待定的信息发送至审核平台进行信息审核,并在审核后决定发布或拦截。
请参阅图2,图2是本发明实施例提供的网络信息的数据处理方法的流程示意图。所述网络信息的数据处理方法,包括:
在步骤S201中,接收网络信息,所述网络信息包括:发布账号、目标账号群、和信息内容。
网络服务器接收来自发布账号的网络信息,获取所述网络信息的信息内容;并查询具有所述发布账号浏览权限的多个目标账号,作为目标账号群。
在步骤S202中,对所述信息内容进行文本分析,以生成信息源可信度。
具体而言,本步骤可执行为:
(1)通过文本分析,将所述信息内容进行自然语言处理,以生成摘要信息和描述信息,其中所述摘要信息包括语义信息、和/或句法信息,所述描述信息包括体裁、领域、和/或内容长度。
(2)根据所述摘要信息和描述信息,将所述信息内容与知识库进行散列索引,以获取知识库中对应的参考文本。
(3)将所述信息内容与所述参考文本进行差异比对,并根据比对结果生成信息源可信度。
其中,所述预设知识库,是指来源于百科全书、专业词典、论文文献等被公众所认可的电子书籍。知识库的生成步骤可概述为:
(2.1)通过网络爬虫从网络中获取各类文本,并标注每个文本的来源;
(2.2)对其中预设来源的文本进行文本分析,以生成摘要信息和描述信息;
(2.3)将所述来源、摘要信息、和描述信息作为索引,存储在知识库中。
可以理解的是,信息内容与知识库的差异度越低,则信息源可信度越高。
在步骤S203中,获取所述目标账号群中各目标账号的系统日志,并对所述系统日志进行行为分析,以生成目标行为可信度。
网络服务器从系统日志中,获取各目标账号与查封相关的行为,以生成目标行为可信度。
在步骤S204中,获取发布账号的基本信息、和所述目标账号群中各目标账号的基本信息。
可以理解的是,发布账号的注册时间、发布信息的总量、和/或删除信息的总量;以及目标账号群中各目标账号的注册时间、阅读信息的总量、和/或活跃天数,等等基本信息,都会对信用评分产生影响。
在步骤S205中,根据时间触发信号,获取在预设时间段内的信息源可信度、目标行为可信度、和所述基本信息,并代入到评分卡模型,以输出信用评分。
其中,所述评分卡模型,可从历史数据中获取信息源可信度、目标行为可信度、和所述基本信息、以及对应操作,并进行训练而生成。
在步骤S206中,根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作。
其中,当所述信用评分在第一区间时,获取第一控制策略,并在发布网络信息后,限制所述网络信息的评论和点赞功能。当所述信用评分在第二区间时,获取第二控制策略,并在发布网络信息后,限制所述网络信息的转发功能。当所述信用评分在第三区间时,获取第三控制策略,并将所述网络信息发送至审核平台,并根据所述审核平台的审核结果进行网络信息的发布或拦截。当所述信用评分在第四区间时,获取第四控制策略,并在发布网络信息后,限制所述网络信息的打赏或直播功能。
可以理解的是,所述第一区间、第二区间、第三区间、和第四区间,之间存在重合的子区间。当所述信用评分在重合的子区间时,获取对应的多个控制策略,并限制对应的功能。
可以理解的是,本步骤根据预先定义好的策略对网络信息的传播功能进行控制,并根据设定的阈值将一些疑似违规或风险较大的内容提交审核。其中,传播控制功能部署于策略分析服务器上。
本发明实施例提供的网络信息的数据处理方法,通过网络信息的信息源、对应账号的系统日志和基本信息进行可信度分析,进而形成常规信息和非常规信息,并对非常规信息进行各类限制操作,提高了网络信息审核的准确率和时效性,进而扼制非常规信息的传播渠道,且加快常规信息的发布速度。
请参阅图3,图3是本发明实施例提供的数据处理方法的另一流程示意图。所述网络信息的数据处理方法,包括:
在步骤S301中,接收并存储网络信息,所述网络信息包括:发布账号、目标账号群、和信息内容。
具体而言,本步骤可执行为:
(1)网络服务器接收来自发布账号的网络信息。
(2)获取所述网络信息的信息内容。
(3)根据浏览权限的设置,确定所述发布账号是否具有对应的目标账号群;其中,若已设置浏览权限,则视具有浏览权限的多个账号为目标账号群;若未设置浏览权限,则视为无对应的目标账号群。
(4)若有目标账号群,则查询所述具有浏览权限的多个目标账号,作为目标账号群。
(5)若无目标账号群,则发布所述网络信息,并根据所述网络信息的浏览情况生成目标账号群。
在步骤S302中,对所述信息内容进行文本分析,并与知识库进行对比,进而生成信息源可信度。
请同时参阅图4,具体而言,本步骤可执行为:
(1)通过网络爬虫41从互联网40上对各类文字内容进行信息抓取。
网络爬虫41,是一种自动化浏览网络的程序,广泛应用于搜索引擎或类似网站。其中,文字内容的抓取来源包括但不限于:新闻网站发布的新闻、BBS上的帖子、博客上的文章、社交网络上的个人感悟、电子图书馆的各类藏书、以及百科网站上的各类专业知识等,记作T={(texti,addri)},其中addri表示内容来源的地址。
(2)对所述各类文字内容进行文本分析42。
其中,网络爬虫41获得的文字内容将采用自然语言处理的相关方法进行文本分析42,并从中抽取得到文本的摘要信息ai以及相关描述信息bi,记作Desc(texti)=(ai,bi)。其中摘要信息通常是一个短语或短句,概括了文本内容的含义,并给出了句法信息(即主谓宾定状补)。描述信息可以包括文章的体裁、内容类别、学科领域、长短、所表达的情感、可信程度等。一般地,需要事先通过人工收集的文本语料库和标记来提取特征,训练相关的机器学习算法Desc(texti)来实现。例如先分析文字内容的词义,并生成名词和动词的稀疏向量,然后使用主题模型分析其中的主题,并使用人工标注的方法对提取的主题进行标签化。这里可以使用词向量、文本向量嵌入的方法、叠加聚类的方法,概率主题(LatentDirichletAllocation,LDA)的方法、或深度神经网络等主流自然语言处理方法或其组合来完成。
对于自然语言处理,比如信息源分析模块中的运算符的定义,也可以采用构造相似度判别器的方法来进行。这需要事先收集足够的语料对,并根据其相似程度人工标记出语料对中相似、相反与不相关三种类别,然后选择合适的机器学习算法对标注数据进行训练,通过调整参数得到能够较为准确处理已有标注数据的判别器模型,运用在系统当中。
(3)将其中预定来源的网络信息,生成知识库43。
其中,知识库43主要来源于在线的百科和电子图书馆中的专业书籍。即:当addri存在于预定义的在线百科与图书馆列表ADDRk中时,文本分析42的结果将被传输给知识库43。知识库43中存储的主要是对于一些名词的说明和描述,根据文本分析42的摘要部分加工而来,具体方式可以有多种,例如采用句法成分,将ai中的主语ai subj、谓语ai verb和宾语ai obj构成三元组<ai subj,ai verb,ai obj>,或者是将主语ai subj与定语ai attr构成二元组<ai subj,ai attr>,并存储于知识数据库中。知识数据库是一个结构化的数据库,其索引包含文本的哈希、知识内容的领域、实体类别、谓语类别等。我们能够根据一定的限定条件从中找到符合要求的知识,并存储于知识库43中。知识库43是一个结构化的数据库,其索引包含文本的哈希、知识内容的领域、实体类别、谓语类别等。
(4)将其中非预定来源的网络信息,生成可信度数据库44。
当网络爬虫41得到的文字内容addri不在ADDRk中时,知识库43中存储的内容将被作为机器学习算法Desc(texti)的参数用于推断其他来源的文本内容texti的可信程度和内容类别等描述信息。文本分析42得到的相关结果被存储于可信度数据库44中。
(5)为存储的网络信息建立内容索引45。
将网络爬虫41获得的各类文字内容texti与内容存储器中新发布的网络信息conti进行散列索引,并保存相应的参考文本供后续分析比对使用。这里将texti或conti统一记作ci,则Index=(indexi,ci),其中indexi=Hash(ci),Hash()为散列函数,其中,所采用的散列函数(Hash Function)包括但不限于SimHash或者局部敏感哈希(Locality-SensitiveHashing,LSH)算法。对于需要存储于可信度数据库44中的内容,散列值indexi将被作为对应数据的索引。而对于需要比较分析的平台内容,在计算得到散列值indexi后,可以通过设定指定类型的散列距离的阈值L,从已有的索引表中找出相似的内容,并提供给比较分析模块进行对比。即:Resulti={cj|dist(indexi,indexj)<L},其中dist()为距离函数,通常SimHash算法散列值采用Hamming距离,LSH可以采用Jaccard距离、Hamming距离、余弦距离或标准化的欧几里得距离。Resulti作为结果集合进行下一步的比较分析。
(6)将网络信息的信息内容与参考文本比较分析46。
将索引得到的参考文本集合Resulti与网络信息的信息内容ci进行比较,并结合知识库43中的内容对差异内容conti进行鉴别,给出该内容的基本描述与可信程度,并将其记录在可信度数据库44中。
上述的比较过程通常需要对原始内容conti进行文本分析,即通过上文所描述的自然语言处理方法抽取其摘要信息和描述信息,即
Figure BDA0001285398900000096
同时,在可信度数据库中根据内容索引模块得到的Resulti进行查询,得到其相关描述信息
Figure BDA0001285398900000097
分析
Figure BDA0001285398900000098
Figure BDA0001285398900000099
两者差异。具体可以通过两者词匹配程度,或句法分析、语义依存分析的方法来进行。例如,通过将摘要内容
Figure BDA00012853989000000911
Figure BDA00012853989000000910
的词映射到预先在大量文本上训练得到的词向量上,得到两者的向量集合
Figure BDA0001285398900000091
Figure BDA0001285398900000092
然后计算两者的平均向量值
Figure BDA0001285398900000093
Figure BDA0001285398900000094
再计算两者的欧几里得距离
Figure BDA0001285398900000095
并将其作为内容相似程度的依据simi。之后,需要对内容conti与Resulti的共同支持度进行比较,给出conf={proof(conti,cj)|cj∈Resulti},其中proof函数表示内容cj对于conti的支持度,需要对比两者的句法结构的对应位置的差异,即通过句法分析、语义依存分析,将两者摘要的差异
Figure BDA0001285398900000101
给出,其中α表示a经过句法或语义分析后得到的语义元素。然后以两者的描述信息
Figure BDA0001285398900000105
Figure BDA0001285398900000106
中的领域信息为限定,从知识数据库中分别找出αi,k,αj,k相应的知识元组Ki,k,Kj,k,并与两者原始的描述
Figure BDA0001285398900000102
的语义分析结果进行对比,proof函数会记录两者对比的结果,并转换成置信度
Figure BDA0001285398900000103
其中⊙运算符表示知识库与原始描述的对比相似度,该相似度可以参照之前的文本相似度进行。得出的结果以Si={<simi,conf>i,j}的形式发送给内容信用分析模块。
可以理解的是,本步骤主要负责对新发布的内容进行信息源的分析和比对,标记信息内容所属的领域、可能的来源、和来源的可信度等。
在步骤S303中,获取所述目标账号群中各目标账号的系统日志,并对所述系统日志中与查封相关的行为进行行为分析,以生成目标行为可信度。
具体而言,本步骤可执行为:
(1)获取目标账号群中各目标账号的信用数据,所述信用数据是指与系统内置规则相关的数据。
获取信用数据的步骤还可以细化为:
(1.1)设置系统内置规则,所述规则包括但不限于:举报、和举报被采纳后进行查封;
(1.2)获取目标账号群中各目标账号的举报次数、以及举报被采纳的采纳次数及对应的时间数据;
(1.3)获取所述各目标账号进行点赞、评论、转发、和/或付费操作的关联信息及对应的时间数据,并记录所述关联信息被查封的次数;以及
(1.4)根据所述举报次数、采纳次数、和查封次数,生成各目标账号的信用数据Cj
(2)在系统日志中,获取各目标账号的操作数据,所述操作数据包括但不限于:浏览次数、浏览时长、点赞、评论、转发、打赏、收费阅读、直播、和/或使用虚拟道具,各项操作数据可以统计记作
Figure BDA0001285398900000104
表示用户u对于文章i的k种操作的信息。
(3)对所述操作数据按照时间数据进行切片,以生成时段性操作数据。比如,计算在某一小时内,某用户u在文章i上的行为次数,汇总信息可以记作
Figure BDA0001285398900000111
存储于用户信用数据库中。
(4)根据所述信用数据和所述时段性操作数据,生成目标行为可信度。
可以理解的是,用户行为分析是对用户行为信息进行收集和整理,并根据时间数据对相关操作进行特征构造,用以生成可表征可信程度的信用预估模型,进而计算得到各账号的可信程度,并打包存储于账号信用记录数据库。所述账号信用记录数据库部署于数据计算服务器中。其中,所述第一模型的构造可以通过机器学习的分类方法进行。此外,所述操作信用数据和所述时段性操作数据作为目标变量,可输入至构造好的特征进行训练,并调整参数,进而可有效预测当前账号是否可信、以及未来一段时间出现失信行为概率。
可以理解的是,本步骤主要从系统日志中,获取各目标账号与查封相关的行为,以生成目标行为可信度。
在步骤S304中,获取发布账号的基本信息、和所述目标账号群中各目标账号的基本信息。
可以理解的是,发布账号的注册时间、发布信息的总量、和/或删除信息的总量;以及目标账号群中各目标账号的注册时间、阅读信息的总量、和/或活跃天数,等等基本信息,都会对信用评分产生影响。
在步骤S305中,根据时间触发信号,获取在预设时间段内的信息源可信度、目标行为可信度、和所述基本信息,并代入到评分卡模型,以输出信用评分。
其中,所述评分卡模型,可从历史数据中获取信息源可信度、目标行为可信度、和所述基本信息、以及对应操作,并进行训练而生成。
请同时参阅图5,所示为本发明实施例提供的信用评分的步骤细化示意图。其中,本步骤可概述为:时间触发51、用户行为监测52、内容可信处理53、以及信用评分器54。将信息源分析的结果、账号行为分析的结果、以及媒体帐号的基本信息进行整合,进行信用评分。生成的信用评价会按照对应的帐号进行归档,存储于帐号的信用记录中,同时作为后续传播控制的参考依据。本步骤运行于数据计算服务器上,其核心是一个由时间驱动的信用评分器。
其中,时间触发51,可执行为:提供预先设置的触发信号,驱动用户行为监测模块和信用评分器模块按照指定的周期运行。时间触发模块包含两个周期时钟计时器τm与τc,分别用于对用户行为监测模块和信用评分器发送驱动信号sigm与sigc。通常τc=kτm,k为正整数,τc≤24小时,即保证sigc每天发送至少一次。
用户行为监测52,可执行为:首先,根据sigm从用户信用记录中拉取过往一段时间t内记录的用户信用行为信息,记作
Figure BDA0001285398900000121
例如,收集从两周前至此次信号的记录Ut1w。然后,监测模块将
Figure BDA00012853989000001210
整理得到这段时间内的用户-内容关系对集合Rt={<u,i>}t,即记录在这段时间内每个用户与哪些内容存在着行为关系。随后,用户行为监控模块将对
Figure BDA0001285398900000128
以预定的自然时间周期τn进行汇总,得到序列
Figure BDA0001285398900000122
其中每一个
Figure BDA0001285398900000123
表示在第s个周期内发生的行为次数,这里可以有多个τn同时存在,即同时计算多个粒度的汇总序列,如每小时、每天、每周。之后,对该序列进行平稳化处理,处理后的自相关函数和偏自相关函数的数值非显著非零,并应用差分整合移动平均自回归模型(Autoregressive IntegratedMoving Average model,ARIMA)模型进行时间序列的预测建模,给出未来至少一个周期之内的预测值
Figure BDA0001285398900000124
并计算所有用户预测值的和
Figure BDA0001285398900000125
Figure BDA0001285398900000126
偏离其之前一段时间的平均值
Figure BDA0001285398900000127
达到某一设定的阈值E,则用户行为监测模块向信用评分器发送信号sige,进行应急信用评价,并将{Rt,Cu}发送给信用评分器,以确保平台在突发事件下的响应速度。否则,仅保留用户的信用信息{Rt,Cu}作为信用评分器之后将会用到的数据缓存。
此外,所述用户行为监测52时,还可以设置一缓冲区,用于临时存储过往获得的用户信用行为信息At,从而减少数据库服务器的数据传输量,避免网络带宽资源的浪费。这个缓冲区可以使用数组或哈希表实现。
此外,所述ARIMA模型还可以替换为其他预测方法,比如:多项式拟合、小波分析叠加线性拟合、递归神经网络预测等。
内容可信处理53,可执行为:将信息源分析的结果Si={<simi,conf>i,j}进行加工处理,生成每个内容唯一的信用评价分数。首先需要对几乎完全相同的内容进行判定,可以通过设定阈值S,如果在Si中,存在某一cj,使得
Figure BDA0001285398900000129
则认为conti与cj的内容相同,将直接取cj的评价分数d(cj)作为conti的分数(如果已经计算过score(cj)),否则,按照conf置信度加权计算出d(conti):
Figure BDA0001285398900000131
其中B为人工设定的相似度距离的临界值。
信用评分器54,可执行为:按照sigc的时钟信号或者sigs的应急信号运行。两种信号触发的运行逻辑相同,首先信用评分器从用户行为监测拉取上一信号至这一信号之间产生的数据{Rt,Cu},并利用用户与内容的关系Rt将用户信用的数据整理成按内容索引的格式{Cu}i,其中{Cu}i表示浏览过内容i的用户的信用评价。然后从内容可信处理模块拉取生成的d(conti),并从媒体帐号信用记录数据库中拉取与{Cu}i相对应的剩余内容的信用记录scorem,i,将其作为d(conti)的替代值。
此外,还需要媒体平台服务器端请求相关联的发布账号的基本信息Infou55、和目标账号的基本信息Infom56之和,其中Infou包含用户的注册时间、阅读内容总数量、活跃天数等信息,Infom包含媒体帐号的注册时间、发布内容总数量、删除内容总数量等信息。最后通过将以上信息输入事先训练好的评分卡模型给出该内容最新的信用评分:socrem,i=score({Cu}i,d(conti),Infou,Infom)。之后信用评分器会将该评分发送给传播控制模块,进行实时的传播控制,并附带时间戳存储于媒体帐号信用记录数据库。
在步骤S306中,根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作,进而实现传播控制。
其中,当所述信用评分在第一区间时,获取第一控制策略,并在发布网络信息后,限制所述网络信息的评论和点赞功能。当所述信用评分在第二区间时,获取第二控制策略,并在发布网络信息后,限制所述网络信息的转发功能。当所述信用评分在第三区间时,获取第三控制策略,并将所述网络信息发送至审核平台,并根据所述审核平台的审核结果进行网络信息的发布或拦截。当所述信用评分在第四区间时,获取第四控制策略,并在发布网络信息后,限制所述网络信息的打赏或直播功能。
可以理解的是,所述第一区间、第二区间、第三区间、和第四区间,之间存在重合的子区间。当所述信用评分在重合的子区间时,获取对应的多个控制策略,并限制对应的功能。
可以理解的是,本步骤根据预先定义好的策略对网络信息的传播功能进行控制,并根据设定的阈值将一些疑似违规或风险较大的内容提交审核。其中,传播控制功能部署于策略分析服务器上。
具体而言:传播控制模块根据最新计算得出的各个内容的信用评分{scorem,i}t,以及之前存储于媒体帐号信用记录数据库中的信用评分{scorem,i}ot,匹配各项策略,并依照命中策略的响应方式对网络服务的分发处理模块发送相关命令。策略的制定需要按照平台实际运营方案进行,下面仅给出一些最常见的例子:
(1)对于scorem,i,t-scorem,i,ot<-S1的内容i,限制其评论和赞赏功能,即分发处理在下发时标记该内容不允许评论和赞赏。
(2)对于scorem,i,t<S2的内容,限制其转发功能的使用,即分发处理不再下发该内容的转发结果
(3)对于scorem,i,t<S2
Figure BDA0001285398900000141
不再下发该内容,并将内容发送至人工审核平台,依据审核结果处理。
(4)若
Figure BDA0001285398900000142
对该帐号m进行策略标记,并限制该帐号所有内容的赞赏和直播功能。
除了这些策略之外,还可以包含人工或自动化维护的白名单和黑名单,自动过滤相关帐号的处理,节省计算资源。
在步骤S307中,接收对所述网络信息进行发布及对应操作的反馈信息。
在步骤S308中,对所述反馈信息进行机器学习,并根据机器学习结果对所述区间或控制策略进行调整。
其中,所述机器学习,主要是从数据中获取规律,并利用规律对未知数据进行预测的算法。常见的机器学习算法,比如:线性回归(Linear Regression)、逻辑思谛回归(Logistic Regression)、支持向量机(Support Vector Machine,SVM)、决策树(DecisionTree)、随机森林(Random Forest)、梯度提升决策树(Gradient Boosting Decision Tree,GBDT)、深度神经网络(Deep Neural Network,DNN)等。
此外,还可以通过强化学习的方法,根据人工审核对于违规行为处理的记录,自动学习处理的策略,而不必完全依靠人工设置的策略,提高灵活性和自适应性。
本发明实施例提供的网络信息的数据处理方法,通过网络信息的信息源、对应账号的系统日志和基本信息进行可信度分析,进而形成常规信息、非常规信息、和待定信息,然后将其中的常规信息按发布账号所指定的功能进行信息的分发处理;将非常规信息按照调整的操作进行发布;将待定的信息发送至审核平台进行信息审核,并在审核后决定发布或拦截。本提高了网络信息审核的准确率和时效性,进而扼制非常规信息的传播渠道,且加快常规信息的发布速度。
请参阅图6,所示为本发明实施例提供的监控平台的监控窗口示意图。
本发明实施例提供的网络信息的数据处理方法,对于产品侧的账号而言基本透明,不会对用户体验造成明显可感的差别。如图6所示,对于运营侧的发布账号和目标账号群而言,需要通过设置策略、监控系统的运行状态来保证系统的正常运行,这一监控手段可以包括:
实时显示的处理内容数量图表61,其中X轴为时间轴,Y轴为处理数量;
系统负载情况62,用于显示系统资源的占用情况,并根据占用情况对区间进行适应性调整,以提高系统资料的利用率;
限制传播的文章列表63,用于对违规的网络信息进行拦截;以及
按照信用分排序的列表,并将预设区间的网络信息推送至待处理列表64中,进而由审核人员进行人工审核。
本发明实施例提供的网络信息的数据处理方法,能够自动化、智能化地维护网络平台的日常运营,并且从媒体帐号的所有者、信息内容、以及一般用户的行为,对信用程度进行分析与记录,能够有效地改善现有的依赖于人工的管理方式,在减少运营人力成本的同时能够提高平台对于热点信息和有害信息的响应能力。
请参阅图7,图7是本发明实施例提供的网络信息的数据处理装置的结构示意图。
网络信息的数据处理装置700,包括:信息接收模块71、源分析模块72、行为分析模块73、账号获取模块74、评分输出模块75、以及策略匹配模块76。
具体而言,信息接收模块71,用于接收网络信息,所述网络信息包括:发布账号、目标账号群、和信息内容。
其中,所述信息接收模块71接收来自发布账号的网络信息,获取所述网络信息的信息内容;并查询具有所述发布账号浏览权限的多个目标账号,作为目标账号群。
源分析模块72,连接于信息接收模块71,用于对所述信息内容进行文本分析,以生成信息源可信度。
其中,所述源分析模块72通过文本分析,将所述信息内容进行自然语言处理,以生成摘要信息和描述信息;将所述摘要信息和描述信息与知识库进行差异比对,并根据比对结果生成信息源可信度。
其中,所述预设知识库,是指来源于百科全书、专业词典、论文文献等被公众所认可的电子书籍。可以理解的是,所述信息内容与知识库的差异度越低,则信息源可信度越高。
行为分析模块73,连接于信息接收模块71,用于获取所述目标账号群中各目标账号的系统日志,并对所述系统日志进行行为分析,以生成目标行为可信度。
其中,所述行为分析模块73从系统日志中,获取各目标账号与查封相关的行为,以生成目标行为可信度。
账号获取模块74,连接于信息接收模块71,用于获取发布账号的基本信息、和所述目标账号群中各目标账号的基本信息。
可以理解的是,发布账号的注册时间、发布信息的总量、和/或删除信息的总量;以及目标账号群中各目标账号的注册时间、阅读信息的总量、和/或活跃天数,等等基本信息,都会对信用评分产生影响。
评分输出模块75,连接于源分析模块72、行为分析模块73、和账号获取模块74,用于根据时间触发信号,获取在预设时间段内的信息源可信度、目标行为可信度、和所述基本信息,并代入到评分卡模型,以输出信用评分。
其中,所述评分卡模型,可从历史数据中获取信息源可信度、目标行为可信度、和所述基本信息、以及对应操作,并进行训练而生成。
策略匹配模块76,连接于评分输出模块75,用于根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作。
本发明实施例提供的网络信息的数据处理装置,通过网络信息的信息源、对应账号的系统日志和基本信息进行可信度分析,进而形成常规信息和非常规信息,并对非常规信息进行各类限制操作,提高了网络信息审核的准确率和时效性,进而扼制非常规信息的传播渠道,且加快常规信息的发布速度。
请参阅图8,图8是本发明实施例提供的网络信息的数据处理装置的结构示意图。
网络信息的数据处理装置800,包括:信息接收模块81、源分析模块82、行为分析模块83、账号获取模块84、评分输出模块85、策略匹配模块86、反馈模块87、以及学习模块88。
信息接收模块81,用于接收网络信息并对所述网络信息进行信息存储。其中,所述网络信息包括:发布账号、目标账号群、和信息内容。
其中,所述信息接收模块81包括:接收单元811、获取单元812、权限单元813、查询单元814、和生成单元815。
具体而言,接收单元811,用于接收来自发布账号的网络信息。获取单元812,用于获取所述网络信息的信息内容。权限单元813,用于根据浏览权限的设置,确定所述发布账号是否具有对应的目标账号群;其中,若已设置浏览权限,则视具有浏览权限的多个账号为目标账号群;若未设置浏览权限,则视为无对应的目标账号群。查询单元814,用于当有目标账号群时,查询所述具有浏览权限的多个目标账号,作为目标账号群。生成单元815,用于当无目标账号群时,发布所述网络信息,并根据所述网络信息的浏览情况生成目标账号群。
源分析模块82,连接于信息接收模块81,用于对所述信息内容进行文本分析,以生成信息源可信度。
其中,所述源分析模块82包括:文本分析单元821、索引单元822、对比单元823、来源单元824、和知识库模块825。
具体而言,文本分析单元821,用于对所述信息内容进行文本分析,以生成摘要信息和描述信息,其中所述摘要信息包括语义信息、和/或句法信息,所述描述信息包括体裁、领域、和/或内容长度。索引单元822,用于根据所述摘要信息和描述信息,将所述信息内容与知识库进行散列索引,以获取知识库中对应的参考文本。对比单元823,用于将所述信息内容与所述参考文本进行差异比对,并根据比对结果生成信息源可信度。以上,则完成了对信息源可信度的实时对比。
此外,还应预先准备知识库,以支持上述实时对比。具体而言,来源单元824,用于通过网络爬虫从网络中获取各类文本,并标注每个文本的来源。文本分析单元821,用于对来源单元中预设来源的文本进行文本分析,以生成摘要信息和描述信息。知识库模块825,用于存储所述预设来源对应的摘要信息、和描述信息,并形成作为索引。其中,所述预设知识库,是指来源于百科全书、专业词典、论文文献等被公众所认可的电子书籍。可以理解的是,所述信息内容与知识库的差异度越低,则信息源可信度越高。
行为分析模块83,连接于信息接收模块81,用于获取所述目标账号群中各目标账号的系统日志,并对所述系统日志进行行为分析,以生成目标行为可信度。
其中,行为分析模块83包括:信用数据单元831、操作数据单元832、切片单元833、和融合单元834。
具体而言,信用数据单元831,用于获取目标账号群中各目标账号的信用数据,所述信用数据是指与系统内置规则相关的数据。操作数据单元832,用于在系统日志中,获取各目标账号的操作数据,所述操作数据包括:浏览次数、浏览时长、点赞、评论、转发、打赏、收费阅读、直播、和/或使用虚拟道具。切片单元833,用于对所述操作数据按照时间粒度进行切片,以生成时段性操作数据。融合单元834,用于根据所述信用数据和所述时段性操作数据,生成目标行为可信度。
其中,信用数据单元831包括:规则子单元8311、举报子单元8312、关联子单元8313、和计算子单元8314。具体而言,规则子单元8311,用于设置系统内置规则,所述规则包括:举报、和举报被采纳后进行查封。举报子单元8312,用于获取目标账号群中各目标账号的举报次数、以及举报被采纳的采纳次数。关联子单元8313,用于获取所述各目标账号进行点赞、评论、转发、和/或付费操作的关联信息,并记录所述关联信息被查封的次数。计算子单元8314,用于根据所述举报次数、采纳次数、和查封次数,生成各目标账号的信用数据。
可以理解的是,行为分析模块83从系统日志中,获取各目标账号与查封相关的行为,以生成目标行为可信度。
账号获取模块84,连接于信息接收模块81,用于获取发布账号的基本信息、和所述目标账号群中各目标账号的基本信息。
其中,账号获取模块84包括:发布子单元841、和目标子单元842。
具体而言,发布子单元841,用于获取发布账号的注册时间、发布信息的总量、和/或删除信息的总量,作为发布账号的基本信息。目标子单元842,用于获取目标账号群中各目标账号的注册时间、阅读信息的总量、和/或活跃天数,作为所述目标账号群中各目标账号的基本信息。
可以理解的是,上述基本信息,都会对信用评分产生影响。
评分输出模块85,连接于源分析模块82、行为分析模块83、和账号获取模块84,用于根据时间触发信号,获取在预设时间段内的信息源可信度、目标行为可信度、和所述基本信息,并代入到评分卡模型,以输出信用评分。
其中,所述评分卡模型,可从历史数据中获取信息源可信度、目标行为可信度、和所述基本信息、以及对应操作,并进行训练而生成。
策略匹配模块86,连接于评分输出模块85,用于根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作。
其中,当所述信用评分在第一区间时,获取第一控制策略,并在发布网络信息后,限制所述网络信息的评论和点赞功能;当所述信用评分在第二区间时,获取第二控制策略,并在发布网络信息后,限制所述网络信息的转发功能;当所述信用评分在第三区间时,获取第三控制策略,并将所述网络信息发送至审核平台,并根据所述审核平台的审核结果进行网络信息的发布或拦截;当所述信用评分在第四区间时,获取第四控制策略,并在发布网络信息后,限制所述网络信息的打赏或直播功能。
可以理解的是,所述第一区间、第二区间、第三区间、和第四区间,之间存在重合的子区间。当所述信用评分在重合的子区间时,获取对应的多个控制策略,并限制对应的功能。
反馈模块87,连接于策略匹配模块86,用于接收对所述网络信息进行发布及对应操作的反馈信息。
学习模块88,连接于反馈模块87,用于对所述反馈信息进行机器学习,并根据机器学习结果对所述区间或控制策略进行调整。
本发明实施例提供的网络信息的数据处理装置,通过网络信息的信息源、对应账号的系统日志和基本信息进行可信度分析,进而形成常规信息、非常规信息、和待定信息,然后将其中的常规信息按发布账号所指定的功能进行信息的分发处理;将非常规信息按照调整的操作进行发布;将待定的信息发送至审核平台进行信息审核,并在审核后决定发布或拦截。本提高了网络信息审核的准确率和时效性,进而扼制非常规信息的传播渠道,且加快常规信息的发布速度。
相应的,本发明实施例还提供一种网络服务器。如图9所示,所述网络信息的数据处理方法及数据处理装置,应用于网络服务器900中。
其中,所述网络服务器900包括:网络访问服务器91、数据库服务器92、数据计算服务器93、策略分析服务器94、和运营服务器95。
其中,每个服务器都至少包括:处理器、计算机可读存储介质的存储器、传输模块、电源、和输入单元等部件。本领域技术人员可以理解,上述结构并不构成对服务器900的限定,可以包括比上述更多或更少的部件、组合某些部件、或不同的部件布置。其中:在本实施例中,在服务器900中,处理器会按照如下的指令,将一个及以上的应用程序的进程对应的可执行文件加载到存储器中,并由处理器来运行存储在存储器中的应用程序,从而实现各种功能,如下:
请同时参阅图9、图4和图1,网络访问服务器91,部署了信息源分析32的网络爬虫41。
数据库服务器92,用于存储目标账号的信用记录34、媒体帐号信用记录模块35,以及信息源分析32模块中的知识库43和信息源可信度数据库44。
数据计算服务器93,用于进行用户行为分析33、内容信用分析36。
策略分析服务器94,用于进行传播控制37。
运营服务器95,用于执行网络平台上的其他模块,如分发处理38、信息存储31等。
本发明实施例提供的网络服务器,通过网络信息的信息源、对应账号的系统日志和基本信息进行可信度分析,进而形成常规信息、非常规信息、和待定信息,然后将其中的常规信息按发布账号所指定的功能进行信息的分发处理;将非常规信息按照调整的操作进行发布;将待定的信息发送至审核平台进行信息审核,并在审核后决定发布或拦截。本提高了网络信息审核的准确率和时效性,进而扼制非常规信息的传播渠道,且加快常规信息的发布速度。
本发明实施例提供的所述网络服务器,与上文实施例中的网络信息的数据处理方法、和数据处理装置属于同一构思。
需要说明的是,对本发明实施例提供的网络信息的数据处理方法而言,本领域普通技术人员可以理解实现本发明实施例中的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在服务器的存储器中,并被该服务器内的至少一个处理器执行,在执行过程中可包括如所述信息分享方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,ReadOnlyMemory)、随机存取记忆体(RAM,Random Access Memory)等。
对本发明实施例的提供的网络信息的数据处理装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本发明实施例所提供的一种网络信息的数据处理方法、数据处理装置及网络服务器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (17)

1.一种网络信息的数据处理方法,其特征在于,包括:
接收网络信息,所述网络信息包括:发布账号、目标账号群、和信息内容;
对所述信息内容进行文本分析,以生成信息源可信度;
获取所述目标账号群中各目标账号的系统日志,并对所述系统日志进行行为分析,以生成目标行为可信度;
获取发布账号的基本信息、和所述目标账号群中各目标账号的基本信息;
根据时间触发信号,获取在预设时间段内的信息源可信度、目标行为可信度、和所述基本信息,并代入到评分卡模型,以输出信用评分;
根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作。
2.如权利要求1所述的数据处理方法,其特征在于,接收网络信息,之后还包括:
判断所述网络信息中是否包括目标账号群;
当不包括目标账号群时,发布所述网络信息,并根据所述网络信息的浏览情况生成目标账号群。
3.如权利要求1或2所述的数据处理方法,其特征在于,对所述信息内容进行文本分析,以生成信息源可信度,包括:
对所述信息内容进行文本分析,以生成摘要信息和描述信息,其中所述摘要信息包括语义信息、和/或句法信息,所述描述信息包括体裁、领域、和/或内容长度;
根据所述摘要信息和描述信息,将所述信息内容与知识库进行散列索引,以获取知识库中对应的参考文本;以及
将所述信息内容与所述参考文本进行差异比对,并根据比对结果生成信息源可信度。
4.如权利要求3所述的数据处理方法,其特征在于,对所述信息内容进行文本分析,以生成信息源可信度,还包括:
通过网络爬虫从网络中获取各类文本,并标注每个文本的来源;
对其中预设来源的文本进行文本分析,以生成摘要信息和描述信息;
将所述来源、摘要信息、和描述信息作为索引,存储在知识库中。
5.如权利要求1或2所述的数据处理方法,其特征在于,获取所述目标账号群中各目标账号的系统日志,并对所述系统日志进行行为分析,以生成目标行为可信度,包括:
获取目标账号群中各目标账号的信用数据,所述信用数据是指与系统内置规则相关的数据;
在系统日志中,获取各目标账号的操作数据;
对所述操作数据按照时间粒度进行切片,以生成时段性操作数据;以及
根据所述信用数据和所述时段性操作数据,生成目标行为可信度。
6.如权利要求1或2所述的数据处理方法,其特征在于,根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作,包括:
当所述信用评分在第一区间时,获取第一控制策略,并在发布网络信息后,限制所述网络信息的评论和点赞功能;
当所述信用评分在第二区间时,获取第二控制策略,并在发布网络信息后,限制所述网络信息的转发功能;
当所述信用评分在第三区间时,获取第三控制策略,并将所述网络信息发送至审核平台,并根据所述审核平台的审核结果进行网络信息的发布或拦截;
当所述信用评分在第四区间时,获取第四控制策略,并在发布网络信息后,限制所述网络信息的打赏或直播功能。
7.如权利要求6所述的数据处理方法,其特征在于:所述第一区间、第二区间、第三区间、和第四区间,之间存在重合的子区间,所述根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作,包括:
当所述信用评分在重合的子区间时,获取对应的多个控制策略,并限制对应的功能。
8.如权利要求6所述的数据处理方法,其特征在于,根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作,之后还包括:
接收对所述网络信息进行发布及对应操作的反馈信息;以及
对所述反馈信息进行机器学习,并根据机器学习结果对所述第一区间、第二区间、第三区间、和第四区间中的至少一个区间或控制策略进行调整。
9.一种网络信息的数据处理装置,其特征在于,包括:
信息接收模块,用于接收网络信息,所述网络信息包括:发布账号、目标账号群、和信息内容;
源分析模块,用于对所述信息内容进行文本分析,以生成信息源可信度;
行为分析模块,用于获取所述目标账号群中各目标账号的系统日志,并对所述系统日志进行行为分析,以生成目标行为可信度;
账号获取模块,用于获取发布账号的基本信息、和所述目标账号群中各目标账号的基本信息;
评分输出模块,用于根据时间触发信号,获取在预设时间段内的信息源可信度、目标行为可信度、和所述基本信息,并代入到评分卡模型,以输出信用评分;
策略匹配模块,用于根据所述信用评分匹配对应的控制策略,并在发布所述网络信息后,根据所述控制策略调整所述网络信息所对应的操作。
10.如权利要求9所述的数据处理装置,其特征在于,信息接收模块还用于在接收网络信息之后,判断所述网络信息中是否包括目标账号群;当不包括目标账号群时,根据所述网络信息发布后的浏览情况生成目标账号群。
11.如权利要求9或10所述的数据处理装置,其特征在于,所述源分析模块包括:
文本分析单元,用于对所述信息内容进行文本分析,以生成摘要信息和描述信息,其中所述摘要信息包括语义信息、和/或句法信息,所述描述信息包括体裁、领域、和/或内容长度;
索引单元,用于根据所述摘要信息和描述信息,将所述信息内容与知识库进行散列索引,以获取知识库中对应的参考文本;以及
对比单元,用于将所述信息内容与所述参考文本进行差异比对,并根据比对结果生成信息源可信度。
12.如权利要求11所述的数据处理装置,其特征在于,所述源分析模块还包括:
来源单元,用于通过网络爬虫从网络中获取各类文本,并标注每个文本的来源;
所述文本分析单元,用于对来源单元中预设来源的文本进行文本分析,以生成摘要信息和描述信息;
知识库模块,用于存储所述预设来源对应的摘要信息、和描述信息,并形成作为索引。
13.如权利要求9或10所述的数据处理装置,其特征在于,行为分析模块包括:
信用数据单元,用于获取目标账号群中各目标账号的信用数据,所述信用数据是指与系统内置规则相关的数据;
操作数据单元,用于在系统日志中,获取各目标账号的操作数据;
切片单元,用于对所述操作数据按照时间粒度进行切片,以生成时段性操作数据;以及
融合单元,用于根据所述信用数据和所述时段性操作数据,生成目标行为可信度。
14.如权利要求9或10所述的数据处理装置,其特征在于,策略匹配模块用于:
当所述信用评分在第一区间时,获取第一控制策略,并在发布网络信息后,限制所述网络信息的评论和点赞功能;
当所述信用评分在第二区间时,获取第二控制策略,并在发布网络信息后,限制所述网络信息的转发功能;
当所述信用评分在第三区间时,获取第三控制策略,并将所述网络信息发送至审核平台,并根据所述审核平台的审核结果进行网络信息的发布或拦截;
当所述信用评分在第四区间时,获取第四控制策略,并在发布网络信息后,限制所述网络信息的打赏或直播功能;
其中,所述第一区间、第二区间、第三区间、和第四区间,之间存在重合的子区间,当所述信用评分在重合的子区间时,获取对应的多个控制策略,并限制对应的功能。
15.如权利要求14所述的数据处理装置,其特征在于,还包括:
反馈模块,用于接收对所述网络信息进行发布及对应操作的反馈信息;以及
学习模块,用于对所述反馈信息进行机器学习,并根据机器学习结果对所述第一区间、第二区间、第三区间、和第四区间中的至少一个区间或控制策略进行调整。
16.一种服务器,其特征在于,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下如权利要求1至8任一项所述方法中的步骤。
17.一种计算机可读存储介质,其存储有计算机程序,其中,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至8任一项所述方法中的步骤。
CN201710304943.7A 2017-05-03 2017-05-03 网络信息的数据处理方法及数据处理装置 Active CN108829656B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710304943.7A CN108829656B (zh) 2017-05-03 2017-05-03 网络信息的数据处理方法及数据处理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710304943.7A CN108829656B (zh) 2017-05-03 2017-05-03 网络信息的数据处理方法及数据处理装置

Publications (2)

Publication Number Publication Date
CN108829656A CN108829656A (zh) 2018-11-16
CN108829656B true CN108829656B (zh) 2020-09-04

Family

ID=64154055

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710304943.7A Active CN108829656B (zh) 2017-05-03 2017-05-03 网络信息的数据处理方法及数据处理装置

Country Status (1)

Country Link
CN (1) CN108829656B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110120912A (zh) * 2019-05-10 2019-08-13 腾讯科技(深圳)有限公司 富媒体内容处理方法、装置、可读存储介质和计算机设备
CN110471898B (zh) * 2019-08-22 2022-02-22 长江师范学院 一种信息信用管理方法与数字新闻可追溯发布方法
US11263643B2 (en) * 2019-08-27 2022-03-01 Coupang Corp. Computer-implemented method for detecting fraudulent transactions using locality sensitive hashing and locality outlier factor algorithms
CN114297582A (zh) * 2021-12-28 2022-04-08 浙江大学 基于多探针局部敏感哈希负二项式回归模型的离散计数数据的建模方法
CN115442654A (zh) * 2022-09-01 2022-12-06 北京千学云科技有限公司 基于pc客户端的直播推流软件界面设计与功能规划方法
CN116187958B (zh) * 2023-04-25 2023-07-14 北京知果科技有限公司 一种基于结构树的知识产权服务管理方法及系统
CN116561324B (zh) * 2023-07-04 2023-09-01 江苏曙光云计算有限公司 一种基于人工智能的网络信息智能分析调控系统及方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080109491A1 (en) * 2006-11-03 2008-05-08 Sezwho Inc. Method and system for managing reputation profile on online communities
CN103186525B (zh) * 2011-12-31 2016-07-06 腾讯科技(深圳)有限公司 一种控制用户生成内容传播的方法、系统和服务器
CN104462118A (zh) * 2013-09-21 2015-03-25 郑建锋 控制信息传播风险的方法及系统
CN104636408B (zh) * 2014-08-21 2017-08-08 中国科学院计算技术研究所 基于用户生成内容的新闻认证预警方法及系统
CN105843912A (zh) * 2016-03-24 2016-08-10 新浪网技术(中国)有限公司 文件审核处理方法及装置
CN106202561B (zh) * 2016-07-29 2019-10-01 北京联创众升科技有限公司 基于文本大数据的数字化应急管理案例库构建方法及装置

Also Published As

Publication number Publication date
CN108829656A (zh) 2018-11-16

Similar Documents

Publication Publication Date Title
CN108829656B (zh) 网络信息的数据处理方法及数据处理装置
Collins et al. Trends in combating fake news on social media–a survey
US20230334254A1 (en) Fact checking
Varshney et al. A unified approach for detection of Clickbait videos on YouTube using cognitive evidences
Zhang et al. A domain-feature enhanced classification model for the detection of Chinese phishing e-Business websites
Chen et al. Using deep learning models to detect fake news about COVID-19
US20140052753A1 (en) Method, device and system for processing public opinion topics
Middleton et al. Geoparsing and geosemantics for social media: Spatiotemporal grounding of content propagating rumors to support trust and veracity analysis during breaking news
US9672475B2 (en) Automated opinion prediction based on indirect information
CN111538816B (zh) 基于ai识别的问答方法、装置、电子设备及介质
Zhang et al. EX‐Action: Automatically Extracting Threat Actions from Cyber Threat Intelligence Report Based on Multimodal Learning
US20100299140A1 (en) Identifying and routing of documents of potential interest to subscribers using interest determination rules
Mitra et al. Combating fake cyber threat intelligence using provenance in cybersecurity knowledge graphs
US11423223B2 (en) Dynamic creation/expansion of cognitive model dictionaries based on analysis of natural language content
Atkinson et al. What Gets Echoed? Understanding the" Pointers" in Explanations of Persuasive Arguments
Canfora et al. A NLP-based solution to prevent from privacy leaks in social network posts
Guy et al. Identifying informational vs. conversational questions on community question answering archives
CN110417751B (zh) 一种网络安全预警方法、装置和存储介质
Mangal et al. A Framework for Detection and Validation of Fake News via authorize source matching
KR20210083510A (ko) 가짜뉴스 탐지와 주기적 웹 모니터링을 통한 범죄첩보 탐지 시스템 및 그 방법
CN109194605B (zh) 一种基于开源信息的可疑威胁指标主动验证方法和系统
Varshney et al. A unified approach of detecting misleading images via tracing its instances on web and analyzing its past context for the verification of multimedia content
US20230385548A1 (en) Detecting Information Operations Campaigns in Social Media with Machine Learning
Deshpande et al. BI and sentiment analysis
Sun et al. Identify vulnerability fix commits automatically using hierarchical attention network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221122

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518,101

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 518000 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 Floors

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right