CN114897176A - 一种基于人工智能的互联网大数据处理系统及方法 - Google Patents

一种基于人工智能的互联网大数据处理系统及方法 Download PDF

Info

Publication number
CN114897176A
CN114897176A CN202210244248.7A CN202210244248A CN114897176A CN 114897176 A CN114897176 A CN 114897176A CN 202210244248 A CN202210244248 A CN 202210244248A CN 114897176 A CN114897176 A CN 114897176A
Authority
CN
China
Prior art keywords
data
account
module
new media
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210244248.7A
Other languages
English (en)
Other versions
CN114897176B (zh
Inventor
成叶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Saishang Mingzhu Scientific And Technological Achievements Promotion Service Co ltd
Original Assignee
Nanjing Dingao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Dingao Technology Co ltd filed Critical Nanjing Dingao Technology Co ltd
Priority to CN202210244248.7A priority Critical patent/CN114897176B/zh
Publication of CN114897176A publication Critical patent/CN114897176A/zh
Application granted granted Critical
Publication of CN114897176B publication Critical patent/CN114897176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于人工智能的互联网大数据处理系统及方法,属于互联网数据处理技术领域。该系统包括互联网后台信息数据抓取模块、大数据评测模块、人工智能判断模块、标记预警模块、实时监督模块;所述互联网后台信息数据抓取模块的输出端与所述大数据评测模块、人工智能判断模块的输入端相连接;所述大数据评测模块的输出端与所述人工智能判断模块的输入端相连接;所述人工智能判断模块的输出端与所述标记预警模块的输入端相连接;所述标记预警模块的输出端与所述实时监督模块的输入端相连接。本发明基于互联网大数据对当前网络环境下的恶意营销号识别和针对,维护网络安全。

Description

一种基于人工智能的互联网大数据处理系统及方法
技术领域
本发明涉及互联网数据处理技术领域,具体为一种基于人工智能的互联网大数据处理系统及方法。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为,使计算机能实现更高层次的应用。人工智能与思维科学的关系是实践和理论的关系,人工智能是处于思维科学的技术应用层次,是它的一个应用分支。从思维观点看,人工智能不仅限于逻辑思维,要考虑形象思维、灵感思维才能促进人工智能的突破性的发展。
在互联网日益繁荣的大环境下,网络平台已经逐渐成为人们日常获取消息的途径,应运而生的新媒体平台众多,但良莠不齐,有些新媒体平台经常发布虚假信息或模棱两可的不确定信息,而在当前的环境下,对于虚假信息或模棱两可的不确定信息的鉴别十分困难,同时对其的传播影响和途径也难以控制。
发明内容
本发明的目的在于提供一种基于人工智能的互联网大数据处理系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:一种基于人工智能的互联网大数据处理方法,该方法包括以下步骤:
S1、获取新媒体账号的运行数据与运维数据,构建新媒体宣传账号预测模型,生成新媒体宣传账号集合;
S2、获取新媒体宣传账号集合中的所有新媒体宣传账号,抓取各个账号的互联网后台运维数据,创建机器学习模型进行分类;
S3、通过机器学习模型,以人工智能的方式判断任一新媒体宣传账号是否属于恶意营销号,对符合的账号标记为恶意营销号;
S4、对判断为恶意营销号的新媒体宣传账号发出预警信息,责令整改,并构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督,在规定时长内,满足监督阈值,解除恶意营销号标记。
根据上述技术方案,所述构建新媒体宣传账号预测模型包括:
以登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数为自变量,以宣传账号概率值为因变量,构建新媒体宣传账号预测模型:
Figure RE-GDA0003697838140000021
其中,y0代表新媒体账号为新媒体宣传账号概率值;x1、x2、x3、x4分别代表登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数的归一化数据;w1、w2、w3、w4分别代表登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数的权重比例;
Figure RE-GDA0003697838140000022
代表误差数据;
设置训练集数据选取时长为T0
所述登录地点变换频率包括:
Figure RE-GDA0003697838140000031
其中,L1为T0时间内登录地点变换次数;K1为登录地点变换频率; t1为时间周期量;
Figure RE-GDA0003697838140000032
代表取整;
所述平均每日发布次数选取T0时间内的整天数,即每一天的0点整到24点记为整天;
所述关键词匹配数据包括:
获取T0时间内任一整天的热点文章,所述热点文章根据新媒体账号所在平台的热点排名选取,以时间优先发布的作为对照集,获取对照集内有关于热点的特征记为集合C1={a1、a2、…、an},获取待检测新媒体账号有关于热点的特征记为集合C2={b1、b2、…、bn};
根据公式:
Figure RE-GDA0003697838140000033
其中,D为两组热点文章的相似程度;i代表序号;
分别获取在T0时间内同一新媒体账号下所有整天的热点文章相似程度,求取平均值作为关键词匹配数据;
所述单条消息平均浏览人数包括:
获取T0时间内同一新媒体账号下所有消息的浏览人数,利用三倍标准差方法剔除异常数据,选取剩余数据的平均值作为单条消息平均浏览人数;
对登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数进行归一化处理,记为x1、x2、x3、x4
构建宣传账号概率阈值,若y0超出概率阈值,记录账号为新媒体宣传账号,并计入集合A,集合A为新媒体宣传账号合集。
根据上述技术方案,所述机器学习模型包括:
获取集合A中的所有新媒体宣传账号的运维数据;
所述运维数据包括账号消息删减数据、举报数据、违规数据、粉丝激增数据;
利用集合A中的所有新媒体宣传账号的运维数据构建一个数据集U;
Figure RE-GDA0003697838140000041
其中,数据集中包括β条数据,每条数据具备γ条特征,所述γ条特征来源于运维数据;
所述账号消息删减数据为新媒体宣传账号下对其自己发布的热点消息的删减次数;
例如一新媒体宣传账号发布一则消息,引发大量关注,而不久后,该新媒体宣传账号删除该消息,则证明该新媒体宣传账号出现了发布消息侵权或者虚假的情形;另外新媒体宣传账号的被举报次数、违规次数、以及粉丝突然大幅度的激增情况等,均视为新媒体宣传账号出现一定的特征变化,其具体限定数值可自行设置;
初始化E个聚类中心;
记为聚类矩阵U1
Figure RE-GDA0003697838140000051
计算任一条数据R与E个聚类中心的距离,将任一条数据R归入距离最近的聚类中心中;
Figure RE-GDA0003697838140000052
其中,G代表任一条数据R与E个聚类中心的距离;v代表序号; P代表数据,1≤P≤β;j代表聚类中心,1≤j≤E;
cPv属于[c11 … c];djv属于[d11 … d];
若存在任一条数据距离不同的聚类中心的距离相等,则随机归入一个聚类中心;
将数据集U中所有数据归类完毕后,生成新的数据集U2
U2={S1、S2、…、SE}
其中,S1、S2、…、SE分别代表E个聚类中心归类后的数据集;
对每一类的聚类中心进行更新,新的聚类中心为S1、S2、…、SE任一个数据集中所有对象在各个维度的均值;
记录新的聚类中心与原聚类中心的维度距离为h1
不断生成新的聚类中心,并计算每一个新的聚类中心与前一个聚类中心的维度距离,记成集合;
在聚类中心不再发生变化时,终止分类,输出当前分类的数据集;
构建人工智能判断方式:
不断获取人工判断恶意营销号的特征因素,所述特征因素中包含账号消息删减数据、举报数据、违规数据、粉丝激增数据;
利用人工判断的平均值作为智能判断基础,不断对输出分类的数据集进行判断,若存在数据集满足人工判断的平均值,在账号的则数据集内的所有新媒体宣传账号均被标记为恶意营销号。
例如在人工判断时,举报数据超过1000次,就判断为恶意营销号,则人工智能将会把举报次数超过1000次写入判断系统,在分类的数据集中加入举报次数超过1000次,则符合的数据集内的新媒体宣传账号将会被标注成恶意营销号。
根据上述技术方案,所述第一监督模型包括:
构建监督时长t2
获取监督时长t2内恶意营销号被再次标记的次数;
设置监督阈值,若在监督时长t2内恶意营销号被再次标记的次数小于监督阈值,解除恶意营销号标记。
一种基于人工智能的互联网大数据处理系统,该系统包括:互联网后台信息数据抓取模块、大数据评测模块、人工智能判断模块、标记预警模块、实时监督模块;
所述互联网后台信息数据抓取模块用于获取新媒体账号的后台运营数据与运维数据,分析任一新媒体账号的自身状态;所述大数据评测模块,用于根据历史大数据构建新媒体宣传账号预测模型,对任一新媒体账号属于新媒体宣传账号的概率进行计算,在满足宣传账号概率阈值的情况下,标记为新媒体宣传账号;所述人工智能判断模块用于获取新媒体宣传账号的运维数据,构建机器学习模型,以人工智能的方式判断任一新媒体宣传账号是否属于恶意营销号,对符合的账号标记为恶意营销号;所述标记预警模块用于对恶意营销号进行标记,并同时发出预警信息,提示恶意营销号进行整改;所述实时监督模块用于构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督,在规定时长内,满足监督阈值,解除恶意营销号标记;
所述互联网后台信息数据抓取模块的输出端与所述大数据评测模块、人工智能判断模块的输入端相连接;所述大数据评测模块的输出端与所述人工智能判断模块的输入端相连接;所述人工智能判断模块的输出端与所述标记预警模块的输入端相连接;所述标记预警模块的输出端与所述实时监督模块的输入端相连接。
根据上述技术方案,所述互联网后台信息数据抓取模块包括运行数据抓取子模块、运维数据抓取子模块;所述运行数据抓取子模块用于抓取新媒体账号的后台运行数据,所述后台运营数据包括登录地点、消息发布时间、消息发布次数、浏览人数;所述运维数据抓取子模块用于抓取新媒体账号的后台运维数据,所述运维数据包括账号消息删减数据、举报数据、违规数据、粉丝激增数据;
所述运行数据抓取子模块的输出端与所述大数据评测模块的输入端相连接;所述运维数据抓取子模块的输出端与所述人工智能判断模块的输入端相连接。
根据上述技术方案,所述大数据评测模块包括历史大数据获取子模块、大数据评测子模块;所述历史大数据获取子模块用于新媒体宣传账号与其他账号的后台运行数据,构建新媒体宣传账号预测模型;所述大数据评测子模块用于根据新媒体宣传账号预测模型,构建宣传账号概率阈值,对满足宣传账号概率阈值的账号标记为新媒体宣传账号;
所述历史大数据获取子模块的输出端与所述大数据评测子模块的输入端相连接;所述大数据评测子模块的输出端与所述人工智能判断模块的输入端相连接。
根据上述技术方案,所述人工智能判断模块包括机器学习子模块、人工智能判断子模块;所述机器学习子模块用于根据运维数据构建机器学习模型;所述人工智能判断子模块用于通过机器学习模型,以人工智能的方式判断任一新媒体宣传账号是否属于恶意营销号;
所述机器学习子模块的输出端与所述人工智能判断子模块的输入端相连接;所述人工智能判断子模块的输出端与所述标记预警模块的输入端相连接。
根据上述技术方案,所述标记预警模块包括标记子模块、预警子模块;所述标记子模块对符合的账号标记为恶意营销号;所述预警子模块用于对恶意营销号发送预警信息,责令进行整改;
所述标记子模块的输出端与所述预警子模块的输入端相连接;所述预警子模块的输出端与所述实时监督模块的输入端相连接。
根据上述技术方案,所述实时监督模块包括第一监督模型构建子模块、综合判断子模块;所述第一监督模型构建子模块用于构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督;所述综合判断子模块用于构建规定时长,在规定时长内,恶意营销号满足监督阈值,解除恶意营销号标记;
所述第一监督模型构建子模块的输出端与所述综合判断子模块的输入端相连接。
与现有技术相比,本发明所达到的有益效果是:
本发明能够利用互联网后台信息数据抓取模块获取新媒体账号的后台运营数据与运维数据,分析任一新媒体账号的自身状态;利用大数据评测模块根据历史大数据构建新媒体宣传账号预测模型,对任一新媒体账号属于新媒体宣传账号的概率进行计算,在满足宣传账号概率阈值的情况下,标记为新媒体宣传账号;利用人工智能判断模块获取新媒体宣传账号的运维数据,构建机器学习模型,以人工智能的方式,判断任一新媒体宣传账号属于恶意营销号的概率;利用标记预警模块用于对恶意营销号进行标记,并同时发出预警信息,提示恶意营销号进行整改;利用实时监督模块用于构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督,在规定时长内,满足监督阈值,解除恶意营销号标记;本发明能够实现对当前网络环境下的恶意营销号识别和针对,维护网络安全,创建和谐的网络环境。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1是本发明一种基于人工智能的互联网大数据处理系统及方法的流程示意图;
图2是本发明一种基于人工智能的互联网大数据处理方法的步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-图2,本发明提供技术方案:
一种基于人工智能的互联网大数据处理方法,该方法包括以下步骤:
S1、获取新媒体账号的运行数据与运维数据,构建新媒体宣传账号预测模型,生成新媒体宣传账号集合;
S2、获取新媒体宣传账号集合中的所有新媒体宣传账号,抓取各个账号的互联网后台运维数据,创建机器学习模型进行分类;
S3、通过机器学习模型,以人工智能的方式判断任一新媒体宣传账号是否属于恶意营销号,对符合的账号标记为恶意营销号;
S4、对判断为恶意营销号的新媒体宣传账号发出预警信息,责令整改,并构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督,在规定时长内,满足监督阈值,解除恶意营销号标记。
所述构建新媒体宣传账号预测模型包括:
以登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数为自变量,以宣传账号概率值为因变量,构建新媒体宣传账号预测模型:
Figure RE-GDA0003697838140000121
其中,y0代表新媒体账号为新媒体宣传账号概率值;x1、x2、x3、x4分别代表登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数的归一化数据;w1、w2、w3、w4分别代表登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数的权重比例;
Figure RE-GDA0003697838140000122
代表误差数据;
设置训练集数据选取时长为T0
所述登录地点变换频率包括:
Figure RE-GDA0003697838140000123
其中,L1为T0时间内登录地点变换次数;K1为登录地点变换频率; t1为时间周期量;
Figure RE-GDA0003697838140000124
代表取整;
所述平均每日发布次数选取T0时间内的整天数,即每一天的0点整到24点记为整天;
所述关键词匹配数据包括:
获取T0时间内任一整天的热点文章,所述热点文章根据新媒体账号所在平台的热点排名选取,以时间优先发布的作为对照集,获取对照集内有关于热点的特征记为集合C1={a1、a2、…、an},获取待检测新媒体账号有关于热点的特征记为集合C2={b1、b2、…、bn};
根据公式:
Figure RE-GDA0003697838140000131
其中,D为两组热点文章的相似程度;i代表序号;
分别获取在T0时间内同一新媒体账号下所有整天的热点文章相似程度,求取平均值作为关键词匹配数据;
所述单条消息平均浏览人数包括:
获取T0时间内同一新媒体账号下所有消息的浏览人数,利用三倍标准差方法剔除异常数据,选取剩余数据的平均值作为单条消息平均浏览人数;
对登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数进行归一化处理,记为x1、x2、x3、x4
构建宣传账号概率阈值,若y0超出概率阈值,记录账号为新媒体宣传账号,并计入集合A,集合A为新媒体宣传账号合集。
所述机器学习模型包括:
获取集合A中的所有新媒体宣传账号的运维数据;
所述运维数据包括账号消息删减数据、举报数据、违规数据、粉丝激增数据;
利用集合A中的所有新媒体宣传账号的运维数据构建一个数据集U;
Figure RE-GDA0003697838140000141
其中,数据集中包括β条数据,每条数据具备γ条特征,所述γ条特征来源于运维数据;
所述账号消息删减数据为新媒体宣传账号下对其自己发布的热点消息的删减次数;
初始化E个聚类中心;
记为聚类矩阵U1
Figure RE-GDA0003697838140000142
计算任一条数据R与E个聚类中心的距离,将任一条数据R归入距离最近的聚类中心中;
Figure RE-GDA0003697838140000143
其中,G代表任一条数据R与E个聚类中心的距离;v代表序号; P代表数据,1≤P≤β;j代表聚类中心,1≤j≤E;
cPv属于[c11 … c];djv属于[d11 … d];
若存在任一条数据距离不同的聚类中心的距离相等,则随机归入一个聚类中心;
将数据集U中所有数据归类完毕后,生成新的数据集U2
U2={S1、S2、…、SE}
其中,S1、S2、…、SE分别代表E个聚类中心归类后的数据集;
对每一类的聚类中心进行更新,新的聚类中心为S1、S2、…、SE任一个数据集中所有对象在各个维度的均值;
记录新的聚类中心与原聚类中心的维度距离为h1
不断生成新的聚类中心,并计算每一个新的聚类中心与前一个聚类中心的维度距离,记成集合;
在聚类中心不再发生变化时,终止分类,输出当前分类的数据集;
构建人工智能判断方式:
不断获取人工判断恶意营销号的特征因素,所述特征因素中包含账号消息删减数据、举报数据、违规数据、粉丝激增数据;
利用人工判断的平均值作为智能判断基础,不断对输出分类的数据集进行判断,若存在数据集满足人工判断的平均值,在账号的则数据集内的所有新媒体宣传账号均被标记为恶意营销号。
所述第一监督模型包括:
构建监督时长t2
获取监督时长t2内恶意营销号被再次标记的次数;
设置监督阈值,若在监督时长t2内恶意营销号被再次标记的次数小于监督阈值,解除恶意营销号标记。
一种基于人工智能的互联网大数据处理系统,该系统包括互联网后台信息数据抓取模块、大数据评测模块、人工智能判断模块、标记预警模块、实时监督模块;
所述互联网后台信息数据抓取模块用于获取新媒体账号的后台运营数据与运维数据,分析任一新媒体账号的自身状态;所述大数据评测模块,用于根据历史大数据构建新媒体宣传账号预测模型,对任一新媒体账号属于新媒体宣传账号的概率进行计算,在满足宣传账号概率阈值的情况下,标记为新媒体宣传账号;所述人工智能判断模块用于获取新媒体宣传账号的运维数据,构建机器学习模型,以人工智能的方式判断任一新媒体宣传账号是否属于恶意营销号,对符合的账号标记为恶意营销号;所述标记预警模块用于对恶意营销号进行标记,并同时发出预警信息,提示恶意营销号进行整改;所述实时监督模块用于构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督,在规定时长内,满足监督阈值,解除恶意营销号标记;
所述互联网后台信息数据抓取模块的输出端与所述大数据评测模块、人工智能判断模块的输入端相连接;所述大数据评测模块的输出端与所述人工智能判断模块的输入端相连接;所述人工智能判断模块的输出端与所述标记预警模块的输入端相连接;所述标记预警模块的输出端与所述实时监督模块的输入端相连接。
所述互联网后台信息数据抓取模块包括运行数据抓取子模块、运维数据抓取子模块;所述运行数据抓取子模块用于抓取新媒体账号的后台运行数据,所述后台运营数据包括登录地点、消息发布时间、消息发布次数、浏览人数;所述运维数据抓取子模块用于抓取新媒体账号的后台运维数据,所述运维数据包括账号消息删减数据、举报数据、违规数据、粉丝激增数据;
所述运行数据抓取子模块的输出端与所述大数据评测模块的输入端相连接;所述运维数据抓取子模块的输出端与所述人工智能判断模块的输入端相连接。
所述大数据评测模块包括历史大数据获取子模块、大数据评测子模块;所述历史大数据获取子模块用于新媒体宣传账号与其他账号的后台运行数据,构建新媒体宣传账号预测模型;所述大数据评测子模块用于根据新媒体宣传账号预测模型,构建宣传账号概率阈值,对满足宣传账号概率阈值的账号标记为新媒体宣传账号;
所述历史大数据获取子模块的输出端与所述大数据评测子模块的输入端相连接;所述大数据评测子模块的输出端与所述人工智能判断模块的输入端相连接。
所述人工智能判断模块包括机器学习子模块、人工智能判断子模块;所述机器学习子模块用于根据运维数据构建机器学习模型;所述人工智能判断子模块用于通过机器学习模型,以人工智能的方式判断任一新媒体宣传账号是否属于恶意营销号;
所述机器学习子模块的输出端与所述人工智能判断子模块的输入端相连接;所述人工智能判断子模块的输出端与所述标记预警模块的输入端相连接。
所述标记预警模块包括标记子模块、预警子模块;所述标记子模块对符合的账号标记为恶意营销号;所述预警子模块用于对恶意营销号发送预警信息,责令进行整改;
所述标记子模块的输出端与所述预警子模块的输入端相连接;所述预警子模块的输出端与所述实时监督模块的输入端相连接。
所述实时监督模块包括第一监督模型构建子模块、综合判断子模块;所述第一监督模型构建子模块用于构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督;所述综合判断子模块用于构建规定时长,在规定时长内,恶意营销号满足监督阈值,解除恶意营销号标记;
所述第一监督模型构建子模块的输出端与所述综合判断子模块的输入端相连接。
在本实施例中:
首先以登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数为自变量,以宣传账号概率值为因变量,构建新媒体宣传账号预测模型:
Figure RE-GDA0003697838140000181
其中,y0代表新媒体账号为新媒体宣传账号概率值;x1、x2、x3、x4分别代表登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数的归一化数据;w1、w2、w3、w4分别代表登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数的权重比例;
Figure RE-GDA0003697838140000191
代表误差数据;
构建宣传账号概率阈值,若y0超出概率阈值,记录账号为新媒体宣传账号,并计入集合A,集合A为新媒体宣传账号合集。
获取集合A中的所有新媒体宣传账号的运维数据;
所述运维数据包括账号消息删减数据、举报数据、违规数据、粉丝激增数据;
利用集合A中的所有新媒体宣传账号的运维数据构建一个数据集U;
Figure RE-GDA0003697838140000192
其中,数据集中包括β条数据,每条数据具备γ条特征,所述γ条特征来源于运维数据;
其中的γ条特征例如某一条数据Q中存在该新媒体宣传账号下对其自己发布的热点消息的删减次数为1天内10次;被举报次数1200 次;违规次数10次;粉丝激增平均数据为10000人次每小时;
对β条数据均做这样的特征整理;
初始化E个聚类中心;
所述聚类中心例如其中聚类中心一可为存在粉丝激增平均数据超出8000人次每小时、聚类中心二可为被举报次数160次以上;通过对某一条数据Q与聚类中心的计算,将其归类,其可能被归为聚类中心一,也可能被归类于聚类中心二;因此后续需要不断迭代,选择最合适的聚类中心;
记为聚类矩阵U1
Figure RE-GDA0003697838140000201
计算任一条数据Q与E个聚类中心的距离,将任一条数据Q归入距离最近的聚类中心中;
Figure RE-GDA0003697838140000202
其中,G代表任一条数据Q与E个聚类中心的距离;v代表序号; P代表数据,1≤P≤β;j代表聚类中心,1≤j≤E;
cPv属于[c11 … c];djv属于[d11 … d];
若存在任一条数据距离不同的聚类中心的距离相等,则随机归入一个聚类中心;
将数据集U中所有数据归类完毕后,生成新的数据集U2
U2={S1、S2、…、SE}
其中,S1、S2、…、SE分别代表E个聚类中心归类后的数据集;
对每一类的聚类中心进行更新,新的聚类中心为S1、S2、…、SE任一个数据集中所有对象在各个维度的均值;
记录新的聚类中心与原聚类中心的维度距离为h1
不断生成新的聚类中心,并计算每一个新的聚类中心与前一个聚类中心的维度距离,记成集合;
在聚类中心不再发生变化时,终止分类,输出当前分类的数据集;
构建人工智能判断方式:
不断获取人工判断恶意营销号的特征因素,所述特征因素中包含账号消息删减数据、举报数据、违规数据、粉丝激增数据;
利用人工判断的平均值作为智能判断基础,例如人工判断中,在被举报次数超过1000次时,均判断为恶意营销号,则可判断数据Q 对应的新媒体宣传账号为恶意营销号;
构建监督时长t2
获取监督时长t2内恶意营销号被再次标记的次数;
设置监督阈值,若在监督时长t2内恶意营销号被再次标记的次数小于监督阈值,解除恶意营销号标记。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于人工智能的互联网大数据处理方法,其特征在于:该方法包括以下步骤:
S1、获取新媒体账号的运行数据与运维数据,构建新媒体宣传账号预测模型,生成新媒体宣传账号集合;
S2、获取新媒体宣传账号集合中的所有新媒体宣传账号,抓取各个账号的互联网后台运维数据,创建机器学习模型进行分类;
S3、通过机器学习模型,以人工智能的方式判断任一新媒体宣传账号是否属于恶意营销号,对符合的账号标记为恶意营销号;
S4、对判断为恶意营销号的新媒体宣传账号发出预警信息,责令整改,并构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督,在规定时长内,满足监督阈值,解除恶意营销号标记。
2.根据权利要求1所述的一种基于人工智能的互联网大数据处理方法,其特征在于:所述构建新媒体宣传账号预测模型包括:
以登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数为自变量,以宣传账号概率值为因变量,构建新媒体宣传账号预测模型:
Figure FDA0003542018520000011
其中,y0代表新媒体账号为新媒体宣传账号概率值;x1、x2、x3、x4分别代表登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数的归一化数据;w1、w2、w3、w4分别代表登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数的权重比例;
Figure FDA0003542018520000012
代表误差数据;
设置训练集数据选取时长为T0
所述登录地点变换频率包括:
Figure FDA0003542018520000021
其中,L1为T0时间内登录地点变换次数;K1为登录地点变换频率;t1为时间周期量;
Figure FDA0003542018520000022
代表取整;
所述平均每日发布次数选取T0时间内的整天数,即每一天的0点整到24点记为整天;
所述关键词匹配数据包括:
获取T0时间内任一整天的热点文章,所述热点文章根据新媒体账号所在平台的热点排名选取,以时间优先发布的作为对照集,获取对照集内有关于热点的特征记为集合C1={a1、a2、…、an},获取待检测新媒体账号有关于热点的特征记为集合C2={b1、b2、…、bn};
根据公式:
Figure FDA0003542018520000023
其中,D为两组热点文章的相似程度;i代表序号;
分别获取在T0时间内同一新媒体账号下所有整天的热点文章相似程度,求取平均值作为关键词匹配数据;
所述单条消息平均浏览人数包括:
获取T0时间内同一新媒体账号下所有消息的浏览人数,利用三倍标准差方法剔除异常数据,选取剩余数据的平均值作为单条消息平均浏览人数;
对登录地点变换频率、平均每日发布次数、关键词匹配数据、单条消息平均浏览人数进行归一化处理,记为x1、x2、x3、x4
构建宣传账号概率阈值,若y0超出概率阈值,记录账号为新媒体宣传账号,并计入集合A,集合A为新媒体宣传账号合集。
3.根据权利要求2所述的一种基于人工智能的互联网大数据处理方法,其特征在于:所述机器学习模型包括:
获取集合A中的所有新媒体宣传账号的运维数据;
所述运维数据包括账号消息删减数据、举报数据、违规数据、粉丝激增数据;
利用集合A中的所有新媒体宣传账号的运维数据构建一个数据集U;
Figure FDA0003542018520000031
其中,数据集中包括β条数据,每条数据具备γ条特征,所述γ条特征来源于运维数据;
所述账号消息删减数据为新媒体宣传账号下对其自己发布的热点消息的删减次数;
初始化E个聚类中心;
记为聚类矩阵U1
Figure FDA0003542018520000032
计算任一条数据R与E个聚类中心的距离,将任一条数据R归入距离最近的聚类中心中;
Figure FDA0003542018520000033
其中,G代表任一条数据R与E个聚类中心的距离;v代表序号;P代表数据,1≤P≤β;j代表聚类中心,1≤j≤E;
cPv属于[c11…c];djv属于[d11…d];
若存在任一条数据距离不同的聚类中心的距离相等,则随机归入一个聚类中心;
将数据集U中所有数据归类完毕后,生成新的数据集U2
U2={S1、S2、…、SE}
其中,S1、S2、…、SE分别代表E个聚类中心归类后的数据集;
对每一类的聚类中心进行更新,新的聚类中心为S1、S2、…、SE任一个数据集中所有对象在各个维度的均值;
记录新的聚类中心与原聚类中心的维度距离为h1
不断生成新的聚类中心,并计算每一个新的聚类中心与前一个聚类中心的维度距离,记成集合;
在聚类中心不再发生变化时,终止分类,输出当前分类的数据集;
构建人工智能判断方式:
不断获取人工判断恶意营销号的特征因素,所述特征因素中包含账号消息删减数据、举报数据、违规数据、粉丝激增数据;
利用人工判断的平均值作为智能判断基础,不断对输出分类的数据集进行判断,若存在数据集满足人工判断的平均值,在账号的则数据集内的所有新媒体宣传账号均被标记为恶意营销号。
4.根据权利要求3所述的一种基于人工智能的互联网大数据处理方法,其特征在于:所述第一监督模型包括:
构建监督时长t2
获取监督时长t2内恶意营销号被再次标记的次数;
设置监督阈值,若在监督时长t2内恶意营销号被再次标记的次数小于监督阈值,解除恶意营销号标记。
5.一种基于人工智能的互联网大数据处理系统,其特征在于:该系统包括互联网后台信息数据抓取模块、大数据评测模块、人工智能判断模块、标记预警模块、实时监督模块;
所述互联网后台信息数据抓取模块用于获取新媒体账号的后台运营数据与运维数据,分析任一新媒体账号的自身状态;所述大数据评测模块,用于根据历史大数据构建新媒体宣传账号预测模型,对任一新媒体账号属于新媒体宣传账号的概率进行计算,在满足宣传账号概率阈值的情况下,标记为新媒体宣传账号;所述人工智能判断模块用于获取新媒体宣传账号的运维数据,构建机器学习模型,以人工智能的方式判断任一新媒体宣传账号是否属于恶意营销号,对符合的账号标记为恶意营销号;所述标记预警模块用于对恶意营销号进行标记,并同时发出预警信息,提示恶意营销号进行整改;所述实时监督模块用于构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督,在规定时长内,满足监督阈值,解除恶意营销号标记;
所述互联网后台信息数据抓取模块的输出端与所述大数据评测模块、人工智能判断模块的输入端相连接;所述大数据评测模块的输出端与所述人工智能判断模块的输入端相连接;所述人工智能判断模块的输出端与所述标记预警模块的输入端相连接;所述标记预警模块的输出端与所述实时监督模块的输入端相连接。
6.根据权利要求5所述的一种基于人工智能的互联网大数据处理系统,其特征在于:所述互联网后台信息数据抓取模块包括运行数据抓取子模块、运维数据抓取子模块;所述运行数据抓取子模块用于抓取新媒体账号的后台运行数据,所述后台运营数据包括登录地点、消息发布时间、消息发布次数、浏览人数;所述运维数据抓取子模块用于抓取新媒体账号的后台运维数据,所述运维数据包括账号消息删减数据、举报数据、违规数据、粉丝激增数据;
所述运行数据抓取子模块的输出端与所述大数据评测模块的输入端相连接;所述运维数据抓取子模块的输出端与所述人工智能判断模块的输入端相连接。
7.根据权利要求5所述的一种基于人工智能的互联网大数据处理系统,其特征在于:所述大数据评测模块包括历史大数据获取子模块、大数据评测子模块;所述历史大数据获取子模块用于新媒体宣传账号与其他账号的后台运行数据,构建新媒体宣传账号预测模型;所述大数据评测子模块用于根据新媒体宣传账号预测模型,构建宣传账号概率阈值,对满足宣传账号概率阈值的账号标记为新媒体宣传账号;
所述历史大数据获取子模块的输出端与所述大数据评测子模块的输入端相连接;所述大数据评测子模块的输出端与所述人工智能判断模块的输入端相连接。
8.根据权利要求5所述的一种基于人工智能的互联网大数据处理系统,其特征在于:所述人工智能判断模块包括机器学习子模块、人工智能判断子模块;所述机器学习子模块用于根据运维数据构建机器学习模型;所述人工智能判断子模块用于通过机器学习模型,以人工智能的方式判断任一新媒体宣传账号是否属于恶意营销号;
所述机器学习子模块的输出端与所述人工智能判断子模块的输入端相连接;所述人工智能判断子模块的输出端与所述标记预警模块的输入端相连接。
9.根据权利要求5所述的一种基于人工智能的互联网大数据处理系统,其特征在于:所述标记预警模块包括标记子模块、预警子模块;所述标记子模块对符合的账号标记为恶意营销号;所述预警子模块用于对恶意营销号发送预警信息,责令进行整改;
所述标记子模块的输出端与所述预警子模块的输入端相连接;所述预警子模块的输出端与所述实时监督模块的输入端相连接。
10.根据权利要求5所述的一种基于人工智能的互联网大数据处理系统,其特征在于:所述实时监督模块包括第一监督模型构建子模块、综合判断子模块;所述第一监督模型构建子模块用于构建第一监督模型,对判断为恶意营销号的账号发布信息进行监督;所述综合判断子模块用于构建规定时长,在规定时长内,恶意营销号满足监督阈值,解除恶意营销号标记;
所述第一监督模型构建子模块的输出端与所述综合判断子模块的输入端相连接。
CN202210244248.7A 2022-03-11 2022-03-11 一种基于人工智能的互联网大数据处理系统及方法 Active CN114897176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210244248.7A CN114897176B (zh) 2022-03-11 2022-03-11 一种基于人工智能的互联网大数据处理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210244248.7A CN114897176B (zh) 2022-03-11 2022-03-11 一种基于人工智能的互联网大数据处理系统及方法

Publications (2)

Publication Number Publication Date
CN114897176A true CN114897176A (zh) 2022-08-12
CN114897176B CN114897176B (zh) 2023-11-07

Family

ID=82715234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210244248.7A Active CN114897176B (zh) 2022-03-11 2022-03-11 一种基于人工智能的互联网大数据处理系统及方法

Country Status (1)

Country Link
CN (1) CN114897176B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116455748A (zh) * 2023-06-16 2023-07-18 深圳市友恺通信技术有限公司 一种应用于网络设备运维的人工智能监控系统及方法
CN117972229A (zh) * 2024-02-07 2024-05-03 珠海达人网络科技有限公司 一种基于大数据分析的社交安全预警监管系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102970296A (zh) * 2012-11-22 2013-03-13 网宿科技股份有限公司 基于内容分发网络的网站内容智能防抓取方法和系统
CN103853841A (zh) * 2014-03-19 2014-06-11 北京邮电大学 一种社交网用户异常行为的分析方法
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN110362728A (zh) * 2019-06-19 2019-10-22 深圳壹账通智能科技有限公司 基于大数据分析的信息推送方法、装置、设备及存储介质
CN112966500A (zh) * 2021-02-15 2021-06-15 珠海市鸿瑞信息技术股份有限公司 基于人工智能组态的网络数据链安全监测平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102970296A (zh) * 2012-11-22 2013-03-13 网宿科技股份有限公司 基于内容分发网络的网站内容智能防抓取方法和系统
CN103853841A (zh) * 2014-03-19 2014-06-11 北京邮电大学 一种社交网用户异常行为的分析方法
CN106682118A (zh) * 2016-12-08 2017-05-17 华中科技大学 基于网络爬虫和利用机器学习的社交网站虚假粉丝检测方法
CN110362728A (zh) * 2019-06-19 2019-10-22 深圳壹账通智能科技有限公司 基于大数据分析的信息推送方法、装置、设备及存储介质
CN112966500A (zh) * 2021-02-15 2021-06-15 珠海市鸿瑞信息技术股份有限公司 基于人工智能组态的网络数据链安全监测平台

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116455748A (zh) * 2023-06-16 2023-07-18 深圳市友恺通信技术有限公司 一种应用于网络设备运维的人工智能监控系统及方法
CN116455748B (zh) * 2023-06-16 2023-08-25 深圳市友恺通信技术有限公司 一种应用于网络设备运维的人工智能监控系统及方法
CN117972229A (zh) * 2024-02-07 2024-05-03 珠海达人网络科技有限公司 一种基于大数据分析的社交安全预警监管系统及方法

Also Published As

Publication number Publication date
CN114897176B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
Mabu et al. An intrusion-detection model based on fuzzy class-association-rule mining using genetic network programming
CN111614491B (zh) 一种面向电力监控系统安全态势评估指标选取方法及系统
CN110636066B (zh) 基于无监督生成推理的网络安全威胁态势评估方法
CN110929918A (zh) 一种基于CNN和LightGBM的10kV馈线故障预测方法
CN110162968A (zh) 一种基于机器学习的网络入侵检测系统
CN112087442A (zh) 基于注意力机制的时序相关网络入侵检测方法
Li et al. A new intrusion detection system based on rough set theory and fuzzy support vector machine
CN107154923A (zh) 一种基于多层极速学习机的网络入侵检测方法
CN114897176A (zh) 一种基于人工智能的互联网大数据处理系统及方法
CN111506635A (zh) 一种基于自回归和朴素贝叶斯算法的居民用电行为分析的系统及方法
CN112511351A (zh) 基于mes标识数据互通系统的安全态势预测方法及系统
CN113743538A (zh) 基于ipso-bp神经网络的智能楼宇能耗预测方法、设备和介质
CN115630709A (zh) 一种数据中心ai能耗阈值动态分析及优化的方法
CN113674846A (zh) 基于lstm网络的医院智慧服务舆情监控平台
CN109635008B (zh) 一种基于机器学习的设备故障检测方法
CN115840844B (zh) 一种基于大数据的互联网络平台用户行为分析系统
CN105930430B (zh) 一种基于非累积属性的实时欺诈检测方法及装置
CN116701846A (zh) 一种基于无监督学习的水电站调度运行数据清洗方法
Chimphlee et al. Integrating genetic algorithms and fuzzy C-means for anomaly detection
CN115858281A (zh) 一种基于物联网的能耗管理系统及方法
CN115719139A (zh) 电网调度运行管理的调度自查系统
Wang Research on public opinion and early warning analysis model of network emergencies based on decision tree
CN111143774B (zh) 一种基于影响因素多状态模型的电力负荷预测方法和装置
Zhang The WSN intrusion detection method based on deep data mining
CN111698269A (zh) 一种基于Plackett-Luce模型的网络入侵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231016

Address after: 017000 Room 1003-013, 1st Floor, Lanhai Heavy Industry Office Building, Mengsu Industrial Park, Aletengxire Town, Ejin Horo Banner, Ordos City, Inner Mongolia Autonomous Region

Applicant after: Inner Mongolia Saishang Mingzhu Scientific and Technological Achievements Promotion Service Co.,Ltd.

Address before: No. 687, Zhujiang Road, Xuanwu District, Nanjing, Jiangsu, 210000

Applicant before: Nanjing dingao Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant