CN112069387B - 互联网事件传播爆发预测方法、装置、电子设备及介质 - Google Patents
互联网事件传播爆发预测方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN112069387B CN112069387B CN202011259002.4A CN202011259002A CN112069387B CN 112069387 B CN112069387 B CN 112069387B CN 202011259002 A CN202011259002 A CN 202011259002A CN 112069387 B CN112069387 B CN 112069387B
- Authority
- CN
- China
- Prior art keywords
- event
- event group
- hotspot
- prediction
- propagation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种互联网事件传播爆发预测方法、装置、电子设备及介质,包括:设定第一媒体矩阵;按分钟对互联网事件合并获得多个事件群;监测每个事件群模式,模式包括热点和非热点;监测热点模式事件群分钟传播量和第二媒体矩阵;出现言论中心点且第二媒体矩阵和第一媒体矩阵标识符相同数达第二阈值的时间点为预测起始点;通过分钟传播量获得非热点模式事件群的快速趋势曲线和慢速趋势曲线;还监测分钟传播量和第三媒体矩阵;快速趋势曲线超越慢速趋势曲线设定时间、出现言论中心点且第三媒体矩阵和第一媒体矩阵标识符相同数达第四阈值的时间点为预测起始点;通过预测模型预测事件群从预测起始点到指数级爆发的时间段。本发明进行爆发前预测。
Description
技术领域
本发明涉及数据挖掘技术领域,更为具体地,涉及一种互联网事件传播爆发预测方法、装置、电子设备及计算机可读存储介质。
背景技术
随着信息检索与数据挖掘行业的发展,互联网上的信息和事件越来越多,也越来越容易出现引爆舆论的事件,所以如果可以知道哪些事件会在当天或几个小时内出现爆发的话,就可以提前预案提前引导,将互联网舆情事件能量进行消解。
现有的舆情预测有的是基于突发传播斜率的,在互联网事件传播的过程中,仅依靠突发斜率计算的传播突发和累积到一定热度后进行热点计算,缺少一个科学的对传播进行因子判定的爆发前的预测方式。
现有的舆情预测有的是基于历史同类事件规律的,但是较大程度忽略互联网传播的特性和规律。
发明内容
鉴于上述问题,本发明的目的是提供一种实时聚合整个互联网中发现传播的事件,进行爆发前预测的互联网事件传播爆发预测方法、装置、电子设备及计算机可读存储介质。
为了实现上述目的,本发明提供一种互联网事件传播爆发预测方法,包括:
设定第一媒体矩阵,所述第一媒体矩阵包括多个媒体的标识符;
按分钟对互联网事件进行合并,获得多个事件群;
监测每个事件群的模式,所述模式包括热点和非热点,分钟传播量达到第一阈值的事件群的模式为热点,否则为非热点,所述分钟传播量是事件群中所有事件的每分钟的总点击量、总评论量和总转发量中的一个或多个;
监测热点模式的事件群分钟传播量和传播所述事件群的任一事件的第二媒体矩阵,所述第二媒体矩阵包括传播热点模式的事件群中任一事件的媒体的标识符;
将热点模式的事件群出现言论中心点且第二媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第二阈值的时间点作为预测起始点,所述言论中心点是对所述事件群的分钟传播量达到设定第三阈值的网络用户;
监测非热点模式的事件群,通过事件群的分钟传播量获得第一时间段的EXPMA的平滑平均线,作为快速趋势曲线,获得第二时间段的EXPMA的平滑平均线,作为慢速趋势曲线,所述第一时间段小于所述第二时间段;
监测非热点模式的事件群的快速趋势曲线、慢速趋势曲线、分钟传播量和传播所述事件群的任一事件的第三媒体矩阵,所述第三媒体矩阵包括传播所述非热点事件群中任一事件的媒体的标识符;
将非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间的时间点、出现言论中心点的时间点和第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点中最晚时间点作为预测起始点;
通过预测模型预测获得预测起始点的事件群从预测起始点到指数级爆发的时间段,所述指数级爆发是事件群的传播量达到第五阈值,所述传播量是事件群中所有事件的累计总点击量、累计总评论量和累计总转发量中的一个或多个。
优选地,所述预测模型的获得方法包括:
构建预测模型,所述预测模型的输入是事件群的事件信息,所述事件信息包括主题词和预测起始点,所述预测模型的输出是事件群的预测起始点到指数级爆发的时间段;
构建训练集,所述训练集是与所述事件群同类的过去设定时间段的已经指数级爆发的事件的集合;
采用训练集对预测模型进行训练。
进一步,优选地,所述事件信息包括趋势指纹,所述趋势指纹的构建方法包括:
对事件的每一个网络文档通过hash的方式生成一个趋势指纹,
其中,构建训练集的方法包括:
通过simhash方法获得与事件群相似度达到第六阈值的过去设定时间段的已经指数级爆发的事件的集合,构成训练集。
优选地,所述按分钟对互联网事件进行合并的步骤包括:
获得事件的主题词;
通过词匹配的方法将主题词匹配程度达到第七阈值的互联网时间合并为一类。
优选地,所述非热点模式的事件群的预测起始点获得方法包括:
监测非热点模式的事件群的快速趋势曲线、慢速趋势曲线;
快速趋势曲线超越慢速趋势曲线设定时间时,开始监测网络用户对非热点模式的事件群的分钟传播量和传播所述事件群的任一事件的第三媒体矩阵;
出现或出现过言论中心点且第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点作为预测起始点。
优选地,还包括:
设定弱势矩阵,所述弱势矩阵包括预先设定的弱势群体的标识符;
当事件群的主题词矩阵包括弱势矩阵中的标识符时,缩短预测起始点。
优选地,所述第一时间段为17分钟,所述第二时间段为50分钟。
此外,本发明还提供一种互联网事件传播爆发预测装置,包括:
设定模块,设定第一媒体矩阵,所述第一媒体矩阵包括多个媒体的标识符;
采集模块,采集互联网事件;
合并模块,按分钟对互联网事件进行合并,获得多个事件群;
模式监测模块,监测每个事件群的模式,所述模式包括热点和非热点,分钟传播量达到第一阈值的事件群的模式为热点,否则为非热点,所述分钟传播量是事件群中所有事件的每分钟的总点击量、总评论量和总转发量中的一个或多个;
热点监测模块,监测热点模式的事件群分钟传播量和传播所述事件群的任一事件的第二媒体矩阵,所述第二媒体矩阵包括传播热点模式的事件群中任一事件的媒体的标识符;
第一预测起始点获得模块,将热点模式的事件群出现言论中心点且第二媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第二阈值的时间点作为预测起始点,所述言论中心点是对所述事件群的分钟传播量达到设定第三阈值的网络用户;
趋势曲线构建模块,通过非热点模式的事件群的分钟传播量获得第一时间段的EXPMA的平滑平均线,作为快速趋势曲线,获得第二时间段的EXPMA的平滑平均线,作为慢速趋势曲线,所述第一时间段小于所述第二时间段;
非热点监测模块,监测非热点模式的事件群的快速趋势曲线、慢速趋势曲线、分钟传播量和传播所述事件群的任一事件的第三媒体矩阵,所述第三媒体矩阵包括传播所述非热点事件群中任一事件的媒体的标识符;
第二预测起始点获得模块,将非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间的时间点、出现言论中心点的时间点和第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点中最晚时间点作为预测起始点;
预测模块,通过预测模型预测获得预测起始点的事件群从预测起始点到指数级爆发的时间段,所述指数级爆发是事件群的传播量达到第五阈值,所述传播量是事件群中所有事件的累计总点击量、累计总评论量和累计总转发量中的一个或多个。
为了实现上述目的,本发明还提供一种电子设备,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述互联网事件传播爆发预测方法。
为了实现上述目的,本发明还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的互联网事件传播爆发预测方法。
本发明所述互联网事件传播爆发预测方法、装置、电子设备及计算机可读存储介质实时聚合整个互联网中发现传播的事件,是基于EXPMA趋势和历史事件传播规律联合对事件传播进行因子判定的爆发前的预测方式,依靠机器的历史学习和计算,寻找趋势的前期形成过程,进行自动的爆发前预测,确定了预测起始点,立刻对事件爆发进行预测,通过预测起始点的确定,从初始保证了预测的准确性,且预测时间短。
为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明旨在包括所有这些方面以及它们的等同物。
附图说明
图1是本发明所述互联网事件传播爆发预测方法的流程示意图;
图2是本发明所述互联网事件传播爆发预测方法的一个具体实施例的示意图;
图3是本发明所述互联网事件传播爆发预测装置的构成框图;
图4是为本发明一实施例提供的实现互联网事件传播爆发预测方法的电子设备的内部结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
以下将结合附图对本发明的具体实施例进行详细描述。
图1是本发明所述互联网事件传播爆发预测方法的流程示意图,如图1所示,所述互联网事件传播爆发预测方法包括:
步骤S1,设定第一媒体矩阵,所述第一媒体矩阵包括多个媒体的标识符;
步骤S2,按分钟对互联网事件进行合并,获得多个事件群;
步骤S3,监测每个事件群的模式,所述模式包括热点和非热点,分钟传播量达到第一阈值(例如15)的事件群的模式为热点,否则为非热点,所述分钟传播量是事件群中所有事件的每分钟的总点击量、总评论量和总转发量中的一个或多个,优选地,所述分钟传播量是所有事件的每分钟的总点击量、总评论量和总转发量的加权组合,进一步,优选地,总转发量的权重大于总评论量的权重,总评论量的权重大于总点击量的权重,在减少运算量的同时,不降低预测的准确性;
步骤S4,监测热点模式的事件群分钟传播量和传播所述事件群的任一事件的第二媒体矩阵,所述第二媒体矩阵包括传播热点模式的事件群中任一事件的媒体的标识符;
步骤S5,将热点模式的事件群出现言论中心点且第二媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第二阈值的时间点作为预测起始点,所述言论中心点是对所述事件群的分钟传播量达到设定第三阈值的网络用户;
步骤S6,监测非热点模式的事件群,通过事件群的分钟传播量获得第一时间段的EXPMA的平滑平均线,作为快速趋势曲线,获得第二时间段的EXPMA的平滑平均线,作为慢速趋势曲线,所述第一时间段小于所述第二时间段,优选地,所述第一时间段为17分钟,所述第二时间段为50分钟;
步骤S7,监测非热点模式的事件群的快速趋势曲线、慢速趋势曲线、分钟传播量和传播所述事件群的任一事件的第三媒体矩阵,所述第三媒体矩阵包括传播所述非热点事件群中任一事件的媒体的标识符;
步骤S8,将非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间(例如3分钟)的时间点、出现言论中心点的时间点和第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点中的最晚时间点作为预测起始点,也就是说,将出现或出现过非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间、出现或出现过言论中心点且第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值三个条件均满足的最早时间点为预测起始点;
步骤S9,通过预测模型预测获得预测起始点的事件群从预测起始点到指数级爆发的时间段,所述指数级爆发是事件群的传播量达到第五阈值,所述传播量是事件群中所有事件的累计总点击量、累计总评论量和累计总转发量中的一个或多个。
在一个实施例中,在步骤S2中,所述按分钟对互联网事件进行合并的步骤包括:
获得事件的主题词;
通过词匹配的方法将主题词匹配程度达到第七阈值的互联网时间合并为一类。
EXPMA指标简称EMA,指数平均数指标,是一种趋向类指标,在步骤S6中,
EXPMA=(当前分钟的传播量-上一日或上一期EXPMA)/N+上一分钟EXPMA,其中,首次上期EXPMA值为上一分钟的传播量,N为分钟数,期可以以分钟、小时或天为单位,例如,4个小时为一期。
在一个实施例中,大部分事件群的非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间的时间点较早,为了减少运算量,加快预测时间,将非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间后出现言论中心点的时间点和第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点的最晚时间点作为预测起始点,也就是说,步骤S7和S8包括:
监测非热点模式的事件群的快速趋势曲线和慢速趋势曲线;
快速趋势曲线超越慢速趋势曲线设定时间时,开始监测网络用户对非热点模式的事件群的分钟传播量和传播所述事件群的任一事件的第三媒体矩阵;
出现或出现过言论中心点且第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点作为预测起始点。
在上述传播爆发预测方法中,当快速趋势曲线超越慢速趋势曲线设定时间,才开始第三媒体和言论中心点的监测,进一步节约了计算量和预测时间。
在一个实施例中,在步骤S9中,所述预测模型的获得方法包括:
构建预测模型,所述预测模型的输入是事件群的事件信息,所述事件信息包括主题词和预测起始点,所述预测模型的输出是事件群的预测起始点到指数级爆发的时间段;
构建训练集,所述训练集是与所述事件群同类的过去设定时间段的已经指数级爆发的事件的集合;
采用训练集对预测模型进行训练,预测模型可以是神经网络模型,也可以是与预测起始点和指数级爆发的时间点相关的线性模型或曲线模型。
在一个实施例中,在步骤S9中,所述预测模型的获得方法包括:
对事件的每一个网络文档通过hash的方式生成一个趋势指纹;
构建预测模型,所述预测模型的输入是事件群的事件信息,所述事件信息包括趋势指纹和预测起始点,所述预测模型的输出是事件群的预测起始点到指数级爆发的时间段;
通过simhash方法获得与事件群相似度达到第六阈值的过去设定时间段的已经指数级爆发的事件的集合,构成训练集;
采用训练集对预测模型进行训练。
在一个优选实施例中,所述预测模型的获得方法包括:
将事件群中所有事件的哈希值组合构成哈希链,生成事件群的趋势指纹;
通过simhash方法获得与事件群相似度达到第六阈值的过去设定时间段的已经指数级爆发的事件的集合;
将上述集合中的时间段加权组合获得所述事件群的指数级爆发的时间段,也就是说预测模型是历史的已经指数级爆发的事件的时间段的加权组合,例如,可以取集合中的时间段的均值,优选地,距离预测时刻越近的事件的事件段的权重越大。
在优选实施例中,所述事件群的趋势指纹的获得方法包括:
提取事件群中事件对应的网络文本的主题词;
对所述主题词分别进行哈希计算,从而得到包含多个哈希值的集合,对所述集合所有哈希值取和作为主指纹;
对上述集合中多个哈希值任意组合作为从指纹;
主指纹和从指纹的并集为趋势指纹,
其中,所述预测模型的获得方法还包括:
选取过去设定时间段已经指数级爆发的事件趋势指纹通过simhash方法与所述时间群的趋势指纹进行匹配;
获得两个趋势指纹的海明距离;
选取与事件群的趋势指纹的海明距离小于设定距离阈值的过去设定时间段的已经指数级爆发的事件;
将已经指数级爆发的事件的时间段加权组合,作为预测的所述事件群的时间段,优选地,海明距离越小,权值越大。
优选地,处于非热点模式的事件的趋势指纹中包括快速趋势的哈希值和慢速趋势的哈希值。
另外,优选地,事件的趋势指纹还可以包括第二媒体矩阵或第三媒体矩阵的哈希值,还可以包括言论中心点的哈希值或/和预测起始点的哈希值,加强预测的准确性和全面性。
在一个实施例中,互联网事件传播爆发预测方法还包括:
设定弱势矩阵,所述弱势矩阵包括预先设定的弱势群体的标识符;
当事件群的主题词矩阵包括弱势矩阵中的标识符时,缩短预测起始点。
上述互联网事件传播爆发预测方法基于EXPMA趋势和历史事件传播规律联合的多因子互联网事件传播爆发预测,在实践中保持良好的预测准确度和性能。
在一个实施例中,所述预测模型为分类模型,对历史设定时间段的事件进行分类,获得与预预测的事件群的多个事件,将历史设定时间段的所述多个事件的预测起始点到指数级爆发的时间段进行加权组合作为预测的所述事件群预测起始点到指数级爆发的时间段。
在本发明的一个具体实施例中,所述互联网事件传播爆发预测方法包括:
设定第一媒体矩阵,所述第一媒体矩阵包括多个媒体的标识符;
按分钟对互联网事件进行合并,获得多个事件群;
监测每个事件群的模式,所述模式包括热点和非热点,分钟传播量达到15的事件群的模式为热点,否则为非热点;
监测热点模式的事件群分钟传播量和传播所述事件群的任一事件的第二媒体矩阵;
将热点模式的事件群出现言论中心点且第二媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到1的时间点作为预测起始点;
监测非热点模式的事件群,通过事件群的分钟传播量获得EXPMA17的平滑平均线,作为快速趋势曲线,获得EXPMA50的平滑平均线,作为慢速趋势曲线;
监测非热点模式的事件群的快速趋势曲线、慢速趋势曲线;
快速趋势曲线超越慢速趋势曲线3分钟时,开始监测网络用户对非热点模式的事件群的分钟传播量和传播所述事件群的任一事件的第三媒体矩阵;
出现言论中心点且第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到1的时间点作为预测起始点;
通过SimHash方法,获得与事件群同类(趋势指纹相似度达到要求)的历史上5年的多个事件,将历史上5年的多个事件的预测起始点到指数级爆发的时间段求平均获得所述事件群预测起始点到指数级爆发的时间段。
现有技术的突发斜率的预测基于事件已经开始爆发后,出现大幅度的斜率才能成功预测,所以滞后性强,同时基于互联网传播特点,广告等发帖机、明星信息等大量信息都会出现短时大斜率的走势,所以经验证,通过2020年10月23日互联网中文信息1.31亿条数据进行计算,通过斜率计算预测符合特征事件23610件,经当日多渠道对比获取当日热点新闻前100,发现召回98件,预测召回率98%,同时随机抽取100件预测事件,观察预测后24小时内传播量级,>1000传播为1件,所以换算准确率为1%左右。
本发明所述互联网事件传播爆发预测方法在爆发前寻找引起爆发的前期趋势,所以平均给出预测的时间较早,相对于突发斜率平均提前20分钟,如图2所示,横轴为时间(年、月、日、小时、分钟),左纵轴为分钟传播量,右纵轴为累计转发量,测试100件舆情事件,L1为快速趋势曲线,L2为慢速趋势曲线,L3为预测的累计转发量,经验证,通过2020年10月23日互联网中文信息1.31亿条数据进行计算,通过斜率计算预测符合特征事件981件,经当日多渠道对比获取当日热点新闻前100,发现召回92件,预测召回率92%,同时随机抽取100件预测事件,观察预测后24小时内传播量级,>1000传播为11件,所以换算准确率>10%,上,延迟小于1分钟。
图3是本发明所述互联网事件传播爆发预测装置的构成框图,如图3所示,所述互联网事件传播爆发预测装置100包括:
设定模块110:设定第一媒体矩阵,所述第一媒体矩阵包括多个媒体的标识符;
采集模块120,采集互联网事件;
合并模块130,按分钟对互联网事件进行合并,获得多个事件群;
模式监测模块140,监测每个事件群的模式,所述模式包括热点和非热点,分钟传播量达到第一阈值的事件群的模式为热点,否则为非热点,所述分钟传播量是事件群中所有事件的每分钟的总点击量、总评论量和总转发量中的一个或多个;
热点监测模块150,监测热点模式的事件群分钟传播量和传播所述事件群的任一事件的第二媒体矩阵,所述第二媒体矩阵包括传播热点模式的事件群中任一事件的媒体的标识符;
第一预测起始点获得模块160,将热点模式的事件群出现言论中心点且第二媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第二阈值的时间点作为预测起始点,所述言论中心点是对所述事件群的分钟传播量达到设定第三阈值的网络用户;
趋势曲线构建模块170,通过非热点模式的事件群的分钟传播量获得第一时间段的EXPMA的平滑平均线,作为快速趋势曲线,获得第二时间段的EXPMA的平滑平均线,作为慢速趋势曲线,所述第一时间段小于所述第二时间段;
非热点监测模块180,监测非热点模式的事件群的快速趋势曲线、慢速趋势曲线、分钟传播量和传播所述事件群的任一事件的第三媒体矩阵,所述第三媒体矩阵包括传播所述非热点事件群中任一事件的媒体的标识符;
第二预测起始点获得模块190,将非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间的时间点、出现言论中心点的时间点和第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点中最晚时间点作为预测起始点;
预测模块200,通过预测模型预测获得预测起始点的事件群从预测起始点到指数级爆发的时间段,所述指数级爆发是事件群的传播量达到第五阈值,所述传播量是事件群中所有事件的累计总点击量、累计总评论量和累计总转发量中的一个或多个。
在一个实施例中,合并模块包括:
主题词获得单元,获得事件的主题词;
事件合并单元,通过词匹配的方法将主题词匹配程度达到第七阈值的互联网时间合并为一类。
在一个实施中,非热点监测模块包括:
第一监测单元,监测非热点模式的事件群的快速趋势曲线和慢速趋势曲线,快速趋势曲线超越慢速趋势曲线设定时间时,发送信号给第二监测单元;
第二监测单元,接收到第一监测单元的信号时,开始监测网络用户对非热点模式的事件群的分钟传播量和传播所述事件群的任一事件的第三媒体矩阵,
其中,第二预测起始点获得模块将第二监测单元监测的非热点模式的事件群出现或出现过言论中心点且第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点作为预测起始点。
在一个实施例中,设定模块还设定弱势矩阵,所述弱势矩阵包括预先设定的弱势群体的标识符,当热点模式的事件群的主题词矩阵包括弱势矩阵中的标识符时,发送信号给第一预测起始点获得模块,缩短预测起始点;当非热点模式的事件群的主题词矩阵包括弱势矩阵中的标识符时,发送信号给第二预测起始点获得模块,缩短预测起始点。
如图4所示,是本发明实现互联网事件传播爆发预测方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如互联网事件传播爆发预测程序12。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(SecureDigital, SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如互联网事件传播爆发预测程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如互联网事件传播爆发预测程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图4仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图4示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的互联网事件传播爆发预测程序12是多个指令的组合,在所述处理器10中运行时,可以实现:
设定第一媒体矩阵,所述第一媒体矩阵包括多个媒体的标识符;
按分钟对互联网事件进行合并,获得多个事件群;
监测每个事件群的模式,所述模式包括热点和非热点,分钟传播量达到第一阈值的事件群的模式为热点,否则为非热点,所述分钟传播量是事件群中所有事件的每分钟的总点击量、总评论量和总转发量中的一个或多个;
监测热点模式的事件群分钟传播量和传播所述事件群的任一事件的第二媒体矩阵,所述第二媒体矩阵包括传播热点模式的事件群中任一事件的媒体的标识符;
将热点模式的事件群出现言论中心点且第二媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第二阈值的时间点作为预测起始点,所述言论中心点是对所述事件群的分钟传播量达到设定第三阈值的网络用户;
监测非热点模式的事件群,通过事件群的分钟传播量获得第一时间段的EXPMA的平滑平均线,作为快速趋势曲线,获得第二时间段的EXPMA的平滑平均线,作为慢速趋势曲线,所述第一时间段小于所述第二时间段;
监测非热点模式的事件群的快速趋势曲线、慢速趋势曲线、分钟传播量和传播所述事件群的任一事件的第三媒体矩阵,所述第三媒体矩阵包括传播所述非热点事件群中任一事件的媒体的标识符;
将非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间的时间点、出现言论中心点的时间点和第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点中最晚时间点作为预测起始点;
通过预测模型预测获得预测起始点的事件群从预测起始点到指数级爆发的时间段,所述指数级爆发是事件群的传播量达到第五阈值,所述传播量是事件群中所有事件的累计总点击量、累计总评论量和累计总转发量中的一个或多个。
具体地,所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性,计算机可读存储介质中包括计算机程序,该计算机程序被处理器执行时实现如下操作:
设定第一媒体矩阵,所述第一媒体矩阵包括多个媒体的标识符;
按分钟对互联网事件进行合并,获得多个事件群;
监测每个事件群的模式,所述模式包括热点和非热点,分钟传播量达到第一阈值的事件群的模式为热点,否则为非热点,所述分钟传播量是事件群中所有事件的每分钟的总点击量、总评论量和总转发量中的一个或多个;
监测热点模式的事件群分钟传播量和传播所述事件群的任一事件的第二媒体矩阵,所述第二媒体矩阵包括传播热点模式的事件群中任一事件的媒体的标识符;
将热点模式的事件群出现言论中心点且第二媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第二阈值的时间点作为预测起始点,所述言论中心点是对所述事件群的分钟传播量达到设定第三阈值的网络用户;
监测非热点模式的事件群,通过事件群的分钟传播量获得第一时间段的EXPMA的平滑平均线,作为快速趋势曲线,获得第二时间段的EXPMA的平滑平均线,作为慢速趋势曲线,所述第一时间段小于所述第二时间段;
监测非热点模式的事件群的快速趋势曲线、慢速趋势曲线、分钟传播量和传播所述事件群的任一事件的第三媒体矩阵,所述第三媒体矩阵包括传播所述非热点事件群中任一事件的媒体的标识符;
将非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间的时间点、出现言论中心点的时间点和第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点中最晚时间点作为预测起始点;
通过预测模型预测获得预测起始点的事件群从预测起始点到指数级爆发的时间段,所述指数级爆发是事件群的传播量达到第五阈值,所述传播量是事件群中所有事件的累计总点击量、累计总评论量和累计总转发量中的一个或多个。
本申请之计算机可读存储介质的具体实施方式与上述互联网事件传播爆发预测方法、装置、电子设备的具体实施方式大致相同,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (8)
1.一种互联网事件传播爆发预测方法,其特征在于,包括:
设定第一媒体矩阵,所述第一媒体矩阵包括多个媒体的标识符;
按分钟对互联网事件进行合并,获得多个事件群;
监测每个事件群的模式,所述模式包括热点和非热点,分钟传播量达到第一阈值的事件群的模式为热点,否则为非热点,所述分钟传播量是事件群中所有事件的每分钟的总点击量、总评论量和总转发量中的一个或多个;
监测热点模式的事件群分钟传播量和传播所述事件群的任一事件的第二媒体矩阵,所述第二媒体矩阵包括传播热点模式的事件群中任一事件的媒体的标识符;
将热点模式的事件群出现言论中心点且第二媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第二阈值的时间点作为预测起始点,所述言论中心点是对所述事件群的分钟传播量达到设定第三阈值的网络用户;
监测非热点模式的事件群,通过事件群的分钟传播量获得第一时间段的EXPMA的平滑平均线,作为快速趋势曲线,获得第二时间段的EXPMA的平滑平均线,作为慢速趋势曲线,所述第一时间段小于所述第二时间段;
监测非热点模式的事件群的快速趋势曲线、慢速趋势曲线、分钟传播量和传播所述事件群的任一事件的第三媒体矩阵,所述第三媒体矩阵包括传播所述非热点事件群中任一事件的媒体的标识符;
将非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间的时间点、出现言论中心点的时间点和第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点中最晚时间点作为预测起始点;
通过预测模型预测获得预测起始点的事件群从预测起始点到指数级爆发的时间段,所述指数级爆发是事件群的传播量达到第五阈值,所述传播量是事件群中所有事件的累计总点击量、累计总评论量和累计总转发量中的一个或多个;
其中,所述预测模型的获得方法包括:
构建预测模型,所述预测模型的输入是事件群的事件信息,所述事件信息包括主题词和预测起始点,所述预测模型的输出是事件群的预测起始点到指数级爆发的时间段;
构建训练集,所述训练集是与所述事件群同类的过去设定时间段的已经指数级爆发的事件的集合;
采用训练集对预测模型进行训练;
其中,所述事件信息包括趋势指纹,所述趋势指纹的构建方法包括:
对事件的每一个网络文档通过hash的方式生成一个趋势指纹,
其中,构建训练集的方法包括:
通过simhash方法获得与事件群相似度达到第六阈值的过去设定时间段的已经指数级爆发的事件的集合,构成训练集。
2.根据权利要求1所述的互联网事件传播爆发预测方法,其特征在于,所述按分钟对互联网事件进行合并的步骤包括:
获得事件的主题词;
通过词匹配的方法将主题词匹配程度达到第七阈值的互联网时间合并为一类。
3.根据权利要求1所述的互联网事件传播爆发预测方法,其特征在于,所述非热点模式的事件群的预测起始点获得方法包括
监测非热点模式的事件群的快速趋势曲线和慢速趋势曲线;
快速趋势曲线超越慢速趋势曲线设定时间时,开始监测网络用户对非热点模式的事件群的分钟传播量和传播所述事件群的任一事件的第三媒体矩阵;
出现或出现过言论中心点且第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点作为预测起始点。
4.根据权利要求1所述的互联网事件传播爆发预测方法,其特征在于,还包括:
设定弱势矩阵,所述弱势矩阵包括预先设定的弱势群体的标识符;
当事件群的主题词矩阵包括弱势矩阵中的标识符时,缩短预测起始点。
5.根据权利要求1所述的互联网事件传播爆发预测方法,其特征在于,所述第一时间段为17分钟,所述第二时间段为50分钟。
6.一种互联网事件传播爆发预测装置,其特征在于,包括:
设定模块,设定第一媒体矩阵,所述第一媒体矩阵包括多个媒体的标识符;
采集模块,采集互联网事件;
合并模块,按分钟对互联网事件进行合并,获得多个事件群;
模式监测模块,监测每个事件群的模式,所述模式包括热点和非热点,分钟传播量达到第一阈值的事件群的模式为热点,否则为非热点,所述分钟传播量是事件群中所有事件的每分钟的总点击量、总评论量和总转发量中的一个或多个;
热点监测模块,监测热点模式的事件群分钟传播量和传播所述事件群的任一事件的第二媒体矩阵,所述第二媒体矩阵包括传播热点模式的事件群中任一事件的媒体的标识符;
第一预测起始点获得模块,将热点模式的事件群出现言论中心点且第二媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第二阈值的时间点作为预测起始点,所述言论中心点是对所述事件群的分钟传播量达到设定第三阈值的网络用户;
趋势曲线构建模块,通过非热点模式的事件群的分钟传播量获得第一时间段的EXPMA的平滑平均线,作为快速趋势曲线,获得第二时间段的EXPMA的平滑平均线,作为慢速趋势曲线,所述第一时间段小于所述第二时间段;
非热点监测模块,监测非热点模式的事件群的快速趋势曲线、慢速趋势曲线、分钟传播量和传播所述事件群的任一事件的第三媒体矩阵,所述第三媒体矩阵包括传播所述非热点事件群中任一事件的媒体的标识符;
第二预测起始点获得模块,将非热点模式的事件群的快速趋势曲线超越慢速趋势曲线设定时间的时间点、出现言论中心点的时间点和第三媒体矩阵中的标识符和第一媒体矩阵中的标识符相同数达到第四阈值的时间点中最晚时间点作为预测起始点;
预测模块,通过预测模型预测获得预测起始点的事件群从预测起始点到指数级爆发的时间段,所述指数级爆发是事件群的传播量达到第五阈值,所述传播量是事件群中所有事件的累计总点击量、累计总评论量和累计总转发量中的一个或多个。
7.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至5中任一所述的互联网事件传播爆发预测方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5中任一所述的互联网事件传播爆发预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011259002.4A CN112069387B (zh) | 2020-11-12 | 2020-11-12 | 互联网事件传播爆发预测方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011259002.4A CN112069387B (zh) | 2020-11-12 | 2020-11-12 | 互联网事件传播爆发预测方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112069387A CN112069387A (zh) | 2020-12-11 |
CN112069387B true CN112069387B (zh) | 2021-02-26 |
Family
ID=73655811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011259002.4A Active CN112069387B (zh) | 2020-11-12 | 2020-11-12 | 互联网事件传播爆发预测方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112069387B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116542238B (zh) * | 2023-07-07 | 2024-03-15 | 和元达信息科技有限公司 | 一种基于小程序的事件热度趋势确定方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609475B (zh) * | 2012-01-19 | 2016-06-15 | 浙江省公众信息产业有限公司 | 微博内容监测方法及监测系统 |
KR101612423B1 (ko) * | 2013-10-21 | 2016-04-22 | 대한민국 | 소셜미디어를 이용한 재난 감지 시스템 |
CN104166726B (zh) * | 2014-08-26 | 2017-11-28 | 哈尔滨工程大学 | 一种面向微博文本流的突发关键词检测方法 |
CN107193797B (zh) * | 2017-04-26 | 2020-08-18 | 天津大学 | 中文微博的热点话题检测及趋势预测方法 |
KR102000663B1 (ko) * | 2018-03-29 | 2019-10-01 | (주)다음소프트 | 빅데이터 및 인공지능을 활용한 이벤트 예측 시스템 및 그 방법 |
-
2020
- 2020-11-12 CN CN202011259002.4A patent/CN112069387B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112069387A (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112446025A (zh) | 联邦学习防御方法、装置、电子设备及存储介质 | |
CN108090153B (zh) | 一种搜索方法、装置、电子设备及存储介质 | |
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
CN111949708B (zh) | 基于时序特征提取的多任务预测方法、装置、设备及介质 | |
CN111639153A (zh) | 基于法律知识图谱的查询方法、装置、电子设备及介质 | |
CN112733023A (zh) | 资讯推送方法、装置、电子设备及计算机可读存储介质 | |
CN111586126A (zh) | 小程序预下载方法、装置、设备及存储介质 | |
CN111950621A (zh) | 基于人工智能的目标数据检测方法、装置、设备及介质 | |
CN113868528A (zh) | 资讯推荐方法、装置、电子设备及可读存储介质 | |
CN113360803A (zh) | 基于用户行为的数据缓存方法、装置、设备及存储介质 | |
CN112069387B (zh) | 互联网事件传播爆发预测方法、装置、电子设备及介质 | |
CN111694843A (zh) | 缺失号码检测方法、装置、电子设备及存储介质 | |
CN114398560A (zh) | 基于web平台的营销界面设置方法、装置、设备及介质 | |
CN112115890B (zh) | 基于人工智能的酒驾识别方法、装置、设备及介质 | |
CN111858604B (zh) | 数据存储方法、装置、电子设备及存储介质 | |
CN113378624A (zh) | 基于网关设备的数据传输方法、系统、电子设备及介质 | |
CN112396547A (zh) | 基于无监督学习的课程推荐方法、装置、设备及介质 | |
CN111522707A (zh) | 大数据平台调度预警方法、装置及计算机可读存储介质 | |
CN113342604B (zh) | 内存使用率的检测方法、装置、终端及存储介质 | |
CN115827115A (zh) | 微信小程序的h5页面跳转方法、装置、设备及存储介质 | |
CN112182107B (zh) | 名单数据获取方法、装置、计算机设备及存储介质 | |
CN113987206A (zh) | 异常用户的识别方法、装置、设备及存储介质 | |
CN114090392A (zh) | 页面浏览时长统计方法、装置、电子设备及存储介质 | |
CN111182354B (zh) | 视频评分推荐方法、装置、设备及计算机可读存储介质 | |
CN113486238A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |