CN107451249A - 事件发展趋势的预测方法及装置 - Google Patents
事件发展趋势的预测方法及装置 Download PDFInfo
- Publication number
- CN107451249A CN107451249A CN201710632125.XA CN201710632125A CN107451249A CN 107451249 A CN107451249 A CN 107451249A CN 201710632125 A CN201710632125 A CN 201710632125A CN 107451249 A CN107451249 A CN 107451249A
- Authority
- CN
- China
- Prior art keywords
- event
- information
- historical events
- topic
- events
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011161 development Methods 0.000 title claims abstract description 52
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000003993 interaction Effects 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims abstract description 10
- 235000013399 edible fruits Nutrition 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000011524 similarity measure Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 230000008901 benefit Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Quality & Reliability (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种事件发展趋势的预测方法及装置,涉及数据处理的技术领域,该方法包括:多个历史事件的事件量信息和多个历史事件的事件内容信息;在事件数据库中查找与当前待预测事件相匹配的目标历史事件,其中,目标历史事件的数量至少为一个;采用早期关联预测模型对目标历史事件进行预测,并基于预测结果确定待预测事件的发展趋势,缓解了现有的预测无法及时对事件的发展趋势进行准确预测的技术问题。
Description
技术领域
本发明涉及数据处理的技术领域,尤其是涉及一种事件发展趋势的预测方法及装置。
背景技术
随着网络技术的发展以及互联网的普及,越来越多的用户开始倾向于使用社交媒体来进行交流互动。在社交媒体平台上,公众经常会针对某一类话题,定期或者不定期的进行相关的讨论,而一个话题讨论量的突然上升,往往会标志公众对于某种事件的关注。同时,公众的关注度随时间也往往会不断变化,在事件发生早期就能够预测公众对于事件关注度未来的走势,不仅能够合理控制负面焦点事件的扩散,也能够让公司在公众关注早期就进行市场布局,从而更好的抓住潮流。
现有技术有两种不同的结构来建立事件模型。第一种是拓扑结构,第二种是事件统计数量模型。拓扑结构是以网络或者级联的方式来描述信息在社交媒体上的传播。事件统计数量模型是将整个社交媒体中有关某一事件的全部消息的数量统计出来,并描绘出该数量随时间变化的趋势。
不过现有的方法只能通过已知长时间内某一事件的变化趋势,来分析以及预测该事件在未来时间的变化趋势。现有的方法通过建立事件模型来拟合事件量变化趋势,只能够在已经发生了较长时间的事件上进行拟合,因此这种事件模型只能预测事件发生后长尾效应产生的事件量。同时,已有的数学模型都仅根据事件量来建立数学模型,而忽略事件本身所携带的信息,如有关该事件的讨论等文本信息。
发明内容
有鉴于此,本发明的目的在于提供一种事件发展趋势的预测方法及装置,以缓解现有的预测无法及时对事件的发展趋势进行准确预测的技术问题。
第一方面,本发明实施例提供了一种事件发展趋势的预测方法,包括:调用事件数据库,所述事件数据库中包括:多个历史事件的事件量信息和所述多个历史事件的事件内容信息;在所述事件数据库中查找与当前待预测事件相匹配的目标历史事件,其中,所述目标历史事件的数量至少为一个;采用早期关联预测模型对所述目标历史事件进行预测,并基于预测结果确定所述待预测事件的发展趋势。
进一步地,在调用事件数据库之前,所述方法还包括:确定所述多个历史事件中每个历史事件的事件参数,其中,所述事件参数包括:事件量信息、事件内容信息,起始时间和结束时间;基于所述事件参数构建所述事件数据库,其中,所述事件数据库表示为:Ej=(Vj,Cj,Sj,qj),Vj表示历史事件Ej的事件量信息,Cj表示所述历史事件Ej的事件内容信息,Sj表示历史事件Ej的起始时间,qj表示历史事件Ej的结束时间。
进一步地,确定所述多个历史事件中每个历史事件的事件参数包括:获取预设时间段内的多媒体信息,所述多媒体信息的数量为多个;将所述多媒体信息按照话题关键词进行聚类处理,得到话题量数据库和话题内容数据库,其中,话题量表示所述多媒体信息中的任意一个话题在每个时间间隔内的消息数量,话题内容表示所述话题在每个时间间隔内的讨论词语;基于所述话题量数据库和所述话题内容数据库确定所述事件参数。
进一步地,基于所述话题量数据库和所述话题内容数据库确定所述事件参数包括:通过公式计算所述多个历史事件的事件量信息,其中,V(t)表示任意一个话题的话题量,ξ为社交媒体噪声量;基于每个历史事件的零事件量点确定每个所述历史事件的起始时间和每个所述历史事件的结束时间;基于每个所述历史事件的起始时间和每个所述历史事件的结束时间,在所述话题内容数据库中确定每个所述历史事件的事件内容信息。
进一步地,在所述事件数据库中查找与当前待预测事件相匹配的目标历史事件包括:在所述事件数据库中提取所述多个历史事件的第一早期事件信息;提取所述待预测事件的第二早期事件信息;基于所述第一早期事件信息和所述第二早期事件信息确定所述待预测事件与所述多个历史事件的相似度;基于所述相似度在所述多个历史事件中确定所述目标历史事件。
进一步地,基于所述第一早期事件信息和所述第二早期事件信息确定所述待预测事件与所述多个历史事件的相似度包括:基于所述第一早期事件信息中的事件量信息和所述第二早期事件信息中的事件量信息计算事件量相似度;基于所述第一早期事件信息中的事件内容信息和所述第二早期事件信息中的事件内容信息计算事件内容相似度;基于所述事件量相似度和所述事件内容相似度计算所述待预测事件与所述多个历史事件的相似度。
进一步地,采用早期关联预测模型对所述目标历史事件进行预测,并基于预测结果确定所述待预测事件的发展趋势包括:基于所述早期关联预测模型计算所述目标历史事件的关联参数;获取所述目标历史事件的事件量信息;计算所述关联参数与所述目标历史事件的事件量信息的加权和,并基于加权和结果确定所述待预测事件的发展趋势。
第二方面,本发明实施例还提供一种事件发展趋势的预测装置,包括:调用单元,用于调用事件数据库,所述事件数据库中包括:多个历史事件的事件量信息和所述多个历史事件的事件内容信息;查找单元,用于在所述事件数据库中查找与当前待预测事件相匹配的目标历史事件,其中,所述目标历史事件的数量至少为一个;预测单元,用于采用早期关联预测模型对所述目标历史事件进行预测,并基于预测结果确定所述待预测事件的发展趋势。
进一步地,所述装置还包括:确定单元,用于在调用事件数据库之前,确定所述多个历史事件中每个历史事件的事件参数,其中,所述事件参数包括:事件量信息、事件内容信息,起始时间和结束时间;构建单元,用于基于所述事件参数构建所述事件数据库,其中,所述事件数据库表示为:Ej=(Vj,Cj,Sj,qj),Vj表示历史事件Ej的事件量信息,Cj表示所述历史事件Ej的事件内容信息,Sj表示历史事件Ej的起始时间,qj表示历史事件Ej的结束时间。
进一步地,所述确定单元用于:获取预设时间段内的多媒体信息,所述多媒体信息的数量为多个;将所述多媒体信息按照话题关键词进行聚类处理,得到话题量数据库和话题内容数据库,其中,话题量表示所述多媒体信息中的任意一个话题在每个时间间隔内的消息数量,话题内容表示所述话题在每个时间间隔内的讨论词语;基于所述话题量数据库和所述话题内容数据库确定所述事件参数。
在本发明实施例中,在对事件发展趋势进行预测时,首先调用包含多个历史事件的事件量信息和事件内容信息的事件数据库;然后,在事件数据库中查找与当前待预测事件相匹配的目标历史事件,最后,采用早期关联预测模型对目标历史事件进行预测,并基于预测结果确定待预测事件的发展趋势。在本发明实施例中,通过挖掘大量历史事件的走势规律及文本内容,结合特定的相似性检索方法,能够预测出即将发生的事件的未来走势。进而以缓解现有的预测无法及时对事件的发展趋势进行准确预测的技术问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种事件发展趋势的预测方法的流程图;
图2是根据本发明实施例的一种事件发展趋势的预测方法的预测性能分析的示意图;
图3是根据本发明实施例的一种事件发展趋势的预测装置的示意图;
图4是根据本发明实施例的另一种事件发展趋势的预测装置的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
根据本发明实施例,提供了一种事件发展趋势的预测方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种事件发展趋势的预测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,调用事件数据库,事件数据库中包括:多个历史事件的事件量信息和多个历史事件的事件内容信息;
步骤S104,在事件数据库中查找与当前待预测事件相匹配的目标历史事件,其中,目标历史事件的数量至少为一个;
步骤S106,采用早期关联预测模型对目标历史事件进行预测,并基于预测结果确定待预测事件的发展趋势。
由于新发生事件(即,待预测事件)发生的早期所能够提供的信息非常少,所以本发明实施例中,通过结合历史事件的特定规律,从而预测新发生事件(即,待预测事件)在未来时间内的变化趋势。本发明实施例提出的预测方法,将结合历史事件量信息和历史事件文本信息,检索历史事件与新发生事件(即,待预测事件)相似的历史事件(即,目标历史事件),通过相似的历史事件的事件量变化来预测新发生事件的事件量变化,从而确定新发生事件(即,待预测事件)的发展趋势。
在本发明实施例中,在对事件发展趋势进行预测时,首先调用包含多个历史事件的事件量信息和事件内容信息的事件数据库;然后,在事件数据库中查找与当前待预测事件相匹配的目标历史事件,最后,采用早期关联预测模型对目标历史事件进行预测,并基于预测结果确定待预测事件的发展趋势。在本发明实施例中,通过挖掘大量历史事件的走势规律及文本内容,结合特定的相似性检索方法,能够预测出即将发生的事件的未来走势。进而以缓解现有的预测无法及时对事件的发展趋势进行准确预测的技术问题。
在本发明实施例提供的预测方法中,从大规模历史信息整体考虑去除话题关键词讨论量中的噪声,并从中提取出事件讨论量,从而建立一个完整的事件数据库;同时考虑事件包含的不相容的特征;再用新发生事件(即,待预测事件)中少量信息去匹配与之最相似的历史事件(即,目标历史事件);新发生事件(即,待预测事件)的预测趋势将由相似的历史事件的变化趋势共同构成。下面将结合下述实施方式对本发明实施例提供的预测方法进行详细说明。
在一个实施例中,在调用事件数据库之前,该方法还包括如下步骤:
步骤S1021,确定多个历史事件中每个历史事件的事件参数,其中,事件参数包括:事件量信息、事件内容信息,起始时间和结束时间;
其中,确定多个历史事件中每个历史事件的事件参数的过程描述如下:
首先,获取预设时间段内的多媒体信息,多媒体信息的数量为多个;其中,多媒体信息为在社交媒体上获取到的信息,例如,预设时间段内在微博上获取到的多媒体数据,又例如,预设时间段内在“贴吧”上获取到的多媒体数据。
在本发明实施例中,获取到的多媒体信息中包括该信息的话题关键词,该信息的内容,该信息的发布事件等信息。
然后,将多媒体信息按照话题关键词进行聚类处理,得到话题量数据库和话题内容数据库,其中,话题量表示多媒体信息中的任意一个话题在每个时间间隔内的消息数量,话题内容表示话题在每个时间间隔内的讨论词语;
在获取到多媒体信息之后,将每个信息按照共同的话题关键词进行聚类处理,生成话题量数据库和话题内容数据库。话题量指某个话题在每个时间间隔(如一小时)内的消息数量,话题内容是指某个话题在每个时间间隔内讨论的词语。
接下来,基于话题量数据库和话题内容数据库确定事件参数。
其中,基于话题量数据库和话题内容数据库确定事件参数的过程描述如下:
首先,通过公式计算多个历史事件的事件量信息,其中,V(t)表示任意一个话题的话题量,ξ为社交媒体噪声量;
然后,基于每个历史事件的零事件量点确定每个历史事件的起始时间和每个历史事件的结束时间;
接下来,基于每个历史事件的起始时间和每个历史事件的结束时间,在话题内容数据库中确定每个历史事件的事件内容信息。
具体地,由于话题量V(t)是由事件量Vj(t)和社交媒体噪声量ξ(t)共同组成,具体公式描述如下:且由于社交媒体噪声量ξ(t)的变化与事件量Vj(t)的变化相比,其实是非常小的幅度,所以可以将其看作是一个不变的常数。于是对等式两边进行无穷积分,可以得到如下等式:
其次,考虑到同一个话题下的事件与事件之间是不相互交叉的,也就是一个事件一定总是在上一个事件结束之后才发生,这时候等号右边的极限项就变成:
所以,最终的社交噪声量就直接可以对话题量进行无穷积分的平均:每个历史时间的事件量就可以通过用话题量减去噪声量得到:
此时,可以通过历史事件的零事件量点来确定历史事件Vj的起始时间Sj和结束时间qj;进而,就可以通过这两个时间段内的文本信息来确定历史事件Vj的事件内容信息Cj。
步骤S1022,基于事件参数构建事件数据库,其中,事件数据库表示为:Ej=(Vj,Cj,Sj,qj),Vj表示历史事件Ej的事件量信息,Cj表示历史事件Ej的事件内容信息,Sj表示历史事件Ej的起始时间,qj表示历史事件Ej的结束时间;
在确定上述Vj,Cj,Sj和qj等信息之后,就可以基于Vj,Cj,Sj和qj构建事件数据库,其中,事件数据库表示为:其中,m为历史事件的数量。
在构建事件数据库之后,就可以基于事件数据库查找与当前待预测事件相匹配的目标历史事件,其中,在事件数据库中查找与当前待预测事件相匹配的目标历史事件包括如下步骤:
步骤S1041,在事件数据库中提取多个历史事件的第一早期事件信息;
步骤S1042,提取待预测事件的第二早期事件信息;
步骤S1043,基于第一早期事件信息和第二早期事件信息确定待预测事件与多个历史事件的相似度;
其中,基于第一早期事件信息和第二早期事件信息确定待预测事件与多个历史事件的相似度包括:
基于第一早期事件信息中的事件量信息和第二早期事件信息中的事件量信息计算事件量相似度;
基于第一早期事件信息中的事件内容信息和第二早期事件信息中的事件内容信息计算事件内容相似度;
基于事件量相似度和事件内容相似度计算待预测事件与多个历史事件的相似度。
步骤S1044,基于相似度在多个历史事件中确定目标历史事件。
在本发明实施例中,主要使用历史事件的早期事件信息(即,上述第一早期事件信息)来找到相似的历史事件(即,上述目标历史事件)。历史事件的事件数据库中包含了历史事件的全部信息。因此,需要在事件数据库中将历史事件的早期事件信息提取出来,记作{Eej=(Vej,Cej,sj,sj+Te)},Vej是历史事件Vj的早期事件量信息,Cej是历史事件Vj的早期内容信息,T代表该早期时间段的时间跨度。例如,当T代表24小时,如果时间间隔是一小时的话,则历史事件Vj的早期事件量Vej是前24小时事件的事件量,以及事件前24小时的内容。
对一个新发生的事件(即,上述待预测事件)的早期事件信息Ee(q),它与历史事件的早期事件信息之间的相似度通过文本内容和事件量两个特征共同决定。
其中,将历史事件Vj的早期事件量信息表示为xvj,将历史事件Vj的早期事件内容信息表示为xcj,将待预测事件的早期事件量信息表示为将待预测事件的早期事件量信息表示为事件量信息是使用了事件量各个时间点的值以及变化速率,而事件内容信息则是根据LDA(Latent Dirichlet Allocation)算法生成的主题特征模型得到的特征向量。
接下来,通过下述公式就能够分别得到事件量相似度S(v)和事件内容相似度S(c):
最后,就可以利用公式计算历史事件的事件早期事件信息和待预测事件的早期事件信息之间的相似度。在确定出相似度之后,就可以按照相似度的大小在多个历史事件中选择出k个目标历史事件。例如,在计算出相似度之后,按照相似度对多个历史事件进行降序排序。并将排序结果中的前k个历史事件作为目标历史事件。
在确定出目标历史事件之后,就可以采用早期关联预测模型对目标历史事件进行预测,并基于预测结果确定待预测事件的发展趋势,具体过程描述如下:
首先,基于早期关联预测模型计算目标历史事件的关联参数;
然后,获取目标历史事件的事件量信息;
接下来,计算关联参数与目标历史事件的事件量信息的加权和,并基于加权和结果确定待预测事件的发展趋势。
具体地,可以通过早期关联预测模型计算目标历史事件的关联参数,该模型的数据表达式为:其中,w为关联参数。在该式中,Vej是与wj对应的目标历史事件的早期事件量信息,γ是惩罚系数以防权重过高从而形成过拟合。优化该误差函数能够找到每个目标历史事件对当前待预测事件的发展趋势有多大的贡献,从而通过该贡献的比例来决定在未来该考虑对应相似事件占比多少,最终通过线性组合来得到新发生事件未来的趋势。
在确定出每个目标历史事件的关联参数之后,可以通过下述公式计算待预测事件的发展趋势:在该式中V(q)(t)为待预测事件的事件量预测值,通过该事件量预测值就能够确定待预测事件的发展趋势。
需要说明的是,在本发明实施例中,还对上述实施例中所提供的预测方法进行的验证。
具体地,将分歧函数作为评估指标,来对该预测方法的预测效果进行评估,其中,该分歧函数表示为:其中,V*表示当前待预测事件的事件量的预测结果,Vg表示当前待预测事件的事件量实际值。其中,V*和Vg满足下述关系:
假设,待预测事件的数量为N个,那么对该N个待预测事件的事件量预测结果用分歧函数求和的对数来表示:M=∑log(D)。
如图2所示,图2中最下面的折线是同时使用事件量特征和事件内容特征的对数结果,而中间的线条是现有技术只使用事件量特征的对数结果,最上面的线条是仅使用内容特征的对数结果。通过该图2可以看出,采用本发明实施例所提供的预测方法明显好于单独使用一种特征。
本发明实施例提供的预测方法具有以下优点:
第一、前瞻性预测。本发明实施例提出了一种事件早期关联预测模型,该模型可以在待预测事件发生很短的时间内(如1天内)就可以预测出待预测事件未来的事件量变化。这种及时性能够为舆情控制以及市场规划提供便利。
第二、多特征融合。本发明实施例提出的事件早期关联预测模型能够同时结合事件量信息和事件内容信息,通过特定的相似度函数来解决不同特征之间不兼容的问题。利用该多特征融合方法,以及相似度检索方法,历史事件中与待预测事件相似的k个历史事件(即,上述目标历史事件)能够被检索到,并依据目标历史事件的事件量变化来预测信待预测事件的事件量变化。
第三、特定化评估方法。本发明实施例设计了一种新的分歧度函数作为评估预测的事件量与实际的事件量之间的误差度。该分歧度函数是比均方误差(MSE)以及欧式距离误差更好的评估指标,能够更好的检测出好的预测与差的预测。
实施例二:
本发明实施例还提供了一种事件发展趋势的预测装置,该事件发展趋势的预测装置主要用于执行本发明实施例上述内容所提供的事件发展趋势的预测方法,以下对本发明实施例提供的事件发展趋势的预测装置做具体介绍。
图3是根据本发明实施例的一种事件发展趋势的预测装置的示意图,如图3所示,该事件发展趋势的预测装置主要包括:调用单元31,查找单元32和预测单元33,其中:
调用单元31,用于调用事件数据库,事件数据库中包括:多个历史事件的事件量信息和多个历史事件的事件内容信息;
查找单元32,用于在事件数据库中查找与当前待预测事件相匹配的目标历史事件,其中,目标历史事件的数量至少为一个;
预测单元33,用于采用早期关联预测模型对目标历史事件进行预测,并基于预测结果确定待预测事件的发展趋势。
在本发明实施例中,在对事件发展趋势进行预测时,首先调用包含多个历史事件的事件量信息和事件内容信息的事件数据库;然后,在事件数据库中查找与当前待预测事件相匹配的目标历史事件,最后,采用早期关联预测模型对目标历史事件进行预测,并基于预测结果确定待预测事件的发展趋势。在本发明实施例中,通过挖掘大量历史事件的走势规律及文本内容,结合特定的相似性检索方法,能够预测出即将发生的事件的未来走势。进而以缓解现有的预测无法及时对事件的发展趋势进行准确预测的技术问题。
可选地,如图4所示,该装置还包括:确定单元41,用于在调用事件数据库之前,确定多个历史事件中每个历史事件的事件参数,其中,事件参数包括:事件量信息、事件内容信息,起始时间和结束时间;构建单元42,用于基于事件参数构建事件数据库,其中,事件数据库表示为:Ej=(Vj,Cj,Sj,qj),Vj表示历史事件Ej的事件量信息,Cj表示历史事件Ej的事件内容信息,Sj表示历史事件Ej的起始时间,qj表示历史事件Ej的结束时间。
可选地,确定单元41用于:获取预设时间段内的多媒体信息,多媒体信息的数量为多个;将多媒体信息按照话题关键词进行聚类处理,得到话题量数据库和话题内容数据库,其中,话题量表示多媒体信息中的任意一个话题在每个时间间隔内的消息数量,话题内容表示话题在每个时间间隔内的讨论词语;基于话题量数据库和话题内容数据库确定事件参数。
可选地,确定单元41还用于:通过公式计算多个历史事件的事件量信息,其中,V(t)表示任意一个话题的话题量,ξ为社交媒体噪声量;基于每个历史事件的零事件量点确定每个历史事件的起始时间和每个历史事件的结束时间;基于每个历史事件的起始时间和每个历史事件的结束时间,在话题内容数据库中确定每个历史事件的事件内容信息。
可选地,查找单元用于:在事件数据库中提取多个历史事件的第一早期事件信息;提取待预测事件的第二早期事件信息;基于第一早期事件信息和第二早期事件信息确定待预测事件与多个历史事件的相似度;基于相似度在多个历史事件中确定目标历史事件。
可选地,查找单元还用于:基于第一早期事件信息中的事件量信息和第二早期事件信息中的事件量信息计算事件量相似度;基于第一早期事件信息中的事件内容信息和第二早期事件信息中的事件内容信息计算事件内容相似度;基于事件量相似度和事件内容相似度计算待预测事件与多个历史事件的相似度。
可选地,预测单元用于:基于早期关联预测模型计算目标历史事件的关联参数;获取目标历史事件的事件量信息;计算关联参数与目标历史事件的事件量信息的加权和,并基于加权和结果确定待预测事件的发展趋势。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明实施例所提供的一种事件发展趋势的预测方法及装置的计算机程序产品,包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种事件发展趋势的预测方法,其特征在于,包括:
调用事件数据库,所述事件数据库中包括:多个历史事件的事件量信息和所述多个历史事件的事件内容信息;
在所述事件数据库中查找与当前待预测事件相匹配的目标历史事件,其中,所述目标历史事件的数量至少为一个;
采用早期关联预测模型对所述目标历史事件进行预测,并基于预测结果确定所述待预测事件的发展趋势。
2.根据权利要求1所述的方法,其特征在于,在调用事件数据库之前,所述方法还包括:
确定所述多个历史事件中每个历史事件的事件参数,其中,所述事件参数包括:事件量信息、事件内容信息,起始时间和结束时间;
基于所述事件参数构建所述事件数据库,其中,所述事件数据库表示为:Ej=(Vj,Cj,Sj,qj),Vj表示历史事件Ej的事件量信息,Cj表示所述历史事件Ej的事件内容信息,Sj表示历史事件Ej的起始时间,qj表示历史事件Ej的结束时间。
3.根据权利要求2所述的方法,其特征在于,确定所述多个历史事件中每个历史事件的事件参数包括:
获取预设时间段内的多媒体信息,所述多媒体信息的数量为多个;
将所述多媒体信息按照话题关键词进行聚类处理,得到话题量数据库和话题内容数据库,其中,话题量表示所述多媒体信息中的任意一个话题在每个时间间隔内的消息数量,话题内容表示所述话题在每个时间间隔内的讨论词语;
基于所述话题量数据库和所述话题内容数据库确定所述事件参数。
4.根据权利要求3所述的方法,其特征在于,基于所述话题量数据库和所述话题内容数据库确定所述事件参数包括:
通过公式计算所述多个历史事件的事件量信息,其中,V(t)表示任意一个话题的话题量,ξ为社交媒体噪声量;
基于每个历史事件的零事件量点确定每个所述历史事件的起始时间和每个所述历史事件的结束时间;
基于每个所述历史事件的起始时间和每个所述历史事件的结束时间,在所述话题内容数据库中确定每个所述历史事件的事件内容信息。
5.根据权利要求1所述的方法,其特征在于,在所述事件数据库中查找与当前待预测事件相匹配的目标历史事件包括:
在所述事件数据库中提取所述多个历史事件的第一早期事件信息;
提取所述待预测事件的第二早期事件信息;
基于所述第一早期事件信息和所述第二早期事件信息确定所述待预测事件与所述多个历史事件的相似度;
基于所述相似度在所述多个历史事件中确定所述目标历史事件。
6.根据权利要求5所述的方法,其特征在于,基于所述第一早期事件信息和所述第二早期事件信息确定所述待预测事件与所述多个历史事件的相似度包括:
基于所述第一早期事件信息中的事件量信息和所述第二早期事件信息中的事件量信息计算事件量相似度;
基于所述第一早期事件信息中的事件内容信息和所述第二早期事件信息中的事件内容信息计算事件内容相似度;
基于所述事件量相似度和所述事件内容相似度计算所述待预测事件与所述多个历史事件的相似度。
7.根据权利要求1所述的方法,其特征在于,采用早期关联预测模型对所述目标历史事件进行预测,并基于预测结果确定所述待预测事件的发展趋势包括:
基于所述早期关联预测模型计算所述目标历史事件的关联参数;
获取所述目标历史事件的事件量信息;
计算所述关联参数与所述目标历史事件的事件量信息的加权和,并基于加权和结果确定所述待预测事件的发展趋势。
8.一种事件发展趋势的预测装置,其特征在于,包括:
调用单元,用于调用事件数据库,所述事件数据库中包括:多个历史事件的事件量信息和所述多个历史事件的事件内容信息;
查找单元,用于在所述事件数据库中查找与当前待预测事件相匹配的目标历史事件,其中,所述目标历史事件的数量至少为一个;
预测单元,用于采用早期关联预测模型对所述目标历史事件进行预测,并基于预测结果确定所述待预测事件的发展趋势。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括:
确定单元,用于在调用事件数据库之前,确定所述多个历史事件中每个历史事件的事件参数,其中,所述事件参数包括:事件量信息、事件内容信息,起始时间和结束时间;
构建单元,用于基于所述事件参数构建所述事件数据库,其中,所述事件数据库表示为:Ej=(Vj,Cj,Sj,qj),Vj表示历史事件Ej的事件量信息,Cj表示所述历史事件Ej的事件内容信息,Sj表示历史事件Ej的起始时间,qj表示历史事件Ej的结束时间。
10.根据权利要求9所述的装置,其特征在于,所述确定单元用于:
获取预设时间段内的多媒体信息,所述多媒体信息的数量为多个;
将所述多媒体信息按照话题关键词进行聚类处理,得到话题量数据库和话题内容数据库,其中,话题量表示所述多媒体信息中的任意一个话题在每个时间间隔内的消息数量,话题内容表示所述话题在每个时间间隔内的讨论词语;
基于所述话题量数据库和所述话题内容数据库确定所述事件参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710632125.XA CN107451249B (zh) | 2017-07-28 | 2017-07-28 | 事件发展趋势的预测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710632125.XA CN107451249B (zh) | 2017-07-28 | 2017-07-28 | 事件发展趋势的预测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107451249A true CN107451249A (zh) | 2017-12-08 |
CN107451249B CN107451249B (zh) | 2020-01-21 |
Family
ID=60490307
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710632125.XA Active CN107451249B (zh) | 2017-07-28 | 2017-07-28 | 事件发展趋势的预测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107451249B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507771A (zh) * | 2020-04-21 | 2020-08-07 | 北京思特奇信息技术股份有限公司 | 一种内容收益预测方法及系统 |
CN112101002A (zh) * | 2020-09-15 | 2020-12-18 | 南京行者易智能交通科技有限公司 | 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 |
CN112669085A (zh) * | 2021-01-04 | 2021-04-16 | 北京明略软件系统有限公司 | 一种目标事件数据的确定方法和装置 |
CN112861980A (zh) * | 2021-02-21 | 2021-05-28 | 平安科技(深圳)有限公司 | 一种基于大数据的事历任务表挖掘方法及计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2096610A1 (en) * | 2008-02-26 | 2009-09-02 | British Telecommunications Public Limited Company | Remote monitoring thresholds |
CN102999539A (zh) * | 2011-09-13 | 2013-03-27 | 富士通株式会社 | 预测给定话题的未来发展趋势的方法和装置 |
CN103955505A (zh) * | 2014-04-24 | 2014-07-30 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及系统 |
CN104933475A (zh) * | 2015-05-27 | 2015-09-23 | 国家计算机网络与信息安全管理中心 | 网络转发行为预测方法及装置 |
CN105787075A (zh) * | 2016-03-02 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 一种基于数据挖掘的事件预测方法和装置 |
CN106156257A (zh) * | 2015-04-28 | 2016-11-23 | 北大方正集团有限公司 | 一种微博舆情事件的态势预测方法 |
-
2017
- 2017-07-28 CN CN201710632125.XA patent/CN107451249B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2096610A1 (en) * | 2008-02-26 | 2009-09-02 | British Telecommunications Public Limited Company | Remote monitoring thresholds |
CN102999539A (zh) * | 2011-09-13 | 2013-03-27 | 富士通株式会社 | 预测给定话题的未来发展趋势的方法和装置 |
CN103955505A (zh) * | 2014-04-24 | 2014-07-30 | 中国科学院信息工程研究所 | 一种基于微博的事件实时监测方法及系统 |
CN106156257A (zh) * | 2015-04-28 | 2016-11-23 | 北大方正集团有限公司 | 一种微博舆情事件的态势预测方法 |
CN104933475A (zh) * | 2015-05-27 | 2015-09-23 | 国家计算机网络与信息安全管理中心 | 网络转发行为预测方法及装置 |
CN105787075A (zh) * | 2016-03-02 | 2016-07-20 | 百度在线网络技术(北京)有限公司 | 一种基于数据挖掘的事件预测方法和装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111507771A (zh) * | 2020-04-21 | 2020-08-07 | 北京思特奇信息技术股份有限公司 | 一种内容收益预测方法及系统 |
CN112101002A (zh) * | 2020-09-15 | 2020-12-18 | 南京行者易智能交通科技有限公司 | 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 |
CN112101002B (zh) * | 2020-09-15 | 2021-04-02 | 南京行者易智能交通科技有限公司 | 一种基于大数据的案件态势感知预警方法、措施推荐方法、装置及终端设备 |
CN112669085A (zh) * | 2021-01-04 | 2021-04-16 | 北京明略软件系统有限公司 | 一种目标事件数据的确定方法和装置 |
CN112861980A (zh) * | 2021-02-21 | 2021-05-28 | 平安科技(深圳)有限公司 | 一种基于大数据的事历任务表挖掘方法及计算机设备 |
CN112861980B (zh) * | 2021-02-21 | 2021-09-28 | 平安科技(深圳)有限公司 | 一种基于大数据的事历任务表挖掘方法及计算机设备 |
Also Published As
Publication number | Publication date |
---|---|
CN107451249B (zh) | 2020-01-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Yildiz et al. | Reliable supply chain network design | |
CN107451249A (zh) | 事件发展趋势的预测方法及装置 | |
US20150134424A1 (en) | Systems and methods for assessing hybridization of cloud computing services based on data mining of historical decisions | |
CN104657412A (zh) | 用于指定和实现目标的推荐系统 | |
CN110866767A (zh) | 电信用户满意度的预测方法、装置、设备及介质 | |
CN110428139A (zh) | 基于标签传播的信息预测方法及装置 | |
CN111222994A (zh) | 客户风险评估方法、装置、介质和电子设备 | |
Xu et al. | A hybrid interpretable credit card users default prediction model based on RIPPER | |
Linton et al. | An extension to a DEA support system used for assessing R&D projects | |
CN113657990A (zh) | 一种蚁狮算法优化narx神经网络风险预测系统及方法 | |
Parajuli et al. | The impact of congestion on protection decisions in supply networks under disruptions | |
CN114819967A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
JP6449456B2 (ja) | 確率的システムの注目指標の統計量を最小化するパラメータセットを探索するシステム | |
Shi et al. | Predicting home sale prices: A review of existing methods and illustration of data stream methods for improved performance | |
Ding et al. | Improving flood resilience through optimal reservoir operation | |
Fluixá-Sanmartín et al. | Accounting for climate change uncertainty in long-term dam risk management | |
KR101946842B1 (ko) | 데이터 탐색 장치 | |
Benth et al. | Pricing energy quanto options in the framework of Markov-modulated additive processes | |
CA3035539A1 (en) | Systems and methods for measuring collected content significance | |
Reyes Santos et al. | Applying the partitioned multiobjective risk method (PMRM) to portfolio selection | |
CN107402886B (zh) | 堆栈分析方法及相关装置 | |
CN111753208B (zh) | 确定用户可比属性收敛度的方法、装置、介质和电子设备 | |
Guven et al. | Comparison of different statistical downscaling models and future projection of areal mean precipitation of a river basin under climate change effect | |
CN107392220A (zh) | 数据流的聚类方法和装置 | |
Chinh et al. | An agent-based simulation to quantify and analyze bullwhip effects in supply chains |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |