CN105373579A - 一种基于回归分析的新闻竞争力分析方法及其可视化装置 - Google Patents

一种基于回归分析的新闻竞争力分析方法及其可视化装置 Download PDF

Info

Publication number
CN105373579A
CN105373579A CN201510508730.7A CN201510508730A CN105373579A CN 105373579 A CN105373579 A CN 105373579A CN 201510508730 A CN201510508730 A CN 201510508730A CN 105373579 A CN105373579 A CN 105373579A
Authority
CN
China
Prior art keywords
model
news
competitiveness
competitive
media event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510508730.7A
Other languages
English (en)
Other versions
CN105373579B (zh
Inventor
于瑞国
黄才宝
喻梅
王建荣
于健
赵满坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201510508730.7A priority Critical patent/CN105373579B/zh
Publication of CN105373579A publication Critical patent/CN105373579A/zh
Application granted granted Critical
Publication of CN105373579B publication Critical patent/CN105373579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于回归分析的新闻竞争力分析方法及其可视化装置,方法包括:通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;将竞争力模型进行多元回归分析,扩展成一个多元回归模型;通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。装置包括:获取模块、扩展模块、评测及量化模块以及评估模块。本发明实现了对新闻数据的分析,且通过实验验证了本发明具有较高的拟合程度。本发明适用于新闻媒体上新闻事件竞争力的可视化分析。

Description

一种基于回归分析的新闻竞争力分析方法及其可视化装置
技术领域
本发明涉及数据挖掘、信息检索和数据可视化领域,尤其涉及一种基于回归分析的新闻竞争力分析方法及其可视化装置。
背景技术
目前在数据可视化技术中,主要分为两大方面。一是社交媒体的可视化,马库斯等研究人员发明了TwitInfo来自动检测和显示微博活动高峰;Dork等研究人员介绍了基于web的系统提供一个可视化的技术来总结大型Twitter数据流,其运用了集群来减少数据的复杂性以便分析。Gansner提出一种文本流的可视化方法,它通过使用多尺度云在微博上建立主题云模型,来显示主题的变化趋势。
上述技术都是专注于将社交媒体上的一个事件的扩散过程给可视化出来,却难以可视化出多个在传播中的话题。
另一个相关技术是时态数据的可视化。目前,有许多不同的方式来处理分析时态数据,并将它们可视化出来。相关研究人员为了将时态多元数据很好的可视化出来,在原可视化技术上进行了扩展,例如:提出了平行坐标法等。在平行坐标法中,时间常被作为横轴,或者通过周期性的模式突显出来,将相同时间序列的数据聚合起来,便于可视化大量的时态数据。但其模式过于单一,需要与实际分析相结合进行扩展。
发明内容
本发明提供了一种基于回归分析的新闻竞争力分析方法及其可视化装置,本发明利用可视化技术将新闻事件间复杂的协同竞争关系给展示出来,便于分析人员对新闻的分析,详见下文描述:
一种基于回归分析的新闻竞争力分析方法,所述方法包括以下步骤:
通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;
将竞争力模型进行多元回归分析,扩展成一个多元回归模型;
通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;
多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。
其中,所述方法还包括;对新闻数据进行分词、统计词频的预处理。
其中,所述将竞争力模型进行多元回归分析,扩展成一个多元回归模型的步骤具体为:
将竞争力模型整合成一个线性回归方程,使得自变量与因变量成线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法求解参数。
其中,所述方法还包括;使用ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题,以可视化的方式展示出来,建立可视化模型。
一种基于回归分析的新闻竞争力分析的可视化装置,所述可视化装置包括:
获取模块,用于通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;
扩展模块,用于将竞争力模型进行多元回归分析,扩展成一个多元回归模型;
评测及量化模块,用于通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;
评估模块,用于多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。
其中,所述可视化装置还包括:
预处理模块,用于对新闻数据进行分词、统计词频的预处理。
其中,所述扩展模块包括:
扩展子模块,用于将竞争力模型整合成一个线性回归方程,使得自变量与因变量成线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法求解参数。
其中,所述可视化装置还包括:
建立模块,用于通过ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题,以可视化的方式展示出来,建立可视化模型。
本发明提供的技术方案的有益效果是:本发明实施例通过零和博弈、新闻事件发展趋势增长率提出新闻事件竞争力模型;根据ThemeRiver的特点,结合多种可视化方法建立可视化模型,将所研究的新闻竞争力的变化和新闻自身的发展趋势直观的展现出来,并且可以将新闻自身的发展趋势进行适当的展示。本发明实现了对新闻数据的分析,且通过实验验证了本发明具有较高的拟合程度。本发明适用于新闻媒体上新闻事件竞争力的可视化分析。
附图说明
图1为一种基于回归分析的新闻竞争力分析方法的流程
图2为可视化模型的示意
图3为新闻事件的趋势曲线示意
图4为新闻事件主题词汇云示意
图5为一种基于回归分析的新闻竞争力分析的可视化装置的结构示意
图6为一种基于回归分析的新闻竞争力分析的可视化装置的另一结构示意
图7为扩展模块的示意
图8为一种基于回归分析的新闻竞争力分析的可视化装置的另一结构示意
附图中,各标号所代表的部件列表如下:
1:获取模块;2:扩展模块;
3:评测及量化模块;4:评估模块;
5:预处理模块;6:建立模块;
21:扩展子模块。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
实施例1
一种基于回归分析的新闻竞争力分析方法,参见图1,该方法通过可视化模型将竞争关系展示出来,该新闻竞争力分析方法包括以下步骤:
101:对新闻数据进行分词、统计词频的预处理;
本发明实施例利用现有的分词工具对新闻媒体所发布的新闻数据进行中文分词处理,并统计该新闻数据的发布量以及发布时间,通过分词结果统计词频。本发明实施例对该步骤的具体操作不做赘述。
102:通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;
对于新闻事件来说,媒体对于新闻事件的传播是和该事件本身的发展趋势密切相关的,因而媒体对新闻事件报道的总趋势是按照一定的上凸曲线规律发展的。
在新闻事件传播中,新闻事件不得不为了吸引媒体的报道和公众的关注去相互竞争。作为新闻事件的兴起,它必定会牺牲别的新闻事件的受关注程度。新闻之间的竞争必然会受到一些客观条件的限制,其中:包括公共处理信息的能力,有限的传播空间或者媒体报道新闻事件的事件,甚至整个社会系统都是影响因素。这导致新闻之间存在一种博弈关系,类似零和博弈。从而,通过零和博弈与新闻发展规律的共性来提出一种差分方程,该差分方程记为建立基于新闻事件发展趋势增长率的竞争力模型,具体步骤如下:
将一个时间段内所有新闻事件的报道量总和记为新闻媒体报道量增量。由于新闻事件的发展趋势会影响到新闻事件的被报道量,因而新闻事件被报道量的增长率不仅只与当前时刻的报道量总和有关,还与之前时刻的报道量总和有关。本发明实施例提出了新闻事件发展趋势增长率,最后结合零和博弈与话题竞争力的共性(例如:PanpanXu在文献《VisualAnalysisofTopicCompetitiononSocialMedia[J].IEEETRANSACTIONSONVISUALIZATIONANDCOMPUTERGRAPHICS,2013,19(12):2012–2021.》中提出的话题竞争力模型),提出基于新闻媒体的竞争力模型。
103:将竞争力模型进行多元回归分析,扩展成一个多元回归模型;
其中,对竞争力模型进行剖析,发现新闻时间的媒体报道量的变化发展趋势是取决于几个影响因素的,这就是一个因变量和多个自变量有依存关系,而且这多个影响因素之间主次难以区分,因而使用多元回归分析预测法,具体步骤如下:
将上述步骤提出的竞争力模型整合成一个线性回归方程,使得自变量与因变量成高度线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法可求解该参数。
104:通过半偏相关系数评测新闻事件间的竞争力,通过半偏相关系数对竞争力进行量化;
在多元回归模型中,可以很好的预测新闻事件下一时刻的新闻媒体报道量,但没有直接去计算新闻事件的竞争力,后续的可视化分析需要对新闻事件竞争力提供一个直观的计算方式。本发明实施例通过多元回归模型中特有的相关分析方法来评测新闻事件间的竞争力,即使用半偏相关系数来反映自变量与因变量之间的真实相关程度,该真实相关程度作为新闻事件相互之间的竞争关系。
105:多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估;
其中,多元回归模型通过计算竞争力模型的拟合程度来对竞争力模型进行评估,回归方程对样本数据点拟合程度越强,说明自变量与因变量的关系越密切。即利用此方法可以对竞争模型进行相似的评估。
106:使用ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题以可视化的方式给展示出来,建立可视化模型。
ThemeRiver是第一个自动创造平滑曲线来处理许多时间序列的可视化系统。ThemeRiver模型属于专题可视化结构样式,其主要特点是:将多列时态数据集合在一起,按时间构造一个类似包含不同成分涌流的可视化显示方式。利用这个模型把大量信息可视化之后,用户不用逐个阅读详细数据,就能够宏观了解事件在某个时间段或整个时间区间内的发展趋势,以及多个事件在某个时间段或整个时间区间内的对比情况,ThemeRiver模型主要用于发现某主题时间的发展趋势,帮助确定与实践相关的各个时间的主要内容与内在联系。ThemeRiver模型在处理时变多元数据上具有很大优势,既有宏观追踪又有微观分析,其应用领域广泛。
由于新闻事件是具有时序性的,因而使用基于时间轴的可视化方法对其进行可视化分析。此可视化所设计的主题是基于时间轴的设计来显示在新闻媒体上新闻事件之间的相互影响以及各新闻自身的发展趋势与主题内容。
采用ThemeRiver模型来描述新闻事件间竞争力随时间的推移而发生的变化趋势,对于每一个新闻事件,都利用一条河流去进行描述与展示。通过对新闻数据的预处理结果,利用词汇云的形式将新闻数据的主题内容可视化地展示出来;并通过曲线展示某一新闻时间的整体发展趋势,并显示目前所处的发展阶段。
综上所述,本发明实施例通过上述步骤101-步骤106实现了对新闻数据的分析,且具有较高的拟合程度。
实施例2
下面结合具体的计算公式、例子和附图对实施例1中的方案进行详细描述,可视化模型的总体展示效果如图1所示,本发明实施例主要分为两大步骤,一是竞争力模型的理论推导与评估,另一是通过建立可视化模型去进行可视化分析,详见下文描述:
201:对新闻数据进行分词、统计词频的预处理;
本发明实施例是通过现有的分词工具对新闻媒体上的原始数据进行分词和统计词频等预处理,为后续的模型评估与可视化分析提供了数据依据。具体操作步骤参见实施例1,本发明实施例对此不做赘述。
202:分析新闻在传播中、新闻之间的协同关系,获取新闻事件的发展趋势增长率,基于新闻事件的发展趋势增长率和零和博弈,建立竞争力模型;
对于新闻事件来说,新闻事件的发展会受到外界条件的限制,并且媒体对于新闻事件的传播是和该事件本身的发展趋势是密切相关的,因而媒体对新闻事件的报道的总趋势是按照一定的上凸曲线的规律发展的。因而影响下一时刻的媒体报道量的因素应该包括先前时刻的发布量的增长率。本发明实施例提出新闻事件的发展趋势增长率,见公式(1)。
T i t = d i t s t - s t - 1 - - - ( 1 )
其中,为新闻事件i在t时刻的发展趋势增长率;为一个时间间隔内新闻事件i的媒体报道量的增量;st为在t时刻里所有新闻事件的媒体报道量的总和;st-1为在t-1时刻里所有新闻事件的媒体报道量的总和;t为一个时刻;i为第i个新闻事件的标号。
根据上述的理论基础,可以看出新闻事件的发展趋势增长率的发展规律类似零和博弈的性质。通过零和博弈与新闻事件发展规律的共性来提出一种差分方程,该差分方程记为用于建立基于新闻事件发展趋势增长率的竞争力模型,见公式(2)。
Δp i t = T i t - 1 Σ j = 1 , j ≠ i k β i j p j t - 1 - p i t - 1 Σ j = 1 , j ≠ i k β j i T j t - 1 , f o r ∀ i ∈ { 1 , ... , k } - - - ( 2 )
其中,为新闻事件i在t时刻的媒体报道增量;为新闻事件i在t-1时刻的发展趋势增长率;βij为新闻事件i对新闻事件j的影响因子;为新闻事件j在t-1时刻的媒体报道量;为新闻事件i在t-1时刻的媒体报道量;βji为新闻事件j对新闻事件i的影响因子;为新闻事件j在t-1时刻的发展趋势增长率;k为新闻事件的总数;j为第j个新闻事件的标号;βij和βji构成了影响因子矩阵。
通过该竞争力模型可以预测下一时刻新闻事件i的媒体报道量。在这个竞争力模型中,影响新闻事件i的媒体报道量的竞争机制分为两种:一种是积极的竞争机制,即其他新闻事件带来的积极影响以及自身发展趋势增长率的结合。另一种是消极的竞争机制,即其他新闻事件的自身发展趋势增长率以及自身当前时刻的媒体报道量的结合。
这里假设共有k个新闻事件,则就存在k个平行的差分方程。在这个模型中,β为影响因子,估计出好的影响因子矩阵是关键,影响因子的好坏会影响到竞争力模型的好坏。
203:对竞争力模型进行多元回归分析预测,扩展成一个多元回归模型,通过最小二乘法求解回归方程中的参数;
为了提高该竞争力模型的鲁棒性,使得竞争力模型对影响因子矩阵的依赖降低,将竞争力模型进行多元回归分析预测,扩展成一个多元回归模型,即将公式(2)扩展成线性方程,将公式(2)展开,对于等号右侧的乘积项做以下转变,具体见公式(3)、公式(4)。
x j t = T j t p j t - - - ( 3 )
h j t = p i t T j t - - - ( 4 )
其中,的乘积;的乘积;为新闻事件j在t时刻的媒体报道量;为新闻事件j在t时刻的发展趋势增长率。
扩展后的竞争力模型见公式(5)。
Δp i t = b 0 + Σ j = 1 k b j x j t - 1 + Σ j = 1 k b j + k h j t - 1 - - - ( 5 )
其中,b0、bj、bj+k为多元回归方程的参数;为多元回归方程中代表积极竞争机制的自变量;为多元回归方程中代表消极竞争机制的自变量。
公式(2)中的影响因子矩阵的参数βij估计转变成对于多元回归模型的参数bj估计。多元回归方程的参数bj估计,同一元回归方程的一样,也是要求在误差平方和最小的前提下,用最小二乘法求解参数bj
公式(5)是一个完整的多元回归模型,两种竞争机制的影响因素作为自变量来解释因变量的变化,在实际研究过程中就有k个平行的这样回归模型需要进行回归分析。
从多元回归模型的概念上来看,对于新闻事件所受到的积极竞争机制的影响是自变量x带来的,而消极竞争机制的影响是自变量h带来的。刻画新闻事件所受到的竞争力就需要将自变量对于因变量的影响给映射出来。这里利用多元回归模型中的半偏相关系数来评测新闻事件间的竞争力。通过后续的实验评估,发现该模型的拟合程度较高,适用于新闻数据的分析。
204:通过上述多元回归模型可以预测下一时刻新闻事件的媒体报道量。
本发明实施例需要量化新闻间的竞争力,通过使用回归方程的半偏相关系数可量化这两种竞争机制,最后通过计算该多元回归模型的半偏相关系数就可评测新闻事件的竞争力。
205:通过评估和分析来验证竞争力模型的有效性;
206:使用ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题以可视化的方式给展示出来,建立可视化模型。
制定可视化模型的设计目标,此可视化模型,用于将新闻事件间的相互竞争力直观的展现出来,并且结合事件的推移能够刻画出新闻事件间竞争力的变化趋势。竞争力的可视化展示需要将其进行定量的分析。
在此可视化模型中,对于某一新闻事件,不仅要展示其他新闻事件对该新闻事件的总影响,也需要展示各个新闻事件间竞争力的转移情况,从总体到部分都需要提供一个直观的展现方式。对于某一新闻事件,不仅是其他新闻事件对该新闻事件的影响需要进行可视化分析,该新闻事件在时间点所处的发展阶段,以及自身的新闻主题也需要进行相应的可视化分析。
为此设计一个基于时间轴的可视化模型,用于提供一个直观的手段来整合在竞争力模型中的多种类型的时态数据。采用ThemeRiver模型来描述新闻事件间竞争力随时间推移的变化趋势,对于每一个新闻事件,都利用一条河流去进行描述与展示。可视化模型的具体效果图1
可视化模型的设计不但要展现新闻事件竞争力的发展趋势,同时也要展示新闻事件自身的发展趋势以及主题内容。本发明实施例通过词汇云和趋势来展示新闻事件自身的主题内容和发展趋势。对于每一个新闻事件,都有自身的总发展趋势。
通过新闻事件在新闻媒体的报道量来作为衡量新闻发展的一种标准,通过趋势来展示新闻事件的整体发展趋势并结合ThemeRiver模型显示在一个时间间隔里,新闻事件所处总发展趋势的阶段。趋势效果如图2所示。
图2是乌克兰事件的整体趋势效果,横轴代表时间轴,纵轴代表新闻事件在新闻媒体中的报道量,曲线的变化描述了新闻事件的整体发展趋势,其中圆点表示该时间间隔里新闻事件所处的阶段。根据整体趋势效果,研究人员能观测到该新闻事件在其整个生命周期中的发展趋势,并结合阶段性特征可进一步分析影响其发展趋势的其他因素。
通过词汇云来展示新闻事件的主题内容。通过数据预处理中的分词步骤,将新闻事件中的关键字、关键词提取出来,并通过统计词频来计算关键词语的出现频率,词频率越高的词语越能说明该新闻事件的主题内容。本发明实施例在可视化模型中,对于每一个新闻事件都创建一个词汇云来描述新闻事件的主题内容,词汇云效果如图3所示。
图3是昆明事件的词汇云效果,它词汇的分布以及大小来展示该事件的主题内容,处于圆心且字体最大的词汇是该事件的主题词汇。通过词汇云的展示,利于分析人员对新闻事件的主题进行剖析。
词汇云的设计基于一个圆形内,利用关键词的分布来形象的展示新闻事件的主题内容,显示词语的大小是根据词频来决定的,词频越高的词语显示大小越大,所处的位置越靠近圆心。通过这形象的词汇云展示,可以直观形象的表述出新闻事件的主题内容,从而起到可视化分析的效果。
综上所述,本发明实施例通过上述步骤201-步骤206中记载的技术方案实现了对新闻数据的分析,且具有较高的拟合程度;为今后社交媒体数据可视化分析以及新闻事件预警的可视化打下了基础。
实施例3
下面结合具体的实验对实施例1、实施例2中的方案进行可行性验证,详见下文描述:
本发明实施例主要是针对新闻事件竞争力模型的评估和分析,通过评估和分析来评测新闻事件竞争力模型的有效性,才能决定该模型是否适用。
本发明的评测结果如表1表2所示。
表1实验评估结果
表2实验评估结果
评测结果如表1表2所示。在上述表格中,y表示新闻事件实际的报道增量,表示运用竞争力模型所估计的新闻报道增量,R2表示估计值与实际值的完全平方偏差,R2的值越小,证明该模型的拟合程度越高。根据评测结果所示,该竞争力模型的拟合程度偏高,具有一定的有效性,适用于新闻事件间竞争力的分析,从而便于研究人员对新闻的深入分析以及新闻预警的效果。
实施例4
一种基于回归分析的新闻竞争力分析的可视化装置,参见图5,该可视化装置包括:
获取模块1,用于通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;
扩展模块2,用于将竞争力模型进行多元回归分析,扩展成一个多元回归模型;
评测及量化模块3,用于通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;
评估模块4,用于多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。
其中,参见图6,该可视化装置还包括:
预处理模块5,用于对新闻数据进行分词、统计词频的预处理。
其中,参见图7,扩展模块2包括:
扩展子模块21,用于将竞争力模型整合成一个线性回归方程,使得自变量与因变量成线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法求解参数。
其中,参见图8,该可视化装置还包括:
建立模块6,用于通过ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题,以可视化的方式展示出来,建立可视化模型。
综上所述,本发明实施例通过上述模块、子模块记载的技术方案实现了对新闻数据的分析,且具有较高的拟合程度;为今后社交媒体数据可视化分析以及新闻事件预警的可视化打下了基础。
本发明实施例对各器件的型号除做特殊说明的以外,其他器件的型号不做限制,只要能完成上述功能的器件均可。
本领域技术人员可以理解附图只是一个优选实施例的示意,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于回归分析的新闻竞争力分析方法,其特征在于,所述方法包括以下步骤:
通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;
将竞争力模型进行多元回归分析,扩展成一个多元回归模型;
通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;
多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。
2.根据权利要求1所述的一种基于回归分析的新闻竞争力分析方法,其特征在于,所述方法还包括;
对新闻数据进行分词、统计词频的预处理。
3.根据权利要求1所述的一种基于回归分析的新闻竞争力分析方法,其特征在于,所述将竞争力模型进行多元回归分析,扩展成一个多元回归模型的步骤具体为:
将竞争力模型整合成一个线性回归方程,使得自变量与因变量成线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法求解参数。
4.根据权利要求1所述的一种基于回归分析的新闻竞争力分析方法,其特征在于,所述方法还包括;
使用ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题,以可视化的方式展示出来,建立可视化模型。
5.一种基于回归分析的新闻竞争力分析的可视化装置,其特征在于,所述可视化装置包括:
获取模块,用于通过零和博弈与新闻事件发展趋势增长率,获取基于新闻事件发展趋势增长率的竞争力模型;
扩展模块,用于将竞争力模型进行多元回归分析,扩展成一个多元回归模型;
评测及量化模块,用于通过半偏相关系数评测新闻事件间的竞争力,并对竞争力进行量化;
评估模块,用于多元回归模型通过计算竞争力模型的拟合程度,对竞争力模型进行评估。
6.根据权利要求5所述的一种基于回归分析的新闻竞争力分析的可视化装置,其特征在于,所述可视化装置还包括:
预处理模块,用于对新闻数据进行分词、统计词频的预处理。
7.根据权利要求5所述的一种基于回归分析的新闻竞争力分析的可视化装置,其特征在于,所述扩展模块包括:
扩展子模块,用于将竞争力模型整合成一个线性回归方程,使得自变量与因变量成线性关系,然后将影响因子矩阵的估计转变成对于多元回归模型的参数估计,通过最小二乘法求解参数。
8.根据权利要求5所述的一种基于回归分析的新闻竞争力分析的可视化装置,其特征在于,所述可视化装置还包括:
建立模块,用于通过ThemeRiver模型将量化后的竞争力、以及新闻自身的发展趋势与主题,以可视化的方式展示出来,建立可视化模型。
CN201510508730.7A 2015-08-18 2015-08-18 一种基于回归分析的新闻竞争力分析方法及其可视化装置 Active CN105373579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510508730.7A CN105373579B (zh) 2015-08-18 2015-08-18 一种基于回归分析的新闻竞争力分析方法及其可视化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510508730.7A CN105373579B (zh) 2015-08-18 2015-08-18 一种基于回归分析的新闻竞争力分析方法及其可视化装置

Publications (2)

Publication Number Publication Date
CN105373579A true CN105373579A (zh) 2016-03-02
CN105373579B CN105373579B (zh) 2018-08-03

Family

ID=55375779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510508730.7A Active CN105373579B (zh) 2015-08-18 2015-08-18 一种基于回归分析的新闻竞争力分析方法及其可视化装置

Country Status (1)

Country Link
CN (1) CN105373579B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354496A (zh) * 2016-08-25 2017-01-25 成都索贝数码科技股份有限公司 一种应用于融合媒体行业数据新闻的快速编辑系统和编辑方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198078A (zh) * 2012-01-09 2013-07-10 北大方正集团有限公司 一种互联网新闻事件报道趋势分析方法及系统
US20130275527A1 (en) * 2012-04-13 2013-10-17 RTReporter BV Social feed trend visualization
CN103631856A (zh) * 2013-10-17 2014-03-12 四川大学 一种中文文档集的主题可视化方法
CN104750837A (zh) * 2015-04-03 2015-07-01 北京工商大学 增长型时间序列数据的可视化方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103198078A (zh) * 2012-01-09 2013-07-10 北大方正集团有限公司 一种互联网新闻事件报道趋势分析方法及系统
US20130275527A1 (en) * 2012-04-13 2013-10-17 RTReporter BV Social feed trend visualization
CN103631856A (zh) * 2013-10-17 2014-03-12 四川大学 一种中文文档集的主题可视化方法
CN104750837A (zh) * 2015-04-03 2015-07-01 北京工商大学 增长型时间序列数据的可视化方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUODAO SUN等: "EvoRiver: Visual Analysis of Topic Coopetition on Social Media", 《IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 *
PANPAN XU等: "Visual Analysis of Topic Competition on Social Media", 《IEEE TRANSACTIONS ON VISUALIZATION AND COMPUTER GRAPHICS》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106354496A (zh) * 2016-08-25 2017-01-25 成都索贝数码科技股份有限公司 一种应用于融合媒体行业数据新闻的快速编辑系统和编辑方法

Also Published As

Publication number Publication date
CN105373579B (zh) 2018-08-03

Similar Documents

Publication Publication Date Title
Kleijnen et al. Application-driven sequential designs for simulation experiments: Kriging metamodelling
Singhvi et al. Predicting bike usage for new york city’s bike sharing system
Chun et al. Eigenvector selection with stepwise regression techniques to construct eigenvector spatial filters
Van Beers et al. Kriging for interpolation in random simulation
Manley et al. Scales, levels and processes: Studying spatial patterns of British census variables
Renner et al. Verification of ensemble flow forecasts for the River Rhine
Jin et al. Adaptive reference updating for vibration-based structural health monitoring under varying environmental conditions
CN104764868A (zh) 一种基于地理加权回归的土壤有机碳预测方法
Li et al. Knowledge transfer and adaptation for land-use simulation with a logistic cellular automaton
Bouma et al. Soil and water quality at different scales: concepts, challenges, conclusions and recommendations
CN103218495A (zh) 一种基于竞争失效的通信系统可靠性统计试验方案的设计方法
Freckleton et al. Density-structured models for plant population dynamics
Peavoy et al. Systematic physics constrained parameter estimation of stochastic differential equations
CN105373579A (zh) 一种基于回归分析的新闻竞争力分析方法及其可视化装置
CN107169294A (zh) 一种环境试验自动测试系统中Excel报表二次判断处理方法
Hudert et al. On computer simulation as a component in information systems research
Wu et al. Application of kernel density estimation to extrapolating the fatigue loads on a high-speed train
CN109064036B (zh) 面向管理领域的生态系统服务供需指数变化检测方法
CN105373884A (zh) 一种电子设备效能的环境影响评估方法
Li et al. Exploring the performance of spatio-temporal assimilation in an urban cellular automata model
Song et al. Structural damage detection by integrating independent component analysis and support vector machine
CN103837772B (zh) 一种基于加速寿命试验的低功耗采集系统寿命评估方法
Rao et al. Investigating impact of the heterogeneity of trajectory data distribution on origin‐destination estimation: a spatial statistics approach
Maeno Identifying critical sectors in the restructuring of low-carbon global supply chains
EP3913514A1 (en) Data processing device, data processing method, data processing program, terminal device, and data processing system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant