CN103425755B

CN103425755B - 一种基于微博分析电视节目收视情况的方法

Info

Publication number: CN103425755B
Application number: CN201310328471.0A
Authority: CN
Inventors: 王永恒; 杜凯; 王乐; 袁志坚; 付伟; 陈颖文
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-07-31
Filing date: 2013-07-31
Publication date: 2016-09-28
Anticipated expiration: 2033-07-31
Also published as: CN103425755A

Abstract

一种基于微博分析电视节目收视情况的方法，包括以下步骤：（1）构建词库；（2）建立微博‑电视节目映射；（3）数据分析；（4）可视化结果展现：通过报表形式和图形形式将步骤（3）分析的结果展现出来。本发明具有以下优点：（1）分析范围广；（2）分析内容全面；（3）分析过程灵活；（4）分析效率高。

Description

一种基于微博分析电视节目收视情况的方法

技术领域

本发明涉及计算机应用技术领域，尤其是涉及一种基于微博分析电视节目收视情况的方法。

背景技术

电视作为一种经典传媒，对社会及人们的生活有重大的影响。当前，我国电视产业蓬勃发展，电视台尤其是卫视之间竞争激烈。各卫视纷纷推出自己的王牌节目来吸引观众，如湖南卫视的“我是歌手”、江苏卫视的“非诚勿扰”、浙江卫视的“中国好声音”等。对电视节目的收视情况、观众意见进行全面的分析，对于电视台的发展战略、节目制作、观众互动等，有着重要的价值。

随着互联网、智能手机、移动设备的普及，电视行业进入了一个新的时代—社交电视时代。除了使用传统的电视机，越来越多的观众使用电脑、手机、平板电脑等新型手段来收看电视节目。例如湖南卫视的“快乐大本营”，每期网上点播的次数平均达到5千万次。同时，电视观众喜欢在观看电视节目时或观看节目后，通过微博、社交网络等手段来分享自己的感受。根据英国ThinkBox公司的最新调查，有60%的观众在看电视的同时上网，44%的人看电视时使用社交网络，19%的人在社交网络中分享电视内容。在伦敦奥运会期间，腾讯奥运视频日均播放量超2亿，新浪微博上奥运话题讨论量突破3.9亿次。社交电视的新特征使电视节目的收视评价面临新的挑战，同时也提供了新的机遇让电视台去更深入地了解他们的观众。

尼尔森收视率调查是评价电视节目收视率的经典方法，通过特定的设备连接到电视，或者问卷调查的方式来统计收视率。这种方法的缺陷是调查样本小，结果容易受调查人群特征的影响。同时，在社交电视的新时代，尼尔森方法无法覆盖新型的收视手段，从而难以获得合理的结果。例如“绝命毒师”（Breaking Bad）和“广告狂人”（Mad Men）等剧，尼尔森调查的收视率很低，但从微博等其它媒体看，这些电视剧的收视情况很好。同时，尼尔森收视调查只能调查收视率，而无法对观众的特征、评价、感受等做进一步了解。

目前，对电视节目全面分析的相关工作主要基于Twitter，获取电视节目相关的微博主要依赖于关键词搜索。在进行微博分析时主要采用的是传统的英文分类、聚类等方法；基于关键词搜索的方法容易遗漏大量的相关微博，而抓取到的微博又常常有很多是和节目无关的，缺乏针对电视节目进行微博分析的系统化方法。同时，英文微博分析使用的WordNet，SentiWordNet等词典，无法在中文微博分析中使用。

专利201280000300.9公开了一种调查收视率的方法，接收正在播放的电视节目录音指令；对所述电视节目录音；向所述服务器发送录音的电视节目音频流，使服务器根据所述录音的电视节目音频流统计出所述电视节目的收视率。此方法虽能提高收视率的准确性，但此方法存在两点缺陷：（1）对于电脑、手机等收视手段，无法获取录音；（2）只能获取收视率，无法获取不同节目的用户特征、用户对节目的评价等信息。

发明内容

本发明所要解决的技术问题是，克服现有技术存在的上述缺陷，提供一种基于微博分析电视节目收视情况的方法。

本发明解决其技术问题所采用的技术方案是，一种基于微博分析电视节目收视情况的方法，包括以下步骤：

（1）构建词库：从搜狗细胞词库下载词库，将下载的词库组合在一起构成电视领域基本词库，并定期更新；

（2）建立微博-电视节目映射：首先建立节目样本库，根据样本特征词提取每日微博，对获取的微博进行过滤，采用数据分析开源工具中的文本处理包进行文本分类，由于文本处理包不支持中文，先把中文分词加入空格，“模拟”英文来实现分类；

（3）数据分析：对步骤（2）建立的微博-电视节目映射分别进行每日分析和多维分析，所述每日分析包括情感分析、词语特征分析和主题分析、每日基本统计以及网络特征分析。

（4）可视化结果展现：通过报表形式和图形形式将步骤（2）分析的结果展现出来；

步骤（2）中，所述建立节目样本库的方法，首先根据节目关键词，使用微博的搜索接口进行搜索，获取初始节目样本库；然后采用人工的方式，对初始节目样本库进行过滤，将过滤出的微博标注为“相关”和“不相关”两类，并将“相关”和“不相关”两类微博建立节目样本库微博，每个节目的样本库中要求“相关”的微博不少于2万条，“不相关”的微博不少于5000条；

所述提取每日微博的方法，首先使用开源工具数据分析开源工具中的中文分词工具包对电视节目样本库中的每条微博进行中文分词处理；然后使用数据分析开源工具中的挖掘频繁项集工具包从分词后的微博获取频繁词集，忽略长度为1的项集，并去掉支持度小于α的词集，α是一个能调的参数，能控制最终频繁词集的大小，通过调整α使最终频繁词集不超过200个项；然后使用节目关键词及获取的频繁词集，利用微博的搜索接口获取每日微博内容，同时获取微博的作者的地域、性别、年龄和发布时间；

所述微博过滤的方法，首先对样本和待分类的微博分别进行分词处理，然后合并到同一个文本文件；然后使用文本分析工具创建文本词频特征矩阵函数；然后使用文本处理包训练模型，训练模型采用已有的样本数据来运行算法，由于结果是已知的，可以调整模型的参数来确定最佳的模型参数。

步骤（3）中，所述情感分析的方法是采取情感词汇分析和机器学习相结合的方法，首先建立情感倾向性词库，以开源项目用于分析文本间相似度的开源工具中的中文倾向性词库为基本词库，以人工方式建立不少于2万条的情感微博样本库，所述情感微博样本库包含“喜欢”和“不喜欢”两类标签，“喜欢”和“不喜欢”的微博各占一半，采用数据分析开源工具中的中文分词工具包对情感微博样本库进行频繁词集挖掘，根据频繁词集，采用人工核对的方式来挑选基本情感词库，同时把微博中的表情符号加入到情感词库中，最终形成完整的情感倾向性词库；然后基于情感词分析建立情感分类的样本库，抽取至少5万条的微博，基于情感词对微博进行情感打分；然后进行基于机器学习的情感分类器训练，对建立好的情感分类样本库进行分词并使用中文分词工具包建立词频矩阵，然后进行贝叶斯分类器、支持向量机分类器和最大熵分类器的训练，对从待分析的数据中随机抽取的2万条数据的准确度和召回率进行测试，选择相适应的分类器；最后基于机器学习进行并行情感分类，按照节目把微博数据划分到多个计算结点，使用选择好的分类器并行进行微博情感分类，最后把分类的结果汇总并写入数据仓库；

所述词语特征分析和主题分析的方法是基于并行频繁词集挖掘算法的基本原理，根据频繁项集把微博划分为互不相交的子集，用三个频繁词a、b、c将微博划分为三个子集：包含a的、包含b但不包含a的、包含c但不包含a和b的；首先进行数据划分，获取频繁一项集，根据一项集把微博划分为多个不相交子集，把不相交子集均匀地划分到所有的计算结点上；然后构建项集链表，在项集链表中，第一项相同的微博作为一个链表连接起来，链表的头保存在一个头表里；然后并行挖掘频繁词集，每个计算结点处理自己的项集链表，逐一挖掘头表中每项所对应的子集，要挖掘第一个子集（包含a的子集，称为a子集），可以从链表中单独提取出a的队列。对a的队列中的微博仍然采用划分的方法递归挖掘，把结果加上前缀a就得到a子集。微博的频繁词集可以直接进行展示，用户可以看到每个节目对应的热门词汇。同时频繁词集也是下一步进行话题聚类的基础；

所述微博主题分析是在同一个节目的微博中，根据讨论内容划分为不同的主题，采用基于频繁词集的聚类方法进行主题分析；首先进行文本特征提取，采取词语特征分析和主题分析获取的频繁词集作为文本特征，每个微博表示为一个向量{t₁:s₁,t₂:s₂,..,t_n:s_n}，其中t_i为频繁词，s_i为对应的支持度；其次进行初始类划分，对频繁词集进行筛选，去掉无意义的频繁词集，把包含每个频繁词集的微博划分到一类中，并用相应的频繁词集作为该类的表示；然后进行基于图书馆准则的类调整；

所述每日基本统计是对每天的微博统计数据进行汇总，讨论某个节目的总人数、每个地区讨论某个节目的人数、男性讨论某个节目的人数，原始数据存储在数据库中，通过聚集查询实现统计，原始数据存在文件中，通过与数据统计类型相适配的并行计算方法实现统计，最终把统计结果保存到本地数据仓库内；

所述网络特征分析的方法，首先进行粉丝覆盖分析，用于了解明星的粉丝和节目收视情况之间的关系；然后进行观众过渡分析，当电视节目更换时，通过观众过渡分析可以了解节目更换后收视人群的变化；

所述多维分析的方法是通过分析型的SQL语句实现的，从不同角度了解电视节目的收视情况，能根据用户的定制，每周、每月、半年、一年自动进行，也能由用户随时选择不同的维度进行实时分析。

所述情感打分的方法是基于情感词典找出微博中的情感词，对于某个对象p，p为节目名称或从频繁词集中识别出的实体，遇到一个正的情感词分数+1，遇到一个负的情感词分数-1；总体打分函数为：score(p)＝Σ_{Wi：Wi∈L∩Wi∈m}W_i·SD/dis(W_i,p)；

其中，L为情感词典，W_i为微博m中的情感词，dis(W_i,p)为微博中W_i和p之间的距离，按中间隔多少个词来计算，W_i·SD代表情感词W_i的情感强烈程度；

然后根据打分情况把微博分为三类：正面，分数>θ₁；中立和负面，分数小于θ₂；

θ₁和θ₂的值，以及情感词库需要根据人工验证的结果进行调整；同时，基于对句法的分析，根据否定词规则、或双重否定规则、或转折和增减来调整分类，在比较规则中，如果微博中说A比B好，则对A来说是正面情感，而对B是负面；在否定规则中，如果“不”等否定词出现在情感词之前，则表达的是相反的情感；在转折规则中，如果情感词后面出现了转折词如“但是”，则表达的是相反的情感；在增减规则中，负面情感的减少可以认为是一种正面情感。

步骤（4）中，所述报表形式是通过使用数据仓库的报表工具，根据步骤（2）多维分析的结果，采取交叉表的形式展现数据；

所述图形方式包括条形图、或折线图、或饼图、或词云图、或词网图、或用户网络图；

所述条形图用于显示数据之间的对比关系；

所述折线图用于显示数据的变化；

所述饼图用于显示数据的比例关系；

所述词云图用于显示电视节目在时间段内的热门词汇，且以不同颜色和大小表示不同频度的词汇；通过获取频繁一项集，构建包含频繁词及其支持度的向量，然后使用数据分析开源工具的生成词云工具包生成词云；

所述词云显示是频繁一项集，对于二项集以上的频繁词集，采用词网的形式显示，词网把同一频繁词集中的词连接起来构成网络？，根据支持度确定边的颜色和粗细，词网采用数据分析开源工具中的网络可视化工具包实现，使用词网不但能发现节目热门词汇之间的联系，还能发现词组，用户发现两个联系密切的词应该是一个新的词组时，能把新词组加入到系统词典中；

所述网络图是用于展现粉丝覆盖分析结果和观众过渡分析结果，以不同颜色代表不同的团体，能清晰表达不同团体间的覆盖程度，由于网络规模很大，展示时采用图聚类来简化网络。

所述粉丝覆盖分析的方法，首先根据节目获取微博的博主信息，并获取作者关注的其他博主，构建博主的关系网络；然后按照节目中的明星的微博抓取粉丝的信息及粉丝之间的联系，构建明星的粉丝网络；最后采取网络匹配的方法，计算节目博主关系网络和明星粉丝关系网络的重合度。

所述观众过渡分析的方法，首先按照旧节目抓取对应的微博博主信息，构建对应的观众网络；然后按照新节目抓取对应的微博博主信息，构建对应的观众网络；最后采取网络匹配的方法，计算新旧节目博主关系网络之间的重合度。

所述基于图书馆准则类调整的方法，对于紧凑性，首先评估微博w_i属于类C_h的概率，

\hat{p} (C_{h} | W_{i}) = Sim (W_{i}, C_{h}) / \underset{j}{Σ} Sim (W_{i}, C_{j});

其中，Sim函数表示相似度，sim表示相似度，h表示已知类的编号，j表示与h不同的其它类的标号，Cj表示除Ch以外的其它类，采用余弦距离来计算；

在初始划分时，w_i划分到了k个类中，计算归一化熵：

H_{norm} (W_{i}) = \frac{- Σ_{h = 1}^{k} \hat{p} (C_{h} | W_{i}) \log 2 \hat{p} (C_{h} | W_{i})}{\log 2 k};

式中，C_h表示已知的第h个类，K表示类的数量，h表示已知类的编号，w_i表示包含在类C_h中的第i个微博；

根据紧凑性准则，这个值越接近0越好；

对于均匀性准则，根据贝叶斯公式有：p(w_i|C_h)＝p(C_h|w_i)p(w_i)/p(C_h)，

式中，w_i表示包含在类C_h中的第i个微博，C_h表示已知的第h个类，N表示微博的数量，i表示循环的序号；

微博在所有N类中的分布是均匀的，即p(w_i)=1/N，则

Σ_{i = 1}^{N} p (W_{i} | C_{h}) = Σ_{i = 1}^{N} \frac{p (C_{h} | W_{i}) p (W_{i})}{p (C_{h})} = \frac{1}{N \cdot p (C_{h})} Σ_{i = 1}^{N} p (C_{h} | W_{i}) = 1;

式中，w_i表示包含在类C_h中的第i个微博；C_h表示已知的第h个类；i表示循环的序号，N表示微博的数量；

因此得到在此基础上定义C_h的归一化熵：

H_{onrm} (C_{h}) = \frac{- \underset{h}{Σ} \hat{p} (C_{h}) \log 2 \hat{p} (C_{h})}{\log 2 k};

式中，C_h表示已知的第h个类，h表示循环的序号，K表示类的数量；

在进行类调整时，计算所有类归一化熵的平均值，根据均匀性准则这个值越大越好；

对于最终得到的类，统计微博的数量，根据数量进行排序，然后从中选择出数量由大到小排列的前K个热门话题，能显示出当天针对某个节目讨论的热门话题有哪些。

与现有技术相比，本发明具有以下优点：

1.分析范围广，能从海量的微博中分析节目收视情况，例如“我是歌手”在高峰期时一天的微博数量，腾讯微博接近60万，新浪微博接近200万，大样本的调查可以有效地降低人群特征造成的偏差，同时不仅能覆盖传统电视观众，同时能覆盖使用电脑、手机收看节目的新型社交电视观众群体。

2.分析内容全面，不仅能获取收视节目的人数和比例，还能获取观众对节目的态度、关注主要关注的内容、不同节目的观众人群之间的联系等深层次的信息。这些信息对电视节目制作人和管理者的决策具有重要的价值。

3.分析过程灵活，数据分析人员可以采取交互式的工作方法，设定不同的参数进行实时分析，根据结果来调整参数再进行分析，这样分析人员能够根据自己的需求构建新型的分析任务，利用系统提供的多维分析和网络分析工具，主动灵活地从数据中挖掘更多有价值的信息。

4.分析效率高，能够确保每天高效处理完前一天的基本数据，多维分析的查询可在秒级完成，把原始微博数据放在云计算平台或本地Hadoo_p集群，可以确保可扩展的高效计算，每天基本数据汇总到数据仓库可以确保多维分析的高效性。

附图说明

图1为本发明的流程图；

图2为情感分析流程示意图；

图3（a）为微博频繁词投影示意图；

图3（b）为频繁词集挖掘第一个子集示意图

具体实施方式

以下结合附图及实施例对本发明做进一步说明。

参照图1，本实施例包括以下步骤：

步骤（2）中，建立节目样本库的方法，首先根据节目关键词，使用微博的搜索接口进行搜索，获取初始节目样本库；然后采用人工的方式，对初始节目样本库进行过滤，将过滤出的微博标注为“相关”和“不相关”两类，并将“相关”和“不相关”两类微博建立节目样本库微博，每个节目的样本库中要求“相关”的微博不少于2万条，“不相关”的微博不少于5000条；

提取每日微博的方法，首先使用开源工具数据分析开源工具中的中文分词工具包对电视节目样本库中的每条微博进行中文分词处理；然后使用数据分析开源工具中的挖掘频繁项集工具包从分词后的微博获取频繁词集，忽略长度为1的项集，并去掉支持度小于α的词集，α是一个能调的参数，能控制最终频繁词集的大小，通过调整α使最终频繁词集不超过200个项；然后使用节目关键词及获取的频繁词集，利用微博的搜索接口获取每日微博内容，同时获取微博的作者的地域、性别、年龄和发布时间；

微博过滤的方法，首先对样本和待分类的微博分别进行分词处理，然后合并到同一个文本文件；然后使用文本分析工具创建文本词频特征矩阵函数；然后使用文本处理包训练模型，训练模型是指采用已有的样本数据来运行算法，由于结果是已知的，可以调整模型的参数来确定最佳的模型参数。如果是第一次分类，训练SVM、SLDA、BAGGING、BOOSTING，对分类结果进行准确率（进行了分类的微博中，正确分类的微博所占的比例）和召回率（符合条件的微博中，被正确过滤出来的部分所占的比例）的测试，选择一个最合适的模型。

参照图2，步骤（3）中，所述情感分析的方法是采取情感词汇分析和机器学习相结合的方法，首先建立情感倾向性词库，以开源项目用于分析文本间相似度的开源工具中的中文倾向性词库为基本词库，以人工方式建立不少于2万条的情感微博样本库，所述情感微博样本库包含“喜欢”和“不喜欢”两类标签，“喜欢”和“不喜欢”的微博数量各占一半，采用数据分析开源工具中的中文分词工具包对情感微博样本库进行频繁词集挖掘，根据频繁词集，采用人工核对的方式来挑选基本情感词库，同时把微博中的表情符号加入到情感词库中，最终形成完整的情感倾向性词库；然后基于情感词分析建立情感分类的样本库，抽取至少5万条的微博，基于情感词对微博进行情感打分；然后进行基于机器学习的情感分类器训练，对建立好的情感分类样本库进行分词并使用中文分词工具包建立词频矩阵，然后进行贝叶斯分类器、支持向量机分类器和最大熵分类器的训练，对从待分析的数据中随机抽取的2万条数据的准确度和召回率进行测试，选择相适应的分类器；最后基于机器学习进行并行情感分类，按照节目把微博数据划分到多个计算结点，使用选择好的分类器并行进行微博情感分类，最后把分类的结果汇总并写入数据仓库；

所述词语特征分析和主题分析的方法是基于并行频繁词集挖掘算法的基本原理，根据频繁项集把微博划分为互不相交的子集，用三个频繁词a、b、c将微博划分为三个子集：包含a的、包含b但不包含a的、包含c但不包含a和b的；首先进行数据划分，获取频繁一项集，根据一项集把微博划分为多个不相交子集，把不相交子集均匀地划分到所有的计算结点上；然后构建项集链表，在项集链表中，第一项相同的微博作为一个链表连接起来，链表的头保存在一个头表里；然后并行挖掘频繁词集，每个计算结点处理自己的项集链表，逐一挖掘头表中每项所对应的子集，要挖掘第一个子集，包含a的子集，称为a子集，可以从链表中单独提取出a的队列，对a的队列中的微博仍然采用划分的方法递归挖掘，把结果加上前缀a就得到a子集，微博的频繁词集可以直接进行展示，用户可以看到每个节目对应的热门词汇，同时频繁词集也是下一步进行话题聚类的基础；

参照附图3（a），微博的频繁词投影的第一个词相同的微博作为一个链表连接起来，链表的头保存在头表里，当这个存储结构建立起来以后，可以逐一挖掘头表中每项所对应的子集；

参照附图3（b），要挖掘第一个子集（包含a的子集，我们称为a子集），可以构建a的头表和a-队列，对a-队列中的微博仍然采用划分的方法递归挖掘，把结果加上前缀a就得到a子集。

为了应用并行算法来挖掘大规模微博数据，需要进行数据划分，由于挖掘的结果可以划分为互不相交的多个子集，我们根据结果集对数据进行划分。例如，假设微博数据中有6个项a～f，我们称包含a的项集为a-项集，包含b但不包含a的项集为b-项集，依此类推。把多个项集均匀地划分到若干个任务结点上，这些任务结点就可以互不干扰地挖掘自己的频繁子集，最终合并所有结果。

所述微博主题分析是在同一个节目的微博中，根据讨论内容划分为不同的主题，在“我是歌手”的讨论中，有些是关于齐秦的，有些是关于尚雯婕的，采用基于频繁词集的聚类方法进行主题分析；首先进行文本特征提取，采取词语特征分析和主题分析获取的频繁词集作为文本特征，每个微博表示为一个向量{t₁:s₁,t₂:s₂,..,t_n:s_n}，其中t_i为频繁词，s_i为对应的支持度；其次进行初始类划分，对频繁词集进行筛选，去掉无意义的频繁词集，把包含每个频繁词集的微博划分到一类中，并用相应的频繁词集作为该类的表示；然后进行基于图书馆准则的类调整类；

所述多维分析的方法是通过分析型的SQL语句实现的，从不同角度了解电视节目的收视情况，根据地域统计一周时间各个节目的收视量并从高到低排序，可使用SQL语句“select program,districtname,sum(number)as amount from attention,districtdictwhere attention.district=districtdict.districtcode and weibo_date>='20130318'and weibo_date<='20130324'group by program,districtname order by program,amount desc;”；能根据用户的定制，每周、每月、半年、一年自动进行，也能由用户随时选择不同的维度进行实时分析。

情感打分的方法是基于情感词典找出微博中的情感词，对于某个对象p，p为节目名称或从频繁词集中识别出的实体，遇到一个正的情感词分数+1，遇到一个负的情感词分数-1；总体打分函数为：score(p)＝Σ_{Wi：Wi∈L∩Wi∈m}W_i·SD/dis(W_i,p)；

θ₁和θ₂的值，以及情感词库需要根据人工验证的结果进行调整；同时，基于对句法的分析，根据否定词规则、或双重否定规则、或转折和增减规则来调整分类，在比较规则中，如果微博中说A比B好，则对A来说是正面情感，而对B是负面。在否定规则中，如果“不”等否定词出现在情感词之前，则表达的是相反的情感。在转折规则中，如果情感词后面出现了转折词如“但是”，则表达的是相反的情感，在增减规则中，负面情感的减少可以认为是一种正面情感，最终采用这种方法得到情感分类的样本库。

步骤（4）中，

报表形式是通过使用数据仓库的报表工具，根据步骤（2）多维分析的结果，采取交叉表的形式展现数据；

图形方式包括条形图、或折线图、或饼图、或词云图、或词网图、或用户网络图；

条形图用于显示数据之间的对比关系，表示不同节目的收视量；

折线图用于显示数据的变化，表示一个月内节目收视的变化情况；

饼图用于显示数据的比例关系，表示关注节目的男女比例、年龄比例；

词云图用于显示电视节目在时间段内的热门词汇，且以不同颜色和大小表示不同频度的词汇；通过获取频繁一项集，构建包含频繁词及其支持度的向量，然后使用数据分析开源工具的生成词云工具包生成词云；

词云显示是频繁一项集，对于二项集以上的频繁词集，采用词网的形式显示，词网把同一频繁词集中的词连接起来构成网络？，根据支持度确定边的颜色和粗细，词网采用数据分析开源工具中的网络可视化工具包实现，使用词网不但能发现节目热门词汇之间的联系，还能发现词组，用户发现两个联系密切的词应该是一个新的词组时，能把新词组加入到系统词典中；

网络图是用于展现粉丝覆盖分析结果和观众过渡分析结果，以不同颜色代表不同的团体，能清晰表达不同团体间的覆盖程度，由于网络规模很大，展示时采用图聚类来简化网络。

粉丝覆盖分析的方法，首先根据节目获取微博的博主信息，并获取作者关注的其他博主，构建博主的关系网络；然后按照节目中的明星的微博抓取粉丝的信息及粉丝之间的联系，构建明星的粉丝网络；最后采取网络匹配的方法，计算节目博主关系网络和明星粉丝关系网络的重合度。

观众过渡分析的方法，首先按照旧节目抓取对应的微博博主信息，构建对应的观众网络；然后按照新节目抓取对应的微博博主信息，构建对应的观众网络；最后采取网络匹配的方法，计算新旧节目博主关系网络之间的重合度。

基于图书馆准则类调整的方法，对于紧凑性，首先评估微博w_i属于类C_h的概率，

\hat{p} (C_{h} | W_{i}) = Sim (W_{i}, C_{h}) / \underset{j}{Σ} Sim (W_{i}, C_{j});

在初始划分时，w_i划分到了k个类中，计算归一化熵：

H_{norm} (W_{i}) = \frac{- Σ_{h = 1}^{k} \hat{p} (C_{h} | W_{i}) \log 2 \hat{p} (C_{h} | W_{i})}{\log 2 k};

根据紧凑性准则，这个值越接近0越好；

微博在所有N类中的分布是均匀的，即p(w_i)=1/N，则

Σ_{i = 1}^{N} p (W_{i} | C_{h}) = Σ_{i = 1}^{N} \frac{p (C_{h} | W_{i}) p (W_{i})}{p (C_{h})} = \frac{1}{N \cdot p (C_{h})} Σ_{i = 1}^{N} p (C_{h} | W_{i}) = 1;

因此得到在此基础上定义C_h的归一化熵：

H_{onrm} (C_{h}) = \frac{- \underset{h}{Σ} \hat{p} (C_{h}) \log 2 \hat{p} (C_{h})}{\log 2 k};

Claims

1.一种基于微博分析电视节目收视情况的方法，其特征在于，包括以下步骤：

(1)构建词库：从搜狗细胞词库下载词库，将下载的词库组合在一起构成电视领域基本词库，并定期更新；

(2)建立微博-电视节目映射：首先建立节目样本库，根据样本特征词提取每日微博，对获取的微博进行过滤，采用数据分析开源工具中的文本处理包进行文本分类，由于文本处理包不支持中文，先把中文分词加入空格，“模拟”英文来实现分类；

(3)数据分析：对步骤(2)建立的微博-电视节目映射分别进行每日分析和多维分析，所述每日分析包括情感分析、词语特征分析和主题分析、每日基本统计以及网络特征分析；

(4)可视化结果展现：通过报表形式和图形形式将步骤(3)分析的结果展现出来；

步骤(2)中，所述建立节目样本库的方法，首先根据节目关键词，使用微博的搜索接口进行搜索，获取初始节目样本库；然后采用人工的方式，对初始节目样本库进行过滤，将过滤出的微博标注为“相关”和“不相关”两类，并将“相关”和“不相关”两类微博建立节目样本库微博，每个节目的样本库中要求“相关”的微博不少于2万条，“不相关”的微博不少于5000条；

所述微博过滤的方法，首先对样本和待分类的微博分别进行分词处理，然后合并到同一个文本文件；然后使用文本分析工具创建文本词频特征矩阵；然后使用文本处理包训练模型。

2.根据权利要求1所述的基于微博分析电视节目收视情况的方法，其特征在于，步骤(3)中，所述情感分析的方法是采取情感词汇分析和机器学习相结合的方法，首先建立情感倾向性词库，以开源项目用于分析文本间相似度的开源工具中的中文倾向性词库为基本词库，以人工方式建立不少于2万条的情感微博样本库，所述情感微博样本库包含“喜欢”和“不喜欢”两类标签，“喜欢”和“不喜欢”的微博条数各占一半，采用数据分析开源工具中的中文分词工具包对情感微博样本库进行频繁词集挖掘，根据频繁词集，采用人工核对的方式来挑选基本情感词库，同时把微博中的表情符号加入到情感词库中，最终形成完整的情感倾向性词库；然后基于情感词分析建立情感分类的样本库，抽取至少5万条的微博，基于情感词对微博进行情感打分；然后进行基于机器学习的情感分类器训练，对建立好的情感分类样本库进行分词并使用中文分词工具包建立词频矩阵，然后进行贝叶斯分类器、支持向量机分类器和最大熵分类器的训练，对从待分析的数据中随机抽取的2万条数据的准确度和召回率进行测试，选择相适应的分类器；最后基于机器学习进行并行情感分类，按照节目把微博数据划分到多个计算结点，使用选择好的分类器并行进行微博情感分类，最后把分类的结果汇总并写入数据仓库；

所述词语特征分析和主题分析的方法是基于并行频繁词集挖掘算法的基本原理，根据频繁项集把微博划分为互不相交的子集，首先进行数据划分，获取频繁一项集，根据一项集把微博划分为多个不相交子集，把不相交子集均匀地划分到所有的计算结点上；然后构建项集链表，在项集链表中，第一项相同的微博作为一个链表连接起来，链表的头保存在一个头表里；然后并行挖掘频繁词集，每个计算结点处理自己的项集链表，逐一挖掘头表中每项所对应的子集，要挖掘第一个子集，包含a的子集，称为a子集，能从链表中单独提取出a的队列，对a的队列中的微博采用划分的方法递归挖掘，把结果加上前缀a就得到a子集，微博的频繁词集能直接进行展示，用户能看到每个节目对应的热门词汇，同时频繁词集也是下一步进行话题聚类的基础；

3.根据权利要求2所述的基于微博分析电视节目收视情况的方法，其特征在于，所述情感打分的方法是基于情感词典找出微博中的情感词，对于某个对象p，p为节目名称或从频繁词集中识别出的实体，遇到一个正的情感词分数+1，遇到一个负的情感词分数-1；总体打分函数为：score(p)＝∑_{Wi:Wi∈L∩Wi∈m}W_i·SD/dis(W_i,p)；

θ₁和θ₂的值，以及情感词库需要根据人工验证的结果进行调整；同时，基于对句法的分析，根据否定词规则、或双重否定规则、或转折词规则来调整分类。

4.根据权利要求1所述的基于微博分析电视节目收视情况的方法，其特征在于，步骤(4)中，所述报表形式是通过使用数据仓库的报表工具，根据步骤(2)多维分析的结果，采取交叉表的形式展现数据；

所述条形图用于显示数据之间的对比关系；

所述折线图用于显示数据的变化；

所述饼图用于显示数据的比例关系；

所述词云显示是频繁一项集，对于二项集以上的频繁词集，采用词网的形式显示，词网把同一频繁词集中的词连接起来构成网络，根据支持度确定边的颜色和粗细，词网采用数据分析开源工具中的网络可视化工具包实现，使用词网不但能发现节目热门词汇之间的联系，还能发现词组，用户发现两个联系密切的词应该是一个新的词组时，能把新词组加入到系统词典中；

5.根据权利要求2所述的基于微博分析电视节目收视情况的方法，其特征在于，

所述粉丝覆盖分析的方法，首先根据节目获取微博的博主信息，并获取作者关注的其他博主，构建博主的关系网络；然后按照节目中的明星的微博抓取粉丝的信息及粉丝之间的联系，构建明星的粉丝网络；最后采取网络匹配的方法，计算节目博主关系网络和明星粉丝关系网络的重合度；

6.根据权利要求2所述的基于微博分析电视节目收视情况的方法，其特征在于，所述基于图书馆准则类调整的方法，对于紧凑性，首先评估微博w_i属于类 C_h的概率，

其中，sim表示相似度，h表示已知类的编号，j表示与h不同的其它类的标号，Cj表示除Ch以外的其它类，采用余弦距离来计算；

在初始划分时，w_i划分到了k个类中，计算归一化熵：

根据紧凑性准则，这个值越接近0越好；

对于均匀性准则，根据贝叶斯公式有：

微博在所有N类中的分布是均匀的，即p(w_i)＝1/N，则

因此得到在此基础上定义C_h的归一化熵：