CN105760410B

CN105760410B - 一种基于转发评论的微博语义扩充模型和方法

Info

Publication number: CN105760410B
Application number: CN201510178606.9A
Authority: CN
Inventors: 刘磊; 许志刚; 李静
Original assignee: Beijing University of Technology
Current assignee: Goonie International Software (Beijing) Co.,Ltd.
Priority date: 2015-04-15
Filing date: 2015-04-15
Publication date: 2019-04-19
Anticipated expiration: 2035-04-15
Also published as: CN105760410A

Abstract

本发明提出了一种微博的语义扩充模型和系统，属于文本信息处理领域，具体涉及微博分类和微博语义扩充方法及系统。本发明是一种基于转发评论的微博语义扩充模型。首先在对微博用户类型分析的基础上将微博分为六种类型：信息发布型微博、日志型微博、分享型微博、转发型微博、评述型微博和互动型微博。然后以信息发布型微博为研究对象，提出了一种基于转发评论的微博语义扩充模型，将微博有效评论信息加入微博文本，以补充微博语义，改善微博数据稀疏的问题。本发明提高了微博的分类性能。

Description

一种基于转发评论的微博语义扩充模型和方法

技术领域

本发明属于文本信息处理领域，具体涉及微博类型分析、微博评论选择和微博特征选择与加权方法及系统。

背景技术

微博，即微型博客的简称，是一个基于用户关系的信息分享、传播以及获取平台，用户可以通过WEB、WAP以及各种客户端组建个人社区，以140字左右的文字更新信息，并实现即时分享。用户与用户之间信息的传递通过“关注—被关注”来实现，用户之间在微博平台上通过转发的方式对其他用户的微博进行传播。

在微博快速发展的同时获得了广泛的应用，已成为一种具有强大影响力的新型媒体。微博具备4A特性(任何时间、任何地点、任何方式、任何人)，随时随地任何人都可以成为信息传播者。微博对政府、个人、企业和社会都有着积极的意义。研究微博及中文微博信息处理技术具有重要的理论和应用价值。

微博因为文本长度短，信息含量较少，会造成的严重数据稀疏问题。研究者们对解决数据稀疏问题进行了一些尝试，但是此问题还没得到彻底解决。目前鲜有使用微博转发评论中的信息去扩充微博语义的研究成果。微博转发评论是微博的有效语义来源，可以补充微博的语义。本发明通过综合考虑微博类型、微博评论选择和微博特征选择与加权方法，改善了微博数据稀疏的问题。

发明内容

本发明的目的在于针对微博数据稀疏问题，提出一种基于转发评论的微博语义扩充模型与方法。本发明综合考虑了微博文本与转发评论文本的特点，给出了微博类型分析、微博评论选择和微博特征选择与加权方法，改善了微博数据稀疏的问题。

一种基于转发评论的微博语义扩充模型和方法，其特征在于包括如下步骤：

步骤1：通过分析微博的发布特点、发布目的和微博的内容，定义六种微博类型：信息发布型微博、日志型微博、分享型微博、转发型微博、评述型微博、互动型微博类型；

所述的信息发布型微博是博主通过微博发布新闻、事件、政策、产品、活动、声明、呼吁信息；

所述的日志型微博是博主描述自身工作和生活中的琐碎片段，以文字或图片的形式表现，记录博主的喜怒哀乐，如博主对自己工作和生活中遭遇的记录、工作和生活中的自拍；

所述的分享型微博内容是博主认为有价值的信息，以文字、图片、音频和视频方式表现，本着为粉丝服务的态度而发布的微博，包括名人名言、生活感悟、心灵鸡汤、精美文章、优美歌曲、搞笑视频、笑话、生活常识、攻略、指南、注意事项、常见术语概念的解释和整理、推荐；

所述的转发型微博是非原创微博，转发的其他博主的微博，转发人可能会给出自己对于所转发的微博的转发评论，若转发人没有给出自己的转发评论，微博网站会自动以“转发微博”作为转发评论；

所述的评述型微博，博主通过评述型微博表达自己对事物或事件的态度、看法、主张和愿景；

所述的互动型微博，博主通过提问方式希望与粉丝进行互动交流，获得问题和事物的反馈和看法，或者回答其他博主的一些问题，以及发布一些对自己粉丝的祝福语；

步骤2：通过微博评论选择方法对微博转发评论进行筛选；

一条微博可表示为一个二元组T＝<d,C>，其中d为微博T的内容，C＝{c₁,c₂,...,c_m}为微博T的评论集合，方法包括如下步骤：

步骤2.1：输入微博T的内容d和评论集合C；

步骤2.2：利用文本规则，对评论进行初步筛选，包括删除重复的评论、删除包含“转发”字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母、特殊符号及标点符号的评论；

步骤2.3：对微博内容d和步骤2.2筛选出来的评论集合C₁进行中文分词和选择有效词处理；

步骤2.4:对步骤2.3处理后的微博内容d_end和评论集合C₂进行聚类，生成一个最终评论文本p；

步骤2.5：输出微博T的最终评论文本p；

步骤3：微博语义扩充模型构建；

在获取到微博T的最终评论文本p后，将评论p和微博内容d_end通过步骤3.1-3.3结合起来，以形成对微博T的有效的语义扩充；

微博文本数据集记为D，将D中的微博文本对应的评论分别按照步骤2生成对应的评论数据集P，微博语义扩充由以下三步构成：

步骤3.1：采用向量空间模型表示数据集D和P中的文本；

步骤3.2：特征选择，常见特征选择函数有信息增益、卡方统计量、互信息，设选定的特征选择函数为f(x)；

从数据集D和P中分别提取所有特征项，构成特征集合F_D和F_P；对特征集合F_D和F_P中的每一项分别使用f(x)进行计算打分，当F_D和F_P中的所有项都打分完成后，按分值由高到低进行排序得新的特征集合F′_D和F′_P；假设需要选取N个文档属性，则从F′_D和F′_P中分别选取分值高的N个项，构成最终的特征集合F″_D和F″_P；将特征集合F″_D和F″_P取并集得到特征集合F_end。即F_end＝F″_DYF″_P。

步骤3.3：特征加权，设其权重函数为G(x)，若G(x)应用于数据集D中，记为G_D(x)；若G(x)应用于数据集P中，记为G_P(x)，对于微博文本d_i∈D，对应的评论文本p_i∈P，考察每一个特征项f∈F_end；

若f∈d_i，特征f在文本d_i中的权重为若特征f在文本d_i中的权重为若f∈p_i，特征f在文本p_i中的权重为若特征f在文本p_i中的权重为则特征f在文本d_i中的最终权重为：且a+b＝1，其中a和b为调节系数；

步骤4：输出微博的分类结果。

附图说明

图1本发明实现微博语义信息扩充和特征选择加权方法及系统的流程图；

图2基于用户的微博类型统计结果；

图3基于不同的a值下的准确率；

图4分类准确率对比图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步的详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

根据图1所示，本发明提出的方法是依次按以下步骤实现：

步骤1：通过分析微博的发布特点、发布目的和微博的内容，定义六种微博类型。

信息发布型微博：博主通过微博发布新闻、事件、政策、产品、活动、声明、呼吁信息。

日志型微博：内容多是与博主自身密切相关的工作和生活中的琐碎片段，以文字或图片的形式表现，记录博主的喜怒哀乐。如博主对自己工作和生活中的遭遇的记录、一定场合的自拍。

分享型微博：内容多是博主认为有价值的信息，以文字、图片、音频和视频方式表现，本着为粉丝服务的态度而发布的微博，如名人名言，生活感悟、心灵鸡汤、精美文章、优美歌曲、搞笑视频、笑话、生活常识、攻略、指南、注意事项、常见术语概念的解释和整理、推荐。

转发型微博：非原创微博，转发的其他博主的微博。转发人可能会给出自己对于所转发的微博的转发评论。若转发人没有给出自己的转发评论，微博网站会自动以“转发微博”作为转发评论。

评述型微博：博主通过评述型微博表达自己对某类事物或事件的态度、看法、主张和愿景。例如：“虽然这次马航和马来西亚政府在信息发布方面存在诸多问题，但最终我们还是要回归理性，理性才能解决问题”。

互动型微博：博主通过提问等方式希望与粉丝进行互动交流，获得关于某些问题和事物的反馈和看法，或者回答其他博主的一些问题，以及发布一些对自己粉丝的祝福语。

为了分析不同类型微博的分布情况，我们按照表1的微博用户选取方法选择45名微博用户，采集每名用户最近发表的200条微博，按照上述定义的微博类型进行归类统计，并按照认证个人用户、普通个人用户、认证组织用户三种用户类型取平均数，得到不同微博用户的发布微博类型的统计结果。

表1微博用户选取方法

如图2所示，个人用户发表的微博以日志型微博、分享型微博和转发型微博为主。其中认证个人用户以分享型微博和转发型微博数量较多，分别约占40％和43％。普通个人用户转发型微博最多约占72％，其次日志型微博较多，约占19％。普通个人用户的日志型微博比认证个人用户要多。

认证组织用户以信息发布型微博、转发型微博和分享型微博为主。其中以信息发布型微博最多，约占51％。

评述性型微博和互动型微博对于三类用户而言，所占比重都很小。

虽然，信息发布型微博、日志型微博、分享型微博和转发型微博在微博总数中占大多数，但是日志型微博参杂很多博主的主观意愿，转发型微博也参杂较多主观信息，分享型微博多为一些非话题性的微博。而信息发布型微博以客观信息为主，是我们研究微博语义扩充更加感兴趣和更有意义的微博类型。

步骤2：选取信息发布性型微博为研究对象，通过微博评论选择方法对微博转发评论进行筛选：

一条微博可表示为一个二元组T＝<d,C>，其中d为微博T的内容，C＝{c₁,c₂,...,c_m}为微博T的评论集合。方法描述如下：

输入：微博T的内容d和评论集合C。

Step1：利用文本规则，对评论进行初步筛选。

(1)将形如“评论//@用户1:评论1//@用户2:评论2//......//@用户e:评论e”的层层转发类的评论按层拆分为多条评论：“评论”，“评论1”，“评论2”……“评论e”。

(2)删除重复的评论。

(3)删除包含“转发”字数小于5的评论。

(4)删除字数少于等于2个字的评论。

(5)删除仅包含数字、字母、特殊符号及标点符号的评论。

Step2：对微博内容d和Step1筛选出来的评论(记为集合C₁)进行预处理。

(1)分词。利用中国科学院计算技术研究所分词系统ICTCLAS对微博内容d和评论集合C₁中的评论进行分词和词性标注。

(2)选择其中的名词、动词和形容词作为有效词。

Step3：对Step2处理后的微博内容(记为d_end)和评论(记为集合C₂)进行聚类。

(1)采用TF-IDF方法进行特征选择。

(2)采用向量空间模型表示微博内容和评论。

(3)采用K-means算法对微博内容d_end和集合C₂中的评论进行聚类。

(4)选取微博内容d_end所在的类簇中的评论作为微博T的最终评论(记为集合C_end)。

(5)将最终评论集合C_end中的评论合并生成一个最终评论文本(记为p)。

输出：微博T的最终评论文本p。

步骤3：微博语义扩充模型构建；

在获取到微博T的最终评论文本p后，需要将评论p和微博内容d_end结合起来，以形成对微博T的有效的语义扩充。

设微博文本数据集D＝{d₁,d₂,Λ,d_n}，将D中的微博文本对应的评论分别按照微博评论选择方法生成对应的评论数据集P＝{p₁,p₂,Λ,p_n}。微博语义扩充由以下三步构成：

(1)建立文档表示模型

采用向量空间模型表示数据集D和P中的文本。

对于d_i∈D，d_i＝{w_i1,w_i2，Λ，w_il}，其中1≤i≤n，l为d_i分词后的词数。w_ij(1≤j≤l)为文本d_i分词以后的词。

对于p_i∈P，p_i＝{w′_i1,w′_i2，Λ，w′_ik}，其中1≤i≤n，k为p_i分词后的词数。w′_ij(1≤j≤k)为文本p_i分词以后的词。

(2)特征选择

常采用的特征选择方法有：信息增益、卡方统计量、互信息和期望交叉熵等。这里设其特征选择函数为f(x)。

①从数据集D和P中分别提取所有特征项，构成特征集合F_D和F_P；

对于数据集D，

F_D＝d₁Yd₂YΛYd_n＝{w₁,w₂，Λ，w_s}，s为集合F_D中的特征数。

对于数据集P，

F_P＝p₁Yp₂YΛYp_n＝{w′₁,w'₂，Λ，w′_t}，t为集合F_P中的特征数。

②对特征集合F_D和F_P中的每一项分别使用f(x)进行计算打分，当F_D和F_P中的所有项都打分完成后，按分值由高到低进行排序得新的特征集合F′_D和F′_P；

对于数据集D，f(F_D)＝{f(w₁),f(w₂)，Λ，f(w_s)}。

对f(F_D)降序排列，得到：f₀(F_D)＝{f(w₁₀),f(w₂₀)，Λ，f(w_s0)}。故F′_DD＝{w₁₀,w₂₀，Λ，w_s0}。

对于数据集P，f(F_P)＝{f(w′₁),f(w′₂)，Λ，f(w′_t)}。

对f(F_P)降序排列，得到：f₀(F_P)＝{f(w′₁₀),f(w'₂₀)，Λ，f(w′_t0)}。故F′_P＝{w′₁₀,w'₂₀，Λ，w′_t0}。

③假设需要选取N个文档属性，则从F′_DD和F′_P中分别选取分值高的N个项，构成最终的特征集合F″_D和F″_P；

F″_D＝{w₁₀,w₂₀，Λ，w_N0}；F″_P＝{w′₁₀,w'₂₀，Λ，w'_N0}。

④将特征集合F″_D和F″_P取并集得到特征集合F_end。即F_end＝F″_DYF″_P。

(3)特征加权

常用的文本特征权重计算方法主要有：布尔权重、基于熵概念的权重、特征频率、TF-IDF等。这里设其权重函数为G(x)。若G(x)应用于数据集D中，记为G_D(x)；若G(x)应用于数据集P中，记为G_P(x)。

对于微博文本d_i∈D，对应的评论文本p_i∈P：

考察每一个特征项f∈F_end，

若f∈d_i，特征f在文本d_i中的权重为

若特征f在文本d_i中的权重为

若f∈p_i，特征f在文本p_i中的权重为

若特征f在文本p_i中的权重为

则特征f在文本d_i中的最终权重为：且a+b＝1。其中a和b为调节系数。

步骤4：为了验证微博语义扩充模型的有效性，进行两方面评测：(1)微博评论选择方法的评测；(2)语义扩充模型的分类性能评测。

由于现在国内没有通用的微博数据集，我们手动采集了部分新浪微博语料进行的实验分析。总共5个类别(时事，社会，科技，体育，娱乐)的微博和其评论，微博均为信息发布型微博，一共750篇，类分布比较均匀。

(1)微博评论选择方法的有效性评测

为了验证微博评论的选择方法的有效性，从5类微博(时事，社会，科技，体育，娱乐)中，各选取典型微博2条，微博评论选择方法的处理结果见表2。

其中，评论是否有效是人为通过以下标准判定：(1)评论中是否含有微博内容的关键词；(2)若评论中不含有微博内容的关键词，判断评论内容是否与微博内容的延伸、影响、后续发展等有关。

本发明方法的评价标准为有效评论比率的变化情况。

使用评论选择方法前的有效评论比率＝处理前有效评论数/评论总数；使用评论选择方法后的有效评论比率＝处理后有效评论数/Step3处理后评论数。

表2微博评论选择方法的处理结果

如果通过评论选择方法，评论集中的有效评论比率明显提高，则说明了本发明方法的有效性。图2中给出了使用评论选择方法前后的有效评论比率图。

从表2中可以看出，通过评论选择方法一步步的处理，评论数在减少，同时有效评论比率在使用评论选择方法前后明显上升，以第1条微博为例，在使用评论选择方法前后，评论数从1812下降为396，有效评论比率从25.4％上升到90.7％，证明了评论选择方法的有效性。

(2)语义扩充模型的分类性能评测

从采集的微博语料中，选取训练文本500篇，测试文本250篇，类分布比较均匀。概率估算方法方面，采用词频统计(统计特征词在一条微博信息中出现的次数)。选取的实验参数如下：

特征选择方法：卡方统计

特征选择方式：全局选取

特征加权方法：TF-IDF

特征空间维数：1000

分类器：KNN，SVM。其中KNN中距离函数采用了常用的欧几里得距离；近邻数k由检测实验确定，即根据k不同取值下，检测集(检测集由从测试文本中每个类别各取20篇，合计100篇构成)的分类错误率来确定，经过测试，k取值为18。SVM分类器使用了LIBSVM软件包，选用RBF函数(Radial Basis Function)，利用交叉验证方式确定参数C和γ。

使用的评价指标:

为了选取最佳的调节系数a和b，取a∈{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9}，使用语义扩充模型后的微博分类准确率见图3。

由图3可知，当调节系数a＝0.6和b＝0.4时的微博分类性能最好。在a＝0.6和b＝0.4的情况下，使用语义扩充模型和不使用语义扩充模型的微博分类结果见表3。

表3分类性能结果表

更加直观地表示为图4：

从表3和图4中可以看出，无论是选择使用KNN分类器还是SVM分类器，使用语义扩充模型进行语义扩充后微博分类性能都要比不使用语义扩充模型进行语义扩充要好，准确率、宏查全率和宏查准率都有了较明显的提高。证明了语义扩充模型的可行性和有效性。

Claims

1.一种基于转发评论的微博语义扩充模型和方法，其特征在于包括如下步骤：

步骤2：通过微博评论选择方法对微博转发评论进行筛选；

步骤2.1：输入微博T的内容d和评论集合C；

步骤2.2：利用文本规则，对评论进行初步筛选，包括删除重复的评论、删除包含“转发”且字数小于5的评论、删除字数小于等于2个字的评论、删除仅包含数字、字母、特殊符号及标点符号的评论；

步骤2.5：输出微博T的最终评论文本p；

步骤3：微博语义扩充模型构建；

微博文本数据集记为D，将D中的微博文本对应的评论分别按照步骤2生成对应的评论文本P，微博语义扩充由以下三步构成：

步骤3.1：采用向量空间模型表示数据集D和P中的文本；

从数据集D和P中分别提取所有特征项，构成特征集合F_D和F_P；对特征集合F_D和F_P中的每一项分别使用f(x)进行计算打分，当F_D和F_P中的所有项都打分完成后，按分值由高到低进行排序得新的特征集合F′_D和F′_P；假设需要选取N个文档属性，则从F′_D和F′_P中分别选取分值高的N个项，构成最终的特征集合F″_D和F″_P；将特征集合F″_D和F″_P取并集得到特征集合F_end,即F_end＝F″_DY F″_P;

步骤4：输出微博的分类结果。