CN111061866A

CN111061866A - 一种基于特征扩展和T-oBTM的弹幕文本聚类方法

Info

Publication number: CN111061866A
Application number: CN201910769654.3A
Authority: CN
Inventors: 吴迪; 黄竹韵; 生龙; 张梦甜; 杨瑞欣; 孙雷
Original assignee: Hebei University of Engineering
Current assignee: Hebei University of Engineering
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2020-04-24
Anticipated expiration: 2039-08-20
Also published as: CN111061866B

Abstract

本发明提出一种基于特征扩展和T‑oBTM的弹幕文本聚类方法，包括网络新词处理阶段、主题建模阶段、文本聚类阶段三个步骤阶段，本发明提出了一种根据弹幕特点对词对进行阈值约束的oBTM流式短文本聚类方法(T‑oBTM)，减少了算法执行时间，并对网络新词进行识别和处理，达到了扩展文本特征的目的，进而提高了算法精度。本发明对网络新词进行识别与处理，丰富分词词库，提高了分词精度；网络新词处理时，对识别出的实体名词和情感、观点、看法类词语进行区别处理，扩展了短文本特征，提高了聚类精度。

Description

一种基于特征扩展和T-oBTM的弹幕文本聚类方法

技术领域

本发明涉及多媒体处理的技术领域，尤其涉及一种基于特征扩展和 T-oBTM的弹幕文本聚类方法。

背景技术

弹幕是指视频播放时可以发送到屏幕上的评论，能即时的表达用户的看法和情感，因此弹幕中隐含信息的研究价值很大，有助于发现视频用户话题等工作。相比于其他类型的评论，弹幕文本过短、含有网络新词过多、即时性强、变化迅速，属于流式短文本。由于上述特点，弹幕文本的研究有语义信息少和高维稀疏性的难点。

弹幕都是用户即时发送的，内容多为主观情感，所以弹幕的研究大多是面向情感分析的。郑飏飏等人提出了一种基于构建情感词典的弹幕文本分析方法，通过情感字典抽取情感词并计算情感值，加入时间信息，用可视图展现了情感分类及趋势。这种方法需要人工分析情感词，耗费大，算法植入性差。邓扬等人基于多主体视频片段情感识别(Multi-Topic Emotion Recognition,MTER)模型对弹幕分类，他提到只使用LDA进行情感词分类时，无法根据上下文识别陌生情感词，所以又加入了MTER模型调整LDA产生的视频片段情感向量。使用无监督方法进行情感分析的还有洪庆等人，他们选择改进K-Means进行情感聚类，在原算法中加入了动态时间规整 (Dynamic Time Warping,DTM)算法计算情感相似度，这种方法过多删除噪声点及噪声点周围的数据，所以精度不高。邱宁佳等人提出一种基于卷积神经网络模型的弹幕文本分类法，该方法能够在自主学习后对弹幕文本进行标注，避免了过多的人工标注，而且分类精度较高。

上述方法的思想主要来源于长文本的处理方法，主要通过建立字典、人工标注的方法弥补文本过短的问题，但是方法本身耗费较大，所以出现了以下两种方法。

一种是引入外部知识丰富短文本。Xu T等人提出引入增强词法的局部聚类算法，该方法利用维基百科知识扩展微博短文本，辅助计算语义相似度。 WuZ等人提出基于Wikipedia匹配的分类方法，该方法能够帮助识别短文本语义，提高分类精度。ShirakawaM等人提出用维基百科知识扩充短文本，减少语义噪声。NakamuraT提出了两种基于维基百科的多语言短文本聚类的语义关联度量方法，该方法将维基百科的跨语言链接整合到扩展朴素贝叶斯 (ENB)中，解决了语义鸿沟问题。SimsekA等人认为结合情感数据和维基百科相关知识，可以更精确的找到微博用户相匹配的广告推荐。

另一种是在短文本上进行主题建模。程学旗、晏小辉等人在2013年提出了词对主题模型(Biterm Topic Model,BTM)，文章中还给出了处理流式短文本的在线词对主题模型(Online Biterm Topic Model,oBTM)。XiaY提出了基于区分词对主题模型($d$-BTM)的新闻标题分类,该模型可以区分一般词对和表现文档特征的词对，帮助删除与短文本关联度差的词对。

以上两种方法在精度上都有待提高。胡学钢等人结合两种方法，提出了基于oBTM的短文本流概念漂移检测方法，该方法有效的提高了分类精度，避免了人工标注。该方法先将数据集分成多个数据块，每个数据块中采用相同的处理方法，首先提出基于外部知识库扩展数据块中的短文本，找出维基百科知识库中有关短文本内容的部分长文本，经过LDA模型处理，得到主题词来扩展语料库，缓解文本空间稀疏问题，然后利用oBTM对数据块中的短文本进行基于主题的表示，减少文本空间维度，最后将多个数据块集成为一个分类器。这种方法经实验证明精确度高。但是弹幕文本过短、内容杂乱，无法预知弹幕文本和知识库中哪些内容关联度高，所以需要从其他方面扩展弹幕语料库。

弹幕文本中含有大量的网络新词，一定程度上导致语义不明确、语法不规范。这些网络新词一般包括实体名词和网路流行语，这些词没有规则的语法，往往在预处理阶段被拆分或删除，产生噪声词，导致数据高维稀疏，影响精确度，但这些新词隐含用户的观点和情感，所以需要保留下来，可以达到扩展文本特征的目的，其中网络新词识别是关键工作。新词识别一般分为两种方法：基于规则法和基于统计法，赵志滨等人提出基于句法分析和词向量的领域新词识别，该方法需要建立专门的句法规则。这种基于规则的方法过多依赖成词规则和字典，缺乏灵活性，所以大多学者选择统计法，统计法包括词频统计、互信息、左右信息熵。李文坤等人提出“散串”内部紧密且外部自由度高则可以成词。刘伟童等人在此基础上进行改进，提出了基于互信息和邻接熵的新词识别算法，通过计算候选词语与其右邻接字的互信息来逐字扩展，得到候选新词，再计算候选词的信息熵和其他方法得到新词。曾浩等人提出结合规则和统计的方法，该方法结构较精确，但是需要建立构词规则和统计计算，工作量大，耗时多，所以研究者一般采用多种统计法结合的算法进行新词识别。

现有技术主要存在以下不足：

现有技术虽面向短文本流领域，但是弹幕这类短文本流具有网络新词泛滥、语法不完整不规范、语义信息过少的特点，无法预知文本内容与哪些方面有关，利用内容相关度高的外部知识库文本进行特征扩展不再适用。

弹幕文本很短，有可能一篇文档只有3、4个词语组成，计算信息熵值时主要是统计预选词与左右词汇的紧密程度，词语过少会有缺少统计参数的问题，所以利用融合互信息与左右信息熵的方法进行网络新词识别需要加以改进。

语料库规模庞大，直接抽取词对，保留了很多噪声词对，造成主题-词对分布和主题分布复杂，导致模型处理时间较长，算法效率较低。

发明内容

根据以上技术问题，本发明提出一种基于特征扩展和T-oBTM的弹幕文本聚类方法，其特征在于包括网络新词处理阶段、主题建模阶段、文本聚类阶段三个步骤阶段，

第Ⅰ阶段为网络新词处理，此阶段包括文本预处理，网络新词处理阶段利用基于权重优化的互信息与左右信息熵的新词识别算法找出弹幕文本中的网络新词，将网络新词更新到分词词库，利用外部知识库获取网络新词相关内容，经过分析得与到网络新词相关的特征词，利用特征词扩展文本特征得到语料库；所述网络新词处理阶段具体方法为：采用新词识别算法更新文本预处理的分词词库；利用新分词词库对原文本预处理，得到保留了网络新词的语料库；选择百度百科作为外部知识库，得到网络新词相关内容，通过BTM 模型分析得到网络新词对应的特征词，用特征词替换或者加权方法丰富语料库；

第Ⅱ阶段为主题建模阶段，主题建模阶段利用T-oBTM主题模型对Ⅰ中的语料库进行主题提取；所述主题建模阶段具体方法为：基于网络新词处理的文本预处理结束后，利用T-oBTM主题模型处理语料库，得到弹幕文本的主题词；

第III阶段为文本聚类阶段，文本聚类阶段利用经典聚类算法对II输出的主题词进行聚类；所述文本聚类具体方法为：用经典聚类算法处理得到的主题词，得到弹幕的聚类结果。

基于网络新词处理进行弹幕文本特征扩展，其中网络新词包括实体名词和网络流行语两类词汇，利用外部知识库——百度百科获得网络新词相关的特征词，实体名词对应的特征词采用特征加权的方式扩展弹幕文本特征，网络流行语利用对应的特征词替换原词的方式扩展弹幕文本特征，在网络新词处理部分提出网络新词识别算法，由于通过优化权重改进了基于互信息和左右信息熵的新词发现算法；

由于弹幕文本过短，语法不规范，所述新词发现算法为互信息和左右信息熵设置权重，设互信息权重为λ，则信息熵权重为(1-λ)，则权重优化后的预选词得分的计算公式为定义1；

定义1：(预选词得分计算公式)设预选词为W_i：

Score(W_i)＝λPMI(x，y)+(1-λ)min(H_L(W)，H_R(W)) (1)

其中，PMI(x，y)是点间互信息值，x和y之间的关系越紧密，PMI值越大；H_L(W)、H_R(W)指的是左右信息熵，预选词W左右两侧的单词变化频繁，说明预选词左右两侧自由度高，即预选词的外部紧密度低； min(H_L(W)，H_R(W))表示取左右熵中值较低的一个，若较低熵也大于熵阈值，则说明该预选词是一个新词的概率大。

利用改进的T-oBTM进行弹幕文本主题提取，所述T-oBTM对词对 (w_i，w_j)进行筛选，人们总是倾向于在弹幕中表达观点、想法、情感等主观内容，所以弹幕中实体词和其他观点类等词语难免会有相同，如果某个词对 (w_i，w_j)同时出现的次数很小，则说明该弹幕的观点是边缘的，对于发现主流观点等工作没有帮助，属于噪声点，删除这些词对对于减少算法运行时间有一定帮助；如果某个词对(w_i，w_j)出现的次数很多，说明此观点具有普遍性，但是某些弹幕与视频关联度不高，仅仅是因为本身内容有趣，受到大量用户跟风发送，可以计算这类频度高的词对与主题的相似度，删除相似度较低的词对，节省模型运行时间；

具体做法是在运行T-oBTM之前，需要在时间片t的文档中抽取词对 b_i，区别于oBTM的是，此时的b_i在抽取时需要记录词对出现的频率并排序，设置阈值ε、δ，去掉频率大于ε并且小于δ的词对，保留下来的词对设为b_i ^*，公式如下：

定义2：(基于阈值的词对选取公式)

设

是词对b_i出现的个数，若有

其中，语料库

(N_B：词对总个数，b_i ^*(t)＝(w_i，1 ^*(t)，w_i，2 ^*(t)))，语料库中W个特征词表达K个主题，设z∈[1，K]为主题变量，用P(z)可以表示语料库中主题出现的概率，K维多项分布

(其中θ_k ^t＝P(z＝k)、

))，主题-词对分布Φ^(t)(记作P(w|z))可以表示为一个K×W的矩阵，K行

是W维多项分布(其中，

)，设词对均为独立同分布，那么在已知狄利克雷分布Θ^(t)和

的情况下b_i ^(t)*的概率为：

在已知超参数α^(t)和β^(t)的情况下，可以对Θ^(t)和

分布进行积分得到b_i ^(t)*的概率：

计算每个词对概率的乘积，即得到整个语料库B^(t)的生成概率：

T-oBTM同样采用吉布斯采样技术，T-oBTM共有三个变量需要估计：主题z^(t)分布、狄利克雷分布的参数Θ和Φ但是，由于假定两个分布是共轭先验分布，继而得出分布Θ和Φ，因此，对于词对b_i ^*(t)，只需要根据以下条件分布对其主题z_i ^(t)进行采样(W是指语料库中互不相同的词语数)：

其中，Z_-i ^(t)表示除b_i ^(t)*，n_-i之外的所有词对的主题特征值；k是分配给主题k的位数，不包括b_i ^(t)*，

是单词w分配给主题k的次数，

在吉布斯采样过程中，通常会将一个主题随机分配给每个词对作为初始状态，在每次迭代中，通过等式(6)来更新每个词对的主题分配，经过足够的迭代次数后，计算每个主题k中的位数n_k，以及每个单词w分配给主题k的次数n_w|k，这些计数用于估算Θ和Φ：

反复进行主题-词对的分布进行吉布斯采样，则有：

迭代完成后得到

和

并利用它们来设置时间片t+1中的超参数α^(t+1)和

本发明的有益效果为：本发明提出了一种根据弹幕特点对词对进行阈值约束的oBTM流式短文本聚类方法(T-oBTM)，减少了算法执行时间，并对网络新词进行识别和处理，达到了扩展文本特征的目的，进而提高了算法精度。本发明对网络新词进行识别与处理，丰富分词词库，提高了分词精度；网络新词处理时，对识别出的实体名词和情感、观点、看法类词语进行区别处理，扩展了短文本特征，提高了聚类精度。本发明对新词识别的方法进行了权重优化，更加适用于弹幕文本的网络新词识别。本发明定义阈值对BTM 模型输入端的词对进行筛选，减少噪声词对，减少模型执行时间。

附图说明

图1为本发明基于特征扩展和T-oBTM的弹幕聚类过程。

图2为本发明新词处理过程。

图3为本发明T-oBTM主题模型。

具体实施方式

实施例1

本发明提出一种基于特征扩展和T-oBTM的弹幕文本聚类方法，其包括网络新词处理阶段、主题建模阶段、文本聚类阶段三个步骤阶段，其具体方法为：

第Ⅲ阶段为文本聚类阶段，文本聚类阶段利用经典聚类算法对Ⅱ输出的主题词进行聚类；所述文本聚类具体方法为：用经典聚类算法处理得到的主题词，得到弹幕的聚类结果。

实施例2

以下侧文档作为案例进行分析：(仅展示部分文本)

一、获取视频数据的一个或多个弹幕文本，然后进行弹幕数据集展示；

二、利用基于权重优化的互信息与左右信息熵的新词识别算法找出弹幕文本集中的top8的新词，并更新分词词库；

1.字串互信息得分数据展示：

格式：’二阶共现词’:(互信息计算结果，词频)

2.字串左右信息熵得分：

格式：’二阶共现词’：左(右)信息熵

3.字串成词得分：显示top 8的字串，观察结果可知，分数越高，该字串是较为常用的网络新词的概率就越大。

公式：Score＝(λ*values[0]+(1-λ)*min(left[d]，right[d]))

其中，values[0]表示字串的PMI值，left[d]表示字串的左信息熵，right[d]表示字串的右信息熵，min(left[d]，right[d])表示取左右信息熵的最小值，熵越小，说明字串的组合越稳定，λ＝0.01，(1-λ)＝0.99。为了说明权重改变对新词识别算法的优化作用，又设λ＝0，(1-λ)＝1；λ＝1，(1-λ)＝0；λ＝1，(1-λ)＝1；三组实验做对比，结果如下：

评价指标：F值

通过F值可以看出，当λ＝0.01，(1-λ)＝0.99时新词识别的效果较好。 F值综合了准确率和召回率两个统计结果，准确率公式为：

其中，W_correct表示该次正确识别出的新词数；W_detected表示该次总共识别出的新词数。由于示例文本容量适中，通过人工分析得出新词共有8个，设计召回率公式为：

其中，W_correct表示该次正确识别出的新词数；N表示人工分析得到的新词总个数，该示例中N＝8。

三、基于百度百科知识库的新词处理

1.新词对应的百度词条内容：

2.新词对应的替换和特征词：(利用BTM主题模型提取词条主题词)

3.基于新词处理的预处理结果展示：

四、基于T-oBTM的弹幕结果展示

----------day 0--------------

K:20,day:0,n(W):108

p(z)Top words

0.331897 断绝:0.025548 父母:0.025548 关系:0.025548 出钱:0.025548 墓地:0.025548

火葬:0.025548 够意思:0.025548 倪大红:0.000016

0.271552 打call:0.026743 吸血亲戚:0.026743 倪大红:0.020061 老戏骨:0.010039 苏明成:

0.010039 吸血鬼:0.006698 苏明玉:0.006698

0.030172 苏大强:0.004130

----------day 1--------------

K:20,day:1,n(W):108

p(z)Top words

0.476804 打call:0.028493 女儿:0.026119 倪大红:0.023746 明玉:0.021372苏明玉:0.018999 吸血亲戚:0.018999 重男轻女:0.011879 苏母:0.011879

0.198454 断绝:0.025548 父母:0.025548 关系:0.025548 墓地:0.025548 火葬:0.025548

够意思:0.025548 倪大红:0.000016

0.069588 姚晨:0.019006 喜欢:0.015209 雷厉风行:0.015209 干练:0.015209女强人:0.003816 断绝:0.000019 父母:0.000019 关系:0.000019

0.048969 苏大强:0.011769 宝宝:0.007852 照顾:0.007852 理所应当:0.007852

----------day 2--------------

K:20,day:2,n(W):108

p(z)Top words

0.522321 明玉:0.034061 苏明玉:0.028953 苏母:0.027250 女儿:0.027250 原生家庭:0.023845 打call:0.020440 重男轻女:0.018737 倪大红:0.017035 吸血亲戚:0.013629

0.197917 断绝:0.021674 父母:0.021674 关系:0.021674 墓地:0.021674 火葬:0.021674 够意思:0.021674 原生家庭:0.018967

0.096726 演员:0.033202 打call:0.016609 原生家庭:0.016609 都挺好:0.016609 电视剧: 0.016609 演技:0.016609

0.040179 姚晨:0.019006 喜欢:0.015209 雷厉风行:0.015209 干练:0.015209女强人:0.003816 断绝:0.000019 父母:0.000019 关系:0.000019 出钱:0.000019

0.031250 苏大强:0.015563 宝宝:0.007791 照顾:0.007791 理所应当:0.003905

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于特征扩展和T-oBTM的弹幕文本聚类方法，其特征在于包括网络新词处理阶段、主题建模阶段、文本聚类阶段三个步骤阶段，

第Ⅰ阶段为网络新词处理，此阶段包括文本预处理，网络新词处理阶段利用基于权重优化的互信息与左右信息熵的新词识别算法找出弹幕文本中的网络新词，将网络新词更新到分词词库，利用外部知识库获取网络新词相关内容，经过分析得与到网络新词相关的特征词，利用特征词扩展文本特征得到语料库；所述网络新词处理阶段具体方法为：采用新词识别算法更新文本预处理的分词词库；利用新分词词库对原文本预处理，得到保留了网络新词的语料库；选择百度百科作为外部知识库，得到网络新词相关内容，通过BTM模型分析得到网络新词对应的特征词，用特征词替换或者加权方法丰富语料库；

2.按照权利要求1所述的一种基于特征扩展和T-oBTM的弹幕文本聚类方法，其特征在于基于网络新词处理进行弹幕文本特征扩展，其中网络新词包括实体名词和网络流行语两类词汇，利用外部知识库——百度百科获得网络新词相关的特征词，实体名词对应的特征词采用特征加权的方式扩展弹幕文本特征，网络流行语利用对应的特征词替换原词的方式扩展弹幕文本特征，在网络新词处理部分提出网络新词识别算法，由于通过优化权重改进了基于互信息和左右信息熵的新词发现算法；

定义1：(预选词得分计算公式)设预选词为W_i：

Score(W_i)＝λPMI(x，y)+(1-λ)min(H_L(W)，H_R(W)) (1)

其中，PMI(x，y)是点间互信息值，x和y之间的关系越紧密，PMI值越大；H_L(W)、H_R(W)指的是左右信息熵，预选词W左右两侧的单词变化频繁，说明预选词左右两侧自由度高，即预选词的外部紧密度低；min(H_L(W)，H_R(W))表示取左右熵中值较低的一个，若较低熵也大于熵阈值，则说明该预选词是一个新词的概率大。

3.按照权利要求1所述的一种基于特征扩展和T-oBTM的弹幕文本聚类方法，其特征在于利用改进的T-oBTM进行弹幕文本主题提取，所述T-oBTM对词对(w_i,w_j)进行筛选，人们总是倾向于在弹幕中表达观点、想法、情感等主观内容，所以弹幕中实体词和其他观点类等词语难免会有相同，如果某个词对(w_i,w_j)同时出现的次数很小，则说明该弹幕的观点是边缘的，对于发现主流观点等工作没有帮助，属于噪声点，删除这些词对对于减少算法运行时间有一定帮助；如果某个词对(w_i,w_j)出现的次数很多，说明此观点具有普遍性，但是某些弹幕与视频关联度不高，仅仅是因为本身内容有趣，受到大量用户跟风发送，可以计算这类频度高的词对与主题的相似度，删除相似度较低的词对，节省模型运行时间；

具体做法是在运行T-oBTM之前，需要在时间片t的文档中抽取词对b_i，区别于oBTM的是，此时的b_i在抽取时需要记录词对出现的频率并排序，设置阈值ε、δ，去掉频率大于ε并且小于δ的词对，保留下来的词对设为b_i ^*，公式如下：

定义2：(基于阈值的词对选取公式)