CN111061866A - 一种基于特征扩展和T-oBTM的弹幕文本聚类方法 - Google Patents

一种基于特征扩展和T-oBTM的弹幕文本聚类方法 Download PDF

Info

Publication number
CN111061866A
CN111061866A CN201910769654.3A CN201910769654A CN111061866A CN 111061866 A CN111061866 A CN 111061866A CN 201910769654 A CN201910769654 A CN 201910769654A CN 111061866 A CN111061866 A CN 111061866A
Authority
CN
China
Prior art keywords
word
words
text
bullet screen
topic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910769654.3A
Other languages
English (en)
Other versions
CN111061866B (zh
Inventor
吴迪
黄竹韵
生龙
张梦甜
杨瑞欣
孙雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei University of Engineering
Original Assignee
Hebei University of Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei University of Engineering filed Critical Hebei University of Engineering
Priority to CN201910769654.3A priority Critical patent/CN111061866B/zh
Publication of CN111061866A publication Critical patent/CN111061866A/zh
Application granted granted Critical
Publication of CN111061866B publication Critical patent/CN111061866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于特征扩展和T‑oBTM的弹幕文本聚类方法,包括网络新词处理阶段、主题建模阶段、文本聚类阶段三个步骤阶段,本发明提出了一种根据弹幕特点对词对进行阈值约束的oBTM流式短文本聚类方法(T‑oBTM),减少了算法执行时间,并对网络新词进行识别和处理,达到了扩展文本特征的目的,进而提高了算法精度。本发明对网络新词进行识别与处理,丰富分词词库,提高了分词精度;网络新词处理时,对识别出的实体名词和情感、观点、看法类词语进行区别处理,扩展了短文本特征,提高了聚类精度。

Description

一种基于特征扩展和T-oBTM的弹幕文本聚类方法
技术领域
本发明涉及多媒体处理的技术领域,尤其涉及一种基于特征扩展和 T-oBTM的弹幕文本聚类方法。
背景技术
弹幕是指视频播放时可以发送到屏幕上的评论,能即时的表达用户的看法和情感,因此弹幕中隐含信息的研究价值很大,有助于发现视频用户话题等工作。相比于其他类型的评论,弹幕文本过短、含有网络新词过多、即时性强、变化迅速,属于流式短文本。由于上述特点,弹幕文本的研究有语义信息少和高维稀疏性的难点。
弹幕都是用户即时发送的,内容多为主观情感,所以弹幕的研究大多是面向情感分析的。郑飏飏等人提出了一种基于构建情感词典的弹幕文本分析方法,通过情感字典抽取情感词并计算情感值,加入时间信息,用可视图展现了情感分类及趋势。这种方法需要人工分析情感词,耗费大,算法植入性差。邓扬等人基于多主体视频片段情感识别(Multi-Topic Emotion Recognition,MTER)模型对弹幕分类,他提到只使用LDA进行情感词分类时,无法根据上下文识别陌生情感词,所以又加入了MTER模型调整LDA产生的视频片段情感向量。使用无监督方法进行情感分析的还有洪庆等人,他们选择改进K-Means进行情感聚类,在原算法中加入了动态时间规整 (Dynamic Time Warping,DTM)算法计算情感相似度,这种方法过多删除噪声点及噪声点周围的数据,所以精度不高。邱宁佳等人提出一种基于卷积神经网络模型的弹幕文本分类法,该方法能够在自主学习后对弹幕文本进行标注,避免了过多的人工标注,而且分类精度较高。
上述方法的思想主要来源于长文本的处理方法,主要通过建立字典、人工标注的方法弥补文本过短的问题,但是方法本身耗费较大,所以出现了以下两种方法。
一种是引入外部知识丰富短文本。Xu T等人提出引入增强词法的局部聚类算法,该方法利用维基百科知识扩展微博短文本,辅助计算语义相似度。 WuZ等人提出基于Wikipedia匹配的分类方法,该方法能够帮助识别短文本语义,提高分类精度。ShirakawaM等人提出用维基百科知识扩充短文本,减少语义噪声。NakamuraT提出了两种基于维基百科的多语言短文本聚类的语义关联度量方法,该方法将维基百科的跨语言链接整合到扩展朴素贝叶斯 (ENB)中,解决了语义鸿沟问题。SimsekA等人认为结合情感数据和维基百科相关知识,可以更精确的找到微博用户相匹配的广告推荐。
另一种是在短文本上进行主题建模。程学旗、晏小辉等人在2013年提出了词对主题模型(Biterm Topic Model,BTM),文章中还给出了处理流式短文本的在线词对主题模型(Online Biterm Topic Model,oBTM)。XiaY提出了基于区分词对主题模型($d$-BTM)的新闻标题分类,该模型可以区分一般词对和表现文档特征的词对,帮助删除与短文本关联度差的词对。
以上两种方法在精度上都有待提高。胡学钢等人结合两种方法,提出了基于oBTM的短文本流概念漂移检测方法,该方法有效的提高了分类精度,避免了人工标注。该方法先将数据集分成多个数据块,每个数据块中采用相同的处理方法,首先提出基于外部知识库扩展数据块中的短文本,找出维基百科知识库中有关短文本内容的部分长文本,经过LDA模型处理,得到主题词来扩展语料库,缓解文本空间稀疏问题,然后利用oBTM对数据块中的短文本进行基于主题的表示,减少文本空间维度,最后将多个数据块集成为一个分类器。这种方法经实验证明精确度高。但是弹幕文本过短、内容杂乱,无法预知弹幕文本和知识库中哪些内容关联度高,所以需要从其他方面扩展弹幕语料库。
弹幕文本中含有大量的网络新词,一定程度上导致语义不明确、语法不规范。这些网络新词一般包括实体名词和网路流行语,这些词没有规则的语法,往往在预处理阶段被拆分或删除,产生噪声词,导致数据高维稀疏,影响精确度,但这些新词隐含用户的观点和情感,所以需要保留下来,可以达到扩展文本特征的目的,其中网络新词识别是关键工作。新词识别一般分为两种方法:基于规则法和基于统计法,赵志滨等人提出基于句法分析和词向量的领域新词识别,该方法需要建立专门的句法规则。这种基于规则的方法过多依赖成词规则和字典,缺乏灵活性,所以大多学者选择统计法,统计法包括词频统计、互信息、左右信息熵。李文坤等人提出“散串”内部紧密且外部自由度高则可以成词。刘伟童等人在此基础上进行改进,提出了基于互信息和邻接熵的新词识别算法,通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词,再计算候选词的信息熵和其他方法得到新词。曾浩等人提出结合规则和统计的方法,该方法结构较精确,但是需要建立构词规则和统计计算,工作量大,耗时多,所以研究者一般采用多种统计法结合的算法进行新词识别。
现有技术主要存在以下不足:
现有技术虽面向短文本流领域,但是弹幕这类短文本流具有网络新词泛滥、语法不完整不规范、语义信息过少的特点,无法预知文本内容与哪些方面有关,利用内容相关度高的外部知识库文本进行特征扩展不再适用。
弹幕文本很短,有可能一篇文档只有3、4个词语组成,计算信息熵值时主要是统计预选词与左右词汇的紧密程度,词语过少会有缺少统计参数的问题,所以利用融合互信息与左右信息熵的方法进行网络新词识别需要加以改进。
语料库规模庞大,直接抽取词对,保留了很多噪声词对,造成主题-词对分布和主题分布复杂,导致模型处理时间较长,算法效率较低。
发明内容
根据以上技术问题,本发明提出一种基于特征扩展和T-oBTM的弹幕文本聚类方法,其特征在于包括网络新词处理阶段、主题建模阶段、文本聚类阶段三个步骤阶段,
第Ⅰ阶段为网络新词处理,此阶段包括文本预处理,网络新词处理阶段利用基于权重优化的互信息与左右信息熵的新词识别算法找出弹幕文本中的网络新词,将网络新词更新到分词词库,利用外部知识库获取网络新词相关内容,经过分析得与到网络新词相关的特征词,利用特征词扩展文本特征得到语料库;所述网络新词处理阶段具体方法为:采用新词识别算法更新文本预处理的分词词库;利用新分词词库对原文本预处理,得到保留了网络新词的语料库;选择百度百科作为外部知识库,得到网络新词相关内容,通过BTM 模型分析得到网络新词对应的特征词,用特征词替换或者加权方法丰富语料库;
第Ⅱ阶段为主题建模阶段,主题建模阶段利用T-oBTM主题模型对Ⅰ中的语料库进行主题提取;所述主题建模阶段具体方法为:基于网络新词处理的文本预处理结束后,利用T-oBTM主题模型处理语料库,得到弹幕文本的主题词;
第III阶段为文本聚类阶段,文本聚类阶段利用经典聚类算法对II输出的主题词进行聚类;所述文本聚类具体方法为:用经典聚类算法处理得到的主题词,得到弹幕的聚类结果。
基于网络新词处理进行弹幕文本特征扩展,其中网络新词包括实体名词和网络流行语两类词汇,利用外部知识库——百度百科获得网络新词相关的特征词,实体名词对应的特征词采用特征加权的方式扩展弹幕文本特征,网络流行语利用对应的特征词替换原词的方式扩展弹幕文本特征,在网络新词处理部分提出网络新词识别算法,由于通过优化权重改进了基于互信息和左右信息熵的新词发现算法;
由于弹幕文本过短,语法不规范,所述新词发现算法为互信息和左右信息熵设置权重,设互信息权重为λ,则信息熵权重为(1-λ),则权重优化后的预选词得分的计算公式为定义1;
定义1:(预选词得分计算公式)设预选词为Wi
Score(Wi)=λPMI(x,y)+(1-λ)min(HL(W),HR(W)) (1)
其中,PMI(x,y)是点间互信息值,x和y之间的关系越紧密,PMI值越大;HL(W)、HR(W)指的是左右信息熵,预选词W左右两侧的单词变化频繁,说明预选词左右两侧自由度高,即预选词的外部紧密度低; min(HL(W),HR(W))表示取左右熵中值较低的一个,若较低熵也大于熵阈值,则说明该预选词是一个新词的概率大。
利用改进的T-oBTM进行弹幕文本主题提取,所述T-oBTM对词对 (wi,wj)进行筛选,人们总是倾向于在弹幕中表达观点、想法、情感等主观内容,所以弹幕中实体词和其他观点类等词语难免会有相同,如果某个词对 (wi,wj)同时出现的次数很小,则说明该弹幕的观点是边缘的,对于发现主流观点等工作没有帮助,属于噪声点,删除这些词对对于减少算法运行时间有一定帮助;如果某个词对(wi,wj)出现的次数很多,说明此观点具有普遍性,但是某些弹幕与视频关联度不高,仅仅是因为本身内容有趣,受到大量用户跟风发送,可以计算这类频度高的词对与主题的相似度,删除相似度较低的词对,节省模型运行时间;
具体做法是在运行T-oBTM之前,需要在时间片t的文档中抽取词对 bi,区别于oBTM的是,此时的bi在抽取时需要记录词对出现的频率并排序,设置阈值ε、δ,去掉频率大于ε并且小于δ的词对,保留下来的词对设为bi *,公式如下:
定义2:(基于阈值的词对选取公式)
Figure RE-GDA0002224072880000067
Figure RE-GDA0002224072880000061
是词对bi出现的个数,若有
Figure RE-GDA0002224072880000062
其中,语料库
Figure RE-GDA0002224072880000063
(NB:词对总个数,bi *(t)=(wi,1 *(t),wi,2 *(t))),语料库中W个特征词表达K个主题,设z∈[1,K]为主题变量,用P(z)可以表示语料库中主题出现的概率,K维多项分布
Figure RE-GDA0002224072880000064
(其中θk t=P(z=k)、
Figure RE-GDA0002224072880000065
)),主题-词对分布Φ(t)(记作P(w|z))可以表示为一个K×W的矩阵,K行
Figure RE-GDA0002224072880000066
是W维多项分布(其中,
Figure RE-GDA0002224072880000071
),设词对均为独立同分布,那么在已知狄利克雷分布Θ(t)
Figure RE-GDA0002224072880000072
的情况下bi (t)*的概率为:
Figure RE-GDA0002224072880000073
在已知超参数α(t)和β(t)的情况下,可以对Θ(t)
Figure RE-GDA0002224072880000074
分布进行积分得到bi (t)*的概率:
Figure RE-GDA0002224072880000075
计算每个词对概率的乘积,即得到整个语料库B(t)的生成概率:
Figure RE-GDA0002224072880000076
T-oBTM同样采用吉布斯采样技术,T-oBTM共有三个变量需要估计:主题z(t)分布、狄利克雷分布的参数Θ和Φ但是,由于假定两个分布是共轭先验分布,继而得出分布Θ和Φ,因此,对于词对bi *(t),只需要根据以下条件分布对其主题zi (t)进行采样(W是指语料库中互不相同的词语数):
Figure RE-GDA0002224072880000077
其中,Z-i (t)表示除bi (t)*,n-i之外的所有词对的主题特征值;k是分配给主题k的位数,不包括bi (t)*
Figure RE-GDA0002224072880000078
是单词w分配给主题k的次数,
Figure RE-GDA0002224072880000081
在吉布斯采样过程中,通常会将一个主题随机分配给每个词对作为初始状态,在每次迭代中,通过等式(6)来更新每个词对的主题分配,经过足够的迭代次数后,计算每个主题k中的位数nk,以及每个单词w分配给主题k的次数nw|k,这些计数用于估算Θ和Φ:
Figure RE-GDA0002224072880000082
Figure RE-GDA0002224072880000083
反复进行主题-词对的分布进行吉布斯采样,则有:
Figure RE-GDA0002224072880000084
迭代完成后得到
Figure RE-GDA0002224072880000085
Figure RE-GDA0002224072880000086
并利用它们来设置时间片t+1中的超参数α(t+1)
Figure RE-GDA0002224072880000087
Figure RE-GDA0002224072880000088
Figure RE-GDA0002224072880000089
本发明的有益效果为:本发明提出了一种根据弹幕特点对词对进行阈值约束的oBTM流式短文本聚类方法(T-oBTM),减少了算法执行时间,并对网络新词进行识别和处理,达到了扩展文本特征的目的,进而提高了算法精度。本发明对网络新词进行识别与处理,丰富分词词库,提高了分词精度;网络新词处理时,对识别出的实体名词和情感、观点、看法类词语进行区别处理,扩展了短文本特征,提高了聚类精度。本发明对新词识别的方法进行了权重优化,更加适用于弹幕文本的网络新词识别。本发明定义阈值对BTM 模型输入端的词对进行筛选,减少噪声词对,减少模型执行时间。
附图说明
图1为本发明基于特征扩展和T-oBTM的弹幕聚类过程。
图2为本发明新词处理过程。
图3为本发明T-oBTM主题模型。
具体实施方式
实施例1
本发明提出一种基于特征扩展和T-oBTM的弹幕文本聚类方法,其包括网络新词处理阶段、主题建模阶段、文本聚类阶段三个步骤阶段,其具体方法为:
第Ⅰ阶段为网络新词处理,此阶段包括文本预处理,网络新词处理阶段利用基于权重优化的互信息与左右信息熵的新词识别算法找出弹幕文本中的网络新词,将网络新词更新到分词词库,利用外部知识库获取网络新词相关内容,经过分析得与到网络新词相关的特征词,利用特征词扩展文本特征得到语料库;所述网络新词处理阶段具体方法为:采用新词识别算法更新文本预处理的分词词库;利用新分词词库对原文本预处理,得到保留了网络新词的语料库;选择百度百科作为外部知识库,得到网络新词相关内容,通过BTM 模型分析得到网络新词对应的特征词,用特征词替换或者加权方法丰富语料库;
第Ⅱ阶段为主题建模阶段,主题建模阶段利用T-oBTM主题模型对Ⅰ中的语料库进行主题提取;所述主题建模阶段具体方法为:基于网络新词处理的文本预处理结束后,利用T-oBTM主题模型处理语料库,得到弹幕文本的主题词;
第Ⅲ阶段为文本聚类阶段,文本聚类阶段利用经典聚类算法对Ⅱ输出的主题词进行聚类;所述文本聚类具体方法为:用经典聚类算法处理得到的主题词,得到弹幕的聚类结果。
实施例2
以下侧文档作为案例进行分析:(仅展示部分文本)
Figure DEST_PATH_IMAGE001
一、获取视频数据的一个或多个弹幕文本,然后进行弹幕数据集展示;
二、利用基于权重优化的互信息与左右信息熵的新词识别算法找出弹幕文本集中的top8的新词,并更新分词词库;
1.字串互信息得分数据展示:
格式:’二阶共现词’:(互信息计算结果,词频)
Figure RE-GDA0002224072880000102
Figure RE-GDA0002224072880000111
2.字串左右信息熵得分:
格式:’二阶共现词’:左(右)信息熵
Figure RE-GDA0002224072880000112
3.字串成词得分:显示top 8的字串,观察结果可知,分数越高,该字串是较为常用的网络新词的概率就越大。
公式:Score=(λ*values[0]+(1-λ)*min(left[d],right[d]))
Figure RE-GDA0002224072880000113
其中,values[0]表示字串的PMI值,left[d]表示字串的左信息熵,right[d]表示字串的右信息熵,min(left[d],right[d])表示取左右信息熵的最小值,熵越小,说明字串的组合越稳定,λ=0.01,(1-λ)=0.99。为了说明权重改变对新词识别算法的优化作用,又设λ=0,(1-λ)=1;λ=1,(1-λ)=0;λ=1,(1-λ)=1;三组实验做对比,结果如下:
Figure RE-GDA0002224072880000121
评价指标:F值
Figure RE-GDA0002224072880000122
通过F值可以看出,当λ=0.01,(1-λ)=0.99时新词识别的效果较好。 F值综合了准确率和召回率两个统计结果,准确率公式为:
Figure RE-GDA0002224072880000123
其中,Wcorrect表示该次正确识别出的新词数;Wdetected表示该次总共识别出的新词数。由于示例文本容量适中,通过人工分析得出新词共有8个,设计召回率公式为:
Figure RE-GDA0002224072880000124
其中,Wcorrect表示该次正确识别出的新词数;N表示人工分析得到的新词总个数,该示例中N=8。
三、基于百度百科知识库的新词处理
1.新词对应的百度词条内容:
Figure RE-GDA0002224072880000131
2.新词对应的替换和特征词:(利用BTM主题模型提取词条主题词)
Figure RE-GDA0002224072880000132
3.基于新词处理的预处理结果展示:
Figure RE-GDA0002224072880000133
四、基于T-oBTM的弹幕结果展示
----------day 0--------------
K:20,day:0,n(W):108
p(z)Top words
0.331897 断绝:0.025548 父母:0.025548 关系:0.025548 出钱:0.025548 墓地:0.025548
火葬:0.025548 够意思:0.025548 倪大红:0.000016
0.271552 打call:0.026743 吸血亲戚:0.026743 倪大红:0.020061 老戏骨:0.010039 苏明成:
0.010039 吸血鬼:0.006698 苏明玉:0.006698
0.030172 苏大强:0.004130
----------day 1--------------
K:20,day:1,n(W):108
p(z)Top words
0.476804 打call:0.028493 女儿:0.026119 倪大红:0.023746 明玉:0.021372苏明玉:0.018999 吸血亲戚:0.018999 重男轻女:0.011879 苏母:0.011879
0.198454 断绝:0.025548 父母:0.025548 关系:0.025548 墓地:0.025548 火葬:0.025548
够意思:0.025548 倪大红:0.000016
0.069588 姚晨:0.019006 喜欢:0.015209 雷厉风行:0.015209 干练:0.015209女强人:0.003816 断绝:0.000019 父母:0.000019 关系:0.000019
0.048969 苏大强:0.011769 宝宝:0.007852 照顾:0.007852 理所应当:0.007852
----------day 2--------------
K:20,day:2,n(W):108
p(z)Top words
0.522321 明玉:0.034061 苏明玉:0.028953 苏母:0.027250 女儿:0.027250 原生家庭:0.023845 打call:0.020440 重男轻女:0.018737 倪大红:0.017035 吸血亲戚:0.013629
0.197917 断绝:0.021674 父母:0.021674 关系:0.021674 墓地:0.021674 火葬:0.021674 够意思:0.021674 原生家庭:0.018967
0.096726 演员:0.033202 打call:0.016609 原生家庭:0.016609 都挺好:0.016609 电视剧: 0.016609 演技:0.016609
0.040179 姚晨:0.019006 喜欢:0.015209 雷厉风行:0.015209 干练:0.015209女强人:0.003816 断绝:0.000019 父母:0.000019 关系:0.000019 出钱:0.000019
0.031250 苏大强:0.015563 宝宝:0.007791 照顾:0.007791 理所应当:0.003905
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (3)

1.一种基于特征扩展和T-oBTM的弹幕文本聚类方法,其特征在于包括网络新词处理阶段、主题建模阶段、文本聚类阶段三个步骤阶段,
第Ⅰ阶段为网络新词处理,此阶段包括文本预处理,网络新词处理阶段利用基于权重优化的互信息与左右信息熵的新词识别算法找出弹幕文本中的网络新词,将网络新词更新到分词词库,利用外部知识库获取网络新词相关内容,经过分析得与到网络新词相关的特征词,利用特征词扩展文本特征得到语料库;所述网络新词处理阶段具体方法为:采用新词识别算法更新文本预处理的分词词库;利用新分词词库对原文本预处理,得到保留了网络新词的语料库;选择百度百科作为外部知识库,得到网络新词相关内容,通过BTM模型分析得到网络新词对应的特征词,用特征词替换或者加权方法丰富语料库;
第Ⅱ阶段为主题建模阶段,主题建模阶段利用T-oBTM主题模型对Ⅰ中的语料库进行主题提取;所述主题建模阶段具体方法为:基于网络新词处理的文本预处理结束后,利用T-oBTM主题模型处理语料库,得到弹幕文本的主题词;
第Ⅲ阶段为文本聚类阶段,文本聚类阶段利用经典聚类算法对Ⅱ输出的主题词进行聚类;所述文本聚类具体方法为:用经典聚类算法处理得到的主题词,得到弹幕的聚类结果。
2.按照权利要求1所述的一种基于特征扩展和T-oBTM的弹幕文本聚类方法,其特征在于基于网络新词处理进行弹幕文本特征扩展,其中网络新词包括实体名词和网络流行语两类词汇,利用外部知识库——百度百科获得网络新词相关的特征词,实体名词对应的特征词采用特征加权的方式扩展弹幕文本特征,网络流行语利用对应的特征词替换原词的方式扩展弹幕文本特征,在网络新词处理部分提出网络新词识别算法,由于通过优化权重改进了基于互信息和左右信息熵的新词发现算法;
由于弹幕文本过短,语法不规范,所述新词发现算法为互信息和左右信息熵设置权重,设互信息权重为λ,则信息熵权重为(1-λ),则权重优化后的预选词得分的计算公式为定义1;
定义1:(预选词得分计算公式)设预选词为Wi
Score(Wi)=λPMI(x,y)+(1-λ)min(HL(W),HR(W)) (1)
其中,PMI(x,y)是点间互信息值,x和y之间的关系越紧密,PMI值越大;HL(W)、HR(W)指的是左右信息熵,预选词W左右两侧的单词变化频繁,说明预选词左右两侧自由度高,即预选词的外部紧密度低;min(HL(W),HR(W))表示取左右熵中值较低的一个,若较低熵也大于熵阈值,则说明该预选词是一个新词的概率大。
3.按照权利要求1所述的一种基于特征扩展和T-oBTM的弹幕文本聚类方法,其特征在于利用改进的T-oBTM进行弹幕文本主题提取,所述T-oBTM对词对(wi,wj)进行筛选,人们总是倾向于在弹幕中表达观点、想法、情感等主观内容,所以弹幕中实体词和其他观点类等词语难免会有相同,如果某个词对(wi,wj)同时出现的次数很小,则说明该弹幕的观点是边缘的,对于发现主流观点等工作没有帮助,属于噪声点,删除这些词对对于减少算法运行时间有一定帮助;如果某个词对(wi,wj)出现的次数很多,说明此观点具有普遍性,但是某些弹幕与视频关联度不高,仅仅是因为本身内容有趣,受到大量用户跟风发送,可以计算这类频度高的词对与主题的相似度,删除相似度较低的词对,节省模型运行时间;
具体做法是在运行T-oBTM之前,需要在时间片t的文档中抽取词对bi,区别于oBTM的是,此时的bi在抽取时需要记录词对出现的频率并排序,设置阈值ε、δ,去掉频率大于ε并且小于δ的词对,保留下来的词对设为bi *,公式如下:
定义2:(基于阈值的词对选取公式)
Figure FDA0002173146130000031
Figure FDA0002173146130000032
是词对bi出现的个数,若有
Figure FDA0002173146130000033
其中,语料库
Figure FDA0002173146130000034
(NB:词对总个数,bi *(t)=(wi,1 *(t),wi,2 *(t))),语料库中W个特征词表达K个主题,设z∈[1,K]为主题变量,用P(z)可以表示语料库中主题出现的概率,K维多项分布
Figure FDA0002173146130000035
(其中θk t=P(z=k)、
Figure FDA0002173146130000036
)),主题-词对分布Φ(t)(记作P(w|z))可以表示为一个K×W的矩阵,K行
Figure FDA0002173146130000037
是W维多项分布(其中,
Figure FDA0002173146130000038
),设词对均为独立同分布,那么在已知狄利克雷分布Θ(t)
Figure FDA0002173146130000039
的情况下bi (t)*的概率为:
Figure FDA00021731461300000310
在已知超参数α(t)和β(t)的情况下,可以对Θ(t)
Figure FDA00021731461300000311
分布进行积分得到bi (t)*的概率:
Figure FDA0002173146130000041
计算每个词对概率的乘积,即得到整个语料库B(t)的生成概率:
Figure FDA0002173146130000042
T-oBTM同样采用吉布斯采样技术,T-oBTM共有三个变量需要估计:主题z(t)分布、狄利克雷分布的参数Θ和Φ但是,由于假定两个分布是共轭先验分布,继而得出分布Θ和Φ,因此,对于词对bi *(t),只需要根据以下条件分布对其主题zi (t)进行采样(W是指语料库中互不相同的词语数):
Figure FDA0002173146130000043
其中,Z-i (t)表示除bi (t)*,n-i之外的所有词对的主题特征值;k是分配给主题k的位数,不包括bi (t)*
Figure FDA0002173146130000044
是单词w分配给主题k的次数,
Figure FDA0002173146130000045
在吉布斯采样过程中,通常会将一个主题随机分配给每个词对作为初始状态,在每次迭代中,通过等式(6)来更新每个词对的主题分配,经过足够的迭代次数后,计算每个主题k中的位数nk,以及每个单词w分配给主题k的次数nw|k,这些计数用于估算Θ和Φ:
Figure FDA0002173146130000046
Figure FDA0002173146130000047
反复进行主题-词对的分布进行吉布斯采样,则有:
Figure FDA0002173146130000051
迭代完成后得到
Figure FDA0002173146130000052
Figure FDA0002173146130000053
并利用它们来设置时间片t+1中的超参数α(t+1)
Figure FDA0002173146130000054
Figure FDA0002173146130000055
Figure FDA0002173146130000056
CN201910769654.3A 2019-08-20 2019-08-20 一种基于特征扩展和T-oBTM的弹幕文本聚类方法 Active CN111061866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910769654.3A CN111061866B (zh) 2019-08-20 2019-08-20 一种基于特征扩展和T-oBTM的弹幕文本聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910769654.3A CN111061866B (zh) 2019-08-20 2019-08-20 一种基于特征扩展和T-oBTM的弹幕文本聚类方法

Publications (2)

Publication Number Publication Date
CN111061866A true CN111061866A (zh) 2020-04-24
CN111061866B CN111061866B (zh) 2024-01-02

Family

ID=70297412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910769654.3A Active CN111061866B (zh) 2019-08-20 2019-08-20 一种基于特征扩展和T-oBTM的弹幕文本聚类方法

Country Status (1)

Country Link
CN (1) CN111061866B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052666A (zh) * 2020-08-09 2020-12-08 中信银行股份有限公司 一种专家确定方法、装置及存储介质
CN112507164A (zh) * 2020-12-07 2021-03-16 重庆邮电大学 基于内容和用户标识的弹幕过滤方法、装置及存储介质
CN113486654A (zh) * 2021-07-28 2021-10-08 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置
US20180032606A1 (en) * 2016-07-26 2018-02-01 Qualtrics, Llc Recommending topic clusters for unstructured text documents
CN108563667A (zh) * 2018-01-05 2018-09-21 武汉虹旭信息技术有限责任公司 基于新词识别的热门话题采集系统及其方法
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN110134958A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于语义词网络的短文本主题挖掘方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183923A (zh) * 2015-10-27 2015-12-23 上海智臻智能网络科技股份有限公司 新词发现方法及装置
US20180032606A1 (en) * 2016-07-26 2018-02-01 Qualtrics, Llc Recommending topic clusters for unstructured text documents
CN108563667A (zh) * 2018-01-05 2018-09-21 武汉虹旭信息技术有限责任公司 基于新词识别的热门话题采集系统及其方法
CN108829658A (zh) * 2018-05-02 2018-11-16 石家庄天亮教育科技有限公司 新词发现的方法及装置
CN110134958A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于语义词网络的短文本主题挖掘方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
唐晓波: "基于LDA模型和微博热度的热点挖掘", vol. 58, no. 5, pages 58 - 63 *
林特: "一种改进的短文本流主题演化模型", 《微型机与应用》, vol. 36, no. 8, pages 48 - 55 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052666A (zh) * 2020-08-09 2020-12-08 中信银行股份有限公司 一种专家确定方法、装置及存储介质
CN112052666B (zh) * 2020-08-09 2024-05-17 中信银行股份有限公司 一种专家确定方法、装置及存储介质
CN112507164A (zh) * 2020-12-07 2021-03-16 重庆邮电大学 基于内容和用户标识的弹幕过滤方法、装置及存储介质
CN112507164B (zh) * 2020-12-07 2022-04-12 重庆邮电大学 基于内容和用户标识的弹幕过滤方法、装置及存储介质
CN113486654A (zh) * 2021-07-28 2021-10-08 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法
CN113486654B (zh) * 2021-07-28 2024-04-26 焦点科技股份有限公司 一种基于先验主题聚类的敏感词库构建与扩展方法

Also Published As

Publication number Publication date
CN111061866B (zh) 2024-01-02

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Malheiro et al. Emotionally-relevant features for classification and regression of music lyrics
JP6721179B2 (ja) 因果関係認識装置及びそのためのコンピュータプログラム
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
JP6466952B2 (ja) 文章生成システム
CN111221962B (zh) 一种基于新词扩展与复杂句式扩展的文本情感分析方法
WO2019080863A1 (zh) 文本情感分类方法、存储介质及计算机
US8451292B2 (en) Video summarization method based on mining story structure and semantic relations among concept entities thereof
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
CN111061866A (zh) 一种基于特征扩展和T-oBTM的弹幕文本聚类方法
CN112699246A (zh) 基于知识图谱的领域知识推送方法
Homoceanu et al. Will I like it? Providing product overviews based on opinion excerpts
Tiwari et al. Ensemble approach for twitter sentiment analysis
Yamamoto et al. Multidimensional sentiment calculation method for Twitter based on emoticons
CN110674296A (zh) 一种基于关键词的资讯摘要提取方法及系统
CN107526721A (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN116775812A (zh) 一种基于自然语音处理的中医药专利分析与挖掘工具
Hicham et al. An efficient approach for improving customer Sentiment Analysis in the Arabic language using an Ensemble machine learning technique
Alam et al. Social media content categorization using supervised based machine learning methods and natural language processing in bangla language
Chen et al. Weighted co-training for cross-domain image sentiment classification
CN111339403B (zh) 一种基于商品评论新词提取方法
Purba et al. Effect of Random Splitting and Cross Validation for Indonesian Opinion Mining using Machine Learning Approach
CN108717450B (zh) 影评情感倾向性分析算法
CN108804416B (zh) 基于机器学习的影评情感倾向性分析的训练方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant