CN113641788A - 一种基于无监督的长短影评细粒度观点挖掘方法 - Google Patents

一种基于无监督的长短影评细粒度观点挖掘方法 Download PDF

Info

Publication number
CN113641788A
CN113641788A CN202110904457.5A CN202110904457A CN113641788A CN 113641788 A CN113641788 A CN 113641788A CN 202110904457 A CN202110904457 A CN 202110904457A CN 113641788 A CN113641788 A CN 113641788A
Authority
CN
China
Prior art keywords
evaluation
film
movie
words
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110904457.5A
Other languages
English (en)
Other versions
CN113641788B (zh
Inventor
秦涛
刘炉林
刘博豪
李悦
史镇光
靳国庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Konami Sports Club Co Ltd
Original Assignee
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by People Co Ltd filed Critical People Co Ltd
Priority to CN202110904457.5A priority Critical patent/CN113641788B/zh
Publication of CN113641788A publication Critical patent/CN113641788A/zh
Application granted granted Critical
Publication of CN113641788B publication Critical patent/CN113641788B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于无监督的长短影评细粒度观点挖掘方法,其特征在于:1)从社交平台和电影平台进行多维度的影评文本信息获取;2)基于开源中文情感词典,采用SO‑PMI词典扩展方法构建影评情感词典;3)采用基于关联规则方法和word2vec挖掘全局评价对象和个性化评价对象,再通过K‑means形成完整短影评评价对象;4)采用MG‑LDA结合word2vec发现长影评的主题分布以及词分布,构建长影评评价对象;5)对评价对象进行情感分析并形成影评观点摘要。本发明所公开无监督长短影评细粒度观点挖掘方法,较现有的影评挖掘方法相比,可以获取更丰富的影评文本数据,充分挖掘影评文本信息,针对影评长短采用不同的模型获取评价对象,使得本发明的观点挖掘和情感分析效果更佳。

Description

一种基于无监督的长短影评细粒度观点挖掘方法
技术领域
本发明涉及中文文本情感分析领域,具体涉及一种基于无监督的长短影评 细粒度观点挖掘方法。
背景技术
近年来,互联网作为一个聚集了海量主观性文本的平台,已经成为决策支 持的一个具有极其重要价值的资源。在电影领域,网络平台上的影评数量占了 电影影评的绝大部分,这些影评文本反映了用户对电影及其特征属性的观点看 法和情感态度,具有巨大的潜在价值,如何从海量的网络影评文本中挖掘细粒 度的评价对象和对应观点成为该领域的一大挑战。能够精准的挖掘出影评中细 粒度观点,是对该领域提供决策支持和导向的现实需要。
针对中文电影评论语料的观点挖掘研究,常见的方法有基于词频的方法、 基于语言规则的方法以及基于监督学习的方法,其中基于词频方法的最大优点 就是简洁有效,但该方法也有其局限性,即使用该方法可能产生太多的非频繁 方面词,还可能遗漏低频的方面词,并且需要人工调整各种参数等;基于语言 规则的方法改进了基于频率的方法在处理低频方面词上的局限性,但同时也会 产生许多不相关的方面观点模式匹配;而基于监督学习的方法虽然学习模型能 力强,但是需要大量的人工标注成本。同时,很多观点挖掘方法的效果也依赖 于领域特征词(方面词)词典的构建,通常需要专家知识来给出一些领域特征 词作为种子词,可移植性较差。本发明主要研究细粒度观点挖掘的方法在中文 电影评论上的应用,根据从中文社交网络中获取到的电影评论文本数据(包括 短影评和长影评),应用无监督的细粒度观点挖掘的方法,分别对短影评和长 影评进行评价对象的抽取,并生成用户影评的观点摘要,得到用户对电影的各 个方面的观点和情感倾向,为电影业组织提供用户观点以支撑相关行业的商业 决策。
现在已经存在大量的利用社交网络平台为主的中文文本观点挖掘的工作, 在影评方面也有研究。申请人经过查新,检索了本发明领域中2篇相关专利, 分别为:
1.基于词向量的针对电影评论信息的情感分析系统及方法,专利申请公布 号为:CN106156004A;
2.电影评论观点情感倾向性分析方法,专利申请公布号为:CN110825876A。
专利1提出了一种基于词向量的针对电影评论信息的情感分析系统及方法, 其主要包括:采集电影评论,形成评论文本库;对评论文本进行处理分词;对 分词后的评论文本转换为基于词向量的评论向量以及特征提取;最后将评论进 行分类,获取每条评论的类别。
专利2提出了一种电影评论观点情感倾向性分析方法,其主要包括:爬取 多部影片的描述信息和评论信息;对信息文本进行预处理;为评论观点指定多 条提取规则获取观点词和情感词;通过关键词匹配打标或人工标注的方式进行 评论标签标注和情感倾向性标注;生成评论观点情感分析模型;最后针对目标 影评通过该模型自动生成评论标签类别和情感倾向。
上述2篇专利所介绍的方法,都具有很大的局限性。专利1只依靠词向量 进行评论的分类,词向量模型体现的信息较为局限,不能够充分地利用影评文 本数据信息;专利2是基于监督学习的一种方式,需要人工制定提取规则以及 人工标注数据标签,其过程需要耗费大量的人工成本和时间成本。
发明内容
本发明的目的是提供一种基于无监督的长短影评细粒度观点挖掘方法,通 过应用无监督的细粒度观点挖掘方法对长影评和短影评进行观点抽取和情感分 析。首先,对社交网络平台和在线电影社区平台从文本、评分、推荐数等多个 信息维度获取影评,构建长影评数据集和短影评数据集;然后根据现有的情感 基准词典,并通过应用词典扩展方法在长短影评文本数据集的基础之上扩展出 合适的情感词典;接下来针对短影评数据集,采用关联规则挖掘算法和 word2vec构造出评价对象,再用聚类算法进一步聚合评价对象;针对长影评数 据集,采用主题模型MG-LDA算法获取全局和局部评价对象,利用word2cev 进一步补充成完整的影评评价对象;最后,利用构建的情感词典对评价对象进 行情感分析,结合评分数、推荐数等信息,生成影评的观点摘要。本发明充分 考虑并获取了网络影评的多维度信息,构建适合电影领域的情感词典,并针对 影评长短采取不同的方法获取评价对象,具有信息挖掘充分、性能稳健、专业 性强、挖掘效果显著等优点,使得本发明和其它影评观点挖掘和情感分析方法 相比,具有明显的优势。
为了实现上述目的,本发明采取的技术方案为:
步骤1,影评文本数据采集:以社交网络平台和在线电影社区平台的历史 数据为数据源,获取热门电影的评论文本信息、评论电影评分信息和评论文本 投票数,根据影评的长短,分别得到由n部电影组成的短影评集合MS= {ms1,ms2,...,msi…,msn}以及长影评集合Ml={ml1,ml2,...,mli…,mln},其中, msi表示第i部电影的短影评集合,mli表是第i部电影的长影评集合。
具体地,可通过对不同社交网络平台和在线电影社区平台,利用网络爬虫 或网站提供的应用程序接口进行长短影评的爬取,每条影评获取的主要内容包 括:
(1)评论文本信息:获取评论正文文本以及评论发布时间;
(2)评论电影评分信息:获取用户对电影的评分或者推荐数;
(3)评论文本投票数:获取该条评论的点赞数或者赞同数。
将获取的影评通过文本去重、分句、分词、词性标注以及去停用词等数据 预处理方式,根据影评的长短,分别得到短影评集合MS和长影评集合Ml
步骤2,情感词典的构建:将开源的中文情感词典作为基准情感词典。根 据从基准情感词典中选出的在步骤1采集的影评数据中出现次数最多的正面和 负面情感词,采用情感词典扩展方法,在影评文本中识别出在情感词典中没有 出现过的观点词并判断其情感倾向,最终构建出一个适用于影评文本的情感词 典D={wpositive,wnegative},其中,wpositive表示正面情感词,wnegative表示负 面情感词。主要包括:
(1)获取基础情感词典:情感词的研究和分析是研究情感分析和观点挖 掘基础且重要的环节,采用的情感词典主要包括知网(HowNet)情感词典、台 湾大学简体中文情感极性词典以及清华大学中文褒贬义词典,将以上情感词典 合并去重,生成基础情感词典;
(2)基础情感词典扩展:基础情感词典比较通用,但在特定领域的情感 分析的效果比较一般,将采用情感点互信息算法(SO-PMI)提取出一定数量的 步骤1所采集的影评语料作为情感词扩展到情感词典中,情感点互信息值 SOPMI(ci)的计算公式为:
Figure BDA0003200997610000051
其中,从基础情感词典中取出k个正面情感种子词 wpositive={p1,p2,...,pj...,pk}和k个负面情感种子词 wnegative={r1,r2,...,rj…,rk},pj是第j个正面情感种子词,rj是第j个负面情 感种子词,ci是从步骤1的影评文本数据获取的候选情感词,i=1,2,...,k,count(ci,pj)为ci与pj在影评文本中共现的句子数,count(ci,rj)为ci与rj在影评 文本中共现的句子数,当SOPMI(ci)>0时,ci为正面情感词;SOPMI(ci)<0 时,ci为负面情感词;SOPMI(ci)=0时,ci为中性词,将候选情感词ci按照情 感点互信息值扩展到基础情感词典中。
通过上述方法,构建一个适合于所采集的影评文本数据的情感词典 D={wpositive,wnegative}。
步骤3,短影评评价对象识别:在传统的基于关联规则的观点挖掘方法基 础之上进行了调整,结合word2vec词向量训练模型和K-means聚类算法,提 出一种无监督的评价对象抽取方法。具体地,针对从步骤1所构建的短影评集 合,挖掘出全部电影短影评数据中共有的全局评价对象和每部电影影评独有的 个性化评价对象,利用词向量模型扩展出上下文语义相似的词补充到全局评价 对象和个性化评价对象,再通过机器学习聚类算法将表达形式不同但意义相近 的评价对象词归为同一类,形成完整的全局评价对象和个性化评价对象,结合 两者生成每部电影的短影评评价对象。主要包括:
(1)用FP-growth算法替换Apriori算法进行关联规则挖掘,使得频繁项 集的查找变得更加高效,较好地区分全局评价特征和个性化评价特征:
首先,对全部短影评文本应用FP-growth算法,找出名词频繁项集,定义 一个领域一致度的概念来衡量它们在领域内各个语料文本中分布的均匀程度, 分布均匀的可以认为是候选全局特征,特征f的领域一致度DCf定义如下:
Figure BDA0003200997610000061
(pf,i的估计值为:
Figure BDA0003200997610000062
M为采集到的全部影评语料,mi为电影i的影评语料,pf,i表示f的支持度, supf,i表示f在mi中的支持度计数,supf表示f在M中的支持度计数, card(M)表示评论集合M中不同电影数并用于归一化,DCf值越高,表明f在M 中分布越均匀,越有可能是全局频繁特征,将DCf>0的特征列为候选全局特 征;
然后,对每一步影片的短影评文本应用FP-growth算法以同样的方式获取 每部影片的候选个性化特征;
最后,对获取的候选全局特征和候选个性化特征进行剪枝筛选:单字名词 过滤、删除无意义不构成名词短语的候选特征词、删除冗余候选特征词以及删 除领域无关候选特征词以形成最终的全局特征和个性化特征,其中特征f的领 域相关度:
DRf=lg(|{d∈M|f∈d}|)(lg(|{d∈M|f∈d}|/|M|) -lg(|{d∈G|f∈d}|/|G|))
式中:d代表任意一条评论文本,M代表采集到的影评语料,G代表综合 领域的中文语料,|{d∈M|f∈d}|/|M|是影评文本中包含特征f的文本的条件 概率,|{d∈G|f∈d}|/|G|是中文语料中包含特征f的文本的条件概率,DRf越 大,相关度越高,高于一个设定的阈值时可以认为f是该领域的特征,形成短 影评文本的评价对象词,否则认为f与领域不相关,不将f作为领域特征;
(2)采用word2vec扩展短影评文本的评价对象,用word2vec对全局短影 评文本和每部电影的短影评文本分别训练生成词向量模型,利用模型发现与已 识别的评价对象词语语义距离最近的n个词语作为评价对象词语的扩充,对这 些近义词的词性进行筛选,保留名词、形容词和动词,最后生成扩充后的评价 对象;
(3)采用K-means聚类算法对评价对象进行聚类,通过关联规则挖掘和 word2vec词向量模型已经生成基本的短影评文本评价对象,再采用聚类算法对 众多描述相同评价对象的词聚类选出一个最具代表性的词作为评价对象的标准 表达方式有助于影评观点挖掘的准确性和凝练性:
第一步:计算已得到的全局评价对象词语在全局影评文本中的词频,和个 性化评价对象词语在对应的局部影评文本中的词频;
第二步:应用K-means算法对word2vec训练好的评价对象词向量聚类, 由于word2vec中词向量的距离采用余弦相似度进行计算,因此聚类时也用余弦 相似度进行词向量的语义距离计算:
Figure BDA0003200997610000081
同时,K-means采用手肘法来选择聚簇数k,手肘法的核心指标是误差平 方和(Sumof The Squared Errors,SSE),随着聚类数k的增大,样本划分会 更加精细,每个簇的聚合程度会逐渐提高,那么SSE自然会逐渐变小,SSE的 定义式如下:
Figure BDA0003200997610000082
式中:Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心(Ci中所有样本的 均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏;
第三步:聚类完成后,根据聚类结果,最终形成每部影片包含的全局评价 对象和个性化评价对象。
步骤4,长影评评价对象识别:针对从步骤1所构建的长影评集合,使用 主题模型LDA的变式模型多粒度LDA(MG-LDA)发现长影评的主题以及每 个主题下的词分布,再结合词向量模型进一步发现具有大于设定语义相似性的 词,从而获取每部电影的长影评评价对象。
具体地,使用主题模型LDA的变式模型多粒度LDA(MG-LDA)抽取长 影评文本的评价对象,再结合基于word2vec词向量模型的评价对象词扩展和词 性筛选生成长影评文本目标评价对象,具体步骤如下:
(1)采用MG-LDA模型挖掘长影评文本的可评价对象和方面特征,与适 用于发现全局主题类型的LDA模型不同的是,MG-LDA模型能够产生全局主 题和局部主题,即评价对象和方面特征:
第一步:将长影评文本处理成长影评文档列表docs,文档中的句子列表 sents,文档中的词汇列表vocab,初始随机化vocab中每个词对应主题编号和 窗口编号,窗口即局部主题在长影评文档中所占的区域,并且初始化vocab中 所有词汇的各项计数,包括每个词被分配全局主题和局部主题多少次,被分配 给某个全局主题和局部主题多少次以及被分配给某篇文档的某个窗口多少次;
第二步:为得到长影评文本中每个词对应的主题,在一定的迭代次数下进 行Gibbs采样迭代,对文档列表docs中的每个文档d中的每个窗口v进行全局 主题采样和局部主题采样,主题采样的条件概率为
Figure BDA0003200997610000091
Figure BDA0003200997610000092
其中,
Figure BDA0003200997610000093
表示除去文档d中第i个词外所有词所对应的窗口,
Figure BDA0003200997610000094
表示除去文档d中第i个词外所有词所对应的对于全局主题和局部主题的偏好,
Figure BDA0003200997610000095
表示除去文档d中第i个词外所有词所对应的主题。要求得条件概率,必须 计算联合概率分布:
Figure BDA0003200997610000096
该式分解如下:
Figure BDA0003200997610000101
W是词汇个数,r为gl时,
Figure BDA0003200997610000102
表示词w出现在全局主题z中的次数,nr,z表示词w属于全局主题z的次数,r为loc时,
Figure BDA0003200997610000103
表示词w出现在局部主题z中 的次数,nr,z表示词w属于局部主题的次数;βr表示主题下的单词分布的狄利 克雷参数,Kr表示主题数量;
Figure BDA0003200997610000104
Ns表示文档集里的句子数,nd,s表示文档d中句子s的长度,
Figure BDA0003200997610000105
表示文档 d中句子s里出现在窗口v中的词数;T表示窗口覆盖句子的数量,γ表示句子 分布的狄利克雷参数;
Figure BDA0003200997610000106
Nv表示文档集里的窗口数,nd,v表示文档d中分配给窗口v的词数,r为gl 时,
Figure BDA0003200997610000107
表示文档d里的窗口v中属于全局主题的词数;r为loc时,
Figure BDA0003200997610000108
表示文 档d里的窗口v中属于局部主题的词数;
Figure BDA0003200997610000109
表示主题偏好分布的狄利克雷参 数;
Figure BDA00032009976100001010
D是文档数,
Figure BDA00032009976100001011
表示文档d中属于全局主题的词数,
Figure BDA00032009976100001012
表示文档d中属 于全局主题z的词数,
Figure BDA0003200997610000111
表示文档d里窗口v中属于局部主题的词数,
Figure BDA0003200997610000112
表示文档d里窗口v中属于局部主题z的词数;Kgl和Kloc分别表示全局主题和 局部主题的主题数量,αgl和αloc分别表示全局主题和局部主题的主题分布狄利 克雷参数。
得到全局主题采样公式为:
Figure BDA0003200997610000113
其中,
Figure BDA0003200997610000114
的四个因子的物理意义分别为生成词wd,i、选择窗口v、选择wd,i对应的是全局主题以及从全局主题中选择 主题z;
局部主题采样公式为:
Figure BDA0003200997610000115
由上述的采样公式进行采样,可以获取到文档中的全局和局部主题分布、 主题对应的词分布以及方面特征,从中筛选出概率较高的名词,作为长影评文 本的评价对象词;
第三步:采用word2vec扩展长影评文本的评价对象词,与步骤3相似,利 用word2vec训练出的长影评的词向量空间,利用模型发现与已识别的评价对象 词语语义距离最近的n个词语作为评价对象词语的扩充,对这些近义词的词性 进行筛选,保留名词、形容词和动词,最后生成扩充后的评价对象,构建完整 的长影评评价对象。
步骤5,细粒度观点挖掘分析:将步骤2所采集的影评文本数据的情感词 典,分别应用在步骤3所获取的短影评评价对象与步骤4所获取的长影评评价 对象,提取细粒度观点并对其进行分析统计,结合影评的电影评分数和该影评 的推荐数,形成影评观点摘要,为电影制作的决策支持提供建设性意见。
具体地,将步骤2构建的情感词典应用于步骤3和4获取的评价对象的初 步情感分析,加以考虑步骤1构建的长短影评中包含评价对象的影评评分数以 及该影评的推荐数,形成每部影片的评价对象以及观点的情感极性,提取出每 部影片中的每个评价对象的积极观点和消极观点,生成观点摘要,为电影制片 方和内容供应商提供决策支持。
与现有的电影影评的观点挖掘和情感分析方法相比,本发明的有益效果是:
(1)现有的方法影评文本数据来源较为单一,而影评文本数据存在大量 的网络平台上,本发明不仅从在线电影社区平台获取影评文本数据,而且包括 主流的社交网络平台,获取的数据更加丰富多样;
(2)现有的方法大多基于词向量、聚类算法等,本发明将这些方法很好 地综合在一起,使影评文本数据信息被更充分地利用挖掘;
(3)由于常用的模型对文本长度比较敏感,而影评的文本长短相差较大, 对短影评和长影评采用不同的模型方法进行评价对象抽取,使得本发明具有更 加的观点挖掘和情感分析效果。
附图说明
图1是本发明基于无监督的长短影评细粒度观点挖掘方法框图。
图2是影评文本采集过程的流程图。
图3是影评情感词典构建过程的流程图。
图4是短影评评价对象识别过程的流程图。
图5是长影评评价对象识别过程的流程图。
图6是情感分析及观点摘要生成过程的流程图。
具体实施方式
以下结合附图及实施例对本发明的实施方式进行详细说明。需要说明的是, 此处描述的实施例只用以解释本发明,并不用于限定本发明。此外,在不冲突 的情况下,本发明中的实施例涉及的技术特征可以相互结合。
本发明的具体实施过程包括影评文本采集过程、影评情感词典构建过程、 短影评评价对象识别过程、长影评评价对象识别过程、情感分析及观点摘要生 成过程。图1是本发明基于无监督的长短影评细粒度观点挖掘方法框图。
1.影评文本采集过程
影评文本获取的具体过程如下:
(1)确定影评采集的电影:可以选择目标电影,也可以选择热门电影, 或者新上映的电影;
(2)确定影评爬取网站:考虑到不同网络平台信息的异质性,线上影评 存在多个网络平台,不同网络平台的数据有不同的特点,获取不同网络平台的 数据,扩充丰富影评文本数据集;
(3)获取影评文本:利用网络爬虫或网站提供的应用程序接口,根据目 标网站制定数据获取方案,按照电影名称进行影评的获取;
(4)影评文本数据预处理:在原始文本中,对重复的评论数据进行文本 去重,对文本中的标点符号或正则表达式进行分局,对句子进行分词和词性标 注,对文本中没有实际意义的词进行去停用词操作;
(5)构建影评文本数据集:根据影评的长短或者影评网站给出的长影评 短影评标签,将影评文本分别归类为长影评文本数据集和短影评文本数据集。
影评获取的主要内容包括:
(1)评论文本信息:获取评论正文文本以及评论发布时间;
(2)评论电影评分信息:获取用户对电影的评分或者推荐数;
(3)评论文本投票数:获取该条评论的点赞数或者赞同数。
2.影评情感词典构建过程
将开源的中文情感词典作为基准情感词典,采用情感词典扩展方法,在影 评文本中识别出在情感词典中没有出现过的观点词并判断其情感倾向,最终构 建出一个影评情感词典,其主要过程包括:
(1)获取情感词典资源:情感词的研究和分析是研究情感分析和观点挖 掘基础且重要的环节,采用的情感词典主要包括知网(HowNet)情感词典、台 湾大学简体中文情感极性词典、清华大学中文褒贬义词典;
(2)构建基础情感词典:将上述情感词典进行合并和去重,得到基础情 感词典,并统计其中的正面情感词和负面情感词的数量;
(3)构建影评情感词典:采用情感点互信息算法(SO-PMI)提取出一定 数量的所采集的影评语料作为情感词扩展到情感词典中,SO-PMI值的计算公 式为:
Figure BDA0003200997610000151
其中,从基础情感词典中取出k个正面情感种子词 wpositive={p1,p2,...,pj...,pk}和k个负面情感种子词 wnegative={r1,r2,...,rj…,rk},pj是第j个正面情感种子词,rj是第j个负面情 感种子词,ci是从步骤1的影评文本数据获取的候选情感词,i=1,2,...,k,count(ci,pj)为ci与pj在影评文本中共现的句子数,count(ci,rj)为ci与rj在影评 文本中共现的句子数,当SOPMI(ci)>0时,ci为正面情感词;SOPMI(ci)<0 时,ci为负面情感词;SOPMI(ci)=0时,ci为中性词,将候选情感词ci按照情 感点互信息值扩展到基础情感词典中,构建情感词典D。
该过程的流程图如图2所示,依此构建出影评情感词典。
3.短影评评价对象识别
采用基于关联规则的方法挖掘出全部电影影评共有的全局评价对象和每部 电影影评独有的个性化评价对象,利用word2vec扩展出上下文语义相似的词补 充到全局评价对象和个性化评价对象,再通过K-means聚类算法将表达形式不 一但意义相近的评价对象词归为同一类,形成完整的全局评价对象和个性化评 价对象,结合两者生成每部电影的影评评价对象,其主要过程包括:
(1)用FP-growth算法替换Apriori算法进行关联规则挖掘,使得频繁项 集的查找变得更加高效,较好地区分全局评价特征和个性化评价特征:
首先,对全部短影评文本应用FP-growth算法,找出名词频繁项集,定义 一个领域一致度的概念来衡量它们在领域内各个语料文本中分布的均匀程度, 分布均匀的可以认为是候选全局特征,特征f的领域一致度DCf定义如下:
Figure BDA0003200997610000161
(pf,i的估计值为:
Figure BDA0003200997610000162
M为本文采集到的全部影评语料,mi为电影i的影评语料,supf,i表示f在 mi中的支持度计数,supf表示f在M中的支持度计数,card(M)表示评论集合 M中不同电影数并用于归一化,DCf值越高,表明f在M中分布越均匀,越有 可能是全局频繁特征,将DCf>0的特征列为候选全局特征;
然后,对每一步影片的短影评文本应用FP-growth算法以同样的方式获取 每部影片的候选个性化特征;
最后,对获取的候选全局特征和候选个性化特征进行剪枝筛选:单字名词 过滤、删除无意义不构成名词短语的候选特征词、删除冗余候选特征词以及删 除领域无关候选特征词以形成最终的全局特征和个性化特征,其中特征f的领 域相关度:
DRf=lg(|{d∈M|f∈d}|)(lg(|{d∈M|f∈d}|/|M|) -lg(|{d∈G|f∈d}|/|G|))
式中:d代表任意一条评论文本,M代表本文采集到的影评语料,G代表 综合领域的中文语料,|{d∈M|f∈d}|/|M|是影评文本中包含特征f的文本的 条件概率,|{d∈G|f∈d}|/|G|是中文语料中包含特征f的文本的条件概率, DRf越大,相关度越高,高于一个阈值时可以认为f是该领域的特征,形成短 影评文本的评价对象词,否则认为f与领域不相关,不将f作为领域特征;
(2)采用word2vec扩展短影评文本的评价对象,用word2vec对全局短影 评文本和每部电影的短影评文本分别训练生成词向量模型,利用模型发现与已 识别的评价对象词语语义距离最近的n个词语作为评价对象词语的扩充,对这 些近义词的词性进行筛选,保留名词、形容词和动词,最后生成扩充后的评价 对象;
(3)采用K-means聚类算法对评价对象进行聚类,通过关联规则挖掘和 word2vec词向量模型已经生成基本的短影评文本评价对象,再采用聚类算法对 众多描述相同评价对象的词聚类选出一个最具代表性的词作为评价对象的标准 表达方式有助于影评观点挖掘的准确性和凝练性:
第一步:计算已得到的全局评价对象词语在全局影评文本中的词频,和个 性化评价对象词语在对应的局部影评文本中的词频;
第二步:应用K-means算法对word2vec训练好的评价对象词向量聚类, 由于word2vec中词向量的距离采用余弦相似度进行计算,因此聚类时也用余弦 相似度进行词向量的语义距离计算:
Figure BDA0003200997610000181
同时,K-means采用手肘法来选择聚簇数k,手肘法的核心指标是误差平 方和(Sumof The Squared Errors,SSE),随着聚类数k的增大,样本划分会 更加精细,每个簇的聚合程度会逐渐提高,那么SSE自然会逐渐变小,SSE的 定义式如下:
Figure BDA0003200997610000182
式中:Ci是第i个簇,p是Ci中的样本点,mi是Ci的质心(Ci中所有样本的 均值),SSE是所有样本的聚类误差,代表了聚类效果的好坏;
第三步:聚类完成后,根据聚类结果,最终形成每部影片包含的全局评价 对象和个性化评价对象。
短影评评价对象识别过程流程图如图4所示,依此便可识别短影评评价对 象。
4.长影评评价对象识别
用主题模型LDA的变种模型MG-LDA发现长影评的主题分布以及每个主 题下的词分布,再结合词向量模型word2vec进一步发现具有较大语义相似性的 词,从而获取每部电影的影评评价对象,其主要过程包括:
(1)采用MG-LDA模型挖掘长影评文本的可评价对象和方面特征,与适 用于发现全局主题类型的LDA模型不同的是,MG-LDA模型能够产生全局主 题和局部主题,即评价对象和方面特征:
第一步:将长影评文本处理成长影评文档列表docs,文档中的句子列表 sents,文档中的词汇列表vocab,初始随机化vocab中每个词对应主题编号和 窗口编号,窗口即局部主题在长影评文档中所占的区域,并且初始化vocab中 所有词汇的各项计数,包括每个词被分配全局主题和局部主题多少次,被分配 给某个全局主题和局部主题多少次以及被分配给某篇文档的某个窗口多少次;
第二步:为得到长影评文本中每个词对应的主题,在一定的迭代次数下进 行Gibbs采样迭代,对文档列表docs中的每个文档d中的每个窗口v进行全局 主题采样和局部主题采样,主题采样的条件概率为
Figure BDA0003200997610000195
Figure BDA0003200997610000196
其中,
Figure BDA0003200997610000197
表示除去文档d中第i个词外所有词所对应的窗口,
Figure BDA0003200997610000198
表示除去文档d中第i个词外所有词所对应的对于全局主题和局部主题的偏好,
Figure BDA0003200997610000199
表示除去文档d中第i个词外所有词所对应的主题,要求得条件概率,先计 算联合概率分布:
Figure BDA0003200997610000191
该式分解如下:
Figure BDA0003200997610000192
W是词汇个数,r为gl时,
Figure BDA0003200997610000193
表示词w出现在全局主题z中的次数,nr,z表示词w属于全局主题z的次数,r为loc时,
Figure BDA0003200997610000194
表示词w出现在局部主题z中 的次数,nr,z表示词w属于局部主题的次数;βr表示主题下的单词分布的狄利 克雷参数,Kr表示主题数量;
Figure BDA0003200997610000201
Ns表示文档集里的句子数,nd,s表示文档d中句子s的长度,
Figure BDA0003200997610000202
表示文档 d中句子s里出现在窗口v中的词数;T表示窗口覆盖句子的数量,γ表示句子 分布的狄利克雷参数;
Figure BDA0003200997610000203
Nv表示文档集里的窗口数,nd,v表示文档d中分配给窗口v的词数,r为gl 时,
Figure BDA0003200997610000204
表示文档d里的窗口v中属于全局主题的词数;r为loc时,
Figure BDA0003200997610000205
表示文 档d里的窗口v中属于局部主题的词数;
Figure BDA0003200997610000206
表示主题偏好分布的狄利克雷参 数;
Figure BDA0003200997610000207
D是文档数,
Figure BDA0003200997610000208
表示文档d中属于全局主题的词数,
Figure BDA0003200997610000209
表示文档d中属 于全局主题z的词数,
Figure BDA00032009976100002010
表示文档d里窗口v中属于局部主题的词数,
Figure BDA00032009976100002011
表示文档d里窗口v中属于局部主题z的词数;Kgl和Kloc分别表示全局主题和 局部主题的主题数量,αgl和αloc分别表示全局主题和局部主题的主题分布狄利 克雷参数。
得到全局主题采样公式为:
Figure BDA0003200997610000211
其中,
Figure BDA0003200997610000212
的,四个因子的物理意义分别为生成词wd,i、选择窗口v、选择wd,i对应的是全局主题以及从全局主题中选 择主题z;
得到局部主题采样公式为:
Figure BDA0003200997610000213
由上述的采样公式进行采样,可以获取到文档中的全局和局部主题分布、 主题对应的词分布以及方面特征,从中筛选出概率较高的名词,作为长影评文 本的评价对象词;
第三步:采用word2vec扩展长影评文本的评价对象词,与步骤3相似,利 用word2vec训练出的长影评的词向量空间,利用模型发现与已识别的评价对象 词语语义距离最近的n个词语作为评价对象词语的扩充,对这些近义词的词性 进行筛选,保留名词、形容词和动词,最后生成扩充后的评价对象,构建完整 的长影评评价对象。
长影评评价对象识别过程流程图如图5所示,依此便可识别长影评评价对 象。
5.情感分析及观点摘要生成过程
图6就是情感分析及观点摘要生成过程的流程图,其主要过程包括:
(1)统计长短影评评价对象对应的好评差评数:获取评价对象对应的影 评的电影评分数,统计出评价对象的好评数和差评数,从而找到电影的优缺点 以及争议性观点;
(2)对评论进行情感分析:获取评价对象优缺点以及争议性的评论,且 挑选赞同数高的评论,将这些评论运用情感词典进行情感极性的分析,再结合 评论对电影的评分数,将获得评论的情感分析结果;
(3)形成观点摘要:将上述结果综合,获取最受好评评价对象及其好评 观点摘要,最受差评评价对象及其差评观点摘要,最具争议性评价对象及其争 议性观点摘要,细粒度观点可为电影制片方和内容提供方提供决策性参考意见。

Claims (9)

1.一种基于无监督的长短影评细粒度观点挖掘方法,其特征在于,包括以下步骤:
步骤1,影评文本数据采集:以社交网络平台和在线电影社区平台的历史数据为数据源,获取热门电影的评论文本信息、评论电影评分信息和评论文本投票数,根据影评的长短,分别得到由n部电影组成的短影评集合MS={ms1,ms2,...,msi...,msn}以及长影评集合Ml={ml1,ml2,...,mli...,mln},其中,msi表示第i部电影的短影评集合,mli表是第i部电影的长影评集合;
步骤2,情感词典的构建:将开源的中文情感词典作为基准情感词典,根据从基准情感词典中选出的在步骤1采集的影评数据中出现次数最多的正面和负面情感词,采用情感词典扩展方法,在影评文本中识别出在情感词典中没有出现过的观点词并判断其情感倾向,最终构建出一个适用于影评文本的情感词典D={wpositive,wnegative},其中,wpositive表示正面情感词,wnegative表示负面情感词;
步骤3,短影评评价对象识别:针对从步骤1所构建的短影评集合,挖掘出全部电影短影评数据中共有的全局评价对象和每部电影影评独有的个性化评价对象,利用词向量模型扩展出上下文语义相似的词补充到全局评价对象和个性化评价对象,再通过机器学习聚类算法将表达形式不同但意义相近的评价对象词归为同一类,形成完整的全局评价对象和个性化评价对象,结合两者生成每部电影的短影评评价对象;
步骤4,长影评评价对象识别:针对从步骤1所构建的长影评集合,采用主题模型LDA的变种模型多粒度LDA发现长影评的主题以及每个主题下的词分布,再结合词向量模型进一步发现具有大于设定语义相似性的词,从而获取每部电影的长影评评价对象;
步骤5,细粒度观点挖掘分析:将步骤2所采集的影评文本数据的情感词典,分别应用在步骤3所获取的短影评评价对象与步骤4所获取的长影评评价对象,提取细粒度观点并对其进行分析统计,结合影评的电影评分数和该影评的推荐数,形成影评观点摘要。
2.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述步骤1影评文本数据采集中,通过对不同社交网络平台和在线电影社区平台,利用网络爬虫或网站提供的应用程序接口进行长短影评的爬取,每条影评获取的内容包括:
(1)评论文本信息:获取评论正文文本以及评论发布时间;
(2)评论电影评分信息:获取用户对电影的评分或者推荐数;
(3)评论文本投票数:获取该条评论的点赞数或者赞同数;
将获取的影评进行数据预处理,根据影评的长短,分别得到短影评集合MS和长影评集合Ml
3.根据权利要求2中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述数据预处理包括文本去重、分句、分词、词性标注以及去停用词。
4.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述步骤2情感词典构建中,主要包括:
(1)获取基础情感词典:将知网(HowNet)情感词典、台湾大学简体中文情感极性词典以及清华大学中文褒贬义词典合并去重,生成基础情感词典;
(2)基础情感词典扩展:将采用情感点互信息算法提取出的步骤1所采集的若干影评语料作为情感词扩展到所述基础情感词典中,情感点互信息值SOPMI(ci)的计算公式为:
Figure RE-FDA0003305810240000031
其中,从基础情感词典中取出k个正面情感种子词wpositive={p1,p2,...,pj...,pk}和k个负面情感种子词wnegative={r1,r2,...,rj...,rk},pj是第j个正面情感种子词,rj是第j个负面情感种子词,ci是从步骤1的影评文本数据获取的候选情感词,i=1,2,...,k,count(ci,pj)为ci与pj在影评文本中共现的句子数,count(ci,rj)为ci与rj在影评文本中共现的句子数,当SOPMI(ci)>0时,ci为正面情感词;SOPMI(ci)<0时,ci为负面情感词;SOPMI(ci)=0时,ci为中性词,将候选情感词ci按照情感点互信息值扩展到基础情感词典中,构建情感词典D。
5.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述步骤3包括:
(1)用FP-growth算法进行关联规则挖掘;
(2)采用word2vec扩展短影评文本的评价对象,用word2vec对全局短影评文本和每部电影的短影评文本分别训练生成词向量模型,利用模型发现与已识别的评价对象词语语义距离最近的r个词语作为评价对象词语的扩充,并对词性进行筛选,保留名词、形容词和动词,最后生成扩充后的评价对象;
(3)采用K-means聚类算法对评价对象进行聚类,选出一个最具代表性的词作为评价对象的标准表达方式。
6.根据权利要求5中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述步骤(1)包括:
首先,对全部短影评文本应用FP-growth算法,找出名词频繁项集,以领域一致度衡量名词频繁项集在领域内各个语料文本中分布的均匀程度,将分布均匀的名词频繁项集定义为候选全局特征,特征f的领域一致度DCf定义如下:
Figure RE-FDA0003305810240000041
M为全部影评语料,mi为电影i的影评语料,pf,i表示f的支持度,其估计值为:
Figure RE-FDA0003305810240000042
supf,i表示f在mi中的支持度计数,supf表示f在M中的支持度计数,card(M)表示M中不同电影数并用于归一化,DCf值越高,表明f在M中分布越均匀,越有可能是全局频繁特征,将DCf>0的特征列为候选全局特征;
然后,对每一步影片的短影评文本应用FP-growth算法以同样的方式获取每部影片的候选个性化特征;
最后,对获取的候选全局特征和候选个性化特征进行剪枝筛选:单字名词过滤、删除无意义不构成名词短语的候选特征词、删除冗余候选特征词以及删除领域无关候选特征词以形成最终的全局特征和个性化特征,其中特征f的领域相关度:
DRf=lg(|{d∈M|f∈d}|)(lg(|{d∈M|f∈d}|/|M|)-lg(|{d∈G|f∈d}|/|G|))
式中:d代表任意一条评论文本,G代表综合领域的中文语料,|{d∈M|f∈d}|/|M|是影评文本中包含特征f的文本的条件概率,|{d∈G|f∈d}|/|G|是中文语料中包含特征f的文本的条件概率,DRf越大,相关度越高,高于设定阈值时认为f是该领域的特征,形成短影评文本的评价对象词,否则认为f与领域不相关,不将f作为领域特征。
7.根据权利要求5中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述步骤(3)包括:
第一步:计算已得到的全局评价对象词语在全局长影评数据中的词频,和个性化评价对象词语在对应的单个电影长影评数据的词频;
第二步:应用K-means算法对word2vec训练好的评价对象词向量聚类;
第三步:聚类完成后,根据聚类结果,最终形成每部影片包含的全局评价对象和个性化评价对象。
8.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述步骤4长影评评价对象识别中,使用主题模型LDA的变式模型多粒度LDA(MG-LDA)抽取长影评文本的评价对象,再结合基于word2vec词向量模型的评价对象词扩展和词性筛选生成长影评文本目标评价对象,具体步骤如下:
(1)采用多粒度LDA模型挖掘长影评文本的可评价对象和方面特征:
第一步:将长影评文本处理成长影评文档列表docs,文档中的句子列表sents,文档中的词汇列表vocab,初始随机化vocab中每个词对应主题编号和窗口编号,窗口即局部主题在长影评文档中所占的区域,并且初始化vocab中所有词汇的各项计数,包括每个词被分配全局主题和局部主题次数,被分配给某个全局主题和局部主题多少次以及被分配给某篇文档的某个窗口多少次;
第二步:在设定的迭代次数下进行Gibbs采样迭代,以得到长影评文本中每个词对应的主题,对文档列表docs中的每个文档d中的每个窗口v进行全局主题采样和局部主题采样,主题采样的条件概率为
Figure RE-FDA0003305810240000061
Figure RE-FDA0003305810240000062
其中,
Figure RE-FDA0003305810240000063
表示除去文档d中第i个词外所有词所对应的窗口,
Figure RE-FDA0003305810240000064
表示除去文档d中第i个词外所有词所对应的对于全局主题和局部主题的偏好,
Figure RE-FDA0003305810240000065
表示除去文档d中第i个词外所有词所对应的主题,先计算联合概率分布:
Figure RE-FDA0003305810240000066
则全局主题采样公式为:
Figure RE-FDA0003305810240000067
其中,
Figure RE-FDA0003305810240000068
的四个因子的物理意义分别为生成词wd,i、选择窗口v、选择wd,i对应的是全局主题以及从全局主题中选择主题z;
局部主题的采样公式为:
Figure RE-FDA0003305810240000071
由上述的采样公式进行采样,获取到文档中的全局和局部主题分布、主题对应的词分布以及方面特征,从中筛选出概率高于设定值的名词,作为长影评文本的评价对象词;
第三步:采用word2vec扩展长影评文本的评价对象词,利用word2vec训练出的长影评的词向量空间,利用模型发现与已识别的评价对象词语语义距离最近的n个词语作为评价对象词语的扩充,对词性进行筛选,保留名词、形容词和动词,最后生成扩充后的评价对象,构建完整的长影评评价对象。
9.根据权利要求1中所述的基于无监督的长短影评细粒度观点挖掘方法,其特征在于,所述步骤5细粒度观点挖掘分析,将步骤2构建的情感词典应用于步骤3和4获取的评价对象的初步情感分析,加以考虑步骤1构建的长短影评中包含评价对象的影评评分数以及该影评的推荐数,形成每部影片的评价对象以及观点的情感极性,提取出每部影片中的每个评价对象的积极观点和消极观点,生成观点摘要,为电影制片方和内容供应商提供决策支持。
CN202110904457.5A 2021-08-06 2021-08-06 一种基于无监督的长短影评细粒度观点挖掘方法 Active CN113641788B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110904457.5A CN113641788B (zh) 2021-08-06 2021-08-06 一种基于无监督的长短影评细粒度观点挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110904457.5A CN113641788B (zh) 2021-08-06 2021-08-06 一种基于无监督的长短影评细粒度观点挖掘方法

Publications (2)

Publication Number Publication Date
CN113641788A true CN113641788A (zh) 2021-11-12
CN113641788B CN113641788B (zh) 2024-02-23

Family

ID=78420014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110904457.5A Active CN113641788B (zh) 2021-08-06 2021-08-06 一种基于无监督的长短影评细粒度观点挖掘方法

Country Status (1)

Country Link
CN (1) CN113641788B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548321A (zh) * 2022-03-05 2022-05-27 昆明理工大学 基于对比学习的自监督舆情评论观点对象分类方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015160415A2 (en) * 2014-01-31 2015-10-22 The Trustees Of Columbia University In The City Of New York Systems and methods for visual sentiment analysis
CN108287922A (zh) * 2018-02-28 2018-07-17 福州大学 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN108446333A (zh) * 2018-02-22 2018-08-24 睦沃数据科技(苏州)有限公司 一种大数据文本挖掘处理系统及其方法
CN108460010A (zh) * 2018-01-17 2018-08-28 南京邮电大学 一种基于情感分析的综合评分模型实现方法
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法
WO2021109671A1 (zh) * 2019-12-02 2021-06-10 广州大学 一种支持跨语言迁移的细粒度情感分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015160415A2 (en) * 2014-01-31 2015-10-22 The Trustees Of Columbia University In The City Of New York Systems and methods for visual sentiment analysis
CN108460010A (zh) * 2018-01-17 2018-08-28 南京邮电大学 一种基于情感分析的综合评分模型实现方法
CN108446333A (zh) * 2018-02-22 2018-08-24 睦沃数据科技(苏州)有限公司 一种大数据文本挖掘处理系统及其方法
CN108287922A (zh) * 2018-02-28 2018-07-17 福州大学 一种融合话题属性和情感信息的文本数据观点摘要挖掘方法
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法
WO2021109671A1 (zh) * 2019-12-02 2021-06-10 广州大学 一种支持跨语言迁移的细粒度情感分析方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
HAIFEI QIN 等: "Hotel Classification Based on Online Review Data", 2018 14TH INTERNATIONAL CONFERENCE ON NATURAL COMPUTATION, FUZZY SYSTEMS AND KNOWLEDGE DISCOVERY (ICNC-FSKD), pages 264 - 269 *
LI-XIA LUO 等: "Network text sentiment analysis method combining LDA text representation and GRU-CNN", PERSONAL AND UBIQUITOUS COMPUTING, pages 405 *
SHIVA TWINANDILLA 等: "Multi-Document Summarization Using K-Means and Latent Dirichlet Allocation (LDA) – Significance Sentences", PROCEDIA COMPUTER SCIENCE, no. 135, pages 663 - 670, XP085457395, DOI: 10.1016/j.procs.2018.08.220 *
何伟林 等: "潜在狄利克雷分布模型研究综述", 信息资源管理学报, no. 01, pages 55 - 64 *
张聪 等: "基于语义图优化算法的中文微博观点摘要研究", 山东大学学报(理学版), no. 07, pages 59 - 65 *
睢国钦 等: "基于深度学习和CRFs的产品评论观点抽取方法", 情报杂志, no. 05, pages 177 - 185 *
胡亚娇 等: "基于多态信息挖掘的电影用户画像研究", 现代电影技术, no. 06, pages 16 - 22 *
陈平平 等: "基于机器学习的文本情感倾向性分析", 计算机与现代化, no. 03, pages 77 - 81 *
陈鑫 等: "基于保序子矩阵和频繁序列模式挖掘的文本情感特征提取方法", 山东大学学报(理学版), no. 03, pages 36 - 45 *
马丽菲 等: "面向中文短影评的分类技术研究", 山东大学学报(理学版), no. 01, pages 52 - 57 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114548321A (zh) * 2022-03-05 2022-05-27 昆明理工大学 基于对比学习的自监督舆情评论观点对象分类方法

Also Published As

Publication number Publication date
CN113641788B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及系统
CN110717047B (zh) 一种基于图卷积神经网络的Web服务分类方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN110298033B (zh) 关键词语料标注训练提取系统
CN107577759B (zh) 用户评论自动推荐方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及系统
CN111767741A (zh) 一种基于深度学习和tfidf算法的文本情感分析方法
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN110209818B (zh) 一种面向语义敏感词句的分析方法
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN114706972B (zh) 一种基于多句压缩的无监督科技情报摘要自动生成方法
Shen et al. SsciBERT: A pre-trained language model for social science texts
Chang et al. A METHOD OF FINE-GRAINED SHORT TEXT SENTIMENT ANALYSIS BASED ON MACHINE LEARNING.
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
Tang et al. Evaluation of Chinese sentiment analysis APIs based on online reviews
CN114048354B (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN113032550B (zh) 一种基于预训练语言模型的观点摘要评价系统
CN113032573A (zh) 一种结合主题语义与tf*idf算法的大规模文本分类方法及系统
Ren et al. Resource recommendation algorithm based on text semantics and sentiment analysis
CN117291190A (zh) 一种基于情感词典和lda主题模型的用户需求计算方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN117093670A (zh) 一种论文智能推荐专家的实现方法
CN115510269A (zh) 视频推荐的方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant