CN108694176A - 文档情感分析的方法、装置、电子设备和可读存储介质 - Google Patents

文档情感分析的方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN108694176A
CN108694176A CN201710220214.3A CN201710220214A CN108694176A CN 108694176 A CN108694176 A CN 108694176A CN 201710220214 A CN201710220214 A CN 201710220214A CN 108694176 A CN108694176 A CN 108694176A
Authority
CN
China
Prior art keywords
document
clause
word
emotion
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710220214.3A
Other languages
English (en)
Other versions
CN108694176B (zh
Inventor
张帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710220214.3A priority Critical patent/CN108694176B/zh
Publication of CN108694176A publication Critical patent/CN108694176A/zh
Application granted granted Critical
Publication of CN108694176B publication Critical patent/CN108694176B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种文档情感分析的方法、装置、电子设备和可读存储介质,能够帮助分析效果的提高;使情感分析更贴近于日常的生活。该方法包括:获取文档,并对文档进行预处理,得到文档的子句和词;建立子句与文档、词与文档的索引关系;利用主体情感模型对子句、词建模,生成文档中每个子句的情感和每个词的主题,并建立子句与词的对应关系;根据所述每个子句的情感、每个词的主题、子句与词的对应关系,以及子句与文档、词与文档的索引关系,计算“文档‑情感‑子句”的概率分布以及“文档‑主题‑词”的概率分布;根据所述“文档‑情感‑子句”的概率分布以及所述“文档‑主题‑词”的概率分布计算文档的情感倾向。

Description

文档情感分析的方法、装置、电子设备和可读存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种文档情感分析的方法、 装置、电子设备和可读存储介质。
背景技术
随着互联网技术的快速发展,新媒体、电子商务等各类互联网应 用得到普及,例如社交网络、微博微信、电子商务等,这些领域的信 息日益影响着人们生活的各个方面。以电子商务领域为例,消费者的 购物习惯悄然地由线下转为线上,网络购物的普及带来的是产品评论 信息的爆炸式膨胀,产品评论信息已成为电子商务不可或缺的重要组 成部分。通过分析社交网络的传播信息、微博微信的评论等信息以及 电子商务领域的商品评论信息等文档信息,可以更容易地了解各类主 体的主流思维导向或者对产品、事务的评价,方便进行舆情分析或者 为电子商务的商家提高决策支持。
然而人工的情感标注,已经无法处理和应对这些海量数据,因此迫 切的需要自动的情感识别技术标注产品评论数据。
情感分析主要包括:情感信息抽取和情感信息分类。目前已有的 情感分析技术大都基于规则和基于统计这两种方法。对于基于规则的 方法,随着新词的不断涌现、复杂的语言处理都使得基于规则的情感 分析方法捉襟见肘,同时这种方法建立的模型与特定领域有很大关系; 而基于统计的方法,只简单的考虑了单个的词,没有考虑词的同义和 多义情况,忽视了词与词之间的语义联系。
具体而言,在实现本发明过程中,发明人发现现有技术中至少存 在如下问题:
(1)情感特征词的确定依赖于特定领域信息,算法的适应性较差。
(2)情感分析的粒度较大,分析的基本对象为整条句子甚至整篇 文档,而实际生活中,一条文档可能存在多个情感倾向。
(3)需要人工对信息进行标注,这将耗费大量的人力成本。并且, 由于不同的标注者的认知水平的不同,标注结果也可能存在差异。
(4)缺乏反馈机制,现有的技术缺乏对错误的判断结果的再学习, 或者对未样本词库进行再丰富的过程。
发明内容
有鉴于此,本发明实施例提供一种文档情感分析的方法、装置、 电子设备和可读存储介质,能够将主题模型用于文档的情感分析,引 入丰富的特征信息帮助分析效果的提高;并且对文档的子句进行情感 分析,建立“文本-情感-子句”和“文本-主题-词语”关系,使情感分 析更贴近于日常的生活。
为实现上述目的,根据本发明实施例的一个方面,提供了一种文 档情感分析的方法。
本发明实施例的一种文档情感分析的方法包括:获取文档,并对 文档进行预处理,得到文档的子句和词;建立子句与文档、词与文档 的索引关系;利用主体情感模型对子句、词建模,生成文档中每个子 句的情感和每个词的主题,并建立子句与词的对应关系;根据所述每 个子句的情感、每个词的主题、子句与词的对应关系,以及子句与文 档、词与文档的索引关系,计算“文档-情感-子句”的概率分布以及“文 档-主题-词”的概率分布;根据所述“文档-情感-子句”的概率分布以 及所述“文档-主题-词”的概率分布计算文档的情感倾向。
可选地,对文档进行预处理,得到文档的子句和词包括:利用转 折词对文档的进行句子切分,得到子句序列;以及利用分词工具对文 档进行分词处理,并进行去停用词处理,得到词序列。
可选地,主题情感模型为包括包含文本-情感-子句、文本-主题-词 的双重对应关系的LDA模型。
可选地,计算文档-情感-子句的概率分布以及文档-主题-词的概率 分布包括:通过Gibbs采样计算“文档-情感-子句”的概率估计以及“文 档-主题-词”的概率估计,根据所述概率估计得出“文档-情感-子句” 的概率分布以及“文档-主题-词”的概率分布。
可选地,根据所述“文档-情感-子句”的概率分布以及所述“文档 -主题-词”的概率分布计算文档的情感倾向包括:计算“文档-情感-子 句”的概率估计的熵,若所述熵不大于预设阈值,则利用argmax函数 寻找具有最大评分的“文档-情感-子句”的概率估计作为文档的情感, 若所述熵大于预设阈值,则说明各情感出现的概率均等,则依次计算 文档各主题的情感,并将文档各主题的情感的集合作为文本的情感倾 向。
可选地,所述方法还包括:根据文档的情感倾向的计算结果,利 用反馈模块更新停用词典数据库、情感词典数据库。
为实现上述目的,根据本发明实施例的另一方面,提供了一种文 档情感分析的装置。
本发明实施例的一种文档情感分析的装置包括:获取模块,用于 获取文档,并对文档进行预处理,得到文档的子句和词;索引模块, 用于建立子句与文档、词与文档的索引关系;建模模块,用于利用主 体情感模型对子句、词建模,生成文档中每个子句的情感和每个词的 主题,并建立子句与词的对应关系;计算模块,用于根据所述每个子 句的情感、每个词的主题、子句与词的对应关系,以及子句与文档、 词与文档的索引关系,计算“文档-情感-子句”的概率分布以及“文档 -主题-词”的概率分布;情感分析模块,用于根据所述“文档-情感-子 句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感 倾向。
可选地,所述获取模块还用于:利用转折词对文档的进行句子切 分,得到子句序列;以及利用分词工具对文档进行分词处理,并进行 去停用词处理,得到词序列。
可选地,所述主题情感模型为包括包含文本-情感-子句、文本-主 题-词的双重对应关系的LDA模型。
可选地,所述计算模块还用于:通过Gibbs采样计算“文档-情感- 子句”的概率估计以及“文档-主题-词”的概率估计,根据所述概率估 计得出“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分 布。
可选地,所述情感分析模块还用于:计算“文档-情感-子句”的概 率估计的熵,若所述熵不大于预设阈值,则利用argmax函数寻找具有 最大评分的文档-情感-子句的概率估计作为文档的情感,若所述熵大于 预设阈值,则说明各情感出现的概率均等,则依次计算文档各主题的 情感,并将文档各主题的情感的集合作为文本的情感倾向。
可选地,所述装置还包括:反馈模块,用于根据文档的情感倾向 的计算结果,更新停用词典数据库、情感词典数据库。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电 子设备。
本发明实施例的一种电子设备包括:一个或多个处理器;存储装 置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或 多个处理器执行,使得所述一个或多个处理器实现如本发明实施例的 文档情感分析的方法。
为实现上述目的,根据本发明实施例的又一方面,提供了一种计 算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序, 所述程序被处理器执行时实现本发明实施例的文档情感分析的方法。
上述发明中的一个实施例具有如下优点或有益效果:因为采用将 主题模型用于评论的情感分析,引入丰富的特征信息,并且对文档的 子句进行情感分析,建立“文本-情感-子句”和“文本-主题-词语”关 系的技术手段,所以克服了现有技术中情感分析局限于特定领域且分 析粒度较粗的技术问题,进而达到使情感分析更贴近于日常的生活, 提高分析效果的精度的技术效果;且通过利用主题情感模型,可减少 人工标注从而降低成本;通过引入反馈机制,模型能够对停用词、情 感词等样本词库数据进行再次学习,最终提高了情感分析的精度;通 过利用转折词进行句子切分,从而能够较为准确的将不同情感或不同 主题的子句进行分隔;通过利用分词工具对词进行提取,并借助停用 词典数据库进行去停用词处理,从而能够得到有效地词序列,保障后 续计算过程的精确度;通过利用Gibbs采样计算“文档-情感-子句”的 概率估计以及“文档-主题-词”的概率估计,从而能够较为容易地推导 求解概率分布;通过根据熵与预设阈值大小的比较,从而能够准确区 分文档的情感是由一个情感占主导性还是各情感出现的概率均等,从 而选择合适的情感分析计算公式求解文档的情感倾向。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具 体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是实现本发明实施例的文档情感分析的方法的系统架构示意 图;
图2是根据本发明实施例的文档情感分析的方法的主要步骤的示 意图;
图3是根据本发明实施例的文档情感分析的方法建立的主题情感 模型的示意图;
图4是根据本发明实施例的文档情感分析的装置的主要模块的示 意图;
图5是适于用来实现本申请实施例的终端设备或服务器的计算机 系统的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发 明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。 因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做 出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清 楚和简明,以下的描述中省略了对公知功能和结构的描述。
本发明实施例的文档情感分析的方法,将主题模型用于评论的情 感分析,以引入丰富的特征信息,使文档情感分析不拘泥于特定领域; 并且对文档的子句进行情感分析,建立“文本-情感-子句”和“文本- 主题-词语”关系,可以处理了一个文档信息包含多个情感倾向的情况。 其中,主题模型是一种能有效捕捉文档隐含主题的无监督学习的模型, 可以在一定程度上改善情感分类在不同领域的适应性。
图1是实现本发明实施例的文档情感分析的方法的系统架构示意 图。
如图1所示,实现本发明实施例的文档情感分析方法的系统架构 中包括:文档信息爬取模块、文档信息预处理模块、文档信息数据库、 停用词典数据库、情感词典数据库、主题情感聚类模块、情感分析模 块和反馈模块。
图2是根据本发明实施例的文档情感分析的方法的主要步骤的示 意图。
如图2所示,本发明实施例的文档情感分析的方法主要包括如下 步骤:
步骤S21:获取文档,并对文档进行预处理,得到文档的子句和词。 本发明实施例中,可以利用转折词对文档的进行句子切分,得到子句 序列;以及利用分词工具对文档进行分词处理,并进行去停用词处理, 得到词序列。
步骤S22:建立子句与文档、词与文档的索引关系。本步骤的目的 在于处理文档中的子句和词。对所有子句和词建立和对应文档的索引, 然后创建文档和子句、文档和词对应的数据文件。每条数据作为一个 文档。例如每条产品评论、每条微博、每条社交网络的信息等。
步骤S23:利用主体情感模型对子句、词建模,生成文档中每个子 句的情感和每个词的主题,并建立子句与词的对应关系。换句话说, 就是将子句与词分发给不同的主题与情感,即聚类得到<主题,情感, 子句索引,词索引>的模型。该主题情感模型为包括包含文本-情感-子 句、文本-主题-词的双重对应关系的LDA模型。
步骤S24:根据所述每个子句的情感、每个词的主题、子句与词的 对应关系,以及子句与文档、词与文档的索引关系,计算文档-情感- 子句的概率分布以及文档-主题-词的概率分布。本步骤的目的是将生成 的<主题,情感,子句索引,词索引>模型进行迭代处理,并根据子句 与文档、词与文档的索引关系,生成“文档-情感-子句”及“文档-主 题-词”的概率分布。本发明实施例中,通过Gibbs采样计算“文档-情 感-子句”的概率估计以及“文档-主题-词”的概率估计,通过采样得 到的是一个迭代估计值,以此概率估计值生成“文档-情感-子句”的概 率分布以及“文档-主题-词”的概率分布。
步骤S25:根据所述“文档-情感-子句”的概率分布以及所述“文 档-主题-词”的概率分布计算文档的情感倾向。本发明实施例的情感倾 向的计算逻辑大致如下:计算“文档-情感-子句”的概率估计的熵,若 所述熵不大于预设阈值,则利用argmax函数寻找具有最大评分的文档 -情感-子句的概率估计作为文档的情感,若所述熵大于预设阈值,则说 明各情感出现的概率均等,则依次计算文档各主题的情感,并将文档 各主题的情感的集合作为文本的情感倾向。具体计算过程将在后续进 行详细描述。
此外,本发明实施例的文档情感分析的方法还可包括:根据文档 的情感倾向的计算结果,利用反馈模块更新停用词典数据库、情感词 典数据库。
图3是根据本发明实施例的文档情感分析的方法建立的主题情感 模型的示意图。以下结合图1、图2和图3对本发明实施例的文档情感 分析的方法进行详细介绍。
根据前述描述,实现本发明实施例的文档情感分析方法的系统架 构中包括:文档信息爬取模块、文档信息预处理模块、文档信息数据 库、停用词典数据库、情感词典数据库、主题情感聚类模块、情感分 析模块和反馈模块。以下以对电子商务中的产品评论信息的情感分析 为例,结合各自模块实现的功能和逻辑进行本发明实施例的文档情感 分析的方法的详细流程说明。
一、评论信息爬取模块
评论信息爬取模块用于按照预设的时间间隔(此预设的时间间隔 可以根据实际需求而定)对网站或者其他应用上产品评论数据进行爬 取(为减少不必要的计算,本发明实施例中可以根据实际情况进行产 品评论数据的筛选,例如但不限于可以是只爬取带有星级的产品评论 数据,通过爬取带有星级的评论数据,可以节省对语料数据的情感分 析和标注时间),并抽取其中的评论信息,将这些评论信息存储于评 论信息数据库中。
二、评论信息预处理模块
评论信息预处理模块,用于对评论信息进行处理。首先对评论进 行子句切分,例如可以是通过对含有“但”、“但是”、“可是”等 转折词的句子进行切分,得到子句序列;然后利用中文分词工具进行 分词和去停用词等处理,这里要特别注意,剔除停用词的过程中,需 要保留对情感判断产生影响的词,最终得到词序列,同时计算每个词 的TF-IDF(即termfrequency–inverse document frequency,是一种统计 技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文 件的重要程度)权值。
三、主题情感聚类模块
主题情感聚类模块,用于将预处理得到的子句及词序列,根据下 面的主题模型(本发明实施例中可以是LDA模型,)算法对文档中的 词进行聚类,并获取子句的情感分布,以及单词的主题和情感,算法 模型示意图可参见图3。
具体过程如下:
1.首先处理文档中的子句和词,对所有子句和词建立和对应文 档的索引,然后创建文档和子句、文档和词对应的数据文件。每条产 品评论数据作为一个文档。如此,文档中每个子句是以其在文档中的 索引的形式存在的;文档中的每个词是以其在文档中的索引的形式存 在,并且还可以再加上前述计算出的TF-IDF权值,从而清晰的标识子 句和词的属性信息;
2.利用图3的主题情感模型对子句、词建模,根据主题情感模 型,生成每篇文档中的每个子句中的情感j,每个词的主题z,以及子 句与词的对应关系。换句话说,就是利用包括包含“文本-情感-子句”、 “文本-主题-词”的双重对应关系的LDA模型,将子句与词分发给不 同的主题与情感,即聚类得到<主题,情感,子句,词>的模型;
3.将生成的<主题,情感,子句,词>模型中的子句和词,根据 子句索引、词索引进行转换,然后通过Gibbs采样得到概率矩阵形式的 “文本-情感-子句”、“文本-主题-词”的概率估计,根据该概率估计 得出“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布。
其中,通常情况下,可以利用前述主题情感模型生成文档,本发 明实施例中,文档、子句和词已知,因此可以根据主题情感模型中文 档的生成过程,生成每篇文档中的每个子句中的情感j,每个词的主题 z:
1.对于每个主题情感对(k,j)
①生成主题情感对的单词分布
2.对于每篇文档d
①对于每个情感j,生成主题分布θdj~Dir(α)
②生成子句的情感分布πs~Dir(γ)
③对于文档d的每个子句s
i生成子句s的情感js~Multi(πs)
ii对于s中的每个词w
a生成主题zs,n~Multi(θdj)
b生成单词wn~Multi(φ(z,j)s,n)
生成每篇文档中的每个子句中的情感j,每个词的主题z之后,使 用LDA模型中的Gibbs采样工具(是马尔可夫链蒙特卡尔理论MCMC 中用来获取一系列近似等于指定多维概率分布观察样本的算法),对θ、 π、φ进行概率估计:
主题k在文档d的情感j的概率估计
文档d中子句s的情感j的概率估计
单词w属于主题k情感j对的概率估计
前述模型中Gibbs采样的参数是提前设定的经验值,例如主题分布 的Dirichlet参数α=50/K,单词分布的Dirichlet参数β=0.01,情感分 布的Dirichlet参数γ=1。其中,K、L分别为主题、情感总数,V表示 文档集中词的总数,表示文档d中,分配在主题k情感j的词数,表示文档d中,分配在情感j的句子数,表示词w分配在主题k情感 j的次数。
当然,θ、π、φ的概率估计也可以通过其他方式计算,例如变分 贝叶斯EM算法(指变分贝叶斯期望最大化(VBEM,variational Bayes expectation maximization),这种算法基于变分推理,通过迭代寻找最 小化KL(Kullback-Leibler)距离的边缘分布来近似联合分布,同时利用 mean field近似减小联合估计的复杂度),只不过Gibbs采样工具更容易推导求解,因此,本发明实施例中,使用了Gibbs采样工具进行详细 说明。
四、情感分析模块
情感分析模块用于加载主题情感聚类模块的结果数据,得出评论 信息的情感倾向性判断。
利用前述主题情感聚类模块获取的πd,j可以得到情感j在文档d的 子句s的概率估计,考虑到一个产品评论中包含的情感可能有所不同, 因此首先计算πd,j的熵
当E(π)≤ξ时(这里ξ取0.9,以是一个,此值为项目中的优化值, 不同评论数据此值可能存在差异),则文档d的情感 (对于argmax,设函数y=f(x),则x0=argmax(f(x)) 的意思就是参数x0满足f(x0)为f(x)的最大值;换句话说就是argmax(f(x)) 是使得f(x)取得最大值所对应的变量x。arg即argument,此处意为“自 变量”);否则,说明各个情感j出现的概率均等,同时根据产品评论 拆分的子句数Ns|d进行分析。
在前述的子句拆分过程中,由于根据转折词进行拆分,子句与子 句之间存在转折关系,因此对于评论中的语句,每个子句可能对应描 述有一个主题。当子句数与主题总数K相等时,可大致认定每个子句对 应一个主题,因此,在这种情况下,直接利用各主题对应情感的情感 集作为文档的情感;而当子句数与主题总数K的对应关系为Ns|d=1或者 Ns|d≠K时,此时不能轻易判断文档中各子句与主题的对应关系,因此 不再以各主题的情感组成的情感集作为文档的主题,而是通过反馈模 块进行该文档的情感计算。
由此,在各个情感j出现的概率均等,同时根据产品评论拆分的子 句数Ns|d进行分析的过程中,如果Ns|d=1或者Ns|d≠K,该评论文档的主 题由反馈模块进行处理;如果Ns|d=K,则计算主题k的情感j为 最终,将情感分析结果集J=(j1,…,jK)作为文档d的最终情感倾向。
五、反馈模块
本发明实施例中,反馈模块可用于可以将该文档中的一些关键情 感词加入图1中情感词典数据库,以更新情感词典数据库,同理也可 用于更新停用词典数据库;另外,有些文档的情感分析结果集中的情 感可能完全相反,这时,可以通过该反馈模块修复情感分析的结果。 另外,系统管理员也可以通过反馈模块对修正情感分析模块的结果。
根据本发明实施例的文档情感分析的方法可以看出,因为采用将 主题模型用于评论的情感分析,引入丰富的特征信息,并且对文档的 子句进行情感分析,建立“文本-情感-子句”和“文本-主题-词语”关 系的技术手段,所以克服了现有技术中情感分析局限于特定领域且分 析粒度较粗的技术问题,进而达到使情感分析更贴近于日常的生活, 提高分析效果的精度的技术效果;且通过利用主题情感模型,可减少 人工标注从而降低成本;通过引入反馈机制,模型能够对停用词、情 感词等样本词库数据进行再次学习,最终提高了情感分析的精度;通 过利用转折词进行句子切分,从而能够较为准确的将不同情感或不同 主题的子句进行分隔;通过利用分词工具对词进行提取,并借助停用 词典数据库进行去停用词处理,从而能够得到有效地词序列,保障后 续计算过程的精确度;通过利用Gibbs采样计算“文档-情感-子句”的 概率估计以及“文档-主题-词”的概率估计,从而能够较为容易地推导 求解概率分布;通过根据熵与预设阈值大小的比较,从而能够准确区 分文档的情感是由一个情感占主导性还是各情感出现的概率均等,从 而选择合适的情感分析计算公式求解文档的情感倾向。
图4是根据本发明实施例的文档情感分析的装置的主要模块的示 意图。
如图4所示,本发明实施例的一种文档情感分析的装置40主要包 括如下模块:获取模块401、索引模块402、建模模块403、计算模块 404以及情感分析模块405。
其中,获取模块401用于获取文档,并对文档进行预处理,得到 文档的子句和词;索引模块402用于建立子句与文档、词与文档的索 引关系;建模模块403用于利用主体情感模型对子句、词建模,生成 文档中每个子句的情感和每个词的主题,并建立子句与词的对应关系; 计算模块404用于根据所述每个子句的情感、每个词的主题、子句与 词的对应关系,以及子句与文档、词与文档的索引关系,计算“文档- 情感-子句”的概率分布以及“文档-主题-词”的概率分布;情感分析 模块405用于根据所述“文档-情感-子句”的概率分布以及所述“文档 -主题-词”的概率分布计算文档的情感倾向。
本发明实施例中,获取模块401还可用于:利用转折词对文档的 进行句子切分,得到子句序列;以及利用分词工具对文档进行分词处 理,并进行去停用词处理,得到词序列。
主题情感模型可以为包括包含文本-情感-子句、文本-主题-词的双 重对应关系的LDA模型。
另外,计算模块404还可用于:通过Gibbs采样计算“文档-情感- 子句”的概率估计以及“文档-主题-词”的概率估计,根据所述概率估 计得出“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分 布。
情感分析模块405还可用于:计算“文档-情感-子句”的概率估计 的熵,若所述熵不大于预设阈值,则利用argmax函数寻找具有最大评 分的“文档-情感-子句”的概率估计作为文档的情感,若所述熵大于预 设阈值,则说明各情感出现的概率均等,则依次计算文档各主题的情 感,并将文档各主题的情感的集合作为文本的情感倾向。
需要说明的是,装置40还可包括:反馈模块(图中未示出),用 于根据文档的情感倾向的计算结果,更新停用词典数据库、情感词典 数据库。
从以上描述可以看出,因为采用将主题模型用于评论的情感分析, 引入丰富的特征信息,并且对文档的子句进行情感分析,建立“文本- 情感-子句”和“文本-主题-词语”关系的技术手段,所以克服了现有 技术中情感分析局限于特定领域且分析粒度较粗的技术问题,进而达 到使情感分析更贴近于日常的生活,提高分析效果的精度的技术效果; 且通过利用主题情感模型,可减少人工标注从而降低成本;通过引入 反馈机制,模型能够对停用词、情感词等样本词库数据进行再次学习, 最终提高了情感分析的精度;通过利用转折词进行句子切分,从而能 够较为准确的将不同情感或不同主题的子句进行分隔;通过利用分词 工具对词进行提取,并借助停用词典数据库进行去停用词处理,从而 能够得到有效地词序列,保障后续计算过程的精确度;通过利用Gibbs 采样计算“文档-情感-子句”的概率估计以及“文档-主题-词”的概率 估计,从而能够较为容易地推导求解概率分布;通过根据熵与预设阈 值大小的比较,从而能够准确区分文档的情感是由一个情感占主导性 还是各情感出现的概率均等,从而选择合适的情感分析计算公式求解 文档的情感倾向。
下面参考图5,其示出了适于用来实现本申请实施例的终端设备的 计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例, 不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其 可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508 加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作 和处理。在RAM 503中,还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/ 输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506; 包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的 输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、 调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因 特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。 可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据 需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要 被安装入存储部分508。
特别地,根据本发明公开的实施例,上文主要步骤示意图描述的 过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括 一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序, 该计算机程序包含用于执行主要步骤示意图所示的方法的程序代码。 在这样的实施例中,该计算机程序可以通过通信部分509从网络上被 下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央 处理单元(CPU)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读 信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算 机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红 外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机 可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导 线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、 只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、 光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存 储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储 介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行 系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机 可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信 号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采 用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组 合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何 计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由 指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限 于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点 上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码 的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于 实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的 实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发 生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们 有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的 是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合, 可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者 可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实 现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理 器中,例如,可以描述为:一种处理器包括获取模块、索引模块、建 模模块、计算模块以及情感分析模块。其中,这些模块的名称在某种 情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述 为“用于获取文档,并对文档进行预处理,得到文档的子句和词的模 块”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机 可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独 存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多 个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备 包括:获取文档,并对文档进行预处理,得到文档的子句和词;建立 子句与文档、词与文档的索引关系;利用主体情感模型对子句、词建 模,生成文档中每个子句的情感和每个词的主题,并建立子句与词的 对应关系;根据所述每个子句的情感、每个词的主题、子句与词的对 应关系,以及子句与文档、词与文档的索引关系,计算“文档-情感- 子句”的概率分布以及“文档-主题-词”的概率分布;根据所述“文档 -情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文 档的情感倾向。
根据本发明实施例的技术方案,因为采用将主题模型用于评论的 情感分析,引入丰富的特征信息,并且对文档的子句进行情感分析, 建立“文本-情感-子句”和“文本-主题-词语”关系的技术手段,所以 克服了现有技术中情感分析局限于特定领域且分析粒度较粗的技术问 题,进而达到使情感分析更贴近于日常的生活,提高分析效果的精度 的技术效果;且通过利用主题情感模型,可减少人工标注从而降低成 本;通过引入反馈机制,模型能够对停用词、情感词等样本词库数据 进行再次学习,最终提高了情感分析的精度;通过利用转折词进行句 子切分,从而能够较为准确的将不同情感或不同主题的子句进行分隔; 通过利用分词工具对词进行提取,并借助停用词典数据库进行去停用 词处理,从而能够得到有效地词序列,保障后续计算过程的精确度; 通过利用Gibbs采样计算“文档-情感-子句”的概率估计以及“文档- 主题-词”的概率估计,从而能够较为容易地推导求解概率分布;通过 根据熵与预设阈值大小的比较,从而能够准确区分文档的情感是由一 个情感占主导性还是各情感出现的概率均等,从而选择合适的情感分 析计算公式求解文档的情感倾向。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域 技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种 各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内 所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (14)

1.一种文档情感分析的方法,其特征在于,包括:
获取文档,并对文档进行预处理,得到文档的子句和词;
建立子句与文档、词与文档的索引关系;
利用主体情感模型对子句、词建模,生成文档中每个子句的情感和每个词的主题,并建立子句与词的对应关系;
根据所述每个子句的情感、每个词的主题、子句与词的对应关系,以及子句与文档、词与文档的索引关系,计算“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布;
根据所述“文档-情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感倾向。
2.根据权利要求1所述的方法,其特征在于,对文档进行预处理,得到文档的子句和词包括:
利用转折词对文档的进行句子切分,得到子句序列;以及
利用分词工具对文档进行分词处理,并进行去停用词处理,得到词序列。
3.根据权利要求1所述的方法,其特征在于,所述主题情感模型为包括包含文本-情感-子句、文本-主题-词的双重对应关系的LDA模型。
4.根据权利要求1所述的方法,其特征在于,计算文档-情感-子句的概率分布以及文档-主题-词的概率分布包括:通过Gibbs采样计算“文档-情感-子句”的概率估计以及“文档-主题-词”的概率估计,根据所述概率估计得出“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布。
5.根据权利要求4所述的方法,其特征在于,根据所述“文档-情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感倾向包括:
计算“文档-情感-子句”的概率估计的熵,若所述熵不大于预设阈值,则利用argmax函数寻找具有最大评分的文档-情感-子句的概率估计作为文档的情感,若所述熵大于预设阈值,则说明各情感出现的概率均等,则依次计算文档各主题的情感,并将文档各主题的情感的集合作为文本的情感倾向。
6.根据权利要求1所述的方法,所述方法还包括:
根据文档的情感倾向的计算结果,利用反馈模块更新停用词典数据库、情感词典数据库。
7.一种文档情感分析的装置,其特征在于,包括:
获取模块,用于获取文档,并对文档进行预处理,得到文档的子句和词;
索引模块,用于建立子句与文档、词与文档的索引关系;
建模模块,用于利用主体情感模型对子句、词建模,生成文档中每个子句的情感和每个词的主题,并建立子句与词的对应关系;
计算模块,用于根据所述每个子句的情感、每个词的主题、子句与词的对应关系,以及子句与文档、词与文档的索引关系,计算“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布;
情感分析模块,用于根据所述“文档-情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感倾向。
8.根据权利要求7所述的装置,其特征在于,所述获取模块还用于:
利用转折词对文档的进行句子切分,得到子句序列;以及
利用分词工具对文档进行分词处理,并进行去停用词处理,得到词序列。
9.根据权利要求7所述的装置,其特征在于,所述主题情感模型为包括包含文本-情感-子句、文本-主题-词的双重对应关系的LDA模型。
10.根据权利要求7所述的装置,其特征在于,所述计算模块还用于:通过Gibbs采样计算“文档-情感-子句”的概率估计以及“文档-主题-词”的概率估计,根据所述概率估计得出“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布。
11.根据权利要求10所述的装置,其特征在于,所述情感分析模块还用于:
计算“文档-情感-子句”的概率估计的熵,若所述熵不大于预设阈值,则利用argmax函数寻找具有最大评分的“文档-情感-子句”的概率估计作为文档的情感,若所述熵大于预设阈值,则说明各情感出现的概率均等,则依次计算文档各主题的情感,并将文档各主题的情感的集合作为文本的情感倾向。
12.根据权利要求7所述的装置,所述装置还包括:
反馈模块,用于根据文档的情感倾向的计算结果,更新停用词典数据库、情感词典数据库。
13.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。
CN201710220214.3A 2017-04-06 2017-04-06 文档情感分析的方法、装置、电子设备和可读存储介质 Active CN108694176B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710220214.3A CN108694176B (zh) 2017-04-06 2017-04-06 文档情感分析的方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710220214.3A CN108694176B (zh) 2017-04-06 2017-04-06 文档情感分析的方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN108694176A true CN108694176A (zh) 2018-10-23
CN108694176B CN108694176B (zh) 2021-05-25

Family

ID=63842793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710220214.3A Active CN108694176B (zh) 2017-04-06 2017-04-06 文档情感分析的方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN108694176B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635290A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法、装置、设备和介质
CN109933657A (zh) * 2019-03-21 2019-06-25 中山大学 一种基于用户特征优化的主题挖掘情感分析方法
CN110046339A (zh) * 2018-12-24 2019-07-23 北京字节跳动网络技术有限公司 确定文档主题的方法、装置、存储介质及电子设备
CN112905790A (zh) * 2021-02-04 2021-06-04 中国建设银行股份有限公司 监管事件定性指标提取的方法、装置和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033865A (zh) * 2009-09-25 2011-04-27 日电(中国)有限公司 基于子句关联的文本情感分类系统和方法
CN103914445A (zh) * 2014-03-05 2014-07-09 中国人民解放军装甲兵工程学院 数据语义处理方法
US20140278375A1 (en) * 2013-03-14 2014-09-18 Trinity College Dublin Methods and system for calculating affect scores in one or more documents
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN104298665A (zh) * 2014-10-16 2015-01-21 苏州大学 一种中文文本中评价对象的识别方法及装置
CN106250363A (zh) * 2016-07-15 2016-12-21 合肥指南针电子科技有限责任公司 一种舆情监控分析方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033865A (zh) * 2009-09-25 2011-04-27 日电(中国)有限公司 基于子句关联的文本情感分类系统和方法
US20140278375A1 (en) * 2013-03-14 2014-09-18 Trinity College Dublin Methods and system for calculating affect scores in one or more documents
CN104268197A (zh) * 2013-09-22 2015-01-07 中科嘉速(北京)并行软件有限公司 一种行业评论数据细粒度情感分析方法
CN103914445A (zh) * 2014-03-05 2014-07-09 中国人民解放军装甲兵工程学院 数据语义处理方法
CN104298665A (zh) * 2014-10-16 2015-01-21 苏州大学 一种中文文本中评价对象的识别方法及装置
CN106250363A (zh) * 2016-07-15 2016-12-21 合肥指南针电子科技有限责任公司 一种舆情监控分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘燕辉: "基于主题模型的无监督情感分类研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
孙艳: "基于主题情感混合模型的无监督文本情感分析", 《北京大学学报(自然科学版)》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635290A (zh) * 2018-11-30 2019-04-16 北京百度网讯科技有限公司 用于处理信息的方法、装置、设备和介质
CN109635290B (zh) * 2018-11-30 2022-07-22 北京百度网讯科技有限公司 用于处理信息的方法、装置、设备和介质
CN110046339A (zh) * 2018-12-24 2019-07-23 北京字节跳动网络技术有限公司 确定文档主题的方法、装置、存储介质及电子设备
CN109933657A (zh) * 2019-03-21 2019-06-25 中山大学 一种基于用户特征优化的主题挖掘情感分析方法
CN109933657B (zh) * 2019-03-21 2021-07-09 中山大学 一种基于用户特征优化的主题挖掘情感分析方法
CN112905790A (zh) * 2021-02-04 2021-06-04 中国建设银行股份有限公司 监管事件定性指标提取的方法、装置和系统

Also Published As

Publication number Publication date
CN108694176B (zh) 2021-05-25

Similar Documents

Publication Publication Date Title
US11093854B2 (en) Emoji recommendation method and device thereof
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
Qaisar Sentiment analysis of IMDb movie reviews using long short-term memory
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
CN110750645B (zh) 基于对抗训练的跨领域虚假评论识别方法
CN110457442A (zh) 面向智能电网客服问答的知识图谱构建方法
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN114780727A (zh) 基于强化学习的文本分类方法、装置、计算机设备及介质
CN108694176A (zh) 文档情感分析的方法、装置、电子设备和可读存储介质
CN110807086B (zh) 文本数据标注方法及装置、存储介质、电子设备
CN112966089A (zh) 基于知识库的问题处理方法、装置、设备、介质和产品
CN112052424B (zh) 一种内容审核方法及装置
Mikawa et al. A proposal of extended cosine measure for distance metric learning in text classification
CN113627797A (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
CN109190123A (zh) 用于输出信息的方法和装置
CN111861596A (zh) 一种文本分类方法和装置
CN109783633A (zh) 数据分析服务流程模型推荐方法
CN110046344A (zh) 添加分隔符的方法及终端设备
CN113837307A (zh) 数据相似度计算方法、装置、可读介质及电子设备
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN112597273A (zh) 一种基于nl2sql技术的配电自动化图表生成方法
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN110489759A (zh) 基于词频的文本特征加权及短文本相似性计算方法、系统和介质
CN110399617A (zh) 审计数据处理方法、系统和可读存储介质
CN116048463A (zh) 基于标签管理的需求项内容智能推荐方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant