CN108694176A

CN108694176A - 文档情感分析的方法、装置、电子设备和可读存储介质

Info

Publication number: CN108694176A
Application number: CN201710220214.3A
Authority: CN
Inventors: 张帅
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2017-04-06
Filing date: 2017-04-06
Publication date: 2018-10-23
Anticipated expiration: 2037-04-06
Also published as: CN108694176B

Abstract

本发明实施例提供一种文档情感分析的方法、装置、电子设备和可读存储介质，能够帮助分析效果的提高；使情感分析更贴近于日常的生活。该方法包括：获取文档，并对文档进行预处理，得到文档的子句和词；建立子句与文档、词与文档的索引关系；利用主体情感模型对子句、词建模，生成文档中每个子句的情感和每个词的主题，并建立子句与词的对应关系；根据所述每个子句的情感、每个词的主题、子句与词的对应关系，以及子句与文档、词与文档的索引关系，计算“文档‑情感‑子句”的概率分布以及“文档‑主题‑词”的概率分布；根据所述“文档‑情感‑子句”的概率分布以及所述“文档‑主题‑词”的概率分布计算文档的情感倾向。

Description

文档情感分析的方法、装置、电子设备和可读存储介质

技术领域

本发明涉及互联网技术领域，尤其涉及一种文档情感分析的方法、装置、电子设备和可读存储介质。

背景技术

随着互联网技术的快速发展，新媒体、电子商务等各类互联网应用得到普及，例如社交网络、微博微信、电子商务等，这些领域的信息日益影响着人们生活的各个方面。以电子商务领域为例，消费者的购物习惯悄然地由线下转为线上，网络购物的普及带来的是产品评论信息的爆炸式膨胀，产品评论信息已成为电子商务不可或缺的重要组成部分。通过分析社交网络的传播信息、微博微信的评论等信息以及电子商务领域的商品评论信息等文档信息，可以更容易地了解各类主体的主流思维导向或者对产品、事务的评价，方便进行舆情分析或者为电子商务的商家提高决策支持。

然而人工的情感标注，已经无法处理和应对这些海量数据,因此迫切的需要自动的情感识别技术标注产品评论数据。

情感分析主要包括：情感信息抽取和情感信息分类。目前已有的情感分析技术大都基于规则和基于统计这两种方法。对于基于规则的方法，随着新词的不断涌现、复杂的语言处理都使得基于规则的情感分析方法捉襟见肘，同时这种方法建立的模型与特定领域有很大关系；而基于统计的方法，只简单的考虑了单个的词，没有考虑词的同义和多义情况，忽视了词与词之间的语义联系。

具体而言，在实现本发明过程中，发明人发现现有技术中至少存在如下问题：

(1)情感特征词的确定依赖于特定领域信息，算法的适应性较差。

(2)情感分析的粒度较大，分析的基本对象为整条句子甚至整篇文档，而实际生活中，一条文档可能存在多个情感倾向。

(3)需要人工对信息进行标注，这将耗费大量的人力成本。并且，由于不同的标注者的认知水平的不同，标注结果也可能存在差异。

(4)缺乏反馈机制，现有的技术缺乏对错误的判断结果的再学习，或者对未样本词库进行再丰富的过程。

发明内容

有鉴于此，本发明实施例提供一种文档情感分析的方法、装置、电子设备和可读存储介质，能够将主题模型用于文档的情感分析，引入丰富的特征信息帮助分析效果的提高；并且对文档的子句进行情感分析，建立“文本-情感-子句”和“文本-主题-词语”关系，使情感分析更贴近于日常的生活。

为实现上述目的，根据本发明实施例的一个方面，提供了一种文档情感分析的方法。

本发明实施例的一种文档情感分析的方法包括：获取文档，并对文档进行预处理，得到文档的子句和词；建立子句与文档、词与文档的索引关系；利用主体情感模型对子句、词建模，生成文档中每个子句的情感和每个词的主题，并建立子句与词的对应关系；根据所述每个子句的情感、每个词的主题、子句与词的对应关系，以及子句与文档、词与文档的索引关系，计算“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布；根据所述“文档-情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感倾向。

可选地，对文档进行预处理，得到文档的子句和词包括：利用转折词对文档的进行句子切分，得到子句序列；以及利用分词工具对文档进行分词处理，并进行去停用词处理，得到词序列。

可选地，主题情感模型为包括包含文本-情感-子句、文本-主题-词的双重对应关系的LDA模型。

可选地，计算文档-情感-子句的概率分布以及文档-主题-词的概率分布包括：通过Gibbs采样计算“文档-情感-子句”的概率估计以及“文档-主题-词”的概率估计，根据所述概率估计得出“文档-情感-子句” 的概率分布以及“文档-主题-词”的概率分布。

可选地，根据所述“文档-情感-子句”的概率分布以及所述“文档 -主题-词”的概率分布计算文档的情感倾向包括：计算“文档-情感-子句”的概率估计的熵，若所述熵不大于预设阈值，则利用argmax函数寻找具有最大评分的“文档-情感-子句”的概率估计作为文档的情感，若所述熵大于预设阈值，则说明各情感出现的概率均等，则依次计算文档各主题的情感，并将文档各主题的情感的集合作为文本的情感倾向。

可选地，所述方法还包括：根据文档的情感倾向的计算结果，利用反馈模块更新停用词典数据库、情感词典数据库。

为实现上述目的，根据本发明实施例的另一方面，提供了一种文档情感分析的装置。

本发明实施例的一种文档情感分析的装置包括：获取模块，用于获取文档，并对文档进行预处理，得到文档的子句和词；索引模块，用于建立子句与文档、词与文档的索引关系；建模模块，用于利用主体情感模型对子句、词建模，生成文档中每个子句的情感和每个词的主题，并建立子句与词的对应关系；计算模块，用于根据所述每个子句的情感、每个词的主题、子句与词的对应关系，以及子句与文档、词与文档的索引关系，计算“文档-情感-子句”的概率分布以及“文档 -主题-词”的概率分布；情感分析模块，用于根据所述“文档-情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感倾向。

可选地，所述获取模块还用于：利用转折词对文档的进行句子切分，得到子句序列；以及利用分词工具对文档进行分词处理，并进行去停用词处理，得到词序列。

可选地，所述主题情感模型为包括包含文本-情感-子句、文本-主题-词的双重对应关系的LDA模型。

可选地，所述计算模块还用于：通过Gibbs采样计算“文档-情感- 子句”的概率估计以及“文档-主题-词”的概率估计，根据所述概率估计得出“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布。

可选地，所述情感分析模块还用于：计算“文档-情感-子句”的概率估计的熵，若所述熵不大于预设阈值，则利用argmax函数寻找具有最大评分的文档-情感-子句的概率估计作为文档的情感，若所述熵大于预设阈值，则说明各情感出现的概率均等，则依次计算文档各主题的情感，并将文档各主题的情感的集合作为文本的情感倾向。

可选地，所述装置还包括：反馈模块，用于根据文档的情感倾向的计算结果，更新停用词典数据库、情感词典数据库。

为实现上述目的，根据本发明实施例的再一方面，提供了一种电子设备。

本发明实施例的一种电子设备包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明实施例的文档情感分析的方法。

为实现上述目的，根据本发明实施例的又一方面，提供了一种计算机可读介质。

本发明实施例的一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现本发明实施例的文档情感分析的方法。

上述发明中的一个实施例具有如下优点或有益效果：因为采用将主题模型用于评论的情感分析，引入丰富的特征信息，并且对文档的子句进行情感分析，建立“文本-情感-子句”和“文本-主题-词语”关系的技术手段，所以克服了现有技术中情感分析局限于特定领域且分析粒度较粗的技术问题，进而达到使情感分析更贴近于日常的生活，提高分析效果的精度的技术效果；且通过利用主题情感模型，可减少人工标注从而降低成本；通过引入反馈机制，模型能够对停用词、情感词等样本词库数据进行再次学习，最终提高了情感分析的精度；通过利用转折词进行句子切分，从而能够较为准确的将不同情感或不同主题的子句进行分隔；通过利用分词工具对词进行提取，并借助停用词典数据库进行去停用词处理，从而能够得到有效地词序列，保障后续计算过程的精确度；通过利用Gibbs采样计算“文档-情感-子句”的概率估计以及“文档-主题-词”的概率估计，从而能够较为容易地推导求解概率分布；通过根据熵与预设阈值大小的比较，从而能够准确区分文档的情感是由一个情感占主导性还是各情感出现的概率均等，从而选择合适的情感分析计算公式求解文档的情感倾向。

上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是实现本发明实施例的文档情感分析的方法的系统架构示意图；

图2是根据本发明实施例的文档情感分析的方法的主要步骤的示意图；

图3是根据本发明实施例的文档情感分析的方法建立的主题情感模型的示意图；

图4是根据本发明实施例的文档情感分析的装置的主要模块的示意图；

图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本发明实施例的文档情感分析的方法，将主题模型用于评论的情感分析，以引入丰富的特征信息，使文档情感分析不拘泥于特定领域；并且对文档的子句进行情感分析，建立“文本-情感-子句”和“文本- 主题-词语”关系，可以处理了一个文档信息包含多个情感倾向的情况。其中，主题模型是一种能有效捕捉文档隐含主题的无监督学习的模型，可以在一定程度上改善情感分类在不同领域的适应性。

图1是实现本发明实施例的文档情感分析的方法的系统架构示意图。

如图1所示，实现本发明实施例的文档情感分析方法的系统架构中包括：文档信息爬取模块、文档信息预处理模块、文档信息数据库、停用词典数据库、情感词典数据库、主题情感聚类模块、情感分析模块和反馈模块。

图2是根据本发明实施例的文档情感分析的方法的主要步骤的示意图。

如图2所示，本发明实施例的文档情感分析的方法主要包括如下步骤：

步骤S21：获取文档，并对文档进行预处理，得到文档的子句和词。本发明实施例中，可以利用转折词对文档的进行句子切分，得到子句序列；以及利用分词工具对文档进行分词处理，并进行去停用词处理，得到词序列。

步骤S22：建立子句与文档、词与文档的索引关系。本步骤的目的在于处理文档中的子句和词。对所有子句和词建立和对应文档的索引，然后创建文档和子句、文档和词对应的数据文件。每条数据作为一个文档。例如每条产品评论、每条微博、每条社交网络的信息等。

步骤S23：利用主体情感模型对子句、词建模，生成文档中每个子句的情感和每个词的主题，并建立子句与词的对应关系。换句话说，就是将子句与词分发给不同的主题与情感，即聚类得到<主题，情感，子句索引，词索引>的模型。该主题情感模型为包括包含文本-情感-子句、文本-主题-词的双重对应关系的LDA模型。

步骤S24：根据所述每个子句的情感、每个词的主题、子句与词的对应关系，以及子句与文档、词与文档的索引关系，计算文档-情感- 子句的概率分布以及文档-主题-词的概率分布。本步骤的目的是将生成的<主题，情感，子句索引，词索引>模型进行迭代处理，并根据子句与文档、词与文档的索引关系，生成“文档-情感-子句”及“文档-主题-词”的概率分布。本发明实施例中，通过Gibbs采样计算“文档-情感-子句”的概率估计以及“文档-主题-词”的概率估计，通过采样得到的是一个迭代估计值，以此概率估计值生成“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布。

步骤S25：根据所述“文档-情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感倾向。本发明实施例的情感倾向的计算逻辑大致如下：计算“文档-情感-子句”的概率估计的熵，若所述熵不大于预设阈值，则利用argmax函数寻找具有最大评分的文档 -情感-子句的概率估计作为文档的情感，若所述熵大于预设阈值，则说明各情感出现的概率均等，则依次计算文档各主题的情感，并将文档各主题的情感的集合作为文本的情感倾向。具体计算过程将在后续进行详细描述。

此外，本发明实施例的文档情感分析的方法还可包括：根据文档的情感倾向的计算结果，利用反馈模块更新停用词典数据库、情感词典数据库。

图3是根据本发明实施例的文档情感分析的方法建立的主题情感模型的示意图。以下结合图1、图2和图3对本发明实施例的文档情感分析的方法进行详细介绍。

根据前述描述，实现本发明实施例的文档情感分析方法的系统架构中包括：文档信息爬取模块、文档信息预处理模块、文档信息数据库、停用词典数据库、情感词典数据库、主题情感聚类模块、情感分析模块和反馈模块。以下以对电子商务中的产品评论信息的情感分析为例，结合各自模块实现的功能和逻辑进行本发明实施例的文档情感分析的方法的详细流程说明。

一、评论信息爬取模块

评论信息爬取模块用于按照预设的时间间隔(此预设的时间间隔可以根据实际需求而定)对网站或者其他应用上产品评论数据进行爬取(为减少不必要的计算，本发明实施例中可以根据实际情况进行产品评论数据的筛选，例如但不限于可以是只爬取带有星级的产品评论数据，通过爬取带有星级的评论数据，可以节省对语料数据的情感分析和标注时间)，并抽取其中的评论信息，将这些评论信息存储于评论信息数据库中。

二、评论信息预处理模块

评论信息预处理模块，用于对评论信息进行处理。首先对评论进行子句切分，例如可以是通过对含有“但”、“但是”、“可是”等转折词的句子进行切分，得到子句序列；然后利用中文分词工具进行分词和去停用词等处理，这里要特别注意，剔除停用词的过程中，需要保留对情感判断产生影响的词，最终得到词序列，同时计算每个词的TF-IDF(即termfrequency–inverse document frequency，是一种统计技术，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度)权值。

三、主题情感聚类模块

主题情感聚类模块，用于将预处理得到的子句及词序列，根据下面的主题模型(本发明实施例中可以是LDA模型，)算法对文档中的词进行聚类，并获取子句的情感分布，以及单词的主题和情感，算法模型示意图可参见图3。

具体过程如下：

1.首先处理文档中的子句和词，对所有子句和词建立和对应文档的索引，然后创建文档和子句、文档和词对应的数据文件。每条产品评论数据作为一个文档。如此，文档中每个子句是以其在文档中的索引的形式存在的；文档中的每个词是以其在文档中的索引的形式存在，并且还可以再加上前述计算出的TF-IDF权值，从而清晰的标识子句和词的属性信息；

2.利用图3的主题情感模型对子句、词建模，根据主题情感模型，生成每篇文档中的每个子句中的情感j，每个词的主题z，以及子句与词的对应关系。换句话说，就是利用包括包含“文本-情感-子句”、 “文本-主题-词”的双重对应关系的LDA模型，将子句与词分发给不同的主题与情感，即聚类得到<主题，情感，子句，词>的模型；

3.将生成的<主题，情感，子句，词>模型中的子句和词，根据子句索引、词索引进行转换，然后通过Gibbs采样得到概率矩阵形式的 “文本-情感-子句”、“文本-主题-词”的概率估计，根据该概率估计得出“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布。

其中，通常情况下，可以利用前述主题情感模型生成文档，本发明实施例中，文档、子句和词已知，因此可以根据主题情感模型中文档的生成过程，生成每篇文档中的每个子句中的情感j，每个词的主题 z：

1.对于每个主题情感对(k,j)

①生成主题情感对的单词分布

2.对于每篇文档d

①对于每个情感j，生成主题分布θ_dj～Dir(α)

②生成子句的情感分布π_s～Dir(γ)

③对于文档d的每个子句s

i生成子句s的情感j_s～Multi(π_s)

ii对于s中的每个词w

a生成主题z_s,n～Multi(θ_dj)

b生成单词w_n～Multi(φ_(z,j)s,n)

生成每篇文档中的每个子句中的情感j，每个词的主题z之后，使用LDA模型中的Gibbs采样工具(是马尔可夫链蒙特卡尔理论MCMC 中用来获取一系列近似等于指定多维概率分布观察样本的算法)，对θ、 π、φ进行概率估计：

主题k在文档d的情感j的概率估计

文档d中子句s的情感j的概率估计

单词w属于主题k情感j对的概率估计

前述模型中Gibbs采样的参数是提前设定的经验值，例如主题分布的Dirichlet参数α＝50/K，单词分布的Dirichlet参数β＝0.01，情感分布的Dirichlet参数γ＝1。其中，K、L分别为主题、情感总数，V表示文档集中词的总数，表示文档d中，分配在主题k情感j的词数，表示文档d中，分配在情感j的句子数，表示词w分配在主题k情感 j的次数。

当然，θ、π、φ的概率估计也可以通过其他方式计算，例如变分贝叶斯EM算法(指变分贝叶斯期望最大化(VBEM,variational Bayes expectation maximization)，这种算法基于变分推理，通过迭代寻找最小化KL(Kullback-Leibler)距离的边缘分布来近似联合分布，同时利用 mean field近似减小联合估计的复杂度)，只不过Gibbs采样工具更容易推导求解，因此，本发明实施例中，使用了Gibbs采样工具进行详细说明。

四、情感分析模块

情感分析模块用于加载主题情感聚类模块的结果数据，得出评论信息的情感倾向性判断。

利用前述主题情感聚类模块获取的π_d,j可以得到情感j在文档d的子句s的概率估计，考虑到一个产品评论中包含的情感可能有所不同，因此首先计算π_d,j的熵

当E(π)≤ξ时(这里ξ取0.9，以是一个，此值为项目中的优化值，不同评论数据此值可能存在差异)，则文档d的情感 (对于argmax，设函数y＝f(x)，则x₀＝argmax(f(x)) 的意思就是参数x₀满足f(x₀)为f(x)的最大值；换句话说就是argmax(f(x)) 是使得f(x)取得最大值所对应的变量x。arg即argument，此处意为“自变量”)；否则，说明各个情感j出现的概率均等，同时根据产品评论拆分的子句数N_s|d进行分析。

在前述的子句拆分过程中，由于根据转折词进行拆分，子句与子句之间存在转折关系，因此对于评论中的语句，每个子句可能对应描述有一个主题。当子句数与主题总数K相等时，可大致认定每个子句对应一个主题，因此，在这种情况下，直接利用各主题对应情感的情感集作为文档的情感；而当子句数与主题总数K的对应关系为N_s|d＝1或者 N_s|d≠K时，此时不能轻易判断文档中各子句与主题的对应关系，因此不再以各主题的情感组成的情感集作为文档的主题，而是通过反馈模块进行该文档的情感计算。

由此，在各个情感j出现的概率均等，同时根据产品评论拆分的子句数N_s|d进行分析的过程中，如果N_s|d＝1或者N_s|d≠K，该评论文档的主题由反馈模块进行处理；如果N_s|d＝K，则计算主题k的情感j为最终，将情感分析结果集J＝(j₁,…,j_K)作为文档d的最终情感倾向。

五、反馈模块

本发明实施例中，反馈模块可用于可以将该文档中的一些关键情感词加入图1中情感词典数据库，以更新情感词典数据库，同理也可用于更新停用词典数据库；另外，有些文档的情感分析结果集中的情感可能完全相反，这时，可以通过该反馈模块修复情感分析的结果。另外，系统管理员也可以通过反馈模块对修正情感分析模块的结果。

根据本发明实施例的文档情感分析的方法可以看出，因为采用将主题模型用于评论的情感分析，引入丰富的特征信息，并且对文档的子句进行情感分析，建立“文本-情感-子句”和“文本-主题-词语”关系的技术手段，所以克服了现有技术中情感分析局限于特定领域且分析粒度较粗的技术问题，进而达到使情感分析更贴近于日常的生活，提高分析效果的精度的技术效果；且通过利用主题情感模型，可减少人工标注从而降低成本；通过引入反馈机制，模型能够对停用词、情感词等样本词库数据进行再次学习，最终提高了情感分析的精度；通过利用转折词进行句子切分，从而能够较为准确的将不同情感或不同主题的子句进行分隔；通过利用分词工具对词进行提取，并借助停用词典数据库进行去停用词处理，从而能够得到有效地词序列，保障后续计算过程的精确度；通过利用Gibbs采样计算“文档-情感-子句”的概率估计以及“文档-主题-词”的概率估计，从而能够较为容易地推导求解概率分布；通过根据熵与预设阈值大小的比较，从而能够准确区分文档的情感是由一个情感占主导性还是各情感出现的概率均等，从而选择合适的情感分析计算公式求解文档的情感倾向。

图4是根据本发明实施例的文档情感分析的装置的主要模块的示意图。

如图4所示，本发明实施例的一种文档情感分析的装置40主要包括如下模块：获取模块401、索引模块402、建模模块403、计算模块 404以及情感分析模块405。

其中，获取模块401用于获取文档，并对文档进行预处理，得到文档的子句和词；索引模块402用于建立子句与文档、词与文档的索引关系；建模模块403用于利用主体情感模型对子句、词建模，生成文档中每个子句的情感和每个词的主题，并建立子句与词的对应关系；计算模块404用于根据所述每个子句的情感、每个词的主题、子句与词的对应关系，以及子句与文档、词与文档的索引关系，计算“文档- 情感-子句”的概率分布以及“文档-主题-词”的概率分布；情感分析模块405用于根据所述“文档-情感-子句”的概率分布以及所述“文档 -主题-词”的概率分布计算文档的情感倾向。

本发明实施例中，获取模块401还可用于：利用转折词对文档的进行句子切分，得到子句序列；以及利用分词工具对文档进行分词处理，并进行去停用词处理，得到词序列。

主题情感模型可以为包括包含文本-情感-子句、文本-主题-词的双重对应关系的LDA模型。

另外，计算模块404还可用于：通过Gibbs采样计算“文档-情感- 子句”的概率估计以及“文档-主题-词”的概率估计，根据所述概率估计得出“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布。

情感分析模块405还可用于：计算“文档-情感-子句”的概率估计的熵，若所述熵不大于预设阈值，则利用argmax函数寻找具有最大评分的“文档-情感-子句”的概率估计作为文档的情感，若所述熵大于预设阈值，则说明各情感出现的概率均等，则依次计算文档各主题的情感，并将文档各主题的情感的集合作为文本的情感倾向。

需要说明的是，装置40还可包括：反馈模块(图中未示出)，用于根据文档的情感倾向的计算结果，更新停用词典数据库、情感词典数据库。

从以上描述可以看出，因为采用将主题模型用于评论的情感分析，引入丰富的特征信息，并且对文档的子句进行情感分析，建立“文本- 情感-子句”和“文本-主题-词语”关系的技术手段，所以克服了现有技术中情感分析局限于特定领域且分析粒度较粗的技术问题，进而达到使情感分析更贴近于日常的生活，提高分析效果的精度的技术效果；且通过利用主题情感模型，可减少人工标注从而降低成本；通过引入反馈机制，模型能够对停用词、情感词等样本词库数据进行再次学习，最终提高了情感分析的精度；通过利用转折词进行句子切分，从而能够较为准确的将不同情感或不同主题的子句进行分隔；通过利用分词工具对词进行提取，并借助停用词典数据库进行去停用词处理，从而能够得到有效地词序列，保障后续计算过程的精确度；通过利用Gibbs 采样计算“文档-情感-子句”的概率估计以及“文档-主题-词”的概率估计，从而能够较为容易地推导求解概率分布；通过根据熵与预设阈值大小的比较，从而能够准确区分文档的情感是由一个情感占主导性还是各情感出现的概率均等，从而选择合适的情感分析计算公式求解文档的情感倾向。

下面参考图5，其示出了适于用来实现本申请实施例的终端设备的计算机系统500的结构示意图。图5示出的终端设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508 加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/ 输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本发明公开的实施例，上文主要步骤示意图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行主要步骤示意图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的系统中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、索引模块、建模模块、计算模块以及情感分析模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，获取模块还可以被描述为“用于获取文档，并对文档进行预处理，得到文档的子句和词的模块”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的设备中所包含的；也可以是单独存在，而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该设备执行时，使得该设备包括：获取文档，并对文档进行预处理，得到文档的子句和词；建立子句与文档、词与文档的索引关系；利用主体情感模型对子句、词建模，生成文档中每个子句的情感和每个词的主题，并建立子句与词的对应关系；根据所述每个子句的情感、每个词的主题、子句与词的对应关系，以及子句与文档、词与文档的索引关系，计算“文档-情感- 子句”的概率分布以及“文档-主题-词”的概率分布；根据所述“文档 -情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感倾向。

根据本发明实施例的技术方案，因为采用将主题模型用于评论的情感分析，引入丰富的特征信息，并且对文档的子句进行情感分析，建立“文本-情感-子句”和“文本-主题-词语”关系的技术手段，所以克服了现有技术中情感分析局限于特定领域且分析粒度较粗的技术问题，进而达到使情感分析更贴近于日常的生活，提高分析效果的精度的技术效果；且通过利用主题情感模型，可减少人工标注从而降低成本；通过引入反馈机制，模型能够对停用词、情感词等样本词库数据进行再次学习，最终提高了情感分析的精度；通过利用转折词进行句子切分，从而能够较为准确的将不同情感或不同主题的子句进行分隔；通过利用分词工具对词进行提取，并借助停用词典数据库进行去停用词处理，从而能够得到有效地词序列，保障后续计算过程的精确度；通过利用Gibbs采样计算“文档-情感-子句”的概率估计以及“文档- 主题-词”的概率估计，从而能够较为容易地推导求解概率分布；通过根据熵与预设阈值大小的比较，从而能够准确区分文档的情感是由一个情感占主导性还是各情感出现的概率均等，从而选择合适的情感分析计算公式求解文档的情感倾向。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种文档情感分析的方法，其特征在于，包括：

获取文档，并对文档进行预处理，得到文档的子句和词；

建立子句与文档、词与文档的索引关系；

利用主体情感模型对子句、词建模，生成文档中每个子句的情感和每个词的主题，并建立子句与词的对应关系；

根据所述每个子句的情感、每个词的主题、子句与词的对应关系，以及子句与文档、词与文档的索引关系，计算“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布；

根据所述“文档-情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感倾向。

2.根据权利要求1所述的方法，其特征在于，对文档进行预处理，得到文档的子句和词包括：

利用转折词对文档的进行句子切分，得到子句序列；以及

利用分词工具对文档进行分词处理，并进行去停用词处理，得到词序列。

3.根据权利要求1所述的方法，其特征在于，所述主题情感模型为包括包含文本-情感-子句、文本-主题-词的双重对应关系的LDA模型。

4.根据权利要求1所述的方法，其特征在于，计算文档-情感-子句的概率分布以及文档-主题-词的概率分布包括：通过Gibbs采样计算“文档-情感-子句”的概率估计以及“文档-主题-词”的概率估计，根据所述概率估计得出“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布。

5.根据权利要求4所述的方法，其特征在于，根据所述“文档-情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感倾向包括：

计算“文档-情感-子句”的概率估计的熵，若所述熵不大于预设阈值，则利用argmax函数寻找具有最大评分的文档-情感-子句的概率估计作为文档的情感，若所述熵大于预设阈值，则说明各情感出现的概率均等，则依次计算文档各主题的情感，并将文档各主题的情感的集合作为文本的情感倾向。

6.根据权利要求1所述的方法，所述方法还包括：

根据文档的情感倾向的计算结果，利用反馈模块更新停用词典数据库、情感词典数据库。

7.一种文档情感分析的装置，其特征在于，包括：

获取模块，用于获取文档，并对文档进行预处理，得到文档的子句和词；

索引模块，用于建立子句与文档、词与文档的索引关系；

建模模块，用于利用主体情感模型对子句、词建模，生成文档中每个子句的情感和每个词的主题，并建立子句与词的对应关系；

计算模块，用于根据所述每个子句的情感、每个词的主题、子句与词的对应关系，以及子句与文档、词与文档的索引关系，计算“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布；

情感分析模块，用于根据所述“文档-情感-子句”的概率分布以及所述“文档-主题-词”的概率分布计算文档的情感倾向。

8.根据权利要求7所述的装置，其特征在于，所述获取模块还用于：

利用转折词对文档的进行句子切分，得到子句序列；以及

9.根据权利要求7所述的装置，其特征在于，所述主题情感模型为包括包含文本-情感-子句、文本-主题-词的双重对应关系的LDA模型。

10.根据权利要求7所述的装置，其特征在于，所述计算模块还用于：通过Gibbs采样计算“文档-情感-子句”的概率估计以及“文档-主题-词”的概率估计，根据所述概率估计得出“文档-情感-子句”的概率分布以及“文档-主题-词”的概率分布。

11.根据权利要求10所述的装置，其特征在于，所述情感分析模块还用于：

计算“文档-情感-子句”的概率估计的熵，若所述熵不大于预设阈值，则利用argmax函数寻找具有最大评分的“文档-情感-子句”的概率估计作为文档的情感，若所述熵大于预设阈值，则说明各情感出现的概率均等，则依次计算文档各主题的情感，并将文档各主题的情感的集合作为文本的情感倾向。

12.根据权利要求7所述的装置，所述装置还包括：

反馈模块，用于根据文档的情感倾向的计算结果，更新停用词典数据库、情感词典数据库。

13.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1-6中任一所述的方法。