CN109684634B

CN109684634B - 情感分析方法、装置、设备及存储介质

Info

Publication number: CN109684634B
Application number: CN201811542306.4A
Authority: CN
Inventors: 牛国成; 何伯磊; 刘昊; 杨水生; 王晨秋; 肖欣延; 吕雅娟; 吴甜
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-17
Filing date: 2018-12-17
Publication date: 2023-07-25
Anticipated expiration: 2038-12-17
Also published as: CN109684634A

Abstract

本申请公开了一种情感分析方法、装置、设备及存储介质，其中方法包括：获取情感分析请求，其中，分析请求中包括第一文本数据及第一文本数据所属的目标领域；对第一文本数据进行切词处理，以确定第一文本数据中包括的各第一分词；通过查询与目标领域关联的词典，获取每个第一分词对应的词向量；将第一文本数据中每个第一分词对应的词向量，输入与目标领域对应的情感分析模型，以确定第一文本数据对应的情感类型。本申请通过根据文本数据所属的领域，获取对应的情感分析模型，以确定文本数据对应的情感类型，从而能够提高文本数据情感分析服务的准确性和可靠性，满足了不同用户的情感分析需求，提升用户体验。

Description

情感分析方法、装置、设备及存储介质

技术领域

本申请涉及数据分析技术领域，尤其涉及一种情感分析方法、装置、设备及存储介质。

背景技术

随着互联网数据的海量积累和人工智能(Artificial Intelligence，简称AI)技术的不断发展，情感倾向性分析也被越来越多的商业场景运用，在消费决策、舆情分析、个性化推荐等领域有重要作用。目前的情感分析平台提供情感分析服务时，多是利用预先训练好的分析模型来实现的。因此，如何保证模型的准确性及可靠性，是目前情感分析服务亟需解决的问题。

发明内容

本申请提供一种情感分析方法、装置、设备及存储介质，用于解决相关技术中，亟需一种可提高情感分析服务的准确性及可靠性的问题。

本申请一方面实施例提供一种情感分析方法，该方法包括：获取情感分析请求，其中，所述分析请求中包括第一文本数据及所述第一文本数据所属的目标领域；对所述第一文本数据进行切词处理，以确定所述第一文本数据中包括的各第一分词；通过查询与所述目标领域关联的词典，获取每个第一分词对应的词向量；将所述第一文本数据中每个第一分词对应的词向量，输入与所述目标领域对应的情感分析模型，以确定所述第一文本数据对应的情感类型。

本申请另一方面实施例提供一种情感分析装置，该装置包括：第一获取模块，用于获取情感分析请求，其中，所述分析请求中包括第一文本数据及所述第一文本数据所属的目标领域；第一确定模块，用于对所述第一文本数据进行切词处理，以确定所述第一文本数据中包括的各第一分词；第二获取模块，用于通过查询与所述目标领域关联的词典，获取每个第一分词对应的词向量；第二确定模块，用于将所述第一文本数据中每个第一分词对应的词向量，输入与所述目标领域对应的情感分析模型，以确定所述第一文本数据对应的情感类型。

本申请又一方面实施例提供一种计算机设备，该计算机设备包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如第一方面实施例所述的情感分析方法。

本申请再一方面实施例的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，以实现第一方面实施例所述的情感分析方法。

本申请再一方面实施例的计算机程序，当所述计算机程序被处理器执行时，以实现第一方面实施例所述的情感分析方法。

本申请公开的技术方案，具有如下有益效果：

通过获取情感分析请求，以获取情感分析请求中包括的第一文本数据及第一文本数据所属的目标领域，然后对第一文本数据进行切词处理，以确定第一文本数据中包括的各第一分词，并通过查询与目标领域关联的词典，获取每个第一分词对应的词向量，然后将第一文本数据中每个第一分词对应的词向量，输入与目标领域对应的情感分析模型中，以确定第一文本数据对应的情感类型。由此，通过根据文本数据所属的领域，获取对应的情感分析模型，以确定文本数据对应的情感类型，从而能够提高文本数据情感分析服务的准确性和可靠性，满足了不同用户的情感分析需求，提升用户体验。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本申请一个实施例示出的情感分析方法的流程示意图；

图2是根据本申请另一个实施例示出的情感分析方法的流程示意图；

图3是根据本申请一个实施例示出的生成与目标领域对应的情感分析模型及词典的流程示意图；

图4是根据本申请一个实施例示出的预设的初始情感分析模型和目标领域对应的情感分析模型的结构示意图；

图5是根据本申请一个实施例示出的对预设的初始情感分析模型进行模型调整的流程示意图；

图6是根据本申请又一个实施例示出的情感分析方法的流程示意图；

图7是根据本申请再一个实施例示出的情感分析方法的流程示意图；

图8是根据本申请一个实施例示出的情感分析装置的结构示意图；

图9是根据本申请一个实施例示出的计算机设备的结构示意图；

图10是根据本申请另一个实施例示出的计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

本申请实施例针对相关技术中，亟需一种可提高情感分析服务的准确性和可靠性的问题，提出一种情感分析方法。

本申请实施例，首先获取情感分析请求，以获取第一文本数据及第一文本数据所属的目标领域，然后对第一文本数据进行切词处理，确定第一文本数据中包括的各第一分词，并通过查询与目标领域关联的词典，获取每个第一分词对应的词向量，然后将第一文本数据中每个第一分词对应的词向量，输入到与目标领域对应的情感分析模型中，以确定第一文本数据对应的情感类型。由此，通过根据文本数据所属的领域，获取对应的情感分析模型，以确定文本数据对应的情感类型，从而能够提高文本数据情感分析服务的准确性和可靠性，满足了不同用户的情感分析需求，提升用户体验。

下面参考附图描述本申请实施例的情感分析方法、装置、设备及存储介质进行详细说明。

首先，结合图1对本申请实施例中的情感分析方法进行具体说明。

图1是根据本申请一个实施例示出的情感分析方法的流程示意图。

如图1所示，本申请实施例的情感分析方法可以包括以下步骤：

步骤101，获取情感分析请求，其中，分析请求中包括第一文本数据及第一文本数据所属的目标领域。

其中，本申请实施例提供的情感分析方法，可以由本申请实施例提供的计算机设备执行。其中，计算机设备中设置有情感分析装置，以实现对文本数据的情感分析服务进行控制。本实施例计算机设备可以是任一具有数据处理功能的硬件设备，比如智能手机、台式电脑、服务器、平板电脑等等。

情感分析是一种识别主观文本中的情感倾向的技术，一般包括积极、中性、消极等三类，是自然语言处理任务中的一项重要技术。也就是说，通过情感分析，可以实现分析用户对实体(比如产品、服务、个人、事件)表达的观点、情绪、态度。

即，本实施例中，第一文本数据为带有情感色彩的主观性文本数据。例如：“这家餐厅的饭很好吃”。

对应的，第一文本数据所属的目标领域，即为带有情感色彩的主观性文本数据所使用的场景。例如，第一文本数据为：“XX品牌的手机待机时间长”，则说明第一文本数据所属的目标领域为：“电子产品领域”；又例如，第一文本数据为：“这家餐厅上菜速度慢，需要等的时间长”，则说明第一文本数据所属的目标领域为：“餐饮评论领域”。

本申请实施例中，用户可通过客户端向服务端发送情感分析请求；或者，还可在检测到用户发表的评论信息时，将用户发表评论信息的操作，确定为触发了情感分析请求等等，本实施例对此不作具体限定。

在本申请的一个实施例中，当获取到情感分析请求之后，计算机设备可对该情感分析请求进行解析处理，以获取情感分析请求中包括的第一文本数据及第一文本数据所属的目标领域。

步骤102，对第一文本数据进行切词处理，以确定第一文本数据中包括的各第一分词。

可选的，本申请实施例，可通过现有的snownlp分词或者jieba分词等方式，对第一文本数据进行切词处理，此处对其不作过多赘述。

例如，若第一文本数据为“特别喜欢这一系列的台灯”，则经过切词处理之后，得到第一文本数据中包括的各第一分词可为：“特别”、“喜欢”、“这”、“一”、“系列”、“的”、“台灯”。

又例如，若第一文本数据为“质量不太好”，则经过切词处理之后，得到第一文本数据中包括的各第一分词可为：“质量”、“不”、“太”、“好”。

步骤103，通过查询与目标领域关联的词典，获取每个第一分词对应的词向量。

其中，与目标领域关联的词典是指具有目标领域特定词汇及其他大量词的集合，通常可包括4部分：积极情感词典、消极情感词典、否定词典以及程度副词词典。

也就是说，本申请实施例可以根据第一文本数据所属的目标领域，快速的从不同的词典中，查找到与目标领域关联的词典，进而在查找到的与目标领域关联的词典中，查询与第一文本数据中包括的各第一分词对应的词向量。

需要说明的是，对于本实施例中目标领域关联的词典的生成过程，将在下面的示例中进行详细说明，此处对其不作过多赘述。

步骤104，将第一文本数据中每个第一分词对应的词向量，输入与目标领域对应的情感分析模型，以确定第一文本数据对应的情感类型。

本实施例中，通过将第一文本数据中每个第一分词对应的词向量，输入到与目标领域对应的情感分析模型中，以利用与目标领域对应的情感分析模型，对输入的每个第一分词对应的词向量进行处理，以确定第一文本数据对应的情感类型。

其中，通过与目标领域对应的情感分析模型，对第一文本数据中每个第一分词对应的词向量进行分析处理后，可输出第一文本数据对应的情感类型，以及各情感类型对应的概率值。

需要说明的是，对于本实施例中与目标领域对应的情感分析模型的生成过程，将在下面的示例中进行详细说明，此处对其不作过多赘述。

本申请实施例提供的情感分析方法，通过获取情感分析请求，以获取情感分析请求中包括的第一文本数据及第一文本数据所属的目标领域，然后对第一文本数据进行切词处理，以确定第一文本数据中包括的各第一分词，并通过查询与目标领域关联的词典，获取每个第一分词对应的词向量，然后将第一文本数据中每个第一分词对应的词向量，输入与目标领域对应的情感分析模型中，以确定第一文本数据对应的情感类型。由此，通过根据文本数据所属的领域，获取对应的情感分析模型，以确定文本数据对应的情感类型，从而能够提高文本数据情感分析服务的准确性和可靠性，满足了不同用户的情感分析需求，提升用户体验。

通过上述分析可知，本申请实施例通过确定第一文本数据中包括的各第一分词，获取每个第一分词对应的词向量，并将获取的词向量，输入至与目标领域对应的情感分析模型中，确定第一文本数据对应的情感类型。

实际使用时，确定第一文本数据中包括的各第一分词之后，本申请实施例还可确定每个第一分词对应的词性，并基于每个第一分词及每个第一分词对应的词性，确定每个第一分析的词特征，然后基于每个第一分词对应的词向量确定对应的词向量。下面结合图2，对本申请实施例的情感分析方法的上述情况进行说明。

图2是根据本申请另一个实施例示出的情感分析方法的流程示意图。

如图2所示，本申请实施例的情感分析方法可以包括以下步骤：

步骤201，获取情感分析请求，其中，分析请求中包括第一文本数据及第一文本数据所属的目标领域。

步骤202，对第一文本数据进行切词处理，以确定第一文本数据中包括的各第一分词。

步骤203，对每个第一分词进行词法分析，以确定每个第一分词对应的词性。

本实施例中，可利用词法分析器(Lexical analyzer，简称Lexer)，又名扫描器(Scanner)，对每个第一分词进行词法分析，确定每个第一分词对应的词性。

其中，通过词法分析器对每个第一分词进行词法分析时，可从左至右的对每个第一分词进行扫描，按照语言的词法规则识别每个第一分词，并产生每个第一分词对应的词性。

例如，第一文本数据中第一个第一分词为：“质量”，第二个第一分词为：“不错”，则通过词法分析器分析之后，可确定“质量”对应的词性为名词，“不错”对应的词性为形容词。

步骤204，根据每个第一分词及每个第一分词对应的词性，确定每个第一分词的词特征。

步骤205，通过查询与目标领域关联的词典，确定与每个第一分词的词特征对应的词向量。

实际使用时，各领域关联的词典中通常可以包括各个词在该领域对应的词向量。而由于当同一词的词性不同时，其对应的词向量可能不同，因此，本申请实施例中与各领域关联的词典中，可以包括与词及词性对应的词向量。即与各领域关联的词典中，可以包括与词特征对应的词向量，其中，词特征可以包括词及词性。因此，本申请在确定每个第一分词的词特征之后，即可根据词特征查询与目标领域关联的词典，确定与每个第一分词的词特征对应的词向量。

步骤206，将第一文本数据中每个第一分词对应的词向量，输入与目标领域对应的情感分析模型，以确定第一文本数据对应的情感类型。

本申请实施例提供的情感分析方法，在确定第一文本数据中包括的各第一分词之后，通过对每个第一分词进行词法分析，确定每个第一分析对应的词性，然后将每个第一分词及每个第一分析对应的词性，确定每个第一分词的词特征，从而根据确定的每个第一分词的词特征，查询与目标领域关联的词典，确定与每个第一分词的词特征对应的词向量，然后将确定的词向量，输入与目标领域对应的情感分析模型，确定第一文本数据对应的情感类型。由此，通过根据文本数据所属的领域，获取对应的情感分析模型，以确定文本数据对应的情感类型，从而能够提高文本数据情感分析服务的准确性和可靠性，满足了不同用户的情感分析需求，提升用户体验。此外，通过确定每个分词的词特征，以根据词特征确定对应的词向量，从而提高了获取词向量的准确性，使得最终对文本数据的情感分析类型的准确度更高。

下面结合图3，对本申请实施例情感分析方法中，上述与目标领域对应的情感分析模型及词典的生成过程进行具体说明。

图3是根据本申请一个实施例示出的生成与目标领域对应的情感分析模型及词典的流程示意图。

如图3所示，该实施例可以包括以下步骤：

步骤301，获取与第一领域对应的标注数据集，其中，标注数据集中包括多个第二文本数据及每个第二文本数据对应的情感类型。

本实施例中，第一领域可以是实际应用场景中的任意领域。例如，餐饮评论领域、电子产品领域、购物领域等等，此处对其不作具体限定。

可选的，本实施例可通过网络爬虫等工具从服务端获取与第一领域对应的标注数据集；或者，获取现有的第一领域对应的标注数据集，等等。

进一步的，在获取到与第一领域对应的标注数据集之后，计算机设备可对标注数据集进行解析处理，以获取标注数据集中包括的多个第二文本数据及每个第二文本数据对应的情感类型。

例如，第二文本数据为“他家的包子不错”及对应的情感类型为“积极”。

又例如，第二文本数据为“今天吃了一顿特窝火的饭”及对应的情感类型为“消极”。

在本申请的一个实施例中，在获取到与第一领域对应的标注数据集之后，计算机设备可基于每个标注数据的格式、结构等，对标注数据集进行筛选，以获取出有效数据。其中，有效数据是指标注有情感类型的数据。若标注数据集中存在无标注情感类型的数据时，则认为此类标注数据为无效，则可将此类标注数据剔除，以减少干扰因素，提高情感分析模型及词典的生成准确度和速度。

进一步的，为了简化标注数据集，以提高后续数据处理速度，本申请实施例在获取到与第一领域对应的标注数据集之后还包括：

对标注数据集进行预处理，以确定标注数据集中每个第二分词的词频；

根据每个第二分词的词频，将标注数据集中词频小于阈值的各第二分词进行归一化处理。

其中，阈值可根据实际应用需求进行设置，此处对其不作具体限制。

步骤302，基于多个第二文本数据及每个第二文本数据对应的情感类型，对预设的初始情感分析模型进行模型调整，以生成与目标领域对应的情感分析模型及词典。

其中，预设的初始情感分析模型可以是现有的通用的情感分析模型。

本实施例中，预设的初始情感分析模型和目标领域对应的情感分析模型可以是：双向长短期记忆网络模型(Bi-directional Long Short-Term Memory，简称Bi-LSTM)，Bi-LSTM是由前向LSTM与后向LSTM组合而成，具体结构如图4所示。

通常，Bi-LSTM可包括三层，分别为：单词语义层、句子语义层、输出层。

其中，单词语义层，用于将输入文本数据中的每个词特征转换为连续的语义向量表示。

句子语义层，则是通过Bi-LSTM网络结构，将单词语义的序列转换为整个句子的语义表示。

输出层，则是基于句子语义计算情感类型及对应的概率值。

为了清楚说明双向长短期记忆网络模型，下面通过示例进行说明。

例如，如图4所示，单词语义层输入文本数据的词包括：“特别”、“喜欢”、“这种”、“好看”、“的”、“狗狗”，通过句子语义层的转换处理后，通过输出层得到输入文本数据的情感类型包括：满意和不满意，及各自对应的概率值为：0.93和0.07。即，满意的概率值为0.93，不满意的概率值为0.07。

在本申请的实施例中，在获取到多个第二文本数据及每个第二文本数据对应的情感类型之后，计算机设备即可通过以下方式，生成与目标领域对应的情感分析模型及词典。

方式一：

将获取的所有多个第二文本数据及每个第二文本数据对应的情感类型，对预设的初始情感分析模型进行模型调整，生成与目标领域对应的情感分析模型及词典。

也就是说，通过将多个第二文本数据作为输入数据，输入至预设的初始情感分析模型中，以利用预设的初始情感分析模型对输入数据进行初始化，并进行参数微调，以使预设的初始情感分析模型输出的情感类型，与每个第二文本数据对应的情感类型匹配为止，从而将该调整后的情感分析模型，确定为与目标领域对应的情感分析模型，并将对预设的初始情感分析模型调整过程中，生成的词典，确定为与目标领域对应的词典。

方式二：

通过对获取的标注数据集进行划分，以将标注数据集划分为：训练集、测试集及校验集，然后利用训练集对预设的初始情感分析模型进行训练，通过校验集对测试后的情感分析模型进行校验，并利用测试集对训练后的情感分析模型进行测试，生成与目标领域对应的情感分析模型及词典。

基于上述多种方式，生成与目标领域对应的情感分析模型及词典后，不仅能够实现情感分析模型的定制化，还能充分利用通用领域的大规模情感语料、服务提供商的云平台有时以及深度学习框架资源，使得生成的个性化情感分析模型不仅花费成本低，而且还能达到更高的精度，满足了用户个性化需求。

在实际使用时，在获取与第一领域对应的标注数据集之后，可以首先对标注数据集中的每个第二文本数据进行切词处理，以确定每个第二文本数据中的每个第二分词，之后通过查询预设的初始词典，确定每个第二分词对应的词向量，然后基于每个第二文本数据中每个第二分词对应的词向量及每个第二文本数据对应的情感类型，对预设的初始情感分析模型及初始词典，分别进行调整。其中，预设的初始词典可以是从互联网端获取的情感词典。

也就是说，本申请实施例通过利用确定的每个第二分词，在预设的初始词典中确定每个第二分词对应的词向量，以对预设的初始情感分析模型进行模型调整，并在模型调整过程，对预设的初始词典中的词向量进行调整修改，使得调整后的词典与第二文本数据所属目标领域更匹配，并且使得调整后的情感分析模型输出结果，为每个第二文本数据对应的情感类型，以得到目标领域对应的情感分析模型及词典。

需要说明的是，对每个第二文本数据进行切词处理的方式，可参见上述实例中所描述的，此处对其不作具体限定。

下面结合图5，对上述方式二，通过对标注数据集进行数据划分，获取训练集、测试集及校验集，以对预设的初始情感分析模型进行模型调整的过程进行具体说明。

步骤501，对标注数据集进行数据划分，以获取与目标领域对应的训练集及校验集。

步骤502，基于训练集及校验集中每个第二文件数据及对应的情感类型，对预设的初始情感分析模型进行模型调整。

可选的，可将训练集中每个第二文件数据作为输入数据，输入至预设的初始情感分析模型中，以对预设的初始情感分析模型进行模型调整，得到调整后的情感分析模型(与目标领域对应的情感模型)。然后，利用校验集对得到的调整后的情感分析模型进行校验，以确定调整后的情感分析模型是否准确可靠。

在本申请的另一个实施例中，对标注数据集进行数据划分时，还可以获取测试集，以通过测试集测试调整后的情感分析模型的准确性，参见图6所示。

如图6所述，本申请实施例情感分析方法，还包括：

步骤601，获取与目标领域对应的测试集。

步骤602，利用测试集，对目标领域对应的情感分析模型进行测试，以确定目标领域对应的情感分析模型的准确性。

也就是说，通过测试集对调整后的情感分析模型进行测试，以验证调整后的情感分析模型准确性及可靠性，是否满足期望。

本申请实施例提供的情感分析方法，通过获取与第一领域对应的标注数据集，以获取标注数据集中包括的多个第二文本数据及每个第二文本数据对应的情感类型，然后基于多个第二文本数据及每个第二文本数据对应的情感类型，对预设的初始情感分析模型进行模式调整，以生成与目标领域对应的情感分析模型及词典。由此，实现了根据用户需求，在现有的情感分析服务框架资源基础上，对初始情感分析模型进行个性化定制，使得生成的情感分析模型可以支持所有领域，满足了不同用户对不同领域的文本数据情感分析需求，还能节省开发资源和成本。

通过上述分析可知，本申请实施例可通过不同的方式，对预设的初始感情分析模型进行模型调整，以生成与目标领域对应的情感分析模型及词典。

在本申请的另一实现场景中，在生成与目标领域对应的情感分析模型及词典之后，本申请实施例情感分析方法，还可以对确定第一文本数据对应的情感类型进行修正，以得到准确的情感类型结果。下面结合图7所示，对本申请情感分析方法的上述情况进行具体说明。

如图7所示，本申请实施例情感分析方法还包括：

步骤701，获取情感分析请求，其中，所述分析请求中包括第一文本数据及所述第一文本数据所属的目标领域。

步骤702，对所述第一文本数据进行切词处理，以确定所述第一文本数据中包括的各第一分词。

步骤703，通过查询与所述目标领域关联的词典，获取每个第一分词对应的词向量。

步骤704，将所述第一文本数据中每个第一分词对应的词向量，输入与所述目标领域对应的情感分析模型，以确定所述第一文本数据对应的情感类型。

步骤705，确定第一文本数据对应的每种情感类型的第一概率值。

由于与目标领域对应的情感分析模型，对第一文本数据进行分析时，输出的结果内容可包括：情感类型及对应的概率值。

因此，本实施例在确定第一文本数据对应的情感类型时，还可确定第一文本数据对应的每种情感类型的概率值。

例如，确定第一文本数据对应的情感类型包括：满意、不满意，且各情感类型对应的概率值分别为：0.81、0.19。

步骤706，根据目标领域对应的情感分析模型的准确性，对第一文本数据对应的每种情感类型的第一概率值进行修正，以确定第一文本数据对应的每种情感类型的第二概率值。

实时使用时，可预先为不同领域对应的情感分析模型设置准确度，从而当确定第一文本数据对应的每种情感类型的第一概率值之后，还可根据目标领域对应的情感分析模型的准确度，对每个情感类型的第一概率值进行修正，以确定第一文本数据对应的每种情感类型的第二概率值，以提高对第一文本数据对应的情感类型判断的准确性。

例如，若目标领域对应的情感分析模型的准确度为90％，那么当确定第一文本数据的情感类型为满意时的第一概率值为0.13，不满意时的第一概率值为0.87时，则计算机设备可分别根据情感分析模型的准确度及每种情感类型的第一概率值，得到每种情感类型的第二概率值分别为：0.13*90％、0.87*90％。

本申请实施例提供的情感分析方法，在利用与目标领域对应的情感分析模型，确定第一文本数据对应的情感类型之后，还可确定第一文本数据对应的每种情感类型的第一概率值，以根据目标领域对应的情感分析模型的准确性，对每种情感类型的第一概率值进行修改，以使最红确定第一文本数据对应的情感类型更准确，可靠度更高。

为了实现上述实施例，本申请还提出了一种情感分析装置。

图8是根据本申请一个实施例示出的情感分析装置的结构示意图。

如图8所示，本申请实施例情感分析装置包括：第一获取模块11、第一确定模块12、第二获取模块13及第二确定模块14。

其中，第一获取模块11用于获取情感分析请求，其中，所述分析请求中包括第一文本数据及所述第一文本数据所属的目标领域；

第一确定模块12用于对所述第一文本数据进行切词处理，以确定所述第一文本数据中包括的各第一分词；

第二获取模块13用于通过查询与所述目标领域关联的词典，获取每个第一分词对应的词向量；

第二确定模块14用于将所述第一文本数据中每个第一分词对应的词向量，输入与所述目标领域对应的情感分析模型，以确定所述第一文本数据对应的情感类型。

作为本申请的一种可选的实现方式，还包括：第三确定模块、第四确定模块。

其中，第三确定模块，用于对每个第一分词进行词法分析，以确定所述每个第一分词对应的词性；

第四确定模块，用于根据所述每个第一分词及每个第一分词对应的词性，确定每个第一分词的词特征；

第二获取模块13，具体用于：

确定与所述每个第一分词的词特征对应的词向量。

作为本申请的一种可选的实现方式，还包括：第三获取模块、生成模块。

其中，第三获取模块，用于获取与所述第一领域对应的标注数据集，其中，所述标注数据集中包括多个第二文本数据及每个第二文本数据对应的情感类型；

生成模块，用于基于所述多个第二文本数据及每个第二文本数据对应的情感类型，对预设的初始情感分析模型进行模型调整，以生成与所述目标领域对应的情感分析模型及词典。

作为本申请的一种可选的实现方式，还包括：第五确定模块、处理模块。

其中，第五确定模块，用于对所述标注数据集进行预处理，以确定所述标注数据集中每个第二分词的词频；

处理模块，用于根据所述每个第二分词的词频，将所述标注数据集中词频小于阈值的各第二分词进行归一化处理。

作为本申请的一种可选的实现方式，还包括：第六确定模块、第七确定模块。

其中，第六确定模块，用于将所述标注数据集中的每个第二文本数据进行切词处理，以确定每个第二文本数据中每个第二分词；

第七确定模块，用于通过查询预设的初始词典，确定每个第二分词对应的词向量；

所述生成模块，具体用于：

基于所述每个第二文本数据中每个第二分词对应的词向量及每个第二文本数据对应的情感类型，对预设的初始情感分析模型进行模型调整。

作为本申请的一种可选的实现方式，所述生成模块，包括：第一获取单元、模式调整单元。

其中，第一获取单元，用于对所述标注数据集进行数据划分，以获取与所述目标领域对应的训练集及校验集；

模式调整单元，用于基于所述训练集及校验集中每个第二文件数据及对应的情感类型，对预设的初始情感分析模型进行模型调整。

作为本申请的一种可选的实现方式，所述生成模块，还包括：第二获取单元、第一确定单元。

第二获取单元，用于获取与所述目标领域对应的测试集；

第一确定单元，用于利用所述测试集，对所述目标领域对应的情感分析模型进行测试，以确定所述目标领域对应的情感分析模型的准确性；

所述第二确定模块，具体用于：

确定所述第一文本数据对应的每种情感类型的第一概率值；

根据所述目标领域对应的情感分析模型的准确性，对所述第一文本数据对应的每种情感类型的第一概率值进行修正，以确定所述第一文本数据对应的每种情感类型的第二概率值。

需要说明的是，前述对情感分析方法实施例的解释说明也适用于该实施例的情感分析装置，其实现原理类似，此处不再赘述。

本申请实施例提供的情感分析装置，通过获取情感分析请求，以获取情感分析请求中包括的第一文本数据及第一文本数据所属的目标领域，然后对第一文本数据进行切词处理，以确定第一文本数据中包括的各第一分词，并通过查询与目标领域关联的词典，获取每个第一分词对应的词向量，然后将第一文本数据中每个第一分词对应的词向量，输入与目标领域对应的情感分析模型中，以确定第一文本数据对应的情感类型。由此，通过根据文本数据所属的领域，获取对应的情感分析模型，以确定文本数据对应的情感类型，从而能够提高文本数据情感分析服务的准确性和可靠性，满足了不同用户的情感分析需求，提升用户体验。

为了实现上述实施例，本申请还提出一种计算机设备。

图9是根据本申请一示例性实施例示出的计算机设备的结构示意图。图8显示的计算机设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，上述计算机设备200包括：存储器210、处理器220及存储在存储器210上并可在处理器220上运行的计算机程序，所述处理器220执行所述程序时，以第一方面实施例所述的情感分析方法。

在一种可选的实现形式中，如图10所示，该计算机设备200还可以包括：存储器210及处理器220，连接不同组件(包括存储器210和处理器220)的总线230，存储器210存储有计算机程序，当处理器220执行所述程序时实现本申请实施例所述的情感分析方法。

总线230表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备200典型地包括多种计算机设备可读介质。这些介质可以是任何能够被计算机设备200访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器210还可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)240和/或高速缓存存储器250。计算机设备200可以进一步包括其他可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统260可以用于读写不可移动的、非易失性磁介质(图10未显示，通常称为“硬盘驱动器”)。尽管图10中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线230相连。存储器210可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块270的程序/实用工具280，可以存储在例如存储器210中，这样的程序模块270包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块270通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备200也可以与一个或多个外部设备290(例如键盘、指向设备、显示器291等)通信，还可与一个或者多个使得用户能与该计算机设备200交互的设备通信，和/或与使得该计算机设备200能与一个或多个其他计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口292进行。并且，计算机设备200还可以通过网络适配器293与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器293通过总线230与计算机设备200的其他模块通信。应当明白，尽管图中未示出，可以结合计算机设备200使用其他硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

需要说明的是，本实施例的计算机设备的实施过程和技术原理参见前述对第一方面实施例的情感分析方法的解释说明，此处不再赘述。

本申请实施例提供的计算机设备，通过获取情感分析请求，以获取情感分析请求中包括的第一文本数据及第一文本数据所属的目标领域，然后对第一文本数据进行切词处理，以确定第一文本数据中包括的各第一分词，并通过查询与目标领域关联的词典，获取每个第一分词对应的词向量，然后将第一文本数据中每个第一分词对应的词向量，输入与目标领域对应的情感分析模型中，以确定第一文本数据对应的情感类型。由此，通过根据文本数据所属的领域，获取对应的情感分析模型，以确定文本数据对应的情感类型，从而能够提高文本数据情感分析服务的准确性和可靠性，满足了不同用户的情感分析需求，提升用户体验。

为实现上述目的，本申请还提出一种计算机可读存储介质。

其中该计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，以实现第一方面实施例所述的情感分析方法。

一种可选实现形式中，本实施例可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

为实现上述目的，本申请还提出一种计算机程序。其中当计算机程序被处理器执行时，以实现第一方面实施例所述的情感分析方法。

在本申请中，除非另有明确的规定和限定，术语“设置”、“连接”等术语应做广义理解，例如，可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种情感分析方法，其特征在于，包括：

获取情感分析请求，其中，所述分析请求中包括第一文本数据及所述第一文本数据所属的目标领域；

对所述第一文本数据进行切词处理，以确定所述第一文本数据中包括的各第一分词；

通过查询与所述目标领域关联的词典，在查找到的与目标领域关联的词典中，获取每个第一分词对应的词向量；

将所述第一文本数据中每个第一分词对应的词向量，输入与所述目标领域对应的情感分析模型，以确定所述第一文本数据对应的情感类型；

所述获取每个第一分词对应的词向量之前，还包括：

获取与第一领域对应的标注数据集，其中，所述标注数据集中包括多个第二文本数据及每个第二文本数据对应的情感类型；

基于所述多个第二文本数据及每个第二文本数据对应的情感类型，对预设的初始情感分析模型进行模型调整，以生成与所述目标领域对应的情感分析模型及词典。

2.如权利要求1所述的方法，其特征在于，所述确定所述第一文本数据中包括的各第一分词之后，还包括：

对每个第一分词进行词法分析，以确定所述每个第一分词对应的词性；

根据所述每个第一分词及每个第一分词对应的词性，确定每个第一分词的词特征；

所述获取每个第一分词对应的词向量，包括：

确定与所述每个第一分词的词特征对应的词向量。

3.如权利要求1或2所述的方法，其特征在于，所述获取与所述第一领域对应的标注数据集之后，还包括：

对所述标注数据集进行预处理，以确定所述标注数据集中每个第二分词的词频；

根据所述每个第二分词的词频，将所述标注数据集中词频小于阈值的各第二分词进行归一化处理。

4.如权利要求1或2所述的方法，其特征在于，所述获取与所述第一领域对应的标注数据集之后，还包括：

将所述标注数据集中的每个第二文本数据进行切词处理，以确定每个第二文本数据中每个第二分词；

通过查询预设的初始词典，确定每个第二分词对应的词向量；

所述基于所述多个第二文本数据及每个第二文本数据对应的情感类型，对预设的初始情感分析模型进行模型调整，包括：

5.如权利要求1或2所述的方法，其特征在于，所述基于所述多个第二文本数据及每个第二文本数据对应的情感类型，对预设的初始情感分析模型进行模型调整，包括：

对所述标注数据集进行数据划分，以获取与所述目标领域对应的训练集及校验集；

基于所述训练集及校验集中每个第二文件数据及对应的情感类型，对预设的初始情感分析模型进行模型调整。

6.如权利要求5所述的方法，其特征在于，所述对所述标注数据集进行数据划分之后，还包括：

获取与所述目标领域对应的测试集；

利用所述测试集，对所述目标领域对应的情感分析模型进行测试，以确定所述目标领域对应的情感分析模型的准确性；

所述确定所述第一文本数据对应的情感类型，包括：

确定所述第一文本数据对应的每种情感类型的第一概率值；

7.一种情感分析装置，其特征在于，包括：

第一获取模块，用于获取情感分析请求，其中，所述分析请求中包括第一文本数据及所述第一文本数据所属的目标领域；

第一确定模块，用于对所述第一文本数据进行切词处理，以确定所述第一文本数据中包括的各第一分词；

第二获取模块，用于通过查询与所述目标领域关联的词典，在查找到的与目标领域关联的词典中，获取每个第一分词对应的词向量；

第二确定模块，用于将所述第一文本数据中每个第一分词对应的词向量，输入与所述目标领域对应的情感分析模型，以确定所述第一文本数据对应的情感类型；

第三获取模块，用于获取与第一领域对应的标注数据集，其中，所述标注数据集中包括多个第二文本数据及每个第二文本数据对应的情感类型；

8.一种计算机设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，以实现如权利要求1-6任一所述的情感分析方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，以实现如权利要求1-6任一所述的情感分析方法。