CN109960792A

CN109960792A - 意见挖掘方法及存储介质、终端

Info

Publication number: CN109960792A
Application number: CN201711428395.5A
Authority: CN
Inventors: 陈培华; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Xiaoi Robot Technology Co Ltd; Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2019-07-02

Abstract

一种意见挖掘方法及存储介质、终端，所述意见挖掘方法包括：利用预设原始语料训练词向量模型；获取待分析文本，所述待分析文本包括多个第一词语；利用所述词向量模型将所述待分析文本中的各个第一词语转换为词向量；利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量，每个词向量的情感权重是预先确定的；根据所述待分析文本的句向量确定所述待分析文本的情感类别。通过本发明技术方案可以提高文本情感分析的效率和准确性。

Description

意见挖掘方法及存储介质、终端

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种意见挖掘方法及存储介质、终端。

背景技术

文本情感分析，又称意见挖掘(Opinion Mining)，是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。文本情感分析技术在网络营销、企业舆情监控、政府舆论监控等扮演越来越重要的角色。情感分类是文本情感分析技术的一项子任务，其利用底层情感信息抽取的结果将情感文本分为若干情感类别，如分为褒贬两类情感类别，其中，褒类情感类别对应的文本为正面文本，贬类情感类别对应的文本为负面文本。

现有技术中，对文本进行分类的方法主要采用基于机器学习的监督分类方法。基于机器学习的监督分类方法包括训练分类器过程和使用分类器对待分类文本进行分类过程。其中，在训练分类器过程中，需要人工构建大量的特征工程，因此需要人工进行长时间劳动，极大的耗费了人力；另一方面，传统方法中所构建的文本向量表示存在稀疏性，容易导致维度灾难，并使分类器的训练时间较长，从而降低了对待分类文本进行分类的效率。训练得到的分类器由于缺乏对文本的语义信息表示，导致使用分类器对待分类文本进行分类的结果的准确率较低。

发明内容

本发明解决的技术问题是如何提高文本情感判断的效率和准确性。

为解决上述技术问题，本发明实施例提供一种意见挖掘方法，包括：

利用预设原始语料训练词向量模型；

获取待分析文本，所述待分析文本包括多个第一词语；

利用所述词向量模型将所述待分析文本中的各个第一词语转换为词向量；

利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量，每个词向量的情感权重是预先确定的；

根据所述待分析文本的句向量确定所述待分析文本的情感类别，具体包括：根据所述待分析文本的句向量计算所述待分析文本的情感概率；将所述情感概率与多个阈值区间进行比对，每一阈值区间对应一种情感类别；确定所述待分析文本的情感类别为所述情感概率落入的阈值区间对应的情感类别。

可选地，所述获取待分析文本包括：根据词典对待分析文本进行分词处理，得到多个第一词语，所述词典包括多个第二词语。

可选地，所述获取待分析文本包括还包括：

获取每个第二词语的初始权重；

根据每个第二词语在预设情感词典中的情感倾向对所述初始权重进行调整，以得到每个第二词语对应的情感权重，第二词语对应的情感权重等同于所述第一词语的词向量对应的情感权重。

可选地，所述根据每个第二词语在预设情感词典中的情感倾向对所述初始权重进行调整包括：

如果第二词语的情感倾向为正面，则在所述第二词语的初始权重的基础上进行增大，以得到该第二词语的情感权重；

如果第二词语的情感倾向为负面，则在所述第二词语的初始权重的基础上进行减小，以得到该第二词语的情感权重。

可选地，采用softmax函数、负采样函数或层次softmax函数确定所述待分析文本的情感类别。

可选地，所述将所述待分析文本中的各个第一词语转换为词向量包括：

对于未登录词，将所述未登录词的各个字转换为字向量，并将所有字向量之和作为所述未登录词的词向量。

可选地，所述词向量为N元语法特征向量，N通常为大于等于2的正整数。

可选地，所述利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量包括：将各个词向量与其对应的情感权重的乘积之和作为所述待分析文本的句向量。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，其所述计算机指令运行时所意见挖掘方法的步骤。

本发明实施例还公开了一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行所意见挖掘方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明技术方案获取待分析文本，所述待分析文本包括多个第一词语；将所述待分析文本中的各个第一词语转换为词向量；利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量，每个词向量的情感权重是预先确定的；根据所述待分析文本的句向量确定所述待分析文本的情感类别。本发明技术方案在获得待分析文本中各个第一词语的词向量后，还可以确定各个词向量的情感权重；由于情感权重可以表征词向量的情感，词向量可以表征第一词语的语义，因此结合词向量及其情感权重得到句向量可以用于确定待分析文本的情感类别，保证了文本情感分类的准确性；此外，本发明技术方案的流程简单，不需要复杂运算，提高文本情感分析的效率。本发明技术方案中，基于句向量确定的待分析文本的情感概率可以表征待分析文本的情感倾向，不同的阈值区间指向不同的情感类别，通过比对情感概率和阈值区间，可以实现对待分析文本的更加细化的情感分类，提高了对文本情感分析的精细度。

进一步，所述获取待分析文本包括还包括：获取每个第二词语的初始权重；根据每个第二词语在预设情感词典中的情感倾向对所述初始权重进行调整，以得到每个第二词语对应的情感权重，第二词语对应的情感权重等同于所述第一词语的词向量对应的情感权重。本发明技术方案获取的第二词语的初始权重可以表征第二词语的语义重要性，依据第二词语的情感倾向对所述初始权重进行调整后的情感权重，在表征语义的基础上还可以表征情感，从而可以用于待分析文本的情感分析，提高文本情感分析的准确性。

进一步，所述将所述待分析文本中的各个第一词语转换为词向量包括：对于未登录词，将所述未登录词的各个字转换为字向量，并将所有字向量之和作为所述未登录词的词向量。由于未登录词未被收录在词典内，因此本发明技术方案中利用未登录词的各个字的字向量获取词向量，避免无法获取未登录词的词向量导致的待分析文本的情感分析失败，进一步保证了文本情感分析的准确性。

附图说明

图1是本发明实施例一种意见挖掘方法的流程图；

图2是图1所示步骤S101的一种具体实施方式的流程图；

图3是图1所示步骤S104的一种具体实施方式的流程图；

图4是图1所示步骤S104的另一种具体实施方式的流程图；

图5是本发明实施例的一种具体应用场景的示意图。

具体实施方式

如背景技术中所述，由于人工构建大量的特征工程，因此需要人工进行长时间劳动，极大的耗费了人力；另一方面，传统方法中所构建的文本向量表示存在稀疏性，容易导致维度灾难，并使分类器的训练时间较长，从而降低了对待分类文本进行分类的效率。训练得到的分类器由于缺乏对文本的语义信息表示，导致使用分类器对待分类文本进行分类的结果的准确率较低。

本发明技术方案在获得待分析文本中各个第一词语的词向量后，还可以确定各个词向量的情感权重；由于情感权重可以表征词向量的情感，词向量可以表征第一词语的语义，因此结合词向量及其情感权重得到句向量可以用于确定待分析文本的情感类别，保证了文本情感分类的准确性；此外，本发明技术方案的流程简单，不需要复杂运算，提高文本情感分析的效率。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。

图1是本发明实施例一种意见挖掘方法的流程图。

图1所示意见挖掘方法可以包括以下步骤：

步骤S101：获取待分析文本，所述待分析文本包括多个第一词语；

步骤S102：将所述待分析文本中的各个第一词语转换为词向量；

步骤S103：利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量，每个词向量的情感权重是预先确定的；

步骤S104：根据所述待分析文本的句向量确定所述待分析文本的情感类别。

本实施例中，步骤S101可以采用任意可实施的方式获取待分析文本，例如可以从外部直接采集得到待分析文本，也可以通过接口调用待分析文本。具体地，待分析文本可以是直接采集得到的，也可以是通过语音、图像等数据转换得到的。

为了能够利用待分析文本中的第一词语计算待分析文本的情感，可以将第一词语转换为词向量。将第一词语转换为词向量的过程可以采用任意可实施的方式实现，例如可以使用word2vec模型将词语转换为词向量，也可以使用神经网络模型将词语转换为词向量等。

词向量可以具备情感权重，情感权重可以表示词向量的情感倾向。具体而言，每个词向量的情感权重是预先确定的。确定词向量的过程可以是在步骤S103之前，也可以是与步骤S103同时进行的。

由于待分析文本包括多个第一词语，因此利用各个词向量及其对应的情感权重可以计算得到所述待分析文本的句向量。待分析文本的句向量是可以表示待分析文本的情感的语义向量。

在步骤S103的一种具体实施中，将各个词向量与其对应的情感权重的乘积之和作为所述待分析文本的句向量。具体地，待分析文本的句向量与各个词向量与其对应的情感权重的乘积之和正相关。例如，x₁，x₂，...，x_N分别表示待分析文本的N个词向量，w₁，w₂，...，w_N分别表示N个词向量对应的情感权重，待分析文本的句向量h可以是h＝w₁x₁+w₂x₂+…+w_Nx_N；待分析文本的句向量h也可以是

进而在步骤S104中，基于待分析文本的句向量，可以利用分类算法确定待分析文本的情感类别。具体地，可以根据待分析文本的句向量确定待分析文本属于各个情感类别的概率，并确定最大概率对应的情感类别为待分析文本的情感类别。例如，待分析分本属于情感类别“开心”的概率为0.8，属于情感类别“悲伤”的概率为0.2，则待分析文本的情感类别为“开心”。

本发明实施例在获得待分析文本中各个第一词语的词向量后，还可以确定各个词向量的情感权重；由于情感权重可以表征词向量的情感，词向量可以表征第一词语的语义，因此结合词向量及其情感权重得到句向量可以用于确定待分析文本的情感类别，保证了文本情感分类的准确性；此外，本发明技术方案的流程简单，不需要复杂运算，提高文本情感分析的效率。

图1所示意见挖掘方法可以用于智能问答系统。待分析文本可以是用户输入的问题。通过对问题进行情感分析，可以提高针对问题回复的准确性，提高用户体验。

本发明一个优选实施例中，步骤S104可以采用softmax函数、负采样函数或层次softmax函数确定所述待分析文本的情感类别。

本实施例中，将待分析文本的句向量输入softmax函数、负采样函数或层次softmax函数后，softmax函数、负采样函数或层次softmax函数可以输出该句向量隶属于各个预设情感类别的概率，并输出最大概率对应的情感类别。通过采用上述函数，可以实现多类别的分类，保证分类的精确性。

如图2所示，图1所示步骤S101可以包括步骤S201，或者包括步骤S201至步骤S203。

步骤S201：根据词典对待分析文本进行分词处理，得到多个第一词语，所述词典包括多个第二词语。

步骤S202：获取每个第二词语的初始权重；

步骤S203：根据每个第二词语在预设情感词典中的情感倾向对所述初始权重进行调整，以得到每个第二词语对应的情感权重，第二词语对应的情感权重等同于所述第一词语的词向量对应的情感权重。

本实施例中，可以利用分词词典或分词模型对待分析文本进行分词。在词典中可以记录有多个第一词语，待分析文本可以利用词典进行分词以得到匹配的多个第一词语。进一步而言，词典中的第二词语可以是预先配置的。

通过步骤S202和步骤S203可以获取第二词语对应的情感权重。具体而言，可以先获取第二词语的初始权重，例如可以使用词频逆文档频率(term frequencyinversedocument frequency,TF-IDF)算法，或文本排名(TextRank)算法来计算第二词语的初始权重。

此外，第二词语在预设情感词典中具备情感倾向。可以利用第二词语的情感倾向对第二词语的初始权重进行调整，以得到每个第二词语对应的情感权重，从而使得情感权重可以表示第二词语的情感。进而，在确定第二词语的情感权重后，由于第一词语是基于词典中的第二词语分词得到的，那么通过第二词语的情感权重可以得到第一词语的情感权重，进而可以确定第一词语的词向量的情感权重。

也就是说，第一词语及其词向量的情感倾向为正面时，第一词语及其词向量的情感权重较大；第一词语及其词向量的情感倾向为负面时，第一词语及其词向量的情感权重较小。

可以理解的是，预设情感可以包括第二词语及其对应的情感倾向，预设情感词典中各个第二词语的情感倾向可以是预先配置的。

在步骤S203的一种具体实施中，如果第二词语的情感倾向为正面，则在所述第二词语的初始权重的基础上进行增大，以得到该第二词语的情感权重；如果第二词语的情感倾向为负面，则在所述第二词语的初始权重的基础上进行减小，以得到该第二词语的情感权重。

本实施例中，是将情感倾向划分为两大类：正面和负面，或者积极和消极，来对第二词语的初始权重进行调整。情感倾向为正面时，第二词语的情感权重较大；情感倾向为负面时，第二词语的情感权重较小。进一步地，正面的情感倾向还可以细分为更多等级，那么在所述第二词语的初始权重的基础上进行增大时，可以根据不同等级增大不同的数值；同理，负面的情感倾向也可以细分为更多等级，那么在所述第二词语的初始权重的基础上进行减小时，可以根据不同等级减小不同的数值。

需要说明的是，关于正面情感和负面情感的描述可以参照现有技术中的相关描述。

在具体实施中，为了区分正面的情感倾向和负面的情感倾向，也可以是在情感倾向为正面时，第二词语的情感权重较小；情感倾向为负面时，第二词语的情感权重较大，本发明实施例对此不做限制。

如图3所示，图1所示的步骤S104可以包括以下步骤：

步骤S301：根据所述待分析文本的句向量计算所述待分析文本的情感概率；

步骤S302：如果所述情感概率达到设定阈值，则确定所述待分析文本为正面情绪。

本实施例中，将情感类别划分为正面情绪和非正面情绪两种。

本实施例中，由于待分析文本的句向量是基于各个第一词语的情感权重得到的，因此利用句向量可以计算其情感概率。情感概率可以表示该句向量的情感倾向。如前所述，第一词语的情感倾向为正面时，其情感权重较大；第一词语的情感倾向为负面时，其情感权重较小。由此，如果待分析文本中情感倾向为正面的第一词语较多，则其句向量的情感概率较大；反之，其句向量的情感概率较小。

进一步地，情感概率的取值范围可以是[0,1]。

进而，通过句向量的情感概率的大小可以判定待分析文本的情感类别。具体实施中，可以通过情感概率与设定阈值的比较结果，判定待分析文本的情感类别。也就是说，如果所述情感概率达到设定阈值，则确定所述待分析文本为正面情绪；否则，确定所述待分析文本为非正面情绪，也即负面情绪。

如图4所示，图1所示的步骤S104可以包括以下步骤：

步骤S401：根据所述待分析文本的句向量计算所述待分析文本的情感概率；

步骤S402：将所述情感概率与多个阈值区间进行比对，每一阈值区间对应一种情感类别；

步骤S403：确定所述待分析文本的情感类别为所述情感概率落入的阈值区间对应的情感类别。

本实施例中，将情感类别划分为多种情感类别。例如，情感类别可以选自：开心、愉快、信任、感激、兴奋、悲伤、痛苦、鄙视、仇恨、嫉妒等。情感类别的具体数量以及具体分类方式可以根据实际的应用需求进行配置，本发明实施例对此不做限制。

进而，通过句向量的情感概率的大小可以判定待分析文本的情感类别。具体实施中，情感类别与阈值区间一一对应。例如，可以通过情感概率与多个阈值区间的比较结果，判定待分析文本的情感类别。也就是说，如果所述情感概率落入阈值区间，则确定该阈值区间对应的情感类别为待分析文本的情感类别。

图1所示步骤S102可以包括以下步骤：对于未登录词，将所述未登录词的各个字转换为字向量，并将所有字向量之和作为所述未登录词的词向量。

本实施例中，由于未登录词是没有被记录在分词词典中的词语，待分析文本中的未登录词无法通过分词得到，因此可以通过利用未登录词的各个字的字向量获取词向量。在后续计算待分析分本的句向量时，未登录词的词向量也可以参与到计算过程。具体而言，未登录词的情感权重可以通过未登录词的初始权重以及未登录词在预设情感词典的情感倾向确定。可以理解的是，未登录词的情感权重的确定方式可以参照第二词语的情感权重的确定方式，此处不再赘述。

本发明实施例避免无法获取未登录词的词向量导致的待分析文本的情感分析失败，进一步保证了文本情感分析的准确性。

图1所示步骤S101之前可以包括以下步骤：利用预设原始语料训练词向量模型，以用于将所述待分析文本中的各个第一词语转换为词向量。

本实施例中，词向量模型可以用于将所述待分析文本中的各个第一词语转换为词向量。为了提高词向量模型生成的词向量的准确性，预先利用预设原始语料训练词向量模型。具体而言，预设原始语料可以是大规模的语料，可以是预先获取的，例如可以是通过爬虫爬取得到的。

本发明一个优选实施例中，所述词向量为N元语法特征向量，N为大于等于2的正整数。

具体实施中，所述词向量可以是采用n-gram算法得到的N元语法特征向量。具体地，可以是二元语法(bigram)，或者三元语法。例如，“我爱中国”的二元语法表示为“我-爱”、“爱-中国”。

在本发明一个具体应用场景中，可以采用简化神经网络实现待分析文本的情感分析。如图5所示，简化神经网络可以包括输入层501、隐藏层502和输出层503。输入层501可以接收待分析文本的多个词向量x₁，x₂，...，x_N。所述多个词向量可以是预先对待分析文本的多个第一词语转换得到的，以有效保证文本的上下文语义信息。隐藏层502的输出为待分析文本的句向量h，其中，w₁，w₂，...，w_N为多个词向量x₁，x₂，...，x_N对应的情感权重。输出层503的输出为待分析文本的情感概率y＝softmaxW_Oh，其中，W_O表示输出层503的情感权重矩阵，根据情感概率的大小可以判断待分析文本的情感分析结果(也即情感倾向)。

可以理解的是，也可以采用以下函数计算情感概率负采样(negative sampling)函数或层次softmax(Hierarchical softmax)函数。

本发明实施例还公开了一种存储介质，其上存储有计算机指令，所述计算机指令运行时可以执行图1至图5中所示的意见挖掘方法的步骤。所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。

本发明实施例还公开了一种终端，所述终端可以包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1至图5中所示的意见挖掘方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims

1.一种意见挖掘方法，其特征在于，包括：

利用预设原始语料训练词向量模型；

获取待分析文本，所述待分析文本包括多个第一词语；

根据所述待分析文本的句向量确定所述待分析文本的情感类别，具体包括：

根据所述待分析文本的句向量计算所述待分析文本的情感概率；将所述情感概率与多个阈值区间进行比对，每一阈值区间对应一种情感类别；确定所述待分析文本的情感类别为所述情感概率落入的阈值区间对应的情感类别。

2.根据权利要求1所述的意见挖掘方法，其特征在于，所述获取待分析文本包括：

根据词典对待分析文本进行分词处理，得到多个第一词语，所述词典包括多个第二词语。

3.根据权利要求2所述的意见挖掘方法，其特征在于，所述获取待分析文本包括还包括：

获取每个第二词语的初始权重；

4.根据权利要求3所述的意见挖掘方法，其特征在于，所述根据每个第二词语在预设情感词典中的情感倾向对所述初始权重进行调整包括：

5.根据权利要求1所述的意见挖掘方法，其特征在于，采用softmax函数、负采样函数或层次softmax函数确定所述待分析文本的情感类别。

6.根据权利要求1所述的意见挖掘方法，其特征在于，所述将所述待分析文本中的各个第一词语转换为词向量包括：

7.根据权利要求1所述的意见挖掘方法，其特征在于，所述词向量为N元语法特征向量，N通常为大于等于2的正整数。

8.根据权利要求1所述的意见挖掘方法，其特征在于，所述利用各个词向量及其对应的情感权重计算得到所述待分析文本的句向量包括：

将各个词向量与其对应的情感权重的乘积之和作为所述待分析文本的句向量。

9.一种存储介质，其上存储有计算机指令，其特征在于，所述计算机指令运行时执行权利要求1至8中任一项所意见挖掘方法的步骤。

10.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求1至8中任一项所意见挖掘方法的步骤。