CN108647335A

CN108647335A - 网络舆情分析方法和装置

Info

Publication number: CN108647335A
Application number: CN201810451703.4A
Authority: CN
Inventors: 赖超华
Original assignee: Suzhou Hua Bi Mdt Infotech Ltd
Current assignee: Suzhou Hua Bi Mdt Infotech Ltd
Priority date: 2018-05-12
Filing date: 2018-05-12
Publication date: 2018-10-12

Abstract

本发明公开了一种网络舆情分析方法和装置。所述网络舆情分析方法包括：从互联网获取网络舆情分析的目标网页；对所述目标网页中的文本进行分词；利用统计的算法从分词的结果中获取目标网页的文本特征词；根据预先训练的正负面词词典将所述文本特征词归类为正面文本特征词和负面文本特征词；根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。本发明公开的网络舆情分析方法和装置提高对网络舆情进行倾向性分析的效率。

Description

网络舆情分析方法和装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及网络舆情分析方法和装置。

背景技术

在互联网高度发展的今天，网络舆情分析因为其网络舆情信息获取的快捷和准确，内容分析的确定，舆情响应的及时，已经发展为网络舆情分析的最为重要的手段。

在网络舆情分析技术中，倾向性分析并不关注舆情分析的应用领域，仅用于对网络舆情的倾向性进行判断。倾向性分析又可以被分为基于语气词标注的倾向性分析，以及基于机器学习的倾向性分析。基于语气词标注的方法严重依赖于标注专家且不利用训练样本，其分类精度往往不如基于机器学习的方法。而现有的基于机器学习的倾向性分析方法又取决于训练集的大小与质量。由于已有的标注语料库的规模都很小，因而这类有监督的倾向性分析方法的效果仍然难以保证。

发明内容

有鉴于此，本发明提出一种网络舆情分析方法和装置，以提高对网络舆情进行倾向性分析的效率。

第一方面，本发明实施例提供了一种网络舆情分析方法，所述方法包括：从互联网获取网络舆情分析的目标网页；对所述目标网页中的文本进行分词；利用统计的算法从分词的结果中获取目标网页的文本特征词；根据预先训练的正负面词分类器将所述文本特征词归类为正面文本特征词和负面文本特征词；根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。

第二方面，本发明实施例提供了一种网络舆情分析装置，所述装置包括：目标网页获取模块，用于从互联网获取网络舆情分析的目标网页；文本分词模块，用于对所述目标网页中的文本进行分词；文本特征词获取模块，用于利用统计的算法从分词的结果中获取目标网页的文本特征词；文本特征词归类模块，用于根据预先训练的正负面词分类器将所述本特征词归类为正面文本特征词和负面文本特征词；网页类别判定模块，用于根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。

本发明实施例提供的网络舆情分析方法和装置，通过获取目标网页的文本特征词，根据正负面词典将文本特征词分为正面文本特征词和负面文本特征词，根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页，实现了准确、高效的对网络舆情进行倾向性分析。

附图说明

图1是本发明第一实施例提供的网络舆情分析方法的流程图；

图2是本发明第二实施例提供的网络舆情分析方法的流程图；

图3是本发明第三实施例提供的网络舆情分析装置的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。

图1示出了本发明的第一实施例。

图1是本发明第一实施例提供的网络舆情分析方法的流程图。参见图1，所述网络舆情分析方法包括：步骤S110，从互联网获取网络舆情分析的目标网页。

民众通过网络所表达的群体性的情绪、态度、意见与要求等形成了网络舆情。网络舆情分析就是通过对网络上各种言论进行分析，得出民众对每个焦点事件或者公众人物的普遍观点和认识。

互联网上的言论是以网页的形式表现出来的。因此，对网络舆情进行分析，首先需要获取网络舆情分析的目标网页。在本实施例中，网络舆情分析的目标网页应该是以文本为主要内容的网页。优选的，可以对网页中文本字符的数量设置下限，来获取网络舆情分析的目标网页。

优选的，可以通过指定站点或者域名来限制网络舆情分析的目标网页的范围。

步骤S120，对所述目标网页中的文本进行分词。

在本实施例中，词是进行网络舆情分析倾向性判断的基本单位。在获取目标网页后，对目标网页中的文本进行分词处理，以便参照预先训练的正负面词词典对所述目标网页进行倾向性判断。

优选的，首先按照标点符号将目标网页中的文本分成短句。将目标网页的文本分成短句所依照的标点符号包括逗号、句号、问号、感叹号以及分号。将目标网页中的文本分成短句后，按照分词算法对已经分好的短句进行分词。分词过程也被称为切词过程。优选的，利用正向迭代最细粒度切分算法对短句进行分词。

步骤S130，利用统计的算法从分词的结果中获取目标网页的文本特征词。

在本实施例中，采用从目标网页的文本中提取文本特征词，对提取的文本特征词进行倾向性分析，并用对文本特征词进行倾向性分析的结果代表目标网页的倾向性的技术方案。

在本实施例中，采用统计的算法从分词的结果中提取文本特征词。优选的，利用词频-倒排文档频率（TF-IDF）算法从分词的结果中提取文本特征词。

根据TF-IDF算法，网络舆情分析主机首先计算分词得到的每个词在目标网页中的词频（TF），然后计算每个词在目标网页中的倒排文档频率（IDF），用一个词的词频乘以该词的倒排文档频率，得到该词的权重，最后以权重的取值排最大的若干个词为文档特征词。

步骤S140，根据预先训练的正负面词分类器将所述文本特征词归类为正面文本特征词和负面文本特征词。

在本实施例中，所述正负面词分类器是预先训练得到的。所述训练的正负面词分类器能够按照输入的词的语气属性将输入的词分为正面词和负面词。

在提取目标网页的文本特征词后，利用所述正负面词分类器，将提取的文本特征词归类为正面文本特征词和负面文本特征词。

需要说明的是，对正负面词分类器的训练过程是利用海量的训练词数据对所述正负面词分类器进行训练，其中，所述训练词数据是根据训练词的语气属性被标注为正面训练词和负面训练词的训练词数据。

步骤S150，根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。

在将目标网页的若干文本特征词归类为正面文本特征词和负面文本特征词后，网络舆情分析主机根据所述文本特征词的归类结果判断所述目标网页为正面舆情网页或负面舆情网页。

优选的，网络舆情分析主机可以根据被归类为正面文本特征词与负面文本特征词的个数多少来判定所述目标网页为正面舆情网页或负面舆情网页。如果一个目标网页的文本特征词中较多的被归类为正面文本特征词，则所述目标网页被判定为正面舆情网页；如果一个目标网页的文本特征词中较多的被归类为负面文本特征词，则所述目标网页被判定为负面舆情网页。

优选的，网络舆情分析主机还可以各个文本特征词在所述目标网页中的权重值来判定所述目标网页为正面舆情网页或负面舆情网页。如果一个目标网页的正面文本特征词的权重值的和大于该目标网页的负面文本特征词的权重值的和，则所述目标网页被判定为正面舆情网页；反之，则所述目标网页被判定为负面舆情网页。

本实施例通过从网络舆情分析的目标网页中获取文本特征词，根据预先训练的正负面词词典将文本特征词归类为正面文本特征词和负面文本特征词，并根据所述文本特征词的归类结果将所述目标网页判定为正面舆情网页或者负面舆情网页，利用机器学习的方法对网络舆情的倾向性进行判断，提高了对网络舆情进行倾向性分析的效率。

图2示出本发明的第二实施例。

图2是本发明第二实施例提供的网络舆情分析方法的流程图。所述网络舆情分析方法以上述实施例为基础，进一步的，所述方法还包括：在从互联网获取网络舆情分析的目标网页之前，利用支持向量机SVM算法训练正负面词分类器。

参见图2，所述网络舆情分析方法包括：

步骤S210，利用支持向量机SVM算法训练正负面词分类器。

在本实施例中，所述正负面词分类器用于对从目标网页上提取的文本特征词进行正负面归类。因此所述正负面词分类器的输入数据是目标网页的文本特征词，而所述正负面分类器的输出数据是判定所述文本特征词是正面文本特征词或者负面文本特征词的判定信号。

在利用支持向量机（SVM）算法对所述正负面词分类器进行训练时，首先利用少量的已标注为正面词和负面词组成所述正负面词分类器的基础库，再采用海量的预先进行过正负面标注的训练数据对所述正负面词分类器进行训练。

具体的，可以首先构建基础正负面词词典。可选择HowNet词典作为正负面词词典的基础部分。HowNet词典内词语的正负面倾向可以由构成其概念的义原表示出来，其词汇标注的样例如下：

美丽ADJ aValue|属性值,prettiness|美丑,beautiful| 美,desired|良

丑陋ADJ aValue|属性值,prettiness|美丑,ugly|丑,undesired|莠

其中，包含正负面倾向的义原包括“良”、“莠”、“好”、“坏”、 “喜欢”、“厌恶”“美”、“丑”等。经过观察发现义原“良”、“莠” 和其他义原重合度很高，且包含了大多数其它义原。因此，选择HowNet词典中标注了“良”、“莠”的词汇作为基础正负面词词典。过滤掉同时被标注为 “良”、“莠”的多义词汇。

而后，再训练舆情领域正负面词词典

为了获取和舆情领域相关的正负面词，需要从领域文档中人工或自动选取正负面词，从而扩充正负面词词典。本方法中，可采用SVM的机器学习方法来辅助补充正负面词。利用第一个标注好的训练集，通过SVM学习，得到支持向量模型，从SVM模型向量空间中权重较高的维，然后可手工过滤和选择正负面词。

进一步的所述支持向量机（SVM）算法的核函数包括线性核函数、多项式核函数、sigmoid核函数和高斯核函数。

步骤S220，从互联网获取网络舆情分析的目标网页。

步骤S230，对所述目标网页中的文本进行分词。

步骤S240，利用统计的算法从分词的结果中获取目标网页的文本特征词。

步骤S250，根据预先训练的正负面词分类器将所述文本特征词归类为正面文本特征词和负面文本特征词。

步骤S260，根据所述文本特征词的归类结果计算所述短句的正负面属性值。

在本实施例中，对文本特征词进行归类后，根据所述文本特征词的归类结果计算所述短句的正负面属性值。

优选的，所述网络舆情分析主机预先构建了否定词词典和强调词词典。所述否定词词典中收录有“不”、“没有”、“缺少”等否定词，并且每个否定词配有相应的权重。所述强调词词典中收录有“很”、“非常”等强调词，并且每个强调词配有相应的权重。在计算短句的正负面属性时，将短句中是否包含否定词和强调词，以及每个否定词、强调词的权重也加以考虑。

步骤S270，根据所述短句的正负面属性值判定所述目标网页为正面舆情网页或负面舆情网页。

为了验证本实施例方法在提高网络舆情倾向性分析的准确率方面的作用，利用实施所述网络舆情分析方法的网络舆情分析主机从1000个正面舆论和1000 个负面舆论中提取了9348个相互不同的文本特征词，由这些文本特征词组成特征词训练集，对正负面分类器进行训练。然后从互联网上获取20000个目标网页进行了测试。下表示出了该测试的测试结果：

从上表中可以看出，使用网络舆情分析方法可以取得较好的分析效果，准确率基本上可以达到70%以上，可以达到实际应用要求。

本实施例利用支持向量机算法对正负面词分类器进行训练，再利用训练好的正负面词分类器对目标网页的文本特征词进行分类，最终实现对目标网页的倾向性判定，提高了对网络舆情进行倾向性分析的准确率。

图3示出了本发明的第三实施例。

图3是本发明第三实施例提供的网络舆情分析装置的结构图。参见图3，所述网络舆情分析装置包括：目标网页获取模块320、文本分词模块330、文本特征词获取模块340、文本特征词归类模块350以及网页类别判定模块360。

所述目标网页获取模块320用于从互联网获取网络舆情分析的目标网页。

所述文本分词模块330用于对所述目标网页中的文本进行分词。

所述文本分词模块330具体用于利用正向迭代最细粒度切分算法对所述目标网页的文本进行分词。

所述文本特征词获取模块340用于利用统计的算法从分词的结果中获取目标网页的文本特征词。

所述文本特征词获取模块340具体用于利用TF-IDF算法从分词的结果中获取目标网页的文本特征词。

所述文本特征词归类模块350用于根据预先训练的正负面词词典将所述文本特征词归类为正面文本特征词和负面文本特征词。

所述网页类别判定模块360用于根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。

所述网页类别判定模块360具体用于根据所述文本特征词被归为正面文本特征词及负面文本特征词的个数和/或各文本特征词在所述目标网页中的权重，将所述目标网页判定为正面舆情网页或负面舆情网页。

优选的，所述网络舆情分析装置还包括分类器训练模块310。所述分类器训练模块310用于在从互联网获取网络舆情分析的目标网页之前，利用支持向量机SVM算法训练正负面词分类器。

本实施例通过从网络舆情分析的目标网页中获取文本特征词，根据预先训练的正负面词词典将文本特征词归类为正面文本特征词和负面文本特征词，并根据所述文本特征词的归类结果将所述目标网页判定为正面舆情网页或者负面舆情网页，利用机器学习的方法对网络舆情的倾向性进行判断，提高了对网络舆情进行倾向性分析的效率和准确率。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间的相同相似的部分互相参见即可。

Claims

1.一种网络舆情分析方法，其特征在于，包括：从互联网获取网络舆情分析的目标网页；

对所述目标网页中的文本进行分词；利用统计的算法从分词的结果中获取目标网页的文本特征词；根据预先训练的正负面词分类器将所述文本特征词归类为正面文本特征词和负面文本特征词；根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。

2.根据权利要求1所述的方法，其特征在于，在从互联网获取网络舆情分析的目标网页之前，还包括：利用支持向量机SVM算法训练正负面词分类器。

3.根据权利要求1或2所述的方法，其特征在于，对所述目标网页的文本进行分词包括：

利用正向迭代最细粒度切分算法对所述目标网页的文本进行分词。

4.根据权利要求1或2所述的方法，其特征在于，利用统计的算法从分词的结果中获取目标网页的文本特征词包括：利用词频-倒排文档频率TF-IDF算法从分词的结果中获取目标网页的文本特征词。

5.根据权利要求1或2所述的方法，其特征在于，根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页包括：

根据所述文本特征词被归为正面文本特征词及负面文本特征词的个数和/ 或各文本特征词在所述目标网页中的权重，将所述目标网页判定为正面舆情网页或负面舆情网页。

6.一种网络舆情分析装置，其特征在于，包括：目标网页获取模块，用于从互联网获取网络舆情分析的目标网页；文本分词模块，用于对所述目标网页中的文本进行分词；文本特征词获取模块，用于利用统计的算法从分词的结果中获取目标网页的文本特征词；文本特征词归类模块，用于根据预先训练的正负面词分类器将所述文本特征词归类为正面文本特征词和负面文本特征词；网页类别判定模块，用于根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。

7.根据权利要求6所述的装置，其特征在于，还包括：分类器训练模块，用于在从互联网获取网络舆情分析的目标网页之前，利用支持向量机SVM算法训练正负面词分类器。

8.根据权利要求6或7所述的装置，其特征在于，所述文本分词模块具体用于利用正向迭代最细粒度切分算法对所述目标网页的文本进行分词。

9.根据权利要求6或7所述的装置，其特征在于，所述文本特征词获取模块具体用于利用TF-IDF算法从分词的结果中获取目标网页的文本特征词。

10.根据权利要求6或7所述的装置，其特征在于，所述网页类别判定模块具体用于根据所述文本特征词被归为正面文本特征词及负面文本特征词的个数和/或各文本特征词在所述目标网页中的权重，将所述目标网页判定为正面舆情网页或负面舆情网页。