CN108021582B

CN108021582B - 互联网舆情监控方法及装置

Info

Publication number: CN108021582B
Application number: CN201610965442.9A
Authority: CN
Inventors: 李艳
Original assignee: China Mobile Group Henan Co Ltd
Current assignee: China Mobile Group Henan Co Ltd
Priority date: 2016-11-04
Filing date: 2016-11-04
Publication date: 2020-12-04
Anticipated expiration: 2036-11-04
Also published as: CN108021582A

Abstract

本发明涉及一种互联网舆情监控方法及装置，其中，所述方法包括：根据预先建立的专家分类模型训练互联网投诉信息的分类学习模型；根据所述分类学习模型对获取的互联网投诉信息进行分类，以获取投诉分类信息；确定所述投诉分类信息与获取的用户查询信息的相似度；根据所述相似度的确定结果对目标互联网投诉信息进行溯源。所述装置包括：学习模型训练单元、投诉分类信息获取单元、相似度确定单元以及信息溯源单元。本发明的互联网舆情监控方法及装置可以实现对海量的互联网投诉抱怨信息进行分类建模，并进行信息溯源，及时发现投诉信息的源头以及爆发时间，有利于及时、有效地监控并处理爬取的互联网舆情信息。

Description

互联网舆情监控方法及装置

技术领域

本发明涉及通信技术领域，尤其涉及一种互联网舆情监控方法及装置。

背景技术

互联网时代，移动客户宣泄不满的渠道变广，互联网投诉客户明显增多，网民客户活跃度高，彼此之间的影响力增强，很容易引起聚众效应。许多移动客户通过微博、论坛、大型门户网站、社交APP等平台发布负面信息，影响面不易控制，极易在短时间内迅速蔓延泛滥。经研究发现，几乎每一件造成不良影响的针对运营商的互联网投诉事件，都是由网民组织在互联网上进行大量发布、快速传播导致的。

为避免上述种类的投诉带来的负面影响，现有技术中采用例如以下几种技术方案对网络舆情进行分类与识别。具体地，现有技术中的一种方法是，选取已分类的舆情信息文本作为训练文本并分词，根据特征词将训练文本向量化，然后利用PCA变换特征矩阵将待分类舆情信息文本的向量矩阵的向量降维，然后根据BP神经网络模型对其进行变换，得到与分类数量相同维数的输出向量，再用决策树规则进行匹配；现有技术中的另一种方法是，采集互联网舆情文件，并采用预设的专题规则匹配互联网舆情文件；对匹配成功的互联网舆情文件生成专题；现有技术中的第三种方法是，将舆情话题抽象为节点，节点之间以连接弧表示舆情话题之间存在关联，连接弧的权值表示舆情话题的相关度；按照舆情话题发布的时间将其划归到相应的时间片中，构建由话题信息层、网页信息层和网民信息层组成的互联网舆情话题动态演化模型；对与舆情话题相关的新入网页进行特征抽取，获得特征项，将网页转化为特征项形成的多元向量空间，计算其与原舆情话题之间的话题相关度；采用增量式聚类，依次处理所述新入网页，识别新话题，并将追踪到的舆情新话题扩充更新到模型中，该方法有利于克服话题演化中的话题漂移和衍生问题，提高网络舆情话题追踪效果。

然而，发明人在实施本发明实施例的过程中发现，现有的网络舆情进行分类与识别技术方案的分类准确性较低，且无法从源头对舆情进行追踪处理。

发明内容

针对现有不同传输网络进行二层对接会出现广播风暴、故障无法定位等故障的缺陷，本发明提出如下技术方案：

一种互联网舆情监控方法，包括：

根据预先建立的专家分类模型训练互联网投诉信息的分类学习模型；

根据所述分类学习模型对获取的互联网投诉信息进行分类，以获取投诉分类信息；

确定所述投诉分类信息与获取的用户查询信息的相似度；

根据所述相似度的确定结果对目标互联网投诉信息进行溯源。

可选地，所述确定所述投诉分类信息与获取的用户查询信息的相似度，包括：

根据所述投诉分类信息建立向量空间模型；

获取用户查询信息，并构建所述用户查询信息的文本向量；

确定所述向量空间模型中各投诉分类信息的文本向量与所述用户查询信息的文本向量的相似度。

可选地，所述根据所述相似度的确定结果对目标互联网投诉信息进行溯源，包括：

获取所述向量空间模型中的目标文本向量；其中，所述目标文本向量为与所述用户查询信息的文本向量的相似度超过预设阈值的文本向量；

根据所述目标文本向量对应的互联网投诉信息的发布时间，确定目标互联网投诉信息的发送源头。

可选地，所述根据所述目标文本向量对应的互联网投诉信息的发布时间，确定目标互联网投诉信息的发送源头，包括：

确定所述目标文本向量对应的互联网投诉信息中发布时间最早的互联网投诉信息；

获取所述发布时间最早的互联网投诉信息的发布网址。

可选地，所述根据所述分类学习模型对获取的互联网投诉信息进行分类，包括：

采用预先定义的投诉字典以及预先构建的关键词与投诉原因的对应关系，对所述分类的结果进行校正。

一种互联网舆情监控装置，包括：

学习模型训练单元，用于根据预先建立的专家分类模型训练互联网投诉信息的分类学习模型；

投诉分类信息获取单元，用于根据所述分类学习模型对获取的互联网投诉信息进行分类，以获取投诉分类信息；

相似度确定单元，用于确定所述投诉分类信息与获取的用户查询信息的相似度；

信息溯源单元，用于根据所述相似度的确定结果对目标互联网投诉信息进行溯源。

可选地，所述相似度确定单元还用于根据所述投诉分类信息建立向量空间模型；获取用户查询信息，并构建所述用户查询信息的文本向量；以及确定所述向量空间模型中各投诉分类信息的文本向量与所述用户查询信息的文本向量的相似度。

可选地，所述信息溯源单元还用于获取所述向量空间模型中的目标文本向量；其中，所述目标文本向量为与所述用户查询信息的文本向量的相似度超过预设阈值的文本向量；以及根据所述目标文本向量对应的互联网投诉信息的发布时间，确定目标互联网投诉信息的发送源头。

可选地，所述信息溯源单元还用于确定所述目标文本向量对应的互联网投诉信息中发布时间最早的互联网投诉信息；以及获取所述发布时间最早的互联网投诉信息的发布网址。

可选地，所述投诉分类信息获取单元还用于采用预先定义的投诉字典以及预先构建的关键词与投诉原因的对应关系，对所述分类的结果进行校正。

本发明的互联网舆情监控方法及装置，通过预先建立的专家分类模型训练互联网投诉信息的分类学习模型，根据所述分类学习模型对获取的互联网投诉信息进行分类，以获取投诉分类信息，并确定所述投诉分类信息与获取的用户查询信息的相似度，以根据所述相似度的确定结果对目标互联网投诉信息进行溯源，可以实现对海量的互联网投诉抱怨信息进行分类建模，并进行信息溯源，及时发现投诉信息的源头以及爆发时间，有利于及时、有效地监控并处理爬取的互联网舆情信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一个实施例的互联网舆情监控方法的流程示意图；

图2为本发明另一个实施例的互联网舆情监控方法的流程示意图；

图3为本发明一个实施例的文本相似度预处理算法的流程示意图；

图4为本发明一个实施例的文本相似度算法的流程示意图；

图5为本发明一个实施例的互联网舆情监控装置的结构示意图；

图6为本发明一个实施例的互联网舆情监控设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明一个实施例的互联网舆情监控方法的流程示意图；如图1所示，该方法包括：

S101：根据预先建立的专家分类模型训练互联网投诉信息的分类学习模型；

具体来说，终端预先根据专家知识，基于LM(Language Model)分类模型算法建立一种基于概率的语言模型，即所述专家分类模型，并通过该专家分类模型训练一互联网投诉信息的分类学习模型，该分类学习模型可以通过学习实现对互联网投诉信息进行分类。

可以理解的是，所述分类学习模型可以在学习过程中不断提高分类的精准度，通过形成模型学习库，根据投诉信息的内容实现互联网投诉信息的各级分类(如根据关键词或摘要进行主题提取、自动识别等类别)。

S102：根据所述分类学习模型对获取的互联网投诉信息进行分类，以获取投诉分类信息；

具体来说，所述终端对从网络上获取互联网信息，利用网络爬虫技术爬取互联网投诉信息，并通过所述分类学习模型对爬取的互联网投诉信息进行分类，以获取投诉分类信息。

S103：确定所述投诉分类信息与获取的用户查询信息的相似度；

其中，所述的用户查询信息包括终端当前获取到的用于查询用户需求内容的信息；

具体来说，所述终端分别确定所述投诉分类信息中的各类投诉信息与所述用户查询信息之间的相似度。

S104：根据所述相似度的确定结果对目标互联网投诉信息进行溯源。

具体来说，所述终端根据所述相似度的确定结果获取到所述投诉分类信息的各类投诉信息中与所述用户查询信息的相似度超过预设阈值(例如相似度超过60％)的投诉分类信息，进而追溯该相似度超过预设阈值的投诉分类信息的发布源头(如发布网址)以及爆发时间，实现及时、有效地监控互联网舆情信息。

本实施例的互联网舆情监控方法，通过训练的互联网投诉信息的分类学习模型对获取的互联网投诉信息进行分类并确定所述投诉分类信息与获取的用户查询信息的相似度，以根据所述相似度的确定结果对目标互联网投诉信息进行溯源，可以实现对海量的互联网投诉抱怨信息进行分类建模，并进行信息溯源，及时发现投诉信息的源头以及爆发时间，有利于及时、有效地监控并处理爬取的互联网舆情信息。

图2为本发明另一个实施例的互联网舆情监控方法的流程示意图，如图2所示，该方法包括：

S201：根据预先建立的专家分类模型训练互联网投诉信息的分类学习模型；

S202：根据所述分类学习模型对获取的互联网投诉信息进行分类，采用预先定义的投诉字典以及预先构建的关键词与投诉原因的对应关系，对所述分类的结果进行校正，以获取投诉分类信息；

S203：确定所述投诉分类信息与获取的用户查询信息的相似度；

S204：根据所述相似度的确定结果对目标互联网投诉信息进行溯源。

其中，所述步骤S201、S203以及S204与前述图1所述实施例中的步骤S101、S103以及S104相同，在此不进行赘述。

其中，所述预先定义的投诉字典中包括预设的表述投诉类别、主题的关键词语；

所述预先构建的关键词与投诉原因的对应关系包括：根据关键词可以匹配到某一条投诉信息的投诉原因之间的对应关系，如关键词“网络信号”对应于投诉原因“基站信号覆盖问题”等。

可以理解的是，步骤S203中所述终端采用预先定义的投诉字典以及预先构建的关键词与投诉原因的对应关系，对所述分类的结果进行校正，可以提高互联网投诉信息的分类准确率。

进一步地，在上述各个方法实施例的基础上，步骤S103或S203中所述确定所述投诉分类信息与获取的用户查询信息的相似度，可以包括：

S031：根据所述投诉分类信息建立向量空间模型；

S032：获取用户查询信息，并构建所述用户查询信息的文本向量；

S033：确定所述向量空间模型中各投诉分类信息的文本向量与所述用户查询信息的文本向量的相似度。

举例来说，基于上述的分类学习模型进行分类处理的结果，本实施例中还可以采用向量空间VSM模型算法将所述投诉分类信息对应的文本的内容处理为向量空间中的向量进行运算。

可以理解的是，将所述投诉分类信息对应的文本的内容处理为向量空间，可以通过计算向量之间的相似度来度量文本之间的相似性，直观易懂，其具体算法如下：

A1：文档向量的构造

对于任一文档d_j∈D，我们可以把它表示为如下t维向量的形式：

d_j＝(w_1j,w_2j,…,w_tj) (1)

其中，向量分量w_ij代表第i个标引词k_i在文档d_j中所具有的权重(表示该词出现在文档中的次数的比重)，t为系统中标引词的总数；

在布尔模型中，w_tj的取值范围是{0，1}；在向量空间模型中，由于采用“部分匹配”策略(例如句子的模糊匹配)，w_tj的取值范围是一个连续的实数区间[0，1]。

可以理解的是，在检索的前处理中，一篇文档中会标引出多个不同的标引词，而这些标引词对表达该篇文档主题的能力往往是不同的。也就是说，每个标引词应该具有不同的权值。如何计算文档向量中每个标引词的权重，不仅关系到文档向量的形成，也关系到后续的检索匹配结果。

标引词权重的大小主要依赖其在不同环境中的出现频率统计信息，相应的权重就分成局部权重和全局权重。

局部权重(Local Weight)l_tj是按第i个标引词在第j篇文档中的出现频率计算的权重，其以提高查全率为目的，对在文档中频繁出现的标引项(标引词)给予较大的权重。

具体来说，所述查全率为检出文档和总文档的比值，通过提高局部权重，检索出较多的相关文档，即可提高查全率。

全局权重(Global Weight)g_t则是按第i个标引词在整个系统文档集合中的分布确定的权重，其以提高查准率为目的，对在许多文档中都出现的标引项给予较低的权重，而对仅在特定文档中出现频次较高的标引项给予较大的权重。计算全局权重的典型方法就是逆文档频率IDF(Inverse Document Frequency)加权法，具体公式如下：

g_i＝log(N/n_i) (2)

其中，N为系统文档总数，n_i为系统中含有标引词k_i的文档数。

具体来说，查准率为检出的相关文档量与检出文档总量的比率，使用全局权重计算，检出的文档总量将减少，从而提高查准率。

A2：提问向量的构造

在向量空间模型中，用户查询信息(用于表征用户的信息需求)被转换为提问向量，并用与文档向量类似的表示形式进行表示，具体公式如下：

q＝(w_1q,w_2q,…,w_tq) (3)

其中，t为系统中标引词的总数，向量分量w_tq表示第i个标引词k_i在提问q中的权值，且有w_tq≥0。

进而，对于查询语词的权值，可以采用如下的方法进行计算：

式中，freq_iq为标引词k_i在用户查询信息的文本内容中所出现的次数，而maxtf则是在用户查询信息的文本内容中所使用的所有标引词出现次数的最大值。

A3：文档与提问向量相似度的计算

在文档与提问向量化表示的基础之上，文档与查询提问之间的相关程度(即相似度)就可以由它们各自向量在t维空间的相对位置来决定。

需要说明的是，本实施例中可采用多种向量间相似程度的计算方法，包括内积法(Inner Product)、Dice法(Dice Coefficient)、Jaccard法(Jaccard Coefficient)和余弦法(Cosine Coefficient)。

以提问向量和文档向量间的内积法为例，采用如下公式进行计算：

其中，QT_i是检索提问中检索项i的权值，DT_i是文档中标引项i的权值，N为总的项数。

特别地，在内积法的基础上，当每个向量都通过余弦法进行加权后，则内积法转换为余弦法，即余弦法采用的相似度计算指标是两个向量夹角的余弦函数。

进一步地，在上述各个方法实施例的基础上，步骤S104或步骤S204中所述根据所述相似度的确定结果对目标互联网投诉信息进行溯源，可以包括：

S041：获取所述向量空间模型中的目标文本向量；

需要说明的是，所述目标文本向量包括但不限于与所述用户查询信息的文本向量的相似度超过预设阈值(例如相似度超过60％)的文本向量；

S042：根据所述目标文本向量对应的互联网投诉信息的发布时间，确定目标互联网投诉信息的发送源头。

具体地，作为本实施例的一种可选的实施方式，步骤S042中所述根据所述目标文本向量对应的互联网投诉信息的发布时间，确定目标互联网投诉信息的发送源头，还可以包括：

确定所述目标文本向量对应的互联网投诉信息中发布时间最早的互联网投诉信息，并获取所述发布时间最早的互联网投诉信息的发布网址。

举例来说，本实施例中根据投诉分类信息与用户查询信息的文本相似度对目标互联网投诉信息进行溯源具体算法包括以下步骤：

B1：预处理

具体地，图3为本发明一个实施例的文本相似度预处理算法的流程示意图，本实施例中进行预处理主要包括进行中文分词和去停用词，以按照预先编制的停用词表中的词语将语料中对文本内容识别意义不大但出现频率很高的词、符号、标点及乱码等去掉。

其中，所述停用词表中预先定义的内容以停用词和功能词(如：这、的、和、会、为、你、我、是等)为主。

可以理解的是，上述停用词几乎出现在任何一篇中文文本中，但是其对这个文本所表达的意思几乎没有任何贡献。

如图3所示，本实施例中采用停用词表来剔除停用词的过程可以是一个查询过程：

对每一个文本中的词语(即词条)，看其是否位于停用词列表中，如果是，则将其从文本中的语句(即词条串)中删除。

B2：文本特征项选择与加权

过滤掉常用副词、助词等频度高的词之后，根据剩下词的频度确定若干关键词。频度计算参照TF公式。加权是针对每个关键词对文本特征的体现效果大小不同而设置的机制，权值计算参照IDF公式。

其中，词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数；

TF＝f/m (6)

其中，f表示当前词在当前文档中出现的次数；m表示当前文档中出现次数最多的词的次数。如此，TF的值就在0和1之间，即可减少文档中词的频率不合理分布所引起的误差。

而逆向文件频率(inverse document frequency,IDF)是一个词语普遍重要性的度量：

IDF＝log2(n/n_j)+1 (7)

其中，n表示在整个语料中文档的总数；n_j表示含有当前词的文档数。这样做可以减少在语料范围内词频分布不均匀造成的相似度误差。

B3：计算文本相似度

可以理解的是，在执行步骤B2后，即可根据建立的权重向量空间，通过计算汉明距离、余弦值或内积等方法得出投诉分类信息与用户查询信息的文本相似度，具体流程如图4所示。

B4：信息溯源

具体来说，本实施例中，首先获取到相似度超过60％的文本，并分析其对应的网络信息的发布时间，进而通过找出最早发布信息的网址，实现对互联网舆情进行监控。

可以理解的是，本实施例不仅可以对网页爬取的互联网舆情信息进行分类，并可以在分类的基础上进一步对信息进行溯源，从源头到信息最终处理形成闭环管理，覆盖范围广，监控效果好。

图5为本发明一个实施例的互联网舆情监控装置的结构示意图，如图5所示，本实施例的装置包括：学习模型训练单元51、投诉分类信息获取单元52、相似度确定单元53以及信息溯源单元54，其中：

学习模型训练单元51用于根据预先建立的专家分类模型训练互联网投诉信息的分类学习模型；

投诉分类信息获取单元52用于根据所述分类学习模型对获取的互联网投诉信息进行分类，以获取投诉分类信息；

相似度确定单元53用于确定所述投诉分类信息与获取的用户查询信息的相似度；

信息溯源单元54用于根据所述相似度的确定结果对目标互联网投诉信息进行溯源。

具体地，本实施例的互联网舆情监控装置进行互联网舆情监控的过程包括：学习模型训练单元51根据预先建立的专家分类模型训练互联网投诉信息的分类学习模型；投诉分类信息获取单元52根据所述分类学习模型对获取的互联网投诉信息进行分类，以获取投诉分类信息；相似度确定单元53确定所述投诉分类信息与获取的用户查询信息的相似度；信息溯源单元54根据所述相似度的确定结果对目标互联网投诉信息进行溯源。

本实施例的互联网舆情监控装置，通过训练的互联网投诉信息的分类学习模型对获取的互联网投诉信息进行分类并确定所述投诉分类信息与获取的用户查询信息的相似度，以根据所述相似度的确定结果对目标互联网投诉信息进行溯源，可以实现对海量的互联网投诉抱怨信息进行分类建模，并进行信息溯源，及时发现投诉信息的源头以及爆发时间，有利于及时、有效地监控并处理爬取的互联网舆情信息。

进一步地，在上述装置实施例的基础上，投诉分类信息获取单元52还可以用于采用预先定义的投诉字典以及预先构建的关键词与投诉原因的对应关系，对所述分类的结果进行校正。

进一步地，在上述装置实施例的基础上，所述相似度确定单元还用于根据所述投诉分类信息建立向量空间模型；获取用户查询信息，并构建所述用户查询信息的文本向量；以及确定所述向量空间模型中各投诉分类信息的文本向量与所述用户查询信息的文本向量的相似度。

进一步地，在上述装置实施例的基础上，所述信息溯源单元还用于获取所述向量空间模型中的目标文本向量；其中，所述目标文本向量为与所述用户查询信息的文本向量的相似度超过预设阈值的文本向量；以及根据所述目标文本向量对应的互联网投诉信息的发布时间，确定目标互联网投诉信息的发送源头。

进一步地，在上述装置实施例的基础上，所述信息溯源单元还用于确定所述目标文本向量对应的互联网投诉信息中发布时间最早的互联网投诉信息；以及获取所述发布时间最早的互联网投诉信息的发布网址。

需要说明的是，对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图6为本发明一个实施例中智能终端的结构示意图，如图5所示，该终端可以包括：处理器(processor)610、总线620和存储器(memory)630，其中，处理器610和存储器630通过总线620完成相互间的通信。处理器610可以调用存储器630中的程序指令，以执行如下方法：

确定所述投诉分类信息与获取的用户查询信息的相似度；

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：

确定所述投诉分类信息与获取的用户查询信息的相似度；

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：

确定所述投诉分类信息与获取的用户查询信息的相似度；

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims

1.一种互联网舆情监控方法，其特征在于，包括：

确定所述投诉分类信息与获取的用户查询信息的相似度；

根据所述相似度的确定结果对目标互联网投诉信息进行溯源；

所述根据所述分类学习模型对获取的互联网投诉信息进行分类，包括：

2.根据权利要求1所述的方法，其特征在于，所述确定所述投诉分类信息与获取的用户查询信息的相似度，包括：

根据所述投诉分类信息建立向量空间模型；

获取用户查询信息，并构建所述用户查询信息的文本向量；

3.根据权利要求2所述的方法，其特征在于，所述根据所述相似度的确定结果对目标互联网投诉信息进行溯源，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述目标文本向量对应的互联网投诉信息的发布时间，确定目标互联网投诉信息的发送源头，包括：

获取所述发布时间最早的互联网投诉信息的发布网址。

5.一种互联网舆情监控装置，其特征在于，包括：

信息溯源单元，用于根据所述相似度的确定结果对目标互联网投诉信息进行溯源；

所述投诉分类信息获取单元还用于采用预先定义的投诉字典以及预先构建的关键词与投诉原因的对应关系，对所述分类的结果进行校正。

6.根据权利要求5所述的装置，其特征在于，所述相似度确定单元还用于根据所述投诉分类信息建立向量空间模型；获取用户查询信息，并构建所述用户查询信息的文本向量；以及确定所述向量空间模型中各投诉分类信息的文本向量与所述用户查询信息的文本向量的相似度。

7.根据权利要求6所述的装置，其特征在于，所述信息溯源单元还用于获取所述向量空间模型中的目标文本向量；其中，所述目标文本向量为与所述用户查询信息的文本向量的相似度超过预设阈值的文本向量；以及根据所述目标文本向量对应的互联网投诉信息的发布时间，确定目标互联网投诉信息的发送源头。

8.根据权利要求7所述的装置，其特征在于，所述信息溯源单元还用于确定所述目标文本向量对应的互联网投诉信息中发布时间最早的互联网投诉信息；以及获取所述发布时间最早的互联网投诉信息的发布网址。