CN109299271A

CN109299271A - 训练样本生成、文本数据、舆情事件分类方法及相关设备

Info

Publication number: CN109299271A
Application number: CN201811278481.7A
Authority: CN
Inventors: 袁恺村
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-10-30
Filing date: 2018-10-30
Publication date: 2019-02-01
Anticipated expiration: 2038-10-30
Also published as: CN109299271B

Abstract

本申请公开了训练样本生成、文本数据、舆情事件分类方法及相关设备，在本申请实施例提供的训练样本生成方法中，首先对文本数据进行聚类处理，因为文本数据被聚类，当找到一个目标类别对应的聚类结果后，只需要在其对应的聚类结果中去选择符合目标类别条件的文本数据然后进行类别标注，就可以得到这个目标类别的训练样本，而不用再去分析其他聚类中的文本数据是否存在符合目标类别条件的情况。因此，极大的缩小了文本数据的选择范围，提高了标注的效率和样本的准确性，缩短了标注文本数据的时间。同时，提升了文本数据分类和舆情事件分类过程的效率和准确性。

Description

训练样本生成、文本数据、舆情事件分类方法及相关设备

技术领域

本申请涉及互联网技术领域，更具体地说，涉及一种训练样本生成、文本数据、舆情事件分类方法及相关设备。

背景技术

近几年来，随着互联网的快速发展，网络媒体已经成为一种新的信息传播形式。网友言论活跃已达到前所未有的程度，不论是国内还是国际重大事件，都能马上形成网上舆论。如果不对舆论内容进行有效的监控和管理很可能引发负面的社会效应。

舆情监控的核心在于，按照一定的规则和方法，从互联网上繁杂的信息当中将关注的信息抓取出来，对抓取到的信息进行分类，利用分类后的信息，对该类信息所代表的舆情的发展变化趋势进行分析预测，进而可以提前采取有效的措施，避免负面社会效应的产生。

在上述过程中，通常情况下会预先构建舆情的不同类别的特征，对样本数据进行特征标注，然后利用标注的数据进行机器学习，训练分类器模型，最后调用训练好的分类器模型对舆情进行分类。

由此可以看出，分类结果越准确，需要标注的数据就越多，因此为了提高分类的准确性，需要标注非常多的数据，在实现过程中非常占用时间。

发明内容

有鉴于此，本申请实施例提供一种训练样本生成、文本数据、舆情事件分类方法及相关设备，以解决现有技术中的问题。

为实现上述目的，一方面，本申请提供了一种训练样本生成方法，包括：

获取预先提取的文本数据，对所述文本数据进行聚类处理，得到多个聚类结果；

从所述多个聚类结果中，选取与目标类别对应的聚类结果；

从所述与目标类别对应的聚类结果中，选取符合所述目标类别条件的文本数据；

标注所述符合目标类别条件的文本数据的目标类别，得到所述目标类别的训练样本。

又一方面，本申请还提供了一种文本数据分类方法，包括：

获取待分析网页的文本数据；

对所述文本数据进行分词处理；

加载分类模型，对分词处理后的文本数据分别进行分类；所述分类模型为，利用如上所述训练样本生成方法生成的训练样本，进行训练得到的分类模型；

存储所述待分析网页的文本数据的分类结果。

又一方面，本申请还提供了一种舆情事件分类方法，其包括：

接收用户输入的包含待分析事件的信息；

依据所述信息确定所述待分析事件对应的至少一个网页；

分析所述至少一个网页的文本数据的分类结果，确定至少一个网页对应的待分析事件的舆情事件的类别，所述分类结果按照如上所述文本数据分类方法获得。

又一方面，本申请还提供了一种训练样本生成装置，包括：

聚类模块，用于获取预先提取的文本数据，对所述文本数据进行聚类处理，得到多个聚类结果；

聚类结果选择模块，用于从所述多个聚类结果中，选取与目标类别对应的聚类结果；

文本数据选取模块，用于从所述与目标类别对应的聚类结果中，选取符合所述目标类别条件的文本数据；

标注模块，用于标注所述符合目标类别条件的文本数据的目标类别，得到所述目标类别的训练样本。

又一方面，本申请还提供了一种训练样本生成设备，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序及调用其他设备，执行如上所述的训练样本生成方法。

又一方面，本申请还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适用于处理器进行加载，以执行如上所述的训练样本生成方法中的步骤。

又一方面，本申请还提供了一种文本数据分类装置，包括：

获取模块，用于获取待分析网页的文本数据；

分词处理模块，用于对所述文本数据进行分词处理；

分类模块，用于加载分类模型，对分词处理后的文本数据分别进行分类，所述分类模型为，利用如上所述任意一种训练样本生成方法生成的训练样本，进行训练得到的分类模型；

存储模块，用于存储所述待分析网页的文本数据的分类结果。

又一方面，本申请还提供了一种文本数据分类设备，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行如上所述的文本数据分类方法。

又一方面，本申请还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如上所述的文本数据分类方法中的步骤。

又一方面，本申请还提供了一种舆情事件分类装置，包括：

信息接收模块，用于接收用户输入的包含待分析事件的信息；

网页确定模块，用于依据所述信息确定所述待分析事件对应的至少一个网页；

分析模块，用于分析所述至少一个网页的文本数据的分类结果，确定至少一个网页对应的待分析事件的舆情事件的类别，所述分类结果按照如上所述文本数据分类方法获得。

又一方面，本申请还提供了一种舆情事件分类设备，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行如上所述的文本数据分类方法。

又一方面，本申请还提供了一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如上所述的舆情事件分类方法中的步骤。

可见，在本申请实施例中，因为文本数据已经被聚类，当找到一个目标类别对应的聚类结果后，只需要在其对应的聚类结果中去选择符合目标类别条件的文本数据然后进行类别标注，就可以得到这个目标类别的训练样本，而不用再去分析其他聚类中的文本数据是否存在符合目标类别条件的情况。因此，极大的缩小了文本数据的选择范围，提高了标注的效率和样本的准确性，缩短了标注文本数据的时间。

附图说明

图1示出了本申请实施例公开的舆情监控系统的一种架构示意图；

图2示出了本申请实施例公开的训练样本生成方法的一种流程示意图；

图3示出了本申请实施例公开的文本数据进行聚类的一种流程示意图；

图4示出了本申请实施例公开的文本数据分类方法的一种流程示意图；

图5示出了本申请实施例公开的舆情事件分类方法的一种流程示意图；

图6示出了本申请实施例公开的舆情事件分类方法的又一种流程示意图；

图7示出了本申请实施例公开的训练样本生成装置的一种结构示意图；

图8示出了本申请实施例公开的文本数据分类装置的一种结构示意图；

图9示出了本申请实施例公开的舆情事件分类装置的一种结构示意图。

具体实施方式

本申请实施例提供的方法及相关设备应用在网络舆情监控系统中。首先对网络舆情监控系统做一个简单说明。

舆情监控系统通过对热点问题和重点领域比较集中的网站信息，如：网页、论坛、BBS等，进行监控，随时下载最新的消息和意见。对热点问题和重要领域实施监控，前提是必须通过对热点问题的智能分析，首先基于传统基于向量空间的特征分析技术上，对抓取的网页文本内容做分类、聚类和摘要分析，对信息完成初步的再组织。然后在监控知识库的指导下进行基于舆情的语义分析，使管理者看到的民情民意更有效，更符合现实。最后将监控的结果，分别推送到不同的职能部门，供制定对策使用。

图1示出了本申请实施例公开的舆情监控系统的一种架构示意图，包含三个层面：

采集层，包含了要素采集、关键词抽取、全文索引、自动去重和区分存储及数据库，可以采集微博、论坛、博客、贴吧、新闻及评论、搜索引擎、图像和视频等，得到需要分析的网页文本数据。

分析层，可以对采集的网页文本数据实行自动分类、自动摘要、名称识别、正负性质预判和中文分词操作，保证分析过程的全面性。

呈现层，对采集分析的网页文本数据可以通过负面舆情、分类舆情、最新舆情、专题跟踪、舆情简报、分类评、图表统计和短信通知等形式推送给用户。

本申请发明人经研究发现，目前广泛使用的舆情监控过程的一个核心在于对舆情所相关网页的文本数据进行分类，进而实现所对应舆情的分类。而分类过程中分类模型的训练关键在于训练样本，训练样本量越大，样本的准确度越高，训练出的模型的分类准确率会越高。在标注过程中，需要预先人工构建各个类别的舆情的特征，然后利用这些特征标注大量的文本数据。在这个过程中，无论是人工构建特征，还是大量文本数据的标注都是既耗费人力又耗费时间的过程。

本申请发明人发现，可以人为预先为每一个舆情类别配置一些关键词，然后利用关键词去匹配文本数据，在针对某一个类别进行匹配的过程中，可以选取和关键词一致的文本数据，将其标注为该类别。进一步的，为了扩大文本数据的数量，还可以选取和关键词相似的文本数据，将其也标注为该类别，在该方法中可以看出，无需构建人工特征，而是用关键词作为标注的依据，降低了难度，并且，通过这种方式可以快速的找到和关键词一致的数据，进行标注，而借助相似性计算，可以很容易的扩展到更多的数据，进而实现了快速标注文本数据，得到训练样本的目的。

发明人继续研究发现，在上述方案中，仍然需要借助人为配置关键词，而关键词的多少和准确性同样决定了训练样本的准确性，并且，需要构建的样本数量越大，花费的时间就越多，在提升效率和准确性上，仍然有可以进一步提升的空间。

发明人经过深入的分析，决定彻底放弃前面方案中，由人工构建舆情事件的类型特征或者人工配置舆情的关键词，来进行文本数据标注得到训练样本的方式，而改为采用一种借助聚类思想来实现的训练样本生成方法。

该方法的核心在于先对预先提取的文本数据进行聚类处理，得到聚类结果，这样相当于预先把文本数据进行了归类，将相同的或者相近的文本数据聚集在一类，在确定了需要进行分类的舆情的目标类别后，从聚类的结果中去选择这些目标类别对应的聚类结果，然后从聚类结果中去标注符合这些目标类别条件的文本数据，进而得到目标类别的训练样本。

在上述过程中，因为文本数据已经被聚类，每一类中的文本数据都是相似的，而不同的类中的文本数据都存在一定的差异，因此当找到一个类别对应的聚类结果后，可以直接在其这个聚类中去选择符合类别条件的文本数据然后进行类别标注，进而得到每个舆情事件类别对应的训练样本，避免了对相关性较低的文本数据进行分析的操作。因此，极大的缩小了文本数据的选择范围，提高了标注的效率，缩短了标注文本数据的时间。并且，通过聚类算法或者聚类模型来实现文本数据的聚类的工作，无需人工参与，极大缩小了工作量。

并且，在本申请实施例中，聚类的过程是依赖的文本数据之间客观存在的特性对相似的文本进行聚类。与将文本数据与人为设定的关键词或者人工构建的特征进行比对判断相似性的方式相比，避免了人工设定特征或关键词带来的不准确性因素，提升了训练样本的准确性。

因为训练样本会用于对于分类模型的训练，因此训练样本的准确性提升的优点同样会延续到分类模型上，使得分类模型的准确率有较大提升。进而，利用分类模型进行的舆情事件分类的分类结果也会有较高的准确性。

接下来首先介绍训练样本的生成方法。

图2示出了本申请实施例公开的训练样本生成方法的一种流程示意图，包括：

步骤S201、获取预先提取的文本数据，对文本数据进行聚类处理，得到多个聚类结果。

在实际应用中，可以从各大新闻媒体社区论坛的网页爬取文本数据，爬取到的文本数据可以是每个网页的标题文本数据，也可以是全文数据。

发明人研究发现，由于标题文本通常是对网页内容的一个概括，或者，会包含网页中最为关键的信息，这部分数据在涵盖网页内容进而确定舆情事件类型时能够起到更加关键的作用，所以即便只获取标题文本数据最终使得标注的数据量不会非常大，但是其准确性确并不会降低。因此，在本申请中，优先选择标题文本数据。

在一种可能的实现方式中，聚类采用隐含狄利克雷分布(Latent DirichletAllocation，LDA)主题生成模型，该模型是一种非监督机器学习技术。可以用来识别大量文本数据的主题信息。

当然，本申请使用LDA主题生成模型进行聚类的方式只是一个举例，使用任何一种聚类模型或者算法来对文本数据进行聚类的过程，都是本实施例所能涵盖的内容。

步骤S202、从多个聚类结果中，选取与目标类别对应的聚类结果。

在一种可能的实现方式中，该过程包括：选择一个目标类别的参考文本数据，分别从各个聚类结果中选择一个或多个，或者全部文本数据与参考文本数据进行相似度计算，确定这个聚类结果与目标类别的相似度，选择相似度大于或者等于阈值的聚类结果作为这个目标类别对应的聚类结果。然后聚类结果中去选择文本数据进行类别标注。

如果有多个目标类别，则重复执行或者同步执行上述过程，以实现为每一个目标类别都选取到对应的聚类结果。

步骤S203、从所述与目标类别对应的聚类结果中，选取符合目标类别条件的文本数据。

在一种可能的实现方式中，用户可以通过计算目标类别和聚类结果中文本数据的相似度来判断聚类结果中的文本数据是否可以作为训练样本。在一种可能的实现方式中，用户可以为每一个目标类别先选取一些具有代表性的文本数据，作为参考文本数据，然后通过计算参考文本数据和聚类结果中数据的相似度，找到相似度不低于预定值的文本数据，作为符合条件的文本数据。

在一种可能的实现方式中，符合目标类别条件的数据包括：与目标类别对应的聚类结果中与目标类别的参考文本数据属于同一聚类的文本数据。

在一种可能的实现方式中，符合目标类别条件的数据还包括：与目标类别对应的聚类结果中与所述目标类别的参考文本数据的相似度不低于预定值的文本数据。这些数据是与参考文本相似度较高的数据，例如预定值为90％，而计算得到的相似度大于90％则可以看做是符合目标类别条件的数据。

步骤S204、标注所述符合目标类别条件的文本数据的类别，标注目标类别后的文本数据为所述目标类别的训练样本。

在该步骤中，分别为每一个目标类别都标注了文本数据，得到了训练样本。

在上述实施方式中，因为文本数据已经被聚类，当找到一个目标类别对应的聚类结果后，只需要在其对应的聚类结果中去选择符合目标类别条件的文本数据然后进行类别标注，就可以得到这个目标类别的训练样本，而不用再去分析其他聚类中的文本数据是否存在符合目标类别条件的情况。因此，极大的缩小了文本数据的选择范围，提高了标注的效率和样本的准确性，缩短了标注文本数据的时间。

举一个例子对方案进行说明，假设用户需要对“政策”、“政治”、“军事”、“事故灾害”、“社会热点”等类型舆情事件进行监控，则需要对得到的网页文本数据利用舆情事件分类模型进行分类处理，得到网页的分类结果，进而确定网页对应的舆情事件的类别。在对爬取到的网页内容进行舆情事件分类来说，训练样本的生成和模型的训练过程是基础。而在本申请中，训练样本的生成过程中，需要根据用户的需求，设定目标类别，假设目标类别为“政府”、“社会热点”、“政治军事”、“事故灾害”、“事件案件”这几点。在对文本数据进行聚类后，得到的聚类结果有多个，其中包括“政府类”、“政治类”、“体育类”、“娱乐类”、“社会事件类”、“军事类”。

当目标类别是“政策”时，则在选取“政策”这一类别对应的聚类结果时，会选取与其相近的聚类结果，也就是与“政策”类别的参考文本的相似度较高的文本数据对应的聚类结果，比如“政治类”。然后从“政治类”包含的文本数据中去选取符合“政策”这一目标类别条件的文本数据，然后进行标注，得到“政策”这类事件类别的训练样本。

如果与“政策”类别的参考文本的相似度较高的文本数据对应的聚类结果有多个，则可以选择相似度最高的一个，或者几个，然后去选择文本数据进行类别标注。比如说，“政策”类别与“政府类”、“政治类”、“体育类”、“娱乐类”、“社会事件类”、“军事类”的相似度分别为：98％、96％，20％，10％，50％，65％，如果设定一个参考阈值为90％，则可以得到“政府类”和“政治类”两个聚类结果大于阈值。那么此时可以选择相似度较高的“政府类”作为“政策”类别的对应聚类结果，也可以选择这两个聚类结果同时作为政策类别的对应聚类结果。

因此可以看出，目标类别对应的聚类结果并不局限在某一个，而是可以对应到相似的多个聚类结果。

在一种可能的实现方式中，如果得到多个相似度超过参考阈值的聚类结果，则将其都作为目标类别对应的聚类结果。这样能够在一定程度上扩充目标类别对应的训练样本的数量和范围，能在一定程度上提升最终分类结果的准确性。

图3示出了本申请实施例公开的文本数据进行聚类的一种流程示意图，包括：

步骤S301、对预先提取的文本数据进行清洗处理，得到待聚类数据。

在本实现方式中，预先提取的文本数据为40万条，对这批文本数据进行数据清洗处理，首先去除了文本长度较短的数据，以剔除那些空值或信息含量太少的数据。然后去除标点符号数字英文等无意义的字符，仅保留中文字符，接着使用分词模型来进行中文自动分词，将语句分成多个词组组成的数据，最后再去除掉“的”、“啊”等无显著意义的停用词，剩下的数据作为待聚类数据，在该过程中，分词模型可以选择jieba结巴中文分词模型，当然也可以选择汉语分词系统THULAC(THU Lexical Analyzer for Chinese)、NLPIR(NLP-ICTCLAS)，或其他汉语分词系统。

步骤S302、调用LDA主题模型对待聚类数据进行聚类，得到多个聚类结果。

LDA主题模型通常把一个网页的文本看作是一组词的集合，词与词之间没有先后顺序，而且一个网页的文本数据可以包含多个主题，文档中每个词都是由某个主题生成。因此在一些现有的舆情事件分类方法中，LDA模型通常用作事件分类，也就是说，利用LDA模型对待分析网页文本数据进行聚类，然后判断聚类后数据对应的主题，进而得到主题对应的舆情事件的类别。

而发明人经过研究发现，聚类到同一个主题的数据，是相同或者相似的，而这一特征就相当于从海量数据中把相同或者相似的数据进行了划分，而这一划分可以使得在标注数据时，能够快速准确的确定与目标类别的参考数据相似的一组数据，进而只要从这一组数据中找到符合目标类别条件的数据进行标注即可。也就是说，如果预先提取到的文本数据有40万条，按照现有的标注过程，要遍历40万条数据才能完成标注的工作，而在本申请中，假设通过聚类的操作，将40万条数据划分为五个聚类结果分别对应“政府”、“政治”、“军事”、“事故灾害”和“社会热点”，每个聚类结果中的数据量分别为8万、6万、5万、12万、9万，那么在进行标注时，只要能够确定与目标类别相似的一组数据，那么就只需要遍历该组数据即可。假设目标类别为事故灾害，则只需遍历12万条数据。当然，如果某些聚类结果间的相似度也较高，而目标类别可能同时涵盖多个聚类结果，例如，如果目标类别为“政府政策”，则其对应的聚类结果可以是“政府”、“政治”，即便如此，其遍历的数据量也仅为14万，与全部的文本数据量相比有大幅下降。

本申请的有益效果还体现在，将对聚类后的数据量为14万的文本数据进行标注，与没有进行聚类的数据量也为14万文本数据进行标注的情况进行比较，因为同一聚类结果中的相似度较高，其标注的有效性和效率均有明显的优势。

在本申请实施例中，聚类的过程是依赖的文本数据之间客观存在的特性对相似的文本进行聚类。与将文本数据与人为设定的关键词或者人工构建的特征进行比对判断相似性的方式相比，避免了人工设定特征或关键词带来的不准确性，提升了训练样本的准确度。

在按照上述实现方式得到目标类别的训练样本后，接下来就要用训练样本对分类模型进行训练。

在一种可能的实现方式中，利用CNN卷积神经网络深度学习模型在面向对象的解释型计算机程序设计语言python下进行模型训练，从所有目标类别对应的训练样本中选取60％的数据为训练集，20％的数据作为验证集，20％的数据作为测试集，经过反复调参，多次迭代，直到分类模型的准确率达到设定值。至此分类模型训练部分结束，将所训练分类模型保存。

在该实现方式中得到的分类模型因为训练样本的更加准确，因此分类模型的准确度也有较大提升，其准确率可以达到95％左右。

上述实施方式中所列举的参数只是一种举例，用户可以根据实际的应用需求来进行设定，例如选择训练样本中80％的数据作为训练集，10％的数据作为验证集，10％的数据作为测试集等形式，在此不做限定。

本实施例中公开的分类模型训练方法中，具体的训练过程可以参考现有的模型训练过程，只是在进行训练时，训练样本是按照本申请公开的训练样本生成方法而得到的。

在实际的应用场景中，用户会根据不同需求来选择需要进行监控的舆情事件类型，也就是说，会根据不同的需求来训练不同的模型。假设目前用户关注的是“政策”、“政治”、“军事”、“事故灾害”、“社会热点”这五个类型，当需要增加新的类型时，比如，“体育”和“娱乐”，重新训练模型，实现模型的扩展。也就是说，需要重新生成训练样本，而此时，仍然按照本申请公开的训练样本生成方法生成各个类型对应的训练样本，同样能够缩短对模型进行扩展或修改的时间，提高了效率。

在分类模型训练结束后，接下来就是利用分类模型进行分类的过程。结合前面的训练过程，本申请实施例中使用面向对象的解释型计算机程序设计语言python搭建了用于分类的分类服务器，结合图1所示架构图，该分类服务器运行在分析层。当然，同样可以利用C++来搭建分类服务器。

分类模型是运行在该分类服务器中的一段代码或者一个程序。在一种可能的实现方式中，从分类服务器的角度，图4示出了本申请实施例公开的文本数据分类方法的一种流程示意图，包括：

步骤S401、获取待分析网页的文本数据。

舆情监控系统的采集层实时随机采集网页的文本数据。

步骤S402、对文本数据进行分词处理。

步骤S403、加载分类模型，对分词处理后的文本数据进行分类。

本实施例中的分类模型在训练过程中所使用的训练样本，是本申请公开的训练样本生成方法得到的。

步骤S404、存储待分析网页的文本数据的分类结果。

按照上述步骤S401-S404，分类服务器对网页文本数据的内容进行分类，并存储分类结果。本实例中的分类结果可以是分类模型能够分出的各个类别的值，例如，“政府”0.8、“政治”0.1、“军事”0.05、“事故灾害”0.02和“社会热点”0.03。再或者，预先设定输出的规则为，选择类别值最高的进行输出，也就是，最终输出的是“政府”或者“政府0.8”。

因为本实施例中的分类模型具有较高的准确率，因此网页文本数据的分类结果也具有较高的准确性。

网页文本数据的分类结果是得到舆情事件类别的关键，在对网页文本数据进行分类后，接下来就是如何实现对舆情事件的分类。

在一种可能的实现方式中，分类服务器按照预定的规则，例如每隔预设时间，获取这段时间内得到的所有网页文本数据的分类结果，分析这些分类结果，得到该段时间内的舆情事件类别，例如预设时间为24小时，那么就意味着，舆情监控系统每隔24小时对网络上存在的网页文本数据进行分析，得到在这24小时中被广泛传播的内容是哪一类型的舆情事件，或者，是哪些类型的舆情事件。当然，本实施例中预定的规则也可以是采集的网页的数量达到预定值，比如1万条，也就是每采集一万条就判断一下这些网页数据所代表的舆情事件的类别。在该实施方式中，分类服务器按照预定规则进行舆情事件分类的过程主要应用在对某段时间内的舆情事件进行监控的场景。比如，判断在过去的一天内哪些事件在网络上被广泛传播，这些事件是哪种舆情事件，进一步的再去判断这些事件的发展趋势或者情绪等，进而判断是否需要采用相应的处理措施。

但是，当用户需要有目的得到某些事件对应的舆情事件类别时，上述事件分类过程不能及时的有针对性的得到用户确定的事件的舆情事件类型。图5示出了本申请实施例公开的舆情事件分类方法的一种流程示意图，包括：

步骤S501、舆情监控系统接收用户输入的包含待分析事件的信息。

步骤S502、依据信息确定待分析事件对应的至少一个网页。

步骤S503、分析至少一个网页的文本数据的分类结果，确定至少一个网页对应的待分析事件的舆情事件的类别。

本实施例中的分类结果为如图4所示实施例中公开的文本数据分类方法中得到的结果。

在这种实现方式中，用户向舆情监控系统输入包含待分析事件信息，例如对这个事件的描述，“南京轻轨女子咬人事件”，或者，代表这个事件的关键词“南京”“轻轨”“咬人”等。在步骤S501中，舆情监控系统接收这些信息。

在步骤S502中，利用这些信息确定这个事件对应的网页。对应待分析事件的网页可以为包含待分析事件特征的网页，或者包含这个事件的关键词的网页。

在该实施方式中，用户向舆情监控系统输入包含待分析事件的特征的信息的过程可以有多种实现形式。用户可以在舆情监控系统的客户端界面上手动输入文字信息，或者上传语音、图片或视频。如果用户输入的是语音、图片或视频，则舆情监控系统在接收到这些信息后，可以通过语音识别，文字识别的方式从中提取出文字信息，再去查找对应这些文字信息的网页。或者，直接去查找包含有这些语音、图片或视频的网页作为待分析事件对应的网页。

上述实现方式中得到的待分析事件对应的网页可以是舆情监控系统已经进行分析过的网页，直接得到这些网页的分类结果，也可以是，在接收到用户输入的包含待分析事件的特征的信息后，从网络上直接获取的预定时间内的，或者是预定条数的，包含待分析事件特征的网页，或者包含这个事件的关键词的网页，将这些网页按照图4所述流程进行分类。再或者，是同时包含舆情监控系统预先进行分析过的网页，和从网络上直接获取的网页。在获得这些网页的文本数据的分类结果后，分析至少一个网页的文本数据的分类结果，确定待分析事件的舆情类别。

在一种可能的实现方式中，步骤S503中分析至少一个网页的文本数据的分类结果，确定所述待分析事件的舆情类别的过程包括：

统计各个网页对应的分类结果，确定包含最多网页的分类结果为所述舆情事件的分类结果。

假设“南京地铁女子咬人事件”对应的网页为10万个，则这10万个网页的分类结果中有9.9万个类别为“社会热点”，0.1万个为其他类型，则可以确定该事件的舆情事件类别为“社会热点”。

在本申请公开的另一种可能的实现方式中，分析至少一个网页的文本数据的分类结果，确定所述待分析事件的舆情类别的过程包括：

统计各个网页对应的分类结果，按照预定的分类结果的权重值计算各个分类结果的加权值，确定加权值最高的分类结果为所述舆情事件的分类结果。

本申请实施例公开的舆情事件分类方法，因为依据的是图4所示流程得到的网页分类结果，因此其同样有较高的分类准确性。

上述实施例中公开的训练样本生成方法、文本数据的分类方法以及舆情事件分类方法虽然是分别介绍的，但是相互之间存在的比较紧密的联系，图6示出了本申请实施例公开的舆情事件分类方法的又一种流程示意图，接下来以图6中所示实施例来对方案实现舆情事件分类的流程进行说明。

第一阶段，从舆情监控系统中的数据库中获得文本数据，作为预先提取的文本数据，对数据进行清洗、分析和去除停用词的处理后，得到待聚类数据，对待聚类数据进行LDA主题聚类，得到聚类结果，然后根据预先设定的目标类别，分别计算和聚类结果中数据的相似度，找到各个目标类别对应的文本数据，然后标注数据，得到训练样本。

第二阶段，训练样本被用于模型训练，在分类模型被训练成功后，将分类模型进行存储。

第三阶段，获取舆情系统中实时采集的文本数据，加载分类模型进行分类，然后将分类结果再存储到数据库中。

第四阶段，在需要进行舆情事件分类时，可以从数据库中获得待分析时间对应的网页文本数据的分类结果，进行分析后得到舆情事件分类结果。在本阶段，可以是按照预定的规则对实时得到的数据进行分类，也可以是对认为设定的需要分类的事件进行分类。

在上述过程中的四个阶段可以是同一个设备在不同的时间或者条件下来完成的，可以是由不同的设备来分别完成的。这些设备可以是设置在舆情监控系统中，作为其分析层的一部分存在，也可以是与舆情监控系统有通信连接的，独立于该系统的一个设备，利用舆情监控系统提供的文本数据进行分类，为舆情监控系统提供分类结果。

因为各个阶段间的紧密联系，所以该方案中各个阶段的结果的准确性都有了较大提升。

另一方面，本申请还提供了一种训练样本生成装置，如，参见图7，其示出了本申请一种训练样本生成装置一个实施例的组成结构示意图，本该装置可以包括：

聚类模块701，用于获取预先提取的文本数据，对文本数据进行聚类处理，得到多个聚类结果；

聚类结果选择模块702，用于从所述多个聚类结果中，选取与目标类别对应的聚类结果；

文本数据选取模块703，用于从所述与目标类别对应的聚类结果中，选取符合所述目标类别条件的文本数据；

标注模块704，用于标注所述符合目标类别条件的文本数据的目标类别，得到所述目标类别的训练样本。

因为文本数据已经被聚类，当找到一个目标类别对应的聚类结果后，只需要在其对应的聚类结果中去选择符合目标类别条件的文本数据然后进行类别标注，就可以得到这个目标类别的训练样本，而不用再去分析其他聚类中的文本数据是否存在符合目标类别条件的情况。因此，利用该训练样本生成装置生成训练样本，能够极大的缩小文本数据的选择范围，提高标注的效率和样本的准确性，缩短标注文本数据的时间。

其中，符合目标类别条件的文本数据包括：与目标类别对应的聚类结果中与目标类别的参考文本数据属于同一聚类的文本数据；和/或，与目标类别对应的聚类结果中与目标类别的参考文本数据的相似度不低于预定值的文本数据。

其中，预先提取的文本数据为网页的主题文本数据，也可以为网页的全部文本数据。

可选的，聚类结果选择模块702包括：

清洗单元，用于对预先提取的文本数据进行清洗处理，得到待聚类数据；

聚类单元，用于调用隐含狄利克雷分布LDA主题模型对待聚类数据进行聚类，得到多个聚类结果。

另一方面，本申请还提供种一种训练样本生成设备，至少包括处理器和存储器；处理器通过执行所述存储器中存放的程序及调用其他设备，执行如上述实施例中所示的任意一种训练样本生成方法。

另一方面，本申请还提供了一种存储介质，该存储介质存储有多条指令，所述指令适用于处理器进行加载，以执行如上实施例中的训练样本生成方法中的步骤。

另一方面，本申请还提供了一种文本数据分类装置。如，参见图8，其示出了本申请一种文本数据分类装置一个实施例的组成结构示意图，本实施例的装置可以应用于前面所述的计算机设备，该装置可以包括：

获取模块801，用于获取待分析网页的文本数据；

分词处理模块802，用于对文本数据进行分词处理；

分类模块803，用于加载分类模型，对分词处理后的文本数据分别进行分类，分类模型为，利用如上实施例中的提供的训练样本进行训练得到的分类模型；

存储模块804，用于存储待分析网页的文本数据的分类结果。

另一方面，本申请还提供了一种文本数据分类设备，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行如上实施例中所述的文本数据分类方法。

另一方面，本申请还提供了一种存储介质，存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如上实施例中所述的文本数据分类方法的步骤。

另一方面，本申请还提供了一种舆情事件分类装置。如，参见图9，其示出了本申请一种文本数据分类装置一个实施例的组成结构示意图，该装置可以包括：

信息接收模块901，用于接收用户输入的包含待分析事件的信息；

网页确定模块902，用于依据信息确定待分析事件对应的至少一个网页；

分析模块903，用于分析至少一个网页的文本数据的分类结果，确定至少一个网页对应的待分析事件的舆情事件的类别，分类结果按照上实施例提供的文本数据分类方法获得。

另一方面，本申请还提供了一种舆情事件分类设备，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行如上实施例提供的文本数据分类方法。

另一方面，本申请还提供了一种存储介质，存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如上实施例提供的舆情事件分类方法中的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而

是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种训练样本生成方法，其特征在于，包括：

从所述多个聚类结果中，选取与目标类别对应的聚类结果；

2.根据权利要求1所述的方法，其特征在于，所述符合目标类别条件的文本数据包括：与目标类别对应的聚类结果中与所述目标类别的参考文本数据属于同一聚类的文本数据；和/或，与目标类别对应的聚类结果中与所述目标类别的参考文本数据的相似度不低于预定值的文本数据。

3.根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行聚类处理，得到多个聚类结果包括：

对所述预先提取的文本数据进行清洗处理，得到待聚类数据；

调用隐含狄利克雷分布LDA主题模型对所述待聚类数据进行聚类，得到多个聚类结果。

4.根据权利要求1-3中任意一项所述的方法，其特征在于，所述预先提取的文本数据为网页的主题文本数据。

5.一种文本数据分类方法，其特征在于，包括：

获取待分析网页的文本数据；

对所述文本数据进行分词处理；

加载分类模型，对分词处理后的文本数据分别进行分类；所述分类模型为，利用如权利要求1-4中任意一种方法生成的训练样本进行训练得到的分类模型；

存储所述待分析网页的文本数据的分类结果。

6.一种舆情事件分类方法，其特征在于，包括：

接收用户输入的包含待分析事件的信息；

依据所述信息确定所述待分析事件对应的至少一个网页；

分析所述至少一个网页的文本数据的分类结果，确定至少一个网页对应的待分析事件的舆情事件的类别，所述分类结果按照如权利要求5中所述文本数据分类方法获得。

7.一种训练样本生成装置，其特征在于，包括：

8.一种训练样本生成设备，其特征在于，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序及调用其他设备，执行如权利要求1-4中任意一项所述的训练样本生成方法。

9.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适用于处理器进行加载，以执行如权利要求1-4中任意一项所述的训练样本生成方法中的步骤。

10.一种文本数据分类装置，其特征在于，包括：

获取模块，用于获取待分析网页的文本数据；

分词处理模块，用于对所述文本数据进行分词处理；

分类模块，用于加载分类模型，对分词处理后的文本数据分别进行分类，所述分类模型为，利用如权利要求1-4中任意一种方法生成的训练样本进行训练得到的分类模型；

11.一种文本数据分类设备，其特征在于，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行如权利要求5所述的文本数据分类方法。

12.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如权利要求5所述的文本数据分类方法中的步骤。

13.一种舆情事件分类装置，其特征在于，包括：

分析模块，用于分析所述至少一个网页的文本数据的分类结果，确定至少一个网页对应的待分析事件的舆情事件的类别，所述分类结果按照如权利要求5中所述文本数据分类方法获得。

14.一种舆情事件分类设备，其特征在于，至少包括处理器和存储器；所述处理器通过执行所述存储器中存放的程序以及调用其他设备，执行如权利要求6所述的文本数据分类方法。

15.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行如权利要求6所述的舆情事件分类方法中的步骤。