CN112417148A

CN112417148A - 一种城市内涝舆情结果获得方法及装置

Info

Publication number: CN112417148A
Application number: CN202011253498.4A
Authority: CN
Inventors: 白洋; 刘雄军; 王奇勋; 张彤; 张依漪; 牛志超
Original assignee: Beijing Jinghang Computing Communication Research Institute
Current assignee: Beijing Jinghang Computing Communication Research Institute
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-02-26

Abstract

本发明涉及一种城市内涝舆情结果获得方法及装置，属于舆情监测技术领域，解决了现有方法获得的城市内涝舆情结果的精度较低的问题。方法包括：获取舆情数据；为舆情数据中的每条文本数据添加标签，并基于添加标签的舆情数据得到样本库；基于样本库对深度神经网络TextRCNN模型进行训练，得到深度神经网络TextRCNN的最优网络结构；将待分类舆情数据输入深度神经网络TextRCNN的最优网络结构，得到待分类舆情数据的分类结果；基于待分类舆情数据的分类结果和待分类舆情数据中的地点和时间信息，生成相关城市的内涝舆情结果。实现了舆情数据的分类和相关城市内涝舆情结果的生成，提高了分类精度。

Description

一种城市内涝舆情结果获得方法及装置

技术领域

本发明涉及舆情监测技术领域，尤其涉及一种城市内涝舆情结果获得方法及装置。

背景技术

一座城市的发展史，也是一部城市地下排水系统发展史。依据水利部数据显示，每逢汛期，我国平均每年有超过180座城市进水受淹或发生内涝。解决内涝灾害，成为一些城市发展的重要课题。目前，我国由国家财政部、住建部、水利部三部委共同选定中国海绵城市试点城市共计30个，加速海绵城市建设。汛期城市发生内涝的次数、程度可作为评判海绵城市建设进程的重要指标。

当前主要舆情数据分类方法可依据算法模型分为三类：基于权重计算、传统特征选择与神经网络方法。其中，基于权重计算、传统特征选择方法可抽取的敏感词、特征较少，分类难度较大，鲁棒性较差，分类精度低。相较于传统方法，基于神经网络的方法引入机器学习算法，自动抽取舆情数据特征，无需人工选取敏感词，且分类精度相较于前两种方法有提高。但是目前选取的网络结构大多是卷积神经网络，上下文关联性较差，面向信息量较为密集的短文本的数据，分类精度有限。

发明内容

鉴于上述的分析，本发明实施例旨在提供一种城市内涝舆情结果获得方法及装置，用以解决现有方法获得的城市内涝舆情结果的精度较低的问题。

一方面，本发明实施例提供了一种城市内涝舆情结果获得方法，包括如下步骤：

获取舆情数据，所述舆情数据包含内涝、积水、暴雨、淹没、低洼、排涝、排水、看海或海绵城市的文本数据及每条文本数据对应的地点、时间信息；

为所述舆情数据中的每条文本数据添加标签，并基于添加标签的舆情数据得到样本库，其中，所述标签包括内涝和非内涝；

基于所述样本库对深度神经网络TextRCNN模型进行训练，得到深度神经网络TextRCNN的最优网络结构；

将待分类舆情数据输入所述深度神经网络TextRCNN的最优网络结构，得到所述待分类舆情数据的分类结果；

基于所述待分类舆情数据的分类结果和所述待分类舆情数据中的地点和时间信息，生成相关城市的内涝舆情结果。

进一步，基于爬虫技术从新闻网站、政府网站或社交网站上爬取获得所述舆情数据。

进一步，基于所述样本库对深度神经网络TextRCNN进行训练，得到深度神经网络TextRCNN的最优网络结构，包括下述步骤：

将所述样本库划分为训练数据集和验证数据集；

将所述训练数据集中的舆情数据转换为词向量，并将所述词向量输入深度神经网络TextRCNN模型，得到深度神经网络TextRCNN；

基于所述验证数据集对深度神经网络TextRCNN进行验证，得到所述深度神经网络TextRCNN的最优网络结构。

进一步，将所述训练数据集中的舆情数据转换为词向量，包括下述步骤：

对所述训练数据集中的舆情数据进行分词预处理；

使用word2vec模型对分词预处理后的舆情数据进行训练，得到词向量。

进一步，基于所述验证数据集对深度神经网络TextRCNN进行验证，得到所述深度神经网络TextRCNN的最优网络结构，包括下述步骤：

将所述验证数据集中的舆情数据转换为词向量；

将所述词向量输入深度神经网络TextRCNN中，获得所述验证数据集对应的损失函数；

基于所述验证数据集对应的损失函数，判断所述深度神经网络TextRCNN是否过拟合，若否，将所述深度神经网络TextRCNN作为深度神经网络TextRCNN的最优网络结构；若是，调整深度神经网络TextRCNN模型的卷积核个数、全连接层神经元个数，并将分类精度最高时的深度神经网络TextRCNN模型作为深度神经网络TextRCNN的最优网络结构。

进一步，所述分类精度基于下述步骤获得：

基于所述验证数据集，获得验证数据集对应的分类结果；

基于所述验证数据集对应的分类结果及其验证数据集的标签，获得分类精度。

进一步，基于所述待分类舆情数据的分类结果和所述待分类舆情数据中的地点和时间信息，生成相关城市的内涝舆情结果，包括下述步骤：

基于所述待分类舆情数据的分类结果，获取相关城市每一内涝数据的时间和地点信息；

基于所述地点信息，合并每一个城市的内涝数据，获得每一城市发生的内涝时间与次数；

获取汛期时间段内每一个城市的内涝次数，并基于所述内涝次数生成相关城市的内涝舆情结果。

另一方面，本发明实施例提供了一种城市内涝舆情结果获得装置，包括：

数据采集模块，用于获取舆情数据，所述舆情数据包含内涝、积水、暴雨、淹没、低洼、排涝、排水、看海或海绵城市的文本数据及每条文本数据对应的地点、时间信息；

样本库获得模块，用于为所述舆情数据添加标签，并基于添加标签的舆情数据得到样本库，其中，所述标签包括内涝和非内涝；

模型训练模块，用于根据所述样本库对深度神经网络TextRCNN模型进行训练，得到深度神经网络TextRCNN的最优网络结构；

分类模块，用于将待分类舆情数据输入所述深度神经网络TextRCNN的最优网络结构，得到所述待分类舆情数据的分类结果；

内涝舆情结果获得模块，用于根据所述待分类舆情数据的分类结果和所述待分类舆情数据中的地点和时间信息，生成相关城市的内涝舆情结果。

进一步，所述数据采集模块基于爬虫技术从新闻网站、政府网站或社交网站上爬取获得舆情数据。

进一步，所述模型训练模块执行下述流程：

将所述样本库划分为训练数据集和验证数据集；

与现有技术相比，本发明至少可实现如下有益效果之一：

1、一种城市内涝舆情结果获得方法及装置，首先通过爬虫技术获取舆情数据，接着对舆情数据添加标签并建立样本库，并利用样本库进行深度神经网络模型的训练以得到深度神经网络模型的最优网络结构，最后将待分类舆情数据输入最优网络结构得到分类结果，并基于该分类结果得到相关城市的内涝舆情结果，简单易行，易于实施，实现了内涝舆情数据的分类，并提高了分类精度，具有较高的实用价值。

2、采用网络爬虫技术基于舆情内涝关键词爬取舆情数据，为后期进行模型训练和验证提供了技术基础和支撑。

3、通过将样本库划分为训练数据集和验证数据集，利用训练数据集对深度神经网络TextRCNN进行训练，以得到训练好的深度神经网络TextRCNN，并利用验证数据集对训练好的深度神经网络TextRCNN验证，得到深度神经网络TextRCNN的最优网络结构，简单易行，易于实施，有利于提高深度神经网络TextRCNN的精度。

4、根据城市名称对待分类舆情数据的分类结果进行统计分析，得到相关城市的内涝舆情结果，为汛期城市的治理提供相应的辅助性评估决策，具有较高的实用性。

本发明中，上述各技术方案之间还可以相互组合，以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述，并且，部分优点可从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1为一个实施例中城市内涝舆情结果获得方法流程图；

图2为另一个实施例中城市内涝舆情结果获得装置结构图；

附图标记：

100-数据采集模块，200-样本库获得模块，300-模型训练模块，400-分类模块，500-内涝舆情结果获得模块。

具体实施方式

下面结合附图来具体描述本发明的优选实施例，其中，附图构成本申请一部分，并与本发明的实施例一起用于阐释本发明的原理，并非用于限定本发明的范围。

当前主要舆情数据分类方法可依据算法模型分为三类：基于权重计算、传统特征选择与神经网络方法。其中，基于权重计算、传统特征选择方法可抽取的敏感词、特征较少，分类难度较大，鲁棒性较差，分类精度低。相较于传统方法，基于神经网络的方法引入机器学习算法，自动抽取舆情数据特征，无需人工选取敏感词，且分类精度相较于前两种方法有提高。但是目前选取的网络结构大多是卷积神经网络，上下文关联性较差，面向信息量较为密集的短文本的数据，分类精度有限，造成现有的方法获得的城市内涝舆情结果的精度较低的问题。为此，本申请提出了一种城市内涝舆情结果获得方法及装置，首先通过爬虫技术获取舆情数据，接着对舆情数据添加标签并建立样本库，并利用样本库进行深度神经网络模型的训练以得到深度神经网络模型的最优网络结构，最后将待分类舆情数据输入最优网络结构得到分类结果，并基于该分类结果得到相关城市的内涝舆情结果，简单易行，易于实施，实现了内涝舆情数据的分类，并提交了分类精度，具有较高的实用价值。

本发明的一个具体实施例，公开了一种城市内涝舆情结果获得方法，如图1所示，包括如下步骤S1～S5。

步骤S1、获取舆情数据，舆情数据包含内涝、积水、暴雨、淹没、低洼、排涝、排水、看海或海绵城市的文本数据及每条文本数据对应的地点、时间信息。具体来说，随着新媒体技术的不断发展，舆情信息已经由媒体定向发布的模式进化为人人参与发布的新媒体时代，分布于社交网站、博客、论坛等平台，有关城市内涝的舆情信息可直接通过社交网络实时收集、统计与分析，用做城市内涝治理的参考指标。舆情数据的标签包括内涝和非内涝，其中，内涝指强降水或连续性降水超过城市排水能力致使城市内产生积水灾害的现象，故标签为内涝时对应的文本数据一定是包含内涝、积水、暴雨、淹没、低洼、排涝、排水、看海或海绵城市这些关键词且与城市内涝情况相关的文本数据。若某些文本数据只是出现了内涝、积水、暴雨、淹没、低洼、排涝、排水、看海或海绵城市这些关键词中某一个，但内容与城市内涝情况无关，故该类文本数据对应的标签为其他，并不属于内涝数据。因此，本申请设定内涝、积水、暴雨、淹没、低洼、排涝、排水、看海或海绵城市为关键词，从新闻网站、政府网站或社交网站上采用爬虫技术爬取包含内涝、积水、暴雨、淹没、低洼、排涝、排水、看海或海绵城市等关键字的文本数据，爬取的文本数据中还包括每条文本数据对应的地点、时间信息共同作为舆情数据。采用网络爬虫技术基于关键词爬取舆情数据，为后期进行模型训练和验证提供了技术基础和支撑。

步骤S2、为舆情数据中的每条文本数据添加标签，并基于添加标签的舆情数据得到样本库。具体来说，标签包括内涝和非内涝，标签为内涝指整条文本数据为关于城市内涝的数据，非内涝指整条文本数据不是关于内涝的数据，只是在文本中提到了内涝、积水、暴雨、淹没、低洼、排涝、排水、看海或海绵城市等关键词，但文本的内容与城市内涝没有关系。

步骤S3、基于样本库对深度神经网络TextRCNN模型进行训练，得到深度神经网络TextRCNN的最优网络结构。具体来说，本申请中的深度神经网络TextRCNN模型基于步骤S2得到的样本库对该模型进行训练，以得到深度神经网络TextRCNN的最优网络结构。

优选地，基于样本库对深度神经网络TextRCNN进行训练，得到深度神经网络TextRCNN的最优网络结构，包括下述步骤：

步骤S301、将样本库划分为训练数据集和验证数据集。具体来说，构建得到样本库后，可将样本库划分为训练数据集和验证数据集，其中，训练数据集占样本库的80％，用于对深度神经网络TextRCNN模型进行训练；验证数据集占样本库的20％，用于对深度神经网络TextRCNN模型进行验证，以得到深度神经网络TextRCNN的最优网络结构。训练集和样本集中均需包括内涝和非内涝标签的样本数据。

步骤S302、将训练数据集中的舆情数据转换为词向量，并将词向量输入深度神经网络TextRCNN模型，得到深度神经网络TextRCNN。具体来说，对于深度神经网络TextRCNN模型，可先设定模型的初始卷积核个数、全连接层的神经元个数、迭代次数和学习率。得到训练数据集后，可先将训练数据集中的舆情数据转换为词向量，接着将词向量输入深度神经网络TextRCNN模型进行训练，由模型对训练样本集中的城市内涝舆情词向量进行学习和训练，得到深度神经网络TextRCNN。

优选地，将训练数据集中的舆情数据转换为词向量，包括下述步骤：

对训练数据集中的舆情数据进行分词预处理。具体来说，由于深度神经网络TextRCNN模型的输入形式为词向量形式，因此对模型进行训练之前，需要先将训练数据集中的舆情数据转换为词向量。详细地，训练数据集中的舆情数据进行分词预处理主要是基于分词词库进行，但是关于城市内涝舆情数据的训练数据还包含部分网络用语，对该类网络用语需进行单独处理，在分词词库中增加该类网络用语构成的词典，例如“城市看海”，将其分成“城市”和“看海”两个词语。

使用word2vec模型对分词预处理后的舆情数据进行训练，得到词向量。具体来说，分词预处理后的舆情数据进行训练的过程就是希望能够找出词与词之间的联系，因此词向量的维度确认非常重要，维度过高会破坏词与词之间的联系，维度过低又无法区分不同的词。word2vec模型是常用的生成词向量的模型，能够将每个词映射到一个向量，word2vec模型中设有关于维度参数的设置，并能够为分词提供默认维度，同时也可将维度当成一个超参数去调整优化，以得到最优的维度，当维度最优时，基于该word2vec模型得到的词向量能够充分反映词与词之间的联系。本申请中将预处理后的分词输入word2vec模型，即可得到城市内涝舆情词向量。

步骤S303、基于验证数据集对深度神经网络TextRCNN进行验证，得到深度神经网络TextRCNN的最优网络结构，包括下述步骤：

将验证数据集中的舆情数据转换为词向量。验证数据集中的舆情数据转换为词向量的过程与上述训练数据集中的舆情数据转换为词向量的过程相同。

将词向量输入深度神经网络TextRCNN中，获得验证数据集对应的损失函数。基于验证数据集中的舆情数据得到词向量后，输入深度神经网络TextRCNN中，可根据交叉熵损失函数分别得到验证数据集及训练数据集对应的损失函数。

基于验证数据集对应的损失函数，判断深度神经网络TextRCNN是否过拟合，若否，将深度神经网络TextRCNN作为深度神经网络TextRCNN的最优网络结构；若是，调整深度神经网络TextRCNN模型的卷积核个数、全连接层神经元个数，并将分类精度最高时的深度神经网络TextRCNN模型作为深度神经网络TextRCNN的最优网络结构。具体来说，若训练数据集对应的损失函数不断下降，验证数据集对应的损失函数趋于不变，则深度神经网络TextRCNN过拟合。过拟合时，调整深度神经网络TextRCNN模型的卷积核个数、全连接层神经元个数，不断调整学习率和迭代次数，观察分类精度，并将分类精度最高时的深度神经网络TextRCNN模型作为深度神经网络TextRCNN的最优网络结构。其中，分类精度可根据验证数据集得到对应的分类结果与标签进行比较可得到分类精度。

通过将样本库划分为训练数据集和验证数据集，利用训练数据集对深度神经网络TextRCNN进行训练，以得到训练好的深度神经网络TextRCNN，并利用验证数据集对训练好的深度神经网络TextRCNN验证，得到深度神经网络TextRCNN的最优网络结构，简单易行，易于实施，有利于提高深度神经网络TextRCNN的精度。

步骤S4、将待分类舆情数据输入深度神经网络TextRCNN的最优网络结构，得到待分类舆情数据的分类结果。待分类舆情数据也可以基于通过爬虫技术从新闻网站、政府网站或社交网站上爬取得到，其次，待分类舆情数据需先转换为词向量再输入深度神经网络TextRCNN的最优网络结构，直接得到分类结果。

步骤S5、基于待分类舆情数据的分类结果和待分类舆情数据中的地点和时间信息，生成相关城市的内涝舆情结果，包括下述步骤：

基于待分类舆情数据的分类结果，获取相关城市每一内涝数据的时间和地点信息；

基于地点信息，合并每一个城市的内涝数据，获得每一城市发生的内涝时间与次数；

获取汛期时间段内每一个城市的内涝次数，并基于内涝次数生成相关城市的内涝舆情结果。

具体来说，本申请除了得到待分类舆情数据的分类结果外，还可以根据城市名称对分类结果进行统计分析，得到相关城市的内涝舆情结果，相关部门可根据内涝舆情结果为汛期城市的治理提供相应的辅助性评估决策，具有较高的实用性。

与现有技术相比，本实施例提供的一种城市内涝舆情结果获得方法，首先通过爬虫技术获取舆情数据，接着对舆情数据添加标签并建立样本库，并利用样本库进行深度神经网络模型的训练以得到深度神经网络模型的最优网络结构，最后将待分类舆情数据输入最优网络结构得到分类结果，并基于该分类结果得到相关城市的内涝舆情结果，简单易行，易于实施，实现了内涝舆情数据的分类，并提高了分类精度，具有较高的实用价值。

本发明的另一个具体实施例，公开了一种城市内涝舆情结果获得装置，如图2所示。包括：数据采集模块100，用于获取舆情数据，舆情数据包含内涝、积水、暴雨、淹没、低洼、排涝、排水、看海或海绵城市的文本数据及每条文本数据对应的地点、时间信息；样本库获得模块200，用于为舆情数据添加标签，并基于添加标签的舆情数据得到样本库，其中，标签包括内涝和非内涝；模型训练模块300，用于根据样本库对深度神经网络TextRCNN模型进行训练，得到深度神经网络TextRCNN的最优网络结构；分类模块400，用于将待分类舆情数据输入深度神经网络TextRCNN的最优网络结构，得到待分类舆情数据的分类结果；内涝舆情结果获得模块500，用于根据待分类舆情数据的分类结果和待分类舆情数据中的地点和时间信息，生成相关城市的内涝舆情结果。

由于城市内涝舆情结果获得装置的实现方法与前述城市内涝舆情结果获得方法的实现原理相似，故这里不再赘述。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。

Claims

1.一种城市内涝舆情结果获得方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的城市内涝舆情结果获得方法，其特征在于，基于爬虫技术从新闻网站、政府网站或社交网站上爬取获得所述舆情数据。

3.根据权利要求1或2所述的城市内涝舆情结果获得方法，其特征在于，基于所述样本库对深度神经网络TextRCNN进行训练，得到深度神经网络TextRCNN的最优网络结构，包括下述步骤：

将所述样本库划分为训练数据集和验证数据集；

4.根据权利要求3所述的城市内涝舆情结果获得方法，其特征在于，将所述训练数据集中的舆情数据转换为词向量，包括下述步骤：

对所述训练数据集中的舆情数据进行分词预处理；

5.根据权利要求4所述的城市内涝舆情结果获得方法，其特征在于，基于所述验证数据集对深度神经网络TextRCNN进行验证，得到所述深度神经网络TextRCNN的最优网络结构，包括下述步骤：

将所述验证数据集中的舆情数据转换为词向量；

6.根据权利要求5所述的城市内涝舆情结果获得方法，其特征在于，所述分类精度基于下述步骤获得：

基于所述验证数据集，获得验证数据集对应的分类结果；

7.根据权利要求1所述的城市内涝舆情结果获得方法，其特征在于，基于所述待分类舆情数据的分类结果和所述待分类舆情数据中的地点和时间信息，生成相关城市的内涝舆情结果，包括下述步骤：

8.一种城市内涝舆情结果获得装置，其特征在于，包括：

9.根据权利要求8所述的城市内涝舆情结果获得装置，其特征在于，所述数据采集模块基于爬虫技术从新闻网站、政府网站或社交网站上爬取获得舆情数据。

10.根据权利要求9所述的城市内涝舆情结果获得装置，其特征在于，所述模型训练模块执行下述流程：

将所述样本库划分为训练数据集和验证数据集；