CN113761200A

CN113761200A - 一种基于文本分析算法的高校舆情数据分析系统构建方法

Info

Publication number: CN113761200A
Application number: CN202110953459.3A
Authority: CN
Inventors: 朱全银; 吴斌; 马甲林; 王媛媛; 李翔; 周泓
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2021-08-19
Filing date: 2021-08-19
Publication date: 2021-12-07

Abstract

本发明公开了一种基于文本分析算法的高校舆情数据分析系统构建方法，使用爬虫技术采集学校相关的文本信息与属性的语料，对文本信息数据集进行数据清洗，得到文本信息数据集HyitData；利用数据集HyitData训练基于时间聚类的模型，得到时间关系数据集HyitRelationData；根据数据集HyitRelationData的上下文语义进行权重处理，得到语义权重数据集HyitWeightData；利用数据集HyitWeightData训练基于TextCNN文本关系分类分析的模型，得到文本信息关系数据集HyitRelationModelData；根据文本信息关系数据集HyitRelationModelData和用户输入的文本信息挖掘出数据关系Relations；本发明方法相比传统数据分析能更有效的进行数据分析并给出结果，实现舆情控制。

Description

一种基于文本分析算法的高校舆情数据分析系统构建方法

技术领域

本发明属于数据分析技术领域，特别涉及一种基于文本分析算法的高校舆情数据分析系统构建方法。

背景技术

大数据分析是指对规模巨大的数据进行分析处理。大数据分析中的数据主要是动态数据、增量数据、存量数据等。大数据分析对于数据类型的要求较低，概念范围较窄，但是数据需要满足特定数据分析的条件或标准。大数据分析首先将数据从源系统中进行提取处理，再将数据经过标准化处理，将数据发往相应的数据仓储进行深层次的分析操作。大数据分析随着数据量的增加，对需要使用的算法要求在降低。在大数据分析中采用深度神经网络模型等算法可以取得更好的分析效果。

智慧校园是将校园信息进行数字化，并建设一种将物联网技术、云计算技术、大数据分析技术、数据可视化技术等计算机科学技术进行有效融合的新型计算机网络系统环境。综合性的校园环境基于各种应用程序服务系统，将教育、科学研究与校园生活服务等集成在一起，提高了高校工作人员工作管理效率。基于大数据分析的可视化系统实现智慧校园中日常生活和学习全方位的信息化，用户可以通过使用移动电话和计算机等各种现代化的工具，并且结合智慧校园网络，开展学习、教育、科研、管理、生活、服务等各类活动，达到丰富校园生活的效果，提高课程质量、教育、学习和管理等多方面的工作效率。

目前，针对高校舆情的监控主要是通过人工干预的方式对媒体、网站等进行监测并进行问题事件处理，但是并没有专门对高校网络舆情进行全面监测的系统方法，同时人工监测还存在监测面狭窄，发现问题的时间周期长的问题，因此在对高校舆情问题进行处理时，是在事件发生后，已经开始形成小范围影响甚至已经产生不良影响时才能被工作人员觉察到，并且人工判断时存在人为主观情感，这时的高校舆情管控需要花费很大的成本，对舆情实现管控，由于舆论没有及时得到处理，导致引发恶性舆论，从而对高校产生负面影响。

发明内容

发明目的：为解决人工监测高校舆情的监测面窄、发现问题的时间周期长、人工判断舆情存在主观性的问题，本发明提出了一种基于文本分析算法的高校舆情数据分析系统构建方法，通过使用时间聚类对文本数据信息进行聚类分析，使用TextCNN文本关系分类分析算法实现文本关系分析，建立数据之间的关系，构建大数据分析和数据可视化系统，并应用于智慧校园。

技术方案：一种基于文本分析算法的高校舆情数据分析系统构建方法，包括以下步骤：

步骤1：通过爬虫技术，获取与高校相关的文本信息，对获取到的文本信息进行数据清洗，得到文本信息模型数据集HyitData；

步骤2：选取用户身份特征作为标签，采用K-means算法对文本信息模型数据集HyitData进行聚类，得到数据集K-HyitData；基于高校新闻特征信息关系词汇表CoInfoRelTab，对数据集K-HyitData中的文本信息按照高校新闻特征信息关系词汇表CoInfoRelTab进行特征分类，得到包含高校特征相关信息的分类数据集Class_Cludata，采用时间序列聚类算法对分类数据集Class_Cludata依时间点进行聚类，得到时间关系数据集HyitRelationData；

步骤3：对时间关系数据集HyitRelationData中的数据进行上下文语义分析，生成文本分词，并统计文本分词的词频，基于文本分词的词频，对时间关系数据集HyitRelationData中的数据进行权重调整，得到语义权重数据集HyitWeightData；

步骤4：基于时间关系数据集HyitRelationData中的数据，创建训练集、验证集和测试集，采用训练集对TextCNN模型进行训练，并采用测试集和验证集对TextCNN模型进行优化，得到优化后的TextCNN模型，将语义权重数据集HyitWeightData输入至优化后的TextCNN模型得到文本信息关系数据集HyitRelationModelData；

步骤5：基于文本信息关系数据集HyitRelationModelData，构建文本信息关系数据库，供用户进行数据关系查询。

进一步的，所述步骤1包括以下子步骤：

利用从Scrapy爬虫框架和Requests技术，从结构化网页中获取与高校相关的文本数据信息，以此构建结构化数据Jiegou_Data＝{content1，content2，...，contentn}，n∈[1，Jiegou_DataNum]，其中，Jiegou_DataNum为结构化数据的个数；contentn为结构化数据Jiegou_Data中第n条高校新闻舆情信息；

构建停用词汇表UselessVoc_List和无效字符串表InvalId_Character_List；根据停用词汇表UselessVoc_List和无效字符串表InvalId_Character_List，对结构化数据Jiegou_Data进行无效词汇、敏感词汇、无效字符串的过滤，得到结构化数据集Jiegou_Data_Set；

定义计数器count1，令count1＝1；

判断是否满足count1≤Jiegou_DataNum，若满足则遍历结构化数据集Jiegou_Data_Set中的文本信息，去除文本信息中的空格符、换行符、表情符号信息，将处理后的文本信息存入文本信息模型数据集HyitData，count1＝count1+1，重新执行本子步骤；否则得到文本信息模型数据集HyitData＝{con_word1，con_word2，...，con_wordn}，其中，变量n∈[1，Jiegou_DataNum2]，Jiegou_DataNum2为文本信息模型数据集HyitData中文本信息总数，con_wordn为文本信息模型数据集HyitData中第n条高校新闻舆情信息。

进一步的，所述步骤2包括以下子步骤：

选取用户身份特征作为标签，采用K-means算法对文本信息模型数据集HyitData中的文本信息进行聚类，得到数据集K-HyitData；

从数据集K-HyitData中建立并初始化p个时间序列微簇，每个微簇包含m个点；创建数组Cludata[n]，n∈[1，m×p]；将每个微簇中的m个点输入到数组Cludata[n]中；

构建高校新闻特征信息关系词汇表CoInfoRelTab，并将数组Cludata[n]中的数据按照高校新闻特征信息关系词汇表CoInfoRelTab进行特征分类，得到包含高校特征相关信息的分类数据集Class_Cludata；

将分类数据集Class_Cludata中的数据依时间点进行聚类，得到时间关系数据集HyitRelationData。

进一步的，所述步骤3具体包括以下子步骤：

子步骤3.1：读取时间关系数据集HyitRelationData中的文本信息；

子步骤3.2：对文本信息进行上下文语义分析，生成文本分词；

子步骤3.3：统计文本词汇的词频，并利用文本词汇的词频计算文本词汇的词频值TF；

子步骤3.4：构建高校舆情目标文本词汇内容；

判断该词频值TF是否在[最小值min_df，最大值max_df]内，若在，则依据词频值TF与max_df之间的差值大小，当差值为0时，包含高校舆情目标文本词汇的内容的权重为10，当差值为最大值max_df-最小值min_df时，包含高校舆情目标文本词汇的内容的权重为6，基于此调节包含高校舆情目标文本词汇的内容的权重；依据词频值TF与min_df之间的差值大小，当差值为0时，包含非高校舆情目标文本词汇的内容的权重为0，当差值为最大值max_df-最小值min_df时，包含非高校舆情目标文本词汇的内容的权重为5，基于此调节包含非高校舆情目标文本词汇的内容的权重，得到语义权重数据集HyitWeightData；否则，获取时间关系数据集HyitRelationData中的下一条文本信息，执行子步骤3.2。进一步的，所述步骤4具体包括以下子步骤：

基于时间关系数据集HyitRelationData，构建训练集、验证集、测试集，且训练集、验证集和测试集中的内容不重复；

将训练集中的字符转换成二进制的Id数据序列，得到词汇数据序列Id_content；根据时间关系数据集HyitRelationData中数据的时间信息生成时间目录TimeCatalog，将时间目录TimeCatalog转换成二进制Id数据序列，得到目录数据序列Id_TimeCatalog；对词汇数据序列Id_content和目录数据序列Id_TimeCatalog进行序列特征提取，生成批次数据batch_Id_TimeCatalog；采用批次数据batch_Id_TimeCatalog对TextCNN模型进行训练，得到训练结果模型Training_result_model；

将测试集输入至训练结果模型Training_result_model，将输出的结果与验证集进行比较，根据比较结果动态调整卷积和池化操作参数，优化训练结果模型Training_result_model；

将语义权重数据集HyitWeightData输入至优化后的训练结果模型Training_result_model中，得到文本信息关系数据集HyitRelationModelData。

本发明还公开了一种基于文本分析算法的高校舆情数据分析系统，通过上述公开的一种基于文本分析算法的高校舆情数据分析系统构建方法构建得到。

有益效果：本发明与现有技术相比，具有以下优点：

(1)本发明方法使用数据主体的特征信息进行时间聚类分析，增强了模型的时间分析能力；

(2)本发明方法利用已有的学校文本数据信息，采用TextCNN文本关系分类分析算法对学校文本数据信息的关系进行挖掘，改善了传统人工数据分析进行区分公共新闻和公民新闻的局限性，针对特定的高校领域，有效提高了数据分析的准确率；

(3)本发明构建的数据分析系统适用于智慧校园的数据分析。

附图说明

图1为本发明的整体流程图；

图2为预处理方法的流程图；

图3为时间聚类的流程图；

图4为文本权重处理的流程图；

图5为训练基于TextCNN文本分类分析模型方法的流程图；

图6为构建大数据分析系统方法的流程图；

具体实施方式

现结合附图和实施例进一步阐述本发明的技术方案。

为了更好的说明本方法的有效性，现采用本发明公开的构建方法，对某高校建立其高效舆情数据分析系统，如图1所示，具体操作如下：

步骤1：使用爬虫技术采集与学校相关的文本信息以及文本信息的属性，由此构建文本信息数据集，并对构建的文本信息数据集进行数据清洗等操作，得到文本信息模型数据集HyitData。

现结合图2对步骤1做进一步说明，具体包括以下子步骤：

S101：对于某高校，以其信息公开网、新浪微博、百度贴吧、微信公众号、百度词条作为数据源；

S102：利用Scrapy爬虫框架和Requests技术从结构化网页中获取与该高校相关的高校新闻舆情信息作为结构化数据；

S103：收集并构建停用词汇表UselessVoc_List和无效字符串表InvalId_Character_List；

S104：定义获取到的结构化数据Jiegou_Data，Jiegou_Data＝{content1，content2，...，contentn}，变量n∈[1，Jiegou_DataNum]，其中，Jiegou_DataNum为结构化数据的个数；contentn为结构化数据Jiegou_Data中第n条高校新闻舆情信息；

S105：根据停用词汇表UselessVoc_List和无效字符串表InvalId_Character_List，对结构化数据Jiegou_Data进行无效词汇、敏感词汇、无效字符串的过滤，得到结构化数据集Jiegou_Data_Set；

S106：定义计数器count1，用于遍历数据集Jiegou_Data，令count1＝1；

S107：若count1≤Jiegou_DataNum，则执行S108，否则执行S110；

S108：遍历结构化数据集Jiegou_Data_Set中的数据，将数据中的空格符、换行符、表情符号信息去除，将处理后的数据存入文本信息模型数据集；

S109：令count1＝count1+1，执行S107；

S110：定义预处理后的文本信息模型数据集为HyitData＝{con_word1，con_word2，…，con_wordn}，变量n∈[1，Jiegou_DataNum2]，Jiegou_DataNum2为文本信息模型数据集HyitData中文本信息总数，con_wordn为文本信息模型数据集HyitData中第n条高校新闻舆情信息。

以淮阴工学院为例，共得到204670条学校文本数据信息。

步骤2：利用文本信息模型数据集HyitData训练基于时间聚类的模型，得到时间关系数据集HyitRelationData。

现结合图3对步骤2做进一步说明，具体包括以下子步骤：

S201：遍历文本信息模型数据集HyitData中的各条数据记录，存入数组auth_comments中；

S202：选取用户身份特征作为标签，导入数组auth_comments中，使用K-means算法进行文本数据信息聚类迭代，直至收敛，得到数据集K-HyitData；

S203：从数据集K-HyitData中建立并初始化p个时间序列微簇，每个微簇包含m个点；

S204：创建数组Cludata[n]，n∈[1，m×p]；

S205：将每个微簇中的m个点输入到数组Cludata[n]中；

S206：制作高校新闻特征信息关系词汇表CoInfoRelTab；

S207：将数组Cludata[n]中数据按照高校新闻特征信息关系词汇表CoInfoRelTab进行特征分类，得到包含高校特征相关信息的分类数据集Class_Cludata；

S208：将分类数据集Class_Cludata中的数据依时间点进行聚类，得到时间关系数据集HyitRelationData。

步骤3：根据时间关系数据集HyitRelationData的上下文语义进行权重处理，得到语义权重数据集HyitWeightData。

现结合图4对步骤3做进一步说明，具体包括以下子步骤：

S301：定义数组变量weightdata用来遍历并读取学校文本信息的时间关系数据集HyitRelationData；

S302：读取数组变量weightdata进行上下文语义分析生成文本分词，对文本词汇内容进行词频统计Voc_TFT；

S303：利用文本词汇内容的词频计算文本词汇内容的词频值TF；

S304：设定文本词汇在不同文本出现的频率范围的最小值min_df和最大值max_df；

S305：若文本词汇内容的词频值TF在min_df和max_df之间，则执行S306，否则执行S302；

S306：将包含高校、学生、老师、校园、教学楼等高校特征的词汇文本构建高校舆情目标文本词汇内容，不包含上述词汇文本的构建非高校舆情目标文本词汇内容；

S307：依据词频值TF与max_df之间的差值大小，当差值为0时，包含高校舆情目标文本词汇的内容的权重为10，当差值为最大值max_df-最小值min_df时，包含高校舆情目标文本词汇的内容的权重为6，基于此调节包含高校舆情目标文本词汇的内容的权重；

S308：依据词频值TF与min_df之间的差值大小，当差值为0时，包含非高校舆情目标文本词汇的内容的权重为0，当差值为最大值max_df-最小值min_df时，包含非高校舆情目标文本词汇的内容的权重为5，基于此调节包含非高校舆情目标文本词汇的内容的权重；

S309：生成文本特征向量模型，得到语义权重数据集HyitWeightData。

步骤4：利用语义权重数据集HyitWeightData训练TextCNN模型，得到文本信息关系数据集HyitRelationModelData。

现结合图5对步骤4做进一步说明，具体包括以下子步骤：

S401：定义数组变量comments用来遍历并读取学校文本信息的时间关系数据集HyitRelationData，定义count4用于计数，令count4＝0；

S402：从时间关系数据集HyitRelationData遍历的数组变量comments中随机拷贝数据分别创建训练集、验证集、测试集，保证各个数据集的内容不重复，定义判断count4＝1000时创建验证集，count4＝5000时创建测试集，count4＝n创建训练集，其中n为时间关系数据集HyitRelationData中数据的个数；

S403：得到训练集train.txt、测试集test.txt、验证集val.txt三个文件；

S404：使用训练集train.txt构建并存储词汇表content，避免每次读取重复；

S405：添加一个PAD标签并设定长度，用keras库将文本固定为PAD长度；

S406：读取词汇表content，将字符转换成二进制的Id数据序列，得到词汇数据序列Id_content；

S407：根据时间关系数据集HyitRelationData中数据的时间信息生成时间目录TimeCatalog，将时间目录TimeCatalog转换成二进制Id数据序列，得到目录数据序列Id_TimeCatalog；

S408：将词汇数据序列Id_content和目录数据序列Id_TimeCatalog序列进行序列特征提取，生成批次数据batch_Id_TimeCatalog；

S409：将批次数据batch_Id_TimeCatalog输入TextCNN模型，进行模型训练；

S410：输出最终的训练结果模型Training_result_model；

S411：将测试集test.txt文件输入模型，将输出的结果与验证集val.txt文件比较，动态调整卷积和池化操作参数，优化模型；

S412：若模型的准确率不低于95％，并且超过5000轮未提升，结束训练，否则执行S406；

S413：将语义权重数据集HyitWeightData输入至优化后的训练结果模型Training_result_model得到文本信息关系数据集HyitRelationModelData。

以淮阴工学院为例，通过对204670条学校文本数据信息进行处理，通过数据预处理训练基于时间聚类和基于TextCNN文本分类分析模型。在测试集上，文本分析模型的分析准确率为96.23％。

步骤5：开放数据关系查询使用接口，用户通过Web平台输入文本数据信息，数据关系查询使用接口根据用户输入的文本信息将挖掘出的数据关系Relations返回Web平台。

现结合图6对步骤5做进一步说明，具体包括以下子步骤：

S501：利用步骤4得到的文本信息关系数据集HyitRelationModelData，该数据集内容为Relations＝{relation1，relation2，...，relationn}，其中n为数据集HyitRelationModelData中数据的个数；relationn为文本信息关系数据集HyitRelationModelData中第n个包含高校舆情和批次数据关系的文本内容；

S502：向MySQL数据库中导入文本信息关系数据集HyitRelationModelData，构建文本信息关系数据库；

S503：开放数据关系查询使用接口API；

S504：数据分析系统构建完成；

S505：用户通过Web平台输入需要查询的数据文本信息text_time；

S506：在文本信息关系数据库中查询与数据文本信息text_time相关的舆情信息字段；

S507：输出与数据文本信息text_time相关的舆情数据信息text_out、舆情数据信息的来源属性Relationship_out和舆情数据发生的时间timechuo_out，若不存在关系信息，则返回S505；

S508：将分析挖掘出的高校舆情信息Results返回Web平台。

本发明可与计算机系统结合，根据时间流聚类分析、数据信息特征分类、TextCNN文本分类分析、改变文本内容的权重，实现在非结构化文本数据中提取文本数据信息和关系，构建数据分析系统。经多次实验，实现高校文本数据信息舆情分析的最佳效果。

Claims

1.一种基于文本分析算法的高校舆情数据分析系统构建方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于文本分析算法的高校舆情数据分析系统构建方法，其特征在于：所述步骤1包括以下子步骤：

定义计数器count1，令count1＝1；

3.根据权利要求1所述的一种基于文本分析算法的高校舆情数据分析系统构建方法，其特征在于：所述步骤2包括以下子步骤：

4.根据权利要求1所述的一种基于文本分析算法的高校舆情数据分析系统构建方法，其特征在于：所述步骤3具体包括以下子步骤：

子步骤3.1：读取时间关系数据集HyitRelationData中的文本信息；

子步骤3.4：构建高校舆情目标文本词汇内容；

子步骤3.5：判断该词频值TF是否在[最小值min_df，最大值max_df]内，若在，则依据词频值TF与max_df之间的差值大小，调节包含高校舆情目标文本词汇的内容的权重；依据词频值TF与min_df之间的差值大小，调节包含非高校舆情目标文本词汇的内容的权重，得到语义权重数据集HyitWeightData；否则，获取时间关系数据集HyitRelationData中的下一条文本信息，执行子步骤3.2。

5.根据权利要求1所述的一种基于文本分析算法的高校舆情数据分析系统构建方法，其特征在于：所述子步骤3.5为：

判断该词频值TF是否在[最小值min_df，最大值max_df]内，若在，则依据词频值TF与max_df之间的差值大小，当差值为0时，包含高校舆情目标文本词汇的内容的权重为10，当差值为最大值max_df-最小值min_df时，包含高校舆情目标文本词汇的内容的权重为6，基于此调节包含高校舆情目标文本词汇的内容的权重；依据词频值TF与min_df之间的差值大小，当差值为0时，包含非高校舆情目标文本词汇的内容的权重为0，当差值为最大值max_df-最小值min_df时，包含非高校舆情目标文本词汇的内容的权重为5，基于此调节包含非高校舆情目标文本词汇的内容的权重，得到语义权重数据集HyitWeightData；否则，获取时间关系数据集HyitRelationData中的下一条文本信息，执行子步骤3.2。

6.根据权利要求1所述的一种基于文本分析算法的高校舆情数据分析系统构建方法，其特征在于：所述步骤4具体包括以下子步骤：

7.一种基于文本分析算法的高校舆情数据分析系统，其特征在于：通过如权利要求1至6任意一项所述的一种基于文本分析算法的高校舆情数据分析系统构建方法构建得到。