CN115392231A

CN115392231A - 一种基于人工智能的水环境舆情识别方法

Info

Publication number: CN115392231A
Application number: CN202210957565.3A
Authority: CN
Inventors: 王国强; 张庆竹; 王溥泽; 薛宝林; 王运涛; 任世龙
Original assignee: Beijing Normal University; Shandong University
Current assignee: Beijing Normal University; Shandong University
Priority date: 2022-08-10
Filing date: 2022-08-10
Publication date: 2022-11-25

Abstract

本发明公开了一种基于人工智能的水环境舆情识别方法，包括：基于流域水环境大数据资源，结合流域水环境业务需求，收集文本集；对收集的文本集进行预处理，包括数据选择、数据清洗、数据转换中的一种或多种；对预处理后的数据进行特征抽取，并进行特征修剪，得到可用于文本挖掘的特征子集；基于文本挖掘目标和特征子集，采用文本挖掘算法进行水环境舆情识别；将识别结果以图表或报告的方式展示给用户。本发明方法能够实现对海量互联网水环境舆情信息的全面识别和分析，提高了水环境舆情识别的准确性和效率。

Description

一种基于人工智能的水环境舆情识别方法

技术领域

本发明涉及水环境信息处理技术领域，特别涉及一种基于人工智能的水环境舆情识别方法。

背景技术

基于人工智能的水环境舆情识别技术，是指利用文本类挖掘工具进行自然语言的词法分析、句法分析、语义分析、篇章分析等，建设面向公众水环境信息的舆情监控、异常处理、突发事件的动态挖掘模型，并进行水环境舆情识别的技术。

在中文文本中可以采用字、词或短语作为表示文本的特征项。相比较而言，词比字具有更强的表达能力，而词和短语相比，词的切分难度比短语的切分难度小得多。因此，目前大多数中文文本分类系统都采用词作为特征项，称作特征词。这些特征词作为文档的中间表示形式，用来实现文档与文档、文档与用户目标之间的相似度计算。如果把所有的词都作为特征项，那么特征向量的维数将过于巨大，从而导致计算量太大，在这样的情况下，要完成文本分类几乎是不可能的。

特征抽取的主要功能是在不损伤文本核心信息的情况下尽量减少要处理的单词数，以此来降低向量空间维数，从而简化计算，提高文本处理的速度和效率。文本特征抽取对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。

传统的水生态环境舆情捕获方法，是根据统计研究目的来选择特征，或者根据设计的实验方法来选择特征，前者是为了描述性研究，后者是为了研究变量间的因果。传统的统计推断分析是根据样本的特征去推断总体特征，传统的统计实例分析是根据研究目的提出假设，然后采集数据后进行分析去验证假设成立与否。然而，在互联网大数据的背景下，水环境信息数据的种类和数量都非常多，传统的方法已经难以满足对海量互联网水环境舆情信息的全面识别和分析。

发明内容

本发明的目的在于提供一种基于人工智能的水环境舆情识别方法，以解决现有技术中无法满足对海量互联网水环境舆情信息的全面识别和分析的技术问题。

为解决上述技术问题，本发明的实施例提供如下方案：

一种基于人工智能的水环境舆情识别方法，包括以下步骤：

S1、基于流域水环境大数据资源，结合流域水环境业务需求，收集文本集；

S2、对收集的文本集进行预处理，包括数据选择、数据清洗、数据转换中的一种或多种；

S3、对预处理后的数据进行特征抽取，并进行特征修剪，得到可用于文本挖掘的特征子集；

S4、基于文本挖掘目标和特征子集，采用文本挖掘算法进行水环境舆情识别；

S5、将识别结果以图表或报告的方式展示给用户。

优选地，所述步骤S3中，对预处理后的数据进行特征抽取是指对预处理后的数据进行关键词抽取，具体包括以下步骤：

A1、将给定的文本T按照完整句子进行分割，即：

T＝[S₁,S₂,…,S_m]

A2、对于每个句子S_i∈T，进行分词和词性标注处理，并过滤掉停用词，只保留指定词性的单词，包括名词、动词、形容词，即S_i＝[t_i,1,t_i,2,…,t_i,m]，其中t_i,j∈S_j是保留后的候选关键词；

A3、利用TextRank算法构建候选关键词图G＝(V,E)，其中V为节点集，E为边集，E是V×V的子集；V由步骤A2生成的候选关键词组成，然后采用共现关系构造任两点之间的边，两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现，K表示窗口大小，即最多共现K个单词；

A4、根据以下公式，迭代传播各节点的权重，直至收敛；

其中，w_ji为任意两个节点V_i和V_j之间边的权重,w_jk为任意两个节点V_k和V_j之间边的权重；对于一个给定的节点V_i，In(V_i)为指向该节点的节点集合，Out(V_j)为该节点指向的节点集合，c为阻尼系数,取值范围为0到1,代表从图中某一节点指向其他任意节点的概率，WS(V_i)为节点V_i的得分，WS(Vj)为节点V_j的得分；

A5、对节点权重进行倒序排序，从而得到最重要的若干候选关键词；

A6、根据得到的最重要的若干候选关键词，在文本中进行标记，若形成相邻词组，则组合成多词关键词。

优选地，所述步骤A4中，计算图中各节点的得分时,首先给图中的节点指定任意的初值,并递归计算直到收敛,即图中节点的误差率小于给定的极限值时认为达到收敛,该极限值取0.0001。

优选地，所述步骤S3中，特征修剪包括横向选择和纵向投影两种方式；

横向选择是指剔除噪声以改进挖掘精度，或者在特征数量过多时仅选取其中一部分以提高挖掘效率；

纵向投影是指按照文本挖掘目标选取满足相关性条件的特征。

优选地，所述步骤S4中，采用的文本挖掘算法包括文本聚类算法、文本分类算法和摘要抽取算法。

优选地，采用摘要抽取算法时，首先，对查询Query进行关键词特征解析，生成关键词特征q_i；然后，对于每个搜索文本结果d，计算每个关键词特征q_i与d的相关性得分，最后，将q_i相对于d的相关性得分进行加权求和，从而得到Query与d的相关性得分，公式如下：

其中，Q表示Query，q_i表示Q解析之后的一个关键词特征，d表示一个搜索文本结果；W_i表示关键词特征q_i的权重；R(q_i，d)表示关键词特征q_i与搜索文本结果d的相关性得分。

优选地，以IDF为例，定义关键词特征q_i的权重W_i如下：

其中，N为索引中的全部文本数，n(q_i)为包含了q_i的文本数；

关键词特征q_i与搜索文本结果d的相关性得分R(q_i，d)计算如下：

其中k₁，k₂，b为调节因子，根据经验设置；f_i为q_i在d中的出现频率，qf_i为q_i在Query中的出现频率，dl为d的长度，avgdl为所有文本的平均长度；

Query与d的相关性得分可总结为：

本发明实施例提供的技术方案带来的有益效果至少包括：

本发明实施例中，基于流域水环境大数据资源，结合流域水环境业务需求，收集文本集；对收集的文本集进行预处理，对预处理后的数据进行特征抽取，并进行特征修剪，得到可用于文本挖掘的特征子集；基于文本挖掘目标和特征子集，采用文本挖掘算法进行水环境舆情识别；最后将识别结果以图表或报告的方式展示给用户。本发明方法能够实现对海量互联网水环境舆情信息的全面识别和分析，提高了水环境舆情识别的准确性和效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于人工智能的水环境舆情识别方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明基于国家流域水环境资源目录，利用流域水环境大数据资源，结合流域水环境业务管理需求，通过业务理解、数据理解、数据准备、建立模型、模型评估及模型扩展等步骤建立流域水环境舆情识别技术。

其中，业务理解主要包括：从专业的角度理解业务目标和需求，发现问题，确定问题是否能够通过文本挖掘来解决，在此基础之上确定文本挖掘目标。

数据理解主要包括：在数据理解阶段，先收集文本挖掘所需要的数据，然后对数据进行描述分析、识别数据的质量问题、找到文本挖掘关联的数据子集。

数据准备主要包括：数据准备阶段的任务包括数据选择、数据清洗、数据转换，以适合建模要求。这些任务可能要执行多次，并且没有特定的顺序。通过数据预处理，把好数据的质量关，才能确保数据的准确性，以及保障决策的正确性。

建立模型主要包括：在建模阶段，可以根据文本挖掘目标和数据的特征，选择和应用各种建模方法，并将其参数校正到优化值。通常，对同一个文本挖掘问题可能有几种可用的方法，某些方法对数据的形式可能有特殊要求。因此，有时需要退回到数据准备阶段。

模型评估：在最终应用模型之前，应对整个文本挖掘过程的前面步骤进行评估，结合专业知识对文本挖掘的结果进行评价，并确信其正确地达到挖掘目标。

模型扩展：创建完模型并不意味着项目结束，还需要将所获得的知识以用户可以使用的方式来组织和表示，例如图表、报告等。

具体地，如图1所示，本发明的实施例提供了一种基于人工智能的水环境舆情识别方法，包括以下步骤：

S1、基于流域水环境大数据资源，结合流域水环境业务需求，收集文本集。

需要挖掘的文本数据可能具有不同的类型，且分散在很多地方，需要寻找和检索与当前工作相关的文本。一般地，系统用户可以定义文本集，或者通过设置过滤条件得到所需的文本集。

S2、对收集的文本集进行预处理，包括数据选择、数据清洗、数据转换中的一种或多种。上述预处理过程没有特定的顺序，并且根据实际需求可能要执行多次，目的是通过数据预处理确保数据的准确性。

S3、对预处理后的数据进行特征抽取，并进行特征修剪，得到可用于文本挖掘的特征子集。

与数据库中的结构化数据相比，文本数据具有有限的结构，或者根本就没有结构。此外文本的内容是人类所使用的自然语言，计算机很难处理其语义。文本数据集的这些特殊性使得现有的文本挖掘技术无法直接应用于其上，需要对文本进行分析，抽取代表其特征的元数据，这些特征可以用结构化的形式保存，作为文本的中间表示形式。其目的在于从文本中扫描并抽取所需要的事实。

传统水生态环境采集数据的方式，是根据统计研究目的来选择，选择统计调查或者观察是为了描述性研究，选择实验方法是为了研究变量间的因果。统计调查方法或者实验方法都是经过设计后系统采集数据的方法。而大数据的特点是海量的数据，数据的种类和数量非常多，采集数据就是在大数据中找到数据而不完全依赖调查。大数据海量性和数据增加的快速性，使得人们在采集大数据时要进行分类、筛选，选择关联物，提炼数据，去掉错误数据、不重要的数据后存储数据。如果说传统的统计收集数据是确定统计目的、设计调查方案、执行方案后得到数据，那么基于大数据的数据采集是整理、提炼、删除、存储数据的过程。

传统的统计推断分析是根据样本的特征去推断总体特征，大数据分析针对的是总体数据，传统统计推断判断是基于样本数据的，而大数据已经是对总体数据进行分析，就不存在以样本推断总体。传统的统计实例分析是根据研究目的提出假设，然后采集数据后进行分析去验证假设成立与否。而大数据是在数据中寻找关联，发现规律，实行并行计算，以挖掘数据之间关系为目标，快速计算、大数据量分析为特点。大数据增加了统计分析的难度，但也丰富了统计分析的空间。

本发明实施例中，利用TextRank算法对预处理后的数据进行特征抽取，或者说，对预处理后的数据进行关键词抽取，其基本思想是通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序，进而实现关键词提取；具体包括以下步骤：

A1、将给定的文本T按照完整句子进行分割，即：

T＝[S₁,S₂,…,S_m]

A4、根据以下公式，迭代传播各节点的权重，直至收敛；

其中，w_ji为任意两个节点V_i和V_j之间边的权重,w_jk为任意两个节点V_k和V_j之间边的权重；对于一个给定的节点V_i，In(V_i)为指向该节点的节点集合，Out(V_j)为该节点指向的节点集合，c为阻尼系数,取值范围为0到1,代表从图中某一节点指向其他任意节点的概率，一般取值为0.85，WS(V_i)为节点V_i的得分，WS(Vj)为节点V_j的得分；

步骤A4中，计算图中各节点的得分时,首先给图中的节点指定任意的初值,并递归计算直到收敛,即图中节点的误差率小于给定的极限值时认为达到收敛,该极限值取0.0001；

例如，文本中有句子“Matlab code for plotting ambiguity function”，如果“Matlab”和“code”均属于候选关键词，则组合成“Matlab code”加入关键词序列。

进一步地，所述步骤S3中，特征修剪包括横向选择和纵向投影两种方式。其中，横向选择是指剔除噪声以改进挖掘精度，或者在特征数量过多时仅选取其中一部分以提高挖掘效率；纵向投影是指按照文本挖掘目标选取满足相关性条件的特征。通过特征修剪，就可以得到代表文本集合的有效的、精简的特征子集，在此基础上可以开展各种文本挖掘工作。

S4、基于文本挖掘目标和特征子集，采用文本挖掘算法进行水环境舆情识别。

本步骤中，可采用的文本挖掘算法包括文本聚类算法、文本分类算法和摘要抽取算法等。

文本聚类算法可以发现与某文本相似的一批文本，帮助知识工作者发现相关知识；其次，文本聚类算法可以将一个文本聚类成若干个类，提供一种组织文本集合的方法；文本挖掘中的聚类可用于：提供大规模文本集内容的总括；识别隐藏的文本间的相似度；减轻浏览相关、相似信息的过程。文本聚类算法包括层次聚类法、平面划分法等。

本发明实施例中，以摘要抽取算法为例，进行文本数据挖掘。摘要抽取能够生成简短的关于文本内容的指示性信息，将文本的主要内容呈现给用户，以决定是否要阅读原文，从而节省大量的浏览时间。

具体步骤如下：首先，对查询Query进行关键词特征解析，生成关键词特征q_i；然后，对于每个搜索文本结果d，计算每个关键词特征q_i与d的相关性得分，最后，将q_i相对于d的相关性得分进行加权求和，从而得到Query与d的相关性得分，公式如下：

以IDF为例，定义关键词特征q_i的权重W_i如下：

其中，N为索引中的全部文本数，n(q_i)为包含了q_i的文本数；

Query与d的相关性得分可总结为：

以上仅为本发明的一种实施方式，可以理解的是，通过使用不同的关键词分析方法、关键词权重判定方法，以及关键词与文本的相关性判定方法，可以衍生出不同的搜索相关性得分计算方法，为设计提供了较大的灵活性。

S5、将识别结果以图表或报告的方式展示给用户。

在方法最终应用之前，应对整个步骤进行评估，结合专业知识对挖掘结果进行评价。此外，还需要将所获得的水环境舆情识别结果以直观的方式向用户展示，例如以图表、报告等方式展示给用户，以便于用户根据识别结果作出正确的决策。

本发明方法解决现有技术中无法满足对海量互联网水环境舆情信息的全面识别和分析的技术问题，能够提高水环境舆情识别的准确性和效率。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

在说明书中提到“一个实施例”、“实施例”、“示例性实施例”、“一些实施例”等指示所述的实施例可以包括特定特征、结构或特性，但未必每个实施例都包括该特定特征、结构或特性。另外，在结合实施例描述特定特征、结构或特性时，结合其它实施例(无论是否明确描述)实现这种特征、结构或特性应在相关领域技术人员的知识范围内。

本发明涵盖任何在本发明的精髓和范围上做的替代、修改、等效方法以及方案。为了使公众对本发明有彻底的了解，在以下本发明优选实施例中详细说明了具体的细节，而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。另外，为了避免对本发明的实质造成不必要的混淆，并没有详细说明众所周知的方法、过程、流程、元件和电路等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读取存储介质中，如：ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的水环境舆情识别方法，其特征在于，包括以下步骤：

S5、将识别结果以图表或报告的方式展示给用户。

2.根据权利要求1所述的基于人工智能的水环境舆情识别方法，其特征在于，所述步骤S3中，对预处理后的数据进行特征抽取是指对预处理后的数据进行关键词抽取，具体包括以下步骤：

A1、将给定的文本T按照完整句子进行分割，即：

T＝[S₁,S₂,…,S_m]

A4、根据以下公式，迭代传播各节点的权重，直至收敛；

3.根据权利要求2所述的基于人工智能的水环境舆情识别方法，其特征在于，所述步骤A4中，计算图中各节点的得分时,首先给图中的节点指定任意的初值,并递归计算直到收敛,即图中节点的误差率小于给定的极限值时认为达到收敛,该极限值取0.0001。

4.根据权利要求1所述的基于人工智能的水环境舆情识别方法，其特征在于，所述步骤S3中，特征修剪包括横向选择和纵向投影两种方式；

5.根据权利要求1所述的基于人工智能的水环境舆情识别方法，其特征在于，所述步骤S4中，采用的文本挖掘算法包括文本聚类算法、文本分类算法和摘要抽取算法。

6.根据权利要求5所述的基于人工智能的水环境舆情识别方法，其特征在于，采用摘要抽取算法时，首先，对查询Query进行关键词特征解析，生成关键词特征q_i；然后，对于每个搜索文本结果d，计算每个关键词特征q_i与d的相关性得分，最后，将q_i相对于d的相关性得分进行加权求和，从而得到Query与d的相关性得分，公式如下：

7.根据权利要求6所述的基于人工智能的水环境舆情识别方法，其特征在于，以IDF为例，定义关键词特征q_i的权重W_i如下：

其中，N为索引中的全部文本数，n(q_i)为包含了q_i的文本数；

Query与d的相关性得分可总结为：