CN113064962B

CN113064962B - 一种环境类投诉举报事件相似度分析方法

Info

Publication number: CN113064962B
Application number: CN202110282614.3A
Authority: CN
Inventors: 范青武; 陈�光; 杨凯; 张汪洋
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2024-03-15
Anticipated expiration: 2041-03-16
Also published as: CN113064962A

Abstract

本发明公开了一种对环境类投诉举报事件进行相似度分析的方法，旨在提高判断精度和人员的工作效率。该发明的实施包含以下几个步骤：首先获取一定数量的环境类投诉举报数据，数据应包含组成投诉举报事件的几项基本要素以及每两条事件之间的相似度；计算每两条投诉举报事件之间各个要素的相似度并构造事件的相似度数组，作为样本数据；将样本数据划分为训练集和测试集，利用训练集对广义回归神经网络(GRNN)进行训练，建立相似度计算模型，并采用经过改进的果蝇优化算法(IFOA)对模型的参数进行动态优化，进而提高模型的精度。本发明适用于环境类投诉举报事件的相似度分析，具有较高的精度，解决了人工判断所造成的精度低且效率低的问题。

Description

一种环境类投诉举报事件相似度分析方法

技术领域

本发明涉及信息技术领域，尤其涉及一种环境类投诉举报事件相似度分析方法。

背景技术

近几年，随着社会的发展，百姓大众对于环境保护的意识逐渐增强，并且大部分环保投诉举报平台都是基于互联网而设计的，这使得投诉举报变得方便而快捷，因此有关环境污染方面的投诉举报数量迅速增加。然而，环境污染投诉举报受理部门的工作量也与日俱增，工作人员每天都要阅读海量的投诉举报信息，通过分析并研判举报信息，给出相应的任务派遣建议，这会导致受理部门的工作效率大大降低。如果能够分析新的投诉举报与历史投诉举报之间的差异，以相似度较高的历史举报信息所对应的派遣建议为指导来制定新的投诉举报派遣建议，定会大大地增加工作人员的工作效率，同时提高工作的准确率。但是，如果人工来判断两条投诉举报事件之间的相似度，不仅效率低下并且准确度不高。所以，设计准确而高效的环境污染投诉举报相似度分析方法成为目前亟待解决的问题。

实际上，环境类投诉举报信息就是百姓大众向有关部门反映污染现象而产生的事件。因此，分析投诉举报之间的相似度也就是分析投诉举报事件之间的相似度，即反映两个或多个事件实体之间的相似程度。对于事件之间的相似度计算，目前最常见的方法主要是基于事件要素的相似度计算，即分别计算组成事件的各个要素之间的相似度，之后通过线性组合要素相似度或赋予要素相似度权重的方式来得到事件整体之间的相似度。但是，在上述方法当中，事件要素的线性组合方式或权重的数值往往是根据人的经验来确定，从而导致这种方法的计算精度会有所下降，同时具有较强的主观性。因此，对于事件要素相似度的组合问题，可以采用机器学习的方法来建立模型。广义回归神经网络(GRNN)具有较好的非线性拟合能力、需要确定的参数少以及收敛精度高等特点，因此适用于建立事件的相似度分析模型。

GRNN的预测精度很大程度上取决于其输入参数，即平滑因子σ的大小，而对于参数的整定问题，手动调试费时费力且精度较低，因此应用智能优化算法对其参数进行寻优无疑是最佳方法。果蝇优化算法(FOA)是潘文超仿照果蝇觅食行为而提出的，相比于遗传算法(GA)、粒子群算法(PSO)而言优化能力更强。然而，FOA也存在不足，比如搜索范围固定、种群多样性低等，这使得其在优化复杂问题时依然会收敛至局部最优。因此，需要对FOA进行改进，提出改进的果蝇优化算法(IFOA)，以此提高算法的寻优能力。

发明内容

本发明针对环境类投诉举报事件相似度判断存在效率低、精度低等问题，提供了一种环境类投诉举报事件相似度分析方法。GRNN具有良好的分类能力和泛化能力，而IFOA的寻优能力比FOA更强，可以更精确地找到最佳的GRNN参数，从而提高其预测精度。

本发明的技术方案由以下步骤组成：

步骤1事件要素相似度计算

步骤1.1获取一定数量的环境类投诉举报数据，数据当中应当包含组成投诉举报事件的几项基本要素，即举报事件的发生时间、举报事件发生所在地的地点名称、举报事件所处的处理阶段、举报对象的名称以及举报人对举报事件的描述文本。此外，数据当中还应当包含每两条投诉举报事件之间的相似度数值，并且确保这些数值是准确无误的。

步骤1.2计算每两条投诉举报事件之间的发生时间相似度。由于投诉举报事件的发生时间属于时刻时间，而时刻时间也就是一个时间点。因此，对于两个时间点之间的相似度，本发明直接通过对比这两个时间点是否相同来进行判断，具体的计算方法如下：

上式中，Sim_Time(A,B)指的是两条投诉举报事件的发生时间相似度，A、B均为举报事件编号，Time_A、Time_B分别指事件A、B所对应的发生时间。

步骤1.3计算每两条投诉举报事件发生所在地的地点名称相似度。为了便于相似度计算，本发明将对所获取到的地点名称先根据中国行政区划规则进行规范化处理，即通过与中国行政区划名称进行匹配的方法将其表示为如下形式：

省级地名+地级地名+县级地名+乡级地名+其它地名

在上述针对地名的规范化处理当中，如遇缺失信息则将其所对应的位置空出。

由此，本发明将根据地点名称的层次进行相似度计算，具体的计算方法如下：

假设投诉举报事件A、B的地点名称Location_A、Location_B的形式如下：

那么，投诉举报事件的地点名称相似度计算方法如下：

在上面的式子当中，Sim_Location(A,B)指的是两条投诉举报事件的地点名称相似度，Pr_A、Pr_B分别指事件A、B的省级地名，Ct_A、Ci_B分别指事件A、B的地级地名，Co_A、Co_B分别指事件A、B的县级地名，St_A、St_B分别指事件A、B的乡级地名，Or_A、Or_B分别指事件A、B的其它地名。

步骤1.4计算每两条投诉举报事件的处理阶段之间的相似度。投诉举报事件所处的处理阶段通常指的是事件的处理情况或处理进度等，它同样属于确定性要素，即每一条举报事件有且仅有一种处理阶段。因此，本发明仍直接采用判断事件处理阶段是否相同的方式来衡量其相似度，具体方法如下：

上式中，Sim_Status(A,B)指的是两条投诉举报事件的处理阶段的相似度，A、B均为举报事件编号，Status_A、Status_B分别指事件A、B所处的处理阶段。

步骤1.5计算投诉举报事件的对象名称相似度。投诉举报事件的举报对象名称通常为造成该污染事件的企业或单位名称。因此，对于举报对象名称之间的相似度，本发明采用Levenshtein编辑距离法来进行计算。Levenshtein编辑距离是用来计算两个句子或字符之间的相似度，其计算公式如下：

上式中，Sim_Object(A,B)指的是两条投诉举报事件的举报对象名称相似度，A、B均为举报事件编号，Object_A、Object_B分别指举报事件A、B所对应的举报对象名称，|Object_A|、|Object_B|分别指名称Object_A、Object_B的字符长度，ed(Object_A,Object_B)表示将名称Object_A转换为Object_B所需要的最小操作数(包括插入、删除、替换等)。

由于Levenshtein编辑距离的取值范围在[0,+∞)之间，为了便于后期对数据进行分析以及建立模型，需要对数据进行归一化处理，归一化的计算方式如下：

上式中，f(x)为归一化函数，x为数据集中的某一个元素，x_max为数据集中的最大值，x_min为数据集中的最小值。

步骤1.6计算每两条投诉举报事件之间举报人对举报事件的描述文本相似度。对于文本之间的相似度，本发明采用基于余弦距离的文本相似度计算方法，具体实施步骤如下：

首先，利用jieba分词工具对文本进行词语切分，同时采用向量空间模型(VSM)法对文本进行建模，模型的表达形式如下：

D_i＝D(t₁,w₁；t₂,w₂；…；t_n,w_n) (7)

上式中，D_i为某条投诉举报文本的空间向量，i为其编号，t_n为投诉举报文本当中某个词语所对应的子向量，w_n为其权重，n为子向量的标号。

其次，采用词频-逆向文档频率(TF-IDF)算法对文本模型进行特征提取。TF-IDF由G.Salton等人提出，其计算方法如下：

P_i＝tf_ij×idf_i (8)

上式中，P_i为每一个词语的综合频度，tf_ij为某个词语在一篇文档中出现的频率，idf_i为包含某个词语的文档占整个文本集的比例，i为词语标号，j为文档标号。

经过特征提取后，文本就被表示成降维的词向量，如下所示。

D′_i＝D(t₁,w₁；t₂,w₂；…；t_k,w_k) (9)

上式中，D_i’为某条投诉举报文本所对应的降维词向量，其中i为文本编号，t_k为投诉举报文本当中某个词语所对应的子向量，w_k为权重，k为子向量的标号。

然后，计算两条文本向量模型之间的余弦相似度，具体方法如下：

上式中，Sim_Language(A,B)指的是两条投诉举报事件的描述文本相似度，A、B均为举报事件编号，D′_iA、D′_iB分别指投诉举报事件A、B所对应的降维的文本空间向量，m为空间向量中的元素标号。

步骤1.7建立投诉举报事件的相似度数组，即以每两条投诉举报事件之间各个要素的相似度为元素构建相似度数组，作为事件相似度的样本数据，其形式如下所示：

x_AB＝[Sim_Time Sim_Location Sim_Object Sim_Language Sim_Status] (11)

上式中，A、B均为投诉举报事件的编号，x_AB表示举报事件A与B之间的相似度数组。

步骤2GRNN相似度模型建立

GRNN是一种由Donald Specht所提出的径向基网络，其具有较强的学习能力、结构简单且收敛速度快精度高，其结构如图1所示。利用GRNN建立投诉举报事件相似度分析模型的原理如下：

(1)输入层：GRNN输入层接收到输入数据，并且其神经元的数目与输入数据的维度大小是一致的。输入数据将通过线性函数直接传递给模式层。

(2)模式层：根据输入层传递的输入数据维度来构造模式层结构，其传递函数的表达式如下式所示：

上式当中，X代表GRNN的输入数据，X_i代表第i个神经元所对应的数，σ代表平滑因子。

(3)加和层：GRNN的加和层神经元具有两种类型，第一类即对模式层神经元输出的算数求和，如下式所示：

上式当中，S_D代表此类神经元的输出。

第二类神经元则是对模式层神经元输出的加权求和，如下式所示：

上式当中，S_Nj代表此类神经元的输出，y_ij代表输出样本Y当中的第j个元素，同时也代表第i个神经元与求和层当中第j个神经元的权重。

(4)输出层：输出层神经元的个数等于输出数据的维度大小，每个神经元将于求和层的输出相除，如下式所示：

上式当中，Y_j代表输出层的输出。

由此，GRNN相似度分析模型建立的步骤如下：

步骤2.1确定参数σ的大小。

步骤2.2将投诉举报事件的相似度数据划分为训练集与测试集两个部分。

步骤2.3把训练集输入至GRNN，同时输入参数σ，进行训练。

步骤3GRNN模型参数优化：

FOA是基于果蝇觅食原理而设计的一种智能优化算法。本发明针对FOA存在的不足进行改进，提出一种IFOA优化算法，其计算原理如下：

(1)初始化IFOA的参数，即最大迭代次数g_max、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值。

上式中，Rand为(0,1)之间的随机数，X为某一个体的位置坐标值。

(2)计算所有果蝇个体的味道浓度判定值：

(3)将所有果蝇个体的味道浓度判定值依次带入目标函数(待优化问题)，得到个体的适应度值，挑选出适应度值最小和最大所对应的个体，即最优个体和最差个体，将其位置和适应度值均记录下来。

(4)计算所有果蝇个体与最优个体以及最差个体间的距离，若其与最优个体间的距离比最差个体间的距离近，则将其划分为第一类种群，否则将其划分为第二类种群。

(5)第一类种群在最优个体的指导下进行视觉搜索，第二类种群则重新生成初始位置并进行视觉搜索，并且这两类种群的搜索半径各不相同。

(6)计算位置更新后所有果蝇个体的味道浓度判定值和适应度值，记录新的最优和最差个体的位置及适应度值，若该最优个体的适应度值大于上一代的值，则最优个体的位置仍延用上一代的位置；同理，若该最差个体的适应度值小于上一代的值，则最差个体的位置同样延用上一代的位置。

(7)进入算法的迭代过程，重复步骤(2)至(6)，若达到最大迭代次数，则算法结束，输出末代最优个体的味道浓度判定值，即目标函数的最优解。

由此，GRNN模型参数优化的步骤如下：

步骤3.1初始化IFOA的参数，即最大迭代次数g_max、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值。

步骤3.2计算所有果蝇个体的味道浓度判定值。

S＝sin(X) (17)

上式中，S为某一个体的味道浓度判定值。

步骤3.3将果蝇个体的味道浓度判定值作为参数σ输入至GRNN，同时利用投诉举报事件相似度样本数据当中的训练集对GRNN进行训练，之后采用样本数据当中的测试集对模型进行测试。此时，IFOA的目标函数将替换为模型预测结果的均方根误差函数，即RMSE，其计算方法如下式：

上式中，X_i、Y_i分别代表模型的理论输出以及实际输出的第i个元素，N代表整体数据元素的个数。

使用函数RMSE计算出GRNN模型输出的均方根误差，作为个体的适应度值，同时挑选出适应度值最小以及最大所对应的个体，即最优个体和最差个体，记录其位置及适应度值。

fitness＝f(S_n)n＝1,2,...,p (19)

[bestfitness，bestlocation]＝min(fitness) (20)

[worstfitness，worstlocation]＝max(fitness) (21)

步骤3.4计算所有果蝇个体与最优个体和最差个体间的距离，若其与最优个体间的距离比最差个体间的距离近，则将其划分为第一类种群，否则将其划分为第二类种群。

上式中，distence_best为某一个体与最优个体间的距离，X_bestlocation为最优个体的位置，distence_worst为某一个体与最差个体间的距离，X_{worstlocation}为最差个体的位置。

步骤3.5第一类种群在最优个体的指导下进行视觉搜索，第二类种群则重新生成初始位置并进行视觉搜索，并且这两类种群的搜索半径各不相同。

其中：

上式中，X_one为第一类种群当中某一个体的位置坐标，R_one为属于第一类种群个体的搜索半径，X_two为第二类种群当中某一个体的位置坐标，R_two表示属于第二类种群个体的搜索半径，g_i表示当前迭代次数，fitness_i表示当前个体的适应度值，fitness_i+1表示上一代个体的适应度值，s和t均为常量。

步骤3.6计算位置更新后所有果蝇个体的味道浓度判定值，同样将其作为参数σ输入至GRNN，利用样本数据进行训练并测试，计算出模型输出的均方根误差，作为新的个体适应度值。之后，记录新的最优和最差个体的位置及适应度值，若该最优个体的适应度值大于上一代的值，则最优个体的位置仍延用上一代的位置；同理，若该最差个体的适应度值小于上一代的值，则最差个体的位置同样延用上一代的位置。

步骤3.7进入算法的迭代过程，重复步骤3.3至3.6，若达到最大迭代次数，则算法结束，输出末代最优个体的味道浓度判定值，作为GRNN的最佳参数。

步骤4模型使用

步骤4.1按照步骤1.1收集需要计算相似度的环境类投诉举报事件的各项要素。

步骤4.2按照步骤1.2至1.6计算两条投诉举报事件之间各个要素的相似度。

步骤4.3按照步骤1.7来构造两条投诉举报事件的相似度数组，作为样本数据。

步骤4.4将样本数据输入经过参数优化的GRNN模型当中。

步骤4.5获取模型的输出，即两条投诉举报事件之间的相似度。

有益效果

本发明通过计算两条环境类投诉举报事件之间各项要素的相似度来构造样本数据，同时利用GRNN建立事件的相似度分析模型；此外，采用IFOA来对GRNN模型的参数进行寻优，以此来提高模型的精度；这一方法大大提高了判断投诉举报事件相似度的效率和准确度。

附图说明

图1为GRNN的结构。

图2为果蝇的觅食行为。

图3为本发明的实现流程。

具体实施方式

下面结合图3对本发明作进一步描述。本发明所实施的例子是用来解释本发明，并非限制其使用范围，在本发明的权利保护范围内，任何修改都将落入其保护范围。

该实例以环境污染投诉举报数据作为研究对象，从某环保举报平台获取了一定数量的有效数据，将本发明运用其中，具体步骤如下：

步骤1事件要素相似度计算

步骤1.1从所获取到的环境类投诉举报数据当中提取组成投诉举报事件的几项基本要素，即举报事件的发生时间、举报事件发生所在地的地点名称、举报事件所处的处理阶段、举报对象的名称以及举报人对举报事件的描述文本。此外，提取每两条投诉举报事件之间的相似度数值，并且确保这些数值是准确无误的。

省级地名+地级地名+县级地名+乡级地名+其它地名

那么，投诉举报事件的地点名称相似度计算方法如下：

D_i＝D(t₁,w₁；t₂,w₂；…；t_n,w_n) (7)

P_i＝tf_ij×idf_i (8)

D′_i＝D(t₁,w₁；t₂,w₂；…；t_k,w_k) (9)

上式中，Sim_Language(A,B)指的是两条投诉举报事件的描述文本相似度，A、B均为举报事件编号，Dt_iA、D′_iB分别指投诉举报事件A、B所对应的降维的文本空间向量，m为空间向量中的元素标号。

x_AB＝[Sim_Time Sim_Location Sim_Object Sim_Language Sim_Status] (11)

步骤2 GRNN相似度模型建立

步骤2.1确定参数σ的大小。

步骤2.3把训练集输入至GRNN，同时输入参数σ，进行训练。

步骤3GRNN模型参数优化

步骤3.2计算所有果蝇个体的味道浓度判定值。

S＝sin(X) (17)

上式中，S为某一个体的味道浓度判定值。

fitness＝f(S_n)n＝1,2,...,p (19)

[bestfitness，bestlocation]＝min(fitness) (20)

[worstfitness，worstlocation]＝max(fitness) (21)

上式中，n为个体标号，fitness为所有个体的适应度值集合，f(x)为目标函数，bestfitness为最优的适应度值，bestlocation为最优个体的位置，worstfitness为最差的适应度值，worstlocation为最差个体的位置。

其中：

步骤4模型使用

步骤4.4将样本数据输入经过参数优化的GRNN模型当中。

Claims

1.一种环境类投诉举报事件相似度分析方法，其特征在于：

包括以下步骤：

步骤1事件要素相似度计算

步骤1.1获取的环境类投诉举报数据，数据当中包含组成投诉举报事件的几项基本要素，即举报事件的发生时间、举报事件发生所在地的地点名称、举报事件所处的处理阶段、举报对象的名称以及举报人对举报事件的描述文本，数据当中还包含每两条投诉举报事件之间的相似度数值，并且确保这些数值是准确无误的；

步骤1.2计算每两条投诉举报事件之间的发生时间相似度，具体的计算方法如下：

上式中，Sim_Time(A,B)指的是两条投诉举报事件的发生时间相似度，A、B均为举报事件编号，Time_A、Time_B分别指事件A、B所对应的发生时间；

步骤1.3计算每两条投诉举报事件发生所在地的地点名称相似度；将所获取到的地点名称先根据中国行政区划规则进行规范化处理，即通过与中国行政区划名称进行匹配的方法将其表示为如下形式：

省级地名+地级地名+县级地名+乡级地名+其它地名

在上述针对地名的规范化处理当中，如遇缺失信息则将其所对应的位置空出；

将根据地点名称的层次进行相似度计算，具体的计算方法如下：

设投诉举报事件A、B的地点名称Location_A、Location_B的形式如下：

投诉举报事件的地点名称相似度计算方法如下：

其中，Sim_Location(A,B)指的是两条投诉举报事件的地点名称相似度，Pr_A、Pr_B分别指事件A、B的省级地名，Ci_A、Ci_B分别指事件A、B的地级地名，Co_A、Co_B分别指事件A、B的县级地名，St_A、St_B分别指事件A、B的乡级地名，Or_A、Or_B分别指事件A、B的其它地名；

步骤1.4计算每两条投诉举报事件的处理阶段之间的相似度；采用判断事件处理阶段是否相同的方式来衡量其相似度，具体方法如下：

上式中，Sim_Status(A,B)指的是两条投诉举报事件的处理阶段的相似度，A、B均为举报事件编号，Status_A、Status_B分别指事件A、B所处的处理阶段；

步骤1.5计算投诉举报事件的对象名称相似度；对于举报对象名称之间的相似度，采用Levenshtein编辑距离法来进行计算，其计算公式如下：

上式中，Sim_Object(A,B)指的是两条投诉举报事件的举报对象名称相似度，A、B均为举报事件编号，Object_A、Object_B分别指举报事件A、B所对应的举报对象名称，|Object_A|、|Object_B|分别指名称Object_A、Object_B的字符长度，

ed(Object_A,Object_B)表示将名称Object_A转换为Object_B所需要的最小操作数；

上式中，f(x)为归一化函数，x为数据集中的某一个元素，x_max为数据集中的最大值，x_min为数据集中的最小值；

步骤1.6计算每两条投诉举报事件之间举报人对举报事件的描述文本相似度：采用基于余弦距离的文本相似度计算方法，具体实施步骤如下：

D_i＝D(t₁,w₁；t₂,w₂；…；t_n,w_n) (7)

上式中，D_i为某条投诉举报文本的空间向量，i为其编号，t_n为投诉举报文本当中某个词语所对应的子向量，w_n为其权重，n为子向量的标号；

其次，采用词频-逆向文档频率算法对文本模型进行特征提取；其计算方法如下：

P_i＝tf_ij×idf_i (8)

上式中，P_i为每一个词语的综合频度，tf_ij为某个词语在一篇文档中出现的频率，idf_i为包含某个词语的文档占整个文本集的比例，i为词语标号，j为文档标号；

经过特征提取后，文本就被表示成降维的词向量，如下所示：

D′_i＝D(t₁,w₁；t₂,w₂；…；t_k,w_k) (9)

上式中，D_i’为某条投诉举报文本所对应的降维词向量，其中i为文本编号，t_k为投诉举报文本当中某个词语所对应的子向量，w_k为权重，k为子向量的标号；

上式中，Sim_Language(A,B)指的是两条投诉举报事件的描述文本相似度，A、B均为举报事件编号，D′_iA、D′_iB分别指投诉举报事件A、B所对应的降维的文本空间向量，m为空间向量中的元素标号；

x_AB＝[Sim_Time Sim_Location Sim_Object Sim_Language Sim_Status] (11)

上式中，A、B均为投诉举报事件的编号，x_AB表示举报事件A与B之间的相似度数组；

步骤2GRNN相似度模型建立

利用GRNN建立投诉举报事件相似度分析模型的原理如下：

(1)输入层：GRNN输入层接收到输入数据，并且其神经元的数目与输入数据的维度大小是一致的；输入数据将通过线性函数直接传递给模式层；

上式当中，X代表GRNN的输入数据，X_i代表第i个神经元所对应的数，σ代表平滑因子；

上式当中，S_D代表此类神经元的输出；

上式当中，S_Nj代表此类神经元的输出，y_ij代表输出样本Y当中的第j个元素，同时也代表第i个神经元与求和层当中第j个神经元的权重；

上式当中，Y_j代表输出层的输出；

由此，GRNN相似度分析模型建立的步骤如下：

步骤2.1确定参数σ的大小；

步骤2.2将投诉举报事件的相似度数据划分为训练集与测试集两个部分；

步骤2.3把训练集输入至GRNN，同时输入参数σ，进行训练；

步骤3GRNN模型参数优化

提出一种IFOA优化算法对GRNN模型参数进行优化，其计算原理如下：

(1)初始化IFOA的参数，即最大迭代次数g_max、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值；

上式中，Rand为(0,1)之间的随机数，X为某一个体的位置坐标值；

(2)计算所有果蝇个体的味道浓度判定值：

S＝sin(X) (17)

上式中，S为某一个体的味道浓度判定值；

(3)将所有果蝇个体的味道浓度判定依次带入目标函数(待优化问题)，得到个体的适应度值，挑选出适应度值最小和最大所对应的个体，即最优个体和最差个体，将其位置和适应度值均记录下来：

fitness＝f(S_n) n＝1，2，...，p (18)

[bestfitness，bestlocation]＝min(fitness) (19)

[worstfitness，worstlocation]＝max(fitness) (20)

上式中，n为个体标号，fitness为所有个体的适应度值集合，f(x)为目标函数，bestfitness为最优的适应度值，bestlocation为最优个体的位置，worstfitness为最差的适应度值，worstlocation为最差个体的位置；

(4)计算所有果蝇个体与最优个体以及最差个体间的距离，若其与最优个体间的距离比最差个体间的距离近，则将其划分为第一类种群，否则将其划分为第二类种群；

上式中，distence_best为某一个体与最优个体间的距离，X_bestlocation为最优个体的位置，distence_worst为某一个体与最差个体间的距离，X_{worstlocation}为最差个体的位置；

(5)第一类种群在最优个体的指导下进行视觉搜索，第二类种群则重新生成初始位置并进行视觉搜索，并且这两类种群的搜索半径各不相同；

其中：

上式中，X_one为第一类种群当中某一个体的位置坐标，R_one为属于第一类种群个体的搜索半径，X_two为第二类种群当中某一个体的位置坐标，R_two表示属于第二类种群个体的搜索半径，g_i表示当前迭代次数，fitness_i表示当前个体的适应度值，fitness_i+1表示上一代个体的适应度值，s和t均为常量；

(6)计算位置更新后所有果蝇个体的味道浓度判定值和适应度值，记录新的最优和最差个体的位置及适应度值，若该最优个体的适应度值大于上一代的值，则最优个体的位置仍延用上一代的位置；同理，若该最差个体的适应度值小于上一代的值，则最差个体的位置同样延用上一代的位置；

(7)进入算法的迭代过程，重复步骤(2)至(6)，若达到最大迭代次数，则算法结束，输出末代最优个体的味道浓度判定值，即目标函数的最优解；

由此，GRNN模型参数优化的步骤如下：

步骤3.1初始化IFOA的参数，即最大迭代次数g_max、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值；

步骤3.2计算所有果蝇个体的味道浓度判定值；

步骤3.3将果蝇个体的味道浓度判定值作为参数σ输入至GRNN，同时利用投诉举报事件相似度样本数据当中的训练集对GRNN进行训练，之后采用样本数据当中的测试集对模型进行测试；此时，IFOA的目标函数将替换为模型预测结果的均方根误差函数，即RMSE，其计算方法如下式：

上式中，X_i、Y_i分别代表模型的理论输出以及实际输出的第i个元素，N代表整体数据元素的个数；

使用函数RMSE计算出GRNN模型输出的均方根误差，作为个体的适应度值，同时挑选出适应度值最小以及最大所对应的个体，即最优个体和最差个体，记录其位置及适应度值；

步骤3.4计算所有果蝇个体与最优个体和最差个体间的距离，若其与最优个体间的距离比最差个体间的距离近，则将其划分为第一类种群，否则将其划分为第二类种群；

步骤3.5第一类种群在最优个体的指导下进行视觉搜索，第二类种群则重新生成初始位置并进行视觉搜索，并且这两类种群的搜索半径各不相同；

步骤3.6计算位置更新后所有果蝇个体的味道浓度判定值，同样将其作为参数σ输入至GRNN，利用样本数据进行训练并测试，计算出模型输出的均方根误差，作为新的个体适应度值；之后，记录新的最优和最差个体的位置及适应度值，若该最优个体的适应度值大于上一代的值，则最优个体的位置仍延用上一代的位置；同理，若该最差个体的适应度值小于上一代的值，则最差个体的位置同样延用上一代的位置；

步骤3.7进入算法的迭代过程，重复步骤3.3至3.6，若达到最大迭代次数，则算法结束，输出末代最优个体的味道浓度判定值，作为GRNN的最佳参数；

步骤4模型使用

步骤4.1按照步骤1.1收集需要计算相似度的环境类投诉举报事件的各项要素；

步骤4.2按照步骤1.2至1.6计算两条投诉举报事件之间各个要素的相似度；

步骤4.3按照步骤1.7来构造两条投诉举报事件的相似度数组，作为样本数据；

步骤4.4将样本数据输入经过参数优化的GRNN模型当中；