CN113064962B - 一种环境类投诉举报事件相似度分析方法 - Google Patents
一种环境类投诉举报事件相似度分析方法 Download PDFInfo
- Publication number
- CN113064962B CN113064962B CN202110282614.3A CN202110282614A CN113064962B CN 113064962 B CN113064962 B CN 113064962B CN 202110282614 A CN202110282614 A CN 202110282614A CN 113064962 B CN113064962 B CN 113064962B
- Authority
- CN
- China
- Prior art keywords
- similarity
- individuals
- individual
- event
- complaint
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 16
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 claims abstract description 49
- 238000004364 calculation method Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims abstract description 16
- 230000007613 environmental effect Effects 0.000 claims abstract description 14
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 27
- 210000002569 neuron Anatomy 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 20
- 238000010606 normalization Methods 0.000 claims description 12
- 241000894007 species Species 0.000 claims description 11
- 230000000007 visual effect Effects 0.000 claims description 10
- 238000003491 array Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000012804 iterative process Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 2
- 238000012546 transfer Methods 0.000 claims description 2
- 230000002035 prolonged effect Effects 0.000 claims 2
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000003912 environmental pollution Methods 0.000 description 4
- 230000019637 foraging behavior Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000001172 regenerating effect Effects 0.000 description 2
- 241000255588 Tephritidae Species 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Complex Calculations (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种对环境类投诉举报事件进行相似度分析的方法,旨在提高判断精度和人员的工作效率。该发明的实施包含以下几个步骤:首先获取一定数量的环境类投诉举报数据,数据应包含组成投诉举报事件的几项基本要素以及每两条事件之间的相似度;计算每两条投诉举报事件之间各个要素的相似度并构造事件的相似度数组,作为样本数据;将样本数据划分为训练集和测试集,利用训练集对广义回归神经网络(GRNN)进行训练,建立相似度计算模型,并采用经过改进的果蝇优化算法(IFOA)对模型的参数进行动态优化,进而提高模型的精度。本发明适用于环境类投诉举报事件的相似度分析,具有较高的精度,解决了人工判断所造成的精度低且效率低的问题。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种环境类投诉举报事件相似度分析方法。
背景技术
近几年,随着社会的发展,百姓大众对于环境保护的意识逐渐增强,并且大部分环保投诉举报平台都是基于互联网而设计的,这使得投诉举报变得方便而快捷,因此有关环境污染方面的投诉举报数量迅速增加。然而,环境污染投诉举报受理部门的工作量也与日俱增,工作人员每天都要阅读海量的投诉举报信息,通过分析并研判举报信息,给出相应的任务派遣建议,这会导致受理部门的工作效率大大降低。如果能够分析新的投诉举报与历史投诉举报之间的差异,以相似度较高的历史举报信息所对应的派遣建议为指导来制定新的投诉举报派遣建议,定会大大地增加工作人员的工作效率,同时提高工作的准确率。但是,如果人工来判断两条投诉举报事件之间的相似度,不仅效率低下并且准确度不高。所以,设计准确而高效的环境污染投诉举报相似度分析方法成为目前亟待解决的问题。
实际上,环境类投诉举报信息就是百姓大众向有关部门反映污染现象而产生的事件。因此,分析投诉举报之间的相似度也就是分析投诉举报事件之间的相似度,即反映两个或多个事件实体之间的相似程度。对于事件之间的相似度计算,目前最常见的方法主要是基于事件要素的相似度计算,即分别计算组成事件的各个要素之间的相似度,之后通过线性组合要素相似度或赋予要素相似度权重的方式来得到事件整体之间的相似度。但是,在上述方法当中,事件要素的线性组合方式或权重的数值往往是根据人的经验来确定,从而导致这种方法的计算精度会有所下降,同时具有较强的主观性。因此,对于事件要素相似度的组合问题,可以采用机器学习的方法来建立模型。广义回归神经网络(GRNN)具有较好的非线性拟合能力、需要确定的参数少以及收敛精度高等特点,因此适用于建立事件的相似度分析模型。
GRNN的预测精度很大程度上取决于其输入参数,即平滑因子σ的大小,而对于参数的整定问题,手动调试费时费力且精度较低,因此应用智能优化算法对其参数进行寻优无疑是最佳方法。果蝇优化算法(FOA)是潘文超仿照果蝇觅食行为而提出的,相比于遗传算法(GA)、粒子群算法(PSO)而言优化能力更强。然而,FOA也存在不足,比如搜索范围固定、种群多样性低等,这使得其在优化复杂问题时依然会收敛至局部最优。因此,需要对FOA进行改进,提出改进的果蝇优化算法(IFOA),以此提高算法的寻优能力。
发明内容
本发明针对环境类投诉举报事件相似度判断存在效率低、精度低等问题,提供了一种环境类投诉举报事件相似度分析方法。GRNN具有良好的分类能力和泛化能力,而IFOA的寻优能力比FOA更强,可以更精确地找到最佳的GRNN参数,从而提高其预测精度。
本发明的技术方案由以下步骤组成:
步骤1事件要素相似度计算
步骤1.1获取一定数量的环境类投诉举报数据,数据当中应当包含组成投诉举报事件的几项基本要素,即举报事件的发生时间、举报事件发生所在地的地点名称、举报事件所处的处理阶段、举报对象的名称以及举报人对举报事件的描述文本。此外,数据当中还应当包含每两条投诉举报事件之间的相似度数值,并且确保这些数值是准确无误的。
步骤1.2计算每两条投诉举报事件之间的发生时间相似度。由于投诉举报事件的发生时间属于时刻时间,而时刻时间也就是一个时间点。因此,对于两个时间点之间的相似度,本发明直接通过对比这两个时间点是否相同来进行判断,具体的计算方法如下:
上式中,SimTime(A,B)指的是两条投诉举报事件的发生时间相似度,A、B均为举报事件编号,TimeA、TimeB分别指事件A、B所对应的发生时间。
步骤1.3计算每两条投诉举报事件发生所在地的地点名称相似度。为了便于相似度计算,本发明将对所获取到的地点名称先根据中国行政区划规则进行规范化处理,即通过与中国行政区划名称进行匹配的方法将其表示为如下形式:
省级地名+地级地名+县级地名+乡级地名+其它地名
在上述针对地名的规范化处理当中,如遇缺失信息则将其所对应的位置空出。
由此,本发明将根据地点名称的层次进行相似度计算,具体的计算方法如下:
假设投诉举报事件A、B的地点名称LocationA、LocationB的形式如下:
那么,投诉举报事件的地点名称相似度计算方法如下:
在上面的式子当中,SimLocation(A,B)指的是两条投诉举报事件的地点名称相似度,PrA、PrB分别指事件A、B的省级地名,CtA、CiB分别指事件A、B的地级地名,CoA、CoB分别指事件A、B的县级地名,StA、StB分别指事件A、B的乡级地名,OrA、OrB分别指事件A、B的其它地名。
步骤1.4计算每两条投诉举报事件的处理阶段之间的相似度。投诉举报事件所处的处理阶段通常指的是事件的处理情况或处理进度等,它同样属于确定性要素,即每一条举报事件有且仅有一种处理阶段。因此,本发明仍直接采用判断事件处理阶段是否相同的方式来衡量其相似度,具体方法如下:
上式中,SimStatus(A,B)指的是两条投诉举报事件的处理阶段的相似度,A、B均为举报事件编号,StatusA、StatusB分别指事件A、B所处的处理阶段。
步骤1.5计算投诉举报事件的对象名称相似度。投诉举报事件的举报对象名称通常为造成该污染事件的企业或单位名称。因此,对于举报对象名称之间的相似度,本发明采用Levenshtein编辑距离法来进行计算。Levenshtein编辑距离是用来计算两个句子或字符之间的相似度,其计算公式如下:
上式中,SimObject(A,B)指的是两条投诉举报事件的举报对象名称相似度,A、B均为举报事件编号,ObjectA、ObjectB分别指举报事件A、B所对应的举报对象名称,|ObjectA|、|ObjectB|分别指名称ObjectA、ObjectB的字符长度,ed(ObjectA,ObjectB)表示将名称ObjectA转换为ObjectB所需要的最小操作数(包括插入、删除、替换等)。
由于Levenshtein编辑距离的取值范围在[0,+∞)之间,为了便于后期对数据进行分析以及建立模型,需要对数据进行归一化处理,归一化的计算方式如下:
上式中,f(x)为归一化函数,x为数据集中的某一个元素,xmax为数据集中的最大值,xmin为数据集中的最小值。
步骤1.6计算每两条投诉举报事件之间举报人对举报事件的描述文本相似度。对于文本之间的相似度,本发明采用基于余弦距离的文本相似度计算方法,具体实施步骤如下:
首先,利用jieba分词工具对文本进行词语切分,同时采用向量空间模型(VSM)法对文本进行建模,模型的表达形式如下:
Di=D(t1,w1;t2,w2;…;tn,wn) (7)
上式中,Di为某条投诉举报文本的空间向量,i为其编号,tn为投诉举报文本当中某个词语所对应的子向量,wn为其权重,n为子向量的标号。
其次,采用词频-逆向文档频率(TF-IDF)算法对文本模型进行特征提取。TF-IDF由G.Salton等人提出,其计算方法如下:
Pi=tfij×idfi (8)
上式中,Pi为每一个词语的综合频度,tfij为某个词语在一篇文档中出现的频率,idfi为包含某个词语的文档占整个文本集的比例,i为词语标号,j为文档标号。
经过特征提取后,文本就被表示成降维的词向量,如下所示。
D′i=D(t1,w1;t2,w2;…;tk,wk) (9)
上式中,Di’为某条投诉举报文本所对应的降维词向量,其中i为文本编号,tk为投诉举报文本当中某个词语所对应的子向量,wk为权重,k为子向量的标号。
然后,计算两条文本向量模型之间的余弦相似度,具体方法如下:
上式中,SimLanguage(A,B)指的是两条投诉举报事件的描述文本相似度,A、B均为举报事件编号,D′iA、D′iB分别指投诉举报事件A、B所对应的降维的文本空间向量,m为空间向量中的元素标号。
步骤1.7建立投诉举报事件的相似度数组,即以每两条投诉举报事件之间各个要素的相似度为元素构建相似度数组,作为事件相似度的样本数据,其形式如下所示:
xAB=[SimTime SimLocation SimObject SimLanguage SimStatus] (11)
上式中,A、B均为投诉举报事件的编号,xAB表示举报事件A与B之间的相似度数组。
步骤2GRNN相似度模型建立
GRNN是一种由Donald Specht所提出的径向基网络,其具有较强的学习能力、结构简单且收敛速度快精度高,其结构如图1所示。利用GRNN建立投诉举报事件相似度分析模型的原理如下:
(1)输入层:GRNN输入层接收到输入数据,并且其神经元的数目与输入数据的维度大小是一致的。输入数据将通过线性函数直接传递给模式层。
(2)模式层:根据输入层传递的输入数据维度来构造模式层结构,其传递函数的表达式如下式所示:
上式当中,X代表GRNN的输入数据,Xi代表第i个神经元所对应的数,σ代表平滑因子。
(3)加和层:GRNN的加和层神经元具有两种类型,第一类即对模式层神经元输出的算数求和,如下式所示:
上式当中,SD代表此类神经元的输出。
第二类神经元则是对模式层神经元输出的加权求和,如下式所示:
上式当中,SNj代表此类神经元的输出,yij代表输出样本Y当中的第j个元素,同时也代表第i个神经元与求和层当中第j个神经元的权重。
(4)输出层:输出层神经元的个数等于输出数据的维度大小,每个神经元将于求和层的输出相除,如下式所示:
上式当中,Yj代表输出层的输出。
由此,GRNN相似度分析模型建立的步骤如下:
步骤2.1确定参数σ的大小。
步骤2.2将投诉举报事件的相似度数据划分为训练集与测试集两个部分。
步骤2.3把训练集输入至GRNN,同时输入参数σ,进行训练。
步骤3GRNN模型参数优化:
FOA是基于果蝇觅食原理而设计的一种智能优化算法。本发明针对FOA存在的不足进行改进,提出一种IFOA优化算法,其计算原理如下:
(1)初始化IFOA的参数,即最大迭代次数gmax、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值。
上式中,Rand为(0,1)之间的随机数,X为某一个体的位置坐标值。
(2)计算所有果蝇个体的味道浓度判定值:
(3)将所有果蝇个体的味道浓度判定值依次带入目标函数(待优化问题),得到个体的适应度值,挑选出适应度值最小和最大所对应的个体,即最优个体和最差个体,将其位置和适应度值均记录下来。
(4)计算所有果蝇个体与最优个体以及最差个体间的距离,若其与最优个体间的距离比最差个体间的距离近,则将其划分为第一类种群,否则将其划分为第二类种群。
(5)第一类种群在最优个体的指导下进行视觉搜索,第二类种群则重新生成初始位置并进行视觉搜索,并且这两类种群的搜索半径各不相同。
(6)计算位置更新后所有果蝇个体的味道浓度判定值和适应度值,记录新的最优和最差个体的位置及适应度值,若该最优个体的适应度值大于上一代的值,则最优个体的位置仍延用上一代的位置;同理,若该最差个体的适应度值小于上一代的值,则最差个体的位置同样延用上一代的位置。
(7)进入算法的迭代过程,重复步骤(2)至(6),若达到最大迭代次数,则算法结束,输出末代最优个体的味道浓度判定值,即目标函数的最优解。
由此,GRNN模型参数优化的步骤如下:
步骤3.1初始化IFOA的参数,即最大迭代次数gmax、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值。
上式中,Rand为(0,1)之间的随机数,X为某一个体的位置坐标值。
步骤3.2计算所有果蝇个体的味道浓度判定值。
S=sin(X) (17)
上式中,S为某一个体的味道浓度判定值。
步骤3.3将果蝇个体的味道浓度判定值作为参数σ输入至GRNN,同时利用投诉举报事件相似度样本数据当中的训练集对GRNN进行训练,之后采用样本数据当中的测试集对模型进行测试。此时,IFOA的目标函数将替换为模型预测结果的均方根误差函数,即RMSE,其计算方法如下式:
上式中,Xi、Yi分别代表模型的理论输出以及实际输出的第i个元素,N代表整体数据元素的个数。
使用函数RMSE计算出GRNN模型输出的均方根误差,作为个体的适应度值,同时挑选出适应度值最小以及最大所对应的个体,即最优个体和最差个体,记录其位置及适应度值。
fitness=f(Sn)n=1,2,...,p (19)
[bestfitness,bestlocation]=min(fitness) (20)
[worstfitness,worstlocation]=max(fitness) (21)
步骤3.4计算所有果蝇个体与最优个体和最差个体间的距离,若其与最优个体间的距离比最差个体间的距离近,则将其划分为第一类种群,否则将其划分为第二类种群。
上式中,distencebest为某一个体与最优个体间的距离,Xbestlocation为最优个体的位置,distenceworst为某一个体与最差个体间的距离,Xworstlocation为最差个体的位置。
步骤3.5第一类种群在最优个体的指导下进行视觉搜索,第二类种群则重新生成初始位置并进行视觉搜索,并且这两类种群的搜索半径各不相同。
其中:
上式中,Xone为第一类种群当中某一个体的位置坐标,Rone为属于第一类种群个体的搜索半径,Xtwo为第二类种群当中某一个体的位置坐标,Rtwo表示属于第二类种群个体的搜索半径,gi表示当前迭代次数,fitnessi表示当前个体的适应度值,fitnessi+1表示上一代个体的适应度值,s和t均为常量。
步骤3.6计算位置更新后所有果蝇个体的味道浓度判定值,同样将其作为参数σ输入至GRNN,利用样本数据进行训练并测试,计算出模型输出的均方根误差,作为新的个体适应度值。之后,记录新的最优和最差个体的位置及适应度值,若该最优个体的适应度值大于上一代的值,则最优个体的位置仍延用上一代的位置;同理,若该最差个体的适应度值小于上一代的值,则最差个体的位置同样延用上一代的位置。
步骤3.7进入算法的迭代过程,重复步骤3.3至3.6,若达到最大迭代次数,则算法结束,输出末代最优个体的味道浓度判定值,作为GRNN的最佳参数。
步骤4模型使用
步骤4.1按照步骤1.1收集需要计算相似度的环境类投诉举报事件的各项要素。
步骤4.2按照步骤1.2至1.6计算两条投诉举报事件之间各个要素的相似度。
步骤4.3按照步骤1.7来构造两条投诉举报事件的相似度数组,作为样本数据。
步骤4.4将样本数据输入经过参数优化的GRNN模型当中。
步骤4.5获取模型的输出,即两条投诉举报事件之间的相似度。
有益效果
本发明通过计算两条环境类投诉举报事件之间各项要素的相似度来构造样本数据,同时利用GRNN建立事件的相似度分析模型;此外,采用IFOA来对GRNN模型的参数进行寻优,以此来提高模型的精度;这一方法大大提高了判断投诉举报事件相似度的效率和准确度。
附图说明
图1为GRNN的结构。
图2为果蝇的觅食行为。
图3为本发明的实现流程。
具体实施方式
下面结合图3对本发明作进一步描述。本发明所实施的例子是用来解释本发明,并非限制其使用范围,在本发明的权利保护范围内,任何修改都将落入其保护范围。
该实例以环境污染投诉举报数据作为研究对象,从某环保举报平台获取了一定数量的有效数据,将本发明运用其中,具体步骤如下:
步骤1事件要素相似度计算
步骤1.1从所获取到的环境类投诉举报数据当中提取组成投诉举报事件的几项基本要素,即举报事件的发生时间、举报事件发生所在地的地点名称、举报事件所处的处理阶段、举报对象的名称以及举报人对举报事件的描述文本。此外,提取每两条投诉举报事件之间的相似度数值,并且确保这些数值是准确无误的。
步骤1.2计算每两条投诉举报事件之间的发生时间相似度。由于投诉举报事件的发生时间属于时刻时间,而时刻时间也就是一个时间点。因此,对于两个时间点之间的相似度,本发明直接通过对比这两个时间点是否相同来进行判断,具体的计算方法如下:
上式中,SimTime(A,B)指的是两条投诉举报事件的发生时间相似度,A、B均为举报事件编号,TimeA、TimeB分别指事件A、B所对应的发生时间。
步骤1.3计算每两条投诉举报事件发生所在地的地点名称相似度。为了便于相似度计算,本发明将对所获取到的地点名称先根据中国行政区划规则进行规范化处理,即通过与中国行政区划名称进行匹配的方法将其表示为如下形式:
省级地名+地级地名+县级地名+乡级地名+其它地名
在上述针对地名的规范化处理当中,如遇缺失信息则将其所对应的位置空出。
由此,本发明将根据地点名称的层次进行相似度计算,具体的计算方法如下:
假设投诉举报事件A、B的地点名称LocationA、LocationB的形式如下:
那么,投诉举报事件的地点名称相似度计算方法如下:
在上面的式子当中,SimLocation(A,B)指的是两条投诉举报事件的地点名称相似度,PrA、PrB分别指事件A、B的省级地名,CtA、CiB分别指事件A、B的地级地名,CoA、CoB分别指事件A、B的县级地名,StA、StB分别指事件A、B的乡级地名,OrA、OrB分别指事件A、B的其它地名。
步骤1.4计算每两条投诉举报事件的处理阶段之间的相似度。投诉举报事件所处的处理阶段通常指的是事件的处理情况或处理进度等,它同样属于确定性要素,即每一条举报事件有且仅有一种处理阶段。因此,本发明仍直接采用判断事件处理阶段是否相同的方式来衡量其相似度,具体方法如下:
上式中,SimStatus(A,B)指的是两条投诉举报事件的处理阶段的相似度,A、B均为举报事件编号,StatusA、StatusB分别指事件A、B所处的处理阶段。
步骤1.5计算投诉举报事件的对象名称相似度。投诉举报事件的举报对象名称通常为造成该污染事件的企业或单位名称。因此,对于举报对象名称之间的相似度,本发明采用Levenshtein编辑距离法来进行计算。Levenshtein编辑距离是用来计算两个句子或字符之间的相似度,其计算公式如下:
上式中,SimObject(A,B)指的是两条投诉举报事件的举报对象名称相似度,A、B均为举报事件编号,ObjectA、ObjectB分别指举报事件A、B所对应的举报对象名称,|ObjectA|、|ObjectB|分别指名称ObjectA、ObjectB的字符长度,ed(ObjectA,ObjectB)表示将名称ObjectA转换为ObjectB所需要的最小操作数(包括插入、删除、替换等)。
由于Levenshtein编辑距离的取值范围在[0,+∞)之间,为了便于后期对数据进行分析以及建立模型,需要对数据进行归一化处理,归一化的计算方式如下:
上式中,f(x)为归一化函数,x为数据集中的某一个元素,xmax为数据集中的最大值,xmin为数据集中的最小值。
步骤1.6计算每两条投诉举报事件之间举报人对举报事件的描述文本相似度。对于文本之间的相似度,本发明采用基于余弦距离的文本相似度计算方法,具体实施步骤如下:
首先,利用jieba分词工具对文本进行词语切分,同时采用向量空间模型(VSM)法对文本进行建模,模型的表达形式如下:
Di=D(t1,w1;t2,w2;…;tn,wn) (7)
上式中,Di为某条投诉举报文本的空间向量,i为其编号,tn为投诉举报文本当中某个词语所对应的子向量,wn为其权重,n为子向量的标号。
其次,采用词频-逆向文档频率(TF-IDF)算法对文本模型进行特征提取。TF-IDF由G.Salton等人提出,其计算方法如下:
Pi=tfij×idfi (8)
上式中,Pi为每一个词语的综合频度,tfij为某个词语在一篇文档中出现的频率,idfi为包含某个词语的文档占整个文本集的比例,i为词语标号,j为文档标号。
经过特征提取后,文本就被表示成降维的词向量,如下所示。
D′i=D(t1,w1;t2,w2;…;tk,wk) (9)
上式中,Di’为某条投诉举报文本所对应的降维词向量,其中i为文本编号,tk为投诉举报文本当中某个词语所对应的子向量,wk为权重,k为子向量的标号。
然后,计算两条文本向量模型之间的余弦相似度,具体方法如下:
上式中,SimLanguage(A,B)指的是两条投诉举报事件的描述文本相似度,A、B均为举报事件编号,DtiA、D′iB分别指投诉举报事件A、B所对应的降维的文本空间向量,m为空间向量中的元素标号。
步骤1.7建立投诉举报事件的相似度数组,即以每两条投诉举报事件之间各个要素的相似度为元素构建相似度数组,作为事件相似度的样本数据,其形式如下所示:
xAB=[SimTime SimLocation SimObject SimLanguage SimStatus] (11)
上式中,A、B均为投诉举报事件的编号,xAB表示举报事件A与B之间的相似度数组。
步骤2 GRNN相似度模型建立
步骤2.1确定参数σ的大小。
步骤2.2将投诉举报事件的相似度数据划分为训练集与测试集两个部分。
步骤2.3把训练集输入至GRNN,同时输入参数σ,进行训练。
步骤3GRNN模型参数优化
步骤3.1初始化IFOA的参数,即最大迭代次数gmax、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值。
上式中,Rand为(0,1)之间的随机数,X为某一个体的位置坐标值。
步骤3.2计算所有果蝇个体的味道浓度判定值。
S=sin(X) (17)
上式中,S为某一个体的味道浓度判定值。
步骤3.3将果蝇个体的味道浓度判定值作为参数σ输入至GRNN,同时利用投诉举报事件相似度样本数据当中的训练集对GRNN进行训练,之后采用样本数据当中的测试集对模型进行测试。此时,IFOA的目标函数将替换为模型预测结果的均方根误差函数,即RMSE,其计算方法如下式:
上式中,Xi、Yi分别代表模型的理论输出以及实际输出的第i个元素,N代表整体数据元素的个数。
使用函数RMSE计算出GRNN模型输出的均方根误差,作为个体的适应度值,同时挑选出适应度值最小以及最大所对应的个体,即最优个体和最差个体,记录其位置及适应度值。
fitness=f(Sn)n=1,2,...,p (19)
[bestfitness,bestlocation]=min(fitness) (20)
[worstfitness,worstlocation]=max(fitness) (21)
上式中,n为个体标号,fitness为所有个体的适应度值集合,f(x)为目标函数,bestfitness为最优的适应度值,bestlocation为最优个体的位置,worstfitness为最差的适应度值,worstlocation为最差个体的位置。
步骤3.4计算所有果蝇个体与最优个体和最差个体间的距离,若其与最优个体间的距离比最差个体间的距离近,则将其划分为第一类种群,否则将其划分为第二类种群。
上式中,distencebest为某一个体与最优个体间的距离,Xbestlocation为最优个体的位置,distenceworst为某一个体与最差个体间的距离,Xworstlocation为最差个体的位置。
步骤3.5第一类种群在最优个体的指导下进行视觉搜索,第二类种群则重新生成初始位置并进行视觉搜索,并且这两类种群的搜索半径各不相同。
其中:
上式中,Xone为第一类种群当中某一个体的位置坐标,Rone为属于第一类种群个体的搜索半径,Xtwo为第二类种群当中某一个体的位置坐标,Rtwo表示属于第二类种群个体的搜索半径,gi表示当前迭代次数,fitnessi表示当前个体的适应度值,fitnessi+1表示上一代个体的适应度值,s和t均为常量。
步骤3.6计算位置更新后所有果蝇个体的味道浓度判定值,同样将其作为参数σ输入至GRNN,利用样本数据进行训练并测试,计算出模型输出的均方根误差,作为新的个体适应度值。之后,记录新的最优和最差个体的位置及适应度值,若该最优个体的适应度值大于上一代的值,则最优个体的位置仍延用上一代的位置;同理,若该最差个体的适应度值小于上一代的值,则最差个体的位置同样延用上一代的位置。
步骤3.7进入算法的迭代过程,重复步骤3.3至3.6,若达到最大迭代次数,则算法结束,输出末代最优个体的味道浓度判定值,作为GRNN的最佳参数。
步骤4模型使用
步骤4.1按照步骤1.1收集需要计算相似度的环境类投诉举报事件的各项要素。
步骤4.2按照步骤1.2至1.6计算两条投诉举报事件之间各个要素的相似度。
步骤4.3按照步骤1.7来构造两条投诉举报事件的相似度数组,作为样本数据。
步骤4.4将样本数据输入经过参数优化的GRNN模型当中。
步骤4.5获取模型的输出,即两条投诉举报事件之间的相似度。
Claims (1)
1.一种环境类投诉举报事件相似度分析方法,其特征在于:
包括以下步骤:
步骤1事件要素相似度计算
步骤1.1获取的环境类投诉举报数据,数据当中包含组成投诉举报事件的几项基本要素,即举报事件的发生时间、举报事件发生所在地的地点名称、举报事件所处的处理阶段、举报对象的名称以及举报人对举报事件的描述文本,数据当中还包含每两条投诉举报事件之间的相似度数值,并且确保这些数值是准确无误的;
步骤1.2计算每两条投诉举报事件之间的发生时间相似度,具体的计算方法如下:
上式中,SimTime(A,B)指的是两条投诉举报事件的发生时间相似度,A、B均为举报事件编号,TimeA、TimeB分别指事件A、B所对应的发生时间;
步骤1.3计算每两条投诉举报事件发生所在地的地点名称相似度;将所获取到的地点名称先根据中国行政区划规则进行规范化处理,即通过与中国行政区划名称进行匹配的方法将其表示为如下形式:
省级地名+地级地名+县级地名+乡级地名+其它地名
在上述针对地名的规范化处理当中,如遇缺失信息则将其所对应的位置空出;
将根据地点名称的层次进行相似度计算,具体的计算方法如下:
设投诉举报事件A、B的地点名称LocationA、LocationB的形式如下:
投诉举报事件的地点名称相似度计算方法如下:
其中,SimLocation(A,B)指的是两条投诉举报事件的地点名称相似度,PrA、PrB分别指事件A、B的省级地名,CiA、CiB分别指事件A、B的地级地名,CoA、CoB分别指事件A、B的县级地名,StA、StB分别指事件A、B的乡级地名,OrA、OrB分别指事件A、B的其它地名;
步骤1.4计算每两条投诉举报事件的处理阶段之间的相似度;采用判断事件处理阶段是否相同的方式来衡量其相似度,具体方法如下:
上式中,SimStatus(A,B)指的是两条投诉举报事件的处理阶段的相似度,A、B均为举报事件编号,StatusA、StatusB分别指事件A、B所处的处理阶段;
步骤1.5计算投诉举报事件的对象名称相似度;对于举报对象名称之间的相似度,采用Levenshtein编辑距离法来进行计算,其计算公式如下:
上式中,SimObject(A,B)指的是两条投诉举报事件的举报对象名称相似度,A、B均为举报事件编号,ObjectA、ObjectB分别指举报事件A、B所对应的举报对象名称,|ObjectA|、|ObjectB|分别指名称ObjectA、ObjectB的字符长度,
ed(ObjectA,ObjectB)表示将名称ObjectA转换为ObjectB所需要的最小操作数;
由于Levenshtein编辑距离的取值范围在[0,+∞)之间,为了便于后期对数据进行分析以及建立模型,需要对数据进行归一化处理,归一化的计算方式如下:
上式中,f(x)为归一化函数,x为数据集中的某一个元素,xmax为数据集中的最大值,xmin为数据集中的最小值;
步骤1.6计算每两条投诉举报事件之间举报人对举报事件的描述文本相似度:采用基于余弦距离的文本相似度计算方法,具体实施步骤如下:
首先,利用jieba分词工具对文本进行词语切分,同时采用向量空间模型(VSM)法对文本进行建模,模型的表达形式如下:
Di=D(t1,w1;t2,w2;…;tn,wn) (7)
上式中,Di为某条投诉举报文本的空间向量,i为其编号,tn为投诉举报文本当中某个词语所对应的子向量,wn为其权重,n为子向量的标号;
其次,采用词频-逆向文档频率算法对文本模型进行特征提取;其计算方法如下:
Pi=tfij×idfi (8)
上式中,Pi为每一个词语的综合频度,tfij为某个词语在一篇文档中出现的频率,idfi为包含某个词语的文档占整个文本集的比例,i为词语标号,j为文档标号;
经过特征提取后,文本就被表示成降维的词向量,如下所示:
D′i=D(t1,w1;t2,w2;…;tk,wk) (9)
上式中,Di’为某条投诉举报文本所对应的降维词向量,其中i为文本编号,tk为投诉举报文本当中某个词语所对应的子向量,wk为权重,k为子向量的标号;
然后,计算两条文本向量模型之间的余弦相似度,具体方法如下:
上式中,SimLanguage(A,B)指的是两条投诉举报事件的描述文本相似度,A、B均为举报事件编号,D′iA、D′iB分别指投诉举报事件A、B所对应的降维的文本空间向量,m为空间向量中的元素标号;
步骤1.7建立投诉举报事件的相似度数组,即以每两条投诉举报事件之间各个要素的相似度为元素构建相似度数组,作为事件相似度的样本数据,其形式如下所示:
xAB=[SimTime SimLocation SimObject SimLanguage SimStatus] (11)
上式中,A、B均为投诉举报事件的编号,xAB表示举报事件A与B之间的相似度数组;
步骤2GRNN相似度模型建立
利用GRNN建立投诉举报事件相似度分析模型的原理如下:
(1)输入层:GRNN输入层接收到输入数据,并且其神经元的数目与输入数据的维度大小是一致的;输入数据将通过线性函数直接传递给模式层;
(2)模式层:根据输入层传递的输入数据维度来构造模式层结构,其传递函数的表达式如下式所示:
上式当中,X代表GRNN的输入数据,Xi代表第i个神经元所对应的数,σ代表平滑因子;
(3)加和层:GRNN的加和层神经元具有两种类型,第一类即对模式层神经元输出的算数求和,如下式所示:
上式当中,SD代表此类神经元的输出;
第二类神经元则是对模式层神经元输出的加权求和,如下式所示:
上式当中,SNj代表此类神经元的输出,yij代表输出样本Y当中的第j个元素,同时也代表第i个神经元与求和层当中第j个神经元的权重;
(4)输出层:输出层神经元的个数等于输出数据的维度大小,每个神经元将于求和层的输出相除,如下式所示:
上式当中,Yj代表输出层的输出;
由此,GRNN相似度分析模型建立的步骤如下:
步骤2.1确定参数σ的大小;
步骤2.2将投诉举报事件的相似度数据划分为训练集与测试集两个部分;
步骤2.3把训练集输入至GRNN,同时输入参数σ,进行训练;
步骤3GRNN模型参数优化
提出一种IFOA优化算法对GRNN模型参数进行优化,其计算原理如下:
(1)初始化IFOA的参数,即最大迭代次数gmax、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值;
上式中,Rand为(0,1)之间的随机数,X为某一个体的位置坐标值;
(2)计算所有果蝇个体的味道浓度判定值:
S=sin(X) (17)
上式中,S为某一个体的味道浓度判定值;
(3)将所有果蝇个体的味道浓度判定依次带入目标函数(待优化问题),得到个体的适应度值,挑选出适应度值最小和最大所对应的个体,即最优个体和最差个体,将其位置和适应度值均记录下来:
fitness=f(Sn) n=1,2,...,p (18)
[bestfitness,bestlocation]=min(fitness) (19)
[worstfitness,worstlocation]=max(fitness) (20)
上式中,n为个体标号,fitness为所有个体的适应度值集合,f(x)为目标函数,bestfitness为最优的适应度值,bestlocation为最优个体的位置,worstfitness为最差的适应度值,worstlocation为最差个体的位置;
(4)计算所有果蝇个体与最优个体以及最差个体间的距离,若其与最优个体间的距离比最差个体间的距离近,则将其划分为第一类种群,否则将其划分为第二类种群;
上式中,distencebest为某一个体与最优个体间的距离,Xbestlocation为最优个体的位置,distenceworst为某一个体与最差个体间的距离,Xworstlocation为最差个体的位置;
(5)第一类种群在最优个体的指导下进行视觉搜索,第二类种群则重新生成初始位置并进行视觉搜索,并且这两类种群的搜索半径各不相同;
其中:
上式中,Xone为第一类种群当中某一个体的位置坐标,Rone为属于第一类种群个体的搜索半径,Xtwo为第二类种群当中某一个体的位置坐标,Rtwo表示属于第二类种群个体的搜索半径,gi表示当前迭代次数,fitnessi表示当前个体的适应度值,fitnessi+1表示上一代个体的适应度值,s和t均为常量;
(6)计算位置更新后所有果蝇个体的味道浓度判定值和适应度值,记录新的最优和最差个体的位置及适应度值,若该最优个体的适应度值大于上一代的值,则最优个体的位置仍延用上一代的位置;同理,若该最差个体的适应度值小于上一代的值,则最差个体的位置同样延用上一代的位置;
(7)进入算法的迭代过程,重复步骤(2)至(6),若达到最大迭代次数,则算法结束,输出末代最优个体的味道浓度判定值,即目标函数的最优解;
由此,GRNN模型参数优化的步骤如下:
步骤3.1初始化IFOA的参数,即最大迭代次数gmax、种群规模p、初始搜索半径R、果蝇个体的初始位置坐标X以及s和t的值;
步骤3.2计算所有果蝇个体的味道浓度判定值;
步骤3.3将果蝇个体的味道浓度判定值作为参数σ输入至GRNN,同时利用投诉举报事件相似度样本数据当中的训练集对GRNN进行训练,之后采用样本数据当中的测试集对模型进行测试;此时,IFOA的目标函数将替换为模型预测结果的均方根误差函数,即RMSE,其计算方法如下式:
上式中,Xi、Yi分别代表模型的理论输出以及实际输出的第i个元素,N代表整体数据元素的个数;
使用函数RMSE计算出GRNN模型输出的均方根误差,作为个体的适应度值,同时挑选出适应度值最小以及最大所对应的个体,即最优个体和最差个体,记录其位置及适应度值;
步骤3.4计算所有果蝇个体与最优个体和最差个体间的距离,若其与最优个体间的距离比最差个体间的距离近,则将其划分为第一类种群,否则将其划分为第二类种群;
步骤3.5第一类种群在最优个体的指导下进行视觉搜索,第二类种群则重新生成初始位置并进行视觉搜索,并且这两类种群的搜索半径各不相同;
步骤3.6计算位置更新后所有果蝇个体的味道浓度判定值,同样将其作为参数σ输入至GRNN,利用样本数据进行训练并测试,计算出模型输出的均方根误差,作为新的个体适应度值;之后,记录新的最优和最差个体的位置及适应度值,若该最优个体的适应度值大于上一代的值,则最优个体的位置仍延用上一代的位置;同理,若该最差个体的适应度值小于上一代的值,则最差个体的位置同样延用上一代的位置;
步骤3.7进入算法的迭代过程,重复步骤3.3至3.6,若达到最大迭代次数,则算法结束,输出末代最优个体的味道浓度判定值,作为GRNN的最佳参数;
步骤4模型使用
步骤4.1按照步骤1.1收集需要计算相似度的环境类投诉举报事件的各项要素;
步骤4.2按照步骤1.2至1.6计算两条投诉举报事件之间各个要素的相似度;
步骤4.3按照步骤1.7来构造两条投诉举报事件的相似度数组,作为样本数据;
步骤4.4将样本数据输入经过参数优化的GRNN模型当中;
步骤4.5获取模型的输出,即两条投诉举报事件之间的相似度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282614.3A CN113064962B (zh) | 2021-03-16 | 2021-03-16 | 一种环境类投诉举报事件相似度分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110282614.3A CN113064962B (zh) | 2021-03-16 | 2021-03-16 | 一种环境类投诉举报事件相似度分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113064962A CN113064962A (zh) | 2021-07-02 |
CN113064962B true CN113064962B (zh) | 2024-03-15 |
Family
ID=76560724
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110282614.3A Active CN113064962B (zh) | 2021-03-16 | 2021-03-16 | 一种环境类投诉举报事件相似度分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113064962B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
CN105654207A (zh) * | 2016-01-07 | 2016-06-08 | 国网辽宁省电力有限公司锦州供电公司 | 基于风速、风向信息的风电功率预测方法 |
CN107861942A (zh) * | 2017-10-11 | 2018-03-30 | 国网浙江省电力公司电力科学研究院 | 一种基于深度学习的电力疑似投诉工单识别方法 |
CN108846527A (zh) * | 2018-08-27 | 2018-11-20 | 云南电网有限责任公司电力科学研究院 | 一种光伏发电功率预测方法 |
CN111651936A (zh) * | 2020-05-27 | 2020-09-11 | 辽宁工程技术大学 | 一种基于foa-grnn的双陷波特性超宽带天线建模设计方法 |
CN111753083A (zh) * | 2020-05-10 | 2020-10-09 | 北京工业大学 | 一种基于svm参数优化的投诉举报文本分类方法 |
-
2021
- 2021-03-16 CN CN202110282614.3A patent/CN113064962B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120323968A1 (en) * | 2011-06-14 | 2012-12-20 | Microsoft Corporation | Learning Discriminative Projections for Text Similarity Measures |
CN105654207A (zh) * | 2016-01-07 | 2016-06-08 | 国网辽宁省电力有限公司锦州供电公司 | 基于风速、风向信息的风电功率预测方法 |
CN107861942A (zh) * | 2017-10-11 | 2018-03-30 | 国网浙江省电力公司电力科学研究院 | 一种基于深度学习的电力疑似投诉工单识别方法 |
CN108846527A (zh) * | 2018-08-27 | 2018-11-20 | 云南电网有限责任公司电力科学研究院 | 一种光伏发电功率预测方法 |
CN111753083A (zh) * | 2020-05-10 | 2020-10-09 | 北京工业大学 | 一种基于svm参数优化的投诉举报文本分类方法 |
CN111651936A (zh) * | 2020-05-27 | 2020-09-11 | 辽宁工程技术大学 | 一种基于foa-grnn的双陷波特性超宽带天线建模设计方法 |
Non-Patent Citations (3)
Title |
---|
基于DBM的电力投诉工单分类的应用研究;杨恒 等;计算技术与自动化;20200928(03);全文 * |
基于FOA-GRNN的软岩隧道围岩变形预测模型;姚凯 等;地下空间与工程学报;20191215(S2);全文 * |
广义回归神经网络的改进及在预测控制中的应用;王少福 等;微电子学与计算机;20090605;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113064962A (zh) | 2021-07-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674970A (zh) | 企业法务风险预警方法、装置、设备及可读存储介质 | |
CN112989761B (zh) | 文本分类方法及装置 | |
Arqawi et al. | Predicting Employee Attrition and Performance Using Deep Learning | |
CN109241446B (zh) | 一种职位推荐方法及系统 | |
CN112199512B (zh) | 面向科技服务的事理图谱构建方法、装置、设备及存储介质 | |
CN109740160B (zh) | 一种基于人工智能语义分析的任务发布方法 | |
CN111008262A (zh) | 一种基于知识图谱的律师评估方法和推荐方法 | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN113837578B (zh) | 一种电力监理企业网格化监督管理评价方法 | |
Prilistya et al. | Tourism demand time series forecasting: A systematic literature review | |
CN114548494A (zh) | 一种可视化造价数据预测智能分析系统 | |
CN113722494A (zh) | 一种基于自然语言理解的设备故障定位方法 | |
CN117314593A (zh) | 一种基于用户行为分析的保险项目推送方法及系统 | |
CN112559741A (zh) | 核电设备缺陷记录文本分类方法、系统、介质及电子设备 | |
CN113064962B (zh) | 一种环境类投诉举报事件相似度分析方法 | |
JP2018147351A (ja) | 知識モデル構築システム及び知識モデル構築方法 | |
CN116226404A (zh) | 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统 | |
CN109241146A (zh) | 集群环境下的学生智助方法和系统 | |
CN114818849A (zh) | 基于大数据信息的卷积神经网络和遗传算法的反窃电方法 | |
CN114282657A (zh) | 一种市场数据长期预测模型训练方法、装置、设备及存储介质 | |
CN111814457A (zh) | 一种电网工程合同文本生成方法 | |
CN105871630A (zh) | 一种确定网络用户的上网行为类别的方法 | |
CN112650949A (zh) | 基于多源特征融合协同过滤的区域poi需求识别方法 | |
Khalyasmaa et al. | Problems of criteria analysis and interpretation in automated systems for assessing scientific and technical solutions | |
Syafiandini et al. | Classification of Indonesian Government Budget Appropriations or Outlays for Research and Development (GBAORD) using decision tree and naive bayes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |