CN113420070B - 排污监测数据处理方法、装置、电子设备及存储介质 - Google Patents

排污监测数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113420070B
CN113420070B CN202110703211.1A CN202110703211A CN113420070B CN 113420070 B CN113420070 B CN 113420070B CN 202110703211 A CN202110703211 A CN 202110703211A CN 113420070 B CN113420070 B CN 113420070B
Authority
CN
China
Prior art keywords
distance
sub
subsequence
detected
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110703211.1A
Other languages
English (en)
Other versions
CN113420070A (zh
Inventor
程艾
刘亚庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202110703211.1A priority Critical patent/CN113420070B/zh
Publication of CN113420070A publication Critical patent/CN113420070A/zh
Application granted granted Critical
Publication of CN113420070B publication Critical patent/CN113420070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Primary Health Care (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据处理技术领域,本发明的排污监测数据处理方法、装置、电子设备及存储介质,基于矩阵画像算法从排污监测历史数据中挖掘不同距离模式长度的相似性极高的多个子序列,将相似度极高的子序列按照距离模式长度进行聚类形成对应的距离模式;将实时采集的待测排污监测数据分别构建为多个待测子片段集合,将每个待测子片段与对应的距离模式进行匹配,根据匹配结果判断待测子片段是否为异常子片段;通过上述方式,通过长期的排污监测历史数据挖掘用于表征企业排放行为特征的多个距离模式,在出现超标排放事件之前,能够及时分析获取与企业的各距离模式不匹配的待测子片段,对污水处理工艺异常进行提前预警,降低出现超标排放的概率。

Description

排污监测数据处理方法、装置、电子设备及存储介质
【技术领域】
本发明涉及数据处理技术领域,尤其涉及一种排污监测数据处理方法、装置、电子设备及存储介质。
【背景技术】
排污企业监管与环境保护工作一直是密切相关,但是企业众多、人员有限,排放的监测异常识别存在专业性强,时效性强等要求,使得目前的监管存在一定的困难。
现有技术中,在企业的污水排出处设置了监测设备,实时监测企业排出的污水中各污染源的含量,当某个时刻采集的污染源含量超标时进行报警,从污水处理工艺出现问题到污染源超标之间有一段时间间隔,如果能够在此时间间隔内发现污水处理工艺出现问题,针对出现的问题及时处置,就能避免超标排放的发生,现有技术对企业排放行为特征挖掘不充分,无法根据实时监测数据对污水处理工艺异常进行提醒预警。
【发明内容】
本发明的目的在于提供一种排污监测数据处理方法、装置、电子设备及存储介质,以解决现有技术中无法根据实时监测数据对污水处理工艺异常进行提醒预警的技术问题。
本发明的技术方案如下:提供一种排污监测数据处理方法,包括:
获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,其中,每个所述子序列集合中包括多个子序列,所述子序列是从所述排污监测历史数据中截取的,所述子序列的长度为对应子序列集合的距离模式长度;
获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,其中,所述矩阵画像包括每个所述子序列与所述子序列集合中的其余每个子序列之间距离中的最小距离值,所述画像索引用于记录每个所述子序列的最相似子序列在所述排污监测历史数据中的位置信息,所述最相似子序列与所述子序列之间的距离为所述最小距离值;
获取每个所述矩阵画像中各最小距离值的最小值,根据所述矩阵画像对应的最小值获取调整值,在所述矩阵画像中选择小于或等于所述调整值的最小距离值,根据所选择的最小距离值以及所述画像索引获取对应的子序列,根据所获取的子序列生成与所述距离模式长度对应的距离模式;
获取所述目标企业的待测排污监测数据,根据所述待测排污监测数据获取不同距离模式长度的待测子片段集合,其中,每个所述待测子片段集合中包括至少一个待测子片段,所述待测子片段是从所述待测排污监测数据中截取的,所述待测子片段的长度为对应待测子片段集合的距离模式长度;
将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段。
可选地,所述根据所述排污监测历史数据获取不同距离模式长度的子序列集合,包括:
根据不同的距离模式长度构建对应的滑动窗口,其中,所述滑动窗口的长度为对应的距离模式长度;
将每个所述滑动窗口在所述排污监测历史数据上以预设滑动步长进行滑动,获取所述滑动窗口内的片段作为子序列,根据多个所述子序列构建对应距离模式的所述子序列集合。
可选地,所述获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,包括:
获取所述子序列集合中每个子序列与其余子序列之间的距离,根据所述距离构建每个子序列的距离矩阵;
从所述子序列的距离矩阵获取最小距离值,根据所述最小距离值获取所述子序列的最相似子序列,获取所述最相似子序列在所述排污监测历史数据中的位置信息;
根据每个所述子序列的最小距离值构建每个所述子序列集合的矩阵画像,根据所述最相似子序列的所述位置信息构建所述矩阵画像的画像索引。
可选地,所述将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段,包括:
分别计算每个所述待测子片段与对应距离模式中每个子序列的距离;
计算所述距离的距离平均值,将所述距离平均值作为所述待测子片段与所述距离模式的匹配距离值;
当所述匹配距离值大于或等于预设距离阈值时,判断所述待测子片段为异常子片段。
可选地,所述将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段,包括:
根据所述待测子片段的时序数据拟合生成待测子曲线,根据与所述待测子片段对应的所述距离模式中每个所述子序列的时序数据拟合生成模式子曲线;
针对所述待测子曲线,根据预设时间间隔从所述待测子曲线中依次提取多个待测时间数据;
根据所述预设时间间隔从所述距离模式中每个所述模式子曲线中依次提取多个参考时间数据;
针对所述距离模式中每个所述模式子曲线,根据提取的各所述参考时间数据以及各所述待测时间数据,获取所述待测子曲线与所述模式子曲线的相似度;
根据所述待测子曲线与所述距离模式中各所述模式子曲线的相似度,获取所述待测子曲线对应的待测子片段与所述距离模式的匹配相似度值;
当所述匹配相似度值小于或等于预设相似度阈值时,判断所述待测子片段为异常子片段。
可选地,所述获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,包括:
获取目标企业的排污监测历史数据,根据所述排污监测历史数据中各采样点的采样值计算所述排污监测历史数据的采样均值;
利用所述采样均值对所述排污监测历史数据的空值进行填充;
根据填充后的所述排污监测历史数据获取不同距离模式长度的子序列集合。
可选地,所述获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引之后,还包括:
获取每个所述矩阵画像中各最小距离值的最大值,将所述最大值对应的子序列作为异常历史数据。
本发明的另一技术方案如下:提供一种排污监测数据处理装置,包括:
历史数据采集模块,用于获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,其中,每个所述子序列集合中包括多个子序列,所述子序列是从所述排污监测历史数据中截取的,所述子序列的长度为对应子序列集合的距离模式长度;
矩阵画像模块,用于获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,其中,所述矩阵画像包括每个所述子序列与所述子序列集合中的其余每个子序列之间距离中的最小距离值,所述画像索引用于记录每个所述子序列的最相似子序列在所述排污监测历史数据中的位置信息,所述最相似子序列与所述子序列之间的距离为所述最小距离值;
距离模式模块,用于获取每个所述矩阵画像中各最小距离值的最小值,根据所述矩阵画像对应的最小值获取调整值,在所述矩阵画像中选择小于或等于所述调整值的最小距离值,根据所选择的最小距离值以及所述画像索引获取对应的子序列,根据所获取的子序列生成与所述距离模式长度对应的距离模式;
待测数据采集模块,用于获取所述目标企业的待测排污监测数据,根据所述待测排污监测数据获取不同距离模式长度的待测子片段集合,其中,每个所述待测子片段集合中包括至少一个待测子片段,所述待测子片段是从所述待测排污监测数据中截取的,所述待测子片段的长度为对应待测子片段集合的距离模式长度;
匹配模块,用于将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段。
本发明的另一技术方案如下:提供一种电子设备,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现上述的排污监测数据处理方法。
本发明的另一技术方案如下:提供一种存储介质,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现能够实现上述的排污监测数据处理方法。
本发明的排污监测数据处理方法、装置、电子设备及存储介质,基于矩阵画像算法从排污监测历史数据中挖掘不同距离模式长度的相似性极高的多个子序列,将相似度极高的子序列按照距离模式长度进行聚类形成对应的距离模式,用于表征企业排污行为特征;将实时采集的待测排污监测数据按照预先构建的不同的距离模式长度进行连续截取,形成了多个待测子片段集合,将每个待测子片段与对应的距离模式进行匹配,根据匹配结果判断待测子片段是否为异常子片段;通过上述方式,通过目标企业的长期的排污监测历史数据挖掘用于表征企业排放行为特征的多个距离模式,在出现超标排放事件之前,能够及时分析获取与企业的各距离模式不匹配的待测子片段,对污水处理工艺异常进行提前预警,降低出现超标排放的概率。
【附图说明】
图1为本发明第一实施例的排污监测数据处理方法的流程图;
图2为本发明第一实施例的排污监测数据处理方法中S101的子步骤流程图;
图3为本发明第一实施例的排污监测数据处理方法中S102的子步骤流程图;
图4为本发明第一实施例的排污监测数据处理方法中S105的子步骤流程图;
图5为本发明第一实施例的排污监测数据处理方法中S105的另一实施方式的子步骤流程图;
图6为本发明第一实施例的排污监测数据处理方法中S101的另一实施方式的子步骤流程图;
图7为本发明第一实施例的排污监测数据处理方法另一实施方式的流程图;
图8为本发明第二实施例的排污监测数据处理装置的结构示意图;
图9为本发明第三实施例的电子设备的结构示意图;
图10为本发明第四实施例的存储介质的结构示意图。
【具体实施方式】
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本发明实施例中所有方向性指示(诸如上、下、左、右、前、后......)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
企业生产过程中产生的原始污水需要经过污水处理,达到排放标准后才能排出,为了解企业各污染源排放状况,环保监管部门在企业的污水排出处设置了监测设备,实时监测企业排出的污水中各污染源的含量。
图1为本发明第一实施例的排污监测数据处理方法的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该排污监测数据处理方法包括步骤:
S101,获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,其中,每个所述子序列集合中包括多个子序列,所述子序列是从所述排污监测历史数据中截取的,所述子序列的长度为对应子序列集合的距离模式长度。
其中,排污监测历史数据是时间序列数据,是历史时间段内不同时刻的采样点的采样值按照时间顺序排列形成的,采样值为实数值,历史时间段的长度可以为一年(例如,2020年1月1日0时至2020年12月31日0时),也可以为三个月,也可以为一个月。排污监测历史数据是企业排放的污水中某个污染源的监测数据,例如,为有害物质A的监测数据,每个采样点的采样值可以为有害物质A的质量浓度或摩尔浓度。
其中,子序列表示在排污监测历史数据中截取的一定长度的一段序列,设排污监测历史数据为T,当距离模式长度为m1时,对应的子序列集合中的子序列Ti,m1,表示从中第i个位置开始的长度为m1的连续片段,在形式上,Ti,m1=ti,ti+1,…,ti+m1-1,其中1≤i≤n-m1+1;当距离模式长度为m2时,对应的子序列集合中的子序列Ti,m2,表示从中第i个位置开始的长度为m2的连续片段,在形式上,Ti,m2=ti,ti+1,…,ti+m2-1,其中1≤i≤n-m2+1。距离模式长度可以为1天、12小时、6小时、3小时、2小时、30分钟等,在本实施例中,根据排污监测历史数据构建多个不同距离模式的子序列集合。
在一个可选的实施方式中,可以利用滑动窗口截取子序列,步骤S101中根据所述排污监测历史数据获取不同距离模式长度的子序列集合,请参阅图2所示,具体包括如下步骤:
S201,根据不同的距离模式长度构建对应的滑动窗口,其中,所述滑动窗口的长度为对应的距离模式长度;
S202,将每个所述滑动窗口在所述排污监测历史数据上以预设滑动步长进行滑动,获取所述滑动窗口内的片段作为子序列,根据多个所述子序列构建对应距离模式的所述子序列集合;
其中,为了避免相邻的两个子序列中片段重叠太多,预设滑动步长可以大于m/2;为了保证子序列对排污监测历史数据中的覆盖范围,预设滑动步长小于或等于m,m为滑动窗口的长度,也是对应距离模式长度。
S102,获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,其中,所述矩阵画像包括每个所述子序列与所述子序列集合中的其余每个子序列之间距离中的最小距离值,所述画像索引用于记录每个所述子序列的最相似子序列在所述排污监测历史数据中的位置信息,所述子序列与所述最相似子序列之间的距离为所述最小距离值。
其中,矩阵画像中每个元素为每个子序列与其余所有子序列中距离的最小距离值,矩阵画像为每个子序列与其最相似子序列之间的距离组成的向量。
在一个可选的实施方式中,步骤S102中获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,请参阅图3所示,具体包括如下步骤:
S301,获取所述子序列集合中每个子序列与其余子序列之间的距离,根据所述距离构建每个子序列的距离矩阵;
其中,当距离模式长度为m时,子序列集合中子序列的数量为n,对应的子序列集合中的子序列Ti,m,子序列Ti,m的距离矩阵Di,m=[di,1,di,2,…,di,n-1],其中,di,j是子序列Ti,m与其余子序列Tj,m之间的距离,其中,1≤j≤n-1。
其中,距离di,j为子序列Ti,m与其余子序列Tj,m之间的欧式距离,计算公式如下:
Figure BDA0003131031240000091
其中,m表示子序列的长度,μi表示子序列Ti,m的均值,δi表示子序列Ti,m的标准差,μj表示其余子序列Tj,m的均值,δj表示其余子序列Tj,m的标准差,QTi,j表示子序列Ti,m与其余子序列Tj,m之间的点积。具体地,子序列Ti,m=[a1,a2,…,am],其余子序列Tj,m=[b1,b2,…,bm],
Figure BDA0003131031240000092
其中,两个子序列之间的欧式距离越小,该两个子序列之间的相似度越高,子序列集合中每个子序列与其余子序列之间的距离,该子序列的距离矩阵表征该子序列与其余每个子序列的相似度。
S302,从所述子序列的距离矩阵获取最小距离值,根据所述最小距离值获取所述子序列的最相似子序列,获取所述最相似子序列在所述排污监测历史数据中的位置信息;
其中,子序列Ti,m的距离矩阵Di,m=[di,1,di,2,…,di,n-1],最小距离值MPi,m为di,1,di,2,…,di,n-1中的最小值,即为min(di,1,di,2,…,di,n-1),该MPi,m是子序列Ti,m与其余子序列Tk,m之间的距离,其余子序列Tk,m为子序列集合中与子序列Ti,m最相似的序列,获取用于计算出该距离最小值的子序列Ti,m和其余子序列Tk,m,将Tk,m作为Ti,m的最相似子序列,在所述排污监测历史数据中获取Tk,m的位置信息Ik,m,例如,所述位置信息Ik,m包括最相似子序列Tk,m起始位置和终止位置。
S303,根据每个所述子序列的最小距离值构建每个所述子序列集合的矩阵画像,根据所述最相似子序列的所述位置信息构建所述矩阵画像的画像索引;
其中,距离模式长度m的子序列集合的矩阵画像[MP1,m,MP2,m,…,MPn,m],画像索引[I1,m,I2,m,…,In,m],n为子序列集合中子序列的数量。
S103,获取每个所述矩阵画像中各最小距离值的最小值,根据所述矩阵画像对应的最小值获取调整值,在所述矩阵画像中选择小于或等于所述调整值的最小距离值,根据所选择的最小距离值以及所述画像索引获取对应的子序列,根据所获取的子序列生成与所述距离模式长度对应的距离模式。
其中,每个距离模式相当于多个高度相似的子序列的集合,每个距离模式包括对应的子序列集合中相似度极高的多个子序列,每个距离模式用于表征对应距离模式长度下目标企业的污染物排放行为特征。
在本步骤中,针对每个距离模式长度的矩阵画像,先从矩阵画像[MP1,m,MP2,m,…,MPn,m]中获取MP的最小值,将MP的最小值与预设浮动值相加得到所述调整值,其中,预设浮动值为0.1~0.3;然后,从矩阵画像[MP1,m,MP2,m,…,MPn,m]中选择小于或等于调整值的MP值,所选的MP值为极小值;然后,根据所选的MP值在矩阵画像中确定与该MP值对应的子序列,根据画像索引获取每个所选的MP值的对应的子序列的最相似子序列,将获取的所有子序列及其最相似子序列进行聚类形成所述距离模式长度对应的距离模式。
具体地,排污监测历史数据为一年的历史数据,历史时间段的长度为一年,设距离模式长度为一天,将滑动窗口的长度设置为一天,预设滑动步长为一天,利用滑动窗口在排污监测历史数据上以预设滑动步长滑动以截取子序列构建距离模式长度为一天的子序列集合,子序列集合中共包括365个子序列,依次对应排污监测历史数据中一年每天的时序数据,分别计算每个子序列与其余354个子序列的距离,每个子序列对应364个距离,选择364个距离中最小值作为当前子序列的最小距离值MP,利用365个最小距离值MP构建排污监测历史数据的对应距离模式长度的矩阵画像,选择矩阵画像中的最小值MPmin,例如最小值MPmin为7,预设浮动值为0.3,于是调整值为7.3,选择矩阵画像中小于或等于7.3的元素,每个被选择的元素均为两个子序列的距离,每个被选择的元素对应两个子序列,将被选择的元素对应的子序列进行聚类形成一个子序列的聚类集合,该聚类集合即为距离模式,其距离模式长度为一天。
S104,获取所述目标企业的待测排污监测数据,根据所述待测排污监测数据获取不同距离模式长度的待测子片段集合,其中,每个所述待测子片段集合中包括至少一个待测子片段,所述待测子片段是从所述待测排污监测数据中截取的,所述待测子片段的长度为对应待测子片段集合的距离模式长度。
在本步骤中,待测排污监测数据是时间序列数据,是待测时间段内不同时刻的采样点的采样值按照时间顺序排列形成的,待测时间段一般较短,例如,为1天,12小时,或6小时,于是,待测排污监测数据与排污监测历史数据相比,长度较短。
在本步骤中,将待测排污监测数据按照不同的距离模式长度进行连续截取,形成了多个待测子片段集合,每个距离模式长度对应一种距离模式,将相同距离模式长度的待测子片段集合与距离模式进行匹配,从而可以实现将同一个待测排污监测数据分别与多个距离模式进行匹配(详见步骤S105)。其中,截取待测子片段的方法与步骤S101中截取子序列的方法相同,根据不同的距离模式长度构建对应的滑动窗口,其中,所述滑动窗口的长度为对应的距离模式长度;将每个所述滑动窗口在所述待测排污监测数据上以预设滑动步长进行滑动,获取所述滑动窗口内的片段作为待测子片段,根据多个所述待测子片段构建对应距离模式的所述待测子片段集合。
S105,将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段。
在本步骤中,将待测子片段集合中每个待测子片段分别与距离模式长度相同的距离模式进行匹配,匹配方式可以为计算所述待测子片段与所述距离模式的距离或相似度,下面分别以距离和相识度为例进行详细说明。
在一个可选的实施方式中,请参阅图4所示,步骤S105具体包括如下步骤:
S401,分别计算每个所述待测子片段与对应距离模式中每个子序列的距离;
其中,待测子片段与子序列的距离的计算方式参见步骤S102中两个子序列的距离过程,在此不进行一一赘述。
S402,计算所述距离的距离平均值,将所述距离平均值作为所述待测子片段与所述距离模式的匹配距离值;
其中,距离模式包括多个相似度较高且长度相同的子序列,每个待测子片段与对应距离模式匹配时,会获取到多个距离,距离平均值可以是待测子片段与每个子序列的距离的算术平均值。
S403,当所述匹配距离值大于或等于预设距离阈值时,判断所述待测子片段为异常子片段;
其中,匹配距离值越小,待测子片段与对应距离模式越相似,当匹配距离值过大时,待测子片段与对应距离模式差异较大,待测子片段不符合该距离模式,可能是污水处理工艺异常或污水处理设备出现故障,例如,可以针对该待测子片段对应的时间段中污水处理工艺数据进行排查,分析污水处理工艺的异常参数,并针对异常参数进行工艺调整,避免出现超标排放。
在另一个可选的实施方式中,请参阅图5所示,步骤S105具体包括如下步骤:
S501,根据所述待测子片段的时序数据拟合生成待测子曲线,根据与所述待测子片段对应的所述距离模式中每个所述子序列的时序数据拟合生成模式子曲线;
S502,针对所述待测子曲线,根据预设时间间隔从所述待测子曲线中依次提取多个待测时间数据;
S503,根据所述预设时间间隔从所述距离模式中每个所述模式子曲线中依次提取多个参考时间数据;
S504,针对所述距离模式中每个所述模式子曲线,根据提取的各所述参考时间数据以及各所述待测时间数据,获取所述待测子曲线与所述模式子曲线的相似度;
S505,根据所述待测子曲线与所述距离模式中各所述模式子曲线的相似度,获取所述待测子曲线对应的待测子片段与所述距离模式的匹配相似度值;
S506,当所述匹配相似度值小于或等于预设相似度阈值时,判断所述待测子片段为异常子片段;
其中,在步骤S504中,待测子曲线与模式子曲线的相似度按照如下公式计算:
Figure BDA0003131031240000131
其中,P表征两个曲线的相似度、Xi表征从所述模式子曲线中提取的第i个所述参考时间数据、N分别表征从所述模式子曲线中提取的各个所述参考时间数据的总量以及从所述待测子曲线中提取的各个所述待测时间数据的总量、Yi表征从所述待测子曲线中提取的第i个所述待测时间数据。
进一步地,排污监测历史数据可能由于数据缺失导致存在空值,在生成各子序列集合之前,先对排污监测历史数据进行预处理,填补其中的空值,请参阅图6所示,步骤S101具体包括如下步骤:
S601,获取目标企业的排污监测历史数据,根据所述排污监测历史数据中各采样点的采样值计算所述排污监测历史数据的采样均值;
S602,利用所述采样均值对所述排污监测历史数据的空值进行填充;
S603,根据填充后的所述排污监测历史数据获取不同距离模式长度的子序列集合。
本实施方式中,选择用采样均值对缺失数据进行填充,还可以采用拉格朗日插值法进行填充。
进一步地,请参阅图7所示,步骤S102之后还包括如下步骤:
S701,获取每个所述矩阵画像中各最小距离值的最大值,将所述最大值对应的子序列作为异常历史数据;
其中,由于矩阵画像中记录的为每个子序列与其余子序列之间距离的最小距离值,也就是说,最大值对应的子序列与子序列集合中其余每个子序列之间的相似度均不高,为异常数据。
进一步地,请继续参阅图2所示,在步骤S105之后还包括如下步骤:
S702,将所述距离模式上传至区块链中,以使得所述区块链对所述距离模式进行加密存储。
在步骤S702中,基于所述距离模式分别得到对应的摘要信息,具体来说,摘要信息由所述距离模式进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证所述距离模式是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
图8为本发明第二实施例的排污监测数据处理装置的结构示意图。如图8所示,该排污监测数据处理装置20包括:历史数据采集模块21、矩阵画像模块22、距离模式模块23、待测数据采集模块24以及匹配模块25,其中,历史数据采集模块21,用于获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,其中,每个所述子序列集合中包括多个子序列,所述子序列是从所述排污监测历史数据中截取的,所述子序列的长度为对应子序列集合的距离模式长度;矩阵画像模块22,用于获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,其中,所述矩阵画像包括每个所述子序列与所述子序列集合中的其余每个子序列之间距离中的最小距离值,所述画像索引用于记录每个所述子序列的最相似子序列在所述排污监测历史数据中的位置信息,所述最相似子序列与所述子序列之间的距离为所述最小距离值;距离模式模块23,用于获取每个所述矩阵画像中各最小距离值的最小值,根据所述矩阵画像对应的最小值获取调整值,在所述矩阵画像中选择小于或等于所述调整值的最小距离值,根据所选择的最小距离值以及所述画像索引获取对应的子序列,根据所获取的子序列生成与所述距离模式长度对应的距离模式;待测数据采集模块24,用于获取所述目标企业的待测排污监测数据,根据所述待测排污监测数据获取不同距离模式长度的待测子片段集合,其中,每个所述待测子片段集合中包括至少一个待测子片段,所述待测子片段是从所述待测排污监测数据中截取的,所述待测子片段的长度为对应待测子片段集合的距离模式长度;匹配模块25,用于将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段。
进一步地,该历史数据采集模块21还用于根据不同的距离模式长度构建对应的滑动窗口,其中,所述滑动窗口的长度为对应的距离模式长度;将每个所述滑动窗口在所述排污监测历史数据上以预设滑动步长进行滑动,获取所述滑动窗口内的片段作为子序列,根据多个所述子序列构建对应距离模式的所述子序列集合。
进一步地,该矩阵画像模块22还用于获取所述子序列集合中每个子序列与其余子序列之间的距离,根据所述距离构建每个子序列的距离矩阵;从所述子序列的距离矩阵获取最小距离值,根据所述最小距离值获取所述子序列的最相似子序列,获取所述最相似子序列在所述排污监测历史数据中的位置信息;根据每个所述子序列的最小距离值构建每个所述子序列集合的矩阵画像,根据所述最相似子序列的所述位置信息构建所述矩阵画像的画像索引。
进一步地,该匹配模块25还用于分别计算每个所述待测子片段与对应距离模式中每个子序列的距离;计算所述距离的距离平均值,将所述距离平均值作为所述待测子片段与所述距离模式的匹配距离值;当所述匹配距离值大于或等于预设距离阈值时,判断所述待测子片段为异常子片段。
进一步地,该匹配模块25还用于根据所述待测子片段的时序数据拟合生成待测子曲线,根据与所述待测子片段对应的所述距离模式中每个所述子序列的时序数据拟合生成模式子曲线;针对所述待测子曲线,根据预设时间间隔从所述待测子曲线中依次提取多个待测时间数据;根据所述预设时间间隔从所述距离模式中每个所述模式子曲线中依次提取多个参考时间数据;针对所述距离模式中每个所述模式子曲线,根据提取的各所述参考时间数据以及各所述待测时间数据,获取所述待测子曲线与所述模式子曲线的相似度;根据所述待测子曲线与所述距离模式中各所述模式子曲线的相似度,获取所述待测子曲线对应的待测子片段与所述距离模式的匹配相似度值;当所述匹配相似度值小于或等于预设相似度阈值时,判断所述待测子片段为异常子片段。
进一步地,该历史数据采集模块21还用于获取目标企业的排污监测历史数据,根据所述排污监测历史数据中各采样点的采样值计算所述排污监测历史数据的采样均值;利用所述采样均值对所述排污监测历史数据的空值进行填充;根据填充后的所述排污监测历史数据获取不同距离模式长度的子序列集合。
进一步地,该距离模式模块23还用于获取每个所述矩阵画像中各最小距离值的最大值,将所述最大值对应的子序列作为异常历史数据。
图9是本发明第三实施例的电子设备的结构示意图。如图9所示,该电子设备30包括处理器31及和处理器31耦接的存储器32。
存储器32存储有用于实现上述任一实施例的排污监测数据处理方法的程序指令。
处理器31用于执行存储器32存储的程序指令以进行排污监测数据处理。
其中,处理器31还可以称为CPU(Central Processing Unit,中央处理单元)。处理器31可能是一种集成电路芯片,具有信号的处理能力。处理器31还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图10,图10为本发明第四实施例的存储介质的结构示意图。本发明第四实施例的存储介质40存储有能够实现上述所有方法的程序指令41,其中,该程序指令41可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-0nly Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围。
以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。

Claims (8)

1.一种排污监测数据处理方法,其特征在于,包括:
获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,其中,每个所述子序列集合中包括多个子序列,所述子序列是从所述排污监测历史数据中截取的,所述子序列的长度为对应子序列集合的距离模式长度;
获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,其中,所述矩阵画像包括每个所述子序列与所述子序列集合中的其余每个子序列之间距离中的最小距离值,所述画像索引用于记录每个所述子序列的最相似子序列在所述排污监测历史数据中的位置信息,所述最相似子序列与所述子序列之间的距离为所述最小距离值;
获取每个所述矩阵画像中各最小距离值的最小值,根据所述矩阵画像对应的最小值获取调整值,在所述矩阵画像中选择小于或等于所述调整值的最小距离值,根据所选择的最小距离值以及所述画像索引获取对应的子序列,根据所获取的子序列生成与所述距离模式长度对应的距离模式,其中,将所述矩阵画像的最小值与预设浮动值相加得到所述调整值;
获取所述目标企业的待测排污监测数据,根据所述待测排污监测数据获取不同距离模式长度的待测子片段集合,其中,每个所述待测子片段集合中包括至少一个待测子片段,所述待测子片段是从所述待测排污监测数据中截取的,所述待测子片段的长度为对应待测子片段集合的距离模式长度;
将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段,具体包括:
分别计算每个所述待测子片段与对应距离模式中每个子序列的距离;
计算所述距离的距离平均值,将所述距离平均值作为所述待测子片段与所述距离模式的匹配距离值;
当所述匹配距离值大于或等于预设距离阈值时,判断所述待测子片段为异常子片段。
2.根据权利要求1所述的排污监测数据处理方法,其特征在于,所述根据所述排污监测历史数据获取不同距离模式长度的子序列集合,包括:
根据不同的距离模式长度构建对应的滑动窗口,其中,所述滑动窗口的长度为对应的距离模式长度;
将每个所述滑动窗口在所述排污监测历史数据上以预设滑动步长进行滑动,获取所述滑动窗口内的片段作为子序列,根据多个所述子序列构建对应距离模式的所述子序列集合。
3.根据权利要求1所述的排污监测数据处理方法,其特征在于,所述获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,包括:
获取所述子序列集合中每个子序列与其余子序列之间的距离,根据所述距离构建每个子序列的距离矩阵;
从所述子序列的距离矩阵获取最小距离值,根据所述最小距离值获取所述子序列的最相似子序列,获取所述最相似子序列在所述排污监测历史数据中的位置信息;
根据每个所述子序列的最小距离值构建每个所述子序列集合的矩阵画像,根据所述最相似子序列的所述位置信息构建所述矩阵画像的画像索引。
4.根据权利要求1所述的排污监测数据处理方法,其特征在于,所述获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,包括:
获取目标企业的排污监测历史数据,根据所述排污监测历史数据中各采样点的采样值计算所述排污监测历史数据的采样均值;
利用所述采样均值对所述排污监测历史数据的空值进行填充;
根据填充后的所述排污监测历史数据获取不同距离模式长度的子序列集合。
5.根据权利要求1所述的排污监测数据处理方法,其特征在于,所述获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引之后,还包括:
获取每个所述矩阵画像中各最小距离值的最大值,将所述最大值对应的子序列作为异常历史数据。
6.一种排污监测数据处理装置,其特征在于,包括:
历史数据采集模块,用于获取目标企业的排污监测历史数据,根据所述排污监测历史数据获取不同距离模式长度的子序列集合,其中,每个所述子序列集合中包括多个子序列,所述子序列是从所述排污监测历史数据中截取的,所述子序列的长度为对应子序列集合的距离模式长度;
矩阵画像模块,用于获取每个所述子序列集合的矩阵画像以及所述矩阵画像的画像索引,其中,所述矩阵画像包括每个所述子序列与所述子序列集合中的其余每个子序列之间距离中的最小距离值,所述画像索引用于记录每个所述子序列的最相似子序列在所述排污监测历史数据中的位置信息,所述最相似子序列与所述子序列之间的距离为所述最小距离值;
距离模式模块,用于获取每个所述矩阵画像中各最小距离值的最小值,根据所述矩阵画像对应的最小值获取调整值,在所述矩阵画像中选择小于或等于所述调整值的最小距离值,根据所选择的最小距离值以及所述画像索引获取对应的子序列,根据所获取的子序列生成与所述距离模式长度对应的距离模式,其中,将所述矩阵画像的最小值与预设浮动值相加得到所述调整值;
待测数据采集模块,用于获取所述目标企业的待测排污监测数据,根据所述待测排污监测数据获取不同距离模式长度的待测子片段集合,其中,每个所述待测子片段集合中包括至少一个待测子片段,所述待测子片段是从所述待测排污监测数据中截取的,所述待测子片段的长度为对应待测子片段集合的距离模式长度;
匹配模块,用于将所述待测子片段集合中每个所述待测子片段与对应距离模式进行匹配,根据匹配结果判断所述待测子片段是否为异常子片段,所述匹配模块具体用于:
分别计算每个所述待测子片段与对应距离模式中每个子序列的距离;
计算所述距离的距离平均值,将所述距离平均值作为所述待测子片段与所述距离模式的匹配距离值;
当所述匹配距离值大于或等于预设距离阈值时,判断所述待测子片段为异常子片段。
7.一种电子设备,其特征在于,包括处理器、以及与所述处理器耦接的存储器,所述存储器存储有可被所述处理器执行的程序指令;所述处理器执行所述存储器存储的所述程序指令时实现如权利要求1~5中任一项所述的排污监测数据处理方法。
8.一种存储介质,其特征在于,所述存储介质内存储有程序指令,所述程序指令被处理器执行时实现能够实现如权利要求1~5中任一项所述的排污监测数据处理方法。
CN202110703211.1A 2021-06-24 2021-06-24 排污监测数据处理方法、装置、电子设备及存储介质 Active CN113420070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110703211.1A CN113420070B (zh) 2021-06-24 2021-06-24 排污监测数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110703211.1A CN113420070B (zh) 2021-06-24 2021-06-24 排污监测数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113420070A CN113420070A (zh) 2021-09-21
CN113420070B true CN113420070B (zh) 2023-06-30

Family

ID=77716521

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110703211.1A Active CN113420070B (zh) 2021-06-24 2021-06-24 排污监测数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113420070B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114757601B (zh) * 2022-06-16 2022-08-26 江苏瑞立环保工程股份有限公司 一种基于人工智能的水环境异常排放监测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809134A (zh) * 2014-01-27 2015-07-29 国际商业机器公司 检测数据序列中的异常子序列的方法和设备
CN112506996A (zh) * 2020-12-10 2021-03-16 树根互联技术有限公司 数据异常检测方法、装置、计算机设备和可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492551B (zh) * 2018-10-25 2023-03-24 腾讯科技(深圳)有限公司 活体检测方法、装置及应用活体检测方法的相关系统
US10885048B2 (en) * 2019-02-11 2021-01-05 Td Ameritrade Ip Company, Inc. Time-series pattern matching system
CN110362606B (zh) * 2019-06-10 2022-11-08 河海大学 一种时间序列变长模体挖掘方法
CN110266552B (zh) * 2019-08-15 2020-04-21 华为技术有限公司 流量异常检测的方法、模型训练方法和装置
CN111027606B (zh) * 2019-11-29 2022-05-31 中国科学院空间应用工程与技术中心 一种多模式时间序列异常检测方法、存储介质和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809134A (zh) * 2014-01-27 2015-07-29 国际商业机器公司 检测数据序列中的异常子序列的方法和设备
CN112506996A (zh) * 2020-12-10 2021-03-16 树根互联技术有限公司 数据异常检测方法、装置、计算机设备和可读存储介质

Also Published As

Publication number Publication date
CN113420070A (zh) 2021-09-21

Similar Documents

Publication Publication Date Title
US9779284B2 (en) Privacy-preserving evidence in ALPR applications
US6092193A (en) Authentication of accumulated instrument data
CN111475804A (zh) 一种告警预测方法及系统
US20100257092A1 (en) System and method for predicting a measure of anomalousness and similarity of records in relation to a set of reference records
Chen et al. Community recovery in graphs with locality
CN114372296B (zh) 一种基于区块链的用户行为数据审计方法及系统
CN111784528A (zh) 异常社群检测方法、装置、计算机设备及存储介质
CN112131277B (zh) 基于大数据的医疗数据异常分析方法、装置和计算机设备
CN113420070B (zh) 排污监测数据处理方法、装置、电子设备及存储介质
CN116362772B (zh) 一种基于区块链的溯源处理方法及区块链分布式溯源系统
CN111698302A (zh) 数据预警方法、装置、电子设备及介质
CN102648467A (zh) 数据库和用于评价来自数据库的数据的方法
CN113516313A (zh) 一种基于用户画像的燃气异常检测方法
CN111221722A (zh) 行为检测方法、装置、电子设备及存储介质
CN112651782A (zh) 基于缩放点积注意力的行为预测方法、装置、设备及介质
CN116401718A (zh) 基于区块链的数据保护方法及装置、电子设备和存储介质
CN113034499B (zh) 边坡坡面危险区预测方法、装置、设备及可读存储介质
CN114723457A (zh) 资源请求的监控方法、装置、计算机设备及存储介质
CN114298211A (zh) 特征分箱方法、装置、电子设备及存储介质
CN104463137A (zh) 基于特征空间分裂的异常人脸图像检测方法及系统
CN108320180A (zh) 工程造价审计系统
CN111274579B (zh) 一种基于计算机的企业文档加密防护系统
CN111985450A (zh) 一种运用感知哈希的高光谱遥感影像完整性认证方法
CN117692257B (zh) 一种电力物联网业务数据的高速加密方法及装置
CN117557270B (zh) 移动终端安全支付管理方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant