CN115361027B - 一种污水处理效果识别方法 - Google Patents

一种污水处理效果识别方法 Download PDF

Info

Publication number
CN115361027B
CN115361027B CN202211271223.2A CN202211271223A CN115361027B CN 115361027 B CN115361027 B CN 115361027B CN 202211271223 A CN202211271223 A CN 202211271223A CN 115361027 B CN115361027 B CN 115361027B
Authority
CN
China
Prior art keywords
frequency
segmentation result
standard
sequence
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211271223.2A
Other languages
English (en)
Other versions
CN115361027A (zh
Inventor
孔慰弟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Liangchao Technology Co ltd
Original Assignee
Jiangsu Liangchao Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Liangchao Technology Co ltd filed Critical Jiangsu Liangchao Technology Co ltd
Priority to CN202211271223.2A priority Critical patent/CN115361027B/zh
Publication of CN115361027A publication Critical patent/CN115361027A/zh
Application granted granted Critical
Publication of CN115361027B publication Critical patent/CN115361027B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及数据传输技术领域,具体涉及一种污水处理效果识别方法,包括:采集污水检测数据,进一步获取二进制数据,并对二进制数据进行分段;获取每个分段结果的频率序列,构建每个分段结果的标准序列,通过频率序列与标准序列之间的差异预测不同分段结果编码后的平均码长,进一步获取每个分段结果的优异度,可快速获取压缩后传输效率最高的分段结果,可节省利用霍夫曼编码对每个分段结果进行编码再获取最优的分段结果而造成的时间成本以及保存每个分段结果的编码字典消耗的空间成本。本发明获取最优分段结果的方法时间效率高,占用内存小,使得最终压缩后的传输效率高。

Description

一种污水处理效果识别方法
技术领域
本发明涉及数据传输技术领域,具体涉及一种污水处理效果识别方法。
背景技术
随着全球人口的急剧增加的以及工业不断发展,每天会产生大量的生活污水以及工业污水。污水会导致严重的环境污染,需对污水净化处理后排放或再利用。若污水不能被完全净化就直接排放或再利用,会对环境造成污染,危害人类的健康。因此需对污水处理效果进行识别,污水处理达标后再进行排放或再利用。
污水处理效果与处理后的污水中重金属的含量、BOD2(生物需氧量)、CODc2(化学需氧量)、TkN(凯氏氮)、TP(总磷)以及TN(总氮)等多项指标相关。各项指标由对应的机器测定后传输至污水处理效果识别平台,由污水处理效果识别平台根据各项指标对污水处理效果进行评价。
对处理后的污水进行检测需包含大量的采样样本,因此得到的各项指标数据量大,需要进行压缩后传输。由于污水检测的各项指标数据精度不同,因此污水检测的各项指标数据重复率小。
现有的压缩方法如霍夫曼编码、LZW编码、游程编码对重复率大的数据压缩效率高,对重复率小的数据压缩效果差。因此现有的压缩方法不适合进行污水检测的各项指标数据的压缩。
发明内容
本发明提供一种污水处理效果识别方法,以解决现有的问题。
本发明的一种污水处理效果识别方法采用如下技术方案:
本发明一个实施例提供了一种污水处理效果识别方法,该方法包括以下步骤:
采集污水检测数据,将污水检测数据转换为二进制数据;
根据第一预设阈值以及第二预设阈值获取多个第一长度,分别根据每个第一长度对二进制数据进行分段得到多个分段结果,每个分段结果包含多个第一长度的二进制串;获取每个分段结果包含的二进制串的个数作为每个分段结果的第一数量;
获取每个分段结果的优异度,包括:
对分段结果进行分类得到多个类别,将类别个数作为第二数量;将第二数量减二作为第三数量;统计每个类别的频率,根据每个类别的频率获取长度为第三数量的频率序列;获取长度为第三数量的标准序列;根据标准序列以及第二数量获取标准码长;根据标准序列获取频率序列中每个频率的权重;根据频率序列、标准序列、第二数量、所述每个频率的权重以及标准码长获取预测码长;根据预测码长、第一长度、第一数量以及第二数量获取分段结果的优异度;
选择优异度最大的分段结果作为最优分段结果,对最优分段结果进行编码压缩,得到压缩数据;将压缩数据传输至污水处理效果识别平台,污水处理效果识别平台根据压缩数据进行污水处理效果识别。
优选的,所述根据第一预设阈值以及第二预设阈值获取多个第一长度,分别根据每个第一长度对二进制数据进行分段得到多个分段结果,每个分段结果包含多个第一长度的二进制串包括:
获取第一预设阈值与第二预设阈值之间所有的整数,得到多个第一长度;分别根据每个第一长度将二进制数据分成长度为所述第一长度的多个二进制串,得到多个分段结果,每个分段结果包含多个二进制串;每个分段结果对应一个第一长度。
优选的,所述对分段结果进行分类得到多个类别包括:
将分段结果中所有相同的二进制串划分为一个类别,得到多个类别,每个类别中包含的二进制串均相同,不同类别包含的二进制串均不同。
优选的,所述统计每个类别的频率,根据每个类别的频率获取长度为第三数量的频率序列包括:
统计每个类别中二进制串的个数,将每个类别中二进制串的个数除以分段结果的第一数量,得到每个类别的频率;
对所有类别的频率按照从大到小的顺序进行排序,获取排序结果中前第三数量个频率构成频率序列。
优选的,所述获取长度为第三数量的标准序列包括:
构建一个长度为第三数量的标准序列,标准序列中包含第三数量个标准频率,第
Figure DEST_PATH_IMAGE001
个标准频率为/>
Figure 746934DEST_PATH_IMAGE002
优选的,所述标准码长表达式为:
Figure DEST_PATH_IMAGE003
其中
Figure 759758DEST_PATH_IMAGE004
为第/>
Figure DEST_PATH_IMAGE005
个分段结果的标准码长;/>
Figure 921618DEST_PATH_IMAGE006
为第/>
Figure 75519DEST_PATH_IMAGE001
个标准频率;/>
Figure 144975DEST_PATH_IMAGE001
为标准频率的序号;
Figure DEST_PATH_IMAGE007
为第/>
Figure 28618DEST_PATH_IMAGE005
个分段结果的第二数量。
优选的,所述根据标准序列获取频率序列中每个频率的权重包括:
将标准序列中每个标准频率作为频率序列中每个频率的权重。
优选的,所述预测码长表达式为:
Figure DEST_PATH_IMAGE009
其中
Figure 355519DEST_PATH_IMAGE010
为第/>
Figure 245984DEST_PATH_IMAGE005
个分段结果的预测码长;/>
Figure 260076DEST_PATH_IMAGE007
为第/>
Figure 404750DEST_PATH_IMAGE005
个分段结果的第二数量;/>
Figure DEST_PATH_IMAGE011
为频率序列中第/>
Figure 173992DEST_PATH_IMAGE012
个频率;/>
Figure DEST_PATH_IMAGE013
为频率序列中第/>
Figure 489435DEST_PATH_IMAGE014
个频率;/>
Figure DEST_PATH_IMAGE015
为频率序列中第/>
Figure 494169DEST_PATH_IMAGE016
个频率;/>
Figure DEST_PATH_IMAGE017
为频率序列中第/>
Figure 617983DEST_PATH_IMAGE001
个频率;/>
Figure 95144DEST_PATH_IMAGE006
为标准序列中第/>
Figure 710933DEST_PATH_IMAGE001
个标准频率;/>
Figure 191462DEST_PATH_IMAGE018
为扩大系数;/>
Figure DEST_PATH_IMAGE019
为频率序列中第/>
Figure 638624DEST_PATH_IMAGE001
个频率的权重;/>
Figure 546406DEST_PATH_IMAGE004
为标准码长;/>
Figure 118332DEST_PATH_IMAGE020
为以自然常数为底的函数。
优选的,所述优异度表达式为:
Figure 136973DEST_PATH_IMAGE022
其中
Figure DEST_PATH_IMAGE023
为第/>
Figure 969800DEST_PATH_IMAGE005
个分段结果的优异度;/>
Figure 782904DEST_PATH_IMAGE024
为第/>
Figure 373285DEST_PATH_IMAGE005
个分段结果的第一长度;/>
Figure 195616DEST_PATH_IMAGE010
为第/>
Figure 289474DEST_PATH_IMAGE005
个分段结果的预测码长;/>
Figure DEST_PATH_IMAGE025
为第/>
Figure 618954DEST_PATH_IMAGE005
个分段结果的第一数量;/>
Figure 431052DEST_PATH_IMAGE007
为第/>
Figure 791495DEST_PATH_IMAGE005
个分段结果的第二数量。
优选的,所述对最优分段结果进行编码压缩是指对最优分段结果进行霍夫曼编码压缩。
本发明的有益效果是:采集污水检测数据,进一步获取二进制数据,并对二进制数据进行分段;获取每个分段结果的频率序列,构建每个分段结果的标准序列,通过频率序列与标准序列之间的差异预测不同分段结果编码后的平均码长,进一步获取每个分段结果的优异度,可快速获取压缩后传输效率最高的分段结果,可节省利用霍夫曼编码对每个分段结果进行编码再获取最优的分段结果而造成的时间成本以及保存每个分段结果的编码字典消耗的空间成本。本发明获取最优分段结果的方法时间效率高,占用内存小,使得最终压缩后的传输效率高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种污水处理效果识别方法的步骤流程图。
图2为本发明的一种污水处理效果识别方法的第二数量小于等于3时的二叉树示意图。
图3为本发明的一种污水处理效果识别方法的第二数量等于4时的二叉树示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种污水处理效果识别方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种污水处理效果识别方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种污水处理效果识别方法的步骤流程图,该方法包括以下步骤:
101.采集污水处理检测数据,获得二进制数据。
对处理后的污水进行多个位置采样,对每个采样结果利用污水指标自动化测试设备检测重金属的含量、BOD2(生物需氧量)、CODc2(化学需氧量)、TkN(凯氏氮)、TP(总磷)以及TN(总氮)等污水检测的多项指标,得到污水检测数据。
需要说明的是,为确保污水处理效果识别准确,对处理后的污水需进行大量的采样,每个采样结果对应多项指标,使得污水检测数据的数据量大,因此需对污水检测数据进行压缩。同时由于各项指标数据精度不同,因此污水检测数据重复率小,现有的压缩方法都是利用数据的冗余性进行压缩,对重复率大的数据压缩效率高,对重复率小的数据压缩效率低。利用现有的压缩方法直接对污水检测数据进行压缩压缩效率低。
在本实施例中,对污水检测数据进行序列化,将污水检测数据转换为可传输存储的二进制数据,对二进制数据进行压缩。
102.对二进制数据进行分段得到多个分段结果。
需要说明的是,为实现对二进制数据的压缩,需将二进制数据进行分段得到多个二进制串,利用多个二进制串之间的冗余性进行压缩。当二进制串长度过短时,最终对每个二进制串编码的码长与二进制串的长度相差较小,达不到压缩的效果。当二进制串过长时,不同的二进制串个数较多,二进制串之间的冗余性过小,达不到压缩的效果。
在本实施例中,设置第一阈值
Figure 739860DEST_PATH_IMAGE026
与第二阈值/>
Figure DEST_PATH_IMAGE027
,用来限制二进制串的长度,其中
Figure 488242DEST_PATH_IMAGE028
。获取第一阈值/>
Figure 974587DEST_PATH_IMAGE026
与第二阈值/>
Figure 889453DEST_PATH_IMAGE027
之间的所有整数作为第一长度,得到多个第一长度。本发明实施例中,/>
Figure DEST_PATH_IMAGE029
。在其他实施例中实施人员可根据需要设置第一阈值/>
Figure 535067DEST_PATH_IMAGE026
与第二阈值/>
Figure 877187DEST_PATH_IMAGE027
获取第
Figure 919004DEST_PATH_IMAGE005
个第一长度/>
Figure 371982DEST_PATH_IMAGE024
,根据/>
Figure 544206DEST_PATH_IMAGE024
对二进制数据进行分段:获取二进制数据的长度/>
Figure 791648DEST_PATH_IMAGE030
,将二进制数据分成/>
Figure DEST_PATH_IMAGE031
个长度为/>
Figure 642798DEST_PATH_IMAGE024
的二进制串,若最后一个二进制串长度不足/>
Figure 633888DEST_PATH_IMAGE024
,则在最后一个二进制串后补充0使其长度达到/>
Figure 660619DEST_PATH_IMAGE024
。如此,得到第/>
Figure 78962DEST_PATH_IMAGE005
个分段结果,该分段结果中包含/>
Figure 89512DEST_PATH_IMAGE031
个长度为/>
Figure 618713DEST_PATH_IMAGE024
的二进制串。将第/>
Figure 499951DEST_PATH_IMAGE005
个分段结果中二进制串的个数/>
Figure 354774DEST_PATH_IMAGE031
记为第/>
Figure 321462DEST_PATH_IMAGE005
个分段结果的第一数量,用/>
Figure 919934DEST_PATH_IMAGE025
表示。/>
Figure 915397DEST_PATH_IMAGE032
为向上取整符号。
同理,分别根据每个第一长度对二进制数据进行分段,得到多个分段结果。
103.计算每个分段结果的优异度,获取最优分段结果。
需要说明的是,霍夫曼编码通过将出现频率大的字符编码成较短的码字,将出现频率小的字符编码成较长的码字来实现数据压缩。不同分段结果包含的二进制串个数不同、二进制串的长度不同、二进制串数据的重复率不同。进一步的利用霍夫曼编码对不同分段结果进行压缩,得到的压缩率不同。为确保污水检测数据高效传输,需快速获得压缩率最高的分段结果,进行压缩传输。霍夫曼编码通过获取不同字符的频率,根据字符的频率大小自底向上构建二叉树,从而根据二叉树对不同的字典进行编码。霍夫曼编码构建二叉树的过程是串行的,因此当不同的字符较多时,效率较低。若对每个分段结果都进行霍夫曼编码,根据编码后的结果选择压缩率最高的分段结果,效率低下,不利于污水检测数据的高效传输。
在本实施例中,通过分析不同分段结果的二进制串的规律,预测每个分段结果的压缩效率,获取每个分段结果的优异度,进而获取最优分段结果。具体步骤如下:
1.获取频率序列。
Figure 675543DEST_PATH_IMAGE005
个第一长度/>
Figure 270472DEST_PATH_IMAGE024
对应第/>
Figure 656323DEST_PATH_IMAGE005
个分段结果,将第/>
Figure 528464DEST_PATH_IMAGE005
个分段结果中相同的二进制串划分为一类,得到多个类别,每个类别包含的二进制串均相同,不同类别包含的二进制串不同。统计不同类别中二进制串的个数,除以第/>
Figure 708779DEST_PATH_IMAGE005
个分段结果中所有二进制串的个数,得到每个类别的频率。将第/>
Figure 400791DEST_PATH_IMAGE005
个分段结果中的类别个数,记为第/>
Figure 590333DEST_PATH_IMAGE005
个分段结果的第二数量,用/>
Figure 51401DEST_PATH_IMAGE007
表示。根据霍夫曼编码原理,无论最小的频率值与次小的频率值为多少,此两个频率对应的类别的二进制串都会位于二叉树最深层。因此将第二数量减二作为第三数量,将所有类别的频率按照从大到小的顺序进行排序,获取前第三数量个频率,构成频率序列/>
Figure DEST_PATH_IMAGE033
,其中/>
Figure 871458DEST_PATH_IMAGE007
为第二数量,/>
Figure 440980DEST_PATH_IMAGE034
为第三数量。
2.获取标准序列以及标准码长。
需要说明的是,根据霍夫曼编码的原理,一个类别中的二进制串即相同的二进制串被编码成相同的码字。霍夫曼编码构建的二叉树的每个叶节点表示一个类别。当
Figure DEST_PATH_IMAGE035
时,霍夫曼编码构建的二叉树如图2(1)(2)所示,每个类别中二进制串的码字的码长均为/>
Figure 106317DEST_PATH_IMAGE012
。当/>
Figure 208177DEST_PATH_IMAGE036
时,构建的二叉树如图2(3)所示,一个类别中二进制串的码字的码长为/>
Figure 746606DEST_PATH_IMAGE012
,两个类别中二进制串的码字的码长为/>
Figure 803423DEST_PATH_IMAGE014
。当/>
Figure DEST_PATH_IMAGE037
时,构建的二叉树有多种可能,如/>
Figure 538030DEST_PATH_IMAGE038
时,构建的二叉树如图3所示。图3(1)中的二叉树为普通二叉树,对应的四个类别中二进制串的码字的码长均为/>
Figure 488537DEST_PATH_IMAGE014
,则所有二进制串的平均码长为/>
Figure 588080DEST_PATH_IMAGE014
。在图3(2)中的二叉树为单侧二叉树,所有的父节点均在二叉树的一侧,该二叉树对应的一个类别中二进制串的码字的码长为/>
Figure 476402DEST_PATH_IMAGE012
,一类别中二进制串的码字的码长为/>
Figure 811437DEST_PATH_IMAGE014
,两个类别中二进制串的码字的码长为/>
Figure 367183DEST_PATH_IMAGE016
,则所有二进制串的平均码长为/>
Figure DEST_PATH_IMAGE039
,其中/>
Figure 90158DEST_PATH_IMAGE040
为二进制串的码字的码长为/>
Figure 731355DEST_PATH_IMAGE012
的类别的频率,
Figure DEST_PATH_IMAGE041
为二进制串的码字的码长为/>
Figure 825342DEST_PATH_IMAGE014
的类别的频率,/>
Figure 891387DEST_PATH_IMAGE042
为二进制串的码字的码长为/>
Figure 457366DEST_PATH_IMAGE016
的两个类别的频率之和。霍夫曼编码是将出现频率大的类别的二进制串放置在二叉树较浅的层,将其编码成较短的码字,将出现频率小的类别的二进制串放置在二叉树较深的层,将其编码成较长的码字。因此/>
Figure DEST_PATH_IMAGE043
且/>
Figure 772810DEST_PATH_IMAGE044
,由此可知/>
Figure DEST_PATH_IMAGE045
。又因所有类别包含所有的二进制串,所有类别的频率之和为/>
Figure 262697DEST_PATH_IMAGE012
,即/>
Figure 776724DEST_PATH_IMAGE046
。综合可知,
Figure DEST_PATH_IMAGE047
,/>
Figure 451288DEST_PATH_IMAGE048
,/>
Figure DEST_PATH_IMAGE049
,因此图3(2)中对应的所有二进制串的平均码长
Figure 926132DEST_PATH_IMAGE050
。因此图3(2)中的二叉树对应的所有二进制串的平均码长小于等于图3(1)中的二叉树对应的所有二进制串的平均码长,即/>
Figure 819044DEST_PATH_IMAGE037
时,单侧二叉树的压缩效率优于普通霍夫曼树。单侧二叉树所有的父节点均在二叉树的一侧,除最深的层包含两个叶节点、最浅的层不包含叶节点外,每层均包含一个叶节点。
在本实施例中,以单侧二叉树为衡量标准,判断不同分段结果的优异度。当
Figure 718736DEST_PATH_IMAGE037
时,基于单侧二叉树构建一个长度为/>
Figure 501884DEST_PATH_IMAGE034
的标准序列,作为第/>
Figure 870549DEST_PATH_IMAGE005
个分段结果的标准序列,该标准序列由标准频率构成,并按照标准频率从大小的顺序排列。标准频率的获取方向如下:
要确保频率最大的类别的二进制串位于二叉树第二层,对应码字码长为
Figure 30135DEST_PATH_IMAGE012
,其余类别的二进制串位于二叉树其他层,则要求频率最大的类别的频率大于等于频率次大的类别的频率,且大于等于其余所有类别的频率之和。当频率最大的类别的频率大于等于/>
Figure DEST_PATH_IMAGE051
时,无论其余类别的频率为多少,均能满足以上要求,确保频率最大的类别的二进制串位于二叉树第二层,对应码字码长为/>
Figure 377808DEST_PATH_IMAGE012
,其余类别的二进制串位于二叉树其他层,因此第一个标准频率的值为/>
Figure 207224DEST_PATH_IMAGE051
。同理,当频率最大的类别的频率大于等于/>
Figure 46873DEST_PATH_IMAGE051
,频率次大的类别的频率大于等于/>
Figure 744570DEST_PATH_IMAGE052
时,无论其余类别的频率为多少,都可确保频率次大的类别的二进制串位于二叉树第三层,对应码字码长为/>
Figure 104008DEST_PATH_IMAGE014
,其余类别的二进制串位于二叉树其他层,因此第二个标准频率的值为/>
Figure 82154DEST_PATH_IMAGE052
。同理,第/>
Figure 894252DEST_PATH_IMAGE001
个标准频率的值为/>
Figure 395640DEST_PATH_IMAGE002
。同理,获取/>
Figure 858852DEST_PATH_IMAGE034
个标准频率,组成标准序列
Figure DEST_PATH_IMAGE053
,其中/>
Figure 623545DEST_PATH_IMAGE054
。根据霍夫曼编码原理,无论最小的频率值与次小的频率值为多少,此两个频率对应的类别的二进制串都会位于二叉树最深层,因此无第/>
Figure DEST_PATH_IMAGE055
个、第/>
Figure 375470DEST_PATH_IMAGE007
个标准频率。
至此,获取了标准序列。获取在该标准序列下对所有二进制串下进行霍夫曼编码的平均码长作为标准码长,第
Figure 274024DEST_PATH_IMAGE005
个分段结果对应的标准码长/>
Figure 342474DEST_PATH_IMAGE004
为:
Figure 668282DEST_PATH_IMAGE003
其中
Figure 579607DEST_PATH_IMAGE004
为第/>
Figure 298164DEST_PATH_IMAGE005
个分段结果的标准码长;/>
Figure 741827DEST_PATH_IMAGE006
为第/>
Figure 379481DEST_PATH_IMAGE001
个标准频率;/>
Figure 653468DEST_PATH_IMAGE001
为标准频率的序号,即第/>
Figure 159405DEST_PATH_IMAGE001
个标准频率对应的类别中二进制串进行霍夫曼编码后码字的码长;/>
Figure 202447DEST_PATH_IMAGE007
为第/>
Figure 11003DEST_PATH_IMAGE005
个分段结果的第二数量,即第/>
Figure 755974DEST_PATH_IMAGE005
个分段结果中的类别个数;/>
Figure 816334DEST_PATH_IMAGE034
为第/>
Figure 697571DEST_PATH_IMAGE005
个分段结果的第三数量;
Figure 552395DEST_PATH_IMAGE056
为所有标准频率对应的类别中二进制串进行霍夫曼编码后码字的平均码长;/>
Figure DEST_PATH_IMAGE057
为所有标准频率之和;/>
Figure 378137DEST_PATH_IMAGE058
为标准频率之外的两个类别的频率之和;
Figure DEST_PATH_IMAGE059
为标准频率之外的两个类别中二进制串进行霍夫曼编码后码字的码长;因此
Figure 259217DEST_PATH_IMAGE060
为该标准序列下对所有二进制串下进行霍夫曼编码的平均码长,即标准码长。
3.获取预测码长。
为衡量每个分段结果的优异度,可根据每个分段结果的频率序列与标准序列之间的差异预测每个分段结果的码长。获取第
Figure 401485DEST_PATH_IMAGE005
个分段结果的预测码长/>
Figure 879740DEST_PATH_IMAGE010
为:
Figure DEST_PATH_IMAGE061
其中
Figure 943511DEST_PATH_IMAGE010
为第/>
Figure 594941DEST_PATH_IMAGE005
个分段结果的预测码长;/>
Figure 201503DEST_PATH_IMAGE007
为第/>
Figure 647396DEST_PATH_IMAGE005
个分段结果的第二数量,即第/>
Figure 729622DEST_PATH_IMAGE005
个分段结果中的类别个数;当第/>
Figure 404317DEST_PATH_IMAGE005
个分段结果中的类别个数小于等于/>
Figure 380232DEST_PATH_IMAGE014
时,每个类别中的二进制串都被编码成码长为/>
Figure 13338DEST_PATH_IMAGE012
的码字,此时预测码长为/>
Figure 447774DEST_PATH_IMAGE012
Figure 926160DEST_PATH_IMAGE062
为频率序列中前/>
Figure 897527DEST_PATH_IMAGE016
个频率;当第/>
Figure 685223DEST_PATH_IMAGE005
个分段结果中的类别个数等于/>
Figure 617407DEST_PATH_IMAGE016
时,频率序列中第一个频率/>
Figure 883172DEST_PATH_IMAGE011
对应的类别中二进制串被编码成码长为/>
Figure 584412DEST_PATH_IMAGE012
的码字,频率序列中第二、三个频率/>
Figure DEST_PATH_IMAGE063
对应的类别中二进制串被编码成码长为/>
Figure 605327DEST_PATH_IMAGE014
的码字,此时预测码长为
Figure 290386DEST_PATH_IMAGE064
Figure 359842DEST_PATH_IMAGE017
为频率序列中第/>
Figure 915588DEST_PATH_IMAGE001
个频率;/>
Figure 186032DEST_PATH_IMAGE006
为标准序列中第/>
Figure 70638DEST_PATH_IMAGE001
个标准频率;/>
Figure 694517DEST_PATH_IMAGE018
为扩大系数;/>
Figure 354037DEST_PATH_IMAGE019
为频率序列中第/>
Figure 139591DEST_PATH_IMAGE001
个频率的权重;/>
Figure 986193DEST_PATH_IMAGE004
为标准码长;/>
Figure 882605DEST_PATH_IMAGE020
为以自然常数为底的函数;
Figure DEST_PATH_IMAGE065
为频率序列中第/>
Figure 193369DEST_PATH_IMAGE001
个频率与标准序列中第/>
Figure 415403DEST_PATH_IMAGE001
个标准频率的差异,当该差异为正数的时候,频率序列中第/>
Figure 14880DEST_PATH_IMAGE001
个频率较标准序列中第/>
Figure 449404DEST_PATH_IMAGE001
个标准频率大,意味着比标准频率更大频率的二进制串被编码成码长为/>
Figure 817937DEST_PATH_IMAGE001
的码字,使得最终的平均码长变短,此时
Figure 945293DEST_PATH_IMAGE066
得到一个小于/>
Figure 32067DEST_PATH_IMAGE012
的数;当该差异为负数的时候,频率序列中第/>
Figure 535861DEST_PATH_IMAGE001
个频率较标准序列中第/>
Figure 493321DEST_PATH_IMAGE001
个标准频率小,意味着第/>
Figure 57158DEST_PATH_IMAGE001
个频率的类别中二进制串都被编码成码长大于/>
Figure 241014DEST_PATH_IMAGE001
的码字,使得最终的平均码长变长,此时/>
Figure 538047DEST_PATH_IMAGE066
得到一个大于/>
Figure 366325DEST_PATH_IMAGE012
的数;由于第/>
Figure 84751DEST_PATH_IMAGE001
个频率的类别中二进制串都被编码成码长大于/>
Figure 631270DEST_PATH_IMAGE001
的码字相比比标准频率更大频率的二进制串被编码成码长为/>
Figure 726134DEST_PATH_IMAGE001
的码字对平均码长产生的影响更大,因此使用/>
Figure DEST_PATH_IMAGE067
函数使得其对于负数的差异更加敏感。同时为了确保结果更加准确,使用/>
Figure 861449DEST_PATH_IMAGE018
作为差异的扩大系数,/>
Figure 626143DEST_PATH_IMAGE018
由人工设置,经验值为/>
Figure 394379DEST_PATH_IMAGE014
;不同的频率与标准频率的差异对最终的平均码长影响程度不同,如第/>
Figure 27354DEST_PATH_IMAGE012
个频率最大,其与第一个标准频率的差异对平均码长的影响也最大。因此对频率序列中不同的频率设置不同的权重,如频率序列中第/>
Figure 830225DEST_PATH_IMAGE001
个频率的权重为/>
Figure 890454DEST_PATH_IMAGE019
。由于标准序列中的标准频率从大到小排列,一定程度上可以反应不同频率对最终平均码长的影响程度。因此,将标准频率作为对应权重大小,即/>
Figure 411565DEST_PATH_IMAGE068
。/>
Figure DEST_PATH_IMAGE069
综合了频率序列中所有频率与标准序列中对应标准频率的差异对平均码长的影响,得到影响系数。将影响系数乘以/>
Figure 644969DEST_PATH_IMAGE004
得到预测码长。当频率序列中较大的频率比标准序列中对应的标准频率大时,最终可达到比标准码长更短的平均码长;当频率序列中较大的频率比标准序列中对应的标准频率小时,最终可达到比标准码长更长的平均码长。该平均码长即为预测码长。
4.获取优异度。
根据第
Figure 567926DEST_PATH_IMAGE005
个分段结果的预测码长获取第/>
Figure 64635DEST_PATH_IMAGE005
个分段结果的优异度/>
Figure 807463DEST_PATH_IMAGE023
Figure 65399DEST_PATH_IMAGE022
其中
Figure 577283DEST_PATH_IMAGE023
为第/>
Figure 244893DEST_PATH_IMAGE005
个分段结果的优异度;/>
Figure 475018DEST_PATH_IMAGE024
为第/>
Figure 253487DEST_PATH_IMAGE005
个分段结果的第一长度;/>
Figure 885456DEST_PATH_IMAGE010
为第/>
Figure 723968DEST_PATH_IMAGE005
个分段结果的预测码长;/>
Figure 566022DEST_PATH_IMAGE025
为第/>
Figure 633335DEST_PATH_IMAGE005
个分段结果的第一数量;/>
Figure 369079DEST_PATH_IMAGE007
为第/>
Figure 129225DEST_PATH_IMAGE005
个分段结果的第二数量。
其中
Figure 317629DEST_PATH_IMAGE023
为第/>
Figure 454213DEST_PATH_IMAGE005
个分段结果的优异度;/>
Figure 44463DEST_PATH_IMAGE024
为第/>
Figure 241089DEST_PATH_IMAGE005
个分段结果的第一长度,即第/>
Figure 916790DEST_PATH_IMAGE005
个分段结果中每个二进制串的长度,又即第/>
Figure 716119DEST_PATH_IMAGE005
个分段结果中所有二进制串的平均长度;/>
Figure 911608DEST_PATH_IMAGE010
为第/>
Figure 268683DEST_PATH_IMAGE005
个分段结果的预测码长;/>
Figure 182412DEST_PATH_IMAGE025
为第/>
Figure 910066DEST_PATH_IMAGE005
个分段结果的第一数量,即第/>
Figure 960061DEST_PATH_IMAGE005
个分段结果中包含的二进制串的个数;/>
Figure 747758DEST_PATH_IMAGE007
为第/>
Figure 7838DEST_PATH_IMAGE005
个分段结果的第二数量,即第/>
Figure 289914DEST_PATH_IMAGE005
个分段结果中类别的个数;/>
Figure 709263DEST_PATH_IMAGE070
为预测第/>
Figure 153014DEST_PATH_IMAGE005
个分段结果中每个二进制串进行霍夫曼编码后减少的平均位数;/>
Figure DEST_PATH_IMAGE071
为预测第/>
Figure 228286DEST_PATH_IMAGE005
个分段结果中所有二进制串进行霍夫曼编码后的减少的总位数,将其记为压缩长度;压缩长度越大,编码效率越高。又因此霍夫曼编码需保存编码字典,即每个类别中二进制串对应的码字,编码字典也需随编码结果一同传输,若编码字典越大,传输效率越慢;将/>
Figure 297742DEST_PATH_IMAGE010
近似作为所有类别中的二进制串的平均码长,则/>
Figure 322330DEST_PATH_IMAGE072
为每个类别中二进制串以及其对应的码字的长,则/>
Figure DEST_PATH_IMAGE073
为预测字典长度。以压缩长度减去预测字典长度,作为第/>
Figure 982988DEST_PATH_IMAGE005
个分段结果的优异度,优异度越大,第/>
Figure 358605DEST_PATH_IMAGE005
个分段结果压缩后的传输效率越高。优异度越小,第/>
Figure 231752DEST_PATH_IMAGE005
个分段结果压缩后的传输效率越低。
同理,获取每个分段结果的优异度。
5.获取最优分段结果。
优异度越大,对应的分段结果压缩后的传输效率越高,因此,将优异度最大的分段结果作为最优分段结果。
需要说明的是,本发明实施例通过以单侧二叉数为衡量标准,构建标准序列,预测不同分段结果编码后的平均码长,进一步获取每个分段结果的优异度,可快速获取压缩后传输效率最高的分段结果,可节省利用霍夫曼编码对每个分段结果进行编码再获取最优的分段结果而造成的时间成本以及保存每个分段结果的编码字典消耗的空间成本。本发明实施例获取最优分段结果的方法时间效率高,占用内存小,使得最终压缩后的传输效率高。
104.对最优分段结果进行压缩得到压缩数据,对压缩数据进行传输并解压。
对最优分段结果利用霍夫曼编码进行压缩,得到压缩数据与压缩字典。将压缩数据与压缩字典共同传输至污水处理效果识别平台。
污水处理效果识别平台利用霍夫曼解码的方法根据压缩字典对压缩数据进行解压,得到多个二进制串。将所有二进制串按照顺序拼接在一起得到二进制数据。对二进制数据进行反序列化得到污水检测数据。
105.污水处理效果识别。
污水处理效果识别平台根据污水检测数据对污水处理效果进行识别。
在本实施例中,通过DNN网络学习污水检测数据与污水处理效果之间的关系,具体的,网络以历史污水检测数据作为训练集,污水处理效果作为标签,所述标签为污水处理效果等级,由污水处理专业人员根据历史污水检测数据进行人为标注。网络的损失函数为均方差损失。训练DNN网络,将训练完成的DNN网络作为污水处理效果识别网络。
将污水检测数据输入到污水处理效果识别网络中输出污水处理效果。
通过以上步骤,完成了污水处理效果的识别。
本发明实施例通过采集污水检测数据,进一步获取二进制数据,并对二进制数据进行分段;获取每个分段结果的频率序列,构建每个分段结果的标准序列,通过频率序列与标准序列之间的差异预测不同分段结果编码后的平均码长,进一步获取每个分段结果的优异度,可快速获取压缩后传输效率最高的分段结果,可节省利用霍夫曼编码对每个分段结果进行编码再获取最优的分段结果而造成的时间成本以及保存每个分段结果的编码字典消耗的空间成本。本发明获取最优分段结果的方法时间效率高,占用内存小,使得最终压缩后的传输效率高。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种污水处理效果识别方法,其特征在于,该方法包括以下步骤:
采集污水检测数据,将污水检测数据转换为二进制数据;
根据第一预设阈值以及第二预设阈值获取多个第一长度,分别根据每个第一长度对二进制数据进行分段得到多个分段结果,每个分段结果包含多个第一长度的二进制串;获取每个分段结果包含的二进制串的个数作为每个分段结果的第一数量;
获取每个分段结果的优异度,包括:
对分段结果进行分类得到多个类别,将类别个数作为第二数量;将第二数量减二作为第三数量;统计每个类别的频率,根据每个类别的频率获取长度为第三数量的频率序列;获取长度为第三数量的标准序列;根据标准序列以及第二数量获取标准码长;根据标准序列获取频率序列中每个频率的权重;根据频率序列、标准序列、第二数量、所述每个频率的权重以及标准码长获取预测码长;根据预测码长、第一长度、第一数量以及第二数量获取分段结果的优异度;
选择优异度最大的分段结果作为最优分段结果,对最优分段结果进行编码压缩,得到压缩数据;将压缩数据传输至污水处理效果识别平台,污水处理效果识别平台根据压缩数据进行污水处理效果识别。
2.根据权利要求1所述的一种污水处理效果识别方法,其特征在于,所述根据第一预设阈值以及第二预设阈值获取多个第一长度,分别根据每个第一长度对二进制数据进行分段得到多个分段结果,每个分段结果包含多个第一长度的二进制串包括:
获取第一预设阈值与第二预设阈值之间所有的整数,得到多个第一长度;分别根据每个第一长度将二进制数据分成长度为所述第一长度的多个二进制串,得到多个分段结果,每个分段结果包含多个二进制串;每个分段结果对应一个第一长度。
3.根据权利要求1所述的一种污水处理效果识别方法,其特征在于,所述对分段结果进行分类得到多个类别包括:
将分段结果中所有相同的二进制串划分为一个类别,得到多个类别,每个所述类别中包含的二进制串均相同,不同所述类别包含的二进制串均不同。
4.根据权利要求1所述的一种污水处理效果识别方法,其特征在于,所述统计每个类别的频率,根据每个类别的频率获取长度为第三数量的频率序列包括:
统计每个类别中二进制串的个数,将每个类别中二进制串的个数除以分段结果的第一数量,得到每个类别的频率;
对所有类别的频率按照从大到小的顺序进行排序,获取排序结果中前第三数量个频率构成频率序列。
5.根据权利要求1所述的一种污水处理效果识别方法,其特征在于,所述获取长度为第三数量的标准序列包括:
构建一个长度为第三数量的标准序列,标准序列中包含第三数量个标准频率,第
Figure 780162DEST_PATH_IMAGE001
个标准频率为
Figure 479259DEST_PATH_IMAGE002
6.根据权利要求1所述的一种污水处理效果识别方法,其特征在于,所述标准码长的表达式为:
Figure 384898DEST_PATH_IMAGE003
其中
Figure 464718DEST_PATH_IMAGE004
为第
Figure 114005DEST_PATH_IMAGE005
个分段结果的标准码长;
Figure 688116DEST_PATH_IMAGE006
为第
Figure 764657DEST_PATH_IMAGE001
个标准频率;
Figure 535036DEST_PATH_IMAGE001
为标准频率的序号;
Figure 722435DEST_PATH_IMAGE007
为第
Figure 130544DEST_PATH_IMAGE005
个分段结果的第二数量。
7.根据权利要求1所述的一种污水处理效果识别方法,其特征在于,所述根据标准序列获取频率序列中每个频率的权重包括:
将标准序列中每个标准频率作为频率序列中每个频率的权重。
8.根据权利要求1所述的一种污水处理效果识别方法,其特征在于,所述预测码长的表达式为:
Figure 377986DEST_PATH_IMAGE008
其中
Figure 635661DEST_PATH_IMAGE009
为第
Figure 626751DEST_PATH_IMAGE005
个分段结果的预测码长;
Figure 152017DEST_PATH_IMAGE007
为第
Figure 570360DEST_PATH_IMAGE005
个分段结果的第二数量;
Figure 49751DEST_PATH_IMAGE010
为频率序列中第
Figure 844532DEST_PATH_IMAGE011
个频率;
Figure 227234DEST_PATH_IMAGE012
为频率序列中第
Figure 816478DEST_PATH_IMAGE013
个频率;
Figure 314325DEST_PATH_IMAGE014
为频率序列中第
Figure 647217DEST_PATH_IMAGE015
个频率;
Figure 881496DEST_PATH_IMAGE016
为频率序列中第
Figure 907221DEST_PATH_IMAGE001
个频率;
Figure 361205DEST_PATH_IMAGE006
为标准序列中第
Figure 497788DEST_PATH_IMAGE001
个标准频率;
Figure 996028DEST_PATH_IMAGE017
为扩大系数;
Figure 176342DEST_PATH_IMAGE018
为频率序列中第
Figure 133934DEST_PATH_IMAGE001
个频率的权重;
Figure 556432DEST_PATH_IMAGE004
为标准码长;
Figure 17500DEST_PATH_IMAGE019
为以自然常数为底的函数。
9.根据权利要求1所述的一种污水处理效果识别方法,其特征在于,所述优异度的表达式为:
Figure 634295DEST_PATH_IMAGE020
其中
Figure DEST_PATH_IMAGE021
为第
Figure 813603DEST_PATH_IMAGE005
个分段结果的优异度;
Figure 308301DEST_PATH_IMAGE022
为第
Figure 623876DEST_PATH_IMAGE005
个分段结果的第一长度;
Figure 411572DEST_PATH_IMAGE009
为第
Figure 281439DEST_PATH_IMAGE005
个分段结果的预测码长;
Figure 45739DEST_PATH_IMAGE023
为第
Figure 481400DEST_PATH_IMAGE005
个分段结果的第一数量;
Figure 439998DEST_PATH_IMAGE007
为第
Figure 593898DEST_PATH_IMAGE005
个分段结果的第二数量。
10.根据权利要求1所述的一种污水处理效果识别方法,其特征在于,所述对最优分段结果进行编码压缩是指对最优分段结果进行霍夫曼编码压缩。
CN202211271223.2A 2022-10-18 2022-10-18 一种污水处理效果识别方法 Active CN115361027B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211271223.2A CN115361027B (zh) 2022-10-18 2022-10-18 一种污水处理效果识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211271223.2A CN115361027B (zh) 2022-10-18 2022-10-18 一种污水处理效果识别方法

Publications (2)

Publication Number Publication Date
CN115361027A CN115361027A (zh) 2022-11-18
CN115361027B true CN115361027B (zh) 2023-03-24

Family

ID=84008697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211271223.2A Active CN115361027B (zh) 2022-10-18 2022-10-18 一种污水处理效果识别方法

Country Status (1)

Country Link
CN (1) CN115361027B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543946B (zh) * 2022-12-02 2023-11-17 盛银数科(沈阳)技术有限公司 一种金融大数据优化存储方法
CN115987296B (zh) * 2023-03-20 2023-06-16 北京优天下科技股份有限公司 基于霍夫曼编码的交通能源数据压缩传输方法
CN116318174B (zh) * 2023-05-15 2023-08-15 青岛国源中创电气自动化工程有限公司 一种污水处理厂的垃圾运输管理系统的数据管理方法
CN116346940B (zh) * 2023-05-29 2023-08-22 德州禹工环保设备有限公司 一种智慧海绵城市的监测管理系统
CN117394866B (zh) * 2023-10-07 2024-04-02 广东图为信息技术有限公司 一种基于环境自适应的智能拍门系统
CN117040542B (zh) * 2023-10-08 2024-01-12 广东佰林电气设备厂有限公司 一种智能综合配电箱能耗数据处理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104283568B (zh) * 2013-07-12 2017-05-17 中国科学院声学研究所 一种基于部分霍夫曼树的数据压缩编码方法
US20210183227A1 (en) * 2015-09-25 2021-06-17 Conservation Labs, Inc. Sound monitoring system
WO2019186316A1 (en) * 2018-03-27 2019-10-03 nChain Holdings Limited Computer-implemented methods and systems relating to arithmetic coding for serialised arithmetic circuits
WO2020120973A2 (en) * 2018-12-12 2020-06-18 Pentair Plc Predictive and preventative maintenance systems for connected water devices
US10491240B1 (en) * 2019-01-17 2019-11-26 Cyborg Inc. Systems and methods for variable length codeword based, hybrid data encoding and decoding using dynamic memory allocation
EP3973427A4 (en) * 2019-05-20 2023-06-21 Sentinel Labs Israel Ltd. SYSTEMS AND METHODS FOR EXECUTABLE CODE DETECTION, AUTOMATIC FEATURE EXTRACTION, AND POSITION-INDEPENDENT CODE DETECTION
US20220147792A1 (en) * 2020-11-12 2022-05-12 United Microelectronics Centre (Hong Kong) Limited Processor, and method for generating binarized weights for a neural network

Also Published As

Publication number Publication date
CN115361027A (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
CN115361027B (zh) 一种污水处理效果识别方法
CN116192971B (zh) 智能云能源运维服务平台数据管理方法
CN112684346B (zh) 基于遗传卷积神经网络的锂电池健康状态估计方法
CN113267733B (zh) 基于高斯过程回归的锂电池健康状态估计的自动配置方法
CN115840799B (zh) 一种基于深度学习的知识产权综合管理系统
CN115987296B (zh) 基于霍夫曼编码的交通能源数据压缩传输方法
CN113627532B (zh) 食品安全检测方法、装置、设备及存储介质
CN114841268B (zh) 基于Transformer和LSTM融合算法的异常电力客户识别方法
CN116541828B (zh) 一种服务信息数据的智能管理方法
KR101365989B1 (ko) 트리 구조를 기반으로 한 엔트로피 부호화 및 복호화 장치및 방법
CN115543946A (zh) 一种金融大数据优化存储方法
CN116610265A (zh) 一种商务信息咨询系统的数据存储方法
CN117376430B (zh) 基于dcs的工业数据快速传输方法及系统
CN117040542B (zh) 一种智能综合配电箱能耗数据处理方法
CN116827351B (zh) 一种石墨烯发热墙面温度智能监测系统
Belodedov et al. Development of an algorithm for optimal encoding of WAV files using genetic algorithms
CN115622571B (zh) 一种基于数据处理的雷达目标识别方法
CN115964347B (zh) 一种市场监管监测中心数据的智能存储方法
CN117097441A (zh) 基于数据分析的载波通信系统传输效率优化方法
CN114785410B (zh) 一种基于光纤编码的精准识别系统
CN113610194B (zh) 一种数字档案自动分类方法
CN112465838B (zh) 陶瓷晶粒图像分割方法、系统、储存介质及计算机设备
Jiao et al. Weight compression-friendly binarized neural network
CN117560016B (zh) 基于大数据的高校招聘信息管理方法
CN117896442B (zh) 一种基于物联网的综合能源数据管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant