CN117708513B - 一种用于缬草特征研究的种植数据管理方法 - Google Patents
一种用于缬草特征研究的种植数据管理方法 Download PDFInfo
- Publication number
- CN117708513B CN117708513B CN202410160283.XA CN202410160283A CN117708513B CN 117708513 B CN117708513 B CN 117708513B CN 202410160283 A CN202410160283 A CN 202410160283A CN 117708513 B CN117708513 B CN 117708513B
- Authority
- CN
- China
- Prior art keywords
- character
- corrected
- temperature data
- degree
- parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 235000013832 Valeriana officinalis Nutrition 0.000 title claims abstract description 41
- 244000126014 Valeriana officinalis Species 0.000 title claims abstract description 41
- 235000016788 valerian Nutrition 0.000 title claims abstract description 41
- 238000011160 research Methods 0.000 title claims abstract description 40
- 238000013523 data management Methods 0.000 title abstract description 11
- 238000012937 correction Methods 0.000 claims abstract description 98
- 238000007906 compression Methods 0.000 claims abstract description 31
- 230000006835 compression Effects 0.000 claims abstract description 31
- 238000012216 screening Methods 0.000 claims abstract description 10
- 230000008859 change Effects 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000012512 characterization method Methods 0.000 claims 5
- 241000196324 Embryophyta Species 0.000 claims 2
- 238000012545 processing Methods 0.000 abstract description 5
- 230000000875 corresponding effect Effects 0.000 description 39
- 230000006870 function Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013144 data compression Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000005856 abnormality Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000015097 nutrients Nutrition 0.000 description 1
- 230000029553 photosynthesis Effects 0.000 description 1
- 238000010672 photosynthesis Methods 0.000 description 1
- 230000001766 physiological effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
- G06F18/15—Statistical pre-processing, e.g. techniques for normalisation or restoring missing data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/28—Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/02—Agriculture; Fishing; Forestry; Mining
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
- H03M7/3084—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method
- H03M7/3088—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction using adaptive string matching, e.g. the Lempel-Ziv method employing the use of a dictionary, e.g. LZ78
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Mining & Mineral Resources (AREA)
- Marine Sciences & Fisheries (AREA)
- Animal Husbandry (AREA)
- Agronomy & Crop Science (AREA)
- Probability & Statistics with Applications (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及缬草种植数据处理技术领域,具体涉及一种用于缬草特征研究的种植数据管理方法。本发明首先获取缬草生长区域的温度数据;进一步筛选获得待分析字符串和待修正字符;进一步分析待修正字符与对比字符的温度数据差异,获得待修正字符的相似度参数;进一步根据待分析字符的分布特征和待分析字符对应的温度数据相似特征,获得待分析字符串的修正程度;进一步利用待修正字符的研究价值特征调整修正程度;最后利用最终修正程度对待压缩温度数据进行压缩编码。本发明通过获取最终修正程度判断待压缩温度数据能否进行修正后合并,在保障温度数据真实性的同时,将部分温度数据进行调整,可以减少动态字典的条目,提高匹配速率和压缩效率。
Description
技术领域
本发明涉及缬草种植数据处理技术领域,具体涉及一种用于缬草特征研究的种植数据管理方法。
背景技术
缬草是一种特色中药材品种,为了提升缬草的种植存活率和维护健康生长状态,推动其产业化的深度发展,需要收集相应的基础数据资料并进行分析研究。然而缬草的生长区域气候多变、环境复杂,温度数据会不断地发生变化,产生大量数据,长时间进行数据采集和管理会占用较多的系统资源。为了提升数据的传输和存储效率,通常会使用编码压缩的方式对数据进行管理,其中LZW编码是常用的一种数据压缩算法,它通过一个动态字典来记录字符串和码字的对应关系,实现较为简单,具有压缩比高、适用范围广的特点。
LZW算法需要在编码解码过程中动态生成并维护字典,数据只要发生了很小的变化就会在字典中生成新的条目,因此在利用常规LZW编码算法对缬草野外分布区温度数据进行压缩的过程中,很容易在字典中生成非常多无用的条目,这些条目的匹配度低、占用系统内存,降低了数据的压缩效率和压缩比。
发明内容
为了解决现有LZW算法处理缬草的温度数据压缩效率低的技术问题,本发明的目的在于提供一种用于缬草特征研究的种植数据管理方法,所采用的技术方案具体如下:
获取缬草生长区域的温度数据;
将每个温度数据转化为一个待压缩的字符,根据LZW算法结合动态字典,筛选出待压缩温度数据的待分析字符串和对比字符串;将所述待分析字符串与所述对比字符串进行对比,将顺序相同字符不同的所述待分析字符串内的字符标记为待修正字符;
根据所述待分析字符串内每个所述待修正字符与所述对比字符串内对应的对比字符,分别对应的所述温度数据的差异,获得每个所述待修正字符的相似度参数;根据所述待分析字符串内所述待修正字符的分布特征,结合所述待修正字符的所述相似度参数,获得所述待分析字符串的修正程度;
根据所述温度数据的波动异常特征,获得每个所述待修正字符的研究价值参数;利用所述待分析字符串内所有所述待修正字符的所述研究价值参数和所述相似度参数,调整所述修正程度,获得最终修正程度;
根据所述最终修正程度对所述待压缩温度数据进行压缩编码并储存。
进一步地,所述相似度参数的获取方法包括:
将每个所述待修正字符与相同位置的所述对比字符对应的温度数据的差值绝对值进行负相关映射,获得每个所述待修正字符的相似度参数。
进一步地,所述修正程度的获取方法包括:
将所述待修正字符的所述相似度参数的平均值进行负相关映射,获得第一修正子参数;
根据所述待修正字符的分布特征,获得每个所述待修正字符的局部密度参数;将最大的所述局部密度参数作为第二修正子参数;
将所述待修正字符的数量、所述第一修正子参数和所述第二修正子参数的乘积归一化后,获得所述待分析字符串的修正程度。
进一步地,所述局部密度参数的获取方法包括:
获取每个所述待修正字符与预设第一常数个最近的其他所述待修正字符的平均距离,将平均距离进行负相关映射,获得每个所述待修正字符的局部密度参数;所述预设第一常数为正整数。
进一步地,所述研究价值参数的获取方法包括:
根据每个所述待修正字符对应的温度数据的预设邻域内,温度数据的波动范围和变化速度,获得每个所述待修正字符的变化程度参数;
根据每个所述待修正字符的对应温度数据的偏离特征,获得每个所述待修正字符的偏离程度参数;
将所述变化程度参数与所述偏离程度参数的乘积归一化后的结果值,获得每个所述待修正字符的研究价值参数。
进一步地,所述变化程度参数的获取方法包括:
获取每个所述待修正字符对应的温度数据的预设邻域内温度数据的极差,获取预设邻域内对应的温度数据中相邻温度数据差值绝对值均值,将极差和差值绝对值均值的乘积作为每个所述待修正字符的变化程度参数。
进一步地,所述偏离程度参数的获取方法包括:
将所述待修正字符对应的温度数据在自然日中的采集时刻作为目标时刻;
利用偏离程度计算公式获取每个所述待修正字符的偏离程度参数;偏离程度计算公式包括:
;其中,/>表示第/>个待修正字符对应的偏离程度参数;/>表示第/>个待修正字符对应的温度数据;/>所有温度数据的均值;/>表示第/>个温度数据;/>表示所有温度数据与温度数据均值的差值绝对值构成的并集,/>表示获取最大值函数,/>表示所有温度数据与温度数据均值的差值绝对值构成的并集中的最大值;/>表示所有温度数据的数量;/>表示第/>个待修正字符对应的变化程度参数;/>表示第/>个待修正字符对应的目标时刻,在其他第/>个自然日的温度数据的变化程度参数;/>表示第/>个待修正字符对应的目标时刻与其他第/>个自然日的目标时刻之间,相差的自然日数量;/>表示除去第/>个待修正字符对应自然日之外,其他自然日的数量。
进一步地,所述最终修正程度的获取方法包括:
将所有所述待修正字符的所述研究价值参数与所述相似度参数的比值的和归一化后,获得修正参数;将所述修正参数与所述修正程度的乘积作为最终修正程度。
进一步地,所述根据所述最终修正程度对所述待压缩温度数据进行压缩编码的方法包括:
当所述最终修正程度小于等于预设阈值时,将所述待分析字符串修正为所述对比字符串,将修正后的所述待压缩温度数据进行压缩编码;
当所述最终修正程度大于预设阈值时,针对所述待压缩温度数据生成新的字典条目,更新动态字典,将所述待压缩温度数据进行压缩编码。
进一步地,所述根据LZW算法结合动态字典,筛选出待压缩温度数据的待分析字符串和对比字符串的方法包括:
针对当前待压缩温度数据的字符串,在动态字典已经记录的字符串中,筛选出具有最长相同前缀和相同长度的目标字符串,将当前待压缩温度数据的字符串中除去前缀的其余部分作为待分析字符串,将目标字符串中除去前缀的其余部分作为对比字符串。
本发明具有如下有益效果:
本发明首先获取缬草生长区域的温度数据,为后续处理温度数据提供数据基础;进一步筛选获得待分析字符串、对比字符串和待修正字符,为后续衡量数据合并时待压缩温度数据的修正幅度,判断待压缩温度数据的压缩编码方式确立分析对象;进一步分析待修正字符与对比字符的温度数据差异,获得待修正字符的相似度参数,从待修正字符进行修正会导致数据产生变形差异的角度,衡量待分析字符串的修正程度;进一步根据待分析字符的分布特征和待分析字符对应的温度数据相似特征,从原始数据需要修正的次数,每次修正的幅度以及修正字符的局部分布密度的角度,衡量了待分析字符串需要的修正程度,为最终判断待分析字符串是否修正合并提供依据;进一步利用待修正字符的研究价值特征调整修正程度,从需要修正的温度数据的重要性角度,调整修正程度,避免将具有较高研究价值的数据进行调整导致温度数据的研究性降低,保障温度数据的可研究性;最后利用最终修正程度对待压缩温度数据进行压缩编码并储存。本发明通过获取最终修正程度判断待压缩温度数据能否进行修正后合并,在保障温度数据真实性的同时,将部分温度数据进行调整,可以减少动态字典的条目,提高匹配速率和压缩效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种用于缬草特征研究的种植数据管理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于缬草特征研究的种植数据管理方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于缬草特征研究的种植数据管理方法的具体方案。
本发明基于LZW编码算法,根据字典中编码的特点和数据在时序上的特征对部分数据编码进行一定程度的修正,在尽量保留关键数据细节的前提下提高整体的压缩效率和压缩比,最终获得一个效率较高、占用系统资源少的用于缬草特征研究的种植数据管理方法。
请参阅图1,其示出了本发明一个实施例提供的一种用于缬草特征研究的种植数据管理方法的流程图,具体包括:
步骤S1:获取缬草生长区域的温度数据。
在本发明实施例中,考虑到温度可以影响缬草的呼吸、光合作用、水分吸收和营养元素的运输,通过采集并分析温度数据,可以了解缬草在不同温度条件下的生理活动水平,有助于优化生长条件,所以获取缬草生长区域的温度数据,为后续处理温度数据提供基础。
需要说明的是,在本发明一个实施例中,温度数据的采集频率为30分钟一次,采集时长为整个生长周期;在本发明其他实施例中,实施者可以设置其他的采集频率。
步骤S2:将每个温度数据转化为一个待压缩的字符,根据LZW算法结合动态字典,筛选出待压缩温度数据的待分析字符串和对比字符串;将待分析字符串与对比字符串进行对比,将顺序相同字符不同的待分析字符串内的字符标记为待修正字符。
LZW算法是一种基于字符串的压缩算法,其基本思想是将输入的数据流中的重复字符串用单一的标记或编码来表示,从而实现数据的压缩,将温度数据转化为字符有利于建立和维护字典,更好的分析数据中的重复模式,从而实现更高效的压缩,所以将每个温度数据转化为一个待压缩的字符,此时字符串就表示为连续的温度数据。需要说明的是,将数据转化为字符的方式已是本领域技术人员所熟知的技术手段,在本发明一个实施例中,温度数据为整数,单位为摄氏度,所以通过大小写的英文字母和希腊字母,即可将缬草生长环境温度数据转化为字符,在本发明其他实施例中,可以选用其他字符集进行转化,在此不再进行赘述。
在本发明实施例中,考虑到实际缬草生长区域的环境温度具有一定的周期性,即每天不同时刻的温度大小和变化趋势相似,同时缬草生长的生长周期内相同阶段的环境温度也具有一定的周期性,因此温度数据之间存在着相似性特征,可以通过对数据进行较小的修正就能将新的温度数据并入已经在动态字典中记录过的温度数据中,可以有效提高数据的压缩效率和压缩比。为了衡量数据合并时待压缩温度数据的修正幅度,首先需要获取需要进行修正的字符,从而分析这些待修正字符的特征,判断待压缩温度数据是否能够进行修正后合并。
优选地,在本发明一个实施例中,针对当前待压缩温度数据的字符串,在动态字典已经记录的字符串中,筛选出具有最长相同前缀和相同长度的目标字符串,将当前待压缩温度数据的字符串中除去前缀的其余部分作为待分析字符串,将目标字符串中除去前缀的其余部分作为对比字符串。
步骤S3:根据待分析字符串内每个待修正字符与对比字符串内对应的对比字符,分别对应的温度数据的差异,获得每个待修正字符的相似度参数;根据待分析字符串内待修正字符的分布特征,结合待修正字符的相似度参数,获得待分析字符串的修正程度。
在本发明实施例中,考虑到待修正字符与对应的对比字符的温度数据差异越小,说明将待修正字符进行修订后,数据产生的变形越小,影响程度越小,所以可以通过相似程度参数为待分析字符串的修正程度提供分析依据。
优选地,在本发明一个实施例中,将每个待修正字符与相同位置的对比字符对应的温度数据的差值绝对值加上自然数1然后取倒数,获得每个待修正字符的相似度参数。分别对待修正字符串和对比字符串内的字符进行排序,相同位置即为不同字符串中序号相同的字符位置;在本发明其他实施例中,也可选用其他基础数学运算或者函数映射实现相关映射,其均为本领域技术人员熟知的技术手段,在此不做赘述。
在本发明实施例中,考虑到合并过程中,需要对每个待修正字符进行修正,每次的修正都会使一个原始温度数据发生改变,若字符串中的较多字符都进行了修正,则这个字符串对应的原始数据段中的变化也会累积,最终导致原始数据产生一定程度的变形;同时每次修正时数据的改变较大,也可能使原始数据的变形过大;并且当一个字符串中有多个字符被修正时,字符的位置分布也会对原始数据产生不同的影响。所以,根据待分析字符串内待修正字符的分布特征,结合待修正字符的相似度参数,获得待分析字符串的修正程度。
优选地,在本发明一个实施例中,考虑到待修正字符分布越分散、待修正字符之间的间隔越大,待修正字符的数量越少,以及待修正字符对应的相似度参数越大,修正后导致的数据变形程度越小,修正程度就越低,基于此,将待修正字符的相似度参数的平均值进行负相关映射,获得第一修正子参数;
获取每个待修正字符与预设第一常数个最近的其他待修正字符的平均距离,将平均距离进行负相关映射,获得每个待修正字符的局部密度参数;将最大的局部密度参数作为第二修正子参数;
将待修正字符的数量、第一修正子参数和第二修正子参数的乘积归一化后,获得待分析字符串的修正程度。修正程度的计算公式包括:
;
其中,表示待分析字符串的修正程度;/>表示标准归一化函数;/>表示待修正字符的数量;/>表示第一修正子参数,/>,/>表示以自然常数/>为底的指数函数;/>表示第/>个待修正字符的相似度参数;/>表示第二修正子参数,,/>表示第/>个待修正字符的局部密度参数,/>表示所有待修正字符的局部密度参数构成的并集,/>表示获取最大值函数,/>表示所有待修正字符的局部密度参数构成的并集中的最大值。
修正程度的计算公式中,待修正字符的数量越小,说明待分析字符串和对比字符串之间不同的字符数量越少,将待分析字符串调整为对比字符串所需要修正的次数越少,对原始数据的影响越小,修正程度越小;第一修正子参数越小,说明所有待修正字符的平均相似度参数越大,反映出待修正字符的温度数据在合并前后修正的幅度整体越小,原始数据产生的形变越小,修正程度就越小;第二修正子参数越小,说明所有待修正字符的局部密度参数的最大值越小,说明待修正字符的局部密度越小,待修正字符之间的分布越分散,对待修正字符进行修正导致原始数据的发生形变的影响越小,修正程度越小。
需要说明的是,在本发明一个实施例中,预设第一常数为4;在本发明其他实施例中,实施者可以设定其他正整数作为第一常数,也可选用其他基础数学运算或者函数映射实现相关映射,其均为本领域技术人员熟知的技术手段,在此不做赘述。
步骤S4:根据温度数据的波动异常特征,获得每个待修正字符的研究价值参数;利用待分析字符串内所有待修正字符的研究价值参数和相似度参数,调整修正程度,获得最终修正程度。
在本发明实施例中,考虑到对于缬草生长区域的温度数据而言,不同时刻的数据对种植研究的价值不同,即数据的重要性不同。通常更关注数据大小偏离正常范围或时序上的变化趋势存在异常的温度数据,这些数据可能对缬草的生长产生一些影响,因此它们的研究价值也相对较强,这些数据在压缩编码过程中要尽量避免过多修正,以保留原始数据中的特殊信息,所以根据温度数据的波动异常特征,获得每个待修正字符的研究价值参数,为后续进一步调整修正程度做准备。
优选地,在本发明一个实施例中,考虑到温度数据的局部范围内,数据的变化程度越大,变化越剧烈,温度数据的异常程度就越大,研究价值就越高,所以根据每个待修正字符对应的温度数据的预设邻域内,温度数据的波动范围和变化速度,获得每个待修正字符的变化程度参数;考虑到温度数据的平稳性越弱,温度数据偏离特征越明显,温度数据的异常程度就越大,研究价值就越高,所以根据每个待修正字符的对应温度数据的偏离特征,获得每个待修正字符的偏离程度参数;考虑到变化程度参数与偏离程度参数都和研究价值正相关,所以将变化程度参数与偏离程度参数的乘积归一化后的结果值,获得每个待修正字符的研究价值参数。
优选地,在本发明一个实施例中,考虑到温度数据的极差越大,相邻温度数据的差值绝对值越大,说明温度数据的波动范围越大,变化速度越快,基于此,获取每个待修正字符对应的温度数据的预设邻域内温度数据的极差,获取预设邻域内对应的温度数据中相邻温度数据差值绝对值均值,将极差和差值绝对值均值的乘积作为每个待修正字符的变化程度参数。
需要说明的是,在本发明一个实施例中,预设领域为:以每个温度数据为中心,在时序上选择11个温度数据,构成温度数据的邻域;在本发明其他实施例中,实施者可以选择设置其他邻域范围;计算变化程度参数时,也可选用其他基础数学运算或者函数映射实现相关映射,其均为本领域技术人员熟知的技术手段,在此不做赘述。
优选地,在本发明一个实施例中,考虑到当前待修正字符对应的温度数据与所有温度数据的均值的差值绝对值越大,相对于所有温度数据与温度数据均值的差值绝对值构成的并集中的最大值越大,说明当前待温度数据的偏离程度越大,偏离程度参数就越大;考虑到温度数据变化具有一定的周期性,不同自然日的同一时刻的温度数据及其变化趋势具有一定的相似性,所以利用不同自然日的同一时刻温度数据的变化程度参数进行分析,当前温度数据与其他自然日的温度数据在变化程度参数上表现的差异越大,说明当前温度数据的异常程度越大,偏离特征越明显,偏离程度参数就越大,同时考虑到时序上越接近的自然日的温度数据参考性越强,所以利用相差的自然日数量进行加权;基于此,将所述待修正字符对应的温度数据在自然日中的采集时刻作为目标时刻,构建偏离程度计算公式,利用偏离程度计算公式获取每个待修正字符的偏离程度参数;偏离程度计算公式包括:
;
其中,表示第/>个待修正字符对应的偏离程度参数;/>表示第/>个待修正字符对应的温度数据;/>所有温度数据的均值;/>表示第/>个温度数据;/>表示所有温度数据与温度数据均值的差值绝对值构成的并集,/>表示获取最大值函数,表示所有温度数据与温度数据均值的差值绝对值构成的并集中的最大值;/>表示所有温度数据的数量;/>表示第/>个待修正字符对应的变化程度参数;/>表示第/>个待修正字符对应的目标时刻,在其他第/>个自然日的温度数据的变化程度参数;/>表示第/>个待修正字符对应的目标时刻与其他第/>个自然日的目标时刻之间,相差的自然日数量;/>表示除去第/>个待修正字符对应自然日之外,其他自然日的数量。
需要说明的是,偏离程度计算公式中,部分通过对比不同自然日中相同时刻的温度数据特征的差异,例如,现有周一到周日7个自然日的温度数据,当前分析的待修正字符的温度数据是周五13点采集的,那么13点就作为目标时刻,有周一到周四、周六以及周日一共6个其他自然日,依次把周一到周四、周六以及周日的13点采集的温度数据的变化程度参数与周五的相比较,并利用时间间隔进行修正;在本发明其他实施例中,可以限定选取其他自然日的数量,例如限定其他自然日在当前分析的待修正字符对应的自然日的14天内,其他自然日的数量限制为14;计算偏离程度时,也可选用其他基础数学运算或者函数映射实现相关映射,其均为本领域技术人员熟知的技术手段,在此不做赘述。
获得每个待修正字符的研究价值参数后,就可以结合相似度参数对修正程度进行进一步的调整,获得最终修正程度,以便后续判断新的温度数据是否能够通过进行修正,以合并入已有的温度数据,减少动态字典的条目,提高匹配速率和压缩效率。
优选地,在本发明一个实施例中,考虑到研究价值参数越大,修正所造成的影响越大,越需要放大待分析字符串的修正程度;待修正字符的相似度参数越大,说明对应温度数据需要调整的幅度越小,对原始数据影响的程度越小,所以将所有待修正字符的研究价值参数与相似度参数的比值的和归一化后,获得修正参数;将修正参数与修正程度的乘积作为最终修正程度。最终修正程度的计算公式包括:
;
其中,表示待分析字符串的最终修正程度;/>表示待分析字符串的修正程度;表示标准归一化函数;/>表示待修正字符的数量;/>表示第/>个待修正字符对应的研究价值参数;/>表示第/>个待修正字符的相似度参数。
需要说明的是,在本发明其他实施例中,也可选用其他基础数学运算或者函数映射实现相关映射,其均为本领域技术人员熟知的技术手段,在此不做赘述。
步骤S5:根据最终修正程度对待压缩温度数据进行压缩编码并储存。
获得待分析字符串的最终修正程度后,就可以判断新的温度数据是否能够通过进行修正,以合并入已有的温度数据,从而对待压缩温度数据进行压缩编码。
优选地,在本发明一个实施例中,最终修正程度越大,说明将待分析字符串合并入对比字符串对原始温度数据的影响越大,所以通过设置阈值的方式进行判断:
当最终修正程度小于等于预设阈值时,认为可以对数据进行调整,调整导致的数据损失较小,将待分析字符串修正为对比字符串,将修正后的待压缩温度数据进行压缩编码;
当最终修正程度大于预设阈值时,认为不能对数据进行调整,调整导致的数据损失过大,所以针对待压缩温度数据生成新的字典条目,更新动态字典,将待压缩温度数据进行压缩编码。
最后将压缩编码进行储存,便于相关人员进行调用分析。
需要说明的是,在本发明一个实施例中,预设阈值为0.75;在本发明其他实施例中,实施者可以设定其他阈值,以进行判断待压缩温度数据的压缩编码方式。
综上所述,本发明针对现有LZW算法处理缬草的温度数据压缩效率低的技术问题,提出了一种用于缬草特征研究的种植数据管理方法。本发明首先获取缬草生长区域的温度数据;进一步筛选获得待分析字符串和待修正字符;进一步分析待修正字符与对比字符的温度数据差异,获得待修正字符的相似度参数;进一步根据待分析字符的分布特征和待分析字符对应的温度数据相似特征,获得待分析字符串的修正程度;进一步利用待修正字符的研究价值特征调整修正程度;最后利用最终修正程度对待压缩温度数据进行压缩编码。本发明通过获取最终修正程度判断待压缩温度数据能否进行修正后合并,在保障温度数据真实性的同时,将部分温度数据进行调整,可以减少动态字典的条目,提高匹配速率和压缩效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (8)
1.一种用于缬草特征研究的种植数据管理方法,其特征在于,所述方法包括:
获取缬草生长区域的温度数据;
将每个温度数据转化为一个待压缩的字符,根据LZW算法结合动态字典,筛选出待压缩温度数据的待分析字符串和对比字符串;将所述待分析字符串与所述对比字符串进行对比,将顺序相同字符不同的所述待分析字符串内的字符标记为待修正字符;
根据所述待分析字符串内每个所述待修正字符与所述对比字符串内对应的对比字符,分别对应的所述温度数据的差异,获得每个所述待修正字符的相似度参数;根据所述待分析字符串内所述待修正字符的分布特征,结合所述待修正字符的所述相似度参数,获得所述待分析字符串的修正程度;
根据所述温度数据的波动异常特征,获得每个所述待修正字符的研究价值参数;利用所述待分析字符串内所有所述待修正字符的所述研究价值参数和所述相似度参数,调整所述修正程度,获得最终修正程度;
根据所述最终修正程度对所述待压缩温度数据进行压缩编码并储存;
所述修正程度的获取方法包括:
将所述待修正字符的所述相似度参数的平均值进行负相关映射,获得第一修正子参数;
根据所述待修正字符的分布特征,获得每个所述待修正字符的局部密度参数;将最大的所述局部密度参数作为第二修正子参数;
将所述待修正字符的数量、所述第一修正子参数和所述第二修正子参数的乘积归一化后,获得所述待分析字符串的修正程度;
所述研究价值参数的获取方法包括:
根据每个所述待修正字符对应的温度数据的预设邻域内,温度数据的波动范围和变化速度,获得每个所述待修正字符的变化程度参数;
根据每个所述待修正字符的对应温度数据的偏离特征,获得每个所述待修正字符的偏离程度参数;
将所述变化程度参数与所述偏离程度参数的乘积归一化后的结果值,获得每个所述待修正字符的研究价值参数。
2.根据权利要求1所述的一种用于缬草特征研究的种植数据管理方法,其特征在于,所述相似度参数的获取方法包括:
将每个所述待修正字符与相同位置的所述对比字符对应的温度数据的差值绝对值进行负相关映射,获得每个所述待修正字符的相似度参数。
3.根据权利要求1所述的一种用于缬草特征研究的种植数据管理方法,其特征在于,所述局部密度参数的获取方法包括:
获取每个所述待修正字符与预设第一常数个最近的其他所述待修正字符的平均距离,将平均距离进行负相关映射,获得每个所述待修正字符的局部密度参数;所述预设第一常数为正整数。
4.根据权利要求1所述的一种用于缬草特征研究的种植数据管理方法,其特征在于,所述变化程度参数的获取方法包括:
获取每个所述待修正字符对应的温度数据的预设邻域内温度数据的极差,获取预设邻域内对应的温度数据中相邻温度数据差值绝对值均值,将极差和差值绝对值均值的乘积作为每个所述待修正字符的变化程度参数。
5.根据权利要求1所述的一种用于缬草特征研究的种植数据管理方法,其特征在于,所述偏离程度参数的获取方法包括:
将所述待修正字符对应的温度数据在自然日中的采集时刻作为目标时刻;
利用偏离程度计算公式获取每个所述待修正字符的偏离程度参数;偏离程度计算公式包括:
;其中,/>表示第/>个待修正字符对应的偏离程度参数;/>表示第/>个待修正字符对应的温度数据;/>表示所有温度数据的均值;/>表示第/>个温度数据;/>表示所有温度数据与温度数据均值的差值绝对值构成的并集,/>表示获取最大值函数,/>表示所有温度数据与温度数据均值的差值绝对值构成的并集中的最大值;/>表示所有温度数据的数量;/>表示第/>个待修正字符对应的变化程度参数;/>表示第/>个待修正字符对应的目标时刻,在其他第个自然日的温度数据的变化程度参数;/>表示第/>个待修正字符对应的目标时刻与其他第/>个自然日的目标时刻之间,相差的自然日数量;/>表示除去第/>个待修正字符对应自然日之外,其他自然日的数量。
6.根据权利要求1所述的一种用于缬草特征研究的种植数据管理方法,其特征在于,所述最终修正程度的获取方法包括:
将所有所述待修正字符的所述研究价值参数与所述相似度参数的比值的和归一化后,获得修正参数;将所述修正参数与所述修正程度的乘积作为最终修正程度。
7.根据权利要求1所述的一种用于缬草特征研究的种植数据管理方法,其特征在于,所述根据所述最终修正程度对所述待压缩温度数据进行压缩编码的方法包括:
当所述最终修正程度小于等于预设阈值时,将所述待分析字符串修正为所述对比字符串,将修正后的所述待压缩温度数据进行压缩编码;
当所述最终修正程度大于预设阈值时,针对所述待压缩温度数据生成新的字典条目,更新动态字典,将所述待压缩温度数据进行压缩编码。
8.根据权利要求1所述的一种用于缬草特征研究的种植数据管理方法,其特征在于,所述根据LZW算法结合动态字典,筛选出待压缩温度数据的待分析字符串和对比字符串的方法包括:
针对当前待压缩温度数据的字符串,在动态字典已经记录的字符串中,筛选出具有最长相同前缀和相同长度的目标字符串,将当前待压缩温度数据的字符串中除去前缀的其余部分作为待分析字符串,将目标字符串中除去前缀的其余部分作为对比字符串。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410160283.XA CN117708513B (zh) | 2024-02-05 | 2024-02-05 | 一种用于缬草特征研究的种植数据管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410160283.XA CN117708513B (zh) | 2024-02-05 | 2024-02-05 | 一种用于缬草特征研究的种植数据管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117708513A CN117708513A (zh) | 2024-03-15 |
CN117708513B true CN117708513B (zh) | 2024-04-19 |
Family
ID=90146570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410160283.XA Active CN117708513B (zh) | 2024-02-05 | 2024-02-05 | 一种用于缬草特征研究的种植数据管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117708513B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118313848B (zh) * | 2024-06-11 | 2024-08-06 | 贵州省畜牧兽医研究所 | 一种用于肉牛冻精溯源过程的数据保护方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288491A (zh) * | 2017-05-17 | 2018-07-17 | 上海明品医药科技有限公司 | 一种自动处理病历数据的控制方法、控制系统以及存储设备 |
CN110782955A (zh) * | 2019-10-22 | 2020-02-11 | 中国科学院上海有机化学研究所 | 从研究文献中提取天然产物数据信息的方法及系统 |
CN113949430A (zh) * | 2021-08-26 | 2022-01-18 | 中国卫通集团股份有限公司 | 一种获取卫星载波频域分布特征参数的方法及系统 |
CN115276665A (zh) * | 2022-09-28 | 2022-11-01 | 江苏森信达生物科技有限公司 | 一种原料药的智能管理方法和系统 |
CN116055413A (zh) * | 2023-03-07 | 2023-05-02 | 云南省交通规划设计研究院有限公司 | 一种基于云边协同的隧道网络异常识别方法 |
CN116112434A (zh) * | 2023-04-12 | 2023-05-12 | 深圳市网联天下科技有限公司 | 一种路由器数据智能缓存方法及系统 |
CN116775589A (zh) * | 2023-08-23 | 2023-09-19 | 湖北华中电力科技开发有限责任公司 | 一种网络信息的数据安全防护方法 |
CN116975312A (zh) * | 2023-09-22 | 2023-10-31 | 山东五棵松电气科技有限公司 | 一种智慧校园教育数据管理系统 |
CN117014519A (zh) * | 2023-09-27 | 2023-11-07 | 北京融威众邦科技股份有限公司 | 一种数据传输方法及医院智能传输系统 |
CN117076408A (zh) * | 2023-10-13 | 2023-11-17 | 苏州爱雄斯通信技术有限公司 | 一种温度监测大数据传输方法 |
CN117278055A (zh) * | 2023-11-07 | 2023-12-22 | 杭州易靓好车互联网科技有限公司 | 基于数据分析的车辆销售信息优化存储方法 |
CN117376429A (zh) * | 2023-10-10 | 2024-01-09 | 南京邮电大学 | 一种无线传感器网络数据智能压缩方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6319740B2 (ja) * | 2014-03-25 | 2018-05-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | データ圧縮を高速化する方法、並びに、データ圧縮を高速化するためのコンピュータ、及びそのコンピュータ・プログラム |
US20190155835A1 (en) * | 2015-11-03 | 2019-05-23 | President And Fellows Of Harvard College | Systems and Methods for Processing Spatially Related Sequence Data Received from a Sequencing Device |
CN115391298A (zh) * | 2021-05-25 | 2022-11-25 | 戴尔产品有限公司 | 基于内容的动态混合数据压缩 |
US11803693B2 (en) * | 2021-06-18 | 2023-10-31 | Microsoft Technology Licensing, Llc | Text compression with predicted continuations |
-
2024
- 2024-02-05 CN CN202410160283.XA patent/CN117708513B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288491A (zh) * | 2017-05-17 | 2018-07-17 | 上海明品医药科技有限公司 | 一种自动处理病历数据的控制方法、控制系统以及存储设备 |
CN110782955A (zh) * | 2019-10-22 | 2020-02-11 | 中国科学院上海有机化学研究所 | 从研究文献中提取天然产物数据信息的方法及系统 |
CN113949430A (zh) * | 2021-08-26 | 2022-01-18 | 中国卫通集团股份有限公司 | 一种获取卫星载波频域分布特征参数的方法及系统 |
CN115276665A (zh) * | 2022-09-28 | 2022-11-01 | 江苏森信达生物科技有限公司 | 一种原料药的智能管理方法和系统 |
CN116055413A (zh) * | 2023-03-07 | 2023-05-02 | 云南省交通规划设计研究院有限公司 | 一种基于云边协同的隧道网络异常识别方法 |
CN116112434A (zh) * | 2023-04-12 | 2023-05-12 | 深圳市网联天下科技有限公司 | 一种路由器数据智能缓存方法及系统 |
CN116775589A (zh) * | 2023-08-23 | 2023-09-19 | 湖北华中电力科技开发有限责任公司 | 一种网络信息的数据安全防护方法 |
CN116975312A (zh) * | 2023-09-22 | 2023-10-31 | 山东五棵松电气科技有限公司 | 一种智慧校园教育数据管理系统 |
CN117014519A (zh) * | 2023-09-27 | 2023-11-07 | 北京融威众邦科技股份有限公司 | 一种数据传输方法及医院智能传输系统 |
CN117376429A (zh) * | 2023-10-10 | 2024-01-09 | 南京邮电大学 | 一种无线传感器网络数据智能压缩方法 |
CN117076408A (zh) * | 2023-10-13 | 2023-11-17 | 苏州爱雄斯通信技术有限公司 | 一种温度监测大数据传输方法 |
CN117278055A (zh) * | 2023-11-07 | 2023-12-22 | 杭州易靓好车互联网科技有限公司 | 基于数据分析的车辆销售信息优化存储方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117708513A (zh) | 2024-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117708513B (zh) | 一种用于缬草特征研究的种植数据管理方法 | |
CN116089846B (zh) | 一种基于数据聚类的新能源结算数据异常检测与预警方法 | |
CN107562865A (zh) | 基于Eclat的多元时间序列关联规则挖掘方法 | |
CN116414076B (zh) | 一种回收醇生产数据智能监控系统 | |
CN116153452B (zh) | 基于人工智能的医疗电子病历存储系统 | |
CN116828070B (zh) | 一种智慧电网数据优化传输方法 | |
CN110288594B (zh) | 一种植物冠层结构性状分析方法 | |
CN116975312B (zh) | 一种智慧校园教育数据管理系统 | |
CN116232935B (zh) | 一种物联网监测大数据传输方法 | |
CN117290364B (zh) | 一种市场调查数据智能存储方法 | |
CN115955251B (zh) | 一种基于大数据应用的可再生能源智慧管理方法及系统 | |
CN117473351A (zh) | 基于物联网的电源信息远程传输系统 | |
CN116418882A (zh) | 基于hplc双模载波通信的存储器数据压缩方法 | |
CN118018035B (zh) | 一种装修进度智能监管系统的信息传输方法 | |
CN113127464B (zh) | 农业大数据环境特征处理方法、装置及电子设备 | |
CN116707538B (zh) | 基于云边协同的田径运动员信息数据管理方法及系统 | |
CN110097473A (zh) | 一种农作物生命全周期的数据采集方法、装置及设备 | |
CN111797899B (zh) | 一种低压台区kmeans聚类方法及系统 | |
Sharma et al. | Rain Fall Prediction using Data Mining Techniques with Modernistic Schemes and Well-formed Ideas | |
CN114036845A (zh) | 一种风电场群模型构建方法 | |
CN118587030B (zh) | 一种基于大数据的灌区调配方法 | |
CN116756921B (zh) | 基于冠层光合模型的高光效株型特征确定方法及系统 | |
CN117112513B (zh) | 一种电子印章动态密钥智能存储方法 | |
CN118657666B (zh) | 一种基于图像处理的饲草种植区域规划方法 | |
CN118235588B (zh) | 基于作物相对产量差优化氮肥用量的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |