CN116631563B

CN116631563B - 一种医药行业大数据存储及智能匹配方法

Info

Publication number: CN116631563B
Application number: CN202310907513.XA
Authority: CN
Inventors: 王英为; 李彦亭
Original assignee: Beijing Xinglin Kangyun Information Technology Co ltd
Current assignee: Beijing Xinglin Kangyun Information Technology Co ltd
Priority date: 2023-07-21
Filing date: 2023-07-21
Publication date: 2023-10-03
Anticipated expiration: 2043-07-21
Also published as: CN116631563A

Abstract

本发明涉及数据处理领域，具体涉及一种医药行业大数据存储及智能匹配方法，包括：采集数据；对数据分组；根据各组的数据与组中所有数据的均值的差异得到基准块的选择系数；根据数据获取每个数据出现的频率；根据每个数据的频率和数值得到每个数据的可信度参数；根据各组的每个数据的可信度参数和组中所有数据的可信度参数的均值得到第一基准块选择参数；根据每组中数据的均值与待压缩数据之间的差异得到第二基准块选择参数；根据基准块的选择系数、第一基准块选择参数和第二基准块选择参数得到最优基准块；根据最优基准块对血糖数据进行压缩。本发明用数据处理方式对每组数据进行分析处理，得到最优基准块，提高数据的压缩存储。

Description

一种医药行业大数据存储及智能匹配方法

技术领域

本发明涉及数据处理技术领域，具体涉及一种医药行业大数据存储及智能匹配方法。

背景技术

医药行业是一个信息密集型行业，涉及到大量的患者数据、临床试验数据、药物研发数据等。这些数据的存储和处理需要大量的存储空间和计算资源。因此，对于医药行业来说，大数据的压缩具有重要的意义。医药行业大数据中血糖数据的压缩对于提高数据处理效率和降低存储成本非常重要。首先，血糖数据的压缩可以减少数据的存储空间。血糖数据通常是以时间序列的形式记录的，包含大量的测量值。通过压缩这些数据，可以减少存储所需的空间，降低存储成本。其次，血糖数据的压缩可以提高数据处理的效率，通过压缩数据，可以减少数据的大小，提高数据处理的速度和效率。压缩后的数据文件更小，传输速度更快，可以更方便地在不同的系统和平台之间共享和交换数据。

现有血糖数据压缩的方法为增量压缩编码，使用增量压缩编码可以利用数据的连续性，将相邻时间点的血糖值差异进行压缩存储，减少数据的冗余性，且只传输压缩后的增量数据，而不是传输所有的原始数据，可以提高数据传输的效率。但增量压缩编码对数据的变化非常敏感，如果数据发生了较大的变化，之前的压缩字典可能无法有效地压缩新的数据，导致压缩效果下降，由于每一个都是基于前一个的差异进行编码的，如果前一个的数据出现错误或丢失，那么后续的数据也会受到影响，导致累积误差，且增量差分编码压缩对数据的分布敏感，如果数据的分布不均匀或存在大的波动，将会导致差异值的大小变化较大，从而降低压缩效果。

发明内容

本发明提供一种医药行业大数据存储及智能匹配方法，以解决现有的问题。

本发明的一种医药行业大数据存储及智能匹配方法采用如下技术方案：

本发明一个实施例提供了一种医药行业大数据存储及智能匹配方法，该方法包括以下步骤：

采集血糖数据；

根据预设分组长度范围内的不同分组长度对血糖数据进行分组；

根据分组长度m，将组内数据的数量小于m-1的分组记为目标组，将组内数据的数量等于m的分组记为满分组；

根据各个分组中数据的分布差异得到不同分组长度下基准块的选择系数；

根据每个数据的频率和数值得到每个数据的可信度参数；

根据各个分组中的所有数据的可信度参数的差异得到不同分组长度下的第一基准块选择参数；

将各个分组中最后一个数据记为待压缩数据，将各个分组中除过待压缩数据之外的所有数据记为目标数据；

根据每个分组中目标数据的均值与待压缩数据的差异得到不同分组长度下的第二基准块选择参数；

根据基准块的选择系数、第一基准块选择参数和第二基准块选择参数得到最优基准块；

根据最优基准块对血糖数据进行压缩，对压缩后的数据进行存储。

进一步地，所述分组长度下的基准块选择系数，包括的具体步骤如下：

分组长度m下基准块的选择系数的公式为：

式中，表示第n个目标组中的第i个数据，/>表示第n个目标组中所有数据的平均值，n表示第n个目标组中的数据个数，m表示分组长度，M表示总的数据个数，/>表示第N个满分组中的第j个数据，/>表示第N个满分组中的所有数据的均值，/>表示分组长度m下基准块的选择系数，/>表示满分组的组的数量。

进一步地，所述每个数据的可信度参数，包括的具体步骤如下：

根据血糖数据中每个数据分别与相邻数据作差求和得到一个结果，记为第一结果，对血糖数据中每个数据频率的频率进行归一化得到归一化后每个数据的频率，记为第二结果，根据第一结果的倒数和第二结果的乘积得到每个数据的可信度参数。

进一步地，所述分组长度下的第一基准块选择参数，包括的具体步骤如下：

分组长度下的第一基准块选择参数的公式为：

式中，为分组长度m下的第一基准块选择参数，m表示分组长度，M表示总的数据个数，/>表示第n个目标组中的第z个数据的可信度参数，/>表示第N个满分组中的第x个数据的可信度参数。

进一步地，所述分组长度下的第二基准块选择参数，包括的具体步骤如下：

分组长度下的第二基准块选择参数的公式为：

式中，为分组长度m下的第二基准块选择参数，/>表示第n个目标组中的第Z个数据的数值，/>表示第n个目标组中最后一个数据的数值，记为目标组的待压缩数据；表示第N个满分组中的第X个数据的数据值，/>表示第N个满分组中的第m个数据的数据值，记为第N个组的待压缩数据。

进一步地，所述最优基准块，包括的具体步骤如下：

优选度的计算公式为：

式中，表示分组长度m下基准块的选择系数，/>表示分组长度m下的第一基准块选择参数，/>表示分组长度m下的第二基准块选择参数，/>表示分组长度m下的优选度；

所述最优基准块的具体获取方法为：获得预设分组长度范围内的所有不同分组长度的优选度，选取优选度最大时对应的分组长度，作为压缩时选择的最优基准块。

本发明的技术方案的有益效果是：本发明根据更换不同分组长度来得到不同分组情况下的基准块参数，根据不同分组情况下的基准块参数得到最优数据分组长度，根据最优分组长度确定出最优基准块，即根据数据的波动情况使其根据数据的前几个综合差异进行编码，避免数据的压缩效果直接受两个连续数据差值过大所影响，且一定程度上减少了数据与数据之间的误差累积，降低了噪声值对于数据解压缩后对数据误差的影响，以达到更好的压缩效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种医药行业大数据存储及智能匹配方法的步骤流程图；

图2为本发明一种医药行业大数据存储及智能匹配方法的分组示意图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种医药行业大数据存储及智能匹配方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种医药行业大数据存储及智能匹配方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种医药行业大数据存储及智能匹配方法的步骤流程图，该方法包括以下步骤：

步骤S001：采集血糖数据。

需要说明的是，大数据采集的目的是为了更好地了解用户的血糖状况，通过分析大量的血糖数据，可以发现用户的血糖波动规律、风险因素和潜在问题，从而为用户提供个性化的健康管理和预防措施。同时，大数据采集还可以用于科学研究和医学领域的数据分析，为疾病的预防和治疗提供参考和支持。通过大数据采集用户的血糖信息，可以帮助医疗机构和研究人员更好地了解人群的血糖水平分布和变化趋势。这有助于制定更精准的预防和治疗策略，提高糖尿病管理的效果。大数据采集可以帮助用户更好地管理自己的血糖。通过收集用户的血糖数据，可以实时监测和分析血糖水平，提供个性化的健康建议和警示，帮助用户调整饮食、运动和药物使用等方面的行为，从而更好地控制血糖。此外，用户血糖信息的大数据采集也为糖尿病研究提供了宝贵的资源。通过分析大量的血糖数据，可以发现潜在的影响血糖的因素和规律，为糖尿病的治疗和预防提供科学依据。同时，大数据采集也可以帮助研究人员发现新的糖尿病风险因素和早期预警指标，为疾病的早期诊断和干预提供支持。

本实施例需要检测用户不同时间的血糖数据，所以使用植入型血糖仪，每隔十分钟检测一次血糖，总共采集10小时内的血糖数据。

至此，血糖数据采集完成。

步骤S002：根据血糖数据的波动情况，数据的概率分布和差异性得到基准块选择系数。

需要说明的是，现有的增量压缩编码通过比较相邻的数据块之间的差异来减少数据的存储空间，将第一个数据块存储为原始数据，用下一个数据块与前一个数据块进行比较，找出它们之间的差异并将差异存储为增量数据，对于后续的数据重复上述操作。但以前一个数据作为基准块会受到下一个数据与其差异性大小的影响，差异性过大可能会降低压缩效果，甚至压缩后数据比压缩前还大；且由于每个数据点都是基于前一个点的差异计算出来的，如果前面的某个数据出现误差，会导致误差累积，导致后续数据点的解压缩结果出现偏差。本实施例通过分析数据特征，选择连续的几位数据均值作为基准点，使基准点的选择更接近数据的线性变化，从而降低基准块与后一个数据的差异程度；若连续数据中某数据出现误差，计算数据均值可以降低某数据误差对于整体数据误差的误差累积。

在本实施例中，基准块并不是根据待压缩数据的前一个数据，而是以待压缩数据前几个数据的均值，所以需要根据数据分布情况得到计算均值时选择数据数量对于压缩效果的影响程度获得选择系数，即基准块选择系数。

需要说明的是，对于一组数据，数据离散程度越小，则说明在这组数据中的数据越接近数据的均值，所以这组数据内最后一个数据（待压缩数据）与组内除过最后一个数据的剩余数据均值（基准块）的相似程度和相似概率更高，则在该分组中压缩最后一位数据的压缩比更好。所以，压缩比取决于基准块与待压缩数据的差异程度，差异程度越小，需要存储基准块与待压缩数据的差异部分越小，压缩比越大，则选择系数越大。

进一步需要说明的是，由于本实施例采用的压缩方式是根据前面数据的均值对后面一个数据进行操作的，所以本实施例的最小分组长度为3，最大分组长度为总的数据个数M=60，则由上述分析可知数据的分组长度范围为[3，M]。

再进一步需要说明的是，将预设分组长度范围内的每个整数作为分组长度m。对于分组长度m，将每个数据的前m-1个数据组成的序列记为每个数据的分组，其中，m表示分组长度；对于任意一个数据，如果该数据分组中数据的数量小于m-1，则将该数据的分组记为目标组，如果该数据的分组中的数据的数量等于m，则将该数据的分组记为满分组。

数据分组时以四个数据为一组为例进行分析计算，从第一个数据位置开始计算四个数据的离散程度后，从第二个数据开始继续按顺序计算四个数据的离散程度，直至计算完所有数据为止。

下面以长度为10，分组的长度为4为例进行叙述。

例：总数据为1，2，3，4，5，6，7，8，9，10。以四个数据为分组的长度进行分组，分完组后，目标组包括：（1）；（ 1，2）；（ 1，2，3）；满分组包括：（1，2，3，4）；（2，3，4，5）；（3，4，5，6）；（4，5，6，7）；（5，6，7，8）；（6，7，8，9）；（7，8，9，10）。这些组中前三个数据作为基准块，然后求取均值，最后与组内的最后一个数据进行比较。

数据整个分组过程是从第一个数据开始的，首先判断分组的长度是否满足其长度，不满足其长度的前面数据需要单独进行分析处理。

在上述分组过程中，分组的长度为4，则前三个数据就构成不了一个组，则前三个数据就需要单独分许处理。其中分组过程是以每次移动一个数据进行分组，具体如图2所示，其中图2只分了几个组来说明前三个数据的情况，并没有分组完全，此处只是举例说明三个数据的情况。

因为每次分组长度不同，按顺序处理数据时前几位数据可能得不到对应分组长度，因此将前几位不满分组长度的数据的均值作为基准块，所以第二个数据以第一个数据为基准块，第三个数据以前两个数据的均值为基准块，第四个以前三个均值为基准块，依次类推，直到数据长度满足分组长度后，对剩下的数据用分组的处理方式进行处理。所以对比离散程度之和时，需要计算前几个数据分组。

将第一个组的数据在进行逐个获取时，在还未达到满分组长度时，此时将其记为目标组。

则根据数据的总长度和分组的长度可以得到该分组长度的选择系数，即在该分组下基准块的选择系数可以表示为：

根据上述方法可以得到分组长度为m时，所有数据分组的离散程度之和。又因为离散程度之和SD(m)与基准块选择系数为反比关系，所以基准块选择系数为1/SD(m)。

步骤S003：根据每个数据的频率和相邻数据之间的差异得到每个数据的可信度参数。

需要说明的是，增量压缩编码只考虑了数据之间的差异性，没有基于数据频率考虑数据的可信度，在数据收集过程中可能存在数据噪声或误差值，可以根据数据频率分布和差异性大小判断数据的准确性，根据分组数据中数据准确性（可信度）作为数据分组参数（基准块选择参数），从而降低异常值或噪声值对数据压缩产生的影响。

进一步需要说明的是，在一组数据中，某数据出现频率越高，其属于正常数据的概率越高，且其与相邻数据之差越小，属于正常数据概率也越高。

具体地，在上述分析中确定了数据的总长度为M，所以可以将每个数据在总数据中的频率分别记为。其中，将所有数据中出现频率最高的数据频率记为/>，将所有数据中出现频率最低的数据频率记为/>，此处将组内的每个数据值记为，则根据数据频率和数据值得到每个数据的可信度参数，可用下面公式表示：

式中，表示在所有数据中第t个数据的可信度，/>表示第t个数据在所有数据中出现的频率，/>表示所有数据中出现频率最高的数据频率，/>所有数据中出现频率最低的数据频率，/>表示第t个数据的数据值，/>表示第t-1个数据的数据值，/>表示第t+1个数据的数据值。

其中，当每个数据在总数据中频率越高，则为正常数据的概率越高，反之概率越低，且对比数据与左右数据之间的差值之和，如果差值之和较大，说明该数据出数据数值变化较大，有可能为异常数据或噪声数据，数据可信度更低。又因为越大，数据可信度越大；而当/>越大，数据与左右数据之差的和越大，数据可信度越低，所以对得到的差值之和取其倒数再结合频率作为数据可信度。

至此，得到每个数据的可信度参数。

步骤S004：根据每个数据的可信度参数确定出基准块的选择参数。

需要说明的是，对比每种分组情况下组内数据可信度的均值，作为基准块的选择参数，数据可信度均值越高，说明该分组情况下组数据更稳定，数据异常值可能会更少，用该分组数据确定基准块后压缩效果可能会更好。

则根据所有数据的可信度参数可以得到第一基准块选择参数，公式为如下：

式中，为分组长度为m的情况下组内数据可信度的均值之和，即分组长度m下的第一基准块选择参数，m表示分组长度，M表示总的数据个数，/>表示第n个目标组中的第z个数据的可信度参数，/>表示第N个满分组中的第x个数据的可信度参数。

其中，当所有分组可信度均值之和越大，说明该分组情况下数据确定基准块后压缩效果可能会更好。

需要说明的是，基准块与待压缩数据的差异性越小，则压缩效果越好，因为增量压缩编码只会压缩不同部分的数值，所以当基准块与待压缩数据差值大小之和越小，说明数据的压缩比可能会更高。

则根据所有数据中每个组内基准块数据的可信度参数和与带压缩数据的可信度参数之间的差值得到第二基准块选择参数，公式如下：

式中，为分组长度为m的情况下基准块与待压缩数据的差值绝对值之和，即分组长度m下的第二基准块选择参数，/>表示第n个目标组中的第Z个数据的数值，/>表示第n个目标组中最后一个数据的数值，即为目标组的待压缩数据；/>表示第N个满分组中的第X个数据的数据值，/>表示第N个满分组中的第m个数据的数据值，即为第N个组的待压缩数据，也为第N个组中的最后一个数据。

其中，当基准块与待压缩数据的差值越小，则压缩效果越好，所以当前分组大小下，基准块与数据差值的绝对值之和越小，压缩效果越好。

步骤S005：根据基准块选择系数和基准块选择参数得到最优基准块。

需要说明的是，将基准块选择参数结合基准块选择系数确定初始基准块，对比不同分组长度下的基准块选择系数结合选择参数，获得不同分组长度下的优选度。

则分组长度下的优选度的计算公式如下：

式中，表示分组长度m下基准块的选择系数，/>表示分组长度m下的第一基准块选择参数，/>表示分组长度m下的第二基准块选择参数，/>表示分组长度m下的优选度。

获得预设分组长度范围内的所有不同分组长度的优选度，选取优选度最大时对应的分组长度，作为压缩时选择的最优基准块。

至此，得到最优基准块。

步骤S006：用选择的最优基准块对数据进行压缩。

根据上述步骤得到的最优基准块，通过增量压缩编码对数据进行压缩，得到压缩后的数据，对压缩后的数据进行存储。

至此，本实施例完成。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种医药行业大数据存储及智能匹配方法，其特征在于，该方法包括以下步骤：

采集血糖数据；

根据每个数据的频率和数值得到每个数据的可信度参数；

根据最优基准块对血糖数据进行压缩，对压缩后的数据进行存储；

所述分组长度下的基准块选择系数，包括的具体步骤如下：

分组长度m下基准块的选择系数的公式为：

式中，q_n,i表示第n个目标组中的第i个数据，表示第n个目标组中所有数据的平均值，n表示第n个目标组中的数据个数，m表示分组长度，M表示总的数据个数，q_N,j表示第N个满分组中的第j个数据，/>表示第N个满分组中的所有数据的均值，SD(n)表示分组长度m下基准块的选择系数，M-(n-1)表示满分组的数量；

所述每个数据的可信度参数，包括的具体步骤如下：

根据血糖数据中每个数据分别与相邻数据作差求和得到一个结果，记为第一结果，对血糖数据中每个数据频率的频率进行归一化得到归一化后每个数据的频率，记为第二结果，根据第一结果的倒数和第二结果的乘积得到每个数据的可信度参数；

所述分组长度下的第一基准块选择参数，包括的具体步骤如下：

分组长度下的第一基准块选择参数的公式为：

式中，REl(m)为分组长度m下的第一基准块选择参数，m表示分组长度，M表示总的数据个数，p_n,z表示第n个目标组中的第z个数据的可信度参数，p_N,x表示第N个满分组中的第x个数据的可信度参数；

所述分组长度下的第二基准块选择参数，包括的具体步骤如下：

分组长度下的第二基准块选择参数的公式为：

式中，MEAN(m)为分组长度m下的第二基准块选择参数，P_n,z表示第n个目标组中的第Z个数据的数值，P_n表示第n个目标组中最后一个数据的数值，记为目标组的待压缩数据；P_N,X表示第N个满分组中的第X个数据的数据值，P_N,m表示第N个满分组中的第m个数据的数据值，记为第N个组的待压缩数据；

所述最优基准块，包括的具体步骤如下：

优选度的计算公式为：

OPT(m)＝[1/SD(m)×REl(m)×1/MEAN(m)]_max

式中，SD(m)表示分组长度m下基准块的选择系数，REl(m)表示分组长度m下的第一基准块选择参数，MEAN(m)表示分组长度m下的第二基准块选择参数，OPT(m)表示分组长度m下的优选度；