CN116743181B

CN116743181B - 基于大数据的用药安全数据分类存储方法

Info

Publication number: CN116743181B
Application number: CN202311000077.4A
Authority: CN
Inventors: 李彦亭; 王英为
Original assignee: Beijing Xinglin Kangyun Information Technology Co ltd
Current assignee: Beijing Xinglin Kangyun Information Technology Co ltd
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-10-31
Anticipated expiration: 2043-08-09
Also published as: CN116743181A

Abstract

本发明涉及数据处理技术领域，具体涉及基于大数据的用药安全数据分类存储方法，包括：根据用药安全数据得到若干字符串；根据字符串的出现频次与对应包含的字符数量得到分类系数；根据分类系数得到分类界限决策数值，根据分类界限决策数值得到损失函数；根据损失函数训练神经网络，得到若干标记序列；根据标记序列得到若干字符串序列；根据字符串序列包含的字符串数量得到初始读入区间长度；根据初始读入区间长度得到读入区间长度；根据读入区间长度得到最终读入区间长度；根据最终读入区间长度进行分类存储。本发明对数据进行分类存储的同时，降低了存储空间成本。

Description

基于大数据的用药安全数据分类存储方法

技术领域

本发明涉及数据处理技术领域，具体涉及基于大数据的用药安全数据分类存储方法。

背景技术

伴随着现代医疗技术的不断发展，针对不同病症的药品种类越来越多，由于不同的药品种类对同一病症的效果以及对身体的副作用不同，所以导致药品安全逐渐成为人们关注的重点，因此，对于越来越多的药品种类，对应的用药安全数据也越来越多，为了更加有效地使用用药安全数据，需要将用药安全数据高效存储。

而现有的存储方法，只是对药品的用药安全与注意事项进行记载存储，导致数据存储的空间成本较高。为此，本发明提出了一种基于大数据的用药安全数据分类存储方法，用较长的字符串代替传统压缩字典中的单个字符，使得最终的压缩率得到明显提升，且对于初始字典中的字符串是通过神经网络分割得到的较为理想和准确的字符串，并且通过分割结果中的字符串的频率与长度占比较大的字符串为字符串读入区的长度，使得压缩过程中字符串与初始字典中字符串进行匹配的速率提升，进一步提升压缩速率，降低压缩的计算成本。

发明内容

本发明提供基于大数据的用药安全数据分类存储方法，以解决现有的问题。

本发明的基于大数据的用药安全数据分类存储方法采用如下技术方案：

本发明一个实施例提供了基于大数据的用药安全数据分类存储方法，该方法包括以下步骤：

获取用药安全数据序列；

对用药安全数据序列进行数据转换得到若干用药数据序列；根据用药数据序列进行分组得到用药数据序列包含的若干字符串；获取每个字符串的出现频次与包含的字符数量；根据每个字符串的出现频次与包含的字符数量，得到每个用药数据序列的分类系数；根据分类系数得到每个用药数据序列的分类界限决策数值；根据分类界限决策数值得到每个用药数据序列的损失函数；根据损失函数训练神经网络，得到训练后的神经网络；获取待存储的用药数据序列，将待存储的用药数据序列输入训练后的神经网络得到字符串序列；

根据字符串序列包含的字符串数量得到字符串序列中每个字符串的初始读入区间长度；在字符串序列内所有字符串的初始读入区间长度中，将初始读入区间长度最小的字符串记为参考字符串，将参考字符串的初始读入区间长度记为字符串序列中每个字符串的读入区间长度；根据读入区间长度得到每个字符串的最终读入区间长度；

根据最终读入区间长度对待存储的用药数据序列进行分类存储。

优选的，所述对用药安全数据序列进行数据转换得到若干用药数据序列，包括的具体方法为：

对于任意一种监测药品的用药安全数据序列，利用Unicode编码方法将用药安全数据序列中每个用药安全数据转换成十进制数，得到转换后的用药安全数据序列，记为用药数据序列。

优选的，所述根据用药数据序列进行分组得到用药数据序列包含的若干字符串，包括的具体方法为：

将数据集中的任意一个用药数据序列输入到初始化后的神经网络后，输出结果记为初始标记序列，将初始标记序列中大于预设阈值的元素预设为1，将小于等于预设阈值的元素预设为0，从而得到一个二值序列，将二值序列中连续为1或连续为0的任意一个子序列记为一个分组，进而得到二值序列中的多个分组；所述数据集由大量用药数据序列构成；

对于用药数据序列内每个分组，将用药数据序列内每个分组内的所有元素是作为一个字符串，得到用药数据序列内若干字符串。

优选的，所述根据每个字符串的出现频次与包含的字符数量，得到每个用药数据序列的分类系数，包括的具体方法为：

对于任意一种监测药品的用药数据序列，式中，表示用药数据序列的分类系数；表示用药数据序列包含的字符串数量；/>表示在用药数据序列中，第/>个字符串的出现频次；/>表示在用药数据序列中，第/>个字符串包含的字符数量；/>表示该用药数据序列的长度。

优选的，所述根据分类系数得到每个用药数据序列的分类界限决策数值，包括的具体方法为：

对于任意一种监测药品的用药数据序列，式中，表示用药数据序列的分类界限决策数值；/>表示用药数据序列的分类系数；/>表示决策函数间隔控制系数。

优选的，所述根据分类界限决策数值得到每个用药数据序列的损失函数，包括的具体方法为：

对于任意一种监测药品的用药数据序列，式中，表示用药数据序列的损失函数；表示用药数据序列的分类界限决策数值。

优选的，所述根据损失函数训练神经网络，得到训练后的神经网络，包括的具体方法为：

损失函数使用随机梯度下降算法训练神经网络。

优选的，所述根据字符串序列包含的字符串数量得到字符串序列中每个字符串的初始读入区间长度，包括的具体方法为：

式中，表示字符串序列中每个字符串的初始读入区间长度；/>表示字符串序列中每个字符串的字符数量；/>表示字符串序列中所包含字符串的数量；/>表示在字符串序列内，第/>个字符串的字符数量。

优选的，所述根据读入区间长度得到每个字符串的最终读入区间长度，包括的具体方法为：

式中，表示参考字符串的最终读入区间长度；/>表示参考字符串的字符数量；表示参考字符串在待存储的用药数据序列的出现频次；/>表示在参考字符串所属字符串序列中，所包含字符串的数量；/>表示在参考字符串所属字符串序列中，第/>个字符串的出现频次；/>表示在参考字符串所属字符串序列中，第/>个字符串的字符数量。

优选的，所述根据最终读入区间长度对待存储的用药数据序列进行分类存储，包括的具体方法为：

利用LZW数据压缩方法对所有字符串序列中所有字符串分别进行压缩，得到若干压缩结果，然后利用SVM算法对若干压缩结果进行分类，得到分类结果并存储在更新的数据库中。

本发明的技术方案的有益效果是：相较于传统的LZW压缩的好处在于，用较长的字符串代替传统压缩字典中的单个字符，使得最终的压缩率得到明显提升，且对于字典中的字符串是通过神经网络分割得到的较为理想和准确的字符串，并且通过分割结果中的字符串的频率与长度占比较大的字符串为字符串读入区的长度，使得压缩过程中字符串与字典中字符串进行匹配的速率提升，进一步提升压缩速率，降低压缩的计算成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于大数据的用药安全数据分类存储方法的步骤流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于大数据的用药安全数据分类存储方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于大数据的用药安全数据分类存储方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的基于大数据的用药安全数据分类存储方法的步骤流程图，该方法包括以下步骤：

步骤S001：采集用药安全数据。

需要说明的是，现有的存储方法，只是对药品的用药安全与注意事项进行记载存储，导致数据存储的空间成本较高。为此，本实施例提出了一种基于大数据的用药安全数据分类存储方法，用较长的字符串代替传统压缩字典中的单个字符，使得最终的压缩率得到明显提升，且对于初始字典中的字符串是通过神经网络分割得到的较为理想和准确的字符串，并且通过分割结果中的字符串的频率与长度占比较大的字符串为字符串读入区的长度，使得压缩过程中字符串与初始字典中字符串进行匹配的速率提升，进一步提升压缩速率，降低压缩的计算成本。

具体的，为了实现本实施例提出的基于大数据的用药安全数据分类存储方法，首先需要采集用药安全数据，具体过程为：在医药监管机构的数据库中，将近一周内有更新记录的药品记为监测药品；获取若干监测药品，获取若干监测药品的用药安全数据，并将每个监测药品的用药安全数据按照记录时间进行排序，将构成的序列记为每个监测药品的用药安全数据序列。用药安全数据包括有药品保质期，适宜人群、不宜人群、用法用量以及禁忌事宜等，用药安全数据包括文字、字母、数字以及斜杠、百分号等特殊符号，本实施例中统一称为字符，因此每个监测药品的用药安全数据序列均是一个字符序列。

至此，通过上述方法得到若干监测药品的用药安全数据序列。

步骤S002：根据用药安全数据进行数据转换得到用药数据；根据用药数据得到若干字符串；根据字符串的出现频次与包含的字符数量得到分类系数；根据分类系数得到分类界限决策数值；根据分类界限决策数值得到损失函数；根据损失函数训练神经网络，得到若干标记序列；根据标记序列得到若干字符串序列。

需要说明的是，由于字符串长度较长且对应的出现频次较多时，说明得到每个字符串的最终读入区间较大，存在字符串长度大于最终读入区间的情况较少，压缩效率越高，所以本实施例将字符串长度较长且对应的出现频次较多的字符串分割出来，从而作为字典中的字符串，这样可以确保最终的字典扫描过程中，对字符串长度较长且频率较高的字符串进行存储。而对于损失函数，对于任意一个字符串，若字符串的损失函数越小，说明字符串分割结果越好，分类越正确。

具体的，以任意一种监测药品的用药安全数据序列为例，对该用药安全数据序列中每个用药安全数据进行转换，得到转换后的用药安全数据序列，记为用药数据序列；本实施例的转换方法为：利用Unicode编码方法将用药安全数据转换成十进制数。其中用药数据序列包含若干用药数据，一个用药数据对应一个用药安全数据。获取若干监测药品的用药数据序列，记为待存储的用药数据序列。

进一步的，本实施例需要利用神经网络将待存储的用药数据序列划分为多个字符串，使得划分出的字符串尽可能长且具有较大的出现频次，以保证后续压缩的高效。那么首先训练一个神经网络，具体方法如下：

1、本实施例人为采集大量监测药品的用药数据序列作为数据集；

2、初始化神经网络，该神经网络输入的是用药数据序列，输出的是标记序列，标记序列与用药数据序列等长，且用药数据序列与标记序列中的元素是一一对应的。

需要说明的是，本实施例使用的神经网络采用的是DeepLabV3网络，由于DeepLabV3网络处理的是图像数据，因此本实施例将用药数据序列视为一个行为1的图像即可，那么DeepLabV3中使用的卷积核大小也是1×3的。该神经网络最后一层的激活函数使用的是softmax函数。

3、损失函数的获取方法如下：

将数据集中的任意用药数据序列X输入到神经网络后，输出结果记为标记序列f，将f中大于0.5的元素预设为1，将小于等于0.5的元素预设为0，从而得到一个二值序列F，将二值序列F中连续为1或连续为0的任意一个子序列记为一个分组，进而得到二值序列F中的多个分组，将分组个数记为N，由于用药数据序列X与标记序列f中的元素是一一对应的，因此用药数据序列X也对应划分成N个分组。

将用药数据序列X中第n个分组内的每个元素视为一个字符，用药数据序列X中第n个分组内的所有元素是作为一个字符串，将该字符串在药数据序列中的字符数量，记为；获得该字符串在药数据序列中的出现频次，记为/>。损失函数为/>，/>表示该用药数据序列的损失函数，/>表示分界决策值，/>的获取方法如下：

进一步的，以任意一种监测药品的用药数据序列为例，该用药数据序列的损失函数的计算方法为：

式中，表示该用药数据序列的分类系数；/>表示该用药数据序列包含的字符串数量；/>表示在该用药数据序列中，第/>个字符串的出现频次；/>表示在该用药数据序列中，第个字符串包含的字符数量，/>表示该用药数据序列的长度，公式中引入/>的目的在于保证/>和/>都小于等于1。另外需要说明的是，在字符串分割的时候，由于L表示字符串包含的字符数量，即字符串长度，是字符串分割的依据，字符串长度关联到字符串分割的结果，而出现频次可以间接反映分割出来的字符串的合理情况，字符串长度越大且出现频次越高，说明该字符串分割越合理，越接近于分割的期望结果；

进一步的，以任意一个用药数据序列的分类系数，根据该用药数据序列的分类系数得到该用药数据序列的分类界限决策数值；其中该用药数据序列的分类界限决策数值的计算方法为：

式中，表示该用药数据序列的分类界限决策数值；/>表示该用药数据序列的分类系数；/>表示决策函数间隔控制系数，为超参数，本实施例预设/>；

至此，确定神经网络的结构与数据集以及损失函数。

4、本实施例利用数据集采用得到的损失函数使用随机梯度下降算法训练神经网络，本实施例训练次数为T1，其中本实施例以T1=为例进行叙述，本实施例不进行具体限定，其中T1可根据具体实施情况而定，获取训练后的神经网络。

进一步的，将每个待存储的用药数据序列分别输入训练后的神经网络，得到每个标记序列Q；以任意一个标记序列Q为例，将Q中大于0.5的元素设置为1，将小于等于0.5的元素设置为0，从而得到一个二值序列q，将二值序列q中连续为1或连续为0的任意一个子序列记为一个分组，从而得到二值序列q中的多个分组，将分组个数记为M，由于待存储的用药数据序列与标记序列f中的元素是一一对应的，因此待存储的用药数据序列也对应划分成M个分组。

至此，完成了对每个待存储的用药数据序列进行分组，得到了若干分组，每个分组视为一个字符串，那么每个待存储的用药数据序列的所有分组构成一个字符串序列。

同理获得所有待存储的用药数据序列的字符串序列。

另外需要说明的是，上述分组方法相比于其他技术，本实施例通过训练好的神经网络可以使获取的每个标记序列对应的字符串序列中，每个字符串最大限度地满足频率大且字符串长度长的特点，更好地保留了具有特定语义的字符串，在后续压缩过程中，使获取的最终读入区间长度与字符串长度相差更小，从而更好地保留字符串的内容，提高在字典中与字符串的匹配效率，进而提升压缩效率。

步骤S003：根据字符串的字符数量以及出现频次，得到字符串的读入区间长度；根据读入区间长度得到若干最终读入区间长度。

需要说明的是，获取的不同长度的字符串后，对所有字符串进行LZW数据压缩，首先对字典进行初始化，将字符串放入字典中，然后根据字典进行数据压缩。

进一步需要说明的是，对于传统的LZW数据压缩算法而言，字典中放入的字符，为了实现更好的压缩效果，本实施例将字符串放入字典中，然后根据字典中每个字符串的出现频次与包含的字符数量确定最终读入区间长度，进而实现数据压缩。

具体的，预设一个字典大小阈值T2，其中本实施例以T2=8为例进行叙述，本实施例不进行具体限定，其中T2可根据具体实施情况而定；构建一个字典大小T2的字典，将字符串序列中的每个字符串依次放入字典；以字符串序列中任意一个字符串为例，若该字符串在字典中对应最后一个索引，将该字符串放入字典后，对字典进行重置得到新的字典，然后对该字符串后续的字符串继续进行字符串放入空字符的操作；以此类推，直至遍历完字符串序列中所有字符串，其中字典中每种字符串对应一个索引；字符串序列中若干字符串对应一个字典，构建字典是LZW压缩算法的公知内容，本实施例不进行叙述。

进一步的，以任意一个字符串序列中任意一个字符串为例，根据该字符串的字符数量以及在该字符串的出现频次，得到该字符串的读入区间长度；其中该字符串的读入区间长度的计算方法为：

式中，表示该字符串的初始读入区间长度；/>表示该字符串的字符数量；/>表示该字符串序列所包含字符串的数量；/>表示在该字符串序列内，第/>个字符串的字符数量。获取该字符串序列中所有字符串的初始读入区间长度。

进一步的，在该字符串序列中所有字符串的初始读入区间长度中，将初始读入区间长度的最小值对应的字符串记为参考字符串；将参考字符串的初始读入区间长度记为该字符串序列中每个字符串的读入区间长度。需要补充说明的是，初始读入区间长度的最小值对应的字符串，与原始数据中字符串长度均值的差异最小；此时该字符串长度最接近大多数字符串的长度，在后续压缩过程中，使获取的最终读入区间长度与字符串长度相差更小，从而更好地保留字符串的内容。

进一步的，根据参考字符串的字符数量以及在该字符串的出现频次，得到参考字符串的最终读入区间长度；其中参考字符串的最终读入区间长度的计算方法为：

式中，表示参考字符串的最终读入区间长度；/>表示参考字符串的字符数量；表示参考字符串在待存储的用药数据序列的出现频次；/>表示该字符串序列所包含字符串的数量；/>表示在该字符串序列中，第/>个字符串的出现频次；/>表示在该字符串序列中，第/>个字符串的字符数量；/>表示参考字符串的读入区间权重。另外需要说明的是，对于获取与均值最接近的字符串长度的好处在于，在本场景中，将数据经过语义分割后，长度均值可以近似代表分割后字符串出现最多的长度；最终的字典读取区间设置可以满足可读取大多数的长度的分割后的字符串为最佳。但当获取字符串长度与总体分割后字符串长度均值的差值的最小值直接代替读入区间长度，显然不够合理，此时需要考虑与分割后字符串长度均值最接近的字符串在所有字符串中出现的占比，即读入区间权重，再用读入区间权重与长度的积作为最终读入区间长度，若读入区间权重越大，最终读入区间长度越接近与分割后字符串长度均值最接近的字符串长度。而考虑出现频次的好处在于：在最终读取区间长度接近分割后字符串长度均值的前提下，更可以与其余的字符串长度接近，这样可以降低字典更新的频率，也就进一步减少字典重置次数，即减少最终的字典量，进而提升数据压缩量。

进一步的，将参考字符串的最终读入区间长度记为该字符串序列中每个字符串的最终读入区间长度。获取每个字符串序列中每个字符串的最终读入区间长度。

至此，通过上述方法得到每个字符串序列中每个字符串的最终读入区间长度。

步骤S004：根据最终读入区间长度进行分类存储。

具体的，根据若干字符串序列中每个字符串的最终读入区间长度以及对应字典，利用LZW数据压缩方法对所有字符串序列中所有字符串分别进行压缩，得到若干压缩结果，然后利用SVM算法对若干压缩结果进行分类，得到分类结果并存储在更新的数据库中。其中LZW算法以及SVM算法均为公知技术，本实施例不进行叙述。

至此，本实施例完成。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于大数据的用药安全数据分类存储方法，其特征在于，该方法包括以下步骤：

获取用药安全数据序列；

根据最终读入区间长度对待存储的用药数据序列进行分类存储；

所述根据读入区间长度得到每个字符串的最终读入区间长度，包括的具体方法为：

式中，表示参考字符串的最终读入区间长度；/>表示参考字符串的字符数量；/>表示参考字符串在待存储的用药数据序列的出现频次；/>表示在参考字符串所属字符串序列中，所包含字符串的数量；/>表示在参考字符串所属字符串序列中，第/>个字符串的出现频次；/>表示在参考字符串所属字符串序列中，第/>个字符串的字符数量。

2.根据权利要求1所述基于大数据的用药安全数据分类存储方法，其特征在于，所述对用药安全数据序列进行数据转换得到若干用药数据序列，包括的具体方法为：

3.根据权利要求1所述基于大数据的用药安全数据分类存储方法，其特征在于，所述根据用药数据序列进行分组得到用药数据序列包含的若干字符串，包括的具体方法为：

对于用药数据序列内每个分组，将用药数据序列内每个分组内的所有元素作为一个字符串，得到用药数据序列内若干字符串。

4.根据权利要求1所述基于大数据的用药安全数据分类存储方法，其特征在于，所述根据每个字符串的出现频次与包含的字符数量，得到每个用药数据序列的分类系数，包括的具体方法为：

对于任意一种监测药品的用药数据序列，式中，表示用药数据序列的分类系数；/>表示用药数据序列包含的字符串数量；/>表示在用药数据序列中，第/>个字符串的出现频次；/>表示在用药数据序列中，第/>个字符串包含的字符数量；/>表示该用药数据序列的长度。

5.根据权利要求1所述基于大数据的用药安全数据分类存储方法，其特征在于，所述根据分类系数得到每个用药数据序列的分类界限决策数值，包括的具体方法为：

6.根据权利要求1所述基于大数据的用药安全数据分类存储方法，其特征在于，所述根据分类界限决策数值得到每个用药数据序列的损失函数，包括的具体方法为：

对于任意一种监测药品的用药数据序列，式中，表示用药数据序列的损失函数；/>表示用药数据序列的分类界限决策数值。

7.根据权利要求1所述基于大数据的用药安全数据分类存储方法，其特征在于，所述根据损失函数训练神经网络，得到训练后的神经网络，包括的具体方法为：

损失函数使用随机梯度下降算法训练神经网络。

8.根据权利要求1所述基于大数据的用药安全数据分类存储方法，其特征在于，所述根据字符串序列包含的字符串数量得到字符串序列中每个字符串的初始读入区间长度，包括的具体方法为：

9.根据权利要求1所述基于大数据的用药安全数据分类存储方法，其特征在于，所述根据最终读入区间长度对待存储的用药数据序列进行分类存储，包括的具体方法为：