CN116820352B

CN116820352B - 一种具有数据容灾功能的病区自助结算系统

Info

Publication number: CN116820352B
Application number: CN202311061236.1A
Authority: CN
Inventors: 谭顺泉
Original assignee: Hunan Benpu Intelligent Technology Co ltd
Current assignee: Hunan Benpu Intelligent Technology Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-11-10
Anticipated expiration: 2043-08-23
Also published as: CN116820352A

Abstract

本发明涉及数据处理领域，具体涉及一种具有数据容灾功能的病区自助结算系统，该系统包括：病区自助结算数据采集模块、自适应数据块获取模块、数据块重组模块、数据块压缩模块、分布式存储模块，获取参考类型数据；根据数据间距序列的间距差异获取间距均值的可信度；由可信度获取切分阈值；切分获取数据块；获取数据的重要程度权重；根据重要程度权重获取数据块的重要程度，获取数据块的重复存储的次数；获取目标数据块，重组目标数据块与备选数据块获取重组数据块，根据重组数据块的频率序列与幂律序列的相似度获取数据子块；对数据子块进行压缩并存储到不同的存储节点，通过对数据子块压缩存储到不同的存储节点，到达容灾与高效存储的目的。

Description

一种具有数据容灾功能的病区自助结算系统

技术领域

本发明涉及数据处理领域，具体涉及一种具有数据容灾功能的病区自助结算系统。

背景技术

现有的病区自助结算系统在处理大量患者结算数据时，存在数据丢失、损坏或无法访问的风险，这可能导致结算过程中的错误或中断，数据容灾功能是一种用于保护系统数据免受意外损失或灾难性事件影响的技术，在病区自助结算系统中，数据容灾功能可以确保系统的数据在发生故障或灾难时能够快速恢复。

传统数据容灾是通过分布式存储来实现容灾功能的，分布式存储通过将原始数据切分成较小的数据块，将不同的数据块存储在不同的节点上，为了提高数据的容灾能力和可靠性，将数据块复制到多个存储节点中，每个存储节点负责存储一部分数据块，客户端可以通过存储节点的访问接口来读取和写入数据；客户端可以向任意存储节点发送请求，存储节点根据数据的位置信息找到对应的数据块，并在必要时进行数据复制和传输，即使某个存储节点出现故障，数据也可以通过其他副本进行恢复。为了实现数据的冗余备份和容错能力，传统分布式存储系统要求额外的存储空间来存储冗余副本；通过付出存储成本来换取容错能力，当数据量非常大时，需要大量的存储节点和硬件资源，对系统造成较大的存储负荷。故本发明通过对原始数据进行自适应分块，并将子块进行自适应重组，在达到容灾能力的同时大大减小系统的存储负荷。

发明内容

为了解决上述问题，本发明提供一种具有数据容灾功能的病区自助结算系统，所述系统包括：

病区自助结算数据采集模块，用于获取病区自助结算数据序列；

自适应数据块获取模块，用于根据病区自助结算数据中每种数据的频率获取参考类型数据；根据每个参考类型数据在病区自助结算数据序列中的位置获取每个参考类型数据的数据间距序列；根据每个参考类型数据的数据间距序列的间距差异获取每个数据间距序列的间距均值的可信度；根据所有参考类型数据的数据间距序列的间距均值的可信度获取数据块的切分阈值；通过数据块的切分阈值对病区自助结算数据序列进行切分，获取多个数据块；

数据块重组模块，用于获取历史病区自助结算数据与近期历史病区自助结算数据中每类数据的访问频率；根据历史病区自助结算数据与近期历史病区自助结算数据中每类数据的访问频率差异获取每类数据的重要程度权重；根据每类数据的重要程度权重与历史病区自助结算数据中每类数据的访问频率获取每个数据块的重要程度，根据每个数据块的重要程度获取每个数据块的重复存储的次数；根据重复存储次数获取目标数据块，根据每个数据块与目标数据块间的相似度获取备选数据块；将目标数据块与备选数据块进行重组获取重组数据块，根据重组数据块的频率序列与幂律序列的相似度获取数据子块；

数据块压缩模块，用于根据数据子块中数据的频率分布进行编码压缩，获取数据子块压缩包；

分布式存储模块，用于对数据子块压缩包进行分布式存储。

优选的，所述根据病区自助结算数据中每种数据的频率获取参考类型数据，包括的步骤为：

病区自助结算数据序列中相同的数据记为一种数据，统计病区自助结算数据序列中每种数据出现的频率，病区自助结算数据序列中数据的种类总数记为，数据出现的频率记为/>，则每种数据出现的频率序列为/>，其中/>表示第/>类数据出现的频率；设置频率阈值，将频率/>大于频率阈值的对应种类的数据进行记录，记为参考类型数据。

优选的，所述根据每个参考类型数据在病区自助结算数据序列中的位置获取每个参考类型数据的数据间距序列，包括的步骤为：

标记病区自助结算数据序列中所有的第个参考类型数据，将病区自助结算数据序列中的第一个标记的第/>个参考类型数据记为第/>个参考类型数据的第一标记数据，第一标记数据的坐标记为/>，将病区自助结算数据序列中的第二个标记的第/>个参考类型数据记为第/>个参考类型数据的第二标记数据，第二标记数据的坐标记为/>，同理获取将病区自助结算数据序列中的第/>个标记的第/>个参考类型数据记为第/>个参考类型数据的第/>标记数据，第/>标记数据的坐标记为/>，标记数据的总个数为/>，则第/>个参考类型数据的数据间距序列中的第/>个间距值为/>，将第/>个参考类型数据的数据间距序列记为/>，则第/>个参考类型数据的数据间距序列为/>，其中/>表示第/>个参考类型数据的数据间距序列中的第/>个间距值。

优选的，所述根据每个参考类型数据的数据间距序列的间距差异获取每个数据间距序列的间距均值的可信度，包括的步骤为：

参考类型数据的数据间距序列的间距均值的可信度为：

式中表示第/>个参考类型数据的数据间距序列的间距均值的可信度，/>()表示以自然常数为底数的指数函数，/>表示第/>个参考类型数据的标记数据的总个数，/>表示第/>个参考类型数据的数据间距序列中的第/>个间距值，/>表示第/>个参考类型数据的数据间距序列的间距均值。

优选的，所述根据所有参考类型数据的数据间距序列的间距均值的可信度获取数据块的切分阈值，包括的步骤为：

数据块的切分阈值为：

式中表示对病区自助结算数据序列进行切分的切分阈值，/>表示参考类型数据的总数，/>表示第/>个参考类型数据的数据间距序列的间距均值的可信度，/>表示第/>个参考类型数据的数据间距序列的间距均值，/>表示向下取整。

优选的，所述获取历史病区自助结算数据与近期历史病区自助结算数据中每类数据的访问频率，包括的步骤为：

统计对历史病区自助结算数据中各类数据的访问频率，将对历史病区自助结算数据中每类数据的访问频率记为，历史病区自助结算数据的类型总数记为/>，其中历史病区自助结算数据的类型与采集的病区自助结算数据的类型相同，则历史病区自助结算数据中每类数据的访问频率构成的访问频率序列为/>，其中/>表示历史病区自助结算数据中第/>类数据的访问频率；从当前采集的病区自助结算数据为时间起点，获取时间起点前/>天的病区自助结算数据，将前/>天的病区自助结算数据记为近期历史病区自助结算数据，同理获取近期历史病区自助结算数据中每类数据的访问频率构成的访问频率序列为/>，其中/>表示近期历史病区自助结算数据中第/>类数据的访问频率。

优选的，所述根据历史病区自助结算数据与近期历史病区自助结算数据中每类数据的访问频率差异获取每类数据的重要程度权重，包括的步骤为：

重要程度权重的获取方法为：

式中表示第/>类数据的重要程度权重，/>表示近期历史病区自助结算数据中第/>类数据的访问频率，/>表示历史病区自助结算数据中第/>类数据的访问频率，/>()表示以自然常数为底数的指数函数。

优选的，所述根据每类数据的重要程度权重与历史病区自助结算数据中每类数据的访问频率获取每个数据块的重要程度，包括的步骤为：

数据块的重要程度为：

式中表示第/>个数据块的重要程度，s表示第/>个数据块中数据总个数，/>表示第/>个数据块中第/>类历史病区自助结算数据的访问频率，/>表示第/>个数据块中第/>类历史病区自助结算数据的重要程度权重。

优选的，所述根据每个数据块与目标数据块间的相似度获取备选数据块，包括的步骤为：

获取数据块与数据块间的相似度，每个数据块是由数据总个数为的病区自助结算数据构成的序列，利用/>算法获取每个数据块与目标数据块之间的相似度/>，获取每个数据块与目标数据块间的相似度序列，记为/>，其中/>表示第/>个数据块与目标数据块间的相似度，/>表示数据块的总数，设置第一相似度阈值，将每个数据块与目标数据块间的相似度大于第一相似度阈值的数据块记为备选数据块。

优选的，所述将目标数据块与备选数据块进行重组获取重组数据块，根据重组数据块的频率序列与幂律序列的相似度获取数据子块，包括的步骤为：

将目标数据块记为初始目标数据块；从备选数据块中选择第x个数据块，将第x个数据块与目标数据块进行重组，得到重组数据块，包括：

将备选数据块与目标数据块的相似度从大到小进行排列，从备选数据块中选择第个数据块与目标数据块进行重组，将该重组数据块记为第/>重组数据块，统计第/>重组数据块中每类字符的频率，将频率从大到小进行排列，得到第/>重组数据块的频率序列/>，获取与第/>重组数据块的频率序列/>等长的幂律序列/>，采用/>算法获取第/>重组数据块的频率序列/>与幂律序列/>之间的相似度/>，设置第二相似度阈值/>，当第/>重组数据块的频率序列/>与幂律序列/>之间的相似度/>大于等于第二相似度阈值/>时，从备选数据块中选择第/>个数据块，并将第/>个重组数据块作为新的目标数据块；将第个数据块与新的目标数据块进行重组，以此类推，直至相似度/>不大于等于第二相似度阈值/>时停止，并得到所有的重组数据块；将重组数据块和未进行重组的数据块均记为数据子块。

本发明具有如下有益效果：

通过病区自助结算数据中每类字符的分布自适应获取切分阈值，通过切分阈值对病区自助结算数据进行分块处理，获取存在较大相似度关系的多个数据块，根据数据的访问频率获取数据块的重要程度，通过重要程度获取数据块的存储次数，通过对数据块进行重复存储达到容灾的目的，根据数据块的相似度对数据块进行自适应重组，获取重组后的数据子块，重组后的数据子块中数据的频率分布尽可能呈现幂律分布，采用霍夫曼编码对数据的频率分布近似呈现幂律分布的数据子块进行压缩时，大大提高数据子块的压缩效果，将压缩后的数据子块存储在不同的存储节点上，不仅大大提高病区自助结算数据的容灾能力，同时大大减小存储负荷，达到容灾与高效存储的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例提供的一种具有数据容灾功能的病区自助结算系统的系统框图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种具有数据容灾功能的病区自助结算系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种具有数据容灾功能的病区自助结算系统的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种具有数据容灾功能的病区自助结算系统，该系统包括以下模块：

病区自助结算数据采集模块101，用于采集病区自助结算数据。

通过手持终端采集设备或医院信息系统采集病区自助结算数据，其中病区自助结算数据包括病人的基本信息、医疗费用明细、结算方式和结算结果；其中病人的基本信息包括病人姓名、性别、年龄、身份证号码；医疗费用明细包括病人就诊的各项费用明细，如药品费、检查费、治疗费、手术费；结算方式包括自费、医保报销、商业保险报销；结算结果包括病人实际支付的费用、医保报销的费用、商业保险报销的费用。将采集得到的病区自助结算数据记为病区自助结算数据序列。

需要说明的是：采用分布式存储的方式对病区自助结算数据进行存储时，需要将病区自助结算数据切分为较小的数据块，将不同的数据块存储在不同的节点上，达到提高数据的容灾能力和可靠性，该种存储方法将病区自助结算数据块进行重复存储；病区自助结算数据存在局部冗余的情况，例如药品名称、不同时间相同患者的基本信息等，若将冗余信息切分为一个数据块，并将相似的数据块合并到一起进行存储，不仅实现重复存储，还可以尽可能小的占用节点的存储空间；故本发明通过对病区自助结算数据进行分析，根据病区自助结算数据中数据的分布特点对病区自助结算数据进行自适应切分处理，将相似的数据块进行组合压缩后，进行重复存储，以保证在实现数据容灾的基础上尽可能小的占用存储节点的存储空间，以保证在相同的存储空间能存储更多的数据。

自适应数据块获取模块102，用于自适应切分获取病区自助结算数据的数据块。

需要说明的是：在进行数据切分时，需要进行均匀切分，以保证在后期读取数据时更快更方便，故需要根据病区自助结算数据序列中数据的分布进行数据块的切分，尽可能保证较多的数据块间存在较大的相似性，从而保证在进行组合压缩时可以达到较好的压缩效果。

病区自助结算数据序列中相同的数据记为一种数据，统计病区自助结算数据序列中每种数据出现的频率，病区自助结算数据序列中数据的种类总数记为，数据出现的频率记为/>，则每种数据出现的频率序列为/>，其中/>表示第/>类数据出现的频率；设置频率阈值/>，本实施例以/>为例进行叙述，具体实施时可设置其他值，本实施例不进行具体限定，将频率/>大于频率阈值/>的对应种类的数据进行记录，记为参考类型数据，将所有参考类型数据的频率按照从大到小进行排列，其中参考类型数据的总数记为/>，参考类型数据的频率记为/>，则参考类型数据的频率序列为，其中/>表示参考类型数据的频率序列中第/>个参考类型数据的频率，/>，其中/>表示参考类型数据的频率序列中第/>个参考类型数据的频率，/>表示病区自助结算数据序列中出现频率最大的数据类型的频率值；获取每个参考类型数据的数据间距序列，即获取每个参考类型数据在病区自助结算数据序列中的位置，以参考类型数据的频率序列中第/>个参考类型数据为例，利用第/>个参考类型数据相邻数据间的间距获取第/>个参考类型数据的数据间距序列；其中第/>个参考类型数据的数据间距序列中的每个间距值的获取方法为：

在病区自助结算数据序列中标记所有的第个参考类型数据，将病区自助结算数据序列中的第一个标记的第/>个参考类型数据记为第/>个参考类型数据的第一标记数据，第一标记数据的坐标记为/>，将病区自助结算数据序列中的第二个标记的第/>个参考类型数据记为第/>个参考类型数据的第二标记数据，第二标记数据的坐标记为/>，同理获取将病区自助结算数据序列中的第/>个标记的第/>个参考类型数据记为第/>个参考类型数据的第/>标记数据，第/>标记数据的坐标记为/>，标记数据的总个数为/>，则第/>个参考类型数据的数据间距序列中的第/>个间距值为：/>，将第/>个参考类型数据的数据间距序列记为/>，则第/>个参考类型数据的数据间距序列为：/>，其中/>表示第/>个参考类型数据的数据间距序列中的第/>个间距值；同理获取每个参考类型数据的数据间距序列，分别记为：/>，其中/>表示第/>个参考类型数据的数据间距序列，获取每个数据间距序列的间距均值，将间距均值记为/>，其中/>表示第/>个参考类型数据的数据间距序列的间距均值。

获取每个数据间距序列的间距均值的可信度，以第个参考类型数据的数据间距序列为例，第/>个参考类型数据的数据间距序列为：/>，则第/>个参考类型数据的数据间距序列的间距均值的可信度为：

式中表示第/>个参考类型数据的数据间距序列的间距均值的可信度，/>表示以自然常数为底数的指数函数，D表示第/>个参考类型数据的标记数据的总个数，/>表示第/>个参考类型数据的数据间距序列中的第/>个间距值，/>表示第/>个参考类型数据的数据间距序列的间距均值；第/>个参考类型数据的数据间距序列中的每个间距值与间距均值的差异越相似，说明第/>个参考类型数据的标记数据的分布越均匀，则将该间距均值作为数据块的切分阈值的可信度越大，获取所有参考类型数据的数据间距序列的间距均值的可信度，则数据块的切分阈值为：

式中表示对病区自助结算数据序列进行切分的切分阈值，/>表示参考类型数据的总数，/>表示第/>个参考类型数据的数据间距序列的间距均值的可信度，/>表示第/>个参考类型数据的数据间距序列的间距均值，/>表示向下取整；利用切分阈值/>对病区自助结算数据序列进行切分，即从病区自助结算数据序列的第一个数据开始，切取长度为/>的病区自助结算数据，将其作为第一个数据块，将第一个数据块从病区自助结算数据序列中去除，从剩余的病区自助结算数据序列中继续进行切分，直至病区自助结算数据序列中所有的数据均完成切分后停止，当最后剩余的病区自助结算数据序列的数据长度小于/>时，将其也记为一个数据块，切分得到多个数据块，按照切分的先后顺序对数据块进行编号，数据块的总数记为/>。

数据块重组模块103，用于对相似度较大的数据块进行重组。

需要说明的是：对数据的访问频率越高，说明数据越重要，则在进行存储时，对重要程度大的数据重复存储的次数越多，同时为了保证数据的压缩率，故将相似的数据块进行重组，令重组之后的数据块中数据的分布尽可能呈现幂律分布，形式为，其中/>表示幂律分布中的字符类型数；重组之后的数据块中数据的分布越呈现幂律分布，则在进行压缩时的压缩效果越好。

统计对历史病区自助结算数据中各类数据的访问频率，将对历史病区自助结算数据中每类数据的访问频率记为，历史病区自助结算数据的类型总数记为/>，其中历史病区自助结算数据的类型与采集的病区自助结算数据的类型相同，则历史病区自助结算数据中每类数据的访问频率构成的访问频率序列为/>，其中/>表示历史病区自助结算数据中第/>类数据的访问频率；从当前采集的病区自助结算数据为时间起点，获取时间起点前/>天的病区自助结算数据，本实施例以/>为例进行叙述，具体实施时可设置其他值，将前/>天的病区自助结算数据记为近期历史病区自助结算数据，同理获取近期历史病区自助结算数据中每类数据的访问频率构成的访问频率序列为，其中/>表示近期历史病区自助结算数据中第/>类数据的访问频率；根据历史病区自助结算数据与近期历史病区自助结算数据中每类数据的访问频率差异获取每类数据的重要程度权重，重要程度权重的获取方法为：

式中表示第/>类数据的重要程度权重，/>表示近期历史病区自助结算数据中第/>类数据的访问频率，/>表示历史病区自助结算数据中第/>类数据的访问频率，/>()表示以自然常数为底数的指数函数；/>表示近期经常访问第/>类数据，则说明第类数据在近期的重要程度较大，故赋予其较大的权重；/>表示第/>类数据的访问频率没有发生变化，故重要程度权重为0；/>表示近期很少访问第/>类数据，则说明第/>类数据在近期的重要程度较小，故赋予其较小的权重。

根据每类数据的重要程度权重与历史病区自助结算数据中每类数据的访问频率获取每个数据块的重要程度，根据每个数据块的重要程度获取每个数据块的重复存储的次数；统计每个数据块中每个数据的数据类型，每个数据块中数据个数记为，则第/>个数据块的重要程度为：

式中表示第/>个数据块的重要程度，s表示第/>个数据块中数据总个数，/>表示第/>个数据块中第/>类历史病区自助结算数据的访问频率，/>表示第/>个数据块中第/>类历史病区自助结算数据的重要程度权重；数据块中每类数据的频率越大且每类数据在近期经常被访问，则该数据块的重要程度越大，则为了防止发生意外，对该数据块进行多次重复存储。同理获取所有数据块的重要程度。

设定存储冗余次数阈值，本实施例以/>为例进行叙述，具体实施时可设置其他值，则每个数据块的重复存储次数为：

式中表示第/>个数据块重复存储次数，/>表示存储冗余次数阈值，/>表示第/>个数据块的重要程度，/>表示向上取整；根据每个数据块的重要程度与存储冗余次数阈值获取每个数据块的重复存储次数。

数据子块的获取过程为：

获取数据块与数据块间的相似度，每个数据块是由数据总个数为的病区自助结算数据构成的序列，采用/>算法获取两个数据块间的相似度，首先获取重复存储次数最多的数据块作为目标数据块，利用/>算法获取每个数据块与目标数据块之间的相似度/>，获取每个数据块与目标数据块间的相似度序列，记为/>，其中/>表示第/>个数据块与目标数据块间的相似度，/>表示数据块的总数，设置第一相似度阈值/>，本实施例以/>为例进行叙述，具体实施时可设置其他值，将每个数据块与目标数据块间的相似度大于第一相似度阈值/>的数据块记为备选数据块。

第一步骤：

S1、从备选数据块中选择与目标数据块相似度最大的数据块与目标数据块进行重组，将该重组数据块记为第一重组数据块，统计第一重组数据块中每类字符的频率，将频率从大到小进行排列，得到第一重组数据块的频率序列，第一重组数据块的频率序列/>的表现形式为：/>，其中/>表示重组数据块中第/>类数据的访问频率，/>表示重组数据块中数据类型总数，获取与第一重组数据块的频率序列/>等长的幂律序列/>，幂律序列/>的表现形式为/>，采用/>算法获取第一重组数据块的频率序列/>与幂律序列/>之间的相似度/>，设置第二相似度阈值，本实施例以/>为例进行叙述，具体实施时可设置其他值，若第一重组数据块的频率序列/>与幂律序列/>之间的相似度/>大于等于第二相似度阈值/>时，在备选数据块中继续选择与目标数据块相似度第二大的数据块与第一重组数据块进行重组，记为第二重组块，并将第二重组块作为新的目标数据块。

S2、获取第二重组数据块的频率序列与对应的幂律序列/>，若第二重组数据块的频率序列/>与幂律序列/>之间的相似度/>大于等于第二相似度阈值/>时，此时继续更新重组块，在备选数据块中继续选择与目标数据块相似度第/>大的数据块与第/>重组数据块进行重组，记为第/>重组块，同理获取第/>重组数据块的频率序列/>与对应的幂律序列/>，若第/>重组数据块的频率序列/>与幂律序列/>之间的相似度/>小于第二相似度阈值/>时，此时迭代停止，得到第/>重组数据块；即将第/>个数据块与新的目标数据块进行重组，以此类推，直至相似度/>大不于等于第二相似度阈值/>时停止，并得到所有的重组数据块。

第二步骤：

第一步骤中的迭代过程中会出现特殊情况：第一步骤中完成一次S1与S2的运行后会得到一个重组数据块，此时参与重组的数据块的重复存储次数均减1，完成后继续运行第一步骤中的S1与S2的迭代过程，每得到一个重组数据块，均会消耗一次参与重组的数据块的重复存储次数，当目标数据块的重复存储次数被消耗完或备选数据块的重复存储次数被消耗完或重组数据块均不满足第二相似度阈值时，目标数据块的判断停止，若还存在目标数据块，则将剩余的目标数据块进行单独存储，不再参与重组，若目标数据块被消耗完，则更新目标数据块，即在剩余的数据块中选择重复存储次数最多的数据块作为新的目标数据块，继续完成上述迭代，直至所有的数据块均完成判断时迭代停止。

此时获取得到完成重组后的数据块，其中完成重组后的数据块包含重组数据块和未进行重组的数据块，将重组数据块和未进行重组的数据块均记为数据子块，将重组数据块的重组编号置于重组数据块之前以便于搜索和解码。

数据块压缩模块104，用于对重组后的数据块进行压缩处理。

采用霍夫曼编码对所有的数据子块进行编码压缩，其中压缩后的数据分为三部分，分别为数据块编号、标识符和病区自助结算数据子块的压缩数据，压缩是对数据子块中的病区自助结算数据进行压缩，压缩完成后将对应的数据块编号置于压缩文件的开头，在数据块编号之后增添标识符，用于区分数据块编号和压缩数据，同时也便于搜索和读取，将压缩数据置于标识符之后，此时完成数据子块的压缩，形成数据子块压缩包，对所有的数据子块进行上述压缩处理，得到多个数据子块压缩包。

分布式存储模块105，用于将压缩处理后的数据块存储到不同的节点。

将压缩包存储在不同的存储节点上，压缩包的分配可采用随机分配，也可采用其他分配方式，本实施例不做具体限定，所有压缩包分配存储完成后，完成对病区自助结算数据的自适应分布式存储。

综上所述，本发明的系统包括病区自助结算数据采集模块、自适应数据块获取模块、数据块重组模块、数据块压缩模块、分布式存储模块，通过病区自助结算数据中每类字符的分布自适应获取切分阈值，通过切分阈值对病区自助结算数据进行分块处理，获取存在较大相似度关系的多个数据块，根据数据的访问频率获取数据块的重要程度，通过重要程度获取数据块的存储次数，通过对数据块进行重复存储达到容灾的目的，根据数据块的相似度对数据块进行自适应重组，获取重组后的数据子块，重组后的数据子块中数据的频率分布尽可能呈现幂律分布，采用霍夫曼编码对数据的频率分布近似呈现幂律分布的数据子块进行压缩时，大大提高数据子块的压缩效果，将压缩后的数据子块存储在不同的存储节点上，不仅大大提高病区自助结算数据的容灾能力，同时大大减小存储负荷，达到容灾与高效存储的目的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种具有数据容灾功能的病区自助结算系统，其特征在于，所述系统包括：

分布式存储模块，用于对数据子块压缩包进行分布式存储；

根据重复存储次数获取目标数据块包括：获取重复存储次数最多的数据块作为目标数据块；

所述根据每个数据块与目标数据块间的相似度获取备选数据块，包括的步骤为：

获取数据块与数据块间的相似度，每个数据块是由数据总个数为的病区自助结算数据构成的序列，利用/>算法获取每个数据块与目标数据块之间的相似度/>，获取每个数据块与目标数据块间的相似度序列，记为/>，其中/>表示第/>个数据块与目标数据块间的相似度，/>表示数据块的总数，设置第一相似度阈值，将每个数据块与目标数据块间的相似度大于第一相似度阈值的数据块记为备选数据块；

所述将目标数据块与备选数据块进行重组获取重组数据块，根据重组数据块的频率序列与幂律序列的相似度获取数据子块，包括的步骤为：

将备选数据块与目标数据块的相似度从大到小进行排列，每次迭代包括：从备选数据块中选择第个数据块与目标数据块进行重组，将该重组数据块记为第/>重组数据块，统计第/>重组数据块中每类字符的频率，将频率从大到小进行排列，得到第/>重组数据块的频率序列/>，获取与第/>重组数据块的频率序列/>等长的幂律序列/>，采用/>算法获取第重组数据块的频率序列/>与幂律序列/>之间的相似度/>，设置第二相似度阈值/>，当第/>重组数据块的频率序列/>与幂律序列/>之间的相似度/>大于等于第二相似度阈值时，从备选数据块中选择第/>个数据块，并将第/>个重组数据块作为新的目标数据块；将第/>个数据块与新的目标数据块进行重组，以此类推，直至相似度/>不大于等于第二相似度阈值/>时停止，并得到所有的重组数据块；其中，每次迭代运行后会得到一个重组数据块，此时参与重组的数据块的重复存储次数均减1，完成后继续运行迭代过程，每得到一个重组数据块，均会消耗一次参与重组的数据块的重复存储次数，继续运行迭代过程，直至所有的数据块均完成判断时迭代停止；将重组数据块和未进行重组的数据块均记为数据子块。

2.根据权利要求1所述的一种具有数据容灾功能的病区自助结算系统，其特征在于，所述根据病区自助结算数据中每种数据的频率获取参考类型数据，包括的步骤为：

3.根据权利要求1所述的一种具有数据容灾功能的病区自助结算系统，其特征在于，所述根据每个参考类型数据在病区自助结算数据序列中的位置获取每个参考类型数据的数据间距序列，包括的步骤为：

4.根据权利要求1所述的一种具有数据容灾功能的病区自助结算系统，其特征在于，所述根据每个参考类型数据的数据间距序列的间距差异获取每个数据间距序列的间距均值的可信度，包括的步骤为：

参考类型数据的数据间距序列的间距均值的可信度为：

5.根据权利要求1所述的一种具有数据容灾功能的病区自助结算系统，其特征在于，所述根据所有参考类型数据的数据间距序列的间距均值的可信度获取数据块的切分阈值，包括的步骤为：

数据块的切分阈值为：

6.根据权利要求1所述的一种具有数据容灾功能的病区自助结算系统，其特征在于，所述获取历史病区自助结算数据与近期历史病区自助结算数据中每类数据的访问频率，包括的步骤为：

7.根据权利要求1所述的一种具有数据容灾功能的病区自助结算系统，其特征在于，所述根据历史病区自助结算数据与近期历史病区自助结算数据中每类数据的访问频率差异获取每类数据的重要程度权重，包括的步骤为：

重要程度权重的获取方法为：

8.根据权利要求1所述的一种具有数据容灾功能的病区自助结算系统，其特征在于，所述根据每类数据的重要程度权重与历史病区自助结算数据中每类数据的访问频率获取每个数据块的重要程度，包括的步骤为：

数据块的重要程度为：