CN116504396B - 一种中西医结合内科检查数据分析系统 - Google Patents
一种中西医结合内科检查数据分析系统 Download PDFInfo
- Publication number
- CN116504396B CN116504396B CN202310753873.9A CN202310753873A CN116504396B CN 116504396 B CN116504396 B CN 116504396B CN 202310753873 A CN202310753873 A CN 202310753873A CN 116504396 B CN116504396 B CN 116504396B
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- sequence
- standard
- optimal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007689 inspection Methods 0.000 title claims abstract description 46
- 239000003814 drug Substances 0.000 title claims abstract description 33
- 238000007405 data analysis Methods 0.000 title abstract description 5
- 239000011159 matrix material Substances 0.000 claims abstract description 207
- 238000007906 compression Methods 0.000 claims abstract description 105
- 230000006835 compression Effects 0.000 claims abstract description 102
- 238000011156 evaluation Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 12
- 238000013144 data compression Methods 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 46
- 230000008859 change Effects 0.000 claims description 41
- 238000010276 construction Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 7
- 238000012300 Sequence Analysis Methods 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 14
- WYTGDNHDOZPMIW-RCBQFDQVSA-N alstonine Natural products C1=CC2=C3C=CC=CC3=NC2=C2N1C[C@H]1[C@H](C)OC=C(C(=O)OC)[C@H]1C2 WYTGDNHDOZPMIW-RCBQFDQVSA-N 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000002159 abnormal effect Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 230000006837 decompression Effects 0.000 description 3
- 238000002558 medical inspection Methods 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000005481 NMR spectroscopy Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000036772 blood pressure Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 210000002700 urine Anatomy 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- -1 blood pressure Substances 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/90—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to alternative medicines, e.g. homeopathy or oriental medicines
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Alternative & Traditional Medicine (AREA)
- Pharmacology & Pharmacy (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及数据处理技术领域,具体涉及一种中西医结合内科检查数据分析系统。该系统通过对检查数据进行标准化获得标准数据和对应的标准序列,通过每个标准数据在参考范围的偏差程度获得偏差反馈指标,根据偏差反馈指标筛选调整数据,根据调整数据的趋向性优化调整数据获得最优压缩序列;根据最优压缩序列的长度获得矩阵参数,并根据矩阵参数构建的矩阵窗口中在预设扫描方向上拐点数据的局部相似性,获得矩阵窗口的评估指标,根据评估指标确定最优矩阵参数;通过最优压缩序列和最优矩阵参数采用游程编码进行数据压缩存储。本发明通过数据处理,对每个内科检查数据自适应得到最优的压缩效果,避免数据冗余膨胀,提高整体的压缩效率。
Description
技术领域
本发明涉及数据处理技术领域,具体涉及一种中西医结合内科检查数据分析系统。
背景技术
中西医结合的内科检查主要包括中医传统的“望闻问切”以及西医的常规身体检查,例如血压,血常规,尿常规和核磁共振等了解身体各方面的健康状态和指标,但许多内科数据均需各种机器检测获取,进而主治医师可以将含有各类数据的报告文件作为重要的参考指标进行评估。其中,由于内科检查数据的复杂多样性,在此类检查过程中常常会产生大量的数据信息,大量数据冗余导致参考数据系统存储空间告罄,因此需要对于内科检查数据系统的压缩存储方法进行优化。
现有的通过增加数据冗余或数据重复性提升游程编码压缩效果的方法中,没有考虑到内科检查数据的范围数据特征,使进行压缩存储的数据重复性不足,在压缩过程无法合理降低数据量,易出现数据膨胀,系统存储空间警告等,压缩效率极低,影响数据存储分析。
发明内容
为了解决现有技术中没有考虑到内科检查数据的范围数据特征,使进行压缩存储的数据重复性不足,压缩效率极低的技术问题,本发明的目的在于提供一种中西医结合内科检查数据分析系统,所采用的技术方案具体如下:
本发明提供了一种中西医结合内科检查数据分析系统,所述系统包括:数据标准化获取模块,用于获取内科的所有检查数据和每个检查数据的参考范围,根据所述参考范围将对应的所述检查数据进行标准化获得标准数据并组成标准序列;
最优压缩序列分析模块,用于根据每个所述标准数据在对应参考范围内的偏差程度获得每个标准数据的偏差反馈指标;根据所述偏差反馈指标确定所述标准序列中的调整数据,根据所述标准序列中所有调整数据的趋向性优化所有调整数据获得最优压缩序列;
压缩矩阵参数获取模块,用于根据所述最优压缩序列的长度获得矩阵参数并构建矩阵参数集合;根据矩阵参数集合中每个矩阵参数构建对应的矩阵窗口,获得每个所述矩阵窗口在预设扫描方向上的拐点数据;根据每个所述矩阵窗口中所述拐点数据的局部相似程度获得对应矩阵窗口的评估指标,根据矩阵参数集合中所有评估指标确定矩阵窗口对应的最优矩阵参数;
数据压缩存储模块,用于根据所述最优压缩序列和所述最优矩阵参数获得最优二维矩阵,通过预设扫描方向对所述最优二维矩阵进行游程编码压缩,获得压缩数据进行存储。
进一步地,所述标准序列的获取方法包括:
获取每个检查数据对应参考范围的最大值和最小值,将每个检查数据与最小值的差值比上对应参考范围的极差,获得每个检查数据的标准数据;将所有标准数据组成标准序列。
进一步地,所述偏差反馈指标的获取方法包括:
将每个参考范围对应最大值与最小值进行标准化处理后,获得标准最大值和标准最小值,将标准最大值与标准最小值的均值作为每个参考范围对应的参考值;
将每个标准数据与对应参考范围的参考值的差值绝对值作为偏差程度,将负相关映射并归一化的偏差程度作为每个标准数据的偏差反馈指标。
进一步地,所述调整数据的获取方法包括:
当标准序列中标准数据的偏差反馈指标大于预设调整阈值时,将对应的标准数据作为调整数据。
进一步地,所述最优压缩序列的获取方法包括:
将标准序列中所有调整数据的均值作为对应标准序列的优化值,根据所述优化值优化所述标准序列中所有调整数据的数据值,获得最优压缩序列。
进一步地,所述矩阵参数集合的获取方法包括:
所述矩阵参数包括矩阵的行数与列数,将矩阵参数的行数与列数的乘积作为矩阵数据总数;当矩阵参数和矩阵数据总数满足构建条件时,将对应矩阵参数作为初始矩阵参数,并将所有初始矩阵参数组成矩阵参数集合;
所述构建条件为所述矩阵数据总数大于等于最优压缩序列的长度,且矩阵数据总数小于最优压缩序列的长度与所述列数的和值。
进一步地,所述拐点数据的获取方法包括:
在根据预设扫描方向扫描时,采用8连通链码获取每个矩阵窗口的链码序列;计算链码序列中每个数据与前一相邻数据之间的差值绝对值,获得每个数据的方向变换指标;
当链码序列中数据对应的所述方向变换指标的数值为偶数时,将对应的数据作为拐点数据。
进一步地,所述评估指标的获取方法包括:
根据拐点数据的位置确定对应矩阵窗口中的变化数据;将每个变化数据在矩阵窗口中按照预设扫描方向上的邻接数据作为变化数据的相邻数据,统计每个变化数据与所述相邻数据的数据值相同的个数,获得每个变化数据的相似数量;将矩阵窗口中所有变化数据的相似数量相加,获得对应矩阵窗口的评估指标。
进一步地,所述变化数据的获取方法包括:
获取链码序列中拐点数据的序列号,在矩阵窗口中按照预设扫描方向对矩阵中的元素排列获得矩阵序列,将所述序列号在矩阵序列中对应的矩阵元素作为变化数据。
进一步地,所述最优矩阵参数的获取方法包括:
获得矩阵参数集合中所有矩阵窗口的评估指标,将最大评估指标对应矩阵窗口的矩阵参数作为最优矩阵参数。
本发明具有如下有益效果:
本发明通过对检查数据进行标准化获得标准数据和对应的标准序列,通过标准化消除了复杂的内科检查数据之间的量级差异,进一步根据内科检查数据在参考范围内均为正常数据的特点,通过每个标准数据在各自本身的参考范围的偏差程度获得偏差反馈指标,根据偏差反馈指标筛选出标准序列中的调整数据,将在每个参考范围中最为正常情况的数据作为可以有损调整的调整数据,根据所有调整数据的趋向性优化调整数据获得最优压缩序列。进一步根据最优压缩序列的长度获得多组矩阵参数,并根据矩阵参数构建的矩阵窗口中在预设扫描方向上拐点数据的局部相似性,获得每个矩阵窗口的评估指标,通过扫描方向上拐点的局部相似性体现在每个矩阵窗口在压缩过程中的整体数据重复性,选择更优的评估指标对应的矩阵窗口的矩阵参数作为最优矩阵参数。通过最优压缩序列和最优矩阵参数从数据序列和压缩方式上综合考虑增强数据的重复可能性,以便更好的采用游程编码压缩存储,对每个内科检查数据均可以自适应得到最优的压缩效果,避免数据膨胀和数据冗余,提高整体压缩的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种中西医结合内科检查数据分析系统结构图;
图2为本发明一个实施例所提供的一种蛇形扫描方式示意图;
图3为本发明一个实施例所提供的一种8连通链码示意图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种中西医结合内科检查数据分析系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种中西医结合内科检查数据分析系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种中西医结合内科检查数据分析系统结构图,其中一种中西医结合内科检查数据分析系统包括:数据标准化获取模块101,最优压缩序列分析模块102,压缩矩阵参数获取模块103,数据压缩存储模块104。
数据标准化获取模块101,用于获取内科的所有检查数据和每个检查数据的参考范围,根据参考范围将对应的检查数据进行标准化获得标准数据并组成标准序列。
内科检查为常规的身体检查,此项检查的项目极多,每个人对应的内科数据也是极多的,例如血压、血常规、尿常规、核磁共振或血液中各类酶和蛋白质的含量数值等等,这些内科检查数据的数据信息较为杂乱,使得在大量患者进行检查的过程中产生极大量的数据信息,大量数据的冗余会使系统的存储空间告罄,出现数据膨胀的现象。系统对于大量检查数据进行传输存储前一般会使用数据压缩,为了使检查数据更准确快捷,通常会采用游程编码压缩方法对数据进行处理。
但是,在数据信息含量较多的且较为杂乱时,游程编码压缩对数据集的压缩效果往往较差,因为数据集中重复的数据较少,为了提高压缩效果本发明通过寻找最优压缩序列增加数据重复性,并自适应构建二维存储结构提高数据的重复效果,减少游程编码压缩对数据集的依赖性。
首先,获取内科检查数据,内科检查数据一般表现为三列数据,根据实际经验可知其中由左至右的第一列为内科检查的项目名称,第二列为个人在各个项目检查出的具体检查数据,第三列为每个检查项目对应的正常检查数据的参考范围。因此可以获得所有检查数据及每个检查数据对应的参考范围,其中检查数据为需要进行存储的第二列数据,其他数据均为确定的定量数据。
由于不同检查数据量级差异明显,若直接进行压缩会使压缩效率极低,出现数据膨胀现象,因此对获取到的检查数据进行标准化处理,消除不同检查数据之间的量纲差异,使所有检查数据均映射在一定范围中,在本发明实施例中,根据每个检查数据对应的参考范围,将每个检查数据均映射到范围0-1之间,方便在后续对所有检查数据进行同一分析处理,具体标准化操作为:
获取每个检查数据对应参考范围的最大值和最小值,根据参考范围的极大极小值限定范围,将每个检查数据与最小值的差值比上对应参考范围的极差,获得每个检查数据的标准数据,标准数据即进行标准化后的数据,将所有标准数据组成标准序列,在本发明实施例中,为了后续计算的准确性,标准化的具体表达式为:
,
式中,表示为标准数据,/>表示为检查数据,/>表示为检查数据/>对应参考范围的最小值,/>表示为检查数据/>对应参考范围的最大值。
通过极差比值的形式,对每个检查数据进行标准化操作,当检查数据越大越接近参考范围的最大值时,标准数据越接近一,当检查数据越小越接近参考范围的最小值时,标准数据越接近零。需要说明的是,在实际检查数据的参考范围中,参考范围不可能为0,因此标准化表达式中的分母极差也不可能为0。
需要说明的是,通过标准化也能将异常的检查数据筛除出来,因为参考范围是每个检查数据对应的正常指标范围,当患者出现异常时,进行此方法标准化会得到大于一或小于零的标准数据,这些数据并不影响后续可以进行有损压缩数据的判断,因此不做进一步处理,对于有损压缩数据的判断在后续步骤中说明。
在本发明其他实施例中,也可以调整映射范围,将每个检查数据与最小值的差值比上对应参考范围的半极差,获得每个检查数据的标准数据,此时的标准数据取值范围为0-2,对于具体标准化的映射范围可根据具体实时情况进行调整,在此不做赘述。
最优压缩序列分析模块102,用于根据每个标准数据在对应参考范围内的偏差程度获得每个标准数据的偏差反馈指标;根据偏差反馈指标确定标准序列中的调整数据,根据标准序列中所有调整数据的趋向性优化所有调整数据获得最优压缩序列。
在得到标准序列后,进一步为了提高数据的重复性,对较为正常的数据进行有损压缩,即筛选出较为正常的数据进行调整,使这些数据的数值一致,为重复性的数据。由不同检查项目对应人体含量是较为不同的,但是当检查数据越接近参考范围中心位置时,说明对应检查数据为可靠性更强的正常数据,可以对这些数据进行有损压缩,并不影响最终内科检查的判断。而当检查数据越接近参考范围的边缘位置时,说明检查数据虽然为正常数据,但是有一定异常风险因此不能进行有损压缩。
举例而言,对于温度数据,当温度在36.1至37.2之间为正常体温,对于温度在36.4至36.9之间时,体温均较为正常可以对体温数据进行有损调整,不影响检查数据的判断作用。而对于37.1或者36.2这样的体温,由于接近正常范围的边缘也需进行一定的注意,因此这些检查数据偏离参考范围中心较大的数据,不能进行有损调整。
基于检查数据的这一特点,根据每个已经标准化的标准数据与对应参考范围的偏差程度,获取每个标准数据的偏差反馈指标,通过偏差反馈指标筛选出可以进行调整的数据,具体为:
将每个参考范围对应最大值与最小值进行标准化处理后,获得标准最大值和标准最小值,将标准最大值与标准最小值的均值作为每个参考范围对应的参考值,参考值即为对应标准化后的中心值位置,在本发明实施例中,由于对于参考范围的标准化为映射到0-1范围中,因此标准最大值即为1,标准最小值即为0,参考值即为0.5。需要说明的是,当检查数据标准化的映射范围变化,对应的标准最大值、标准最小值和参考值均产生变化。
将每个标准数据与对应参考范围的参考值的差值绝对值作为偏差程度,通过偏差程度反映每个标准数据在对应参考范围的偏离中心程度,将负相关映射并归一化的偏差程度作为偏差反馈指标。当偏差程度越小,说明偏差反馈指标越大,则对应检查数据越可能为调整数据,在本发明实施例中,为了后续计算的准确性,偏差反馈指标的具体表达式为:
,
式中,表示为标准数据/>的偏差反馈指标,/>表示为标准序列中第/>个标准数据/>,/>表示为标准序列中第/>个标准数据/>对应参考范围的标准最大值,/>表示为标准序列中第/>个标准数据/>对应参考范围的标准最小值。/>表示为以自然常数为底的指数函数。
其中,表示为标准序列中第/>个标准数据/>对应参考范围的参考值,表示为标准序列中第/>个标准数据/>在对应参考范围的偏差程度,表示为通过以自然常数为底的指数函数的负数形式用来进行负相关映射并归一化处理,对偏差程度的表征更明显。当偏差程度越大,则偏差反馈指标越小,当偏差程度越小,则偏差反馈指标越大,进一步通过偏差反馈指标将调整数据筛选出来。
需要说明的是,对于异常数据,偏差程度是极大的,即本发明实施例中标准数据大于1或小于0的数据,在计算偏差程度时可以获得较大的偏差程度,因此对应偏差反馈指标是极小的,不可能作为调整数据划分出来,为可以进行完整压缩的数据。
优选地,在本发明实施例中,预设调整阈值为0.8,具体数值实施者可根据具体实施情况进行调整,当标准序列中标准数据的偏差反馈指标大于预设调整阈值时,说明偏差程度足够小,可以将标准序列中对应的标准数据作为调整数据,这些调整数据可以通过整体的趋向性,进行相同的调整,获得相同的重复数据,增大了数据序列的重复性,有助于更好的进行后续游程编码压缩和存储。
根据标准序列中所有调整数据的趋向性优化调整数据,获得最优压缩序列,具体为:将所有调整数据的均值作为对应标准序列的优化值,通过均值可以反映所有调整数据的趋向程度,将所有调整数据调整到均值程度,在本发明实施例中,优化值的具体表达式为:
,
式中,表示为优化值,/>表示为标准序列中调整数据的总数量,/>表示为标准序列中第/>个调整数据的数据值。
在本发明其他实施例中,也可通过众数或中位数等来反映整体调整数据的趋势性,获得优化值进行优化调整数据,在此不做限制。
将优化值作为所有调整数据的新数据值,可以获得更多相同重复数据,虽然一部分检查数据进行了有损处理,但并不影响对检查数据的判断,因此将具有新数据值的调整数据与非调整数据组成新的序列作为最优压缩序列。此时的最优压缩序列中,存在较多重复性较强的数据,以便进行压缩存储。
压缩矩阵参数获取模块103,用于根据最优压缩序列的长度获得矩阵参数并构建矩阵参数集合;根据矩阵参数集合中每个矩阵参数构建对应的矩阵窗口,获得每个矩阵窗口在预设扫描方向上的拐点数据;根据每个矩阵窗口中拐点数据的局部相似程度获得对应矩阵窗口的评估指标,根据矩阵参数集合中所有评估指标确定矩阵窗口对应的最优矩阵参数。
根据内科医疗数据在参考范围中为正常数据的特点,对数据进行了初步处理可以获得重复性较强的最优压缩序列,为了达到更好的数据压缩效果,将一维的数据序列转换到二维空间中,通过矩阵的方式增加了数据之间的关联性,使行与行之间的局部性关系更优,可以寻找到存在重复数据更多的情况,提高压缩效果。
由于本发明采用的是游程编码压缩,其压缩方法为无损压缩,且加压和解压的速度极快,非常适用于检查数据的压缩传输和存储,但是对于数据集来说,越具有重复关系的数据集会使游程编码的压缩效率更高,通过最优压缩序列分析模块,对部分数据进行了有损处理,提高了序列的压缩效果,进一步通过存储结构的变换加强数据的重复可能性。
因此本发明实施例中,预选的扫描方向选择蛇形扫描方式,即S型扫描方式,请参阅图2,其出示了本发明一个实施例提供的一种蛇形扫描方式示意图,图中箭头的方向即为扫描方向。通过蛇形扫描方式对二维空间中的矩阵进行扫描压缩,增加行列之间相关数据的重复可能性,对于构建的矩阵不同可以得到不同的数据重复可能性,因此对于构建的不同矩阵窗口进行评估,寻找最优的压缩矩阵。需要说明的是,蛇形扫描方式为本领域技术人员熟知的扫描方法,在本发明其他实施例中,也可选用N型扫描方式等其他扫描方法,在此不做赘述。
首先,根据得到的最优压缩序列的长度特征,获得所有可构建矩阵窗口的矩阵参数,矩阵参数为矩阵的行数与列数,由于数据序列在转换为二维矩阵中时,是按逐行扫描的方式,一行一行进行映射构建的,因此设置自适应矩阵参数,当矩阵参数满足构建条件为:将矩阵参数中的行数与列数的乘积作为矩阵数据总数,当矩阵数据总数大于等于最优压缩序列的长度,且矩阵数据总数小于最优压缩序列的长度与列数的和值时,说明矩阵参数的行数和列数可以构建出一个满足最优压缩序列的矩阵,当矩阵数据总数超出最优压缩序列的长度时,说明矩阵中留有未被数据序列填满的部分,则对剩余进行补零即可。需要说明的是,转换为二维矩阵的方法和逐行扫描的方式为本领域技术人员熟知的技术手段,在此不做赘述。
举例而言,当最优压缩序列的长度为64时,可以得到满足构建条件的矩阵参数为8×8,即行数为8,列数为8,也可以得到满足构建条件的矩阵参数为8×9,即行数为8,列数为9,此时也满足矩阵数据总数为72,大于最优压缩序列长度64,且小于最优压缩序列长度与列数的和值73,此时再8×9的矩阵中,最后一行只有第一列存在一个数据,那么对剩余的空位进行补零完成矩阵窗口构建。
将满足构建条件的矩阵参数作为初始矩阵参数,将所有初始矩阵参数组成矩阵参数集合,矩阵参数集合表征了所有满足最优压缩序列转变的矩阵窗口大小,对于不同的矩阵窗口,进行扫描压缩时的数据重复性略有不同,主要表现在蛇形扫描时对于每次扫描方向的转变时,局部数据相似性将与按照数据序列扫描时对应数据的相似性不同,故找到每个矩阵窗口进行扫描时的拐点数据。
根据矩阵参数集合中的初始矩阵参数,构建对应的矩阵窗口,根据蛇形扫描方式获得拐点数据,在本发明实施例中,采用8连通链码获取每个矩阵窗口的链码序列,其中链码序列中的每个数据代表着矩阵中两个矩阵元素的方向,请参阅图3,其出示了本发明一个实施例中提供的一种8连通链码示意图,举例而言,如图2中的扫描方式第一行对应链码序列中的数据为0006,表示为矩阵第一行中前三个元素向后一个元素扫描的方向均为0对应的方向,而第一行最后一个元素在扫描方向下向下一个元素的扫描方向为6对应的方向。需要说明的是,链码序列的获取方式为本领域技术人员熟知的技术手段,在此不做赘述。
通过链码序列中数据之间的差值绝对值可以判断数据方向的变化情况,即扫描方向发生拐点的情况,计算链码序列中每个数据与前一相邻数据之间的差值绝对值,获得每个数据的方向变换指标,当方向产生变化时,链码序列中的数据会发生改变。当方向变换指标的数值为偶数时,说明对应发生改变的方向符合蛇形扫描方式中的方向,将对应的数据作为拐点数据。
举例而言,对于图2中的矩阵进行扫描时,矩阵前三行整体元素按照蛇形扫描方式对应的链码序列为000644460006,由于蛇形扫描中扫描方式发生变化时,方向变化为从横向变为纵向再从横向变为纵向,因此对应第一次改变方向时为从0变为6,此时第4个数据对应的方向变换指标为6,6为偶数,则第4个数据为拐点数据。第二次改变方向时为从6变为4,此时第5个数据对应的方向变换指标为2,2为偶数,则第5个数据也为拐点数据。
在获得了拐点数据后,根据拐点数据的局部数据相似性可以对矩阵窗口进行评估,因为拐点处的数据为进行二维转换后发生数据序列的位置改变的地方,找到拐点数据对应矩阵窗口中元素对应的位置,根据矩阵元素的局部相似性进行判断,具体为:
根据拐点数据的位置确定对应矩阵窗口中的变化数据,即按照扫描方向确定拐点数据在矩阵中的位置的情况,在矩阵窗口中按照蛇形扫描方式对矩阵中的元素排列获得矩阵序列,矩阵序列数据的排列顺序与扫描方向一致,将拐点数据的序列号在矩阵序列中对应的矩阵元素作为变化数据,通过拐点数据在链码序列中反映的位置关系,反映矩阵中变化数据的位置。
将每个变化数据在矩阵窗口中按照蛇形扫描方式上的邻接数据作为变化数据的相邻数据,统计每个变化数据与所述相邻数据的数据值相同的个数,获得每个变化数据的相似数量,通过相似数量反映每个变化数据局部的数据重复情况。将矩阵窗口中所有变化数据的相似数量相加,获得对应矩阵窗口的评估指标,通过所有变化数据的局部相似性进行综合评估获得评估指标。
举例而言,在图2的矩阵窗口中,当拐点数据为链码序列中第5个数据位置,则变化数据对应扫描方向上第5个数据位置为矩阵中第二行第四列的数据,则变化数据按照蛇形扫描方式的方向上邻接的数据为矩阵中第二行第三列的数据和矩阵中第一行第四列的数据,获得两个相邻数据,则统计变化数据与相邻数据的相同个数时,相似数量的取值可以为0,1和2,当相似数量为0时,说明变化数据没有局部相似性,当相似数量为2时,说明变化数据的局部相似程度极优。
在本发明实施例中,评估指标的具体表达式为:
,
式中,表示为矩阵窗口的评估指标,/>表示为变化数据的总数量,/>表示为第i个变化数据的相似数量。
通过和值综合所有变化数据的相似程度,当相似程度越大,说明在当前矩阵窗口中存在较多的重复数据,则进行压缩的效果越佳,因此通过评估指标确定最优矩阵参数。
计算矩阵参数集合中所有矩阵窗口的评估指标,将最大评估指标的矩阵窗口对应的矩阵参数作为最终的最优矩阵参数。当评估指标最大,说明对应扫描方式下的重复数据可能性最大,因此将此时对应的矩阵参数作为最优矩阵参数。
数据压缩存储模块104,用于根据最优压缩序列和最优矩阵参数获得最优二维矩阵,通过预设扫描方向对最优二维矩阵进行游程编码压缩,获得压缩数据进行存储。
根据最优压缩序列分析模块和压缩矩阵参数获取模块,可以得到最优压缩序列和最优矩阵参数进行传输存储,通过最优压缩序列和最优矩阵参数可以实现更优的游程编码压缩,具体为:根据最优矩阵参数可以获得最优二维矩阵窗口,将最优压缩序列中的数据按照逐行扫描的方法映射到最优二维矩阵窗口中的各个位置,最后按照预设的蛇形扫描方式的方向进行游程编码压缩,获得压缩数据,将压缩数据进行存储。
此外,将矩阵参数及最优压缩序列长度也同时进行存储,在解压缩过程中,根据矩阵参数可以还原二维矩阵,并根据压缩后的压缩数据还原映射到二维矩阵中,根据最优压缩序列的长度将最优压缩序列提取出来,最后根据最优压缩序列中的每个标准数据对应参考范围获得原始数据序列,完成解压缩。
通过对数据序列和压缩扫描矩阵的优化提高了数据的重复性,大大提高了数据的压缩效率,节省了压缩空间,使对内科检查数据的分析系数安全可靠性更强。
综上,本发明通过对检查数据进行标准化获得标准数据和对应的标准序列,根据内科检查数据在参考范围内均为正常数据的特点,通过每个标准数据在各自本身的参考范围的偏差程度获得偏差反馈指标,根据偏差反馈指标筛选出标准序列中的调整数据,将在每个参考范围中最为正常情况的数据作为可以有损调整的调整数据,根据所有调整数据的趋向性优化调整数据获得最优压缩序列。进一步根据最优压缩序列的长度获得多组矩阵参数,并根据矩阵参数构建的矩阵窗口中在预设扫描方向上拐点数据的局部相似性,获得每个矩阵窗口的评估指标,通过扫描方向上拐点的局部相似性体现在每个矩阵窗口在压缩过程中的整体数据重复性,选择更优的评估指标对应的矩阵窗口的矩阵参数作为最优矩阵参数。通过最优压缩序列和最优矩阵参数从数据序列和压缩方式上综合考虑增强数据的重复可能性,以便更好的采用游程编码压缩存储,对每个内科检查数据均可以自适应得到最优的压缩效果,避免数据膨胀和数据冗余,提高整体压缩的效率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (3)
1.一种中西医结合内科检查数据分析系统,其特征在于,所述系统包括:
数据标准化获取模块,用于获取内科的所有检查数据和每个检查数据的参考范围,根据所述参考范围将对应的所述检查数据进行标准化获得标准数据并组成标准序列;
最优压缩序列分析模块,用于根据每个所述标准数据在对应参考范围内的偏差程度获得每个标准数据的偏差反馈指标;根据所述偏差反馈指标确定所述标准序列中的调整数据,根据所述标准序列中所有调整数据的趋向性优化所有调整数据获得最优压缩序列;
压缩矩阵参数获取模块,用于根据所述最优压缩序列的长度获得矩阵参数并构建矩阵参数集合;根据矩阵参数集合中每个矩阵参数构建对应的矩阵窗口,获得每个所述矩阵窗口在预设扫描方向上的拐点数据;根据每个所述矩阵窗口中所述拐点数据的局部相似程度获得对应矩阵窗口的评估指标,根据矩阵参数集合中所有评估指标确定矩阵窗口对应的最优矩阵参数;
数据压缩存储模块,用于根据所述最优压缩序列和所述最优矩阵参数获得最优二维矩阵,通过预设扫描方向对所述最优二维矩阵进行游程编码压缩,获得压缩数据进行存储;所述标准序列的获取方法包括:
获取每个检查数据对应参考范围的最大值和最小值,将每个检查数据与最小值的差值比上对应参考范围的极差,获得每个检查数据的标准数据;将所有标准数据组成标准序列;
所述偏差反馈指标的获取方法包括:
将每个参考范围对应最大值与最小值进行标准化处理后,获得标准最大值和标准最小值,将标准最大值与标准最小值的均值作为每个参考范围对应的参考值;
将每个标准数据与对应参考范围的参考值的差值绝对值作为偏差程度,将负相关映射并归一化的偏差程度作为每个标准数据的偏差反馈指标;
所述调整数据的获取方法包括:
当标准序列中标准数据的偏差反馈指标大于预设调整阈值时,将对应的标准数据作为调整数据;
所述最优压缩序列的获取方法包括:
将标准序列中所有调整数据的均值作为对应标准序列的优化值,根据所述优化值优化所述标准序列中所有调整数据的数据值,获得最优压缩序列;
所述评估指标的获取方法包括:
根据拐点数据的位置确定对应矩阵窗口中的变化数据;将每个变化数据在矩阵窗口中按照预设扫描方向上的邻接数据作为变化数据的相邻数据,统计每个变化数据与所述相邻数据的数据值相同的个数,获得每个变化数据的相似数量;将矩阵窗口中所有变化数据的相似数量相加,获得对应矩阵窗口的评估指标;
所述最优矩阵参数的获取方法包括:
获得矩阵参数集合中所有矩阵窗口的评估指标,将最大评估指标对应矩阵窗口的矩阵参数作为最优矩阵参数;
所述拐点数据的获取方法包括:
在根据预设扫描方向扫描时,采用8连通链码获取每个矩阵窗口的链码序列;计算链码序列中每个数据与前一相邻数据之间的差值绝对值,获得每个数据的方向变换指标;
当链码序列中数据对应的所述方向变换指标的数值为偶数时,将对应的数据作为拐点数据。
2.根据权利要求1所述的一种中西医结合内科检查数据分析系统,其特征在于,所述矩阵参数集合的获取方法包括:
所述矩阵参数包括矩阵的行数与列数,将矩阵参数的行数与列数的乘积作为矩阵数据总数;当矩阵参数和矩阵数据总数满足构建条件时,将对应矩阵参数作为初始矩阵参数,并将所有初始矩阵参数组成矩阵参数集合;
所述构建条件为所述矩阵数据总数大于等于最优压缩序列的长度,且矩阵数据总数小于最优压缩序列的长度与所述列数的和值。
3.根据权利要求1所述的一种中西医结合内科检查数据分析系统,其特征在于,所述变化数据的获取方法包括:
获取链码序列中拐点数据的序列号,在矩阵窗口中按照预设扫描方向对矩阵中的元素排列获得矩阵序列,将所述序列号在矩阵序列中对应的矩阵元素作为变化数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310753873.9A CN116504396B (zh) | 2023-06-26 | 2023-06-26 | 一种中西医结合内科检查数据分析系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310753873.9A CN116504396B (zh) | 2023-06-26 | 2023-06-26 | 一种中西医结合内科检查数据分析系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116504396A CN116504396A (zh) | 2023-07-28 |
CN116504396B true CN116504396B (zh) | 2023-09-08 |
Family
ID=87320486
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310753873.9A Active CN116504396B (zh) | 2023-06-26 | 2023-06-26 | 一种中西医结合内科检查数据分析系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116504396B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116828070B (zh) * | 2023-08-28 | 2023-11-07 | 无锡市锡容电力电器有限公司 | 一种智慧电网数据优化传输方法 |
CN116861271B (zh) * | 2023-09-05 | 2023-12-08 | 智联信通科技股份有限公司 | 基于大数据的数据分析处理方法 |
CN117435145B (zh) * | 2023-12-20 | 2024-02-13 | 北京清水爱派建筑设计股份有限公司 | 一种数字化建筑信息优化存储方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN203706207U (zh) * | 2014-01-17 | 2014-07-09 | 孙莉 | 一种基于云存储的压缩医学影像存储传输系统 |
WO2021209216A1 (en) * | 2020-04-15 | 2021-10-21 | Genomsys Sa | Method and system for the efficient data compression in mpeg-g |
CN115623536A (zh) * | 2022-12-20 | 2023-01-17 | 苏州洛尔帝科技有限公司 | 一种基于LoRa的传感器信号的高可靠数据传输方法 |
CN115670418A (zh) * | 2023-01-03 | 2023-02-03 | 深圳市研强物联技术有限公司 | 一种基于智能手表用户信息的数据存储方法 |
CN116032294A (zh) * | 2023-02-23 | 2023-04-28 | 山东安之捷科技有限公司 | 一种用于大气监测数据的智能处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105849749A (zh) * | 2013-11-15 | 2016-08-10 | 英特尔公司 | 使用分布式关联记忆库确定数据相关及其中的收敛的方法、系统和计算机程序产品 |
-
2023
- 2023-06-26 CN CN202310753873.9A patent/CN116504396B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN203706207U (zh) * | 2014-01-17 | 2014-07-09 | 孙莉 | 一种基于云存储的压缩医学影像存储传输系统 |
WO2021209216A1 (en) * | 2020-04-15 | 2021-10-21 | Genomsys Sa | Method and system for the efficient data compression in mpeg-g |
CN115623536A (zh) * | 2022-12-20 | 2023-01-17 | 苏州洛尔帝科技有限公司 | 一种基于LoRa的传感器信号的高可靠数据传输方法 |
CN115670418A (zh) * | 2023-01-03 | 2023-02-03 | 深圳市研强物联技术有限公司 | 一种基于智能手表用户信息的数据存储方法 |
CN116032294A (zh) * | 2023-02-23 | 2023-04-28 | 山东安之捷科技有限公司 | 一种用于大气监测数据的智能处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116504396A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116504396B (zh) | 一种中西医结合内科检查数据分析系统 | |
CN109036553B (zh) | 一种基于自动抽取医疗专家知识的疾病预测方法 | |
CN116388767B (zh) | 用于软件开发数据的安全管理方法 | |
CN109887562B (zh) | 电子病历的相似度确定方法、装置、设备和存储介质 | |
CN116304056B (zh) | 一种用于计算机软件开发数据的管理方法 | |
EP3944505A1 (en) | Data compression method and computing device | |
Cosman et al. | Tree-structured vector quantization of CT chest scans: image quality and diagnostic accuracy | |
CN111696660A (zh) | 基于人工智能的患者分群方法、装置、设备及存储介质 | |
CN116915259B (zh) | 基于物联网的仓配数据优化储存方法及系统 | |
CN117591905B (zh) | 基于高光谱特征的猪肉安全性检测方法 | |
CN116779114B (zh) | 一种抗肿瘤医疗mri图像信息智能管理系统 | |
CN117316301B (zh) | 一种基因检测数据智能压缩处理方法 | |
CN116153452A (zh) | 基于人工智能的医疗电子病历存储系统 | |
CN115955513B (zh) | 一种物联网数据优化传输方法 | |
CN118101135B (zh) | 一种智能戒指数据安全传输方法及系统 | |
CN115269526A (zh) | 一种半导体生产数据的处理方法及系统 | |
CN114640356A (zh) | 基于神经网络的大数据压缩方法、系统及存储介质 | |
CN116418882A (zh) | 基于hplc双模载波通信的存储器数据压缩方法 | |
CN117278055B (zh) | 基于数据分析的车辆销售信息优化存储方法 | |
CN116737085B (zh) | 一种电梯维护数据高效存储方法 | |
CN117785818A (zh) | 一种气相色谱仪数据优化存储方法及系统 | |
Hurst et al. | Greedygd: Enhanced generalized deduplication for direct analytics in iot | |
CN116483817A (zh) | 一种数据填补模型选择、健康评测方法及装置 | |
CN109495113A (zh) | 一种脑电信号的压缩方法及装置 | |
CN114694787A (zh) | 健康体检项目的优化方法、优化系统及信息数据处理终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |