CN114864108B

CN114864108B - 一种用于证候与药方匹配数据的处理方法及处理系统

Info

Publication number: CN114864108B
Application number: CN202210782184.6A
Authority: CN
Inventors: 叶展; 贺涛; 杨楚悦
Original assignee: Shenzhen Yuandaomiao Medical Technology Co ltd
Current assignee: Shenzhen Yuandaomiao Medical Technology Co ltd
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2022-09-09
Anticipated expiration: 2042-07-05
Also published as: CN114864108A

Abstract

本发明涉及数据处理技术领域，具体涉及一种用于证候与药方匹配数据的处理方法及处理系统，该方法包括：获取证候数据及证候数据对应的药方数据，构建初始自编码神经网络并进行训练；根据药方数据的药材种类构建药方矩阵，根据药方矩阵计算每两个药方数据的相似性，根据每两个药方数据的相似性对药方数据进行分类并获取类别中心，计算每个类别的第一近似程度值，每两个类别中心的第二近似程度值，并计算每个类别的压缩系数，根据压缩系数得到重构损失函数，根据重构损失函数得到最终损失函数，基于最终损失函数对初始自编码神经网络训练，利用训练好的自编码神经网络的实现数据的传输，本发明方法降低了压缩损失，提高了数据传输的精度。

Description

一种用于证候与药方匹配数据的处理方法及处理系统

技术领域

本发明涉及数据处理技术领域，具体涉及一种用于证候与药方匹配数据的处理方法及处理系统。

背景技术

目前，中医诊断往往是根据自身行医经验来的，对于同样的症候，不同的中医给出的药方可能有所不同，且中医诊断都是自我诊断，在开药时多是凭借自身经验，各家自成体系，与其他医生之间缺少一定信息上的沟通与交流，所以通过大数据统计平台，可以让医生借鉴其他医生历史所出具的药方。

然而，医生每天都在不断的开药方，大量的药方数据会导致系统内部的信息传输压力过大，利用传统的神经网络进行数据压缩传输时，近似的药方数据会造成较高的压缩损失，进而使得在数据库中病症药方数据传输后，呈现在系统内的数据库中病症药方数据与原数据出现误差，影响数据的完整性。

因此，需要提供一种用于证候与药方匹配数据的处理方法及处理系统，予以解决上述问题。

发明内容

本发明提供一种用于证候与药方匹配数据的处理方法及处理系统，以解决现有的问题。

本发明的一种用于证候与药方匹配数据的处理方法采用如下技术方案：该方法包括：

获取历史数据中的多个证候数据及证候数据对应的药方数据，构建初始自编码神经网络，将证候数据及其对应的药方数据同时作为初始自编码神经网络输入和输出，并对初始自编码神经网络训练；

根据药方数据对应的药材种类构建药方矩阵，以每个药方数据为顶点构建图结构数据，根据图结构数据中各个顶点的药方矩阵中对应位置的元素值计算每两个顶点之间的边权值，并记为顶点对应的两个药方数据的相似性；

根据药方数据的相似性对图结构数据进行分类得到多类图结构数据，并获取每类图结构数据的类别中心；

获取每类图结构数据中的最小边权值并作为第一近似程度值，获取每类图结构数据与其最相似的其他类图结构数据的第二近似程度值；根据第一近似程度值与第二近似程度计算该类图结构数据的压缩系数；

根据压缩系数对初始自编码神经网络的损失函数重构得到重构损失函数，基于证候数据构建均方差损失函数，根据均方差损失函数和重构损失函数获取自编码神经网络的最终损失函数；优选的，根据压缩系数对初始自编码神经网络的损失函数重构得到重构损失函数的步骤包括：

根据下式（2）获取重构损失函数：

（2）

其中，

表示自编码神经网络训练时所输入的训练数据的个数；

表示当前第

个药方数据对应的压缩系数；

表示第

个药方数据；

表示第

个药方数据重构后的重构药方数据；

基于最终损失函数对初始自编码神经网络进行监督训练得到训练好的自编码神经网络，将自编码神经网络分别存储在数据发送端和数据接收端，数据发送端的自编码神经网络的自编码部分对所有历史数据进行压缩得到压缩数据，并将压缩数据传输至数据接收端的自编码神经网络的解码部分进行解压。

优选的，根据药材种类构建药方矩阵的步骤包括：

对每个药方数据进行编号；

获取历史数据中所有药方数据中的药材种类，并对每种药材进行编号；

其中，药方矩阵中的位置即表示某个编号的药方数据的某个编号的药材，且每个位置的元素值表示是否有该类药材，有该类药材的元素值记为1，反之则元素值记为0。

优选的，根据图结构数据中各个顶点的药方矩阵中对应位置的元素值计算每两个药方数据的相似性的步骤包括：

获取图结构数据中各个顶点所对应的药方矩阵；

计算每两个药方矩阵之间对应位置的元素值的差值；

将两个药方矩阵之间所有对应位置的元素值的差值的和作为两个药方数据的相似性。

优选的，根据最小边权法获取每类图结构数据的最小边权值。

优选的，获取每类图结构数据与其最相似的其他类图结构数据的第二近似程度值的步骤包括：

获取每类图结构数据的类别中心对应顶点的药方矩阵，并记为中心药方矩阵；

计算每两个中心药方矩阵中对应位置的元素值的差值之和，并记为两个类别中心对应的顶点之间的边权值；

获取每个类别中心与其他所有类别中心对应的顶点之间的所有边权值中的最小边权值；

将最小边权值记为第二近似程度值。

优选的，根据第一近似程度值与第二近似程度计算该类图结构数据的压缩系数的步骤包括：

根据下式（1）计算药方数据的压缩系数：

（1）

其中，

表示第m类图结构数据的类别中心与其他所有类别中心的对应顶点之间边权值中的最小边权值；

表示第m类图结构数据中所有边权值中的最小边权值；

n表示第m类图结构数据中顶点的总数。

本发明的一种用于证候与药方匹配数据的处理系统，该系统包括：

数据发送端、数据接收端及分别存储在数据发送端和数据接收端的相同的自编码神经网络；数据发送端的自编码神经网络的自编码部分用于对所有历史数据进行压缩得到压缩数据，并将压缩数据传输至数据接收端；数据接收端的自编码神经网络的解码部分用于对压缩数据进行解压；

其中，自编码神经网络包括：

初始自编码神经网络，用于获取历史数据中的多个证候数据及证候数据对应的药方数据，构建初始自编码神经网络，将证候数据及其对应的药方数据同时作为初始自编码神经网络输入和输出，并对初始自编码神经网络训练；

第一参数计算模块，用于根据药方数据对应的药材种类构建药方矩阵，以每个药方数据为顶点构建图结构数据，根据图结构数据中各个顶点的药方矩阵中对应位置的元素值计算每两个顶点之间的边权值，并记为顶点对应的两个药方数据的相似性；

分类模块，用于根据药方数据的相似性对图结构数据进行分类得到多类图结构数据，并获取每类图结构数据的类别中心；

第二参数计算模块，用于获取每类图结构数据中的最小边权值并作为第一近似程度值，获取每类图结构数据与其最相似的其他类图结构数据的第二近似程度值；根据第一近似程度值与第二近似程度计算该类图结构数据的压缩系数；

损失函数重构模块，用于根据压缩系数对初始自编码神经网络的损失函数重构得到重构损失函数，基于证候数据构建均方差损失函数，根据均方差损失函数和重构损失函数获取自编码神经网络的最终损失函数；根据下式（2）获取重构损失函数：

（2）

其中，

表示自编码神经网络训练时所输入的训练数据的个数；

表示当前第

个药方数据对应的压缩系数；

表示第

个药方数据；

表示第

个药方数据重构后的重构药方数据；

自编码神经网络训练模块，用于基于最终损失函数对初始自编码神经网络进行监督训练得到训练好的自编码神经网络。

本发明的有益效果是：本发明的一种用于证候与药方匹配数据的处理方法及处理系统，通过获取多个药方数据中的药方数据的相似性关系，然后对药方数据进行划分类别，根据同一类图结构数据的第一近似程度值和不同类图结构数据之间的第二近似程度值计算每类图结构数据的压缩系数，根据压缩系数重构初始自编码神经网络的损失函数，基于重构后的损失函数对初始自编码神经网络训练得到自编码神经网络，使得在利用自编码神经网络对药方数据进行压缩传输时，降低药方数据的压缩损失，从而实现药方数据的高精度传输。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种用于证候与药方匹配数据的处理方法及处理系统的实施例总体步骤的流程图；

图2为本发明的实施例中步骤S4的流程图；

图3为本发明的实施例中图结构数据的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的一种用于证候与药方匹配数据的处理方法及处理系统的实施例，如图1所示，该方法包括：

S1、获取历史数据中的多个证候数据及证候数据对应的药方数据，构建初始自编码神经网络，将证候数据及其对应的药方数据同时作为初始自编码神经网络输入和输出，并对初始自编码神经网络训练；具体的，获取在对每个病人诊疗时，其所犯疾病的证候，在进行记录时只记录证候，进而得到历史疾病的症候数据，并对证候治疗所出具的药方进行保存，并得到中药的药方数据，然后将每个证候数据与对应的药方数据在作为初始自编码神经网络的输入的同时，也作为初始自编码神经网络的输出，对初始神经网络训练。

S2、由于同一种证候数据可能对应多个药方数据，即不同的中医所开对同一种病症所开药方略有差别，即同一种证候数据对应的多个药方数据之间的药材可能有区别，为提高自编码神经网络的压缩重构精度，多个药方数据中的近似药方数据应当具有高压缩系数，因此根据药方数据对应的药材种类构建药方矩阵，如图3示，以每个药方数据为顶点构建图结构数据，根据图结构数据中各个顶点的药方矩阵中对应位置的元素值计算每两个顶点之间的边权值，在图3中边权值为两个顶点之间的数字，将边权值记为顶点对应的两个药方数据的相似性。

具体的，构建药方矩阵的步骤：对每个药方数据进行编号；获取历史数据中所有药方数据中的药材种类，并对每种药材进行编号；其中，药方矩阵中的位置即表示某个编号的药方数据的某个编号的药材，且每个位置的元素值表示是否有该类药材，有该类药材的元素值记为1，反之则元素值记为0；具体的，获取两个药方数据的相似性的步骤获取图结构数据中各个顶点所对应的药方矩阵；计算每两个药方矩阵之间对应位置的元素值的差值；将两个药方矩阵之间所有对应位置的元素值的差值的和作为两个药方数据的相似性。

S3、根据药方数据的相似性对图结构数据进行分类得到多类图结构数据，并获取每类图结构数据的类别中心。

具体的，根据药方数据的相似性找到图结构数据中具有相似特征的顶点，然后将相似特征顶点的分为一类图结构数据，对所有相似的进行分类得到多类图结构数据，获取每个类图结构数据中的顶点数量，然后采用谱聚类的方法获取每类图结构数据的类别中心。

S4、获取每类图结构数据中的最小边权值并作为第一近似程度值，获取每类图结构数据与其最相似的其他类图结构数据的第二近似程度值；根据第一近似程度值与第二近似程度计算该类图结构数据的压缩系数。

具体的，利用最小边权法获取每类图结构数据的最小边权值，最小边权法为现有技术，此处不再赘述，并将每类图结构数据的最小边权值作为每类图结构数据的第一近似程度值，这里需要说明的是，获取第一近似程度值是要说明每类图结构数据的类内的相似度，其目的是为了保证每类图结构数据内近似数据可以能够保证高精度重建。

具体的，由于在分类时，每类图结构数据与其他类图结构数据虽然被分开，但是也可能存在每类图结构数据的边缘数据与另一类图结构数据的边缘数据的近似，所以不同类图结构数据之间近似性所对应的压缩系数也应当不一致，故获取每类图结构数据与其最相似的其他类图结构数据的第二近似程度值的步骤包括：如图2所示，S41、获取每类图结构数据的类别中心对应顶点的药方矩阵，并记为中心药方矩阵；S42、计算每两个中心药方矩阵中对应位置的元素值的差值之和，并记为两个类别中心对应的顶点之间的边权值；S43、获取每个类别中心与其他所有类别中心对应的顶点之间的所有边权值中的最小边权值；S44、将最小边权值记为第二近似程度值，其中，需要说明的是，第二近似程度值表示最相似的两类图结构数据之间的近似程度值。

具体的，根据第一近似程度值与第二近似程度计算该类图结构数据的压缩系数，其中，根据下式（1）计算药方数据的压缩系数：

（1）

其中，

表示第m类图结构数据的类别中心与其他所有类别中心的对应顶点之间边权值中的最小边权值，其边权值越小相对的近似程度越大，则压缩系数应当越高，所以做负相关映射exp(-x)；

表示第m类图结构数据中所有边权值中的最小边权值；

n表示第m类图结构数据中顶点的总数；

表示药方数据的压缩系数，即药方数据中存在与其越相似的数据，在进行压缩重构时，压缩系数应当越大，从而保证的压缩重构的精度。

S5、根据压缩系数获取初始自编码神经网络的重构损失函数

，基于证候数据构建均方差损失函数，并将均方差损失函数记为

，根据均方差损失函数和重构损失函数获取自编码神经网络的最终损失函数。

具体的，根据下式（2）获取重构损失函数：

（2）

其中，

表示初始自编码神经网络训练时所输入的训练数据的个数；

表示当前第

个药方数据对应的压缩系数；

表示第

个药方数据；

表示第

个药方数据重构后的重构药方数据，具体的，重构药方矩阵为预测数据，即根据初始自编码神经网络得到的预测数据。

具体的，自编码神经网络的最终损失函数L即可以表示为L=

+

。

S6、基于最终损失函数对初始自编码神经网络进行监督训练得到训练好的自编码神经网络，将自编码神经网络分别存储在数据发送端和数据接收端，数据发送端的自编码神经网络的自编码部分对所有历史数据进行压缩得到压缩数据，其中，每次输入的药方数据和证候数据均作为历史数据，并将压缩数据传输至数据接收端的自编码神经网络的解码部分进行解压。

具体的，数据发送端和数据接收端存储的自编码神经网络为相同的训练好的自编码神经网络，且对自编码神经网络进行横向拆分为自编码部分和解码部分，数据发送端的数据发送端的自编码部分对输入的证候数据及对应的药方数据进行压缩得到隐变量数据，隐变量数据即压缩数据，然后通过数据发送端将压缩数据发送至数据接收端，通过数据接收端的自编码神经网络的解码部分对压缩数据进行解压得到解压数据，从而实现药方数据与证候数据的无低损传输，以供其他医生查看。

还公开了一种用于证候与药方匹配数据的处理系统，该系统包括：数据发送端、数据接收端及分别存储在数据发送端和数据接收端的相同的自编码神经网络；数据发送端的自编码神经网络的自编码部分用于对所有历史数据进行压缩得到压缩数据，并将压缩数据传输至数据接收端；数据接收端的自编码神经网络的解码部分用于对压缩数据进行解压。

其中，自编码神经网络包括：初始自编码神经网络训练模块、第一参数计算模块、分类模块、第二参数计算模块、损失函数重构模块及自编码神经网络训练模块，初始自编码神经网络训练模块用于获取历史数据中的多个证候数据及证候数据对应的药方数据，构建初始自编码神经网络，将证候数据及其对应的药方数据同时作为初始自编码神经网络输入和输出，并对初始自编码神经网络训练；第一参数计算模块用于根据药方数据对应的药材种类构建药方矩阵，以每个药方数据为顶点构建图结构数据，根据图结构数据中各个顶点的药方矩阵中对应位置的元素值计算每两个顶点之间的边权值，并记为顶点对应的两个药方数据的相似性；分类模块用于根据药方数据的相似性对图结构数据进行分类得到多类图结构数据，并获取每类图结构数据的类别中心；第二参数计算模块用于获取每类图结构数据中的最小边权值并作为第一近似程度值，获取每类图结构数据与其最相似的其他类图结构数据的第二近似程度值；根据第一近似程度值与第二近似程度计算该类图结构数据的压缩系数；损失函数重构模块用于根据压缩系数对初始自编码神经网络的损失函数重构得到重构损失函数，基于证候数据构建均方差损失函数，根据均方差损失函数和重构损失函数获取自编码神经网络的最终损失函数；自编码神经网络训练模块用于基于最终损失函数对初始自编码神经网络进行监督训练得到训练好的自编码神经网络。

综上所述，本发明提供一种用于证候与药方匹配数据的处理方法及处理系统，通过获取多个药方数据中的药方数据的相似性关系，然后对药方数据进行划分类别，根据同一类图结构数据的第一近似程度值和不同类图结构数据之间的第二近似程度值计算每类图结构数据的压缩系数，根据压缩系数重构初始自编码神经网络的损失函数，基于重构后的损失函数对初始自编码神经网络训练得到自编码神经网络，使得在利用自编码神经网络对药方数据进行压缩传输时，降低药方数据的压缩损失，从而实现药方数据的高精度传输。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用于证候与药方匹配数据的处理方法，其特征在于，该方法包括：

获取每类图结构数据中的最小边权值并作为第一近似程度值，获取每类图结构数据与其最相似的其他类图结构数据的第二近似程度值，根据第一近似程度值与第二近似程度计算该类图结构数据的压缩系数；

根据压缩系数对初始自编码神经网络的损失函数重构得到重构损失函数，基于证候数据构建均方差损失函数，根据均方差损失函数和重构损失函数获取自编码神经网络的最终损失函数；根据下式（2）获取重构损失函数：

（2）

其中，

表示初始自编码神经网络训练时所输入的训练数据的个数；

表示当前第

个药方数据对应的压缩系数；

表示第

个药方数据；

表示第

个药方数据重构后的重构药方数据；

2.根据权利要求1所述的一种用于证候与药方匹配数据的处理方法，其特征在于，根据药材种类构建药方矩阵的步骤包括：

对每个药方数据进行编号；

3.根据权利要求1所述的一种用于证候与药方匹配数据的处理方法，其特征在于，根据图结构数据中各个顶点的药方矩阵中对应位置的元素值计算每两个药方数据的相似性的步骤包括：

获取图结构数据中各个顶点所对应的药方矩阵；

计算每两个药方矩阵之间对应位置的元素值的差值；

4.根据权利要求1所述的一种用于证候与药方匹配数据的处理方法，其特征在于，根据最小边权法获取每类图结构数据的最小边权值。

5.根据权利要求1所述的一种用于证候与药方匹配数据的处理方法，其特征在于，获取每类图结构数据与其最相似的其他类图结构数据的第二近似程度值的步骤包括：

将最小边权值记为第二近似程度值。

6.根据权利要求1所述的一种用于证候与药方匹配数据的处理方法，其特征在于，根据第一近似程度值与第二近似程度计算该类图结构数据的压缩系数的步骤包括：

根据下式（1）计算药方数据的压缩系数：

（1）

其中，

表示第m类图结构数据中所有边权值中的最小边权值；

n表示第m类图结构数据中顶点的总数。

7.一种用于证候与药方匹配数据的处理系统，其特征在于，该系统包括：数据发送端、数据接收端及分别存储在数据发送端和数据接收端的相同的自编码神经网络；数据发送端的自编码神经网络的自编码部分用于对所有历史数据进行压缩得到压缩数据，并将压缩数据传输至数据接收端；数据接收端的自编码神经网络的解码部分用于对压缩数据进行解压；

其中，所述自编码神经网络包括：

（2）

其中，

表示初始自编码神经网络训练时所输入的训练数据的个数；

表示当前第

个药方数据对应的压缩系数；

表示第

个药方数据；

表示第

个药方数据重构后的重构药方数据；