CN117789907A

CN117789907A - 基于多源数据融合的智慧医疗数据智能管理方法

Info

Publication number: CN117789907A
Application number: CN202410217537.7A
Authority: CN
Inventors: 王兆栋; 李红晓
Original assignee: Shandong Jinwei Software Technology Co ltd
Current assignee: Shandong Jinwei Software Technology Co ltd
Priority date: 2024-02-28
Filing date: 2024-02-28
Publication date: 2024-03-29
Anticipated expiration: 2044-02-28
Also published as: CN117789907B

Abstract

本发明涉及病历数据管理技术领域，具体涉及一种基于多源数据融合的智慧医疗数据智能管理方法。首先获取多种病症的病历样本数据以及待管理病历数据，并使用词袋模型提取特征向量和特征词汇频次用于初始聚类。通过分析初始聚类簇中样本数量分布和特征词汇频次差异，确定特征词汇的参考价值。基于参考价值筛选出参考词汇后，以各参考词汇出现频次为依据再次进行聚类，得到聚类结果。分析此时聚类簇中不同病症样本数量，计算参考词汇对应的判错概率。最终结合参考词汇的参考价值与对应的判错概率，得到参考词汇的影响权重，并依据影响权重确定待管理病历数据所属的病症类型，提高了分类准确性和管理效率。

Description

基于多源数据融合的智慧医疗数据智能管理方法

技术领域

本发明涉及病历数据管理技术领域，具体涉及一种基于多源数据融合的智慧医疗数据智能管理方法。

背景技术

智慧医疗是一种基于信息技术、人工智能和大数据等技术手段，实现对医疗健康领域进行深度融合和创新的一种医疗模式，极大地优化了医疗服务的质量和效率。由于病历数据类型众多，因此可采用智慧医疗对其进行分类管理，从而改善患者的医疗体验并优化医疗资源的配置分配等问题。

现有技术在对病历数据进行分类时，通常对病历数据进行聚类分析，从而确定病历数据所属的病症类别，但是由于病历数据具有多样化，且不同的病历数据会具有相似的词汇特征，因此现有技术根据较少的数据特征对病历数据进行分类会造成病历分类的错判概率较高，从而导致病历数据归类不准确，管理效率低下。

发明内容

为了解决病历数据具有多样化，且不同的病历数据会具有相似的词汇特征，故根据较少的数据特征对病历数据进行分类会造成病历分类的错判概率较高，从而导致病历数据归类不准确，管理效率低下的技术问题，本发明的目的在于提供一种基于多源数据融合的智慧医疗数据智能管理方法，所采用的技术方案具体如下：

获取多源病历数据，其中所述多源病历数据包括至少两种病症的病历样本数据以及待管理病历数据；

基于词袋模型对所有的病历样本数据以及待管理病历数据进行融合分析，获取每个样本数据和待管理病历数据的特征向量以及每种特征词汇的出现频次；根据所有样本数据的特征向量之间的差异情况，以及每种特征词汇的出现频次之间的差异情况对所有样本数据进行聚类分析，得到初始聚类簇；根据各个初始聚类簇中不同病症的样本数据的数量分布情况，以及初始聚类簇中的样本数据在同种特征词汇下的出现频次的差异情况，得到每种特征词汇对样本数据分类的参考价值；

根据所有特征词汇的参考价值筛选参考词汇；任选一种参考词汇作为待分析词汇，根据所有样本数据的待分析词汇的出现频次对所有样本数据进行聚类分析，得到待分析聚类簇；根据各个待分析聚类簇中不同病症的样本数据的数量分布情况，计算待分析词汇对应的判错概率；

根据待分析词汇对应的判错概率以及待分析词汇的参考价值，获得待分析词汇的影响权重；根据待管理病历数据与标准病历数据在每种参考词汇下出现频次以及每种参考词汇对应的影响权重，对待管理病历数据进行归类管理。

进一步地，所述初始聚类簇的获取方法包括：

根据所有样本数据的特征向量之间的差异情况以及每种特征词汇的出现频次之间的差异情况，获得每个样本数据的区别特征值；

根据所有样本数据的区别特征值对所有样本数据进行层次聚类，得到所有初始聚类簇，其中，层次聚类采用凝聚层次聚类。

进一步地，所述区别特征值的获取方法包括：

任选一个样本数据作为待测样本数据，将除待测样本数据外的其他样本数据作为对比样本数据；

在待测样本数据和每个对比样本数据中，将出现频次均大于预设常数的同种特征词汇作为目标词汇，并计算所有种类的目标词汇在待测样本数据和每个对比样本数据中的出现频次差异的均值，作为待测样本数据与每个对比样本数据的差异因子；

将待测样本数据与每个对比样本数据的特征向量的余弦相似度进行负相关映射后的值，与待测样本数据与每个对比样本数据的差异因子相乘后的值进行归一化操作，得到待测样本数据与每个对比样本数据的区别因子；

将待测样本数据与所有对比样本数据的区别因子的均值作为待测样本数据的区别特征值。

进一步地，所述每种特征词汇对样本数据分类的参考价值的获取方法包括：

在每个初始聚类簇中，统计每类病症的样本数据数量，根据每类病症的样本数量与初始聚类簇中剩余样本数据数量获得每类病症的样本数据对应的相对数量占比，所述相对数量占比与每类病症的样本数据数量呈正相关，所述相对数量占比与剩余样本数据数量呈负相关；将所有种类病症的相对数量占比的和值进行归一化后的值作为每个初始聚类簇的分类效果值；

将分类效果值小于预设效果阈值的初始聚类簇作为第一聚类簇，将分类效果值大于或等于预设效果阈值的初始聚类簇作为第二聚类簇；

根据所有第一聚类簇的分类效果值、所有第一聚类簇中的样本数据在每种特征词汇下的出现频次的差异情况以及样本数据之间的区别因子，得到每种特征词汇对应的第一价值因子；

根据所有第二聚类簇之间每种特征词汇的出现频次差异情况，得到每种特征词汇对应的第二价值因子；

将每种特征词汇对应的第一价值因子和第二价值因子的和值进行归一化后的值，作为每种特征词汇对样本数据分类的参考价值。

进一步地，所述每种特征词汇对应的第一价值因子的获取方法包括：

在每个第一聚类簇中，将所有样本数据进行两两组合，得到样本组合，将每个样本组合中两个样本数据的每种特征词汇的出现频次的差异与样本组合中两个样本数据之间的区别因子相乘，作为每个样本组合在每种特征词汇下的第一价值参数；将所有样本组合在每种特征词汇下的第一价值参数的和值与每个第一聚类簇的分类效果值的乘积作为每种特征词汇在每个第一聚类簇中的第二价值参数；

将每种特征词汇在所有第一聚类簇中的第二价值参数的和值进行归一化后的值作为每种特征词汇对应的第一价值因子。

进一步地，所述每种特征词汇对应的第二价值因子的获取方法包括：

在每个第二聚类簇中，计算所有样本数据中每种特征词汇的出现频次，作为第一频次；

将所有第二聚类簇进行两两组合，得到聚类簇组合，在每个聚类簇组合中，将每种特征词汇的第一频次的差异作为差异参数；将所有聚类簇组合中每种特征词汇的差异参数的和值进行归一化后的值，作为每种特征词汇对应的第二价值因子。

进一步地，所述待分析聚类簇的获取方法包括：

根据所有样本数据的待分析词汇的出现频次对所有样本数据进行层次聚类，得到所有待分析聚类簇，其中，层次聚类采用凝聚层次聚类。

进一步地，所述待分析词汇对应的判错概率的获取方法包括：

在每个待分析聚类簇中，统计每类病症的样本数据数量，根据每类病症的样本数量与待分析聚类簇中剩余样本数据数量获得每类病症的样本数据对应的相对数值占比，所述相对数值占比与每类病症的样本数据数量呈负相关，所述相对数值占比与剩余样本数据数量呈正相关；将所有种类病症的相对数值占比进行累加后的值作为每个待分析聚类簇的判错因子；

将所有待分析聚类簇的判错因子的和值作为待分析词汇对应的判错概率。

进一步地，所述影响权重与参考价值呈正相关，所述影响权重与判错概率呈负相关。

进一步地，所述根据待管理病历数据与标准病历数据在每种参考词汇下的出现频次以及每种参考词汇对应的影响权重，对待管理病历进行归类管理，包括：

在每种参考词汇下，计算待管理病历数据与每个标准病历数据的参考词汇的出现频次的差异，作为频次差异，将待管理病历数据归为频次差异最小的标准病历数据的病症类别中；

将待管理病历数据属于每种病症类别中时对应的参考词汇的影响权重进行累加，得到每种病症类别对应的累加权重；将累加权重的最大值对应的病症类别作为待管理病历的最终病症类别。

本发明具有如下有益效果：

由于不同类别的病症所对应的患者的病历数据中也会存在大量的相似词汇，往往会导致最终依据较少的数据特征对病历数据进行聚类时，造成误判概率高，影响病历归类准确度的问题，故针对该问题，本发明提出了一种基于多源数据融合的智慧医疗数据智能管理方法，首先获取了至少两种病症的病历样本数据，然后基于词袋模型对所有的病历样本数据以及待管理病历数据进行融合分析，从而提取每个病历样本数据和待管理病历数据的特征向量以及每个特征词汇的出现频次，通过对多种病症的病历样本数据进行融合分析，并且提取病历样本数据中的多种特征词汇进行综合判断，从而提高病历数据的管理效率。其中特征向量以及特征词汇的出现频次皆可作为后续对样本数据进行初始聚类时的依据，从而获得所有的初始聚类簇；进一步地，通过分析每个初始聚类簇中不同病症类别的样本数据的数量分布情况，结合样本数据的同种特征词汇的出现频次的差异，确定每种特征词汇对样本数据在聚类过程中的参考价值，参考价值表征了特征词汇对样本数据进行聚类时的贡献情况。进一步地，根据参考价值筛选出可用于做参考词汇的特征词汇，从而对于每个参考词汇，根据样本数据中参考词汇的出现频次对样本数据进行聚类，得到在每个参考词汇下的样本数据的聚类结果，此时的聚类结果可以表征出在以每个参考词汇为聚类依据时，样本数据进行聚类分析时的情况，然后对聚类结果中的每个聚类簇中不同病症类别的样本数据的数量进行分析，计算每个参考词汇对应的聚类结果的判错概率，然后可将参考词汇的错判概率结合参考词汇的参考价值，得到参考词汇的影响权重，由于影响权重综合分析了的参考词汇对应的误判概率以及参考价值，故此时依据参考词汇的影响权重确定待管理病历样本数据所属的病症类别会更加的可靠，得到的分类结果也会更加的准确，进而有效提高了病历数据的管理效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一个实施例所提供的一种基于多源数据融合的智慧医疗数据智能管理方法流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的一种基于多源数据融合的智慧医疗数据智能管理方法，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的一种基于多源数据融合的智慧医疗数据智能管理方法的具体方案。

请参阅图1，其示出了本发明一个实施例提供的一种基于多源数据融合的智慧医疗数据智能管理方法的方法流程图，该方法包括以下步骤：

步骤S1：获取多源病历数据，其中多源病历数据包括至少两种病症的病历样本数据以及待管理病历数据。

在病历数据样本中部分病历数据之间存在较大的相似特征，却表现为不同疾病种类，因此在进行智慧医疗数据的分类过程中这些病历数据之间相似的特征会导致其分类结果的准确性降低，从而导致患者获得较差的医疗体验以及医院医疗资源的浪费等情况。故本发明实施例针对这一情况，通过对病历数据进行分析，从而确定病历数据中不同的词汇对其进行分类时的贡献情况，进而提高病历分类的准确度，故首先需获取样本数据以及待管理的病历数据，数据的获取方法可以为：对医院的电子病历系统进行访问，获取其中至少两种相似病症的病历样本数据，通过对多种病症的病历数据进行分析，从而能够提高后续分析过程的准确度；同时，也获取待管理病历数据，其中，病历样本数据为已知其所属病症类别的病历数据，而待管理病历数据为未知其所属病症类别的病历数据。需要说明的是，病历样本数据以及待管理病历数据的获取方法可根据实施情况进行调整，在此不做限定及赘述；并且多源病历数据通常为文本数据，其中包括患者的基本信息、病情描述、检查结果、治疗方案、手术记录等内容，对于相似病症的病历样本数据，通常病情描述、检查结果以及治疗方案会存在较高的相似程度，故本发明该实施例中从电子病历系统中所记录的病历数据中的以上几个方面进行病历样本数据的选择。

至此，可以获取到病历样本数据以及待管理病历数据，通过后续对病历样本数据进行融合分析，从而确定病历数据中各个特征词汇对于病历数据分类的贡献程度，并对各个特征词汇对于病历数据分类的贡献程度进行综合分析，帮助确定待管理病历数据所属的病症类别。

步骤S2：基于词袋模型对所有的病历样本数据以及待管理病历数据进行融合分析，获取每个样本数据和待管理病历数据的特征向量以及每种特征词汇的出现频次；根据所有样本数据的特征向量之间的差异情况，以及每种特征词汇的出现频次之间的差异情况对所有样本数据进行聚类分析，得到初始聚类簇；根据各个初始聚类簇中不同病症类别的样本数据的数量分布情况，以及初始聚类簇中的样本数据在同种特征词汇下的出现频次的差异情况，得到每种特征词汇对样本数据分类的参考价值。

由于病历数据通常为文本数据，当对文本数据进行分析时，可以首先将其进行数值化，鉴于词袋模型是一种将文本数据转化为数值向量的方法，可以获得每种特征词汇的出现频次且该方法还可以将所有的样本数据的数据特征进行融合，意味着此时不仅仅考虑单个样本数据的数据特征，而是将所有的样本数据的数据特征进行综合分析，以此可以获取更全面、更具代表性的数据特征，故本发明该实施例中，基于词袋模型对每个样本数据以及待管理病历数据进行分析，提取每个样本数据以及待管理数据中每个特征词汇的出现频次，从而确定每个样本数据和待管理病历数据的特征向量，特征向量中的每个元素即代表了一个特征词汇的出现频次，可以有助于捕捉文本中的关键信息，用于后续的处理过程中。需要说明的是，词袋模型为本领域技术人员熟知的技术手段，在此不做赘述。

为了分析每个特征词汇对样本数据进行聚类时的贡献情况，所以可先基于样本数据的特征向量以及各个特征词汇的出现频次对所有的样本数据进行初步聚类，得到初始聚类簇，然后再对初始聚类簇进行进一步的分析，从而分析每个特征词汇的贡献情况。

优选地，本发明一个实施例中，初始聚类簇的获取方法包括：

首先可以分析所有样本数据的特征向量之间的差异情况以及每种特征词汇的出现频次之间的差异情况，得到每个样本数据的区别特征值，然后将该区别特征值作为样本数据进行初始聚类时的聚类依据。区别特征值的具体获取方法包括：为了便于解释和说明，在此任选一个样本数据作为待测样本数据，将除待测样本数据外的其他样本数据作为对比样本数据，通过对待测样本数据进行区别特征值的获取，从而说明区别特征值的具体获取过程。

在待测样本数据和每个对比样本数据中，对每种特征词汇的出现频次进行分析，将出现频次均大于预设常数的同种特征词汇作为目标词汇，并将所有种类目标词汇在待测样本数据和每个对比样本数据中的出现频次差异的均值作为待测样本数据与对应的对比样本数据的差异因子。差异因子表征了待测样本数据和对比样本数据在同种目标词汇下的出现频次的差异，可作为后续获取区别特征值的指标。

接着分析待测样本数据与每个对比样本数据的特征向量之间的差异，将待测样本数据与每个对比样本数据的特征向量之间的余弦相似度进行负相关映射后的值，与待测样本数据与每个对比样本数据的差异因子相乘后的值进行归一化操作，得到待测样本数据与每个对比样本数据的区别因子；此时区别因子结合了样本数据之间的特征向量之间的差异以及同种特征词汇的出现频次之间的差异，因此表征样本数据之间的差异情况会更加的准确。待测样本数据以样本数据为例，待测样本数据和每个对比样本数据的区别因子的公式模型具体可以例如为：

其中，表示待测样本数据和第个对比样本数据的区别因子；表示待测样本数据中第种目标词汇的出现频次；表示第个对比样本数据中第种目标词汇的出现频次；表示目标词汇的种类数；表示待测样本数据的特征向量；表示第个对比样本数据的特征向量；表示归一化函数；表示向量求模运算。

在区别因子的公式模型中，首先对特征词汇进行局部分析，对于待测样本数据和每个对比样本数据，筛选出出现频次均大于预设常数的同种特征词汇，将这种特征词汇作为目标词汇，然后可在待测样本数据和每个对比样本数据中，计算每种目标词汇的出现频次的差异，然后将所有种类的目标词汇的出现频次的差异进行求均值，从而得到待测样本数据和每个对比样本数据的差异因子，此时，若待测样本数据和每个对比样本数据的同种目标词汇的出现频次的差异越大，那么最终所得的差异因子就会越大，差异因子越大，则表征待测样本数据和对比样本数据之间的差异程度越大；然后从全局出发，分析待测样本数据和每个对比样本数据的特征向量之间的差异，本发明该实施例中计算了特征向量之间的余弦相似度，此时余弦相似度的值越接近1，也即越大，则表征两个特征向量之间越相似，也就是待测样本数据和对比样本数据之间的差异越小，反之，余弦相似度的值越接近-1，也即越小，表征两个特征向量之间越不相似，也就是待测样本数据和对比样本数据之间的差异越大，故在此将余弦相似度进行负相关映射，实现逻辑关系矫正后与对应的差异因子相乘，并进行归一化操作，从而得到待测样本数据和每个对比样本数据的区别因子。

基于上述过程可以获取到待测样本数据与每个对比样本数据之间的区别因子，故可以将待测样本数据与所有对比样本数据的区别因子的均值作为待测样本数据的区别特征值。

最后可根据所有样本数据的区别特征值对所有样本数据进行层次聚类，从而得到所有初始聚类簇，其中，层次聚类采用凝聚层次聚类。需要说明的是，预设常数取值为0，也即在待测样本数据和每个对比样本数据中，将出现频次均大于预设常数的同种特征词汇作为目标词汇，预设常数的取值可根据实施场景进行调整，但需取值为0或正整数；层次聚类的过程为本领域技术人员熟知的操作过程，在此不做赘述；负相关关系表示因变量会随着自变量的增大而减小，因变量会随着自变量的减小而增大，可以为相减关系、相除关系等，由实际应用进行确定；正相关关系表示因变量会随着自变量的增大而增大，因变量会随着自变量的减小而减小，具体关系可以为相乘关系、相加关系、指数函数的幂等，由实际应用进行确定；在本发明的其他实施例中可以根据数值具体范围选择其他归一化方法，对此不再赘述。

至此，可以完成对所有样本数据的初步聚类，得到初始聚类簇，可用于后续的分析过程中。

基于上述过程可以得到所有样本数据进行聚类后的初始聚类簇，然后可对各个初始聚类簇进行进一步的分析，便于确定初始聚类时聚类效果的好坏程度，从而计算每种特征词汇对于样本数据聚类时的贡献情况，即参考价值。

可以通过分析每个初始聚类簇中不同病症类别的样本数据的数量分布情况表征聚类效果的好坏程度，然后结合初始聚类簇中的样本数据在同种特征词汇下的出现频次的差异情况，从而量化每种特征词汇对于样本数据聚类时的贡献情况，得到参考价值。

优选地，本发明一个实施例中，每种特征词汇对样本数据分类的参考价值的获取方法包括：

首先在每个初始聚类簇中，统计每类病症的样本数据数量，并根据每类病症的样本数量与初始聚类簇中剩余样本数据数量获得每类病症的样本数据对应的相对数量占比，且相对数量占比与每类病症的样本数据数量呈正相关，相对数量占比与剩余样本数据数量呈负相关；每类病症对应的样本数据的相对数量占比可以在一定程度上表征出该初始聚类簇中的样本数据是否为同类病症，也即可以反映出该初始聚类簇的分类效果，故将所有种类病症的相对数量占比的和值进行归一化后的值作为每个初始聚类簇的分类效果值。分类效果值的公式模型为：

其中，表示第个初始聚类簇的分类效果值；表示第个初始聚类簇中的病症种类数；表示第个初始聚类簇中第种病症的样本数据数量；表示第个初始聚类簇中除第种病症外剩余的样本数据数量；表示归一化函数；表示预设第一参数。

在分类效果值的公式模型中，在每个初始聚类簇中，根据不同类别的病症对应的样本数据的数量占比情况，用于表征该初始聚类簇的分类效果，即根据每类病症的样本数据数量与初始聚类簇中剩余样本数据数量，得到每类病症的样本数据所对应的相对数量占比，此时若初始聚类簇中某类病症的样本数据数量越多，也即该初始聚类簇的分类结果更趋向于某种病症，那么某类病症对应的相对数量占比会越大，因此最终获取到的分类效果值也会越大。

然后根据初始聚类簇的分类效果值对初始聚类簇进行区分，然后对不同类别的聚类簇进行不同的分析，从而确定不同的特征词汇对于样本数据分类的贡献情况。即将分类效果值小于预设效果阈值的初始聚类簇作为第一聚类簇，将分类效果值大于或等于预设效果阈值的初始聚类簇作为第二聚类簇。

对于第一聚类簇，第一聚类簇可视为是分类效果较差的聚类簇，因此若簇内样本数据的特征词汇之间的出现频次差异越大，那么可认为该种特征词汇对样本数据的分类贡献程度就越大。故可以根据所有第一聚类簇的分类效果值、所有第一聚类簇中的样本数据在每种特征词汇下的出现频次的差异情况以及样本数据之间的区别因子，得到每种特征词汇对应的第一价值因子。第一价值因子的获取方法具体可以为：在每个第一聚类簇中，先将所有样本数据进行两两组合，得到所有的样本组合。然后将每个样本组合中两个样本数据的每种特征词汇的出现频次的差异与样本组合中两个样本数据之间的区别因子相乘，作为每个样本组合在每种特征词汇下的第一价值参数。接着将所有样本组合在每种特征词汇下的第一价值参数的和值与每个第一聚类簇的分类效果值的乘积作为每种特征词汇在每个第一聚类簇中的第二价值参数。最后将每种特征词汇在所有第一聚类簇中的第二价值参数的和值作为每种特征词汇对应的第一价值因子。第一价值因子的公式模型为：

其中，表示第种特征词汇的第一价值因子；表示第个第一聚类簇的分类效果值；表示第一聚类簇的总数；表示第个第一聚类簇中的样本组合总数；表示第个样本组合中样本数据1的第种特征词汇的出现频次；表示第个样本组合中样本数据2的第种特征词汇的出现频次；表示第个样本组合中样本数据1和样本数据2的区别因子；表示归一化函数。

在第一价值因子的公式模型中，对于每个第一聚类簇，计算该第一聚类簇中每个样本组合中的两个样本数据之间同种特征词汇的出现频次的差异，该差异越大，说明该种特征词汇对于改进分类效果会具有更大的参考价值，因为样本数据之间的区别因子可以表征两个样本数据之间的差异情况，故将与样本数据之间的区别因子相乘，得到每个样本组合在每种特征词汇下的第一价值参数，第一价值参数越大，说明该种特征词汇对于改进分类效果具有更大的参考价值；接着可将所有样本组合在每种特征词汇下的第一价值参数进行综合，将同种特征词汇下的第一价值参数的和值与第一聚类簇的聚类效果值进行相乘，此时，第一价值参数的和值越大，说明这种特征词汇对于改进聚类效果具有更高的参考价值，同理，若第一聚类簇的聚类效果值也越大，也可在一定程度上表征出特征词汇对于样本数据分类的参考价值越大，故二者相乘，所得乘积越大，则这种特征词汇的第二价值参数就越大，最后将每种特征词汇在所有第一聚类簇中的第二价值参数进行综合，所得和值并进行归一化操作后，即可得到每种特征词汇对应的第一价值因子。

对于第二聚类簇，第二聚类簇可视为是分类效果较好的聚类簇，因此若不同的第二聚类簇中样本数据的特征词汇之间的出现频次差异越大，那么可认为该种特征词汇对样本数据的分类贡献程度就越大。故可以根据所有第二聚类簇之间每种特征词汇的出现频次差异情况，得到每种特征词汇对应的第二价值因子。第二价值因子的获取方法具体可以为：首先在每个第二聚类簇中，计算所有样本数据中每种特征词汇的出现频次，作为第一频次。然后将所有第二聚类簇进行两两组合，得到聚类簇组合，在每个聚类簇组合中，将每种特征词汇的第一频次的差异作为差异参数。最后将所有聚类簇组合中每种特征词汇的差异参数的和值，作为每种特征词汇对应的第二价值因子。第二价值因子的公式模型为：

其中，表示第种特征词汇的第二价值因子；表示所有的第二聚类簇组合后的聚类簇组合数；表示第个聚类簇组合中第二聚类簇1的第种特征词汇对应的第一频次；表示第个聚类簇组合中第二聚类簇2的第种特征词汇对应的第一频次；表示归一化函数。

在第二价值因子的公式模型中，首先在每个第二聚类簇中，统计了每种特征词汇在簇中所有样本数据中的出现频次的和值，将该和值作为第一频次，基于上述分析可知，对于分类效果较好的情况，若聚类簇之间某种特征词汇的出现频次差异越大，则可表征该种特征词汇更加可能是帮助做出正确分类的关键特征，故得到了所有第二聚类簇两两组合后的聚类簇组合，并计算了每个聚类簇组合中每种特征词汇的第一频次之间的差异，得到差异参数，该值越大，说明该种特征词汇更加可能是帮助做出正确分类的关键特征，也即具有更高的参考价值，最后将所有聚类簇组合中每种特征词汇的差异参数进行综合，将其累加后的值进行归一化操作，即可得到每种特征词汇对应的第二价值因子。

最后将每种特征词汇对应的第一价值因子和第二价值因子的和值进行归一化后的值，作为每种特征词汇对样本数据分类的参考价值。参考价值的公式模型具体可以例如为：

其中，表示第种特征词汇的参考价值；表示第种特征词汇的第一价值因子；表示第种特征词汇的第二价值因子；表示归一化函数。

在参考价值的公式模型中，将每种特征词汇的第一价值因子和第二价值因子进行综合，求其和值，并将该和值作为每种特征词汇的参考价值，使得获取到的参考价值更加完整、综合以及准确。

需要说明的是，在本发明该实施例中，预设第一参数的作用为防止分母为0，在此可取值为0.001，具体数值可根据实施场景进行调整，在此不做限定；预设效果阈值取值为 0.5，具体数值也可根据实施场景进行调整，在此不做限定。

至此，通过对初始聚类簇进行进一步的分析，可以得到每种特征词汇对于样本数据分类时的贡献程度，即获取到了每种特征词汇的参考价值，可将参考价值用于后续的分析过程中。

步骤S3：根据所有特征词汇的参考价值筛选得到参考词汇；任选一个参考词汇作为待分析词汇，根据所有样本数据的待分析词汇的出现频次对所有样本数据进行聚类分析，得到待分析聚类簇；根据各个待分析聚类簇中不同类别的样本数据的数量分布情况，计算待分析词汇对应的判错概率。

基于上述过程可以得到每种特征词汇的参考价值，故在此可以基于参考价值筛选出更具代表性的参考词汇，在本发明该实施例中，将参考价值大于或等于预设价值阈值的特征词汇作为参考词汇。需要说明的是，预设价值阈值设置为0.6，具体数值可根据实施场景进行调整，在此不做限定。

在筛选得到参考词汇之后，可对每种参考词汇进行进一步的分析，用于确定其对于样本数据分类时的分类效果，也即可以获取每种参考词汇对应的判错概率，故首先需将每种参考词汇的出现频次作为聚类依据，对所有的样本数据进行聚类分析，得到聚类簇，为了便于解释和说明，在此，任选一种参考词汇作为待分析词汇，通过对待分析词汇进行分析，用于说明某些指标的获取方法。

优选地，本发明一个实施例中，待分析聚类簇的获取方法包括：

由于样本数据之间待分析词汇的出现频次差异可以反映样本数据之间的相似性或差异性，故根据所有样本数据的待分析词汇的出现频次对所有样本数据进行层次聚类，得到所有待分析聚类簇，其中，层次聚类采用凝聚层次聚类。需要说明的是，层次聚类为本领域技术人员熟知的技术手段，在此不做赘述。

在将待分析词汇的出现频次作为聚类依据获取到待分析聚类簇之后，可具体分析待分析聚类簇中不同病症的样本数据的数量分布，从而确定将待分析词汇作为聚类依据时的判错概率，判错概率可以为后续的数据分析提供指导。

优选地，本发明一个实施例中，待分析词汇对应的判错概率的获取方法包括：

同每个初始聚类簇的分类效果值的计算方法部分一致，首先在每个待分析聚类簇中，统计每类病症的样本数据数量，根据每类病症的样本数量与待分析聚类簇中剩余样本数据数量获得每类病症的样本数据对应的相对数值占比，且相对数值占比与每类病症的样本数据数量呈负相关，相对数值占比与剩余样本数据数量呈正相关；然后将所有种类病症的相对数值占比进行累加，作为每个待分析聚类簇的判错因子。最后可将所有待分析聚类簇的判错因子的和值作为待分析词汇对应的判错概率。待分析词汇以第种参考词汇为例，判错概率的公式模型具体可以例如为：

其中，表示第种参考词汇对应的判错概率；表示待分析聚类簇的总数；表示第个待分析聚类簇中的病症种类数；表示第个待分析聚类簇中除第种病症外剩余的样本数据数量；表示第个待分析聚类簇中第种病症的样本数据数量；表示归一化函数。

在判错概率的公式模型中，在每个待分析聚类簇中，根据不同类别的病症对应的样本数据的数量占比情况，用于表征依据待分析词汇对样本数据进行分类时的判错概率，即每类病症的样本数据数量与待分析聚类簇中剩余样本数据数量，得到每类病症的样本数据所对应的相对数值占比，此时若待分析聚类簇中某类病症的样本数据数量越多，也即该待分析聚类簇的分类结果更趋向于某种病症，那么相对数值占比的分母就会越大，因而相对数值占比的值就会越小；然后将所有种类病症的相对数值占比进行累加，得到每个待分析聚类簇对应的判错因子，此时判错因子越小，说明在以某个参考词汇为聚类依据时，得到的每个待分析聚类簇中的判错可能性越低。最后将所有待分析聚类簇的判错因子进行综合，也即将所有的判错因子进行累加，得到判错概率，此时判错概率越小，说明在以待分析词汇为样本数据的分类依据时，获取到的分类结果的效果越好。

至此，通过以待分析词汇为样本数据聚类时的依据，可以分析得到待分析词汇对应的判错概率，判错概率为后续分析待分析词汇在样本数据聚类过程中所占的权重提供参考。

步骤S4：根据待分析词汇对应的判错概率以及待分析词汇的参考价值，获得待分析词汇的影响权重；根据待管理病历数据与标准病历数据的各个参考词汇下出现频次以及各个参考词汇对应的影响权重，对待管理病历数据进行归类管理。

基于步骤S2可以得到待分析词汇对样本数据分类的参考价值，基于步骤S3可以得到在以待分析词汇为样本数据聚类的聚类依据时的判错概率，因此可将二者进行结合，从而得到能够准确反映待分析词汇对样本数据聚类的影响程度，也即获取到待分析词汇的影响权重。

优选地，本发明一个实施例中，待分析词汇的影响权重的获取方法包括：

由于待分析词汇的参考价值越大，说明其对样本数据聚类时的贡献度越高，并且待分析词汇的判错概率越小，说明其对样本数据聚类的准确度越高，故在此，根据待分析词汇的参考价值和判错概率计算待分析词汇的影响权重，并且，影响权重与参考价值呈正相关，影响权重与判错概率呈负相关。待分析词汇以第种参考词汇为例，影响权重的公式模型具体可以例如为：

其中，表示第种参考词汇的影响权重；表示第种参考词汇的参考价值；表示第种参考词汇对应的判错概率；表示归一化函数；表示预设第二参数。

在影响权重的公式模型中，当待分析词汇的参考价值越大时，说明其对于样本数据聚类时的贡献度越高，并且待分析词汇的判错概率越小，说明其对样本数据聚类的准确度越高，故构建比值形式，得到待分析词汇的影响影响权重，使之满足前述逻辑关系。

需要说明的是，预设第二次参数的目的为防止分母为0，在此可取值为0.001，具体数值可根据实施场景进行调整，再次不作限定。

至此，通过上述过程可以得到每种参考词汇的影响权重，故最后可根据各种参考词汇的影响权重对待管理病历数据的归类进行判断，完成归类管理。

优选地，本发明一个实施例中，根据待管理病历数据与标准病历数据的每种参考词汇下出现频次以及每种参考词汇对应的影响权重，对待管理病历数据进行归类管理，包括：

首先选取不同种类病症中具有代表性的病历数据作为标准病历数据，然后可在每种参考词汇下，计算待管理病历数据与每个标准病历数据的参考词汇的出现频次的差异，作为频次差异，若频次差异越小，则说明待管理病历数据与标准病历数据越相似，故将待管理病历数据归为频次差异最小的标准病历数据的病症类别中。此时在每种参考词汇下，待管理病历都会存在一个归属病症类别，故依据参考词汇的影响权重对待管理病历数据进行最终病症类别的确定，具体方法为：对于每种病症类别，当待管理病历数据属于该病症类别时，将对应的参考词汇的影响权重进行累加，从而得到每种病症类别对应的累加权重，最后将所有累加权重的最大值对应的病症类别作为待管理病历的最终病症类别。

至此，可以确定待管理病历的病症类别，有效提高了分类准确度，有助于提高病历管理的效率。

综上所述，本发明实施例首先获取了至少两种病症的病历样本数据，然后基于词袋模型提取每个样本数据的特征向量以及每个特征词汇的出现频次，特征向量以及特征词汇的出现频次皆可作为后续对样本数据进行初始聚类时的依据，从而获得所有的初始聚类簇；进一步地，通过分析每个初始聚类簇中不同病症类别的样本数据的数量分布情况，结合样本数据的同种特征词汇的出现频次的差异，确定每种特征词汇对样本数据在聚类过程中的参考价值，参考价值表征了特征词汇对样本数据进行聚类时的贡献情况。进一步地，根据参考价值筛选出可用于做参考词汇的特征词汇，从而对每一个参考词汇进行分析，对于每个参考词汇，根据样本数据中参考词汇的出现频次对样本数据进行聚类，得到在每个参考词汇下的样本数据的聚类结果，此时的聚类结果可以表征出在以每个参考词汇为聚类依据时，样本数据进行聚类分析时的情况，然后对聚类结果中的每个聚类簇中不同病症类别的样本数据的数量进行分析，计算每个参考词汇对应的聚类结果的判错概率，然后可将参考词汇的错判概率结合参考词汇的参考价值，得到参考词汇的影响权重，由于影响权重综合分析了的参考词汇对应的误判概率以及参考价值，故此时依据参考词汇的影响权重确定待管理病历样本数据所属的病症类别会更加的可靠，得到的分类结果也会更加的准确，进而有效提高了病历数据的管理效率。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

Claims

1.一种基于多源数据融合的智慧医疗数据智能管理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于多源数据融合的智慧医疗数据智能管理方法，其特征在于，所述初始聚类簇的获取方法包括：

3.根据权利要求2所述的一种基于多源数据融合的智慧医疗数据智能管理方法，其特征在于，所述区别特征值的获取方法包括：

4.根据权利要求3所述的一种基于多源数据融合的智慧医疗数据智能管理方法，其特征在于，所述每种特征词汇对样本数据分类的参考价值的获取方法包括：

5.根据权利要求4所述的一种基于多源数据融合的智慧医疗数据智能管理方法，其特征在于，所述每种特征词汇对应的第一价值因子的获取方法包括：

6.根据权利要求4所述的一种基于多源数据融合的智慧医疗数据智能管理方法，其特征在于，所述每种特征词汇对应的第二价值因子的获取方法包括：

7.根据权利要求1所述的一种基于多源数据融合的智慧医疗数据智能管理方法，其特征在于，所述待分析聚类簇的获取方法包括：

8.根据权利要求1所述的一种基于多源数据融合的智慧医疗数据智能管理方法，其特征在于，所述待分析词汇对应的判错概率的获取方法包括：

9.根据权利要求1所述的一种基于多源数据融合的智慧医疗数据智能管理方法，其特征在于，所述影响权重与参考价值呈正相关，所述影响权重与判错概率呈负相关。

10.根据权利要求1所述的一种基于多源数据融合的智慧医疗数据智能管理方法，其特征在于，所述根据待管理病历数据与标准病历数据在每种参考词汇下的出现频次以及每种参考词汇对应的影响权重，对待管理病历进行归类管理，包括：