一种疾病多模态数据智能分析方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种疾病多模态数据智能分析方法。
背景技术
随着医学技术的不断发展和数据的快速积累,疾病诊断和治疗正朝着个性化、精准化的方向发展。传统的疾病诊断通常基于单一模态的数据,然而单一模态数据往往不能全面反映疾病的复杂性和多样性;因此将多种模态的数据融合分析并进行疾病诊断,已经成为一种重要的研究方向。
对于疾病多模态数据的智能分析,需要对多模态的数据进行融合处理;但是在融合的过程中,尽管多模态数据的表现形式不同,但是不同模态数据包含大量相同的疾病信息,因此在数据融合过程中,需要对包含大量相同疾病信息的模态数据进行舍弃;但是多模态数据的表现形式不同,会造成数据之间无法准确的获取需要舍弃的数据,进而无法得到准确的数据融合结果,造成数据融合的结果中存储较多的重复性信息,最终影响疾病多模态数据智能分析的效率。
发明内容
本发明提供一种疾病多模态数据智能分析方法,以解决现有的多模态数据存在大量重复信息,但无法准确对模态数据进行舍弃而影响分析结果的问题,所采用的技术方案具体如下:
本发明一个实施例提供了一种疾病多模态数据智能分析方法,该方法包括以下步骤:
采集疾病的若干患者的若干模态数据;
对每个患者的每个模态数据进行向量转换,得到每个患者每个模态的维度向量;对同一模态的维度向量进行聚类得到每个模态的聚类结果;根据每个患者在不同模态的聚类结果中的分布差异,获取每个患者的初始异常程度;
根据患者每个模态去除前后,通过聚类结果分析异常程度之间的差异,得到每个患者每个模态的去心特征程度;根据同一模态下不同患者在聚类结果中的分布,结合去心特征程度,得到每个患者每个模态的替换特征程度;
根据去心特征程度及替换特征程度,获取每个患者每个模态的信息特征程度;根据信息特征程度对每个患者的若干模态数据进行删除,得到每个患者的若干剩余模态数据。
进一步的,所述采集疾病的若干患者的若干模态数据,包括的具体方法为:
采集患者的检查影像数据、检测指标数据、就诊数据及病历数据作为多模态数据,其中检查影像数据为图像数据,检测指标数据、就诊数据及病历数据均为文字数据,得到若干患者的若干模态数据。
进一步的,所述得到每个患者每个模态的维度向量,包括的具体方法为:
对于任意一个患者的检查影像数据,将检查影像数据中每行的像素点的灰度值按照从左到右的顺序排列,逐行从上到下首尾相连,得到一个向量,记为该患者在检查影像数据模态下的维度向量;
该患者的检测指标数据由若干检测指标及对应的数据组成,按照检测指标的默认排列顺序,将每个检测指标对应的数据进行排列,得到的向量记为该患者在检测指标数据模态下的维度向量;
对于该患者的就诊数据,通过Jieba分词及WordVec模型进行词向量转换,将就诊数据转换为若干词向量,将该患者的就诊数据的所有词向量按顺序首尾向量,得到的向量记为该患者在就诊数据模态下的维度向量,获取该患者在病历数据模态下的维度向量。
进一步的,所述对同一模态的维度向量进行聚类得到每个模态的聚类结果,包括的具体方法为:
对于任意一个模态,根据每个患者该模态的维度向量对患者进行DBSCAN聚类,距离度量采用每个患者该模态的维度向量之间的DTW距离,聚类得到的若干聚簇记为该模态的若干聚簇,所有聚簇统称为该模态的聚类结果。
进一步的,所述每个患者的初始异常程度,具体的获取方法为:
对于任意两个模态,将两个模态的聚类结果作为一个组合,记为一个聚类结果组合;两个模态的聚类结果能够得到两个聚类结果组合,两个聚类结果组合的排列方式不同,将聚类结果组合中第一个模态作为基准模态,第二个模态作为参考模态;对所有模态得到若干聚类结果组合,预设初始参考数量;
其中,表示第/>个患者的初始异常程度,/>表示聚类结果组合的数量,/>表示初始参考数量,/>表示第/>个聚类结果组合中第/>个患者在初始参考数量下的参考患者的数量,所述参考患者的数量的具体获取方法为:在第/>个聚类结果组合中基准模态的聚类结果中,获取与第/>个患者在基准模态下的维度向量的DTW距离最小的/>个维度向量对应的患者,记为第/>个聚类结果组合中第/>个患者的相似患者,将在参考模态的聚类结果中与第/>个患者属于同一个聚簇的相似患者,记为第/>个聚类结果组合中第/>个患者在初始参考数量下的参考患者,统计参考患者的数量并记为/>;/>表示第/>个聚类结果组合中第/>个患者与初始参考数量下所有相似患者在参考模态的聚类结果中,维度向量的DTW距离的均值;/>表示第/>个聚类结果组合中第/>个患者与初始参考数量下第/>个参考患者在参考模态的聚类结果中,维度向量的DTW距离;/>为避免指数函数数值过小的超参数,表示以自然常数为底的指数函数。
进一步的,所述得到每个患者每个模态的去心特征程度,包括的具体方法为:
对于第个患者及第/>个模态,预设第一参考数量、第二参考数量及第三参考数量,根据若干聚类结果组合,获取第/>个患者在第一参考数量下得到的异常程度,记为第/>个患者的第一异常程度;获取第二参考数量对应的第/>个患者的第二异常程度,以及第三参考数量对应的第/>个患者的第三异常程度;对第/>个患者的初始异常程度、第一异常程度、第二异常程度及第三异常程度计算方差,记为第/>个患者的异常波动程度;
从若干聚类结果组合中,去除包含第个模态的聚类结果组合,根据剩余的模态的聚类结果构建聚类结果组合,获取第/>个患者在去除第/>个模态后在初始参考数量下得到的异常程度,记为第/>个患者第/>个模态的初始去心异常程度;根据第一参考数量、第二参考数量及第三参考数量,获取第/>个患者第/>个模态的第一去心异常程度、第二去心异常程度及第三去心异常程度;对第/>个患者第/>个模态的初始去心异常程度、第一去心异常程度、第二去心异常程度及第三去心异常程度计算方差,记为第/>个患者第/>个模态的异常去心波动程度;
根据初始异常程度、初始去心异常程度、异常波动程度及异常去心波动程度,获取每个患者每个模态的去心特征程度。
进一步的,所述每个患者每个模态的去心特征程度,具体的获取方法为:
其中,表示第/>个患者第/>个模态的去心特征程度,/>表示第/>个患者的异常波动程度,/>表示第/>个患者第/>个模态的异常去心波动程度,/>表示第/>个患者的初始异常程度,/>表示第/>个患者第/>个模态的初始去心异常程度,/>表示求绝对值。
进一步的,所述得到每个患者每个模态的替换特征程度,包括的具体方法为:
其中,表示第/>个患者第/>个模态的替换特征程度,/>表示除第/>个患者之外其他患者的数量,/>表示第/>个患者的初始异常程度,/>表示除第/>个患者之外其他第/>个患者的初始异常程度,/>表示所有患者的初始异常程度的最大值,/>表示除第/>个患者之外其他第/>个患者第/>个模态的去心特征程度。
进一步的,所述每个患者每个模态的信息特征程度,具体的获取方法为:
对于任意一个患者的任意一个模态,将该患者该模态的去心特征程度与替换特征程度的乘积,记为该患者该模态的信息特征系数,获取该患者每个模态的信息特征系数,对所有信息特征系数进行线性归一化,得到的结果记为该患者每个模态的信息特征程度。
进一步的,所述得到每个患者的若干剩余模态数据,包括的具体方法为:
对于任意一个患者,若该患者任意一个模态的信息特征程度小于特征阈值,对该患者该模态的模态数据进行删除,对该患者每个模态的信息特征程度与特征阈值进行判断,将小于特征阈值的模态对应的模态数据进行删除,将未删除的模态数据记为该患者的若干剩余模态数据。
本发明的有益效果是:本发明通过对疾病的多模态数据进行一定程度的删除,再进行数据融合,通过融合结果进行疾病分析,保证融合结果中不会存在过多重复性信息,进而提高分析效率及融合结果的准确性;其中对模态数据转换为维度向量,根据维度向量进行聚类,通过聚类结果来分析各模态的信息特征程度,首先通过患者在不同模态的聚类结果中的分布差异,进行异常程度量化,通过异常程度初步反映模态变化带来的聚类结果变化,为模态的特征表征能力量化提供基础;再根据不同参考数量以及去除对应模态前后,异常程度的波动差异及变化,量化去心特征程度,并通过替换同模态的维度向量,结合去心特征程度得到替换特征程度,通过异常程度变化来量化去心特征程度,异常程度波动差异越大且变化越大,对应模态对异常程度影响越大,则去心特征程度越大;最终得到信息特征程度,并根据信息特征程度进行模态数据删除,再进行数据融合及疾病分析,从而提高分析效率的同时,得到较为准确的融合结果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种疾病多模态数据智能分析方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例所提供的一种疾病多模态数据智能分析方法流程图,该方法包括以下步骤:
步骤S001、采集疾病的若干患者的若干模态数据。
本实施例的目的是对患者的疾病多模态数据通过数据融合进行智能分析,而多模态数据中包含大量重复信息,则需要对一些模态数据进行舍弃,再进行数据融合及分析,从而提高分析结果的准确性以及分析效率;首先需要对患者进行模态数据采集。
具体的,从医院系统中对任意一种疾病的若干患者进行模态数据采集,本实施例以任意一种疾病为例进行处理,不进行疾病的具体限定;对于模态数据,本实施例采集患者的检查影像数据、检测指标数据、就诊数据及病历数据作为多模态数据,其中检查影像数据为图像数据,检测指标数据、就诊数据及病历数据均为文字数据,则得到了该疾病的若干患者的若干模态数据。
至此,获取到了若干患者的若干模态数据。
步骤S002、对每个患者的每个模态数据进行向量转换,得到每个患者每个模态的维度向量;对同一模态的维度向量进行聚类得到每个模态的聚类结果;根据每个患者在不同模态的聚类结果中的分布差异,获取每个患者的初始异常程度。
需要说明的是,由于疾病的多模态数据中包含有很多疾病的表征信息,例如检查影像数据中显示着疾病的纹理形态特征,各种检测指标表征着疾病的指标信息,就诊数据表征医生对疾病的判断,该判断基于医疗影像及各种检测指标得到;但是这些多模态数据中存在一些重复性的信息,因此需要进行数据融合,从而降低重复性信息对分析效率的影响;因此期望的是对疾病的多模态数据进行数据融合后,融合结果不存在重复表达的信息,同时数据融合后的结果可以准确地表征疾病的准确信息。
进一步需要说明的是,多模态数据中文字数据和图像数据均是对疾病的描述,并且文字数据往往是对图像数据的一种解释说明,因此图像数据和文字数据是一一对应的;而图像数据与文字数据在表现形式上存在差异,因此需要通过对每个模态数据进行向量转换后,得到维度向量,再通过维度向量对不同患者进行聚类,得到每个模态的聚类结果;而对于疾病的多个患者的所有多模态数据均表现的是疾病的信息,因此若在每个模态的聚类结果中,若某个患者的任意两个聚类结果是相似的,则对应的两个模态数据表现的为该疾病的特征信息;而若某个患者的两个聚类结果不相似,则表明该患者的异常程度较大,即对应的该患者的两个模态数据之间的对应程度较小,即对应的模态数据之间的解释性较弱,也即该患者的某个模态数据说明的为该患者的其他模态数据中没有表现的特征;因此需要根据每个模态的聚类结果之间的差异,来获取患者的初始异常程度,为后续模态的特征表征能力的量化提供基础。
具体的,对于任意一个患者的检查影像数据,将检查影像数据中每行的像素点的灰度值按照从左到右的顺序排列,逐行从上到下首尾相连,得到一个向量,记为该患者在检查影像数据模态下的维度向量;该患者的检测指标数据由若干检测指标及对应的数据组成,则按照检测指标的默认排列顺序,将每个检测指标对应的数据进行排列,得到的向量记为该患者在检测指标数据模态下的维度向量;对于该患者的就诊数据及病历数据,均为文字形式,以就诊数据为例,通过Jieba分词及WordVec模型进行词向量转换,将就诊数据转换为若干词向量,将该患者的就诊数据的所有词向量按顺序首尾向量,得到的向量记为该患者在就诊数据模态下的维度向量,同理获取该患者在病历数据模态下的维度向量,其中Jieba分词及WordVec模型进行词向量转换均为现有技术,本实施例不再赘述;则得到了该患者每个模态的维度向量,按照上述方法获取每个患者每个模态的维度向量。
进一步的,对于任意一个模态,根据每个患者该模态的维度向量对患者进行DBSCAN聚类,距离度量采用每个患者该模态的维度向量之间的DTW距离(维度向量可以视为序列进行DTW距离计算),聚类得到的若干聚簇记为该模态的若干聚簇,所有聚簇统称为该模态的聚类结果;按照上述方法对每个模态获取聚类结果。
进一步的,对于任意两个模态,需要对两个模态的聚类结果进行比对分析,则将两个模态的聚类结果作为一个组合,记为一个聚类结果组合,同时由于聚类结果组合分析过程中,选择作为基准的模态不同,得到的结果不同,因此两个模态的聚类结果能够得到两个聚类结果组合,两个聚类结果组合的排列方式不同,将聚类结果组合中第一个模态作为基准模态,第二个模态作为参考模态,基准模态用于后续获取参考患者,参考模态用于对参考患者在聚类结果中的分布进行分析;则对任意两个模态获取聚类结果组合,本实施例共有四个模态,则可以得到个聚类结果组合;在初始异常程度的获取中,预设初始参考数量/>,本实施例初始参考数量采用/>进行叙述;对于第/>个患者,该患者的初始异常程度/>的计算方法为:
其中,表示聚类结果组合的数量,/>表示初始参考数量,/>表示第/>个聚类结果组合中第/>个患者在初始参考数量下的参考患者的数量,具体的获取方法为:在第/>个聚类结果组合中基准模态的聚类结果中,获取与第/>个患者在基准模态下的维度向量的DTW距离最小的/>个维度向量对应的患者(即DTW距离升序排列,获取前/>个DTW距离),记为第/>个聚类结果组合中第/>个患者的相似患者,将在参考模态的聚类结果中与第/>个患者属于同一个聚簇的相似患者,记为第/>个聚类结果组合中第/>个患者在初始参考数量下的参考患者,则统计参考患者的数量并记为/>;/>表示第/>个聚类结果组合中第/>个患者与初始参考数量下所有相似患者在参考模态的聚类结果中,维度向量的DTW距离的均值,即获取参考模态的聚类结果中第/>个患者与其每个相似患者的维度向量之间的DTW距离,对得到的所有DTW距离求均值;/>表示第/>个聚类结果组合中第/>个患者与初始参考数量下第/>个参考患者在参考模态的聚类结果中,维度向量的DTW距离;/>为避免指数函数数值过小的超参数,本实施例采用/>进行叙述;/>表示以自然常数为底的指数函数,本实施例采用/>模型来呈现反比例关系及归一化处理,实施者可根据实际情况设置反比例函数及归一化函数。
此时,在第个聚类结果组合中,首先获取第/>个患者在基准模态的聚类结果中,初始参考数量下的若干相似患者,再分析相似患者在参考模态的聚类结果中分布的聚簇得到参考患者,根据参考患者与第/>个患者在参考模态的维度向量的DTW距离进行异常程度量化,若DTW距离与DTW距离均值之间的比值越小,由于参考患者的DTW距离均较小,则说明DTW距离均值越大,则不是参考患者的相似患者与第/>个患者在参考模态的维度向量的DTW距离越大,则表明第/>个患者在第/>个聚类结果组合中,基准模态与参考模态的两个聚类结果中差异越大,则初始异常程度越大;同时通过参考患者与相似患者的数量占比参与调整,数量占比越大,参考患者越多,第/>个患者在第/>个聚类结果组合中,两个模态的聚类结果之间的差异越小,初始异常程度越小。
进一步的,按照上述方法获取每个患者的初始异常程度。
至此,通过对每个患者的模态数据进行向量转换得到维度向量,根据维度向量进行聚类得到聚类结果,根据同一患者在不同模态的聚类结果中的分布,量化得到每个患者的初始异常程度。
步骤S003、根据患者每个模态去除前后,通过聚类结果分析异常程度之间的差异,得到每个患者每个模态的去心特征程度;根据同一模态下不同患者在聚类结果中的分布,结合去心特征程度,得到每个患者每个模态的替换特征程度。
需要说明的是,获取到患者的初始异常程度后,则需要通过初始异常程度对各模态的特征表征能力进行量化,通过去心特征程度及替换特征程度两方面进行量化;其中去心特征程度即去除任意一个模态的聚类结果后重新计算异常程度,同时对参考数量进行调整,通过多个参考数量下异常程度的波动差异,以及初始参考数量下去除前后异常程度的差异,量化得到去心特征程度;而对于替换特征程度,则通过同模态下其他患者的维度向量进行替换,实际即是通过其他患者的异常程度变化,综合进行替换特征程度的量化。
具体的,在步骤S002中已经预设初始参考数量,为了量化异常程度的波动,本实施例预设第一参考数量/>、第二参考数量/>及第三参考数量/>,则随着参考数量的变化,对于第/>个患者,其在每个聚类结果组合中相似患者的数量及参考患者的数量均会发生变化,按照初始异常程度的计算方法,获取第/>个患者在第一参考数量下得到的异常程度,记为第/>个患者的第一异常程度,同理得到第二参考数量对应的第/>个患者的第二异常程度,以及第三参考数量对应的第/>个患者的第三异常程度;对于第/>个模态,从若干聚类结果组合中,去除包含第/>个模态的聚类结果组合,则剩余/>个聚类结果组合,即去除第/>个模态,根据剩余的模态的聚类结果构建聚类结果组合,按照初始异常程度的计算方法,根据剩余的聚类结果组合,获取第/>个患者在去除第/>个模态后在初始参考数量下得到的异常程度,记为第/>个患者第/>个模态的初始去心异常程度,同理根据第一参考数量、第二参考数量及第三参考数量,获取第/>个患者第/>个模态的第一去心异常程度、第二去心异常程度及第三去心异常程度;对第/>个患者的初始异常程度、第一异常程度、第二异常程度及第三异常程度计算方差,记为第/>个患者的异常波动程度;对第/>个患者第个模态的初始去心异常程度、第一去心异常程度、第二去心异常程度及第三去心异常程度计算方差,记为第/>个患者第/>个模态的异常去心波动程度,则第/>个患者第/>个模态的去心特征程度/>的计算方法为:
其中,表示第/>个患者的异常波动程度,/>表示第/>个患者第/>个模态的异常去心波动程度,/>表示第/>个患者的初始异常程度,/>表示第/>个患者第/>个模态的初始去心异常程度,/>表示求绝对值;异常波动程度与异常去心波动程度之间的差异越大,表明第/>个模态对于第/>个患者在不同参考数量的异常表现影响越大,相应的特征表征能力越大,去心特征程度越大;同时初始异常程度与初始去心异常程度的比值越接近1,去除前后异常程度变化越小,特征表征能力越小,去心特征程度越小;其中特征表征能力即为模态包含其他模态未拥有的信息的多少。
进一步的,仍以第个患者及第/>个模态为例,按照上述方法获取每个患者的第一异常程度、第二异常程度、第三异常程度及异常波动程度,以及每个患者第/>个模态的初始去心异常程度、第一去心异常程度、第二去心异常程度、第三去心异常程度、异常去心波动程度及去心特征程度;则对第/>个患者第/>个模态的维度向量进行替换,实际即是通过分析其他患者在第/>个模态的去心特征程度,来进行替换特征程度的量化,则第/>个患者第/>个模态的替换特征程度/>的计算方法为:
其中,表示除第/>个患者之外其他患者的数量,/>表示第/>个患者的初始异常程度,/>表示除第/>个患者之外其他第/>个患者的初始异常程度,/>表示所有患者的初始异常程度的最大值,/>表示除第/>个患者之外其他第/>个患者第/>个模态的去心特征程度;则通过其他患者的去心特征程度,结合初始异常程度,初始异常程度与第/>个患者的初始异常程度的差异越小,可参考性越大,最终得到替换特征程度,替换特征程度越大,相应模态包含独特信息越多,特征表征能力越强。
进一步的,按照上述方法获取每个患者每个模态的去心特征程度及替换特征程度。
至此,通过对模态进行去除,以及对患者在模态的维度向量进行替换,分别得到每个患者每个模态的去心特征程度及替换特征程度。
步骤S004、根据去心特征程度及替换特征程度,获取每个患者每个模态的信息特征程度;根据信息特征程度对每个患者的若干模态数据进行删除,得到每个患者的若干剩余模态数据;对剩余模态数据进行融合并对疾病进行分析。
获取到每个患者每个模态的去心特征程度及替换特征程度后,对于任意一个患者的任意一个模态,将该患者该模态的去心特征程度与替换特征程度的乘积,记为该患者该模态的信息特征系数,获取该患者每个模态的信息特征系数,对所有信息特征系数进行线性归一化,得到的结果记为该患者每个模态的信息特征程度;预设一个特征阈值,本实施例特征阈值采用0.48进行叙述,若该患者任意一个模态的信息特征程度小于特征阈值,对该患者该模态的模态数据进行删除,对该患者每个模态的信息特征程度与特征阈值进行判断,并将小于特征阈值的模态对应的模态数据进行删除,将未删除的模态数据记为该患者的若干剩余模态数据;按照上述方法获取每个患者每个模态的信息特征程度,并结合特征阈值对若干模态数据进行删除,得到每个患者的若干剩余模态数据。
进一步的,对于任意一个患者,根据该患者的若干剩余模态数据进行数据融合,得到模态数据融合结果,根据数据融合结果对该患者生成分析结果,其中模态数据融合及对数据融合结果生成分析结果均为现有技术,非本发明重点,本实施例不再赘述;则根据该疾病下所有患者的分析结果,进行该疾病的分析,疾病分析非本发明重点,本实施例不再赘述。
至此,通过对患者的若干模态数据根据其包含信息的特征程度进行删除,得到剩余模态数据,再进行数据融合及分析,从而完成疾病的多模态数据的智能分析。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。