CN113779275B

CN113779275B - 基于医疗数据的特征提取方法、装置、设备及存储介质

Info

Publication number: CN113779275B
Application number: CN202111095906.2A
Authority: CN
Inventors: 董萍
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2024-02-09
Anticipated expiration: 2041-09-18
Also published as: CN113779275A

Abstract

本发明涉及人工智能及数字医疗领域，公开了一种基于医疗数据的特征提取方法、装置、设备及存储介质，该方法可应用于智能诊疗系统，包括：对智能诊疗系统产生的医疗数据进行解析，得到特征变量；提取特征变量的变量值，并根据变量值对特征变量进行分箱，计算各分箱中特征变量的信息价值，通过信息价值对特征变量进行筛选，得到医疗数据的特征。本发明实现了对医疗数据的特征提取的自动化，提高了特征提取的效率，节省了时间成本。此外，本发明还涉及区块链领域，意图触发话术文本和基础话术意图集可存储于区块链中。

Description

基于医疗数据的特征提取方法、装置、设备及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及一种基于医疗数据的特征提取方法、装置、设备及存储介质。

背景技术

随着大数据的发展，数据业务的发展越来越成熟。许多业务处理依赖于对数据进行分析和识别。因此，人工智能模型的建模稳定性以及对数据的识别准确性是确保对各类业务进行正常业务处理的关键。而在人工智能模型的建模阶段，特征数据对人工智能模型的稳定性和拟合程度影响较大。而随着数字化技术在医疗领域的应用，医疗数据量越来越大，蕴含着许多有价值的信息资源，并且医疗数据的特征提取具有广泛的应用领域，包括：医疗活动辅助诊断、医疗质量管理、医学信息处理、医药研发、生物医学、医学图像等。

目前，对于数据的特征提取的方法是对海量数据按照维度进行不断筛选，即通过特征选择的算法过滤掉数据的无用的特征，但是这些方法会抛弃掉对数据有用的部分特征，或者数据特征维度高，因而获得的数据特征性能差，导致特征提取效率低。

发明内容

本发明的主要目的在于解决现有技术中医疗数据的特征提取效率低的技术问题。

本发明第一方面提供了一种基于医疗数据的特征提取方法，所述基于医疗数据的特征提取方法包括：获取智能诊疗系统产生的医疗数据，并对所述医疗数据进行解析，得到多个特征变量；提取所述特征变量中的变量值，并根据所述变量值对所述特征变量进行分箱处理，得到多个分箱；对各所述分箱中的变量值进行相关性分析，根据相关性分析的结果对所述变量值进行分类，并计算各所述分箱的特征权重；根据所述特征权重和预设的信息价值计算公式，计算各所述特征变量信息价值；根据所述信息价值对各所述特征变量进行筛选，得到所述医学数据的特征。

可选的，在本发明的第一方面的第一种实现方式中，所述对提取所述特征变量中的变量值，并根据所述变量值对所述特征变量进行分箱处理，得到多个分箱包括：提取所述特征变量中各变量值，并判断所述变量值是否为缺失值；若所述变量值为缺失值，则将所述变量中的所有缺失值设定为第一组分箱，并对所述第一组分箱设置第一分箱编码；剔除所述变量中的所述缺失值，得到剩余值，判断所述剩余值是否为同一固定值；若所述剩余值为同一固定值，则将所述第剩余特征值设定为第二组分箱，并对所述第二组分箱设置第二分箱编码。

可选的，在本发明的第一方面的第二种实现方式中，若判断所述剩余值不为同一固定值时，所述对各所述变量进行分箱处理，得到多个分箱还包括：对所述剩余值设置分位点；根据所述分位点对所述剩余值进行分箱处理，得到第三组分箱；对所述第三组分箱设置第三分箱编码。

可选的，在本发明的第一方面的第三种实现方式中，所述对各所述分箱中的变量值进行相关性分析，根据相关性分析的结果对所述变量值进行分类，并计算各所述分箱的特征权重包括：对各所述分箱中的变量值进行相关性分析，计算各所述分箱中各变量与预设的正向维度之间的相关度，得到正向相关值，并将所述正向相关值与预设的正向相关阈值进行比较，得到第一比较结果；计算各所述分箱中各变量值与预设的反向维度之间的相关度，得到反向相关值，并将所述反向相关值与预设的反向相关阈值进行比较，得到第二比较结果；根据所述第一比较结果和所述第二比较结果，将各所述分箱中各变量划分为正向变量和反向变量；根据所述正向变量和所述反向变量分别计算各所述分箱的特征权重。

可选的，在本发明第一方面的第四种实现方式中，所述根据所述特征权重和预设的信息价值计算公式，计算各所述特征变量信息价值包括：根据所述特征权重和预设的信息价值计算公式，计算各所述分箱的信息价值；对所述变量对应的各所述分箱的信息价值进行加权和运算，得到各所述特征变量的信息价值。

可选的，在本发明第一方面的第五种实现方式中，所述根据所述信息价值对各所述特征变量进行筛选，得到所述医学数据的特征包括：将各所述特征变量的信息价值与预设的信息价值阈值进行比较，判断各所述变量值的信息价值是否小于预设的信息价值阈值；若是，则剔除所述特征变量；将经过剔除处理后的各所述变量作为所述医疗数据的特征。

可选的，在本发明第一方面的第六种实现方式中，在所述将经过剔除处理后的各所述特征变量作为所述医疗数据的特征之前，还包括：对经过剔除处理后的各所述特征变量进行群体稳定性指标计算，得到各所述特征变量对应的群体稳定性指标值；判断各所述特征变量的群体稳定性指标值是否大于预设的群体稳定性指标阈值；若是，则剔除所述特征变量。

本发明第二方面提出一种基于医疗数据的特征提取装置，所述基于医疗数据的特征提取装置包括：获取模块，用于获取智能诊疗系统产生的医疗数据，并对所述医疗数据进行解析，得到多个特征变量；分箱模块，用于提取所述特征变量中的变量值，并根据所述变量值对所述特征变量进行分箱处理，得到多个分箱；分类模块，用于对各所述分箱中的变量值进行相关性分析，根据相关性分析的结果对所述变量值进行分类，并计算各所述分箱的特征权重；计算模块，用于根据所述特征权重和预设的信息价值计算公式，计算各所述特征变量信息价值；筛选模块，用于根据所述信息价值对各所述特征变量进行筛选，得到所述医学数据的特征。

可选的，在本发明第二方面的第一种实现方式中，所述分箱模块包括：提取单元，用于提取所述特征变量中各变量值，并判断所述变量值是否为缺失值；第一设定单元，用于若所述变量值为缺失值，则将所述变量中的所有缺失值设定为第一组分箱，并对所述第一组分箱设置第一分箱编码；第一剔除单元，用于剔除所述变量中的所述缺失值，得到剩余值，判断所述剩余值是否为同一固定值；第二设定单元，用于若所述剩余值为同一固定值，则将所述第剩余特征值设定为第二组分箱，并对所述第二组分箱设置第二分箱编码。

可选的，在本发明第二方面的第二种实现方式中，若判断所述剩余值不为同一固定值时，所述第二设定单元具体用于：对所述剩余值设置分位点；根据所述分位点对所述剩余值进行分箱处理，得到第三组分箱；对所述第三组分箱设置第三分箱编码。

可选的，在本发明第二方面的第三种实现方式中，所述分类模块包括：第一比较单元，用于对各所述分箱中的变量值进行相关性分析，计算各所述分箱中各变量与预设的正向维度之间的相关度，得到正向相关值，并将所述正向相关值与预设的正向相关阈值进行比较，得到第一比较结果；第二比较单元，用于计算各所述分箱中各变量值与预设的反向维度之间的相关度，得到反向相关值，并将所述反向相关值与预设的反向相关阈值进行比较，得到第二比较结果；划分单元，用于根据所述第一比较结果和所述第二比较结果，将各所述分箱中各变量划分为正向变量和反向变量；第一计算单元，用于根据所述正向变量和所述反向变量分别计算各所述分箱的特征权重。

可选的，在本发明第二方面的第四种实现方式中，所述计算模块包括：第二计算单元，用于根据所述特征权重和预设的信息价值计算公式，计算各所述分箱的信息价值；第三计算单元，用于对所述变量对应的各所述分箱的信息价值进行加权和运算，得到各所述特征变量的信息价值。

可选的，在本发明第二方面的第五种实现方式中，所述筛选模块包括：判断单元，用于将各所述特征变量的信息价值与预设的信息价值阈值进行比较，判断各所述变量值的信息价值是否小于预设的信息价值阈值；第二剔除单元，用于若各所述变量值的信息价值小于预设的信息价值阈值，则剔除所述特征变量；第一筛选单元，用于将经过剔除处理后的各所述变量作为所述医疗数据的特征。

可选的，在本发明第二方面的第六种实现方式中，所述筛选模块还包括第二筛选单元，所述第二筛选单元具体用于：对经过剔除处理后的各所述特征变量进行群体稳定性指标计算，得到各所述特征变量对应的群体稳定性指标值；判断各所述特征变量的群体稳定性指标值是否大于预设的群体稳定性指标阈值；若各所述特征变量的群体稳定性指标值大于预设的群体稳定性指标阈值，则剔除所述特征变量。

本发明第三方面提供了一种基于医疗数据的特征提取设备，所述基于医疗数据的特征提取设备包括：存储器和至少一个处理器，所述存储器中存储有计算机程序，所述存储器和所述至少一个处理器通过线路互连；所述至少一个处理器调用所述存储器中的所述计算机程序，以使得所述基于医疗数据的特征提取设备执行上述的基于医疗数据的特征提取方法的步骤。

本发明第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机执行上述的基于医疗数据的特征提取方法的步骤。

在本发明提供的技术方案中，通过获取智能诊疗系统产生的医疗数据，并对医疗数据进行解析，得到多个特征变量；提取特征变量中的变量值，并根据变量值对特征变量进行分箱处理，得到多个分箱；对各分箱中的变量值进行分类，并计算各分箱的特征权重以及各特征变量的信息价值；根据信息价值对各特征变量进行筛选，得到医学数据的特征。本发明实现了对医疗数据的特征提取，提高了数据特征提取的效率，有助于高效且准确地辅助后续的医疗数据模型及知识图谱的构建和分析等数据处理工作。

附图说明

图1为本发明实施例中基于医疗数据的特征提取方法的第一个实施例示意图；

图2为本发明实施例中基于医疗数据的特征提取方法的第二个实施例示意图；

图3为本发明实施例中基于医疗数据的特征提取方法的第三个实施例示意图；

图4为本发明实施例中基于医疗数据的特征提取方法的第四个实施例示意图；

图5为本发明实施例中基于医疗数据的特征提取装置的一个实施例示意图；

图6为本发明实施例中基于医疗数据的特征提取装置的另一个实施例示意图；

图7为本发明实施例中基于医疗数据的特征提取设备的一个实施例示意图。

具体实施方式

本发明实施例提供了一种基于医疗数据的特征提取方法、装置、设备及存储介质，通过获取智能诊疗系统产生的医疗数据，并对医疗数据进行解析，得到多个特征变量；提取特征变量中的变量值，并根据变量值对特征变量进行分箱处理，得到多个分箱；对各分箱中的变量值进行分类，并计算各分箱的特征权重以及各特征变量的信息价值；根据信息价值对各特征变量进行筛选，得到医学数据的特征。本发明实施例实现了对医疗数据的特征提取，提高了数据特征提取的效率，有助于高效且准确地辅助后续的医疗数据模型及知识图谱的构建和分析等数据处理工作。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”或“具有”及其任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为便于理解，下面对本发明实施例的具体内容进行描述，请参阅图1，本发明实施例中基于医疗数据的特征提取方法的第一个实施例包括：

101，获取智能诊疗系统产生的医疗数据，并对医疗数据进行解析，得到多个特征变量；

服务器获取智能诊疗系统产生的医疗数据，并对医疗数据按照预设的数据解析方式进行解析，得到多个特征变量。其中，医疗数据的解析过程为对获取到的医疗数据进行数据类型分析，确定各医疗数据对应的数据类型，调取预设的各数据类型对应的数据解析方式对各医疗数据进行解析，得到特征变量。

在本实施例中，特征，也称为变量、自变量、变量特征或特征变量，用户的特征可以是与用户相关的特征，特征的取值可以是该用户的特征对应的实际内容或数据。其中，特征变量包括医院等级、机构类别、机构性质、次均门诊费用、门诊检查化验费占比、门诊手术治疗费占比、门诊医保费用占比、重复用药次数。一个特征变量包括多个变量值。

另外，本发明实施例可以基于人工智能技术对医疗数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

102，提取特征变量中的变量值，并根据变量值对特征变量进行分箱处理，得到多个分箱；

服务器提取特征变量中对应的变量值，根据该变量值对特征变量进行分箱处理，得到多个分箱。在本实施例中，分箱作为一种特征预处理技术，是一种将连续变量离散化，将多状态的离散变量合并成少状态的特征处理方法。服务器对变量值的类型进行分析，确定该变量值是否为缺失值，根据分析的结果对特征变量进行分箱处理，其中，一个特征变量对应多个分箱。

103，对各分箱中的变量值进行相关性分析，根据相关性分析的结果对变量值进行分类，并计算各分箱的特征权重；

对各分箱中的变量值进行相关性分析，即计算各变量值与预设的变量维度之间的相关性，确定各变量值对应的变量维度，然后根据该相关性分析的结果对变量值进行分类，并根据分类的结果计算各分箱的特征权重。

在本实施例中，特征权重WOE(weight of evidence)，也称为变量权重，是对特征变量的一种编码形式，是把特征变量的变量值的取值转换为对违约率大小的一种计量。例如，对于同一个特征变量，比如年龄，如果年龄段[27,30]对应的WOE值是0.3，而年龄段[31,35]对应的WOE值是0.1，则意味着[27,30]年龄段的用户对应的违约概率比[31,35]年龄段的用户更高。

104，根据特征权重和预设的信息价值计算公式，计算各特征变量的信息价值；

105，根据信息价值对各特征变量进行筛选，得到医学数据的特征。

服务器根据特征权重和预设的信息价值计算公式，对各特征变量进行信息价值的计算，即服务器调取预设的信息价值计算公式，将同一个特征变量对应的各分箱的特征权重输入至信息价值计算公式中进行计算，输出该特征变量的对应的信息价值，由此，可以得到所有特征变量对应的信息价值。

在本实施例中，信息价值（Information Value，IV），可以衡量对应的特征变量的变量预测能力。信息价值的数值越大，则表征该特征变量具备良好的预测能力。服务器根据信息价值对各特征变量进行筛选，即比较该信息价值与预设的信息价值阈值之间的大小关系，当信息价值小于信息价值阈值时，说明对应的特征变量不具备良好的预测能力，则剔除该特征变量，对所有的特征变量经过剔除处理的筛选之后，将剩余的特征变量作为医学数据的特征。当筛选得到该智能诊疗系统产生的医学数据的特征之后，可以根据该特征进行相应的模型训练，提高模型训练的效率和数据处理的效率，节省时间成本。

在本发明实施例中，对医疗数据进行解析，提取特征变量，并对特征变量进行分箱，并计算该特征变量的信息价值，通过信息价值对特征变量进行筛选，得到医疗数据的特征。本发明实施例实现了对医疗数据的特征提取的自动化，提高了特征提取的效率，节省了时间成本。

请参阅图2，本发明实施例中基于医疗数据的特征提取方法的第二个实施例包括：

201，获取智能诊疗系统产生的医疗数据，并对医疗数据进行解析，得到多个特征变量；

202，提取特征变量中各变量值，并判断变量值是否为缺失值；

203，若变量值为缺失值，则将特征变量中的所有缺失值设定为第一组分箱，并对第一组分箱设置第一分箱编码；

提取特征变量中对应的各个变量值，对各变量值进行分析，判断该变量值是否为缺失值。若变量值为缺失值，则将该特征变量对应的所有缺失值设定为第一组分箱，并对该第一组分箱设置第一分箱编码，例如，第一分箱编码可以为0。

在本实施例中，缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值从缺失的分布来讲可以分为完全随机缺失，随机缺失和完全非随机缺失。完全随机缺失（missingcompletely at random，MCAR），指的是数据的缺失是随机的，数据的缺失不依赖于任何不完全变量或完全变量。随机缺失(missing at random，MAR)，指的是数据的缺失不是完全随机的，即该类数据的缺失依赖于其他完全变量。完全非随机缺失(missing not at random，MNAR)，指的是数据的缺失依赖于不完全变量自身。缺失值从缺失值的所属属性来讲可以分为单值缺失，任意缺失和单调缺失。单值缺失，如果所有的缺失值都是同一属性，那么这种缺失成为单值缺失。任意缺失，如果缺失值属于不同的属性，称为任意缺失。单调缺失，对于时间序列类的数据，可能存在随着时间的缺失，这种缺失称为单调缺失。

204，剔除特征变量中的缺失值，得到剩余值，判断剩余值是否为同一固定值；

205，若剩余值为同一固定值，则将剩余值设定为第二组分箱，并对第二组分箱设置第二分箱编码；

剔除特征变量中对应的所有缺失值，得到该特征变量对应的剩余值，即剩余值为该特征变量对应的所有变量值中剔除缺失值之后剩余的变量值，判断该剩余值是否为同一固定值，若剩余值为同一固定值，则将剩余值设定为第二组分箱，并对第二组分箱设置第二分箱编码，例如，第二分箱编码可以为1。其中，固定值为数值固定为某一值的变量值。

另外，在剔除变量值中的所有缺失值之后，如果剩余值为非固定值，为剩余值设置分位点，根据该分位点对剩余值进行分箱处理，得到第三组分箱，并对第三组分箱设置第三分箱编码。在本实施例中，分数点，亦称为分位数，是指将一个随机变量的概率分布范围分为几个等份的数值点，常用的有中位数（即二分位数）、四分位数、百分位数等。分位点Q可以为：q1，q2，q3，q4，……，qn。其中，q1接近极小值对应的分位点，qn接近极大值对应的分位点，q1到qn可以呈等差数列。其中，极小值和极大值为剩余值中各数值的极小值和极大值。对剩余值设置分位点，并根据分位点对剩余值分箱，例如，取q1=0.02为极小分位点，V1为极小分位点对应的变量值，将取值位于区间(-∞,V1]的变量值设为一组；取q2=0.14，q3=0.26，q4=0.38，q5=0.50，q6=0.62，q7=0.74，q8=0.86，并对变量值进行相应分箱；取q9=0.98为极大分位点，V9为极大分位点对应的变量值，将取值位于区间(V9，+∞)的变量值设为一组。

206，对各分箱中的变量值进行相关性分析，根据相关性分析的结果对变量值进行分类，并计算各分箱的特征权重；

207，根据特征权重和预设的信息价值计算公式，计算各特征变量的信息价值；

208，根据信息价值对各特征变量进行筛选，得到医学数据的特征。

在本发明实施例中，步骤206-208与上述的基于医疗数据的特征提取方法的第一个实施例中的步骤103-105一致，在此不做赘述。

在本发明实施例中，提取特征变量中各变量值，并判断各变量值是否为缺失值，从而对各特征变量进行分箱处理，对经过分箱处理后的特征变量进行信息价值的计算以及筛选处理得到医疗数据的特征，本发明实施例提高了所提取出的医疗数据的特征的可靠性。

请参阅图3，本发明实施例中基于医疗数据的特征提取方法的第三个实施例包括：

301，获取智能诊疗系统产生的医疗数据，并对医疗数据进行解析，得到多个特征变量；

302，提取特征变量中的变量值，并根据变量值对特征变量进行分箱处理，得到多个分箱；

303，对各分箱中的变量值进行相关性分析，计算各分箱中各变量值与预设的正向维度之间的相关度，得到正向相关值，并将正向相关值与预设的正向相关阈值进行比较，得到第一比较结果；

服务器对同一个特征变量对应的各分箱中的变量值进行相关性分析，计算一个分箱内的各变量值与预设的正向维度之间的相关度，得到该变量值的正向相关值，即判断该变量值是否属于正向维度。将正向相关值与预设的正向相关阈值进行比较，得到第一比较结果。其中，正向相关阈值根据实际情况进行设定，在此不做限定。

304，计算各分箱中各变量值与预设的反向维度之间的相关度，得到反向相关值，并将反向相关值与预设的反向相关阈值进行比较，得到第二比较结果；

计算特征变量对应的各分箱内各变量值与预设的反向维度之间的相关度，得到该变量值对应的反向相关值，即判断该变量值是否属于反向维度。将反向相关值与预设的反向相关阈值进行比较，得到第二比较结果。在本实施例中，变量值可被划分为正向维度或反向维度，隶属于正向维度的变量值为正向变量，隶属于反向维度的为反向变量。其中，正向维度可以设置为医院等级、机构类别、次均门诊费用、门诊手术治疗费占比、门诊医保费用占比，反向维度可以设置为重复用药次数。

305，根据第一比较结果和第二比较结果，将各分箱中各变量值划分为正向变量和反向变量；

306，根据正向变量和反向变量分别计算各分箱的特征权重；

根据第一比较结果和第二比较结果，将每个分箱中对应的变量值划分为正向变量和反向变量，即当变量值对应的正向相关值不小于正向相关阈值时，该变量值为正向变量；当变量值的反向相关值不小于反向相关阈值时，该变量值为反向变量，根据正向变量和反向变量分别计算各分箱的特征权重。

在本实施例中，特征权重(Weight of Evidence，WOE)，特征权重可以表征分箱中正向变量和反向变量的分布情况。

其中，i>0，WOEi可以表示第i个分箱的WOE值，Badi表示第i个分箱中的反向变量数，BadT表示一个特征变量对应的所有分箱中总的反向变量数，Goodi表示第i个分箱中的正向变量数，GoodT表示一个特征变量对应的所有分箱中总的正向变量数。

307，根据特征权重和预设的信息价值计算公式，计算各分箱的信息价值；

308，对特征变量对应的各分箱的信息价值进行加权和运算，得到各特征变量的信息价值；

服务器根据特征权重和预设的信息价值计算公式，计算各分箱的信息价值，提取同一个特征变量对应的各分箱的信息价值，对该特征变量对应的各分箱的信息价值进行加权和运算，得到该特征变量的信息价值。对所有的特征变量对应的各分箱的信息价值分别进行加权和运算，即可得到各特征变量的信息价值。

在本实施例中，信息价值（Information Value，IV），可以衡量对应的特征变量的变量预测能力。

其中，i>0，IVi可以表示第i个分箱的IV值，当IV>＝0.5，表示预测能力极强；0.3<IV<0.5，表示预测能力强；0.1<IV<0.3，表示预测能力中等；0.02<IV<0.1，表示预测能力弱；IV<＝0.02，表示没有预测能力。则具体实施时，预设的门限值可选择0.5、0.3或者0.1。

309，根据信息价值对各特征变量进行筛选，得到医学数据的特征。

在本发明实施例中，步骤301-302与上述的基于医疗数据的特征提取方法的第一个实施例中的步骤101-102一致，在此不做赘述。

在本发明实施例中，对各分箱的变量值计算正向维度与反向维度的相关度，从而将变量值划分为正向变量和反向变量，并根据正向变量和反向变量计算各分箱的特征权重以及信息价值，提高了信息价值计算结果的准确度，从而提高了后续筛选出的医疗数据的特征的可靠性。

请参阅图4，本发明实施例中基于医疗数据的特征提取方法的第四个实施例包括：

401，获取智能诊疗系统产生的医疗数据，并对医疗数据进行解析，得到多个特征变量；

402，提取特征变量中的变量值，并根据变量值对特征变量进行分箱处理，得到多个分箱；

403，对各分箱中的变量值进行相关性分析，根据相关性分析的结果对变量值进行分类，并计算各分箱的特征权重；

404，根据特征权重和预设的信息价值计算公式，计算各特征变量信息价值；

405，将各特征变量的信息价值与预设的信息价值阈值进行比较，判断各特征变量的信息价值是否小于预设的信息价值阈值；

406，若各特征变量的信息价值小于预设的信息价值阈值，则剔除特征变量；

407，对经过剔除处理后的各特征变量进行群体稳定性分析，得到各特征变量对应的群体稳定性指标值；

408，判断各特征变量的群体稳定性指标值是否大于预设的群体稳定性指标阈值；

409，若各特征变量的群体稳定性指标值是否大于预设的群体稳定性指标阈值，则剔除特征变量；

服务器将各特征变量的信息价值与预设的信息价值阈值进行比较，判断各特征变量对应的信息价值是否小于预设的信息价值阈值，若特征变量对应的信息价值小于信息价值阈值，则将对应的特征变量进行剔除处理。在本实施例中，一个特征变量的信息价值越大，则该特征变量的变量预测能力越强。其中，预设的信息价值阈值的数值大小可根据实际情况进行设置，在此不做限定。

服务器对已经过剔除处理的各特征变量进行群体稳定性分析，即计算各特征变量的群体稳定性指标值，得到各特征变量对应的群体稳定性指标值。判断各特征变量的群体稳定性指标值是否大于预设的群体稳定性指标阈值，若是，则剔除该特征变量。在本实施例中，群体稳定性指标(Population Stability Index，PSI)，通常用于检验数据分布的稳定性。PSI数值越小，标识数据分布之间的差异就越小，代表该特征变量越稳定。另外，计算数据的群体稳定性指标值为现有技术，在此不做赘述。

410，将经过剔除处理后的各特征变量作为医疗数据的特征。

服务器将经过信息价值比较和群体稳定性指标值比较以及相应进行两次剔除处理之后剩余的特征变量作为该医疗数据的特征。

在本发明实施例中，步骤401-404与上述的基于医疗数据的特征提取方法的第一个实施例中的步骤101-104一致，在此不做赘述。

在本发明实施例中，对各特征变量进行信息价值的比较以及群体稳定性指标值的比较，从而对各特征变量进行多次筛选得到医疗数据的特征，提高了医疗数据的特征提取的可靠性。

上面对本发明实施例中的基于医疗数据的特征提取方法进行了描述，下面对本发明实施例中的基于医疗数据的特征提取装置进行描述，请参照图5，本发明实施例中的基于医疗数据的特征提取装置的一个实施例包括：

获取模块501，用于获取智能诊疗系统产生的医疗数据，并对所述医疗数据进行解析，得到多个特征变量；

分箱模块502，用于提取所述特征变量中的变量值，并根据所述变量值对所述特征变量进行分箱处理，得到多个分箱；

分类模块503，用于对各所述分箱中的变量值进行相关性分析，根据相关性分析的结果对所述变量值进行分类，并计算各所述分箱的特征权重；

计算模块504，用于根据所述特征权重和预设的信息价值计算公式，计算各所述特征变量信息价值；

筛选模块505，用于根据所述信息价值对各所述特征变量进行筛选，得到所述医学数据的特征。

在本发明实施例中，通过基于医疗数据的特征提取装置对医疗数据进行解析，提取特征变量，并对特征变量进行分箱，并计算该特征变量的信息价值，通过信息价值对特征变量进行筛选，得到医疗数据的特征。本发明实施例实现了对医疗数据的特征提取的自动化，提高了特征提取的效率，节省了时间成本。

请参阅图6，本发明实施例中的基于医疗数据的特征提取装置的另一个实施例包括：

其中，所述分箱模块502包括：

提取单元5021，用于提取所述特征变量中各变量值，并判断所述变量值是否为缺失值；

第一设定单元5022，用于若所述变量值为缺失值，则将所述变量中的所有缺失值设定为第一组分箱，并对所述第一组分箱设置第一分箱编码；

第一剔除单元5023，用于剔除所述变量中的所述缺失值，得到剩余值，判断所述剩余值是否为同一固定值；

第二设定单元5024，用于若所述剩余值为同一固定值，则将所述第剩余特征值设定为第二组分箱，并对所述第二组分箱设置第二分箱编码。

其中，若判断所述剩余值不为同一固定值时，所述第二设定单元5024具体用于：

对所述剩余值设置分位点；

根据所述分位点对所述剩余值进行分箱处理，得到第三组分箱；

对所述第三组分箱设置第三分箱编码。

其中，所述分类模块503包括：

第一比较单元5031，用于对各所述分箱中的变量值进行相关性分析，计算各所述分箱中各变量与预设的正向维度之间的相关度，得到正向相关值，并将所述正向相关值与预设的正向相关阈值进行比较，得到第一比较结果；

第二比较单元5032，用于计算各所述分箱中各变量值与预设的反向维度之间的相关度，得到反向相关值，并将所述反向相关值与预设的反向相关阈值进行比较，得到第二比较结果；

划分单元5033，用于根据所述第一比较结果和所述第二比较结果，将各所述分箱中各变量划分为正向变量和反向变量；

第一计算单元5034，用于根据所述正向变量和所述反向变量分别计算各所述分箱的特征权重。

其中，所述计算模块504包括：

第二计算单元5041，用于根据所述特征权重和预设的信息价值计算公式，计算各所述分箱的信息价值；

第三计算单元5042，用于对所述变量对应的各所述分箱的信息价值进行加权和运算，得到各所述特征变量的信息价值。

其中，所述筛选模块505包括：

判断单元5051，用于将各所述特征变量的信息价值与预设的信息价值阈值进行比较，判断各所述变量值的信息价值是否小于预设的信息价值阈值；

第二剔除单元5052，用于若各所述变量值的信息价值小于预设的信息价值阈值，则剔除所述特征变量；

第一筛选单元5053，用于将经过剔除处理后的各所述变量作为所述医疗数据的特征。

其中，所述筛选模块505还包括第二筛选单元5054，所述第二筛选单元5054具体用于：

对经过剔除处理后的各所述特征变量进行群体稳定性指标计算，得到各所述特征变量对应的群体稳定性指标值；

判断各所述特征变量的群体稳定性指标值是否大于预设的群体稳定性指标阈值；

若各所述特征变量的群体稳定性指标值大于预设的群体稳定性指标阈值，则剔除所述特征变量。

在本发明实施例中，通过基于医疗数据的特征提取装置对各特征变量进行信息价值的比较以及群体稳定性指标值的比较，从而对各特征变量进行多次筛选得到医疗数据的特征，提高了医疗数据的特征提取的可靠性。

请参阅图7，下面从硬件处理的角度对本发明实施例中的基于医疗数据的特征提取设备的一个实施例进行详细描述。

图7是本发明实施例提供的一种基于医疗数据的特征提取设备的结构示意图，该基于医疗数据的特征提取设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（central processing units，CPU）710（例如，一个或一个以上处理器）和存储器720，一个或一个以上存储应用程序733或数据732的存储介质730（例如一个或一个以上海量存储设备）。其中，存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块（图示没标出），每个模块可以包括对基于医疗数据的特征提取设备700中的一系列指令操作。更进一步地，处理器710可以设置为与存储介质730通信，在基于医疗数据的特征提取设备700上执行存储介质730中的一系列指令操作。

基于医疗数据的特征提取设备700还可以包括一个或一个以上电源740，一个或一个以上有线或无线网络接口750，一个或一个以上输入输出接口760，和或或，一个或一个以上操作系统731，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图7示出的基于医疗数据的特征提取设备结构并不构成对基于医疗数据的特征提取设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明所指服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本发明还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质，所述计算机可读存储介质中存储有指令，当所述指令在计算机上运行时，使得计算机执行所述基于医疗数据的特征提取方法的步骤。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（read-only memory，ROM）、随机存取存储器（random access memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于医疗数据的特征提取方法，其特征在于，所述基于医疗数据的特征提取方法包括：

获取智能诊疗系统产生的医疗数据，并对所述医疗数据进行解析，得到多个特征变量；

提取所述特征变量中的变量值，并根据所述变量值对所述特征变量进行分箱处理，得到多个分箱；

对各所述分箱中的变量值进行相关性分析，根据相关性分析的结果对所述变量值进行分类，并计算各所述分箱的特征权重；

所述对各所述分箱中的变量值进行相关性分析，根据相关性分析的结果对所述变量值进行分类，并计算各所述分箱的特征权重包括：

对各所述分箱中的变量值进行相关性分析，计算各所述分箱中各变量值与预设的正向维度之间的相关度，得到正向相关值，并将所述正向相关值与预设的正向相关阈值进行比较，得到第一比较结果；

计算各所述分箱中各变量值与预设的反向维度之间的相关度，得到反向相关值，并将所述反向相关值与预设的反向相关阈值进行比较，得到第二比较结果；

根据所述第一比较结果和所述第二比较结果，将各所述分箱中各变量值划分为正向变量和反向变量；

根据所述正向变量和所述反向变量分别计算各所述分箱的特征权重；

根据所述特征权重和预设的信息价值计算公式，计算各所述特征变量信息价值；

根据所述信息价值对各所述特征变量进行筛选，得到所述医疗数据的特征。

2.根据权利要求1所述的基于医疗数据的特征提取方法，其特征在于，所述提取所述特征变量中的变量值，并根据所述变量值对所述特征变量进行分箱处理，得到多个分箱包括：

提取所述特征变量中各变量值，并判断所述变量值是否为缺失值；

若所述变量值为缺失值，则将所述特征变量中的所有缺失值设定为第一组分箱，并对所述第一组分箱设置第一分箱编码；

剔除所述特征变量中的所述缺失值，得到剩余值，判断所述剩余值是否为同一固定值；

若所述剩余值为同一固定值，则将所述剩余值设定为第二组分箱，并对所述第二组分箱设置第二分箱编码。

3.根据权利要求2所述的基于医疗数据的特征提取方法，其特征在于，若判断所述剩余值不为同一固定值时，所述对所述特征变量进行分箱处理，得到多个分箱还包括：

对所述剩余值设置分位点；

对所述第三组分箱设置第三分箱编码。

4.根据权利要求1所述的基于医疗数据的特征提取方法，其特征在于，所述根据所述特征权重和预设的信息价值计算公式，计算各所述特征变量信息价值包括：

根据所述特征权重和预设的信息价值计算公式，计算各所述分箱的信息价值；

对所述特征变量对应的各所述分箱的信息价值进行加权和运算，得到各所述特征变量的信息价值。

5.根据权利要求4所述的基于医疗数据的特征提取方法，其特征在于，所述根据所述信息价值对各所述特征变量进行筛选，得到所述医疗数据的特征包括：

将各所述特征变量的信息价值与预设的信息价值阈值进行比较，判断各所述变量值的信息价值是否小于预设的信息价值阈值；

若是，则剔除所述特征变量；

将经过剔除处理后的各所述特征变量作为所述医疗数据的特征。

6.根据权利要求5所述的基于医疗数据的特征提取方法，其特征在于，在所述将经过剔除处理后的各所述特征变量作为所述医疗数据的特征之前，还包括：

若是，则剔除所述特征变量。

7.一种基于医疗数据的特征提取装置，其特征在于，所述基于医疗数据的特征提取装置包括：

获取模块，用于获取智能诊疗系统产生的医疗数据，并对所述医疗数据进行解析，得到多个特征变量；

分箱模块，用于提取所述特征变量中的变量值，并根据所述变量值对所述特征变量进行分箱处理，得到多个分箱；

分类模块，用于对各所述分箱中的变量值进行相关性分析，根据相关性分析的结果对所述变量值进行分类，并计算各所述分箱的特征权重；

计算模块，用于根据所述特征权重和预设的信息价值计算公式，计算各所述特征变量信息价值；

筛选模块，用于根据所述信息价值对各所述特征变量进行筛选，得到所述医疗数据的特征。

8.一种基于医疗数据的特征提取设备，其特征在于，所述基于医疗数据的特征提取设备包括：

存储器和至少一个处理器，所述存储器中存储有指令，所述存储器和所述至少一个处理器通过线路互连；

所述至少一个处理器调用所述存储器中的所述指令，以使得所述基于医疗数据的特征提取设备执行如权利要求1-6中任一项所述的基于医疗数据的特征提取方法的步骤。

9.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现如权利要求1-6中任一项所述的基于医疗数据的特征提取方法的步骤。