CN116910172B

CN116910172B - 基于人工智能的随访量表生成方法及系统

Info

Publication number: CN116910172B
Application number: CN202310873674.1A
Authority: CN
Inventors: 帅乐耀; 徐嘉隆; 施华纯
Original assignee: Hangzhou Zhuoshen Technology Co ltd
Current assignee: Hangzhou Zhuoshen Technology Co ltd
Priority date: 2023-07-17
Filing date: 2023-07-17
Publication date: 2024-02-06
Anticipated expiration: 2043-07-17
Also published as: CN116910172A

Abstract

本申请涉及医疗技术领域，解决了现有技术中知识更新困难、定制化程度低的问题，公开了一种基于人工智能的随访量表生成方法及系统，包括：构建实时或定时更新的医学知识库和规则库，并采用清理、选择、聚类和关联等数据处理手段对院内的患者数据进行处理以找出影响随访效果的关键因素和有效规则，从而对不同的患者定制不同的随访方案与量表并对填写后的量表进行分析生成随访结论和后续治疗建议，该方法具有多专业渠道数据获取、极高效的数据更新能力、高度智能化的规则和知识图谱生成、大数据分析及塑造知识模板能力、生成定制化内容、结果分析和建议能力等优点。

Description

基于人工智能的随访量表生成方法及系统

技术领域

本申请涉及医疗技术领域，尤其是一种基于人工智能的随访量表生成方法及系统。

背景技术

当前属于大数据环境，临床医疗过程中产生大量电子病历、检查检验报告与随访记录等数据，为构建知识图谱和定制化量表提供了数据基础；医学知识更新周期短，需要系统能快速响应知识变化并更新量表内容；定制化需求高，不同患者病情复杂度高，需要高度定制化的随访方案与量表，这需要根据患者详细信息生成定制化内容的能力；效率要求高，需要管理大量患者的动态随访或高频随访，这需要系统的高效自动生成与分析能力；标准化要求高，需要比较不同系统或时间下的随访结果，这需要根据标准或共识生成相对统一的量表框架与内容；患者参与度高，需要设计面向患者使用的自我报告工具，这需要系统根据患者特征自动生成易理解与友好的量表；需要决策支持时，系统需要提供有力支持，实现动态、定制化、高效与广覆盖的随访量表系统，有效利用大数据与知识图谱资源，增强系统智能与应用价值。

专利授权公告号为CN202210410537.X的中国专利公开了一种动态随访量表设计方法和系统，虽然解决了传统的随访量表周期时间长，不利于随访量表的扩展变更的问题，但仍存在以下缺陷：

1.知识更新困难，传统系统存的是固定题库，难以及时更新大量最新医学知识与实践指南，容易导致其推荐的随访方案与量表陈旧过时，无法精准指导临床决策；

2.定制化程度低，传统系统生成的随访计划与量表较为固定，难以根据具体患者情况进行定制化调整，无法针对患者病情进展调整随访内容；

3.效率较低，传统系统的生成效率较低，不适应大规模患者管理或频繁的随访工作，难以覆盖所有需要随访的患者或实现理想的随访频率；

4.动态更新能力差，随着知识的更新，随访方案与量表需相应更新，但传统系统更新速度较慢，难以高效完成更新，导致其推荐内容迟滞；

5.结论与建议生成能力差，传统系统难以根据随访结果自动产生结论及后续治疗建议，需要医生人工判断与总结；

6.数据整合与分析能力差，传统系统难以整合多源异构数据，并进行深入分析，发现影响预后的关键因素，为临床研究与决策提供有力证据。

发明内容

本申请的目的在于克服现有技术中知识更新困难、定制化程度低的问题，提供一种基于人工智能的随访量表生成方法及系统。

第一方面，提供了一种基于人工智能的随访量表生成方法，包括：

构建实时或定时更新的医学知识库，并对知识库中的数据进行分词、标注、抽取关联和融合处理以形成知识图谱；

构建实时或定时更新的规则库，基于规则库构建机器学习模型，并采用大规模标注数据对所述机器学习模型进行训练，其中，所述机器学习模型用于识别与随访量表相关的信息并输出量表生成框架，与随访量表相关的信息包括量表题目、测量维度与选项；

基于知识图谱和量表生成框架生成初步量表，并将所述初步量表发送至专家进行审核，若专家审核通过则形成标准量表；

从历史就诊数据中筛选出与临床随访和量表设计相关的数据字段作为聚类分析的输入数据以得到多组候选聚类结果，其中，所述历史就诊数据包括电子病历、检验及检查报告和随访记录；

对多组候选聚类结果进行内部验证，以得出最优聚类结果；

采用关联规则学习技术分析筛选出的数据字段之间的关联关系，以找出影响随访效果的关键因素与有效规则；

根据聚类分析结果、内部验证结果、关键因素与有效规则，抽象出不同患者类型的随访框架与量表特征并形成知识模板，所述知识模板包括推荐的随访范围、量表类型与项目；

将聚类分析结果、内部验证结果、关键因素、有效规则以及知识模板发送至专家进行审核，以使得专家能够根据实践经验对知识模板进行优化；

基于不同患者类型的知识模板对标准量表进行优化，以形成定制化量表；

根据不同患者、不同病情以及病情的不同阶段推送定制化量表给患者；

获取填写后的量表，并对填写后的量表进行结果分析生成随访结论和后续治疗建议。

进一步的，构建实时或定时更新的医学知识库，并对知识库中的数据进行分词、标注、抽取关联和融合处理以形成知识图谱，包括：

从医学信息平台获取医学信息以构建知识库，并采用医学领域词典与规则对所述知识库进行分词、词性标注和词汇处理以获得处理后的医学信息；

采用AI信息抽取技术从处理后的医学信息中抽取知识要素，其中，所述知识要素包括：疾病机制、并发症和治疗方案；

采用AI知识图谱技术分析知识要素间的关联，并构建知识逻辑关系网；

采用AI知识融合技术综合分析各知识来源，并判断知识来源差异，以融合生成统一的知识图谱。

进一步的，构建实时或定时更新的医学知识库，并对知识库中的数据进行分词、标注、抽取关联和融合处理以形成知识图谱，还包括：

构建用于第三方调用知识图谱的API接口。

进一步的，构建实时或定时更新的规则库，包括：

从医学文献、研究论文以及专家规则中获取量表相关知识、量表设计思路与具体量表题目的文献；

使用医学领域词典与规则对所述文献进行分词、词性标注与词汇处理；

结合专家建议构建实时或定时更新的规则库，并基于规则库识别所述文献中的知识要素，所述知识要素包括随访阶段、评估内容和量表类型选择依据。

进一步的，从历史就诊数据中筛选出与临床随访和量表设计相关的数据字段作为聚类分析的输入数据以得到多组候选聚类结果，包括：

设定聚类数K及其他超参数的不同取值，先使用K-Means算法对筛选出的数据字段进行聚类分析得到多组初步聚类结果；

采用层次聚类与DBSCAN算法对K-Means的结果进行校正与优化，持续调整各算法参数，回归多轮后得到多组候选聚类结果。

进一步的，所述内部验证包括以下步骤：

采用Davies-Bouldin指数和Calinski-Harabasz指数对多组候选聚类结果进行初筛，以筛选出排名靠前的X个方案；

采用Silhouette值对排名靠前的X个方案中的每个个体聚类进行评分；

综合各样本的Silhouette得分，选择得分最高且各维度得分接近的方案作为最优聚类结果。

进一步的，采用关联规则学习技术分析筛选出的数据字段之间的关联关系，以找出影响随访效果的关键因素与有效规则，包括：

选择Apriori算法进行规则学习，其中，设定支持度Support＝0.01，置信度Confidence＝0.9，以过滤频率低于1％或精确度低于90％的规则；

基于apyori工具与参数对匿名化后的数据集检索关联规则；

分析规则内容与意义，人工删除无意义规则，以得到有效规则；

使用有效规则分析影响随访效果的关键因素，为临床决策提供参考；

持续监测有效规则效果，定时重新学习并优化规则。

进一步的，对填写后的量表进行结果分析生成随访结论和后续治疗建议，包括：

对填写后的量表的结果进行校验，删除或更正无效及异常数据；

对删除或更正处理后的量表进行打分与计分，得到各量表的原始分值与标准分；

将本次量表结果与患者历史量表结果进行比对，计算变化量与变化趋势，判断病情动态；

将量表结果与患者基本信息进行关联，判断结果与状态的符合程度，其中，所述患者基本信息包括疾病类型、状态和用药治疗方案；

根据知识图谱与规则，对量表结果与变化进行分析判断，获得初步的随访结论，其中，所述初步的随访结论包括病情稳定、改善或加重；

根据初步的随访结论与知识图谱，提出后续治疗建议，其中，所述后续治疗建议包括维持原方案、用药调整或住院观察；

整理初步的随访结论与治疗建议形成最终的随访结论，并提供给医生参考；

医生对随访结论进行评审，验证结论与建议的准确性，提出反馈；

根据医生的反馈更新知识图谱与规则库，以及优化知识模板。

第二方面，提供了一种基于人工智能的随访量表生成系统，包括：

第一构建模块，用于构建实时或定时更新的医学知识库，并对知识库中的数据进行分词、标注、抽取关联和融合处理以形成知识图谱；

第二构建模块，用于构建实时或定时更新的规则库，基于规则库构建机器学习模型，并采用大规模标注数据对所述机器学习模型进行训练，其中，所述机器学习模型用于识别与随访量表相关的信息并输出量表生成框架，与随访量表相关的信息包括量表题目、测量维度与选项；

标准量表生成模块，用于基于知识图谱和量表生成框架生成初步量表，并将所述初步量表发送至专家进行审核，若专家审核通过则形成标准量表；

聚类模块，用于从历史就诊数据中筛选出与临床随访和量表设计相关的数据字段作为聚类分析的输入数据以得到多组候选聚类结果，其中，所述历史就诊数据包括电子病历、检验及检查报告和随访记录；

内部验证模块，用于对多组候选聚类结果进行内部验证，以得出最优聚类结果；

规则生成模块，用于采用关联规则学习技术分析筛选出的数据字段之间的关联关系，以找出影响随访效果的关键因素与有效规则；

知识模板生成模块，用于根据聚类分析结果、内部验证结果、关键因素与有效规则，抽象出不同患者类型的随访框架与量表特征并形成知识模板，所述知识模板包括推荐的随访范围、量表类型与项目；

外部审核模块，用于将聚类分析结果、内部验证结果、关键因素、有效规则以及知识模板发送至专家进行审核，以使得专家能够根据实践经验对知识模板进行优化；

定制化量表生成模块，用于基于不同患者类型的知识模板对标准量表进行优化，以形成定制化量表；

推送模块，用于根据不同患者、不同病情以及病情的不同阶段推送定制化量表给患者；

反馈分析模块，用于获取填写后的量表，并对填写后的量表进行结果分析生成随访结论和后续治疗建议。

进一步的，所述规则生成模块包括：

规则学习子模块，用于选择Apriori算法进行规则学习，其中，设定支持度Support＝0.01，置信度Confidence＝0.9，以过滤频率低于1％或精确度低于90％的规则；

关联子模块，用于基于apyori工具与参数对匿名化后的数据集检索关联规则；

第一分析子模块，用于分析规则内容与意义，人工删除无意义规则，以得到有效规则；

第二分析子模块，用于使用有效规则分析影响随访效果的关键因素，为临床决策提供参考；

优化子模块，用于持续监测有效规则效果，定时重新学习并优化规则。

本申请具有如下有益效果：

1、多专业渠道数据获取，本申请可以从多途径获取各类医学知识，文献等，极大减小系统使用者获取专业知识的难度；

2、极高效的数据更新能力：可以定时或实时获取最新的医学知识，文献，保证数据以及规则均是最新，以产生最优的随访方案；

3、高度智能化的规则和知识图谱生成，利用人工智能技术爬取海量医学文献与指南，采用深度学习，神经网络，及多种算法构建涵盖疾病机制、诊疗方案、并发症管理等方面的广泛知识图谱，为随访方案与量表设计提供知识支持；

4、大数据分析及塑造知识模板能力，利用人工智能从患者电子病历、检查报告与历次随访记录等海量数据中发现不同患者特征对应的典型随访方案与量表框架，形成知识模板，为定制化内容生成提供参考；

5、生成定制化内容，根据患者的具体病情特点、并发症风险、治疗方案与随访阶段等信息，从知识图谱和模板中动态提取相关内容，生成定制的随访方案与量表；

6、结果分析和建议能力，能够根据患者提交的随访报告自动进行结果分析，产生随访结论与后续治疗建议，供医生参考。

附图说明

构成本申请的一部分的附图用于来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例1的基于人工智能的随访量表生成方法的流程图；

图2是本申请实施例2的基于人工智能的随访量表生成系统的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1

本申请实施例1所涉及的一种基于人工智能的随访量表生成方法，包括：构建实时或定时更新的医学知识库，并对知识库中的数据进行分词、标注、抽取关联和融合处理以形成知识图谱；构建实时或定时更新的规则库，基于规则库构建机器学习模型，并采用大规模标注数据对所述机器学习模型进行训练，其中，所述机器学习模型用于识别与随访量表相关的信息并输出量表生成框架，与随访量表相关的信息包括量表题目、测量维度与选项；基于知识图谱和量表生成框架生成初步量表，并将所述初步量表发送至专家进行审核，若专家审核通过则形成标准量表；从历史就诊数据中筛选出与临床随访和量表设计相关的数据字段作为聚类分析的输入数据以得到多组候选聚类结果，其中，所述历史就诊数据包括电子病历、检验及检查报告和随访记录；对多组候选聚类结果进行内部验证，以得出最优聚类结果；采用关联规则学习技术分析筛选出的数据字段之间的关联关系，以找出影响随访效果的关键因素与有效规则；根据聚类分析结果、内部验证结果、关键因素与有效规则，抽象出不同患者类型的随访框架与量表特征并形成知识模板，所述知识模板包括推荐的随访范围、量表类型与项目；将聚类分析结果、内部验证结果、关键因素、有效规则以及知识模板发送至专家进行审核，以使得专家能够根据实践经验对知识模板进行优化；基于不同患者类型的知识模板对标准量表进行优化，以形成定制化量表；根据不同患者、不同病情以及病情的不同阶段推送定制化量表给患者；获取填写后的量表，并对填写后的量表进行结果分析生成随访结论和后续治疗建议，该方法可以从多途径获取各类医学知识，文献等，极大减小系统使用者获取专业知识的难度；该方法极高效的数据更新能力：可以定时或实时获取最新的医学知识，文献，保证数据以及规则均是最新，以产生最优的随访方案；高度智能化的规则和知识图谱生成，利用人工智能技术爬取海量医学文献与指南，采用深度学习，神经网络，及多种算法构建涵盖疾病机制、诊疗方案、并发症管理等方面的广泛知识图谱，为随访方案与量表设计提供知识支持；大数据分析及塑造知识模板能力，利用人工智能从患者电子病历、检查报告与历次随访记录等海量数据中发现不同患者特征对应的典型随访方案与量表框架，形成知识模板，为定制化内容生成提供参考；生成定制化内容，根据患者的具体病情特点、并发症风险、治疗方案与随访阶段等信息，从知识图谱和模板中动态提取相关内容，生成定制的随访方案与量表；结果分析和建议能力，能够根据患者提交的随访报告自动进行结果分析，产生随访结论与后续治疗建议，供医生参考。

具体的，图1示出了申请实施例1中的基于人工智能的随访量表生成方法的流程图，包括：

S101、构建实时或定时更新的医学知识库，并对知识库中的数据进行分词、标注、抽取关联和融合处理以形成知识图谱；

具体的，建立知识体系，从包括医学文献数据库、临床指南网站、医学会信息等平台获取信息并实时或定时对获取到的信息进行更新，采用医学领域词典与规则对文献进行分词、词性标注与词汇处理，以提高准确性，为信息抽取做准备；

使用AI信息抽取技术从爬取信息中抽取知识要素，如疾病机制、并发症、治疗方案等，归类整理，使用AI知识图谱技术分析知识要素间关联，构建知识逻辑关系网，理解知识体系全貌，使用AI知识融合技术综合分析各知识来源，判断来源差异，融合产生统一知识结构与建议，进而形成知识图谱；

具体包括以下步骤：

S1011、从医学信息平台获取医学信息以构建知识库，这里采用实时或定时获取的方式来获取医学信息，以达到医学信息不断更新的目的，并根据最新的医学信息实时更新知识图谱的内容，并采用医学领域词典与规则对所述知识库进行分词、词性标注和词汇处理以获得处理后的医学信息；

S1012、采用AI信息抽取技术从处理后的医学信息中抽取知识要素，其中，所述知识要素包括：疾病机制、并发症和治疗方案；

S1013、采用AI知识图谱技术分析知识要素间的关联，并构建知识逻辑关系网；

具体的，从医学信息平台、临床指南等获取医学信息，根据余弦相似度算法：(其中，A_i、B_i为n维空间向量)，完成知识库的分词和词汇标注，获得处理后的医学知识要素并存储于非关系型数据库，再利用Neo4j知识图谱技术实现知识要素间的关联，构建知识逻辑关系网。

S1014、采用AI知识融合技术综合分析各知识来源，并判断知识来源差异，以融合生成统一的知识图谱。

在进一步的实施例中，还包括：

构建用于第三方调用知识图谱的API接口，以实现知识再利用与价值最大化，并设置API接口访问控制以确保数据安全。

S102、构建实时或定时更新的规则库，基于规则库构建机器学习模型，并采用大规模标注数据对所述机器学习模型进行训练，其中，所述机器学习模型用于识别与随访量表相关的信息并输出量表生成框架，与随访量表相关的信息包括量表题目、测量维度与选项；

具体的，从临床随访和量表相关的医学文献，如研究论文、综述中获取包含相关知识、量表设计思路与具体题目。使用医学领域词典与规则对文献进行分词、词性标注与词汇处理，为信息抽取做准备；

从医学文献、研究论文以及专家规则中提取规则并结合专家意见构建规则库，识别文献中的重要信息与知识要素，如随访阶段、评估内容、量表类型选择依据等，使用机器学习算法及大规模标注数据训练模型，识别与随访量表相关的各类信息，如量表题目、测量维度与选项等；

构建实时或定时更新的规则库，包括以下步骤：

S1021、从医学文献、研究论文以及专家规则中获取量表相关知识、量表设计思路与具体量表题目的文献，其中，医学文献、研究论文以及专家规则需要进行实时或定时的更新；

S1022、使用医学领域词典与规则对所述文献进行分词、词性标注与词汇处理；

S1023、结合专家建议构建实时或定时更新的规则库，并基于规则库识别所述文献中的知识要素，所述知识要素包括随访阶段、评估内容和量表类型选择依据。

具体的，收集医学文献、专家规则等数据，采用基于词频和TF-IDF来提取随访量表特征，选用神经网络序列生成模型和监督学习方法来训练机器学习模型，结合第一步构建的知识逻辑图谱来生成随访量表，并待专家审核。

S103、基于知识图谱和量表生成框架生成初步量表，并将所述初步量表发送至专家进行审核，若专家审核通过则形成标准量表；

基于规则库构建机器学习模型，并采用大规模标注数据对所述机器学习模型进行训练，包括：

1.收集完备性，涵盖不同形式、不同类型的数据，包括医学文献、研究论文和专家规则，构建实时或定时更新的规则库，作为训练的数据和知识库；

2.对收集到的数据进行预处理，预处理包括文本清洗、分词、去除停用词等；

3.根据随访量表规则需求，从预处理后的文本数据中提取特征；本申请选用的特征是基于词频和TF-IDF，另外，在这里提取随访量表的标题、描述、选项等；

4.选用循环神经网络序列生成作为这里的机器学习模型来生成随访量表；

5.使用已准备好的数据和特征来训练机器学习模型，本申请选用监督学习和强化学习的方法，训练过程中，模型会学习到生成随访量表所需的模式和规律；

6.使用评估数据集对训练得到的模型进行评估，评估最终生成随访量表的合理性、可解释性、医学安全性等；

7.根据评估结果，对模型进行调优和改进。

具体的，分析不同信息与知识要素之间的关系，理解随访量表设计的基本原理与框架，需要自然语言处理的语义分析与推理技术。利用分词与词义消歧技术，从抽取的量表题目中识别关键词与概念，如“生活质量”、“焦虑”和“睡眠质量”等关键词和概念有助理解题目与量表的主要测量内容，利用识别的关键词、概念与知识，设计初步量表，实现知识的转化与应用，其中，初步量表的示例如表1所示：

表1：

如表1所示，基于临床共识和专家意见，对于脂肪肝，无需开展CT/MR等影像学检查(橙底部分)，故在专家审核环节被剔除，同时调整知识库，最终产出的标准量表如表2所示。

表2：

专家验证人工智能工作结果，包括信息抽取、知识融合与更新的准确性，并提供补充与反馈，不断优化知识图谱。验证信息抽取与关键词识别的结果，判断识别准确率与遗漏率。并提供修改反馈，不断优化规则、模型与关键词词典，提高学习与识别能力。

S104、从历史就诊数据中筛选出与临床随访和量表设计相关的数据字段作为聚类分析的输入数据以得到多组候选聚类结果，其中，所述历史就诊数据包括电子病历、检验及检查报告和随访记录；

具体的，收集包括患者电子病历、检查检验报告、历次随访记录等，包含大量医学信息与临床案例的大数据，使用数据清洗技术对数据进行去重、修复失效值、删除噪声数据等，提高数据质量，为下一步工作做准备；

选择与临床随访和量表设计相关的数据字段，如患者特征、病情信息、治疗方案与随访结果等，忽略无关信息，作为聚类分析的输入数据；医学专家参与确定特征，使用无监督学习聚类算法，设定聚类数K及其他超参数的不同取值，先使用K-Means算法(K-Means算法是最简单和常用的聚类算法，可以快速找到球形聚类结构，并且可扩展到大数据集上，基本思路为：1.给定聚类数K，随机选取K个centroid作为初始聚类中心；2.计算每个样本到K个centroid的距离，将样本划分到距离最近的centroid所在的聚类；3.计算每个聚类的centroid，作为新的聚类中心；4.重复步骤2和3，直到聚类中心不再改变)得到多组初步聚类结果，然后采用层次聚类(层次聚类可以自动决定聚类数，并可以发现任意形状的聚类结构，不需要指定初始化中心点，基本思路是：1.对每个样本构建一个单点聚类，每个聚类只包含一个样本；2.找最近的两个聚类进行合并，形成一个新的聚类；3.重复步骤2，直到所有的样本属于同一个聚类或符合停止条件；4.根据层次结构树切分出所需数量的聚类)与DBSCAN算法(DBSCAN是一种基于密度的聚类算法，可以有效识别噪声和发现任意形状的聚类，基本思想是：1.在指定的区域内(以ε为半径)至少包含MinPts个样本点，才可以构成高密度区域；2.将高密度区域中的样本点划分为相同的聚类，并继续扩展这个聚类，把密度紧密连接的高密度区域里的点加入到该聚类中；3.低密度区域中的样本点被标记为噪声)对K-Means的结果进行校正与优化，持续调整各算法参数，回归多轮，得到多组候选聚类结果。

S105、对多组候选聚类结果进行内部验证，以得出最优聚类结果；

具体的，使用聚类性能度量：使用Davies-Bouldin指数(DB指数测度了类内紧致度和类间分离度；DB值越小，聚类效果越好；其公式为：DB＝1/k*∑ni＝1maxj(Si+Sj)/dij，其中，k为聚类数；Si为第i个聚类的类内离差；Sj为第j个聚类的类内离差；dij为第i和第j个聚类的类间距离)和Calinski-Harabasz指数(CH指数同时考虑了类内离散度和类间离散度，值越大表示聚类效果越好；其公式为：CH＝SSB/(k-1)/SSW*(n-k)其中，SSB为类间离散度，SSW为类内离散度，k为聚类数，n为样本总数)对不同候选聚类结果进行初筛，选择排名靠前的TopX方案，再使用Silhouette值(Silhouette值衡量了样本与其所属群组的紧密度，以及Samples与其他群组的分离度；Silhouette值范围为[-1，1]，值越大表示聚类效果越好；其计算公式为：Silhouette(i)＝(b(i)-a(i))/max(a(i)，b(i))，其中，a(i)为i样本与同类样本的平均距离，b(i)为i样本与其他类中最近样本的平均距离)对TopX方案中的每个个体聚类进行评分，综合各样本的Silhouette得分，选择得分最高且各维度得分接近的方案作为最优聚类结果。

S106、采用关联规则学习技术分析筛选出的数据字段之间的关联关系，以找出影响随访效果的关键因素与有效规则；

具体的，选择Apriori算法(1.频繁项集的生成：扫描数据集，计算各个项项集的支持度，将支持度高于设定最小支持度的项集确定为频繁项集；例如：数据集有5个样本，{A，B，C}的支持度为3/5＝0.6，高于最小支持度0.5，则{A，B，C}为频繁项集；2.频繁项集的扩展：基于当前的频繁项集生成更长的频繁项集；使用Apriori原理：若某个项集是频繁的，则其所有子项集也必然频繁；例如：已知{A，B，C}是频繁项集，{A，B}为其子项集，{A，B}的支持度必>0.5，也为频繁项集；3.关联规则的生成：从频繁项集中生成关联规则；规则A→B的置信度定义为支持度(A∪B)/支持度(A)，表示A发生时B也发生的概率；例如：频繁项集{A，B，C}可以生成规则A→B的置信度为支持度{A，B，C}/支持度{A，B}；4.规则的过滤：过滤掉置信度低于设定最小置信度的规则；例如：设最小置信度为0.8，则过滤掉置信度<0.8的规则，如A→B置信度为0.7的规则；)与apyori工具进行规则学习：Apriori算法经典且效率高，apyori为其开源实现工具；设定支持度Support＝0.01，置信度Confidence＝0.9：过滤频率低于1％或精确度低于90％的规则；基于apyori工具与参数，对匿名化后的数据集检索关联规则；例如：得到350条初步规则，如{HIV检查＝阴性}→{本次随访＝已到访}(Support＝0.015，Confidence＝0.92)，分析规则内容与意义，人工删除无意义规则，得到270条有效规则；例如：删除表达不清晰或临床意义不大的规则，如{体温＝36.5℃}→{本次随访＝已到访}；使用有效规则分析影响随访效果的关键因素，为临床决策提供参考；例如：通过有效规则可以发现，HIV检查结果为阴性、CD4细胞绝对值大于350且年龄小于40岁的患者，更倾向于本次可成功随访；提示人群特征与疾病状态是影响随访效果的关键因素；持续监测规则效果，每月重新学习并优化规则，提高其准确性与实用性；例如：每月使用新就诊数据学习关联规则，重新筛选有效规则，删除失效规则，使规则逐步稳定且准确。

S107、根据聚类分析结果、内部验证结果、关键因素与有效规则，抽象出不同患者类型的随访框架与量表特征并形成知识模板，所述知识模板包括推荐的随访范围、量表类型与项目。

知识模板综合考虑了患者的人口特征、疾病状态与随访效果之间的关联，其中，人口特征指性别、年龄、居住地/出生地、婚姻状态、职业等等，推荐合适的随访方式以及量表，同时要求每个随访时都对症状变化进行监测，以全面评估患者状况并满足此类型患者的管理需求。

S108、将聚类分析结果、内部验证结果、关键因素、有效规则以及知识模板发送至专家进行审核，以使得专家能够根据实践经验对知识模板进行优化；

示例性的，1.聚类分析结果显示，肺癌患者可以分为3类：早期、中期、晚期。关联规则显示，晚期患者更倾向选择放疗与化疗相结合的治疗方案。

知识模板推荐：晚期肺癌患者，可选治疗方案为放疗与化疗的组合。

专家验证：模板准确，放疗与化疗的联合可以提高晚期患者的生存期与生活质量。但也存在手术切除的机会，模板应补充为：晚期肺癌患者，可选治疗方案为手术切除、放疗与化疗的组合等。

2.聚类结果显示，心力衰竭患者心功能差的类型更易再入院，关联规则显示，{LVEF<40％}→{1个月内再入院}的规则较强。

知识模板：LVEF<40％的心力衰竭患者，随访频率应提高，1个月内密切监测再入院风险。

专家验证：模板准确，LVEF是评估心功能的重要指标，LVEF下降会增加住院风险，应提高此类患者的随访频率与出院后监测力度，但模板应考虑补充其他影响再入院的指标，如心房颤动、anasarca等，以及再入院后处理的相关建议。

S109、基于不同患者类型的知识模板对标准量表进行优化，以形成定制化量表；示例过程：

1.不同患者分类：将肺癌患者根据病理类型、分期、基因突变等因素进行分类。例如，可以将患者分为非小细胞肺癌(NSCLC)患者和小细胞肺癌(SCLC)患者。

2.知识模板匹配：根据患者分类，选择相应的知识模板。知识模板可以是针对特定疾病阶段、治疗方案或患者特征的模板，这些模板可以包含常见的症状、体征、检查指标、治疗方案、用药建议等内容，例如，对于NSCLC患者，知识模板可以包含手术治疗、放疗、化疗和靶向治疗的问题和指导；对于SCLC患者，知识模板可以涉及综合治疗和放疗的问题和建议。

3.定制化量表生成：将选定的知识模板与标准量表结合，根据患者的具体情况和病情阶段进行优化；根据患者的特定需求，增加、删除或修改随访问题。例如，对于NSCLC患者的定制化量表，可以包含以下问题：a.您当前的病理类型是什么？请提供详细信息；b.您是否已接受手术治疗？请提供手术日期、手术方式和切除范围。c.您是否正在接受放疗？请提供放疗方案和相关副作用的反馈；d.您是否正在接受化疗或靶向治疗？请提供药物名称、剂量和使用频率。

对于SCLC患者的定制化量表，可以包含以下问题：a.您当前的病理类型是什么？请提供详细信息；b.您是否正在接受综合治疗？请提供治疗方案和相关副作用的反馈；c.您是否正在接受放疗？请提供放疗方案和疗效反馈。

示例性的，对于已确诊脂肪肝的患者其在不同病情阶段所生成的定制化量表内容也是不一样的，具体如表3所示：

表3：

/>

其中，表3中为了减少版面省略掉了调查问卷项，具体的调查问卷示例如下：

问卷说明：

1.第1题为引入题

可穿插在其他问卷中进行询问，如患者选择“是”，跳转本调查问卷。

2.问题3为计算平均饮酒天数(d)

d＝数字A或d＝数字B/7或d＝数字C/30。

3.问题4为进行平均每日乙醇摄入量(g)换算

平均每日乙醇摄入量换算公式＝平均每日饮酒量(毫升)×乙醇含量(度)×0.8×d。

健康建议：

如男性平均每日乙醇摄入量≥30g，女性平均每日乙醇摄入量≥20g，提示“请注意！您存在酒精过量风险！”；

如不满足上述条件，提示“您目前乙醇过量风险较低，但为了您的健康，请继续限制酒精摄入量”。

健康宣教：

戒酒可改善肝病预后及肝脏损伤、提高所有阶段肝病患者的生存期。您可以逐渐降低每次饮酒的量，或者增加两次饮酒之间的间隔时间，以帮助你逐渐戒掉饮酒习惯。同时在戒酒的基础上进行高蛋白、低脂饮食，并注意补充维生素B、维生素C、维生素K及叶酸。同时定期锻炼、保持良好的睡眠质量。

戒酒是一个长期的过程，坚持复诊可以帮助您监测戒酒进程和调整治疗方案。

饮酒史调查问卷：

您好！请您仔细阅读每个问题，并根据自己的实际情况进行填写，如果您对某个问题的答案不确定，请选择您认为最恰当的答案。如果有不理解的地方可随时向调查人员询问。

1.[V2起]您近期饮酒量和频率有发生变化吗？

□是□√否[结束问卷][带入上次问卷结果？]

2.您的起始饮酒年龄：_18岁。

3.您近期(3个月内)的饮酒频率是：[单选]

□___A___次/天[输入大于0的数字]

□√___B__1_次/周[输入大于0的数字]

□___C___次/月[输入大于0的数字]。

4.您近期(3个月内)主要的饮酒种类以及饮酒的量是(一小盅白酒约15毫升，一杯红酒约150毫升，一瓶啤酒约330毫升)

主要饮酒种类(单选)

□白酒(一盅≈15ml)

□红酒(一杯≈150ml)

□√啤酒(一瓶≈330ml)

□其他，请填写

请填写度数：_8度

平均每日饮酒量：_330毫升。

通过以上方法，结合患者的特定类型和个人情况，可以生成针对不同肺癌患者类型和病情阶段的定制化量表。

S110、根据不同患者、不同病情以及病情的不同阶段推送定制化量表给患者；

该方法综合考虑了患者病情特征、随访时机与评估指标之间的关系，推荐量表也针对该疾病与状态挑选，体现了个性化的随访设计与安排。

S111、获取填写后的量表，并对填写后的量表进行结果分析生成随访结论和后续治疗建议；

具体的，包括以下步骤：

S1111、对填写后的量表的结果进行校验，删除或更正无效及异常数据；

S1112、对删除或更正处理后的量表进行打分与计分，得到各量表的原始分值与标准分；

S1113、将本次量表结果与患者历史量表结果进行比对，计算变化量与变化趋势，判断病情动态；

S1114、将量表结果与患者基本信息进行关联，判断结果与状态的符合程度，其中，所述患者基本信息包括疾病类型、状态和用药治疗方案；

S1115、根据知识图谱与规则，对量表结果与变化进行分析判断，获得初步的随访结论，其中，所述初步的随访结论包括病情稳定、改善或加重；

S1116、根据初步的随访结论与知识图谱，提出后续治疗建议，其中，所述后续治疗建议包括维持原方案、用药调整或住院观察；

S1117、整理初步的随访结论与治疗建议形成最终的随访结论，并提供给医生参考；

S1118、医生对随访结论进行评审，验证结论与建议的准确性，提出反馈；

S1119、根据医生的反馈更新知识图谱与规则库，以及优化知识模板。

实施例2

本申请实施例2所涉及的一种基于人工智能的随访量表生成系统，包括：

具体的，所述规则生成模块包括：

示例性的，患者张某，男，65岁，非小细胞肺癌IIIb期，进行放疗与化疗。化疗第3周完成生活质量量表QLQ-C30，抑郁评估量表CES-D，并上传至随访系统。

系统执行以下步骤：

1.对张某上传的量表结果进行校验，无异常，得到QLQ-C30各维度原始分值与标准分，CES-D原始分值；

2.对比张某上次化疗结束时的量表结果，QLQ-C30生理功能、日常生活能力评分较上次下降5-10分，CES-D评分较上次升高3分；

3.根据知识图谱，化疗3周时癌症相关症状可能加重，生活质量下降及抑郁状态升高属正常变化

4.综上，系统判断张某病情相对稳定，生活质量与心理状况变化在可控范围；

5.建议：维持当前化疗方案，增加对晚期症状的管控，如止吐、止痛药物加强；加强心理疏导与支持；继续密切随访；

6.系统生成随访报告，提交给张某的主治医生；

7.医生认为报告结论准确，但建议可以适当延长化疗间隔，减少症状出现频率，并在化疗第4周重复生活质量与抑郁评估；

8.系统根据医生反馈，更新知识图谱：化疗3周生活质量下降属正常，但也要根据实际情况考虑调整化疗频率；化疗第4周重复生活质量与心理评估可以更好监测病情动态变化，这些建议可提供给其他类似患者。

可见，系统自动完成数据分析并提出初步结论与建议，医生对结果进行验证与反馈，系统据此更新知识图谱，以提高后续判断的准确性。

实施例3

本申请实施例3所涉及的一种计算机可读存储介质，所述计算机可读介质存储用于设备执行的程序代码，该程序代码包括用于执行如本申请实施例1中的任意一种实现方式中方法的步骤；

其中，计算机可读存储介质可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)；计算机可读存储介质可以存储程序代码，当计算机可读存储介质中存储的程序被处理器执行时，处理器用于执行如本申请实施例1中的任意一种实现方式中方法的步骤。

实施例4

本申请实施例4所涉及的一种电子设备，所述电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如本申请实施例1中的任意一种实现方式中的方法；

其中，处理器可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请实施例1中的任意一种实现方式中的方法。

处理器还可以是一种集成电路电子设备，具有信号的处理能力。在实现过程中，本申请实施例1中的任意一种实现方式中方法的各个步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器还可以是通用处理器、数字信号处理器、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成本申请实施例的数据处理的装置中包括的单元所需执行的功能，或者执行本申请实施例1中的任意一种实现方式中方法。

以上，仅为本申请较佳的具体实施方式；但本申请的保护范围并不局限于此。任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，根据本申请的技术方案及其改进构思加以等同替换或改变，都应涵盖在本申请的保护范围内。

Claims

1.一种基于人工智能的随访量表生成方法，其特征在于，包括：

对多组候选聚类结果进行内部验证，以得出最优聚类结果；

采用关联规则学习技术分析筛选出数据字段之间的关联关系，以找出影响随访效果的关键因素与有效规则；

获取填写后的量表，并对填写后的量表进行结果分析生成随访结论和后续治疗建议；

其中，采用关联规则学习技术分析筛选出数据字段之间的关联关系，以找出影响随访效果的关键因素与有效规则，包括：

选择Apriori算法进行规则学习，其中，设定支持度Support=0.01，置信度Confidence=0.9，以过滤频率低于1%或精确度低于90%的规则；

基于apyori工具与参数对匿名化后的数据集检索关联规则；

持续监测有效规则效果，定时重新学习并优化规则。

2.根据权利要求1所述的基于人工智能的随访量表生成方法，其特征在于，构建实时或定时更新的医学知识库，并对知识库中的数据进行分词、标注、抽取关联和融合处理以形成知识图谱，包括：

3.根据权利要求2所述的基于人工智能的随访量表生成方法，其特征在于，构建实时或定时更新的医学知识库，并对知识库中的数据进行分词、标注、抽取关联和融合处理以形成知识图谱，还包括：

构建用于第三方调用知识图谱的API接口。

4.根据权利要求1所述的基于人工智能的随访量表生成方法，其特征在于，构建实时或定时更新的规则库，包括：

5.根据权利要求1所述的基于人工智能的随访量表生成方法，其特征在于，从历史就诊数据中筛选出与临床随访和量表设计相关的数据字段作为聚类分析的输入数据以得到多组候选聚类结果，包括：

6.根据权利要求5所述的基于人工智能的随访量表生成方法，其特征在于，所述内部验证包括以下步骤：

7.根据权利要求1所述的基于人工智能的随访量表生成方法，其特征在于，对填写后的量表进行结果分析生成随访结论和后续治疗建议，包括：

8.一种基于人工智能的随访量表生成系统，其特征在于，包括：

规则生成模块，用于采用关联规则学习技术分析筛选出数据字段之间的关联关系，以找出影响随访效果的关键因素与有效规则；

反馈分析模块，用于获取填写后的量表，并对填写后的量表进行结果分析生成随访结论和后续治疗建议；

其中，所述规则生成模块包括：

规则学习子模块，用于选择Apriori算法进行规则学习，其中，设定支持度Support=0.01，置信度Confidence=0.9，以过滤频率低于1%或精确度低于90%的规则；