CN117174241A

CN117174241A - 一种基于对话式生成的预防医学智能问答系统

Info

Publication number: CN117174241A
Application number: CN202311121339.2A
Authority: CN
Inventors: 张继勇; 周光哲; 李尚果; 张亚超; 程佳
Original assignee: Hangzhou Fuyang Fuchuang Big Data Industry Innovation Research Institute Co ltd; Zhejiang Handrui Intelligent Technology Co ltd; Hangzhou Dianzi University
Current assignee: Hangzhou Fuyang Fuchuang Big Data Industry Innovation Research Institute Co ltd; Zhejiang Handrui Intelligent Technology Co ltd; Hangzhou Dianzi University
Priority date: 2023-09-01
Filing date: 2023-09-01
Publication date: 2023-12-05

Abstract

本发明公开了一种基于对话式生成的预防医学智能问答系统，包括用户端、服务器、数据库和输出端，用户端的输出与服务器连接，服务器与数据库连接，服务器的输出还与输出端连接，其中，所述用户端接收输入信息，传输到服务器；服务器进行数据处理和模型训练，对用户端输入的信息生成回答，并将信息存储入数据库；输出端将服务器输出的回答进行输出。本发明通过对个体健康信息的综合分析和医学知识库的应用，旨在提供更全面且准确的健康评估和预测。在各种日常场景下使用，为用户提供针对遗传病和其他疾病的发病风险预计、健康改善建议和医生辅助诊断所需的信息。

Description

一种基于对话式生成的预防医学智能问答系统

技术领域

本发明属于人工智能领域，涉及一种基于对话式生成的预防医学智能问答系统。

背景技术

最近几年，随着人工智能技术的快速发展，生成式对话模型已经取得了巨大的突破。这些模型可以回答各种领域的问题，包括医学方面的问题。然而，在目前的生成式对话系统中，往往缺乏针对个体的健康状况进行评估和预测的功能。现有技术方案包括：

健康管理应用程序：许多健康管理应用程序提供个体健康评估功能。这些应用程序通常会跟踪用户的日常活动、饮食习惯、睡眠质量等信息。一些应用程序还提供社区支持和预约就诊等功能。

电子健康记录系统：这些系统可以整合个体的医疗记录和健康数据，包括实验室检查结果、影像学报告、用药记录等。

遗传风险评估：通过基因组数据分析，识别与遗传相关的疾病风险，并根据遗传信息预测个体对某些疾病的易感性。这种方法可以帮助人们了解自身的遗传健康风险，并采取相应的预防措施。

基于移动设备的健康监测：结合移动设备和传感器技术，可以实时监测个体的生物参数、活动水平和睡眠质量等数据。通过分析这些数据，可以评估个体的健康状况，并预测可能的健康问题。

非侵入式生理参数监测技术：利用各种传感器和监测设备，实时监测个体的生理参数，如心率、血压、血氧饱和度等。

基于规则的系统：使用预定义的规则和逻辑来处理用户输入并生成响应。系统通过匹配用户的症状和问题与预先编写的规则库进行诊断和建议。这种方案简单、易于实现和管理，但可能缺乏灵活性和个性化的能力。

基于知识图谱的系统：利用知识图谱来组织和表示医学知识。知识图谱是一个结构化的知识网络，其中包含了疾病、症状、治疗方法等概念的关系和属性。系统可以根据用户提供的症状和信息，在知识图谱中进行查询和推理，以生成相应的诊断和建议。

基于机器学习的系统：这种方案利用机器学习算法来对医学数据进行建模和分析，从而实现对用户的诊断和建议。系统通过对大量真实世界的病例进行学习，可以从数据中学习出模式和特征，并将其应用于新的情况。这种方案可以提供更准确的诊断和个性化的建议，但对于数据的质量和多样性要求较高。

基于自然语言处理的系统：这种方案利用自然语言处理技术来理解和生成用户输入和系统输出。系统可以根据用户提供的症状描述和问题，进行文本解析、实体识别和关系抽取，以获取有关病情的信息。同时，系统也可以生成自然语言的响应来与用户进行交互。

尽管已有一些综合个体健康信息并评估个体健康状况的系统存在，但与结合深度学习神经网络的人工智能系统相比，这些系统存在一些不足之处。

病情风险评估方面，现有的健康评估系统以及相关饮用存在一些缺点。这些系统无法准确预测和评估个体的疾病风险，并可能产生误导性的结果。由于这些系统在数据分析和模型训练方面的限制，无法对复杂的个体健康特征和模式进行准确理解和预测。

病因和病情的准确判断方面，现有系统仍需要进一步提高。这些系统可能无法全面考虑个体的生理和病理特征，无法从根本上识别和解决患者的健康问题。在某些情况下，系统可能无法提供具体的诊断结果，无法满足患者对于准确诊断的需求。

目前的智能问诊系统或智能问诊机器人所涉及的应用领域和场景相对有限。这些智能系统和机器人通常用于初步的自我诊断或一般健康建议，无法替代医生的专业诊断和治疗。患者更倾向于相信医生的诊断，因为医生能够综合考虑患者的病史、体格检查结果和其他临床信息来做出准确的判断。这些系统无法提供与医生面对面沟通和互动的体验，也无法提供个性化的治疗方案。

发明内容

能够预测遗传病(通过遗传系谱等遗传医学方法进行分析)以及其他疾病的发病可能性，并为用户提供相关提示和建议以改善健康状况。同时，在问诊过程中，该系统能够提供相关信息，帮助医生更准确地判断病情。本发明提出一种基于对话式生成的预防医学智能问答系统的技术方案为：

包括用户端、服务器、数据库和输出端，用户端的输出与服务器连接，服务器与数据库连接，服务器的输出还与输出端连接，其中，

所述用户端接收输入信息，传输到服务器；服务器进行数据处理和模型训练，对用户端输入的信息生成回答，并将信息存储入数据库；输出端将服务器输出的回答进行输出。

优选地，所述用户端接收的输入信息包括：个体特征数据、健康调查数据、饮食数据、精神状态数据、健康状况数据、个体病史数据、治疗数据和家族病史。

优选地，所述服务器包括依次连接的输入处理模块、模型推断模块和生成模块，其中，输入处理模块将用户输入的数据进行分词，将其拆分成单个的词或标记，将每个词或标记转换为向量表示。

优选地，所述输入处理模块中若用户输入内容的上下文信息，编码的结果是一个表示整个上下文信息的向量。

优选地，所述模型推断模块使用前述的上下文信息的向量作为输入模型，结合预训练模型的参数和生成策略，生成回答的文本。

优选地，所述生成模块生成的回答文本经过解码过程，将模型内部的表示转换为用户可读的格式，并在屏幕上进行输出。

优选地，所述服务器中模型训练包括数据处理器、模型选择器、模型建立器和模型评估器，其中，所述数据处理器包括对数据收集、数据准备和数据划分，其中，数据准备为将收集到的数据进行以下处理：疾病预防部署数据集训练，使用1000组个体的临床试验数据；预测并发症的部署数据集训练，使用1000组个体的并发症数据；计算遗传疾病概率的部署数据训练，训练使用来自1000基因组计划的真实测序数据作为遗传数据，包括基因型信息和表型信息；

数据划分为训练集、验证集和测试集。

优选地，所述模型选择器包括：为模型参数选择合适的初始值；采用BFGS算法迭代更新参数估计，从初始值出发，计算损失函数的梯度和Hessian矩阵；使用BFGS更新公式更新参数估计，涉及近似Hessian矩阵的逆；通过比较迭代间参数估计的变化来检验收敛准则，如果变化低于预定义的阈值，则认为算法已经收敛；如果不满足收敛准则，算法继续迭代，更新参数估计并检查收敛性；上述过程一直持续到满足收敛准则，表明参数估计已经稳定。

优选地，所述模型建立器包括在训练集上使用EN-Net、ER方法建立模型；在ENN中，选择ReLU作为激活函数，并使用拟牛顿BFGS优化算法估计模型参数，通过网格搜索选择最佳的调参参数。

优选地，所述模型评估器包括将最终模型应用于测试集，并使用均方误差来评估模型的性能。

本发明通过整合个体的遗传病史、生活方式、饮食习惯等信息，结合专业医学知识，评估个体患病的概率并提供相应的建议。首先收集用户的个人健康信息，例如遗传病史、家族病史、生活方式等；然后，系统会根据这些信息以及医学知识库中的数据，计算个体患某种疾病的概率。计算概率的过程中，本发明考虑了各因素之间的相关性。例如，对于一位高血压家族病史者，如果其生活方式也不健康，如饮食不均衡、缺乏运动等，那么患病的风险就更高。因此，在计算患病概率时，本发明会综合考虑多个因素，并根据其相关性赋予相应的权重。

在评估完个体的患病概率后，本发明的问答系统将根据具体的情况提供相应的建议。例如，如果某个人患糖尿病的风险较高，系统可能会建议该人进行定期血糖监测、合理控制饮食等。

通过这种基于预防性医学的问答系统，用户可以及早了解自身患病的风险，并采取相应的预防措施。这不仅有助于改善个体的健康状况，还可以减轻医疗系统的压力，提高医疗资源的利用效率。

至少包括以下有益效果：

1.更准确的评估病因和病情：该发明利用遗传医学方法和综合健康信息分析，可以更准确地评估遗传病和其他疾病的发病可能性，提供更准确的病因和病情判断。

2.应用广泛的生活场景：该发明可以应用于一般的生活场景，不仅仅局限于特定的医疗环境。用户可以在日常生活中使用该问答系统，获取有关健康状况的指导和建议。

3.通过对用户问题和输入信息的分析，能够准确划分回答方向。能够识别用户的问题并提供相关的解决方案，避免了非相关或不准确的回答。这样可以确保用户获得高质量和准确的健康建议。

4.提供健康改善建议：基于对个体健康信息的分析，该系统能够为用户提供相应的健康改善建议。这些建议可帮助用户改善健康状况，预防疾病，提高生活质量。

5.医生辅助诊断：该发明在问诊过程中提供相关信息，帮助医生更准确地判断病情。医生可以借助该系统提供的数据和建议作出更明智的诊断和治疗决策。

6.综合知识库的应用：该发明通过整合医学知识库和大数据分析，能够提供更全面的健康评估和预测。用户可以获得基于最新研究和临床实践的信息，保持对健康问题的及时了解。

7.所使用的神经网络模型能够更好地处理大规模，相关性程度高的数据。

附图说明

图1为本发明实施例的基于对话式生成的预防医学智能问答系统的结构示意图；

图2为本发明实施例的基于对话式生成的预防医学智能问答系统的服务器结构示意图；

图3为本发明实施例的基于对话式生成的预防医学智能问答系统的不同交互模型下ENN模型和ER模型的均方误差对比图；

图4为本发明实施例的基于对话式生成的预防医学智能问答系统的不同线性关系下ENN模型和ER模型的均方误差对比图；

图5为本发明实施例的基于对话式生成的预防医学智能问答系统的应用于遗传概率计算流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

相反，本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。

参见图1，所示为本发明实施例的一种基于对话式生成的预防医学智能问答系统的结构示意图，包括用户端10、服务器20、数据库30和输出端40，用户端10的输出与服务器20连接，服务器20与数据库30连接，服务器20的输出还与输出端40连接，其中，用户端10接收输入信息，传输到服务器20；服务器20进行数据处理和模型训练，对用户端10输入的信息生成回答，并将信息存储入数据库30；输出端40将服务器20输出的回答进行输出。

用户可以输入各种与健康相关的信息，例如症状描述、健康问题、用药情况等。用户还可以通过系统与医生进行交流，提问有关健康预防、疾病风险评估、生活方式改善等方面的问题。这些输入信息将作为系统分析和生成回答的依据。用户端10接收的输入信息包括：

1.个体特征数据：个体的基本信息，如年龄、性别；

2.健康调查数据：有关个体的健康调查数据，包括个体的日常作息习惯(如睡眠时间、工作时间)、力活动水平、吸烟状况、饮酒状况；

3.饮食数据：个体的饮食习惯数据，包括食物摄入量、饮食质量、饮食习惯等。这可以包括记录个体摄入的营养成分、特定食物的摄入量以及饮食模式；

4.精神状态数据：与个体精神状态相关的数据，如情绪、压力水平、焦虑程度等。这可以通过问卷调查或其他心理评估工具来获得；

5.健康状况数据：与个体健康状况相关的数据，包括已知的疾病历史、家族病史、体检结果、诊断报告等。这些数据可以提供有关已知疾病和风险因素的信息；

6.个体病史数据：收集个体的病史数据，包括已知的疾病历史、诊断报告、治疗记录等。这些数据可以提供有关个体基线健康状况、患有其他疾病的情况以及与特定疾病相关的风险因素等信息；

7.治疗数据：个体接受的治疗数据，包括治疗方案、用药情况、手术历史等。这些数据可以提供更全面的信息，以预测个体并发症的概率；

8.家族史：收集患者及其家族成员的相关疾病史，包括有无遗传病、家族中患病者数量以及与疾病关联的家族特征等信息。

服务器20包括依次连接的输入处理模块21、模型推断模块22和生成模块23，其中，输入处理模块21将用户输入的数据进行分词，将其拆分成单个的词或标记，将每个词或标记转换为向量表示。若用户输入内容的上下文信息，编码的结果是一个表示整个上下文信息的向量。包括：

1.输入编码：Transformer将输入序列分别转换为向量表示，通过输入嵌入层将每个输入标记(例如单词或字符)映射到一个高维空间中的向量表示；

2.位置编码：设置一组表示位置的向量，记录输入序列中标记的顺序信息；

3.自注意力计算：Transformer模型计算输入序列的上下文编码。自注意力机制将输入序列的每个位置作为查询、键和值来计算加权表示。

4.归一化和规范化：输入处理的最后阶段，对输入进行归一化和规范化操作。将词向量进行归一化，使其具有统一的尺度；对输入进行缩放，以适应模型期望的输入范围。

本发明提供了根据相关性评估输入向量来确定模型的回答范围，从而提高模型回答的精确度的技术方案。

本技术方案中使用相关性评分来衡量用户问题与不同数据集的匹配程度。这个相关性评分采用了一个介于-1到1之间的数值表示，以反映匹配的程度。使用余弦相似度作为计算相关性的指标，具体定义如下：

余弦相似度的计算公式为：余弦相似度cos＝(A·B)/(||A||*||B||)，其中A·B表示向量A和B的内积(点积)，||A||表示向量A的模(范数)；

cos的取值范围在-1到1之间。数值越接近1表示两个向量越相似，数值越接近-1表示两个向量越不相似；

这种基于余弦相似度的相关性评估方法能够帮助我们确定模型回答的范围，从而提高模型回答的精确度。通过评估用户问题与不同数据集之间的匹配程度，我们可以选择最相关或高相关的数据集作为模型回答的依据，以确保提供给用户的回答更加准确和相关。

通过相关性评分，模型具备了根据用户查询内容进行方向选择的能力。使用一个嵌入层来将离散的属性值k映射到一个连续的高维向量空间中。

定义一个嵌入矩阵，其大小为n×d，其中n是属性值的数量，d是每个属性值对应的嵌入向量的维度。根据属性值k选择嵌入矩阵中的第k行作为该属性值的嵌入向量。

在健康水平检测任务中，使用嵌入向量作为属性值的表示形式。当用户提供的查询数据与健康水平检测相关时，可以选择对应的嵌入向量表示。同样地，对于并发症预测和遗传疾病概率计算，也可以分别使用相应的嵌入向量进行表示。

通过使用嵌入向量的方法将离散的属性值转化为连续的向量表示，从而更好地捕捉属性值之间的语义关系和特征信息。这有助于提高模型对不同属性值的理解和处理能力，在相关性选择任务中提供更准确、个性化的解决方案。实现在不同领域的问题中发挥重要作用。

模型推断模块22使用前述的上下文信息的向量作为输入模型，结合预训练模型的参数和生成策略，生成回答的文本。

生成模块23生成的回答文本经过解码过程，将模型内部的表示转换为用户可读的格式，并在屏幕上进行输出。生成模块23根据模型对语言的理解和推理能力，自动组织、生成符合语义和语法规则的回答。这个过程类似于自然语言生成，通过模型的学习和训练，生成准确、流畅的回答内容。解码过程将生成的文本转换为易于理解的形式，生成的语言转化为自然语言句子、段落或其他合适的格式。便于用户阅读和理解生成的回答内容。

本发明通过训练模型能够根据用户提供的相关健康数据，推断某种疾病的可能性以及预防并发症、防治遗传疾病的建议。为了训练这个模型，我们需要收集必要的数据。这些数据可以包括个人的健康历史、生理指标、基因信息等相关健康数据，以及记录疾病发展和并发症情况的详细信息。通过收集和分析这些数据，我们能够建立一个更准确、可靠的模型，为用户提供个性化的健康建议和预测结果。在数据收集的过程中，我们将严格遵守相关法律法规，保护用户的隐私和数据安全。同时也将确保对数据进行匿名化和去敏感化处理，以保护个人隐私信息。

服务器20中模型训练包括数据处理器、模型选择器、模型建立器和模型评估器，其中，所述数据处理器包括对数据收集、数据准备和数据划分，其中，收据手机包括：1.患病概率数据：获取可靠的流行病学数据，了解人群中不同因素与特定疾病之间的关联性，以便用于模型的训练和验证；

2.疾病症状数据：收集与特定疾病相关的症状数据。这可以包括已知的常见和罕见症状、体征以及疾病发展过程中可能出现的不同阶段的指标。这些数据可通过文献调查、医学数据库30或专业医生的经验来获得；

3.并发症数据：收集关于特定疾病并发症的数据，包括并发症的类型、频率和严重程度。通过文献研究、病例报告、临床试验数据等来获得；

4.正常对照组数据：获取一定数量的正常人群数据，用于与患有常见遗传病的人群进行比较分析。这有助于确定特定基因变异与发病概率之间的关联性；

5.疾病进展数据：对于已被诊断为患有常见遗传病的个体，收集关于疾病进展、治疗记录和生存时间等数据。

收集的数据来源包括：

1.学术期刊和会议报告已经发表的临床试验数据；

2.医学研究机构和医院在数据共享平台上公开发布的临床试验数据；

3.世界卫生组织(WHO)、中国疾病预防控制中心(CDC)发布的流行病学调查的数据和统计信息；

4.中国国家卫生健康委员会、各省市卫生健康委员会等政府健康部门提供的公开的流行病学数据；

5.公共基因组数据库30NCBI、Ensembl提供的基因组数据；

6.国际人类基因组计划等基因组研究项目研究结束后公开的数据；

对所收集的数据进行清洗，删除重复数据、缺失数据和异常值，保留有用的数据，删除噪音数据；通过数据格式转换、匹配字段等操作将不同的来源收集的多个数据集整合在一起。

根据分析的需求，需要对数据进行各种转换和转换操作，如归一化、标准化、编码等。这有助于提高数据的可解释性和可用性。

数据准备为将收集到的数据进行以下处理：疾病预防部署数据集训练，使用1000组个体的临床试验数据；预测并发症的部署数据集训练，使用1000组个体的并发症数据；计算遗传疾病概率的部署数据训练，训练使用来自1000基因组计划的真实测序数据作为遗传数据，包括基因型信息和表型信息；

数据划分为训练集、验证集和测试集。通常采用的比例是3：1：1，即将数据集的70％用于训练模型，15％用于模型选择和调参，15％用于模型评估。

样本选择：根据需要，可以从整个数据集中随机选择一部分样本用于模型训练和评估。在本实例中，使用了250个复制品进行模拟。

特征选择：根据研究的目标和问题，选择适当的协变量作为模型的输入特征。在本发明实例中，除了遗传数据外，还包括个人特征(如性别)和环境因素。

数据预处理：对数据进行预处理，包括缺失值处理、标准化、归一化等。确保数据的质量和一致性。

通过以上准备好适用于训练和评估模型数据集。

模型选择器包括：为模型参数选择合适的初始值；采用BFGS算法迭代更新参数估计，从初始值出发，计算损失函数的梯度和Hessian矩阵；使用BFGS更新公式更新参数估计，涉及近似Hessian矩阵的逆；通过比较迭代间参数估计的变化来检验收敛准则，如果变化低于预定义的阈值，则认为算法已经收敛；如果不满足收敛准则，算法继续迭代，更新参数估计并检查收敛性；上述过程一直持续到满足收敛准则，表明参数估计已经稳定。

模型建立器包括在训练集上使用EN-Net、ER方法建立模型；在ENN中，选择ReLU作为激活函数，并使用拟牛顿BFGS优化算法估计模型参数，通过网格搜索选择最佳的调参参数。

BFGS算法的实现细节，如具体的更新公式和收敛准则，可能会因实现所使用的软件或编程语言而异。

评估模型性能：使用测试集评估模型的性能，计算均方误差(MSE)。

调整模型参数：根据测试集的结果调整模型参数，例如增加或减少隐藏层的神经元数量。

将建立的模型应用于验证集，选择具有最优调参参数的最简模型。通过比较模型的性能和损失函数的值，选择最佳的模型。

具体包括：

在训练集上使用EN-Net、ER方法建立模型。在ENN中，选择ReLU作为激活函数，并使用拟牛顿BFGS优化算法估计模型参数。通过网格搜索选择最佳的调参参数。

假设有n个样本，{(x_i，y_i)，i＝1，...，n}，其中x_i＝(1，x_i，1，…，x_i,p)^T，y_i表示第i个样本的p维协变量和响应，其中p表示自变量的数量，T表示矩阵的转制。

线性回归通常用于建模协变量和平均响应之间的关系。可以使用一个预期的回归。将期望回归表示为ER。τ对于ER模型的期望表示为：

Expectile(τ)表示在给定的条件下，响应变量的τ分位数的值，表示回归参数向量的估计量，其中β＝(β₀，β₁，...，β_p)^T。回归参数/>可以通过最小化非对称平方损失函数得到。这个式子表示了自变量x和响应变量的τ分位数之间的线性关系。

经验风险函数

经验风险函数定义为非对称平方损失函数/>对所有观测值的平均值：

该风险函数测量预测值与实际响应y_i之间的总体差异，并根据分位数水平τ对差异赋予不同的权重

非对称平方损失函数是一个关于残差的函数，它对于负残差和正残差有不同的权重。在ER模型中，使用非对称平方损失函数进行最小化，得到估计的回归系数

其中

L_τ(y_i，f(x_i))是平均损失函数，用于衡量真实值y_i和预测值f(x_i)之间的差异。在L_τ损失函数中，当实际响应变量小于预测值时，损失函数的值为(1-τ)(y_i-f(x_i))²，而当实际响应变量大于等于预测值时，损失函数的值为τ(y_i-f(x_i)))²。通过最小化损失函数，我们可以得到最优的模型参数。

期望神经网络模型中隐藏节点h_q，t的计算。式中，f⁽¹⁾表示隐藏层的激活函数，x_p，t是第t个样本的第p个自变量，是第p个自变量与第q个隐层神经元之间的权重，/>是第q个隐层神经元的偏置项。通过Q表示隐藏层的节点数。

隐藏节点h_q,t作为激活函数的输出，应用于输入协变量的加权和x_p,t乘以相应的权重然后加上偏置项/>对每个隐藏节点q和每个观测值t执行此计算。

表示期望神经网络(ENN)模型中τ分位数的预测值。f⁽²⁾、/>和b⁽²⁾分别是输出层中的链接函数、权重和偏差。在这个公式中，/>被计算为激活函数f⁽²⁾对隐藏节点的加权和h_q，t乘以相应的权重/>的输出，然后加上偏置项b⁽²⁾。对每个分位数τ和每个观测值t执行此计算。

结合上面给出的h_q,t，可以得出：

ER模型旨在建立协变量x与响应变量之间的关系。通过最小化非对称平方损失函数，可以得到估计的回归系数β。期望值表示为协变量x与估计系数β的点积。

ENN模型使用BFGS算法通过不断更新Hessian矩阵的逆矩阵来逼近最优解。在每次迭代中，BFGS算法需要计算目标函数的梯度和Hessian矩阵，然后通过一系列的矩阵运算来更新搜索方向和步长。

参见图3，采用模拟数据集来比较ENN模型和ER模型在处理基因组数据时的性能差异。使用三种不同的交互模型来生成数据集，分别是无交互模型(No interaction)、二阶交互模型(two-way interaction)和三阶交互模型(3-way interaction)，数据集包含了1000个样本和100个SNP。对于每个交互模型，使用相同的数据集进行训练和测试，并比较了ENN模型和ER模型在测试集上的性能差异。

具体来说，首先使用每个交互模型生成1000个样本的数据集，其中包含了100个SNP和一个响应变量；将数据集分为训练集和测试集，其中训练集包含800个样本，测试集包含200个样本。使用训练集来训练ENN模型和ER模型，并使用测试集来评估模型的性能。在评估模型性能时，使用均方误差(MSE)和平均绝对误差(MAE)这两个指标来衡量模型的预测精度。

实验结果表明，在所有交互模型下，ENN模型的性能都优于ER模型。尤其是在三路交互模型下，ENN模型的性能最好，其均方误差(MSE)比ER模型低了约20％。

参见图4，同样的生成四种不同的非线性关系，分别为二次(Quadratic)、三次(cubic)、正弦(sinusoidal)和指数函数(exponential)。使用均方误差(MSE)作为评估指标，比较ER模型和ENN模型在不同非线性关系下的MSE值。

这些结果表明，ENN模型能够更好地捕捉SNP之间的交互作用，从而提高了模型的预测能力。

使用BFGS算法训练ENN模型，通过不断更新Hessian矩阵的逆矩阵来逼近最优解。在ENN模型的训练过程中，BFGS算法被用于最小化损失函数，以估计模型的参数。在每一次迭代中，BFGS算法会根据当前参数的取值计算损失函数的梯度和Hessian矩阵，然后更新参数的取值，使得损失函数的值不断减小。BFGS算法会根据当前参数的取值和损失函数的梯度和Hessian矩阵的取值来更新Hessian矩阵的逆矩阵，以更好地逼近最优解。因此，BFGS算法通过不断更新Hessian矩阵的逆矩阵来逼近最优解。

在每个epoch结束后使用验证集来评估模型的性能，并记录模型在验证集上的性能指标(如准确率、损失函数值等)。当模型的性能在验证集上连续若干个epoch没有提升时，停止训练。具体来说，数据划分时将数据集分为训练集、验证集和测试集，使用训练集训练模型，在每个epoch结束时计算模型在验证集上的性能指标，如果模型在验证集上的性能指标连续若干个epoch没有提升，则停止训练，返回最优模型。

设置一个称为“patience”的参数来控制early stopping的阈值。patience表示模型在验证集上性能没有提高的最大连续epoch数。当模型在连续的patience个epoch中的性能指标都没有提高时，就可以认为模型已经达到了最优状态，此时可以停止训练。

模型评估器包括将最终模型应用于测试集，并使用均方误差来评估模型的性能。

较低的MSE值表示模型的预测能力更好。通过比较不同模型的MSE值，评估模型的准确性和预测能力。

在模型建立的过程中，选择合适的激活函数，优化算法和调参参数，以及进行模型选择和评估，以确保模型的性能和准确性。

经过多轮次的对抗训练后，择具有最小均方误差的模型作为最终模型，至此训练结束，保存模型即可用于各类场景下生成式对话模型的基础模型，在实际系统中应用。

本发明应用于遗传概率计算为例，参见图5。

本发明使用期望神经网络(ENN)模型进行回归分析，并比较了ENN模型与其他模型在模拟数据和真实数据上的表现。ENN模型可以学习数据的复杂和抽象特征，从而适用于建模数据之间的复杂关系。与传统的线性回归模型相比，ENN模型可以探索条件分布并提供数据关系的全面视图。

本发明使用了BFGS算法用于期望神经网络(ENN)模型的训练，BFGS算法是一种高效、快速收敛、适用于大规模问题、具有全局收敛性的优化算法，因此在实际应用中得到了较好的效果。

本发明比较了ER模型与ENN模型对于处理数据数据时的性能差异，结果显示ENN模型更适用于高相关性的变量。

使用了余弦相似度cos来计算相关度评分，通过使用嵌入向量的方法，更好地捕捉属性值之间的语义关系和特征信息，提高模型对不同属性值的理解和处理能力，在相关性选择任务中提供更准确、个性化的解决方案。

使用早停法(early stopping)来评估模型的训练是否完成：通过设置一个称为“patience”的参数来控制early stopping的阈值，使得模型达到最优状态时，可以停止训练。

具体实施例中，模型评估器中使用均方误差(MSE)来评估模型的性能，还可以使用决定系数(R2)：R2是用来衡量模型对数据的拟合程度，它的取值范围在0到1之间，越接近1表示模型对数据的拟合程度越好；

在训练ENN模型时，除了使用早停法(earlystopping)来评估模型的训练是否完成，还可以使用学习率调度法：在定义优化器时同时定义一个学习率调度器，并在每个epoch结束后调用学习率调度器的step()方法来更新学习率。在训练过程中动态地调整学习率，以提高模型的训练效果。在使用学习率调度器时，设置一个最大的训练轮数(即训练的epoch数)，当训练轮数达到预设的最大值时，模型训练就会结束。

嵌入向量同样可以使用属性值k的独热编码，使用以下方式：

健康水平检测(k＝0)：[1，0，0]

并发症预测(k＝1)：[0，1，0]

遗传疾病概率计算(k＝2)：[0，0，1]

根据用户查询内容的相关性评分，确定哪种属性值对应的相关性较高，然后将相应的独热编码向量作为模型的输入。这样，模型就可以根据属性值k的不同而选择合适的回答方向。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于对话式生成的预防医学智能问答系统，其特征在于，包括用户端、服务器、数据库和输出端，用户端的输出与服务器连接，服务器与数据库连接，服务器的输出还与输出端连接，其中，

2.根据权利要求1所述的系统，其特征在于，所述用户端接收的输入信息包括：个体特征数据、健康调查数据、饮食数据、精神状态数据、健康状况数据、个体病史数据、治疗数据和家族病史。

3.根据权利要求1所述的系统，其特征在于，所述服务器包括依次连接的输入处理模块、模型推断模块和生成模块，其中，输入处理模块将用户输入的数据进行分词，将其拆分成单个的词或标记,将每个词或标记转换为向量表示。

4.根据权利要求3所述的系统，其特征在于，所述输入处理模块中若用户输入内容的上下文信息，编码的结果是一个表示整个上下文信息的向量。

5.根据权利要求4所述的系统，其特征在于，所述模型推断模块使用前述的上下文信息的向量作为输入模型，结合预训练模型的参数和生成策略，生成回答的文本。

6.根据权利要求4所述的系统，其特征在于，所述生成模块生成的回答文本经过解码过程，将模型内部的表示转换为用户可读的格式，并在屏幕上进行输出。

7.根据权利要求1所述的系统，其特征在于，所述服务器中模型训练包括数据处理器、模型选择器、模型建立器和模型评估器，其中，所述数据处理器包括对数据收集、数据准备和数据划分，其中，数据准备为将收集到的数据进行以下处理：疾病预防部署数据集训练，使用1000组个体的临床试验数据；预测并发症的部署数据集训练，使用1000组个体的并发症数据；计算遗传疾病概率的部署数据训练，训练使用来自1000基因组计划的真实测序数据作为遗传数据，包括基因型信息和表型信息；

数据划分为训练集、验证集和测试集。

8.根据权利要求7所述的系统，其特征在于，所述模型选择器包括：为模型参数选择合适的初始值；采用BFGS算法迭代更新参数估计，从初始值出发，计算损失函数的梯度和Hessian矩阵；使用BFGS更新公式更新参数估计，涉及近似Hessian矩阵的逆；通过比较迭代间参数估计的变化来检验收敛准则，如果变化低于预定义的阈值，则认为算法已经收敛；如果不满足收敛准则，算法继续迭代，更新参数估计并检查收敛性；上述过程一直持续到满足收敛准则，表明参数估计已经稳定。

9.根据权利要求7所述的系统，其特征在于，所述模型建立器包括在训练集上使用EN-Net、ER方法建立模型；在ENN中，选择ReLU作为激活函数，并使用拟牛顿BFGS优化算法估计模型参数，通过网格搜索选择最佳的调参参数。

10.根据权利要求7所述的系统，其特征在于，所述模型评估器包括将最终模型应用于测试集，并使用均方误差来评估模型的性能。