CN114724717B

CN114724717B - 一种胃早癌高危风险筛查系统

Info

Publication number: CN114724717B
Application number: CN202210415491.0A
Authority: CN
Inventors: 李�真; 左秀丽; 马铭骏; 李延青; 刘静; 赖永航; 姜建科
Original assignee: Qingdao Medcare Digital Engineering Co ltd; Qilu Hospital of Shandong University
Current assignee: Qingdao Medcare Digital Engineering Co ltd; Qilu Hospital of Shandong University
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2024-04-12
Anticipated expiration: 2042-04-20
Also published as: CN114724717A

Abstract

本发明涉及计算机辅助医疗技术领域，公开了一种胃早癌高危风险筛查系统，包括：调查问卷获取模块，用于获取待筛查调查问卷；胃早癌风险预测模块，用于根据所述调查问卷，基于预先训练的胃早癌风险预测模型，判断是否存在风险；其中，所述胃早癌风险预测模型包括：分模块风险预测单元，用于根据各影响因素的填写结果，采用相应二分类神经网络进行风险预测；整体风险预测单元，用于对基于各影响因素的风险预测结果进行加权求和，得到整体风险。本发明有助于充分挖掘对每个影响因素对胃早癌的影响，避免遗漏有价值影响因素，提高了预测准确度。

Description

一种胃早癌高危风险筛查系统

技术领域

本发明属于计算机辅助医疗技术领域，尤其涉及一种胃早癌高危风险筛查系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

胃癌高危风险预测评估可以提高早期胃癌的诊断率，能够让患者早发现早治疗，加强早期胃癌的诊断筛查是挽救胃癌患者生命及提高患者生存质量的关键。以往提高早期胃癌检出率的方法大多是改良胃镜检查和病理组织活检等临床技术，这些技术对患者有一定的创伤，且普及率低。目前仍缺乏有效的非浸入性的早癌筛查诊断方法。

通过调查问卷进行早期筛查是一种简单有效方式，有助于提高早期筛查的普及率，目前主要基于logistics回归分析等方法建立胃癌与问卷中各影响因素之间的关系模型，通过模型进行筛查，并且，为了提高模型预测精度，往往会进行自变量筛选，通过统计学分析手段，舍弃一些对模型精度贡献度较差的自变量。这种方式虽然能够一定程度上提高模型的精度，但是，通过统计学手段舍弃影响因素不会考虑到影响因素的实际意义，可能会导致有价值影响因素的丢失，不能将调查问卷中的特征进行充分利用起来。

发明内容

为克服上述现有技术的不足，本发明提供了一种胃早癌高危风险筛查系统。分别对调查问卷中每个影响因素进行风险预测，基于每个因素的风险预测结果进行加权求和得到整体风险预测结果，有助于充分挖掘对每个影响因素对胃早癌的影响，提高了预测准确度。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种胃早癌高危风险筛查系统，包括：

调查问卷获取模块，用于获取待筛查调查问卷；

胃早癌风险预测模块，用于根据所述调查问卷，基于预先训练的胃早癌风险预测模型，判断是否存在风险；

其中，所述胃早癌风险预测模型包括：

分模块风险预测单元，用于根据各影响因素的填写结果，采用相应二分类神经网络进行风险预测；

整体风险预测单元，用于对基于各影响因素的风险预测结果进行加权求和，得到整体风险。

进一步地，各影响因素的二分类神经网络模型训练方法为：

获取多个调查问卷样本，所述调查问卷样本中包括胃早癌阳性样本和胃早癌阴性样本，分别根据每个影响因素的填写结果，训练相应二分类神经网络。

进一步地，基于各影响因素的风险预测结果的权重计算方法为：

对各影响因素的二分类神经网络的分类效果进行评价；

将分类效果归一化处理，得到基于各影响因素的风险预测结果的权重。

进一步地，获取待筛查调查问卷或多个调查问卷样本后，首先进行特征编码，将调查问卷中胃早癌的每个影响因素填写结果，编码成一个特征向量。

进一步地，若一个影响因素中包括多个细分影响因素，将多个细分影响因素的填写结果进行特征编码后进行串联，得到该影响因素的特征向量。

进一步地，所述系统还包括可信度评价模块，用于对所述调查问卷的可信度进行评价，若评价结果为真实，转入胃早癌风险预测模块；若评价结果为不真实，则向用户反馈评价结果。

进一步地，所述可信度评价模块采用预先训练的可信度评价模型对调查问卷进行可信度评价，其中，所述可信度评价模型包括：

分模块可信度评价单元，用于根据调查问卷中胃早癌各影响因素的填写结果，分别基于相应可信度评价网络进行可信度评价；

整体可信度评价单元，用于将各影响因素的可信度评价结果进行加权求和，得到所述待评价调查问卷的整体可信度；

进一步地，其中，各影响因素的可信度评价网络训练方法为：

获取多个调查问卷样本，所述调查问卷样本中包括真实样本和不真实样本，针对调查问卷中的每个影响因素，分别训练可信度评价网络。

进一步地，各影响因素可信度评价结果的权重计算方法为：

获取多个胃早癌阳性样本和多个胃早癌阴性样本，对于胃早癌的每个影响因素，分别计算信息增益，得到每个影响因素可信度评价结果的权重。

进一步地，对于胃早癌的每个影响因素，分别计算信息增益包括：

根据胃早癌样本中阳性样本和阴性样本的占比，计算胃早癌样本的信息熵；

对于每个影响因素，根据调查问卷中所述影响因素的选项个数，对疾病样本划分子集，根据每个子集中诊断结果为阳性和阴性的占比，计算各个子集的信息熵，根据胃早癌样本的信息熵和该影响因素各个子集的信息熵，计算所述影响因素的信息增益。

以上一个或多个技术方案存在以下有益效果：

通过基于调查问卷中每个影响因素分别进行风险预测，然后基于每个因素的风险预测结果进行加权求和得到整体风险预测结果，有助于充分挖掘对每个影响因素对胃早癌的影响，避免遗漏有价值影响因素，提高了预测准确度。

将各个影响因素风险预测模型的分类准确度作为权重，能够更准确的衡量各个影响因素风险预测模型对于整体预测结论的影响，提高了整体预测精度。

通过基于调查问卷中每个影响因素分别进行真实性预测，有助于对调查问卷进行全面评价，最大限度的保留有价值的调查问卷，为后续风险预测模型的训练提供了数据保障。

通过计算调查问卷中各个影响因素的信息增益，来反映各影响因素对问卷结果真实性的影响，结合每个影响因素的真实性和信息增益得到调查问卷的评价结果，提高了调查问卷评价的准确性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中胃早癌高危风险筛查系统框架图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种胃早癌高危风险筛查系统，包括：

调查问卷获取模块，用于获取待筛查调查问卷。

可信度评价模块，用于对所述调查问卷的可信度进行评价，若评价结果为真实，转入胃早癌风险预测模块；若评价结果为不真实，则向用户反馈评价结果，不继续执行胃早癌风险预测。

胃早癌风险预测模块，用于根据所述调查问卷，基于预先训练的胃早癌风险预测模型，判断是否存在风险。

调查问卷内容主要涉及患者的基本信息、饮食习惯、近期主要症状、疾病家族史和疾病既往史。

所述可信度评价模块中，采用预先训练的可信度评价模型对调查问卷进行可信度评价。其中，所述可信度评价模型包括分模块可信度评价单元和整体可信度评价单元。所述分模块可信度评价单元用于根据调查问卷中胃早癌各影响因素的填写结果，分别基于相应可信度评价网络进行可信度评价；所述整体可信度评价单元用于将各影响因素的可信度评价结果进行加权求和，得到所述待评价调查问卷的整体可信度。

所述分模块可信度评价单元中，各影响因素的可信度评价网络训练方法为：获取多个调查问卷样本，所述调查问卷样本中包括真实样本和不真实样本(真实标签可信为1、不可信为0)，针对调查问卷中的每个影响因素，分别训练可信度评价网络。

所述整体可信度评价单元中，各影响因素可信度评价结果的权重计算方法为：

对于胃早癌的每个影响因素，分别计算信息增益包括：

(1)根据胃早癌样本中阳性样本和阴性样本的占比，计算胃早癌样本的信息熵；

假设胃早癌二分类数据集有D个样本，其中确诊胃早癌的阳性样本有N个，不是胃早癌的阴性样本有M个，则计算出胃早癌样本的信息熵为：

(2)对于每个影响因素，根据调查问卷中所述影响因素的选项个数，对疾病样本划分子集，根据每个子集中诊断结果为阳性和阴性的占比，计算各个子集的信息熵，根据胃早癌样本的信息熵和该影响因素各个子集的信息熵，计算所述影响因素的信息增益。

所述影响因素每个子集的信息熵计算方法为：

其中，D^v表示所述影响因素第v个子集，|D^v|表示该子集的样本数，N^v和M^v分别是其中阳性样本和阴性样本的个数。

第i个影响因素的信息增益计算方法为：

其中，n表示第i个影响因素相应的子集个数。

每个影响因素的信息增益占所有影响因素的信息增益总和的比重，即该影响因素的权重。

所述可信度评价模块获取需要确定可信度的调查问卷后，根据其中各影响因素的填写结果，依次进行可信度评判，然后加权求和计算出该调查问卷的可信度。比如：[精神状况二分类模型、吸烟史二分类模型、饮酒史二分类模型、个人病史二分类模型、家族史二分类模型、饮食史二分类模型]，依次对应的权重分别是：[0.1,0.05,0.2,0.2,0.2,0.25]。假如单个模型识别结果：[1,1,1,1,0,0]，总的可信度：0.1*1+0.05*1+0.2*1+0.2*1+0.2*0+0.25*0＝0.55，高于某阈值认定为该问卷可信，阈值可根据医生经验确定。

所述胃早癌风险预测模块中，胃早癌风险预测模型包括特征编码单元、分模块风险预测单元和整体风险预测单元。其中，所述特征编码单元用于对调查问卷中各影响因素的填写结果进行特征编码；所述分模块风险预测单元用于根据各影响因素的填写结果，采用相应二分类神经网络进行风险预测；所述整体风险预测单元用于对基于各影响因素的风险预测结果进行加权求和，得到整体风险。

所述特征编码单元中，将调查问卷中胃早癌的每个影响因素填写结果，编码成一个特征向量。由于调查问卷中各影响因素对应的选项都是离散的特征信息，因此本实施例采用one-hot编码对各影响因素的填写结果进行特征编码，得到特征的数字化表示，one-hot编码可以保证每个样本中的单个特征只有1位处于状态1，其他的都是0，使得各影响因素的每个选项都具有唯一对应的编码值。

若一个影响因素中包括多个细分影响因素，如烟酒史，调查问卷中烟酒史主题对应两部分：吸烟史和饮酒史，将多个细分影响因素的填写结果进行编码后进行串联，得到该影响因素的特征向量。

以烟酒史为例，吸烟史的特征选项包括：["未吸烟"，"吸烟史少于5年现已戒烟"，"吸烟史多于5年现已戒烟"，"吸烟史少于5年未戒烟"，"吸烟史多于5年未戒烟"]，饮酒史的特征选项包括：["未饮酒"，"饮酒史少于5年现已戒酒"，"饮酒史多于5年现已戒酒"，"饮酒史少于5年未戒酒"，"饮酒史多于5年未戒酒"]。吸烟史的各特征选项转换后的表述形式：

"未吸烟"：10000

"吸烟史少于5年现已戒烟"：01000

"吸烟史多于5年现已戒烟"：00100

"吸烟史少于5年未戒烟"：00010

"吸烟史多于5年未戒烟"：00001

将吸烟史和饮酒史的特征进行组合即为烟酒史这一影响因素的特征向量：[吸烟史的one-hot编码,饮酒史的one-hot编码]。

所述分模块风险预测单元中，各影响因素的二分类神经网络模型训练方法为：

获取多个调查问卷样本，所述调查问卷样本中包括胃早癌阳性样本和胃早癌阴性样本，分别根据每个影响因素的填写结果，训练相应二分类神经网络子模型。具体地，依次训练烟酒史、个人病史、家族史、饮食史、精神状况对应的二分类神经网络子模型。以烟酒史为例，以调查问卷样本中烟酒史部分的填写结果及相应调查问卷样本的诊断结果，训练基于烟酒史的二分类神经网络子模型，进行胃早癌高风险判断。

所述整体风险预测单元中，各影响因素风险预测结果的权重计算方法为：

为了确定调查问卷里的烟酒史选项、个人病史选项、家族史选项、饮食史选项、精神状况选项对胃早癌的影响因素比重，本实施例在测试集下分别测试每个子模型的分类效果，并统计识别正确分类的个数，对各个子模型正确分类的个数做归一化处理，即可得到各个子模型对胃早癌的影响的权重。

所述胃早癌风险预测模块获取需要确定高危风险的调查问卷后，依次调用烟酒史二分类模型、个人病史二分类模型、家族史二分类模型、饮食史二分类模型、精神状况二分类模型得到对应的胃早癌高风险评判子结果，再基于确定出的权重对应的属性部分计算出该调查问卷的胃早癌高风险程度。比如：[烟酒史二分类模型、个人病史二分类模型、家族史二分类模型、饮食史二分类模型、精神状况二分类模型]，依次对应的权重分别是：[0.1,0.3,0.2,0.2,0.2,]。单个子模型识别结果表示：胃早癌高风险是1，胃早癌低风险是0。假如单个模型识别结果：[0,0,1,1,1,1]，总的危险程度：0.1*0+0.3*0+0.2*1+0.2*1+0.2*1＝0.6，超过设定阈值认为高危型，阈值由医生根据经验确定。

调查问卷中各个模块的特征规格不一样，不属于同一量纲，特征集合放在一起会导致有效特征信息利用率低，所以这里采用针对不同模块的问卷选项分别训练所对应的分类模型，有助于对调查问卷中的所有信息进行充分利用。

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种胃早癌高危风险筛查系统，其特征在于，包括：

调查问卷获取模块，用于获取待筛查调查问卷；

其中，所述胃早癌风险预测模型包括：

整体风险预测单元，用于对基于各影响因素的风险预测结果进行加权求和，得到整体风险；

所述系统还包括可信度评价模块；

所述可信度评价模块采用预先训练的可信度评价模型对调查问卷进行可信度评价，其中，所述可信度评价模型包括：

整体可信度评价单元，用于将各影响因素的可信度评价结果进行加权求和，得到所述调查问卷的整体可信度。

2.如权利要求1所述的一种胃早癌高危风险筛查系统，其特征在于，各影响因素的二分类神经网络模型训练方法为：

3.如权利要求1所述的一种胃早癌高危风险筛查系统，其特征在于，基于各影响因素的风险预测结果的权重计算方法为：

对各影响因素的二分类神经网络的分类效果进行评价；

4.如权利要求1或2所述的一种胃早癌高危风险筛查系统，其特征在于，获取待筛查调查问卷或多个调查问卷样本后，首先进行特征编码，将调查问卷中胃早癌的每个影响因素填写结果，编码成一个特征向量。

5.如权利要求4所述的一种胃早癌高危风险筛查系统，其特征在于，若一个影响因素中包括多个细分影响因素，将多个细分影响因素的填写结果进行特征编码后进行串联，得到该影响因素的特征向量。

6.如权利要求1所述的一种胃早癌高危风险筛查系统，其特征在于，可信度评价模块，用于对所述调查问卷的可信度进行评价，若评价结果为真实，转入胃早癌风险预测模块；若评价结果为不真实，则向用户反馈评价结果。

7.如权利要求1所述的一种胃早癌高危风险筛查系统，其特征在于，其中，各影响因素的可信度评价网络训练方法为：

8.如权利要求1所述的一种胃早癌高危风险筛查系统，其特征在于，各影响因素可信度评价结果的权重计算方法为：

9.如权利要求1所述的一种胃早癌高危风险筛查系统，其特征在于，对于胃早癌的每个影响因素，分别计算信息增益包括：