CN113393935A

CN113393935A - 一种基于体检数据的癌症早期风险评估方法和系统

Info

Publication number: CN113393935A
Application number: CN202110740996.XA
Authority: CN
Inventors: 杜登斌; 杜乐; 杜小军; 陈伯怀
Original assignee: Wuzheng Intelligent Technology Beijing Co ltd
Current assignee: Wuzheng Intelligent Technology Beijing Co ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-14

Abstract

本发明涉及一种基于体检数据的癌症早期风险评估方法和系统，其方法包括：获取待评估人的体检数据；根据样本人群的体检数据和IV值分析法建立评估模型；利用所述评估模型和待评估人的体检数据，评估其患有早期癌症的概率。本发明通过体检数据与癌症早期特征信息进行匹配，通过IV值分析法筛选出指向性更好的特征数据，并以此建立逻辑回归模型，从而提高了评估模型的准确率，智能识别癌症早期潜在发病风险，并提供科学的评估预测和健康管理方案，对癌症早期的防治和预防具有重要意义。

Description

一种基于体检数据的癌症早期风险评估方法和系统

技术领域

本发明属于医疗信息领域，涉及一种基于体检数据的癌症早期风险评估方法和系统。

背景技术

癌症的发病一般都很隐匿，引起明显症状的时候往往已经到了中晚期。所以癌症早期风险的评估与预测意义十分重大。虽然常规体检一般很难直接检查出癌症来，但是它可以圈定一些高度怀疑癌症的风险因素，利用这些风险因素进行癌症早期风险的评估与预测，从而指导用户进一步检查和预防管理。因此，常规体检虽然检查不出来癌症，但是借助于大数据价值提取技术，利用常规体检出来的大数据，完全可以建立一套融合常规体检的数据智能评估预测癌症早期风险的系统。

发明内容

为了充分挖掘常规体检数据的价值和提高癌症早期风险评估的准确率，在本发明的第一方面提供了一种基于体检数据的癌症早期风险评估方法，包括：获取待评估人的体检数据和样本人群的体检数据；根据样本人群的体检数据和IV值分析法建立评估模型；利用所述评估模型和待评估人的体检数据，评估其患有早期癌症的概率。

在本发明的一些实施例中，所述根据样本人群的体检数据和IV值分析法建立评估模型包括如下步骤：获取多组样本人群的体检数据，以及多种癌症早期特征信息数据；根据所述多组样本人群的体检数据，以及所述多种癌症早期特征信息数据建立匹配关系数据库；根据IV值分析法从所述匹配关系数据库筛选出每种癌症早期特征信息数据的中IV值高于阈值的特征数据；根据所述特征数据和逻辑回归分析法建立评估模型。

进一步的，所述根据所述多组样本人群的体检数据，以及所述多种癌症早期特征信息数据建立匹配关系数据库包括如下步骤：对多组样本人群的体检数据、多种癌症早期特征信息数据以及伴随体特征信息进行聚类和融合，得到多个多维向量；对融合后的多个多维向量进行归一化处理，并将其映射到向量空间中，得到向量空间模型。

进一步的，所述根据所述特征数据和逻辑回归分析法建立评估模型包括如下步骤：根据每个特征数据的在匹配关系数据库中的分布计算其对应的早期癌症发生概率；根据所述每个特征数据的的早期癌症发生概率，确定其作为自变量在多元回归方程的权重，并建立多元回归方程。

优选的，所述多元回归方程表示为：

其中，P(y＝1|x)表示早期癌症发生的概率的预测值，x表示特征数据，y表示早期癌症发生的概率；g(x)＝w₀+w₁x₁+...+w_nx_n，w代表自变量在多元回归方程的权重，n代表特征数据的数量。

在上述实施例中，还包括对待评估人的体检数据或样本人群的体检数据进行预处理。

本发明的第二方面，提供了一种基于体检数据的癌症早期风险评估系统，包括获取模块、建立模块和评估模块，所述获取模块，用于获取待评估人的体检数据和样本人群的体检数据；所述建立模块，用于根据样本人群的体检数据和IV值分析法建立评估模型；所述评估模块，用于利用所述评估模型和待评估人的体检数据，评估其患有早期癌症的概率。

进一步的，所述建立模块包括获取单元、匹配单元、筛选单元和建立单元，所述获取单元，用于获取多组样本人群的体检数据，以及多种癌症早期特征信息数据；所述匹配单元，用于根据所述多组样本人群的体检数据，以及所述多种癌症早期特征信息数据建立匹配关系数据库；所述筛选单元，用于根据IV值分析法从所述匹配关系数据库筛选出每种癌症早期特征信息数据的中IV值高于阈值的特征数据；所述建立单元，用于根据所述特征数据和逻辑回归分析法建立评估模型。

本发明的第三方面，提供了一种基于体检数据的癌症早期风险评估装置，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明在第一方面提供的基于体检数据的癌症早期风险评估方法。

本发明的第四方面，提供了一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现本发明在第一方面提供的基于体检数据的癌症早期风险评估方法。

本发明的有益效果是：

1.本发明通过体检数据与癌症早期特征信息进行匹配，通过IV值分析法筛选出指向性更好的特征数据，并以此建立逻辑回归模型，从而提高了评估模型的准确率；

2.常规体检数据由于无法直接预测或评估癌症的发病风险，但通过挖掘大量样本人群的常规体检数据，可以智能识别癌症早期潜在发病风险，从而也为非医护人员解读常规体检数据提供可解释性；

3.本发明为用户常规体检后再次智能识别癌症早期潜在发病风险，并提供科学的评估预测，进而可以提出相应的健康管理方案，对癌症早期的防治和预防具有重要参考意义；

附图说明

图1为本发明的一些实施例中的基于体检数据的癌症早期风险评估方法的基本流程图；

图2为本发明的一些实施例中的基于体检数据的癌症早期风险评估系统的结构示意图；

图3为本发明的一些实施例中的基于体检数据的癌症早期风险评估装置的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1

参考图1，在本发明的第一方面提供了一种基于体检数据的癌症早期风险评估方法，包括：S100.获取待评估人的体检数据和样本人群的体检数据；S200.根据样本人群的体检数据和IV值分析法建立评估模型；S300.利用所述评估模型和待评估人的体检数据，评估其患有早期癌症的概率。

可以理解，上述样本人群通常为易感或易患不同种类癌症的目标人群，体检数据是指体检的项目属于高频次，具有普适性或一般性的体检项目所采集到的数据，例如身高、体重、视力、血压、血常规、尿常规、肝常规、胸片、心电图检查以及男性生殖器检查；女性乳房、白带、阴道检查及宫颈涂片检查等。此外，还包括姓名、性别、年龄、体重、职业、居住地、吸烟史、酗酒史、糖尿病史问询及对应的伴随症状、症状持续时间等常规体检数据。

在本发明的一些实施例的步骤S200中，所述根据样本人群的体检数据和IV值分析法建立评估模型包括如下步骤：S201.获取多组样本人群的体检数据，以及多种癌症早期特征信息数据；S202.根据所述多组样本人群的体检数据，以及所述多种癌症早期特征信息数据建立匹配关系数据库；S203.根据IV值分析法从所述匹配关系数据库筛选出每种癌症早期特征信息数据的中IV值高于阈值的特征数据；S204.根据所述特征数据和逻辑回归分析法建立评估模型。

进一步的，为了模型预测的准确率和减少模型训练所需的样本数量，在步骤S201中，所述根据所述多组样本人群的体检数据，以及所述多种癌症早期特征信息数据建立匹配关系数据库包括如下步骤：对多组样本人群的体检数据、多种癌症早期特征信息数据以及伴随体特征信息进行聚类和融合，得到多个多维向量；对融合后的多个多维向量进行归一化处理，并将其映射到向量空间中，得到向量空间模型。可选的，聚类或融合方法包括K－means、KNN、k－prototypes、CLARA、k－medoids、PCM等。

进一步的，为了得到对模型预测价值较高的特征信息数据，组成癌症早期发病风险数据集合，需要更精确的特征信息，因此，在步骤S203中，主要通过IV值分析法进行筛选来实现。

具体地，以高危目标人群胃癌风险为例：通过IV值分析法进行筛选后，该风险特征信息数据大体包括七个变量：年龄、性别、PGI/II比率、G－17水平、幽门螺杆菌感染、腌制食品和油炸食品等。具体说，性别是男还是女？年龄是大还是小？是否经常或者偶尔吃腌制食品、油炸食品？幽门螺杆菌感染(酶联免疫单位)为阴性或是阳性？胃蛋白酶原I/II(PGI/II)和胃泌素17(G－17，pmol/L)是正常还是异常？等。其中，目标人群在医院进行常规的胃镜检查即可获得血清胃蛋白酶原(PG)I，PGⅡ、胃泌素－17(G－17)和抗幽门螺杆菌IgG抗体浓度数据。再比如，通过IV值分析法进行筛选后，10年ASCVD发病风险的特征信息数据主要包括七个变量：(1)、男性包括：年龄、治疗或未治疗的收缩压水平、总胆固醇、高密度脂蛋白胆固醇、当前吸烟状况、糖尿病、腰围、南北方区域、城乡、ASCVD家族史，以及年龄分别与收缩压、当前吸烟状况、ASCVD家族史的交互作用；(2)、女性包括：年龄、治疗或未治疗的收缩压水平、总胆固醇、高密度脂蛋白胆固醇、当前吸烟状况、糖尿病、腰围、南北方区域，以及年龄与收缩压的交互作用等。

可以理解，IV值的全称是information value，中文的就是信息量或信息值，其主要作用就是在决策树或逻辑回归构建分类模型时对变量进行筛选。IV衡量的是某一个变量的信息量，从公式来看的话，相当于是自变量WOE(Weight of Evidence，证据的权重)值的一个加权求和，其值的大小决定了自变量对于目标变量的影响程度，对于分组i，其对应的IV值参考其对应的分组权重，其中n是分组个数，注意，在变量的任何分组中，不应该出现响应数为0或非响应数位0的情况，当变量的一个分组的响应数位0时，对应的woe就为负无穷，此时IV值为正无穷。如果可能，直接把这个分组做成一个规则，作为模型的前置条件或补充条件。单个分组IV值计算公式为：

Pyi为该分组中响应用户数占所有响应用户的比例，Pni为该分组中非响应用户数占所有非响应用户的比例；yi和ni分别对应于响应用户数和非响应用户数。计算了一个变量各个组的IV值之后，我们就可以计算整个变量的IV值：

因此，上述响应用户数和非响应用户数和分别对应本发明实施例中的被筛选出的特征数据和非特征数据。

进一步的，在步骤S204中，所述根据所述特征数据和逻辑回归分析法建立评估模型包括如下步骤：根据每个特征数据的在匹配关系数据库中的分布计算其对应的早期癌症发生概率；根据所述每个特征数据的的早期癌症发生概率，确定其作为自变量在多元回归方程的权重，并建立多元回归方程。

优选的，所述多元回归方程表示为：

应当理解，本实施例中，考虑到不同的地域、不同性别、不同年龄阶段、不同环境以及不同行为习惯等因素可能对癌症早期发病风险评估预测结果的影响，因此这里引入了多元logistics回归(逻辑回归)算法。多元logistics回归实际就是多个二元logistics回归模型描述各类与参考分类相比各因素的作用。例如，对于癌症早期发病风险类别集合(低危、中危、高危)这样一个三分类的因变量，这里可以建立两个二元logistics回归模型，分别描述中危与低危相比以及中危与高危相比的结果，但在估计这些模型参数时，所有对象是一起估计的，其他参数的意义及模型的筛选等与二元logistics类似。因为这里因变量是定类数据，并且只使用两个数字去表示，规定为1和0，并且只能是1或0，比如1代表高危(或者低危)；0代表中危险。如果想研究某些因素对于因变量的影响关系，并且因变量只有两个取值时(并且只能是0和1)，此时则应该使用二元Logistic回归分析，本实施例是用户的常规体检特征信息数据。

在上述实施例中，还包括对待评估人的体检数据或样本人群的体检数据进行预处理。具体地，采集目标人群(样本人群)的常规体检特征信息数据以及各类癌症发病风险指标特征信息数据以及伴随症状特征信息数据，并进行脱敏处理。首先获取用户常规体检数据并进行预处理，构建常规体检特征信息数据库；然后获取各类癌症早期发病风险特征信息数据(包括生化指标的特征信息、影像指标的特征信息、体征和症状描述的特征信息、不良行为习惯指标的特征信息等)，构建癌症早期发病风险特征信息数据库；对目标人群常规体检特征信息数据以及各类癌症早期发病风险特征信息数据进行标准化，并标注这些癌症早期发病风险的类别。

上述标准化处理，包括：对不规整、不统一的数据进行类型转换、数据填充、数据删除操作；数据转换包括二值型数据转换、连续型数据转换等。比如，二值型数据转换如下：即根据阈值将数据二值化(将特征值设置为0或1)，用于处理连续型变量。大于阈值的值映射为1，而小于或等于阈值的值映射为0。默认阈值为0时，特征中所有的正值都映射到1。比如，性别字段“男”或“女”、居住地字段“南方”或“北方”、血压≥140/90mmHg字段“是”或“否”，以及吸烟史、酗酒史等字段“是”或“否”，即可分别表示“0”或“1”；连续数据又称连续变量，指在一定区间内可以任意取值、数值是连续不断的、相邻两个数值可作无限分割(即可取无限个数值)的数据。其转换如下：比如血氧[95～99％、90～94％、85～89％、70～84％转换为“0”、“1”、“2”、“3”]、心率(次/分)[55～90、91～100、101～110、111～130、131～180转换为“0”、“1”、“2”、“3”、“4”]。再比如，特征信息为年龄，它是一个连续数值，也需要将其转换为离散类别(未成年人、青年人、中年人、老年人)等；数据填充即对各常规体检项目的相关空值字段进行均值填充，用以提高模型训练的精准性。风险类型标注为单一类别，即类别标签只对应风险类别集合(低危、中危、高危)中的一种。

进一步的，在确定以上各种癌症早期发病所需危险因素变量及分析结果之后，通过对各模型变量进行赋值后，就可以确定风险评估预测模型了。比如，肺癌早期风险共包括11个变量，其中吸烟变量包括吸烟状态和吸烟支数两个变量。肺癌风险评估模型中的吸烟风险根据吸烟支数赋分时，每天吸烟20支及以上者，赋分3分；每天吸烟10－20支的赋分2分；每天吸烟1－10支者赋分1分；以前吸烟，但现在己戒烟者赋分1分；从不吸烟者赋分为0，最后影像分析结果为良赋分0分，判断结果为恶赋分1分。肺癌风险评估模型的赋分范围为0－12分，个体得分越高，肺癌风险越高。将分析结果和枚举的危险因素结合在一起，作为候选模型中的特征变量，之后再使用Logistic回归分析的方法建立风险评估预测模型。

实施例2

本发明的第二方面，提供了一种基于体检数据的癌症早期风险评估系统1，包括获取模块11、建立模块12和评估模块13，所述获取模块11，用于获取待评估人的体检数据和样本人群的体检数据；所述建立模块12，用于根据样本人群的体检数据和IV值分析法建立评估模型；所述评估模块13，用于利用所述评估模型和待评估人的体检数据，评估其患有早期癌症的概率。

进一步的，所述建立模块12包括获取单元、匹配单元、筛选单元和建立单元，所述获取单元，用于获取多组样本人群的体检数据，以及多种癌症早期特征信息数据；所述匹配单元，用于根据所述多组样本人群的体检数据，以及所述多种癌症早期特征信息数据建立匹配关系数据库；所述筛选单元，用于根据IV值分析法从所述匹配关系数据库筛选出每种癌症早期特征信息数据的中IV值高于阈值的特征数据；所述建立单元，用于根据所述特征数据和逻辑回归分析法建立评估模型。

可以理解，本实施例最后会依据用户常规体检数据，匹配出癌症早期可能的发病风险认知推断和预测区间和概率，生成评估预测分析和认知报告。比如，根据常规体检数据匹配胃癌发病各项危险因素(年龄、性别、饮食习惯、幽门螺杆菌感染、胃蛋白酶原I/II、胃泌素17)后，可以计算出总评分值。如果总分为6分，那么胃癌患病风险值为1.8％，属于低危风险。也就是说基本没有肿瘤高发风险项，肿瘤风险较低。

实施例3

本发明的第三方面，提供了一种基于体检数据的癌症早期风险评估装置，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明的第一方面提供的基于体检数据的癌症早期风险评估方法。

参考图3，基于GPS约束和动态校正的城区单目测图装置500可以包括处理装置(例如中央处理器、图形处理器等)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

通常以下装置可以连接至I/O接口505：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507；包括例如硬盘等的存储装置508；以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备500，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置509从网络上被下载和安装，或者从存储装置508被安装，或者从ROM502被安装。在该计算机程序被处理装置501执行时，执行本公开的实施例的方法中限定的上述功能。需要说明的是，本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD－ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于体检数据的癌症早期风险评估方法，其特征在于，包括：

获取待评估人的体检数据和样本人群的体检数据；

根据样本人群的体检数据和IV值分析法建立评估模型；

利用所述评估模型和待评估人的体检数据，评估其患有早期癌症的概率。

2.根据权利要求1所述的基于体检数据的癌症早期风险评估方法，其特征在于，所述根据样本人群的体检数据和IV值分析法建立评估模型包括如下步骤：

获取多组样本人群的体检数据，以及多种癌症早期特征信息数据；

根据所述多组样本人群的体检数据，以及所述多种癌症早期特征信息数据建立匹配关系数据库；

根据IV值分析法从所述匹配关系数据库筛选出每种癌症早期特征信息数据的中IV值高于阈值的特征数据；

根据所述特征数据和逻辑回归分析法建立评估模型。

3.根据权利要求2所述的基于体检数据的癌症早期风险评估方法，其特征在于，所述根据所述多组样本人群的体检数据，以及所述多种癌症早期特征信息数据建立匹配关系数据库包括如下步骤：

对多组样本人群的体检数据、多种癌症早期特征信息数据以及伴随体特征信息进行聚类和融合，得到多个多维向量；

对融合后的多个多维向量进行归一化处理，并将其映射到向量空间中，得到向量空间模型。

4.根据权利要求2所述的基于体检数据的癌症早期风险评估方法，其特征在于，所述根据所述特征数据和逻辑回归分析法建立评估模型包括如下步骤：

根据每个特征数据的在匹配关系数据库中的分布计算其对应的早期癌症发生概率；

根据所述每个特征数据的的早期癌症发生概率，确定其作为自变量在多元回归方程的权重，并建立多元回归方程。

5.根据权利要求4所述的基于体检数据的癌症早期风险评估方法，其特征在于，所述多元回归方程表示为：

其中，P(y＝1|x)表示早期癌症发生的概率的预测值，x表示特征数据，y表示早期癌症发生的概率；g(x)＝w₀+w₁x₁+…+w_nx_n，w代表自变量在多元回归方程的权重，n代表特征数据的数量。

6.根据权利要求1－5中任一项所述的基于体检数据的癌症早期风险评估方法，其特征在于，还包括对待评估人的体检数据或样本人群的体检数据进行预处理。

7.一种基于体检数据的癌症早期风险评估系统，包括获取模块、建立模块和评估模块，

所述获取模块，用于获取待评估人的体检数据和样本人群的体检数据；

所述建立模块，用于根据样本人群的体检数据和IV值分析法建立评估模型；

所述评估模块，用于利用所述评估模型和待评估人的体检数据，评估其患有早期癌症的概率。

8.根据权利要求7所述的基于体检数据的癌症早期风险评估系统，其特征在于，所述建立模块包括获取单元、匹配单元、筛选单元和建立单元，

所述获取单元，用于获取多组样本人群的体检数据，以及多种癌症早期特征信息数据；

所述匹配单元，用于根据所述多组样本人群的体检数据，以及所述多种癌症早期特征信息数据建立匹配关系数据库；

所述筛选单元，用于根据IV值分析法从所述匹配关系数据库筛选出每种癌症早期特征信息数据的中IV值高于阈值的特征数据；

所述建立单元，用于根据所述特征数据和逻辑回归分析法建立评估模型。

9.一种基于体检数据的癌症早期风险评估装置，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至6中任一项所述的基于体检数据的癌症早期风险评估方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的基于体检数据的癌症早期风险评估方法。