CN112133427A - 一种基于人工智能的胃癌辅助诊断系统 - Google Patents
一种基于人工智能的胃癌辅助诊断系统 Download PDFInfo
- Publication number
- CN112133427A CN112133427A CN202010992128.6A CN202010992128A CN112133427A CN 112133427 A CN112133427 A CN 112133427A CN 202010992128 A CN202010992128 A CN 202010992128A CN 112133427 A CN112133427 A CN 112133427A
- Authority
- CN
- China
- Prior art keywords
- diagnosis
- history
- data
- patient
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Abstract
本发明公开了一种基于人工智能的胃癌辅助诊断系统,包括诊断选择模块:就诊者从自诊服务、普通服务和标准服务中选择对应的诊断服务,并被提供对应的采集模板;数据采集模块:根据就诊者的选择,有条件地采集就诊者的基本信息、饮食习惯、感染史、疾病史、家族史、临床症状和检验项目;数据预处理模块:对采集的数据进行预处理,得到标准化数据;诊断模块:使用诊断模型分析标准化数据,得到就诊者所处的胃癌阶段;显示输出模块:个性化地显示就诊者的诊断结果,以及就诊者对应的高危标签和引证文献。该辅助诊断系统有助于提高胃癌筛查的普及率,以及减少就诊者不必要的有创活检,并能提醒就诊者目前患病的高危因素。
Description
技术领域:本发明涉及识别领域,尤其涉及胃癌分类,具体是指一种基于人工智能的胃癌辅助诊断系统。
背景技术:胃癌(gastric cancer)是世界上主要的死亡原因之一。全球每年新发胃癌病例约120万,我国约占其中的40%(国家卫生健康委员会.(2019). 胃癌诊疗规范(2018年版).中华消化病与影像杂志(电子版). 9: 118-144.)。我国胃癌的新发病率和死亡率分别位居我国恶性肿瘤的第2位、第3位。目前,我国发现的胃癌有90%左右处于进展期,而胃癌的预后与胃癌分期相关,进展期胃癌即使接受了外科手术,5年的生存率仍低于30%,而早期胃癌治疗后的5年生存率超过90%,甚至可以治愈。然而,我国早期胃癌的诊治率低于10%,远低于日本(70%)和韩国(50%)(杜奕奇,蔡全才,廖专,等.(2018). 中国早期胃癌筛查流程专家共识意见(草案)(2017年, 上海). 胃肠病学. 23: 92-97.)。因此,有必要推广和完善胃癌的早期筛查。
胃癌的发生发展是多因素综合作用的结果,与人口学、生活饮食、感染、遗传、疾病和环境等都有关。因此,结合临床检验数据,并兼顾就诊者的其它个人因素,有助于提高胃癌的确诊率。当前,胃癌的金标准是通过胃镜及其活检来判断的,但是胃镜具有一定的痛苦,一般就诊者不愿意接受。况且,普通内镜适用于进展期胃癌,对早期胃癌的检出率较低,所以在进行内镜检查前,需要采用非侵入性诊断方法筛选出胃癌高风险人群(杜奕奇,蔡全才,廖专,等.(2018). 中国早期胃癌筛查流程专家共识意见(草案)(2017年, 上海). 胃肠病学. 23: 92-97.),这也是基于人工智能的胃癌辅助诊断系统的意义所在。它能结合目前的临床检验项目,以及就诊者的个人情况,筛选出潜在的胃癌高风险人群。
随着人工智能技术的不断发展,其在医疗领域的强大辅助功能也得到了认可。杨荣等(杨荣,陈誉,高红梅,等. (2019).基于临床数据的胃癌筛查模型研究. 中国医学物理学杂志. 36: 1095-1102.)利用临床数据,通过决策树算法构建胃癌筛查辅助模型,其AUC=0.809,具有良好的胃癌风险识别能力,但是需要就诊者做多项临床项目,无意增加了就医成本,且研究的数据比较局限于临床数据,无法多角度评价就诊者的身体状况。王志杰等(王智杰,高杰,孟茜茜,等. (2018). 基于深度学习的人工智能技术在早期胃癌诊断中的应用. 中华消化内镜杂志. 35: 551-556.)利用深度学习诊断早期胃癌,准确率为89.4%、敏感度为88.8%、特异度为89.7%,均高于内镜医师,但是该技术需要就诊者做胃镜检查,这不符合多数人的需求。 Hirasawa等(Hirasawa T,Aoyama K,Tanimoto T,et al.(2018).Application of artificial intelligence using a convolutional neural networkfor detecting gastric cancer in endoscopic images. Gastric Cancer. 87: 1-8.)构建的CNN胃癌检测系统能够在很短的时间内处理大量存储的内镜图像,且在独立测试图像集中灵敏度为92.2%,但同样要求就诊者先做内镜检查。上述研究表明,人工智能可以用于胃癌的辅助诊断,且能获得不错的诊断结果,但是需要考虑就诊费用和就诊接受度。
发明内容:本发明的目的在于,为了解决上述现有的人工智能诊断技术存在的问题,本发明提供了一种基于人工智能的胃癌辅助诊断系统,该系统能够根据采集到的就诊者的数据,个性化地给出诊断结果。
为实现上述目的,本发明提供一种基于人工智能的胃癌辅助诊断系统,包括:诊断选择模块、数据采集模块、预处理模块、诊断模块和显示输出模块。
诊断选择模块:将就诊者的诊断需求分为自诊服务、普通服务和标准服务,并根据就诊者的选择提供对应的采集模板;
数据采集模块:根据就诊者的诊断选择,有条件地采集就诊者的基本信息、生活饮食、感染史、疾病史、家族史、临床症状和检验项目;
预处理模块:对采集的文本数据进行语义表征,转化为数值型数据,同时标准化数值数据,合并输入至诊断模块;
诊断模块:使用预训练的模型,分析预处理模块中的数据,得到对应的诊断结果;
显示输出模块:在显示器上显示本次的诊断结果,以及根据就诊者采集的信息显示就诊者的高危标签和引证文献。
优选地,所述的自诊服务指采集的信息只有就诊者的基本信息、生活饮食、感染史、疾病史、家族史和临床症状,其中基本信息包括年龄和性别,生活饮食包括摄盐量、吸烟、饮酒和饮食规律,感染史包括幽门螺杆菌感染史,疾病史包括慢性萎缩性胃炎、胃溃疡、胃息肉、术后残胃、恶性贫血和胃粘膜肥厚,家族史包括遗传性弥漫性胃癌家族史和林奇综合征家族史,临床症状需要就诊者根据实际症状自述。
优选地,所述的普通服务指采集的信息只有就诊者的检验项目。
优选地,所述的标准服务指采集的信息囊括就诊者的基本信息、生活饮食、感染史、疾病史、家族史、临床症状和检验项目。
优选地,所述的采集模板是指就诊者选择自诊服务时,提供问卷调查模板,内容涉及就诊者的基本信息、生活饮食、感染史、疾病史、家族史和临床症状;就诊者选择普通服务时,提供对应检验项目的填写模板;就诊者选择标准服务时,提供问卷调查模板和检验项目填写模板。
优选地,所述的有条件地采集是数据采集模块只采集就诊者在选择诊断服务后填写的数据。
优选地,所述的语义表征在采集的文本信息只有是/否时,直接转为0/1编码;采集的文本信息含有两个以上的选项时,使用数字化编码或哑变量编码;采集的文本信息是句子时,具体步骤有:
(1)使用jieba(结巴),并结合胃癌症状词库表提取胃癌症状词;
(2)使用词袋模型获取句子的向量。
优选地,所述的标准化数值数据是对非检验项目中的数值数据采用等间隔或等百分比离散化。
优选地,所述的预训练模型是指线下训练好的模型,具体步骤有:
(1)线下收集就诊者的基本信息、生活饮食、感染史、疾病史、家族史、临床症状和检验项目,清洗出严重缺失的数据;
(2)对筛选后的数据按照权利要求7和权利要求8进行文本数据语义表征和数值数据离散化,填充缺失数据,使用孤立森林(Isolation Forest)剔除异常的检验项目数据;
(3)按照自诊服务、普通服务和标准服务三个方向分别采用不同的特征组合,使用XGBoost、LightGBM和CatBoost组合筛选特征,筛选方法为:
F = X(Top N)∩L(Top N)∩C(Top N)
其中,X(Top N)为XGBoost特征重要性排序的Top N个特征,L(Top N) 为LightGBM特征重要性排序的Top N个特征,C(Top N) 为CatBoost特征重要性排序的Top N个特征,F为X (Top N)、L(Top N)、C(Top N)的交集特征。
(4)使用LightGBM训练处理后的数据,并以AUC为评价指标评估及优化模型,最终得到自诊服务模型、普通服务模型和标准服务模型等三个上线模型。
优选地,所述的高危标签是与胃癌密切挂钩的高危因素,具体步骤为:
(1)从专业书籍、专业文献和临床指南中找到和胃癌相关的高危危险因素,连同文献索引一起存到数据库中;
(2)把就诊者填写的基本信息、生活饮食、感染史、疾病史、家族史和临床症状等数据与胃癌的高危危险因素进行匹配,匹配成功就追加到高危标签列中。
本发明的基于人工智能的胃癌辅助诊断系统结合了临床医学、机器学习、知识图谱、自然语言处理等多项技术,从专业书籍、专业文献和临床指南中认识胃癌的病因和发病机制,深入挖掘与胃癌密切挂钩的特征及特征组合,在显示诊断结果的同时,也会附加诊断所依赖的引证文献。本发明根据就诊者的信息,个性化地提供与胃癌相关的高危标签,提醒就诊者远离不利因素。
本发明的一种基于人工智能的胃癌辅助诊断系统优点在于:
本发明的系统能够辅助胃癌的诊断,减少不必要的有创活检,同时降低胃癌筛查的成本和诊断时间;同时,本发明可以在就诊者知情的情况下,为就诊者提供多项服务,获得模型所需的数据,从而间接提升就诊者的参与度,为胃癌的早期筛查提供便利。
附图说明:图1为本发明提供的一种基于人工智能的胃癌辅助诊断系统的线上工作流程图。
图2为本发明提供的一种基于人工智能的胃癌辅助诊断系统的线下架构示意图。
图3为本发明中就诊者的信息采集示意图;
具体实施方式:为更好说明本发明的目的、技术方案和优点,下面结合附图和实施例对本发明所述的一种基于人工智能的胃癌辅助诊断系统进行详细说明。
如图1所示,本发明提供了一种多个模块组合的胃癌辅助诊断系统。本系统主要包括5个模块,详细介绍如下:
1.诊断选择模块
该模块提供给就诊者三个可选项:自诊服务、普通服务、标准服务,就诊者选择对应的服务,进入对应的采集模块。
2.采集模块
该模块根据就诊者的选择,采集就诊者的个人信息。
就诊者选择自诊服务,只采集图3中的基本信息、生活饮食、感染史、疾病史、家族史和临床症状,这些数据都是就诊者可以根据自身的实际情况填写的,而不需要做任何临床检验项目,节省了就诊者的就诊成本。
就诊者选择普通服务,只采集图3中的检验项目,目前的检验项目有脂肪酸项目和胆汁酸项目,其中脂肪酸项目由十六碳一烯酸(C16:1)、十八碳一烯酸(C18:1)、十八碳二烯酸(C18:2)、α-十八碳三烯酸(α-C18:3)、γ-十八碳三烯酸(γ-C18:3)、二十碳一烯酸(C20:1)、二十碳四烯酸(C20:4)、二十碳五烯酸(C20:5)、ω-3-二十二碳五烯酸(ω-3-C22:5)、ω-6-二十二碳五烯酸(ω-6-C22:5)和二十二碳六烯酸(C22:6)等11项不饱和脂肪酸组成;胆汁酸项目由胆酸(CA)、脱氧胆酸(DCA)、鹅脱氧胆酸(CDCA)、熊/猪脱氧胆酸(UDCA)、石胆酸(LCA)、甘氨胆酸(GCA)、甘氨石胆酸(GLCA)、甘氨脱氧胆酸(GDCA)、甘氨鹅脱氧胆酸(GCDCA)、甘氨熊脱氧胆酸(GUDCA)、牛磺胆酸(TCA)、牛磺石胆酸(TLCA)、牛磺脱氧胆酸(TDCA)、牛磺鹅脱氧胆酸(TCDCA)和牛磺熊脱氧胆酸(TUDCA)等15项组成。
就诊者选择标准服务,将采集图3中的所有数据。
3.预处理模块
采集的数据为文本数据时将进行语义表征,转化为数值型数据。文本信息主要有三类情况:
第一类,当文本信息只有是/否时,直接转为0/1编码;
第二类,文本信息含有两个以上的选项时,使用数字化编码或哑变量编码;
第三类,文本信息是句子时,具体步骤有:
(1)使用jieba(结巴),并结合胃癌症状词库表提取胃癌症状词;
(2)使用词袋模型获取句子的向量。
采集的数据为数值数据时,其中非检验项目数据采用等间隔或等百分比离散化,检验项目中的数值数据不变。
4.诊断模块
使用图2模型库中的模型,分析预处理模块中的数据,得到对应的诊断结果。模型生成的方式如图2所示:
(1)从Lis系统和电子病历中抽取就诊者的数据,并存入数据库。从专业书籍、专业文献和临床指南中抽取胃癌相关的发病因素,并把引证文献的索引保存到数据库中。
(2)从数据库中,加载就诊者的基本信息、生活饮食、感染史、疾病史、家族史、临床症状和检验项目,清洗出严重缺失的数据,然后采用图1中预处理模块的方法语义表征文本数据和转换数值数据。
(3)使用孤立森林(Isolation Forest)剔除(2)中处理后的异常数据;
(4)按照自诊服务、普通服务和标准服务三个方向分别采用不同的特征组合,使用XGBoost、LightGBM和CatBoost组合筛选特征,筛选方法为:
F = X(Top N)∩L(Top N)∩C(Top N)
其中,X(Top N)为XGBoost特征重要性排序的Top N个特征,L(Top N) 为LightGBM特征重要性排序的Top N个特征,C(Top N) 为CatBoost特征重要性排序的Top N个特征,F为X (Top N)、L(Top N)、C(Top N)的交集特征。
(5)使用LightGBM训练处理后的数据,并以AUC为评价指标评估及优化模型,最终得到三个上线模型。
5.显示输出模块
在显示器上显示本次的诊断结果,高危标签和引证文献,其中高危标签生成过程为:
(1)从专业书籍、专业文献和临床指南中找到和胃癌相关的高危危险因素,连同文献索引一起存到数据库中;
(2)把就诊者填写的基本信息、生活饮食、感染史、疾病史、家族史和临床症状等数据与胃癌的高危危险因素进行匹配,匹配成功就追加到高危标签列中。
本发明结合了临床医学、机器学习、知识图谱、自然语言处理等多项技术,能根据就诊者提供的信息,个性化地提供诊断结果、高危标签和引证文献。
本发明的系统可以安装在智能手机上,就诊者可以根据自己的需要随时随地的在线进行诊断,了解自身的情况,减少医院就诊的等待时间。医生通过问诊,分析就诊者的检验项目,以及使用胃癌辅助诊断系统节省单次诊断时间。
实施例1:
就诊者选择普通服务,在检验项目模板中,填写了脂肪酸的数据,十六碳一烯酸(C16:1)=10.4μmol/L、十八碳一烯酸(C18:1)=124μmol/L、十八碳二烯酸(C18:2)=161μmol/L、α-十八碳三烯酸(α-C18:3)=9.2μmol/L、γ-十八碳三烯酸(γ-C18:3)=1.88μmol/L、二十碳一烯酸(C20:1)=1.24μmol/L、二十碳四烯酸(C20:4)=47.1μmol/L、二十碳五烯酸(C20:5)=2.62μmol/L、ω-3-二十二碳五烯酸(ω-3-C22:5)=2.85μmol/L、ω-6-二十二碳五烯酸(ω-6-C22:5)=2.52μmol/L和二十二碳六烯酸(C22:6)=21.5μmol/L。
胃癌辅助诊断系统分析结果为:
诊断结果:良性:6.67%,恶性:93.33%。
引证文献:总共显示16条,其中2条为:
(1)Lee S, Lee J, Choi IJ, et al. Dietary n-3 and n-6 polyunsaturatedfatty acids, the FADS gene, and the risk of gastric cancer in a Koreanpopulation[J]. Sci Rep-uk, 2018, 8(1): 3823.
(2)Dai JF, Shen JH, Pan WS. Effects of polyunsaturated fatty acids on thegrowth of gastric cancer cells in vitro[J]. 2013, 12(1), 71.
其中,良性包括健康和普通胃部疾病,恶性包括胃癌前病变、早期胃癌和进展期胃癌,恶性概率高,就诊者要引起重视,及时咨询相关医生,引证文献均是与胃癌相关的脂肪酸文献,便于就诊者检索。
实施例2:
就诊者选择自诊服务,在问卷中填入信息如下:
性别:男,年龄:30,摄盐量:<5g/d,日吸烟量:空,烟龄:空,饮酒量:空,饮酒类别:空,酒龄:空,主食:均衡饮食,饮食偏好:其它,饮食习惯:用餐速度快,幽门螺杆菌感染:是,幽门螺杆菌清除:是,癌前疾病:无,癌前疾病时间:无,家族成员患有的肿瘤名称:无,家族肿瘤成员与就诊者的关系:无,家族肿瘤成员<50岁的人数:无,就诊者症状自述:最近受凉了,胃有点不舒服。
预处理模块进行处理,得到特征数据为:
性别:0,年龄:1,摄盐量:0,日吸烟量:0,烟龄:0,饮酒量:0,饮酒类别:0,酒龄:0,主食:0,饮食偏好:0,饮食习惯:2,幽门螺杆菌感染:1,幽门螺杆菌清除:0,癌前疾病:0,癌前疾病时间:0,家族成员患有的肿瘤名称:0,家族肿瘤成员与就诊者的关系:0,家族肿瘤成员<50岁的人数:0,就诊者症状自述:0000000000000100000000000000。
胃癌辅助诊断系统分析结果为:
诊断结果:良性:98.69%,恶性:1.31%。
高危标签:幽门螺杆菌感染
引证文献:总共显示8条,其中2条为:
(1)Eslick GD, Lira LL, Byles JE, et al. Association of Helicobacterpylori infection with gastric carcinoma: a meta-analysis[J]. Am JGastroenterol, 1999, 94(9): 2373-2379.
(2)Uemura N, Okamoto S, Yamamoto S et al. Helicobacter pylori infectionand the development of gastric cancer[J]. N Engl J Med, 2001, 345(11): 784-789.
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者对其中部分技术进行等同替换,仍属于本发明的权利要求范围。
Claims (10)
1.一种基于人工智能的胃癌辅助诊断系统,其特征在于,包括:诊断选择模块、数据采集模块、预处理模块、诊断模块和显示输出模块,具体如下:
诊断选择模块:将就诊者的诊断需求分为自诊服务、普通服务和标准服务,并根据就诊者的选择提供对应的采集模板;
数据采集模块:根据就诊者的诊断选择,有条件地采集就诊者的基本信息、生活饮食、感染史、疾病史、家族史、临床症状和检验项目;
预处理模块:对采集的文本数据进行语义表征,转化为数值型数据,同时标准化数值数据,合并输入至诊断模块;
诊断模块:使用预训练的模型,分析预处理模块中的数据,得到对应的诊断结果;
显示输出模块:在显示器上显示本次的诊断结果,以及根据就诊者采集的信息显示就诊者的高危标签和引证文献。
2.根据权利要求1所述的基于人工智能的胃癌辅助诊断系统,其特征在于,所述的自诊服务指采集的信息为就诊者的基本信息、生活饮食、感染史、疾病史、家族史和临床症状,其中基本信息包括年龄和性别,生活饮食包括摄盐量、吸烟、饮酒和饮食规律,感染史包括幽门螺杆菌感染史,疾病史包括慢性萎缩性胃炎、胃溃疡、胃息肉、术后残胃、恶性贫血和胃粘膜肥厚,家族史包括遗传性弥漫性胃癌家族史和林奇综合征家族史,临床症状需要就诊者根据实际症状自述。
3.根据权利要求1所述的基于人工智能的胃癌辅助诊断系统,其特征在于,所述的普通服务指采集的信息仅为就诊者的检验项目。
4.根据权利要求1所述的基于人工智能的胃癌辅助诊断系统,其特征在于,所述的标准服务指采集的信息囊括就诊者的基本信息、生活饮食、感染史、疾病史、家族史、临床症状和检验项目。
5.根据权利要求1所述的基于人工智能的胃癌辅助诊断系统,其特征在于,所述的采集模板是指就诊者选择自诊服务时,提供问卷调查模板,内容涉及就诊者的基本信息、生活饮食、感染史、疾病史、家族史和临床症状;就诊者选择普通服务时,提供对应检验项目的填写模板;就诊者选择标准服务时,提供问卷调查模板和检验项目填写模板。
6.根据权利要求1所述的基于人工智能的胃癌辅助诊断系统,其特征在于,所述的有条件地采集是数据采集模块只采集就诊者在选择诊断服务后填写的数据。
7.根据权利要求1所述的基于人工智能的胃癌辅助诊断系统,其特征在于,所述的语义表征在采集的文本信息只有是/否时,直接转为0/1编码;采集的文本信息含有两个以上的选项时,使用数字化编码或哑变量编码;采集的文本信息是句子时,具体步骤有:
(1)使用jieba(结巴),并结合胃癌症状词库表提取胃癌症状词;
(2)使用词袋模型获取句子的向量。
8.根据权利要求1所述的基于人工智能的胃癌辅助诊断系统,其特征在于,所述的标准化数值数据是对非检验项目中的数值数据采用等间隔或等百分比离散化。
9.根据权利要求1所述的基于人工智能的胃癌辅助诊断系统,其特征在于,所述的预训练模型是指线下训练好的模型,具体步骤有:
(1)线下收集就诊者的基本信息、生活饮食、感染史、疾病史、家族史、临床症状和检验项目,清洗出严重缺失的数据;
(2)对筛选后的数据按照权利要求7和权利要求8进行文本数据语义表征和数值数据离散化,填充缺失数据,使用孤立森林(Isolation Forest)剔除异常的检验项目数据;
(3)按照自诊服务、普通服务和标准服务三个方向分别采用不同的特征组合,使用XGBoost、LightGBM和CatBoost组合筛选特征,筛选方法为:
F = X(Top N)∩L(Top N)∩C(Top N)
其中,X(Top N)为XGBoost特征重要性排序的Top N个特征,L(Top N) 为LightGBM特征重要性排序的Top N个特征,C(Top N) 为CatBoost特征重要性排序的Top N个特征,F为X (Top N)、L(Top N)、C(Top N)的交集特征;
(4)使用LightGBM训练处理后的数据,并以AUC为评价指标评估及优化模型,最终得到自诊服务模型、普通服务模型和标准服务模型等三个上线模型。
10.根据权利要求1所述的基于人工智能的胃癌辅助诊断系统,其特征在于,所述的高危标签是与胃癌密切挂钩的高危因素,具体步骤为:
(1)从专业书籍、专业文献和临床指南中找到和胃癌相关的高危危险因素,连同文献索引一起存到数据库中;
(2)把就诊者填写的基本信息、生活饮食、感染史、疾病史、家族史和临床症状等数据与胃癌的高危危险因素进行匹配,匹配成功就追加到高危标签列中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010992128.6A CN112133427A (zh) | 2020-09-24 | 2020-09-24 | 一种基于人工智能的胃癌辅助诊断系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010992128.6A CN112133427A (zh) | 2020-09-24 | 2020-09-24 | 一种基于人工智能的胃癌辅助诊断系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112133427A true CN112133427A (zh) | 2020-12-25 |
Family
ID=73841437
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010992128.6A Pending CN112133427A (zh) | 2020-09-24 | 2020-09-24 | 一种基于人工智能的胃癌辅助诊断系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112133427A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992343A (zh) * | 2021-03-10 | 2021-06-18 | 重庆医科大学 | 一种对2型糖尿病患者的冠心病辅助诊断系统 |
CN113488123A (zh) * | 2021-04-21 | 2021-10-08 | 广州医科大学附属第一医院 | 建立基于诊断时效的covid-19分诊系统的方法、该系统及分诊方法 |
CN114121263A (zh) * | 2021-11-08 | 2022-03-01 | 绵阳富临医院有限公司 | 人工智能辅助早期胃癌、肺癌筛查系统 |
CN115240847A (zh) * | 2022-09-23 | 2022-10-25 | 紫东信息科技(苏州)有限公司 | 一种胃溃疡诊断装置、设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160259899A1 (en) * | 2015-03-04 | 2016-09-08 | Expeda ehf | Clinical decision support system for diagnosing and monitoring of a disease of a patient |
CN106228006A (zh) * | 2016-07-20 | 2016-12-14 | 广东药科大学 | 一种早期胃癌筛查系统及方法 |
CN109036571A (zh) * | 2014-12-08 | 2018-12-18 | 20/20基因系统股份有限公司 | 用于预测患有癌症的可能性或风险的方法和机器学习系统 |
US20190035504A1 (en) * | 2017-07-26 | 2019-01-31 | Gumi Electronics & Information Technology Research Institute | Method of providing information for the diagnosis of pancreatic cancer using bayesian network based on artificial intelligence, computer program, and computer-readable recording media using the same |
CN110689961A (zh) * | 2019-09-03 | 2020-01-14 | 重庆大学 | 一种基于大数据分析技术的胃癌疾病风险检测装置 |
CN111312405A (zh) * | 2020-02-12 | 2020-06-19 | 宁德市闽东医院 | 一种健康体检胃癌筛查评估及管理系统 |
CN111666762A (zh) * | 2020-05-20 | 2020-09-15 | 东华大学 | 一种基于多任务学习的肠癌诊断电子病历属性值抽取方法 |
-
2020
- 2020-09-24 CN CN202010992128.6A patent/CN112133427A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036571A (zh) * | 2014-12-08 | 2018-12-18 | 20/20基因系统股份有限公司 | 用于预测患有癌症的可能性或风险的方法和机器学习系统 |
US20160259899A1 (en) * | 2015-03-04 | 2016-09-08 | Expeda ehf | Clinical decision support system for diagnosing and monitoring of a disease of a patient |
CN106228006A (zh) * | 2016-07-20 | 2016-12-14 | 广东药科大学 | 一种早期胃癌筛查系统及方法 |
US20190035504A1 (en) * | 2017-07-26 | 2019-01-31 | Gumi Electronics & Information Technology Research Institute | Method of providing information for the diagnosis of pancreatic cancer using bayesian network based on artificial intelligence, computer program, and computer-readable recording media using the same |
CN110689961A (zh) * | 2019-09-03 | 2020-01-14 | 重庆大学 | 一种基于大数据分析技术的胃癌疾病风险检测装置 |
CN111312405A (zh) * | 2020-02-12 | 2020-06-19 | 宁德市闽东医院 | 一种健康体检胃癌筛查评估及管理系统 |
CN111666762A (zh) * | 2020-05-20 | 2020-09-15 | 东华大学 | 一种基于多任务学习的肠癌诊断电子病历属性值抽取方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112992343A (zh) * | 2021-03-10 | 2021-06-18 | 重庆医科大学 | 一种对2型糖尿病患者的冠心病辅助诊断系统 |
CN113488123A (zh) * | 2021-04-21 | 2021-10-08 | 广州医科大学附属第一医院 | 建立基于诊断时效的covid-19分诊系统的方法、该系统及分诊方法 |
CN113488123B (zh) * | 2021-04-21 | 2023-07-18 | 广州医科大学附属第一医院 | 建立基于诊断时效的covid-19分诊系统的方法、该系统及分诊方法 |
CN114121263A (zh) * | 2021-11-08 | 2022-03-01 | 绵阳富临医院有限公司 | 人工智能辅助早期胃癌、肺癌筛查系统 |
CN115240847A (zh) * | 2022-09-23 | 2022-10-25 | 紫东信息科技(苏州)有限公司 | 一种胃溃疡诊断装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112133427A (zh) | 一种基于人工智能的胃癌辅助诊断系统 | |
Day et al. | Histopathological standards for the diagnosis of gastrointestinal inflammation in endoscopic biopsy samples from the dog and cat: a report from the World Small Animal Veterinary Association Gastrointestinal Standardization Group | |
Paulis et al. | Prevalence and risk factors of dehydration among nursing home residents: a systematic review | |
Jiang et al. | Application of computer tongue image analysis technology in the diagnosis of NAFLD | |
Jagannath et al. | Routine neonatal circumcision for the prevention of urinary tract infections in infancy | |
Attallah et al. | Histo-CADx: duo cascaded fusion stages for breast cancer diagnosis from histopathological images | |
Sullivan et al. | Does mother's smoking influence girls’ smoking more than boys’ smoking? A 20-year review of the literature using a sex-and gender-based analysis | |
Ashton et al. | Analysis and hierarchical clustering of blood results before diagnosis in pediatric inflammatory bowel disease | |
Huang et al. | Maternal polyunsaturated fatty acids and risk for autism spectrum disorder in the MARBLES high-risk study | |
Rinawi et al. | The natural history of pediatric-onset IBD-unclassified and prediction of Crohn’s disease reclassification: a 27-year study | |
CN111199796A (zh) | 一种疾病辅助决策方法、装置及电子设备 | |
Gong et al. | Automatic captioning of early gastric cancer using magnification endoscopy with narrow-band imaging | |
Yin et al. | Deep learning for pancreatic diseases based on endoscopic ultrasound: A systematic review | |
Choi et al. | Improved detection of urolithiasis using high-resolution computed tomography images by a vision transformer model | |
Zhang et al. | Longitudinal Association Between Oral Status and Depressive Symptoms Among Chinese Older Adults—China, 2014–2018 | |
CN113409264B (zh) | 一种自动检测六龄牙龋齿的检测装置 | |
US20210241133A1 (en) | Methods and systems for physiologically informed gestational inquiries | |
Nalla et al. | Influence of Convolutional Neural Network Depth on the Efficacy of Automated Breast Cancer Screening Systems | |
CN110689961B (zh) | 一种基于大数据分析技术的胃癌疾病风险检测装置 | |
CN112820370A (zh) | 基于舌象信息的健康管理系统 | |
Dai et al. | The association between dietary inflammatory potential and urologic cancers: a meta-analysis | |
Shao et al. | Three-dimensional ultrasound images in the assessment of bladder tumor health monitoring under deep learning algorithms | |
Kim | Serrated polyposis syndrome in a single-center 10-year experience | |
Glass et al. | The value of obtaining colonic mucosal biopsies of grossly normal tissue in pediatric patients | |
Juanita et al. | Identifying Precautionary Measures for High-Risk Disease from Doctor's Answer Text Using LDA |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |