CN107066783A

CN107066783A - 一种跨平台临床大数据分析及显示系统

Info

Publication number: CN107066783A
Application number: CN201611008761.7A
Authority: CN
Inventors: 杜永扬; 吴昱甫; 曾晧原; 郑智忠; 黄健豪; 黄凌嵩; 曾欣; 钟晴; 何玠辉; 廖颂扬; 曾浩翔; 简希城; 阎贵廷; 蔡孟峰; 洪纬岦
Original assignee: Ha Shas Special Medical Development Co Ltd
Current assignee: Ha Shas Special Medical Development Co Ltd
Priority date: 2016-11-16
Filing date: 2016-11-16
Publication date: 2017-08-18

Abstract

本发明公开了一种跨平台临床大数据分析及显示系统，包括伺服器、学术版网站、普通版网站、学术版嵌入式应用、普通版嵌入式应用，伺服器包括临床医疗数据收集子系统、专家验证子系统、自动化加速子系统、自动化回归诊断子系统和自动化统计子系统，能高效精准统计临床疾病大数据，利用医疗大数据快速进行纵贯、横断性研究，客观化重组数据结果，以多种模型统计及显示不同性别、年龄层与共病之间的关系、以及疾病与疾病、药物与疾病、药物与手术之间关系，验证过去理论与提出新理论，可以用于医疗、保险、医学研究、制药等领域。

Description

一种跨平台临床大数据分析及显示系统

技术领域

本发明涉及一种分析与显示临床疾病大数据系统，属于医疗及计算机互联网技术领域。

背景技术

共病(comorbidity)指两种或两种以上同时或非同时存在的疾病，而共病间的关联性在临床医学的疾病分类(nosology)上非常重要。共病显示一种疾病暂时的多层次关联(temporal relationships between co-existing disease)，不同年龄出现的慢性病(chronology)往往影响疾病分类的建立和临床决策。复杂的慢性病史与病人的预后息息相关(Bmj 334，1016-1017(2007)and Annals of family medicine 4，417-422(2006))，特别在老人医学和癌症(Jama 291，2441-2447(2004))方面。随着老龄人口逐年增加，针对共病的研究课题应作出应变，但目前并没有足够的实证医学证据能提供相关的诊断与治疗决策(Jama294，716-724(2005)and Lancet 367，550-551(2006))。

共病以发生原因可分为：(1)、因果性(causal)，即两种或以上疾病有共同的病生理。(2)、复杂性(complicating)，即与疾病间的特异性死亡有关。根据发生时间又可以区分为并存性(concurrent)、并发性(intercurrent)和相继的合并症(successivecomorbidity)(Journal of child psychology and psychiatry，and allieddisciplines 40，57-87(1999))，并存性即为两种非相关性的疾病同时存在，而并发性(intercurrent)即代表共病间的交互作用受到疾病的急性期所影响，通常受到时间限制。

共病的医学研究在最近10年有飞跃性的发展(Cell March 18，2011 vol.144no.6986-998)。过去有研究利用单一医学中心所提供150万病历统计161种疾病与基因之间的关联性(PNAS July 10，2007 vol.104 no.28 11694-11699)，建立模型并计算出表型(phenotype)的进程(time course)与疾病发生的机率(probability)，亦有哈佛学者使用三千两百万病人的数据库中(PLoS Comput Biol 5(4)：e1000353)，统计大于六十五岁病人的过去病史，进行横断式研究，并计算ICD9诊断码包括的疾病间之相对风险(Relativerisk)。以上研究对共病与临床学医大数据之分析有着重大意义，提出了结合人体生物数据库有理化分析与自动化分析之概念。

虽然上述创新研究在学术上有贡献，但其结果在实验临床使用上依然具有很多待解决的障碍，在这举出以下几点原因：一、其使用的数据库代表性低，且非记录了市民一般的就医习惯；二、其使用的分析方法为横断式研究和类似世代追踪的自创之方法，其证据力与因果推导、内在效度比传统世代追踪研究相低；三、使用横断式研究并不能计算疾病完整的疾病周期，死亡率等重要之临床数据；四、其自动化分析缺乏具高可信度的验证，无论在数据库中的内部验证与数据库外的外部验证均不足够；五、缺乏有理化地统计疾病的诊断码集合；六、缺乏排除药物与手术所造成的并发症等。

在过去有台湾学者运用卫生福利部中央健康保险署(National HealthInsurance Administration Ministry of Health and Welfare)所提供的数据，参考国外先导研究，建立大数据进行自动化分析(横断式)，但横断式(Cross sectional study)与具时间性的纵向式研究(longitudinal study)在效率上的差异可到数十倍之多，在计算效率上也存在障碍。

发明内容

为了克服现有技术的不足，本发明提供一种以临床数据为基础，利用医疗大数据快速进行纵贯、横断性研究，客观化重组数据结果，以及显示疾病与疾病、药物与疾病、药物与手术之间统计结果的跨平台临床大数据分析及显示系统。

本发明解决其技术问题所采用的技术方案是：

一种跨平台临床大数据分析及显示系统，该系统包括：

伺服器：用于处理及储存各种数据，能够进行用户身份识别，接收前端接口传入之参数，传送运算结果至前端接口。

学术版网站：与伺服器通讯，针对系统授权的人士，能够进行身份辨识、记录与存取；具有多个前端接口，包括设定诊断码、药物、外科手术之接口；具有一运算请求前端界面；具有一接口提供用户设定账号数据；具有一接口提供用户设定研究方法与显示方式；具有多个结果显示前端接口，所述结果显示前端接口包括显示人口统计之接口、显示追踪期统计之接口、显示诊断回归之接口、显示森林图之接口、显示图片之接口。

普通版网站：与伺服器通讯，针对普通使用者或病人，需要用户输入过去病史、疾病处理、处理经过内容，系统自动分析现在健康状况及显示分析结果；能够进行身份辨识、记录与存取；具有多个循序渐进地显示前端界面，前端界面包括一填写过去医疗史之接口，一填写治疗史之接口，一填写疾病结果之接口，一选择分析方式之接口，一显示分析结果之接口。

学术版嵌入式应用：与伺服器通讯，应用于智能手机或医学仪器上，能够进行身份辨识、记录与存取，具有一Tab Control页面接口，一工作接口，一文字说明框接口。

普通版嵌入式应用：与伺服器通讯，应用于智能手机或医学仪器上，能够进行身份辨识、记录与存取，渐进地显示前端界面，前端界面包括一填写过去医疗史之接口，一填写治疗史之接口，一填写疾病结果之接口，一选择分析方式之接口，一显示分析结果之接口。

所述伺服器包括临床医疗数据收集子系统，所述临床医疗数据收集子系统用于收集各种临床医学数据，并转化为统一格式，分类疾病发生事件、疾病种类，分类存活病人，分类实验组病人、控制组病人。

所述临床医疗数据收集子系统在收集临床医学数据步骤中，包括从原始的临床医学数据中切割日期数据和疾病诊断码数据之步骤。

所述伺服器包括专家验证子系统，所述专家验证子系统用于由医疗专家对数据库中数据的真实性进行检验，验证系统之统计结果。

所述伺服器包括自动化加速子系统，所述自动化加速子系统采用统计学原理，自动化地对所有疾病进行组合，直至所有疾病组合结束。

所述伺服器包括自动化回归诊断子系统，所述自动化回归诊断子系统根据输入的条件，采用回归统计法进行回归诊断。

所述伺服器包括自动化统计子系统，所述自动化统计子系统根据输入的条件，对系统中某一疾病组合数据进行统计。

本发明的有益效果是：本发明的系统能高效精准统计临床疾病大数据，利用医疗大数据快速进行纵贯、横断性研究，客观化重组数据结果，以多种模型统计及显示不同性别、年龄层与共病之间的关系、以及疾病与疾病、药物与疾病、药物与手术之间关系，验证过去理论与提出新理论(如发炎是否会增加癌症风险)，并建立16000种疾病临床过程(clinical course)之风险趋势图，可用于协助临床医师评估病人未来患上未知疾病之风险、用药风险、未来死亡率等；用于医学研究人员对课题想法与结果之验证；用于保险业务评估受保人之未来患上未知疾病的风险；用于药厂与其他生物制药公司能快速监控药物的治疗效果、所造成的各种不良反应，以及比较两种或多种药物间的治疗效果与不良反应；用于普通使用者或病患根据个人医疗史分析未来之患病风险；用于在门诊中看诊之病患、病房之病患、健康检查中心等机构对病人病史之了解；用于外科医学上比较各种手术之死亡率，以及比较药物与外科手术之死亡率等，本发明的系统具有如下优点：

1、数据库代表性高，本系统之自动化步骤精简了旧有纵贯性研究的步骤与使用数据量，因此可大幅精简实际系统的结构。

2、使用之加速方法为精简步骤之横断式研究法和纵贯性研究法，其算法与运算结果并没有差异，保留其证据力、内在与外在效度。

3、本系统分析超过一亿种组合之纵贯性研究，能计算疾病完整的疾病周期、疾病之网络以及疾病之方向性，死亡率等重要之临床数据。

4、自动化分析回归诊断并结合外部与内部验证，具高可信度的验证。

5、有理化地统计疾病的诊断码集合，以使用在单一诊断码无法代表该疾病时，弥补了过去单一诊断码进行横断式研究和纵贯性研究之缺点。

6、排除药物与手术所造成的并发症等，增加了内在效度。

7、首次建立药物与外科手术之自动化分析系统。

8、克服计算效率之问题，基于本技术开发之网站，程序与软件，简化了使用步骤，抛开过去进行横断式研究和纵贯性研究之复杂过程，可使用户能轻易地学习与使用，并具有高扩充性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1是本发明的系统结构图；

图2是临床医疗数据收集子系统之流程图；

图3是自动化统计子系统之流程图；

图4是专家验证子系统之流程图；

图5是自动化归回诊断子系统之流程图；

图6是伺服器之流程图；

图7是专业版网站之系统之流程图；

图8是普通版网站之流程图；

图9是嵌入式应用子系统之流程图。

具体实施方式

参照图1至图9，一种跨平台临床大数据分析及显示系统，该系统包括：

学术版网站：与伺服器通讯，针对系统授权的人士，能够进行身份辨识、记录与存取；具有多个前端接口，包括设定诊断码、药物、外科手术之接口；具有一运算请求前端界面；具有一接口提供用户设定账号数据；具有一接口提供用户设定研究方法与显示方式；具有多个结果显示前端接口，结果显示前端接口包括显示人口统计之接口、显示追踪期统计之接口、显示诊断回归之接口、显示森林图之接口、显示图片之接口。

学术版嵌入式应用：与伺服器通讯，应用于智能手机或医学仪器上，能够进行身份辨识、记录与存取，具有一Tab Control(选项控件)页面接口，一工作接口，一文字说明框接口。

台湾健保计划(National Health Insurance Program in Taiwan)收集了两千三百多万名台湾地区市民之就医数据，建立台湾健保数据库(National Health InsuranceResearch Database，简称：NHIRD)提供学者所研究之使用。NHIRD覆盖台湾超过90％的人口，过去NHIRD从母群体中抽样建立百万归人档(longitudinal health insurancedatabase，简称：LHID)、癌症登录档、全台全住院档、全台重大伤病档、全台1/2孩童档，并广泛使用在临床医学、流行病学以及公共卫生等研究上，统计至今(即2016年11月初)共发表论文二千余篇。在NHIRD所提供之数据库中，以LHID最具代表性。LHID收集共十五年(1996-2011)的就医记录，收集内容包括病人的基本数据，如门诊和任院等就医记录。疾病诊断使用国际疾病分类第九版(The International Classification of Disease-NinthRevision，简称：ICD9)，包括约928种三码(3 digit level)诊断码和13813种五码(5 digitlevel)诊断码，若包括E&V类码即1234种三码与16327种五码。其他数据库的数据格式与LHID类似，如全台重大伤病文件在重大疾病的记录较为详细，全台1/2孩童档则只收录全台1996-2008年共12年全台湾一半小于18/20岁孩童的就医记录，全住院数据文件则只收录全台15年间所有使用健保住院之病人数据。有国外著名学者在著名医学期刊发表文章介绍NHIRD的优点与重要性，即NHIRD为快速分析医疗大数据且能保有高可信度之重要工具(JAMA Intern Med.2015 Sep；175(9)：1527-9)，这是本专利基本的临床医疗数据原始来源。

一、临床医疗数据收集子系统

本系统汇入NHIRD与其他国内外医疗数据之数据库，使其转换成能加速统计、自动化、有理化分析之格式，汇入各种临床数据建立临床医疗数据库，数据库的来源包括LHID、癌症登录档、全台全住院档、全台重大伤病档、全台1/2孩童文件等数据库并进行数据转换并储存。取得数据库LHID、癌症登录文件、全台全住院档、全台重大伤病档、全台1/2孩童档、慢性肾病登录归人档(参见图2之A流程)[A001]后，把原本由光盘中或其他装置中取得之原始未处理之数据(Raw data)利用SAS(STATISTICAL ANALYSIS SYSTEM，统计分析软件)处理，根据台湾健保计划(National Health Insurance Program in Taiwan)所提供之最新译码薄之译码，把原始数据切割成*.SAS7BDAT和转换成*.CSV之资料格式[A002]，切割和转换过程中没有任何数据流失，根据各原始资料之病历登录范围，即住院档(DD-admission)与门诊档(CD-OPD)[A003][步骤A004]，使用语言-结构化查询语言(Structural QueryLanguage-SQL)汇入PostgreSQL(PostgreSQL Global Development group，9.5.2version)、SQL server 2016(Microsoft)、MariaDB version 10.1.13(MariaDBCorporation Ab，MariaDB Foundation)数据库中储存并格式化已切割之数据[A005]。除了全台住院文件之外，共他数据库包括LHID、癌症登录档、全台全住院档、全台重大伤病档、全台1/2孩童档、慢性肾病登录归人档都同时具备CD(门诊)与DD(住院)档，即只有全台全院数据文件不具备CD文件。储存在系统之数据，将进行诊断码切割转换[A006]与日期类数据之转换[A007]。诊断码切割转换[A006]把CD与DD档之病人之新ID(Haza_id)，经[A011]处理之输出，诊断码输入日期(即门诊或住院时申报诊断码之日期)与ICD诊断码独立字段之合并与格式倒转，即把CD/DD档之独立字段CD档中共有5笔ICD码，而DD档则共有三笔之独立字段，经格式例转至[A008]同一字段[A009]。同一字段ICD根据原本之日期兴病患ID合并成同一例。在数据日期与非日期类格式处理过程中[A007]，先判断数据字段是否为日期类数据，若判断为非日期类数据则储存为文字类数据[A012]，若判读为日期类数据即储存成日期类数据[A010]。

日期类数据将使用在：一、判断病患之身份(ID_birthday，病患之出生日期)[A011]；二、判断病人诊断码在门诊下诊断之日期(func_date)；三、住院日期(in_date)与诊断码之申报日期(Appl_date)。储存成日期格式之出生日期之字段，将与病患之ID合并成新ID[A011]，避免有重复病患ID出现以致影响计算结果之情况。

完成合并后即马上回传至[A006]，经过上述步骤到[A009]后，按日期类数据之大小重新排序[A013]，并按该病人之诊断日期判读最大值[A014](死亡数值)与最小值[A015]。最小值之计算将使用在判读病人之初诊断某一疾病之日期，并使用在归类病人之世代追踪之分类组别[A017]。而最大值之计算将使用在判读病人之最后就医日期，比较其与投保日期之差异，来判断该病人是否在该就医日期前、就医日期后死亡、或病人并未死亡[A016]。当判读该病人之最初诊断后，便按预先接受的manual input(人工输入)[A018]，即指一种可以接受其网站系统、嵌入式应用所传送之数据，在这步骤专指三种时间长度，如下：一、排除非初诊断之日期(Exclusion period)：本时期决定病人之诊断如果同时出现在收件期中，即判读病人为非初诊断，非初诊断专指一种旧诊断，即诊断为过去已患上之疾病；二、收件期(Inclusion period)：当在此时间所发生之诊断并未出现于排除期，即把病人收录，若病人符合特定条件，即可进入追踪期；三、追踪期(Follow up period)：专指一种把收件期中之病人追踪一定日期并观察是否有真事件发生之时期(Event)，或计算病人是否在时期内死亡藉以计算生存率(survival)等之重要数据，亦是横断型研究与纵向式之最大差别之处。当接受日期输入后，便把病人重新分成门诊(CD)与住院(DD)[A019]，用以方便计算病人在收件期之诊断次数，判断病人之诊断是否「已确诊」，避免收录错误诊断所造成之误差(bias)。CD与DD档病人之就诊日期，按照manual input之日期或时间长度，比较两者之间之大小，兹以排除日为例[A020][A026]，若少于排除日之设定日期之上限[A023][A029]，即把病人归类成排除组；若大于排除日之设定日期[A021][A027]同时小于追踪期之设定日期，即把病人归类成收件组[A024][A030]；若否[A022][A028]，即把病人归类成追踪组[A025][A031]。当病人之分类完成，便进入巢式循环(Nested while loop)之第一循环中，收件组进入[A033]之循环，而排除组则进入[A032]之循环。在这里之巢式循环专指一种专门把疾病矩阵中之所有排列组合进行纵向式研究之方法，为达到计算目的，把病人之诊断码分为原发疾病(Index disease/primary disease/1^st diagnosis，在流程图中将以符号i标示)，而在原发疾病后发生之疾病称为次发疾病(secondary disease/2^nd diagnosis，symbol j，在流程图中将以符号j标示)进行疾病排列组合之计算。

二、自动化加速子系统

进入巢式循环中之第一层循环，i之起始数据为ICD码中最小之三码或五码，而极限值则为ICD码中最大之三码或五码，当判断收件组与排除组病人符合该循环条件[A032][A033]为True(正确)时，即当i小于或等于设定之上限时，进入以下指示[A034]。方法[A035]以该层之i为初诊断之疾病码，处理收件组与排除组中有重复诊断(旧诊断)之病人，原理为使用left join涵式计算两组是否有交集[A036]，即计算两组病人之ID是否有重复，所排除之病人归类成已排除组(Excluded)[A037]，已进入已排除组之病人将不会进入后续之统计。待进入循环之下一ICD码(i++)之计算[A045]，将重新执行[A034]之步骤。计算经去除旧诊断之收件组病人之某一诊断码之诊断次数[A038]，若门诊(CD)之诊断该病人之次数大于或等于三次，即判读为True并把该病人收归进入实验组(experimental group)[A040]，而不符合[A038]之条件之病人则判读为False并把该病人收归进入控制组(control group)[A039]。经[A039][A040]收归之病人则合并追踪期之资料[A041]并根据其底线(Baseline)之设定进入追踪期数据之统计[A042][A043]。在这里之底线专指一种由[A018]接收，决定收件期与追踪期分界之日期。进入第二层循环[A044]，以j为计算核心，其条件设定与i之第一层循环相似，参考上述之[A032][A033]之方法。第二层之变量与第一层循环相似，其差异在于第二层之处理死亡与疾病发生事件之部份。若判读True[A046]则计算该层之j疾病出现之次数，j之起始值为ICD码中最小之三码或五码，而极限值则为ICD码中最大之三码或五码，当判断收件组与排除组病人符合该循环条件为True时，即当j小于或等于设定之上限时，进入以下指示[A047]。[A047]之方法为计算在追踪期中是否有出现j疾病，如果有出现大于或等于一次，即判读为true[A049]，并按病人之ID把发生事件累加[A050]，而发生j疾病之日期亦会与i疾病发生之日期比较并计算出人年(person-years)[A051]。而当在指定日期内j疾病没有在该病人发生时就会计算下一个病人并把该病人判读为无发生发件[A048]。

当取得人年后，即进入判读病人是否在发生J疾病后出现死亡事件[A052]。参考NHIRD之丧失资格应退保之共三种情况，加上其他特别条件，建立自动判读病人是否可归类成「非存活」之机制，其方法如下:分类成五种条件，优先判读NHIRD之丧失资格应退保之三种情况；其一为死亡[A053]，即病人经法定机构判定死亡并根据健保局之规定在三日后退保之病人，若判读为是，即归类为死亡[A058]，若判读为非，则进入下一层判读或指示，如此类推。其二为失踪满六个月的人[A054]，若判读为是，则归类为失去追踪[A059]。其三为丧失投保资格[A055]，即丧失中国国籍、户籍迁出国外、外籍人士居留期限届满等若判读为是同样归类为失去追踪[A060]。此外由于NHIRD除了以上健保局之三规范外，还会出现以下两种情况，即服兵役、进监狱或看守所超过两个月以上。[A056]判读民国90年以前之资料是否属于服兵役，若判断为是则归类成失去追踪[A061]，而[A057]则判读病人是否在进监狱或看守所超过两个月以上，判断为是则属死亡[A062]，如判断为非，代表病人非「非存活」[A063]，而存活之病人将不进入死亡率与生存曲线之计算。

因一般临床医学研究的纵向式研究之方法，其中一部份为探讨在某一疾病状态下所造成患上另一疾病之风险，因此用这用i与j代表疾病之状态，j为因i之疾病状态所发生之继发疾病。进入巢式循环则能达成计算ij组合之目的，因此将有16459(i)x16459(j)种排列组合，亦即为上述所称之疾病矩阵。又因ij之间有时间顺序性，即i疾病与j疾病之间有一时间性：i_→j，如i之疾病为高血压而j之疾病为糖血病，则i(高血压)_→j(糖血病)与i(高血压)_→j(糖血病)之实验共不同之意义；若实验设定为i(高血压)_→j(糖血病)，代表研究高血压病人患上糖尿病之风险为何，而实验设定为i(高血压)_→j(糖血病)，则代表研究糖尿病病人患上高血压之风险，由此可见i_nj_m不等于i_mj_n，两者不能取代，亦代表两种可能风险会同时存在。另外，两者之间有着方向性，若以传统方法计算ij之间的关系，并不能计算出真正的疾病的关连性(i_→j或j_→i)。传统方法如计算糖尿病(i)是否会增加高血压(j)之风险，计算结果为风险比值(Hazard Ratio)大于1且统计学上有显著差异，基于这结果通常得到糖尿病导致高血压风险增加的结论。若计算高血压是否会增加糖尿病时，计算结果为风险比值约等于1，结合以上结果，如何得知糖尿病是否真正增加高血压之风险。本专利利用自动化之技术，透过统计出16459(i)x16459(j)种排列组合之世代追踪，计算出(符号：)方向性，设I和J的连结为L(i_→j)。假设在探讨I(exposure)和J的关联性为，HR＞1时i-＞j，而J和I的关联性则是J-＞I，HR＞1时J-＞I。因此在探讨1-＞J与J-＞I可用公式λ_i→j＝log₁₀[(l_i→j)/(l_j→i)]得知1-＞J的方向性，若λ＞0时1-＞J，若λ＜0时J-＞I。使用些方法可以进一步了解每一种疾病在风险上整体角色如何：Λ_i＝∑_jλ_i→j，当Λ_i愈大时，愈能代表I疾病的角色为source type，相反则是sink type。计算出真正的疾病的关连性(i_→j或j_→i)。

三、自动化统计子系统

本专利研发一种新方法称为多重巢式纵贯性统计(Multiple-NestedLongitudinal Statistic，MNLS)(图3之B流程)，简化矩阵形纵贯性研究之步骤，其核心概在于使用嵌套方式，简化纵贯性研究之方法，加速但保留原本统计之正确性。该方法使用在自动化计算2x2(m*n)或以上矩阵之统计，其矩阵之指令周期取决于m元素之最大值，例如使用在100(i)x1000(j)之矩阵组合，能有效降低约一千倍运算时间，而使用在16459(i)x16459(j)之矩阵组合，则能有效降低约一万六千多倍运算时间。该方法使用在计算巨大数据组合上，如上述描述之1x1疾病组合或1x16459组合并不适合使用MNLS，必需达到2x2之疾病组合才有加速效果，因此上述之方法之manual input[A018]为2x2或以上组合时，即启动MNLS之运算模式。MNLS被启动后，进入第一层之巢式循环，判读i疾病是否出现在收件期[B001]，即判读为正确即判读是为阳性(符号A：index disease positive(1st+))[B002]，若为阳性即把该病人收录在实验组(Exposure(+))[B004]，若[B002]判断为否，代表阴性(α：index disease negative(1st-))，即把该病人收录在对照组(Exposure(-))[B003]。[B003][B004]之组别分别进入[B005]与[B006]之第二层巢式循环，在该层之巢式循环具有一判断i疾病是否等于j疾病之判断式[B007-B008]，若i疾病等于j疾病则重新进入第二层巢式循环[B018]，进入下一个j疾病之计算，该判断式能在m＝n之情况下减少一多无意义之运算。在[B007]与[B008]判读结束后，进入[B009]与[B010]之判断式。[D009]为判读有没有患上i疾病之人是否在追踪期中出现j疾病，即是否αnβm(符号β：secondary diseasepositive(2nd+))，若否则代表该病人是αnBm(符号B：secondary disease negative(2nd-))。[B010]则判读有患上i疾病之人是否在追踪期中出现j疾病，即是否Anβm，若否则代表该病人是AnBm。因此在第二层之循环可把病人分类成4种，分别是Anβm[B012]、AnBm[B014]、αnβm[B011]与αnBm[B013]，此4种分类目的在于使用AnBm与αnBm类别之数据进入统计[B017]，而Anβm与αnβm之病人则不进入计算范围[B015][B016]，并经[B018][B019]进入第二层循环。在第二层所分类之nm病人，将储存在内存，因此在进入下一个j疾病时不需要重新分类病人，可使用上第二层巢式循环之上一个j疾病之病人分类AnBm[B014]与αnBm[B013]，直至第二层巢式循环结束并进入第一层巢式回圈之下一个i疾病时再重新分类病人[B001]，如此类推。如此矩阵之指令周期取决于m元素之最大值，即第二层之j疾病之多寡，[B017]统计之矩阵结果如[B020]所显示。

四、专家验证子系统

A、内部验证系统

为了向证明本专利研发之系统，其推算出来的数据是精准而值得信赖的，验证便成为了本专利不可或缺而相当重要的之部份。为此本专利利用数据探勘把过去使用NHIRD作为研究样本之论文收集，并制定特定格式，汇集成数据库以利日后进行比较(图4之C流程)。由于依靠数据探勘所形成之数据库需要专人验证，并特别编列出一个独立的小组-「验证组」对本数据库之数据进行处理与验证，此段方法之简介即会阐述整个数据探勘与验证组的组织架构与验证工作的流程经过。验证工作可以分为五个步骤。一、以数据探勘方式收集论文；二、筛选出合适的论文并渲染成数据库；三、经专家检查数据库是否正确；四、统整搜集的数据，并进行数据分析。

在第一步骤中，由于这个系统的核心运算结果是以呈现出「在某种疾病状态下对于另一疾病」之「风险比值」为第一个运行的计划，因此为了对这个计划进行验证，首要筛选出的论文，即是以「研究单一疾病对于另一疾病所造成的风险比值」(Hazard ratio of I_→J)为筛选条件，并设定搜寻的论文为纵向研究。本专利是以NHIRD之数据库为基础之方法，虽然设计之方法为通用之系统，但由于其数据为台湾市民之就医记录，所以在此以搜寻NHIRD所发表之论文，尤其是LHID所发表之论文。学术论文搜索引擎选用PubMed、GoogleScholar、Web of Science、Medline等，其中以PubMed所搜寻之期刊优先处理。透过学术机构购买之学术期刊下载相关论文，并以论文之PMID(即论文在PubMed中所使用之论文ID)命名，以PDF格式储存。由于PubMed所搜寻之论文只能表NHIRD所发表之一大部份，其余论文即以其他学术论文搜索引擎搜寻，并把交集之论文删除。由所下载之PDF论文经由Poppler(0.42.0 version，2016，freedesktop.org)工具进行PDF渲染成html格式(图4之C流程)[C001]。储存成之html格式之论文有利进行文字探勘，在python语言下运行pandas(0.18.0version)处理html格式论文[C002]。最后html论文会渲染成方便python处理之格式[C003]。该结构之论文会进行文字探勘，探勘所取得之结果将储存成数据库。

在内部验证中所探勘之数据必需对验证之进行有正面影响，因此本专利选取少数能在验证中发挥实际验证用途之数据作探勘之用，如论文之基本数据、收件标准与排除标准、病人之分组与分层、研究之性质与统计数据共五大项，分别在以下阐述第二步骤之方法。第一项论文之基本数据[C004]收集了PubMed ID、论文题目、数字对象识别号(DigitalObject Identifier，简称DOI)、论文刊登之期刊名称、期刊之卷(Volume、Issues)与页数(Page)等。第二项之收件标准[C005]与排除标准[C006]，即根据研究之特殊要求而限制之标准，举例如下：研究糖尿病病人是否比一般人有更高机会发生硬脑膜下血肿(Subduralhematoma)，因此「收件标准」[C005]设定为在收件期中有发现或没有发现糖尿病之病人，而「排除标准」[C006]则是在收件期中发生过硬脑膜下血肿之病人必需排除。论文中可能多于一个标准，甚至没有设定任何标准，因此数据库在后继必需进行处理。第三项为病人之分组与分层[C007]，在论文中通常会把病人按照年龄、性别、收入、社经地位等把病人分成几个组别，方便比较不同组别病人是否在疾病发生率上有显著差异，描述性统计等。第四项为研究之性质[C008]，即世代追踪研究法，病例对照研究法，随机对照试验(RCT)，综合分析(meta-analysis)与系统回顾(systemic reviews)等。因本专利主需要验证之数据为纵向研究之性质，因此会优先收纳与处理该类数据，而综合分析与系统回顾则有可能包括NHIRD之数据。第五项为统计数据[C009]，数据分别有粗略(Crude)和调整(Adjusted)后之风险比值(Hazard Ratio)、相对风险(Relative Risk)、胜算比(Odd Ratio)，与相对应之p值与95％信赖区间。兹统计数据之收集主要取决于论文性质与数据之关键词，其次为组别与分层，如论文之研究性质为病例对照研究法，则收集之数据该为胜算比，而世代追踪研究法则收集相对风险与风险比值。以上由数据(或文字)探勘所取得之数据，储存为数据库后，需经过专家检查数据字段，数据格式是否有需要经过进一步次处理。

第三步骤为专家检查数据库是否正确。从数据(或文字)探勘中找出了本机构使用健保数据库为数据库基底撰写出来的论文，共有600余篇论文，而从这600余篇论文的标题、论文内容等经上述条件判断后，进而筛选出若干篇论文。在第二步骤中，方法[C005-C009]将论文按照固定的数据库格式进行数据搜集并储存成数据库[C010]。如果论文有写到的其他数据，系统亦会进行纪录并储存在数据库的其他项中。在搜集的过程中往往会遇到一些问题，如：学术机构因没有购买权限，无法免费下载论文全文，或经判断后发现该篇论文不符合本专利要求，前者可透过其他学术机构下载、后者则是初步不需要搜集，因此最后搜集到的论文总数会比所初步搜寻到的还要少一些。此外，虽然本专利在进行计划时，健保局正在推行ICD-10编码，但因为还未正式上线，本专利仍以ICD9编码来搜集。第三步骤，集结成数据库之数据共有超千笔，最后经过专家验证后发现错误共百笔，修正后总共得到了一千余笔统计资料。最后第四步，针对搜集到的数据库，将其统计数据与本专利所统计之数据进行回归分析(以Hazard Ratio之数据为统计之基准)(图2之A流程)，并计算决定系数(Coefficient of determination，R²)。R²为大于0.6，由此可以得知，根据这样严谨的数据搜集过程与回归分析所得到的验证，本专利所发展出来的系统是相当可靠并值得信赖的。其他如药物、手术、处置(procedure)等并非简单的单一疾病对于单一疾病所造成风险比值的论文题目，便不在初步的验证计划之中。

B、外部验证(External Validation)系统

由于上述之方法所描述之技术所使用之数据库为NHIRD，即为台湾本地之数据，因此需要台湾木土所发表之NHIRD之数据作为验证之用，此为内部验证。由于内部验证有所缺考，因此需要外来的数据库或数据作为验证之用，此为外部验证。假若上述技术所使用之NHIRD换成美国本土之数据库，则内部验证所探勘文献为美国本土数据库所发表之论文中的数据，而外部数据库则为非该本土之数据之美国其他数据库或外国所发表之论文中的数据。在此外部验证之本土数据使用由台北医学大学所发展之The Disease Map(http：//disease-map.net/)，该数据库使用病历对照研究法之自动化统计技术，计算病人之分层数据，与本技术设计之格式类似。而外部数据库之外国数据则使用著名之费雷明汉心脏研究(Framingham heart study，https：//www.framinghamheartstudy.org/)以及由哈佛大学发展之HuDiNe数据库(PLoS Computational Biology，(5)：e1000353)(http：//barabasilab.neu.edu/projects/hudine)。HuDiNe数据库为美国之类似世代追踪之研究，即研究人员使用创新之方法模拟纵向研究。而费雷明汉心脏研究使用世代追踪研究法，并根据不同研究题材针对干扰因子有所调整，由专家设计实验，因追踪病人之时间长达几十年(1948年开始)，在医学界有着极高可信度，其缺点为局限于心脏。费雷明汉心脏研究、HuDiNe以及The Disease Map所提供之数据库之年龄层之分层各有差异，与本技术设定之默认年龄分层有差异。如本技术设计之年龄分层为每20岁分一层共分四层，而The DiseaseMap之分层为每10岁分一层共分十层，因此若要以The Disease Map之数据验证本技术计算之精确度，则本技术之分层需要设定为每10岁分一层共分十层，并计算回归之决定系数(R²)。R²愈接近1.0代表此回归模式能够解释全体Yi变异量的比例愈大，两种数据库之数据愈接近。本专利之而验证以费雷明汉心脏研究之R²为优先参考标准。本专利与费雷明汉心脏研究回归之R²为大于0.6，代表本专利所发展出来的系统是相当可靠并值得信赖，与国际之标准十分接近。

五、自动化回归诊断子系统

在本专利A图中解释I疾病与J疾病以回归分析(regression analysis)计算风险比值。回归分析除了能比较不同组之间是否有显著的差异之外，还可以进行存活分析，比较不同别组的存活率。而当需要进行存活分析时，最常用的模式为Cox比例风险模式(coxproportional hazard model)。而当违反Cox之假设时则需要作修正，可以把干扰因子(Confounding factors)当成分层之变量，在此常用之方法为分层cox回归模式(Stratified cox regression)。本专利设计之方法具有弹性，可让用户决定要使用之方法为向，选用Cox比例风险模式或分层cox回归模式。而本专利默认之方法采取较为保守之分层Cox回归模式。不论是前者或后者之方法，其回归分析之结果都有待验证，因此本专利设计自动化之回归验证之系统，以及其验证失败后之办法。兹在验证回归分析之方法称为回归诊断(Regression Diagnostics)，而本专利所设计之系统称为自动化回归诊断(Automatic Regression Diagnostics)。

该自动化系统分成以下几个部份计算回归诊断：共线性之诊断(Collinearity)、独立性之诊断(Independence of errors)、常态分布之测试(Tests for Normality)、选择性的常态分布之测试(Optional Tests for Normality)共四个部份。第一部份为共线性之诊断，引入(图2之A流程)(图3之B流程)之回归分析之结果进行R²之计算(图5之D流程)[D001]，判断R²是否少于0.8，若相关系数过高代表有共线性问题。若[D001]判断为正确，则进入[D002]之计算，如此类推直至[D004]之方法。[D002]之方法为计算容忍值(Tolerance)，数值之范围设定为0.1到1，数值愈大共线性可能性愈低，若回归之数值在设定范围内，则进入[D003]之方法。[D003]之方法为计算变异数膨胀因素(Varianceinflation faction，VIF)，其实际为容忍值之倒数，因此数值愈小其共线数的机率愈低，当大于10判读为正确并进入[D004]之方法。[D004]之方法计算条件指标(Condition Index，CI)，当CI＞30时判读为正确并结束第一部份共线性之诊断。若[D001][D002][D003][D004]之方法为非，即便判读该回归之结果具有共线性[D006]，并进入其解决共线性之办法。解决共线性之办法共有四项，第一项为「选用其他回归之方法」[D007]，即以本专利的默认方法分层Cox回归模式为例，若选用默认方法为回归方法，当回归诊断为共线性时则提供非默认方法之回归方法为下一次之统计方法。第二项为选用偏最小二乘法(Partial LeastSquares Regression，PLS)或(Principal Components Analysis，PCA)，PLS建立新的潜在变量(Latent Variables)，预测矩阵比观测的有更多变量，而PCA则只解释变量中寻找影响的变异[D008]。第三项为逐步回归法(Stepwise Regression)与Subset Regression[D009]，而第四项为增加Regressot[D010]。第二部份则为计算回归之独立性(independence)，采用杜宾-瓦特森统计量(Durbin-Watson test，DW test)[D005]，测定自相关(autocorrelation)是否在α显著性水平下为正或负，并将检验统计量d(TestStatistic d)与关键值(Critical values，dL，α and dU，α)，在正值下d＜dU，α或在负值下(4-d)＞dU，α，代表误差项自相关为正或不为负，而在正值下d＞dU，α或在负值下(4-d)＜dU，α，代表误差项自相关不为正或为负。若杜宾-瓦特森统计量结果显示独立性弱，则进入校正[D011-0D17]。若杜宾-瓦特森统计量结果显示独立性强，则完成独立性之诊断，进入测定常态分布[D018]。第五项为常态分布(Normal Distribution)之验正，检测回归是否非常态分布，分为必须项与自选项，必须项是不需要经过使用者同意，在执行自动化回归诊断即马上执行，而自选项则需用户同意或需经过使用者选择方可执行。必须项之方法为常见之统计方法，即[D018-D020]之方法。方法[C018]计算标准偏差(Standard Deviation，SD)与四分位距(Interquartile range，IQR)之比值，若SD＝IQR/1.35，则为常态分布，并进入[D019]与[D020]之方法。若判读为非，则可能是重尾或轻尾分布(heavier or lighter-than-normal tail)，进入[D029]之方法。而[D019]与[D020]之方法则计算其偏态(skewness)与峰度(kurtosis)，若为常态分布，其偏态与峰度均等于零。当结束[D001-C005]与[D018-C020]方法并判读为正确后，即代表回归为高可信度之结果，跳至方法[D021]让使用者判读回归之数据。若用户选择自选项之方法[D022]，则进行A-D检定(Anderson-Darling test)[D023]、Shapiro-Wilk test[D025]、Kolmogorov-Smirnow test[D026]与Jarque-Bera test[D027]之统计。当A-D验证判读结束后，先跳至[D024]进入人数统计，若样本数大于50则使用KS检定[D026]，而小于50则使用SW检定[D026]进行检定，而[D025]或[D026]之方法执行后即进行[D027]方法之Jarque-Bera test。当结束[D023-D027]方法并判读为正确后，即代表回归为高可信度之结果，跳至方法[D028]让使用者判读回归之数据。以上判断方法为非为，则进入[D029]自动重新进行回归诊断。

六、学术版网站

本专利经过数据库的整合、统计以及验证后，所统计之数据以网站呈现。而网站之呈现方式，数据传送之方法(包括输入与输出)，以及结果之呈现将在以下详细说明。网站的核心架构建立在PostgreSQL(PostgreSQL Global Development group，9.5.2 version)与SQL server 2016(Microsoft)上，透过Shiny(RStudio project.2014 RStudio，Inc.)作前端接口控制，模板(layout)传送至网站以动态呈现(图6之E流程)(图7之F流程)。由本专利之方法所分析之结果之呈现基于使用者之专业，提供不同网站和数据呈现之方式让用户使用。而网站之呈现方式分以下几种，供普通使用者(或病人)使用之网页，供保险从业员使用之网页，以及提供医学、药学或公共卫生之科研人员使用之网页。而不同网页之呈现，代表显示接口、使用方法、数据呈现有所差异。兹医学、药学或公共卫生之科研人员使用之网页为本专利之核心技术，因此以学术版为核心开发网页，在(图7)[F001-F008]为以Shiny设计之前端接口控制。[F001]为商标或网站之名称，以文字或图案显现。[F002]之板面为使用者账号(USER ACC.)之数据，用户账号之建立[E016]时，需要使用者选择使用之类别，使用之类别分为上述之三种(普通使用者、保险界与学术界人士)，选择使用类别后，需要填写使用账号、密码、验证密码、电邮(验证或结果传送)、最高学历、职称、学术机构名称(学术类)、公司(保险或其他机构)、地址等数据，若普通用户则新增过去病史、过去手术史、过去药物史、过去外伤等用于统计未来十二年之风险。该电邮地址往后会使用在用户登入、收费与结果之传送上。使用者之侧(USER PROFILES)储存在SQL Server与PostgreSQL中。当使用者在离开前端网页，或注销账号之后再重新进入时，需要重新登入系统方能继续。使用者登入时输入使用者之账号(或电邮)与密码，并与储存在SQL Server与PostgreSQL中之USERPROFILES进行核对。使用者之喜好，过去曾经计算过之结果会一一被记录。用户之喜好记录用户计算时之选择，共统计选择次数并储存在数据库中，每一之使用之记录会累积并更新在数据库中。在登入之后，这些使用次数最多之记录会经这USER REQUEST并调整选项之默认值，并进行后续处理。使用者亦可以按照自己之喜好而设定之。使用者登入后会呼叫使用者之侧[E011]，用户开始使用查寻系统[E006]时，参数所有选择会传送到伺服器[E007]并进行使用者设定之参数进行内部运算[E008]，内部运算结束后之结果则会记录在用户之侧中[E015]，当用户查询记录[E014]并调阅某一项已运算之结果时，所点选之记录再次被呼叫[E012]，当伺服器接收后不需要重新运算，运算结果会显示于前端接口上[E005]。[F003]之板面为选择疾病之系统或器官，其疾病之分类按照ICD9与MDC(Major DiagnosticCategory)之疾病分类排序25个姐合。板面之3码选项根据系统之选择，动态改变3码之选项，而5码选项则根据3码之选择或系统之选择而改变，若用户没有选择系统或器官之选项，则会选项会按照ICD码由小到大排序显示。[F003]之选取具多重选择之功能，即研究人员可以同时选择高血压与糖尿病等疾病，代表可以同时计算「共病」状态下之统计。[F004]之板面提供使用者选择药物种类(Drug Type，依照ATC与NHIRD之编码)，药物剂量(Drug Dose)，药物剂型(Dosage forms)，药物颗数(Tablet)，药物使用部位与方法(Pathway)，药物使用天数(Day Used)，药物使用频率与药物总剂量(Total Dose)。药物种类与药物总剂量为必需填写项目。药物总剂量之计算为必计算之选项，目的为了方便计算其区间，对数据进行分群工作。若根据台湾药物之编码搜寻，由于台湾健保局建立自己独有之药物分类系统，有别于国际认可之解剖学治疗学及化学分类系统(Anatomical Therapeutic ChemicalClassification System，ATC)编码，NHIRD药物数据中亦缺乏药物之Defined Daily Dose(DDD)，因此若用户提供之编码为台湾之编码，则采用如下之计算方法。台湾之药物总剂量之换算等于单一药物剂量乘以药物颗数乘以药物频率乘以药物天数。而ATC之计算则按照WHOCC之指引。[F004]之板面亦如[F003]之板面一样，具有多重选择之功能，即研究人员可以同时选择降血压药与降血糖药，代表可以同时计算病人之复杂用药之统计。另外[F004]亦提供系统让用户计算外科之相关统计，根据手术部位，手术方式，手术装置(DEVICES)等数据作分层使用。[F003]前端接口之选择参数[E001]，透过Shiny传送[E005]至[F009]之板面。[F006]板面为基本设定，本板面在使用者登入时有一默认设定，如图中所显示之钩符号。基本设定[F006]之板面分成基本数据分组之选择项，为性别(Gender)、年龄(Age)、收入(Income)、社经等级(Urbanization Level)共四项。选择项之数值为本网站之默认设定，使用者可以按照需求钩选不同组别，使用者亦可以自己输入区间值。社经等级为非数值项，因此无法提供输入区间值之功能。[F006]之板面除提供使用者调整研究周期(Studyperiod)，即收件时间(Include)、排除时间(Exclude)、追踪时间或观察时间(Follow up)。研究种类则提供世代追踪(Cohort Study)跟病历对照研究法(Case Control Study)两种方法，研究人员可以根据其要求选择不同之研究方法，例如使用NHIRD研究药物与疾病发现之风险最常用之方法为病历对照研究法。回归诊断之方法提供之自选功能，即[C018-C020]之方法，在此可供用户选择。图表之制作方法为如[F006]所显示，如人口统计(Demographic)、追踪期之统计(Follow Up)、Kaplan-Meier Curve(KM curve)、分位图(Quantile-Quantile Plot，QQ Plot)、箱形图(Box Plot)、残差分析(ResidualAnalysis)、森林图(Forest Plot)、累积发生率(Cumulative incidence)、SchoenfeldPlot等，由于图表种类之多，在图中不能尽述。上述选择激活之后的参数[E001][E002][E003]，透过[F007]板面之按键激活[E002]传送至伺服器[E008]进行运算。[F005]之板面为Tab Control控制设定与结果页面之显示，具有能显示多层页面之功能，共有8层前页面可呼叫并显示在前端接口[E005]。在登入系统时显示在第一层之页面为设定之页面(Setting)[F009]，其接口设计为显示在[F003]与[F004]中所选取之选项，并按照选取之对象分类，如[F002]诊断码之选取选择优先于[F004]之选择，[F003]显示在[F004]之上，并提供多重选择之显示。诊断码显示之排序按照诊断码之大小，而每个诊断码亦附上各自之疾病名称，以及所属之系统或器官，选择所激活之参数[E001]传送至[E002]待命，当[F007]被激活后[E002]之参数将传送至[E004]，[E001]之参数亦可透过Shiny传送至[E005]前端接口显示。第二层页面为人口统计之表格(Demographic)[F010]，人口统计之表格显示根据用户设定之组别，如性别、年龄等分组，以及各组别的统计数据，如实验组(Exposurepositive)与对照组(Exposure negative)在各组别之人口以及百分比，各组别的P值等。若使用者需要统计药物或共病史，则会在表格中增设对应之字段。若使用者在[F006]钩选时改变了默认值，系统即会根据[F006]之钓选项重新安排字段。第三层页面为追踪期统计之表格(Follow Up)[F011]，类似人口统计之表格，显示根据用户设定之组别，如性别、年龄等分组，以及各组别「追踪」时发生事件的统计数据，如实验组(Exposure positive)与对照组(Exposure negative)在各组别之事件(Event，图中简写为EVE)、人年(Person-year，PY)、与发生率(Incidence rate，IR)等，以及率比(Incidence Rate Ratio，IRR)，调整后之风险比值(hazard ratio)，95百分比信赖区间(95％Confidence Interval，95％CI)与P值(Pvalue)与上述一样，若使用者需要统计药物或共病史，则会在表格中增设对应之字段。第四层之页面为回归诊断(Diagnostic Regression)[F012]，则显示方法(第4图之C流程)所统计之结果，再加上部分概似(Partial likelihood)、Score test与华德统计量(Wald test)等统计方法之结果。若用户钩选自选项之方法，即[C023][C025-C027]之方法，则在此页面会显示结果。第五层之页面为森林图(Forest Plot)[F013]显示各组人数、调整后之风险比值、95％信赖区间与P值等数据，森林图会根据此数据计算出总风险比值，评估在整理人口上某一疾病或某一药物是否会导致某一疾病之风险增加或降低，或死亡率增加或降低。第六层之页面为图片(Figure)[F014]，图片显示为Kaplan-Meier Curve、分位图、箱形图、残差分析、累积发生率与Schoenfeld Plot等。该层板面图片以各组顺序排列。以上第一层到第六层板面可按使用者意愿，根据用户设定之电邮地址，或可让用户更改电邮地址，把六层的内容合并成PDF格式并传送到该指定之地址。第七层页面为使用者设定[F015]，显示用户之账号、密码、验证密码、电邮(验证或结果传送)、最高学历、职称、学术机构名称(学术类)、公司(保险或其他机构)、地址等数据，若普通用户则新增过去病史、过去手术史、过去药物史、过去外伤等数据，其中除了账号之外的所有数据均可以让用户修改并储存于使用者侧中，并储存在SQLServer与PostgreSQL数据库。第八层页面为关于(About)[F016]，提供网站介绍与教学，本专利与网站之设计与功能，基础统计教学之外部连接等，本实验室与公司之介绍等内容让使用者参考。

七、普通版网站

本专利提供不同网站和数据呈现之方式让用户使用，包括普通使用者(或病人)使用之网页(第8图之G流程)。普通版网页继承了专业用户版本的之功能，但前端接口与数据显示上经过设计，在使用上与数据显示上适合一般用户。在前端接口设计上使用循序渐进之方法(Step by step)，即第一个接口点选完毕后再出现第二接口，如此类推，直到所有接口显示完毕。前端接口分成五大部份，包括过去病史[G001]、疾病处理[G005]、处理后结果[G009]、分析现在健康[G010]、显示分析结果[G011]。在上述使用者创建账号后，使用者需简单输入其过去医疗史，在此普通用户系统则需要记录详细之医疗史，用于后续之分析。在使用者登入后，即进入[G001]之过去病史系统，在[G001]之接口需要用户选择过去之疾病[G002]，在疾病之选择本专利提供[F003]之ICD9诊断码与器官分类与MDC之分类让普通使用者选择，选择完毕后则不如[F003]一般显示ICD9诊断码，本系统呼叫ICD9诊断码之SQLServer与PostgreSQL数据库，并只取得诊断码之名称，回传至[G002]之透过Shiny显示于前端接口上。如使用者过去相对健康则可以跳过本项，进入[G005]。若使用者回忆不起过去疾病，跳过(SKIP)本项，进入[G005]。在用户选择完疾病名称后，系统跳出[G003]之窗口，该窗口需要填写有关于[G002]的该次疾病，其初次症状发生之日期，以及疾病诊断之日期。若使用者无法回忆症状之日期或疾病诊断之日则跳过该项，进入[G004]之界面。[G004]提供使用者填写该疾病的主要症状或主诉(Chief Complain)、病征(Sign)以及并他症状(可多写)。若使用者无法回忆症状、病征以及并他症状则跳过该项，进入[G005]之界面。[G005]让用户填写与[G002]所填写之疾病相关之治疗，在[G005]接口所填写之字段根据[G002]之疾病数目而增加，症状亦可以让使用者钩选相关治疗。[G005]接口所选择之处治包括药物[G006]、手术[G007](包括门诊或住院手术)与追踪[G008]。当用户选择药物时，[G006]之窗口会跳出，类似[F004]，让使用者根据ATC或台湾之分类选择药物种类，以及填写该药物的使用途径、每天用次数、共享多少多，而药物总剂量则是由系统换算后显示在[G005]与[G006]上。当用户选择手术时，[G007]之窗口会跳出，根据疾病以及选择之位置，提供手术名称(如阑尾切除术)、手术方式(传统或达文西手术系统)、麻醉方式(如局部麻醉或全身麻醉)、手术时间(包括麻醉时间)、以及病理报告上传。当用户选择追踪时，[G008]之窗口会跳出，并提供用户选择追踪之频率，以及追踪时发现，如使用者选择追踪时发现之选项，则跳出窗口让用户钩选该发现「是否与以上所列之疾病相关」之选项，如相关刚让使用者选择疾病，如不相关则询问使用者「是否有需要新增疾病」，若选择增新则跳出[G001]，并循环以上步骤，若不新增，则进入[G009]之界面。[G009]为使用者组处理后的结果，有以下选项可供选择，痊愈、死亡(用户计算其他人之数据)、复发、继续治疗、继续追踪等选项。

在普通使用者再次登入后，用户过去之医疗记录，即先前填写之数据会以文本框(Text box)之形式显示在[G001][G005][G009]之界面。如果使用者没有患上新疾病，则[G001][G005][G009]之接口可以跳过，直接进入[G001]之接口。若用户需要补充过去医疗史，本系统亦提供用户进入[G001][G005][G009]界面作补充。当[G001][G005][G009]之过去医疗史之界面确定无误之后，可进入[G010]之接口，该接口为进入分析之前端接口，供用户根据过去疾病分析未来之健康风险，其分析之方法有二，一为分析未来某一疾病之风险，另一为分析未来约一万六千多种疾病之风险(该数字取为ICD9诊断码之数目)，后者为收费项目。当用户选择完毕后，[G010]之接口会转换到[G011]之接口，并显示其运算结果。[G011]所显示之结果基于[G010]之选择。由于用户是非专业人员，因此在数据显示上只显示两种数据，如风险(为adjusted hazard ratio)与10年存活率，并提供文字解释。如果用户需要查看更多数据，则可按Expand for more data之按钮，展开后之数据包括病死率(Case fatality，显示患某一疾病的病患中死亡的比率)、(Conditional Probability，某一时间点的条件存活机率)、累积存活机率(Cumulative Survival Probability)等。若使用者选择某一疾病之风险，则只显示某一疾病之风险与10年存活率，即病人选择只分析未来10年患有高血压之风险，则只显示高血压之风险与10年存活率。若使用者选择分析未来约一万六千多种疾病之风险，则显示一万六千多种疾病之数据，并可按照风险或存活率等数据之大少重新排序。使用者在查看结果后若需要建议，则可查看本网站之建议系统。本网站之建议系统，根据疾病之系统，以及病人所设定系地址，寻找最近之医院提供使用者查询，并协助使用者联络该科之医师、预约，而[G011]之结果亦可透过打印输出或寄到某一电邮(如使用者之电邮或家庭医师之电邮)。

八、莰入式应用

本专利设计应用系统用于智能型手机与医学仪器(图9之H流程)。本专利之应用程序使用基于.NET框架的面向对象的高阶程序语言C#(6.0 vetsion，Microsoft)来制作iOS、Android、Windows Phone等移动装置的流动应用程序(mobile application，APP)。APP可数字媒体网络商店(如iOS之itune store)下载或内建于手机中，不需要下载即可使用。本专利之APP系统之设计参考本专利之网站系统，继承其包括普通使用者与专业用户之两大系统，接口简化了网页前端接口之排版，并将按钮、钩选按钮、文本框、字体加大，方便移动装置之用户用观看或用手指点选。本APP之所有接口具有垂直滑动的滚动条功能，让用户在填写数据或查阅数据时不会因空间不足而无法使用。所有接口均具有查询说明之功能。APP接口间之转换使用循序渐进之方法(Step by step)，按下下一页之按钮(Next)即转至下一个接口。APP分为普通(病人)版APP与学术(专业)版APP共2种，以下分别描述其接口之设计与功能。以上2种APP平继承[F002]建立使用者账号与登入、注销之接口，用户账号之建立[E016]后，数据即上传至终端机，储存在SQL Server与PostgreSQL中，待使用者重新登入时进行核对。使用者登入后会呼叫使用者之侧[E001]，用户开始使用查寻系统[E006]时，参数所有选择会传送到伺服器[E007]并进行使用者设定之参数进行内部运算[E008]。

A、普通版嵌入式应用

普通版APP之接口与网站系统之普通版一样，分为五大部份，包括过去病史[H001](即网页版之[G001]接口)、疾病处理[H002](即网页版之[G005]接口)、处理后结果[H003](即网页版之[G009]界面)、分析现在健康[H004](即网页版之[G010]接口)、显示分析结果[H005-H006](即网页版之[G011]界面)。[H001-H003]接口保留网页版之[G002-G004]与[G006-G008]板面之功能，而之数据输入完成后，即进入[H004]之接口，提供用户选择计算服务。内部运算结束后之结果会传送至使用者之手机储存、亦会记录在用户之侧中[E015]，当用户查询记录[E014]并调阅某一项已运算之结果时，所点选之记录再次被呼叫[E012]，当伺服器接收后不需要重新运算，运算结果会显示于前端接口上[E005]。储存之结果在点选[H005-H006]之界面时即显视在前端界面上。[H004]之接口有两个运算功能，分别为提供用户计算其在任一种疾病之风险，而另一种功能则为计算其全数一万六千余种疾病之风险；两者在点选运算按钮时即按[H001-H003]接口所填写之数据与[H004]所选择之疾病范围将会传送至伺服器[E007]，进行运算[E008]，并把结果输出至[H005]与[H006]之界面。[H005]之接口显示某一种疾病之风险，[H006]之接口则显示全数疾病之风险。数据之显示具垂直滑动的滚动条功能。

B、学术版嵌入式应用

学术版APP之接口与网站系统之学术版本之功能一样，所设计之板面简化成4大部份，分别为Tab Control控制板面[H008]、商标显示板面[H009]、工作区板面[H010]、文字说明区[H011]。[H008]之板面为Tab Control控制设定与结果页面之显示，具有能显示多层页面之功能，为了简化接口，减低使用空间，[H008]板面继承[F005]板面同时合并[F003-F004]与[F006-F007]之板面与功能。[H008]之板面共有12层前页面可呼叫并显示在前端接口之[H010]板面，其12层板面分别为：第一层使用教学[H012]、第二层输入ICD9诊断码[H013]、输入药物[H014]、基础设定与运算模式[H015]、行为[H016]、人口比例结果[H017]、追踪与观察结果[H018]、回归诊断结果[H019]、森林图[H020]、其他图[H021]、使用者设定[H022]、关于[H023]。第一层之使用教学接口[H012]，详细介绍本系统如何使用，可让使用者跳过此步骤。第二层输入ICD9诊断码之板面[H013]、第三层输入药物详细数据之板面[H014]与第四层基础设定与运算模式之板面[H015]，分别继承[F003]、[F004]与[F006]之功能。板面[H016]只继承板面[F007]之Generate功能。[H012-H015]板面各板面在切换板面时各板面之参数[E001-E003]即马上暂存在内存中，直至[H016]之Generate功能被激活，由[E002]传送至伺服器[E008]进行运算，运算结果传送接手机之内存。数据显示在[H017-H021]之接口。人口比例结果[H017]、追踪与观察结果[H018]、回归诊断结果[H019]、森林图[H020]与其他图[H021]，分别继承了学术版网页之[F010]、[F011]、[F012]、[F013]、[F014]之板面设计以及其功能。Tab control之最后两个层板面[H022-H023]分别继承了学术版网页之[F015]与[F016]之设计与功能，数据之显示具垂直滑动的滚动条功能。

Claims

1.一种跨平台临床大数据分析及显示系统，其特征在于该系统包括:

伺服器：用于处理及储存各种数据，能够进行用户身份识别，接收前端接口传入之参数，传送运算结果至前端接口；

学术版网站：与伺服器通讯，针对系统授权的人士，能够进行身份辨识、记录与存取；具有多个前端接口，包括设定诊断码、药物、外科手术之接口；具有一运算请求前端界面；具有一接口提供用户设定账号数据；具有一接口提供用户设定研究方法与显示方式；具有多个结果显示前端接口，所述结果显示前端接口包括显示人口统计之接口、显示追踪期统计之接口、显示诊断回归之接口、显示森林图之接口、显示图片之接口；

普通版网站：与伺服器通讯，针对普通使用者或病人，需要用户输入过去病史、疾病处理、处理经过内容，系统自动分析现在健康状况及显示分析结果；能够进行身份辨识、记录与存取；具有多个循序渐进地显示前端界面，前端界面包括一填写过去医疗史之接口，一填写治疗史之接口，一填写疾病结果之接口，一选择分析方式之接口，一显示分析结果之接口；

学术版嵌入式应用：与伺服器通讯，应用于智能手机或医学仪器上，能够进行身份辨识、记录与存取，具有一Tab Control页面接口，一工作接口，一文字说明框接口；

普通版嵌入式应用：与伺服器通讯，应用于智能手机或医学仪器上，能够进行身份辨识、记录与存取，渐进地显示前端界面，前端界面包括一填写过去医疗史之接口，一填写治疗史之接口，一填写疾病结果之接口，一选择分析方式之接口，一显示分析结果之接口。

2.根据权利要求1所述的跨平台临床大数据分析及显示系统，其特征在于所述伺服器包括临床医疗数据收集子系统，所述临床医疗数据收集子系统用于收集各种临床医学数据，并转化为统一格式，分类疾病发生事件、疾病种类，分类存活病人，分类实验组病人、控制组病人。

3.根据权利要求2所述的跨平台临床大数据分析及显示系统，其特征在于所述临床医疗数据收集子系统在收集临床医学数据步骤中，包括从原始的临床医学数据中切割日期数据和疾病诊断码数据之步骤。

4.根据权利要求1所述的跨平台临床大数据分析及显示系统，其特征在于所述伺服器包括专家验证子系统，所述专家验证子系统用于由医疗专家对数据库中数据的真实性进行检验，验证系统之统计结果。

5.根据权利要求1所述的跨平台临床大数据分析及显示系统，其特征在于所述伺服器包括自动化加速子系统，所述自动化加速子系统采用统计学原理，自动化地对所有疾病进行组合。

6.根据权利要求1所述的跨平台临床大数据分析及显示系统，其特征在于所述伺服器包括自动化回归诊断子系统，所述自动化回归诊断子系统根据输入的条件，采用回归统计法进行回归诊断。

7.根据权利要求1所述的跨平台临床大数据分析及显示系统，其特征在于所述伺服器包括自动化统计子系统，所述自动化统计子系统根据输入的条件，对系统中某一疾病组合数据进行统计。