CN111916146B - 前列腺癌本体及其构建方法 - Google Patents

前列腺癌本体及其构建方法 Download PDF

Info

Publication number
CN111916146B
CN111916146B CN202010729262.7A CN202010729262A CN111916146B CN 111916146 B CN111916146 B CN 111916146B CN 202010729262 A CN202010729262 A CN 202010729262A CN 111916146 B CN111916146 B CN 111916146B
Authority
CN
China
Prior art keywords
prostate cancer
interface
concept
knowledge
ontology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010729262.7A
Other languages
English (en)
Other versions
CN111916146A (zh
Inventor
郁春江
沈百荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Industrial Park Institute of Services Outsourcing
Original Assignee
Suzhou Industrial Park Institute of Services Outsourcing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Industrial Park Institute of Services Outsourcing filed Critical Suzhou Industrial Park Institute of Services Outsourcing
Priority to CN202010729262.7A priority Critical patent/CN111916146B/zh
Priority to AU2020102504A priority patent/AU2020102504A4/en
Publication of CN111916146A publication Critical patent/CN111916146A/zh
Application granted granted Critical
Publication of CN111916146B publication Critical patent/CN111916146B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了前列腺癌本体及其构建方法,从流行病学、诊断、治疗三个生物医学的视角,人工收集了前列腺癌相关的知识,并对每个概念从定义、同义词、参考资源等方面进行了标注。考虑到精准医疗的发展前景,创新性的将前列腺癌相关的基因和生活方式风险因素收集到了流行病学中。根据收集的信息利用OWL语言构建了前列腺癌本体,并实现了基于构建本体的知识检索系统。该本体涵盖了从临床到分子的主要生物医学概念,共包含631个类,2386个同义词,12个对象属性,6个数据属性,最大深度8,最大宽度53。本发明将促进前列腺癌领域知识的标准化,对异质数据的整合分析、知识的共享与挖掘、智能搜索等提供知识支撑和推理基础。

Description

前列腺癌本体及其构建方法
技术领域
本发明属于生物信息学技术领域,涉及前列腺癌本体及其构建方法。
背景技术
本体的定义最早是由斯坦福大学的Gruber在1993年提出的。1997年BorstPim博士在Gruber定义的基础上进行了补充和修改。他们把本体定义为:“对共享概念体系的一个明确的形式化规范说明。”(T.R.Gruber.A translation approach to portable ontologyspecifications[J].KnowledgeAcquisition,Vol.5,No.2,pp.199-220,1993.),即本体是一套得到大多数人认同的、关于概念体系的明确的、形式化的规范说明(P.Borst,andH.Akkermans.An ontology approach to product disassembly[J/OL].pp.33-48.)。Guarino在首届信息系统形式本体国际会议上发表本体综述文章,总结出本体广泛应用于人工智能、计算机语言、数据原理等领域,特别是今年在生物医学信息学、知识工程、知识表示、信息集成等领域得到了快速发展(N.Guarino.Formal Ontology and InformationSystems[J/OL].pp.3-15.)。
本体显式地表达知识、编码语义,并促进人和机器之间对领域的知识的共同理解(C.Yu,and B.Shen.XML,Ontologies,and Their Clinical Applications[J].AdvExp MedBiol,Vol.939,pp.259-287,2016.)。领域本体提供了从语义层面组织和表示领域特定知识的方法。在各类研究领域中,生物医学信息学领域更充分地接收、发展和使用了本体技术。目前在该领域中已经建立了大量的可重用的本体。如基因本体(Gene Ontology,GO)、疾病本体库(Disease Ontology,DO)、美国国家肿瘤研究所受控词汇表(NationalCancerInstitute’s Thesaurus)、蛋白质本体(Protein Ontology,PO)、序列本体(SequenceOntology,SO)等。这些本体包含人类疾病的概念,已经得到研究者的广泛应用。然而,他们没有针对某个特定的疾病领域,他们的高层次、覆盖面广、深度不够限制了他们在特定疾病中的应用(E.Younesi,A.Malhotra,M.Gundel.PDON:Parkinson's diseaseontology for representationand modeling of the Parkinson's disease knowledgedomain[J].TheorBiol Med Model,Vol.12,pp.20,Sep 22,2015.)。
世界范围内,前列腺癌发病率在男性所有恶性肿瘤中位居第二(M.Daniyal,Z.A.Siddiqui,M.Akram,H.M.Asif,S.Sultana,and A.Khan.Epidemiology,etiology,diagnosis and treatment of prostate cancer[J].Asian Pac J Cancer Prev,Vol.15,No.22,pp.9575-8,2014.;S.Erdogan,K.Turkekul,R.Serttas,and Z.Erdogan.Thenatural flavonoid apigenin sensitizeshuman CD44(+)prostate cancer stem cellsto cisplatin therapy[J].Biomed Pharmacother,Vol.88,pp.210-217,Apr,2017.)。在中国,从2008年开始前列腺癌成为最常见的影响泌尿系统的肿瘤。根据2015年度中国国家癌症注册中心年度报告,在2011年前列腺癌的发病率是7.10/105,在男性恶性肿瘤发病率中排名第七。死亡率为2.98/105,在所有男性恶性肿瘤中排名第九(C.Pang,Y.Guan,H.Li,W.Chen,and G.Zhu.Urologic cancer in China[J],Japanese Journalof ClinicalOncology,Vol.46,No.6,pp.497-501,2016)。就前列腺癌(PCa)来说,尽管已经积累了前所未有的研究成果和临床数据,但是PCa相关知识的明确的、形式化表示目前还没有。
发明内容
基于此,本发明将系统性研究前列腺癌本体(Prostate Cancer Ontology,PCaO)的构建和应用,通过开发PCaO(PCaO),以统一、结构化的形式组织、表示和共享与PCa相关的知识。
为了实现上述目的,本发明采用以下技术方案:
本发明提供了前列腺癌本体,通过从PCa相关的资料中抽取PCa相关的概念构建而成,并通过三个根视图组织这些概念;所述PCa相关的概念包括与PCa相关的生活方式的概念,所述三个根视图为PCa流行病学视图、PCa诊断视图和PCa治疗视图。
优选地,所述PCa流行病学视图用于描述患者基本信息、个人病史、遗传和表观遗传以及生活方式;所述患者基本信息,包括年龄,职业,民族等;所述个人病史,包括高血压,糖尿病,高血脂症等;所述遗传和表观遗传,包括基因,拷贝数变异(CNV),单核苷酸多态性(SNP);所述生活方式,包括个人背景特征,行为习惯,环境,矿物质,维他命,药物或手术,疾病,社会因素,食物,生理生化等;
所述PCa诊断视图包括前列腺癌症状、临床诊断和前列腺癌的TNM分期;所述前列腺癌症状,包括下尿路症状,储尿期症状,排尿期症状等;所述临床诊断,包括体格检查,直肠指检,实验室检查,影像学检查,前列腺穿刺活检病理等;所述前列腺癌的TNM分期,包括T分期,N分期,M分期等;
所述PCa治疗视图包括延期治疗、外科手术治疗、放射疗法、冷冻疗法、激素疗法和化疗;所述延期治疗,包括主动监测,等待观察;所述外科手术治疗,包括开放性前列腺根治术,根治性前列腺切除术,扩大盆腔淋巴结切除术(ePLND)等;所述放射疗法,包括外照射放疗,质子束治疗,放射性核素,近距离放射治疗等;所述冷冻疗法,包括前列腺癌的冷冻消融治疗;所述激素疗法,包括去势治疗,抗雄激素,促黄体激素释放激素激动剂,促黄体激素释放激素拮抗剂等;所述化疗,包括阿霉素,卡巴他赛,顺铂等。去势抵抗性前列腺癌(CRPC),包括CRPC雄激素阻断,转移CRPC的骨靶向治疗,非激素疗法等;转移性前列腺癌,包括完全雄激素阻断治疗,直接雄激素阻断治疗,持续雄激素阻断治疗,间歇雄激素阻断治疗等;其他治疗,包括老年男性前列腺癌的治疗,根治性目的治疗后仅限PSA复发的治疗等。
优选地,所述前列腺癌本体中,每个概念的注释信息均包括科学的定义、同义词和参考信息等。
优选地,所述前列腺癌本体由Protégé工具采用OWL语言构建,每个概念类(Class)由标签(label),定义(isDefinedBy),参考(Reference),同义词(synonyms),网址参考(URL),PubMed号(PMID)数据属性;在构建时公理用于建立类之间的关系,对象属性用于连接类的实例,数据属性用于描述类的实例的具体内容。
本发明还提供了前列腺癌本体的构建方法,包括如下步骤:
1)从与PCa相关的资料中收集PCa相关的概念,并对收集到的每个概念进行注释,
所述PCa相关的概念包括与PCa相关的生活方式的概念;
2)对步骤1)得到的数据进行分类及层次结构的整理,形成层次化结构;
3)使用Protégé工具开发制作OWL版的前列腺癌本体;
4)在构建的前列腺癌本体的基础上,开发在线知识检索系统。
优选地,步骤1)中,从流行病学、诊断和治疗三个视角抽取PCa相关的核心概念;在收集PCa相关的概念的同时,收集与概念有关的层次结构。
优选地,步骤1)中,对收集到的每个概念,从首选名称(Preferred Name),定义(Definition),近义词同义词和缩写(Synonyms&Abbreviations),参考网址(ReferenceURL),参考代码(Reference Code)和PubMed参考文章号(PubMed ID)进行注释。
优选地,步骤3)中,在构建时,采用公理建立类之间的关系,采用对象属性连接类的实例,采用数据属性描述类的实例的具体内容。
优选地,访问所述在线知识检索系统的方式包括网页浏览器、智能终端设备和开放的数据接口等。
优选地,在所述在线知识检索系统中输入关键字检索时,所述关键字为英文或中文,返回结果的检索界面分为两列,分别为概念的英文链接和中文链接,点击英文链接则进入英文的详细信息界面,点击中文链接则进入中文的详细信息界面;
在详细信息界面中,左边列为PCaO的层次结构,在检索界面中选择的概念在详细信息界面的层次结构中被选中状态,右边列为概念的注释信息;在层次结构中改变选择的概念时,选择后右边的注释信息刷新为选中的概念的注释信息。
优选地,针对智能终端设备,采用HTML5,jQuery和jQuery Mobile开发前列腺癌本体的在线知识检索系统的智能终端版;
所述开放的数据接口包括数据检索接口和详细信息获取接口,接口的返回值采用JSON格式。
由于PCa相关数据和知识数量的增长,迫切需要一个标准的语义框架来对大量异构数据和知识进行标准化、分类和集成等。PCaO尝试着从流行病学、诊断和治疗的角度收集和组织与PCa相关的知识,以提供系统性的、正式的、结构化的和计算机可读的知识框架。
本发明的有益效果如下:
本发明提供的前列腺癌本体PCaO创新性的囊括了PCa相关的环境和生活方式风险因素的数据,系统性的对前列腺癌相关的生活方式进行了循证分析,将前列腺癌相关生活方式进行了标准化并明确分类。这对实现前列腺癌的早期预防、个性精准化预防及新的诊断靶点的发现具有较高的价值。
PCaO的主要优点包括:
1)收集的概念比较全面,涉及流行病学、诊断和治疗;
2)在流行病学中创新性的囊括了环境和生活方式风险因素,更好的满足精准医学的需要;
3)每个概念都用中英双语表示;
4)用OWL语言构建,形式化表示后支持语意分析和推理;
5)概念用层次结构进行了系统分类,知识之间的关系更清晰。
为了提高PCaO的可用性,本发明还开发了一个在线知识检索系统,而不只是仅提供一个OWL文件,这样本体中的知识就可以比较方便的被访问。随着移动智能终端的普及,本发明使用HTML5、jQuery、jQuery Mobile实现了跨平台的移动智能终端检索系统。同时,为了让其他需要使用PCaO中的知识的应用程序能访问数据,提供了两个开放的数据访问接口。使用数据访问接口协议,外部的应用程序可以很方便的访问PCaO中的数据。
附图说明
图1为本发明PCaO的构建方法流程图。
图2为本发明实施例中使用Protégé本体编辑器表示的PCaO的上层类的截图。
图3为本发明实施例中使用Protégé本体编辑器表示PCaO概念的注释信息截图。
图4为本发明实施例中PCaO在线知识检索系统的界面,A是检索界面,B是详细信息界面。
图5为本发明实施例中PCaO智能终端界面,A是检索界面,B是详细信息界面。
具体实施方式
为了更好的理解本发明,下面结合实施例进一步阐明本发明的内容,可以理解的是,本发明不仅仅局限于下面的实施例。
实施例
一、前列腺癌本体的构建过程
构建方法的主要流程如图1所示,PCaO是基于本体开发的生命周期构建的。在PCaO开发过程中,首先收集PCa相关的资料,然后对收集的知识库进行清洗、过滤和抽取,筛选出与PCa相关的概念。对抽取的概念使用SNOMED CT,NCI Thesaurus,PCa相关的指南、文献等资料对概念进行注释。在泌尿科医生专业知识的指导下,对数据进行了分类和层次结构的整理。使用Protégé工具开发制作Ontology Web Language(OWL)版的PCaO。最后,设计Online的知识检索系统。
1.1知识获取和概念化
有关于PCa的术语(terms)和概念(concepts)的初始集合是通过查阅和分析多个知识源生成的。
首先,使用由PCa专家推荐的资源列表,如:EAU Guideline on Prostate Cancer(J.B.N.Mottet(Chair),E.Briers.Guidelines on Prostate Cancer[OL].16May 2016)、NCCN Clinical Practice Guidelines in Oncology(Prostate cancer(A.J.A.JamesL.Mohler,etc.NCCN Clinical Practice Guidelines in Oncology(ProstateCancer)[OL],16May2016),Prostate cancerearly detection(J.K.P.Peter R.Carroll,etc.NCCNClinical Practice Guidelines in Oncology(ProstateCancer Early Detection)[OL],16May 2016))、NCCN Guidelines for Patients(L.J.H.Dorothy A.Shead,etc.NCCNGuidelines for Patients(Prostate Cancer)[OL],16May2016)、中国泌尿外科疾病诊断治疗指南、Optimal care pathway for men with prostate cancer(C.Council,Optimalcare pathway for men with prostate cancer,2016.)、中国前列腺癌数据库(C.P.C.Database,Chinese Prostate Cancer Database[OL],2016.),从流行病学(Epidemiology),诊断(Diagnosis),治疗(Treatment)三个视角抽取PCa相关的核心概念。
从这几个资源中抽取出核心概念之后,再结合网上的资源,如NCIThesaurus,SNOMED CT,MeSH,OMIM,ICD Ontology,Disease Ontology,Foundational Model ofAnatomy(FMA),在线书籍,Pubmed上的文章,Google寻找有关PCa的概念,对核心概念进行内容补充。在搜集概念的同时,任何与概念有关的层次结构也进行了收集。
对收集到的每个概念,从首选名称(Preferred Name),定义(Definition),近义词同义词和缩写(Synonyms&Abbreviations),参考网址(Reference URL),参考代码(Reference Code)和PubMed参考文章号(PubMed ID)进行注释。需要说明的是,像其他本体一样,PCaO当前版本不可能覆盖PCa相关的所有知识内容,随着PCaO的逐步完善,需要加入遗漏的和一些新出现的知识。
1.2层次化结构
由专家小组修订的本体结构被认为是对疾病本体的真实评价(R.Hoehndorf,M.Dumontier,G.V.Gkoutos.Evaluation of research in biomedical ontologies[J].Brief Bioinform,Vol.14,No.6,pp.696-712,Nov,2013.)。构建的PCaO初始版本是由苏州大学第二附属医院泌尿科PCa医生专家进行了修订。专家对整个结构进行了梳理,对每个概念进行了确认,提出了专业性的修改意见。PCaO采用层次化结构,类之间的关系主要采用属于(is_a)对象属性。
1.3形式化表示
目前,国际上已发布了多款优秀的本体构建工具,如Protégé、WebOnto、OntoEdit、WebODE、KAON等。Protégé因其界面操作简单直观、功能不断增强、且是免费使用等特点以及其功能可以由广大开发者通过插件进行扩展,已经成为最受欢迎的本体构建工具之一。
本发明PCaO使用Protégé编辑器,采用Web Ontology Language(OWL)语言构建。每个概念类(Class)由标签(label),定义(isDefinedBy),参考(Reference),同义词(synonyms),网址参考(URL),PubMed号(PMID)数据属性。在构建时公理用于建立类之间的关系,对象属性用于连接类的实例,数据属性用于描述类的实例的具体内容。
1.4知识检索系统开发
本发明在构建的PCaO的基础上,开发了一个在线的知识检索系统。通过网页浏览器可以检索PCaO的内容,对本体中的概念,系统实现了中英文双语对照。为智能终端设备,如智能手机、平板电脑,开发了相应的移动终端版。同时,开发了开放的数据接口以方便其他应用程序的访问本体中的知识。
二、前列腺癌本体的构建结果
2.1前列腺癌本体内容
PCaO是通过从EAU和NCCN发布的PCa相关指南、NCI Thesaurus、SNOMED-CT等资料中抽取PCa相关的概念作为基础知识来构建的。与PCa相关的生活方式的概念也收集到了PCaO中。PCaO通过三个根视图把这些概念组织起来。图2显示了PCaO的上层类。
PCa流行病学视图描述了患者基本信息,包括年龄,职业,民族等;个人病史,包括高血压,糖尿病,高血脂症等;遗传和表观遗传,包括基因,CNV,SNP;生活方式,包括个人背景特征,行为习惯,环境,矿物质,维他命,药物或手术,疾病,社会因素,食物,生理生化等。
目前关于特定疾病相关生活方式的系统性研究并不多,本发明通过预先制定的检索策略在PubMed中检索与前列腺癌相关的所有生活方式及环境因素的研究成果。然后,根据制定的纳入与排除标准对采集的文献进行严格筛选,从纳入文献中系统性的收集与前列腺癌相关的饮食、习惯、环境、药物等生活方式因素。在PubMed中所使用的搜索关键字包括:“prostate cancer”,“risk factor”,“lifestyle”,“vitamin”,“smok*”或“wine”,“tea”,“coffee”,“diet”,“dairy”,“social”或“environment*”。收集所有可能的因素,纳入到PCa相关的生活方式中。
根据WCRF/AICR(The World Cancer Research Fund/American InstituteforCancerResearch)发布的《Food,nutrition,physical activity and thepreventionof cancer:a global perspective(2014)》报告,目前很多生活方式和环境方面的因素对前列腺癌的发生也起到了越来越多的作用。前列腺癌患者主要是老年男性,新诊断患者中位年龄为72岁,高峰年龄为75-79岁(A.H.Vinjamoori,J.P.Jagannathan,A.B.Shinagare.A typical metastases from prostate cancer:10-year experience ata single institution[J].AJR Am J Roentgenol,Vol.199,No.2,pp.367-72,Aug,2012.)。在美国,前列腺癌的发病率和死亡率在非洲裔美国人中最高(W.E.Barrington,J.M.Schenk,R.Etzioni.Difference in Association of Obesity With ProstateCancer Risk Between US African American and Non-Hispanic White Men in theSelenium and Vitamin E Cancer Prevention Trial(SELECT)[J].JAMA Oncol,Vol.1,No.3,pp.342-9,Jun,2015.)。患者的兄弟或父亲患有前列腺癌与没有前列腺癌家族史的患者相比,患前列腺癌的风险高2-3倍(M.Daniyal,Z.A.Siddiqui,M.Akram,H.M.Asif,S.Sultana,and A.Khan.Epidemiology,etiology,diagnosis and treatment ofprostate cancer[J].Asian Pac J Cancer Prev,Vol.15,No.22,pp.9575-8,2014.)。基于精确医学范式,本发明在PCaO中整合遗传和表观遗传信息,如PCa相关基因、生活方式和环境因素,以提供对PCa的流行病学的知识。
为了构建环境和生活方式风险因素本体内容,对收集的前列腺癌相关生活方式进行了分类。目前关于疾病相关生活方式的分类并没有统一的标准。Cuzick在研究报告中对前列腺癌生活方式进行了大致的描述(J.Cuzick,M.A.Thorat,G.Andriole.Preventionand early detection of prostate cancer[J].Lancet Oncol,Vol.15,No.11,pp.e484-92,Oct,2014.),本发明参照此方法建立了生活方式分类的初步框架。初步分类框架构建完成后咨询了相关专家,并为本分类增添了二级及三级亚组分类。
同时,本发明参照了WCRF/AICR(The World Cancer Research Fund/AmericanInstitute for CancerResearch)发布的《Food,nutrition,physical activity and thepreventionof cancer:a global perspective(2014)》一书中关于前列腺癌生活方式相关定性分析的研究内容,由此对本发明的分类框架进行了进一步的修改及细节扩增(C.U.Project(CUP).Diet,nutrition,physical activity and prostate cancer[OL].2018.)。PCa相关的基因是从GRT网站(Genetic Testing Registry(GTR)[OL].
https://www.ncbi.nlm.nih.gov/gtr/all/genes/?term=prostate%20cancer.)抽取的,目前在PCaO中包含53个基因。
PCa诊断视图包括了:前列腺癌症状,包括下尿路症状,储尿期症状,排尿期症状等;临床诊断,包括体格检查,直肠指检,实验室检查,影像学检查,前列腺穿刺活检病理等;前列腺癌的TNM分期,包括T分期,N分期,M分期等。
PCa治疗视图包括了:延期治疗,包括主动监测,等待观察;外科手术治疗,包括开放性前列腺根治术,根治性前列腺切除术,扩大盆腔淋巴结切除术(ePLND)等;放射疗法,包括外照射放疗,质子束治疗,放射性核素,近距离放射治疗等;冷冻疗法,包括前列腺癌的冷冻消融治疗;激素疗法,包括去势治疗,抗雄激素,促黄体激素释放激素激动剂,促黄体激素释放激素拮抗剂等;化疗,包括阿霉素,卡巴他赛,顺铂等;去势抵抗性前列腺癌(CRPC),包括CRPC雄激素阻断,转移CRPC的骨靶向治疗,非激素疗法等;转移性前列腺癌,包括完全雄激素阻断治疗,直接雄激素阻断治疗,持续雄激素阻断治疗,间歇雄激素阻断治疗等;其他治疗,包括老年男性前列腺癌的治疗,根治性目的治疗后仅限PSA复发的治疗等。
在PCaO中,每个概念的注释信息主要包含一个科学的定义,同义词和参考信息等。这些注释信息首先是从在线资源,如NCI Thesaurus和SNOMED-CT,进行手动收集。如果概念在这些资源中找不到,再从PCa相关指南、研究文献等资料中收集。图3为PCaO中概念的注释信息的例子。
PCaO的结构参数见表1。目前PCaO收集了PCa相关的类637个,同义词2386个,对象属性12个,数据属性6个,层级最大深度为8,每层最大宽度为53。
表1.PCaO的结构参数
参数 类数 对象属性 数据属性 同义词数 最大深度 最大宽度
前列腺癌本体 637 12 6 2386 8 53
2.2知识检索系统
2.2.1 PC版系统
为了提高构建的PCaO的可用性,本发明开发了Web版的PCaO知识检索系统,访问网址为http://pcaontology.net。图4为PCaO知识检索系统的截图。在检索系统中输入关键字,关键字可以为英文或者中文。返回结果画面分两列,第一列为概念的英文链接,第二列为概念的中文链接。点击英文链接,进入英文的详细信息,点击中文链接,进入中文的详细信息。检索结果如果有多页的话,可以通过页面底部的翻页功能进行翻页。
在详细信息界面中,左边列为PCaO的层次结构。在检索界面中选择的概念在详细信息界面的层次结构中被选中状态。右边列为概念的注释信息,内容包括:preferredname,definition,synonyms,reference URL,reference code,PMID。如果层次结构中改变选择的概念时,选择后右边的注释信息刷新为选中的概念的注释信息。
PCaO的数据保存在信息检索系统中的数据表中。表2列出了数据表字段的定义。
表2.PCaO数据表字段定义
2.2.2智能终端版系统
近年来智能终端设备越来越普及,如智能手机,平板电脑等。本发明还针对智能终端设备开发了PCaO的在线知识检索系统的智能终端版。在智能终端上的访问地址和上一节检索系统中介绍的访问地址一致。程序会根据不同的客户端自动的返回对应的界面。界面如图5所示,在图5中有两个界面,A是检索界面,B是详细信息界面。在keyword中输入关键字,点击查询按钮,结果列表就会显示在查询按钮的下方。为了便于查看,结果按照英文概念的首字母进行了排序。每一条结果都显示了该概念的英文和中文。用户选择某一条结果,就可以查看该概念的详细信息,内容和上面介绍的详细信息界面的内容是一致的。开发中使用了HTML5(HTML5[OL].https://en.wikipedia.org/wiki/HTML5.),jQuery(jQuery[OL].http://jquery.com/.)和jQuery Mobile(jQuery Mobile[OL].http://jquerymobile.com/.)。
在本系统中,使用了jQuery中的Ajax技术来调用服务器的接口实现智能终端和服务器之间的数据交换。jQuery是一个快速、简洁的JavaScript框架。它封装JavaScript常用的功能代码,提供一种简便的JavaScript设计模式,优化HTML文档操作、事件处理、动画设计和Ajax交互。本发明使用jQuery Mobile布局框架和控件设计了系统的界面。jQueryMobile构建于jQuery以及jQuery UI类库之上,是一个用于创建移动端Web应用的前端框架。jQuery Mobile的设计宗旨是“写更少的代码,做更多的事情”,它可以使用很少量的代码就可以布局一个结构比较复杂的网页,且可以在所有移动设备上保持一致显示。
2.2.3开放数据接口
为了给智能终端程序提供数据,本发明还在知识检索系统中开发了数据检索接口和详细信息获取接口。这2个接口做成了开放接口,也可以给其他应用程序调用。接口的返回值使用了JavaScript Object Notation(JSON)格式。JSON是一种基于文本的轻量级的数据传输格式。它易于人类读写和计算机解析生成。JSON是一种完全独立于编程语言的文本格式,但是使用了程序员熟悉的C语言家族的约定。这些属性使JSON成为理想的数据交换语言(JSON[OL].http://json.org/.)。
数据检索接口访问地址http://pcaontology.net/PCaSearchInterface.aspx?keyword=[input_kw],地址中的[input_kw]为需要检索的关键字,输入的关键字中英文都可以,本体中的概念只要包含关键字就作为结果返回。接口接收到关键字[input_kw]后,生成检索数据库的查询语句,然后搜索数据库,把搜索到的结果转成JSON格式返回给调用接口的程序。
例如,“PSA Velocity”或者“PSA速率”作为关键字,搜索结果为:[{“id”:259,“itemCH”:“PSA速率,”“itemEN”:“PSA Velocity”}]。每个字段的意义参见表2。
如果有多个返回值时,在[]内就会有多个{},之间用“,”隔开,如[{content1},{content2},…,{content}]。
详细信息接口访问地址http://pcaontology.net/PCaDetailInterface.aspx?id=[input_id],地址中的[input_id]为需要检索的id。
例如,id为259时,检索结果如下:[{“id”:259,“itemCH”:“PSA速率,”“itemEN”:“PSA Velocity,”“parentId”:256,“PreferredName”:“PSA Velocity,”“Definition”:“Ameasurementof how fast PSA levels in the blood increase over time.A high PSAvelocity may be a sign of prostate cancer and may help to find fast-growingprostate
cancers.”“SynonymsAbbreviations”:“Prostate Specific Antigen
Velocity|PSAVelocity|PSAvelocity”“ReferenceCode”:“NCI Thesaurus
Code:C20119”“ReferenceURL”:
“https://ncit.nci.nih.gov/ncitbrowser/ConceptReport.jsp?dictionary=NCI_Thesaurus&ns=ncit&code=C20119”“PMID”:“NA”}]。
测序技术和医学信息系统的快速发展产生了大量的生物医学数据。在大数据时代,领域本体已经在领域知识的标准化、异质数据整合、文本知识挖掘中获得了广泛的应用。虽然对PCa研究从实验室到临床已经取得了许多优异的成果,但是本发明的PCaO是首次以明确的形式化、结构化的方式组织PCa领域知识的研究。PCaO涵盖了从临床到分子生物学的主要生物医学概念。它包含631个概念,通过流行病学、诊断、治疗三个生物学的视角进行内容的组织,对每个概念从定义、同义词、参考资源等方面进行标注。考虑到精准医疗的发展前景,创新性的将PCa相关的基因和生活方式纳入了流行病学中。这必将促进前列腺癌领域知识的标准化,对异质数据的整合分析、知识的共享与复用、知识的挖掘、智能搜索等提供知识支撑和推理基础。

Claims (1)

1.前列腺癌本体的构建方法,包括如下步骤:
1)从与PCa相关的资料中从流行病学、诊断和治疗三个视角抽取收集PCa相关的概念,并对收集到的每个概念,从首选名称PreferredName,定义Definition,近义词同义词和缩写Synonyms&Abbreviations,参考网址Reference URL,参考代码ReferenceCode和PubMed参考文章号PubMed ID进行注释,所述PCa相关的概念包括与PCa相关的生活方式的概念;
2)对步骤1)得到的数据进行分类及层次结构的整理,形成层次化结构;
3)使用工具开发制作OWL版的前列腺癌本体,每个概念类Class由标签label,定义isDefinedBy,参考Reference,同义词synonyms,网址参考URL,PubMed号PMID数据属性;在构建时采用公理建立类之间的关系,采用对象属性连接类的实例,采用数据属性描述类的实例的具体内容;
4)在构建的前列腺癌本体的基础上,开发在线知识检索系统,访问所述在线知识检索系统的方式包括网页浏览器、智能终端设备和开放的数据接口,在所述在线知识检索系统中输入关键字检索时,所述关键字为英文或中文,返回结果的检索界面分为两列,分别为概念的英文链接和中文链接,点击英文链接则进入英文的详细信息界面,点击中文链接则进入中文的详细信息界面;在详细信息界面中,左边列为PCaO的层次结构,在检索界面中选择的概念在详细信息界面的层次结构中被选中状态,右边列为概念的注释信息;在层次结构中改变选择的概念时,选择后右边的注释信息刷新为选中的概念的注释信息;
针对智能终端设备,采用HTML5,jQuery和jQuery Mobile开发前列腺癌本体的在线知识检索系统的智能终端版;
所述开放的数据接口包括数据检索接口和详细信息获取接口,接口的返回值采用JSON格式。
CN202010729262.7A 2020-07-27 2020-07-27 前列腺癌本体及其构建方法 Active CN111916146B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010729262.7A CN111916146B (zh) 2020-07-27 2020-07-27 前列腺癌本体及其构建方法
AU2020102504A AU2020102504A4 (en) 2020-07-27 2020-09-29 Prostate cancer ontology and construction method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010729262.7A CN111916146B (zh) 2020-07-27 2020-07-27 前列腺癌本体及其构建方法

Publications (2)

Publication Number Publication Date
CN111916146A CN111916146A (zh) 2020-11-10
CN111916146B true CN111916146B (zh) 2023-09-15

Family

ID=73249795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010729262.7A Active CN111916146B (zh) 2020-07-27 2020-07-27 前列腺癌本体及其构建方法

Country Status (2)

Country Link
CN (1) CN111916146B (zh)
AU (1) AU2020102504A4 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112466463B (zh) * 2020-12-10 2023-08-18 求臻医学科技(浙江)有限公司 基于肿瘤精准诊疗知识图谱的智能解答系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827125A (zh) * 2010-03-31 2010-09-08 吉林大学 语义Web服务本体及其应用
CN105808706A (zh) * 2016-03-06 2016-07-27 中国人民解放军国防科学技术大学 基于应用本体的空间目标识别方法
CN106367527A (zh) * 2016-11-17 2017-02-01 苏州大学附属第二医院 直肠癌放化疗疗效相关靶基因的鉴定
CN107437004A (zh) * 2017-08-07 2017-12-05 深圳华大基因研究院 一种用于肿瘤个体化基因检测智能解读的系统
CN108206057A (zh) * 2018-03-14 2018-06-26 苏州大学 一种前列腺癌诊疗数据平台
CN108830027A (zh) * 2017-05-03 2018-11-16 天津中医药大学 一种中医网络证候学分析平台及构建方法和应用
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质
KR20200029747A (ko) * 2018-09-11 2020-03-19 인하대학교 산학협력단 당뇨병 치료를 위한 시맨틱스 지능형 임상결정 지원 시스템
CN111157001A (zh) * 2019-12-20 2020-05-15 南京师范大学 一种面向医院室内导航的本体构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2576835A4 (en) * 2010-06-01 2013-10-30 Univ Laval PROGNOSTIC MARKERS OF A PROSTATE CANCER RECHUTE
US20130096944A1 (en) * 2011-10-13 2013-04-18 The Board of Trustees of the Leland Stanford, Junior, University Method and System for Ontology Based Analytics
US11488713B2 (en) * 2017-08-15 2022-11-01 Computer Technology Associates, Inc. Disease specific ontology-guided rule engine and machine learning for enhanced critical care decision support

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101827125A (zh) * 2010-03-31 2010-09-08 吉林大学 语义Web服务本体及其应用
CN105808706A (zh) * 2016-03-06 2016-07-27 中国人民解放军国防科学技术大学 基于应用本体的空间目标识别方法
CN106367527A (zh) * 2016-11-17 2017-02-01 苏州大学附属第二医院 直肠癌放化疗疗效相关靶基因的鉴定
CN108830027A (zh) * 2017-05-03 2018-11-16 天津中医药大学 一种中医网络证候学分析平台及构建方法和应用
CN107437004A (zh) * 2017-08-07 2017-12-05 深圳华大基因研究院 一种用于肿瘤个体化基因检测智能解读的系统
CN108206057A (zh) * 2018-03-14 2018-06-26 苏州大学 一种前列腺癌诊疗数据平台
KR20200029747A (ko) * 2018-09-11 2020-03-19 인하대학교 산학협력단 당뇨병 치료를 위한 시맨틱스 지능형 임상결정 지원 시스템
CN109271530A (zh) * 2018-10-17 2019-01-25 长沙瀚云信息科技有限公司 一种疾病知识图谱构建方法和平台系统、设备、存储介质
CN111157001A (zh) * 2019-12-20 2020-05-15 南京师范大学 一种面向医院室内导航的本体构建方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
TMPRSS2:ERG融合基因与前列腺原位癌和外周转移癌的相关性研究;毛易捷;史伟峰;李青;;国际检验医学杂志;34(01);第44-48页 *
医学本体构建方法研究――以脑区与自闭症为例;洪亮;石晓月;;信息资源管理学报(02);第80-90页 *
基于临床指南的糖尿病本体构建及语义检索模型设计;于凡 等;医学信息学杂志;39(05);第45-50页 *
基于形式概念分析的医学术语层次关系研究;杨嘉韵;杨君良;丰米宁;;情报探索(05);第32-38页 *
肿瘤本体构建研究;李晓瑛;李丹亚;夏光辉;李军莲;胡铁军;;数字图书馆论坛(08);第37-42页 *

Also Published As

Publication number Publication date
CN111916146A (zh) 2020-11-10
AU2020102504A4 (en) 2020-11-19

Similar Documents

Publication Publication Date Title
US20200243175A1 (en) Health information system for searching, analyzing and annotating patient data
Savova et al. DeepPhe: a natural language processing system for extracting cancer phenotypes from clinical records
Jovanović et al. Semantic annotation in biomedicine: the current landscape
Yang et al. Mining health social media with sentiment analysis
Spasić et al. Text mining of cancer-related information: review of current status and future directions
MacLean et al. Identifying medical terms in patient-authored text: a crowdsourcing-based approach
Chang et al. The use of SNOMED CT, 2013-2020: a literature review
Jiang et al. A study of machine-learning-based approaches to extract clinical entities and their assertions from discharge summaries
Hsu et al. Context-based electronic health record: toward patient specific healthcare
Dingerdissen et al. OncoMX: a knowledgebase for exploring cancer biomarkers in the context of related cancer and healthy data
Zeng et al. Identifying breast cancer distant recurrences from electronic health records using machine learning
Xiu et al. Construction of a digestive system tumor knowledge graph based on chinese electronic medical records: development and usability study
Báez et al. Automatic extraction of nested entities in clinical referrals in Spanish
Berlanga et al. Exploring and linking biomedical resources through multidimensional semantic spaces
US11709877B2 (en) Systems and methods for targeted annotation of data
CN111061835B (zh) 查询方法及装置、电子设备和计算机可读存储介质
CN111916146B (zh) 前列腺癌本体及其构建方法
Scuba et al. Knowledge Author: facilitating user-driven, domain content development to support clinical information extraction
Chen et al. Automated medical chart review for breast cancer outcomes research: a novel natural language processing extraction system
Hong et al. Construction of the cervical cancer common terminology for promoting semantic interoperability and utilization of Chinese clinical data
Rahaman Discovering new trends & connections: current applications of biomedical text mining
Schoenthaler et al. How to compete with Google and Co.: big data and artificial intelligence in stones
Linkov et al. Integration of cancer registry data into the text information extraction system: leveraging the structured data import tool
Neustein et al. Application of text mining to biomedical knowledge extraction: analyzing clinical narratives and medical literature
Jebadas et al. Histogram distance metric learning to diagnose breast cancer using semantic analysis and natural language interpretation methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant