CN112466463B - 基于肿瘤精准诊疗知识图谱的智能解答系统 - Google Patents
基于肿瘤精准诊疗知识图谱的智能解答系统 Download PDFInfo
- Publication number
- CN112466463B CN112466463B CN202011452142.3A CN202011452142A CN112466463B CN 112466463 B CN112466463 B CN 112466463B CN 202011452142 A CN202011452142 A CN 202011452142A CN 112466463 B CN112466463 B CN 112466463B
- Authority
- CN
- China
- Prior art keywords
- treatment
- accurate diagnosis
- entity
- data
- tumor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Human Computer Interaction (AREA)
- Epidemiology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Medical Treatment And Welfare Office Work (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及肿瘤精准诊疗相关服务领域,特别是涉及基于肿瘤精准诊疗知识图谱的智能解答系统,包括如下步骤:S1、获取初始数据信息;S2、进行信息抽取处理;S3、目标数据信息,确定关联关系;S4、基于层级关系,构建肿瘤精准诊疗层级树;S5、基于多种关联关系,构建肿瘤精准诊疗知识图谱;S6、基于层级树和知识图谱,开发自然语言理解算法模型,搭建目标智能解答系统;本发明覆盖肿瘤精准诊疗相关的多领域知识数据,抽取多种实体及其同义词条库,构建肿瘤精准诊疗实体层级树及肿瘤精准诊疗知识图谱,搭建搭建肿瘤精准诊疗智能解答系统,提供面向肿瘤相关全领域人群的应用,用以支持肿瘤精准诊疗数据解读。
Description
技术领域
本发明涉及肿瘤精准诊疗相关服务领域,特别是涉及基于肿瘤精准诊疗知识图谱的智能解答系统。
背景技术
进入精准医疗时代以来,“精准”二字越来越多地被提及,尤其是在肿瘤诊疗领域,从基础科研、临床应用到普通患者及家属,都在接纳或逐渐接纳并认可肿瘤的精准诊疗。很多人直接将“精准”与“基因检测”画上了等号,但实际上要实现“精准”,远不止做基因检测这么简单。我们不仅要精准地做检测,包括病理检测、基因检测等多种检测,更要对这些检测结果进行精准地解读。而要实现精准解读,准确并完善的知识数据支撑是必不可少的,除此之外,如何实现对这些信息的精准检索和解读也是非常之重要。
现阶段提供这类肿瘤精准诊疗相关检测结果解读的服务都存在有一定的局限性,具体表现在以下几个方面:
首先,从业人员一味在基因测序本身上下功夫,包括提升检测的准确性以及检测的范围等,这是绝对没错的,但是忽视了检测之后的精准解读,没有在解读数据以及解读工具上下功夫;
其次,在解读数据部分,首先数据源有限,此外,比较关键的是,大部分的知识库数据没有深入挖掘各精准诊疗实体之间的关系,从而导致已有知识信息无法得到更充分的利用,未知信息不能得到更充分便捷地挖掘;
此外,在解读工具这块,样本数据分析人员大部分都是采用纯文本匹配的方式,对相关的实体,如癌种、基因、变异等与知识库中的证据进行直接匹配,这会导致当知识库与当前样本的实体表述不一致的时候,无法获取目标知识数据,导致样本实体无法获得解读;而对于临床医生以及肿瘤患者及家属,能够依赖的就是检测机构出具的检测报告,一旦检测报告中没有覆盖,则相应的信息就会被遗漏,且无从获取;即便这些临床医生、科研工作者、检测人员、肿瘤患者及家属等能够有处可查,往往也会由于查询工具的局限性(无法实现层级检索和关联检索,无法实现智能化地文本对话或语音对话查询等),导致信息查询不全,遗漏掉很多对肿瘤精准诊疗有益的证据或方案等。
发明内容
针对现有的技术的不足,本发明目的在于,覆盖肿瘤精准诊疗相关的多领域知识数据,抽取多种实体及其同义词条库,构建肿瘤精准诊疗实体层级树及肿瘤精准诊疗知识图谱,搭建搭建肿瘤精准诊疗智能解答系统,提供面向肿瘤相关全领域人群的应用,用以支持肿瘤精准诊疗数据解读。
为实现上述目的,本发明提供如下技术方案:
基于肿瘤精准诊疗知识图谱的智能解答系统,其特征在于,包括如下步骤:
S1、获取与肿瘤精准医疗相关的初始数据信息;
S2、对S1中初始数据进行信息抽取处理,包括对相关实体进行标准化、各类证据数据的清洗、整理与整合,以获得目标数据信息;
S3、根据S2中的目标数据信息,确定实体维度以及所述实体维度之间的层级关系及其他关联关系;
S4、基于S3中的实体维度和所述的实体维度之间的层级关系,构建肿瘤精准诊疗层级树;
S5、基于S3中的实体维度和所述的实体维度之间的多种关联关系,构建肿瘤精准诊疗知识图谱;
S6、基于S4和S5中的肿瘤精准诊疗层级树和肿瘤精准诊疗知识图谱,开发自然语言理解算法模型,搭建目标智能解答系统。
进一步的,所述S2中的目标数据信息包括:实体列表、实体关系数据和知识数据;
进一步的,所述S3中实体维度为实体种类类型,所述层级关系为同类实体的上下级关系,所述其他关联关系为不同实体之间的关系。
进一步的,所述S6中的自然语言理解算法模型包括两个方面,一方面包括对用户输入的意图理解,另一方面包括根据用户输入和查询结果,按照设定的结构组织人类语言,生成回答语句,以反馈至用户;
进一步的,所述S6中的目标智能解答系统包括以下模块:知识数据查询模块、层级树状图浏览模块、知识图谱展示及检索模块和用户问答模块。
与现有技术相比,本发明提供了基于肿瘤精准诊疗知识图谱的智能解答系统,具备以下有益效果:
本发明,构建了肿瘤精准诊疗实体库,收录了包含癌种、基因、变异/生物标志物、药物、食物、膳食补充剂、临床试验等在内的多维度的实体,包括其各自的标准词条和同义词条,这些词条对于信息的精确检索起到十分重要的作用;
构建了肿瘤精准诊疗知识数据库,收录了FDA、NMPA、EMA等官方机构批准的,以及NCCN、ASCO、CSCO等权威临床诊疗指南收录的,或是科研文献研究发现的与肿瘤精准诊断、治疗等相关的知识数据,同时也收集了这些知识数据中涉及的各类实体,如癌种、基因、药物等相关的各类属性信息,为肿瘤精准诊疗领域无论是临床应用、科学研究还是普通大众的信息获取提供坚实的基础;
构建了肿瘤精准诊疗实体层级树,在普通的关键词查询的基础上,结合实体之间的层级关系,合理地拓展查询范围,能更大程度上减少目标信息被遗漏的概率;
构建了肿瘤精准诊疗知识图谱,包含了与肿瘤精准诊疗相关的几乎所有重要节点/实体,以及覆盖了各个节点/实体之间的多种关联关系,为数据的检索和信息的探索提供了强有力的支撑;
搭建了肿瘤精准诊疗解答系统,包括解读系统和问答系统两部分,前者可以为科学研究和临床应用中肿瘤样本的检测结果进行精准的诊断解读或治疗解读,自动化生成解读报告;而后者则不仅可以面向科研和临床,更可以面向普通大众,用最简单便捷以及可视化的方式帮助他们获取目标信息。
附图说明
图1为智能解答系统系统示意图
具体实施方式
下面将结合本发明的实施例,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参考图1,基于肿瘤精准诊疗知识图谱的智能解答系统,包括如下步骤:
S1、获取与肿瘤精准医疗相关的初始数据信息;
S2、对S1中初始数据进行信息抽取处理,包括对相关实体进行标准化、各类证据数据的清洗、整理与整合,以获得目标数据信息;
S3、根据S2中的目标数据信息,确定实体维度以及所述实体维度之间的层级关系及其他关联关系;
S4、基于S3中的实体维度和所述的实体维度之间的层级关系,构建肿瘤精准诊疗层级树;
S5、基于S3中的实体维度和所述的实体维度之间的多种关联关系,构建肿瘤精准诊疗知识图谱;
S6、基于S4和S5中的肿瘤精准诊疗层级树和肿瘤精准诊疗知识图谱,开发自然语言理解算法模型,搭建目标智能解答系统。
本实施例中,肿瘤精准诊疗实体层级树用于方便用户根据癌种或者基因、药物等实体的层级关系进行浏览查找,获取目标信息;
进一步的,所述S2中的目标数据信息包括:实体列表、实体关系数据和知识数据;
本实施例中,实体列表包括癌种、基因、突变、药物等实体列表,各实体包括标准词条和多种同义词条,以及实体的描述信息和来源信息;肿瘤精准诊疗知识图谱的实体种类众多、关联关系丰富,提供图形化的界面供用户对感兴趣的肿瘤精准诊疗实体进行探索,发掘目标信息,或者触发新的研发思路;
进一步的,所述S3中实体维度为实体种类类型,所述层级关系为同类实体的上下级关系,所述其他关联关系为不同实体之间的关系;
本实施例中,实体维度就是实体种类,包括癌种、基因、变异、药物、食物、膳食补充剂、临床试验等实体类型;层级关系就是同类实体的上下级关系,这个在很多数据库中都有收录这种关系,如癌种有DiseaseOntology,MeSH,ICD各个版本等,药物则有ATC Code等;其他关联关系则包括各个不同实体之间的关系,这类关系几乎在各种数据库都会有收录,比如在DrugBank中就有药物-基因/蛋白之间的关联关系,基因/蛋白是药物的代谢酶或者转运体蛋白或者靶点等等;同时也有药物-药物之间的相互作用关系等等;再比如MyCancerGenome数据库中有收录各个临床试验中包含哪些癌种、基因、变异/标志物、药物等,这其中变异/标志物可能是某个临床试验的入组标准,也可能是排除标准等;
进一步的,所述S6中的自然语言理解算法模型包括两个方面,一方面包括对用户输入的意图理解,另一方面包括根据用户输入和查询结果,按照设定的结构组织人类语言,生成回答语句,以反馈至用户;
本实施例中,对用户输入的查询信息调用nlp模型进行意图识别,识别该信息的主要意图,然后调用另一个nlp模型进行命名实体识别,识别出该问题中的实体信息,根据模型解析到的意图和实体基于肿瘤精准诊疗知识图谱查询目标信息,生成自然语言返回给用户。
进一步的,所述S6中的目标智能解答系统包括以下模块:知识数据查询模块、层级树状图浏览模块、知识图谱展示及检索模块和用户问答模块。
本发明具体实施过程中,初始数据从NCBI Gene,HGNC,DrugBank,DiseaseOntology,CIViC,PharmGKB,PubChem,NCTthesaurus,NCBI MeSH,ICD-11,OncoKB,CGI,ClinicalTrials,ChinaDrugTrials,ChiCTR等数据源下载,然后采用生物信息学的方法进行清洗、标准化及整合处理;
该过程首先不同数据源的数据下载到本地后,先针对各数据集分别进行整合与清洗,去除不能用的数据,以及缺少字段的数据等;针对不同的数据源的数据,对其中的各类实体进行标准化处理,如将所有表示为非小细胞肺癌的都标准化为“Non-small cell lungcancer”等;所用的标准癌症主要为DiseaseOntology,药物为DrugBank,基因为HGNC,变异为HGVS;除了实体的标准化,还包括数据结构的标准化,所有的数据都按照统一的格式进行整理;在单独清洗和标准化完成后,再对所有数据进行汇总整合,然后合并重复的数据,最终得到整合后的数据。
得到多个维度的实体列表,包括但不限于癌种、基因、变异(生物标志物)、药物(化合物)、食物、膳食补充剂、临床试验等;然后利用生物信息学方法结合NLP技术,从包括上述知识库在内的知识库和文献中挖掘各实体之间的层级关系、关联关系及针对实体和关系的结构化和描述性的知识数据;
该过程首先利用正则匹配的方式,将前面整理得到的实体往知识库数据或文献数据中进行匹配,以定位各个实体所在的位置;但是正则匹配有一定的缺点,首先匹配上的实体并不一定是真正的生命科学实体,有可能纯粹是单词相同(如基因实体“MET”就有可能匹配上单词遇见“met”,这只是举个简单的例子,这种情况实际上可以通过匹配大小写解决,但是其他同类型问题并不一定也能如此解决),其次也有可能会漏掉一些没有在前面收集到的实体。所以需要结合NLP的方法,从上下文的语境中来判断特定的单词或者短语是不是一个真正的实体;
其次,实体匹配上之后,还需要利用NLP来进行实体关系抽取,例如:在同时匹配上癌种、基因、变异和药物实体的句子或段落中,判断该句子或段落表达的意义:“在XX癌种中XX基因发生XX变异时,XX药物药效或者毒性/ADR是升高还是降低,提示该药物是否可用”。
实体的层级关系包括癌种之间的层级关系、基因和变异以及变异与变异之间的层级关系、药物类别与药物之间的层级关系等,其中,各层级关系使用“is_a”进行表示;
本实施例中,各个实体之间的关联关系如下:
(1)基因与癌种的关联关系:suppressor,inducer,即:活性基因可能扮演癌种的诱导剂或抑制剂,及促进或者抑制癌症的发生;
(2)变异与癌种的关联关系:suppressor,inducer,即:变异可能扮演癌种的诱导剂或抑制剂,及促进或者抑制癌症的发生;
(3)药物与癌种的关联关系:treat,may_treat,即:药物能治疗(已获批,treat)或者有希望能用于治疗(研究中,may_treat)癌症;
(4)食物与癌种的关联关系:may_prevent,即:该食物能预防癌症的发生;
(5)膳食补充剂与癌种的关联关系:may_prevent,即:该膳食补充剂能预防癌症的发生;
(6)变异与变异的关联关系:combination,is_a,即:变异与变异能同时存在组成“共变异”,一个变异可能从属于另一个变异(即前述的层级关系,如EGFR L858R is_a EGFRsensitive mutations);
(7)变异与药物的关联关系:improve_efficacy,reduce_efficacy,increase_toxicity,decrease_toxicity,influence_adme,即:变异的发生能影响药物的药效(efficacy,提升或降低),也可能影响药物的毒性/不良反应(toxicity/ADR,概率或程度升高或降低),还可能影响药物的药代动力学特性(pharmacokinetics/ADME),如影响药物的吸收、代谢、体内分布以及排泄等;
(8)变异与基因的关联关系:inactivate,activate,included_in,即:变异的发生导致基因失活或激活,变异本身也可能是从属于某个基因(如BRAF V600E是发生在BRAF基因上的突变);
(9)药物与药物的关联关系:combination,interact(improve_efficacy,reduce_efficacy,increase_toxicity,decrease_toxicity,influence_adme),is_a,即:药物与药物(类别)可能存在层级关系(如afatinib is_aprotein kinase inhibitors),药物与药物可能在一些治疗方案中被联合使用,另外药物与药物之间可能存在相互作用,互相影响对方的药效、毒性或药代动力学特性等;
(10)食物与药物的关联关系:interact(improve_efficacy,reduce_efficacy,increase_toxicity,decrease_toxicity,influence_adme),即:食物与药物同食可能会互相影响,如食物影响药物的药效、毒性、药代动力学特性,药物也影响食物的吸收等;
(11)膳食补充剂与药物的关联关系:interact(improve_efficacy,reduce_efficacy,increase_toxicity,decrease_toxicity,influence_adme),即:同食物和药物的相互作用,膳食补充剂与药物同食可能会互相影响,如膳食补充剂影响药物的药效、毒性、药代动力学特性,药物也影响膳食补充剂的吸收等;
(12)变异与临床试验的关联关系:inclusion_criteria,exclusion_criteria,included_in,即:变异可能是临床试验的入组标准或排除标准,或者也可能不属于任何标准,只是在临床试验材料中有所提及;
(13)癌种与临床试验的关联关系:inclusion_criteria,exclusion_criteria,included_in,即:癌种可能是临床试验的入组标准或排除标准,或者也可能不属于任何标准,只是在临床试验材料中有所提及;
(14)药物与临床试验的关联关系:inclusion_criteria,exclusion_criteria,included_in,used_in,即:药物可能是临床试验的入组标准或排除标准,或者也可能不属于任何标准,只是在临床试验材料中有所提及,或者在该试验中被使用;
基因与临床试验的关联关系:inclusion_criteria,exclusion_criteria,included_in,即:基因可能是临床试验的入组标准或排除标准,或者也可能不属于任何标准,只是在临床试验材料中有所提及;
除了标注关联关系之外,还有相应的包括描述信息(description)在内的多种属性信息(attribute)、伴随实体(companion)、诊疗指导信息(instruction)等,可以帮助用户更清晰地了解当前具体的关联关系以及在这种关联关系之下,对癌症的诊断或治疗有何种指导意义,如在变异/生物标志物“microsatellite instability-high(MSI-H)”和药物“ipilimumab+nivolumab”的关联关系描述中,“FDA granted accelerated approval toipilimumab(YERVOY,Bristol-Myers Squibb Company Inc.)for use in combinationwith nivolumab for the treatment ofpatients 12years of age and older withmicrosatellite instability-high(MSI-H)or mismatch repair deficient(dMMR)metastatic colorectal cancer(mCRC)that has progressed following treatmentwith a fluoropyrimidine,oxaliplatin,and irinotecan.”,提示在癌症“metastaticcolorectal cancer(mCRC)”的情况下,药物组合“ipilimumab+nivolumab”在变异/生物标志物“MSI-H”或者“mismatch repair deficient(dMMR)”的情况下可用于治疗该癌症,提示“推荐用药”;除此之外,还提供有相应的数据源(data_source)信息,记录了该关联信息的原始来源数据库或文献,方便随时进行溯源以了解更多详情,发掘更多知识。
本实施例中,内嵌若干训练好的NLP算法模型,构建肿瘤精准诊疗问答系统,其功能包括:对从系统前端接收的语音信息进行语音识别,并转化为文本信息;从系统前端直接接收的文本信息或者从语音信息转化过来的文本信息,经过另一个NLP算法模型进行语义分析,意图识别,解析出用户的真实目的;基于前述构建好的肿瘤精准诊疗知识图谱,获取信息查询结果,并利用另一个NLP算法模型,生成自然语言,返回到前端以展示给用户,或者对用户输入的理解不足以查询出目标数据,或者查询出来的潜在信息过多时,生成一条自然语言描述的问句,用于从用户处获取更精细的过滤条件,以更精准地获取目标信息。
本发明,构建了肿瘤精准诊疗实体库,收录了包含癌种、基因、变异/生物标志物、药物、食物、膳食补充剂、临床试验等在内的多维度的实体,包括其各自的标准词条和同义词条,这些词条对于信息的精确检索起到十分重要的作用;
构建了肿瘤精准诊疗知识数据库,收录了FDA、NMPA、EMA等官方机构批准的,以及NCCN、ASCO、CSCO等权威临床诊疗指南收录的,或是科研文献研究发现的与肿瘤精准诊断、治疗等相关的知识数据,同时也收集了这些知识数据中涉及的各类实体,如癌种、基因、药物等相关的各类属性信息,为肿瘤精准诊疗领域无论是临床应用、科学研究还是普通大众的信息获取提供坚实的基础;
构建了肿瘤精准诊疗实体层级树,在普通的关键词查询的基础上,结合实体之间的层级关系,合理地拓展查询范围,能更大程度上减少目标信息被遗漏的概率;
构建了肿瘤精准诊疗知识图谱,包含了与肿瘤精准诊疗相关的几乎所有重要节点/实体,以及覆盖了各个节点/实体之间的多种关联关系,为数据的检索和信息的探索提供了强有力的支撑;
搭建了肿瘤精准诊疗解答系统,包括解读系统和问答系统两部分,前者可以为科学研究和临床应用中肿瘤样本的检测结果进行精准的诊断解读或治疗解读,自动化生成解读报告;而后者则不仅可以面向科研和临床,更可以面向普通大众,用最简单便捷以及可视化的方式帮助他们获取目标信息。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神所定义的范围。
Claims (3)
1.基于肿瘤精准诊疗知识图谱的智能解答系统,其特征在于,包括如下步骤:
S1、获取与肿瘤精准诊疗相关的初始数据信息;初始数据从NCBI Gene,HGNC,DrugBank,Disease Ontology,CIViC,PharmGKB,PubChem,NCTthesaurus,NCBI MeSH,ICD-11,OncoKB,CGI,ClinicalTrials,ChinaDrugTrials,ChiCTR数据源下载,然后采用生物信息学的方法进行清洗、标准化及整合处理;
S2、对S1中初始数据进行信息抽取处理,包括对相关实体进行标准化、各类证据数据的清洗、整理与整合,以获得目标数据信息;
S3、根据S2中的目标数据信息,确定实体维度以及所述实体维度之间的层级关系及其他关联关系;包括癌种、基因、变异、药物、食物、膳食补充剂、临床试验;所述实体维度为实体种类类型,所述层级关系为同类实体的上下级关系,所述其他关联关系为不同实体之间的关系;然后利用生物信息学方法结合NLP技术,从包括上述数据源在内的知识库和文献中挖掘各实体之间的层级关系、关联关系及针对实体和关系的结构化和描述性的知识数据,其中,确定各实体之间的层级关系、关联关系及针对实体和关系的结构化和描述性的知识数据的过程包括:利用正则匹配的方式,将整理得到的实体往知识库数据或文献数据中进行匹配,以定位各个实体所在的位置;存在没有收集到的实体,需要结合NLP的方法,从上下文的语境中来判断特定的单词或者短语是否为实体;实体匹配后,还需要利用NLP进行实体关系抽取;
实体的层级关系包括癌种之间的层级关系、基因和变异以及变异与变异之间的层级关系、药物类别与药物之间的层级关系;
S4、基于S3中的实体维度和所述的实体维度之间的层级关系,构建肿瘤精准诊疗层级树;
S5、基于S3中的实体维度和所述的实体维度之间的多种关联关系,构建肿瘤精准诊疗知识图谱;
S6、基于S4和S5中的肿瘤精准诊疗层级树和肿瘤精准诊疗知识图谱,开发自然语言处理算法模型,搭建目标智能解答系统;智能解答系统包括以下模块:知识数据查询模块、层级树状图浏览模块、知识图谱展示及检索模块、NGS基因检测数据解读模块和用户问答模块;其中,内嵌多个训练好的NLP算法模型,构建肿瘤精准诊疗问答系统,其功能包括:对从系统前端接收的语音信息进行语音识别,并转化为文本信息;从系统前端直接接收的文本信息或者从语音信息转化过来的文本信息,经过第一个NLP算法模型进行语义分析,意图识别,解析出用户的真实目的;基于前述构建好的肿瘤精准诊疗知识图谱,获取信息查询结果,并利用第二个NLP算法模型,生成自然语言,返回到前端以展示给用户,或者对用户输入的理解不足以查询出目标数据,或者查询出来的潜在信息过多时,生成一条自然语言描述的问句,用于从用户处获取更精细的过滤条件,以更精准地获取目标信息。
2.根据权利要求1所述的基于肿瘤精准诊疗知识图谱的智能解答系统,其特征在于,所述S2中的目标数据信息包括:实体列表、实体关系数据和知识数据。
3.根据权利要求1所述的基于肿瘤精准诊疗知识图谱的智能解答系统,其特征在于,所述S6中的自然语言处理算法模型包括两个方面,一方面包括对用户输入的意图理解,另一方面包括根据用户输入和查询结果,按照设定的结构组织人类语言,生成回答语句,以反馈至用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011452142.3A CN112466463B (zh) | 2020-12-10 | 2020-12-10 | 基于肿瘤精准诊疗知识图谱的智能解答系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011452142.3A CN112466463B (zh) | 2020-12-10 | 2020-12-10 | 基于肿瘤精准诊疗知识图谱的智能解答系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112466463A CN112466463A (zh) | 2021-03-09 |
CN112466463B true CN112466463B (zh) | 2023-08-18 |
Family
ID=74800723
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011452142.3A Active CN112466463B (zh) | 2020-12-10 | 2020-12-10 | 基于肿瘤精准诊疗知识图谱的智能解答系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112466463B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113094517A (zh) * | 2021-04-27 | 2021-07-09 | 中国美术学院 | 一种产品知识单元的构建方法和系统 |
CN114722213A (zh) * | 2022-03-11 | 2022-07-08 | 青岛百洋智能科技股份有限公司 | 多病种多指南临床辅助决策支持系统的知识图谱构建及应用方法 |
CN116312923B (zh) * | 2023-02-22 | 2024-06-07 | 深圳市海普洛斯医疗系统科技有限公司 | 基因检测报告自动化处理方法、装置、设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427735A (zh) * | 2018-02-28 | 2018-08-21 | 东华大学 | 基于电子病历的临床知识图谱构建方法 |
CN110059195A (zh) * | 2019-04-10 | 2019-07-26 | 华侨大学 | 一种基于lis的医学检验知识图谱构建方法 |
CN110532360A (zh) * | 2019-07-19 | 2019-12-03 | 平安科技(深圳)有限公司 | 医疗领域知识图谱问答处理方法、装置、设备及存储介质 |
CN110929016A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱医生智慧医疗科技有限公司 | 一种基于知识图谱的智能问答方法及装置 |
CN111191048A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于知识图谱的急诊问答系统构建方法 |
CN111341456A (zh) * | 2020-02-21 | 2020-06-26 | 中南大学湘雅医院 | 糖尿病足知识图谱生成方法、装置及可读存储介质 |
CN111768869A (zh) * | 2020-09-03 | 2020-10-13 | 成都索贝数码科技股份有限公司 | 面向智能问答系统的医学指南图谱化构建搜索系统及方法 |
CN111813957A (zh) * | 2020-07-14 | 2020-10-23 | 深圳中兴网信科技有限公司 | 基于知识图谱的医疗导诊方法和可读存储介质 |
CN111916146A (zh) * | 2020-07-27 | 2020-11-10 | 苏州工业园区服务外包职业学院 | 前列腺癌本体及其构建方法 |
CN111930856A (zh) * | 2020-07-06 | 2020-11-13 | 北京邮电大学 | 领域知识图谱本体和数据的构建方法、装置和系统 |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN112037920A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗知识图谱构建方法、装置、设备及存储介质 |
CN112035635A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗领域意图识别方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10878962B2 (en) * | 2016-11-02 | 2020-12-29 | COTA, Inc. | System and method for extracting oncological information of prognostic significance from natural language |
-
2020
- 2020-12-10 CN CN202011452142.3A patent/CN112466463B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427735A (zh) * | 2018-02-28 | 2018-08-21 | 东华大学 | 基于电子病历的临床知识图谱构建方法 |
CN110059195A (zh) * | 2019-04-10 | 2019-07-26 | 华侨大学 | 一种基于lis的医学检验知识图谱构建方法 |
CN110532360A (zh) * | 2019-07-19 | 2019-12-03 | 平安科技(深圳)有限公司 | 医疗领域知识图谱问答处理方法、装置、设备及存储介质 |
CN110929016A (zh) * | 2019-12-10 | 2020-03-27 | 北京爱医生智慧医疗科技有限公司 | 一种基于知识图谱的智能问答方法及装置 |
CN111191048A (zh) * | 2020-01-02 | 2020-05-22 | 南京邮电大学 | 基于知识图谱的急诊问答系统构建方法 |
CN111341456A (zh) * | 2020-02-21 | 2020-06-26 | 中南大学湘雅医院 | 糖尿病足知识图谱生成方法、装置及可读存储介质 |
CN111930856A (zh) * | 2020-07-06 | 2020-11-13 | 北京邮电大学 | 领域知识图谱本体和数据的构建方法、装置和系统 |
CN111813957A (zh) * | 2020-07-14 | 2020-10-23 | 深圳中兴网信科技有限公司 | 基于知识图谱的医疗导诊方法和可读存储介质 |
CN111916146A (zh) * | 2020-07-27 | 2020-11-10 | 苏州工业园区服务外包职业学院 | 前列腺癌本体及其构建方法 |
CN112002411A (zh) * | 2020-08-20 | 2020-11-27 | 杭州电子科技大学 | 一种基于电子病历的心脑血管病知识图谱问答方法 |
CN112035635A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗领域意图识别方法、装置、设备及存储介质 |
CN112037920A (zh) * | 2020-08-31 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗知识图谱构建方法、装置、设备及存储介质 |
CN111768869A (zh) * | 2020-09-03 | 2020-10-13 | 成都索贝数码科技股份有限公司 | 面向智能问答系统的医学指南图谱化构建搜索系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112466463A (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112466463B (zh) | 基于肿瘤精准诊疗知识图谱的智能解答系统 | |
Meystre et al. | Automatic trial eligibility surveillance based on unstructured clinical data | |
US10275711B2 (en) | System and method for scientific information knowledge management | |
Kislinger et al. | Global survey of organ and organelle protein expression in mouse: combined proteomic and transcriptomic profiling | |
Kehl et al. | Natural language processing to ascertain cancer outcomes from medical oncologist notes | |
CN110570905B (zh) | 组学数据分析平台的构建方法、装置和计算机设备 | |
Lindon et al. | The emergent role of metabolic phenotyping in dynamic patient stratification | |
CN110364266A (zh) | 用于指导临床肿瘤个体化用药的数据库及其构建方法和装置 | |
CN107169310B (zh) | 一种基因检测知识库构建方法及系统 | |
Kutchukian et al. | Large scale meta-analysis of fragment-based screening campaigns: privileged fragments and complementary technologies | |
CN111833962A (zh) | 一种肿瘤用药解读数据库及其构建方法和装置 | |
CN113539515A (zh) | 临床需求挖掘方法、装置、电子设备和存储介质 | |
CN112530535A (zh) | 基于健康医疗大数据建立疾病专病队列的方法及装置 | |
Callahan et al. | Ontologizing health systems data at scale: making translational discovery a reality | |
Sultana et al. | Detection, reduction and filtration of cancer cells through a new DNA polymerization sequence approach | |
CN112270960B (zh) | 一种二级肿瘤诊断知识库及肿瘤突变解析系统 | |
Hendrickson et al. | Tools for interpreting large-scale protein profiling in microbiology | |
Parodi et al. | Restricted ROC curves are useful tools to evaluate the performance of tumour markers | |
CN113889279B (zh) | 联合疗法信息挖掘和查询方法、装置和电子设备 | |
WO2022232850A1 (en) | Systems and methods for continuous cancer treatment and prognostics | |
CN115408501A (zh) | 文档检索辅助装置 | |
CN111968703A (zh) | 一种结直肠癌基因变异及用药解读系统及解读方法、装置 | |
Simoulin et al. | From free‐text electronic health records to structured cohorts: Onconum, an innovative methodology for real‐world data mining in breast cancer | |
Overbey et al. | NASA GeneLab RNA-Seq Consensus Pipeline: Standardized Processing of Short-Read RNA-Seq Data | |
Cho et al. | A novel PS4 criterion approach based on symptoms of rare diseases and in-house frequency data in a Bayesian framework |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 311199 Room 501, Building 8, No. 26, Zhenxing East Road, Donghu Street, Linping District, Hangzhou, Zhejiang Applicant after: Qiuzhen Medical Technology (Zhejiang) Co.,Ltd. Address before: 101, 1st floor, building 3, 156 Jinghai 4th Road, Daxing Economic and Technological Development Zone, Beijing Applicant before: CHOSENMED TECHNOLOGY (BEIJING) Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |