CN116644719B - 一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用 - Google Patents
一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用 Download PDFInfo
- Publication number
- CN116644719B CN116644719B CN202310620389.9A CN202310620389A CN116644719B CN 116644719 B CN116644719 B CN 116644719B CN 202310620389 A CN202310620389 A CN 202310620389A CN 116644719 B CN116644719 B CN 116644719B
- Authority
- CN
- China
- Prior art keywords
- clinical evidence
- evidence
- clinical
- entity
- labeling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 206010012689 Diabetic retinopathy Diseases 0.000 title claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000002372 labelling Methods 0.000 claims description 24
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims 1
- 238000013528 artificial neural network Methods 0.000 abstract description 8
- 238000011160 research Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 11
- 238000000605 extraction Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 6
- 230000018109 developmental process Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000010197 meta-analysis Methods 0.000 description 2
- 201000007914 proliferative diabetic retinopathy Diseases 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 201000007917 background diabetic retinopathy Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000002059 diagnostic imaging Methods 0.000 description 1
- 150000002016 disaccharides Chemical class 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请公开了一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用。该方法包括:构建临床证据关键元素的本体;对临床证据文献进行提取与标注;基于图卷积神经网络的多个关键元素,训练并生成关键元素的实体识别与关系模型;对临床证据实体的进行标准化编码;对临床证据实体进行提取与编码;结构化临床证据的存储与利用。本申请先基于临床证据关键元素构建本体,再基于构建的本体对临床证据进行自动标注和识别,并对临床证据实体和其中的规则进行标准化编码使其结构化,最后将该方法应用于DR,建立有关DR的临床证据查询平台和实现有关DR的计算机自主推理决策。
Description
技术领域
本申请属于循证医学证据系统开发与利用技术领域,具体涉及一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用。
背景技术
临床证据研究文献元素的自动识别对于医学研究和临床实践具有重要意义。根据循证医学的定义,临床研究中描述的人群(population,P)、干预(intervention,I)、对照(comparison,C)和结局(outcome,O)的“P,I,C,O”分别代表研究中的一个元素:其中人群表示需要研究的对象人群或代表与研究对象相关的问题。干预措施指对研究人群采用的治疗干预措施或与观察指标。比较组代表对照组和将给予治疗措施或观察的指标。结局则是代表与结局指标和相关的问题。通过对临床证据关键元素的识别和提取可以提高医学研究的效率:通过自动识别临床证据关键元素,可以将大量的临床证据转化为可操作的数据集,从而加快医学研究的速度和效率。提高临床实践的质量:通过自动识别临床证据关键元素,可以帮助医生更快地发现和解决临床问题,提高临床实践的质量和效率。推动医学技术的发展:通过自动识别临床证据关键元素,可以推动医学技术的发展,如医学影像技术、生物信息技术等。提高医学研究的可靠性:通过自动识别临床证据关键元素,可以提高医学研究的可靠性和准确性,从而为医学研究提供更可靠的数据支持。总之,临床证据关键元素的自动识别对于医学研究和临床实践都具有重要意义,可以加快研究速度和提高实践质量,同时也可以推动医学技术的发展和医学实践的进步。PICO框架是临床证据的关键元素,专门用于帮助将证据需求分解为可搜索的关键字并制定可回答的研究问题。然而,由于使用PICO对技术技能和医学领域知识的高要求,需要搜索证据的从业者和大众可能会发现将其纳入他们繁忙的临床工作流程非常耗时,或者难以学习。自动提取生物医学文献中的PICO语句目的是以促进临床医生和公众进行证据检索、评估和综合。
自然语言处理(NLP)尤其有望帮助我们实现这一目标。以前的工作探索了使用NLP技术来识别生物医学文本中的PICO元素。在过去十年中,主要的解决方案已经从基于知识发展到基于统计,例如支持向量机(SVM)和条件随机领域(CRF)在实践中,也缺乏模块化的基础NLP工具来支持不同方面的证据合成和EBM,例如用于命名实体识别(NER)的工具,来识别文献中的PICO元素及其属性以进行索引、用于解析和构建自由文本文献的研究设计和结果的信息提取(IE)系统,以及基于PICO框架的信息检索(IR)工具,来支持有效的文献检索。随着神经网络和深度学习的快速发展,最近最先进的NLP系统已经使用神经模型开发,包括一些用于生物医学领域的系统。对于命名实体识别(NER)任务,biLSTM-CRF实现了最佳性能。并且移动学习越来越受到关注,以解决对训练神经网络的大数据的高需求。最近一个包含5000个RCT摘要的语料库发表了,带有病人、干预、结局的多级注释,使EBM研究能开发新的NLP应用程序。
发明内容
本申请提供一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变(diabetic retinopathy,DR)中的应用,以解决上述的技术问题。
为解决上述技术问题,本申请采用的一个技术方案是:一种用于临床证据文献元素编码方法,包括:
步骤S1.基于PICO原则、证据来源以及决策建议,构建临床证据关键元素的本体;
步骤S2.基于关键元素的本体,对临床证据文献进行提取与标注;
步骤S3.基于图卷积神经网络的多个关键元素,训练并生成关键元素的实体识别与关系模型;
步骤S4.基于实体识别与关系模型,对临床证据实体的进行标准化编码;
步骤S5.基于临床证据中的逻辑规则,对临床证据实体进行提取与编码;
步骤S6.基于临床证据实体的编码,结构化临床证据的存储与利用。
进一步,步骤S1之前,包括:获取待标注文本数据作为标注语料库;基于标注语料库,构建并定义临床证据关键元素的实体及关系类别。
进一步,步骤S2中的标注方法,包括:在标注平台中对临床证据文献中的语料数据进行实体标注和关系标注,生成标注数据集;基于标注数据集,对标注数据集进行数据预处理生成预处理数据。
进一步,步骤S4的方法,包括:基于FHIR标准和临床证据关键元素的本体,对临床证据实体中提取的逻辑规则进行标准化编码,以使得逻辑规则结构化。
本申请采用的另一个技术方案是:一种关于糖尿病视网膜病变的临床证据查询平台,将糖尿病视网膜病变的临床证据应用于临床决策系统以实现有关糖尿病视网膜病变的计算机进行推理决策。
本申请的有益效果是:本申请结合PICO框架构建本体,没有采用人工手动提取临床证据这一繁琐耗时、技术知识要求较高的方法,而是基于自然语言处理技术对P、I、C、O实体进行识别和训练生成关系模型,并将该方法应用于糖尿病视网膜病变实现了基于临床证据的应用,加快医学研究速度和提高临床实践质量,同时推动医学技术的发展和医学实践的进步。
附图说明
图1是本申请的用于临床证据文献元素编码方法一实施例的流程示意图;
图2是本申请的用于临床证据文献元素编码方法一实施例的结构框图;
图3是本申请的基于增强图注意力模型的临床证据的实体类型与关系类型提取示意图;
图4是本申请的DR临床证据编码JSON文件;
图5是本申请的DR查询平台中的编码的CQL文件用于临床DR诊断决策。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,图1是本申请的用于临床证据文献元素编码方法一实施例的流程示意图。该方法包括:
步骤S1.基于PICO原则、证据来源以及决策建议,构建临床证据关键元素的本体。
具体的,步骤S1之前,包括:
步骤S11.获取待标注文本数据作为标注语料库。
步骤S12.基于标注语料库,构建Scheme概念并定义临床证据关键元素的实体及关系类别。
如图2所示,图2是本申请的临床证据关键元素的本体一实施例的结构框图。依据PICO原则、证据来源和决策建议进行临床证据的本体构建。上述构建的临床证据关键元素的本体共分为3类不同层次,第一类层次对应特定人群、干预措施、对比措施、结果以及证据的来源和提取的决策建议。第二类层次是第一类层次的具体特征对应,例如他人群可分为年龄、性别、患病情况等,干预措施可分为手术、药物、诊断筛查等,结果可分为证据评级、数据类型、随访时间等,证据来源可分为文献题目、研究类型等,决策建议可分为计划建议和基本原理。第三类层次是第二类层次的具体特征对应,例如如数据类型可分为相对危险度、平均值、灵敏度等,药物可分为剂量、给药方式等。
步骤S2.基于关键元素的本体,对临床证据文献进行提取与标注。
具体的,上述的临床证据文献可从中国知网、Pubmed、Cochrane Library等学术数据库中检索与所研究疾病相关的临床试验以及Meta分析或系统综述。
关于提取临床证据文献,首先选择与所研究临床问题相关的检索词进行检索,其中检索词包括医学主题词表(MeSH)和自由词。随后再确定各词之间的逻辑关系,使用布尔逻辑算符对检索词的关系进行表达,包括“逻辑与”(AND)、“逻辑或”(OR)、“逻辑非”(NOT)等;其中,检索文件尽量选择近10年发表的相关文献,以确保临床证据的即时有效性,以此制定出检索表达式并在实际检索过程中不断修改完善。检索到的临床证据文献首先经团队两位审查员仔细阅读并独立评审,当出现分歧时与第三位审查员讨论解决,选取证据评级较高、相关度较高、可实践性较强、对临床实践推广有较大潜力的文献。
在标注平台中对临床证据文献中的语料数据进行实体标注和关系标注,生成标注数据集;基于标注数据集,对标注数据集进行数据预处理生成预处理数据。上述标注工作包含实体标注和关系标注,实体对应步骤一中所构建的证据本体中的不同的类,而关系则是证据本体中不同类之间的层次关系。在一些实施例中,采用BIOSE实体标注方法对实体进行标注;其中,B表示实体的开始,I表示实体中间部分,E表示实体结束位置,S表示单个实体,O表示非实体。根据上述方法对上述下载的临床文献证据中的实体与关系采用brat工具进行标注训练集的制作。其中,文献标注工作需要txt文本和ann文本两类文本。txt文本是需要标注的数据,这类文本需要标注者自行从数据库中下载文献pdf,并整理为txt文档用于标注;ann文件即为标注结果生成文件,用于后期模型训练。
步骤S3.基于图卷积神经网络的多个关键元素,训练并生成关键元素的实体识别与关系模型。
具体的,如图3所示,图3是本申请的基于增强图注意力模型的临床证据的实体类型与关系类型提取示意图。基于图卷积模型的神经网络,进行关键元素P、I、C、O实体识别与关系识别模型训练与生成。其中,预处理过程包括在模型输入时考虑了文本中词汇的词性信息,输入序列为由n个词组成的句子T={t1,t2,t3,……,tn},tn表示句子中第n个词。使用Glove预训练模型获取输入句子中的词向量表示W={w1,w2,w3,……,wn},n表示句子分词后得到的词汇数。同时还需获得句子中的每个字符的向量表示,使用word2vec模型获得字向量C={c1,c2,c3,……cn},n表示输入文本的字符数。为更好地学习,还加入了字符层面的一些特征,包括偏旁部首、拼音、词性、边界等。使用开源cnradical库对字的偏旁和拼音进行自动提取。使用jieba、HanLP等工具实现词性标注(v、p、vn、m等)及分词操作。词边界在分词基础上进行,对词开始的地方标注为B,结束位置标为E。若该词为单独一个字符,则标注为S。
利用图注意力卷积GATBert神经网络作为训练模型的基本框架,并开始训练。在GAT中,给定一患者i和其特征表示h,其表示在GAT中的更新通过分别在K个注意力头与邻接节点。为充分学习句子的上下文信息,捕获词汇的词间关系和词汇语义信息,利用特征提取层BiLSTM将偏旁部首、拼音、词性、边界等特征与字符向量进行融合,后又与词向量融合,生成最终的句子的基于词的序列特征向量输出h={h1,h2,h3……hi},i为句子中词的个数。对于临床证据实体抽取:实体关系抽取的任务主要是识别出自由文本中预定义的实体词汇,并根据实体在文中的的含义及上下文的语境特征等判断各个实体间是否存在关系及存在什么类型的关系。使用“向量表示法”的技术来表示实体,即将每个实体表示为一个具有有限数量的特征的向量。然后,通过使用深度神经网络来学习如何将这些向量转换为对应的实体标签。对于临床证据关系抽取:关系抽取旨在获取非结构文本中标记实体之间的关系类型。通过自编码器来学习将实体之间的关系表示为一个向量。然后,它使用一个变分自编码器来学习如何将这些向量转换为对应的实体之间的关系标签。输入到Transformer模型堆叠而成的预训练BERT模型,最后训练后输出不同的实体类型和关系类型结果。
步骤S4.基于实体识别与关系模型,对临床证据实体的进行标准化编码。
具体的,快速医疗保健互操作性资源(FHIR)标准定义了RESTful、Messages、Documents和Services四个基本范式,可以广泛应用于各种医疗信息场景。在本实施例中,根据上述构建的证据本体,将具体的本体分类层次体现在基于FHIR编码的JSON格式表达式中,修改每个FHIR资源中的资源类型(Resource type),使得每项证据的编码都是基于我们的临床证据本体映射所得,实现证据编码的标准化处理。
如图4所示,图4是本申请的DR临床证据编码JSON文件的部分代码。基于临床证据实体的标准化编码下述代码所示:A对应步骤一中构建的临床证据本体中的关键元素,B对应本次编码的单个临床证据的唯一id号,由系统自动给出且确定不变的。基于A和B,该临床证据即自动归为本体中的各类。“reference”代表各层次间的关系,即该临床证据“A/B”与另一临床证据“A’/B’”有层次关系。C对应该临床证据包含的内容,包括证据的编码(code)这种不可缺少的内容和临床状态、验证状态、严重程度等选择性编码的内容。E对应如SNOMED CT等临床医学术语与信息编码系统,D对应E系统中的该内容对应的代码,F对应该内容的文字性描述。“text”中G对应对该临床证据的文字性描述。我们基于本体的分析,使用标准化映射来完成对临床证据的编码。
步骤S5.基于临床证据中的逻辑规则,对临床证据实体进行提取与编码。
具体的,基于步骤S1中的临床证据本体,可以成功提取证据中的“ifthen”逻辑规则并进行编码,进而利用现有证据实现电子化的临床辅助决策。
“ifthen”规则的提取公式如下述代码,X对应患者的基本情况,包括步骤一本体中的患病情况、现有治疗、性别、年龄等临床证据,Y对应相应的决策建议,即根据文献中的研究内容,若符合基本情况X则计算机自动给出建议Y,以此协助临床医生进行辅助决策判断。若不符合基本情况X1,则系统自动跳转匹配是否符合X2,依次往后类推获得最佳的决策建议。同样地,我们基于FHIR将所提取的“ifthen”规则编码为Json格式的表达式,后续可借助相关的临床决策系统(CDS)工具,从临床医生的工作流程中调用决策支持,由患者基本情况X触发CDS工具同步调用返回最佳的临床决策建议Y,辅助临床医生进行决策判断。
上述相关代码为:
“define"Recommendation":
if"X1"then'Y1'
elseif"X2"then'Y2'
elseif"X3"then'Y3'
……
elseif"Xn"then'Yn'
elsenull”。
步骤S6.基于临床证据实体的编码,结构化临床证据的存储与利用。
具体的,基于我们所构建的证据本体,经过实体、关系标注和标准化编码,使临床证据结构化存储到json格式的文件中(图4),不仅成为计算机可阅读理解的电子化信息,还基于统一的医学编码标准和本体分类,使异构医疗数据系统存储的证据资源能在不同计算机系统之间交换临床证据。对于结构化临床证据的利用,可以配置临床证据的索引,随后创建一个React应用,在此基础上安装用户界面和连接器,并以开发模式启动应用程序,以此建立操作系统搜索库。在上传编码成功的包含临床证据的json格式文件后,即可建立临床证据的查询平台。平台可以实现对临床证据的查询与分析,使用者查询获得实时可靠的临床证据,实现临床证据的共享和互操作,能够安全地提供给需要访问的人及有权访问这些证据信息的人,使医生和患者受益。
图5是本申请的DR查询平台中的编码的CQL文件用于临床DR诊断决策。本申请提供一种关于糖尿病视网膜病变的临床证据查询平台。本实施例中,以糖尿病视网膜病变(DR)疾病为例,我们从学术数据库中检索临床试验以及Meta分析或系统综述,使用例如“糖尿病性视网膜病变”、“DR”、“增殖性糖尿病性视网膜病变”、“PDR”、“非增殖性糖尿病性视网膜病变”、“NPDR”等与所研究的临床证据相关的医学术语搜集文献,首先经团队三位审查员评审后,选取证据评级较高、相关度较高、可实践性较强、对临床实践推广有较大潜力的DR文献,从中自动提取DR临床证据使用。我们基于本体分类将编码完成的临床证据上传到以RESTfulAPI为接口的检索平台,可以实现有关DR临床证据的快速查询,并能清晰知晓检索获得的临床证据的属性和类目层次,以此提高临床实践的质量和效率。将“ifthen”规则进行编码。基于所提取编码的患病情况和决策建议等,将临床证据应用于临床决策系统,与同样经FHIR编码的JSON格式的患者电子健康病例相匹配,实现有关DR的计算机自主推理决策,便于医生对于病因、治疗、诊断和预后的辅助决策。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (3)
1.一种用于临床证据文献元素编码方法,其特征在于,包括:
步骤S1.基于PICO原则、证据来源以及决策建议,构建临床证据关键元素的本体;
步骤S2.基于所述关键元素的本体,对临床证据文献进行提取,获取评级以及相关度达到预设层次的临床证据文献;对所述评级以及相关度达到预设层次的临床证据文献进行标注训练,获取预处理数据;
其中,所述标注训练的方法包括:在标注平台中对所述临床证据文献中的语料数据进行实体标注和关系标注,生成标注数据集;基于所述标注数据集,对所述标注数据集进行数据预处理生成预处理数据;
步骤S3.基于GAT Bert卷积神经网络的多个所述关键元素,训练所述预处理数据并生成关键元素实体识别与关系模型;
步骤S4.基于所述关键元素实体识别与关系模型,构建临床证据实体并进行标准化编码;其中,所述标准化编码的方法包括:基于FHIR标准和所述临床证据关键元素的本体,对所述临床证据实体中提取的逻辑规则进行标准化编码,以使得所述逻辑规则结构化;
步骤S5.基于所述临床证据中的“ifthen”逻辑规则,对所述临床证据实体进行提取与编码;
步骤S6.基于所述临床证据实体的编码,将所述临床证据结构化存储至json格式的文件并将所述json格式的文件上传至查询平台。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1之前,包括:
获取待标注文本数据作为标注语料库;
基于所述标注语料库,构建并定义所述临床证据关键元素的实体及关系类别。
3.如权利要求1所述的方法,其特征在于,其应用于糖尿病视网膜病变临床证据中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310620389.9A CN116644719B (zh) | 2023-05-29 | 2023-05-29 | 一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310620389.9A CN116644719B (zh) | 2023-05-29 | 2023-05-29 | 一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116644719A CN116644719A (zh) | 2023-08-25 |
CN116644719B true CN116644719B (zh) | 2024-07-23 |
Family
ID=87639391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310620389.9A Active CN116644719B (zh) | 2023-05-29 | 2023-05-29 | 一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116644719B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564959A (zh) * | 2022-01-14 | 2022-05-31 | 北京交通大学 | 中文临床表型细粒度命名实体识别方法及系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10133727B2 (en) * | 2013-10-01 | 2018-11-20 | A-Life Medical, Llc | Ontologically driven procedure coding |
CN107330260A (zh) * | 2017-06-23 | 2017-11-07 | 中国人民解放军第306医院 | 一种糖尿病视网膜病变患者临床分级诊治数据管理系统 |
CN108491487A (zh) * | 2018-03-14 | 2018-09-04 | 中国科学院重庆绿色智能技术研究院 | 一种临床指南知识编码方法及系统 |
US20210034813A1 (en) * | 2019-07-31 | 2021-02-04 | 3M Innovative Properties Company | Neural network model with evidence extraction |
CN111428036B (zh) * | 2020-03-23 | 2022-05-27 | 浙江大学 | 一种基于生物医学文献的实体关系挖掘方法 |
CN112149411B (zh) * | 2020-09-22 | 2024-06-04 | 常州大学 | 一种抗生素临床使用领域本体构建方法 |
CN113593709B (zh) * | 2021-07-30 | 2022-09-30 | 江先汉 | 一种疾病编码方法、系统、可读存储介质及装置 |
CN113901807A (zh) * | 2021-08-30 | 2022-01-07 | 重庆德莱哲企业管理咨询有限责任公司 | 临床医学实体识别方法及临床试验知识的挖掘方法 |
CN114139610B (zh) * | 2021-11-15 | 2024-04-26 | 中国中医科学院中医药信息研究所 | 基于深度学习的中医药临床文献数据结构化方法及装置 |
CN114528944B (zh) * | 2022-02-24 | 2023-08-01 | 西南交通大学 | 一种医疗文本编码方法、装置、设备及可读存储介质 |
-
2023
- 2023-05-29 CN CN202310620389.9A patent/CN116644719B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564959A (zh) * | 2022-01-14 | 2022-05-31 | 北京交通大学 | 中文临床表型细粒度命名实体识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116644719A (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Neural natural language processing for unstructured data in electronic health records: a review | |
JP2022526242A (ja) | テキストドキュメントのアノテーションのための方法、装置、およびシステム | |
CN111078875B (zh) | 一种基于机器学习的从半结构化文档中提取问答对的方法 | |
del Carmen Legaz-García et al. | A semantic web based framework for the interoperability and exploitation of clinical models and EHR data | |
Chen et al. | A benchmark for automatic medical consultation system: frameworks, tasks and datasets | |
Nye et al. | Trialstreamer: mapping and browsing medical evidence in real-time | |
CN114664463A (zh) | 一种全科医生诊疗辅助系统 | |
Della Mea et al. | Underlying cause of death identification from death certificates using reverse coding to text and a NLP based deep learning approach | |
Gonçalves et al. | Aligning biomedical metadata with ontologies using clustering and embeddings | |
Huang et al. | Semantic representation of evidence-based clinical guidelines | |
Yu et al. | Enhancing healthcare through large language models: A study on medical question answering | |
Guo et al. | Question answering based on pervasive agent ontology and Semantic Web | |
da Silva Ferreira | Medical information extraction in European Portuguese | |
Hong et al. | A computational framework for converting textual clinical diagnostic criteria into the quality data model | |
CN116644719B (zh) | 一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用 | |
CN114861646A (zh) | 一种面向医学垂直领域的数据标注平台 | |
Gu et al. | Strokepeo: Construction of a clinical ontology for physical examination of stroke | |
Liu et al. | An Emotion-fused Medical Knowledge Graph and its Application in Decision Support | |
CN113314236A (zh) | 一种面向高血压的智能问答系统 | |
Buakhao | Extracting Known Side Effects from Summaries of Product Characteristics (SmPCs) Provided in PDF Format by the European Medicines Agency (EMA) using BERT and Python | |
Madrid García | Recognition of professions in medical documentation | |
Meilender et al. | From web 1.0 to social semantic web: Lessons learnt from a migration to a medical semantic wiki | |
Mishra et al. | Summarization of Unstructured Medical Data for Accurate Medical Prognosis—A Learning Approach | |
Subrahmanian et al. | An infrastructure for curating, querying, and augmenting document data: COVID-19 case study | |
Khriyenko et al. | Cognitive computing supported medical decision support system for patient’s driving assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |