CN116644719B

CN116644719B - 一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用

Info

Publication number: CN116644719B
Application number: CN202310620389.9A
Authority: CN
Inventors: 吴辉群; 唐洁; 李善鸿
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2023-05-29
Filing date: 2023-05-29
Publication date: 2024-07-23
Anticipated expiration: 2043-05-29
Also published as: CN116644719A

Abstract

本申请公开了一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用。该方法包括：构建临床证据关键元素的本体；对临床证据文献进行提取与标注；基于图卷积神经网络的多个关键元素，训练并生成关键元素的实体识别与关系模型；对临床证据实体的进行标准化编码；对临床证据实体进行提取与编码；结构化临床证据的存储与利用。本申请先基于临床证据关键元素构建本体，再基于构建的本体对临床证据进行自动标注和识别，并对临床证据实体和其中的规则进行标准化编码使其结构化，最后将该方法应用于DR，建立有关DR的临床证据查询平台和实现有关DR的计算机自主推理决策。

Description

一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用

技术领域

本申请属于循证医学证据系统开发与利用技术领域，具体涉及一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变中的应用。

背景技术

临床证据研究文献元素的自动识别对于医学研究和临床实践具有重要意义。根据循证医学的定义，临床研究中描述的人群(population,P)、干预(intervention,I)、对照(comparison,C)和结局(outcome,O)的“P，I，C，O”分别代表研究中的一个元素：其中人群表示需要研究的对象人群或代表与研究对象相关的问题。干预措施指对研究人群采用的治疗干预措施或与观察指标。比较组代表对照组和将给予治疗措施或观察的指标。结局则是代表与结局指标和相关的问题。通过对临床证据关键元素的识别和提取可以提高医学研究的效率：通过自动识别临床证据关键元素，可以将大量的临床证据转化为可操作的数据集，从而加快医学研究的速度和效率。提高临床实践的质量：通过自动识别临床证据关键元素，可以帮助医生更快地发现和解决临床问题，提高临床实践的质量和效率。推动医学技术的发展：通过自动识别临床证据关键元素，可以推动医学技术的发展，如医学影像技术、生物信息技术等。提高医学研究的可靠性：通过自动识别临床证据关键元素，可以提高医学研究的可靠性和准确性，从而为医学研究提供更可靠的数据支持。总之，临床证据关键元素的自动识别对于医学研究和临床实践都具有重要意义，可以加快研究速度和提高实践质量，同时也可以推动医学技术的发展和医学实践的进步。PICO框架是临床证据的关键元素，专门用于帮助将证据需求分解为可搜索的关键字并制定可回答的研究问题。然而，由于使用PICO对技术技能和医学领域知识的高要求，需要搜索证据的从业者和大众可能会发现将其纳入他们繁忙的临床工作流程非常耗时，或者难以学习。自动提取生物医学文献中的PICO语句目的是以促进临床医生和公众进行证据检索、评估和综合。

自然语言处理(NLP)尤其有望帮助我们实现这一目标。以前的工作探索了使用NLP技术来识别生物医学文本中的PICO元素。在过去十年中，主要的解决方案已经从基于知识发展到基于统计，例如支持向量机(SVM)和条件随机领域(CRF)在实践中，也缺乏模块化的基础NLP工具来支持不同方面的证据合成和EBM，例如用于命名实体识别(NER)的工具，来识别文献中的PICO元素及其属性以进行索引、用于解析和构建自由文本文献的研究设计和结果的信息提取(IE)系统，以及基于PICO框架的信息检索(IR)工具，来支持有效的文献检索。随着神经网络和深度学习的快速发展，最近最先进的NLP系统已经使用神经模型开发，包括一些用于生物医学领域的系统。对于命名实体识别(NER)任务，biLSTM-CRF实现了最佳性能。并且移动学习越来越受到关注，以解决对训练神经网络的大数据的高需求。最近一个包含5000个RCT摘要的语料库发表了，带有病人、干预、结局的多级注释，使EBM研究能开发新的NLP应用程序。

发明内容

本申请提供一种用于临床证据文献元素编码方法及其在糖尿病视网膜病变(diabetic retinopathy,DR)中的应用，以解决上述的技术问题。

为解决上述技术问题，本申请采用的一个技术方案是：一种用于临床证据文献元素编码方法，包括：

步骤S1.基于PICO原则、证据来源以及决策建议，构建临床证据关键元素的本体；

步骤S2.基于关键元素的本体，对临床证据文献进行提取与标注；

步骤S3.基于图卷积神经网络的多个关键元素，训练并生成关键元素的实体识别与关系模型；

步骤S4.基于实体识别与关系模型，对临床证据实体的进行标准化编码；

步骤S5.基于临床证据中的逻辑规则，对临床证据实体进行提取与编码；

步骤S6.基于临床证据实体的编码，结构化临床证据的存储与利用。

进一步，步骤S1之前，包括：获取待标注文本数据作为标注语料库；基于标注语料库，构建并定义临床证据关键元素的实体及关系类别。

进一步，步骤S2中的标注方法，包括：在标注平台中对临床证据文献中的语料数据进行实体标注和关系标注，生成标注数据集；基于标注数据集，对标注数据集进行数据预处理生成预处理数据。

进一步，步骤S4的方法，包括：基于FHIR标准和临床证据关键元素的本体，对临床证据实体中提取的逻辑规则进行标准化编码，以使得逻辑规则结构化。

本申请采用的另一个技术方案是：一种关于糖尿病视网膜病变的临床证据查询平台，将糖尿病视网膜病变的临床证据应用于临床决策系统以实现有关糖尿病视网膜病变的计算机进行推理决策。

本申请的有益效果是：本申请结合PICO框架构建本体，没有采用人工手动提取临床证据这一繁琐耗时、技术知识要求较高的方法，而是基于自然语言处理技术对P、I、C、O实体进行识别和训练生成关系模型，并将该方法应用于糖尿病视网膜病变实现了基于临床证据的应用，加快医学研究速度和提高临床实践质量，同时推动医学技术的发展和医学实践的进步。

附图说明

图1是本申请的用于临床证据文献元素编码方法一实施例的流程示意图；

图2是本申请的用于临床证据文献元素编码方法一实施例的结构框图；

图3是本申请的基于增强图注意力模型的临床证据的实体类型与关系类型提取示意图；

图4是本申请的DR临床证据编码JSON文件；

图5是本申请的DR查询平台中的编码的CQL文件用于临床DR诊断决策。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，图1是本申请的用于临床证据文献元素编码方法一实施例的流程示意图。该方法包括：

步骤S1.基于PICO原则、证据来源以及决策建议，构建临床证据关键元素的本体。

具体的，步骤S1之前，包括：

步骤S11.获取待标注文本数据作为标注语料库。

步骤S12.基于标注语料库，构建Scheme概念并定义临床证据关键元素的实体及关系类别。

如图2所示，图2是本申请的临床证据关键元素的本体一实施例的结构框图。依据PICO原则、证据来源和决策建议进行临床证据的本体构建。上述构建的临床证据关键元素的本体共分为3类不同层次，第一类层次对应特定人群、干预措施、对比措施、结果以及证据的来源和提取的决策建议。第二类层次是第一类层次的具体特征对应，例如他人群可分为年龄、性别、患病情况等，干预措施可分为手术、药物、诊断筛查等，结果可分为证据评级、数据类型、随访时间等，证据来源可分为文献题目、研究类型等，决策建议可分为计划建议和基本原理。第三类层次是第二类层次的具体特征对应，例如如数据类型可分为相对危险度、平均值、灵敏度等，药物可分为剂量、给药方式等。

步骤S2.基于关键元素的本体，对临床证据文献进行提取与标注。

具体的，上述的临床证据文献可从中国知网、Pubmed、Cochrane Library等学术数据库中检索与所研究疾病相关的临床试验以及Meta分析或系统综述。

关于提取临床证据文献，首先选择与所研究临床问题相关的检索词进行检索，其中检索词包括医学主题词表(MeSH)和自由词。随后再确定各词之间的逻辑关系，使用布尔逻辑算符对检索词的关系进行表达，包括“逻辑与”(AND)、“逻辑或”(OR)、“逻辑非”(NOT)等；其中，检索文件尽量选择近10年发表的相关文献，以确保临床证据的即时有效性，以此制定出检索表达式并在实际检索过程中不断修改完善。检索到的临床证据文献首先经团队两位审查员仔细阅读并独立评审，当出现分歧时与第三位审查员讨论解决，选取证据评级较高、相关度较高、可实践性较强、对临床实践推广有较大潜力的文献。

在标注平台中对临床证据文献中的语料数据进行实体标注和关系标注，生成标注数据集；基于标注数据集，对标注数据集进行数据预处理生成预处理数据。上述标注工作包含实体标注和关系标注，实体对应步骤一中所构建的证据本体中的不同的类，而关系则是证据本体中不同类之间的层次关系。在一些实施例中，采用BIOSE实体标注方法对实体进行标注；其中，B表示实体的开始，I表示实体中间部分，E表示实体结束位置，S表示单个实体，O表示非实体。根据上述方法对上述下载的临床文献证据中的实体与关系采用brat工具进行标注训练集的制作。其中，文献标注工作需要txt文本和ann文本两类文本。txt文本是需要标注的数据，这类文本需要标注者自行从数据库中下载文献pdf，并整理为txt文档用于标注；ann文件即为标注结果生成文件，用于后期模型训练。

步骤S3.基于图卷积神经网络的多个关键元素，训练并生成关键元素的实体识别与关系模型。

具体的，如图3所示，图3是本申请的基于增强图注意力模型的临床证据的实体类型与关系类型提取示意图。基于图卷积模型的神经网络，进行关键元素P、I、C、O实体识别与关系识别模型训练与生成。其中，预处理过程包括在模型输入时考虑了文本中词汇的词性信息，输入序列为由n个词组成的句子T＝{t1,t2,t3,……,tn}，tn表示句子中第n个词。使用Glove预训练模型获取输入句子中的词向量表示W＝{w1,w2,w3,……,wn}，n表示句子分词后得到的词汇数。同时还需获得句子中的每个字符的向量表示，使用word2vec模型获得字向量C＝{c1,c2,c3,……cn}，n表示输入文本的字符数。为更好地学习，还加入了字符层面的一些特征，包括偏旁部首、拼音、词性、边界等。使用开源cnradical库对字的偏旁和拼音进行自动提取。使用jieba、HanLP等工具实现词性标注(v、p、vn、m等)及分词操作。词边界在分词基础上进行，对词开始的地方标注为B，结束位置标为E。若该词为单独一个字符，则标注为S。

利用图注意力卷积GATBert神经网络作为训练模型的基本框架，并开始训练。在GAT中，给定一患者i和其特征表示h，其表示在GAT中的更新通过分别在K个注意力头与邻接节点。为充分学习句子的上下文信息，捕获词汇的词间关系和词汇语义信息，利用特征提取层BiLSTM将偏旁部首、拼音、词性、边界等特征与字符向量进行融合，后又与词向量融合，生成最终的句子的基于词的序列特征向量输出h＝{h1,h2,h3……hi}，i为句子中词的个数。对于临床证据实体抽取：实体关系抽取的任务主要是识别出自由文本中预定义的实体词汇，并根据实体在文中的的含义及上下文的语境特征等判断各个实体间是否存在关系及存在什么类型的关系。使用“向量表示法”的技术来表示实体，即将每个实体表示为一个具有有限数量的特征的向量。然后，通过使用深度神经网络来学习如何将这些向量转换为对应的实体标签。对于临床证据关系抽取：关系抽取旨在获取非结构文本中标记实体之间的关系类型。通过自编码器来学习将实体之间的关系表示为一个向量。然后，它使用一个变分自编码器来学习如何将这些向量转换为对应的实体之间的关系标签。输入到Transformer模型堆叠而成的预训练BERT模型，最后训练后输出不同的实体类型和关系类型结果。

步骤S4.基于实体识别与关系模型，对临床证据实体的进行标准化编码。

具体的，快速医疗保健互操作性资源(FHIR)标准定义了RESTful、Messages、Documents和Services四个基本范式，可以广泛应用于各种医疗信息场景。在本实施例中，根据上述构建的证据本体，将具体的本体分类层次体现在基于FHIR编码的JSON格式表达式中，修改每个FHIR资源中的资源类型(Resource type)，使得每项证据的编码都是基于我们的临床证据本体映射所得，实现证据编码的标准化处理。

如图4所示，图4是本申请的DR临床证据编码JSON文件的部分代码。基于临床证据实体的标准化编码下述代码所示：A对应步骤一中构建的临床证据本体中的关键元素，B对应本次编码的单个临床证据的唯一id号，由系统自动给出且确定不变的。基于A和B，该临床证据即自动归为本体中的各类。“reference”代表各层次间的关系，即该临床证据“A/B”与另一临床证据“A’/B’”有层次关系。C对应该临床证据包含的内容，包括证据的编码(code)这种不可缺少的内容和临床状态、验证状态、严重程度等选择性编码的内容。E对应如SNOMED CT等临床医学术语与信息编码系统，D对应E系统中的该内容对应的代码，F对应该内容的文字性描述。“text”中G对应对该临床证据的文字性描述。我们基于本体的分析，使用标准化映射来完成对临床证据的编码。

步骤S5.基于临床证据中的逻辑规则，对临床证据实体进行提取与编码。

具体的，基于步骤S1中的临床证据本体，可以成功提取证据中的“ifthen”逻辑规则并进行编码，进而利用现有证据实现电子化的临床辅助决策。

“ifthen”规则的提取公式如下述代码，X对应患者的基本情况，包括步骤一本体中的患病情况、现有治疗、性别、年龄等临床证据，Y对应相应的决策建议，即根据文献中的研究内容，若符合基本情况X则计算机自动给出建议Y，以此协助临床医生进行辅助决策判断。若不符合基本情况X1，则系统自动跳转匹配是否符合X2，依次往后类推获得最佳的决策建议。同样地，我们基于FHIR将所提取的“ifthen”规则编码为Json格式的表达式，后续可借助相关的临床决策系统(CDS)工具，从临床医生的工作流程中调用决策支持，由患者基本情况X触发CDS工具同步调用返回最佳的临床决策建议Y，辅助临床医生进行决策判断。

上述相关代码为：

“define"Recommendation":

if"X1"then'Y1'

elseif"X2"then'Y2'

elseif"X3"then'Y3'

……

elseif"Xn"then'Yn'

elsenull”。

具体的，基于我们所构建的证据本体，经过实体、关系标注和标准化编码，使临床证据结构化存储到json格式的文件中(图4)，不仅成为计算机可阅读理解的电子化信息，还基于统一的医学编码标准和本体分类，使异构医疗数据系统存储的证据资源能在不同计算机系统之间交换临床证据。对于结构化临床证据的利用，可以配置临床证据的索引，随后创建一个React应用，在此基础上安装用户界面和连接器，并以开发模式启动应用程序，以此建立操作系统搜索库。在上传编码成功的包含临床证据的json格式文件后，即可建立临床证据的查询平台。平台可以实现对临床证据的查询与分析，使用者查询获得实时可靠的临床证据，实现临床证据的共享和互操作，能够安全地提供给需要访问的人及有权访问这些证据信息的人，使医生和患者受益。

图5是本申请的DR查询平台中的编码的CQL文件用于临床DR诊断决策。本申请提供一种关于糖尿病视网膜病变的临床证据查询平台。本实施例中，以糖尿病视网膜病变(DR)疾病为例，我们从学术数据库中检索临床试验以及Meta分析或系统综述，使用例如“糖尿病性视网膜病变”、“DR”、“增殖性糖尿病性视网膜病变”、“PDR”、“非增殖性糖尿病性视网膜病变”、“NPDR”等与所研究的临床证据相关的医学术语搜集文献，首先经团队三位审查员评审后，选取证据评级较高、相关度较高、可实践性较强、对临床实践推广有较大潜力的DR文献，从中自动提取DR临床证据使用。我们基于本体分类将编码完成的临床证据上传到以RESTfulAPI为接口的检索平台，可以实现有关DR临床证据的快速查询，并能清晰知晓检索获得的临床证据的属性和类目层次，以此提高临床实践的质量和效率。将“ifthen”规则进行编码。基于所提取编码的患病情况和决策建议等，将临床证据应用于临床决策系统，与同样经FHIR编码的JSON格式的患者电子健康病例相匹配，实现有关DR的计算机自主推理决策，便于医生对于病因、治疗、诊断和预后的辅助决策。

以上所述仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种用于临床证据文献元素编码方法，其特征在于，包括：

步骤S2.基于所述关键元素的本体，对临床证据文献进行提取，获取评级以及相关度达到预设层次的临床证据文献；对所述评级以及相关度达到预设层次的临床证据文献进行标注训练，获取预处理数据；

其中，所述标注训练的方法包括：在标注平台中对所述临床证据文献中的语料数据进行实体标注和关系标注，生成标注数据集；基于所述标注数据集，对所述标注数据集进行数据预处理生成预处理数据；

步骤S3.基于GAT Bert卷积神经网络的多个所述关键元素，训练所述预处理数据并生成关键元素实体识别与关系模型；

步骤S4.基于所述关键元素实体识别与关系模型，构建临床证据实体并进行标准化编码；其中，所述标准化编码的方法包括：基于FHIR标准和所述临床证据关键元素的本体，对所述临床证据实体中提取的逻辑规则进行标准化编码，以使得所述逻辑规则结构化；

步骤S5.基于所述临床证据中的“ifthen”逻辑规则，对所述临床证据实体进行提取与编码；

步骤S6.基于所述临床证据实体的编码，将所述临床证据结构化存储至json格式的文件并将所述json格式的文件上传至查询平台。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1之前，包括：

获取待标注文本数据作为标注语料库；

基于所述标注语料库，构建并定义所述临床证据关键元素的实体及关系类别。

3.如权利要求1所述的方法，其特征在于，其应用于糖尿病视网膜病变临床证据中。