CN113901807A - 临床医学实体识别方法及临床试验知识的挖掘方法 - Google Patents

临床医学实体识别方法及临床试验知识的挖掘方法 Download PDF

Info

Publication number
CN113901807A
CN113901807A CN202111004128.1A CN202111004128A CN113901807A CN 113901807 A CN113901807 A CN 113901807A CN 202111004128 A CN202111004128 A CN 202111004128A CN 113901807 A CN113901807 A CN 113901807A
Authority
CN
China
Prior art keywords
clinical
entity
model
bert
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111004128.1A
Other languages
English (en)
Inventor
段欣辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Delizhe Enterprise Management Consulting Co ltd
Original Assignee
Chongqing Delizhe Enterprise Management Consulting Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Delizhe Enterprise Management Consulting Co ltd filed Critical Chongqing Delizhe Enterprise Management Consulting Co ltd
Priority to CN202111004128.1A priority Critical patent/CN113901807A/zh
Publication of CN113901807A publication Critical patent/CN113901807A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种临床医学实体识别方法及临床实验知识挖掘方法,临床试验知识挖掘方法,包括:临床医学实体识别,临床试验论据挖掘,临床试验结果推理。本发明在BERT预模型基础上,增加了RCT的摘要文献的进一步预训练,获得临床试验领域的文本模型,并将实体类别信息融入模型预测,提升了临床试验实体挖掘任务的效果;在信息抽取阶段,识别出PICO实体的同时,将IC和包含O的证据性句子匹配上,再判断IC和O的逻辑关系,并且本发明充分利用了BERT的掩码语言模型架构进行预测。

Description

临床医学实体识别方法及临床试验知识的挖掘方法
技术领域
本发明涉及一种知识的识别方法及挖掘方法,特别是涉及一种临床医学实体的识别方法及临床试验知识的挖掘方法。
背景技术
临床试验指以人体(患者或健康受试者)为对象的医学试验,意在发现或验证某种试验治疗方式,包括药物,器械,疫苗或其他治疗手段的安全性和有效性的系统性试验。临床研究的基础是临床假设和临床需求,而临床假设和需求的提出需遵循PICO原则:“P”指特定的患病人群(目标人群,population),“I”指干预措施(intervention),“C”指对照或另一种可用比较的干预措施(comparator),“O”为测量指标(outcome)。基于PICO原则,临床试验方案设计需要包含如临床终点的确立,测量指标的选择、样本量的估计、干预措施的设计,方案教育和执行,数据采集和分析,结果汇报等等。
临床试验是评估药物治疗效果的最直接证据,专家会将有价值的试验结果通过医学研究性文章的形式发表出来。当前,医学工作者需要综合性的阅读与特定临床问题有关的文章。根据临床试验类别和询证等级的不同,医学工作者从随机对照试验(randomizedcontrolled trial,RCT),单臂试验(unparalleled trial),队列试验(cohort study),病例对照试验(case-control study)乃至真实世界数据(real-world evidence)中得出的方法和结果,如参与试验人群(例如糖尿病患者),试验组信息,对照组信息,试验结果等,从而为指南健康政策和医疗决策提供依据。这一过程至关重要,但也非常繁琐。
目前,临床工作人员要想了解一个假设的可信度,如阿司匹林能否对中风有效果,往往需要在文献数据库中搜索“阿司匹林”和“中风”,然后获得相关的文章进行阅读,从大量文本中找到相关的证据来进行推断。随着数据挖掘和本文挖掘技术的进展,生物医学信息挖掘的应用越来越广泛。目前国内外的一些文本挖掘技术产品包括:IBM Watson的文本智能挖掘、NCBI的pubtator等。但是现有的挖掘工具大多集中在生物医学发表文献的挖掘蛋白质、疾病、药物等实体及其关系。以上研究对循证医学的证据收集很重要,但缺少临床试验中的信息覆盖。
CN107633153A公开了一种肿瘤个体化临床实验文本挖掘的方法和系统,该方法利用自然语言处理技术,从非结构化的文本中抽取出关键信息。例如,通过实体识别从医学文献中提取治疗方法和结果等实体,以及利用文本分类方法挖掘出生物医学文章中的重要的句子,来辅助高亮文章的关键信息。
以上工作大多依赖数据和算法,挖掘的信息大多冗余,准确性低,难以为临床试验工作者提供强有力的辅助,与实际应用结合还有很大的一段距离。并且,临床试验结果的预测忽略了临床试验的复杂性,设计的关系分类没有考虑到试验中干预措施和试验结果的多重关系。
因此本领域技术人员致力于开发一种参考临床试验数据,且挖掘信息快速准确的临床试验知识的挖掘方法。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供因此本领域技术人员致力于开发一种参考临床试验数据,且挖掘信息快速准确的临床试验知识的挖掘方法。
为实现上述目的,本发明提供了一种临床医学实体识别方法,包括以下步骤:
获RCT文献文本;
对文献文本中的非结构化文本中的实体短语进行识别。
较佳的,步骤2)中,基于BERT模型采用机器阅读理解的方式对非结构化文本中的实体短语进行识别。
较佳的,还包括在BERT预模型基础上,对临床试验相关的摘要文献进行预训练,获得Clinical-BERT的步骤;Clinical-BERT指具有临床风格的BERT模型。
步骤2)包括以下步骤:
2a)给定一段长度为n的文本序列X,抽取出其中属于PICO四类目标实体的实体词a;
2b)假设实体词a数据集的所有实体标签集合为Y,对其中的每个实体标签y,都有一个关于它的问题Q(y);
2c)输入文本序列X和问题Q(y);
2d)BERT模型采用机器阅读理解的方式通过建模P(a∣X,Q)来实现实体抽取;
2e)将问题Q(y)和文本序列X拼接成{[CLS],q1,[SEP],x1,x2,...,xn}的形式,输入Clinical-BERT进行特征提取,得到特征矩阵E∈Rn×d
其中n为句子长度,d为BERT最后一层提取的特征矩阵的向量维度;[CLS]和[SEP]都是占位符,分别表示句子的开头和句子之间的分隔符;
对于每个问题qi,利用两个二分类器,分别负责预测每个字符xi是否为实体开始位置和是否为实体的结束位置;则有:
Pstart=softmax(E*Tstart)∈[0,1]n×2
Pend=softmax(E*Tend)∈[0,1]n×2
Pstart和Pend代表文本序列X中每个xi构成一个实体开始和结束位置的概率分布,0代表不是开始或结束的位置,1表示是开始或结束的位置,其中Tstart和Tend是模型需要学习的参数;
在文本序列X中,将属于同一个实体类型下的距离最近的开始和结束位置进行组合匹配,作为一个实体的开始和结束位置的标记;
所述对临床试验相关的摘要文献进行预训练的损失函数由实体开始位置模型的交叉熵损失和实体结束位置模型的交叉熵损失两部分构成;
其中,实体开始位置模型的交叉熵损失函数:Lstart=CE(Pstart,Ystart);
实体结束位置模型的交叉熵损失函数:Lend=CE(Pend,Yend);
模型训练阶段的损失:L=αLstart+βLend
其中,α代表第一模型训练参数;β代表第二模型训练参数;Ystart代表所有实体标签集中每个实体的开始位置;Yend代表所有实体标签集中每个实体的结束位置。
模型训练的过程就是最小化损失函数的过程。随着损失值被优化得越来越小,模型的精度越来越高。这个损失函数的loss值在训练过程中会不断下降,等下降收敛后,则表示模型训练基本完成,即可停止训练。
较佳的,获得Clinical-BERT的步骤中,将临床文本作为语料,在公开的BERT训练模型上进一步的做训练任务:
A.在一句话中随机遮蔽掉几个单词然后对遮蔽掉的单词做预测;
B.判断两句话是否为上下文的关系。
这样使得基于通用领域语料的BERT基础模型融入了临床文本的风格,提高下游知识挖掘任务的准确性。
本发明还公提供了一种临床试验知识的挖掘方法,采用如上所述的临床医学实体识别方法进行临床医学实体识别方法;还包括以下步骤:
3)临床试验论据挖掘;
4)临床试验结果推理。
5.如权利要求4所述的临床试验知识的挖掘方法,其特征是:步骤3)包括以下步骤:
3a)获取临床试验数据,包括研究识别号、研究类型、临床期、招募状态、试验文本参考文献;
3b)基于研究识别号从公开的医药数据库获得与临床试验相关的文献;选择临床试验相关的文献摘要中的结果或结论作为临床试验证据的候选集;采用关键词匹配的方法,收集摘要中的结果或结论中包含比较语义的句子作为临床证据;
3c)基于临床医学实体识别方法中训练得到的临床试验实体识别模型,对RCT相关的文献摘要进行实体识别的推理任务,获得文本中的PICO实体;
3d)将各份临床证据和相关的测量指标、干预措施、对照组组合;
3e)训练一个句子对分类模型,将测量指标、干预措施、对照组组合和临床证据语句作为输入,并预测指标、干预措施、对照组组合和临床证据的相关性。
较佳的,步骤3e)中,选择与临床证据句子最相关的测量指标、干预措施、对照组组合,作为一份完整的证据实例。
较佳的,步骤4)中,借助由自然语言构成的模版,结合BERT的掩码语言模型来进行预测,将临床结果预测任务转化为完形填空任务。
较佳的,步骤4)中,将模版作为后缀,拼接在证据句子后面,通过随机遮蔽掉模版文本中的结果词语,然后要模型去预测被遮蔽的字词。
较佳的,步骤4)还包括预训练的步骤:
4a)添加文章摘要里的背景和方法的部分,作为隐式证据的背景;模型的输入为:([CLS]+B+[SEP]+E+[SEP]);[CLS]和[SEP]都是占位符,分别表示句子的开头和句子之间的分隔符;B表示background,隐式证据的背景描述文本,E表示evidence,隐式证据的描述文本;
[SEP]标志用于分开背景和结果两个输入句子;[CLS]标志放在第一个句子的首位,经过BERT得到的表征向量h[CLS],用来预测句子中被遮蔽的字词;则有:
P[mask]=Softmax(W1h[CLS]+b1)∈[0,1]|V|
Pr=Softmax(W2P[mask]+b2)∈[0,1]|4|
损失函数:Lr=CE(Pr,Yr);
P[mask]为待预测的字词指向BERT词汇表中每个词的概率分布,V是BERT词汇表的大小,其中W1和b1是模型需要学习的参数;
Pr是四类结果对应的概率分布,其中W2和b2是模型需要学习的参数;
Yr表示待预测字词的真实值概率。
本发明的有益效果是:
1、在BERT预模型基础上,增加了RCT的摘要文献的进一步预训练,获得临床试验领域的文本模型,并将实体类别信息融入模型预测,提升了临床试验实体挖掘任务的效果。
2、临床试验结果的描述一般都是实验组和对照组对比的结果,试验组会有多组对照,相应得对应多个实验结果。在信息抽取阶段,识别出PICO实体的同时,将IC和包含O的证据性句子匹配上,再判断IC和O的逻辑关系。
3、借助由自然语言构成的模版(Pattern),将下游任务转化为一个完形填空任务,和预训练任务一样,利用BERT的掩码语言模型(MLM模型)的架构进行预测,从而充分利用了掩码语言模型的能力。
附图说明
图1是本发明一具体实施方式的流程示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明:
如图1所示,一种临床试验知识挖掘方法,包括:临床医学实体识别,临床试验论据挖掘,临床试验结果推理。
第一步:临床医学实体识别
整合了两份公开临床实体语料集:EBM-NLP和Evidence Inferencev2.0,获得了包含4类标注实体:(P)articipants,(I)nterventions,,(O)utcomes,(C)omparator的RCT文献文本。
利用一种深度学习框架:BERT-MRC,即基于BERT模型采用机器阅读理解(MRC,Machine Reading Comprehension)的方式对非结构化文本中的实体短语进行识别。BERT-MRC在原有文本中融入了实体类别的描述信息,作为先验知识可以有效得提高模型的抽取效果。本发明在BERT预模型基础上,增加了临床试验相关的摘要文献的进一步预训练,获得了Clinical-BERT。
BERT-MRC实体识别任务的定义:给定一段长度为n的文本序列X,抽取出其中属于PICO四类目标实体的实体词a。假设该数据集的所有实体标签集合为Y,对其中的每个实体标签y,比如“outcomes”,都有一个关于它的问题Q(y)。基于上述MRC中片段抽取的思想,输入文本序列X和问题Q(y)。BERT-MRC通过建模P(a∣X,Q)来实现实体抽取。BERT-MRC通常使用“标注说明”作为每个标签的问题,在本任务中,4类实体对应的自然语言问题如下表:
Figure BDA0003236558430000071
Figure BDA0003236558430000081
将问题Q(y)和句子X拼接成{[CLS],q1,[SEP],x1,x2,...,xn}的形式,输入Clinical-BERT进行特征提取,得到特征矩阵E∈Rn×d,其中n为句子长度,d为BERT最后一层提取的特征矩阵的向量维度。
鉴于本实施例一共包括了4类实体,即上表中的P、I、C、O,对应4种问题。因此,问题Q(y)和句子X拼接的具体形式包括:
{[CLS],q1,[SEP],x1,x2,...,xn}
{[CLS],q2,[SEP],x1,x2,...,xn}
{[CLS],q3,[SEP],x1,x2,...,xn}
{[CLS],q4,[SEP],x1,x2,...,xn}
对于每个问题qi,利用两个二分类器,分别负责预测每个字符xi是否为实体开始位置和是否为实体的结束位置。Pstart和Pend代表句子X中每个xi构成一个实体开始、结束位置的概率分布,0代表不是开始(结束)位置,1表示是开始(结束)位置,其中Tstart和Tend是模型需要学习的参数。
Pstart=softmax(E*Tstart)∈[0,1]n×2
Pend=softmax(E*Tend)∈[0,1]n×2
在句子X中,同一个类型下存在多个实体,对应多个开始位置和多个结束位置。本发明将属于同一个实体类型下的距离最近的开始和结束位置进行组合匹配,作为一个实体的开始、结束位置的标记。训练阶段的损失函数由实体开始位置模型的交叉上交叉熵损失和实体结束位置模型交叉熵损失两部分构成。
实体起始位置损失函数:Lstart=CE(Pstart,Ystart);
实体结束位置损失函数:Lend=CE(Pend,Yend);
模型训练阶段的损失:L=αLstart+βLend
α代表第一模型训练参数;β代表第二模型训练参数;Ystart代表所有实体标签集中每个实体的开始位置;Yend代表所有实体标签集中每个实体的结束位置。
第二步:临床证据实例挖掘
我们从开源数据库:FDA的clinicaltrials.gov数据库下载临床试验数据,包括研究识别号、研究类型、临床期、招募状态、试验文本参考文献。基于研究识别号从PubMed数据库获得与临床试验相关的文献。文献的摘要基本上都由背景(方法)以及和结果(结论)几部分构成。我们选择摘要中的结果(结论)作为临床试验证据的候选集。临床证据的文本句子通常以一种比较的形式表达,包含一些比较关键词:“than”和一些形容词或副词的比较级:“higher”,“lower”,“less”,“smaller”,“more”等。本发明采用关键词匹配的方法,收集摘要中的结果(结论)中包含比较语义的句子作为临床证据(Evidence)。大部分情况下,这些论据句子也会包含临床证据所需要的PICO组分,特别是outcome(测量指标)。
基于第一步中的训练得到的临床试验实体识别模型,本发明对RCT相关的文献摘要进行实体识别的推理任务,获得文本中的PICO实体。接下来,将各份临床证据(E)和相关的测量指标(O)、干预措施(I)、对照组(C)组合。训练一个句子对BERT分类模型,将(O,I,C)和证据语句(E)作为输入,并预测(O,I,C)和E的相关性,将相关性高的(O,I,C)和E进行配对。在推理阶段,本发明选择与证据句子最相关的(O,I,C)组合,作为一份完整的证据实例。
第三步:临床试验结果推理
本发明借助由自然语言构成的模版(Pattern),结合BERT-的掩码语言模型(Masked Language Model,MLM模型)来进行预测了,将临床结果预测任务也转化为完形填空任务。本发明将模版作为后缀,拼接在证据句子后面,通过随机遮蔽掉模版文本中的结果词语,然后要模型去预测被遮蔽的字词。这样的组合使得下游任务跟预训练任务一致,能够充分地利用原始预训练模型,起到更好的学习效果。举例如下:
“Our results also showed that serum TSH levels were slightly higherin the chloroquine group than in the placebo group.”[u1][u2][u3](I)[u4][u5][u6][mask][u7][u8][u9](C)[u10][u11][u12](O)?
“Our results also showed that serum TSH levels were slightly higherin the chloroquine group than in the placebo group.”[u1][u2][u3](chloroquinegroup)[u4][u5][u6][mask][u7][u8][u9](placebo group)[u10][u11][u12](TSHlevels)?
这里的[u1]~[u12],是BERT词表里边的未登陆词:[unused1]~[unused12]。本发明用几个从未见过的词来构建自然语言模板,而不是以固定的语言模板。I,C,O分别表示每个临床试验证据句子对应的干预措施(Intervention)、对照组(Comparator)和测量指标(Outcome),[mask]为需要预测的试验结果。我们在3类实体和预测词之前分别插入3个占位词。上述例子的[mask]对应的试验结果应为“higher”。本发明额外添加了文章摘要里的背景和方法的部分,作为隐式证据的背景。总体就构造了一个类似语言模型预训练的任务,通过给定上下文信息,预测[mask]的词语,即求出了“模版”。本发明的试验结果包括以下4种:对于一种测量指标(O)来说,干预措施(I)相较于对照组(C):表达升高、表达降低、表达无影响以及表达不显著。
在预训练阶段,模型的输入为:([CLS]+B+[SEP]+E+[SEP])。[SEP]标志用于分开背景和结果两个输入句子。[CLS]标志放在第一个句子的首位,经过BERT得到的的表征向量h[CLS],用来预测句子中[mask]。P[mask]为待预测的[mask]指向BERT词汇表中每个词的概率分布,V是BERT词汇表的大小,其中W1和b1是模型需要学习的参数。我们将P[mask]经过线性变化,最终映射到4类关系的概率Pr上。Pr是四类结果对应的概率分布,其中W2和b2是模型需要学习的参数。
P[mask]=Softmax(W1h[CLS]+b1)∈[0,1]|V|
Pr=Softmax(W2P[mask]+b2)∈[0,1]|4|
损失函数:Lr=CE(Pr,Yr)。
基于上述方法,我们可从PubMed和PubMed Central中提取出若干条隐式证据进行数据挖掘。在推理阶段时,本发明将一个新临床试验要研究的PICO要素拼接成E,将E和其研究背景B输入到上述预训练好的模型中,输出其预测的比较结果,从而预测临床试验的结果。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种临床医学实体识别方法,其特征是包括以下步骤:
1)获RCT文献文本;
对文献文本中的非结构化文本中的实体短语进行识别。
2.如权利要求1所述的临床医学实体识别方法,其特征是:步骤2)中,采用基于BERT模型采用机器阅读理解的方式对非结构化文本中的实体短语进行识别。
3.如权利要求2所述的临床医学实体识别方法,其特征是:还包括在BERT预模型基础上,对临床试验相关的摘要文献进行预训练,获得Clinical-BERT的步骤;
步骤2)包括以下步骤:
2a)给定一段长度为n的文本序列X,抽取出其中属于PICO四类目标实体的实体词a;
2b)假设实体词a数据集的所有实体标签集合为Y,对其中的每个实体标签y,都有一个关于它的问题Q(y);
2c)输入文本序列X和问题Q(y);
2d)BERT模型采用机器阅读理解的方式通过建模P(a∣X,Q)来实现实体抽取;
2e)将问题Q(y)和文本序列X拼接成{[CLS],q1,[SEP],x1,x2,...,xn}的形式,输入Clinical-BERT进行特征提取,得到特征矩阵E∈Rn×d
其中n为句子长度,d为BERT最后一层提取的特征矩阵的向量维度;[CLS]和[SEP]都是占位符,分别表示句子的开头和句子之间的分隔符;
对于每个问题qi,利用两个二分类器,分别负责预测每个字符xi是否为实体开始位置和是否为实体的结束位置;则有:
Pstart=softmax(E*Tstart)∈[0,1]n×2
Pend=softmax(E*Tend)∈[0,1]n×2
Pstart和Pend代表文本序列X中每个xi构成一个实体开始和结束位置的概率分布,0代表不是开始或结束的位置,1表示是开始或结束的位置,其中Tstart和Tend是模型需要学习的参数;
在文本序列X中,将属于同一个实体类型下的距离最近的开始和结束位置进行组合匹配,作为一个实体的开始和结束位置的标记;
所述对临床试验相关的摘要文献进行预训练的损失函数由实体开始位置模型的交叉熵损失和实体结束位置模型的交叉熵损失两部分构成;
其中,实体开始位置模型的交叉熵损失函数:Lstart=CE(Pstart,Ystart);
实体结束位置模型的交叉熵损失函数:Lend=CE(Pend,Yend);
模型训练阶段的损失:L=αLstart+βLend
其中,α代表第一模型训练参数;β代表第二模型训练参数;Ystart代表所有实体标签集中每个实体的开始位置;Yend代表所有实体标签集中每个实体的结束位置。
4.如权利要求3所述的临床医学实体识别方法,其特征是:获得Clinical-BERT的步骤中,将临床文本作为语料,在公开的BERT训练模型上进一步的做训练任务:
A.在一句话中随机遮蔽掉几个单词然后对遮蔽掉的单词做预测;
B.判断两句话是否为上下文的关系。
5.一种临床试验知识的挖掘方法,其特征是:采用如权利要求1至4任一所述的临床医学实体识别方法进行临床医学实体识别方法;还包括以下步骤:
3)临床试验论据挖掘;
4)临床试验结果推理。
6.如权利要求5所述的临床试验知识的挖掘方法,其特征是:步骤3)包括以下步骤:
3a)获取临床试验数据,包括研究识别号、研究类型、临床期、招募状态、试验文本参考文献;
3b)基于研究识别号从公开的医药数据库获得与临床试验相关的文献;选择临床试验相关的文献摘要中的结果或结论作为临床试验证据的候选集;采用关键词匹配的方法,收集摘要中的结果或结论中包含比较语义的句子作为临床证据;
3c)基于临床医学实体识别方法中训练得到的临床试验实体识别模型,对RCT相关的文献摘要进行实体识别的推理任务,获得文本中的PICO实体;
3d)将各份临床证据和相关的测量指标、干预措施、对照组组合;
3e)训练一个句子对分类模型,将测量指标、干预措施、对照组组合和临床证据语句作为输入,并预测指标、干预措施、对照组组合和临床证据的相关性。
7.如权利要求6所述的临床试验知识的挖掘方法,其特征是:步骤3e)中,选择与临床证据句子最相关的测量指标、干预措施、对照组组合,作为一份完整的证据实例。
8.如权利要求4或5或6任一所述的临床试验知识的挖掘方法,其特征是:
步骤4)中,借助由自然语言构成的模版,结合BERT的掩码语言模型来进行预测,将临床结果预测任务转化为完形填空任务。
9.如权利要求8所述的临床试验知识的挖掘方法,其特征是:步骤4)中,将模版作为后缀,拼接在证据句子后面,通过随机遮蔽掉模版文本中的结果词语,然后要模型去预测被遮蔽的字词。
10.如权利要求8所述的临床试验知识的挖掘方法,其特征是:
步骤4)还包括预训练的步骤:
4a)添加文章摘要里的背景和方法的部分,作为隐式证据的背景;模型的输入为:([CLS]+B+[SEP]+E+[SEP]);
[CLS]和[SEP]都是占位符,分别表示句子的开头和句子之间的分隔符;B表示隐式证据的背景描述文本,E表示隐式证据的描述文本;
[CLS]标志放在第一个句子的首位,经过BERT得到的表征向量h[CLS],用来预测句子中被遮蔽的字词;则有:
P[mask]=Softmax(W1h[CLS]+b1)∈[0,1]|V|
Pr=Softmax(W2P[mask]+b2)∈[0,1]|4|
损失函数:Lr=CE(Pr,Yr);
P[mask]为待预测的字词指向BERT词汇表中每个词的概率分布,V是BERT词汇表的大小,其中W1和b1是模型需要学习的参数;
Pr是四类结果对应的概率分布,其中W2和b2是模型需要学习的参数;
Yr表示待预测字词的真实值概率。
CN202111004128.1A 2021-08-30 2021-08-30 临床医学实体识别方法及临床试验知识的挖掘方法 Pending CN113901807A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111004128.1A CN113901807A (zh) 2021-08-30 2021-08-30 临床医学实体识别方法及临床试验知识的挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111004128.1A CN113901807A (zh) 2021-08-30 2021-08-30 临床医学实体识别方法及临床试验知识的挖掘方法

Publications (1)

Publication Number Publication Date
CN113901807A true CN113901807A (zh) 2022-01-07

Family

ID=79188449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111004128.1A Pending CN113901807A (zh) 2021-08-30 2021-08-30 临床医学实体识别方法及临床试验知识的挖掘方法

Country Status (1)

Country Link
CN (1) CN113901807A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114913953A (zh) * 2022-07-19 2022-08-16 北京惠每云科技有限公司 医学实体关系的识别方法、装置、电子设备及存储介质
CN115130466A (zh) * 2022-09-02 2022-09-30 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质
CN115994225A (zh) * 2023-03-20 2023-04-21 北京百分点科技集团股份有限公司 文本的分类方法、装置、存储介质及电子设备
CN116976351A (zh) * 2023-09-22 2023-10-31 之江实验室 基于学科实体的语言模型构建方法以及学科实体识别装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596931A (zh) * 2022-05-10 2022-06-07 上海柯林布瑞信息技术有限公司 基于病历的医学实体和关系联合提取方法和装置
CN114913953A (zh) * 2022-07-19 2022-08-16 北京惠每云科技有限公司 医学实体关系的识别方法、装置、电子设备及存储介质
CN114913953B (zh) * 2022-07-19 2022-10-04 北京惠每云科技有限公司 医学实体关系的识别方法、装置、电子设备及存储介质
CN115130466A (zh) * 2022-09-02 2022-09-30 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质
CN115130466B (zh) * 2022-09-02 2022-12-02 杭州火石数智科技有限公司 分类和实体识别联合抽取方法、计算机设备及存储介质
CN115994225A (zh) * 2023-03-20 2023-04-21 北京百分点科技集团股份有限公司 文本的分类方法、装置、存储介质及电子设备
CN116976351A (zh) * 2023-09-22 2023-10-31 之江实验室 基于学科实体的语言模型构建方法以及学科实体识别装置
CN116976351B (zh) * 2023-09-22 2024-01-23 之江实验室 基于学科实体的语言模型构建方法以及学科实体识别装置

Similar Documents

Publication Publication Date Title
US11580415B2 (en) Hierarchical multi-task term embedding learning for synonym prediction
CN113901807A (zh) 临床医学实体识别方法及临床试验知识的挖掘方法
Ansari et al. Ensemble hybrid learning methods for automated depression detection
CN109344250A (zh) 基于医保数据的单病种诊断信息快速结构化方法
Ramachandran et al. Named entity recognition on bio-medical literature documents using hybrid based approach
Li et al. Scientific discourse tagging for evidence extraction
Huo et al. Deep Learning Approaches for Improving Question Answering Systems in Hepatocellular Carcinoma Research
Yang et al. Enhancing phenotype recognition in clinical notes using large language models: PhenoBCBERT and PhenoGPT
Bansal et al. Simultaneously linking entities and extracting relations from biomedical text without mention-level supervision
Wu et al. Structured information extraction of pathology reports with attention-based graph convolutional network
Jusoh et al. The use of ontology in clinical information extraction
Ravikumar et al. Machine learning model for clinical named entity recognition
Gasmi Medical text classification based on an optimized machine learning and external semantic resource
Hasan et al. Learning structured medical information from social media
de Vargas Romero et al. Exploring Deep Learning for Named Entity Recognition of Tumor Morphology Mentions.
Zelina et al. Unsupervised extraction, labelling and clustering of segments from clinical notes
Labbé et al. ChatGPT for phenotypes extraction: one model to rule them all?
US20220165430A1 (en) Leveraging deep contextual representation, medical concept representation and term-occurrence statistics in precision medicine to rank clinical studies relevant to a patient
Devkota et al. Knowledge of the ancestors: Intelligent ontology-aware annotation of biological literature using semantic similarity
Afzal et al. Multi-Class Clinical Text Annotation and Classification Using Bert-Based Active Learning
Li et al. Model-based clinical note entity recognition for rheumatoid arthritis using bidirectional encoder representation from transformers
Bombieri et al. Surgicberta: a pre-trained language model for procedural surgical language
Lin et al. Long-distance disorder-disorder relation extraction with bootstrapped noisy data
Zhang et al. English drug name entity recognition method based on attention mechanism BiLSTM-CRF
Liang et al. Lab indicators standardization method for the regional healthcare platform: a case study on heart failure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination