CN117577348A - 一种循证医学证据的识别方法及相关装置 - Google Patents

一种循证医学证据的识别方法及相关装置 Download PDF

Info

Publication number
CN117577348A
CN117577348A CN202410051637.7A CN202410051637A CN117577348A CN 117577348 A CN117577348 A CN 117577348A CN 202410051637 A CN202410051637 A CN 202410051637A CN 117577348 A CN117577348 A CN 117577348A
Authority
CN
China
Prior art keywords
evidence
medical
candidate
research conclusion
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410051637.7A
Other languages
English (en)
Other versions
CN117577348B (zh
Inventor
马鹤桐
李姣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Medical Information CAMS
Original Assignee
Institute of Medical Information CAMS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Medical Information CAMS filed Critical Institute of Medical Information CAMS
Priority to CN202410051637.7A priority Critical patent/CN117577348B/zh
Publication of CN117577348A publication Critical patent/CN117577348A/zh
Application granted granted Critical
Publication of CN117577348B publication Critical patent/CN117577348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Theoretical Computer Science (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种循证医学证据的识别方法及相关装置,根据循证医学证据四个要素的不同,将四个要素划分为医学实体和研究结论,医学实体包括研究对象、干预措施和研究对照。通过利用医学循证要素识别模型准确识别循证医学文献的摘要文本中的医学实体,并通过研究结论识别模型识别上述摘要文本中的研究结论表示特征内容,从而根据研究结论表示特征内容从上述摘要文本中提取研究结论。本发明针对循证医学证据四个要素的不同采用不同识别方法,提升了识别的准确性,且整个识别过程自动化实现,有效提升了循证医学证据的识别效率。

Description

一种循证医学证据的识别方法及相关装置
技术领域
本发明涉及数据处理技术领域,更具体的,涉及一种循证医学证据的识别方法及相关装置。
背景技术
循证医学是指“遵循证据的医学”,是一种以证据为基础的医学实践方法,通过整合最新的临床研究和患者数据,来制定最佳的医疗决策。
一个可靠的循证医学证据整合过程通常需要循证研究人员阅读随机对照实验的文献上千篇,导致整合证据的过程需要极高的时间成本。
发明内容
有鉴于此,本发明提供了一种循证医学证据的识别方法及相关装置,整个识别过程自动化实现,有效提升了循证医学证据的识别效率和识别准确性。
为了实现上述发明目的,本发明提供的具体技术方案如下:
第一方面,本发明实施例提供了一种循证医学证据的识别方法,包括:
获取循证医学文献的摘要文本;
将所述摘要文本输入医学循证要素识别模型中,得到所述医学循证要素识别模型输出的各个类型的医学实体,所述医学循证要素识别模型是预先利用标注有各个类型的医学实体标签的训练样本对第一预设模型训练得到的,医学实体的类型包括研究对象、干预措施和研究对照;
将所述摘要文本输入研究结论识别模型中,得到所述研究结论识别模型输出的研究结论表示特征内容,所述研究结论识别模型是预先利用标注有研究结论表示特征内容标签的训练样本对第二预设模型训练得到的;
根据所述研究结论表示特征内容从所述摘要文本中提取研究结论。
在一些实施例中,在得到所述医学循证要素识别模型输出的各个类型的医学实体之后,所述方法还包括:
针对每个类型中的候选医学实体,判断领域本体中是否包括与所述候选医学实体相同的本体概念,所述候选医学实体为所述医学循证要素识别模型输出的对应类型中识别概率最高的医学实体;
若所述领域本体中包括与所述候选医学实体相同的本体概念,将该本体概念确定为目标本体概念;
通过领域概念映射表判断所述候选医学实体的类型与所述目标本体概念的语义类型是否匹配;
若匹配,确定所述候选医学实体属于循证医学证据;
若不匹配,确定所述候选医学实体不属于循证医学证据。
在一些实施例中,所述方法还包括:
针对每个类型中的候选医学实体,若所述领域本体中不包括与所述候选医学实体相同的本体概念,对所述候选医学实体进行向量化,得到候选医学实体向量;
分别计算所述候选医学实体向量与所述领域本体中每个本体概念对应向量的相似度;
若存在相似度大于第一相似度阈值的本体概念,将该本体概念确定为目标本体概念,并返回执行通过领域概念映射表判断所述候选医学实体的类型与所述目标本体概念的语义类型是否匹配这一步骤;
若相似度均不大于第一相似度阈值,确定所述候选医学实体不属于循证医学证据。
在一些实施例中,在确定所述候选医学实体不属于循证医学证据之后,所述方法还包括:
判断是否能在所述候选医学实体对应类型中获取识别概率仅次于所述候选医学实体且识别概率大于识别概率阈值的医学实体;
若能,将该医学实体更新为候选医学实体,并返回执行所述判断领域本体中是否包括与所述候选医学实体相同的本体概念这一步骤;
若不能,确定所述候选医学实体对应类型的医学实体识别失败。
在一些实施例中,所述根据所述研究结论表示特征内容从所述摘要文本中提取研究结论,包括:
对所述摘要文本进行分句处理,得到多个句子;
确定所述研究结论表示特征内容所在的目标句子;
在所述目标句子中剔除所述研究结论表示特征内容,得到所述研究结论。
在一些实施例中,在根据所述研究结论表示特征内容从所述摘要文本中提取研究结论之后,所述方法还包括:
将所述摘要文本输入大语言模型中,得到所述大语言模型输出的参考研究结论;
对所述参考研究结论进行向量化,得到参考研究结论向量;
对所述研究结论进行向量化,得到候选研究结论向量;
计算所述参考研究结论向量与所述候选研究结论向量之间的相似度;
若相似度大于第二相似度阈值,确定所述研究结论属于循证医学证据;
若相似度不大于第二相似度阈值,确定所述研究结论不属于循证医学证据。
第二方面,本发明实施例提供了一种循证医学证据的识别装置,包括:
摘要文本获取单元,用于获取循证医学文献的摘要文本;
第一识别单元,用于将所述摘要文本输入医学循证要素识别模型中,得到所述医学循证要素识别模型输出的各个类型的医学实体,所述医学循证要素识别模型是预先利用标注有各个类型的医学实体标签的训练样本对第一预设模型训练得到的,医学实体的类型包括研究对象、干预措施和研究对照;
第二识别单元,用于将所述摘要文本输入研究结论识别模型中,得到所述研究结论识别模型输出的研究结论表示特征内容,所述研究结论识别模型是预先利用标注有研究结论表示特征内容标签的训练样本对第二预设模型训练得到的;
研究结论提取单元,用于根据所述研究结论表示特征内容从所述摘要文本中提取研究结论。
在一些实施例中,所述装置还包括:
第一判断单元,用于在得到所述医学循证要素识别模型输出的各个类型的医学实体之后,针对每个类型中的候选医学实体,判断领域本体中是否包括与所述候选医学实体相同的本体概念,所述候选医学实体为所述医学循证要素识别模型输出的对应类型中识别概率最高的医学实体;
本体确定单元,用于若所述领域本体中包括与所述候选医学实体相同的本体概念,将该本体概念确定为目标本体概念;
第二判断单元,用于通过领域概念映射表判断所述候选医学实体的类型与所述目标本体概念的语义类型是否匹配;若匹配,确定所述候选医学实体属于循证医学证据;若不匹配,确定所述候选医学实体不属于循证医学证据。
在一些实施例中,所述装置还包括:
第一向量化处理单元,用于若所述领域本体中不包括与所述候选医学实体相同的本体概念,对所述候选医学实体进行向量化,得到候选医学实体向量;
第一相似度计算单元,用于分别计算所述候选医学实体向量与所述领域本体中每个本体概念对应向量的相似度;若存在相似度大于第一相似度阈值的本体概念,将该本体概念确定为目标本体概念,并触发所述第二判断单元;若相似度均不大于第一相似度阈值,确定所述候选医学实体不属于循证医学证据。
在一些实施例中,所述装置还包括:
第三判断单元,用于在确定所述候选医学实体不属于循证医学证据之后,判断是否能在所述候选医学实体对应类型中获取识别概率仅次于所述候选医学实体且识别概率大于识别概率阈值的医学实体;若能,将该医学实体更新为候选医学实体,并触发所述第一判断单元;若不能,确定所述候选医学实体对应类型的医学实体识别失败。
在一些实施例中,所述研究结论提取单元,具体用于对所述摘要文本进行分句处理,得到多个句子;确定所述研究结论表示特征内容所在的目标句子;在所述目标句子中剔除所述研究结论表示特征内容,得到所述研究结论。
在一些实施例中,所述装置还包括:
参考研究结论获取单元,用于在根据所述表示研究结论的特征内容从所述摘要文本中提取研究结论之后,将所述摘要文本输入大语言模型中,得到所述大语言模型输出的参考研究结论;
第二向量化处理单元,用于对所述参考研究结论进行向量化,得到参考研究结论向量;
第三向量化处理单元,用于对所述研究结论进行向量化,得到候选研究结论向量;
第二相似度计算单元,用于计算所述参考研究结论向量与所述候选研究结论向量之间的相似度;若相似度大于第二相似度阈值,确定所述研究结论属于循证医学证据;若相似度不大于第二相似度阈值,确定所述研究结论不属于循证医学证据。
第三方面,本发明实施例提供了一种电子设备,所述电子设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如第一方面任意一种实现方式描述的一种循证医学证据的识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任意一种实现方式描述的一种循证医学证据的识别方法。
相对于现有技术,本发明的有益效果如下:
本发明公开的一种循证医学证据的识别方法及相关装置,根据循证医学证据四个要素的不同,将四个要素划分为医学实体和研究结论,医学实体包括研究对象、干预措施和研究对照。通过利用医学循证要素识别模型准确识别循证医学文献的摘要文本中的医学实体,并通过研究结论识别模型识别上述摘要文本中的研究结论表示特征内容,从而根据研究结论表示特征内容从上述摘要文本中提取研究结论。本发明针对循证医学证据四个要素的不同采用不同识别方法,提升了识别的准确性,且整个识别过程自动化实现,有效提升了循证医学证据的识别效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种循证医学证据的识别方法的流程示意图;
图2为本发明实施例公开的一种循证医学证据的识别装置的结构示意图;
图3为本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
循证医学证据需要遵循PICO原则识别以下内容:研究对象(patient)、干预措施(interventions)、研究对照(comparisons)、研究结论(outcomes)。发明人经过研究发现:研究对象、干预措施和研究对照都属于医学实体,研究结论并非实体,而是一个完整的句子表述,若采用同一种识别方式识别循证医学证据中的上述四个要素,识别准确性必然较低。本发明提供的一种循证医学证据的识别方法及相关装置,将以上四个要素的识别划分为两部分完成:第一部分视为医学实体识别及多分类问题,将医学实体分为研究对象、干预措施和研究对照,采用更适用于医学实体识别的模型进行医学实体识别;第二部分为研究结论的识别,采用更适用于句子识别的模型进行研究结论表示特征内容的识别,从而根据研究结论表示特征内容从摘要文本中提取研究结论。本发明针对循证医学证据四个要素的不同采用不同识别方法,提升了识别的准确性,且整个识别过程自动化实现,有效提升了循证医学证据的识别效率。
本发明提供的一种循证医学证据的识别方法,可以通过计算机程序来实现,如通过安装在电子设备中的应用来实现,电子设备可以是移动通信终端(例如,智能手机)、个人计算机、平板电脑、服务器等。
请参阅图1,本实施例公开的一种循证医学证据的识别方法,具体包括以下步骤:
S101:获取循证医学文献的摘要文本。
循证医学文献的种类较多,不同种类的证据质量不同,从低级到高级依次包括体外实验、动物实验、专家意见或共识、个案报道、病例系列分析、病例对照研究、队列研究、随机对照实验、系统综述和分析荟萃。
示例性的,可以将随机对照实验文献作为循证医学文献,随机对照实验(randomized controlled trial, RCT)是一种对医疗卫生服务中的某种疗法或药物的效果进行检测的手段。随机对照试验的基本方法是将研究对象随机分组,对不同组实施不同的干预,以对照效果的不同。随机对照实验文献即为描述随机对照实验的文献。
摘要往往能够体现文献中的重要内容,涵盖循证医学证据中的研究对象、干预措施、研究对照和研究结论。为了降低数据处理量,仅获取循证医学文献的摘要文本用于后续识别循证医学证据中的四个要素。
S102:将摘要文本输入医学循证要素识别模型中,得到医学循证要素识别模型输出的各个类型的医学实体。
医学循证要素识别模型是以模型输出结果无限接近于训练样本标注的医学实体标签为训练目标,利用标注有各个类型的医学实体标签的训练样本对第一预设模型训练得到的。
第一预设模型用于实体识别,如各种NER(Name Entity Recognition,命名实体识别)模型,优选的,可以为目前在医学数据集上表现良好的W2NER等实体识别模型。
训练样本包括以下一种或一种以上样本:第一种样本为公开标注好的数据集,第二种样本为通过人工标注或协同众包等方式标注完成的样本。上述样本从大量循证医学文献如随机对照实验文献的摘要中提取,确定医学实体的类型为研究对象、干预措施和研究对照。
若第一预设模型为W2NER,由于W2NER是一个预训练模型,即已经训练好的模型,可以对其再进行参数的调优,也可以不用调优。如果调优,需要准备如随机对照实验文献的摘要文本以及标注有各个类型的医学实体标签,即研究对象、干预措施及研究对照,进行模型训练,在python语言中直接调用W2NER的包即可。
需要说明的是,将摘要文本输入医学循证要素识别模型中,得到医学循证要素识别模型输出的各个类型对应的不同识别概率的医学实体,即研究对象、干预措施及研究对照分别对应不同识别概率的医学实体,一般来说,识别概率越高的医学实体被确定为循证医学证据要素之一的概率越高。其中,识别概率为医学循证要素识别模型的中间层输出的。
S103:将摘要文本输入研究结论识别模型中,得到研究结论识别模型输出的研究结论表示特征内容。
研究结论识别模型是预先利用标注有研究结论表示特征内容标签的训练样本对第二预设模型训练得到的。
研究结论表示特征内容可以为“综上所述”、“本研究结论为”等,是预先分析得到的。
研究结论识别模型用于识别摘要文本中的研究结论表示特征内容,理论上也是一个循证要素识别模型,但是由于研究结论表示特征内容明显区别与医学实体,二者采用同一种循证要素识别模型效果不理想。示例性的,第二预设模型可以为BERT模型。
研究结论识别模型的训练样本来源于大量循证医学文献如随机对照实验文献的摘要,预先在摘要文本中标注研究结论表示特征内容。以模型的输出结果无限接近于标注的研究结论表示特征内容标签为训练目标,利用标注有研究结论表示特征内容标签的训练样本对第二预设模型进行训练得到研究结论识别模型。
S104:根据研究结论表示特征内容从摘要文本中提取研究结论。
示例性的,以句号作为分割标志,对摘要文本进行分句处理,得到多个句子,确定研究结论表示特征内容所在的目标句子,在目标句子中剔除研究结论表示特征内容,得到研究结论。
示例性的,定位研究结论表示特征内容在摘要文本中的位置,从研究结论表示特征内容开始,到句号结束,确定研究结论表示特征内容所在的目标句子,在目标句子中剔除研究结论表示特征内容,得到研究结论。
本实施例公开的一种循证医学证据的识别方法,根据循证医学证据四个要素的不同,将四个要素划分为医学实体和研究结论,医学实体包括研究对象、干预措施和研究对照。通过利用医学循证要素识别模型准确识别循证医学文献的摘要文本中的医学实体,并通过研究结论识别模型识别上述摘要文本中的研究结论表示特征内容,从而根据研究结论表示特征内容从上述摘要文本中提取研究结论。本实施例针对循证医学证据四个要素的不同采用不同识别方法,提升了识别的准确性,且整个识别过程自动化实现,有效提升了循证医学证据的识别效率。
为了提高最终得到的循证医学证据的准确性,还可以对医学循证要素识别模型输出的结果进行验证。
示例性的,基于预先构建完成或已存在的领域本体,如领域词表等,对医学循证要素识别模型输出的结果进行验证。领域本体包括对研究对象、干预措施和研究对照的不同表述的本体概念,而基于领域本体对医学循证要素识别模型输出的结果进行验证存在两种情况,情况一为领域本体中包括与医学实体相同的本体概念,情况二为领域本体中不包括与医学实体相同的本体概念。针对这两种情况,在上述实施例S102:将摘要文本输入医学循证要素识别模型中,得到医学循证要素识别模型输出的各个类型的医学实体之后,针对每个类型中的候选医学实体,还包括以下步骤:
A1:判断领域本体中是否包括与候选医学实体相同的本体概念。
将摘要文本输入医学循证要素识别模型中,得到医学循证要素识别模型输出的各个类型对应的不同识别概率的医学实体,识别概率越高的医学实体被确定为循证医学证据要素之一的概率越高。
在初始状态下,候选医学实体为医学循证要素识别模型输出的对应类型中识别概率最高的医学实体。
以研究对象为例,若医学循证要素识别模型输出的研究对象中识别概率最高的医学实体为“成年人”,领域本体中也包括“成年人”这一本体概念,则领域本体中包括与候选医学实体相同的本体概念;若医学循证要素识别模型输出的研究对象中识别概率最高的医学实体为“年龄为30~40的成年人”,而领域本体中不包括“年龄为30~40的成年人”,则领域本体中不包括与候选医学实体相同的本体概念。
A2:若领域本体中包括与候选医学实体相同的本体概念,将该本体概念确定为目标本体概念;
A3:通过领域概念映射表判断候选医学实体的类型与目标本体概念的语义类型是否匹配;
可以理解的是,候选医学实体虽然与目标本体概念表述相同,但可能存在候选医学实体的类型与目标本体概念的语义类型不匹配的情况,在这种情况下,医学循证要素识别模型识别出来的候选医学实体是不准确的。
例如:若医学循证要素识别模型识别出来的候选医学实体“成年人”的类型为研究对象,目标本体概念“成年人”的语义类型是人群,通过对领域概念映射表的查询,发现人群是研究对象的一种,则候选医学实体的类型与目标本体概念的语义类型匹配。若医学循证要素识别模型识别出来的候选医学实体“成年人”的类型为干预措施,目标本体概念“成年人”的语义类型是人群,则候选医学实体的类型与目标本体概念的语义类型不匹配。
A4:若匹配,确定候选医学实体属于循证医学证据;
A5:若不匹配,确定候选医学实体不属于循证医学证据。
A6:若领域本体中不包括与候选医学实体相同的本体概念,对候选医学实体进行向量化,得到候选医学实体向量;
若医学循证要素识别模型输出的研究对象中识别概率最高的医学实体为“年龄为30~40的成年人”,而领域本体中不包括“年龄为30~40的成年人”,则领域本体中不包括与候选医学实体相同的本体概念,需要对“年龄为30~40的成年人”进行向量化。
A7:分别计算候选医学实体向量与领域本体中每个本体概念对应向量的相似度;
需要说明的是,领域本体中每个本体概念对应的向量是预先得到的,对本体概念进行向量化的模型与对候选医学实体进行向量化的模型是相同的,如ELMO模型等,ELMO模型适用于对词的向量化。
计算向量相似度的方法可以为现有的任意一种向量相似度计算方法,本实施例不做具体限定。
A8:若存在相似度大于第一相似度阈值的本体概念,将该本体概念确定为目标本体概念,并返回执行A3;
若存在一个相似度大于第一相似度阈值的本体概念,则将该本体概念确定为目标本体概念,若存在一个以上相似度大于第一相似度阈值的本体概念,则将相似度最高的本体概念确定为目标本体概念。
A9:若相似度均不大于第一相似度阈值,确定候选医学实体不属于循证医学证据。
以上第一相似度阈值可以根据实际应用场景的准确性要求进行设定,第一相似度阈值越高,最终循证医学证据的识别准确性越高,如设定为80%。
进一步,医学循证要素识别模型输出的各个类型对应的不同识别概率的医学实体,可能存在识别概率最高的医学实体并不准确,而识别概率低于最高识别概率的医学实体为准确的医学实体的情况,因此,在确定候选医学实体不属于循证医学证据之后,还需要对低于最高识别概率的医学实体进行分析。同时考虑到识别概率较低的医学实体为准确的医学实体的概率非常低,为了避免对不必要的模型输出结果进行分析,以下仅对识别概率大于识别概率阈值的医学实体进行分析。在此基础上,在A5和A9之后还包括以下步骤:
A10:判断是否能在候选医学实体对应类型中获取识别概率仅次于候选医学实体且识别概率大于识别概率阈值的医学实体;
A11:若能,将该医学实体更新为候选医学实体,并返回执行A1;
A12:若不能,确定候选医学实体对应类型的医学实体识别失败。
以上识别概率阈值可以根据实际应用场景的准确性要求进行设定,识别概率阈值越高,最终循证医学证据的识别准确性越高,如设定为50%。需要说明的是,识别概率为医学循证要素识别模型的中间层输出的。
为了提高最终得到的循证医学证据的准确性,还可以基于大语言模型对研究结论识别模型输出的结果进行验证。大语言模型(Large Language Model, LLM)是一种人工智能模型,旨在理解和生成人类语言,能够实现文本总结等功能,将摘要文本输入大语言模型能够得到研究结论。
示例性的,在上述实施例S104:根据研究结论表示特征内容从摘要文本中提取研究结论之后,还包括以下步骤:
B1:将摘要文本输入大语言模型中,得到大语言模型输出的参考研究结论;
将一段文本输入大语言模型得到大语言模型输出的总结性文本为大语言模型的现有功能,本实施例将大语言模型应用于循证医学证据识别领域,将摘要文本输入大语言模型得到大语言模型输出的参考研究结论。
B2:对参考研究结论进行向量化,得到参考研究结论向量;
B3:对研究结论进行向量化,得到候选研究结论向量;
上述研究结论为研究结论识别模型输出的研究结论表示特征内容所在的目标句子剔除研究结论表示特征内容后的所得到的研究结论。
对参考研究结论和候选研究结论进行向量化采用同一种模型,优选的,若第二预设模型为BERT,则本实施例在向量化时也采用BERT模型,将研究结论输入研究结论识别模型,将研究结论识别模型中间层输出的向量作为候选研究结论向量,将参考研究结论输入研究结论识别模型,将研究结论识别模型中间层输出的向量作为参考研究结论向量。
B4:计算参考研究结论向量与候选研究结论向量之间的相似度;
计算向量相似度的方法可以为现有的任意一种向量相似度计算方法,本实施例不做具体限定。
B5:若相似度大于第二相似度阈值,确定研究结论属于循证医学证据;
B6:若相似度不大于第二相似度阈值,确定研究结论不属于循证医学证据。
以上第二相似度阈值可以根据实际应用场景的准确性要求进行设定,第二相似度阈值越高,最终循证医学证据的识别准确性越高,医学循证要素识别模型对应的第一相似度阈值与研究结论识别模型对应的第二相似度阈值可以相同,也可以不同,本实施例不做具体限定。
基于上述实施例公开的一种循证医学证据的识别方法,本实施例对应公开了一种循证医学证据的识别装置,请参阅图2,该装置具体包括:
摘要文本获取单元201,用于获取循证医学文献的摘要文本;
第一识别单元202,用于将所述摘要文本输入医学循证要素识别模型中,得到所述医学循证要素识别模型输出的各个类型的医学实体,所述医学循证要素识别模型是预先利用标注有各个类型的医学实体标签的训练样本对第一预设模型训练得到的,医学实体的类型包括研究对象、干预措施和研究对照;
第二识别单元203,用于将所述摘要文本输入研究结论识别模型中,得到所述研究结论识别模型输出的研究结论表示特征内容,所述研究结论识别模型是预先利用标注有研究结论表示特征内容标签的训练样本对第二预设模型训练得到的;
研究结论提取单元204,用于根据所述研究结论表示特征内容从所述摘要文本中提取研究结论。
在一些实施例中,所述装置还包括:
第一判断单元,用于在得到所述医学循证要素识别模型输出的各个类型的医学实体之后,针对每个类型中的候选医学实体,判断领域本体中是否包括与所述候选医学实体相同的本体概念,所述候选医学实体为所述医学循证要素识别模型输出的对应类型中识别概率最高的医学实体;
本体确定单元,用于若所述领域本体中包括与所述候选医学实体相同的本体概念,将该本体概念确定为目标本体概念;
第二判断单元,用于通过领域概率映射表判断所述候选医学实体的类型与所述目标本体概念的语义类型是否匹配;若匹配,确定所述候选医学实体属于循证医学证据;若不匹配,确定所述候选医学实体不属于循证医学证据。
在一些实施例中,所述装置还包括:
第一向量化处理单元,用于若所述领域本体中不包括与所述候选医学实体相同的本体概念,对所述候选医学实体进行向量化,得到候选医学实体向量;
第一相似度计算单元,用于分别计算所述候选医学实体向量与所述领域本体中每个本体概念对应向量的相似度;若存在相似度大于第一相似度阈值的本体概念,将该本体概念确定为目标本体概念,并触发所述第二判断单元;若相似度均不大于第一相似度阈值,确定所述候选医学实体不属于循证医学证据。
在一些实施例中,所述装置还包括:
第三判断单元,用于在确定所述候选医学实体不属于循证医学证据之后,判断是否能在所述候选医学实体对应类型中获取识别概率仅次于所述候选医学实体且识别概率大于识别概率阈值的医学实体;若能,将该医学实体更新为候选医学实体,并触发所述第一判断单元;若不能,确定所述候选医学实体对应类型的医学实体识别失败。
在一些实施例中,所述研究结论提取单元204,具体用于对所述摘要文本进行分句处理,得到多个句子;确定所述研究结论表示特征内容所在的目标句子;在所述目标句子中剔除所述研究结论表示特征内容,得到所述研究结论。
在一些实施例中,所述装置还包括:
参考研究结论获取单元,用于在根据所述表示研究结论的特征内容从所述摘要文本中提取研究结论之后,将所述摘要文本输入大语言模型中,得到所述大语言模型输出的参考研究结论;
第二向量化处理单元,用于对所述参考研究结论进行向量化,得到参考研究结论向量;
第三向量化处理单元,用于对所述研究结论进行向量化,得到候选研究结论向量;
第二相似度计算单元,用于计算所述参考研究结论向量与所述候选研究结论向量之间的相似度;若相似度大于第二相似度阈值,确定所述研究结论属于循证医学证据;若相似度不大于第二相似度阈值,确定所述研究结论不属于循证医学证据。
本实施例公开的一种循证医学证据的识别装置,根据循证医学证据四个要素的不同,将四个要素划分为医学实体和研究结论,医学实体包括研究对象、干预措施和研究对照。通过利用医学循证要素识别模型准确识别循证医学文献的摘要文本中的医学实体,并通过研究结论识别模型识别上述摘要文本中的研究结论表示特征内容,从而根据研究结论表示特征内容从上述摘要文本中提取研究结论。本实施例针对循证医学证据四个要素的不同采用不同识别方法,提升了识别的准确性,且整个识别过程自动化实现,有效提升了循证医学证据的识别效率。
本发明实施例还提供了一种电子设备,示例性的,请参阅图3,所述电子设备包括处理器301以及存储器302,所述处理器301与所述存储器302之间通过总线进行通信;
所述存储器302用于存储程序代码,并将所述程序代码传输给所述处理器301;
所述处理器301用于根据所述程序代码中的指令执行如上述实施例中任意一种实现方式描述的一种循证医学证据的识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中任意一种实现方式描述的一种循证医学证据的识别方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
上述各个实施例之间可任意组合,对所公开的实施例的上述说明,本说明书中各实施例中记载的特征可以相互替换或者组合,使本领域专业技术人员能够实现或使用本申请。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种循证医学证据的识别方法,其特征在于,包括:
获取循证医学文献的摘要文本;
将所述摘要文本输入医学循证要素识别模型中,得到所述医学循证要素识别模型输出的各个类型的医学实体,所述医学循证要素识别模型是预先利用标注有各个类型的医学实体标签的训练样本对第一预设模型训练得到的,医学实体的类型包括研究对象、干预措施和研究对照;
将所述摘要文本输入研究结论识别模型中,得到所述研究结论识别模型输出的研究结论表示特征内容,所述研究结论识别模型是预先利用标注有研究结论表示特征内容标签的训练样本对第二预设模型训练得到的;
根据所述研究结论表示特征内容从所述摘要文本中提取研究结论。
2.根据权利要求1所述的方法,其特征在于,在得到所述医学循证要素识别模型输出的各个类型的医学实体之后,所述方法还包括:
针对每个类型中的候选医学实体,判断领域本体中是否包括与所述候选医学实体相同的本体概念,所述候选医学实体为所述医学循证要素识别模型输出的对应类型中识别概率最高的医学实体;
若所述领域本体中包括与所述候选医学实体相同的本体概念,将该本体概念确定为目标本体概念;
通过领域概念映射表判断所述候选医学实体的类型与所述目标本体概念的语义类型是否匹配;
若匹配,确定所述候选医学实体属于循证医学证据;
若不匹配,确定所述候选医学实体不属于循证医学证据。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
针对每个类型中的候选医学实体,若所述领域本体中不包括与所述候选医学实体相同的本体概念,对所述候选医学实体进行向量化,得到候选医学实体向量;
分别计算所述候选医学实体向量与所述领域本体中每个本体概念对应向量的相似度;
若存在相似度大于第一相似度阈值的本体概念,将该本体概念确定为目标本体概念,并返回执行判断所述候选医学实体的类型与所述目标本体概念的语义类型是否匹配这一步骤;
若相似度均不大于第一相似度阈值,确定所述候选医学实体不属于循证医学证据。
4.根据权利要求3所述的方法,其特征在于,在确定所述候选医学实体不属于循证医学证据之后,所述方法还包括:
判断是否能在所述候选医学实体对应类型中获取识别概率仅次于所述候选医学实体且识别概率大于识别概率阈值的医学实体;
若能,将该医学实体更新为候选医学实体,并返回执行所述判断领域本体中是否包括与所述候选医学实体相同的本体概念这一步骤;
若不能,确定所述候选医学实体对应类型的医学实体识别失败。
5.根据权利要求1所述的方法,其特征在于,所述根据所述研究结论表示特征内容从所述摘要文本中提取研究结论,包括:
对所述摘要文本进行分句处理,得到多个句子;
确定所述研究结论表示特征内容所在的目标句子;
在所述目标句子中剔除所述研究结论表示特征内容,得到所述研究结论。
6.根据权利要求5所述的方法,其特征在于,在根据所述研究结论表示特征内容从所述摘要文本中提取研究结论之后,所述方法还包括:
将所述摘要文本输入大语言模型中,得到所述大语言模型输出的参考研究结论;
对所述参考研究结论进行向量化,得到参考研究结论向量;
对所述研究结论进行向量化,得到候选研究结论向量;
计算所述参考研究结论向量与所述候选研究结论向量之间的相似度;
若相似度大于第二相似度阈值,确定所述研究结论属于循证医学证据;
若相似度不大于第二相似度阈值,确定所述研究结论不属于循证医学证据。
7.一种循证医学证据的识别装置,其特征在于,包括:
摘要文本获取单元,用于获取循证医学文献的摘要文本;
第一识别单元,用于将所述摘要文本输入医学循证要素识别模型中,得到所述医学循证要素识别模型输出的各个类型的医学实体,所述医学循证要素识别模型是预先利用标注有各个类型的医学实体标签的训练样本对第一预设模型训练得到的,医学实体的类型包括研究对象、干预措施和研究对照;
第二识别单元,用于将所述摘要文本输入研究结论识别模型中,得到所述研究结论识别模型输出的研究结论表示特征内容,所述研究结论识别模型是预先利用标注有研究结论表示特征内容标签的训练样本对第二预设模型训练得到的;
研究结论提取单元,用于根据所述研究结论表示特征内容从所述摘要文本中提取研究结论。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第一判断单元,用于在得到所述医学循证要素识别模型输出的各个类型的医学实体之后,针对每个类型中的候选医学实体,判断领域本体中是否包括与所述候选医学实体相同的本体概念,所述候选医学实体为所述医学循证要素识别模型输出的对应类型中识别概率最高的医学实体;
本体确定单元,用于若所述领域本体中包括与所述候选医学实体相同的本体概念,将该本体概念确定为目标本体概念;
第二判断单元,用于通过领域概念映射表判断所述候选医学实体的类型与所述目标本体概念的语义类型是否匹配;若匹配,确定所述候选医学实体属于循证医学证据;若不匹配,确定所述候选医学实体不属于循证医学证据。
9.一种电子设备,其特征在于,所述电子设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行如权利要求1-6中任一项所述的一种循证医学证据的识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的一种循证医学证据的识别方法。
CN202410051637.7A 2024-01-15 2024-01-15 一种循证医学证据的识别方法及相关装置 Active CN117577348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410051637.7A CN117577348B (zh) 2024-01-15 2024-01-15 一种循证医学证据的识别方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410051637.7A CN117577348B (zh) 2024-01-15 2024-01-15 一种循证医学证据的识别方法及相关装置

Publications (2)

Publication Number Publication Date
CN117577348A true CN117577348A (zh) 2024-02-20
CN117577348B CN117577348B (zh) 2024-03-29

Family

ID=89862743

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410051637.7A Active CN117577348B (zh) 2024-01-15 2024-01-15 一种循证医学证据的识别方法及相关装置

Country Status (1)

Country Link
CN (1) CN117577348B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190006027A1 (en) * 2017-06-30 2019-01-03 Accenture Global Solutions Limited Automatic identification and extraction of medical conditions and evidences from electronic health records
CN110442869A (zh) * 2019-08-01 2019-11-12 腾讯科技(深圳)有限公司 一种医疗文本处理方法及其装置、设备和存储介质
WO2020114373A1 (zh) * 2018-12-07 2020-06-11 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN112420212A (zh) * 2020-11-27 2021-02-26 湖南师范大学 一种脑卒中医疗知识图谱的构建方法
CN112580350A (zh) * 2020-12-30 2021-03-30 讯飞智元信息科技有限公司 一种诉求分析方法、装置、电子设备和存储介质
CN112925877A (zh) * 2019-12-06 2021-06-08 中国科学院软件研究所 一种基于深度度量学习的一人多案关联识别方法及系统
CN114169338A (zh) * 2022-02-10 2022-03-11 北京智源人工智能研究院 一种医疗命名实体识别方法、装置和电子设备
CN114579709A (zh) * 2022-03-15 2022-06-03 西南交通大学 一种基于知识图谱的智能问答意图识别方法
WO2022228127A1 (zh) * 2021-04-29 2022-11-03 京东科技控股股份有限公司 要素文本处理方法、装置、电子设备和存储介质
CN115310425A (zh) * 2022-10-08 2022-11-08 浙江浙里信征信有限公司 基于政策文本分类和关键信息识别的政策文本分析方法
CN115600593A (zh) * 2022-11-02 2023-01-13 北京百分点科技集团股份有限公司(Cn) 一种获取文献关键内容的方法和装置
CN117251527A (zh) * 2023-09-14 2023-12-19 鹏城实验室 医学循证方法、系统、电子设备及存储介质
CN117352159A (zh) * 2023-09-28 2024-01-05 中南大学 一种基于电子病历的疑难疾病循证方法、系统及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190006027A1 (en) * 2017-06-30 2019-01-03 Accenture Global Solutions Limited Automatic identification and extraction of medical conditions and evidences from electronic health records
WO2020114373A1 (zh) * 2018-12-07 2020-06-11 北京国双科技有限公司 一种实现司法文书中要素识别的方法及装置
CN110442869A (zh) * 2019-08-01 2019-11-12 腾讯科技(深圳)有限公司 一种医疗文本处理方法及其装置、设备和存储介质
CN112925877A (zh) * 2019-12-06 2021-06-08 中国科学院软件研究所 一种基于深度度量学习的一人多案关联识别方法及系统
CN112420212A (zh) * 2020-11-27 2021-02-26 湖南师范大学 一种脑卒中医疗知识图谱的构建方法
CN112580350A (zh) * 2020-12-30 2021-03-30 讯飞智元信息科技有限公司 一种诉求分析方法、装置、电子设备和存储介质
WO2022228127A1 (zh) * 2021-04-29 2022-11-03 京东科技控股股份有限公司 要素文本处理方法、装置、电子设备和存储介质
CN114169338A (zh) * 2022-02-10 2022-03-11 北京智源人工智能研究院 一种医疗命名实体识别方法、装置和电子设备
CN114579709A (zh) * 2022-03-15 2022-06-03 西南交通大学 一种基于知识图谱的智能问答意图识别方法
CN115310425A (zh) * 2022-10-08 2022-11-08 浙江浙里信征信有限公司 基于政策文本分类和关键信息识别的政策文本分析方法
CN115600593A (zh) * 2022-11-02 2023-01-13 北京百分点科技集团股份有限公司(Cn) 一种获取文献关键内容的方法和装置
CN117251527A (zh) * 2023-09-14 2023-12-19 鹏城实验室 医学循证方法、系统、电子设备及存储介质
CN117352159A (zh) * 2023-09-28 2024-01-05 中南大学 一种基于电子病历的疑难疾病循证方法、系统及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
化柏林: "《基于句子匹配分析的知识抽取》", 30 April 2014, 北京:科学技术文献出版社, pages: 118 *

Also Published As

Publication number Publication date
CN117577348B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN110021439B (zh) 基于机器学习的医疗数据分类方法、装置和计算机设备
WO2021068321A1 (zh) 基于人机交互的信息推送方法、装置和计算机设备
CN109992664B (zh) 争议焦点的标注分类方法、装置、计算机设备和存储介质
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN111324743A (zh) 文本关系抽取的方法、装置、计算机设备及存储介质
CN112015917A (zh) 基于知识图谱的数据处理方法、装置及计算机设备
CN111651606B (zh) 一种文本处理方法、装置及电子设备
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN113094478A (zh) 表情回复方法、装置、设备及存储介质
CN114358001A (zh) 诊断结果的标准化方法及其相关装置、设备和存储介质
CN117076688A (zh) 基于领域知识图谱的知识问答方法及其装置、电子设备
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN112632248A (zh) 问答方法、装置、计算机设备和存储介质
CN116150382A (zh) 一种确定标准化医疗专业名词的方法及装置
CN113821587B (zh) 文本相关性确定方法、模型训练方法、装置及存储介质
CN113536784A (zh) 文本处理方法、装置、计算机设备和存储介质
CN113095081A (zh) 疾病的识别方法及装置、存储介质、电子装置
CN117407502A (zh) 问答对抽取方法、装置、电子设备及存储介质
CN112597299A (zh) 文本的实体分类方法、装置、终端设备和存储介质
CN117577348B (zh) 一种循证医学证据的识别方法及相关装置
CN116662518A (zh) 问答方法、装置、电子设备及可读存储介质
CN113742452B (zh) 基于文本分类的舆情监测方法、装置、设备及介质
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN117009532B (zh) 语义类型识别方法、装置、计算机可读介质及电子设备
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant