CN117251527A - 医学循证方法、系统、电子设备及存储介质 - Google Patents

医学循证方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN117251527A
CN117251527A CN202311192737.3A CN202311192737A CN117251527A CN 117251527 A CN117251527 A CN 117251527A CN 202311192737 A CN202311192737 A CN 202311192737A CN 117251527 A CN117251527 A CN 117251527A
Authority
CN
China
Prior art keywords
information
medical
target
evidence
synonym
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311192737.3A
Other languages
English (en)
Inventor
陈杰
田永鸿
黄显淞
徐凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peng Cheng Laboratory
Original Assignee
Peng Cheng Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peng Cheng Laboratory filed Critical Peng Cheng Laboratory
Priority to CN202311192737.3A priority Critical patent/CN117251527A/zh
Publication of CN117251527A publication Critical patent/CN117251527A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请实施例提供了一种医学循证方法、系统、电子设备及存储介质,属于医学技术领域。该方法包括:获取目标实体对,目标实体对包括目标检索信息和目标检索信息对应的目标要素信息;根据目标实体对,在预设的医学数据库中检索得到医学文档信息,其中,医学文档信息包括来源信息和标题信息;将目标实体对输入预训练模型,得到第一特征嵌入信息;将医学文档信息输入预训练模型,根据来源信息和标题信息确定医学证据信息,得到表征医学证据信息特征的第二特征嵌入信息;将第一特征嵌入信息和第二特征嵌入信息输入证据鉴别器中得到关联值,当该关联值超过关联阈值时,确定医学证据信息为目标实体对的目标证据。本申请能够提高医学循证准确度和效率。

Description

医学循证方法、系统、电子设备及存储介质
技术领域
本申请涉及循证医学技术领域,尤其涉及一种医学循证方法、系统、电子设备及存储介质。
背景技术
目前,随着医学的不断进步,医学相关的资料也日益增多。为提供可靠的医学依据,通常需要依靠人为翻找书籍或逐一在网上进行资料搜索,然而,这样的搜索方式很难全面地检测出相关的资料,造成了医学循证的准确度低且效率不高。
发明内容
本申请实施例的主要目的在于提出一种医学循证方法、系统、电子设备及存储介质,能够在提高医学循证准确度的同时,提高医学循证的效率。
为实现上述目的,本申请实施例的第一方面提出了一种医学循证方法,所述方法包括:获取目标实体对,所述目标实体对包括目标检索信息和所述目标检索信息对应的目标要素信息;根据所述目标实体对,在预设的医学数据库中检索得到医学文档信息,其中,所述医学文档信息包括来源信息和标题信息;将所述目标实体对输入预训练模型,得到表征所述目标检索信息和所述目标要素信息之间医学关联程度的第一特征嵌入信息;将所述医学文档信息输入所述预训练模型,根据所述来源信息和所述标题信息确定医学证据信息,并得到表征所述医学证据信息特征的第二特征嵌入信息;将所述第一特征嵌入信息和所述第二特征嵌入信息输入证据鉴别器中,当所述第一特征嵌入信息和所述第二特征嵌入信息的关联值超过预设的关联阈值时,确定所述医学证据信息为所述目标实体对的目标证据。
在一些实施例中,所述医学数据库通过以下步骤得到:获取医学信息,根据所述医学信息,设置多个属性信息,其中,所述属性信息包括所述目标检索信息和所述目标要素信息对应的检索信息和要素信息;基于所述属性信息对所述医学信息进行解析,得到结构化医学信息,并根据所述结构化医学信息,得到医学数据库,以使当根据所述目标检索信息和所述目标要素信息进行检索时,在所述医学数据库中得到所述检索信息和/或所述要素信息对应的医学文档信息。
在一些实施例中,所述医学信息包括多个预先标注的待验证信息,所述目标实体对包括预先对应确定的同义实体;所述根据所述目标实体对,在预设的医学数据库中检索得到医学文档信息,包括:若所述目标检索信息和所述目标要素信息分别与任一所述待验证信息匹配,确定所述目标检索信息和所述目标要素信息对应的所述结构化医学信息为医学文档信息;或者,若所述目标检索信息和/或所述目标要素信息与所述待验证信息不匹配,将所述目标检索信息与所述目标要素信息对应的所述结构化医学信息输入同义模型中,所述同义模型根据所述同义实体对所述结构化医学信息进行同义处理,得到医学文档信息。
在一些实施例中,所述将所述目标检索信息与所述目标要素信息对应的所述结构化医学信息输入同义模型中,所述同义模型根据所述同义实体对所述结构化医学信息进行同义处理,得到医学文档信息,包括:根据所述目标实体对与所述待验证信息的相似度,确定所述目标检索信息与所述目标要素信息对应的所述结构化医学信息;将所述结构化医学信息输入同义模型中,所述同义模型根据所述同义实体与所述待验证信息的相似度,确定所述同义实体对应的所述医学文档信息。
在一些实施例中,所述同义实体通过以下步骤得到:根据预设的第一同义关键词对所述初始信息进行解析,确定所述第一同义关键词之后的词字段为第一子同义实体;获取医学疾病词汇表和医学疾病属性表;根据所述医学疾病词汇表得到第二同义关键词,并确定所述第二同义关键词为第二子同义实体;在所述医学疾病属性表中确定所述第二同义关键词对应的疾病属性信息,将所述第二同义关键词与所述疾病属性信息进行组合,得到第三同义关键词,并确定所述第三同义关键词为第三子同义实体;根据所述第一子同义实体、所述第二子同义实体和所述第三子同义实体,得到同义实体。
在一些实施例中,所述将所述医学文档信息输入所述预训练模型,根据所述来源信息和所述标题信息确定医学证据信息,并得到所述医学证据信息的第二特征嵌入信息之前,包括:将所述医学文档信息输入语义相似模型;所述语义相似模型对所述医学文档信息进行分词操作,得到候选词语,并根据所述候选词语进行词嵌入操作,得到词嵌入结果;计算所述词嵌入结果与对应的所述医学文档信息的初筛相似度,根据所述初筛相似度与预设的初筛相似度阈值,得到初筛后的医学文档信息。
在一些实施例中,所述当所述第一特征嵌入信息和所述第二特征嵌入信息的关联值超过预设的关联阈值时,确定所述医学证据信息为所述目标实体对的目标证据,包括:获取关系感知系数;根据所述关系感知系数,计算所述第一特征嵌入信息与所述第二特征嵌入信息的关联值;当所述关联值超过预设的关联阈值时,确定所述医学证据信息为目标证据。
在一些实施例中,所述同义模型通过以下步骤训练得到:获取样本信息和所述样本信息对应的样本标签;将所述样本信息和所述样本标签输入同义模型中,得到所述样本信息的关联预测概率值;根据所述样本标签和所述关联预测概率值计算所述同义模型的关联损失值,并根据所述关联损失值调整所述同义模型的参数,得到训练后的所述同义模型。
在一些实施例中,所述方法还包括:显示医学循证界面,在所述医学循证界面显示第一输入框和第二输入框;响应于信息输入操作,在所述第一输入框显示输入的目标检索信息,并在所述第二输入框显示输入的目标要素信息;响应于信息查询操作,在所述医学循证界面显示根据所述目标检索信息和所述目标要素信息检索得到的目标证据,其中,所述目标证据表征所述目标检索信息与所述目标要素信息存在医学关联。
为实现上述目的,本申请实施例的第二方面提出了一种医学循证系统,所述系统包括:获取模块,用于获取目标实体对,所述目标实体对包括目标检索信息和所述目标检索信息对应的目标要素信息;医学文档信息模块,用于根据所述目标实体对,在预设的医学数据库中检索得到医学文档信息,其中,所述医学文档信息包括来源信息和标题信息;第一特征模块,用于将所述目标实体对输入预训练模型,得到表征所述目标检索信息和所述目标要素信息之间医学关联程度的第一特征嵌入信息;第二特征模块,用于将所述医学文档信息输入所述预训练模型,根据所述来源信息和所述标题信息确定医学证据信息,并得到所述医学证据信息的第二特征嵌入信息;结果模块,用于将所述第一特征嵌入信息和所述第二特征嵌入信息输入证据鉴别器中,当所述第一特征嵌入信息和所述第二特征嵌入信息的关联值超过预设的关联阈值时,确定所述医学证据信息为所述目标实体对的目标证据。
为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
本申请实施例提出了一种医学循证方法、系统、电子设备及存储介质,该医学循证方法包括:首先,获取目标实体对,目标实体对包括目标检索信息和目标检索信息对应的目标要素信息;接着,根据目标实体对,在预设的医学数据库中检索得到医学文档信息,其中,医学文档信息包括来源信息和标题信息,由于医学数据库中存放的医学相关信息包含了来源信息与标题信息,因此在根据输入的目标检索信息和目标要素信息进行检索时,可以通过得到的医学文档信息快速地定位到具体的段落即医学证据信息处,提高了医学循证的效率;然后,将目标实体对输入预训练模型,得到表征目标检索信息和目标要素信息之间医学关联特征的第一特征嵌入信息;并将医学文档信息输入预训练模型,根据来源信息和标题信息确定医学证据信息,并得到表征医学证据信息特征的第二特征嵌入信息,其中,第一特征嵌入信息表征了期望目标结果,第二特征嵌入信息表征了对应检索到的医学证据信息的特征结果;之后,将第一特征嵌入信息和第二特征嵌入信息输入证据鉴别器中以计算关联值,当第一特征嵌入信息和第二特征嵌入信息的关联值超过预设的关联阈值时,确定医学证据信息为目标实体对的目标证据。如此,在检索到医学文档信息后,还需要将医学文档信息与目标实体对输入证据鉴别器中以判断目标实体对和医学证据信息的相关性,提高了医学循证的准确度。
附图说明
图1是本申请实施例提供的医学循证系统的应用场景示意图;
图2是本申请实施例提供的医学循证方法的一个可选的流程图;
图3是本申请实施例提供的医学循证方法的另一个可选的流程图;
图4是本申请实施例提供的医学循证方法的一个可选的结构化医学信息示意图;
图5是图2中的步骤S102的一个实现流程图;
图6是图5中的步骤S302的一个实现流程图;
图7是本申请实施例提供的医学循证方法的又一个可选的流程图;
图8是图2中的步骤S104的一个实现流程图;
图9是图2中的步骤S105的一个实现流程图;
图10是本申请实施例提供的医学循证方法的还一个可选的流程图;
图11是本申请实施例提供的医学循证方法的再一个可选的流程示意图;
图12是本申请实施例提供的医学循证方法的一个可选的可视化医学循证流程图;
图13是本申请实施例提供的医学循证方法的一个可选的医学循证界面示意图;
图14是本申请实施例提供的医学循证系统的功能模块示意图;
图15是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
自然语言处理(natural language processing,NLP):NLP用计算机来处理、理解以及运用人类语言(如中文、英文等),NLP属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。自然语言处理包括语法分析、语义分析、篇章理解等。自然语言处理常用于机器翻译、手写体和印刷体字符识别、语音识别及文语转换、信息意图识别、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等技术领域,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。
信息抽取(Information Extraction):从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术。信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取,当然,文本信息抽取技术所抽取的信息可以是各种类型的信息。
目前,医学循证有以下两种方式:(1)人工标注:该方式也是最为常见的方式,其通过医学人员们阅读大量的权威医学文献后凭借个人经验标注出相关的医学实体(如疾病,症状等),但每个医学人员都有自己擅长的科室,很难做到擅长所有的领域,因此在标注的过程中常会出现知识漏召回的情况,从而不能全面地检测出实体关系,且通过纯人工标注的方式,通常只能匹配到与输入目标实体完全对应的部分,导致医学循证效率极低。(2)共现:第一种是基于位置信息的角度,在指定的范围内,如果疾病、目标实体距离越近则越有可能相关;第二种是基于统计学的角度,如果在指定的范围中,如果疾病、目标实体共同出现的频率越高,则认为两个实体越有可能相关。
然而,方式(1)会耗费过多人力和时间,且由于医学人员经验有限,并不能完全覆盖到所有相关的医学实体,通常会遗漏存在一词多义情况的医学实体,准确度较低。而方式(2)仅适用于简单文本的环境,针对于海量且复杂的医学文本并不适用。
基于此,本申请实施例提供了一种医学循证方法、系统、电子设备及存储介质,旨在提高医学循证准确度的同时,提高医学循证的效率。首先描述本申请实施例中的医学循证系统。
示例性的,如图1所示,图1是本申请实施例提供的医学循证系统的应用场景示意图,在一个医学循证系统中,包含有客户端11和服务器端12,其中,用户可以在客户端11输入目标检索信息和目标要素信息,服务器端12根据输入的目标检索信息和目标要素信息进行检索处理,得到与之对应的目标证据,该目标证据用于佐证目标要素信息与目标检索信息存在医学关联。需要说明的是,服务器端12可以与多个客户端11连接,以接收不同客户端11输入的目标检索信息和目标要素信息,具体的连接数量可以根据实际需要进行设定,在此本申请实施例不做具体限制。
本申请实施例提供的医学循证方法、系统、电子设备及存储介质,具体通过如下实施例进行说明。
本申请实施例提供的医学循证方法,涉及人工智能技术领域。本申请实施例提供的医学循证方法可应用于终端中,也可应用于服务器端中,还可以是运行于终端或服务器端中的软件。在一些实施例中,终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等;服务器端可以配置成独立的物理服务器,也可以配置成多个物理服务器构成的服务器集群或者分布式系统,还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器;软件可以是实现医学循证方法的应用等,但并不局限于以上形式。
本申请可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据用户信息、用户行为数据,用户历史数据以及用户位置信息等与用户身份或特性相关的数据进行相关处理时,都会先获得用户的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关法律法规和标准。此外,当本申请实施例需要获取用户的敏感个人信息时,会通过弹窗或者跳转到确认页面等方式获得用户的单独许可或者单独同意,在明确获得用户的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的用户相关数据。
如图2所示,图2是本申请实施例提供的医学循证方法的一个可选的流程图,图2中的方法可以包括但不限于包括步骤S101至步骤S105。
步骤S101,获取目标实体对,目标实体对包括目标检索信息和目标检索信息对应的目标要素信息;
在一些实施例中,用户可以从客户端输入目标检索信息和目标要素信息,通常,目标要素信息是目标检索信息的一个相关特征信息,例如,目标检索信息为“感冒”,目标要素信息为“呼吸道传染病”,表示用户的目标查询意图为:查询感冒与呼吸道传染病的相关性,并需要检索出相关的证据信息。
其中,输入的目标检索信息与目标要素信息的类型应是一致的,如上述的“感冒”、“呼吸道传染病”均属于疾病类型。
在一些实施例中,目标检索信息和目标要素信息还可以包括其他多种类型,如检验、检查、手术、症状、疾病、体征、药物等。
步骤S102,根据目标实体对,在预设的医学数据库中检索得到医学文档信息,其中,医学文档信息包括来源信息和标题信息;
在一些实施例中,医学数据库中存放了经过预先处理后得到的结构化医学信息,根据输入的目标检索信息和目标要素信息,可以从医学数据库中检索到对应的医学文档信息,其中,结构化医学信息是医学相关书籍的结构化表达形式,而医学文档信息是结构化医学信息中表征目标实体对存在医学关联的部分。
在一些实施例中,根据提供的目标实体对进行的检索是建立在弹性搜索(ElasticSearch)之上的,其中,ElasticSearch是基于Lucence库和BM25(Best Match 25)的搜索引擎。并且,医学数据库中存储有上百本经结构化处理后拥有相同数据结构的医学临床书籍和多源语料。
其中,来源信息表征目标实体对在医学文档信息的出处,标题信息表征目标实体对在医学文档信息对应出处的标题,根据来源信息和标题信息能够确认目标实体对的医学证据信息。示例性地,输入的目标检索信息为“溶血性贫血”,目标要素信息为“血液系统疾病”,根据输入的目标实体对可以得到对应的医学文档信息,该医学文档信息的来源信息为“实用儿科学-第7版-第28章-血液系统疾病-第2节-小儿贫血-三、溶血性贫血-(三)红细胞酶缺陷所致的溶血性贫血-诊断”,该医学文档信息的标题信息为“诊断”,由此,可以确定从“实用儿科学-第7版-第28章-血液系统疾病-第2节-小儿贫血-三、溶血性贫血-(三)红细胞酶缺陷所致的溶血性贫血-诊断”(仅做示例用)处能够找到与输入的目标实体对相应的医学证据信息。需要说明的是,由于来源信息不一定详细到医学文档信息对应的标题,因此,需要通过来源信息和标题信息来确定医学文档信息。
步骤S103,将目标实体对输入预训练模型,得到表征目标检索信息和目标要素信息之间医学关联程度的第一特征嵌入信息;
在一些实施例中,预训练模型能够对输入的信息提取特征并通过向量计算得到特征嵌入信息,当将目标实体对输入预训练模型后,预训练模型可以根据目标实体对的距离、出现频次等方面计算对应的第一特征嵌入信息。
其中,预训练模型可以是双向编码模型、(Bidirectional EncoderRepresentations from Transformers,BERT)、鲁棒优化模型(A Robustly OptimizedBERT Pretraining Approach,RoBERTa)、生成性预训练变换模型(Generative Pre-trained Transformer,GPT)等。
在一些实施例中,当将目标检索信息和目标要素信息输入预训练模型时,还需将目标检索信息和目标要素信息对应的类别信息输入预训练模型中,以使预训练模型能够根据不同类型的目标实体对进行不同的特征处理操作。
示例性地,目标检索信息为“高血压”,目标要素信息为“血压增高”,其对应的类别信息为疾病类别,将目标检索信息、目标要素信息以及疾病类别输入预训练模型中,预训练模型可以首先分别对“高血压”和“血压增高”进行编码处理,接着,对“高血压”和“血压增高”的编码结果进行合并与映射,最终得到“高血压”和“血压增高”的第一特征嵌入信息,例如,第一特征嵌入信息为[0.4,0.5,0.6]。
步骤S104,将医学文档信息输入预训练模型,根据来源信息和标题信息确定医学证据信息,并得到表征医学证据信息特征的第二特征嵌入信息;
在一些实施例中,预训练模型可以对输入的目标实体对和医学文档信息进行信息抽取与自然语言处理,通过对抽取到的特征信息进行处理,可以得到对应的第一特征嵌入信息和第二特征嵌入信息。
其中,将医学文档信息输入预训练模型中,由于医学文档信息中包含了来源信息和标题信息,因此,可以根据来源信息和标题信息确定目标实体对相应的医学证据信息,并得到该医学证据信息的第二特征嵌入信息。或者,数据库中可以根据来源信息预先存储对应的医学证据信息,可以在结构化医学信息中直接根据来源信息和标题信息查询数据库中的数据表,得到对应的医学证据信息。
示例性地,医学文档信息的来源信息为“心血管疾病-高血压-高血压的临床表现与症状”,标题信息为“高血压的临床表现与症状”,根据来源信息和标题信息,可以得到对应的医学证据信息为“高血压的临床表现与症状包括:血压升高、头痛头晕、心悸心慌以及呼吸困难”,此时,预训练模型可以对该医学证据信息的每一词字段进行向量转换,接着,对每个词向量结果进行相加计算或平均计算,得到该医学证据信息的第二特征嵌入信息,例如,第二特征嵌入信息为[0.4,0.5,0.2]。
可以理解的是,医学数据库中存放的医学相关信息均经过结构化处理,因此在根据输入的目标检索信息和目标要素信息进行检索时,可以通过得到的医学文档信息快速地定位到具体的段落即医学证据信息处,提高了医学循证的效率;并且,不同于传统医学循证中检索到医学证据信息即完成对目标证据的检索,本申请实施例中还需要将目标实体对以及检索得到的医学证据信息输入预训练模型和证据鉴别器中,以进一步判断目标实体对和医学证据信息的相关性,提高了医学循证的准确度。
如图3所示,图3是本申请实施例提供的医学循证方法的另一个可选的流程图,图3中的方法可以包括但不限于包括步骤S201至步骤S202。
步骤S201,获取医学信息,根据医学信息,设置多个属性信息,其中,属性信息包括目标检索信息和目标要素信息对应的检索信息和要素信息;
在一些实施例中,医学信息指的是与医学领域相关的知识,通常包括医学文献和医学书籍中相关的医学数据,其内容覆盖了内科、外科、呼吸内科、儿科、妇科、骨科、神经内科等方面。
其中,此处获取的医学信息可以为相关医学数据的电子版本,并且,医学信息通常包含了多个属性信息,根据这些属性信息,可以对医学信息进行结构性划分。
在一些实施例中,医学信息还可以是期刊、医学网站或者医学报告等与医学有关的医学信息,根据医学信息的不同形式,可以对应设置不同的属性信息,其中,属性信息通常是划分这些医学信息的概括性标题。
步骤S202,基于属性信息对医学信息进行解析,得到结构化医学信息,并根据结构化医学信息,得到医学数据库,以使当根据目标检索信息和目标要素信息进行检索时,在医学数据库中得到检索信息和/或要素信息对应的医学文档信息。
在一些实施例中,根据属性信息可以对医学信息进行解析与划分,可以得到结构化医学信息。以《内科学》第8版为例,书中的每章都是以一种上位疾病为主题,每节都是以该疾病的下位疾病为主题,每节的内容基本可以围绕着为以下几个标题进行展开,包括:临床表现、检查、诊断、治疗、鉴别诊断、病因、摘要、预防、预后等,其中每个标题下包含若干段落文本。如图4所示,图4是本申请实施例提供的医学循证方法的一个可选的结构化医学信息示意图,其中,可以将溶血性贫血对应的某一医学信息解析成<目标疾病(disease),标题(title),来源(tag),段落(evidence),书籍序号(book_id),段落序号(eid),疾病类型(type),段落分词列表(sentence_list)>的八元组结构化形式。其中,目标疾病表示从该医学信息中解析得到的疾病名称,疾病类型表示该目标疾病属于的疾病类型,此处以代码对疾病类型进行分类;段落为佐证目标疾病与疾病类型存在医学关联的文本内容;来源表示该段落的出处;书籍表示该段落出处对应的书籍;段落序号表示该段落在对应书籍中的段落位置;段落分词列表表示从段落中提取出的特征词。又以《新编药物学》为例,可以将该书的若干部分解析成<目标药物,标题,来源,段落,书籍序号,段落序号,药物类型,段落分词列表>的八元组结构化形式。
在一些实施例中,属性信息的具体内容和对应的数量可以根据实际情况进行设置,例如也可以根据另一组属性信息将《内科学》划分为九元组结构化形式,本申请实施例仅是以较佳实施例进行说明,并不做具体限制。
如图5所示,图5是图2中的步骤S102的一个实现流程图,在一些实施例中,步骤S102可以包括步骤S301至步骤S302:
步骤S301,若目标检索信息和目标要素信息分别与任一待验证信息匹配,确定目标检索信息和目标要素信息对应的结构化医学信息为医学文档信息;
在一些实施例中,待验证信息是人工或者由相关机器学习模型基于大量权威的医学资料预先标注得到,通常标注的待验证信息为医学信息中通用的医学实体,例如疾病、症状等。
其中,待验证信息通常为多个,可以将目标检索信息与目标要素信息分别与待验证信息进行逐一对比,若某一结构化医学信息中同时包含了与目标检索信息和目标要素信息匹配的待验证信息,表示该结构化医学信息中大概率包含目标检索信息和目标要素信息对应的目标证据,则确定该结构化医学信息为医学文档信息。
步骤S302,或者,若目标检索信息和/或目标要素信息与待验证信息不匹配,将目标检索信息与目标要素信息对应的结构化医学信息输入同义模型中,同义模型根据同义实体对结构化医学信息进行同义处理,得到医学文档信息。
在一些实施例中,若某一结构化医学信息中仅包含了目标检索信息或目标要素信息匹配的待验证信息,并不一定表示该结构化医学信息中不存在目标实体对对应的目标证据,有可能该结构化医学信息中使用的是另一种意义相近的表达,因此需要将目标检索信息与目标要素信息对应的结构化医学信息输入至同义模型中,根据同义模型做进一步同义处理以判断该结构化信息中是否存在与目标实体对相对应的医学文档信息。
在一些实施例中,若某一结构化医学信息中均不包含目标检索信息或目标要素信息匹配的待验证信息,可以确定对应的结构化医学信息为无关医学文档信息,或者,该结构化医学信息中的待验证信息均为与输入的目标检索信息和目标要素信息意义相近的同义表达,可以将对应的结构化医学信息同样输入同义模型中,由同义模型做进一步地同义处理与判断。
在一些实施例中,输入的目标实体对还包括对应的同义实体,其中,目标检索信息和目标要素信息都分别包括对应的同义实体,同义实体用于表征与目标检索信息/目标要素信息意义相近的同义表达方式,以便后续在根据目标检索信息/目标要素信息进行检索时,能够同时考虑到与其意义相近的表达,以全面检索出相关的医学文档信息。
示例性地,“感冒”在地方书籍中又俗称“风凉”,当输入的目标要素信息为“感冒”时,可能无法在对应的结构化医学信息中得到与感冒相关的医学文档信息,此时,将目标检索信息“发烧”和目标要素信息“感冒”对应搜索到的结构化医学信息输入同义模型中,同义模型分析得到该结构化医学信息中存在与“感冒”的意义相近的“风凉”同义实体,则判断该结构化医学信息为目标实体对对应的医学文档信息。
如图6所示,图6是图5中的步骤S302的一个实现流程图,在一些实施例中,步骤S302可以包括步骤S401至步骤S402:
步骤S401,根据目标实体对与待验证信息的相似度,确定目标检索信息与目标要素信息对应的结构化医学信息;
在一些实施例中,当目标检索信息和/或目标要素信息与待验证信息不匹配时,可以根据目标实体对与待验证信息的相似度确定相似度较高的几份或更多份结构化医学信息,并将可能包含目标证据的结构化医学信息均输入同义模型中,由同义模型做进一步地同义处理与判断。
其中,目标实体对与待验证信息之间的相似度可以为词形相似度、语义相似度何上下文相似度中的一种。
步骤S402,将结构化医学信息输入同义模型中,同义模型根据同义实体与待验证信息的相似度,确定同义实体对应的医学文档信息。
在一些实施例中,可以预先设定一个相似度阈值,同义模型能够根据目标实体对与待验证信息的词形相似度或语义相似度来确定目标实体对与待验证信息的相似度,当该相似度超过预设的相似度阈值时,即可确定对应的结构化医学信息为医学文档信息。
其中,当结构化医学信息有多份时,同义模型能够按照输入的顺序对其进行一一地同义处理。
可以理解的是,传统医学循证通常会严格依照用户输入的目标内容在数据库中进行逐字检索,而意思相近的部分通常会因为与输入的目标内容无法完全匹配而被筛除,因此,传统的医学循证通常很难检索到相关的目标证据或者检索得到的目标证据不全面。而本申请实施例中通过预先设置的与目标实体对意义相近的同义实体,能够得到更全面的目标证据,提高了医学循证的准确性。
如图7所示,图7是本申请实施例提供的医学循证方法的又一个可选的流程图,图7中的方法可以包括但不限于包括步骤S501至步骤S505。
步骤S501,根据预设的第一同义关键词对初始信息进行解析,确定第一同义关键词之后的词字段为第一子同义实体;
在一些实施例中,预设的第一同义关键词用于表征目标检索信息和目标要素信息的同义表达,通常,第一同义关键词可以是简称、俗称、又译、又译作、全称是、是……的缩写等多种同义表达。
其中,根据第一同义关键词,可以判断第一同义关键词之后的词字段为第一子同义实体。示例性地,在某结构化医学信息中表述有:“糖尿病(Diabetes Mellitus)又称高血糖症,其是一种常见的慢性代谢性疾病,影响着整个身体的血糖水平调节。”则可以确定第一同义关键词“又称”之后的词字段“高血糖症”为糖尿病的同义表达。
需要说明的是,第一同义关键词可以根据实际情况进行设定,本申请实施例仅是以较佳实施例进行说明,并不做具体限制。
步骤S502,获取医学疾病词汇表和医学疾病属性表;
在一些实施例中,同义实体可以从相关的医学资料中确定,因此,可以获取相关的医学疾病词汇表和医学疾病属性表,医学疾病词汇表和医学疾病属性表是通过大量医学资料整理得到的。其中,医学疾病词汇表记录了较为全面的医学相关的疾病词语,每一疾病词语通常还会记录相关的其他同义表达形式。
步骤S503,根据医学疾病词汇表得到第二同义关键词,并确定第二同义关键词为第二子同义实体;
在一些实施例中,根据医学疾病词汇表中记录的疾病词语以及对应的同义表达形式,可以得到第二同义关键词,并确定第二同义关键词为第二子同义实体。
示例性地,在专业的医学疾病词汇表中,糖尿病还有以下多种叫法:糖尿病性高血糖症(Diabetic Hyperglycemia)、高血糖症(Hyperglycemia)、胰岛素抵抗(InsulinResistance)和二型糖尿病(Type 2Diabetes)等,因此,可以确定第二同义关键词包括糖尿病性高血糖症、高血糖症、胰岛素抵抗和二型糖尿病,并确定这些第二同义关键词为“糖尿病”的第二子同义实体。
步骤S504,在医学疾病属性表中确定第二同义关键词对应的疾病属性信息,将第二同义关键词与疾病属性信息进行组合,得到第三同义关键词,并确定第三同义关键词为第三子同义实体;
在一些实施例中,医学疾病属性表中通常包含了疾病信息对应的更具体的描述,如频率,强度,颜色,持续时间,位置等。通过将医学疾病词汇表中的疾病词汇与医学疾病属性表中的属性描述进行剪接或组合以构造出第三同义关键词,并确定第三同义关键词为第三子同义实体。
示例性地,疾病词语为咳嗽,属性词语为持续性、过敏性,则可以得到“咳嗽”的第三子同义实体为“持续性咳嗽”和“过敏性咳嗽”。
需要说明的是,在剪接与组合的过程中,尽管可能会产生一些不符合实际语法规则的词语,如“咳嗽呈红色”,但其对同义模型的判断并不会产生实质性地影响。
步骤S505,根据第一子同义实体、第二子同义实体和第三子同义实体,得到同义实体。
在一些实施例中,根据上述得到的第一子同义实体、第二子同义实体和第三子同义实体,由此可以确定目标检索信息和目标要素信息对应的同义实体。由于目标检索信息和目标要素信息通常有意思相近的同义表达,通过多种方式确定同义实体,可以在进行医学循证时对未包含输入目标实体对的部分进行同义检索,以确定可能为最终目标证据的部分。
如图8所示,图8是图2中的步骤S104的一个实现流程图,在一些实施例中,步骤S104之前可以包括步骤S601至步骤S603:
步骤S601,将医学文档信息输入语义相似模型;
在一些实施例中,可以将医学文档信息拆解为多个候选,由于预训练模型的计算复杂度很高,因此可以在将医学文档信息输入预训练模型之前构建一个简单的语义相似性模型来计算候选句子与目标实体之间的相关性分数,并过滤掉不相关的句子。
其中,语义相似模型可以为词向量映射模型(Word to Vector,Word2Vec)、词向量分解模型(Global Vectors for Word Representation,GloVe)、神经网络架构模型(Siamese Network)、语言模型(Bidirectional Encoder Representations fromTransformers,BERT)或其他能够计算文本相似度的模型。
步骤S602,语义相似模型对医学文档信息进行分词操作,得到候选词语,并根据候选词语进行词嵌入操作,得到词嵌入结果;
在一些实施例中,可以使用语义相似性模型将候选句子分词,并使用词嵌入的平均值作为句子的嵌入,例如,可以使用FastText在医学文本上训练词嵌入。
其中,利用语义相似模型计算得到词嵌入结果是为了得到医学文档信息中对应候选句子的相似度特征,以便之后根据该特征对部分候选句子进行初筛。
步骤S603,计算词嵌入结果与对应的医学文档信息的初筛相似度,根据初筛相似度与预设的初筛相似度阈值,得到初筛后的医学文档信息。
在一些实施例中,使用余弦距离计算目标实体和句子的相似度。这样,能够滤掉相似度分数低于阈值的句子,剩余的候选句子即为输入同义模型的候选集。
其中,确定候选集为更新后的医学文档信息,此时,再将该医学文档信息输入预训练模型中,能够减少预训练模型进行数据处理的复杂度,进一步提高了医学循证的效率。
如图9所示,图9是图2中的步骤S105的一个实现流程图,在一些实施例中,步骤S105可以包括步骤S701至步骤S703:
步骤S701,获取关系感知系数;
在一些实施例中,证据鉴别器还包括关系感知系数,关系感知系数能够帮助证据鉴别器更好地理解和捕捉目标实体对以及医学证据信息之间的关系,进而提升医学循证的准确性。
其中,关系感知系数可以是人为设置的,或者,利用样本数据集对关系感知系数模型进行训练,以确定关系感知系数。
步骤S702,根据关系感知系数,计算第一特征嵌入信息与第二特征嵌入信息的关联值;
在一些实施例中,首先将结构化医学信息的来源信息和标题信息定义为对应目标证据的元数据,然后将目标实体对作为预训练模型获取第一个特征嵌入信息,将元数据经过预训练模型得到第二个特征嵌入信息。在得到两个特征嵌入信息之后,接着,根据证据鉴别器中的关系感知的系数,确定两个特征嵌入信息的关联值,以确定两个特征嵌入信息的关联程度。
其中,关系感知系数表征了第一特征嵌入信息与第二特征嵌入信息的关联强度,根据预设的关系感知系数,可以调整基于注意力机制的预训练模型的权重分配。
例如,当第一特征嵌入信息与第二特征嵌入信息的词形存在强关联时,其对应的关系感知系数会相对较高,此时可以将第二特征嵌入信息与关系感知系数相乘,以提高第二特征嵌入信息的值,由此加强第一特征嵌入信息和第二特征嵌入信息之间的关联值,以提高对应医学证据信息的置信度。
可以理解的是,通过设置关系感知系数,能够在根据目标实体对得到相关的医学文档信息后,进一步判断目标实体对和医学文档之间的医学关联,提高了医学循证的准确性。
步骤S703,当关联值超过预设的关联阈值时,确定医学证据信息为目标证据。
在一些实施例中,证据鉴别器中通常预设有对应的关联阈值,当第一特征嵌入信息和第二特征嵌入信息的关联值超过该关联阈值时,表示检索到的医学文档信息与输入的目标实体对之间存在强关联性,即可确定对应的医学证据信息为目标证据。
可以理解的是,在完成了根据输入的目标实体对进行初步的检索后,还通过设有关联阈值的证据鉴别器进一步确定目标实体对和检索得到的医学文档之间的关联性,能够在拥有海量复杂医学数据的环境中提高医学循证的准确性。
如图10所示,图10是本申请实施例提供的医学循证方法的还一个可选的流程图,图10中的方法可以包括但不限于包括步骤S801至步骤S803。
步骤S801,获取样本信息和样本信息对应的样本标签;
在一些实施例中,为训练同义模型,需要获取样本信息以及样本信息对应的样本标签,其中,样本标签用于表征样本信息的预期结果。其中,样本信息可以是样本信息集,当样本信息为样本信息集时,对应的样本标签为样本标签集。
其中,样本信息包括样本实体对和样本医学文档信息,样本实体对中还包括样本检索信息和样本要素信息。样本信息以及样本标签可以通过公开的医学数据源得到,或者,可以是人为设置得到。
在一些实施例中,样本信息可以包括正样本和负样本,其中,可以将包含目标实体对或与目标实体对对应的同义实体的医学文档信息作为正样本。并从该医学文档信息对应的结构化医学信息中随机选取一个文本段落或句子作为负样本。
其中,通过设置负样本,能够让同义模型学习不同类型样本之间的特征,提高同义模型的泛化能力。
步骤S802,将样本信息和样本标签输入同义模型中,得到样本信息的关联预测概率值;
在一些实施例中,将样本信息以及对应的样本标签输入同义模型中,同义模型能够对输入的样本信息进行关联预测并得到关联预测概率值,关联预测概率值用于表征同义模型预测的输入样本实体对与样本医学文档信息的关联程度。
步骤S803,根据样本标签和关联预测概率值计算同义模型的关联损失值,并根据关联损失值调整同义模型的参数,得到训练后的同义模型。
在一些实施例中,可以将关联预测概率值与样本标签进行对比,得到关联损失值,接着,根据关联损失值调整同义模型的相关参数,以得到训练后的同义模型。
可以理解的是,训练后的同义模型拥有对医学文档信息中同义实体的判断能力,当医学文档信息中不包含目标检索信息或目标要素信息而包含的是与之相对应的同义表达时,训练后的同义模型能够捕捉该同义实体并判断对应的结构化医学信息为医学文档信息,以便能够在之后进一步判断该医学文档信息中是否包含目标证据,提高了医学循证的准确度。
如图11所示,图11是本申请实施例提供的医学循证方法的再一个可选的流程示意图,根据上述描述,给出另一完整示例:首先输入目标检索信息和目标要素信息;并在医学数据库中进行检索得到结构化医学信息;接着,判断得到的结构化医学信息是否为精确匹配,如果为精确匹配,直接得到医学文档信息,如果不为精确匹配,需要根据同义模块进行同义处理,当同义处理失败时确定证据不足无法循证,当同义处理成功时得到医学文档信息;将输入的目标检索信息和目标要素信息输入预训练模型中得到第一特征嵌入信息,将医学文档信息输入预训练模型中得到第二特征嵌入信息,将第一特征嵌入信息和第二特征嵌入信息输入证据鉴别器中,证据鉴别器基于关系感知系数得到第一特征嵌入信息和第二特征嵌入信息的关联值,当该关联值超过预设的关联阈值时,确定对应的医学证据信息为目标证据。
其中,为了提高证据的准确性,预训练模型还可以过滤掉来源不准确,包含否定词、副作用、并发症、术后等特征的医学文档信息,通过证据鉴别器获取到高置信度的医学证据信息,以得到最终的目标证据。
可以理解的是,本申请实施例中的医学循证方法并不是根据输入的目标实体对在包含海量医学资料的医学数据库中进行逐字匹配检索,而是根据目标实体对和结构化医学信息的相似度以及目标实体对和医学证据信息的关联性确定最终的目标证据,能够提高医学循证的准确度。
如图12所示,图12是本申请实施例提供的医学循证方法的一个可选的可视化医学循证流程图,图12中的方法可以包括但不限于包括步骤S901至步骤S903。
步骤S901,显示医学循证界面,在医学循证界面显示第一输入框和第二输入框;
在一些实施例中,为提高医学循证的效率,还设置有可视化的医学循证界面,如图13所示,图13是本申请实施例提供的医学循证方法的一个可选的医学循证界面示意图,其中,医学循证界面可以是专用医学循证系统中界面,或者,可以是其他医学系统中的一个子界面,例如,图13中的医学循证界面是医学文本分析系统的一个子界面,在该医学文本分析系统中,还包括智能问答、医疗信息抽取、数据结构化(也称OCR结构化,OCR全称为OpticalCharacter Recognition)以及报告生成等方面的内容,而医学循证界面可以通过知识推理模块进入。在该医学循证界面中,显示有第一输入框和第二输入框,其中,第一输入框用于输入目标检索信息,第二输入框用于输入目标要素信息。
步骤S902,响应于信息输入操作,在第一输入框显示输入的目标检索信息,并在第二输入框显示输入的目标要素信息;
在一些实施例中,如图13所示,还设置有第三输入框,其中,第三输入框用于输入与期望目标证据相关的标题信息,需要说明的是,第三输入框可以无相关的输入内容,标题信息的输入只是为了进一步确定目标证据的出处范围,当不输入标题信息时,仍能够根据目标检索信息和目标要素信息检索得到对应的一个或多个目标证据。
在一些实施例中,用户可以在医学循证界面的第一输入框中输入目标检索信息,并在第二输入框中输入目标要素信息,若没有需要在第三输入框中输入的标题信息,则可以点击输入框旁的查询按钮以得到与目标检索信息和目标要素信息相对应的目标证据。
步骤S903,响应于信息查询操作,在医学循证界面显示根据目标检索信息和目标要素信息检索得到的目标证据,其中,目标证据表征目标检索信息与目标要素信息存在医学关联。
在一些实施例中,当用户在客户端点击查询按钮后,能够生成查询响应并发送至相关的服务器中,当服务器端完成搜索后,客户端能够接收服务器端发送的检索结果并在医学循证界面中显示目标检索信息和目标要素信息对应的目标证据。
其中,当目标证据有多个时,多个目标证据可以依照在证据鉴别器中对应的关联值按从高至低顺序排列,如此,用户可以更关注于更高关联值对应的目标证据。
其中,如图13所示,在完成目标实体对的输入后,最终输出的结果包含5个部分,分别是疾病、目标要素、相关性、循证方法和证据列表,具体地,疾病对应显示的是输入的目标检索信息;目标要素对应显示的是输入的目标要素信息;相关性对应显示的是输入的目标实体对的之间的关联度;循证方法对应显示的是目标证据所在的医学信息类别;证据列表对应显示的是根据目标实体对最终确认的目标证据,具体还包括目标证据的来源、目标证据的具体内容、目标证据的具体段落(eid)以及目标证据的关联值(即证据概率);其中证据列表可以包含一个或多个目标证据,如果目标证据的段落过长则会启动保留关键句策略,即仅保留高亮的关键句子以及其前后两句。另外,由于结构化医学信息包含了多个属性信息,在进行可视化显示时,也可以根据实际情况在医学循证界面中选取属性信息对应的内容进行显示,本申请实施例不做具体的限制。
可以理解的是,通过可视化的医学循证界面,用户仅需输入询关键词(目标实体对)即可在前端界面完成检索,无需手动查阅书籍或多次更换查询关键词,极大地提高了医学循证的效率。
如图14所示,图14是本申请实施例提供的医学循证系统的功能模块示意图,本申请实施例还提供一种医学循证系统,可以实现上述医学循证方法,医学循证系统包括:
获取模块1001,用于获取目标实体对,目标实体对包括目标检索信息和目标检索信息对应的目标要素信息;
医学文档信息模块1002,用于根据目标实体对,在预设的医学数据库中检索得到医学文档信息,其中,医学文档信息包括来源信息和标题信息;
第一特征模块1003,用于将目标实体对输入预训练模型,得到表征目标检索信息和目标要素信息之间医学关联程度的第一特征嵌入信息;
第二特征模块1004,用于将医学文档信息输入预训练模型,根据来源信息和标题信息确定医学证据信息,并得到医学证据信息的第二特征嵌入信息;
结果模块1005,用于将第一特征嵌入信息和第二特征嵌入信息输入证据鉴别器中,当第一特征嵌入信息和第二特征嵌入信息的关联值超过预设的关联阈值时,确定医学证据信息为目标实体对的目标证据。
该医学循证系统的具体实施方式与上述医学循证方法的具体实施例基本相同,在此不再赘述。在满足本申请实施例要求的前提下,医学循证系统还可以设置其他功能模块,以实现上述实施例中的医学循证方法。
本申请实施例还提供了一种电子设备,电子设备包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述医学循证方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。
如图15所示,图15是本申请实施例提供的电子设备的硬件结构示意图,电子设备包括:
处理器1101,可以采用通用的CPU(CentralProcessingUnit,中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
存储器1102,可以采用只读存储器(ReadOnlyMemory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory,RAM)等形式实现。存储器1102可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1102中,并由处理器1101来调用执行本申请实施例的医学循证方法;
输入/输出接口1103,用于实现信息输入及输出;
通信接口1104,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线1105,在设备的各个组件(例如处理器1101、存储器1102、输入/输出接口1103和通信接口1104)之间传输信息;
其中处理器1101、存储器1102、输入/输出接口1103和通信接口1104通过总线1105实现彼此之间在设备内部的通信连接。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述医学循证方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例提供了一种医学循证方法、系统、电子设备及存储介质,通过获取目标实体对,目标实体对包括目标检索信息和目标检索信息对应的目标要素信息;根据目标实体对,在预设的医学数据库中检索得到医学文档信息,其中,医学文档信息包括来源信息和标题信息;将目标实体对输入预训练模型,得到第一特征嵌入信息;将医学文档信息输入预训练模型,根据来源信息和标题信息确定医学证据信息,得到表征医学证据信息特征的第二特征嵌入信息;将第一特征嵌入信息和第二特征嵌入信息输入证据鉴别器中得到关联值,当该关联值超过关联阈值时,确定医学证据信息为目标实体对的目标证据。本申请能够提高医学循证准确度和效率。
本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本申请实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例的方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序的介质。
以上参照附图说明了本申请实施例的优选实施例,并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进,均应在本申请实施例的权利范围之内。

Claims (12)

1.一种医学循证方法,其特征在于,所述方法包括:
获取目标实体对,所述目标实体对包括目标检索信息和所述目标检索信息对应的目标要素信息;
根据所述目标实体对,在预设的医学数据库中检索得到医学文档信息,其中,所述医学文档信息包括来源信息和标题信息;
将所述目标实体对输入预训练模型,得到表征所述目标检索信息和所述目标要素信息之间医学关联特征的第一特征嵌入信息;
将所述医学文档信息输入所述预训练模型,根据所述来源信息和所述标题信息确定医学证据信息,并得到表征所述医学证据信息特征的第二特征嵌入信息;
将所述第一特征嵌入信息和所述第二特征嵌入信息输入证据鉴别器中,当所述第一特征嵌入信息和所述第二特征嵌入信息的关联值超过预设的关联阈值时,确定所述医学证据信息为所述目标实体对的目标证据。
2.根据权利要求1所述的方法,其特征在于,所述医学数据库通过以下步骤得到:
获取医学信息,根据所述医学信息,设置多个属性信息,其中,所述属性信息包括所述目标检索信息和所述目标要素信息对应的检索信息和要素信息;
基于所述属性信息对所述医学信息进行解析,得到结构化医学信息,并根据所述结构化医学信息,得到医学数据库,以使当根据所述目标检索信息和所述目标要素信息进行检索时,在所述医学数据库中得到所述检索信息和/或所述要素信息对应的医学文档信息。
3.根据权利要求2所述的方法,其特征在于,所述医学信息包括多个预先标注的待验证信息,所述目标实体对包括预先对应确定的同义实体;
所述根据所述目标实体对,在预设的医学数据库中检索得到医学文档信息,包括:
若所述目标检索信息和所述目标要素信息分别与任一所述待验证信息匹配,确定所述目标检索信息和所述目标要素信息对应的所述结构化医学信息为医学文档信息;
或者,若所述目标检索信息和/或所述目标要素信息与所述待验证信息不匹配,将所述目标检索信息与所述目标要素信息对应的所述结构化医学信息输入同义模型中,所述同义模型根据所述同义实体对所述结构化医学信息进行同义处理,得到医学文档信息。
4.根据权利要求3所述的方法,其特征在于,所述将所述目标检索信息与所述目标要素信息对应的所述结构化医学信息输入同义模型中,所述同义模型根据所述同义实体对所述结构化医学信息进行同义处理,得到医学文档信息,包括:
根据所述目标实体对与所述待验证信息的相似度,确定所述目标检索信息与所述目标要素信息对应的所述结构化医学信息;
将所述结构化医学信息输入同义模型中,所述同义模型根据所述同义实体与所述待验证信息的相似度,确定所述同义实体对应的所述医学文档信息。
5.根据权利要求4所述的方法,其特征在于,所述同义实体通过以下步骤得到:
根据预设的第一同义关键词对所述结构化医学信息进行解析,确定所述第一同义关键词之后的词字段为第一子同义实体;
获取医学疾病词汇表和医学疾病属性表;
根据所述医学疾病词汇表得到第二同义关键词,并确定所述第二同义关键词为第二子同义实体;
在所述医学疾病属性表中确定所述第二同义关键词对应的疾病属性信息,将所述第二同义关键词与所述疾病属性信息进行组合,得到第三同义关键词,并确定所述第三同义关键词为第三子同义实体;
根据所述第一子同义实体、所述第二子同义实体和所述第三子同义实体,得到同义实体。
6.根据权利要求5所述的方法,其特征在于,所述将所述医学文档信息输入所述预训练模型,根据所述来源信息和所述标题信息确定医学证据信息,并得到所述医学证据信息的第二特征嵌入信息之前,包括:
将所述医学文档信息输入语义相似模型;
所述语义相似模型对所述医学文档信息进行分词操作,得到候选词语,并根据所述候选词语进行词嵌入操作,得到词嵌入结果;
计算所述词嵌入结果与对应的所述医学文档信息的初筛相似度,根据所述初筛相似度与预设的初筛相似度阈值,得到初筛后的医学文档信息。
7.根据权利要求1所述的方法,其特征在于,所述当所述第一特征嵌入信息和所述第二特征嵌入信息的关联值超过预设的关联阈值时,确定所述医学证据信息为所述目标实体对的目标证据,包括:
获取关系感知系数;
根据所述关系感知系数,计算所述第一特征嵌入信息与所述第二特征嵌入信息的关联值;
当所述关联值超过预设的关联阈值时,确定所述医学证据信息为目标证据。
8.根据权利要求4所述的方法,其特征在于,所述同义模型通过以下步骤训练得到:
获取样本信息和所述样本信息对应的样本标签;
将所述样本信息和所述样本标签输入同义模型中,得到所述样本信息的关联预测概率值;
根据所述样本标签和所述关联预测概率值计算所述同义模型的关联损失值,并根据所述关联损失值调整所述同义模型的参数,得到训练后的所述同义模型。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
显示医学循证界面,在所述医学循证界面显示第一输入框和第二输入框;
响应于信息输入操作,在所述第一输入框显示输入的目标检索信息,并在所述第二输入框显示输入的目标要素信息;
响应于信息查询操作,在所述医学循证界面显示根据所述目标检索信息和所述目标要素信息检索得到的目标证据,其中,所述目标证据表征所述目标检索信息与所述目标要素信息存在医学关联。
10.一种医学循证系统,所述系统包括:
获取模块,用于获取目标实体对,所述目标实体对包括目标检索信息和所述目标检索信息对应的目标要素信息;
医学文档信息模块,用于根据所述目标实体对,在预设的医学数据库中检索得到医学文档信息,其中,所述医学文档信息包括来源信息和标题信息;
第一特征模块,用于将所述目标实体对输入预训练模型,得到表征所述目标检索信息和所述目标要素信息之间医学关联程度的第一特征嵌入信息;
第二特征模块,用于将所述医学文档信息输入所述预训练模型,根据所述来源信息和所述标题信息确定医学证据信息,并得到所述医学证据信息的第二特征嵌入信息;
结果模块,用于将所述第一特征嵌入信息和所述第二特征嵌入信息输入证据鉴别器中,当所述第一特征嵌入信息和所述第二特征嵌入信息的关联值超过预设的关联阈值时,确定所述医学证据信息为所述目标实体对的目标证据。
11.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的医学循证方法。
12.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的医学循证方法。
CN202311192737.3A 2023-09-14 2023-09-14 医学循证方法、系统、电子设备及存储介质 Pending CN117251527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311192737.3A CN117251527A (zh) 2023-09-14 2023-09-14 医学循证方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311192737.3A CN117251527A (zh) 2023-09-14 2023-09-14 医学循证方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN117251527A true CN117251527A (zh) 2023-12-19

Family

ID=89132435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311192737.3A Pending CN117251527A (zh) 2023-09-14 2023-09-14 医学循证方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117251527A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577348A (zh) * 2024-01-15 2024-02-20 中国医学科学院医学信息研究所 一种循证医学证据的识别方法及相关装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117577348A (zh) * 2024-01-15 2024-02-20 中国医学科学院医学信息研究所 一种循证医学证据的识别方法及相关装置
CN117577348B (zh) * 2024-01-15 2024-03-29 中国医学科学院医学信息研究所 一种循证医学证据的识别方法及相关装置

Similar Documents

Publication Publication Date Title
CN106649786B (zh) 基于深度问答的答案检索方法及装置
US9606990B2 (en) Cognitive system with ingestion of natural language documents with embedded code
KR102033435B1 (ko) 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
CN109509556A (zh) 知识图谱生成方法、装置、电子设备及计算机可读介质
EP1675025A2 (en) Systems and methods for generating user-interest sensitive abstracts of search results
US9342592B2 (en) Method for systematic mass normalization of titles
Nie et al. A Joint Local-Global Approach for Medical Terminology Assignment.
CN112559684A (zh) 一种关键词提取及信息检索方法
US20220405484A1 (en) Methods for Reinforcement Document Transformer for Multimodal Conversations and Devices Thereof
WO2019068870A1 (en) METHODS AND SYSTEMS FOR CLINICAL HEALTH CARE TRIALS
Tyagi et al. Demystifying the role of natural language processing (NLP) in smart city applications: background, motivation, recent advances, and future research directions
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
CN117251527A (zh) 医学循证方法、系统、电子设备及存储介质
van Dalen-Oskam et al. Named entity recognition and resolution for literary studies
CN115394393A (zh) 智能诊疗数据处理方法、装置、电子设备及存储介质
CN116561538A (zh) 问答评分方法、问答评分装置、电子设备及存储介质
Raza A COVID-19 search engine (CO-SE) with transformer-based architecture
Leveling et al. On metonymy recognition for geographic information retrieval
CN116469546A (zh) 基于注意力机制的疾病辅助识别方法和装置、设备及介质
JP2017220179A (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
Ranjan et al. Automatic labelling of important terms and phrases from medical discussions
CN115270746A (zh) 问题样本生成方法和装置、电子设备及存储介质
Tran et al. A model of vietnamese person named entity question answering system
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
JP2006139484A (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination