CN115080751A - 一种基于通用模型的医学标准术语管理系统及方法 - Google Patents

一种基于通用模型的医学标准术语管理系统及方法 Download PDF

Info

Publication number
CN115080751A
CN115080751A CN202210980851.1A CN202210980851A CN115080751A CN 115080751 A CN115080751 A CN 115080751A CN 202210980851 A CN202210980851 A CN 202210980851A CN 115080751 A CN115080751 A CN 115080751A
Authority
CN
China
Prior art keywords
term
standard
subdivision
attribute
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210980851.1A
Other languages
English (en)
Other versions
CN115080751B (zh
Inventor
李劲松
俞紫怡
杨宗峰
田雨
周天舒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210980851.1A priority Critical patent/CN115080751B/zh
Publication of CN115080751A publication Critical patent/CN115080751A/zh
Application granted granted Critical
Publication of CN115080751B publication Critical patent/CN115080751B/zh
Priority to JP2023093632A priority patent/JP2024027087A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于通用模型的医学标准术语管理系统及方法,包括术语信息处理模块,术语关系网络构建模块,术语库自扩增模块,可视化管理模块;步骤S1:通过术语信息处理模块对开源标准术语数据进行梳理整合,并通过构建的序列标注模型拆分得到所述细分属性名称对应的细分属性内容;步骤S2:建立标准化映射关系,完成术语关系网络的搭建;步骤S3:进行自增推荐,完成术语关系网络的扩展;步骤S4:利用可视化管理模块对所述术语库进行可视化管理。本发明所构建的医学标准术语库可满足不同的科研及业务使用场景,兼容或可溯源至不同平台及权威机构的医学标准术语,所设计的结构体可支持术语的各种组合扩展。

Description

一种基于通用模型的医学标准术语管理系统及方法
技术领域
本发明涉及一种医学领域技术领域,尤其涉及一种基于通用模型的医学标准术语管理系统及方法。
背景技术
随着大数据时代的来临,医疗大数据在医学领域的应用价值也逐渐被挖掘与利用。然而,在这一过程中,由于多源的医学数据不具备统一的标准,在过去缺乏规范性的约束,致使各行业对现有的医疗数据无法进行最大化的合理利用,也成为医学信息化建设及医学研究发展的阻碍因素。
虽然当前,各大国内外权威机构发布的医学标准术语集已在不同的领域被广泛应用及认可,却仍缺乏一个,可兼容多种需求场景,能突破不同服务平台间壁垒的中文标准医学术语体系。致使现阶段,中文标准术语在真实世界的覆盖度仅低于40%,远不足以适应医疗人工智能的应用需求。
已有的中文医学术语管理方法中,一种是基于snowflake算法对同义医学术语进行标识,以概念为中心进行整合后,构建单分类下的树状数据结构医学词典;一种是对英文医学术语资源,如SNOMEDCT,进行机器翻译及大量人工校正。
第一种方式将不同来源获取的医学术语进行分类,得到不同含义的医学术语,以概念为中心实现同义汇聚和语义分类,再对不同含义的医学概念采用snowflake算法进行标识,根据不同的概念标识进行整合得到医学概念表,同时采用Jaccard相似度算法对相同来源的医学术语进行相似度计算以满足准确分类。通过这种方法实现自增ID,保证ID的唯一性和索引性能。其构建的术语体系结构单一,可拓展性低,没有足够的泛化能力和灵活性来面对多样的数据来源和不断更新的应用场景需求。对于术语内部及术语间的关联信息未进行有效利用,致使在术语集的后续维护及拓展上依然需要堆砌大量的人工成本。以新增一例标准术语概念为例,传统的技术方案仅能通过判断原始术语表中是否存在同义概念,来进行概念分类或新增。当新增的概念与原始术语表中的术语存在层级关系,无法自动将新概念添加在有效的节点位置下;当新增概念与现有概念存在信息关联,也无法对其进行识别,从而存储关联信息;当前技术无法有效利用术语本身已有信息进行同类术语聚合,需要依靠纯人工的方式进行管理及维护,无法有效形成一个标准化的术语管理体系和迭代闭环。
第二种方式,若仅通过机器翻译,在不基于大量人工校正的条件下,无法避免翻译结果与专业概念的较大偏差,也容易忽略国内外语言使用习惯的差异,在术语映射时往往得到的是极低的召回率。如需要提高召回率,则在管理和维护上需要付出成倍的人力和资金成本,以及漫长的时间周期。
目前,构建的术语体系结构单一,可拓展性低,没有足够的泛化能力面对多样的数据来源和业务需求,没有足够的灵活性对术语库进行可持续且高效率的管理及优化。主要表现在于:(1)不对来源信息进行保留,不建立,不存储标准术语与非标准术语的映射关系。(2)没有合理利用术语内部及术语间的关联关系,面对标准术语概念的新增,仅能通过判断原始术语表中是否存在同义概念,来进行概念分类或新增,若需新增的概念与原始术语表中的术语存在层级关系,无法自动将新概念添加在有效的节点位置下,若需新增的概念需满足特定的应用需求,位于相对高的层级,无法有效利用其中的关联信息进行其子类的同类术语的聚合;(3)术语库后续的迭代需要堆砌大量的人工进行,未能形成一个高效标准化的术语管理体系和迭代闭环。
以实际需求场景举例,当术语库须要满足DRG或DIP系统的业务需求,则须确保术语可映射或溯源至相关标准数据库,如ICD-10医保版,ICD-9-CM-3医保版;以一个标准概念举例,当临床所见概念“下肢疼痛“未在当前建立的标准术语库中且需新增时,需要将其自动化添加在“四肢疼痛“以及“下肢临床所见“节点下,作为以上两个术语概念的子节点;同时需要将原来在“四肢疼痛”节点下的:“小腿疼痛”,“足部疼痛”,“左下肢疼痛”统一修改为“下肢疼痛”的子节点;以及,需要自动关联身体部位信息“下肢”为发生部位。现有的技术显然还无法完成上述的自动化术语管理流程。
为此,我们提出一种基于通用模型的医学标准术语管理系统及方法以解决上述技术问题。
发明内容
本发明为了解决上述技术问题,提供一种基于通用模型的医学标准术语管理系统及方法。
本发明采用的技术方案如下:
一种基于通用模型的医学标准术语管理系统,包括:
术语信息处理模块,用于对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,得到术语类别以及术语类别对应的细分属性名称,并通过构建的序列标注模型对病历文本进行拆分得到病历文本细分属性名称对应的细分属性内容,每种所述术语类别都包含一种主要细分属性名称和多种次要细分属性名称;
术语关系网络构建模块,用于在所述细分属性内容中寻找语义相似度最大的语义标准词建立标准化映射关系,并对所述标准化映射关系进行校正及补充,完成术语关系网络的搭建;
术语库自扩增模块,用于对不同的所述术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库;
可视化管理模块,用于对所述术语库进行可视化管理。
进一步地,所述可视化管理模块包括:
医学标准术语查询单元,用于提供用户预览数据,进行标准术语的可视化查询,基于不同维度的筛选条件,筛选出对应的术语,同时提供用户登陆界面入口和术语管理界面入口,展示包含以下维度的标准术语信息,包括:标准术语的顶级类别、同义词、父节点术语、子节点术语和/或属性信息,同时提供进入相关术语详情界面的入口;
术语编辑单元,用于提供用户通过可视化界面进行术语实体编辑,包括:标准术语的新增、删除和/或修改,标准术语同义词的新增和/或删除,标准术语的属性信息修改;
术语审核单元,用于提供术语审核人员进行第二方审核,提供审核人员进行术语审核结果判定;
术语映射单元,用于提供用户对不同来源的医学数据进行标准化映射,对于无法映射的数据,构建推荐队列,保证术语管理人员进行术语的一键映射和推荐队列的形成。
本发明还提供一种基于通用模型的医学标准术语管理方法,包括以下步骤:
步骤S1:通过术语信息处理模块对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,得到术语类别以及术语类别对应的细分属性名称,并通过构建的序列标注模型拆分得到所述细分属性名称对应的细分属性内容,所述细分属性内容即为标准词,每种所述术语类别都包含一种主要细分属性名称和多种次要细分属性名称;
步骤S2:通过所述序列标注模型对病历文本进行拆分得到病历文本细分属性,利用术语关系网络构建模块在所述标准词中寻找语义相似度最大的语义标准词建立标准化映射关系,并对所述标准化映射关系进行校正及补充,完成术语关系网络的搭建;
步骤S3:通过术语库自扩增模块对不同的术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库;
步骤S4:利用可视化管理模块对所述术语库进行可视化管理,所述可视化管理包括医学标准术语查询单元、术语编辑单元、术语审核单元和术语映射单元。
进一步地,所述步骤S1具体包括以下子步骤:
步骤S11:通过术语信息处理模块对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,保留原始术语的层级关系、关联关系和/或编码信息,并打上来源标签,得到术语类别以及术语类别对应的细分属性名称;
步骤S12:利用预训练语言模型构建序列标注模型,并通过所述序列标注模型将开源标准术语数据拆分得到细分属性内容。
进一步地,所述步骤S12具体包括以下子步骤:
步骤S121:利用预训练语言模型计算开源标准术语数据中每个字/词的向量表示;
步骤S122:所述向量表示通过自注意力机制计算每个字/词的输出状态;
步骤S123:所述输出状态经过全连接神经网络计算得到每个字/词属于每种细分属性类别的概率,完成序列标注模型的构建;
步骤S124:所述开源标准术语数据通过所述序列标注模型拆分得到细分属性内容,所述细分属性内容即为标准词,所述细分属性内容包含主要细分属性内容和次要细分属性内容。
进一步地,所述步骤S2具体包括以下子步骤:
步骤S21:通过所述序列标注模型对病历文本进行拆分得到病历文本细分属性,利用术语关系网络构建模块在所述标准词中寻找任意语义标准词,通过算法得到病历文本细分属性和所述任意语义标准词的语义相似度,选取语义相似度最高的标准词,建立标准化映射关系;
步骤S22:通过算法拆分得到的次要细分属性,若在当前病历文本中存在可定义描述类型的父节点,且所拆分得到的主要细分属性未包含类型信息,则对主要细分属性进行信息补充,校正为信息对应的细颗粒度子节点,完成标准化映射关系的校正;
步骤S23:若单个术语类别包含多个类型的次要细分属性,导致修正后的主要细分属性存在多个,则选择存在最多的主要细分属性在病历文本中的父节点作为最后的主要细分属性;
步骤S24:当算法拆分得到的结果为各维度信息存在缺失,数据来源本身存在层级结构,则通过所述术语类别的父节点拆分结果进行信息补全,完成术语关系网络的搭建。
进一步地,所述步骤S21具体包括以下子步骤:
步骤S211:在所述病历文本细分属性和所述标准词中获取包含所述病历文本细分属性和所述标准词的句子集合、位于所述病历文本细分属性和所述标准词左边的句子集合和位于所述病历文本细分属性和所述标准词右边的句子集合;
步骤S212:通过计算任意一对句子集合的平均值,并通过最终的平均值组合得到语义相似度,选取语义相似度最高的标准词,建立标准化映射关系。
进一步地,所述步骤S3具体为通过语义相似度判断标准化映射的有效性,若标准化映射有效,则直接作为映射结果;若标准化映射无效,则重新计算从所述病历文本细分属性到所述标准词中其他可能的细分属性类别和语义标准词的标准化映射,作为算法推荐的、需要人工审核的映射结果,对不同的术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库。
进一步地,所述步骤S3具体包括以下子步骤:
步骤S31:通过语义相似度判断标准化映射的有效性,若标准化映射无效,则计算病历文本拆分得到的病历文本细分属性以及语义标准词之间的距离;
步骤S32:将语义标准词按照距离降序排列,取前K个标准词组成与细分属性距离最近的标准词集合;
步骤S33:计算细分属性类别下的语义标准词的推荐分数,将所有细分属性类别按照推荐分数降序排列,取前k1个细分属性类别组成算法推荐的从细分属性到标准术语体系的细分属性类别映射的算法推荐队列:
步骤S34:将所有标准词按照语义相似度降序排列,取前k2个标准词组成细分属性到细分属性类别下的标准词映射的算法推荐队列;
步骤S35:将所有的算法推荐队列组合,完成术语关系网络的扩展,得到完整的术语库。
进一步地,所述步骤S4具体包括:用户基于不同的筛选条件,通过医学标准术语查询单元筛选对应的术语;用户通过术语编辑单元进行术语实体编辑,包括:标准术语的新增、删除和/或修改,标准术语同义词的新增和/或删除,标准术语的属性信息修改;术语审核人员通过术语审核单元进行术语审核结果判定;用户通过术语映射单元对不同来源的医学数据进行标准化映射,对于无法映射的数据,构建推荐队列,保证术语管理人员进行术语的一键映射和推荐队列的形成。
本发明的有益效果是:
1、本发明所构建的医学标准术语库可满足不同的科研及业务使用场景,兼容或可溯源至不同平台及权威机构的医学标准术语,所设计的结构体可支持术语的各种组合扩展;
2、本发明保留和利用多个标准术语之间,单个标准术语内部的关联信息,使用算法和逻辑规则进行标准术语概念的自动新增和聚合推荐;
3、本发明可支持标准术语库仅基于部分人力成本进行高效,半自动化的管理和维护。与各大权威机构所发布的标准医学术语,以及多中心临床数据形成良性的反馈机制。
附图说明
图1为本发明一种基于通用模型的医学标准术语管理系统示意图;
图2为本发明实施例术语关系网络结构图。
具体实施方式
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
见图1,一种基于通用模型的医学标准术语管理系统,包括:
术语信息处理模块,用于对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,得到术语类别以及术语类别对应的细分属性名称,并通过构建的序列标注模型对病历文本进行拆分得到病历文本细分属性名称对应的细分属性内容,每种所述术语类别都包含一种主要细分属性名称和多种次要细分属性名称;
术语关系网络构建模块,用于在所述细分属性内容中寻找语义相似度最大的语义标准词建立标准化映射关系,并对所述标准化映射关系进行校正及补充,完成术语关系网络的搭建;
术语库自扩增模块,用于对不同的所述术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库;
可视化管理模块,用于对所述术语库进行可视化管理;
所述可视化管理模块包括:
医学标准术语查询单元,用于提供用户预览数据,进行标准术语的可视化查询,基于不同维度的筛选条件,筛选出对应的术语,同时提供用户登陆界面入口和术语管理界面入口,展示包含以下维度的标准术语信息,包括:标准术语的顶级类别、同义词、父节点术语、子节点术语和/或属性信息,同时提供进入相关术语详情界面的入口;
术语编辑单元,用于提供用户通过可视化界面进行术语实体编辑,包括:标准术语的新增、删除和/或修改,标准术语同义词的新增和/或删除,标准术语的属性信息修改;
术语审核单元,用于提供术语审核人员进行第二方审核,提供审核人员进行术语审核结果判定;
术语映射单元,用于提供用户对不同来源的医学数据进行标准化映射,对于无法映射的数据,构建推荐队列,保证术语管理人员进行术语的一键映射和推荐队列的形成。
实施例:
一种基于通用模型的医学标准术语管理方法,包括以下步骤:
步骤S1:通过术语信息处理模块对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,得到术语类别以及术语类别对应的细分属性名称,并通过构建的序列标注模型拆分得到所述细分属性名称对应的细分属性内容,所述细分属性内容即为标准词,每种所述术语类别都包含一种主要细分属性名称和多种次要细分属性名称;
步骤S11:通过术语信息处理模块对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,保留原始术语的层级关系、关联关系和/或编码信息,并打上来源标签,得到术语类别以及术语类别对应的细分属性名称;
如果开源标准术语数据之间存在对应关系,统一对该信息进行保留,确保机构或个人在面对不同的场景需求时,依然能对数据进行有效利用和转化,以便于进行无障碍的信息交流。
步骤S12:利用预训练语言模型构建序列标注模型,并通过所述序列标注模型将开源标准术语数据拆分得到细分属性内容。
步骤S121:利用预训练语言模型计算开源标准术语数据中每个字/词的向量表示;
对于开源标准术语数据
Figure 382750DEST_PATH_IMAGE001
,把它包含的所有字和所有词拼接在一起,则可表示为
Figure 403795DEST_PATH_IMAGE002
,其中
Figure 996451DEST_PATH_IMAGE003
Figure 811960DEST_PATH_IMAGE001
包含的共 m个字,
Figure 506378DEST_PATH_IMAGE004
Figure 65535DEST_PATH_IMAGE001
包含的共n个词。字/词
Figure 512697DEST_PATH_IMAGE005
在医学术语
Figure 499107DEST_PATH_IMAGE001
中的起始位置记为
Figure 680821DEST_PATH_IMAGE006
,终止位置记为
Figure 778090DEST_PATH_IMAGE007
。首先通过预训练的Bert模型计算每个字/词
Figure 345338DEST_PATH_IMAGE005
的向量表示为
Figure 502649DEST_PATH_IMAGE008
步骤S122:所述向量表示通过自注意力机制计算每个字/词的输出状态;
计算每个字/词
Figure 906080DEST_PATH_IMAGE009
Figure 807040DEST_PATH_IMAGE010
的注意力权重
Figure 228794DEST_PATH_IMAGE011
Figure 557007DEST_PATH_IMAGE012
其中,
Figure 447734DEST_PATH_IMAGE013
表示
Figure 152385DEST_PATH_IMAGE009
Figure 694225DEST_PATH_IMAGE010
的相对位置向量,M1 和 M2均为经过预训练的Bert模型训练得到的权重矩阵参数。基于自注意力机制计算每个字/词
Figure 193339DEST_PATH_IMAGE009
位置的输出状态
Figure 571362DEST_PATH_IMAGE014
Figure 814124DEST_PATH_IMAGE015
步骤S123:所述输出状态经过全连接神经网络计算得到每个字/词属于每种细分属性类别的概率,完成序列标注模型的构建;
最后将输出状态经过一层全连接神经网络,计算字/词
Figure 210471DEST_PATH_IMAGE016
属于每种细分属性的概率分布
Figure 880486DEST_PATH_IMAGE017
为:
Figure 739946DEST_PATH_IMAGE018
其中,W为矩阵参数,b为向量参数,均通过整个序列标注模型训练得到,W的行数和b的维度均等于医疗术语细分属性的类别数量,
Figure 520820DEST_PATH_IMAGE019
表示向量的Softmax函数。
Figure 37252DEST_PATH_IMAGE017
即为针对开源标准术语数据的序列标注模型的最终输出,是由概率组成的向量,维度等于开源标准术语数据细分属性类别的数量。
Figure 878169DEST_PATH_IMAGE017
的第 k个元素表示字/词
Figure 230784DEST_PATH_IMAGE016
属于第k种细分属性类别的概率,其中最大的元素就表示算法认为
Figure 815349DEST_PATH_IMAGE016
所属的细分属性类别以及对应的概率。
步骤S124:所述开源标准术语数据通过所述序列标注模型拆分得到细分属性内容,所述细分属性内容即为标准词,所述细分属性内容包含主要细分属性内容和次要细分属性内容。
对所有类别的术语进行针对性的内部细分属性信息结构设计,每种术语类别都包含一种主要细分属性名称和多种次要细分属性名称,同时完成了不同类别术语间的关系定义。
步骤S2:通过所述序列标注模型对病历文本进行拆分得到病历文本细分属性,利用术语关系网络构建模块在所述标准词中寻找语义相似度最大的语义标准词建立标准化映射关系,并对所述标准化映射关系进行校正及补充,完成术语关系网络的搭建,参见图2;
图2中的“Acute panmyelosis with myelofibrosis”是指“急性全髓增殖症伴有骨髓纤维化”在snomed ct这个术语集中对应的英文概念。
对于从病历文本中拆分得到的病历文本细分属性a,在所述标准词中寻找与病历文本细分属性a的语义相似度最大的语义标准词
Figure 186288DEST_PATH_IMAGE020
,在病历文本细分属性a和语义标准词
Figure 198106DEST_PATH_IMAGE020
之间建立标准化映射关系。例如中成药名称信息中的:荆花,可映射到物质:土荆芥、水团花。操作名称术语中的:粒子放射,可映射到物理能量:电离辐射,以及物质:放射性同位素。同时通过属性链“活性成分”,“物理能量”,“目标物质”进行信息的关联。
步骤S21:通过所述序列标注模型对病历文本进行拆分得到病历文本细分属性,利用术语关系网络构建模块在所述标准词中寻找任意语义标准词,通过算法得到病历文本细分属性和所述任意语义标准词的语义相似度,选取语义相似度最高的标准词,建立标准化映射关系;
步骤S211:在所述病历文本细分属性和所述标准词中获取包含所述病历文本细分属性和所述标准词的句子集合、位于所述病历文本细分属性和所述标准词左边的句子集合和位于所述病历文本细分属性和所述标准词右边的句子集合;
Figure 772438DEST_PATH_IMAGE021
表示所述标准词中与病历文本细分属性a具有相同细分属性类别的任意标准词,则病历文本细分属性a和任意标准词
Figure 160694DEST_PATH_IMAGE021
的语义相似度分为两部分,第一部分是它们的向量表示的相似度,即
Figure 386139DEST_PATH_IMAGE022
,其中 cos表示计算向量的余弦相似度。第二部分是病历文本细分属性a和任意标准词
Figure 568859DEST_PATH_IMAGE021
的上下文的相似度,这里的上下文指的是在医院的病历文本中包含病历文本细分属性 a和任意标准词
Figure 896066DEST_PATH_IMAGE021
的句子,以及位于病历文本细分属性a和任意标准词
Figure 556854DEST_PATH_IMAGE021
的左边或右边的句子。用
Figure 636806DEST_PATH_IMAGE023
Figure 256006DEST_PATH_IMAGE024
Figure 54198DEST_PATH_IMAGE025
分别表示从医院获取的大量病历文本中包含病历文本细分属性a的句子集合、位于病历文本细分属性a左边的句子集合和位于病历文本细分属性a右边的句子集合,同样用
Figure 534989DEST_PATH_IMAGE026
Figure 469447DEST_PATH_IMAGE027
Figure 259548DEST_PATH_IMAGE028
分别表示包含任意标准词
Figure 545036DEST_PATH_IMAGE021
的句子集合、位于任意标准词
Figure 563939DEST_PATH_IMAGE021
左边的句子集合和位于任意标准词
Figure 618483DEST_PATH_IMAGE021
右边的句子集合。
步骤S212:通过计算任意一对句子集合的平均值,并通过最终的平均值组合得到语义相似度,选取语义相似度最高的标准词,建立标准化映射关系。
句子集合
Figure 579485DEST_PATH_IMAGE029
Figure 86690DEST_PATH_IMAGE026
的语义相似度定义为这两个集合中任意一对句子的向量表示相似度的平均值,计算方法是:
Figure 909284DEST_PATH_IMAGE030
其中
Figure 83913DEST_PATH_IMAGE031
Figure 684659DEST_PATH_IMAGE032
分别表示集合
Figure 944739DEST_PATH_IMAGE033
Figure 305444DEST_PATH_IMAGE026
中的句子个数。
Figure 334580DEST_PATH_IMAGE034
Figure 371806DEST_PATH_IMAGE035
分别表示句子u和v的向量表示,通过预训练的语言模型计算得到。cos表示计算向量的余弦相似度。用相同的方法计算得到病历文本细分属性a和任意标准词
Figure 119182DEST_PATH_IMAGE021
的左边句子集合的语义相似度
Figure 301157DEST_PATH_IMAGE036
和右边句子集合的语义相似度
Figure 184799DEST_PATH_IMAGE037
。最终由上述两部分结果组合得到病历文本细分属性a和任意标准词
Figure 658506DEST_PATH_IMAGE021
的语义相似度
Figure 627599DEST_PATH_IMAGE038
为:
Figure 313795DEST_PATH_IMAGE039
其中,
Figure 68255DEST_PATH_IMAGE040
为人工设定的权重参数,本实施例中取
Figure 447284DEST_PATH_IMAGE041
Figure 903673DEST_PATH_IMAGE042
。在开源标准术语数据中遍历该细分属性类别下的任意标准词
Figure 659140DEST_PATH_IMAGE021
,选取语义相似度最高的标准词
Figure 268107DEST_PATH_IMAGE043
,即为病历文本细分属性a的标准化映射结果,完成标准化映射关系的构建。
步骤S22:通过算法拆分得到的次要细分属性,若在当前病历文本中存在可定义描述类型的父节点,且所拆分得到的主要细分属性未包含类型信息,则对主要细分属性进行信息补充,校正为信息对应的细颗粒度子节点,完成标准化映射关系的校正;
例如数据:咳黄脓痰,基于算法拆分得到的结果为,评价对象:痰,一般描述#1:黄,一般描述#2:脓,由于细分属性“黄”和“脓”分别在细分属性“颜色”和“炎症形态”的节点下,则须将评价对象“痰”修正为“痰液性状”和“痰液颜色”,或使用上述术语的同一父节点“痰液外观”作为评价对象。
步骤S23:若单个术语类别包含多个类型的次要细分属性,导致修正后的主要细分属性存在多个,则选择存在最多的主要细分属性在病历文本中的父节点作为最后的主要细分属性;
步骤S24:当算法拆分得到的结果为各维度信息存在缺失,数据来源本身存在层级结构,则通过所述术语类别的父节点拆分结果进行信息补全,完成术语关系网络的搭建。
例如原数据“经活体外血管治疗”,术语拆分后无法得到主体词,则拆分其父节点“药物的静脉旁路移植[引导]加压疗法”得到的信息进行补全,操作方法为“移植”。若数据来源无层级结构,主体词用该类别下的最高节点代替,即“操作方法”。开源标准术语数据通常已存在父子层级结构信息,因此只需要对其进行属性关系网络的完善。对于得到的细分属性非常完整的医学术语,只需要将该术语与细分属性词,通过定义的关系类型进行关联,若细分属性完整度存缺,则需要按上述逻辑进行补全后,再进行关联,即可形成术语关系网络。
步骤S3:通过术语库自扩增模块对不同的术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库;
所述步骤S3具体为通过语义相似度判断标准化映射的有效性,若标准化映射有效,则直接作为映射结果;若标准化映射无效,则重新计算从所述病历文本细分属性到所述标准词中其他可能的细分属性类别和语义标准词的标准化映射,作为算法推荐的、需要人工审核的映射结果,对不同的术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库。
若需处理的病历文本是平铺的格式,即本身不包含层级关系,则通过获取的细分属性信息,进行层级结构判断,先关联父子关系,再关联属性关系。
算法基于HIS,EMR系统的数据存储规则,定位不同分类下的术语所对应的筛选来源。例如,症状,疾病类术语从电子病历中的的诊断,主诉,既往史,辅助检查来源获得,操作类术语可从检验检查,影像学检查,手术等来源获得,药物名称则可从医嘱,门诊处方等来源获得。从医院获取大量病历文本数据,无法成功完成映射的信息,同样基于拆分得到的细分属性词名称,术语类别等,形成算法推荐的、待存储及校正的队列。对于从病历文本中拆分得到的病历文本细分属性a,使用上述方法将其映射到标准术语体系中的标准词
Figure 83616DEST_PATH_IMAGE044
,若它们的语义相似度满足条件
Figure 27301DEST_PATH_IMAGE045
,则认为本次标准化映射是有效的,可以直接将本次映射结果存储到标准术语体系,其中c是人工设定的阈值,本实施例中取c=0.9。若不满足上述条件,则认为病历文本细分属性a到标准词
Figure 320879DEST_PATH_IMAGE044
的标准化映射无效,需要重新计算从病历文本细分属性a到开源标准术语数据中其他可能的细分属性类别和标准词的标准化映射,作为算法推荐的、需要人工审核的映射结果;
步骤S31:通过语义相似度判断标准化映射的有效性,若标准化映射无效,则计算病历文本拆分得到的病历文本细分属性以及语义标准词之间的距离;
设开源标准术语数据中所有标准词的集合为A,病历文本细分属性类别C下所有标准词集合为AC,对于从病历文本拆分得到的病历文本细分属性a,以及标准术语体系中的标准词
Figure 784353DEST_PATH_IMAGE046
,基于它们的向量表示计算它们之间的距离为
Figure 770763DEST_PATH_IMAGE047
,其中
Figure 201745DEST_PATH_IMAGE048
表示计算向量的模。
步骤S32:将语义标准词按照距离降序排列,取前K个标准词组成与细分属性距离最近的标准词集合;
将所有标准词
Figure 299014DEST_PATH_IMAGE049
按照
Figure 616994DEST_PATH_IMAGE050
降序排列,取前K个标准词组成与细分属性a距离最近的标准词集合
Figure 774305DEST_PATH_IMAGE051
,本实施例中取K=1000。
步骤S33:计算细分属性类别下的语义标准词的推荐分数,将所有细分属性类别按照推荐分数降序排列,取前k1个细分属性类别组成算法推荐的从细分属性到标准术语体系的细分属性类别映射的算法推荐队列:
标准术语体系中每个细分属性类别C对细分属性a的推荐分数
Figure 692583DEST_PATH_IMAGE052
定义为细分属性类别C下的标准词包含在集合
Figure 327964DEST_PATH_IMAGE051
中的数量,计算公式为:
Figure 766029DEST_PATH_IMAGE053
其中,
Figure 828663DEST_PATH_IMAGE054
。将所有细分属性类别C按照
Figure 234237DEST_PATH_IMAGE052
降序排列,取前k1个细分属性类别组成算法推荐的从细分属性a到标准术语体系的细分属性类别映射的算法推荐队列:
Figure 673308DEST_PATH_IMAGE055
,本实施例中取k1=5。
步骤S34:将所有标准词按照语义相似度降序排列,取前k2个标准词组成细分属性到细分属性类别下的标准词映射的算法推荐队列;
对于细分属性类别
Figure 965881DEST_PATH_IMAGE056
,使用上述方法计算标准术语体系中细分属性类别
Figure 464995DEST_PATH_IMAGE057
下的任意标准词
Figure 92285DEST_PATH_IMAGE021
与细分属性a的语义相似度
Figure 69469DEST_PATH_IMAGE058
,将所有标准词
Figure 482127DEST_PATH_IMAGE059
按照
Figure 152142DEST_PATH_IMAGE058
降序排列,取前k2 个标准词组成细分属性a到细分属性类别
Figure 266729DEST_PATH_IMAGE057
下的标准词映射的算法推荐队列:
Figure 47603DEST_PATH_IMAGE060
,本实施例中取 k2=3。
步骤S35:将所有的算法推荐队列组合,完成术语关系网络的扩展,得到完整的术语库。
将所有
Figure 308908DEST_PATH_IMAGE061
组合在一起作为输出,就形成细分属性a到标准术语体系标准化映射的算法推荐的、待人工审核及存储的推荐队列:
Figure 149825DEST_PATH_IMAGE062
例如基于算法拆分临床数据“行超声监护宫腔镜手术”得到操作方法“超声监护”,“宫腔镜”可分别标准化为“超声引导”,“镜检”,器械“宫腔镜”可直接映射得到标准概念“宫腔镜”。当该临床术语与标准术语库“超声引导宫腔镜检查”的关系网络图一致,则可进行直接映射,无需进行术语新增。如基于算法拆分临床数据“双下肢红肿”得到发生部位“双下肢”,相关形态学“红肿”,而“红肿”在标准术语库中暂无可直接映射的标准概念。算法基于语义形成推荐队列:
表1拆分组合推荐
Figure 751708DEST_PATH_IMAGE063
表2标准概念映射推荐
Figure 336273DEST_PATH_IMAGE064
术语管理员基于算法推荐结果进行拆分组合及标准映射选择,将术语“双下肢红肿”拆分为“发生部位”+“相关形态学”,将术语“红肿”和标准概念进行正确关联。
同一术语类别下的术语,对于细分属性有重合的术语,可基于既定的聚合逻辑,标准概念命名规则,进行概念的新增,以及相应的信息关联,部分逻辑规则示例如下表3。
表3逻辑规则示例
Figure 457944DEST_PATH_IMAGE065
步骤S4:利用可视化管理模块对所述术语库进行可视化管理,所述可视化管理包括医学标准术语查询单元、术语编辑单元、术语审核单元和术语映射单元。
所述步骤S4具体包括:用户基于不同的筛选条件,通过医学标准术语查询单元筛选对应的术语;用户通过术语编辑单元进行术语实体编辑,包括:标准术语的新增、删除和/或修改,标准术语同义词的新增和/或删除,标准术语的属性信息修改;术语审核人员通过术语审核单元进行术语审核结果判定;用户通过术语映射单元对不同来源的医学数据进行标准化映射,对于无法映射的数据,构建推荐队列,保证术语管理人员进行术语的一键映射和推荐队列的形成。
该模块产出医学术语标准化管理平台软件。模块分为:医学标准术语查询,术语编辑,术语审核,术语映射四个部分。
术语查询部分,提供用户预览数据,进行标准术语的可视化查询:用户可基于不同维度的筛选条件,筛选出对应的术语,同时提供用户登陆界面入口和术语管理界面入口。展示标准术语的多维度信息,包括但不仅限于:该标准术语的顶级类别,同义词,父节点术语,子节点术语,属性信息,同时提供进入相关术语详情界面的入口。
术语编辑部分,提供用户通过可视化界面进行术语实体编辑,其中包括标准术语的新增,删除,修改,以及标准术语同义词的新增和删除,标准术语的属性信息修改。
术语审核部分供术语审核人员进行第二方审核,以保证术语的更新质量。同时可在该页面预览当前待审核的术语。审核详情页面展示术语的具体更新内容,该页面同时提供审核人员进行术语审核结果判定。
术语映射部分提供用户对不同来源的医学数据进行标准化映射,将4.3中的部分过程进行可视化,对于无法映射的数据,构建推荐队列,保证术语管理人员在该平台可以进行术语的一键映射和推荐队列的形成,作为管理人员迭代术语库的参考数据,提高术语库更新扩展的效率和性能。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于通用模型的医学标准术语管理系统,其特征在于,包括:
术语信息处理模块,用于对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,得到术语类别以及术语类别对应的细分属性名称,并通过构建的序列标注模型对病历文本进行拆分得到病历文本细分属性名称对应的细分属性内容,每种所述术语类别都包含一种主要细分属性名称和多种次要细分属性名称;
术语关系网络构建模块,用于在所述细分属性内容中寻找语义相似度最大的语义标准词建立标准化映射关系,并对所述标准化映射关系进行校正及补充,完成术语关系网络的搭建;
术语库自扩增模块,用于对不同的所述术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库;
可视化管理模块,用于对所述术语库进行可视化管理。
2.如权利要求1所述的一种基于通用模型的医学标准术语管理系统,其特征在于,所述可视化管理模块包括:
医学标准术语查询单元,用于提供用户预览数据,进行标准术语的可视化查询,基于不同维度的筛选条件,筛选出对应的术语,同时提供用户登陆界面入口和术语管理界面入口,展示包含以下维度的标准术语信息,包括:标准术语的顶级类别、同义词、父节点术语、子节点术语和/或属性信息,同时提供进入相关术语详情界面的入口;
术语编辑单元,用于提供用户通过可视化界面进行术语实体编辑,包括:标准术语的新增、删除和/或修改,标准术语同义词的新增和/或删除,标准术语的属性信息修改;
术语审核单元,用于提供术语审核人员进行第二方审核,提供审核人员进行术语审核结果判定;
术语映射单元,用于提供用户对不同来源的医学数据进行标准化映射,对于无法映射的数据,构建推荐队列,保证术语管理人员进行术语的一键映射和推荐队列的形成。
3.一种基于通用模型的医学标准术语管理方法,其特征在于,包括以下步骤:
步骤S1:通过术语信息处理模块对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,得到术语类别以及术语类别对应的细分属性名称,并通过构建的序列标注模型拆分得到所述细分属性名称对应的细分属性内容,所述细分属性内容即为标准词,每种所述术语类别都包含一种主要细分属性名称和多种次要细分属性名称;
步骤S2:通过所述序列标注模型对病历文本进行拆分得到病历文本细分属性,利用术语关系网络构建模块在所述标准词中寻找语义相似度最大的语义标准词建立标准化映射关系,并对所述标准化映射关系进行校正及补充,完成术语关系网络的搭建;
步骤S3:通过术语库自扩增模块对不同的术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库;
步骤S4:利用可视化管理模块对所述术语库进行可视化管理,所述可视化管理包括医学标准术语查询单元、术语编辑单元、术语审核单元和术语映射单元。
4.如权利要求3所述的一种基于通用模型的医学标准术语管理方法,其特征在于,所述步骤S1具体包括以下子步骤:
步骤S11:通过术语信息处理模块对开源标准术语数据进行梳理整合,对所述开源标准术语数据的定义及术语含义进行术语分类,保留原始术语的层级关系、关联关系和/或编码信息,并打上来源标签,得到术语类别以及术语类别对应的细分属性名称;
步骤S12:利用预训练语言模型构建序列标注模型,并通过所述序列标注模型将开源标准术语数据拆分得到细分属性内容。
5.如权利要求4所述的一种基于通用模型的医学标准术语管理方法,其特征在于,所述步骤S12具体包括以下子步骤:
步骤S121:利用预训练语言模型计算开源标准术语数据中每个字/词的向量表示;
步骤S122:所述向量表示通过自注意力机制计算每个字/词的输出状态;
步骤S123:所述输出状态经过全连接神经网络计算得到每个字/词属于每种细分属性类别的概率,完成序列标注模型的构建;
步骤S124:所述开源标准术语数据通过所述序列标注模型拆分得到细分属性内容,所述细分属性内容即为标准词,所述细分属性内容包含主要细分属性内容和次要细分属性内容。
6.如权利要求3所述的一种基于通用模型的医学标准术语管理方法,其特征在于,所述步骤S2具体包括以下子步骤:
步骤S21:通过所述序列标注模型对病历文本进行拆分得到病历文本细分属性,利用术语关系网络构建模块在所述标准词中寻找任意语义标准词,通过算法得到病历文本细分属性和所述任意语义标准词的语义相似度,选取语义相似度最高的标准词,建立标准化映射关系;
步骤S22:通过算法拆分得到的次要细分属性,若在当前病历文本中存在可定义描述类型的父节点,且所拆分得到的主要细分属性未包含类型信息,则对主要细分属性进行信息补充,校正为信息对应的细颗粒度子节点,完成标准化映射关系的校正;
步骤S23:若单个术语类别包含多个类型的次要细分属性,导致修正后的主要细分属性存在多个,则选择存在最多的主要细分属性在病历文本中的父节点作为最后的主要细分属性;
步骤S24:当算法拆分得到的结果为各维度信息存在缺失,数据来源本身存在层级结构,则通过所述术语类别的父节点拆分结果进行信息补全,完成术语关系网络的搭建。
7.如权利要求6所述的一种基于通用模型的医学标准术语管理方法,其特征在于,所述步骤S21具体包括以下子步骤:
步骤S211:在所述病历文本细分属性和所述标准词中获取包含所述病历文本细分属性和所述标准词的句子集合、位于所述病历文本细分属性和所述标准词左边的句子集合和位于所述病历文本细分属性和所述标准词右边的句子集合;
步骤S212:通过计算任意一对句子集合的平均值,并通过最终的平均值组合得到语义相似度,选取语义相似度最高的标准词,建立标准化映射关系。
8.如权利要求3所述的一种基于通用模型的医学标准术语管理方法,其特征在于,所述步骤S3具体为通过语义相似度判断标准化映射的有效性,若标准化映射有效,则直接作为映射结果;若标准化映射无效,则重新计算从所述病历文本细分属性到所述标准词中其他可能的细分属性类别和语义标准词的标准化映射,作为算法推荐的、需要人工审核的映射结果,对不同的术语类别进行自增推荐,完成术语关系网络的扩展,得到完整的术语库。
9.如权利要求3所述的一种基于通用模型的医学标准术语管理方法,其特征在于,所述步骤S3具体包括以下子步骤:
步骤S31:通过语义相似度判断标准化映射的有效性,若标准化映射无效,则计算病历文本拆分得到的病历文本细分属性以及语义标准词之间的距离;
步骤S32:将语义标准词按照距离降序排列,取前K个标准词组成与细分属性距离最近的标准词集合;
步骤S33:计算细分属性类别下的语义标准词的推荐分数,将所有细分属性类别按照推荐分数降序排列,取前k1个细分属性类别组成算法推荐的从细分属性到标准术语体系的细分属性类别映射的算法推荐队列:
步骤S34:将所有标准词按照语义相似度降序排列,取前k2个标准词组成细分属性到细分属性类别下的标准词映射的算法推荐队列;
步骤S35:将所有的算法推荐队列组合,完成术语关系网络的扩展,得到完整的术语库。
10.如权利要求3所述的一种基于通用模型的医学标准术语管理方法,其特征在于,所述步骤S4具体包括:用户基于不同的筛选条件,通过医学标准术语查询单元筛选对应的术语;用户通过术语编辑单元进行术语实体编辑,包括:标准术语的新增、删除和/或修改,标准术语同义词的新增和/或删除,标准术语的属性信息修改;术语审核人员通过术语审核单元进行术语审核结果判定;用户通过术语映射单元对不同来源的医学数据进行标准化映射,对于无法映射的数据,构建推荐队列,保证术语管理人员进行术语的一键映射和推荐队列的形成。
CN202210980851.1A 2022-08-16 2022-08-16 一种基于通用模型的医学标准术语管理系统及方法 Active CN115080751B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210980851.1A CN115080751B (zh) 2022-08-16 2022-08-16 一种基于通用模型的医学标准术语管理系统及方法
JP2023093632A JP2024027087A (ja) 2022-08-16 2023-06-07 汎用モデルに基づく標準的な医学用語管理システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210980851.1A CN115080751B (zh) 2022-08-16 2022-08-16 一种基于通用模型的医学标准术语管理系统及方法

Publications (2)

Publication Number Publication Date
CN115080751A true CN115080751A (zh) 2022-09-20
CN115080751B CN115080751B (zh) 2022-11-11

Family

ID=83244777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210980851.1A Active CN115080751B (zh) 2022-08-16 2022-08-16 一种基于通用模型的医学标准术语管理系统及方法

Country Status (2)

Country Link
JP (1) JP2024027087A (zh)
CN (1) CN115080751B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544278A (zh) * 2022-12-05 2022-12-30 中国医学科学院医学信息研究所 一种医学量表语义关联网络构建方法及系统
CN115994227A (zh) * 2023-03-23 2023-04-21 北京左医科技有限公司 医学术语标准化模型的构建方法、装置、终端设备及介质
CN116166698A (zh) * 2023-01-12 2023-05-26 之江实验室 一种基于通用医疗术语的快速构建队列方法及系统

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117973393B (zh) * 2024-03-28 2024-06-07 苏州系统医学研究所 面向医学文本中关键医学信息的精准语义比对方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069124A (zh) * 2015-08-13 2015-11-18 易保互联医疗信息科技(北京)有限公司 一种自动化的国际疾病分类编码方法及系统
CN105574103A (zh) * 2015-12-11 2016-05-11 浙江大学 基于分词编码自动构建医学术语映射关系的方法以及系统
CN109446340A (zh) * 2018-10-17 2019-03-08 长沙瀚云信息科技有限公司 一种医学标准术语本体管理系统及方法、设备和存储介质
WO2020233256A1 (zh) * 2019-07-12 2020-11-26 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
CN113436698A (zh) * 2021-08-27 2021-09-24 之江实验室 融合自监督和主动学习的医学术语自动标准化系统及方法
CN113657109A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于模型的临床术语的标准化方法、装置和计算机设备
US20210375404A1 (en) * 2019-06-05 2021-12-02 Boe Technology Group Co., Ltd. Medical question-answering method, medical question-answering system, electronic device, and computer readable storage medium
CN114330309A (zh) * 2021-12-31 2022-04-12 腾讯科技(深圳)有限公司 术语处理方法、装置、设备及存储介质、程序产品
CN114692620A (zh) * 2020-12-28 2022-07-01 阿里巴巴集团控股有限公司 文本处理方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069124A (zh) * 2015-08-13 2015-11-18 易保互联医疗信息科技(北京)有限公司 一种自动化的国际疾病分类编码方法及系统
CN105574103A (zh) * 2015-12-11 2016-05-11 浙江大学 基于分词编码自动构建医学术语映射关系的方法以及系统
CN109446340A (zh) * 2018-10-17 2019-03-08 长沙瀚云信息科技有限公司 一种医学标准术语本体管理系统及方法、设备和存储介质
US20210375404A1 (en) * 2019-06-05 2021-12-02 Boe Technology Group Co., Ltd. Medical question-answering method, medical question-answering system, electronic device, and computer readable storage medium
WO2020233256A1 (zh) * 2019-07-12 2020-11-26 之江实验室 一种基于通用医疗术语库的多中心医疗术语标准化系统
CN114692620A (zh) * 2020-12-28 2022-07-01 阿里巴巴集团控股有限公司 文本处理方法及装置
CN113436698A (zh) * 2021-08-27 2021-09-24 之江实验室 融合自监督和主动学习的医学术语自动标准化系统及方法
CN113657109A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 基于模型的临床术语的标准化方法、装置和计算机设备
CN114330309A (zh) * 2021-12-31 2022-04-12 腾讯科技(深圳)有限公司 术语处理方法、装置、设备及存储介质、程序产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李扬等: "医学术语数据库与标准化术语名称建立思路", 《江苏卫生事业管理》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115544278A (zh) * 2022-12-05 2022-12-30 中国医学科学院医学信息研究所 一种医学量表语义关联网络构建方法及系统
CN115544278B (zh) * 2022-12-05 2023-03-28 中国医学科学院医学信息研究所 一种医学量表语义关联网络构建方法及系统
CN116166698A (zh) * 2023-01-12 2023-05-26 之江实验室 一种基于通用医疗术语的快速构建队列方法及系统
CN116166698B (zh) * 2023-01-12 2023-09-01 之江实验室 一种基于通用医疗术语的快速构建队列方法及系统
CN115994227A (zh) * 2023-03-23 2023-04-21 北京左医科技有限公司 医学术语标准化模型的构建方法、装置、终端设备及介质

Also Published As

Publication number Publication date
CN115080751B (zh) 2022-11-11
JP2024027087A (ja) 2024-02-29

Similar Documents

Publication Publication Date Title
CN115080751B (zh) 一种基于通用模型的医学标准术语管理系统及方法
CN107731269B (zh) 基于原始诊断数据和病历文件数据的疾病编码方法及系统
Zhang et al. Exploiting temporal relationships in video moment localization with natural language
Navigli et al. Ontology learning and its application to automated terminology translation
US8155951B2 (en) Process for constructing a semantic knowledge base using a document corpus
RU2686000C1 (ru) Извлечение информационных объектов с использованием комбинации классификаторов, анализирующих локальные и нелокальные признаки
CN106663101A (zh) 本体映射方法和设备
Liu et al. A new method for knowledge and information management domain ontology graph model
CN110097278B (zh) 一种科技资源智能共享融合训练系统和应用系统
US20230004941A1 (en) Job description generation based on machine learning
Zhang et al. Relational graph learning for grounded video description generation
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
Lacoste et al. Medical-image retrieval based on knowledge-assisted text and image indexing
US11816770B2 (en) System for ontological graph creation via a user interface
Spanier et al. A new method for the automatic retrieval of medical cases based on the RadLex ontology
Asada et al. Representing a heterogeneous pharmaceutical knowledge-graph with textual information
Huang et al. Knowledge sharing and reuse in digital forensics
Zeng et al. Mining revision history to assess trustworthiness of article fragments
US11940964B2 (en) System for annotating input data using graphs via a user interface
CN109190009A (zh) 一种网络社区话题整合方法及系统
Zhao et al. Construction and Application of Radiologic Interpretation Knowledge Graph Based on Three-layer Structure Model
Tolksdorf et al. Organizing knowledge in a semantic web for pathology
Wang et al. Personal summarization from profile networks
Dubey et al. Smart Patient Records using NLP and Blockchain
Melzer Semantic Assets: Latent Structures for Knowledge Management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant