CN108763197B - 一种医疗术语库的形成方法和装置 - Google Patents

一种医疗术语库的形成方法和装置 Download PDF

Info

Publication number
CN108763197B
CN108763197B CN201810444927.2A CN201810444927A CN108763197B CN 108763197 B CN108763197 B CN 108763197B CN 201810444927 A CN201810444927 A CN 201810444927A CN 108763197 B CN108763197 B CN 108763197B
Authority
CN
China
Prior art keywords
language
medical
concepts
concept
term library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810444927.2A
Other languages
English (en)
Other versions
CN108763197A (zh
Inventor
梁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Shenrui Bolian Technology Co., Ltd
Beijing Shenrui Bolian Technology Co Ltd
Original Assignee
Shanghai Yizhi Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yizhi Medical Technology Co ltd filed Critical Shanghai Yizhi Medical Technology Co ltd
Priority to CN201810444927.2A priority Critical patent/CN108763197B/zh
Publication of CN108763197A publication Critical patent/CN108763197A/zh
Application granted granted Critical
Publication of CN108763197B publication Critical patent/CN108763197B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例涉及医疗术语库领域,尤其涉及一种医疗术语库的形成方法和装置,用以解决对第二语言的医疗术语库翻译规模大的问题。本发明实施例中,从第一语言的医疗记录中获取第一语言的医学短语;针对同一个医学短语,从多个第一语言的医学短语中筛选出数量大于设定阈值的,作为高频的医学短语;确定高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从第二语言的医学术语库中获取第二语言的概念对应的第二语言的拓扑信息;将第二语言的概念翻译为第一语言的概念、将第二语言的拓扑信息翻译为第一语言的拓扑信息;根据多个第一语言的概念及多个第一语言的拓扑信息,构建第一语言的医学术语库。减小翻译第二语言的医学短语的数量。

Description

一种医疗术语库的形成方法和装置
技术领域
本发明实施例涉及医疗术语库领域,尤其涉及一种医疗术语库的形成方法和装置。
背景技术
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,相关研究的目的是实现人与计算机之间用自然语言进行有效通信。知识图谱是自然语言语义理解的基础,因此,知识图谱便应用而生。在医疗领域,存在大量的自由文本数据(例如电子病历、纸质病历、医学书籍),计算机是非常难处理和理解的。需要将自由文本数据转化为计算机可以处理的数据,目前,是由专业的医生经过长时间搭建了一个专业的医疗术语库(Systematized Nomenclature of Medicine-Cl inical Terms,简称SNOMED CT),以实现将医疗领域中的自由文本转化为计算机可以处理的数据。
由于医疗术语库SNOMED是英文的,将SNOMED本地化对我国医疗信息的处理有着重大意义。现有技术中,将SNOMED本地化采用的方式是:利用软件翻译或者由人工翻译所述SNOMED。利用软件翻译的质量较差;利用人工翻译成本较大,因此亟需相应解决方案。
发明内容
本发明实施例提供一种医疗术语库的形成方法和装置,用以解决现有技术中对第二语言医疗术语库SNOMED的翻译规模大的问题。
本发明实施例提供一种医疗术语库的形成方法,包括:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。
由于本发明实施例中,从所述多个第一语言的医学短语中筛选出高频的医学短语,高频的医学短语相比于获取到的全部第一语言的医学短语,数量较少;且高频的医学短语是通过医疗记录来获得的,比较符合临床实际使用情况,这样可以保证临床使用医学短语的覆盖率。之后将数量较少的高频的医学短语映射到第二语言的医学术语库中对应的第二语言的概念,可能会是多个高频的医学短语对应一个概念,因此,将第二语言的概念翻译为第一语言的概念的数量进一步减小,进而有助于进一步减小翻译的成本。将获取到的第二语言的概念对应的第二语言的拓扑信息翻译为第一语言的拓扑信息,根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。相比于现有技术将第二语言的医疗术语库全部翻译为第一语言的医疗术语库,本发明实施例可以在尽可能保证临床使用的医学短语的覆盖率的情况下,减小翻译第二语言的医学短语的数量,可降低构建第一语言的医学术语库的成本。
可选地,所述第二语言的拓扑信息包括所述第二语言的概念的描述;所述将所述第二语言的拓扑信息翻译为第一语言的第一拓扑信息,包括:将所述第二语言的概念的描述翻译为第一语言的概念的描述;所述根据多个第一语言的概念以及多个第一语言的第一拓扑信息,构建第一语言的医学术语库,包括:根据所述第二语言的医学术语库中概念与描述之间的描述关系、概念与概念之间的关联关系,确定所述第一语言的概念与所述第一语言的概念的描述之间的描述关系,及所述第一语言的概念之间的关联关系;根据多个所述第一语言的概念、多个所述第一语言的概念的描述、所述第一语言的概念与所述第一语言的概念的描述之间的描述关系、以及所述第一语言的概念之间的关联关系,构建所述第一语言的医疗术语库。
为了提高第一语言医疗术语库医学短语的质量,所述根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库之前,还包括:针对同一个概念,若确定存在多个不同优先级的第一语言的概念,则保留优先级最高的第一语言的概念,所述不同优先级对应不同的翻译途径;针对同一个拓扑信息,若确定存在多个不同优先级的第一语言的拓扑信息,则保留优先级最高的第一语言的拓扑信息。
可选地,所述构建所述第一语言的医学术语库之后,还包括:将所述第一语言的医学术语库以图形数据库的方式进行存储。图形数据库提供了对第一语言的医疗术语库进行遍历的能力和丰富的检索接口,因此将第一语言的医疗术语库存储于图形数据库中可以提高查询、遍历第一语言的医疗术语库的速度和效率。
本发明实施例提供一种医疗术语库的形成装置,包括:获取单元,用于:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;处理单元,用于:针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;构建单元,用于:根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。
可选地,所述第二语言的拓扑信息包括所述第二语言的概念的描述;所述处理单元,用于:将所述第二语言的概念的描述翻译为第一语言的概念的描述;根据所述第二语言的医学术语库中概念与描述之间的描述关系、概念与概念之间的关联关系,确定所述第一语言的概念与所述第一语言的概念的描述之间的描述关系,及所述第一语言的概念之间的关联关系;所述构建单元,用于:根据多个所述第一语言的概念、多个所述第一语言的概念的描述、所述第一语言的概念与所述第一语言的概念的描述之间的描述关系、以及所述第一语言的概念之间的关联关系,构建所述第一语言的医疗术语库。
可选地,所述处理单元,还用于:针对同一个概念,若确定存在多个不同优先级的第一语言的概念,则保留优先级最高的第一语言的概念,所述不同优先级对应不同的翻译途径;针对同一个拓扑信息,若确定存在多个不同优先级的第一语言的拓扑信息,则保留优先级最高的第一语言的拓扑信息。
可选地,还包括存储单元,用于:将所述第一语言的医学术语库以图形数据库的方式进行存储。
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行所述的方法。
本发明实施例提供一种计算机设备,包括:存储器,用于存储程序指令;处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行所述的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种医疗术语库的形成方法流程示意图;
图2为本发明实施例提供的一种医疗术语库的形成装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例中,医疗术语库SNOMED CT的形式为知识图谱。SNOMED CT的结构包括概念、概念的各描述、概念与概念之间的关系、以及概念与各描述之间关系。在SNOMED CT中,可通过描述关系将概念与概念的描述联系在一起,可通过关联关系将概念与概念联系在一起。概念与概念之间的关联关系包括同一层级结构之间的关系、以及不同层级结构之间关系;其中,同一层级结构之间的关系包括包含关系(IS-A),不同层级结构之间的关系包括属性关系。医疗术语库SNOMED CT提供了一套全面统一的医学术语系统,涵盖大多数方面的临床信息,如疾病、所见、操作、微生物、药物等,可以协调一致地在不同的学科、专业和照护地点之间实现对于临床数据的标引、存储、检索和聚合,便于计算机处理。医疗术语库SNOMED CT有助于减少临床照护和科学研究工作中数据采集、编码及使用方式的变异,对于临床医学信息的标准化和电子化起着十分重要的作用。
基于上述医疗术语库SNOMED CT,图1示例性示出了本发明实施例提供的一种医疗术语库的形成方法流程示意图,如图1所示,该医疗术语库的形成方法包括以下步骤:
步骤101,从至少一个第一语言的医疗记录中获取多个第一语言的医学短语。
可选地,第一语言可以是中文、日文、韩文等;第一语言的医学短语是医学领域里的专业用语,是临床信息系统表达医学信息的必要成分。
步骤102,针对同一个医学短语,从多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语。
可选地,阈值可根据获取到的总的医学短语数量来设定,比如可以总数量排在前N的;N通常为几百到几千的数。也可以根据后续采用的翻译途径来确定,比如翻译机器翻译时需要的带宽等信息。
步骤103,针对每个高频的医学短语,执行:确定高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从第二语言的医学术语库中获取第二语言的概念对应的第二语言的拓扑信息;将第二语言的概念翻译为第一语言的概念、并将第二语言的拓扑信息翻译为第一语言的拓扑信息。
可选地,第二语言的医学术语库可以是上述医学术语库SNOMED CT。
步骤104,根据多个第一语言的概念以及多个第一语言的拓扑信息,构建第一语言的医学术语库。
由于本发明实施例中,从所述多个第一语言的医学短语中筛选出高频的医学短语,高频的医学短语相比于获取到的全部第一语言的医学短语,数量较少;且高频的医学短语的使用率较高,这样可以保证临床使用医学短语的覆盖率。之后将数量较少的高频的医学短语映射到第二语言的医学术语库中对应的第二语言的概念,可能会是多个高频的医学短语对应一个概念,因此,将第二语言的概念翻译为第一语言的概念的数量进一步减小,进而有助于进一步减小翻译的成本。将获取到的第二语言的概念对应的第二语言的拓扑信息翻译为第一语言的拓扑信息,根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。相比于现有技术将第二语言的医疗术语库全部翻译为第一语言的医疗术语库,本发明实施例可以在尽可能保证临床使用的医学短语的覆盖率的情况下,减小翻译第二语言的医学短语的数量,可降低构建第一语言的医学术语库的成本。
在步骤101中,第一语言的医疗记录可以是医院的病历记录。本发明实施例提供了获取多个第一语言的医学短语的两种可选实施方式。第一种实施方式,将至少一个第一语言的医疗记录输入分词模型,通过分词模型对至少一个第一语言的医疗记录进行分词,输出多个第一语言的医学短语。第二种实施方式,医生在使用医疗记录的过程中,对医疗记录进行标注,将标注的出来的医学短语收集,得到多个第一语言的医学短语。
在上述步骤103中,第二语言的拓扑信息至少包括以下第一种可能的实施方式和第二种可能的实施方式中的情况。
第一种可能的实施方式,所述第二语言的拓扑信息包括所述第二语言的概念的描述;所述将所述第二语言的拓扑信息翻译为第一语言的第一拓扑信息,包括:将所述第二语言的概念的描述翻译为第一语言的概念的描述;所述根据多个第一语言的概念以及多个第一语言的第一拓扑信息,构建第一语言的医学术语库,包括:查询所述第二语言的医学术语库中概念与概念之间的关联关系;根据所述第二语言的医学术语库中概念与描述之间的描述关系、概念与概念之间的关联关系,确定所述第一语言的概念与所述第一语言的概念的描述之间的描述关系,及所述第一语言的概念之间的关联关系;根据多个所述第一语言的概念、多个所述第一语言的概念的描述、所述第一语言的概念与所述第一语言的概念的描述之间的描述关系、以及所述第一语言的概念之间的关联关系,构建所述第一语言的医疗术语库。
第二种可能的实施方式,所述第二语言的拓扑信息包括所述第二语言的概念的描述、与所述第二语言的概念之间存在关联关系的第二语言的概念;由此可以直接确定出概念与概念的描述之间的描述关系概念与概念之间的关联关系。所述将所述第二语言的拓扑信息翻译为第一语言的第一拓扑信息,包括:将所述第二语言的概念的描述翻译为第一语言的概念的描述,与所述第二语言的概念之间存在关联关系的第二语言的概念也翻译为第一语言的概念。由于第二语言的拓扑信息中包括概念、概念的描述以及与概念存在关联关系的概念,因此,在将第二语言的概念、概念的描述以及与概念存在关联关系的概念均翻译为对应的第一语言的概念、概念的描述以及与概念存在关联关系的概念后,可直接根据多个所述第一语言的概念、多个所述第一语言的概念的描述、与所述第一语言的概念存在关联关系的概念、描述关系和、以及关联关系构建所述第一语言的医疗术语库,不需要再重新查找第二语言的医疗术语库中这些概念与概念的描述,概念与概念之间的关联关系。
在上述第一种可能的实施方式和第二种可能的实施方式中,关联关系包括属性关系和包含关系。一个概念可以存在多个有属性关系的概念,也可以存在多个有包含关系的概念。而且,具有至少一个共同属性的概念可以划分为一个组。
在上述步骤104之前,所述根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库之前,还包括:针对同一个概念,若确定存在多个不同优先级的第一语言的概念,则保留优先级最高的第一语言的概念,所述不同优先级对应不同的翻译途径;针对同一个拓扑信息,若确定存在多个不同优先级的第一语言的拓扑信息,则保留优先级最高的第一语言的拓扑信息。
本发明实施例中,对第二语言的医疗术语库中的概念、概念的描述和概念的拓扑信息的翻译可以有多种翻译途径,比如机器翻译、外包翻译、专业的医生或者专业的机构翻译等。对于同一个内容,不同的翻译途径对应着不同的优先级,一种可选的实施方式为:专业的医生或者专业的机构翻译的优先级为高、外包翻译的优先级为中、机器翻译的优先级为低。
为了提高构建的第一语言的医学术语库的覆盖率,本发明实施例可以通过翻译的优先级自动将第一语言的医疗术语库中的翻译调整为最优的。一种具体的实施方式可为:通过机器翻译将所述第二语言的医学术语库中术语全部翻译,并根据第二语言的医学术语库构建出第一语言的医学术语库,可以保证第一语言的医学术语库中医学短语的覆盖率。之后再针对确定的每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念通过医生或者专业的机构翻译为第一语言的概念、并将所述第二语言的拓扑信通过医生或者专业的机构息翻译为第一语言的拓扑信息,再用确定出的第一语言的概念和第一语言的拓扑信息更新机器翻译出的对应的概念的概念的描述。如此,既可以减小翻译的规模和数量,同时通过高频词还可以确保临床医学的覆盖率,还可以提高将第二语言的医疗术语库翻译为第一语言医疗术语库的翻译质量。
另一种具体的实施方式可为:针对确定的每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念先通过机器翻译为第一语言的概念、并将所述第二语言的拓扑信通过机器翻译为第一语言的拓扑信,可以先确保临床医学的第一语言的医学短语的覆盖率,并将机器翻译的标注为低的优先级。之后通过医生或者专业的机构逐步将第二语言的概念翻译为第一语言的概念、并逐步将所述第二语言的拓扑信通过医生或者专业的机构息翻译为第一语言的拓扑信息,并将医生翻译的标注高的优先级,再用医生翻译后的高优先级的第一语言的概念和第一语言的拓扑信息更新机器翻译出的低优先级对应的信息。如此,既可以减小翻译的规模和数量,还可以不断提高第一语言医疗术语库的翻译质量。
可选地,本发明实施例中,通过不同的不同优先级可以持续更新第一语言的医疗术语库,不断提高第一语言的医疗术语库中翻译的准确度和质量。
本发明实施例提供了两种将第一语言的医疗术语存储的实施方式,即实施方式一和实施方式二。
实施方式一:将所述第一语言的医学术语库以图形数据库的方式进行存储。
一种可能的实施方式,图形数据库包括节点和边,存储的方式可为针对所述第一语言的医学术语库中的每个概念,将所述概念和所述概念的各描述分别作为图形数据库中的节点进行存储;在所述概念对应的节点与所述概念的各描述对应的节点之间通过所述图形数据库中的描述关系边连接并进行存储;所述描述关系边用于指示概念与描述之间的关系;将存在属性关系的第一语言的医学短语对应的节点之间通过所述图形数据库中的属性关系边连接并进行存储;将存在包含关系的第一语言的医学短语对应的节点之间通过所述图形数据库中的包含关系边连接并进行存储。可选地,图形数据库包括但不限于Neo4j、FlockDB或AllegroGrap。
由于第一语言的医疗术语库的形式是知识图谱,知识图谱是一个网络结构,而图形数据也是一个网络结构,因此,第一语言的医疗术语库和图形数据库之间的结构比较相近,将第一语言的医疗术语库存储在图形数据时,转换所需要的映射关系比较自然,实现起来也相对容易,而且也有助于降低后期医疗术语库维护的成本。
进一步,图形数据库可以提供丰富的检索接口、对第一语言的医疗术语库的进行遍历的能力、以及根据节点的索引值对医疗术语库中概念和概念的各描述进行快速检索的能力,因此,将第一语言的医疗术语库存储于图形数据库中,可以利用图形数据提供的功能操作医疗术语库。比如,图形数据库可以提供丰富的检索接口,可提高医疗术语库的检索速度;通过节点的索引值可以快速的查询到要找的节点,进而可实现快速对查询到的节点做删除或者修改。而且,图形数据库提供了对第一语言的医疗术语库进行遍历的能力,因此可以提高遍历第一语言的医疗术语库的速度和效率。
实施方式二:将所述第一语言的医学术语库以基于分布式文件存储的数据库MongoDB。
一种可能的实施方式中,MongoDB主要维护三张表:概念(concept)表,描述(description)表,关系(relationship)表。其中,MongoDB具有易部署、易使用,存储数据非常方便的效果。表1示例性示出了本发明实施例提供的一种概念表。如表1所示,概念表中的字段至少包括概念的唯一全称、概念码。表1中概念为咽喉痛,概念的唯一全称为咽喉痛,对应的概念码为162397003;表1中的另一个例子,概念为发热,概念的唯一全称为发热,对应的概念码为386661006。表2示例性示出了本发明实施例提供的一种描述表。如表2所示,描述表中的字段至少包括概念的概念码、概念的描述,表2以咽喉痛的为例说明,咽喉痛的概念码162397003,咽喉痛包括喉咙痛、嗓子痛、咽喉不适。表3示例性示出了本发明实施例提供的一种关系表。如表3所示,关系表中的字段至少包括概念码、概念之间的包含关系和属性关系,表3以概念为关节炎、关节系统疾病、骨科疾病和关节为例说明,关节炎、关节系统疾病和骨科疾病形成的包含关系,关节系统疾病、骨科疾病均为关节炎的父概念的唯一全称,手关节炎和肩关节炎均为关节炎的子概念的唯一全称。关节炎和关节形成属性关系。
表1概念表
概念的唯一全称 概念码
咽喉痛 162397003
发热 386661006
表2描述表
Figure BDA0001656943770000111
表3关系表
Figure BDA0001656943770000112
从上述内容可以看出:本发明实施例中,由于本发明实施例中,从所述多个第一语言的医学短语中筛选出高频的医学短语,高频的医学短语相比于获取到的全部第一语言的医学短语,数量较少;且高频的医学短语的使用率较高,这样可以保证临床使用医学短语的覆盖率。之后将数量较少的高频的医学短语映射到第二语言的医学术语库中对应的第二语言的概念,可能会是多个高频的医学短语对应一个概念,因此,将第二语言的概念翻译为第一语言的概念的数量进一步减小,进而有助于进一步减小翻译的成本。将获取到的第二语言的概念对应的第二语言的拓扑信息翻译为第一语言的拓扑信息,根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。相比于现有技术将第二语言的医疗术语库全部翻译为第一语言的医疗术语库,本发明实施例可以在尽可能保证临床使用的医学短语的覆盖率的情况下,减小翻译第二语言的医学短语的数量,可降低构建第一语言的医学术语库的成本。
基于相同的技术构思,本发明实施例还提供一种医疗术语库的形成装置,该装置可执行上述方法实施例。图2为本发明实施例提供了一种医疗术语库的形成装置的结构示意图,如图2所示,该装置200包括获取单元201、处理单元202和构建单元203;可选地,还包括存储单元204。其中:
获取单元,用于:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;处理单元,用于:针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;构建单元,用于:根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。
可选地,所述第二语言的拓扑信息包括所述第二语言的概念的描述;所述处理单元,用于:将所述第二语言的概念的描述翻译为第一语言的概念的描述;根据所述第二语言的医学术语库中概念与描述之间的描述关系、概念与概念之间的关联关系,确定所述第一语言的概念与所述第一语言的概念的描述之间的描述关系,及所述第一语言的概念之间的关联关系;所述构建单元,用于:根据多个所述第一语言的概念、多个所述第一语言的概念的描述、所述第一语言的概念与所述第一语言的概念的描述之间的描述关系、以及所述第一语言的概念之间的关联关系,构建所述第一语言的医疗术语库。
可选地,所述处理单元,还用于:针对同一个概念,若确定存在多个不同优先级的第一语言的概念,则保留优先级最高的第一语言的概念,所述不同优先级对应不同的翻译途径;针对同一个拓扑信息,若确定存在多个不同优先级的第一语言的拓扑信息,则保留优先级最高的第一语言的拓扑信息。
可选地,还包括存储单元,用于:将所述第一语言的医学术语库以图形数据库的方式进行存储。
从上述内容可以看出:本发明实施例中,由于本发明实施例中,从所述多个第一语言的医学短语中筛选出高频的医学短语,高频的医学短语相比于获取到的全部第一语言的医学短语,数量较少;且高频的医学短语的使用率较高,这样可以保证临床使用医学短语的覆盖率。之后将数量较少的高频的医学短语映射到第二语言的医学术语库中对应的第二语言的概念,可能会是多个高频的医学短语对应一个概念,因此,将第二语言的概念翻译为第一语言的概念的数量进一步减小,进而有助于进一步减小翻译的成本。将获取到的第二语言的概念对应的第二语言的拓扑信息翻译为第一语言的拓扑信息,根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。相比于现有技术将第二语言的医疗术语库全部翻译为第一语言的医疗术语库,本发明实施例可以在尽可能保证临床使用的医学短语的覆盖率的情况下,减小翻译第二语言的医学短语的数量,可降低构建第一语言的医学术语库的成本。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现、当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述指令可以存储在计算机存储介质中,或者从一个计算机存储介质向另一个计算机存储介质传输,例如,所述指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带、磁光盘(MO)等)、光介质(例如,CD、DVD、BD、HVD等)、或者半导体介质(例如ROM、EPROM、EEPROM、非易失性存储器(NAND FLASH)、固态硬盘(Solid State Disk,SSD))等。本领域内的技术人员应明白,本申请实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种医疗术语库的形成方法,其特征在于,包括:
从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;
针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;
针对每个高频的医学短语,执行:
确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;
从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;
将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;
根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。
2.如权利要求1所述的方法,其特征在于,所述第二语言的拓扑信息包括所述第二语言的概念的描述;
所述将所述第二语言的拓扑信息翻译为第一语言的第一拓扑信息,包括:
将所述第二语言的概念的描述翻译为第一语言的概念的描述;
所述根据多个第一语言的概念以及多个第一语言的第一拓扑信息,构建第一语言的医学术语库,包括:
根据所述第二语言的医学术语库中概念与描述之间的描述关系、概念与概念之间的关联关系,确定所述第一语言的概念与所述第一语言的概念的描述之间的描述关系,及所述第一语言的概念之间的关联关系;
根据多个所述第一语言的概念、多个所述第一语言的概念的描述、所述第一语言的概念与所述第一语言的概念的描述之间的描述关系、以及所述第一语言的概念之间的关联关系,构建所述第一语言的医疗术语库。
3.如权利要求1所述的方法,其特征在于,所述根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库之前,还包括:
针对同一个概念,若确定存在多个不同优先级的第一语言的概念,则保留优先级最高的第一语言的概念,所述不同优先级对应不同的翻译途径;
针对同一个拓扑信息,若确定存在多个不同优先级的第一语言的拓扑信息,则保留优先级最高的第一语言的拓扑信息。
4.如权利要求1至3任一项所述的方法,其特征在于,所述构建第一语言的医学术语库之后,还包括:
将所述第一语言的医学术语库以图形数据库的方式进行存储。
5.一种医疗术语库的形成装置,其特征在于,包括:
获取单元,用于:从至少一个第一语言的医疗记录中获取多个第一语言的医学短语;
处理单元,用于:针对同一个医学短语,从所述多个第一语言的医学短语中筛选出数量大于设定阈值的第一语言的医学短语,作为高频的医学短语;
针对每个高频的医学短语,执行:确定所述高频的医学短语在第二语言的医学术语库中对应的第二语言的概念;从所述第二语言的医学术语库中获取所述第二语言的概念对应的第二语言的拓扑信息;将所述第二语言的概念翻译为第一语言的概念、并将所述第二语言的拓扑信息翻译为第一语言的拓扑信息;
构建单元,用于:根据多个所述第一语言的概念以及多个所述第一语言的拓扑信息,构建第一语言的医学术语库。
6.如权利要求5所述的装置,其特征在于,所述第二语言的拓扑信息包括所述第二语言的概念的描述;
所述处理单元,用于:
将所述第二语言的概念的描述翻译为第一语言的概念的描述;根据所述第二语言的医学术语库中概念与描述之间的描述关系、概念与概念之间的关联关系,确定所述第一语言的概念与所述第一语言的概念的描述之间的描述关系,及所述第一语言的概念之间的关联关系;
所述构建单元,用于:
根据多个所述第一语言的概念、多个所述第一语言的概念的描述、所述第一语言的概念与所述第一语言的概念的描述之间的描述关系、以及所述第一语言的概念之间的关联关系,构建所述第一语言的医疗术语库。
7.如权利要求5所述的装置,其特征在于,所述处理单元,还用于:
针对同一个概念,若确定存在多个不同优先级的第一语言的概念,则保留优先级最高的第一语言的概念,所述不同优先级对应不同的翻译途径;
针对同一个拓扑信息,若确定存在多个不同优先级的第一语言的拓扑信息,则保留优先级最高的第一语言的拓扑信息。
8.如权利要求5至7任一项所述的装置,其特征在于,还包括存储单元,用于:
将所述第一语言的医学术语库以图形数据库的方式进行存储。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使所述计算机执行权利要求1至4任一权利要求所述的方法。
10.一种计算机设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行如权利要求1至4任一权利要求所述的方法。
CN201810444927.2A 2018-05-10 2018-05-10 一种医疗术语库的形成方法和装置 Active CN108763197B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810444927.2A CN108763197B (zh) 2018-05-10 2018-05-10 一种医疗术语库的形成方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810444927.2A CN108763197B (zh) 2018-05-10 2018-05-10 一种医疗术语库的形成方法和装置

Publications (2)

Publication Number Publication Date
CN108763197A CN108763197A (zh) 2018-11-06
CN108763197B true CN108763197B (zh) 2021-11-09

Family

ID=64009742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810444927.2A Active CN108763197B (zh) 2018-05-10 2018-05-10 一种医疗术语库的形成方法和装置

Country Status (1)

Country Link
CN (1) CN108763197B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442869B (zh) * 2019-08-01 2021-02-23 腾讯科技(深圳)有限公司 一种医疗文本处理方法及其装置、设备和存储介质
CN110728150B (zh) * 2019-10-08 2023-06-20 支付宝(杭州)信息技术有限公司 一种命名实体筛取方法、装置、设备和可读介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002080852A2 (en) * 2001-04-04 2002-10-17 Digital Gene Technologies, Inc. Genes expressed in intestinal epithelium and peyer's patch m cells
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
CN101443759A (zh) * 2006-05-12 2009-05-27 乐图集团有限公司 多语言信息检索
CN101616377A (zh) * 2009-07-20 2009-12-30 中兴通讯股份有限公司 一种短信的处理方法及系统
CN102955853A (zh) * 2012-11-02 2013-03-06 北京百度网讯科技有限公司 一种跨语言文摘的生成方法及装置
CN104239293A (zh) * 2014-08-18 2014-12-24 武汉传神信息技术有限公司 一种基于机器翻译的专名翻译方法
CN105678107A (zh) * 2016-04-15 2016-06-15 江苏曼荼罗软件股份有限公司 一种电子病历后结构化知识发现方法和装置
CN106777198A (zh) * 2016-12-23 2017-05-31 陈勇 在对应库里关键词检索的一种方法
WO2017089252A1 (en) * 2015-11-25 2017-06-01 Koninklijke Philips N.V. Reader-driven paraphrasing of electronic clinical free text
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置
KR20170135333A (ko) * 2016-05-31 2017-12-08 주식회사 라이프시맨틱스 공통 용어체계 기반 의료용어 번역 시스템
CN107665218A (zh) * 2016-07-29 2018-02-06 北京搜狗科技发展有限公司 一种搜索方法、装置及电子设备

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002080852A2 (en) * 2001-04-04 2002-10-17 Digital Gene Technologies, Inc. Genes expressed in intestinal epithelium and peyer's patch m cells
US7493253B1 (en) * 2002-07-12 2009-02-17 Language And Computing, Inc. Conceptual world representation natural language understanding system and method
CN101443759A (zh) * 2006-05-12 2009-05-27 乐图集团有限公司 多语言信息检索
CN101616377A (zh) * 2009-07-20 2009-12-30 中兴通讯股份有限公司 一种短信的处理方法及系统
CN102955853A (zh) * 2012-11-02 2013-03-06 北京百度网讯科技有限公司 一种跨语言文摘的生成方法及装置
CN104239293A (zh) * 2014-08-18 2014-12-24 武汉传神信息技术有限公司 一种基于机器翻译的专名翻译方法
WO2017089252A1 (en) * 2015-11-25 2017-06-01 Koninklijke Philips N.V. Reader-driven paraphrasing of electronic clinical free text
CN105678107A (zh) * 2016-04-15 2016-06-15 江苏曼荼罗软件股份有限公司 一种电子病历后结构化知识发现方法和装置
KR20170135333A (ko) * 2016-05-31 2017-12-08 주식회사 라이프시맨틱스 공통 용어체계 기반 의료용어 번역 시스템
CN107665218A (zh) * 2016-07-29 2018-02-06 北京搜狗科技发展有限公司 一种搜索方法、装置及电子设备
CN106777198A (zh) * 2016-12-23 2017-05-31 陈勇 在对应库里关键词检索的一种方法
CN106897568A (zh) * 2017-02-28 2017-06-27 北京大数医达科技有限公司 病历结构化的处理方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
The research for digitalization of four great classical literatures of traditional Chinese medicine knowledge for clinic use;Yunfeng Dai;《2013 IEEE International Conference on Bioinformatics and Biomedicine》;20140206;全文 *
基于Web的藏汉双语可比语料库构建技术研究;庞伟;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20160215;全文 *
基于语料库的旅游文本英译文词汇特征及翻译研究;熊兵;《华中师范大学学报:人文社会科学版》;20160531;全文 *

Also Published As

Publication number Publication date
CN108763197A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
US8375061B2 (en) Graphical models for representing text documents for computer analysis
JP2020027649A (ja) エンティティ関係データ生成方法、装置、機器、及び記憶媒体
CN110516260A (zh) 实体推荐方法、装置、存储介质及设备
CN108763197B (zh) 一种医疗术语库的形成方法和装置
US10997218B2 (en) Method and system for managing associations between entity records
CN109857736A (zh) 医院异构系统的数据编码统一化方法及系统、设备、介质
JP7437386B2 (ja) 医療記録を分類する方法
CN112232065A (zh) 挖掘同义词的方法及装置
US20150379156A1 (en) Web pages processing
CN113421657B (zh) 临床实践指南的知识表示模型的构建方法及装置
CN113032642B (zh) 针对目标对象的数据处理方法、装置、介质及电子设备
CN111415747A (zh) 电子病历的构建方法及装置
CN114330267A (zh) 一种基于语义学关联的结构化报告模板的设计方法
CN113032347A (zh) 显示元素方法、装置、电子设备及存储介质
CN113343680B (zh) 一种基于多类型病历文本的结构化信息提取方法
CN104933296A (zh) 一种基于多维数据融合的大数据处理方法和设备
CN106777290A (zh) 一种导出数据的方法及装置
CN110413779A (zh) 一种针对电力行业的词向量训练方法及其系统、介质
CN114064923A (zh) 数据处理方法、装置、电子设备和存储介质
CN110060749B (zh) 基于sev-sdg-cnn的电子病历智能诊断方法
CN114090619B (zh) 自然语言的查询处理方法及装置
CN110543467B (zh) 时间序列数据库的模式转换方法及装置
US20140278527A1 (en) Large scale identification and analysis of population health risks
EP3992785A1 (en) Method and apparatus for acquiring command line multiway tree of data network device
EP3654339A1 (en) Method of classifying medical records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20190620

Address after: Units 06 and 07, 23rd Floor, 523 Loushanguan Road, Changning District, Shanghai, 2003

Applicant after: Shanghai Yizhi Medical Technology Co., Ltd.

Address before: 310000 Room 177, Building No. 16, Zhuantang Science and Technology Economic Zone, Xihu District, Hangzhou City, Zhejiang Province

Applicant before: According to the Hangzhou Medical Technology Co., Ltd.

Applicant before: Hangzhou Yi chart Network Technology Co., Ltd.

Applicant before: Guangzhou Yi chart Medical Technology Co., Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220321

Address after: 100080 zone a, 21 / F, block a, No. 8, Haidian Street, Haidian District, Beijing

Patentee after: BEIJING SHENRUI BOLIAN TECHNOLOGY Co.,Ltd.

Patentee after: Hangzhou Shenrui Bolian Technology Co., Ltd

Address before: Units 06 and 07, 23rd Floor, 523 Loushanguan Road, Changning District, Shanghai, 2003

Patentee before: SHANGHAI YIZHI MEDICAL TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right