CN112541354A - 用于医学知识图谱的处理方法和装置 - Google Patents
用于医学知识图谱的处理方法和装置 Download PDFInfo
- Publication number
- CN112541354A CN112541354A CN202011415694.7A CN202011415694A CN112541354A CN 112541354 A CN112541354 A CN 112541354A CN 202011415694 A CN202011415694 A CN 202011415694A CN 112541354 A CN112541354 A CN 112541354A
- Authority
- CN
- China
- Prior art keywords
- medical
- training
- entity
- network model
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Probability & Statistics with Applications (AREA)
- Animal Behavior & Ethology (AREA)
- Databases & Information Systems (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请公开了一种用于医学知识图谱的处理方法,涉及人工智能领域,可用于知识图谱、深度学习、自然语言处理等领域。具体实现方案为:从医学文本中提取医学实体;利用通过迁移学习得到的医学实体模型对医学实体进行识别,得到对应的识别结果;以及响应于识别结果表征医学实体为既有标准实体的别名,在医学知识图谱中增加医学实体并针对医学实体增加对应的别名属性信息。
Description
技术领域
本申请涉及人工智能领域,可以用于知识图谱、迁移学习、自然语言处理等领域,更具体地,涉及一种用于医学知识图谱的处理方法和装置、一种用于医学实体模型的训练方法和装置、一种电子设备和存储介质。
背景技术
随着电子病历的普及,医学知识图谱的应用越来越广泛。受地域、医学知识水平等影响,同一医学实体往往有多种不同名称和表述。基于电子病历等医学文本可以识别医学实体别名以及新增医学实体,进而可以扩充既有医学知识图谱。反过来,通过扩充医学知识图谱也可以对电子病历进行有效质控。
发明内容
本申请提供了一种用于医学知识图谱的处理方法和装置、一种用于医学实体模型的训练方法和装置、一种电子设备以及存储介质。
根据第一方面,提供了一种用于医学实体模型的训练方法,包括:针对医学实体识别任务,获取训练数据集;获取针对其他任务训练得到的网络模型,其中所述网络模型与所述医学实体模型具有相同的底层逻辑;以及基于所述训练数据集在所述网络模型基础上进行训练,以得到所述医学实体模型。
根据第二方面,提供了一种用于医学实体模型的训练装置,包括:第一获取模块,用于针对医学实体识别任务,获取训练数据集;第二获取模块,用于获取针对其他任务训练得到的网络模型,其中所述网络模型与所述医学实体模型具有相同的底层逻辑;以及训练模块,用于基于所述训练数据集在所述网络模型基础上进行训练,以得到所述医学实体模型。
根据第三方面,提供了一种用于医学知识图谱的处理方法,包括:从医学文本中提取医学实体;利用通过迁移学习得到的医学实体模型对所述医学实体进行识别,得到对应的识别结果;以及响应于所述识别结果表征所述医学实体为既有标准实体的别名,在所述医学知识图谱中增加所述医学实体并针对所述医学实体增加对应的别名属性信息。
根据第四方面,提供了一种用于医学知识图谱的处理装置,包括:提取模块,用于从医学文本中提取医学实体;识别模块,用于利用通过迁移学习得到的医学实体模型对所述医学实体进行识别,得到对应的识别结果;以及知识图谱处理模块,用于响应于所述识别结果表征所述医学实体为既有标准实体的别名,在所述医学知识图谱中增加所述医学实体并针对所述医学实体增加对应的别名属性信息。
根据第五方面,提供了一种电子设备,包括:至少一个处理器;以及与上述至少一个处理器通信连接的存储器;其中,上述存储器存储有可被上述至少一个处理器执行的指令,上述指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行本申请实施例的方法。
根据第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,包括:上述计算机指令用于使上述计算机执行本申请实施例的方法。
根据第七方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现本申请实施例的上述方法。
根据本申请实施例提供的技术方案,采用迁移学习的方式获取医学实体模型,仅需要少量的训练数据来进行模型训练,因而不需要大量的标注数据,进而可以节约成本,同时还可以提高模型训练效率和模型的识别能力。并且,当前很难有足够的医学知识和已标注正确的语料进行全量训练,而借用之前模型的结果进行迁移学习可以解决该问题。此外,通过本申请实施例,还可以扩充原标准库中的医学实体数量,同时还可以获取部分实体在临床电子病历中使用的医学实体别名,并将这部分数据回流至总医学知识图谱中,增加图谱中别名属性的覆盖率。此外,还可以将医学知识图谱用于质控,如在生成电子病历过程中,判断医生的诊断是否准确、下药是否合理,等等。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1A示例性示出了适于本申请实施例的用于医学知识图谱的处理方法和装置的系统架构;
图1B示例性示出了可以实现本申请实施例的对电子病历进行质控的场景图;
图2示例性示出了根据本申请实施例的用于医学知识图谱的处理方法的流程图;
图3示例性示出了根据本申请实施例的用于医学实体模型的训练方法的流程图;
图4示例性示出了根据本申请实施例的用于医学知识图谱的处理装置的框图;
图5示例性示出了根据本申请实施例的用于医学实体模型的训练装置的框图;以及
图6示例性示出了用来实现本申请实施例的用于上述方法和装置的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
相关技术中提供了几种针对医学实体的分类和识别方法。
例如,人工定义一些规则,然后利用这些规则直接对医学实体进行分类。再例如,人工定义一些属性之间的相似度并定义对应的相似度阈值,然后基于各属性之间的相似度和相似度阈值构建对应的树模型,最后利用树模型进行匹配,以实现对医学实体进行分类。由于上述方案中,“规则”和“属性之间的相似度”等均由人工总结,因而覆盖面不全,针对医学实体别名的召回率较低,如召回率仅为50%。
再例如,还可以利用现有工具,获取临床医学实体的部位信息(如“左肾结石”和“右肾结石”中的“左”和“右”),然后对两个医学实体的部位信息进行比对(如比对“左肾结石”的部位信息“左”与“右肾结石”的部位信息“右”)。如果两个医学实体的部位信息一致,则进一步计算两个医学实体之间的相似度。如果其相似度小于某一预先定义的相似度阈值,则判定这两个医学实体是同一医学实体的不同名称或表述。如果两个医学实体的部位信息不一致,则直接跳出。一方面,该方案依靠现有接口获取部位信息,准确率较低;另一方面,即使指示部位不同的医学实体,也可能具有同一上位概念,如“左肾结石”和“右肾结石”指示的部位不同,但是两者属于同一上位概念即“肾结石”。因而该方案也存在召回率较低的问题。
应该理解,在本申请实施例中,召回率表示正样本(如属于同一医学实体的别名)有多少被找出来了。
对此,本申请实施例提供了一种改进型的医学实体识别方案,可以通过迁移学习,在针对其他任务训练得到的神经网络模型的基础上,采用少量的训练数据进行训练,得到用于医学实体识别任务的医学实体模型,并利用该模型对电子病历等医学文本中出现的医学实体进行识别,找出既有标准医学实体的别名或新增医学实体,并基于找出的医学实体扩充既有医学知识图谱。
以下将结合具体实施例详细阐述本申请。
适于本申请实施例的用于医学知识图谱的处理方法和装置的系统架构介绍如下。
图1A示例性示出了适于本申请实施例的用于医学知识图谱的处理方法和装置的系统架构。需要注意的是,图1A所示仅为可以应用本申请实施例的系统架构的示例,以帮助本领域技术人员理解本申请的技术内容,但并不意味着本申请实施例不可以用于其他环境或场景。
如图1A所示,系统架构100可以包括终端设备101、102、103,服务器104和服务器105。
在本申请实施例中,可以从终端设备101、102、103提交临床电子病历。服务器104可以从终端设备101、102、103在过去一段时间内提交的临床电子病历中提取训练数据,并获取针对其他任务训练得到的神经网络模型,进而采用该训练数据在该神经网络模型基础上进行训练,从而得到用于进行医学实体识别的医学实体模型。服务器105可以从服务器104获取医学实体模型,并从终端设备101、102、103提交的临床电子病历中提取医学实体,然后利用该医学实体模型对当前提取的医学实体进行识别,并根据识别结果扩充既有医学知识图谱或者规范化构建新的医学知识图谱。
应该理解,在本申请实施例中,服务器104和服务器105可以是同一服务器,或者也可以是不同服务器,本申请在此不做限定。
还应该理解,图1A中的终端设备和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备和服务器。
适于本申请实施例的用于医学知识图谱的处理方法和装置的应用场景介绍如下。
需要说明的是,通过本申请实施例提供的技术方案,可以识别既有标准医学实体的别名和新增的标准医学实体,因而本申请实施例提供的方案可以用于扩充或者构建医学知识图谱、更新医学实体别名字典、完善标准医学实体数据库等,并且通过医学知识图谱还可以对电子病历等进行质控。
如图1B所示,如果一份电子病历的主诉部分出现了“子宫肌瘤”这种带有女性性别特征的医学实体,而在诊断部分却出现了“前列腺炎”这种带有男性性别特征的医学实体,则利用本申请得到的医学知识图谱对电子病历进行质控时,可以禁止用户提交这种前后信息矛盾的电子病历,同时提示用户修改前后矛盾的信息。
通过本申请实施例,可以解决临床医学实体数据合并入医学知识图谱存在差异性的问题。并且,在生成电子病历时可以实现医学实体归一,将非标准输入转为标准知识。
根据本申请的实施例,本申请提供了一种用于医学知识图谱的处理方法。
图2示例性示出了根据本申请实施例的用于医学知识图谱的处理方法的流程图。
如图2所示,该方法200可以包括操作S210~S230。
在操作S210,从医学文本中提取医学实体。
在操作S220,利用通过迁移学习得到的医学实体模型对医学实体进行识别,得到对应的识别结果。
在操作S230,响应于识别结果表征医学实体为既有标准实体的别名,在医学知识图谱中增加医学实体并针对医学实体增加对应的别名属性信息。
在本申请实施例中,可以通过迁移学习的方式预先训练用于识别医学实体别名和新增医学实体的医学实体模型。具体地,可以获取与医学实体识别任务具有相同或者类似底层逻辑的网络模型,例如可以获取针对检索式问答任务训练的网络模型,采用训练数据在该网络模型基础上进行训练得到本申请实施例如操作S220中需要使用的医学实体模型。
在本申请实施例中,在操作S210,可以从临床电子病历的主诉、现病史和诊断中提取医学实体。然后在操作S220,可以将通过操作S210提取的医学实体输入上述医学实体模型,对医学实体进行识别,以判断该医学实体是既有标准实体的别名还是新增的医学实体。在操作S230,如果确定该医学实体是既有标准实体的别名,则在相应的医学知识图谱中增加该医学实体并针对该医学实体增加对应的别名属性信息。
应该理解,在本申请实施例中,既有标准实体是指预设表单中已经存在的标准医学实体。在本申请实施例中,属于别名的医学实体,可以添加在医学实体别名字典,以丰富该字典中收录的别名。
应该理解,监督学习通常需要大量的标注数据,而标注数据是一项枯燥无味且花费巨大的任务。通过本申请实施例,采用迁移学习的方式获取医学实体模型,仅需要少量的训练数据来进行模型训练,因而不需要大量的标注数据,进而可以节约成本,同时还可以提高模型训练效率和模型的识别能力。并且,当前很难有足够的医学知识和已标注正确的语料进行全量训练,而借用之前模型的结果进行迁移学习可以解决该问题。此外,还可以获取部分实体在临床电子病历中使用的医学实体别名,并将这部分数据回流至总医学知识图谱中,增加图谱中别名属性的覆盖率。此外,还可以将医学知识图谱用于质控,如在生成电子病历过程中,判断医生的诊断是否准确、下药是否合理,等等。此外,通过本申请实施例,采用迁移模型(即上述的医学实体模型),可以提升了临床病历知识分类的召回率,同时减少了人工配置规则的精力。具体地,在任意一家医院实现流程打通后,可在每次落院前规模化处理各医院的临床医学病历,以丰富医学知识图谱中的临床实体表示知识,较为方便实用,且可重复利用率较高。
作为一种可选的实施例,该方法还可以包括:响应于通过操作S220得到的上述识别结果表征被识别的医学实体为不属于任意一个既有标准实体的别名的新增实体,在医学知识图谱中增加医学实体为新增标准实体。
应该理解,在本申请实施例中,如果一个医学实体既不是该预设表单中的既有标准实体,也不是该预设表单中既有标准实体的别名,则认为医学实体为新增的标准医学实体,简称新增实体。
在本申请实施例中,属于新增的标准医学实体,可以添加在标准医学实体数据库(简称标准库),以扩充标准库中收录的标准医学实体数量。同时,将新增实体更新到医学知识图谱中,可以完善该医学知识图谱。
进一步,对于新增实体经审核加入标准库后,还可以进行进一步的医学实体相似度匹配。
作为一种可选的实施例,可以通过以下操作获得操作S220中使用的上述医学实体模型。
针对医学实体识别任务,获取训练数据集。
获取针对其他任务训练得到的网络模型,其中网络模型与医学实体模型具有相同的底层逻辑。
基于训练数据集在网络模型基础上进行训练,以得到医学实体模型。
示例性的,在一个实施例中,可以获取针对检索式问答任务训练得到的检索式问答模型,并在此模型上训练得到的本申请实施例中的医学实体模型。
在一个实施例中,对于上述操作获取的训练数据集,可以进行数据标注。示例性的,可以从临床医学实体中抽取具有一定相似度的医学实体,如从电子病历的主诉、现病史、诊断部分记载的医学实体中抽取具有一定相似度的医学实体,让医学专家进行数据标注。具体地,可以判断两个或者多个医学临床知识表述是否为同一医学实体的不同名称。如果是,则标注为1,否则标注为0。或者,也可以做相反标注。
进一步,在本申请实施例中,还可以对训练数据进行预处理,例如将专家标注为一致或不一致的数据进行拼接,比如可以采用“word分隔符word”的形式进行拼接。示例性的,如“右肾包块1;右肾囊肿1”。
或者,在另一个实施例中,对于上述操作获取的训练数据集,也可以不进行数据标注。示例性的,可以默认从同一电子病历中抽取的具有一定相似度的两个或者多个医学实体为同一医学实体的不同名称,同时默认从不同电子病历中抽取的具有一定相似度的两个或者多个医学实体为不同医学实体的名称。
具体地,在本申请实施例中,可以基于莱文斯坦距离(一种编辑距离)从临床医学实体中抽取具有一定相似度的医学实体。
需要说明的是,莱文斯坦距离是一种编辑距离,指两个字符串之间,由一个变换为另一个所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换为另一个字符,插入一个字符,删除一个字符。莱文斯坦距离用于衡量两个字符之间的相似度,被定义为“将字符串a变换为字符串b所需的删除、插入、替换操作的次数”。莱文斯坦距离越小,相似度越高。
应该理解,监督学习通常需要大量的标注数据,而标注数据是一项枯燥无味且花费巨大的任务。通过本申请实施例,采用迁移学习的方式获取医学实体模型,仅需要少量的训练数据来进行模型训练,因而不需要大量的标注数据甚至不需要进行数据标注,因而可以节约成本,同时还可以提高模型训练效率和模型的识别能力。并且,当前很难有足够的医学知识和已标注正确的语料进行全量训练,而借用之前模型的结果进行迁移学习可以解决该问题。
进一步,作为一种可选的实施例,基于训练数据集在网络模型基础上进行训练可以包括如下操作。
按以下方式修改针对其他任务训练得到的网络模型以得到修改后的网络模型:去掉该网络模型的最后一层并增加全连接层和soft max层。
基于训练数据集在修改后的网络模型基础上进行训练。
需要说明的是,增加全连接层,可以综合更多特征,实现特征全覆盖,即可以克服上述相关技术中由人工定义规则而导致特征无法全覆盖的缺陷。
在本申请实施例中,soft max层可以作为全连接层的激活函数,用于分类问题。具体地,在本申请实施例中,soft max层可以输出2个类别,其中:一类为与既有标准医学实体一致,即为某一既有标准医学实体的别名;另一类为非别名类别,即可能为标准库中未收录的新增实体。
此外,在本申请实施例中,基于获取的训练数据集在修改后的网络模型基础上进行训练的过程中,可以对修改后的网络模型进行微调,即可以控制除全连接层和soft max层之外的网络层参数不变,可以仅训练全连接层和soft max层的参数,因而即使训练数据量不大,也可以高效地训练出识别能力较高的医学实体模型,提升医学实体的召回率。
更进一步,作为一种可选的实施例,该方法还可以包括:在基于训练数据集在修改后的网络模型基础上进行训练之前,采用语义理解预训练框架对训练数据集中的训练数据进行建模。
在一个实施例中,可以采用ernie(基于持续学习的语义理解预训练框架)先对训练数据集中的训练数据进行统一建模后,再输入上述网络模型进行训练。
通过本申请实施例,采用ernie语义理解预训练框架对训练数据进行统一建模,可以从训练数据中获取词法、句法、语义等多个维度的自然语言信息,因而可以增强训练数据的通用语义的表示能力。
作为一种可选的实施例,针对医学实体识别任务,获取训练数据集,包括如下操作。
针对医学实体识别任务,获取训练数据候选集。
循环计算训练数据候选集中各医学实体之间的编辑距离。
针对编辑距离小于预设值的多个医学实体进行数据标注。
增加被标注为不同医学实体的多个医学实体在训练数据集中的占比。
在一个实施例中,在获取训练数据候选集进行训练时,可以使用莱文斯坦距离做数据增强,即进行有侧重的数据预处理。具体地,可以循环计算训练数据候选集中各医学实体之间的编辑距离,并获取编辑距离较小(如小于预设值)的一部分训练数据,认为该部分训练数据更有可能为同一实体的不同别名。对于这一部分训练数据可以进行优先标注。对于标注为不是同一医学实体的别名的,则可以重点关注这类实体,增加它们在训练数据集中出现的频次。例如,对于负样本中看起来相似度比较高的,如左肾结石和右肾结石,可以作为重点关注对象,增加它们在训练数据集中出现的频次。
在本申请实施例中,通过对某些负样本进行数据增强,如利用编辑距离计算训练数据的相似度并提升部分训练数据的占比,可以阻止神经网络学习不相关的特征,从根本上提升模型性能。
根据本申请的实施例,本申请提供了一种用于医学实体模型的训练方法。
图3示例性示出了根据本申请实施例的用于医学实体模型的训练方法的流程图。
如图3所示,该方法300可以包括操作S310~S330。
在操作S310,针对医学实体识别任务,获取训练数据集。
在操作S320,获取针对其他任务训练得到的网络模型,其中网络模型与医学实体模型具有相同的底层逻辑。
在操作S330,基于训练数据集在网络模型基础上进行训练,以得到医学实体模型。
作为一种可选的实施例,基于训练数据集在网络模型基础上进行训练可以包括如下操作。
按以下方式修改针对其他任务训练得到的网络模型以得到修改后的网络模型:去掉该网络模型的最后一层并增加全连接层和soft max层。
基于训练数据集在修改后的网络模型基础上进行训练。
进一步,作为一种可选的实施例,该方法还可以包括:在基于训练数据集在修改后的网络模型基础上进行训练之前,采用语义理解预训练框架对训练数据集中的训练数据进行建模。
作为一种可选的实施例,针对医学实体识别任务,获取训练数据集,包括如下操作。
针对医学实体识别任务,获取训练数据候选集。
循环计算训练数据候选集中各医学实体之间的编辑距离。
针对编辑距离小于预设值的多个医学实体进行数据标注。
增加被标注为不同医学实体的多个医学实体在训练数据集中的占比。
需要说明的是,本申请实施例中训练医学实体模型的方法与前述实施例中训练医学实体模型的方法相同,本申请实施例在此不再赘述。
根据本申请的实施例,本申请还提供了一种用于医学知识图谱的处理装置。
图4示例性示出了根据本申请实施例的用于医学知识图谱的处理装置的框图。
如图4所示,该装置400可以包括:提取模块410、识别模块420和知识图谱处理模块430。
具体地,提取模块410,用于从医学文本中提取医学实体。
识别模块420,用于利用通过迁移学习得到的医学实体模型对医学实体进行识别,得到对应的识别结果。
知识图谱处理模块430,用于响应于识别结果表征医学实体为既有标准实体的别名,在医学知识图谱中增加医学实体并针对医学实体增加对应的别名属性信息。
作为一种可选的实施例,知识图谱处理模块,还用于:响应于该识别结果表征该医学实体为不属于任意一个既有标准实体的别名的新增实体,在该医学知识图谱中增加该医学实体为新增标准实体。
作为一种可选的实施例,通过用于医学实体模型的训练装置获得该医学实体模型,该用于医学实体模型的训练装置包括:第一获取模块,用于针对医学实体识别任务,获取训练数据集;第二获取模块,用于获取针对其他任务训练得到的网络模型,其中该网络模型与该医学实体模型具有相同的底层逻辑;以及训练模块,用于基于该训练数据集在该网络模型基础上进行训练,以得到该医学实体模型。
作为一种可选的实施例,训练模块包括:修改单元,用于按以下方式修改该网络模型以得到修改后的网络模型:去掉该网络模型的最后一层并增加全连接层和soft max层;以及训练单元,用于基于该训练数据集在该修改后的网络模型基础上进行训练。
作为一种可选的实施例,该装置还包括:预训练模块,用于在基于该训练数据集在该修改后的网络模型基础上进行训练之前,采用语义理解预训练框架对该训练数据集中的训练数据进行建模。
作为一种可选的实施例,第一获取模块包括:获取单元,用于针对医学实体识别任务,获取训练数据候选集;计算单元,用于循环计算该训练数据候选集中各医学实体之间的编辑距离;数据标注单元,用于针对编辑距离小于预设值的多个医学实体进行数据标注;以及数据增强单元,用于增加被标注为不同医学实体的多个医学实体在该训练数据集中的占比。
需要说明的是,本申请实施例中,用于医学知识图谱的处理装置部分的实施例与用于医学知识图谱的处理方法部分的实施例对应相同或类似,本申请实施例在此不再赘述。
根据本申请的实施例,本申请还提供了一种用于医学实体模型的训练装置。
图5示例性示出了根据本申请实施例的用于医学实体模型的训练装置的框图。
如图5所示,该装置500可以包括:第一获取模块510、第二获取模块520和训练模块530。
第一获取模块510,用于针对医学实体识别任务,获取训练数据集。
第二获取模块520,用于获取针对其他任务训练得到的网络模型,其中网络模型与医学实体模型具有相同的底层逻辑。
训练模块530,用于基于训练数据集在网络模型基础上进行训练,以得到医学实体模型。
作为一种可选的实施例,训练模块包括:修改单元,用于按以下方式修改该网络模型以得到修改后的网络模型:去掉该网络模型的最后一层并增加全连接层和soft max层;以及训练单元,用于基于该训练数据集在该修改后的网络模型基础上进行训练。
作为一种可选的实施例,该装置还包括:预训练模块,用于在基于该训练数据集在该修改后的网络模型基础上进行训练之前,采用语义理解预训练框架对该训练数据集中的训练数据进行建模。
作为一种可选的实施例,第一获取模块包括:获取单元,用于针对医学实体识别任务,获取训练数据候选集;计算单元,用于循环计算该训练数据候选集中各医学实体之间的编辑距离;数据标注单元,用于针对编辑距离小于预设值的多个医学实体进行数据标注;以及数据增强单元,用于增加被标注为不同医学实体的多个医学实体在该训练数据集中的占比。
需要说明的是,本申请实施例中,用于医学实体模型的训练装置部分的实施例与用于医学实体模型的训练方法部分的实施例对应相同或类似,本申请实施例在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的上述方法(包括用于医学知识图谱的处理方法或用于医学实体模型的训练方法)的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的上述方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的上述方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的上述方法对应的程序指令/模块(例如,附图4所示的提取模块410、识别模块420和知识图谱处理模块430)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的上述方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据上述方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至上述方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用于实现本申请的上述方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与上述方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系;服务器可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
根据本申请实施例提供的技术方案,采用迁移学习的方式获取医学实体模型,仅需要少量的训练数据来进行模型训练,因而不需要大量的标注数据,进而可以节约成本,同时还可以提高模型训练效率和模型的识别能力。并且,当前很难有足够的医学知识和已标注正确的语料进行全量训练,而借用之前模型的结果进行迁移学习可以解决该问题。此外,通过本申请实施例,还可以扩充原标准库中的医学实体数量,同时还可以获取部分实体在临床电子病历中使用的医学实体别名,并将这部分数据回流至总医学知识图谱中,增加图谱中别名属性的覆盖率。此外,还可以将医学知识图谱用于质控,如在生成电子病历过程中,判断医生的诊断是否准确、下药是否合理,等等。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (17)
1.一种用于医学实体模型的训练方法,包括:
针对医学实体识别任务,获取训练数据集;
获取针对其他任务训练得到的网络模型,其中所述网络模型与所述医学实体模型具有相同的底层逻辑;以及
基于所述训练数据集在所述网络模型基础上进行训练,以得到所述医学实体模型。
2.根据权利要求1所述的方法,其中,基于所述训练数据集在所述网络模型基础上进行训练,包括:
按以下方式修改所述网络模型以得到修改后的网络模型:去掉所述网络模型的最后一层并增加全连接层和soft max层;以及
基于所述训练数据集在所述修改后的网络模型基础上进行训练。
3.根据权利要求2所述的方法,还包括:在基于所述训练数据集在所述修改后的网络模型基础上进行训练之前,
采用语义理解预训练框架对所述训练数据集中的训练数据进行建模。
4.根据权利要求1所述的方法,其中,针对医学实体识别任务,获取训练数据集,包括:
针对医学实体识别任务,获取训练数据候选集;
循环计算所述训练数据候选集中各医学实体之间的编辑距离;
针对编辑距离小于预设值的多个医学实体进行数据标注;以及
增加被标注为不同医学实体的多个医学实体在所述训练数据集中的占比。
5.一种用于医学知识图谱的处理方法,包括:
从医学文本中提取医学实体;
利用通过迁移学习得到的医学实体模型对所述医学实体进行识别,得到对应的识别结果;以及
响应于所述识别结果表征所述医学实体为既有标准实体的别名,在所述医学知识图谱中增加所述医学实体并针对所述医学实体增加对应的别名属性信息。
6.根据权利要求5所述的方法,还包括:
响应于所述识别结果表征所述医学实体为不属于任意一个既有标准实体的别名的新增实体,在所述医学知识图谱中增加所述医学实体为新增标准实体。
7.根据权利要求5所述的方法,其中,通过以下操作获得所述医学实体模型:
针对医学实体识别任务,获取训练数据集;
获取针对其他任务训练得到的网络模型,其中所述网络模型与所述医学实体模型具有相同的底层逻辑;以及
基于所述训练数据集在所述网络模型基础上进行训练,以得到所述医学实体模型。
8.一种用于医学实体模型的训练装置,包括:
第一获取模块,用于针对医学实体识别任务,获取训练数据集;
第二获取模块,用于获取针对其他任务训练得到的网络模型,其中所述网络模型与所述医学实体模型具有相同的底层逻辑;以及
训练模块,用于基于所述训练数据集在所述网络模型基础上进行训练,以得到所述医学实体模型。
9.根据权利要求8所述的装置,其中,所述训练模块包括:
修改单元,用于按以下方式修改所述网络模型以得到修改后的网络模型:去掉所述网络模型的最后一层并增加全连接层和soft max层;以及
训练单元,用于基于所述训练数据集在所述修改后的网络模型基础上进行训练。
10.根据权利要求9所述的装置,还包括:
预训练模块,用于在基于所述训练数据集在所述修改后的网络模型基础上进行训练之前,采用语义理解预训练框架对所述训练数据集中的训练数据进行建模。
11.根据权利要求8所述的装置,其中,所述第一获取模块包括:
获取单元,用于针对医学实体识别任务,获取训练数据候选集;
计算单元,用于循环计算所述训练数据候选集中各医学实体之间的编辑距离;
数据标注单元,用于针对编辑距离小于预设值的多个医学实体进行数据标注;以及
数据增强单元,用于增加被标注为不同医学实体的多个医学实体在所述训练数据集中的占比。
12.一种用于医学知识图谱的处理装置,包括:
提取模块,用于从医学文本中提取医学实体;
识别模块,用于利用通过迁移学习得到的医学实体模型对所述医学实体进行识别,得到对应的识别结果;以及
知识图谱处理模块,用于响应于所述识别结果表征所述医学实体为既有标准实体的别名,在所述医学知识图谱中增加所述医学实体并针对所述医学实体增加对应的别名属性信息。
13.根据权利要求12所述的装置,其中,所述知识图谱处理模块,还用于响应于所述识别结果表征所述医学实体为不属于任意一个既有标准实体的别名的新增实体,在所述医学知识图谱中增加所述医学实体为新增标准实体。
14.根据权利要求12所述的装置,其中,通过用于医学实体模型的训练装置获得所述医学实体模型,所述用于医学实体模型的训练装置包括:
第一获取模块,用于针对医学实体识别任务,获取训练数据集;
第二获取模块,用于获取针对其他任务训练得到的网络模型,其中所述网络模型与所述医学实体模型具有相同的底层逻辑;以及
训练模块,用于基于所述训练数据集在所述网络模型基础上进行训练,以得到所述医学实体模型。
15.一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。
16.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-7中任一项所述的方法。
17.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011415694.7A CN112541354A (zh) | 2020-12-04 | 2020-12-04 | 用于医学知识图谱的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011415694.7A CN112541354A (zh) | 2020-12-04 | 2020-12-04 | 用于医学知识图谱的处理方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112541354A true CN112541354A (zh) | 2021-03-23 |
Family
ID=75016183
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011415694.7A Pending CN112541354A (zh) | 2020-12-04 | 2020-12-04 | 用于医学知识图谱的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112541354A (zh) |
-
2020
- 2020-12-04 CN CN202011415694.7A patent/CN112541354A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111967262B (zh) | 实体标签的确定方法和装置 | |
US10628507B2 (en) | Analyzing concepts over time | |
CN112507715B (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN111709247B (zh) | 数据集处理方法、装置、电子设备和存储介质 | |
TWI729472B (zh) | 特徵詞的確定方法、裝置和伺服器 | |
US10831762B2 (en) | Extracting and denoising concept mentions using distributed representations of concepts | |
JP2021114291A (ja) | 時系列ナレッジグラフ生成方法、装置、デバイス及び媒体 | |
CN108701161B (zh) | 为搜索查询提供图像 | |
JP7096919B2 (ja) | エンティティワードの認識方法と装置 | |
CN111797226A (zh) | 会议纪要的生成方法、装置、电子设备以及可读存储介质 | |
CN111274391A (zh) | 一种spo的抽取方法、装置、电子设备及存储介质 | |
CN112347769A (zh) | 实体识别模型的生成方法、装置、电子设备及存储介质 | |
CN112507090B (zh) | 用于输出信息的方法、装置、设备和存储介质 | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN113553414A (zh) | 智能对话方法、装置、电子设备和存储介质 | |
CN113656587B (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN112148881A (zh) | 用于输出信息的方法和装置 | |
CN111241285A (zh) | 问题回答类型的识别方法、装置、设备及存储介质 | |
CN111090991A (zh) | 场景纠错方法、装置、电子设备和存储介质 | |
CN110991183A (zh) | 问题的谓词确定方法、装置、设备及存储介质 | |
CN113516491A (zh) | 推广信息展示方法、装置、电子设备及存储介质 | |
CN112466277B (zh) | 韵律模型训练方法、装置、电子设备及存储介质 | |
CN112528605B (zh) | 文本风格处理方法、装置、电子设备和存储介质 | |
CN113312451B (zh) | 文本标签确定方法和装置 | |
CN112905743B (zh) | 文本对象检测的方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |