CN113297852B - 一种医学实体词的识别方法和装置 - Google Patents
一种医学实体词的识别方法和装置 Download PDFInfo
- Publication number
- CN113297852B CN113297852B CN202110841311.0A CN202110841311A CN113297852B CN 113297852 B CN113297852 B CN 113297852B CN 202110841311 A CN202110841311 A CN 202110841311A CN 113297852 B CN113297852 B CN 113297852B
- Authority
- CN
- China
- Prior art keywords
- medical
- word
- self
- vector
- encoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 185
- 238000012549 training Methods 0.000 claims abstract description 85
- 238000013145 classification model Methods 0.000 claims abstract description 16
- 238000013507 mapping Methods 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 10
- 230000004044 response Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 abstract description 11
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 201000010099 disease Diseases 0.000 description 28
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 28
- 238000004364 calculation method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001788 irregular Effects 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 206010020850 Hyperthyroidism Diseases 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005802 health problem Effects 0.000 description 1
- 208000003532 hypothyroidism Diseases 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及自然语言处理技术领域,尤其涉及一种医学实体词的识别方法和装置。该识别方法包括:构建用于表征医学实体词与自编码向量之间对应关系的预训练模型;利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对预训练模型进行微调,以生成标准词自编码模型;提取目标病例文本中的目标医学实体词的内容特征;将内容特征输入标准词自编码模型,获得目标医学实体词对应的第一自编码向量;从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词,将医学标准词作为目标医学实体词对应的目标医学标准词。通过上述方式,能够便于医学信息共享,提高医疗领域之间交流的效率。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种医学实体词的识别方法和装置。
背景技术
临床医学术语的标准化是医疗信息共享的基础,更是医保实现全国统筹的重中之重。各类医学术语来源众多,书写各异,同一个词在不同的时间和场合下有着不同的含义,同一个概念在不同的体系中有着不同的表述方式。
当前国内医疗领域内的术语编码体系较为繁杂,同一类医学术语往往存在多个版本的编码体系,如疾病编码有五个版本:国家卫健委统计信息中心发布的“国标版”,医政医管局发布的“临床版”,以及北京、上海、广东发布的三个地方版。这些因素给医学信息的共享以及医疗领域的交流与合作带来了障碍。因此,现有系统中的标准名或者口语化或者书写文书的医学名词转换成一个标准的体系非常重要。
现有的标准化技术主要有两种:一种是通过人工标记的关键字来构建映射表,实现从文本中提取的命名实体组合到医疗标准名的映射,这种方式虽然已有标注的准确率高,但是灵活性较低,对新的书写方式下需要映射的名称召回不高;
另一种是基于分类算法的,通过距离计算、杰卡德系数等获取标准词映射候选集,通过分类模型来筛选出候选中最合适的结果,这种方式需要每个备选都通过模型判断是否满足映射条件,时耗较长,效率较低,而且备选生成的流程不一定可以选出最佳备选,后面模型的步骤最终一定无法给出最优映射。
发明内容
有鉴于此,本申请实施例至少提供一种医学实体词的识别方法和装置,以克服现有技术中所存在的至少一种缺陷。
本申请主要包括以下几个方面:
第一方面,本申请实施例提供一种医学实体词的识别方法,包括:
构建用于表征医学实体词与自编码向量之间对应关系的预训练模型;
利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对预训练模型进行微调,以生成标准词自编码模型;
提取目标病例文本中的目标医学实体词的内容特征;
将内容特征输入标准词自编码模型,获得目标医学实体词对应的第一自编码向量;
从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词,将医学标准词作为目标医学实体词对应的目标医学标准词。
在一种可能的实施方式中,二分类模型是利用正训练样本和负训练样本训练得到的,其中,正训练样本可通过以下方式获得:从医学标准词库中查找与病历文本中的医学实体词的医学意义相同的第一医学标准词;建立病例文本中的医学实体词与第一医学标准词之间的第一映射关系,以生成标准数据对;基于标准数据对形成正训练样本;其中,负训练样本可通过以下方式获得:从医学标准词库中查找与病历文本中的医学实体词的医学意义相近但词意不同的第二医学标准词;建立病例文本中的医学实体词与第二医学标准词之间的第二映射关系,以生成标记数据对;基于标记数据对形成负训练样本。
在一种可能的实施方式中,利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对预训练模型进行微调,以生成标准词自编码模型的步骤可包括:将全量的医学标准词的内容特征输入预训练模型,以输出医学标准词对应的第二自编码向量;将第二自编码向量输入二分类模型的池化层,以输出分类结果;根据输出的分类结果调节预训练模型的模型参数,以生成标准词自编码模型。
在一种可能的实施方式中,医学标准词编码索引库可存储有医学标准词以及与医学标准词对应的自编码向量,其中,医学标准词编码索引库可通过以下方式构建:提取全量的医学标准词的内容特征;将所提取的内容特征分别输入标准词自编码模型,获得每个医学标准词对应的自编码向量;基于医学标准词以及与医学标准词对应的自编码向量构建医学标准词编码索引库。
在一种可能的实施方式中,从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词的步骤可包括:计算第一自编码向量与医学标准词编码索引库中所存储的各自编码向量的相似度;将相似度最高的自编码向量所对应的医学标准词确定为与第一自编码向量对应的医学标准词;其中,可利用如下公式来计算目标医学实体词对应的第一自编码向量与医学标准词编码索引库中的医学标准词的自编码向量的相似度:
其中,为目标医学实体词对应的第一自编码向量与医学标准词编码索引库中的医学标准词的自编码向量的相似度,为医学标准词编码索引库中的医学标准词的自编码向量,为目标医学实体词对应的第一自编码向量,,n为自编码向量的总维度。
在一种可能的实施方式中,内容特征可包括:字向量、声调向量、词性向量和位置向量,其中,将内容特征输入标准词自编码模型的步骤可包括:将字向量、声调向量、词性向量和位置向量按照预设的排列顺序输入标准词自编码模型,其中,排列顺序为从字向量、声调向量、词性向量到位置向量的顺序。
在一种可能的实施方式中,可通过以下方式获得目标医学实体词:接收请求端发送的携带有目标医学实体词的识别请求;从识别请求中提取目标医学实体词;其中,识别方法可还包括:向请求端反馈针对识别请求的应答信息,应答信息中携带有与目标医学实体词对应的目标医学标准词,以使请求端将目标医学标准词作为标注词添加到目标病历文本中来对目标医学实体词进行标注。
第二方面,本申请实施例还提供一种医学实体词的识别装置,包括:
构建模块,用于构建用于表征医学实体词与自编码向量之间对应关系的预训练模型;
生成模块,用于利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对预训练模型进行微调,以生成标准词自编码模型;
提取模块,用于提取目标病例文本中的目标医学实体词的内容特征;
转换模块,用于将内容特征输入标准词自编码模型,获得目标医学实体词对应的第一自编码向量;
索引模块,用于从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词,将医学标准词作为目标医学实体词对应的目标医学标准词。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,存储器存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储器之间通过总线进行通信,机器可读指令被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中的医学实体词的识别方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中的医学实体词的识别方法的步骤。
本申请实施例提供的医学实体词的识别方法和装置,通过全量的医学标准词的内容特征训练生成预训练模型,利用二分类模型针对构建的预训练模型的输出结果进行分类,以此为依据对预训练模型进行微调从而生成标准词自编码模型。将目标病例文本中识别出的目标医学实体词输入标准词自编码模型,获得目标医学实体词对应的第一自编码向量,通过计算目标医学实体词对应的第一自编码向量与医学标准词编码索引库中的医学标准词的自编码向量之间的相似度,确认目标医学实体词对应的目标医学标准词,实现了病例文本中不规范的疾病名称的标准化转换,还可以将获得的与目标医学实体词匹配的目标医学标准词标注在目标医学实体词上,从而方便医学信息共享,提高了医疗领域之间交流的效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种医学实体词的识别方法的流程图;
图2示出了本申请实施例所提供的生成标准词自编码模型的步骤的流程图;
图3示出了本申请实施例所提供的构建医学标准词编码索引库的步骤的流程图;
图4示出了本申请实施例所提供的一种医学实体词的识别装置的结构示意图;
图5示出了本申请实施例所提供的一种电子设备的结构示意图。
主要元件符号说明:
图中:
400-识别装置;410-构建模块;420-生成模块;430-提取模块;440-转换模块;450-索引模块;
500-电子设备;501-处理器;502-通信总线;503-用户接口;504-网络接口;505-存储器;5051-操作系统;5052-应用程序。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中的附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应当理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的全部其他实施例,都属于本申请保护的范围。
为了使得本领域技术人员能够使用本申请内容,结合特定应用场景“医学实体词的识别”,给出以下实施方式,对于本领域技术人员来说,在不脱离本申请的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用场景。
本申请实施例下述装置、方法、电子设备或计算机可读存储介质可以应用于任何需要进行医学实体词的识别的场景,本申请实施例并不对具体的应用场景作限制,任何使用本申请实施例提供的医学实体词的识别方法和装置的方案均在本申请保护范围内。
值得注意的是,临床医学术语的标准化是医疗信息共享的基础,更是医保实现全国统筹的重中之重。各类医学术语来源众多,书写各异,同一个词在不同的时间和场合下有着不同的含义,同一个概念在不同的体系中有着不同的表述方式。
当前国内医疗领域内的术语编码体系较为繁杂,同一类医学术语往往存在多个版本的编码体系,如疾病编码有五个版本:国家卫健委统计信息中心发布的“国标版”,医政医管局发布的“临床版”,以及北京、上海、广东发布的三个地方版。这些因素给医学信息的共享以及医疗领域的交流与合作带来了障碍。因此,现有系统中的标准名或者口语化或者书写文书的医学名词转换成一个标准的体系非常重要。
在本申请提出之前,现有的标准化技术主要有两种:一种是通过人工标记的关键字来构建映射表,实现从文本中提取的命名实体组合到医疗标准名的映射,这种方式虽然已有标注的准确率高,但是灵活性较低,对新的书写方式下需要映射的名称召回不高;
另一种是基于分类算法的,通过距离计算、杰卡德系数等获取标准词映射候选集,通过分类模型来筛选出候选中最合适的结果,这种方式需要每个备选都通过模型判断是否满足映射条件,时耗较长,效率较低,而且备选生成的流程不一定可以选出最佳备选,后面模型的步骤最终一定无法给出最优映射。
针对上述问题,本申请实施例提供了一种医学实体词的识别方法和装置,下面通过实施例进行描述。
为便于对本申请进行理解,下面结合具体实施例对本申请提供的技术方案进行详细说明。
实施例一
图1为本申请实施例所提供的一种医学实体词识别的方法的流程图。如图1所示,本申请实施例提供的医学实体词的识别方法,包括以下步骤:
步骤S101:构建用于表征医学实体词与自编码向量之间对应关系的预训练模型;
步骤S102:利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对预训练模型进行微调,以生成标准词自编码模型;
步骤S103:提取目标病例文本中的目标医学实体词的内容特征;
步骤S104:将内容特征输入标准词自编码模型,获得目标医学实体词对应的第一自编码向量;
步骤S105:从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词,将医学标准词作为目标医学实体词对应的目标医学标准词。
在上述步骤S101中,构建用于表征医学实体词与自编码向量之间对应关系的预训练模型,这里可以采用BERT模型(Bidirectional Encoder Representation fromTransformers)作为预训练模型,BERT模型为一种双向的语言模型,是在Transformer模型的基础上实现的。这里的预训练模型输入为所提取的医学实体词的内容特征,输出则为医学实体词对应的自编码向量。
在上述步骤S102中,将步骤S101中获取的医学实体词的自编码向量输入到二分类模型中,获得二分类模型的识别结果,二分类模型的识别结果用于表征医学实体词和其对应的自编码向量(预训练模型的输出)之间对应的准确度,即预训练模型的转码精确度,因此通过二分类的识别结果对预训练模型的超参数进行调整,使预训练模型转码更加精确,从而生成最终的标准词自编码模型Mg。
在上述步骤S103中,从想要识别的目标病例文本中获得目标医学实体词,这里的目标医学实体词可以理解为利用现有的各种实体词提取方法从病历文本中提取出的医学实体词,例如,包括但不限于在病例文本中医生使用的不规范的、口语化的或简化的与标准的医学实体词文字表达不一致的词语。从目标病例文本识别出目标医学实体词可以首先对目标病例文本进行预处理,再对预处理后的目标病例文本进行文本识别。
识别出目标医学实体词后提取出目标医学实体词的内容特征,作为标准词自编码模型的输入。
在一可选实施例中,本申请的医学实体词的识别方法可在服务器中执行,一种情况,可由服务器获取目标病例文本,并从所获取的目标病例文本中提取医学实体词以及医学实体词的内容特征;另一种情况,可由与服务器进行通信的客户端收集目标病例文本,并从目标病例文本中提取医学实体词,将该医学实体词发送至服务器,由服务器来提取医学实体词的内容特征;再一种情况,可由与服务器进行通信的客户端收集目标病例文本,并提取医学实体词以及医学实体词的内容特征,将该医学实体词的内容特征发送至服务器。这里,可利用现有的各种特征提取方法来提取医学实体词的内容特征。
在上述步骤S104中,将目标医学实体词的内容特征输入标准词自编码模型,从而获得医学实体词对应的第一自编码向量。这里的内容特征为向量的形式,第一自编码向量则是医学实体词的正向语义表征向量,通过第一自编码向量也可以反向获得与第一自编码向量对应的医学实体词。
在上述步骤S105中,从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词,即在预先建立的医学标准词的自编码向量的数据库中,查找与目标医学实体词的第一自编码向量最相似的医学标准词的自编码向量,而这个医学标准词也就是目标医学实体词对应的标准化的疾病名称。
具体的,这里的医学标准词指代的是通过同一个标准体系的命名方法命名的疾病名称。国际疾病分类(International Classification of Diseases ,ICD),是WHO制定的国际统一的疾病分类方法,它根据疾病的病因、病理、临床表现和解剖位置等特性,将疾病分门别类,使其成为一个有序的组合,并用编码的方法来表示的系统。全世界通用的是第10次修订本《疾病和有关健康问题的国际统计分类》,仍保留了ICD的简称,并被统称为ICD-10。本申请的实施例中则选择ICD-10作为医学标准词库。
在该实施例中,通过构建用于表征医学实体词和自编码向量的预训练模型,利用二分类模型的识别结果对预训练模型进行微调,从而生成优化后的标准词自编码模型。利用标准词自编码模型对想要标准化的目标病例文本中识别出的目标医学实体词进行解码,生成目标医学实体词对应的第一自编码向量,将第一自编码向量与预先构建好的医学标准词编码索引中的医学标准词的自编码向量进行匹配,从而获取与第一自编码向量最匹配的医学标准词的自编码向量,匹配出的医学标准词的自编码向量对应的医学标准词就是目标医学实体词的规范化疾病名称。
在本申请的实施例中,在步骤S102中,二分类模型是利用正训练样本和负训练样本训练得到的。
其中,正训练样本可以通过以下方式获得:从医学标准词库中查找与病历文本中的医学实体词的医学意义相同的第一医学标准词;建立病例文本中的医学实体词与第一医学标准词之间的第一映射关系,以生成标准数据对;基于标准数据对形成正训练样本。
具体的,正训练样本中包括的是病例文本中的医学实体词与医学意义相同的第一医学标准词形成的标准数据对,其中,病例文本中的医学实体词是人工书写的不规范的疾病名称,第一医学标准词则是医学实体词的标准化的疾病名称,医学实体词与第一医学标准词表述的疾病为同一种。
其中,负训练样本可以通过以下方式获得:从医学标准词库中查找与病历文本中的医学实体词的医学意义相近但词意不同的第二医学标准词;建立病例文本中的医学实体词与第二医学标准词之间的第二映射关系,以生成标记数据对;基于标记数据对形成负训练样本。
具体的,负训练样本中包括的是病例文本中的医学实体词与医学意义不相同的第二医学标准词形成的标记数据对,但第二医学标准词的语义与医学实体词对应的第一医学标准词的语义相近,其中病例文本中的医学实体词是人工书写的不规范的疾病名称,第二医学标准词则是医学实体词的标准化的疾病名称,医学实体词与第一医学标准词表述的疾病不是同一种。
可以理解的是,通过正训练样本和负训练样本训练二分类模型,从而使二分类模型可以对医学实体词与预设的医学标准词是否为同一疾病进行分类判断,其中二分类模型的输入为正训练样本或训练样本中的数据对,输出为分类结果,即数据对的映射关系是否正确。
图2示出了本申请实施例所提供的生成标准词自编码模型的步骤的流程图。如图2所示,在本申请的实施例中,步骤S102,利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对预训练模型进行微调,以生成标准词自编码模型具体包括:
步骤S201:将全量的医学标准词的内容特征输入预训练模型,以输出医学标准词对应的第二自编码向量;
步骤S202:将第二自编码向量输入二分类模型的池化层,以输出分类结果;
步骤S203:根据输出的分类结果调节预训练模型的模型参数,以生成标准词自编码模型。
在步骤S201中,首先通过事先构建好的Transformer模型对全量的医学标准词的内容特征进行编码,以生成医学标准词的第二自编码向量。这里,可将每个医学标准词的内容特征分别输入到Transformer模型中,以获得与各医学标准词对应的第二自编码向量。
在步骤S202中,将步骤S201生成的第二自编码向量输入至预先训练好的二分类模型的池化层中,以获得第二自编码向量的编码准确率,可以理解的是,这一步骤中的第二自编码向量的准确率并不高。
在实际应用中,预先训练好的二分类模型可包括softmax层和池化层,其中,池化层的输入为自编码向量,输出为分类结果[0,1],其中,0可以表示当前自编码向量反向解码的医学实体词与其对应的医学实体词不为同一疾病名称,1可以表示当前自编码向量反向解码的医学实体词与其对应的医学实体词为同一疾病名称。
在步骤S203中,通过步骤S202中获取的分类结果,可以判断出当前预训练模型的编码准确程度,并以此为统计依据调节预训练模型的参数,最终获得标准词自编码模型。可以理解的是,研发人员可以先采用常用的参数配置进行模型训练,再针对一个或多个参数进行微调,最终获得最优参数配置。
图3示出了本申请实施例所提供的构建医学标准词编码索引库的步骤的流程图。如图3所示,在本申请的实施例中,医学标准词编码索引库存储有医学标准词以及与医学标准词对应的自编码向量。
其中,医学标准词编码索引库可通过以下方式构建:
步骤S301:提取全量的医学标准词的内容特征;
步骤S302:将所提取的内容特征分别输入标准词自编码模型,获得每个医学标准词对应的自编码向量;
步骤S303:基于医学标准词以及与医学标准词对应的自编码向量构建医学标准词编码索引库。
具体的,获取标准的国际疾病分类表,获取其中全量的医学标准词,提取全量的医学标准词的内容特征,将医学标准词对应的内容特征依次输入标准词自编码模型,获得医学标准词对应的自编码向量,这里的自编码向量用于表征医学标准词的语义特征,最后基于获取的医学标准词和其对应的自编码向量构建医学标准词编码索引库。
其中医学标准词编码索引库是基于Faiss构建的,Faiss能够在相似度较高的向量集中进行快速高效的搜索,因此将生成的医学标准词对应的自编码向量发送至Faiss的向量集中,以供搜索匹配。
在本申请的实施例中,步骤S104从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词的具体包括:
计算第一自编码向量与医学标准词编码索引库中所存储的各自编码向量的相似度;将相似度最高的自编码向量所对应的医学标准词确定为与第一自编码向量对应的医学标准词。
这里,可利用现有的各种相似度计算方法来计算第一自编码向量与医学标准词编码索引库中所存储的各自编码向量的相似度,作为示例,可利用如下公式来计算目标医学实体词对应的第一自编码向量与医学标准词编码索引库中的医学标准词的自编码向量的相似度:
其中,为目标医学实体词对应的第一自编码向量与医学标准词编码索引库中的医学标准词的自编码向量的相似度,为医学标准词编码索引库中的医学标准词的自编码向量,为目标医学实体词对应的第一自编码向量,,n为自编码向量的总维度。
具体的,可以依据目标医学实体词的第一自编码在医学标准词编码索引库中搜索,获取多个相似的医学标准词的自编码向量,分别计算多个相似的医学标准词的自编码向量和第一自编码向量的相似度,其中相似度最大医学标准词的自编码向量对应的医学标准词就是与目标医学实体词最匹配的医学标准词,将这个医学标准词反馈给用户。
计算目标医学实体词的第一自编码向量与医学标准词编码索引库中的医学标准词的自编码向量的相似度可以采用余弦相似度计算的方法。
在本申请的实施例中,步骤S103提取目标病例文本中的目标医学实体词的内容特征中,内容特征包括:字向量、声调向量、词性向量和位置向量。
其中,将所述内容特征输入所述标准词自编码模型的步骤可包括:将字向量、声调向量、词性向量和位置向量按照预设的排列顺序输入所述标准词自编码模型。这里,所述排列顺序为从字向量、声调向量、词性向量到位置向量的顺序。
可以理解的是,获取到的目标病例文本中的目标医学实体词是文字词组的形式,因此需要提取目标医学实体词的内容特征向量,其中包括提取目标医学实体词的字向量、声调向量、词性向量和位置向量。按照将内容特征提取的顺序将内容特征输入标准词自编码模型中。
在本申请的实施例中,可通过以下方式获得目标医学实体词:接收请求端发送的携带有目标医学实体词的识别请求,从识别请求中提取目标医学实体词。
在此情况下,本申请的医学实体词的识别方法可还包括:向请求端反馈针对识别请求的应答信息,应答信息中携带有与目标医学实体词对应的目标医学标准词,以使请求端将目标医学标准词作为标注词添加到目标病历文本中来对目标医学实体词进行标注。
具体的,接收请求端发送的识别请求,识别请求中携带有想要进行识别的目标医学实体词,从识别请求中分析提取出待识别的目标医学实体词,并进行识别,获得目标医学实体词及其对应的目标医学标准词,并将目标医学标准词关联在目标医学实体词上。基于标注有目标医学标准词的目标医学实体词生成应答信息,将应答信息反馈给请求端,以供请求端将目标医学标准词标注在目标病例文本中的与之关联的目标医学实体词上,展示给用户。
实施例二
基于同一申请构思,本申请实施例中还提供了与医学实体词的识别方法对应的医学实体词的识别装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述医学实体词的识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图4,图4为本申请实施例所提供的医学实体词的识别装置的结构示意图,该医学实体词的识别装置400具体包括:
构建模块410,用于构建用于表征医学实体词与自编码向量之间对应关系的预训练模型;
生成模块420,用于利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对预训练模型进行微调,以生成标准词自编码模型;
提取模块430,用于提取目标病例文本中的目标医学实体词的内容特征;
转换模块440,用于将内容特征输入标准词自编码模型,获得目标医学实体词对应的第一自编码向量;
索引模块450,用于从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词,将医学标准词作为目标医学实体词对应的目标医学标准词。
由于本申请实施例中的装置解决问题的原理与本申请上述实施例的医学实体词的识别方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
实施例三
本申请的实施例提供了一种医学标准化自编码系统,该系统通过标准词自编码模型,在全量的医学标准词的数据库中自动推荐匹配的医学标准词,从而获得与目标医学实体词对应的目标医学标准词。生成医学标准化自编码系统的具体步骤包括两方面,第一方面是创建标准化模型,第二方面是进行标准化,第一方面包括:
步骤1:基于现有的医学标注,建立病例原文中疾病关键词与医学标准词的映射关系,这里的疾病关键词与医学标准词的关联词对(如甲亢-甲状腺功能亢进症)为正样本训练数据,建立正样本训练数据集;
步骤2:基于疾病关键词与医学标准词的数据对生成疾病关键词与医学相似词的关联词对,其中医学相似词为与疾病关键词对应的医学标准词具有相似的医学意义,但不完全为同一疾病的医学标准化名称,这里的疾病关键词与医学相似词的关联词对(如甲亢-甲状腺功能减退症)为负样本训练数据,建立负样本训练数据库;
步骤3:分别使用正样本训练数据集和负样本训练数据集对二分类模型进行训练,生成训练后的二分类模型;
步骤5:根据步骤3中训练后的二分类模型提取其中的池化层,将BERT预训练模型输出的自编码向量输入池化层,根据池化层的输出结果对BERT预训练模型的超参数进行调整,从而生成微调后的标准化模型;
第二方面包括:
步骤7:获取用户向系统内输入的病例文本,对病例文本进行预处理,识别出病例文本中的目标关键词;
步骤8:基于识别出的目标关键词生成识别请求发送给医学标准化自编码系统的控制中心;
步骤9,基于识别请求进行识别,从而获得目标医学实体词及其对应的目标医学标准词;
步骤10:以在目标病例文本中将目标医学标准词标注在目标医学实体词的方式展示给用户。
在该实施例中,基于BERT构建医学标准词自编码框架,使用faiss构建高效的基于向量的最佳匹配推荐,从而将获得的与目标医学实体词匹配的目标医学标准词标注在目标医学实体词上,提高了医学标准词匹配的灵活性、完整性、准确性和使用效率,适应了医学标准词映射实际使用和同步更新的需求。
实施例四
基于同一申请构思,参见图5所示,为本申请实施例提供的一种电子设备500的结构,该电子设备500包括:至少一个处理器501,至少一个网络接口504或者其他用户接口503,存储器505,至少一个通信总线502。通信总线502用于实现这些组件之间的连接通信。该电子设备500可选的包含用户接口503,包括显示器(例如,触摸屏、LCD、CRT、全息成像(Holographic)或者投影(Projector)等),键盘或者点击设备(例如,鼠标,轨迹球(trackball),触感板或者触摸屏等)。
存储器505可以包括只读存储器和随机存取存储器,并向处理器501提供指令和数据。存储器505的一部分还可以包括非易失性随机存取存储器(NVRAM)。
在一些实施方式中,存储器505存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统5051,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
应用程序5052,包含各种应用程序,例如桌面(launcher)、媒体播放器(MediaPlayer)、浏览器(Browser)等,用于实现各种应用业务。
在本发明实施例中,通过调用存储器505存储的程序或指令,处理器501用于执行上述任一实施例提供的医学实体词的识别方法的步骤。
基于同一申请构思,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例提供的医学实体词的识别的方法的步骤。
具体地,所述存储介质能够为通用的存储介质,如移动磁盘、硬盘等,所述存储介质上的计算机程序被运行时,能够执行上述定位引导方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应所述理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来,所述计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种医学实体词的识别方法,其特征在于,包括:
构建用于表征医学实体词与自编码向量之间对应关系的预训练模型;
利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对所述预训练模型进行微调,以生成标准词自编码模型;
提取目标病例文本中的目标医学实体词的内容特征;
将所述内容特征输入所述标准词自编码模型,获得目标医学实体词对应的第一自编码向量,所述第一自编码向量为所述医学实体词的语义表征向量;
从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词,具体包括:所述医学标准词编码索引库存储有医学标准词以及与医学标准词对应的自编码向量,计算第一自编码向量与医学标准词编码索引库中所存储的各自编码向量的相似度,将相似度最高的自编码向量所对应的医学标准词确定为与第一自编码向量对应的医学标准词;
将所述医学标准词作为所述目标医学实体词对应的目标医学标准词;
所述内容特征包括:字向量、声调向量、词性向量和位置向量,
其中,将所述内容特征输入所述标准词自编码模型的步骤包括:
将字向量、声调向量、词性向量和位置向量按照预设的排列顺序输入所述标准词自编码模型,其中,所述排列顺序为从字向量、声调向量、词性向量到位置向量的顺序。
2.根据权利要求1所述的识别方法,其特征在于,所述二分类模型是利用正训练样本和负训练样本训练得到的,
其中,所述正训练样本通过以下方式获得:
从医学标准词库中查找与病历文本中的医学实体词的医学意义相同的第一医学标准词;
建立病例文本中的医学实体词与第一医学标准词之间的第一映射关系,以生成标准数据对;
基于所述标准数据对形成正训练样本;
其中,所述负训练样本通过以下方式获得:
从医学标准词库中查找与病历文本中的医学实体词的医学意义相近但词意不同的第二医学标准词;
建立病例文本中的医学实体词与第二医学标准词之间的第二映射关系,以生成标记数据对;
基于所述标记数据对形成负训练样本。
3.根据权利要求2所述的识别方法,其特征在于,利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对所述预训练模型进行微调,以生成标准词自编码模型的步骤包括:
将全量的医学标准词的内容特征输入预训练模型,以输出医学标准词对应的第二自编码向量;
将所述第二自编码向量输入所述二分类模型的池化层,以输出分类结果;
根据输出的所述分类结果调节所述预训练模型的模型参数,以生成标准词自编码模型。
4.根据权利要求1所述的识别方法,其特征在于,
所述医学标准词编码索引库通过以下方式构建:
提取全量的医学标准词的内容特征;
将所提取的内容特征分别输入标准词自编码模型,获得每个医学标准词对应的自编码向量;
基于医学标准词以及与医学标准词对应的自编码向量构建医学标准词编码索引库。
6.根据权利要求1所述的识别方法,其特征在于,通过以下方式获得目标医学实体词:
接收请求端发送的携带有目标医学实体词的识别请求;
从所述识别请求中提取所述目标医学实体词;
其中,所述识别方法还包括:
向请求端反馈针对识别请求的应答信息,所述应答信息中携带有与目标医学实体词对应的目标医学标准词,以使请求端将所述目标医学标准词作为标注词添加到目标病历文本中来对目标医学实体词进行标注。
7.一种医学实体词的识别装置,其特征在于,包括:
构建模块,用于构建用于表征医学实体词与自编码向量之间对应关系的预训练模型;
生成模块,用于利用二分类模型针对所构建的预训练模型的输出结果进行识别,并基于识别结果对所述预训练模型进行微调,以生成标准词自编码模型;
提取模块,用于提取目标病例文本中的目标医学实体词的内容特征;
转换模块,用于将所述内容特征输入所述标准词自编码模型,获得目标医学实体词对应的第一自编码向量,所述第一自编码向量为所述医学实体词的语义表征向量;
索引模块,用于从医学标准词编码索引库中查找与第一自编码向量对应的医学标准词,将所述医学标准词作为所述目标医学实体词对应的目标医学标准词,还用于所述医学标准词编码索引库存储有医学标准词以及与医学标准词对应的自编码向量,计算第一自编码向量与医学标准词编码索引库中所存储的各自编码向量的相似度,将相似度最高的自编码向量所对应的医学标准词确定为与第一自编码向量对应的医学标准词;
所述内容特征包括:字向量、声调向量、词性向量和位置向量,
其中,所述转换模块具体用于:
将字向量、声调向量、词性向量和位置向量按照预设的排列顺序输入所述标准词自编码模型,其中,所述排列顺序为从字向量、声调向量、词性向量到位置向量的顺序。
8.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110841311.0A CN113297852B (zh) | 2021-07-26 | 2021-07-26 | 一种医学实体词的识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110841311.0A CN113297852B (zh) | 2021-07-26 | 2021-07-26 | 一种医学实体词的识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113297852A CN113297852A (zh) | 2021-08-24 |
CN113297852B true CN113297852B (zh) | 2021-11-12 |
Family
ID=77330896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110841311.0A Active CN113297852B (zh) | 2021-07-26 | 2021-07-26 | 一种医学实体词的识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113297852B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115994227B (zh) * | 2023-03-23 | 2023-06-06 | 北京左医科技有限公司 | 医学术语标准化模型的构建方法、装置、终端设备及介质 |
CN116167354B (zh) * | 2023-04-19 | 2023-07-07 | 北京亚信数据有限公司 | 医疗专业名词特征提取模型训练、标准化方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN107808124A (zh) * | 2017-10-09 | 2018-03-16 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
CN108182976A (zh) * | 2017-12-28 | 2018-06-19 | 西安交通大学 | 一种基于神经网络的临床医学信息提取方法 |
CN109918475A (zh) * | 2019-01-24 | 2019-06-21 | 西安交通大学 | 一种基于医疗知识图谱的可视查询方法及查询系统 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN110059185A (zh) * | 2019-04-03 | 2019-07-26 | 天津科技大学 | 一种医学文档专业词汇自动化标注方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100825687B1 (ko) * | 2006-03-08 | 2008-04-29 | 학교법인 포항공과대학교 | 워크벤치 기반의 생물학적 개체명 인식 방법 및 시스템 |
KR101897060B1 (ko) * | 2016-10-24 | 2018-09-12 | 가천대학교 산학협력단 | 개체명 인식 모델 생성 장치 및 방법 |
KR102053419B1 (ko) * | 2017-04-06 | 2019-12-09 | 네이버 주식회사 | 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램 |
KR102139272B1 (ko) * | 2019-02-20 | 2020-07-30 | 광주과학기술원 | 생의학적 개체명 인식 시스템 |
-
2021
- 2021-07-26 CN CN202110841311.0A patent/CN113297852B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105894088A (zh) * | 2016-03-25 | 2016-08-24 | 苏州赫博特医疗信息科技有限公司 | 基于深度学习及分布式语义特征医学信息抽取系统及方法 |
CN107808124A (zh) * | 2017-10-09 | 2018-03-16 | 平安科技(深圳)有限公司 | 电子装置、医疗文本实体命名的识别方法及存储介质 |
CN108182976A (zh) * | 2017-12-28 | 2018-06-19 | 西安交通大学 | 一种基于神经网络的临床医学信息提取方法 |
CN110019839A (zh) * | 2018-01-03 | 2019-07-16 | 中国科学院计算技术研究所 | 基于神经网络和远程监督的医学知识图谱构建方法和系统 |
CN109918475A (zh) * | 2019-01-24 | 2019-06-21 | 西安交通大学 | 一种基于医疗知识图谱的可视查询方法及查询系统 |
CN110059185A (zh) * | 2019-04-03 | 2019-07-26 | 天津科技大学 | 一种医学文档专业词汇自动化标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113297852A (zh) | 2021-08-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10521464B2 (en) | Method and system for extracting, verifying and cataloging technical information from unstructured documents | |
US20220237230A1 (en) | System and method for automated file reporting | |
CN112001177A (zh) | 融合深度学习与规则的电子病历命名实体识别方法及系统 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
US20200372025A1 (en) | Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN113297852B (zh) | 一种医学实体词的识别方法和装置 | |
CN111695336A (zh) | 疾病名称对码方法、装置、计算机设备及存储介质 | |
US20200192921A1 (en) | Suggesting text in an electronic document | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN114996388A (zh) | 一种诊断名称标准化的智能匹配方法及系统 | |
CN111611775A (zh) | 一种实体识别模型生成方法、实体识别方法及装置、设备 | |
CN111143556A (zh) | 软件功能点自动计数方法、装置、介质及电子设备 | |
CN114298035A (zh) | 一种文本识别脱敏方法及其系统 | |
CN117407558B (zh) | 一种海洋遥感图文检索方法、装置、电子设备及存储介质 | |
CN111353311A (zh) | 一种命名实体识别方法、装置、计算机设备及存储介质 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN111581972A (zh) | 文本中症状和部位对应关系识别方法、装置、设备及介质 | |
CN111755090A (zh) | 病历查找方法、病历查找装置、存储介质与电子设备 | |
AU2019290658B2 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN116719840A (zh) | 一种基于病历后结构化处理的医疗信息推送方法 | |
CN115588430A (zh) | 基于用户语音的智能查询方法、装置、设备及存储介质 | |
CN114068028A (zh) | 医疗问诊数据处理方法及装置、可读存储介质及电子设备 | |
CN114783596B (zh) | 诊断数据识别方法及装置、电子设备、存储介质 | |
CN116992874B (zh) | 一种文本引用审核溯源方法、系统、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |