CN117038099A - 医疗类术语标准化方法以及装置 - Google Patents
医疗类术语标准化方法以及装置 Download PDFInfo
- Publication number
- CN117038099A CN117038099A CN202311156799.9A CN202311156799A CN117038099A CN 117038099 A CN117038099 A CN 117038099A CN 202311156799 A CN202311156799 A CN 202311156799A CN 117038099 A CN117038099 A CN 117038099A
- Authority
- CN
- China
- Prior art keywords
- standard
- text
- coding
- matched
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011425 standardization method Methods 0.000 title abstract description 11
- 239000013598 vector Substances 0.000 claims abstract description 190
- 230000000877 morphologic effect Effects 0.000 claims abstract description 154
- 201000010099 disease Diseases 0.000 claims abstract description 134
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 134
- 238000012549 training Methods 0.000 claims abstract description 112
- 238000000034 method Methods 0.000 claims abstract description 55
- 238000001514 detection method Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 9
- 206010028980 Neoplasm Diseases 0.000 description 17
- 238000004590 computer program Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 210000002784 stomach Anatomy 0.000 description 6
- 208000003200 Adenoma Diseases 0.000 description 4
- 206010001233 Adenoma benign Diseases 0.000 description 4
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 4
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 4
- 238000013145 classification model Methods 0.000 description 4
- 230000019771 cognition Effects 0.000 description 4
- 238000003745 diagnosis Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 206010048832 Colon adenoma Diseases 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 208000022271 tubular adenoma Diseases 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pathology (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种医疗类术语标准化方法以及装置,此方法基于预先训练得到的编码器模型确定与待匹配疾病文本相对应的待匹配特征向量;确定待匹配特征向量和标准向量库中各标准向量之间的向量相似度;其中,标准向量对应于标准语句,标准语句包括标准编码语句和/或形态学编码语句;基于待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定待匹配疾病文本与各标准语句之间的相似置信度;基于向量相似度、相似置信度以及与待匹配疾病文本相对应的形态编码分类结果,确定与待匹配疾病文本相对应的目标标准语句。本技术方案实现了有效、准确的确定与待匹配疾病文本相对应的目标标准语句,从而得到其标准编码和/或形态学编码的效果。
Description
技术领域
本发明涉及计算机处理技术领域,尤其涉及一种医疗类术语标准化方法、以及装置。
背景技术
医生在书写病历时,由于口语化表述习惯等原因,录入到电子病历系统中的疾病名称并不能完全与ICD-10编码一致,导致电子病历信息无法被计算机识别和处理。为了解决该问题,通过智能技术将电子病历上口语化的疾病名称映射到标准ICD-10编码上,可以提高临床数据的质量,便于数据应用到下游如临床统计、分组计费等场景中。
其中一类特殊的场景是肿瘤术语标准化,可选的,可以基于用户对肿瘤类术语进行标准化处理,然而在人工的编码员对肿瘤类术语的标化过程中,部分词条仅需要给出标准编码,而部分词条需要在给出标准编码的同时提供形态学编码以辅助更准确的表述肿瘤疾病信息,比如“胃窦管状腺瘤”标化时,需要标注标准编码<D13.102,胃良性肿瘤>,同时附带形态学编码<M821100/3,管状腺瘤>方能完整表达词条信息,因此,基于人工编码时,存在认知不准确导致编码出错的问题,进一步的,在基于人工编码时,存在人力成本较高的问题。
发明内容
本发明提供了一种医疗类术语标准化方法以及装置,以实现高效、准确的确定与待匹配疾病文本相对应的目标标准化语句,并确定与目标标准化语句相对应的标准编码和/或形态学编码,从而达到标准化显示的效果。
根据本发明的一方面,提供了一种医疗类术语标准化方法,该方法包括:
基于预先训练得到的编码器模型确定与所述待匹配疾病文本相对应的待匹配特征向量;
确定所述待匹配特征向量和标准向量库中各标准向量之间的向量相似度;其中,所述标准向量对应于标准语句,所述标准语句包括标准编码语句和/或形态学编码语句,所述标准向量是基于所述编码器模型确定的;
基于所述待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定所述待匹配疾病文本与各标准语句之间的相似置信度;
基于所述向量相似度、相似置信度以及与所述待匹配疾病文本相对应的形态编码分类结果,确定与所述待匹配疾病文本相对应的目标标准语句;
反馈所述目标标准语句。
进一步的,所述方法还包括:
训练得到所述编码器模型;
所述训练得到所述编码器模型,包括:
对于各待标准化文本,根据当前待标准化文本的标准编码语句和/或形态编码语句,确定至少一个训练样本;
基于所述训练样本中的当前待标准化文本输入至待训练编码器模型中,得到第一向量;以及,将与所述当前待标准化文本的标准编码语句或形态编码语句输入至所述待训练编码器中,得到第二向量;
基于各训练样本的第一向量和所述第二向量对所述待训练编码模型中的模型参数进行修正;
将所述待训练编码器模型中的损失函数收敛作为训练目标,得到所述编码器模型。
进一步的,所述方法还包括:
训练得到相似判别模型;
所述训练得到所述相似判别模型,包括:
获取待标准化文本、与所述待标准化文本相对应的标准编码语句或,与所述待标准化文本相对应的标准编码语句和形态编码语句;
基于所述待标准化文本以及相应的标准编码语句,确定训练杨嫩,以及基于所述待标准化文本以及相应的形态编码语句,更新所述训练样本;
通过对训练样本中的待标准化文本以及相应的标准编码语句或形态编码语句拼接处理,得到正样本;
基于待标准化文本以及与其不相符的标准编码语句或形态编码语句拼接处理,得到负样本;
基于所述正样本以及负样本对待训练相似判别模型进行训练,得到所述相似判别模型。
进一步的,所述方法还包括:
训练得到形态学编码检测模型,以基于所述形态学编码检测模型对待匹配疾病文本进行处理,确定所述待匹配疾病文本是否存在形态学编码文本,以确定与所述待匹配疾病文本相对应的目标标准语句。
进一步的,所述方法还包括,所述训练得到形态学编码检测模型,包括:
获取待标准化文本,并基于所述待标准化文本是否存在形态学编码语句,确定目标标签;
对于所述待标准化文本和相应的目标标签对待训练形态学编码检测模型进行处理,得到所述形态学编码检测模型。
进一步的,所述方法还包括,所述确定所述待匹配特征向量和标准向量库中各标准向量之间的向量相似度,包括:
对于各标准向量,基于预先相似度法确定所述待匹配特征向量与当前标准向量之间的向量相似度。
进一步的,所述方法还包括,所述基于所述待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定所述待匹配疾病文本与各标准语句之间的相似置信度,包括:
对于各标准语句,通过对所述待匹配疾病文本以及当前标准语句拼接处理,确定待输入拼接语句;
将所述待输入拼接语句输入至所述相似判别模型,确定所述当前标准语句与所述待匹配疾病文本相对应的相似置信度。
进一步的,所述方法还包括:所述基于所述向量相似度、相似置信度以及与所述待匹配疾病文本相对应的形态编码分类结果,确定与所述待匹配疾病文本相对应的目标标准语句,包括:
对于各标准语句,依据当前标准语句所对应的向量相似度、相似置信度以及相应的权重值,确定所述当前标准语句的目标相似度;
将所述待匹配疾病文本输入至形态学编码检测模型,确定是否存在与所述待匹配疾病文本相对应的形态学编码语句;
若是,则基于所述目标相似度确定目标形态学编码文本以及目标标准编码语句。
进一步的,所述方法还包括:
若否,则剔除形态学编码文本所对应的目标相似度,以依据目标相似度从标准语句中确定目标标准编码语句。
根据本发明的另一方面,提供了一种医疗类术语标准化装置,该装置包括:
特征向量确定模块,用于基于预先训练得到的编码器模型确定与所述待匹配疾病文本相对应的待匹配特征向量;
相似度确定模块,用于确定所述待匹配特征向量和标准向量库中各标准向量之间的向量相似度;其中,所述标准向量对应于标准语句,所述标准语句包括标准编码语句和/或形态学编码语句,所述标准向量是基于所述编码器模型确定的;
置信度确定模块,用于基于所述待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定所述待匹配疾病文本与各标准语句之间的相似置信度;
标准语句确定模块,用于基于所述向量相似度、相似置信度以及与所述待匹配疾病文本相对应的形态编码分类结果,确定与所述待匹配疾病文本相对应的目标标准语句;
标准语句反馈模块,用于反馈所述目标标准语句。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明实施例任一所述的医疗类术语标准化方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明实施例任一所述的医疗类术语标准化方法。
本发明实施例的技术方案,通过基于预先训练得到的编码器模型确定与所述待匹配疾病文本相对应的待匹配特征向量;确定所述待匹配特征向量和标准向量库中各标准向量之间的向量相似度;基于所述待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定所述待匹配疾病文本与各标准语句之间的相似置信度;基于所述向量相似度、相似置信度以及与所述待匹配疾病文本相对应的形态编码分类结果,确定与所述待匹配疾病文本相对应的目标标准语句;反馈所述目标标准语句,解决了现有技术中对上传的待匹配疾病文本进行编码时,需要人工编码,存在人工认知偏差,导致编码出现错误,不便于后续使用的情形,达到了自动化确定与待匹配疾病文本相对应的目标标准语句,进而基于目标标准语句确定与其相匹配的目标编码,提高了确定编码便捷性和高效性的技术效果。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种医疗类术语标准化方法的流程示意图;
图2是根据本发明实施例二提供的一种医疗类术语标准化方法的流程示意图;
图3是根据本发明实施例三提供的一种医疗类术语标准化方法的流程示意图;
图4是根据本发明实施例四提供的一种医疗类术语标准化方法的流程示意图;
图5是根据本发明实施例五提供的一种医疗类术语标准化装置的结构示意图;
图6是实现本发明实施例的医疗类术语标准化方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1是根据本发明实施例一提供的一种医疗类术语标准化方法的流程示意图,本实施例可以应用在任意需要将诊疗人员写的文本信息或上传的文本信息,转换为相应的标准化医疗术语,即对待匹配疾病文本进行标准编码,以达到高效识别的情形,该医疗术语标准化方法可以由医疗术语标准化装置来实现,该装置可以采用硬件和/或软件的形式实现,该硬件可以集成在计算机设备中,该以计算机设备可以是移动终端或者PC端等。
如图1所示,该方法包括:
S110、基于预先训练得到的编码器模型确定与待匹配疾病文本相对应的待匹配特征向量。
其中,编码器模型为预先训练的,用于确定与待匹配疾病文本相对应的特征向量。待匹配疾病文本为接收到需要对其进行标准化处理的文本,即需要确定其标准化编码的文本。
在实际应用中,诊疗人员可以根据用户的病症信息编辑相应的文本,即生成与就诊用户相对应的诊疗结果信息。此时诊疗结果信息中可以包括用户的病症描述,基于病症描述可以生成待匹配疾病文本。相应的,待匹配特征向量是与待匹配疾病文本相对应的,即,将待匹配疾病文本用向量的形式来表达。
具体的,待匹配疾病文本输入至预先训练好的编码器模型中,编码器模型可以输出与待匹配疾病文本相对应相对应的待匹配特征向量。
S120、确定待匹配特征向量和标准向量库中各标准向量之间的向量相似度;其中,标准向量对应于标准语句,标准语句包括标准编码语句和/或形态学编码语句,标准向量是基于编码器模型确定的。
其中,标准向量库中包括多个标准向量,每个标准向量可以是肿瘤标准化,得到与其相对应的标准语句,再基于训练得到的编码器模型确定与标准语句所对应的向量。即标准向量是与肿瘤的标准化表示相对应,与ICD-10编码一致时所对应的语句。还需要说明的是,肿瘤的标准化表示可以由标准编码和/或形态学编码,相应的,肿瘤的标准化表示可以包括标准编码对应的文字表述,即标准编码语句,以及和形态学编码所对应的文字表述,即形态学编码语句。可以理解为,标准向量库中包括肿瘤所对应标准向量也包括至少两个向量,一个与标准编码文字相对应的向量,一个与形态学编码语句相对应的向量。
还需要说明的,本发明实施例所提供的技术方案可以应用在对肿瘤的标准化表示场景中,或者,应用到其他疾病类型中,需要对其进行标准化表示的情景下。
在实际应用中,一个肿瘤名称可能存在标准编码语句和形态学编码语句,也有可能仅存在标准编码语句。相应的,标准向量库中可以包同一肿瘤信息所对应的一个或者两个向量。
其中,相似度用于表征两个向量之间的相似性,可选的,相似度值越高,说明两个向量之间越相似,反之,越不相似。标准向量对应于标准语句,标准语句中包括标准编码语句和形态学编码语句,或者,标准语句中仅包括标准编码语句。
具体的,在确定出待匹配疾病文本所对应的待匹配特征向量之后,可以计算待匹配特征向量与标准向量库中每个标准向量之间的相似度,将计算出的相似度作为向量相似度。
示例性的,对于待匹配疾病文本,使用编码器模型确定其文本向量(待匹配特征向量),并与标准向量库中的各标准向量进行相似度比较,使用cos余弦距离评估文本间相似度,得到待匹配疾病文本与各标准向量之间的向量相似度。
可选的,对于各标准向量,基于预设相似度法确定所述待匹配特征向量与当前标准向量之间的向量相似度。
在本实施例中,预设相似度法可以是余弦相似度法。
具体的,对于每个标准向量,可以采用余弦相似度法确定当前标准向量与待匹配特征向量之间的相似度,得到待匹配特征向量相对于当前待匹配特征向量之间的向量相似度。
S130、基于待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定待匹配疾病文本与各标准语句之间的相似置信度。
其中,相似判别模型为预先训练好的模型,该模型可以确定待匹配疾病文本与各标准向量所对应的标准语句之间的相似性。相似置信度用于标准待匹配疾病与标准语句之间的相似时的可信度。
具体的,对于每一个标准语句,可以基于相似判别模型对待匹配疾病文本和标准语句进行处理,以确定待匹配文本与标准语句之间的相似性。此时,标准语句中仅包括标准编码语句或形态学编码语句。
可选的,对于各标准语句,通过对所述待匹配疾病文本以及当前标准语句拼接处理,确定待输入拼接语句;将所述待输入拼接语句输入至所述相似判别模型,确定所述当前标准语句与所述待匹配疾病文本相对应的相似置信度。
其中,待输入拼接语句为待匹配疾病文本与当前标准语句拼接后所得到的雨具。标准语句中仅包括标准编码语句或形态学编码语句。可以将待匹配语句与标准编码语句拼接得到一个待输入拼接语句,也可以将待匹配语句与形态学编码语句进行拼接,得到一个待输入拼接语句。
可以将待输入拼接语句输入至相似判别模型中,相似判别模型可以输出相似置信度,即,可以确定待输入拼接语句中两个拼接语句之间的相似置信度。
示例性的,提取待匹配疾病文本中其TopK个词条,并逐一与标准向量所对应的标准编码语句,或形态学编码语句组合拼接后,使用相似判别模型判断组合后的文本是否相似,并给出置信度。
S140、基于向量相似度、相似置信度以及与待匹配疾病文本相对应的形态编码分类结果,确定与待匹配疾病文本相对应的目标标准语句。
其中,形态学编码分类结果是基于形态学编码分类模型确定的,该形态学编码分类模型是一个二分类模型。该形态学编码分类模型可以对输入的待匹配疾病文本处理,确定其是否存在形态学编码分类结果。也就是说,形态学编码分类结果包括有形态学编码或者无形态学编码。目标标准语句为最终确定出的与待匹配疾病文本相对应的形态学编码语句和标准编码语句,或者,目标标准语句中仅包括标准编码语句。
具体的,在确定目标标准语句是基于标准库中每个标准向量所对应的标准语句,确定的向量相似度、相似置信度以及形态学编码分类结果,确定出的。
进一步的,如何基于向量相似度、相似置信度以及与待匹配疾病文本相对应的形态学编码分类结果,确定目标标准语句,可以是:对于各标准语句,依据当前标准语句所对应的向量相似度、相似置信度以及相应的权重值,确定所述当前标准语句的目标相似度;将所述待匹配疾病文本输入至形态学编码检测模型,确定是否存在与所述待匹配疾病文本相对应的形态学编码语句;若是,则基于所述目标相似度确定目标形态学编码语句以及目标标准编码语句。
其中,可以设置向量相似度的权重值,以及相似置信度的权重值。目标相似度是基于向量相似度和相似置信度确定出的最终相似度,即,目标相似度用于表征各标准语句相对于待匹配疾病文本的最终相似度。
具体的,可以基于与向量相似度相对应的权重值,以及与相似置信度相对应的权重值,确定各标准语句相对于待匹配疾病文本的目标相似度。在确定目标相似度的同时,可以将待匹配疾病文本输入至形态学编码检测模型中,该检测模型可以确定待匹配疾病文本是否存在形态学编码语句,即是否存在形态学编码。基于形态学编码检测模型的输出结果,可以依据目标相似度对各标准语句进行排序,确定与待匹配疾病文本相匹配得的目标标准语句。目标标准语句中包括目标形态编码语句和目标标准编码语句,或者,目标标准语句中仅包括目标标准编码语句。
可选的,若否,则剔除形态学编码文本所对应的目标相似度,以依据目标相似度从标准语句中确定目标标准编码语句。
可以理解为,如果形态学编码检测模型的输出结果为否,则说明待匹配疾病文本不存在形态学编码语句,此时,可以提出标准语句中形态学编码语句,即,仅包括标准编码语句。依据标准编码语句的目标相似度,确定目标标准编码语句。即,最终确定出的编码语句中仅包括目标标准编码语句。
示例性的,在得到各标准向量所对应的向量相似度和相似置信度之后,可以进行加权求和,确定各标准向量与待匹配疾病文本之间的目标相似度。进一步的,在得到目标相似度之后,可以依据目标相似度分别对形态学编码语句和标准编码语句进行排序处理。同时,将待匹配疾病文本输入至形态学编码检测模型中,确定其是否存在形态学编码语句。若输出的结果与包括形态学编码语句的分类标签相对应,则可以分别从形态学编码语句中选择目标相似度值最高的形态学编码语句,作为目标形态学编码语句,同时,可以从标准编码语句中选择相似度值最高的标准编码语句作为目标标准编码语句。
S150、反馈目标标准语句。
可以理解为,可以将目标标准语句反馈至目标位置进行显示,目标位置可以是目标终端或者PC端等。
在反馈了目标标准语句后,可以确定与其相对应的标准编码,或者标准编码以及形态学编码,从而达到数据结构化的效果,以便于后续使用。
本发明实施例的技术方案,通过基于预先训练得到的编码器模型确定与所述待匹配疾病文本相对应的待匹配特征向量;确定所述待匹配特征向量和标准向量库中各标准向量之间的向量相似度;基于所述待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定所述待匹配疾病文本与各标准语句之间的相似置信度;基于所述向量相似度、相似置信度以及与所述待匹配疾病文本相对应的形态编码分类结果,确定与所述待匹配疾病文本相对应的目标标准语句;反馈所述目标标准语句,解决了现有技术中对上传的待匹配疾病文本进行编码时,需要人工编码,存在人工认知偏差,导致编码出现错误,不便于后续使用的情形,达到了自动化确定与待匹配疾病文本相对应的目标标准语句,进而基于目标标准语句确定与其相匹配的目标编码,提高了确定编码便捷性和高效性的技术效果。
实施例二
图2是本发明实施例二所提供的一种医疗术语标准化方法流程示意图,在上述实施例的基础上,可以先训练得到编码器模型,以基于训练得到的编码器模型确定与各文本相对应的特征向量,其具体的训练方式可以参见本实施例的详细阐述,其中与上述实施例相同或者相应的技术术语在此不再赘述。
如图2所示,所述方法包括:
S210、对于各待标准化文本,根据当前待标准化文本的标准编码语句和/或形态学编码语句,确定至少一个训练样本。
其中,待标准化文本是预先获取的各肿瘤疾病所对应的描述文本,该描述文本中可以包括标准编码语句、标准编码语句和形态学编码语句。待标准文本是基于理论确定出的文本,也可以是诊疗用户所编辑的文本。至少一个训练样本的数量可以是多个,当然,为了提高后续训练出的模型的准确性,可以尽可能多而丰富的获取训练样本。每个训练样本中包括待标准化文本和相应的标准编码语句,或者是,待标准化文本和相应的形态学编码语句。
可以理解为:首先需要准备好带有标签的数据集,此时的标签主要是该待标准化文本对应有相应的标准编码语句、或者是不仅包括标准编码语句还包括形态学编码语句。对于仅有标准编码语句的数据直接构造成对数据,对于同时拥有标准编码语句和形态学编码语句的数据,将其拆分为两组成对数据,两组成对数据可以是待标准化语句-标准编码语句,待标准化语句-形态学编码语句。基于上述方式得到多个训练样本。
例如,待标准化文本为“胃窦管状腺瘤”标准化编码语句为胃良性肿瘤,形态学编码语句为管状腺瘤,即,一个待标准化文本包括形态学编码语句也包括标准化编码语句,此时,可以构造出两个训练样本,一个为胃窦管状腺瘤-胃良性肿瘤;另一个为胃窦管状腺瘤-管状腺瘤。
S220、基于训练样本中的当前待标准化文本输入至待训练编码器模型中,得到第一向量;以及,将与当前待标准化文本的标准编码语句或形态编码语句输入至待训练编码器模型中,得到第二向量。
需要说明的是,可以采用对比学习的方式来训练得到编码器模型。待训练编码器模型为构建好并未完成训练的模型,此时待训练编码器模型中的模型参数为默认参数,即,输出的结果并不准确,可以基于训练样本对待训练编码器模型进行训练,以得到可以输出准确结果的编码器模型。第一向量是待标准化文本相对应,第二向量是与标准化文本所对应的标砖编码语句或形态学编码语句相对应。
其中,待训练编码器模型可以使用ERNIE-Health作为底层基座模型,基于构建的成对数据使用对比学习方法进行模型微调,得到完成微调的编码器模型
还需要说明的是,对于每个训练样本来说,对其训练的方式都是相同的,可以以对其中一个训练样本处理为例来说明,可以将当前介绍的训练样本作为当前训练样本,相应的,在模型训练过程中,每一个训练样本均会作为当前训练样本来处理。
具体的,可以将当前待标准化文本输入至待训练编码器模型中,得到与该待标准化文本相对应的第一向量,相应的,可以将与当前待标准化文本相对应的形态学编码语句或标准编码语句输入至待训练编码器模型中,得到相应的第二向量。
S230、基于各训练样本的第一向量和第二向量对所述待训练编码器模型中的模型参数进行修正。
可以理解为,对于每个训练样本来说,在得到当前训练样本所对应的第一向量和第二向量中的模型参数进行修正。
S240、将所述待训练编码器模型中的损失函数收敛作为训练目标,得到所述编码器模型。
具体的,将损失函数作为训练目标,来训练得到编码器模型。
在训练得到编码器模型之后,所述方法还包括:确定标准向量库。所述确定标准向量库,包括:基于预先确定的肿瘤疾病所对应的形状和类型,确定相应的文本。将文本输入至编码器模型中,得到与每个文本相对应的标准向量。基于各标准向量,构建标准向量库。
本发明实施例所提供的技术方案,可以基于预设方式构建训练样本,并基于对比学习的方式训练得到编码器模型,进一步的,基于编码器模型确定待匹配疾病文本所对应的特征向量,再次,结合特征向量和基于编码器构建的标准向量库,确定待匹配疾病文本所对应的向量相似度,进而结合向量相似度来确定与待匹配疾病文本相对应的目标标准语句,提高了确定目标标准语句便捷性的效果,相应的,在确定目标标准语句后,可以根据目标标准语句所对应的编码确定待匹配疾病文本所对应的编码,实现了文本同一编码以及结构化的技术效果。
实施例三
图3是本发明实施例三所提供的一种医疗术语标准化方法流程示意图,在上述实施例的基础上,还可以训练相似判别模型,以基于相似判别模型确定两个文本之间的相似度,其具体的训练方式可以参见本实施例的详细阐述,其中与上述实施例相同或者相应的技术术语在此不再赘述。
如图3所示,所述方法包括:
S310、获取待标准化文本、与所述待标准化文本相对应的标准编码语句或,与所述待标准化文本相对应的标准编码语句和形态学编码语句。
需要说明的的,待标准化文本可以与上述实施例二所提供的文本相一致。相应的,也可以包括该待标准化文本相对应的标准编码语句和形态学编码语句,也仅可以包括标准编码语句。
S320、基于所述待标准化文本以及相应的标准编码语句,确定训练样本,以及基于所述待标准化文本以及相应的形态编码语句,扩充所述训练样本。
可以理解为,确定训练样本的方式与上述所提及的训练样本相同。
S330、通过对训练样本中的待标准化文本以及相应的标准编码语句或形态编码语句拼接处理,得到正样本。
可以理解为,训练样本中可以包括待标准化文本以及相应的标准编码语句,或者,训练样本中可以待标准化文本以及相应的形态学编码语句。在得到上述训练样本的基础上,可以采用特殊的字符对训练样本中的内容拼接处理。
具体的,可以将训练样本中的待标准化文本与标准编码语句拼接在一起,得到一个正样本。进一步的,可以将训练样本中的待标准化文本与形态学编码语句拼接在一起,得到一个正样本。
S340、基于待标准化文本以及与其不相符的标准编码语句或形态编码语句拼接处理,得到负样本。
在基于训练样本的基础上,可以知道待标准化文本对应的标准编码语句和形态学编码语句分别是什么,相应的,对其拼接处理后,可以得到正样本。相应的,待标准化文本和与之不匹配的标准编码语句或形态学编码语句拼接处理,得到负样本。
S350、基于所述正样本以及所述负样本对待训练相似判别模型进行训练,得到所述相似判别模型。
可以理解为,基于正样本以及负样本确定对待训练相似判别模型相对应的样本。其具体的训练方式可以对待训练相似判别模型进行训练,得到后续可以使用的相似判别模型。
可以理解为,将正样本中拼接的文本输入至待训练相似判别模型中,将正样本所对应的标签作为参考依据,来训练得到相似判别模型。
上述训练得到相似判别模型可以是:
对于有标签成对数据集,进行数据重构,将每对文本使用特殊token进行拼接,构建文本相似二分类数据集。使用构建的文本相似二分类数据集进行模型预训练,使用ERNIE-Health作为底层基座模型,增加softmax顶层结构,微调模型参数,训练得到相似判别模型,用于判定两个文本是否相似。
对于待匹配疾病文本,提取其TopK个词条,并逐一与标准向量库中各标准向量所对应的标准语句拼接,使用相似判别模型判断待匹配疾病文本与标准语句是否相似,并给出置信度。
本发明实施例所提供的技术方案,可以采用上述方式训练得到相似判别模型,基于相似判别模型可以确定待匹配疾病文本与标准语句之间的相似置信度,以基于相似置信度确定与待匹配文本相对应的标准语句,进而基于标准语句确定标准编码,实现了标准编码有效确定的效果。
实施例四
图4是本发明实施例四所提供的一种医疗术语标准化方法流程示意图,在上述实施例的基础上,还可以形态学编码检测模型,以基于形态学编码检测模型确定待匹配疾病文本是否存在形态学编码语句,其具体的训练方式可以参见本实施例的详细阐述,其中与上述实施例相同或者相应的技术术语在此不再赘述。
S410、获取待标准化文本,并基于所述待标准化文本是否存在形态学编码语句,确定目标标签。
具体的,在获取到待标准化文本之后,可以依据待标准化文本是否存在形态学编码语句,确定与待标准化文本相对应的目标标签。可选的,如果存在形态学编码语句,则目标标签为第一标签,如果不存在形态学编码语句,则目标标签为第二标签。
S420、对于所述待标准化文本和相应的目标标签对待训练形态学编码检测模型进行处理,得到所述形态学编码检测模型。
其中,目标标签为第一标签或第二标签。待训练形态学编码检测模型可以是二分类模型,可选的,第一标签可以是0,第二标签可以是1。待训练编码检测模型,使用ERNIE-Health作为底层基座模型,增加softmax顶层结构,微调模型参数,训练得到形态学编码检测模型,用于判定单个输入疾病文本是否需要形态学编码语句。
具体的,可以基于待标准化文本和相应的目标标签,来训练形态学编码检测模型,当检测到待训练形态学编码检测模型中的损失函数收敛时,说明得到形态学编码检测模型。
在具体应用场景中,可以将待匹配疾病文本输入至形态学编码检测模型中,得到相应的二分类结果,即分类结果,可以将其分类结果作为是否存在形态学编码的依据。
本发明实施例所提供的技术方案,可以训练得到形态学编码检测模型,可以基于训练得到的形态学编码检测模型对待匹配疾病文本相对应的分类结果,基于分类结果可以确定待匹配疾病文本是否存在形态学编码语句,进而基于形态学编码语句和标准编码语句确定相应的数据编码,提高了确定标准编码的效率。
实施例五
图5为本发明实施例五所提供的一种医疗类术语标准化装置的结构示意图,所述装置包括:特征向量确定模块510、相似度确定模块520、置信度确定模块530、标准语句确定模块540以及标准语句反馈模块550。
其中,特征向量确定模块510,用于基于预先训练得到的编码器模型确定与所述待匹配疾病文本相对应的待匹配特征向量;相似度确定模块520,用于确定所述待匹配特征向量和标准向量库中各标准向量之间的向量相似度;其中,所述标准向量对应于标准语句,所述标准语句包括标准编码语句和/或形态学编码语句,所述标准向量是基于所述编码器模型确定的;置信度确定模块530,用于基于所述待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定所述待匹配疾病文本与各标准语句之间的相似置信度;标准语句确定模块540,用于基于所述向量相似度、相似置信度以及与所述待匹配疾病文本相对应的形态编码分类结果,确定与所述待匹配疾病文本相对应的目标标准语句;标准语句反馈模块550,用于反馈所述目标标准语句。
在上述技术方案的基础上,所述装置还包括:编码器模型确定模块,用于训练得到所述编码器模型;
所述编码器模型确定模块,包括:
样本确定单元,用于对于各待标准化文本,根据当前待标准化文本的标准编码语句和/或形态编码语句,确定至少一个训练样本;向量确定单元,用于基于所述训练样本中的当前待标准化文本输入至待训练编码器模型中,得到第一向量;以及,将与所述当前待标准化文本的标准编码语句或形态编码语句输入至所述待训练编码器模型中,得到第二向量;模型修正单元,用于基于各训练样本的第一向量和所述第二向量对所述待训练编码器模型中的模型参数进行修正;编码器确定单元,用于将所述待训练编码器模型中的损失函数收敛作为训练目标,得到所述编码器模型。
在上述技术方案的基础上,所述装置还包括:相似判别模型确定模块,用于训练得到相似判别模型;
相似判别模型确定模块,包括:
编码语句确定单元,用于获取待标准化文本、与所述待标准化文本相对应的标准编码语句或,与所述待标准化文本相对应的标准编码语句和形态编码语句;样本扩充单元,用于基于所述待标准化文本以及相应的标准编码语句,确定训练样本,以及基于所述待标准化文本以及相应的形态学编码语句,扩充所述训练样本;正样本确定单元,用于通过对训练样本中的待标准化文本以及相应的标准编码语句或形态编码语句拼接处理,得到正样本;负样本确定单元,用于基于待标准化文本以及与其不相符的标准编码语句或形态编码语句拼接处理,得到负样本;训练单元,用于基于所述正样本以及负样本对待训练相似判别模型进行训练,得到所述相似判别模型。
在上述各技术方案的基础上,所述装置还包括形态编码检测模型训练模块,用于训练得到形态学编码检测模型,以基于所述形态学编码检测模型对待匹配疾病文本进行处理,确定所述待匹配疾病文本是否存在形态学编码文本,以确定与所述待匹配疾病文本相对应的目标标准语句。
在上述各技术方案的基础上,所述装置还包括形态编码检测模型训练模块,包括:样本确定单元,用于获取待标准化文本,并基于所述待标准化文本是否存在形态学编码语句,确定目标标签;检测模型训练单元,用于对于所述待标准化文本和相应的目标标签对待训练形态学编码检测模型进行处理,得到所述形态学编码检测模型。
在上述技术方案的基础上,相似度确定模块还用于:对于各标准向量,基于预设相似度法确定所述待匹配特征向量与当前标准向量之间的向量相似度。
在上述各技术方案的基础上,所述置信度确定模块,包括:
拼接单元,用于对于各标准语句,通过对所述待匹配疾病文本以及当前标准语句拼接处理,确定待输入拼接语句;置信度确定单元,用于将所述待输入拼接语句输入至所述相似判别模型,确定所述当前标准语句与所述待匹配疾病文本相对应的相似置信度。
在上述各技术方案的基础上,标准语句确定模块包括:
目标相似度确定单元,用于对于各标准语句,依据当前标准语句所对应的向量相似度、相似置信度以及相应的权重值,确定所述当前标准语句的目标相似度;判断单元,用于将所述待匹配疾病文本输入至形态学编码检测模型,确定是否存在与所述待匹配疾病文本相对应的形态学编码语句;目标标准语句确定单元,用于若是,则基于所述目标相似度确定目标形态学编码文本以及目标标准编码语句。
在上述技术方案的基础上,所述标准语句确定模块还用于若否,则剔除形态学编码文本所对应的目标相似度,以依据目标相似度从标准语句中确定目标标准编码语句。
本发明实施例的技术方案,通过基于预先训练得到的编码器模型确定与所述待匹配疾病文本相对应的待匹配特征向量;确定所述待匹配特征向量和标准向量库中各标准向量之间的向量相似度;基于所述待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定所述待匹配疾病文本与各标准语句之间的相似置信度;基于所述向量相似度、相似置信度以及与所述待匹配疾病文本相对应的形态编码分类结果,确定与所述待匹配疾病文本相对应的目标标准语句;反馈所述目标标准语句,解决了现有技术中对上传的待匹配疾病文本进行编码时,需要人工编码,存在人工认知偏差,导致编码出现错误,不便于后续使用的情形,达到了自动化确定与待匹配疾病文本相对应的目标标准语句,进而基于目标标准语句确定与其相匹配的目标编码,提高了确定编码便捷性和高效性的技术效果。
本发明实施例所提供的医疗类术语标准化装置可执行本发明任意实施例所提供的医疗类术语标准化方法,具备执行方法相应的功能模块和有益效果。
实施例六
图6示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如物资类别的识别方法。
在一些实施例中,数据处理方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据处理方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据处理方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (10)
1.一种医疗类术语标准化方法,其特征在于,包括:
基于预先训练得到的编码器模型确定与待匹配疾病文本相对应的待匹配特征向量;
确定所述待匹配特征向量和标准向量库中各标准向量之间的向量相似度;其中,所述标准向量对应于标准语句,所述标准语句包括标准编码语句和/或形态学编码语句,所述标准向量是基于所述编码器模型确定的;
基于所述待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定所述待匹配疾病文本与各标准语句之间的相似置信度;
基于所述向量相似度、相似置信度以及与所述待匹配疾病文本相对应的形态编码分类结果,确定与所述待匹配疾病文本相对应的目标标准语句;
反馈所述目标标准语句。
2.根据权利要求1所述的方法,其特征在于,还包括:
训练得到所述编码器模型;
所述训练得到所述编码器模型,包括:
对于各待标准化文本,根据当前待标准化文本的标准编码语句和/或形态编码语句,确定至少一个训练样本;
基于所述训练样本中的当前待标准化文本输入至待训练编码器模型中,得到第一向量;以及,将与所述当前待标准化文本的标准编码语句或形态编码语句输入至所述待训练编码器模型中,得到第二向量;
基于各训练样本的第一向量和所述第二向量对所述待训练编码器模型中的模型参数进行修正;
将所述待训练编码器模型中的损失函数收敛作为训练目标,得到所述编码器模型。
3.根据权利要求1所述的方法,其特征在于,还包括:
训练得到相似判别模型;
所述训练得到所述相似判别模型,包括:
获取待标准化文本、与所述待标准化文本相对应的标准编码语句或,与所述待标准化文本相对应的标准编码语句和形态编码语句;
基于所述待标准化文本以及相应的标准编码语句,确定训练样本,以及基于所述待标准化文本以及相应的形态学编码语句,扩充所述训练样本;
通过对训练样本中的待标准化文本以及相应的标准编码语句或形态学编码语句拼接处理,得到正样本;
基于待标准化文本以及与其不相符的标准编码语句或形态学编码语句拼接处理,得到负样本;
基于所述正样本以及负样本对待训练相似判别模型进行训练,得到所述相似判别模型。
4.根据权利要求1所述的方法,其特征在于,还包括:
训练得到形态学编码检测模型,以基于所述形态学编码检测模型对待匹配疾病文本进行处理,确定所述待匹配疾病文本是否存在形态学编码文本,以确定与所述待匹配疾病文本相对应的目标标准语句。
5.根据权利要求4所述的方法,其特征在于,所述训练得到形态学编码检测模型,包括:
获取待标准化文本,并基于所述待标准化文本是否存在形态学编码语句,确定目标标签;
对于所述待标准化文本和相应的目标标签对待训练形态学编码检测模型进行处理,得到所述形态学编码检测模型。
6.根据权利要求1所述的方法,其特征在于,所述确定所述待匹配特征向量和标准向量库中各标准向量之间的向量相似度,包括:
对于各标准向量,基于预设相似度法确定所述待匹配特征向量与当前标准向量之间的向量相似度。
7.根据权利要求1所述的方法,其特征在于,所述基于所述待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定所述待匹配疾病文本与各标准语句之间的相似置信度,包括:
对于各标准语句,通过对所述待匹配疾病文本以及当前标准语句拼接处理,确定待输入拼接语句;
将所述待输入拼接语句输入至所述相似判别模型,确定所述当前标准语句与所述待匹配疾病文本相对应的相似置信度。
8.根据权利要求1所述的方法,其特征在于,所述基于所述向量相似度、相似置信度以及与所述待匹配疾病文本相对应的形态编码分类结果,确定与所述待匹配疾病文本相对应的目标标准语句,包括:
对于各标准语句,依据当前标准语句所对应的向量相似度、相似置信度以及相应的权重值,确定所述当前标准语句的目标相似度;
将所述待匹配疾病文本输入至形态学编码检测模型,确定是否存在与所述待匹配疾病文本相对应的形态学编码语句;
若是,则基于所述目标相似度确定目标形态学编码文本以及目标标准编码语句。
9.根据权利要求8所述的方法,其特征在于,还包括:
若否,则剔除形态学编码文本所对应的目标相似度,以依据目标相似度从标准语句中确定目标标准编码语句。
10.一种医疗类术语标准化装置,其特征在于,包括:
特征向量确定模块,用于基于预先训练得到的编码器模型确定与待匹配疾病文本相对应的待匹配特征向量;
相似度确定模块,用于确定所述待匹配特征向量和标准向量库中各标准向量之间的向量相似度;其中,所述标准向量对应于标准语句,所述标准语句包括标准编码语句和/或形态学编码语句,所述标准向量是基于所述编码器模型确定的;
置信度确定模块,用于基于所述待匹配疾病文本、各标准语句以及预先训练得到的相似判别模型,确定所述待匹配疾病文本与各标准语句之间的相似置信度;
标准语句确定模块,用于基于所述向量相似度、相似置信度以及与所述待匹配疾病文本相对应的形态编码分类结果,确定与所述待匹配疾病文本相对应的目标标准语句;
标准语句反馈模块,用于反馈所述目标标准语句。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311156799.9A CN117038099A (zh) | 2023-09-08 | 2023-09-08 | 医疗类术语标准化方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311156799.9A CN117038099A (zh) | 2023-09-08 | 2023-09-08 | 医疗类术语标准化方法以及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117038099A true CN117038099A (zh) | 2023-11-10 |
Family
ID=88633829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311156799.9A Pending CN117038099A (zh) | 2023-09-08 | 2023-09-08 | 医疗类术语标准化方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117038099A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894482A (zh) * | 2024-03-14 | 2024-04-16 | 北方健康医疗大数据科技有限公司 | 一种医学肿瘤的编码方法、系统、电子设备及存储介质 |
-
2023
- 2023-09-08 CN CN202311156799.9A patent/CN117038099A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117894482A (zh) * | 2024-03-14 | 2024-04-16 | 北方健康医疗大数据科技有限公司 | 一种医学肿瘤的编码方法、系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113313022B (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN108984683B (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
US11856277B2 (en) | Method and apparatus for processing video, electronic device, medium and product | |
CN113392253B (zh) | 视觉问答模型训练及视觉问答方法、装置、设备及介质 | |
CN110188158B (zh) | 关键词及话题标签生成方法、装置、介质及电子设备 | |
CN114242113B (zh) | 语音检测方法、训练方法、装置和电子设备 | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN112182167B (zh) | 一种文本匹配方法、装置、终端设备和存储介质 | |
CN115457329B (zh) | 图像分类模型的训练方法、图像分类方法和装置 | |
CN115359323B (zh) | 图像的文本信息生成方法和深度学习模型的训练方法 | |
CN117038099A (zh) | 医疗类术语标准化方法以及装置 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
CN115810068A (zh) | 一种图像描述生成方法、装置、存储介质及电子设备 | |
CN115761839A (zh) | 人脸活体检测模型的训练方法、人脸活体检测方法及装置 | |
CN114861758A (zh) | 多模态数据处理方法、装置、电子设备及可读存储介质 | |
CN114692778A (zh) | 用于智能巡检的多模态样本集生成方法、训练方法及装置 | |
CN117333889A (zh) | 文档检测模型的训练方法、装置及电子设备 | |
CN116092101A (zh) | 训练方法、图像识别方法、装置、设备及可读存储介质 | |
CN114118049B (zh) | 信息获取方法、装置、电子设备及存储介质 | |
CN116187301A (zh) | 模型生成、实体识别方法、装置、电子设备及存储介质 | |
CN113033179B (zh) | 知识获取方法、装置、电子设备及可读存储介质 | |
CN112541557B (zh) | 生成式对抗网络的训练方法、装置及电子设备 | |
CN113806541A (zh) | 情感分类的方法和情感分类模型的训练方法、装置 | |
CN113111169A (zh) | 基于深度学习模型的接处警文本地址信息提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |