CN112711652A - 术语标准化方法及装置 - Google Patents
术语标准化方法及装置 Download PDFInfo
- Publication number
- CN112711652A CN112711652A CN202110053293.XA CN202110053293A CN112711652A CN 112711652 A CN112711652 A CN 112711652A CN 202110053293 A CN202110053293 A CN 202110053293A CN 112711652 A CN112711652 A CN 112711652A
- Authority
- CN
- China
- Prior art keywords
- term
- standard
- terms
- standardized
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种术语标准化方法及装置,方法包括:利用标准化术语语料库和标准术语集合构建三元组组成的训练数据集,三元组包括锚元、正元和负元,锚元为标准术语或不规范的术语,正元为与锚元对应同一标准术语的术语,负元为与锚元对应的标准术语不同的术语;利用训练数据集训练表示学习模型,获得训练好的表示学习模型;利用训练好的表示学习模型获得待标准化术语与标准术语集合中的每一术语的术语嵌入式表达向量,并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度,将相似度高于相似度阈值或相似度排行最高的标准术语作为所述待标准化术语的标准化结果。本发明可获得标准术语,适用各种语言,可获得其他语言下更合适的表述。
Description
技术领域
本发明涉及一种信息技术领域,尤其涉及一种关于表示学习的术语标准化方法及装置。
背景技术
现有的术语标准化技术主要分为两类,基于规则或字符串匹配的术语标准化技术和基于机器学习的术语标准化技术。基于规则或字符串匹配的术语标准化技术将待标准化术语或经规则处理后,与已标准化术语或标准术语表述进行直接的字符串匹配,主要的技术包括基于Levenshtein距离的字符串匹配、最大公共子串匹配、模糊匹配等。基于机器学习的术语标准化技术主要是将术语标准化任务转化为多分类任务,将每一种标准术语视为一种类别,建立多分类模型,并利用已标准化的术语语料库训练模型,该模型对术语的分类是预测其标准术语,主要的方法有支持向量机、决策树和神经网络模型等。本发明中的新的术语标准化技术属于基于机器学习的术语标准化技术,是一种表示学习方法,核心思想是通过已标准化的术语语料库和标准术语集合学习到字词和术语的嵌入式表达向量,并且对应同一标准术语的术语具有相似的嵌入式表达向量。
发明内容
为解决以上问题,本发明公开一种术语标准化方法,包括:
获得标准化术语语料库和标准术语集合,其中,标准术语集合包含标准术语和与所述标准术语对应的编码,
标准化术语语料库是包含不规范术语以及与所述不规范术语的含义相同的标准术语或所述编码的组合;
利用标准化术语语料库和标准术语集合构建训练数据集,所述训练数据集包括多个训练样本,每个训练样本都为一个三元组的形式,所述三元组由锚元、正元和负元组成,其中,锚元为标准术语或不规范术语,正元为与锚元对应同一标准术语的术语,负元为设定数量的与锚元对应的标准术语不同的术语;
利用所述训练数据集训练表示学习模型,获得训练好的表示学习模型;
利用所述训练好的表示学习模型获得待标准化术语和标准术语集合中的每一术语的术语嵌入式表达向量,并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度,将相似度最高的标准术语作为所述待标准化术语的标准化结果。
可选地,还包括术语预处理,所述术语预处理是指将术语中的最小语言单位用空格隔开,对标准化术语语料库和待标准化术语都进行术语预处理。
可选地,所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层,所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量,投影层用于将字词嵌入式表达向量投射到特征空间,术语表达向量输出层用于将投射到特征空间的字词嵌入式表达向量组合输出术语的术语嵌入式表达向量。
可选地,所述利用所述训练数据集训练表示学习模型包括:
计算每个三元组中,锚元与正元的相似度,以及锚元与负元中的每一术语的相似度,优化损失函数使锚元和正元的相似度高,并且锚元和负元中的每一术语的相似度低,直至模型损失收敛,则训练完成。
可选地,所述术语嵌入式表达向量是该术语的所有最小语言单位的字词嵌入式表达向量的加和。
可选地,所述相似度取术语嵌入式表达向量之间的余弦相似度。
本发明还公开一种术语标准化装置,包括:
训练数据集构建模块,获得标准化术语语料库和标准术语集合,其中,标准术语集合包含标准术语和与所述标准术语对应的编码,标准化术语语料库是包含不规范术语以及与所述不规范术语的含义相同的标准术语或所述编码的组合;利用标准化术语语料库和标准术语集合构建训练数据集,所述训练数据集包括多个训练样本,每个训练样本都为一个三元组的形式,所述三元组由锚元、正元和负元组成,其中,锚元为标准术语或不规范术语,正元为与锚元对应同一标准术语的术语,负元为设定数量的与锚元对应的标准术语不同的术语;
模型训练模块,用于利用所述训练数据集训练表示学习模型,获得训练好的表示学习模型;
术语标准化模块,用于利用所述训练好的表示学习模型获得待标准化术语与标准术语集合中的每一术语的术语嵌入式表达向量,并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度,将相似度最高的标准术语作为所述待标准化术语的标准化结果。
可选地,还包括术语预处理模块,所述术语预处理模块用于将术语中的最小语言单位用空格隔开,对标准化术语语料库和待标准化术语都进行术语预处理。
可选地,所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层,所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量,投影层用于将字词嵌入式表达向量投射到特征空间,术语表达向量输出层用于将投射到特征空间的字词嵌入式表达向量组合输出术语的术语嵌入式表达向量。
可选地,所述模型训练模块训练的过程包括:
计算每个三元组中,锚元与正元的相似度,以及锚元与负元中的每一术语的相似度,优化损失函数使锚元和正元的相似度高,并且锚元和负元中的每一术语的相似度低,直至模型损失收敛,则训练完成。
本发明的有益效果:
1.本发明是以字或单词为基本单位进行嵌入式表达向量的学习,再根据字词的嵌入式表达向量获得术语的嵌入式表达向量。无论是英文、法文等以单词为基本单位,还是中文等以字为基本单位的语言,本发明都可以准确的进行术语标准化。
2.本发明以字或单词为基本单位进行嵌入式表达向量的学习,可以进行多语言之间的术语标准化。例如使用者拥有同一术语标准的多语言版本,例如关于国际疾病分类编码ICD-10的中文标准化术语和英文标准化术语,那么可以同时利用中文标准化术语和英文标准化术语来训练表示学习模型,从而使表示学习模型在一种语言下无合适表述的情况下,获得其他语言下其合适的表述。
3.本发明通过训练表示学习模型满足同一标准术语的不同术语表述间的相似度高、不同标准术语的术语表述间的相似度低的方法,可以获得各不规范术语的更加标准的向量表示,以便从标准术语集合中获得不规范术语的标准术语。
附图说明
图1是表示本发明实施例的术语标准化方法的流程示意图;
图2是表示本发明实施例的功能模块的构成图;
图3是表示本发明实施例的电子设备的构成示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的术语标准化流程图,如图1所示,表示学习的术语标准化方法包括:
S1,获得标准化术语语料库和标准术语集合,其中,标准术语集合的内容为多种标准术语和其编码的对应表示,示例:“心房扑动I48.X03”,其中“心房扑动”是专业的标准术语,I48.X03是其对应的编码。标准化术语语料库则是包含多组不规范术语与含义相同的标准术语或对应编码的组合,示例:“房扑I48.X03”,或者“房扑心房扑动”。“房扑”是一个不规范术语(即不是标准术语),其对应的含义相同的标准术语是“心房扑动”。
S2,利用标准化术语语料库和标准术语集合构建训练数据集,所述训练数据集包括多个训练样本,每个训练样本都为一个三元组的形式,如表1所示,三元组由锚元、正元和负元组成。其中,锚元为标准术语或不规范的术语;正元为与锚元对应同一标准术语的标准术语或不规范术语;负元为设定数量的术语表述,且其与锚元对应的标准术语不同,正元和负元关于锚元随机产生。具体的,是正元采用与锚元对应同一标准术语的随机选取的术语,负元是采用与锚元对应不同标准术语的随机选取的术语。
且三元组中术语经过术语预处理,所述术语预处理是指将术语中的最小语言单位用空格隔开,对标准化术语语料库和待标准化术语都进行术语预处理,比如“维生素b12缺乏”变为“维生素b12缺乏”。需要说明的是,这里的以单词或字为单位是指根据不同语言来说的,例如中文,是以单个字为单元间隔开,英文是以单个单词间隔开,在此可以统称为以具有语义的最小语言单位为单位间隔开。
表1
锚元 | 正元 | 负元(数量假设为2) |
脑膜结核瘤 | 脑脊膜核瘤 | (腹腔血管瘤,脓疱性皮疹) |
鼓膜穿孔 | 鼓膜穿孔nos | (虱病,骨质溶解) |
大细胞性贫血 | 营养性巨幼细胞性贫血 | (肾发育不良,白细胞减少) |
以表1的第一行为例,其中,锚元的“脑膜结核瘤”和正元的“脑脊膜核瘤”所对应的标准术语是同一个“脑结核瘤”。负元的“腹腔血管瘤”、“脓疱性皮疹”则是与“脑膜结核瘤”对应的标准术语的不同,其中各字之间都需用空格间隔开。
S3,利用所述训练数据集训练表示学习模型,所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层,所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量,投影层用于将字词嵌入式表达向量投射到特征空间,术语表达向量输出层用于输出术语的术语嵌入式表达向量。其中,字词表达向量嵌入层(Embeddinglayer),是将字词转化为字词嵌入式表达向量;投影层可以用线性投射,对字词嵌入式表达向量进行线性变换;术语表达向量输出层可以取经投影层后的字词嵌入式表达向量的加和作为术语嵌入式表达向量输出。并计算每个三元组中,锚元和正元的相似度,以及锚元和负元中的每一个术语的相似度,优化损失函数使锚元和正元的相似度高以及锚元和负元中的每一个术语的相似度低。
例如“脑膜结核瘤”中的“脑”、“膜”、“结”、“核”、“瘤”都具有对应的字词嵌入式表达向量,经过投影层和输出层,输出的是““脑膜结核瘤”“对应的术语嵌入式表达向量所述术语嵌入式表达向量可以是该术语的所有字词的字词嵌入式表达向量的加和。
获得了三元组的每个术语的术语嵌入式表达向量后,再计算锚元和正元的相似度,以及锚元和负元中的每一个术语的相似度。例如,对模型的损失函数的优化使让“脑膜结核瘤”与“脑脊膜核瘤”的相似度趋于1、让“脑膜结核瘤”与“腹腔血管瘤”的相似度趋于负值。
计算每个三元组中,锚元与正元的相似度,以及锚元与负元中的每一术语的相似度,优化损失函数的目的是使锚元和正元的相似度高,并且锚元和负元中的每一术语的相似度低,直至模型损失收敛,则训练完成。
通过训练数据集大量的数据训练,不断提高表示学习模型的精度,获得训练好的表示学习模型,将训练好的模型参数和结构保存到文件中以待后期调用。
S4,利用所述训练好的表示学习模型获得待标准化术语与标准术语集合中的每一术语的嵌入式表达向量,并计算其与每一个标准术语的嵌入式表达向量的相似度,返回相似度最高的N个标准术语作为其标准化结果,以供用户参考,所述待标准化术语为用户计划对其标准化的术语集合,为若干个需要标准化的术语表述,且已经过术语预处理。
例如,待标准化术语是“慢阻肺”,训练好的表示学习模型可以输出其术语嵌入式表达向量,然后只要计算该术语嵌入式表达向量与每一个标准术语的嵌入式表达向量的相似度,选择相似度高的作为其标准化结果即可。表2为两个待标准化术语的结果示例(N=3),其中,慢性阻塞性肺病、慢性阻塞性肺病、慢性阻塞性肺病伴有急性下呼吸道感染的相似度依次降低。
表2
进一步地,所述相似度可以是术语嵌入式表达向量之间的余弦相似度。
本发明还提供一种术语标准化装置100,本发明的术语标准化装置100可以安装于电子设备1中。所述电子设备1可以包括处理器10、存储器11,还可以包括存储在所述存储器中并可在所述处理器上运行的计算机程序,例如术语标准化程序12。其中,所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述处理器是所述电子设备的控制核心,利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器内的程序或者模块,以及调用存储在所述存储器内的数据,以执行电子设备的各种功能和处理数据。
根据实现的功能,所述术语标准化装置100可以包括训练数据集构建模块101、模型训练模块102、术语标准化模块103。本发明所述模块是指一种能够被电子设备的处理器10所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块的功能如下:
训练数据集构建模块,用于获得标准化术语语料库和标准术语集合,其中,标准术语集合包含标准术语与其编码的对应表示,标准化术语语料库是包含不规范术语以及与所述不规范术语的含义相同的标准术语或所述编码的组合,利用标准化术语语料库和标准术语集合构建训练数据集,所述训练数据集包括多个训练样本,每个训练样本都为一个三元组的形式,所述三元组由锚元、正元和负元组成,其中,锚元为标准术语或不规范的术语,正元为与锚元对应同一标准术语的其他术语(或标准术语或不规范术语),负元为设定数量的与锚元对应的标准术语不同的术语(或标准术语或不规范术语);
模型训练模块,用于利用所述训练数据集训练表示学习模型,获得训练好的表示学习模型;
术语标准化模块,用于利用所述训练好的表示学习模型获得待标准化术语与标准术语集合中的每一术语的术语嵌入式表达向量,并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度,将相似度最高的标准术语作为所述待标准化术语的标准化结果。
进一步地,还包括术语预处理模块104,所述术语预处理模块用于将术语中的最小语言单位用空格隔开,对标准化术语语料库和待标准化术语都进行术语预处理。
进一步地,所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层,所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量,投影层用于将字词嵌入式表达向量投射到特征空间,术语表达向量输出层用于将投射到特征空间的字词嵌入式表达向量组合输出术语的术语嵌入式表达向量。
进一步地,所述模型训练模块训练的过程包括:
计算每个三元组中,锚元与正元的相似度,以及锚元与负元中的每一术语的相似度,优化损失函数的目的是使锚元和正元的相似度高,并且锚元和负元中的每一术语的相似度低,直至模型损失收敛,则训练完成。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种术语标准化方法,其特征在于,包括:
获得标准化术语语料库和标准术语集合,其中,标准术语集合包含标准术语和与所述标准术语对应的编码,
标准化术语语料库是包含不规范术语以及与所述不规范术语的含义相同的标准术语或所述编码的组合;
利用标准化术语语料库和标准术语集合构建训练数据集,所述训练数据集包括多个训练样本,每个训练样本都为三元组的形式,所述三元组由锚元、正元和负元组成,其中,锚元为标准术语或不规范术语,正元为与锚元对应同一标准术语的术语,负元为设定数量的与锚元对应的标准术语不同的术语;
利用所述训练数据集训练表示学习模型,获得训练好的表示学习模型;
利用所述训练好的表示学习模型获得待标准化术语和标准术语集合中的每一术语的术语嵌入式表达向量,并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度,将相似度最高的标准术语作为所述待标准化术语的标准化结果。
2.根据权利要求1所述的术语标准化方法,其特征在于,
还包括术语预处理,所述术语预处理是指将术语中的最小语言单位用空格隔开,对标准化术语语料库和待标准化术语都进行术语预处理。
3.根据权利要求2所述的术语标准化方法,其特征在于,
所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层,所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量,投影层用于将字词嵌入式表达向量投射到特征空间,术语表达向量输出层用于将投射到特征空间的字词嵌入式表达向量组合输出术语的术语嵌入式表达向量。
4.根据权利要求2所述的术语标准化方法,其特征在于,所述利用所述训练数据集训练表示学习模型包括:
计算每个三元组中,锚元与正元的相似度,以及锚元与负元中的每一术语的相似度,优化损失函数使锚元和正元的相似度高,并且锚元和负元中的每一术语的相似度低,直至模型损失收敛,则训练完成。
5.根据权利要求3所述的术语标准化方法,其特征在于,
所述术语嵌入式表达向量是该术语的所有最小语言单位的字词嵌入式表达向量的加和。
6.根据权利要求1所述的术语标准化方法,其特征在于,
所述相似度取术语嵌入式表达向量之间的余弦相似度。
7.一种术语标准化装置,其特征在于,包括:
训练数据集构建模块,获得标准化术语语料库和标准术语集合,其中,标准术语集合包含标准术语和与所述标准术语对应的编码,标准化术语语料库是包含不规范术语以及与所述不规范术语的含义相同的标准术语或所述编码的组合;利用标准化术语语料库和标准术语集合构建训练数据集,所述训练数据集包括多个训练样本,每个训练样本都为一个三元组的形式,所述三元组由锚元、正元和负元组成,其中,锚元为标准术语或不规范术语,正元为与锚元对应同一标准术语的术语,负元为设定数量的与锚元对应的标准术语不同的术语;
模型训练模块,用于利用所述训练数据集训练表示学习模型,获得训练好的表示学习模型;
术语标准化模块,用于利用所述训练好的表示学习模型获得待标准化术语与标准术语集合中的每一术语的术语嵌入式表达向量,并计算待标准化术语与每一个标准术语的术语嵌入式表达向量的相似度,将相似度最高的标准术语作为所述待标准化术语的标准化结果。
8.根据权利要求7所述的术语标准化装置,其特征在于,
还包括术语预处理模块,所述术语预处理模块用于将术语中的最小语言单位用空格隔开,对标准化术语语料库和待标准化术语都进行术语预处理。
9.根据权利要求7所述的术语标准化装置,其特征在于,
所述表示学习模型包括依次连接的字词表达向量嵌入层、投影层、术语表达向量输出层,所述字词表达向量嵌入层用于产生术语所包含的字词嵌入式表达向量,投影层用于将字词嵌入式表达向量投射到特征空间,术语表达向量输出层用于将投射到特征空间的字词嵌入式表达向量组合输出术语的术语嵌入式表达向量。
10.根据权利要求7所述的术语标准化装置,其特征在于,所述模型训练模块训练的过程包括:
计算每个三元组中,锚元与正元的相似度,以及锚元与负元中的每一术语的相似度,优化损失函数使锚元和正元的相似度高,并且锚元和负元中的每一术语的相似度低,直至模型损失收敛,则训练完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110053293.XA CN112711652B (zh) | 2021-01-15 | 2021-01-15 | 术语标准化方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110053293.XA CN112711652B (zh) | 2021-01-15 | 2021-01-15 | 术语标准化方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112711652A true CN112711652A (zh) | 2021-04-27 |
CN112711652B CN112711652B (zh) | 2022-10-14 |
Family
ID=75549118
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110053293.XA Active CN112711652B (zh) | 2021-01-15 | 2021-01-15 | 术语标准化方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711652B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221557A (zh) * | 2021-05-28 | 2021-08-06 | 中国工商银行股份有限公司 | 一种基于神经网络的数据贯标管理方法及装置 |
CN113377897A (zh) * | 2021-05-27 | 2021-09-10 | 杭州莱迈医疗信息科技有限公司 | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 |
CN116721778A (zh) * | 2023-08-10 | 2023-09-08 | 北方健康医疗大数据科技有限公司 | 一种医学术语标准化方法、系统、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543179A (zh) * | 2018-11-05 | 2019-03-29 | 北京康夫子科技有限公司 | 口语化症状归一化的方法及系统 |
CN110825843A (zh) * | 2019-10-15 | 2020-02-21 | 深圳市奥拓电子股份有限公司 | 适于金融领域的训练方法、问答方法、装置及存储介质 |
CN111460091A (zh) * | 2020-03-09 | 2020-07-28 | 杭州麦歌算法科技有限公司 | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 |
US20200311115A1 (en) * | 2019-03-29 | 2020-10-01 | Knowtions Research Inc. | Method and system for mapping text phrases to a taxonomy |
CN111859986A (zh) * | 2020-07-27 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 基于多任务孪生网络的语义匹配方法、装置、设备和介质 |
CN111859960A (zh) * | 2020-07-27 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 |
-
2021
- 2021-01-15 CN CN202110053293.XA patent/CN112711652B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543179A (zh) * | 2018-11-05 | 2019-03-29 | 北京康夫子科技有限公司 | 口语化症状归一化的方法及系统 |
US20200311115A1 (en) * | 2019-03-29 | 2020-10-01 | Knowtions Research Inc. | Method and system for mapping text phrases to a taxonomy |
CN110825843A (zh) * | 2019-10-15 | 2020-02-21 | 深圳市奥拓电子股份有限公司 | 适于金融领域的训练方法、问答方法、装置及存储介质 |
CN111460091A (zh) * | 2020-03-09 | 2020-07-28 | 杭州麦歌算法科技有限公司 | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 |
CN111859986A (zh) * | 2020-07-27 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 基于多任务孪生网络的语义匹配方法、装置、设备和介质 |
CN111859960A (zh) * | 2020-07-27 | 2020-10-30 | 中国平安人寿保险股份有限公司 | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377897A (zh) * | 2021-05-27 | 2021-09-10 | 杭州莱迈医疗信息科技有限公司 | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 |
CN113377897B (zh) * | 2021-05-27 | 2022-04-22 | 杭州莱迈医疗信息科技有限公司 | 基于深度对抗学习的多语言医疗术语规范标准化系统及方法 |
CN113221557A (zh) * | 2021-05-28 | 2021-08-06 | 中国工商银行股份有限公司 | 一种基于神经网络的数据贯标管理方法及装置 |
CN116721778A (zh) * | 2023-08-10 | 2023-09-08 | 北方健康医疗大数据科技有限公司 | 一种医学术语标准化方法、系统、设备及介质 |
CN116721778B (zh) * | 2023-08-10 | 2024-01-09 | 北方健康医疗大数据科技有限公司 | 一种医学术语标准化方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112711652B (zh) | 2022-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230016365A1 (en) | Method and apparatus for training text classification model | |
CN112711652B (zh) | 术语标准化方法及装置 | |
CN112070138B (zh) | 多标签混合分类模型的构建方法、新闻分类方法及系统 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
CN111859983B (zh) | 基于人工智能的自然语言标注方法及相关设备 | |
CN113033438B (zh) | 一种面向模态非完全对齐的数据特征学习方法 | |
US11003950B2 (en) | System and method to identify entity of data | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
CN112306494A (zh) | 一种基于卷积和循环神经网络的代码分类及聚类方法 | |
CN111143507B (zh) | 一种基于复合式问题的阅读理解方法 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN114282527A (zh) | 多语言文本检测与纠错方法、系统、电子设备及存储介质 | |
CN113657098B (zh) | 文本纠错方法、装置、设备及存储介质 | |
CN115482418B (zh) | 基于伪负标签的半监督模型训练方法、系统及应用 | |
CN111310467B (zh) | 一种在长文本中结合语义推断的主题提取方法及系统 | |
CN112613293A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN110633456B (zh) | 语种识别方法、装置、服务器及存储介质 | |
CN113298253B (zh) | 用于命名实体识别的模型训练方法、识别方法及装置 | |
CN113127607A (zh) | 文本数据标注方法、装置、电子设备及可读存储介质 | |
CN109284392B (zh) | 一种文本分类方法、装置、终端及存储介质 | |
CN111199154B (zh) | 基于容错粗糙集的多义词词表示方法、系统及介质 | |
CN114881038A (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 | |
WO2021056740A1 (zh) | 语言模型构建方法、系统、计算机设备及可读存储介质 | |
CN117194818B (zh) | 基于视频的图文网页生成方法及装置 | |
CN113051886B (zh) | 一种试题查重方法、装置、存储介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |