CN114036902A - 医学实体预标注方法、装置、存储介质及电子设备 - Google Patents
医学实体预标注方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN114036902A CN114036902A CN202111357159.5A CN202111357159A CN114036902A CN 114036902 A CN114036902 A CN 114036902A CN 202111357159 A CN202111357159 A CN 202111357159A CN 114036902 A CN114036902 A CN 114036902A
- Authority
- CN
- China
- Prior art keywords
- medical
- model
- labeling
- entity
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种医学实体预标注方法、装置、存储介质及电子设备。该方法包括:获取待标注医学文本;将待标注医学文本输入训练完成的实体预标注模型,得到待标注医学文本中每一文字的医学实体预标注结果;其中,实体预标注模型包括编码子模型以及标注子模型,实体预标注模型的训练过程包括迭代如下操作:从训练数据集中抽取一部分训练数据得到支持数据集,并从训练数据集中抽取另一部分训练数据得到查询数据集,每一条训练数据包括样本医学文本以及该样本医学文本对应的医学实体;根据查询数据集训练编码子模型,并根据编码子模型输出的样本医学文本向量和支持数据集训练标注子模型。本公开的这种方法,可以提升医学实体标注效率。
Description
技术领域
本公开涉及命名实体识别技术领域,具体地,涉及一种医学实体预标注方法、装置、存储介质及电子设备。
背景技术
电子病历命名实体识别任务是指,从非结构化的病历文本中定位命名实体,并将其分类为预定义的特定实体类型,如疾病、用药、症状等特定实体类型。
众所周知,使用高质量的标注数据训练深度学习模型,能够提升模型的学习效果。然而在医学场景下,可使用的高质量医学标签数据非常有限,而医学标签数据量少会导致深度学习模型出现过拟合训练的问题,并且模型在测试集上泛化性能也会较差。相关技术中,标注医学领域的用于模型训练的样本数据需要标注人员具备丰富的医学领域知识以及实践经验,如此才能保证样本数据的标注质量。但是,这种标注方式不仅成本高而且效率低。
发明内容
本公开的目的是提供一种医学实体预标注方法、装置、存储介质及电子设备,以解决相关技术中存在的问题。
为了实现上述目的,本公开实施例的第一部分提供一种医学实体预标注方法,所述方法包括:
获取待标注医学文本;
将所述待标注医学文本输入训练完成的实体预标注模型,得到所述待标注医学文本中每一文字的医学实体预标注结果;
其中,所述实体预标注模型包括编码子模型以及标注子模型,所述实体预标注模型的训练过程包括迭代如下操作:
从训练数据集中抽取一部分训练数据得到支持数据集,并从所述训练数据集中抽取另一部分训练数据得到查询数据集,每一条训练数据包括样本医学文本以及所述样本医学文本对应的医学实体;
根据所述查询数据集训练所述编码子模型,并根据所述编码子模型输出的样本医学文本向量和所述支持数据集训练所述标注子模型。
可选地,所述根据所述查询数据集训练所述编码子模型,并根据所述编码子模型输出的样本医学文本向量和所述支持数据集训练所述标注子模型,包括:
对所述查询数据集中的所述样本医学文本进行编码,得到样本医学文本向量;
计算所述样本医学文本向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量,其中,每一所述医学实体向量是根据所述支持数据集计算得到的;
根据所述目标医学实体向量和所述样本医学文本向量对应的实际医学实体向量之间的损失信息更新所述实体预标注模型的模型参数,所述实体预标注模型的模型参数包括所述编码子模型的模型参数以及所述标注子模型的模型参数。
可选地,根据所述支持数据集计算得到所述医学实体向量,包括:
针对任一所述医学实体,从所述支持数据集中确定对应所述医学实体的所有样本医学文本;
计算所述所有样本医学文本的向量的平均向量,得到相应地所述医学实体向量。
可选地,所述将所述待标注医学文本输入训练完成的实体预标注模型,得到所述待标注医学文本中每一文字的医学实体预标注结果,包括:
将所述待标注医学文本输入训练完成的所述编码子模型,得到待标注医学文本向量;
针对所述待标注医学文本向量中的每一字向量,将所述字向量输入训练完成的所述标注子模型,得到所述字向量对应的文字的医学实体预标注结果。
可选地,训练完成的所述标注子模型用于:
计算所述字向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量,其中,每一种医学实体向量是根据所述实体预标注模型训练完成时最后一次抽取得到的所述支持数据集计算得到的;
根据所述目标医学实体向量所表征的医学实体标注所述字向量对应的文字。
可选地,所述支持数据集和所述查询数据集中的训练数据量之和小于或等于所述训练数据集中的训练数据量。
可选地,所述方法还包括:
响应于用户的人工校对请求,根据所述待标注医学文本中每一文字的医学实体预标注结果,生成人工校对页面;
向所述用户展示所述人工校对页面。
本公开实施例的第二部分提供一种医学实体预标注装置,所述装置包括:
获取模块,用于获取待标注医学文本;
标注模块,用于将所述待标注医学文本输入训练完成的实体预标注模型,得到所述待标注医学文本中每一文字的医学实体预标注结果;
训练模块,用于迭代如下操作以训练得到包括编码子模型以及标注子模型的所述实体预标注模型:
从训练数据集中抽取一部分训练数据得到支持数据集,并从所述训练数据集中抽取另一部分训练数据得到查询数据集,每一条训练数据包括样本医学文本以及所述样本医学文本对应的医学实体;根据所述查询数据集训练所述编码子模型,并根据所述编码子模型输出的样本医学文本向量和所述支持数据集训练所述标注子模型。
可选地,所述编码子模型在训练过程中,用于对所述查询数据集中的所述样本医学文本进行编码,得到样本医学文本向量;
所述标注子模型在训练过程中,用于计算所述样本医学文本向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量,其中,每一所述医学实体向量是根据所述支持数据集计算得到的;根据所述目标医学实体向量和所述样本医学文本向量对应的实际医学实体向量之间的损失信息更新所述实体预标注模型的模型参数,所述实体预标注模型的模型参数包括所述编码子模型的模型参数以及所述标注子模型的模型参数。
可选地,所述装置还包括计算模块,用于针对任一所述医学实体,从所述支持数据集中确定对应所述医学实体的所有样本医学文本;并计算所述所有样本医学文本的向量的平均向量,得到相应地所述医学实体向量。
可选地,所述标注模块包括:
第一输入子模块,用于将所述待标注医学文本输入训练完成的所述编码子模型,得到待标注医学文本向量;
第二输入子模块,用于针对所述待标注医学文本向量中的每一字向量,将所述字向量输入训练完成的所述标注子模型,得到所述字向量对应的文字的医学实体预标注结果。
可选地,训练完成的所述标注子模型用于:
计算所述字向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量,其中,每一种医学实体向量是根据所述实体预标注模型训练完成时最后一次抽取得到的所述支持数据集计算得到的;并
根据所述目标医学实体向量所表征的医学实体标注所述字向量对应的文字。
可选地,支持数据集和所述查询数据集中的训练数据量之和小于或等于所述训练数据集中的训练数据量。
可选地,所述装置还包括:
响应模块,用于响应于用户的人工校对请求,根据所述待标注医学文本中每一文字的医学实体预标注结果,生成人工校对页面;
展示模块,用于向所述用户展示所述人工校对页面。
本公开实施例的第三部分提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一部分中任一项所述方法的步骤。
本公开实施例的第四部分提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现第一部分中任一项所述方法的步骤。
采用上述技术方案,至少能够达到如下的有益技术效果:
通过获取待标注医学文本,并将该待标注医学文本输入训练完成的实体预标注模型,可得到该待标注医学文本中每一文字的医学实体预标注结果。这种使用模型预标注的方式相较于相关技术中人工标注的方式效率更高。而且,由于实体预标注模型包括编码子模型以及标注子模型,实体预标注模型的训练过程包括迭代如下操作:从训练数据集中抽取一部分训练数据得到支持数据集,并从训练数据集中抽取另一部分训练数据得到查询数据集,根据查询数据集训练编码子模型,并根据编码子模型输出的样本医学文本向量和支持数据集训练标注子模型。这种迭代使用数据量少的不同查询数据集训练模型并使用不同支持数据集(即先验知识/元知识)评价/度量模型学习效果的方式,能够使模型基于数据量少的查询数据集快速学习到用于区分各医学实体的主要特征而非与医学实体无关的、对分类该样本没有帮助的特征。即采用这种基于先验知识使模型学会学习的训练方式能够有效利用有限的标签数据来对未知医学文本中的未知医学实体进行预标注。可见本公开的这种方式无需大量的训练数据。总而言之,采用本公开的这种方式,实现了在医学实体标注数据量少的情况下,达到提升医学实体标注效率的目的。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开一示例性实施例示出的一种医学实体预标注方法的流程图。
图2是根据本公开一示例性实施例示出的一种医学实体预标注示意图。
图3是根据本公开一示例性实施例示出的一种训练过程中医学实体预标注示意图。
图4是根据本公开一示例性实施例示出的一种医学实体预标注装置的框图。
图5是根据本公开一示例性实施例示出的一种电子设备的框图。
图6是根据本公开一示例性实施例示出的另一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
图1是根据本公开一示例性实施例示出的一种医学实体预标注方法的流程图。如图1所示,该医学实体预标注方法包括以下步骤:
S11、获取待标注医学文本。
待标注医学文本可以为病人的病历文本、医学研究论文文本、医学教科书以及医学工具书中的文本,对此本公开不作具体限制。其中,应当说明的是,基于语言类型的不同,待标注医学文本中可以包括一个或多个文字,如一个或多个中文文字。同理地,待标注医学文本中也可以包括一个或多个单词,如一个或多个英文单词。
S12、将所述待标注医学文本输入训练完成的实体预标注模型,得到所述待标注医学文本中每一文字的医学实体预标注结果。
示例地,如图2所示,假设待标注医学文本为“患儿2天前出现发热,口服美林后可退”,将该待标注医学文本输入训练完成的实体预标注模型,可得到如图2所示的针对该待标注医学文本中每一文字的医学实体预标注结果。详细地,如图2所示,可将该待标注医学文本中的文字“患”、“儿”、“出”、“现”、“,”、“口”、“服”、“后”、“可”、以及“退”均标注为O,O表征非医学实体。可将该待标注医学文本中的文字“2”、“天”、以及“前”标注为医学实体T,T表征的医学实体为发生时间实体。可将该待标注医学文本中的文字“发”和“热”标注为医学实体S,S表征的医学实体为症状实体。可将该待标注医学文本中的文字“美”和“林”标注为医学实体D,D表征的医学实体为用药实体。
其中,所述实体预标注模型包括编码子模型以及标注子模型,所述实体预标注模型的训练过程包括迭代如下操作:
从训练数据集中抽取一部分训练数据得到支持数据集,并从所述训练数据集中抽取另一部分训练数据得到查询数据集,每一条训练数据包括样本医学文本以及所述样本医学文本对应的医学实体;根据所述查询数据集训练所述编码子模型,并根据所述编码子模型输出的样本医学文本向量和所述支持数据集训练所述标注子模型。
由于每一条训练数据包括样本医学文本以及该样本医学文本对应的医学实体。所以在训练数据集的准备过程中,需确定用于训练的医学文本,并对这些医学文本进行医学实体标注。具体地,假设选定长度为T的医学文本序列X=[x1,x2,...,xT],该医学文本序列中包括T个文字,每一文字用元素xn,n∈[1,T]表征。例如,假设长度为9的医学文本“患儿两天前出现发热”,其对应的医学文本序列X=[患,儿,两,天,前,出,现,发,热]。
在训练实体预标注模型之前,若将长度为T的医学文本作为训练数据,那么需对该长度为T的医学文本中每一文字(包括标点符号)标注一个实体类别,以得到与该长度为T的医学文本对应的实体类别序列Y=[y1,y2,...,yT]。以图2为例进行说明,假设医学文本序列为X=[患,儿,两,天,前,出,现,发,热],那么该医学文本序列所对应的实体类别序列为Y=[O,O,T,T,T,O,O,S,S]。其中,需说明的是T为大于或等于1的整数。
可选地,所述支持数据集和所述查询数据集中的训练数据量之和小于或等于所述训练数据集中的训练数据量。
示例地,假设训练数据集为[A,B,C,D,E,F,G,H,I,J],从该训练数据集中(随机)抽取一部分训练数据得到支持数据集,例如抽取得到的支持数据集为[A,H,J]。同时,从该训练数据集中抽取另一部分训练数据得到查询数据集,例如抽取得到的查询数据集为[B,C,D,E,F,G,I]。
再示例地,从训练数据集[A,B,C,D,E,F,G,H,I,J]中随机抽取一部分训练数据得到支持数据集,例如抽取得到的支持数据集为[A,H,J]。并从该训练数据集中抽取另一部分训练数据得到查询数据集,例如抽取得到的查询数据集为[B,C,D,I]。
一种可实现的实施方式,在从训练数据集中抽取一部分训练数据得到支持数据集之前,所述方法还可以包括:获取用户设置的表征支持数据集中训练数据量的第一参数。同理地,在从所述训练数据集中抽取另一部分训练数据得到查询数据集之前,所述方法还包括:获取用户设置的表征查询数据集中训练数据量的第二参数。
另一种可实现的实施方式,上述第一参数与第二参数之比优选为7比3。
可选地,所述根据所述查询数据集训练所述编码子模型,并根据所述编码子模型输出的样本医学文本向量和所述支持数据集训练所述标注子模型,具体包括以下步骤:
步骤一、对所述查询数据集中的所述样本医学文本进行编码,得到样本医学文本向量。
示例地,对查询数据集中的每一样本医学文本进行编码,得到与每一样本医学文本对应的样本医学文本向量。在具体实施时,将查询数据集输入编码子模型,编码子模型对查询数据集中的每一样本医学文本进行编码,从而得到每一样本医学文本的样本医学文本向量。在样本医学文本包括一个文字的情况下,该样本医学文本向量为该一个文字的字向量。
而在一些可能的实施方式中,每一样本医学文本可能包括多个文字,在样本医学文本包括多个文字的情况下,对应的样本医学文本向量中包括该多个文字中每一文字的字向量。需说明的是,本公开实施例中均是以每一样本医学文本包括一个文字为例进行说明的。
另外,将查询数据集输入编码子模型后,编码子模型输出的是与查询数据集所对应的长向量,该长向量中包括查询数据集中的每一样本医学文本对应的字向量。
一种可实现的实施方式,可采用预训练BERT模型作为编码子模型。通过BERT模型对每一文字进行编码得到对应的字向量的过程可用如下公式表征:z=fθ(x),其中,θ为BERT模型的训练参数,x表征单个文字,z表征文字x的字向量。
值得说明的是,BERT的全称是Bidirectional Encoder Representation fromTransformers,即双向Transformer的Encoder。由于BERT模型的双向编码规则(即基于上下文编码),所以在将查询数据集输入BERT模型后,得到的每一文字x的字向量z均是上下文表示向量。
步骤二、计算所述样本医学文本向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量,其中,每一所述医学实体向量是根据所述支持数据集计算得到的。例如,任一种医学实体向量可以是根据支持数据集中的所有属于该种医学实体的样本医学文本的向量计算得到的向量均值。具体计算方式可参见后文实施例。
在具体实施时,将样本医学文本向量输入标注子模型,标注子模型计算样本医学文本向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量。由于标注子模型可以为使用softmax函数的线性分类器,那么可使用softmax函数fγ(z)=softmax(Wz+b)表征标注子模型的分类过程。其中,W为标注子模型的参数矩阵,该参数矩阵为标注子模型的模型训练参数,b为标注子模型的偏置项或截距项目(bias term),该偏置项也是标注子模型的模型训练参数,fγ(z)表征样本医学文本向量z的分类结果,分类结果即为目标医学实体向量所表征的医学实体。
步骤3、根据所述目标医学实体向量和所述样本医学文本向量对应的实际医学实体向量之间的损失信息更新所述实体预标注模型的模型参数,所述实体预标注模型的模型参数包括所述编码子模型的模型参数以及所述标注子模型的模型参数。
其中,样本医学文本向量对应的实际医学实体向量是指,对该样本医学文本对应的医学实体进行编码后得到的医学实体向量。例如,一条训练数据包括样本医学文本A和该样本医学文本A对应的医学实体a,那么与样本医学文本A的向量所对应的实际医学实体向量是指对医学实体a进行编码后得到的向量。
在具体实施时,可以通过最小化交叉熵函数计算目标医学实体向量与实际医学实体向量之间的损失信息:其中,KL为KL散度计算公式,用来衡量目标医学实体向量与实际医学实体向量在医学实体向量空间(即医学实体标签空间)分布的距离,q(·)表示最大相似度,q(y|x)=softmax(W·fθ(x)+b),其中,{W,b}=γ为标注子模型的模型训练参数。
在计算得到目标医学实体向量和实际医学实体向量之间的损失信息之后,根据损失信息更新实体预标注模型的所有模型参数。实体预标注模型的模型参数包括上述编码子模型的模型训练参数θ、以及标注子模型的模型训练参数W和b。并重新执行从训练数据集中抽取一部分训练数据得到支持数据集,并从训练数据集中抽取另一部分训练数据得到查询数据集的步骤,直到损失最小时训练结束。
为了便于本领域普通技术人员更加容易理解上述训练过程,下面根据图3进行简要说明。假设查询数据集对应文本“患儿8天前出现发热39.5℃…”那么,将该查询数据集输入编码子模型,以通过编码子模型对该查询数据集中的每一文字进行编码,得到每一文字的字向量。假设编码子模型对文字“8”进行编码得到的向量为a3,将a3输入标注子模型后,标注子模型计算a3与每一种医学实体向量之间的相似度。如图3所示,支持数据集包括3种医学实体向量,分别是根据支持数据集中的“2、天、前、15”计算得到的发生时间医学实体向量,根据支持数据集中的“发、热、咳、嗽”计算得到的症状医学实体向量,以及根据支持数据集中的“美、林、青、霉、素”计算得到的用药医学实体向量。假设一种可能的情况,标注子模型确定与a3的相似度最大目标医学实体向量为前述症状医学实体向量,而a3所对应的文字“8”的实际医学实体向量为发生时间医学实体向量。此种情况下,根据症状医学实体向量和发生时间医学实体向量计算损失信息,并根据该损失信息更新编码子模型的模型训练参数θ、以及标注子模型的模型训练参数W和b。接着,重新开始执行从训练数据集中抽取一部分训练数据得到支持数据集,并从训练数据集中抽取另一部分训练数据得到查询数据集的步骤,直到损失最小时训练结束。
可选地,在所述样本医学文本向量与每一种医学实体向量之间的相似度均小于预设阈值的情况下,确定所述样本医学文本向量为非医学实体向量。
可选地,根据所述支持数据集计算得到所述医学实体向量,包括:
针对任一所述医学实体,从所述支持数据集中确定对应所述医学实体的所有样本医学文本;计算所述所有样本医学文本的向量的平均向量,得到相应地所述医学实体向量。
一种可能的实施方式,从训练数据集中随机采样,得到支持数据集,如支持数据集为从训练数据集中随机采样,得到查询数据集,如查询数据集为其中,Mn为支持数据集中属于第n种医学实体的样本医学文本的总数,支持数据集中有p种医学实体,M′n为查询数据集中属于第n种医学实体的样本医学文本的总数,查询数据集中有p’种医学实体。
针对任一医学实体,从支持数据集中确定对应该医学实体的所有样本医学文本。并计算所有样本医学文本的向量的平均向量(每一样本医学文本的向量可由编码子模型编码得到),得到相应地医学实体向量。该过程可通过如下计算公式进行表征:其中,Sm表征支持数据集中属于第m种医学实体的样本医学文本的集合,fθ(x)表征Sm中的样本医学文本对应的样本医学文本向量,|Sm|表征Sm中样本医学文本的数量,cm表征第m种医学实体的医学实体向量。
进一步地,计算样本医学文本向量与每一种医学实体向量之间的相似度的过程可用如下公式表征:其中,d(·)表示向量空间内的距离计算公式。cm表征第m种医学实体向量,exp(-d(fθ(x),cm))表征样本医学文本向量fθ(x)与第m种医学实体向量在向量空间内的距离,m的取值范围与n相同即[1,i],∑n∈[1,i]exp(-d(fθ(x),cn))表征样本医学文本向量fθ(x)与每一种医学实体向量在向量空间内的距离的和值,i表征医学实体向量的数量。
在计算样本医学文本向量与每一种医学实体向量之间的相似度之后,从各相似度中确定最大相似度对应的目标医学实体向量,将该目标医学实体向量对应的医学实体的标签作为实体预标注模型对该样本医学文本的分类结果。该过程可用如下公式进行表征:label=arg minmd(fθ(x),cm)。
可选地,所述将所述待标注医学文本输入训练完成的实体预标注模型,得到所述待标注医学文本中每一文字的医学实体预标注结果,具体可以包括以下步骤:
将所述待标注医学文本输入训练完成的所述编码子模型,得到待标注医学文本向量;针对所述待标注医学文本向量中的每一字向量,将所述字向量输入训练完成的所述标注子模型,得到所述字向量对应的文字的医学实体预标注结果。
详细地,训练完成的所述标注子模型用于:
计算所述字向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量,其中,每一种医学实体向量是根据所述实体预标注模型训练完成时最后一次抽取得到的所述支持数据集计算得到的;根据所述目标医学实体向量所表征的医学实体标注所述字向量对应的文字。
值得强调的是,训练完成的实体预标注模型中,标注子模型所使用的医学实体标签模型是根据实体预标注模型训练完成时最后一次抽取得到的支持数据集计算得到的。该医学实体标签模型包括多个医学实体向量,且每一医学实体向量均是根据实体预标注模型训练完成时最后一次抽取得到的支持数据集计算得到的。具体地,针对任一医学实体,从最后一次抽取得到的支持数据集中确定对应该医学实体的所有样本医学文本,将所有样本医学文本输入训练完成的编码子模型,得到所有样本医学文本的向量,计算所有样本医学文本的向量的平均值,得到对应的医学实体向量。
在一些可能的实施方式中,训练完成的实体预标注模型中,标注子模型所使用的医学实体标签模型还可以是根据训练过程中使用的训练数据集计算得到。
可选地,所述方法还包括:
响应于用户的人工校对请求,根据所述待标注医学文本中每一文字的医学实体预标注结果,生成人工校对页面;向所述用户展示所述人工校对页面。
在步骤S12之后,可响应于用户的人工校对请求,根据实体预标注模型的输出结果,即根据待标注医学文本中每一文字的医学实体预标注结果,生成人工校对页面,并向用户展示该人工校对页面。用户基于该人工校对页面,对待标注医学文本中每一文字的医学实体预标注结果进行校对。
本公开的这种先使用模型进行预标注再由人工进行校对的方法,相较于相关技术中人工直接对待标注医学文本进行标注的方式效率更高。
综上,采用本公开的方法,通过获取待标注医学文本,并将该待标注医学文本输入训练完成的实体预标注模型,可得到该待标注医学文本中每一文字的医学实体预标注结果。这种使用模型预标注的方式相较于相关技术中人工标注的方式效率更高。而且,由于实体预标注模型包括编码子模型以及标注子模型,实体预标注模型的训练过程包括迭代如下操作:从训练数据集中抽取一部分训练数据得到支持数据集,并从训练数据集中抽取另一部分训练数据得到查询数据集,根据查询数据集训练编码子模型,并根据编码子模型输出的样本医学文本向量和支持数据集训练标注子模型。这种迭代使用数据量少的不同查询数据集训练模型并使用不同支持数据集(即先验知识/元知识)评价/度量模型学习效果的方式,能够使模型基于数据量少的查询数据集快速学习到用于区分各医学实体的主要特征而非与医学实体无关的、对分类该样本没有帮助的特征。即采用这种基于先验知识使模型学会学习的训练方式(即模型元学习训练方式)能够有效利用有限的标签数据来对未知医学文本中的未知医学实体进行预标注。可见本公开的这种方式无需大量的训练数据。总而言之,采用本公开的这种方式,实现了在医学实体标注数据量少的情况下,达到提升医学实体标注效率的目的。
基于同一发明构思,本公开实施例还提供一种医学实体预标注装置,如图4所示,该医学实体预标注装置400包括:
获取模块410,用于获取待标注医学文本;
标注模块420,用于将所述待标注医学文本输入训练完成的实体预标注模型,得到所述待标注医学文本中每一文字的医学实体预标注结果;
训练模块430,用于迭代如下操作以训练得到包括编码子模型以及标注子模型的所述实体预标注模型:
从训练数据集中抽取一部分训练数据得到支持数据集,并从所述训练数据集中抽取另一部分训练数据得到查询数据集,每一条训练数据包括样本医学文本以及所述样本医学文本对应的医学实体;根据所述查询数据集训练所述编码子模型,并根据所述编码子模型输出的样本医学文本向量和所述支持数据集训练所述标注子模型。
可选地,所述编码子模型在训练过程中,用于对所述查询数据集中的所述样本医学文本进行编码,得到样本医学文本向量;
所述标注子模型在训练过程中,用于计算所述样本医学文本向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量,其中,每一所述医学实体向量是根据所述支持数据集计算得到的;根据所述目标医学实体向量和所述样本医学文本向量对应的实际医学实体向量之间的损失信息更新所述实体预标注模型的模型参数,所述实体预标注模型的模型参数包括所述编码子模型的模型参数以及所述标注子模型的模型参数。
可选地,所述装置还包括计算模块,用于针对任一所述医学实体,从所述支持数据集中确定对应所述医学实体的所有样本医学文本;并计算所述所有样本医学文本的向量的平均向量,得到相应地所述医学实体向量。
可选地,所述标注模块420包括:
第一输入子模块,用于将所述待标注医学文本输入训练完成的所述编码子模型,得到待标注医学文本向量;
第二输入子模块,用于针对所述待标注医学文本向量中的每一字向量,将所述字向量输入训练完成的所述标注子模型,得到所述字向量对应的文字的医学实体预标注结果。
可选地,训练完成的所述标注子模型用于:
计算所述字向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量,其中,每一种医学实体向量是根据所述实体预标注模型训练完成时最后一次抽取得到的所述支持数据集计算得到的;并
根据所述目标医学实体向量所表征的医学实体标注所述字向量对应的文字。
可选地,支持数据集和所述查询数据集中的训练数据量之和小于或等于所述训练数据集中的训练数据量。
可选地,所述装置400还包括:
响应模块,用于响应于用户的人工校对请求,根据所述待标注医学文本中每一文字的医学实体预标注结果,生成人工校对页面;
展示模块,用于向所述用户展示所述人工校对页面。
采用上述装置,通过获取待标注医学文本,并将该待标注医学文本输入训练完成的实体预标注模型,可得到该待标注医学文本中每一文字的医学实体预标注结果。这种使用模型预标注的方式相较于相关技术中人工标注的方式效率更高。而且,由于实体预标注模型包括编码子模型以及标注子模型,实体预标注模型的训练过程包括迭代如下操作:从训练数据集中抽取一部分训练数据得到支持数据集,并从训练数据集中抽取另一部分训练数据得到查询数据集,根据查询数据集训练编码子模型,并根据编码子模型输出的样本医学文本向量和支持数据集训练标注子模型。这种迭代使用数据量少的不同查询数据集训练模型并使用不同支持数据集(即先验知识/元知识)评价/度量模型学习效果的方式,能够使模型基于数据量少的查询数据集快速学习到用于区分各医学实体的主要特征而非与医学实体无关的、对分类该样本没有帮助的特征。即采用这种基于先验知识使模型学会学习的训练方式能够有效利用有限的标签数据来对未知医学文本中的未知医学实体进行预标注。可见本公开的这种方式无需大量的训练数据。总而言之,采用本公开的这种方式,实现了在医学实体标注数据量少的情况下,达到提升医学实体标注效率的目的。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一部分中任一项所述方法的步骤。
图5是根据一示例性实施例示出的一种电子设备700的框图。如图5所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的医学实体预标注方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的医学实体预标注方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的医学实体预标注方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的医学实体预标注方法。
图6是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图6,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的医学实体预标注方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的医学实体预标注方法的步骤。例如,该非临时性计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的医学实体预标注方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的医学实体预标注方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。
Claims (10)
1.一种医学实体预标注方法,其特征在于,所述方法包括:
获取待标注医学文本;
将所述待标注医学文本输入训练完成的实体预标注模型,得到所述待标注医学文本中每一文字的医学实体预标注结果;
其中,所述实体预标注模型包括编码子模型以及标注子模型,所述实体预标注模型的训练过程包括迭代如下操作:
从训练数据集中抽取一部分训练数据得到支持数据集,并从所述训练数据集中抽取另一部分训练数据得到查询数据集,每一条训练数据包括样本医学文本以及所述样本医学文本对应的医学实体;
根据所述查询数据集训练所述编码子模型,并根据所述编码子模型输出的样本医学文本向量和所述支持数据集训练所述标注子模型。
2.根据权利要求1所述的方法,其特征在于,所述根据所述查询数据集训练所述编码子模型,并根据所述编码子模型输出的样本医学文本向量和所述支持数据集训练所述标注子模型,包括:
对所述查询数据集中的所述样本医学文本进行编码,得到样本医学文本向量;
计算所述样本医学文本向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量,其中,每一所述医学实体向量是根据所述支持数据集计算得到的;
根据所述目标医学实体向量和所述样本医学文本向量对应的实际医学实体向量之间的损失信息更新所述实体预标注模型的模型参数,所述实体预标注模型的模型参数包括所述编码子模型的模型参数以及所述标注子模型的模型参数。
3.根据权利要求2所述的方法,其特征在于,根据所述支持数据集计算得到所述医学实体向量,包括:
针对任一所述医学实体,从所述支持数据集中确定对应所述医学实体的所有样本医学文本;
计算所述所有样本医学文本的向量的平均向量,得到相应地所述医学实体向量。
4.根据权利要求1所述的方法,其特征在于,所述将所述待标注医学文本输入训练完成的实体预标注模型,得到所述待标注医学文本中每一文字的医学实体预标注结果,包括:
将所述待标注医学文本输入训练完成的所述编码子模型,得到待标注医学文本向量;
针对所述待标注医学文本向量中的每一字向量,将所述字向量输入训练完成的所述标注子模型,得到所述字向量对应的文字的医学实体预标注结果。
5.根据权利要求4所述的方法,其特征在于,训练完成的所述标注子模型用于:
计算所述字向量与每一种医学实体向量之间的相似度,以确定相似度最大的目标医学实体向量,其中,每一种医学实体向量是根据所述实体预标注模型训练完成时最后一次抽取得到的所述支持数据集计算得到的;
根据所述目标医学实体向量所表征的医学实体标注所述字向量对应的文字。
6.根据权利要求1-5中任一项所述的方法,其特征在于,所述支持数据集和所述查询数据集中的训练数据量之和小于或等于所述训练数据集中的训练数据量。
7.根据权利要求1-5中任一项所述的方法,其特征在于,所述方法还包括:
响应于用户的人工校对请求,根据所述待标注医学文本中每一文字的医学实体预标注结果,生成人工校对页面;
向所述用户展示所述人工校对页面。
8.一种医学实体预标注装置,其特征在于,所述装置包括:
获取模块,用于获取待标注医学文本;
标注模块,用于将所述待标注医学文本输入训练完成的实体预标注模型,得到所述待标注医学文本中每一文字的医学实体预标注结果;
训练模块,用于迭代如下操作以训练得到包括编码子模型以及标注子模型的所述实体预标注模型:
从训练数据集中抽取一部分训练数据得到支持数据集,并从所述训练数据集中抽取另一部分训练数据得到查询数据集,每一条训练数据包括样本医学文本以及所述样本医学文本对应的医学实体;
根据所述查询数据集训练所述编码子模型,并根据所述编码子模型输出的样本医学文本向量和所述支持数据集训练所述标注子模型。
9.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111357159.5A CN114036902A (zh) | 2021-11-16 | 2021-11-16 | 医学实体预标注方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111357159.5A CN114036902A (zh) | 2021-11-16 | 2021-11-16 | 医学实体预标注方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114036902A true CN114036902A (zh) | 2022-02-11 |
Family
ID=80144556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111357159.5A Pending CN114036902A (zh) | 2021-11-16 | 2021-11-16 | 医学实体预标注方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114036902A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722823A (zh) * | 2022-03-24 | 2022-07-08 | 华中科技大学 | 构建航空知识图谱的方法及装置、计算机可读介质 |
CN115295134A (zh) * | 2022-09-30 | 2022-11-04 | 北方健康医疗大数据科技有限公司 | 医学模型评价方法、装置和电子设备 |
CN115940952A (zh) * | 2023-01-05 | 2023-04-07 | 南京芯驰半导体科技有限公司 | 多数模转换器芯片的ate测试方法及装置、电子设备、介质 |
-
2021
- 2021-11-16 CN CN202111357159.5A patent/CN114036902A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722823A (zh) * | 2022-03-24 | 2022-07-08 | 华中科技大学 | 构建航空知识图谱的方法及装置、计算机可读介质 |
CN114722823B (zh) * | 2022-03-24 | 2023-04-14 | 华中科技大学 | 构建航空知识图谱的方法及装置、计算机可读介质 |
CN115295134A (zh) * | 2022-09-30 | 2022-11-04 | 北方健康医疗大数据科技有限公司 | 医学模型评价方法、装置和电子设备 |
CN115940952A (zh) * | 2023-01-05 | 2023-04-07 | 南京芯驰半导体科技有限公司 | 多数模转换器芯片的ate测试方法及装置、电子设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102401942B1 (ko) | 번역품질 평가 방법 및 장치 | |
CN107220235B (zh) | 基于人工智能的语音识别纠错方法、装置及存储介质 | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
CN114036902A (zh) | 医学实体预标注方法、装置、存储介质及电子设备 | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
CN111639163A (zh) | 问题生成模型的训练方法、问题生成方法及其相关设备 | |
WO2021135469A1 (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
CN109583952B (zh) | 广告文案处理方法、装置、设备及计算机可读存储介质 | |
JP7301922B2 (ja) | 意味検索方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN110175336B (zh) | 翻译方法、装置和电子设备 | |
WO2023029513A1 (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
CN112287680B (zh) | 一种问诊信息的实体抽取方法、装置、设备及存储介质 | |
WO2021179693A1 (zh) | 医疗文本翻译方法、装置及存储介质 | |
CN110852106A (zh) | 基于人工智能的命名实体处理方法、装置及电子设备 | |
CN112417102A (zh) | 一种语音查询方法、装置、服务器和可读存储介质 | |
WO2015139497A1 (zh) | 一种在搜索引擎中确定形近字的方法和装置 | |
CN114556328A (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN113268576B (zh) | 一种基于深度学习的部门语义信息抽取的方法及装置 | |
CN114595686A (zh) | 知识抽取方法、知识抽取模型的训练方法及装置 | |
CN111488742A (zh) | 用于翻译的方法和装置 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN114550239A (zh) | 视频生成方法及装置、存储介质、终端 | |
CN116303537A (zh) | 数据查询方法及装置、电子设备、存储介质 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
CN115062134A (zh) | 知识问答模型训练及知识问答方法、装置和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |