CN110597970A - 一种多粒度医疗实体联合识别的方法及装置 - Google Patents

一种多粒度医疗实体联合识别的方法及装置 Download PDF

Info

Publication number
CN110597970A
CN110597970A CN201910764347.6A CN201910764347A CN110597970A CN 110597970 A CN110597970 A CN 110597970A CN 201910764347 A CN201910764347 A CN 201910764347A CN 110597970 A CN110597970 A CN 110597970A
Authority
CN
China
Prior art keywords
granularity
entity
feature vector
self
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910764347.6A
Other languages
English (en)
Other versions
CN110597970B (zh
Inventor
叶琪
周晓进
徐陈铭
阮彤
邱家辉
张佳影
翟洁
周扬名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China University of Science and Technology
Original Assignee
East China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China University of Science and Technology filed Critical East China University of Science and Technology
Priority to CN201910764347.6A priority Critical patent/CN110597970B/zh
Publication of CN110597970A publication Critical patent/CN110597970A/zh
Application granted granted Critical
Publication of CN110597970B publication Critical patent/CN110597970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明属于计算机应用领域,公开了一种多粒度医疗实体联合识别的方法及装置。包括:获取训练数据,训练数据包括训练文本、标注出所述训练文本的命名实体名称以及对应的实体类型;将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;根据所述的基于自注意力机制的多粒度的实体识别模型,识别输入语料中的粗粒度命名实体和细粒度命名实体。实验表明,采用本发明实施例,可以有效解决实体识别方法难以满足不同应用的需求的问题,并且达到较好的识别效果。

Description

一种多粒度医疗实体联合识别的方法及装置
技术领域
本发明属于医疗信息处理领域,更为具体地,尤其涉及一种多粒度医疗实体联合识别的方法。
背景技术
电子病历(Electronic Medical Records,EMR)是重要的个人健康记录以及医学科研材料。人们希望利用EMR积累的数据,辅助临床决策、医学科研以及公共卫生管理等医学课题发展。但是,EMR中存在大量的非结构化以及半结构化数据,无法被科研人员直接用来进行数据挖掘,由此阻碍了电子病历数据的作用的充分发挥。因此,命名实体识别被认为是电子病历结构化的基础问题。
现有中文临床实体识别任务,部分数据集标注实体的粒度过细,例如将“患者未患有腹壁静脉曲张”中的“腹壁”标为部位,“静脉曲张”标为症状,此时与“静脉曲张”相关的语义信息“患者未患有”和“发生在腹壁位置”都无法从“静脉曲张”这个实体中得到。另一些数据集采用了保留语义的标注方式,但是粒度过粗,将“无口角或肢体的抽动”标为一个症状实体,这种标注方式得到的实体,在实际应用时需要复杂的后处理。总之,现有实体识别方法难以满足不同应用的需求。
发明内容
有鉴于此,本发明实施例的第一方面公开了一种多粒度医疗实体联合识别的方法。其具体方案如下:
获取训练数据,所述训练数据包括文本以及标注出的文本中的实体名称和实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;根据所述的基于自注意力机制的多粒度的实体识别模型,识别输入语料中的粗粒度命名实体和细粒度命名实体。
其中,获取训练数据过程是采用BIEO标注方式对训练文本进行命实体标注,得到训练数据的命名实体。
其中,粗粒度实体至少包括以下一种或组合:自诉症状、体格检查、检查项目、疾病诊断、疾病史、手术名、手术史。细粒度实体至少包括以下一种或组合:存在情况、情景限定、程度等级、性质形态、方位部位、原子症状、原子疾病、时间点、时间段。
本发明第实施例第二方面,将训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型的步骤包括:首先,将训练文本中的字符转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;然后,将公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;接着,将公共的上下文特征向量、粒度相关的特征向量相加,分别优化两个平行的条件随机场模型;最后,所述双向长短期记忆模型、所述两个平行的自注意力层和所述的两个平行的条件随机场模型组合得到所述的基于自注意力机制的多粒度的实体识别模型。
将所述公共的上下文特征向量送入两个平行的自注意力层,提取粒度相关的特征向量的计算过程包括:
其中:Q、K、V分别代表查询向量矩阵,键值向量矩阵和值向量矩阵,且m表示输入语句的长度,dk和dv分别表示查询向量和值向量的维度,令Q=K=V=双向的长短期记忆模型输出公共的上下文特征向量。
进一步,自注意力层还可以使用多头注意力机制,计算过程为:
headi=attention(QWi Q,KWi R,VWi V)WO#
multiHead(Q,K,V)=concat(head1,head2,...,headh)#
其中, dmodel表示输入的特征向量的维度,h表示相互平行的自注意力层的个数,并且dk=dv=dmodel/h。
将公共的上下文特征向量与粒度相关的特征向量相加,分别优化两个平行的条件随机场模型的过程包括:两个平行的CRF层的损失和作为全局损失一起训练,Loss值的计算如下:
Loss=α·crf_lossC+β·crf_lossG#
其中,下标C,G分别表示粗粒度和细粒度实体,crf_lossC为粗粒度损失值,crf_lossG为细粒度损失值,α,β为权重参数。
本发明实施例第一方面提供一种多粒度医疗实体联合识别的装置,其特征在于,包括:
获取模块,用于获取训练数据,所述训练数据包括训练文本、标注出所述训练文本的命名实体以及对应的实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;
训练模块,用于将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;
识别模块,用于识别输入语料中的粗粒度命名实体和细粒度命名实体。
本发明实施例第二方面,提供的识别模块包括:
嵌入层及双向的长短期记忆层模块,用于将训练模块中得到的训练文本中的字符转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;
自注意力层模块,用于将所述公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;
条件随机场层模块,用于将嵌入层及双向的长短期记忆层模块得到所述公共的上下文特征向量、自注意力层模块中得到的所述粒度相关的特征向量相加,分别优化两个平行的条件随机场模型。
实验表明,本发明的联合学习方法两类实体中的综合性能F1值上分别达到了92.88和85.48,优于现有其他模型和方法。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中,
图1示出本发明实施例的示意图;
图2示出本发明实施例的多粒度实体识别的结构框图;
图3示出本发明识别出的实体范例。
具体实施方式
请参见图1,图1是本发明实施例提供的实体识别的示意图。该方法包括:获取训练数据,所述训练数据包括训练文本、标注出所述训练文本的命名实体以及对应的实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;根据所述的基于自注意力机制的多粒度的实体识别模型,识别输入语料中的粗粒度命名实体和细粒度命名实体。
具体实现中,粗粒度实体至少包括以下一种或组合:自诉症状、体格检查、检查项目、疾病诊断、疾病史、手术名、手术史七类粗粒度临床实体的结构特征。
细粒度解析实体按功能分类,至少包括以下一种或组合:存在情况、情景限定、程度等级、性质形态、方位部位、原子症状、原子疾病、时间点、时间段。如表1所示。
表1
图2给出了一个结合粗细粒度标注的实例。
另一方面,请参见图3,图3是本发明实施例将训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型的示意图。
具体步骤包括:首先,将训练文本中的字符通过嵌入层转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;然后,将公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;接着,将公共的上下文特征向量、粒度相关的特征向量相加,分别优化两个平行的条件随机场模型;最后,所述双向长短期记忆模型、所述两个平行的自注意力层和所述的两个平行的条件随机场模型组合得到所述的基于自注意力机制的多粒度的实体识别模型。
首先,将训练文本中的字符转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量。,将文字转换成对应的字向量形式,初始字向量可通过使用文本语料训练得到或随机初始化得到,本发明采用word2vec学习初始字向量。具体而言,输入固定长度为n的电子病历文字序列X=[x1,x2,...,xn]到嵌入层,将序列中每个汉字xi转换成对应的字向量最终将文字序列X转换成矩阵E=[e1,e2,...,en]的形式,并将E传入双向的长短期记忆模型(Bi-LSTM)层。
LSTM的具体计算过程如下所示:
it=σ(Wiet+Uiht-1+bi)
ft=σ(Wfet+Ufht-1+bf)
ot=σ(Woet+Uoht-1+bo)
ht=ot⊙tanh(ct)
其中,et分别是网络在时刻t的输入输出向量;it、ft分别是时刻t的输入门向量、遗忘门向量、输出门向量:ct是计算的中间结果;是可训练的参数,不同的下标表示参数对应不同的门;σ、tanh、⊙分别表示sigmoid函数、双曲正切函数、逐元素相乘。特别的,当t=1时,h0
Bi-LSTM层由一个正向LSTM和一个逆向LSTM组成。在t时刻,向量et自左向右地传入正向LSTM,输出记为逆向LSTM自右向左地处理向量et,输出记为Bi-LSTM在时刻t的输出,为正向LSTM和逆向LSTM输出的拼接
接着将所述公共的上下文特征向量送入两个平行的自注意力层,提取粒度相关的特征向量的计算过程包括:
其中:Q、K、V分别代表查询向量矩阵,键值向量矩阵和值向量矩阵,且m表示输入语句的长度,dk和dv分别表示查询向量和值向量的维度,令Q=K=V=双向的长短期记忆模型输出公共的上下文特征向量。
进一步,自注意力层还可以使用多头注意力机制,计算过程为:
headi=attention(QWi Q,KWi K,VWi V)WO#
multiHead(Q,K,V)=concat(head1,head2,...,headn)#
其中, dmodel表示输入的特征向量的维度,h表示相互平行的自注意力层的个数,并且dk=dv=dmodel/h。
将公共的上下文特征向量与粒度相关的特征向量相加,分别优化两个平行的条件随机场模型的过程包括:两个平行的CRF层的损失和作为全局损失一起训练,Loss值的计算如下:
Loss=α·crf_lossC+β·crf_lossG#
其中,下标C,G分别表示粗粒度和细粒度实体,crf_lossC为粗粒度损失值,crf_lossG为细粒度损失值,α,β为权重参数。
对比现有的命名实体识别模型,如表2所示,本发明的联合学习模型两类实体中在综合性能F1值上均取得了最好的效果,分别达到了92.88和85.48。
表2
本发明实施例提供一种多粒度医疗实体联合识别的装置,其特征在于,包括:
获取模块,用于获取训练数据,所述训练数据包括训练文本、标注出所述训练文本的命名实体以及对应的实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;
训练模块,用于将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;
识别模块,用于识别输入语料中的粗粒度命名实体和细粒度命名实体。
其中,识别模块包括:
嵌入层及双向的长短期记忆层模块,用于将训练模块中得到的训练文本中的字符转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;
自注意力层模块,用于将所述公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;
条件随机场层模块,用于将嵌入层及双向的长短期记忆层模块得到所述公共的上下文特征向量、自注意力层模块中得到的所述粒度相关的特征向量相加,分别优化两个平行的条件随机场模型。
上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims (9)

1.一种多粒度医疗实体联合识别的方法,其特征在于,包括:
获取训练数据,所述训练数据包括文本、标注出所述文本的命名实体名称以及对应的实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;
将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;
根据所述的基于自注意力机制的多粒度的实体识别模型,识别输入语料中的粗粒度命名实体和细粒度命名实体。
2.根据权利要求1所述的多粒度医疗实体联合识别方法,其特征在于,将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型的步骤包括:
将所述训练文本中的字符经过嵌入层转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;
将所述公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;
将所述公共的上下文特征向量、所述粒度相关的特征向量相加,分别优化两个平行的条件随机场模型;
所述双向长短期记忆模型、所述两个平行的自注意力层和所述的两个平行的条件随机场模型组合得到所述的基于自注意力机制的多粒度的实体识别模型。
3.根据权利要求2所述的多粒度医疗实体联合识别方法,其特征在于,将所述公共的上下文特征向量送入两个平行的自注意力层,提取粒度相关的特征向量的计算过程包括:
其中:Q、K、V分别代表查询向量矩阵,键值向量矩阵和值向量矩阵,且m表示输入语句的长度,dk和dv分别表示查询向量和值向量的维度,令Q=K=V=双向的长短期记忆模型输出公共的上下文特征向量。
4.根据权利要求3所述的多粒度医疗实体联合识别方法,其特征在于,自注意力层还可以使用多头注意力机制,计算过程为:
headi=attention(QWi Q,KWi K,VWi V)WO#
multiHead(Q,K,V)=concat(head1,head2,...,headh)#
其中, dmodel表示输入的特征向量的维度,h表示相互平行的自注意力层的个数,并且dk=dv=dmodel/h。
5.根据权利要求2所述的多粒度医疗实体联合识别方法,其特征在于,将所述公共的上下文特征向量与所述粒度相关的特征向量相加,分别优化两个平行的条件随机场模型的过程包括:
两个平行的CRF层的损失和作为全局损失一起训练,Loss值的计算如下:
Loss=α·crf_lossC+β·crf_lossG#
其中,下标C,G分别表示粗粒度和细粒度实体,crf_lossC为粗粒度损失值,crf_lossG为细粒度损失值,α,β为权重参数。
6.根据权利要求1所述的多粒度医疗实体联合识别方法,其特征在于,所述粗粒度实体至少包括以下一种或组合:自诉症状、体格检查、检查项目、疾病诊断、疾病史、手术名、手术史。
7.根据权利要求1所述的多粒度医疗实体联合识别方法,其特征在于,所述细粒度实体至少包括以下一种或组合:存在情况、情景限定、程度等级、性质形态、方位部位、原子症状、原子疾病、时间点、时间段。
8.一种多粒度医疗实体联合识别的装置,其特征在于,包括:
获取模块,用于获取训练数据,所述训练数据包括训练文本、标注出所述训练文本的命名实体以及对应的实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;
训练模块,用于将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;
识别模块,用于识别输入语料中的粗粒度命名实体和细粒度命名实体。
9.根据权利要求8的多粒度医疗实体联合识别装置,其特征在于,识别模块包括:
嵌入层及双向的长短期记忆层模块,用于将训练模块中得到的训练文本中的字符转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;
自注意力层模块,用于将所述公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;
条件随机场层模块,用于将嵌入层及双向的长短期记忆层模块得到所述公共的上下文特征向量、自注意力层模块中得到的所述粒度相关的特征向量相加,分别优化两个平行的条件随机场模型。
CN201910764347.6A 2019-08-19 2019-08-19 一种多粒度医疗实体联合识别的方法及装置 Active CN110597970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910764347.6A CN110597970B (zh) 2019-08-19 2019-08-19 一种多粒度医疗实体联合识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910764347.6A CN110597970B (zh) 2019-08-19 2019-08-19 一种多粒度医疗实体联合识别的方法及装置

Publications (2)

Publication Number Publication Date
CN110597970A true CN110597970A (zh) 2019-12-20
CN110597970B CN110597970B (zh) 2023-04-07

Family

ID=68854586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910764347.6A Active CN110597970B (zh) 2019-08-19 2019-08-19 一种多粒度医疗实体联合识别的方法及装置

Country Status (1)

Country Link
CN (1) CN110597970B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222338A (zh) * 2020-01-08 2020-06-02 大连理工大学 基于预训练模型和自注意力机制的生物医学关系抽取方法
CN111324749A (zh) * 2020-05-15 2020-06-23 支付宝(杭州)信息技术有限公司 一种实体分类方法、系统、及装置
CN111370084A (zh) * 2020-02-07 2020-07-03 山东师范大学 基于BiLSTM的电子健康记录表示学习方法及系统
CN111553159A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种问句生成方法及系统
CN111782768A (zh) * 2020-06-30 2020-10-16 首都师范大学 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN111859983A (zh) * 2020-07-23 2020-10-30 中国平安人寿保险股份有限公司 基于人工智能的自然语言标注方法及相关设备
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
CN112635013A (zh) * 2020-11-30 2021-04-09 泰康保险集团股份有限公司 医学影像信息的处理方法、装置、电子设备和存储介质
CN112836514A (zh) * 2020-06-19 2021-05-25 合肥量圳建筑科技有限公司 嵌套实体识别方法、装置、电子设备和存储介质
CN112949687A (zh) * 2021-02-01 2021-06-11 北京三快在线科技有限公司 差异识别模型的训练方法及装置
CN113051918A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
WO2021146831A1 (zh) * 2020-01-20 2021-07-29 京东方科技集团股份有限公司 实体识别的方法和装置、建立词典的方法、设备、介质
CN113591886A (zh) * 2020-04-30 2021-11-02 北京百度网讯科技有限公司 用于信息分类的方法、装置、设备及计算机可读存储介质
CN113886602A (zh) * 2021-10-19 2022-01-04 四川大学 一种基于多粒度认知的领域知识库实体识别方法
CN115545018A (zh) * 2022-10-14 2022-12-30 人民网股份有限公司 一种多模态多粒度实体识别系统及实体识别方法
CN116028648A (zh) * 2023-02-15 2023-04-28 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110213742A1 (en) * 2010-02-26 2011-09-01 Lemmond Tracy D Information extraction system
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN109508459A (zh) * 2018-11-06 2019-03-22 杭州费尔斯通科技有限公司 一种从新闻中提取主题和关键信息的方法
US20190156210A1 (en) * 2017-11-17 2019-05-23 Facebook, Inc. Machine-Learning Models Based on Non-local Neural Networks
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN109885824A (zh) * 2019-01-04 2019-06-14 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
US20190251431A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask Learning As Question Answering
CN110134954A (zh) * 2019-05-06 2019-08-16 北京工业大学 一种基于Attention机制的命名实体识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110213742A1 (en) * 2010-02-26 2011-09-01 Lemmond Tracy D Information extraction system
US20190156210A1 (en) * 2017-11-17 2019-05-23 Facebook, Inc. Machine-Learning Models Based on Non-local Neural Networks
CN108229582A (zh) * 2018-02-01 2018-06-29 浙江大学 一种面向医学领域的多任务命名实体识别对抗训练方法
US20190251431A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask Learning As Question Answering
CN109508459A (zh) * 2018-11-06 2019-03-22 杭州费尔斯通科技有限公司 一种从新闻中提取主题和关键信息的方法
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN109885824A (zh) * 2019-01-04 2019-06-14 北京捷通华声科技股份有限公司 一种层次的中文命名实体识别方法、装置及可读存储介质
CN109947912A (zh) * 2019-01-25 2019-06-28 四川大学 一种基于段落内部推理和联合问题答案匹配的模型方法
CN109871545A (zh) * 2019-04-22 2019-06-11 京东方科技集团股份有限公司 命名实体识别方法及装置
CN110134954A (zh) * 2019-05-06 2019-08-16 北京工业大学 一种基于Attention机制的命名实体识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ANDREJ ZUKOV-GREGORIC等: "Neural Named Entity Recognition Using a Self-Attention Mechanism" *
周晓进等: "面向中文电子病历的多粒度医疗实体识别", 《计算机科学》 *
陈德鑫等: "基于CNN-BiLSTM模型的在线医疗实体抽取研究" *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051918A (zh) * 2019-12-26 2021-06-29 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN113051918B (zh) * 2019-12-26 2024-05-14 北京中科闻歌科技股份有限公司 基于集成学习的命名实体识别方法、装置、设备和介质
CN111222338A (zh) * 2020-01-08 2020-06-02 大连理工大学 基于预训练模型和自注意力机制的生物医学关系抽取方法
WO2021146831A1 (zh) * 2020-01-20 2021-07-29 京东方科技集团股份有限公司 实体识别的方法和装置、建立词典的方法、设备、介质
CN111370084A (zh) * 2020-02-07 2020-07-03 山东师范大学 基于BiLSTM的电子健康记录表示学习方法及系统
CN111370084B (zh) * 2020-02-07 2023-10-03 山东师范大学 基于BiLSTM的电子健康记录表示学习方法及系统
CN111553159A (zh) * 2020-04-24 2020-08-18 中国科学院空天信息创新研究院 一种问句生成方法及系统
CN113591886B (zh) * 2020-04-30 2023-11-07 北京百度网讯科技有限公司 用于信息分类的方法、装置、设备及计算机可读存储介质
CN113591886A (zh) * 2020-04-30 2021-11-02 北京百度网讯科技有限公司 用于信息分类的方法、装置、设备及计算机可读存储介质
CN111324749A (zh) * 2020-05-15 2020-06-23 支付宝(杭州)信息技术有限公司 一种实体分类方法、系统、及装置
CN112836514A (zh) * 2020-06-19 2021-05-25 合肥量圳建筑科技有限公司 嵌套实体识别方法、装置、电子设备和存储介质
CN111782768A (zh) * 2020-06-30 2020-10-16 首都师范大学 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN111782768B (zh) * 2020-06-30 2021-04-27 首都师范大学 基于双曲空间表示和标签文本互动的细粒度实体识别方法
CN111859983A (zh) * 2020-07-23 2020-10-30 中国平安人寿保险股份有限公司 基于人工智能的自然语言标注方法及相关设备
CN112035635A (zh) * 2020-08-28 2020-12-04 康键信息技术(深圳)有限公司 医疗领域意图识别方法、装置、设备及存储介质
CN112635013A (zh) * 2020-11-30 2021-04-09 泰康保险集团股份有限公司 医学影像信息的处理方法、装置、电子设备和存储介质
CN112635013B (zh) * 2020-11-30 2023-10-27 泰康保险集团股份有限公司 医学影像信息的处理方法、装置、电子设备和存储介质
CN112949687A (zh) * 2021-02-01 2021-06-11 北京三快在线科技有限公司 差异识别模型的训练方法及装置
CN112949687B (zh) * 2021-02-01 2022-05-31 北京三快在线科技有限公司 差异识别模型的训练方法及装置
CN113886602A (zh) * 2021-10-19 2022-01-04 四川大学 一种基于多粒度认知的领域知识库实体识别方法
CN115545018A (zh) * 2022-10-14 2022-12-30 人民网股份有限公司 一种多模态多粒度实体识别系统及实体识别方法
CN116028648A (zh) * 2023-02-15 2023-04-28 熙牛医疗科技(浙江)有限公司 一种细粒度各场景通用的医疗文本结构化信息抽取方法

Also Published As

Publication number Publication date
CN110597970B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110597970B (zh) 一种多粒度医疗实体联合识别的方法及装置
CN107977361B (zh) 基于深度语义信息表示的中文临床医疗实体识别方法
CN111291181B (zh) 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习
Alami et al. Enhancing unsupervised neural networks based text summarization with word embedding and ensemble learning
CN109471895B (zh) 电子病历表型抽取、表型名称规范化方法及系统
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
Xue et al. Multimodal recurrent model with attention for automated radiology report generation
CN109388807B (zh) 电子病历命名实体识别的方法、装置及存储介质
US11544529B2 (en) Semi-supervised classification with stacked autoencoder
CN111966917B (zh) 一种基于预训练语言模型的事件检测与摘要方法
US20180350459A1 (en) Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network
CN107808011B (zh) 信息的分类抽取方法、装置、计算机设备和存储介质
CN111881671B (zh) 一种属性词提取方法
CN111881292B (zh) 一种文本分类方法及装置
Najdenkoska et al. Variational topic inference for chest x-ray report generation
US11876986B2 (en) Hierarchical video encoders
CN112818670B (zh) 可分解变分自动编码器句子表示中的切分语法和语义
Joshua Thomas et al. A deep learning framework on generation of image descriptions with bidirectional recurrent neural networks
Zhu et al. Using deep learning based natural language processing techniques for clinical decision-making with EHRs
Najdenkoska et al. Uncertainty-aware report generation for chest X-rays by variational topic inference
CN112417155B (zh) 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质
US11494431B2 (en) Generating accurate and natural captions for figures
Gasimova Automated enriched medical concept generation for chest X-ray images
Julian Deep learning with pytorch quick start guide: learn to train and deploy neural network models in Python
CN114912452A (zh) 一种实体识别、信息抽取的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant