CN110597970B - 一种多粒度医疗实体联合识别的方法及装置 - Google Patents
一种多粒度医疗实体联合识别的方法及装置 Download PDFInfo
- Publication number
- CN110597970B CN110597970B CN201910764347.6A CN201910764347A CN110597970B CN 110597970 B CN110597970 B CN 110597970B CN 201910764347 A CN201910764347 A CN 201910764347A CN 110597970 B CN110597970 B CN 110597970B
- Authority
- CN
- China
- Prior art keywords
- granularity
- feature vector
- entity
- training
- self
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Animal Behavior & Ethology (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明属于计算机应用领域,公开了一种多粒度医疗实体联合识别的方法及装置。包括:获取训练数据,训练数据包括训练文本、标注出所述训练文本的命名实体名称以及对应的实体类型;将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;根据所述的基于自注意力机制的多粒度的实体识别模型,识别输入语料中的粗粒度命名实体和细粒度命名实体。实验表明,采用本发明实施例,可以有效解决实体识别方法难以满足不同应用的需求的问题,并且达到较好的识别效果。
Description
技术领域
本发明属于医疗信息处理领域,更为具体地,尤其涉及一种多粒度医疗实体联合识别的方法。
背景技术
电子病历(Electronic Medical Records,EMR)是重要的个人健康记录以及医学科研材料。人们希望利用EMR积累的数据,辅助临床决策、医学科研以及公共卫生管理等医学课题发展。但是,EMR中存在大量的非结构化以及半结构化数据,无法被科研人员直接用来进行数据挖掘,由此阻碍了电子病历数据的作用的充分发挥。因此,命名实体识别被认为是电子病历结构化的基础问题。
现有中文临床实体识别任务,部分数据集标注实体的粒度过细,例如将“患者未患有腹壁静脉曲张”中的“腹壁”标为部位,“静脉曲张”标为症状,此时与“静脉曲张”相关的语义信息“患者未患有”和“发生在腹壁位置”都无法从“静脉曲张”这个实体中得到。另一些数据集采用了保留语义的标注方式,但是粒度过粗,将“无口角或肢体的抽动”标为一个症状实体,这种标注方式得到的实体,在实际应用时需要复杂的后处理。总之,现有实体识别方法难以满足不同应用的需求。
发明内容
有鉴于此,本发明实施例的第一方面公开了一种多粒度医疗实体联合识别的方法。其具体方案如下:
获取训练数据,所述训练数据包括文本以及标注出的文本中的实体名称和实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;根据所述的基于自注意力机制的多粒度的实体识别模型,识别输入语料中的粗粒度命名实体和细粒度命名实体。
其中,获取训练数据过程是采用BIEO标注方式对训练文本进行命实体标注,得到训练数据的命名实体。
其中,粗粒度实体至少包括以下一种或组合:自诉症状、体格检查、检查项目、疾病诊断、疾病史、手术名、手术史。细粒度实体至少包括以下一种或组合:存在情况、情景限定、程度等级、性质形态、方位部位、原子症状、原子疾病、时间点、时间段。
本发明第实施例第二方面,将训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型的步骤包括:首先,将训练文本中的字符转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;然后,将公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;接着,将公共的上下文特征向量、粒度相关的特征向量相加,分别优化两个平行的条件随机场模型;最后,所述双向长短期记忆模型、所述两个平行的自注意力层和所述的两个平行的条件随机场模型组合得到所述的基于自注意力机制的多粒度的实体识别模型。
将所述公共的上下文特征向量送入两个平行的自注意力层,提取粒度相关的特征向量的计算过程包括:
进一步,自注意力层还可以使用多头注意力机制,计算过程为:
headi=attention(QWi Q,KWi R,VWi V)WO#
multiHead(Q,K,V)=concat(head1,head2,...,headh)#
将公共的上下文特征向量与粒度相关的特征向量相加,分别优化两个平行的条件随机场模型的过程包括:两个平行的CRF层的损失和作为全局损失一起训练,Loss值的计算如下:
Loss=α·crf_lossC+β·crf_lossG#
其中,下标C,G分别表示粗粒度和细粒度实体,crf_lossC为粗粒度损失值,crf_lossG为细粒度损失值,α,β为权重参数。
本发明实施例第一方面提供一种多粒度医疗实体联合识别的装置,其特征在于,包括:
获取模块,用于获取训练数据,所述训练数据包括训练文本、标注出所述训练文本的命名实体以及对应的实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;
训练模块,用于将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;
识别模块,用于识别输入语料中的粗粒度命名实体和细粒度命名实体。
本发明实施例第二方面,提供的识别模块包括:
嵌入层及双向的长短期记忆层模块,用于将训练模块中得到的训练文本中的字符转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;
自注意力层模块,用于将所述公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;
条件随机场层模块,用于将嵌入层及双向的长短期记忆层模块得到所述公共的上下文特征向量、自注意力层模块中得到的所述粒度相关的特征向量相加,分别优化两个平行的条件随机场模型。
实验表明,本发明的联合学习方法两类实体中的综合性能F1值上分别达到了92.88和85.48,优于现有其他模型和方法。
根据下面参考附图对示例性实施例的详细说明,本发明的其它特征及方面将变得清楚。
附图说明
读者在参照附图阅读了本发明的具体实施方式以后,将会更清楚地了解本发明的各个方面。其中,
图1示出本发明实施例的示意图;
图2示出本发明实施例的多粒度实体识别的结构框图;
图3示出本发明识别出的实体范例。
具体实施方式
请参见图1,图1是本发明实施例提供的实体识别的示意图。该方法包括:获取训练数据,所述训练数据包括训练文本、标注出所述训练文本的命名实体以及对应的实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;根据所述的基于自注意力机制的多粒度的实体识别模型,识别输入语料中的粗粒度命名实体和细粒度命名实体。
具体实现中,粗粒度实体至少包括以下一种或组合:自诉症状、体格检查、检查项目、疾病诊断、疾病史、手术名、手术史七类粗粒度临床实体的结构特征。
细粒度解析实体按功能分类,至少包括以下一种或组合:存在情况、情景限定、程度等级、性质形态、方位部位、原子症状、原子疾病、时间点、时间段。如表1所示。
表1
图2给出了一个结合粗细粒度标注的实例。
另一方面,请参见图3,图3是本发明实施例将训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型的示意图。
具体步骤包括:首先,将训练文本中的字符通过嵌入层转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;然后,将公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;接着,将公共的上下文特征向量、粒度相关的特征向量相加,分别优化两个平行的条件随机场模型;最后,所述双向长短期记忆模型、所述两个平行的自注意力层和所述的两个平行的条件随机场模型组合得到所述的基于自注意力机制的多粒度的实体识别模型。
首先,将训练文本中的字符转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量。,将文字转换成对应的字向量形式,初始字向量可通过使用文本语料训练得到或随机初始化得到,本发明采用word2vec学习初始字向量。具体而言,输入固定长度为n的电子病历文字序列X=[x1,x2,...,xn]到嵌入层,将序列中每个汉字xi转换成对应的字向量最终将文字序列X转换成矩阵E=[e1,e2,...,en]的形式,并将E传入双向的长短期记忆模型(Bi-LSTM)层。
LSTM的具体计算过程如下所示:
it=σ(Wiet+Uiht-1+bi)
ft=σ(Wfet+Ufht-1+bf)
ot=σ(Woet+Uoht-1+bo)
ht=ot⊙tanh(ct)
其中,et、分别是网络在时刻t的输入输出向量;it、ft、分别是时刻t的输入门向量、遗忘门向量、输出门向量:ct是计算的中间结果;是可训练的参数,不同的下标表示参数对应不同的门;σ、tanh、⊙分别表示sigmoid函数、双曲正切函数、逐元素相乘。特别的,当t=1时,h0,
Bi-LSTM层由一个正向LSTM和一个逆向LSTM组成。在t时刻,向量et自左向右地传入正向LSTM,输出记为逆向LSTM自右向左地处理向量et,输出记为Bi-LSTM在时刻t的输出,为正向LSTM和逆向LSTM输出的拼接
接着将所述公共的上下文特征向量送入两个平行的自注意力层,提取粒度相关的特征向量的计算过程包括:
进一步,自注意力层还可以使用多头注意力机制,计算过程为:
headi=attention(QWi Q,KWi K,VWi V)WO#
multiHead(Q,K,V)=concat(head1,head2,...,headn)#
将公共的上下文特征向量与粒度相关的特征向量相加,分别优化两个平行的条件随机场模型的过程包括:两个平行的CRF层的损失和作为全局损失一起训练,Loss值的计算如下:
Loss=α·crf_lossC+β·crf_lossG#
其中,下标C,G分别表示粗粒度和细粒度实体,crf_lossC为粗粒度损失值,crf_lossG为细粒度损失值,α,β为权重参数。
对比现有的命名实体识别模型,如表2所示,本发明的联合学习模型两类实体中在综合性能F1值上均取得了最好的效果,分别达到了92.88和85.48。
表2
本发明实施例提供一种多粒度医疗实体联合识别的装置,其特征在于,包括:
获取模块,用于获取训练数据,所述训练数据包括训练文本、标注出所述训练文本的命名实体以及对应的实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;
训练模块,用于将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;
识别模块,用于识别输入语料中的粗粒度命名实体和细粒度命名实体。
其中,识别模块包括:
嵌入层及双向的长短期记忆层模块,用于将训练模块中得到的训练文本中的字符转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;
自注意力层模块,用于将所述公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;
条件随机场层模块,用于将嵌入层及双向的长短期记忆层模块得到所述公共的上下文特征向量、自注意力层模块中得到的所述粒度相关的特征向量相加,分别优化两个平行的条件随机场模型。
上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。
Claims (6)
1.一种多粒度医疗实体联合识别的方法,其特征在于,包括:
获取训练数据,所述训练数据包括文本、标注出所述文本的命名实体名称以及对应的实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;
将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;
根据所述的基于自注意力机制的多粒度的实体识别模型,识别输入语料中的粗粒度命名实体和细粒度命名实体;
将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型的步骤包括:
将所述训练文本中的字符经过嵌入层转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;
将所述公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;
将所述公共的上下文特征向量、所述粒度相关的特征向量相加,分别优化两个平行的条件随机场模型;
所述双向长短期记忆模型、所述两个平行的自注意力层和所述的两个平行的条件随机场模型组合得到所述的基于自注意力机制的多粒度的实体识别模型;
将所述公共的上下文特征向量送入两个平行的自注意力层,提取粒度相关的特征向量的计算过程包括:
3.根据权利要求1所述的多粒度医疗实体联合识别方法,其特征在于,将所述公共的上下文特征向量与所述粒度相关的特征向量相加,分别优化两个平行的条件随机场模型的过程包括:
两个平行的CRF层的损失和作为全局损失一起训练,Loss值的计算如下:
Loss=α·crf_lossC+β·crf_lossG
其中,下标C,G分别表示粗粒度和细粒度实体,crf_lossC为粗粒度损失值,crf_lossG为细粒度损失值,α,β为权重参数。
4.根据权利要求1所述的多粒度医疗实体联合识别方法,其特征在于,所述粗粒度实体至少包括以下一种或组合:自诉症状、体格检查、检查项目、疾病诊断、疾病史、手术名、手术史。
5.根据权利要求1所述的多粒度医疗实体联合识别方法,其特征在于,所述细粒度实体至少包括以下一种或组合:存在情况、情景限定、程度等级、性质形态、方位部位、原子症状、原子疾病、时间点、时间段。
6.一种多粒度医疗实体联合识别的装置,其特征在于,包括:
获取模块,用于获取训练数据,所述训练数据包括训练文本、标注出所述训练文本的命名实体以及对应的实体类型,所述实体类型包括粗粒度命名实体和细粒度命名实体;
训练模块,用于将所述训练数据输入待训练的实体识别模型进行训练,得到基于自注意力机制的多粒度的实体识别模型;
识别模块,用于识别输入语料中的粗粒度命名实体和细粒度命名实体;
识别模块包括:
嵌入层及双向的长短期记忆层模块,用于将训练模块中得到的训练文本中的字符转化为字向量,利用所述字向量训练预设的双向的长短期记忆模型,输出公共的上下文特征向量;
自注意力层模块,用于将所述公共的上下文特征向量送入两个平行的自注意力层,提出粒度相关的特征向量,所述粒度相关的特征向量包括粗粒度特征向量和细粒度特征向量;
条件随机场层模块,用于将嵌入层及双向的长短期记忆层模块得到所述公共的上下文特征向量、自注意力层模块中得到的所述粒度相关的特征向量相加,分别优化两个平行的条件随机场模型;
将所述公共的上下文特征向量送入两个平行的自注意力层,提取粒度相关的特征向量的计算过程包括:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764347.6A CN110597970B (zh) | 2019-08-19 | 2019-08-19 | 一种多粒度医疗实体联合识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910764347.6A CN110597970B (zh) | 2019-08-19 | 2019-08-19 | 一种多粒度医疗实体联合识别的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110597970A CN110597970A (zh) | 2019-12-20 |
CN110597970B true CN110597970B (zh) | 2023-04-07 |
Family
ID=68854586
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910764347.6A Active CN110597970B (zh) | 2019-08-19 | 2019-08-19 | 一种多粒度医疗实体联合识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110597970B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020172329A1 (en) * | 2019-02-19 | 2020-08-27 | Google Llc | Learning to extract entities from conversations with neural networks |
CN113051918B (zh) * | 2019-12-26 | 2024-05-14 | 北京中科闻歌科技股份有限公司 | 基于集成学习的命名实体识别方法、装置、设备和介质 |
CN111222338A (zh) * | 2020-01-08 | 2020-06-02 | 大连理工大学 | 基于预训练模型和自注意力机制的生物医学关系抽取方法 |
EP4095738A4 (en) * | 2020-01-20 | 2023-01-04 | BOE Technology Group Co., Ltd. | METHOD AND DEVICE FOR RECOGNIZING ENTITIES, METHOD FOR GENERATION OF A DICTIONARY, DEVICE AND MEDIUM |
CN111370084B (zh) * | 2020-02-07 | 2023-10-03 | 山东师范大学 | 基于BiLSTM的电子健康记录表示学习方法及系统 |
CN111553159B (zh) * | 2020-04-24 | 2021-08-06 | 中国科学院空天信息创新研究院 | 一种问句生成方法及系统 |
CN113591886B (zh) * | 2020-04-30 | 2023-11-07 | 北京百度网讯科技有限公司 | 用于信息分类的方法、装置、设备及计算机可读存储介质 |
CN111324749B (zh) * | 2020-05-15 | 2020-08-18 | 支付宝(杭州)信息技术有限公司 | 一种实体分类方法、系统、及装置 |
CN111782768B (zh) * | 2020-06-30 | 2021-04-27 | 首都师范大学 | 基于双曲空间表示和标签文本互动的细粒度实体识别方法 |
CN111859983B (zh) * | 2020-07-23 | 2022-07-15 | 中国平安人寿保险股份有限公司 | 基于人工智能的自然语言标注方法及相关设备 |
CN112035635A (zh) * | 2020-08-28 | 2020-12-04 | 康键信息技术(深圳)有限公司 | 医疗领域意图识别方法、装置、设备及存储介质 |
CN112635013B (zh) * | 2020-11-30 | 2023-10-27 | 泰康保险集团股份有限公司 | 医学影像信息的处理方法、装置、电子设备和存储介质 |
CN112949687B (zh) * | 2021-02-01 | 2022-05-31 | 北京三快在线科技有限公司 | 差异识别模型的训练方法及装置 |
CN113886602B (zh) * | 2021-10-19 | 2023-08-01 | 四川大学 | 一种基于多粒度认知的领域知识库实体识别方法 |
CN115545018B (zh) * | 2022-10-14 | 2023-07-28 | 人民网股份有限公司 | 一种多模态多粒度实体识别系统及实体识别方法 |
CN116028648B (zh) * | 2023-02-15 | 2023-06-09 | 熙牛医疗科技(浙江)有限公司 | 一种细粒度各场景通用的医疗文本结构化信息抽取方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284400A (zh) * | 2018-11-28 | 2019-01-29 | 电子科技大学 | 一种基于Lattice LSTM和语言模型的命名实体识别方法 |
CN109508459A (zh) * | 2018-11-06 | 2019-03-22 | 杭州费尔斯通科技有限公司 | 一种从新闻中提取主题和关键信息的方法 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725666B2 (en) * | 2010-02-26 | 2014-05-13 | Lawrence Livermore National Security, Llc. | Information extraction system |
US11562243B2 (en) * | 2017-11-17 | 2023-01-24 | Meta Platforms, Inc. | Machine-learning models based on non-local neural networks |
CN108229582A (zh) * | 2018-02-01 | 2018-06-29 | 浙江大学 | 一种面向医学领域的多任务命名实体识别对抗训练方法 |
US11501076B2 (en) * | 2018-02-09 | 2022-11-15 | Salesforce.Com, Inc. | Multitask learning as question answering |
CN109885824B (zh) * | 2019-01-04 | 2024-02-20 | 北京捷通华声科技股份有限公司 | 一种层次的中文命名实体识别方法、装置及可读存储介质 |
-
2019
- 2019-08-19 CN CN201910764347.6A patent/CN110597970B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508459A (zh) * | 2018-11-06 | 2019-03-22 | 杭州费尔斯通科技有限公司 | 一种从新闻中提取主题和关键信息的方法 |
CN109284400A (zh) * | 2018-11-28 | 2019-01-29 | 电子科技大学 | 一种基于Lattice LSTM和语言模型的命名实体识别方法 |
CN109947912A (zh) * | 2019-01-25 | 2019-06-28 | 四川大学 | 一种基于段落内部推理和联合问题答案匹配的模型方法 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN110134954A (zh) * | 2019-05-06 | 2019-08-16 | 北京工业大学 | 一种基于Attention机制的命名实体识别方法 |
Non-Patent Citations (2)
Title |
---|
Andrej Zukov-Gregoric等.Neural Named Entity Recognition Using a Self-Attention Mechanism.《2017 IEEE 29th International Conference on Tools with Artificial Intelligence (ICTAI)》.2018,第652-656页. * |
陈德鑫等.基于CNN-BiLSTM模型的在线医疗实体抽取研究.《图书情报工作》.2019,第63卷(第12期),第105-113页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110597970A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110597970B (zh) | 一种多粒度医疗实体联合识别的方法及装置 | |
CN107977361B (zh) | 基于深度语义信息表示的中文临床医疗实体识别方法 | |
CN109471895B (zh) | 电子病历表型抽取、表型名称规范化方法及系统 | |
CN111291181B (zh) | 经由主题稀疏自编码器和实体嵌入的用于输入分类的表示学习 | |
CN109388807B (zh) | 电子病历命名实体识别的方法、装置及存储介质 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN111783462B (zh) | 基于双神经网络融合的中文命名实体识别模型及方法 | |
AU2019200270B2 (en) | Concept mask: large-scale segmentation from semantic concepts | |
Ong et al. | Gaussian variational approximation with a factor covariance structure | |
Alami et al. | Enhancing unsupervised neural networks based text summarization with word embedding and ensemble learning | |
CN108334574B (zh) | 一种基于协同矩阵分解的跨模态检索方法 | |
US10599686B1 (en) | Method and system for extracting information from graphs | |
US20180350459A1 (en) | Methods and apparatuses for implementing a semantically and visually interpretable medical diagnosis network | |
CN111985369A (zh) | 基于跨模态注意力卷积神经网络的课程领域多模态文档分类方法 | |
CN110263325B (zh) | 中文分词系统 | |
CN111460812B (zh) | 语句情感分类方法及相关设备 | |
CN112789626A (zh) | 可扩展和压缩的神经网络数据储存系统 | |
CN112163429B (zh) | 结合循环网络及bert的句子相关度获取方法、系统及介质 | |
US20230103148A1 (en) | Hierarchical Video Encoders | |
CN111339775A (zh) | 命名实体识别方法、装置、终端设备及存储介质 | |
Joshua Thomas et al. | A deep learning framework on generation of image descriptions with bidirectional recurrent neural networks | |
Habek et al. | Bi-Directional CNN-RNN architecture with group-wise enhancement and attention mechanisms for cryptocurrency sentiment analysis | |
CN112417155B (zh) | 基于指针-生成Seq2Seq模型的庭审询问生成方法、装置、介质 | |
Gasimova | Automated enriched medical concept generation for chest X-ray images | |
Mohamed et al. | ImageCLEF 2020: An approach for Visual Question Answering using VGG-LSTM for Different Datasets. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |