CN113486667A - 一种基于实体类型信息的医疗实体关系联合抽取方法 - Google Patents
一种基于实体类型信息的医疗实体关系联合抽取方法 Download PDFInfo
- Publication number
- CN113486667A CN113486667A CN202110846235.2A CN202110846235A CN113486667A CN 113486667 A CN113486667 A CN 113486667A CN 202110846235 A CN202110846235 A CN 202110846235A CN 113486667 A CN113486667 A CN 113486667A
- Authority
- CN
- China
- Prior art keywords
- medical
- entity
- type information
- subject
- entity type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 60
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 239000010410 layer Substances 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 7
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 3
- 238000013507 mapping Methods 0.000 abstract description 2
- 239000011159 matrix material Substances 0.000 description 10
- 208000010839 B-cell chronic lymphocytic leukemia Diseases 0.000 description 3
- 208000031422 Lymphocytic Chronic B-Cell Leukemia Diseases 0.000 description 3
- 208000032852 chronic lymphocytic leukemia Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 206010018910 Haemolysis Diseases 0.000 description 2
- 208000007502 anemia Diseases 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008588 hemolysis Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Abstract
本发明提供了一种基于实体类型信息的医疗实体关系联合抽取方法,包括对医疗文本数据集进行预处理;将训练数据句子中的每一个词转化成对应的词向量,构建词嵌入层;根据医疗文本的词向量表示,获取具有特征信息的文本特征向量表示;通过分层的指针标注方法,并融合实体类型信息,抽取出医学文本中的关系三元组。本发明将实体类型信息加入到医疗实体关系联合抽取训练模型中,实体类型信息与上下文信息对于关系抽取模型同样重要,融合了实体类型信息的模型使得实体与关系之间的依赖性更强,联系更为紧密,增强了实体关系抽取模型的性能;基于分层的指针网络模型,将关系建模为主语到宾语的映射,较好的处理医疗文本数据中存在的实体关系重叠问题。
Description
技术领域
本发明涉及自然语言处理的技术领域,尤其涉及一种基于实体类型信息的医疗实体关系联合抽取方法。
背景技术
随着医疗信息化建设的高速发展,电子病历数据不断累积。如何从大量非结构化电子医疗病例中获取有价值的信息以推动医疗事业的发展,受到医学界的广泛关注。实体关系抽取是获取结构化信息的关键步骤,对于医疗问答系统、医疗信息检索等任务以及医疗知识图谱的构建有重要意义。
目前,实体关系抽取方法根据抽取顺序分为流水线方法和联合抽取方法。流水线方法将实体识别和关系抽取视为两个独立的任务依次进行,虽然操作灵活,但忽略了两个任务的内在联系,容易产生误差累计。联合抽取的方法将实体识别和关系分别进行联合建模,能够更好地整合两个子任务之间的联系,获得较好的抽取效果。因而现有的医疗实体关系抽取多数采用联合抽取的方法。
尽管目前的关系抽取模型已经取得了较大的进展,但对于医疗领域实体关系抽取来说抽取效果仍有较大提升空间,主要原因包括以下几点:
1、实体关系发生重叠的现象普遍存在,尤其在医学文本中更为常见。重叠情况包括实体对重叠和单一实体重叠,比如句子“慢性淋巴细胞白血病会导致溶血和继发性贫血”中包括(慢性淋巴细胞白血病,并发症,溶血)和(慢性淋巴细胞白血病,并发症,继发性贫血)两个关系三元组,属于单一实体重叠情况。然而,多数现有的抽取模型无法完整抽取出重叠的三元组,因为这些模型将关系视为实体对上的离散函数,无法较好的解决句子中包含相互重叠的多个三元组的问题。
2、相关研究表明文本语境和实体提及(主要为实体类型)都为关系抽取提供了关键信息,但多数现有的关系抽取方法仅仅利用上下文信息而忽略实体类型信息的重要性,不利用实体类型信息会导致模型中实体和关系缺乏内在的交互,从而限制实体关系抽取模型的性能。
3、现有的关系抽取模型多数采用Bi-LSTM网络编码来获取上下文信息,该网络虽然可以捕获长距离依赖信息,但是无法挖掘出句子中的重点词汇,从而导致从文本中获取的语义特征信息不够准确。特别地,在医疗领域关系抽取中,区分词的重要程度对于文本信息的理解更为重要。
因此,需要一种基于实体类型信息的医疗实体关系联合抽取方法,以解决现有关系抽取技术存在的问题。
发明内容
针对上述技术问题,本发明的目的在于提供一种基于实体类型信息的医疗实体关系联合抽取方法,基于分层的指针标注框架,将实体类型信息加入到模型训练中,以解决相关技术中医疗实体关系发生重叠难以抽取的问题,并通过实体提及信息来提高模型性能。
为实现上述目的,本发明提供了一种基于实体类型信息的医疗实体关系联合抽取方法,包括如下步骤:
S1:对医疗文本数据集进行预处理;
S2:将训练数据句子中的每一个词转化成对应的词向量,构建词嵌入层;
S3:根据医疗文本的词向量表示,获取具有特征信息的文本特征向量表示;
S4:通过分层的指针标注方法,并融合实体类型信息,抽取出医学文本中的关系三元组。
可选的,所述步骤S1的步骤如下:
步骤1.1:对医疗电子病历数据集进行清洗;
步骤1.2:根据医疗领域词典进行分词,得到训练语料。
优选的,所述步骤S2中,通过预训练语言模型BERT动态的训练医疗文本词向量。
进一步的,所述步骤S3中,通过多头注意力机制学习医疗文本句子的内部结构信息,注意力机制通过计算每两个词之间的相似度,挖掘出句子中的重点词汇。
可选的,所述步骤S4的步骤如下:
S4.1:采用单层的指针标注对句子进行主语的标记,将步骤S3中获取的医疗文本特征向量输入到两个相同的Sigmoid指针标注器中,两个指针分别代表开始和结束,通过Sigmoid函数预测该位置为主语开始位置或结束位置的概率,给定一个阈值,如果该位置的概率大于给定阈值,则标记该位置为1,表示是边界位置,否则标记为0,由此判断出主语;
S4.2:将开始指针和结束指针标记出的主语的首尾位置间的特征向量进行连接,获取主语的特征向量,通过SoftMax对主语向量进行预测,判断主语的实体类型信息;
S4.3:依次取句子中的每一个主语,将主语的实体类型信息与主语向量进行连接,再将连接好的特征向量通过层归一化的方式融合到医疗文本的特征向量中,作为抽取宾语模型的输入;
S4.4:在每一种预定义的关系条件下,采用分层的指针标注,针对每一个主语标记其对应的宾语,具体操作表示为将步骤S4.3中获取的特征向量分别输入到N对二进制指针标注器中,预测宾语的头尾位置;
S4.5:判断宾语的实体类型,将实体对信息和实体类型信息作为约束条件,抽取出医疗文本中的三元组。
由上,本发明的基于实体类型信息的医疗实体关系联合抽取方法至少具有如下有益效果:
1、本发明将实体类型信息加入到医疗实体关系联合抽取训练模型中,实体类型信息与上下文信息对于关系抽取模型同样重要。融合了实体类型信息的模型使得实体与关系之间的依赖性更强,联系更为紧密,增强了实体关系抽取模型的性能。
2、本发明采用预训练语言模性BERT训练词向量,相比Word2vec、Glove训练的静态词向量,本发明的动态词向量可以解决多义词问题,使词向量蕴含的语义信息更为丰富。并且通过多头注意力机制编码上下文信息,可以多维度获取更为丰富的语义特征信息,还能挖掘出医疗文本句子中的重点词汇,同时忽略无关词信息。
3、本发明基于分层的指针网络模型,通过将关系建模为主语到宾语的映射,可以较好的处理医疗文本数据中存在的实体关系重叠问题。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。为了更清楚的说明本发明实施例的技术方案,下面将对实施例的附图作简单介绍。
图1为本发明中医疗实体关系联合抽取方法流程图;
图2为本发明中预训练语言模型的示意图;
图3为本发明中多头注意力机制的示意图;
图4为本发明中医疗实体关系联合抽取方法的模型示意图。
具体实施方式
下面参见图1~图4对本发明所述基于实体类型信息的医疗实体关系联合抽取方法进行详细说明。
本发明构建了基于实体类型信息的医疗实体关系联合抽取方法,具体包括如下步骤:
步骤1:对医疗文本数据集进行预处理。其中包括对医疗电子病历数据集进行清洗,以及根据医疗领域词典进行分词来得到训练语料。本发明所采用的数据集为中文医学信息抽取数据集CMeIE(Chinese Medical Information Extraction)。该数据集中标注出了三元组信息,包括实体,关系,以及实体类型信息。
步骤2:将训练数据句子中的每一个词转化成对应的词向量,构建词嵌入层。通过预训练语言模型BERT动态的训练医疗文本词向量,以往通过Word2vec、Glove训练的词向量为静态的,不能处理一词多义。BERT是基于Transformer的双向编码表征模型。BERT模型的输入向量为分割向量,词向量和每个词的位置向量三种向量之和,可以更好地编码上下文信息,本发明用H表示BERT编码的词向量。
步骤3:根据医疗文本的词向量表示,获取具有特征信息的文本特征向量表示。通过多头注意力机制学习医疗文本句子的内部结构信息,注意力机制是通过计算每两个词之间的相似度,挖掘出句子中的重点词汇,如公式(1)。
其中Q、K、V分别表示查询矩阵、键矩阵和值矩阵,是键维度的平方根,T表示矩阵转置。本发明从不同的表示子空间表示,可以多维度的获取医疗文本句子中的特征信息,关键信息具有较高权重,无关信息具有较低权重。公式如下,其中h为注意力头数, 为不同的参数矩阵,headi表示每个子空间的注意力,Concat表示连接操作为,Wo变换矩阵,M为输出的特征向量。
M(Q,K,V)=Concat(head1,…,headh)Wo (3)
步骤4:通过分层的指针标注方法,并融合实体类型信息,抽取出医学文本中的关系三元组。
步骤4.1:采用单层的指针标注对句子进行主语的标记。将步骤3中获取的医疗文本特征向量输入到两个相同的Sigmoid指针标注器中,两个指针分别代表开始和结束,通过Sigmoid函数预测该位置为主语开始位置或结束位置的概率。如公式(4)、(5)所示。
其中代表该位置为边界位置的概率,Wstart/end和bstart/end分别代表参数矩阵和偏置矩阵,mi为输入向量M中对应第i个位置的向量,给定一个阈值,如果该位置的概率大于给定阈值,则标记该位置为1,表示是边界位置,否则标记为0,由此判断出主语。
步骤4.2:将开始指针和结束指针标记出的主语的首尾位置间的特征向量进行连接,获取主语的特征向量,用Si表示抽取出的第i个主语。通过SoftMax对主语向量进行预测,判断主语的实体类型信息,用表示第i个主语的实体类型信息。
步骤4.3:依次取句子中的每一个主语,将主语的实体类型信息与主语向量进行连接,如公式(6)所示。
再将连接好的特征向量Si'通过改进的层归一化的方式融合到医疗文本的特征向量中,作为抽取宾语模型的输入。层归一化公式为:
其中mi为输入向量,α和β是模型的参数,σ2为方差,μ为均值,ε是趋近于0的正数。改进的层归一化将主语的类型向量与主语向量连接后的特征向量Si',通过变化矩阵Wα、Wβ转化成与α和β同样的维度,融合到特征向量M中。具体操作如公式(8)所示。
步骤4.4:在每一种预定义的关系条件下,采用分层的指针标注,针对每一个主语标记其对应的宾语。具体操作表示为将步骤4.3中获取的特征向量分别输入到N对二进制指针标注器中,预测宾语的头尾位置。详细的操作如公式(9)、(10)所示,其中代表该位置为边界位置的概率,和分别代表关系条件下的参数矩阵和偏置矩阵,mi'为输入向量M'中对应第i个位置的向量。
步骤4.5:判断宾语的实体类型,将实体对信息和实体类型信息作为约束条件,抽取出医疗文本中的三元组。
由于模型中在预测主语和宾语之后,又分别对主语和宾语的类型进行了预测,所以损失函数包括主语、主语类型、关系条件下宾语预测、宾语类型预测四部分损失函数之和。
在损失函数层次上,对主语和宾语的实体类型进行约束,使得医疗实体关系模型可以充分利用医疗实体的类别信息,更有效的提升联合抽取模型的抽取性能。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,包括如下步骤:
S1:对医疗文本数据集进行预处理;
S2:将训练数据句子中的每一个词转化成对应的词向量,构建词嵌入层;
S3:根据医疗文本的词向量表示,获取具有特征信息的文本特征向量表示;
S4:通过分层的指针标注方法,并融合实体类型信息,抽取出医学文本中的关系三元组。
2.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S1的步骤如下:
步骤1.1:对医疗电子病历数据集进行清洗;
步骤1.2:根据医疗领域词典进行分词,得到训练语料。
3.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S2中,通过预训练语言模型BERT动态的训练医疗文本词向量。
4.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S3中,通过多头注意力机制学习医疗文本句子的内部结构信息,注意力机制通过计算每两个词之间的相似度,挖掘出句子中的重点词汇。
5.根据权利要求1所述的基于实体类型信息的医疗实体关系联合抽取方法,其特征在于,所述步骤S4的步骤如下:
S4.1:采用单层的指针标注对句子进行主语的标记,将步骤S3中获取的医疗文本特征向量输入到两个相同的Sigmoid指针标注器中,两个指针分别代表开始和结束,通过Sigmoid函数预测该位置为主语开始位置或结束位置的概率,给定一个阈值,如果该位置的概率大于给定阈值,则标记该位置为1,表示是边界位置,否则标记为0,由此判断出主语;
S4.2:将开始指针和结束指针标记出的主语的首尾位置间的特征向量进行连接,获取主语的特征向量,通过SoftMax对主语向量进行预测,判断主语的实体类型信息;
S4.3:依次取句子中的每一个主语,将主语的实体类型信息与主语向量进行连接,再将连接好的特征向量通过层归一化的方式融合到医疗文本的特征向量中,作为抽取宾语模型的输入;
S4.4:在每一种预定义的关系条件下,采用分层的指针标注,针对每一个主语标记其对应的宾语,具体操作表示为将步骤S4.3中获取的特征向量分别输入到N对二进制指针标注器中,预测宾语的头尾位置;
S4.5:判断宾语的实体类型,将实体对信息和实体类型信息作为约束条件,抽取出医疗文本中的三元组。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846235.2A CN113486667B (zh) | 2021-07-26 | 2021-07-26 | 一种基于实体类型信息的医疗实体关系联合抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110846235.2A CN113486667B (zh) | 2021-07-26 | 2021-07-26 | 一种基于实体类型信息的医疗实体关系联合抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113486667A true CN113486667A (zh) | 2021-10-08 |
CN113486667B CN113486667B (zh) | 2024-03-05 |
Family
ID=77943741
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110846235.2A Active CN113486667B (zh) | 2021-07-26 | 2021-07-26 | 一种基于实体类型信息的医疗实体关系联合抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113486667B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064938A (zh) * | 2022-01-17 | 2022-02-18 | 中国人民解放军总医院 | 医学文献的关系抽取方法、装置、电子设备及存储介质 |
CN115186669A (zh) * | 2022-08-30 | 2022-10-14 | 北京睿企信息科技有限公司 | 一种实体关系抽取方法及系统 |
CN115186649A (zh) * | 2022-08-30 | 2022-10-14 | 北京睿企信息科技有限公司 | 一种基于关系模型的超长文本的切分方法及系统 |
CN116167368A (zh) * | 2023-04-23 | 2023-05-26 | 昆明理工大学 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
WO2023092719A1 (zh) * | 2021-11-29 | 2023-06-01 | 中国科学院深圳先进技术研究院 | 病历数据的信息抽取方法、终端设备及可读存储介质 |
CN116306589A (zh) * | 2023-05-10 | 2023-06-23 | 之江实验室 | 一种急救场景的医疗文本纠错及智能提取的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200073933A1 (en) * | 2018-08-29 | 2020-03-05 | National University Of Defense Technology | Multi-triplet extraction method based on entity-relation joint extraction model |
CN112818676A (zh) * | 2021-02-02 | 2021-05-18 | 东北大学 | 一种医学实体关系联合抽取方法 |
CN113158671A (zh) * | 2021-03-25 | 2021-07-23 | 胡明昊 | 一种结合命名实体识别的开放域信息抽取方法 |
-
2021
- 2021-07-26 CN CN202110846235.2A patent/CN113486667B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200073933A1 (en) * | 2018-08-29 | 2020-03-05 | National University Of Defense Technology | Multi-triplet extraction method based on entity-relation joint extraction model |
CN112818676A (zh) * | 2021-02-02 | 2021-05-18 | 东北大学 | 一种医学实体关系联合抽取方法 |
CN113158671A (zh) * | 2021-03-25 | 2021-07-23 | 胡明昊 | 一种结合命名实体识别的开放域信息抽取方法 |
Non-Patent Citations (1)
Title |
---|
GAOCAI DONG ET.AL.: ""A Systematic Framework for Drug Repurposing based on Literature Mining"", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》, 31 December 2019 (2019-12-31) * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023092719A1 (zh) * | 2021-11-29 | 2023-06-01 | 中国科学院深圳先进技术研究院 | 病历数据的信息抽取方法、终端设备及可读存储介质 |
CN114064938A (zh) * | 2022-01-17 | 2022-02-18 | 中国人民解放军总医院 | 医学文献的关系抽取方法、装置、电子设备及存储介质 |
CN114064938B (zh) * | 2022-01-17 | 2022-04-22 | 中国人民解放军总医院 | 医学文献的关系抽取方法、装置、电子设备及存储介质 |
CN115186669A (zh) * | 2022-08-30 | 2022-10-14 | 北京睿企信息科技有限公司 | 一种实体关系抽取方法及系统 |
CN115186649A (zh) * | 2022-08-30 | 2022-10-14 | 北京睿企信息科技有限公司 | 一种基于关系模型的超长文本的切分方法及系统 |
CN115186649B (zh) * | 2022-08-30 | 2023-01-06 | 北京睿企信息科技有限公司 | 一种基于关系模型的超长文本的切分方法及系统 |
CN116167368A (zh) * | 2023-04-23 | 2023-05-26 | 昆明理工大学 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
CN116167368B (zh) * | 2023-04-23 | 2023-06-27 | 昆明理工大学 | 基于类型关联特征增强的领域文本实体关系抽取方法 |
CN116306589A (zh) * | 2023-05-10 | 2023-06-23 | 之江实验室 | 一种急救场景的医疗文本纠错及智能提取的方法及装置 |
CN116306589B (zh) * | 2023-05-10 | 2024-02-09 | 之江实验室 | 一种急救场景的医疗文本纠错及智能提取的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113486667B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113486667B (zh) | 一种基于实体类型信息的医疗实体关系联合抽取方法 | |
WO2021223323A1 (zh) | 一种中文视觉词汇表构建的图像内容自动描述方法 | |
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN111382272B (zh) | 一种基于知识图谱的电子病历icd自动编码方法 | |
CN106372061B (zh) | 基于语义的短文本相似度计算方法 | |
CN111737496A (zh) | 一种电力设备故障知识图谱构建方法 | |
CN111639171A (zh) | 一种知识图谱问答方法及装置 | |
CN113011533A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112100356A (zh) | 一种基于相似性的知识库问答实体链接方法及系统 | |
CN111522910B (zh) | 一种基于文物知识图谱的智能语义检索方法 | |
CN110825721A (zh) | 大数据环境下高血压知识库构建与系统集成方法 | |
CN110765277B (zh) | 一种基于知识图谱的移动端的在线设备故障诊断方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN110162771B (zh) | 事件触发词的识别方法、装置、电子设备 | |
CN113535917A (zh) | 基于旅游知识图谱的智能问答方法及系统 | |
CN111339407B (zh) | 一种信息抽取云平台的实现方法 | |
CN113704546A (zh) | 基于空间时序特征的视频自然语言文本检索方法 | |
CN111400455A (zh) | 基于知识图谱的问答系统的关系检测方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN117076653B (zh) | 基于思维链及可视化提升上下文学习知识库问答方法 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN114897167A (zh) | 生物领域知识图谱构建方法及装置 | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
Moreira et al. | Distantly-supervised neural relation extraction with side information using BERT | |
Zhang et al. | Hierarchical representation and deep learning–based method for automatically transforming textual building codes into semantic computable requirements |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |