CN113488196A - 一种药品说明书文本命名实体识别建模方法 - Google Patents

一种药品说明书文本命名实体识别建模方法 Download PDF

Info

Publication number
CN113488196A
CN113488196A CN202110855063.5A CN202110855063A CN113488196A CN 113488196 A CN113488196 A CN 113488196A CN 202110855063 A CN202110855063 A CN 202110855063A CN 113488196 A CN113488196 A CN 113488196A
Authority
CN
China
Prior art keywords
feature vector
sequence
label
text
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110855063.5A
Other languages
English (en)
Other versions
CN113488196B (zh
Inventor
李天瑞
廖雄
贾真
罗威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202110855063.5A priority Critical patent/CN113488196B/zh
Publication of CN113488196A publication Critical patent/CN113488196A/zh
Application granted granted Critical
Publication of CN113488196B publication Critical patent/CN113488196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Public Health (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Toxicology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种药品说明书文本命名实体识别建模方法,包括步骤:使用BERT模型将药品说明书文本语句序列向量化,得到带有上下文信息及文本语义信息的特征向量;使用双向长短期记忆网络BiLSTM从特征向量中学习到药品说明书文本的上下文信息,得到隐藏向量;使用全连接层FC将隐层向量进行降维,得到标签特征向量;利用条件随机场CRF对标签特征向量进行解码,得到语句序列最终的输出序列。本发明还对BERT模型为微调进行了微调。本发明通过BERT‑BiLSTM‑CRF模型构建药品说明书文本中命名实体向量的识别模型,实现了针对多源药品说明书的命名实体识别。对BERT模型进行微调,提升了BERT‑BiLSTM‑CRF模型在药品说明书文本命名实体识别任务上的效果,使得通过模型处理得到的数据更具有可靠性。

Description

一种药品说明书文本命名实体识别建模方法
技术领域
本发明涉及自然语言处理技术领域,特别是一种药品说明书文本命名实体识别建模方法。
背景技术
命名实体识别(Named Entity Recognition,NER)是信息抽取中重要的基础任务,旨在抽取非结构化文本中的命名实体(文本中具有特定意义的实体),抽取结果中包含命名实体在文本中的位置以及其所属的实体类别。NER任务的应用范围十分广泛,除了在知识图谱的构建上,还在语义角色标注、自动问答和机器翻译等任务上有着重要影响。
为缓解我国医疗产业监管的压力,构建大规模医疗知识图谱十分有必要。其中构建知识图谱的数据来源于网络药品说明书、文献药品说明书等不同方面,现今的命名实体识别技术在这类具有领域特点的多源数据之上表现并不突出。
发明内容
本发明的目的是给出一种药品说明书文本命名实体识别建模方法。
实现本发明目的的技术方案如下:
一种药品说明书文本命名实体识别建模方法,包括:
步骤1:使用BERT模型将药品说明书文本语句序列S=(x1,x2,...,xn)向量化,得到带有上下文信息及文本语义信息的特征向量W=(w1,w2,...,wn);其中,wi是语句序列S中文字xi上下文相关的动态特征向量,其维度为d;i∈{1,2,3,...,n};
步骤2:使用双向长短期记忆网络BiLSTM从特征向量W中学习到药品说明书文本的上下文信息,得到隐藏向量H,具体为:
所述BiLSTM分别由一个前向LSTM网络和一个后向LSTM网络从特征向量W中学习药品说明书文本的上文信息和下文信息,得到其隐藏层状态输出
Figure BDA0003179970360000011
Figure BDA0003179970360000012
Figure BDA0003179970360000013
Figure BDA0003179970360000014
其中,
Figure BDA0003179970360000015
Figure BDA0003179970360000016
分别表示前向LSTM网络和后向LSTM网络在t时刻的隐藏层状态输出,t∈{1,2,3,...,n};
BiLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出拼接得到语句的隐藏向量H=(h1,h2,...,hn),其中在t时刻的隐藏层状态输出为:
Figure BDA0003179970360000021
ht的维度为dh
步骤3:使用全连接层FC将隐层向量H进行降维,得到标签特征向量M=H·WFC+BFC;其中,WFC和BFC分别为全连接层FC的权重矩阵和偏置向量,WFC的维度为dh×dl,BFC的维度为dl,dl为实体标签的数量;所述实体标签是对语句序列的文字的标注;
步骤4:利用条件随机场CRF对标签特征向量M进行解码,得到语句序列S最终的输出序列Y*,具体为:
通过得到的语句的标签特征向量M=(m1,m2,...,mn),计算可能的输出标签序列Y的条件概率:
p(Y|M)=CRF(M,Y);其中Y∈YS,YS表示语句序列S所有可能的输出标签序列集合;
将条件概率最大的输出标签序列Y*作为语句序列S最终的输出序列:
Y*=argmaxP(Y|M)。
进一步的技术方案,所述BERT模型为微调后的BERT模型;所述微调后的BERT模型通过以下步骤建模,再经训练后得到;
步骤1:使用BERT模型将药品说明书文本语句序列X=(x1,x2,…,xm)向量化,得到带有上下文信息及文本语义信息的特征向量WFT=(w1,w2,...,wm);其中wj是语句序列X中文字xj上下文相关的动态特征向量,其维度为d;j∈{1,2,3,......,m};
步骤2:使用全连接层FC将特征向量WFT进行降维,得到标签特征向量
Figure BDA0003179970360000022
其中,
Figure BDA0003179970360000023
Figure BDA0003179970360000024
分别为全连接层FC的权重矩阵和偏置向量,
Figure BDA0003179970360000025
的维度为d×dl
Figure BDA0003179970360000026
的维度为dl,dl为实体标签的数量;所述实体标签是对语句序列的文字的标注;
步骤3:将标签特征向量MFT输入到Softmax网络,得到语句序列X的标签预测信息L:
L=softmax(MFT)=(l1,l2,...,ln),其中li表示语句序列X中文字xj对应的标签的归一化概率值;
步骤4:使用交叉熵函数计算标签预测信息L和真实标签LT之间的损失值,使用反向传播算法迭代更新BERT模型的权重直至损失值收敛,得到微调后的BERT模型。
相对于现有技术,本发明的有益效果在于,
1、通过BERT-BiLSTM-CRF模型构建药品说明书文本中命名实体向量的识别模型,实现了针对多源药品说明书的命名实体识别,减少了药品说明书文本命名实体识别的人力成本,为大规模医学知识图谱的建立提供基础。
2、通过使用药品说明书文本数据在命名实体识别任务上对BERT模型进行微调,提升了BERT-BiLSTM-CRF模型在药品说明书文本命名实体识别任务上的效果,使得通过模型处理得到的数据更具有可靠性。
附图说明
图1为药品说明书文本命名实体识别模型结构示意图。
图2为微调BERT模型结构示意图。
图3为LSTM神经网络结构示意图。
具体实施方式
下面结合附图对本发明进一步说明。
如图1,一种药品说明书文本命名实体识别建模方法,包括:
步骤1:使用BERT模型将药品说明书文本语句向量化,得到输入语句的向量化表示:
将长度为n的药品说明书文本语句序列S=(x1,x2,...,xn)同步输入到BERT模型中,得到带有上下文信息及文本语义信息的特征向量W=(w1,w2,...,wn);其中,wi是语句序列S中文字xi上下文相关的动态特征向量,其维度为d;其中i∈{1,2,3,...,n}。
于是,得到药品说明书文本语句序列的向量化表示W=(w1,w2,...,wn)。
步骤2:使用双向长短期记忆网络BiLSTM从输入语句的向量化表示中学习到药品说明书文本的上下文信息,得到语句隐藏向量:
LSTM通过控制输入门、遗忘门和输出门来解决语句的长期依赖问题,在命名实体识别等序列标注任务中表现良好。BiLSTM通过将一个前向LSTM网络和一个后向LSTM网络组合来学习文本语句的上下文信息;前向LSTM网络和后向LSTM网络均通过设置遗忘门ft、输入门it和输出门ot来控制信息流,实现对历史信息的更新、取舍和存储。
其中,前向LSTM网络的信息流包括当前时刻t的输入信息wt、前一时刻LSTM的隐藏层状态输出ht-1和候选状态输出ct-1
t时刻遗忘门计算公式:ft=σ(Wfwt+Ufht-1+bf);
t时刻输入门计算公式:it=σ(Wiwt+Uiht-1+bi);
t时刻输出门计算公式:ot=σ(Wowt+Uoht-1+bo);
σ(·)代表sigmoid函数
Figure BDA0003179970360000041
Wf、Uf为遗忘门中需要学习的权重矩阵,bf为遗忘门的偏置向量,Wi、Ui为输入门中需要学习的权重矩阵,bi为输入门的偏置向量,Wo、Uo为输出门中需要学习的权重矩阵,bo为输出门的偏置向量。
候选神经元按照双曲正切函数
Figure BDA0003179970360000042
对输出进行[-1,1]的归一化,候选神经元计算公式
Figure BDA0003179970360000043
整个BiLSTM神经元的学习信息计算公式为:
Figure BDA0003179970360000044
t时刻隐藏层的输出为:ht=ot·tanh(ct)。
前向LSTM网络用于学习药品说明书文本语句的上文信息,而后向LSTM网络用于学习药品说明书文本语句的下文信息,其信息流包括当前时刻t的输入信息wt、下一时刻LSTM的隐藏层状态输出ht+1和候选状态输出ct+1,计算方式与前向LSTM网络相同。
BiLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出拼接得到语句的隐藏向量H=(h1,h2,...,hn),其中在t时刻的隐藏层状态输出为:
Figure BDA0003179970360000045
其中
Figure BDA0003179970360000046
Figure BDA0003179970360000047
分别表示前向GRU网络和后向GRU网络在t时刻的隐藏层状态输出,ht的维度为dh
步骤3:使用全连接层FC将语句隐藏向量进行降维,得到标签特征向量:
全连接层FC由权重矩阵WFC和偏置向量BFC构成;
标签特征向量M=H·WFC+BFC
其中,WFC的维度为dh×dl,BFC的维度为dl,dl为实体标签的数量;实体标签是对语句序列的文字的标注。图1中采用了一种常用实体标注的方式,B-drug为“药物”实体的起始字符标注,I-drug表示该汉字是“药物”实体的中间字符和结束字符;“O”表示该汉字不在命名实体当中。
步骤4:使用条件随机场CRF对标签特征向量进行解码,得到语句序列最终的输出序列:
由于命名实体本身的字与字之间具有一定的依赖性,其需要结合前后的标签才能更加准确的预测出来。例如,对于一个由多个字符组成的实体而言,其每一个字符的标签中关于实体类别的标签应是一致的,同时,每个实体首字应具有独特的一种标签。BiLSTM由于其对序列的预测是独立进行的,会产生标签偏置的问题。因此,在BiLSTM后面接一个CRF来对标签序列进行联合解码是现今序列预测任务的常用方式。
具体地,通过得到的语句的标签特征向量M=(m1,m2,...,mn),计算可能的输出标签序列Y的条件概率,具体公式如下:
Figure BDA0003179970360000051
S(M,Y)=∑i,kλktk(yi-1,yi,m,i)+∑i,lμlsl(yi,m,i);
其中tk和sl都为特征函数,tk是状态特征函数,用于提取状态序列的特征,其当前时刻的状态yi依赖于前一时刻的状态yi-1的影响;sl是转移特征函数,用于提取观测序列的特征,其当前时刻的状态yi会受当前时刻的观测mi的影响。特征函数只能取值0或者1,当某个特征满足时取1,不满足时则取0。λk、μl分别是两个特征函数的权重,用于衡量当前特征的重要程度。YS表示输入序列S所有可能的输出标签序列。
最后,将条件概率最大的输出标签序列Y*作为语句序列S最终的输出序列:
Y*=argmaxP(Y|M)。
如图2,微调BERT的具体步骤如下:
步骤1:使用BERT模型将药品说明书文本语句向量化,得到输入语句的向量化表示:
将长度为n的药品说明书文本语句序列X=(x1,x2,...,xm)同步输入到BERT模型中,得到带有上下文信息及文本语义信息的特征向量WFT=(w1,w2,...,wm);其中,wj是语句序列S中文字xj上下文相关的动态特征向量,其维度为d;其中j∈{1,2,3,......,m};
于是,得到药品说明书文本语句序列的向量化表示WFT=(w1,w2,...,wm)。
步骤2:用全连接层FC将语句隐藏向量进行降维,得到标签特征向量:
全连接层FC由权重矩阵
Figure BDA0003179970360000052
和偏置向量
Figure BDA0003179970360000053
构成;
标签特征向量
Figure BDA0003179970360000054
其中,
Figure BDA0003179970360000055
的维度为d×dl
Figure BDA0003179970360000056
的维度为dl,dl为实体标签的数量;实体标签是对语句序列的文字的标注。实体标签和用于药品说明书文本命名实体识别建模的标签相同。
步骤3:将标签特征向量输入到Softmax网络,得到语句序列的标签预测信息:
标签预测信息
Figure BDA0003179970360000061
其中MFT i表示标签特征向量MFT的第i维,li表示语句序列X中文字xj对应的标签的归一化概率值。
步骤4:使用交叉熵函数计算标签预测信息和真实标签之间的损失值,然后使用反向传播算法迭代更新BERT模型的权重直至损失值收敛,得到微调后的BERT模型:
损失值loss的计算公式为:
Figure BDA0003179970360000062
其中真实标签LT、预测标签L和实体标签的数量dl具有如下关系:
|LT|=|L|=dl
其中LTi表示真实标签LT的第i维,其取值为0或1;Li表示真实标签L的第i维。
微调BERT建模后,经过训练,即可用于药品说明书文本命名实体识别建模。

Claims (2)

1.一种药品说明书文本命名实体识别建模方法,其特征在于,包括:
步骤1:使用BERT模型将药品说明书文本语句序列S=(x1,x2,...,xn)向量化,得到带有上下文信息及文本语义信息的特征向量W=(w1,w2,...,wn);其中,wi是语句序列S中文字xi上下文相关的动态特征向量,其维度为d;i∈{1,2,3,...,n};
步骤2:使用双向长短期记忆网络BiLSTM从特征向量W中学习到药品说明书文本的上下文信息,得到隐藏向量H,具体为:
所述BiLSTM分别由一个前向LSTM网络和一个后向LSTM网络从特征向量W中学习药品说明书文本的上文信息和下文信息,得到其隐藏层状态输出
Figure FDA0003179970350000011
Figure FDA0003179970350000012
Figure FDA0003179970350000013
Figure FDA0003179970350000014
其中,
Figure FDA0003179970350000015
Figure FDA0003179970350000016
分别表示前向LSTM网络和后向LSTM网络在t时刻的隐藏层状态输出,t∈{1,2,3,...,n};
BiLSTM通过将前向LSTM网络和后向LSTM网络的隐藏层状态输出拼接得到语句的隐藏向量H=(h1,h2,...,hn),其中在t时刻的隐藏层状态输出为:
Figure FDA0003179970350000017
ht的维度为dh
步骤3:使用全连接层FC将隐层向量H进行降维,得到标签特征向量M=H·WFC+BFC;其中,WFC和BFC分别为全连接层FC的权重矩阵和偏置向量,WFC的维度为dh×dl,BFC的维度为dl,dl为实体标签的数量;所述实体标签是对语句序列的文字的标注;
步骤4:利用条件随机场CRF对标签特征向量M进行解码,得到语句序列S最终的输出序列Y*,具体为:
通过得到的语句的标签特征向量M=(m1,m2,...,mn),计算可能的输出标签序列Y的条件概率:p(Y|M)=CRF(M,Y);其中Y∈YS,YS表示语句序列S所有可能的输出标签序列集合;
将条件概率最大的输出标签序列Y*作为语句序列S最终的输出序列:
Y*=argmaxP(Y|M)。
2.根据权利要求1所述药品说明书文本命名实体识别建模方法,其特征在于,所述BERT模型为微调后的BERT模型;所述微调后的BERT模型通过以下步骤建模,再经训练后得到;
步骤1:使用BERT模型将药品说明书文本语句序列X=(x1,x2,...,xm)向量化,得到带有上下文信息及文本语义信息的特征向量WFT=(w1,w2,...,wm);其中wj是语句序列X中文字xj上下文相关的动态特征向量,其维度为d;j∈{1,2,3,......,m};
步骤2:使用全连接层FC将特征向量WFT进行降维,得到标签特征向量
Figure FDA0003179970350000021
其中,
Figure FDA0003179970350000022
Figure FDA0003179970350000023
分别为全连接层FC的权重矩阵和偏置向量,
Figure FDA0003179970350000024
的维度为d×dl
Figure FDA0003179970350000025
的维度为dl,dl为实体标签的数量;所述实体标签是对语句序列的文字的标注;
步骤3:将标签特征向量MFT输入到Softmax网络,得到语句序列X的标签预测信息L:
L=softmax(MFT)=(l1,l2,...,ln),其中li表示语句序列X中文字xj对应的标签的归一化概率值;
步骤4:使用交叉熵函数计算标签预测信息L和真实标签LT之间的损失值,使用反向传播算法迭代更新BERT模型的权重直至损失值收敛,得到微调后的BERT模型。
CN202110855063.5A 2021-07-26 2021-07-26 一种药品说明书文本命名实体识别建模方法 Active CN113488196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110855063.5A CN113488196B (zh) 2021-07-26 2021-07-26 一种药品说明书文本命名实体识别建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110855063.5A CN113488196B (zh) 2021-07-26 2021-07-26 一种药品说明书文本命名实体识别建模方法

Publications (2)

Publication Number Publication Date
CN113488196A true CN113488196A (zh) 2021-10-08
CN113488196B CN113488196B (zh) 2023-04-07

Family

ID=77943182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110855063.5A Active CN113488196B (zh) 2021-07-26 2021-07-26 一种药品说明书文本命名实体识别建模方法

Country Status (1)

Country Link
CN (1) CN113488196B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989810A (zh) * 2021-10-29 2022-01-28 深圳前海环融联易信息科技服务有限公司 基于深度学习的招标文书项目名称识别方法
CN114723008A (zh) * 2022-04-01 2022-07-08 北京健康之家科技有限公司 语言表征模型的训练方法、装置、设备、介质及用户响应方法
CN114969269A (zh) * 2022-06-23 2022-08-30 济南大学 基于实体识别和关系抽取的虚假新闻检测方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
CN112613312A (zh) * 2020-12-18 2021-04-06 平安科技(深圳)有限公司 实体命名识别模型的训练方法、装置、设备及存储介质
CN112883738A (zh) * 2021-03-23 2021-06-01 西南交通大学 基于神经网络和自注意力机制的医学实体关系抽取方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
WO2019071661A1 (zh) * 2017-10-09 2019-04-18 平安科技(深圳)有限公司 电子装置、医疗文本实体命名的识别方法、系统及存储介质
CN112613312A (zh) * 2020-12-18 2021-04-06 平安科技(深圳)有限公司 实体命名识别模型的训练方法、装置、设备及存储介质
CN112883738A (zh) * 2021-03-23 2021-06-01 西南交通大学 基于神经网络和自注意力机制的医学实体关系抽取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BUZHOU TANG等: "De-identification of Clinical Text via Bi-LSTM-CRF with Neural Language Models", 《AMIA ANNUAL SYMPOSIUM PROCEEDINGS ARCHIVE》 *
HUAISHAO LUO等: "READ: A REGIONAL ANOMALY DETECTION FRAMEWORK BASED ON DYNAMIC PARTITION", 《网页在线公开:HTTPS://ARXIV.ORG/ABS/2007.06794V2》 *
刘宇鹏等: "基于BLSTM-CNN-CRF 的中文命名实体识别方法", 《哈尔滨理工大学学报》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113989810A (zh) * 2021-10-29 2022-01-28 深圳前海环融联易信息科技服务有限公司 基于深度学习的招标文书项目名称识别方法
CN114723008A (zh) * 2022-04-01 2022-07-08 北京健康之家科技有限公司 语言表征模型的训练方法、装置、设备、介质及用户响应方法
CN114969269A (zh) * 2022-06-23 2022-08-30 济南大学 基于实体识别和关系抽取的虚假新闻检测方法及系统

Also Published As

Publication number Publication date
CN113488196B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN108733792B (zh) 一种实体关系抽取方法
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN110609891B (zh) 一种基于上下文感知图神经网络的视觉对话生成方法
CN110334354B (zh) 一种中文关系抽取方法
CN111274800B (zh) 基于关系图卷积网络的推理型阅读理解方法
CN113488196B (zh) 一种药品说明书文本命名实体识别建模方法
CN109524006B (zh) 一种基于深度学习的汉语普通话唇语识别方法
CN110263325B (zh) 中文分词系统
CN110704576B (zh) 一种基于文本的实体关系抽取方法及装置
CN109308353B (zh) 词嵌入模型的训练方法及装置
CN113204952B (zh) 一种基于聚类预分析的多意图与语义槽联合识别方法
CN111222318B (zh) 基于双通道双向lstm-crf网络的触发词识别方法
CN110532395B (zh) 一种基于语义嵌入的词向量改进模型的建立方法
CN111368542A (zh) 一种基于递归神经网络的文本语言关联抽取方法和系统
CN112287106A (zh) 一种基于双通道混合神经网络的在线评论情感分类方法
CN114417872A (zh) 一种合同文本命名实体识别方法及系统
CN114648016A (zh) 一种基于事件要素交互与标签语义增强的事件论元抽取方法
CN113901802A (zh) Crnn网络融合注意力机制的短文本相似度匹配方法
CN115879546A (zh) 一种复合神经网络心理医学知识图谱构建方法及系统
CN111914553A (zh) 一种基于机器学习的金融信息负面主体判定的方法
CN115906816A (zh) 一种基于Bert的双通道Attention模型的文本情感分析方法
CN114510576A (zh) 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN116680575B (zh) 模型处理方法、装置、设备及存储介质
CN113761885A (zh) 一种基于BayesLSTM的语种识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant