CN113191150A - 一种多特征融合的中文医疗文本命名实体识别方法 - Google Patents

一种多特征融合的中文医疗文本命名实体识别方法 Download PDF

Info

Publication number
CN113191150A
CN113191150A CN202110556687.7A CN202110556687A CN113191150A CN 113191150 A CN113191150 A CN 113191150A CN 202110556687 A CN202110556687 A CN 202110556687A CN 113191150 A CN113191150 A CN 113191150A
Authority
CN
China
Prior art keywords
word
dictionary
formula
vector
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110556687.7A
Other languages
English (en)
Other versions
CN113191150B (zh
Inventor
王英龙
李佳康
舒明雷
周书旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Original Assignee
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Institute of Artificial Intelligence filed Critical Qilu University of Technology
Priority to CN202110556687.7A priority Critical patent/CN113191150B/zh
Publication of CN113191150A publication Critical patent/CN113191150A/zh
Priority to PCT/CN2021/131596 priority patent/WO2022242074A1/zh
Application granted granted Critical
Publication of CN113191150B publication Critical patent/CN113191150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种多特征融合的中文医疗文本命名实体识别方法,使用添加了中文偏旁部首以及笔画顺序信息的字向量,对传统的神经网络输入进行改进,使字向量能够更加完整的表征中文病例中字的信息,解决一词多义,形声字的情况,提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息,但使用基于词向量的方法会出现分词错误的情况,利用lattice‑lstm网络的结构特性,添加词的信息,融合字词向量能够很好的解决这类问题。

Description

一种多特征融合的中文医疗文本命名实体识别方法
技术领域
本发明涉及中文命名实体识别领域,具体涉及一种多特征融合的中文医疗文本命名实体识别方法。
背景技术
随着国内电子病例技术的成熟和应用,产生了大量的电子病历数据,非专业人员认识难以有效利用。
命名实体识别技术能够有效的识别并获取电子病历中特定信息,例如病症、诊疗方案、等等,把这些信息识别出来,可以进行进一步的利用,统计这些不同类别的实体信息和分析这些实体信息之间的关系,为诊疗提供精确的数据支持。目前,人们把深度学习技术应用到中文医学文本上来。但这些深度学习的方法大部分都是面向英文的电子病历的,存在以下问题:
1)使用基于字的词嵌入算法,难以利用词汇的信息。
2)使用基于词的词嵌入算法,会出现分词错误的情况。
3)由于中文的特殊性,带来的一词多义和形声字的问题很难解决。
发明内容
本发明为了克服以上技术的不足,提供了一种提升识别的效果的多特征融合的中文医疗文本命名实体识别方法。
本发明克服其技术问题所采用的技术方案是:
一种多特征融合的中文医疗文本命名实体识别方法,包括:
a)对中文电子病历数据进行预处理;
b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典Dc和词典Dw
c)对预处理完成的数据插入并细化标签,完成标准化处理,得到数据集F;
d)从新华字典中获取笔画顺序信息,构建新字典Dc_o1
e)从新华字典中收集部首信息,构建新字典Dc_r,并将Dc_r加入到新字典Dc_o1中生成字典Dc_o
f)取字典Dc_o中x字的笔画n-gram的维度大小为|Dc_o|×1的one-hot编码xre、部首维度大小为|Dc_o|×1的one-hot编码xbe以及字的维度大小为|Dc_o|×1的one-hot编码xe_o,通过公式xo=xre+xbe+xe_o计算得到相加后的特征融合的输入向量xo,其维度大小为|Dc_o|×1,其中xre={xre1…xren},xren为第n个n-grams笔画顺序的one-hot编码;
g)通过索引映射将字典Dc_o中每个字映射到N维空间,初始化一个N维空间的矩阵作为权重矩阵
Figure BDA0003077490790000021
将字典Dc_o所有的字映射到矩阵
Figure BDA0003077490790000022
每个字与矩阵中的某一列相对应,通过公式
Figure BDA0003077490790000023
取出中心字xo对应的字向量xe
h)初始化一个N维空间的矩阵作为权重矩阵
Figure BDA0003077490790000024
作为背景字向量的矩阵,通过公式
Figure BDA00030774907900000211
将字向量xe与权重矩阵
Figure BDA0003077490790000025
中的上下文字做内积运算,得到每个字的计算结果q,式中y0为背景字索引为0的向量,T为转置;
i)通过公式
Figure BDA0003077490790000026
计算得到字向量xe与字向量y0之间的相似度sim(xe,y0),
Figure BDA0003077490790000027
为xe的嵌入,
Figure BDA0003077490790000028
为y0的嵌入;
j)计算损失函数L,使用随机梯度下降法优化损失函数L,优化后将矩阵
Figure BDA0003077490790000029
取出作为多特征字向量矩阵;
k)使用Word2vec训练中文电子病历数据的词向量,得到词向量矩阵
Figure BDA00030774907900000210
l)数据集F中的某一输入语句x,x=z1,z2,...,zm、x=c1,c2,...,cn,其中zj为语句x的第j个字符,j∈{1,...,m},ci为语句x的第i个词,i∈{1,...,n};
m)将字序列x=z1,z2,...,zm输入Lattice-Lstm模型的嵌入层,通过公式ri z=ez(zj)计算每个字符zj被embedding表示为多特征的字向量ri z,ez为embedding层的权重矩阵;
n)将词序列x=c1,c2,...,cn输入Lattice-Lstm模型的嵌入层,通过公式
Figure BDA0003077490790000031
计算每个
Figure BDA0003077490790000032
被embedding表示为多特征的词向量
Figure BDA0003077490790000033
为第b个字符到第e个字符组成的词语,ec为embedding矩阵;
o)将字向量ri z输入到Lattice-Lstm模型的Lstm层,通过公式
Figure BDA0003077490790000034
Figure BDA0003077490790000035
计算得到Lstm层中的单词记忆单元
Figure BDA0003077490790000036
Figure BDA0003077490790000037
遗忘门
Figure BDA0003077490790000038
输入门
Figure BDA0003077490790000039
及遗忘门信息
Figure BDA00030774907900000310
式中σ为sigmoid函数,tanh为激活函数,
Figure BDA00030774907900000311
为权重矩阵,bz为偏置向量,
Figure BDA00030774907900000312
为第e个字符的多特征的字向量,
Figure BDA00030774907900000313
为e-1时刻的隐藏层状态,
Figure BDA00030774907900000314
为e时刻的隐藏层状态,
Figure BDA00030774907900000315
为对e-1时刻的细胞状态进行更新,
Figure BDA00030774907900000316
为存储信息的节点;
p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell,通过公式
Figure BDA00030774907900000317
计算得到Lattice-Lstm
Figure BDA00030774907900000318
模型中的单词记忆单元
Figure BDA0003077490790000041
遗忘门
Figure BDA0003077490790000042
输入门
Figure BDA0003077490790000043
及词格信息
Figure BDA0003077490790000044
bc为偏置向量,
Figure BDA0003077490790000045
为权重矩阵,
Figure BDA0003077490790000046
为词组首字的细胞状态,
Figure BDA0003077490790000047
为词组首字的隐藏状态;
q)通过公式
Figure BDA0003077490790000048
将词格
Figure BDA0003077490790000049
融入当前字符Cell计算得到输入门向量
Figure BDA00030774907900000410
式中
Figure BDA00030774907900000411
为权重矩阵;
r)通过公式
Figure BDA00030774907900000412
计算得到
Figure BDA00030774907900000413
归一化后的值
Figure BDA00030774907900000414
通过公式
Figure BDA00030774907900000415
计算得到
Figure BDA00030774907900000416
归一化的值
Figure BDA00030774907900000417
D为训练语料的全部文本;
s)通过公式
Figure BDA00030774907900000418
将句子中以字符e为结尾的词加入词格
Figure BDA00030774907900000419
信息后得到
Figure BDA00030774907900000420
t)通过公式
Figure BDA00030774907900000421
计算隐藏层的输出
Figure BDA00030774907900000422
u)通过公式
Figure BDA0003077490790000051
计算概率P(y|x),式中
Figure BDA0003077490790000052
为第i个隐含层的输出,i∈{1,...,l},l为一句话中字的个数,y′为任意label序列,li为第i个的输出,
Figure BDA0003077490790000053
为CRF模型中li的参数,
Figure BDA0003077490790000054
为CRF模型中每个li的参数,
Figure BDA0003077490790000055
为li-1到li的偏差,
Figure BDA0003077490790000056
为每个li-1到li的偏差,得到的预测的标签序列y=l1,l2,...ll为中文电子病历数据的文本命名输出结果。
进一步的,步骤a)中预处理的过程为:对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰,使用opencc工具将所有字符转换成中文简体。进一步的,步骤d)中扫描新华字典中所有的字符,收集笔画顺序,保持所有的n-gram的长度大于等于3小于等于6,收集对应的笔画顺序n-grams后生成字典Dc_b,将字典Dc_b与字典Dc相加构建新字典Dc_o1
进一步的,步骤e)中扫描新华字典中所有的字符,收集字的部首信息,生成字典Dc_r,将字典Dc_r加入到字典Dc_o中。
进一步的,步骤j)中通过公式
Figure BDA0003077490790000057
计算得到损失函数L,式中x为当前字,y为上下文字,T(w)为当前词语滑动窗口内的所有词语集合,D为训练语料的全部文本,σ为sigmoid函数,y′为随机选取的字,λ为负样例的个数,Ey′~p为y′按照字分布进行的采样,p为负采样分布的指数。
步骤u)中通过公式
Figure BDA0003077490790000061
计算得到损失函数L,式中λ为正则化参数,θ为参数集,使用随机梯度下降的方法优化损失函数L。本发明的有益效果是:使用添加了中文偏旁部首以及笔画顺序信息的字向量,对传统的神经网络输入进行改进,使字向量能够更加完整的表征中文病例中字的信息,解决一词多义,形声字的情况,提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息,但使用基于词向量的方法会出现分词错误的情况,利用lattice-lstm网络的结构特性,添加词的信息,融合字词向量能够很好的解决这类问题。
附图说明
图1为本发明的模型流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种多特征融合的中文医疗文本命名实体识别方法,包括:
a)对中文电子病历数据进行预处理;
b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典Dc和词典Dw
c)对预处理完成的数据插入并细化标签,完成标准化处理,得到数据集F;
d)从新华字典中获取笔画顺序信息,构建新字典Dc_o1
e)从新华字典中收集部首信息,构建新字典Dc_r,并将Dc_r加入到新字典Dc_o1中生成字典Dc_o
f)取字典Dc_o中x字的笔画n-gram的维度大小为|Dc_o|×1的one-hot编码xre、部首维度大小为|Dc_o|×1的one-hot编码xbe以及字的维度大小为|Dc_o|×1的one-hot编码xe_o,通过公式xo=xre+xbe+xe_o计算得到相加后的特征融合的输入向量xo,其维度大小为|Dc_o|×1,其中xre={xre1...xren},xren为第n个n-grams笔画顺序的one-hot编码;
g)通过索引映射将字典Dc_o中每个字映射到N维空间,初始化一个N维空间的矩阵作为权重矩阵
Figure BDA0003077490790000071
将字典Dc_o所有的字映射到矩阵
Figure BDA0003077490790000072
每个字与矩阵中的某一列相对应,通过公式
Figure BDA0003077490790000073
取出中心字xo对应的字向量xe
h)初始化一个N维空间的矩阵作为权重矩阵
Figure BDA0003077490790000074
作为背景字向量的矩阵,通过公式
Figure BDA0003077490790000075
将字向量xe与权重矩阵
Figure BDA0003077490790000076
中的上下文字做内积运算,得到每个字的计算结果q,式中y0为背景字索引为0的向量,T为转置;i)基于当前字多特征融合的嵌入和上下文词的嵌入,来定义他们之间的相似度,具体的通过公式
Figure BDA0003077490790000077
计算得到字向量xe与字向量y0之间的相似度sim(xe,y0),
Figure BDA0003077490790000078
为xe的嵌入,
Figure BDA0003077490790000079
为y0的嵌入;
j)计算损失函数L,使用随机梯度下降法优化损失函数L,优化后将矩阵
Figure BDA00030774907900000710
取出作为多特征字向量矩阵;
k)使用Word2vec训练中文电子病历数据的词向量,得到词向量矩阵
Figure BDA00030774907900000711
l)数据集F中的某一输入语句x,x=z1,z2,...,zm、x=c1,c2,...,cn,其中zj为语句x的第j个字符,j∈{1,...,m},ci为语句x的第i个词,i∈{1,...,n};
m)将字序列x=z1,z2,...,zm输入Lattice-Lstm模型的嵌入层,通过公式ri z=ez(zj)计算每个字符zj被embedding表示为多特征的字向量ri z,ez为embedding层的权重矩阵;
n)将词序列x=c1,c2,...,cn输入Lattice-Lstm模型的嵌入层,通过公式
Figure BDA00030774907900000712
计算每个
Figure BDA00030774907900000713
被embedding表示为多特征的词向量
Figure BDA00030774907900000714
为第b个字符到第e个字符组成的词语,ec为embedding矩阵;
o)Lattice-Lstm在传统的Lstm的基础上拓展了Word-base cell,将字向量ri z输入到Lattice-Lstm模型的Lstm层,通过公式
Figure BDA0003077490790000081
Figure BDA0003077490790000082
计算得到Lstm层中的单词记忆单元
Figure BDA0003077490790000083
Figure BDA0003077490790000084
遗忘门
Figure BDA0003077490790000085
输入门
Figure BDA0003077490790000086
及遗忘门信息
Figure BDA0003077490790000087
式中σ为sigmoid函数,tanh为激活函数,
Figure BDA0003077490790000088
为权重矩阵,bz为偏置向量,
Figure BDA0003077490790000089
为第e个字符的多特征的字向量,
Figure BDA00030774907900000810
为e-1时刻的隐藏层状态,
Figure BDA00030774907900000811
为e时刻的隐藏层状态,
Figure BDA00030774907900000812
为对e-1时刻的细胞状态进行更新,
Figure BDA00030774907900000813
为存储信息的节点;
p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell,通过公式
Figure BDA00030774907900000814
计算得到Lattice-Lstm
Figure BDA00030774907900000815
模型中的单词记忆单元
Figure BDA00030774907900000816
遗忘门
Figure BDA00030774907900000817
输入门
Figure BDA00030774907900000818
及词格信息
Figure BDA00030774907900000819
bc为偏置向量,
Figure BDA00030774907900000820
为权重矩阵,
Figure BDA00030774907900000821
为词组首字的细胞状态,
Figure BDA00030774907900000822
为词组首字的隐藏状态;
q)通过公式
Figure BDA0003077490790000091
将词格
Figure BDA0003077490790000092
融入当前字符Cell计算得到输入门向量
Figure BDA0003077490790000093
式中
Figure BDA0003077490790000094
为权重矩阵;
r)通过公式
Figure BDA0003077490790000095
计算得到
Figure BDA0003077490790000096
归一化后的值
Figure BDA0003077490790000097
通过公式
Figure BDA0003077490790000098
计算得到
Figure BDA0003077490790000099
归一化的值
Figure BDA00030774907900000910
D为训练语料的全部文本;
s)通过公式
Figure BDA00030774907900000911
将句子中以字符e为结尾的词加入词格
Figure BDA00030774907900000912
信息后得到
Figure BDA00030774907900000913
t)通过公式
Figure BDA00030774907900000914
计算隐藏层的输出
Figure BDA00030774907900000915
u)通过公式
Figure BDA00030774907900000916
计算概率P(y|x),式中
Figure BDA0003077490790000101
为第i个隐含层的输出,i∈{1,...,l},l为一句话中字的个数,y′为任意label序列,li为第i个的输出,
Figure BDA0003077490790000102
为CRF模型中li的参数,
Figure BDA0003077490790000103
为CRF模型中每个li的参数,
Figure BDA0003077490790000104
为li-1到li的偏差,
Figure BDA0003077490790000105
为每个li-1到li的偏差,得到的预测的标签序列y=l1,l2,...ll为中文电子病历数据的文本命名输出结果。
本基于多特征融合的中文医疗文本命名实体识别方法,考虑到中文电子病历语义不清和形声字的情况,针对中文病历领域的特性,使用添加了中文偏旁部首以及笔画顺序信息的字向量,对传统的神经网络输入进行改进,使字向量能够更加完整的表征中文病例中字的信息,解决一词多义,形声字的情况,提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息,但使用基于词向量的方法会出现分词错误的情况,利用lattice-lstm网络的结构特性,添加词的信息,融合字词向量能够很好的解决这类问题。
优选的,步骤a)中预处理的过程为:对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰,使用opencc工具将所有字符转换成中文简体。进一步的,步骤d)中扫描新华字典中所有的字符,收集笔画顺序,保持所有的n-gram的长度大于等于3小于等于6,收集对应的笔画顺序n-grams后生成字典Dc_b,将字典Dc_b与字典Dc相加构建新字典Dc_o1
进一步的,步骤e)中扫描新华字典中所有的字符,收集字的部首信息,生成字典Dc_r,将字典Dc_r加入到字典Dc_o中。
进一步的,步骤j)中通过公式
Figure BDA0003077490790000106
计算得到损失函数L,式中x为当前字,y为上下文字,T(w)为当前词语滑动窗口内的所有词语集合,D为训练语料的全部文本,σ为sigmoid函数,为了避免softmax带来的巨大计算量,采用了负采样的方式,y′为随机选取的字,称为“负样例”,λ为负样例的个数,Ey′~p为y′按照字分布进行的采样,p为负采样分布的指数。其中语料中出现次数越多的词语越容易被采样到。模型使用随机梯度下降的方法优化损失函数,使模型达到最好的效果。
进一步的,利用维特比算法输出概率最大的序列,就是最终的标签序列P(yi|xi)进行连乘,得到添加log。通过极大似然估计,加上L2的惩罚参数作为损失函数。具体的:步骤u)中通过公式
Figure BDA0003077490790000111
计算得到损失函数L,式中λ为正则化参数,θ为参数集,模型使用随机梯度下降的方法优化损失函数L,使模型达到最好的效果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种多特征融合的中文医疗文本命名实体识别方法,其特征在于,包括:
a)对中文电子病历数据进行预处理;
b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典Dc和词典Dw
c)对预处理完成的数据插入并细化标签,完成标准化处理,得到数据集F;
d)从新华字典中获取笔画顺序信息,构建新字典Dc_o1
e)从新华字典中收集部首信息,构建新字典Dc_r,并将Dc_r加入到新字典Dc_o1中生成字典Dc_o
f)取字典Dc_o中x字的笔画n-gram的维度大小为|Dc_o|×1的one-hot编码xre、部首维度大小为|Dc_o|×1的one-hot编码xbe以及字的维度大小为|Dc_o|×1的one-hot编码xe_o,通过公式xo=xre+xbe+xe_o计算得到相加后的特征融合的输入向量xo,其维度大小为|Dc_o|×1,其中xre={xre1…xren},xren为第n个n-grams笔画顺序的one-hot编码;
g)通过索引映射将字典Dc_o中每个字映射到N维空间,初始化一个N维空间的矩阵作为权重矩阵
Figure FDA0003077490780000011
将字典Dc_o所有的字映射到矩阵
Figure FDA0003077490780000012
每个字与矩阵中的某一列相对应,通过公式
Figure FDA0003077490780000013
取出中心字xo对应的字向量xe
h)初始化一个N维空间的矩阵作为权重矩阵
Figure FDA0003077490780000014
作为背景字向量的矩阵,通过公式
Figure FDA0003077490780000015
将字向量xe与权重矩阵
Figure FDA0003077490780000016
中的上下文字做内积运算,得到每个字的计算结果q,式中y0为背景字索引为0的向量,T为转置;
i)通过公式
Figure FDA0003077490780000017
计算得到字向量xe与字向量y0之间的相似度sim(xe,y0),
Figure FDA0003077490780000018
为xe的嵌入,
Figure FDA0003077490780000019
为y0的嵌入;
j)计算损失函数L,使用随机梯度下降法优化损失函数L,优化后将矩阵
Figure FDA0003077490780000021
取出作为多特征字向量矩阵;
k)使用Word2vec训练中文电子病历数据的词向量,得到词向量矩阵
Figure FDA0003077490780000022
l)数据集F中的某一输入语句x,x=z1,z2,...,zm、x=c1,c2,...,cn,其中zj为语句x的第j个字符,j∈{1,...,m},ci为语句x的第i个词,i∈{1,...,n};
m)将字序列x=z1,z2,...,zm输入Lattice-Lstm模型的嵌入层,通过公式
Figure FDA0003077490780000023
计算每个字符zj被embedding表示为多特征的字向量ri z,ez为embedding层的权重矩阵;
n)将词序列x=c1,c2,...,cn输入Lattice-Lstm模型的嵌入层,通过公式
Figure FDA0003077490780000024
计算每个
Figure FDA0003077490780000025
被embedding表示为多特征的词向量
Figure FDA0003077490780000026
Figure FDA0003077490780000027
为第b个字符到第e个字符组成的词语,ec为embedding矩阵;
o)将字向量ri z输入到Lattice-Lstm模型的Lstm层,通过公式
Figure FDA0003077490780000028
计算得到Lstm层中的单词记忆单元
Figure FDA0003077490780000029
遗忘门
Figure FDA00030774907800000210
输入门
Figure FDA00030774907800000211
及遗忘门信息
Figure FDA00030774907800000212
式中σ为sigmoid函数,tanh为激活函数,
Figure FDA00030774907800000213
为权重矩阵,bz为偏置向量,
Figure FDA00030774907800000214
为第e个字符的多特征的字向量,
Figure FDA00030774907800000215
为e-1时刻的隐藏层状态,
Figure FDA00030774907800000216
为e时刻的隐藏层状态,
Figure FDA00030774907800000217
为对e-1时刻的细胞状态进行更新,
Figure FDA0003077490780000031
为存储信息的节点;
p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell,通过公式
Figure FDA0003077490780000032
计算得到Lattice-Lstm模型中的单词记忆单元
Figure FDA0003077490780000033
遗忘门
Figure FDA0003077490780000034
输入门
Figure FDA0003077490780000035
及词格信息
Figure FDA0003077490780000036
bc为偏置向量,
Figure FDA0003077490780000037
为权重矩阵,
Figure FDA0003077490780000038
为词组首字的细胞状态,
Figure FDA0003077490780000039
为词组首字的隐藏状态;
q)通过公式
Figure FDA00030774907800000310
将词格
Figure FDA00030774907800000311
融入当前字符Cell计算得到输入门向量
Figure FDA00030774907800000312
式中
Figure FDA00030774907800000313
为权重矩阵;
r)通过公式
Figure FDA00030774907800000314
计算得到
Figure FDA00030774907800000315
归一化后的值
Figure FDA00030774907800000316
通过公式
Figure FDA00030774907800000317
计算得到
Figure FDA00030774907800000318
归一化的值
Figure FDA0003077490780000041
D为训练语料的全部文本;
s)通过公式
Figure FDA0003077490780000042
将句子中以字符e为结尾的词加入词格
Figure FDA0003077490780000043
信息后得到
Figure FDA0003077490780000044
t)通过公式
Figure FDA0003077490780000045
计算隐藏层的输出
Figure FDA0003077490780000046
u)通过公式
Figure FDA0003077490780000047
计算概率P(y|x),式中
Figure FDA0003077490780000048
为第i个隐含层的输出,i∈{1,...,l},l为一句话中字的个数,y′为任意label序列,li为第i个的输出,
Figure FDA0003077490780000049
为CRF模型中li的参数,
Figure FDA00030774907800000410
为CRF模型中每个li的参数,
Figure FDA00030774907800000411
为li-1到li的偏差,
Figure FDA00030774907800000412
为每个li-1到li的偏差,得到的预测的标签序列y=l1,l2,...ll为中文电子病历数据的文本命名输出结果。
2.根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于,步骤a)中预处理的过程为:对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰,使用opencc工具将所有字符转换成中文简体。
3.根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于,步骤d)中扫描新华字典中所有的字符,收集笔画顺序,保持所有的n-gram的长度大于等于3小于等于6,收集对应的笔画顺序n-grams后生成字典Dc_b,将字典Dc_b与字典Dc相加构建新字典Dc_o1
4.根据权利要求3所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于,步骤e)中扫描新华字典中所有的字符,收集字的部首信息,生成字典Dc_r,将字典Dc_r加入到字典Dc_o中。
5.根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于:步骤j)中通过公式
Figure FDA0003077490780000051
计算得到损失函数L,式中x为当前字,y为上下文字,T(w)为当前词语滑动窗口内的所有词语集合,D为训练语料的全部文本,σ为sigmoid函数,y′为随机选取的字,λ为负样例的个数,Ey′~p为y′按照字分布进行的采样,p为负采样分布的指数。
6.根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于:步骤u)中通过公式
Figure FDA0003077490780000052
计算得到损失函数L,式中λ为正则化参数,θ为参数集,使用随机梯度下降的方法优化损失函数L。
CN202110556687.7A 2021-05-21 2021-05-21 一种多特征融合的中文医疗文本命名实体识别方法 Active CN113191150B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110556687.7A CN113191150B (zh) 2021-05-21 2021-05-21 一种多特征融合的中文医疗文本命名实体识别方法
PCT/CN2021/131596 WO2022242074A1 (zh) 2021-05-21 2021-11-19 一种多特征融合的中文医疗文本命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110556687.7A CN113191150B (zh) 2021-05-21 2021-05-21 一种多特征融合的中文医疗文本命名实体识别方法

Publications (2)

Publication Number Publication Date
CN113191150A true CN113191150A (zh) 2021-07-30
CN113191150B CN113191150B (zh) 2022-02-25

Family

ID=76984598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110556687.7A Active CN113191150B (zh) 2021-05-21 2021-05-21 一种多特征融合的中文医疗文本命名实体识别方法

Country Status (2)

Country Link
CN (1) CN113191150B (zh)
WO (1) WO2022242074A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022242074A1 (zh) * 2021-05-21 2022-11-24 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法
CN117195877A (zh) * 2023-11-06 2023-12-08 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243699A (zh) * 2020-01-14 2020-06-05 中南大学 基于字词信息融合的中文电子病历实体抽取方法
CN111444726A (zh) * 2020-03-27 2020-07-24 河海大学常州校区 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN111523320A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于深度学习的中文病案分词方法
US20200302118A1 (en) * 2017-07-18 2020-09-24 Glabal Tone Communication Technology Co., Ltd. Korean Named-Entity Recognition Method Based on Maximum Entropy Model and Neural Network Model
CN112151183A (zh) * 2020-09-23 2020-12-29 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN112329465B (zh) * 2019-07-18 2024-06-25 株式会社理光 一种命名实体识别方法、装置及计算机可读存储介质
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及系统
CN113191150B (zh) * 2021-05-21 2022-02-25 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200302118A1 (en) * 2017-07-18 2020-09-24 Glabal Tone Communication Technology Co., Ltd. Korean Named-Entity Recognition Method Based on Maximum Entropy Model and Neural Network Model
CN111243699A (zh) * 2020-01-14 2020-06-05 中南大学 基于字词信息融合的中文电子病历实体抽取方法
CN111444726A (zh) * 2020-03-27 2020-07-24 河海大学常州校区 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN111523320A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于深度学习的中文病案分词方法
CN112151183A (zh) * 2020-09-23 2020-12-29 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022242074A1 (zh) * 2021-05-21 2022-11-24 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法
CN117195877A (zh) * 2023-11-06 2023-12-08 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质
CN117195877B (zh) * 2023-11-06 2024-01-30 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质

Also Published As

Publication number Publication date
WO2022242074A1 (zh) 2022-11-24
CN113191150B (zh) 2022-02-25

Similar Documents

Publication Publication Date Title
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN110008469B (zh) 一种多层次命名实体识别方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN110263325B (zh) 中文分词系统
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN112347780B (zh) 基于深度神经网络的司法事实查明生成方法、装置、介质
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN111753088A (zh) 一种自然语言信息的处理方法
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN114330328B (zh) 基于Transformer-CRF的藏文分词方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN113051886B (zh) 一种试题查重方法、装置、存储介质及设备
CN118262874A (zh) 一种基于知识图谱的中医诊疗模型数据扩充系统及方法
Göker et al. Neural text normalization for turkish social media
CN113076744A (zh) 一种基于卷积神经网络的文物知识关系抽取方法
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN115952284A (zh) 一种融合密度聚类与ernie的医疗文本关系抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: No.19 Keyuan Road, Lixia District, Jinan City, Shandong Province

Patentee after: Shandong Institute of artificial intelligence

Country or region after: China

Patentee after: Qilu University of Technology (Shandong Academy of Sciences)

Address before: No.19 Keyuan Road, Lixia District, Jinan City, Shandong Province

Patentee before: Shandong Institute of artificial intelligence

Country or region before: China

Patentee before: Qilu University of Technology