CN113191150B - 一种多特征融合的中文医疗文本命名实体识别方法 - Google Patents

一种多特征融合的中文医疗文本命名实体识别方法 Download PDF

Info

Publication number
CN113191150B
CN113191150B CN202110556687.7A CN202110556687A CN113191150B CN 113191150 B CN113191150 B CN 113191150B CN 202110556687 A CN202110556687 A CN 202110556687A CN 113191150 B CN113191150 B CN 113191150B
Authority
CN
China
Prior art keywords
word
dictionary
formula
vector
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110556687.7A
Other languages
English (en)
Other versions
CN113191150A (zh
Inventor
王英龙
李佳康
舒明雷
周书旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Original Assignee
Qilu University of Technology
Shandong Institute of Artificial Intelligence
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology, Shandong Institute of Artificial Intelligence filed Critical Qilu University of Technology
Priority to CN202110556687.7A priority Critical patent/CN113191150B/zh
Publication of CN113191150A publication Critical patent/CN113191150A/zh
Priority to PCT/CN2021/131596 priority patent/WO2022242074A1/zh
Application granted granted Critical
Publication of CN113191150B publication Critical patent/CN113191150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

一种多特征融合的中文医疗文本命名实体识别方法,使用添加了中文偏旁部首以及笔画顺序信息的字向量,对传统的神经网络输入进行改进,使字向量能够更加完整的表征中文病例中字的信息,解决一词多义,形声字的情况,提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息,但使用基于词向量的方法会出现分词错误的情况,利用lattice‑lstm网络的结构特性,添加词的信息,融合字词向量能够很好的解决这类问题。

Description

一种多特征融合的中文医疗文本命名实体识别方法
技术领域
本发明涉及中文命名实体识别领域,具体涉及一种多特征融合的中文医疗文本命名实体识别方法。
背景技术
随着国内电子病例技术的成熟和应用,产生了大量的电子病历数据,非专业人员认识难以有效利用。
命名实体识别技术能够有效的识别并获取电子病历中特定信息,例如病症、诊疗方案、等等,把这些信息识别出来,可以进行进一步的利用,统计这些不同类别的实体信息和分析这些实体信息之间的关系,为诊疗提供精确的数据支持。目前,人们把深度学习技术应用到中文医学文本上来。但这些深度学习的方法大部分都是面向英文的电子病历的,存在以下问题:
1)使用基于字的词嵌入算法,难以利用词汇的信息。
2)使用基于词的词嵌入算法,会出现分词错误的情况。
3)由于中文的特殊性,带来的一词多义和形声字的问题很难解决。
发明内容
本发明为了克服以上技术的不足,提供了一种提升识别的效果的多特征融合的中文医疗文本命名实体识别方法。
本发明克服其技术问题所采用的技术方案是:
一种多特征融合的中文医疗文本命名实体识别方法,包括:
a)对中文电子病历数据进行预处理;
b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典Dc和词典Dw
c)对预处理完成的数据插入并细化标签,完成标准化处理,得到数据集F;
d)从新华字典中获取笔画顺序信息,构建新字典Dc_o1
e)从新华字典中收集部首信息,构建新字典Dc_r,并将Dc_r加入到新字典Dc_o1中生成字典Dc_o
f)取字典Dc_o中x字的笔画n-gram的维度大小为|Dc_o|×1的one-hot编码xre、部首维度大小为|Dc_o|×1的one-hot编码xbe以及字的维度大小为|Dc_o|×1的one-hot编码xe_o,通过公式xo=xre+xbe+xe_o计算得到相加后的特征融合的输入向量xo,其维度大小为|Dc_o|×1,其中xre={xre1…xren},xren为第n个n-grams笔画顺序的one-hot编码;
g)通过索引映射将字典Dc_o中每个字映射到N维空间,初始化一个N维空间的矩阵作为权重矩阵
Figure GDA0003337865400000021
将字典Dc_o所有的字映射到矩阵
Figure GDA0003337865400000022
每个字与矩阵中的某一列相对应,通过公式
Figure GDA0003337865400000023
取出中心字xo对应的字向量xe
h)初始化一个N维空间的矩阵作为权重矩阵
Figure GDA0003337865400000024
作为背景字向量的矩阵,通过公式
Figure GDA0003337865400000025
将字向量xe与权重矩阵
Figure GDA0003337865400000026
中的上下文字做内积运算,得到每个字的计算结果q,式中y0为背景字索引为0的向量,T为转置;
i)通过公式
Figure GDA0003337865400000027
计算得到字向量xe与字向量y0之间的相似度
Figure GDA0003337865400000028
的嵌入,
Figure GDA0003337865400000029
为y0的嵌入;
j)计算损失函数L,使用随机梯度下降法优化损失函数L,优化后将矩阵
Figure GDA00033378654000000210
取出作为多特征字向量矩阵;
k)使用Word2vec训练中文电子病历数据的词向量,得到词向量矩阵
Figure GDA00033378654000000211
l)数据集F中的某一输入语句x,x=z1,z2,...,zm、x=c1,c2,...,cn,其中zj为语句x的第j个字符,j∈{1,...,m},ci为语句x的第i个词,i∈{1,...,n};
m)将字序列x=z1,z2,...,zm输入Lattice-Lstm模型的嵌入层,通过公式
Figure GDA0003337865400000031
计算每个字符zj被embedding表示为多特征的字向量
Figure GDA0003337865400000032
ez为embedding层的权重矩阵;
n)将词序列x=c1,c2,...,cn输入Lattice-Lstm模型的嵌入层,通过公式
Figure GDA0003337865400000033
计算每个
Figure GDA0003337865400000034
被embedding表示为多特征的词向量
Figure GDA0003337865400000035
为第b个字符到第e个字符组成的词语,ec为embedding矩阵;
o)将字向量
Figure GDA0003337865400000036
输入到Lattice-Lstm模型的Lstm层,通过公式
Figure GDA0003337865400000037
计算得到Lstm层中的单词记忆单元
Figure GDA0003337865400000038
遗忘门
Figure GDA0003337865400000039
输入门
Figure GDA00033378654000000310
及遗忘门信息
Figure GDA00033378654000000311
式中σ为sigmoid函数,tanh为激活函数,
Figure GDA00033378654000000312
为权重矩阵,bz为偏置向量,
Figure GDA00033378654000000313
为第e个字符的多特征的字向量,
Figure GDA00033378654000000314
为e-1时刻的隐藏层状态,
Figure GDA00033378654000000315
为e时刻的隐藏层状态,
Figure GDA00033378654000000316
为对e-1时刻的细胞状态进行更新,
Figure GDA00033378654000000317
为存储信息的节点;
p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell,通过公式
Figure GDA00033378654000000318
计算得到Lattice-Lstm模型中的单词记忆单元
Figure GDA0003337865400000041
遗忘门
Figure GDA0003337865400000042
输入门
Figure GDA0003337865400000043
及词格信息
Figure GDA0003337865400000044
bc为偏置向量,
Figure GDA0003337865400000045
为权重矩阵,
Figure GDA0003337865400000046
为词组首字的细胞状态,
Figure GDA0003337865400000047
为词组首字的隐藏状态;
q)通过公式
Figure GDA0003337865400000048
将词格信息
Figure GDA0003337865400000049
融入当前字符Cell计算得到输入门向量
Figure GDA00033378654000000410
式中
Figure GDA00033378654000000411
为权重矩阵;
r)通过公式
Figure GDA00033378654000000412
计算得到
Figure GDA00033378654000000413
归一化后的值
Figure GDA00033378654000000414
通过公式
Figure GDA00033378654000000415
计算得到
Figure GDA00033378654000000416
归一化的值
Figure GDA00033378654000000417
D为训练语料的全部文本;
s)通过公式
Figure GDA00033378654000000418
将句子中以字符e为结尾的词加入词格信息
Figure GDA00033378654000000419
信息后得到
Figure GDA00033378654000000420
t)通过公式
Figure GDA00033378654000000421
计算隐藏层的输出
Figure GDA00033378654000000422
u)通过公式
Figure GDA0003337865400000051
计算概率P(y|x),式中
Figure GDA0003337865400000052
为第i个隐含层的输出,i∈{1,...,l},l为一句话中字的个数,y′为任意label序列,li为第i个的输出,
Figure GDA0003337865400000053
为CRF模型中li的参数,
Figure GDA0003337865400000054
为CRF模型中每个li的参数,
Figure GDA0003337865400000055
为li-1到li的偏差,
Figure GDA0003337865400000056
为每个li-1到li的偏差,得到的预测的标签序列y=l1,l2,...ll为中文电子病历数据的文本命名输出结果。
进一步的,步骤a)中预处理的过程为:对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰,使用opencc工具将所有字符转换成中文简体。进一步的,步骤d)中扫描新华字典中所有的字符,收集笔画顺序,保持所有的n-gram的长度大于等于3小于等于6,收集对应的笔画顺序n-grams后生成字典Dc_b,将字典Dc_b与字典Dc相加构建新字典Dc_o1
进一步的,步骤e)中扫描新华字典中所有的字符,收集字的部首信息,生成字典Dc_r,将字典Dc_r加入到字典Dc_o中。
进一步的,步骤j)中通过公式
Figure GDA0003337865400000057
计算得到损失函数L,式中x为当前字,y为上下文字,T(w)为当前词语滑动窗口内的所有词语集合,D为训练语料的全部文本,σ为sigmoid函数,y′为随机选取的字,λ为负样例的个数,Ey′~p为y′按照字分布进行的采样,p为负采样分布的指数。进一步的,步骤u)中通过公式
Figure GDA0003337865400000061
计算得到损失函数L′,式中λ为正则化参数,θ为参数集,使用随机梯度下降的方法优化损失函数L′。
本发明的有益效果是:使用添加了中文偏旁部首以及笔画顺序信息的字向量,对传统的神经网络输入进行改进,使字向量能够更加完整的表征中文病例中字的信息,解决一词多义,形声字的情况,提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息,但使用基于词向量的方法会出现分词错误的情况,利用lattice-lstm网络的结构特性,添加词的信息,融合字词向量能够很好的解决这类问题。
附图说明
图1为本发明的模型流程图。
具体实施方式
下面结合附图1对本发明做进一步说明。
一种多特征融合的中文医疗文本命名实体识别方法,包括:
a)对中文电子病历数据进行预处理;
b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典Dc和词典Dw
c)对预处理完成的数据插入并细化标签,完成标准化处理,得到数据集F;
d)从新华字典中获取笔画顺序信息,构建新字典Dc_o1
e)从新华字典中收集部首信息,构建新字典Dc_r,并将Dc_r加入到新字典Dc_o1中生成字典Dc_o
f)取字典Dc_o中x字的笔画n-gram的维度大小为|Dc_o|×1的one-hot编码xre、部首维度大小为|Dc_o|×1的one-hot编码xbe以及字的维度大小为|Dc_o|×1的one-hot编码xe_o,通过公式xo=xre+xbe+xe_o计算得到相加后的特征融合的输入向量xo,其维度大小为|Dc_o|×1,其中xre={xre1…xren},xren为第n个n-grams笔画顺序的one-hot编码;
g)通过索引映射将字典Dc_o中每个字映射到N维空间,初始化一个N维空间的矩阵作为权重矩阵
Figure GDA0003337865400000071
将字典Dc_o所有的字映射到矩阵
Figure GDA0003337865400000072
每个字与矩阵中的某一列相对应,通过公式
Figure GDA0003337865400000073
取出中心字xo对应的字向量xe
h)初始化一个N维空间的矩阵作为权重矩阵
Figure GDA0003337865400000074
作为背景字向量的矩阵,通过公式
Figure GDA0003337865400000075
将字向量xe与权重矩阵
Figure GDA0003337865400000076
中的上下文字做内积运算,得到每个字的计算结果q,式中y0为背景字索引为0的向量,T为转置;
i)基于当前字多特征融合的嵌入和上下文词的嵌入,来定义他们之间的相似度,具体的通过公式
Figure GDA0003337865400000077
计算得到字向量xe与字向量y0之间的相似度
Figure GDA0003337865400000078
为xe的嵌入,
Figure GDA0003337865400000079
为y0的嵌入;
j)计算损失函数L,使用随机梯度下降法优化损失函数L,优化后将矩阵
Figure GDA00033378654000000710
取出作为多特征字向量矩阵;
k)使用Word2vec训练中文电子病历数据的词向量,得到词向量矩阵
Figure GDA00033378654000000711
l)数据集F中的某一输入语句x,x=z1,z2,...,zm、x=c1,c2,...,cn,其中zj为语句x的第j个字符,j∈{1,...,m},ci为语句x的第i个词,i∈{1,...,n};
m)将字序列x=z1,z2,…,zm输入Lattice-Lstm模型的嵌入层,通过公式
Figure GDA00033378654000000712
计算每个字符zj被embedding表示为多特征的字向量
Figure GDA00033378654000000713
ez为embedding层的权重矩阵;
n)将词序列x=c1,c2,…,cn输入Lattice-Lstm模型的嵌入层,通过公式
Figure GDA00033378654000000714
计算每个
Figure GDA00033378654000000715
被embedding表示为多特征的词向量
Figure GDA00033378654000000716
为第b个字符到第e个字符组成的词语,ec为embedding矩阵;
o)Lattice-Lstm在传统的Lstm的基础上拓展了Word-base cell,将字向量
Figure GDA0003337865400000081
输入到Lattice-Lstm模型的Lstm层,通过公式
Figure GDA0003337865400000082
计算得到Lstm层中的单词记忆单元
Figure GDA0003337865400000083
遗忘门
Figure GDA0003337865400000084
输入门
Figure GDA0003337865400000085
及遗忘门信息
Figure GDA0003337865400000086
式中σ为sigmoid函数,tanh为激活函数,
Figure GDA0003337865400000087
为权重矩阵,bz为偏置向量,
Figure GDA0003337865400000088
为第e个字符的多特征的字向量,
Figure GDA0003337865400000089
为e-1时刻的隐藏层状态,
Figure GDA00033378654000000810
为e时刻的隐藏层状态,
Figure GDA00033378654000000811
为对e-1时刻的细胞状态进行更新,
Figure GDA00033378654000000812
为存储信息的节点;
p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell,通过公式
Figure GDA00033378654000000813
计算得到Lattice-Lstm模型中的单词记忆单元
Figure GDA00033378654000000814
遗忘门
Figure GDA00033378654000000815
输入门
Figure GDA00033378654000000816
及词格信息
Figure GDA00033378654000000817
bc为偏置向量,
Figure GDA00033378654000000818
为权重矩阵,
Figure GDA00033378654000000819
为词组首字的细胞状态,
Figure GDA00033378654000000820
为词组首字的隐藏状态;
q)通过公式
Figure GDA0003337865400000091
将词格信息
Figure GDA0003337865400000092
融入当前字符Cell计算得到输入门向量
Figure GDA0003337865400000093
式中
Figure GDA0003337865400000094
为权重矩阵;
r)通过公式
Figure GDA0003337865400000095
计算得到
Figure GDA0003337865400000096
归一化后的值
Figure GDA0003337865400000097
通过公式
Figure GDA0003337865400000098
计算得到
Figure GDA0003337865400000099
归一化的值
Figure GDA00033378654000000910
D为训练语料的全部文本;
s)通过公式
Figure GDA00033378654000000911
将句子中以字符e为结尾的词加入词格信息
Figure GDA00033378654000000912
信息后得到
Figure GDA00033378654000000913
t)通过公式
Figure GDA00033378654000000914
计算隐藏层的输出
Figure GDA00033378654000000915
u)通过公式
Figure GDA00033378654000000916
计算概率P(y|x),式中
Figure GDA0003337865400000101
为第i个隐含层的输出,i∈{1,…,l},l为一句话中字的个数,y′为任意label序列,li为第i个的输出,
Figure GDA0003337865400000102
为CRF模型中li的参数,
Figure GDA0003337865400000103
为CRF模型中每个li的参数,
Figure GDA0003337865400000104
为li-1到li的偏差,
Figure GDA0003337865400000105
为每个li-1到li的偏差,得到的预测的标签序列y=l1,l2,…ll为中文电子病历数据的文本命名输出结果。
本基于多特征融合的中文医疗文本命名实体识别方法,考虑到中文电子病历语义不清和形声字的情况,针对中文病历领域的特性,使用添加了中文偏旁部首以及笔画顺序信息的字向量,对传统的神经网络输入进行改进,使字向量能够更加完整的表征中文病例中字的信息,解决一词多义,形声字的情况,提高模型的准确度。考虑到使用基于字向量的方法很难处理词语之间的信息,但使用基于词向量的方法会出现分词错误的情况,利用lattice-lstm网络的结构特性,添加词的信息,融合字词向量能够很好的解决这类问题。
优选的,步骤a)中预处理的过程为:对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰,使用opencc工具将所有字符转换成中文简体。进一步的,步骤d)中扫描新华字典中所有的字符,收集笔画顺序,保持所有的n-gram的长度大于等于3小于等于6,收集对应的笔画顺序n-grams后生成字典Dc_b,将字典Dc_b与字典Dc相加构建新字典Dc_o1
进一步的,步骤e)中扫描新华字典中所有的字符,收集字的部首信息,生成字典Dc_r,将字典Dc_r加入到字典Dc_o中。
进一步的,步骤j)中通过公式
Figure GDA0003337865400000106
计算得到损失函数L,式中x为当前字,y为上下文字,T(w)为当前词语滑动窗口内的所有词语集合,D为训练语料的全部文本,σ为sigmoid函数,为了避免softmax带来的巨大计算量,采用了负采样的方式,y′为随机选取的字,称为“负样例”,λ为负样例的个数,Ey′~p为y′按照字分布进行的采样,p为负采样分布的指数。其中语料中出现次数越多的词语越容易被采样到。模型使用随机梯度下降的方法优化损失函数,使模型达到最好的效果。
进一步的,利用维特比算法输出概率最大的序列,就是最终的标签序列P(yi|xi)进行连乘,得到添加log。通过极大似然估计,加上L2的惩罚参数作为损失函数。具体的:步骤u)中通过公式
Figure GDA0003337865400000111
计算得到损失函数L′,式中λ为正则化参数,θ为参数集,使用随机梯度下降的方法优化损失函数L′,使模型达到最好的效果。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种多特征融合的中文医疗文本命名实体识别方法,其特征在于,包括:
a)对中文电子病历数据进行预处理;
b)对预处理完成的数据使用jieba分词工具分别按照字级别和词级别进行划分,分别得到字典Dc和词典Dw
c)对预处理完成的数据插入并细化标签,完成标准化处理,得到数据集F;
d)从新华字典中获取笔画顺序信息,构建新字典Dc_o1
e)从新华字典中收集部首信息,构建新字典Dc_r,并将Dc_r加入到新字典Dc_o1中生成字典Dc_o
f)取字典Dc_o中x字的笔画n-gram的维度大小为|Dc_o|×1的one-hot编码xre、部首维度大小为|Dc_o|×1的one-hot编码xbe以及字的维度大小为|Dc_o|×1的one-hot编码xe_o,通过公式xo=xre+xbe+xe_o计算得到相加后的特征融合的输入向量xo,其维度大小为|Dc_o|×1,其中xre={xre1…xren},xren为第n个n-grams笔画顺序的one-hot编码;
g)通过索引映射将字典Dc_o中每个字映射到N维空间,初始化一个N维空间的矩阵作为权重矩阵
Figure FDA0003337865390000011
将字典Dc_o所有的字映射到矩阵
Figure FDA0003337865390000012
每个字与矩阵中的某一列相对应,通过公式
Figure FDA0003337865390000013
取出中心字xo对应的字向量xe
h)初始化一个N维空间的矩阵作为权重矩阵
Figure FDA0003337865390000014
作为背景字向量的矩阵,通过公式
Figure FDA0003337865390000015
将字向量xe与权重矩阵
Figure FDA0003337865390000016
中的上下文字做内积运算,得到每个字的计算结果q,式中y0为背景字索引为0的向量,T为转置;
i)通过公式
Figure FDA0003337865390000017
计算得到字向量xe与字向量y0之间的相似度sim(xe,y0),
Figure FDA0003337865390000018
为xe的嵌入,
Figure FDA0003337865390000019
为y0的嵌入;
j)计算损失函数L,使用随机梯度下降法优化损失函数L,优化后将矩阵
Figure FDA0003337865390000021
取出作为多特征字向量矩阵;
k)使用Word2vec训练中文电子病历数据的词向量,得到词向量矩阵
Figure FDA0003337865390000022
l)数据集F中的某一输入语句x,x=z1,z2,...,zm、x=c1,c2,...,cn,其中zj为语句x的第j个字符,j∈{1,...,m},ci为语句x的第i个词,i∈{1,...,n};
m)将字序列x=z1,z2,...,zm输入Lattice-Lstm模型的嵌入层,通过公式ri z=ez(zj)计算每个字符zj被embedding表示为多特征的字向量ri z,ez为embedding层的权重矩阵;
n)将词序列x=c1,c2,...,cn输入Lattice-Lstm模型的嵌入层,通过公式
Figure FDA0003337865390000023
计算每个
Figure FDA0003337865390000024
被embedding表示为多特征的词向量
Figure FDA0003337865390000025
Figure FDA0003337865390000026
为第b个字符到第e个字符组成的词语,ec为embedding矩阵;
o)将字向量ri z输入到Lattice-Lstm模型的Lstm层,通过公式
Figure FDA0003337865390000027
计算得到Lstm层中的单词记忆单元
Figure FDA0003337865390000028
遗忘门fe z、输入门
Figure FDA0003337865390000029
及遗忘门信息
Figure FDA00033378653900000210
式中σ为sigmoid函数,tanh为激活函数,
Figure FDA00033378653900000211
为权重矩阵,bz为偏置向量,
Figure FDA00033378653900000212
为第e个字符的多特征的字向量,
Figure FDA00033378653900000213
为e-1时刻的隐藏层状态,
Figure FDA00033378653900000214
为e时刻的隐藏层状态,
Figure FDA00033378653900000215
为对e-1时刻的细胞状态进行更新,
Figure FDA0003337865390000031
为存储信息的节点;
p)将字典中匹配的结尾是e的词输入到Lattice-Lstm模型中的Word-base cell,通过公式
Figure FDA0003337865390000032
计算得到Lattice-Lstm模型中的单词记忆单元
Figure FDA0003337865390000033
遗忘门
Figure FDA0003337865390000034
输入门
Figure FDA0003337865390000035
及词格信息
Figure FDA0003337865390000036
bc为偏置向量,
Figure FDA0003337865390000037
为权重矩阵,
Figure FDA0003337865390000038
为词组首字的细胞状态,
Figure FDA0003337865390000039
为词组首字的隐藏状态;
q)通过公式
Figure FDA00033378653900000310
将词格信息
Figure FDA00033378653900000311
融入当前字符Cell计算得到输入门向量
Figure FDA00033378653900000312
式中
Figure FDA00033378653900000313
为权重矩阵;
r)通过公式
Figure FDA00033378653900000314
计算得到
Figure FDA00033378653900000315
归一化后的值
Figure FDA00033378653900000316
通过公式
Figure FDA00033378653900000317
计算得到
Figure FDA00033378653900000318
归一化的值
Figure FDA0003337865390000041
D为训练语料的全部文本;
s)通过公式
Figure FDA0003337865390000042
将句子中以字符e为结尾的词加入词格信息
Figure FDA0003337865390000043
信息后得到
Figure FDA0003337865390000044
t)通过公式
Figure FDA0003337865390000045
计算隐藏层的输出
Figure FDA0003337865390000046
u)通过公式
Figure FDA0003337865390000047
计算概率P(y|x),式中
Figure FDA0003337865390000048
为第i个隐含层的输出,i∈{1,...,l},l为一句话中字的个数,y′为任意label序列,li为第i个的输出,
Figure FDA0003337865390000049
为CRF模型中li的参数,
Figure FDA00033378653900000410
为CRF模型中每个li的参数,
Figure FDA00033378653900000411
为li-1到li的偏差,
Figure FDA00033378653900000412
为每个li-1到li的偏差,得到的预测的标签序列y=l1,l2,…ll为中文电子病历数据的文本命名输出结果。
2.根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于,步骤a)中预处理的过程为:对收集的中文电子病历数据使用哈工大停词表去除数据中停用词的干扰,使用opencc工具将所有字符转换成中文简体。
3.根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于,步骤d)中扫描新华字典中所有的字符,收集笔画顺序,保持所有的n-gram的长度大于等于3小于等于6,收集对应的笔画顺序n-grams后生成字典Dc_b,将字典Dc_b与字典Dc相加构建新字典Dc_o1
4.根据权利要求3所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于,步骤e)中扫描新华字典中所有的字符,收集字的部首信息,生成字典Dc_r,将字典Dc_r加入到字典Dc_o中。
5.根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于:步骤j)中通过公式
Figure FDA0003337865390000051
计算得到损失函数L,式中x为当前字,y为上下文字,T(w)为当前词语滑动窗口内的所有词语集合,D为训练语料的全部文本,σ为sigmoid函数,y′为随机选取的字,λ为负样例的个数,Ey′~p为y′按照字分布进行的采样,p为负采样分布的指数。
6.根据权利要求1所述的多特征融合的中文医疗文本命名实体识别方法,其特征在于:步骤u)中通过公式
Figure FDA0003337865390000052
计算得到损失函数L′,式中λ为正则化参数,θ为参数集,使用随机梯度下降的方法优化损失函数L′。
CN202110556687.7A 2021-05-21 2021-05-21 一种多特征融合的中文医疗文本命名实体识别方法 Active CN113191150B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110556687.7A CN113191150B (zh) 2021-05-21 2021-05-21 一种多特征融合的中文医疗文本命名实体识别方法
PCT/CN2021/131596 WO2022242074A1 (zh) 2021-05-21 2021-11-19 一种多特征融合的中文医疗文本命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110556687.7A CN113191150B (zh) 2021-05-21 2021-05-21 一种多特征融合的中文医疗文本命名实体识别方法

Publications (2)

Publication Number Publication Date
CN113191150A CN113191150A (zh) 2021-07-30
CN113191150B true CN113191150B (zh) 2022-02-25

Family

ID=76984598

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110556687.7A Active CN113191150B (zh) 2021-05-21 2021-05-21 一种多特征融合的中文医疗文本命名实体识别方法

Country Status (2)

Country Link
CN (1) CN113191150B (zh)
WO (1) WO2022242074A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191150B (zh) * 2021-05-21 2022-02-25 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法
CN117195877B (zh) * 2023-11-06 2024-01-30 中南大学 一种电子病历的词向量生成方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243699A (zh) * 2020-01-14 2020-06-05 中南大学 基于字词信息融合的中文电子病历实体抽取方法
CN111444726A (zh) * 2020-03-27 2020-07-24 河海大学常州校区 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN111523320A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于深度学习的中文病案分词方法
CN112151183A (zh) * 2020-09-23 2020-12-29 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN109871538A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种中文电子病历命名实体识别方法
CN112329465B (zh) * 2019-07-18 2024-06-25 株式会社理光 一种命名实体识别方法、装置及计算机可读存储介质
CN110866401A (zh) * 2019-11-18 2020-03-06 山东健康医疗大数据有限公司 基于注意力机制的中文电子病历命名实体识别方法及系统
CN113191150B (zh) * 2021-05-21 2022-02-25 山东省人工智能研究院 一种多特征融合的中文医疗文本命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111243699A (zh) * 2020-01-14 2020-06-05 中南大学 基于字词信息融合的中文电子病历实体抽取方法
CN111444726A (zh) * 2020-03-27 2020-07-24 河海大学常州校区 基于双向格子结构的长短时记忆网络的中文语义信息提取方法和装置
CN111523320A (zh) * 2020-04-20 2020-08-11 电子科技大学 一种基于深度学习的中文病案分词方法
CN112151183A (zh) * 2020-09-23 2020-12-29 上海海事大学 一种基于Lattice LSTM模型的中文电子病历的实体识别方法

Also Published As

Publication number Publication date
WO2022242074A1 (zh) 2022-11-24
CN113191150A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN110765775B (zh) 一种融合语义和标签差异的命名实体识别领域自适应的方法
CN110969020B (zh) 基于cnn和注意力机制的中文命名实体识别方法、系统及介质
CN110008469B (zh) 一种多层次命名实体识别方法
CN112487143A (zh) 一种基于舆情大数据分析的多标签文本分类方法
CN110263325B (zh) 中文分词系统
CN112989834A (zh) 一种基于平格增强线性转换器的命名实体识别方法和系统
CN111738007B (zh) 一种基于序列生成对抗网络的中文命名实体识别数据增强算法
CN111046670B (zh) 基于毒品案件法律文书的实体及关系联合抽取方法
CN109657061B (zh) 一种针对海量多词短文本的集成分类方法
CN112151183A (zh) 一种基于Lattice LSTM模型的中文电子病历的实体识别方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN112347780B (zh) 基于深度神经网络的司法事实查明生成方法、装置、介质
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN111753088A (zh) 一种自然语言信息的处理方法
CN111723572B (zh) 基于CNN卷积层和BiLSTM的中文短文本相关性度量方法
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN115169349A (zh) 基于albert的中文电子简历命名实体识别方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN113051886B (zh) 一种试题查重方法、装置、存储介质及设备
Göker et al. Neural text normalization for turkish social media
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
CN116680407A (zh) 一种知识图谱的构建方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant