CN115455969A - 一种医学文本命名实体识别方法、装置、设备及存储介质 - Google Patents

一种医学文本命名实体识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115455969A
CN115455969A CN202210979993.6A CN202210979993A CN115455969A CN 115455969 A CN115455969 A CN 115455969A CN 202210979993 A CN202210979993 A CN 202210979993A CN 115455969 A CN115455969 A CN 115455969A
Authority
CN
China
Prior art keywords
vector
medical text
label
character
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210979993.6A
Other languages
English (en)
Inventor
冼广铭
李楚彬
梅灏洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202210979993.6A priority Critical patent/CN115455969A/zh
Publication of CN115455969A publication Critical patent/CN115455969A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Abstract

本发明涉及一种医学文本命名实体识别方法,包括以下步骤:获取医学文本数据并进行预处理,医学文本数据包括字符和对应的标签;对预处理的医学文本数据进行词嵌入得到字符向量,并将字符向量与词典库进行标签匹配,得到字符向量对应的标签词语集;将标签词语集与字符向量拼接,得到包含医学文本数据的词汇信息的输入向量;将输入向量输入至训练好的BI GRU模型中,提取深度特征和长距离依赖,得到输入向量对应的序列编码;将序列编码输入至训练好的CRF模型中,得到序列编码对应的标签,即命名实体识别的结果。本申请克服了词级别输入由于分词错误导致的错误传播问题,也改进了单纯字符级别输入缺少词汇信息的缺陷,进一步提高了实体划分能力和实体边界检测能力。

Description

一种医学文本命名实体识别方法、装置、设备及存储介质
技术领域
本发明涉及信息抽取技术领域,尤其涉及一种医学文本命名实体识别方法、装置、设备及存储介质。
背景技术
命名实体识别是一种自然语言处理的基础任务,它是指从原始文本数据中提取具有特定意义的实体,例如人物、地点、机构等。将医学文本与命名实体识别结合,并配合深度学习的训练模式,其目的就是通过命名实体识别方法,抽取出医学文本中关于疾病、药物、症状、手术、检验等医学实体。
当前通用领域对于医疗领域,上下文关联性较小,数据集内部知识信息对于特定名词识别远远不够。
发明内容
基于此,本发明提供一种医学文本命名实体识别方法、装置、设备及存储介质。本申请克服了词级别输入由于分词错误导致的错误传播问题,也改进了单纯字符级别输入缺少词汇信息的缺陷,进一步提高了实体划分能力和实体边界检测能力。
根据本申请的一些实施例的第一方面,提供了一种医学文本命名实体识别方法,包括以下步骤:
获取医学文本数据并进行预处理,所述医学文本数据包括字符和对应的标签;
对预处理的所述医学文本数据进行词嵌入得到字符向量,并将所述字符向量与词典库进行标签匹配,得到所述字符向量对应的标签词语集;
将所述标签词语集与所述字符向量拼接,得到包含所述医学文本数据的词汇信息的输入向量;
将所述输入向量输入至训练好的BIGRU模型中,提取深度特征和长距离依赖,得到所述输入向量对应的序列编码;
将所述序列编码输入至训练好的CRF模型中,得到所述序列编码对应的标签,即为命名实体识别的结果。
进一步地,将所述字符向量与词典库进行标签匹配得到标签词语集后,还包括:
利用BEMS四位序列标注法对所述标签词语集进行分段,得到四个子集,所述子集的构造公式如下:
Figure BDA0003800058770000021
Figure BDA0003800058770000022
Figure BDA0003800058770000023
Figure BDA0003800058770000024
其中,Ci表示字符向量、L表示词典集、B(Ci)表示字符向量在词典集中词语的起始字的子集,M(Ci)表示字符向量在词典集中词语的中间字的子集,E(Ci)表示字符向量在词典集中词语的结束字的子集,S(Ci)表示字符向量在词典集中单独成词的子集。
进一步地,将所述标签词语集与所述字符向量拼接,得到包含所述医学文本数据的词汇信息的输入向量,包括:
使用权重归一化方法,计算四个所述子集的所有单词:
将四个所述子集合并得到子集向量,并与所述字符向量拼接,得到输入向量。
进一步地,所述权重归一化方法为基于统计的静态加权法,计算公式如下:
Figure BDA0003800058770000025
其中,S为标签词语集,z(w)为单词w在标签词语集中出现的频率,Z为标签单词集中所有词语出现的频率之和,ew为词向量矩阵;
输入向量的拼接计算公式如下:
es(B,M,E,S)=[vs(B);vs(M);vs(E);vs(S)]
Figure BDA0003800058770000031
其中,
Figure BDA0003800058770000032
表示字符c拼接前的对应的字符向量,Xc代表字符c拼接之后对应的字符向量,es(B,M,E,S)表示字符c根据词典集匹配得到的子集静态加权后合并而成的子集向量。
进一步地,将所述输入向量输入至训练好的BIGRU模型中,提取深度特征和长距离依赖,得到所述输入向量对应的序列编码,计算公式如下:
Figure BDA0003800058770000033
Figure BDA0003800058770000034
Figure BDA0003800058770000035
H={h1,h2,...hn}
其中,
Figure BDA0003800058770000036
Figure BDA0003800058770000037
分别表示在t时刻正向GRU和反向GRU的输出状态、wt和vt表示权重矩阵、bt表示偏置向量、H表示编码序列。
进一步地,将所述序列编码输入至训练好的CRF模型中,得到所述序列编码对应的标签,包括:
对所述编码序列进行预测,计算相应得分,公式如下:
Figure BDA0003800058770000038
其中,x={x1,x2,...xn}表示为序列编码、y={y1,y2,...yn}作为预测标签序列、
Figure BDA0003800058770000039
为第i个位置输出为yi的概率,
Figure BDA00038000587700000310
表示从yi-1到yi的转移概率矩阵;
利用动态规划算法,输出最高的条件概率标签序列y*
y*=argmaxyScore(x,y)
即得分函数取最大值对应的标签序列为所述序列编码对应的标签,即为命名实体识别的结果。
据本申请的一些实施例的第二方面,提供了一种医学文本命名实体识别装置,包括:
数据获取模块,用于获取医学文本数据并进行预处理,所述医学文本数据包括字符和对应的标签;
嵌入匹配模块,用于对预处理的所述医学文本数据进行词嵌入得到字符向量,并将所述字符向量与词典库进行标签匹配,得到所述字符向量对应的标签词语集;
拼接模块,用于将所述标签词语集与所述字符向量拼接,得到包含所述医学文本数据的词汇信息的输入向量;
编码模块,用于将所述输入向量输入至训练好的BIGRU模型中,提取深度特征和长距离依赖,得到所述输入向量对应的序列编码;
识别模块,用于将所述序列编码输入至训练好的CRF模型中,得到所述序列编码对应的标签,即为命名实体识别的结果。
根据本申请的一些实施例的第三方面,提供了一种设备,包括:
至少一个存储器和至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如第一方面任一项所述的医学文本命名实体识别的步骤。
根据本申请的一些实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项所述方法的步骤。
本申请首先通过引入外部的词典库,令医学文本数据中的每个字符向量与词典库进行匹配生成4个不同的标签词语集,对这4个标签词语集合进行一维特征化,再将其与字符向量进行拼接,得到包含丰富词信息的最终输入向量。本申请通过对输入的字符向量进行词汇增强,并与原始的字符向量进行拼接,形成包含更准确信息的输入向量,保证了字符向量处理的准确度。克服了词级别输入由于分词错误导致的错误传播问题,也改进了单纯字符级别输入缺少词汇信息的缺陷,进一步提高了实体划分能力和实体边界检测能力。其次,在序列编码层使用BiGRU模型,可以在前后两个方向上对信息进行深度特征提取,捕捉长距离依赖,同时具有结构简单以及训练时间短的优点,极大提高医学文本命名实体识别的效率。此外,对于序列编码层的输出,选择采用CRF,对于事先确定的邻近标签依赖,CRF可以对最终输出进行标签校正,改善了标签之间错误相邻的问题,从而得到医学文本最终的实体标签。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图说明
图1为本申请实施例中的医学文本命名实体识别的步骤流程图;
图2为本申请实施例中的医学文本命名实体识别的所使用的模型图;
图3为图2中BIGRU的结构图;
图4为本申请实施例中的医学文本命名实体识别模型的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
针对背景技术中涉及的词级别输入和字符级别输入的问题。
本申请提供一种医学文本命名实体识别方法,请参阅图1和图2,该方法包括以下步骤:
步骤S1:获取医学文本数据并进行预处理,所述医学文本数据包括字符和对应的标签。
命名实体识别用于将文本中的命名实体定位并分类为预先定义的类别,如专业、位置、时间等。在本申请中,医学本文数据中的每个汉字即为待命名的实体,标签即为预定义的汉字对应的类别,对医学文本数据进行命名实体识别即为确定医学文本数据中的汉字对应的正确标签。
在一个具体的实施例中,对所述医学文本数据进行预处理包括:对所述医学文本数据中的字符和对应的标签都赋予ID,并过滤空格和特殊字符。
步骤S2:对预处理的所述医学文本数据进行词嵌入得到字符向量,并将所述字符向量与词典库进行标签匹配,得到所述字符向量对应的标签词语集。
词嵌入是指通过将字符转化为计算机可以识别的数字,每个字符被映射到向量空间,每个字符在经过embedding转化后,形成字符向量。该词典库为外部引入的,用于构造字符向量的标签词语集。通过外部词典库的引入,增强了该医学文本数据,保证数据更加完整。
在一个具体的实施例中,得到所述字符向量对应的标签词语集后,还包括:
利用BEMS四位序列标注法对所述标签词语集进行分段,得到四个子集,所述子集的构造公式如下:
Figure BDA0003800058770000071
Figure BDA0003800058770000072
Figure BDA0003800058770000073
Figure BDA0003800058770000074
其中,Ci表示字符向量、L表示词典集、B(Ci)表示字符向量在词典集中词语的起始字的子集,M(Ci)表示字符向量在词典集中词语的中间字的子集,E(Ci)表示字符向量在词典集中词语的结束字的子集,S(Ci)表示字符向量在词典集中单独成词的子集。
BMES四位序列标注法是命名实体标注方法中的一种。是通过将词典集中每个词分为B、M、E、S四类。其中,B表示一个词的词首位值,M表示一个词的中间位置,E表示一个词的末尾位置,S表示一个单独的字词。
如图2所示,以“中医药疗法”为例,字符“药”与引入的词典库进行匹配,得到对应的4个子集:B={W3,4(“药疗”)},M={W2,5(“医药疗法”)},E={W1,3(“中医药”)},S={W3,(“药”)}。
步骤S3:将所述标签词语集与所述字符向量拼接,得到包含所述医学文本数据的词汇信息的输入向量。
该标签词语集为通过词典库增强后的字符向量,将该标签词语集和未经过增强的字符向量进行拼接,得到的输入向量的数据更加完全且完整。
在一个优选的实施例中,步骤S3包括:
步骤S31:使用权重归一化方法,计算四个所述子集的所有单词。
具体的,权重归一化方法为基于统计的静态加权法,计算公式如下:
Figure BDA0003800058770000081
其中,S为标签词语集,z(w)为单词w在标签词语集中出现的频率,Z为标签单词集中所有词语出现的频率之和,ew为词向量矩阵。
步骤S32:将四个所述子集合并得到子集向量,并与所述字符向量拼接,得到输入向量。
具体的,输入向量的拼接计算公式如下:
es(B,M,E,S)=[vs(B);vs(M);vs(E);vs(S)]
Figure BDA0003800058770000082
其中,
Figure BDA0003800058770000083
表示字符c拼接前的对应的字符向量,Xc代表字符c拼接之后对应的字符向量,es(B,M,E,S)表示字符c根据词典集匹配得到的子集静态加权后合并而成的子集向量。
步骤S4:将所述输入向量输入至训练好的BIGRU模型中,提取深度特征和长距离依赖,得到所述输入向量对应的序列编码。
BiGRU模型由两个独立的单向且相反的GRU模型组成,其可以降低训练过程中过度拟合的风险,而且模型训练所需的时间也更短。在每一时刻,输入会同时提供两个方向相反的GRU,而输出则由这两个单向GRU共同决定。BiGRU的具体结构如图3所示。
具体的,BiGRU模型的计算公式如下:
Figure BDA0003800058770000084
Figure BDA0003800058770000085
Figure BDA0003800058770000086
H={h1,h2,...hn}
其中,
Figure BDA0003800058770000087
Figure BDA0003800058770000088
分别表示在t时刻正向GRU和反向GRU的输出状态、wt和vt表示权重矩阵、bt表示偏置向量、H表示编码序列。
步骤S5:将所述序列编码输入至训练好的CRF模型中,得到所述序列编码对应的标签,即为命名实体识别的结果。
CRF即条件随机场是自然语言处理中的基础模型,广泛用于分词,实体识别和词性标注等场景。具体的,对所述编码序列进行预测,计算相应得分,公式如下:
Figure BDA0003800058770000091
其中,
x={x1,x2,...xn}表示为序列编码、y={y1,y2,...yn}作为预测标签序列、
Figure BDA0003800058770000092
为第i个位置输出为yi的概率,
Figure BDA0003800058770000093
表示从yi-1到yi的转移概率矩阵。
利用动态规划算法,输出最高的条件概率标签序列y*
y*=argmaxyScore(x,y)
即得分函数取最大值对应的标签序列为所述序列编码对应的标签,即为命名实体识别的结果。
请参阅图2,在一个具体的例子中,以“中医药疗法”为例,其经过词向量增强后,输入至BIGRU模型中进行序列编码层后,再输入CRF模型中进行标签解码,即可得到对应标签。如图所示,最终输出MED代表药物标签medicine的缩写,B表示开头begin,B-MED表示“中”这个字是“中医药”的开头,而“中医药”属于药物标签。M表示中间middle,M-MED表示“医”这个字是“中医药”的中间,而“中医药”属于药物标签。同理E表示结尾end,E-MED表示“药”这个字是“中医药”的结尾,而“中医药”属于药物标签。O表示没有意义的单个字符,比如“疗”,意为other,不属于任何标签。
与上述的一种医学文本命名实体识别方法相对应,如图4所示,本申请还提供一种医学文本命名实体识别装置400,包括:
数据获取模块410,用于获取医学文本数据并进行预处理,所述医学文本数据包括字符和对应的标签;
嵌入匹配模块420,用于对预处理的所述医学文本数据进行词嵌入得到字符向量,并将所述字符向量与词典库进行标签匹配,得到所述字符向量对应的标签词语集;
拼接模块430,用于将所述标签词语集与所述字符向量拼接,得到包含所述医学文本数据的词汇信息的输入向量;
编码模块440,用于将所述输入向量输入至训练好的BIGRU中,提取深度特征和长距离依赖,得到所述输入向量对应的序列编码;
识别模块450,用于将所述序列编码输入至训练好的CRF中,得到所述序列编码对应的标签,即为命名实体识别的结果。
在一个可选的例子中,该装置400还包括:
子集构造单元,用于利用BEMS四位序列标注法对所述标签词语集进行分段,得到四个子集,所述子集的构造公式如下:
Figure BDA0003800058770000101
Figure BDA0003800058770000102
Figure BDA0003800058770000103
Figure BDA0003800058770000104
其中,Ci表示字符向量、L表示词典集、B(Ci)表示字符向量在词典集中词语的起始字的子集,M(Ci)表示字符向量在词典集中词语的中间字的子集,E(Ci)表示字符向量在词典集中词语的结束字的子集,S(Ci)表示字符向量在词典集中单独成词的子集。
在一个可选的例子中,拼接模块430包括:
第一拼接单元,用于使用权重归一化方法,计算四个所述子集的所有单词。
第二拼接单元,用于将四个所述子集合并得到子集向量,并与所述字符向量拼接,得到输入向量。
在一个可选的例子中,第一拼接单元中权重归一化方法为基于统计的静态加权法,计算公式如下:
Figure BDA0003800058770000111
其中,S为标签词语集,z(w)为单词w在标签词语集中出现的频率,Z为标签单词集中所有词语出现的频率之和,ew为词向量矩阵;
第二拼接单元中,输入向量的拼接计算公式如下:
es(B,M,E,S)=[vs(B);vs(M);vs(E);vs(S)]
Figure BDA0003800058770000112
其中,
Figure BDA0003800058770000113
表示字符c拼接前的对应的字符向量,Xc代表字符c拼接之后对应的字符向量,es(B,M,E,S)表示字符c根据词典集匹配得到的子集静态加权后合并而成的子集向量。
在一个可选的例子中,编码模块440中得到序列编码的公式如下:
Figure BDA0003800058770000114
Figure BDA0003800058770000115
Figure BDA0003800058770000116
H={h1,h2,...hn}
其中,
Figure BDA0003800058770000117
Figure BDA0003800058770000118
分别表示在t时刻正向GRU和反向GRU的输出状态、wt和vt表示权重矩阵、bt表示偏置向量、H表示编码序列。
在一个可选的例子中,识别模块450中得到所述序列编码对应的标签的公式如下:
Figure BDA0003800058770000119
其中,x={x1,x2,...xn}表示为序列编码、y={y1,y2,...yn}作为预测标签序列、
Figure BDA00038000587700001110
为第i个位置输出为yi的概率,
Figure BDA00038000587700001111
表示从yi-1到yi的转移概率矩阵;
利用动态规划算法,输出最高的条件概率标签序列y*
y*=argmaxyScore(x,y)
即得分函数取最大值对应的标签序列为所述序列编码对应的标签,即为命名实体识别的结果。
在一个可选的例子中,该装置400还包括:
预处理单元,用于对所述医学文本数据中的字符和对应的标签都赋予ID,并过滤空格和特殊字符。
与上述的一种一种医学文本命名实体识别方法相对应,本申请还提供一种设备,包括至少一个存储器和至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现上述任一项所述的一种医学文本命名实体识别方法的步骤。
上述设备中各个组件的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。对于设备实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
与上述的医学文本命名实体识别方法相对应,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述方法的步骤。
本公开可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本申请首先通过引入外部的词典库,令医学文本数据中的每个字符向量与词典库进行匹配生成4个不同的标签词语集,对这4个标签词语集合进行一维特征化,再将其与字符向量进行拼接,得到包含丰富词信息的最终输入向量。本申请通过对输入的字符向量进行词汇增强,并与原始的字符向量进行拼接,形成包含更准确信息的输入向量,保证了字符向量处理的准确度。克服了词级别输入由于分词错误导致的错误传播问题,也改进了单纯字符级别输入缺少词汇信息的缺陷,进一步提高了实体划分能力和实体边界检测能力。其次,在序列编码层使用BiGRU模型,可以在前后两个方向上对信息进行深度特征提取,捕捉长距离依赖,同时具有结构简单以及训练时间短的优点,极大提高医学文本命名实体识别的效率。此外,对于序列编码层的输出,选择采用CRF,对于事先确定的邻近标签依赖,CRF可以对最终输出进行标签校正,改善了标签之间错误相邻的问题,从而得到医学文本最终的实体标签。
应当理解的是,本申请实施例并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请实施例的范围仅由所附的权利要求来限制。以上所述实施例仅表达了本申请实施例的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请实施例构思的前提下,还可以做出若干变形和改进,这些都属于本申请实施例的保护范围。

Claims (10)

1.一种医学文本命名实体识别方法,包括以下步骤:
获取医学文本数据并进行预处理,所述医学文本数据包括字符和对应的标签;
对预处理的所述医学文本数据进行词嵌入得到字符向量,并将所述字符向量与词典库进行标签匹配,得到所述字符向量对应的标签词语集;
将所述标签词语集与所述字符向量拼接,得到包含所述医学文本数据的词汇信息的输入向量;
将所述输入向量输入至训练好的BIGRU模型中,提取深度特征和长距离依赖,得到所述输入向量对应的序列编码;
将所述序列编码输入至训练好的CRF模型中,得到所述序列编码对应的标签,即为命名实体识别的结果。
2.根据权利要求1所述的一种医学文本命名实体识别方法,其特征在于,得到所述字符向量对应的标签词语集后,还包括:
利用BEMS四位序列标注法对所述标签词语集进行分段,得到四个子集,所述子集的构造公式如下:
Figure FDA0003800058760000011
Figure FDA0003800058760000012
Figure FDA0003800058760000013
Figure FDA0003800058760000014
其中,Ci表示字符向量、L表示词典集、B(Ci)表示字符向量在词典集中词语的起始字的子集,M(Ci)表示字符向量在词典集中词语的中间字的子集,E(Ci)表示字符向量在词典集中词语的结束字的子集,S(Ci)表示字符向量在词典集中单独成词的子集。
3.根据权利要求2所述的一种医学文本命名实体识别方法,其特征在于,将所述标签词语集与所述字符向量拼接,得到包含所述医学文本数据的词汇信息的输入向量,包括:
使用权重归一化方法,计算四个所述子集的所有单词:
将四个所述子集合并得到子集向量,并与所述字符向量拼接,得到输入向量。
4.根据权利要求3所述的一种医学文本命名实体识别方法,其特征在于:
所述权重归一化方法为基于统计的静态加权法,计算公式如下:
Figure FDA0003800058760000021
其中,S为标签词语集,z(w)为单词w在标签词语集中出现的频率,Z为标签单词集中所有词语出现的频率之和,ew为词向量矩阵;
输入向量的拼接计算公式如下:
es(B,M,E,S)=[vs(B);vs(M);vs(E);vs(S)]
Figure FDA0003800058760000022
其中,
Figure FDA0003800058760000023
表示字符c拼接前的对应的字符向量,Xc代表字符c拼接之后对应的字符向量,es(B,M,E,S)表示字符c根据词典集匹配得到的子集静态加权后合并而成的子集向量。
5.根据权利要求1所述的一种医学文本命名实体识别方法,其特征在于,将所述输入向量输入至训练好的BIGRU模型中,提取深度特征和长距离依赖,得到所述输入向量对应的序列编码,计算公式如下:
Figure FDA0003800058760000024
Figure FDA0003800058760000025
Figure FDA0003800058760000026
H={h1,h2,...hn}
其中,
Figure FDA0003800058760000027
Figure FDA0003800058760000028
分别表示在t时刻正向GRU和反向GRU的输出状态、wt和vt表示权重矩阵、bt表示偏置向量、H表示编码序列。
6.根据权利要求1所述的一种医学文本命名实体识别方法,其特征在于,将所述序列编码输入至训练好的CRF模型中,得到所述序列编码对应的标签,包括:
对所述编码序列进行预测,计算相应得分,公式如下:
Figure FDA0003800058760000031
其中,x={x1,x2,...xn}表示为序列编码、y={y1,y2,...yn}作为预测标签序列、
Figure FDA0003800058760000032
为第i个位置输出为yi的概率,
Figure FDA0003800058760000033
表示从yi-1到yi的转移概率矩阵;
利用动态规划算法,输出最高的条件概率标签序列y*
y*=argmaxyScore(x,y)
即得分函数取最大值对应的标签序列为所述序列编码对应的标签,即为命名实体识别的结果。
7.根据权利要求1所述的一种医学文本命名实体识别方法,其特征在于,对所述医学文本数据进行预处理,包括:
对所述医学文本数据中的字符和对应的标签都赋予ID,并过滤空格和特殊字符。
8.一种医学文本命名实体识别装置,其特征在于,包括:
数据获取模块,用于获取医学文本数据并进行预处理,所述医学文本数据包括字符和对应的标签;
嵌入匹配模块,用于对预处理的所述医学文本数据进行词嵌入得到字符向量,并将所述字符向量与词典库进行标签匹配,得到所述字符向量对应的标签词语集;
拼接模块,用于将所述标签词语集与所述字符向量拼接,得到包含所述医学文本数据的词汇信息的输入向量;
编码模块,用于将所述输入向量输入至训练好的BIGRU模型中,提取深度特征和长距离依赖,得到所述输入向量对应的序列编码;
识别模块,用于将所述序列编码输入至训练好的CRF模型中,得到所述序列编码对应的标签,即为命名实体识别的结果。
9.一种设备,其特征在于,包括:
至少一个存储器和至少一个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1至7任一项所述的一种医学文本命名实体识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:
所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
CN202210979993.6A 2022-08-16 2022-08-16 一种医学文本命名实体识别方法、装置、设备及存储介质 Pending CN115455969A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210979993.6A CN115455969A (zh) 2022-08-16 2022-08-16 一种医学文本命名实体识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210979993.6A CN115455969A (zh) 2022-08-16 2022-08-16 一种医学文本命名实体识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115455969A true CN115455969A (zh) 2022-12-09

Family

ID=84297659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210979993.6A Pending CN115455969A (zh) 2022-08-16 2022-08-16 一种医学文本命名实体识别方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115455969A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663549A (zh) * 2023-05-18 2023-08-29 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116663549A (zh) * 2023-05-18 2023-08-29 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质
CN116663549B (zh) * 2023-05-18 2024-03-19 海南科技职业大学 一种基于企业档案的数字化管理方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN112001177A (zh) 融合深度学习与规则的电子病历命名实体识别方法及系统
US11860684B2 (en) Few-shot named-entity recognition
CN111613341B (zh) 基于语义成分的实体链接方法及装置
CN113268586A (zh) 文本摘要生成方法、装置、设备及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN114021582B (zh) 结合语音信息的口语理解方法、装置、设备及存储介质
CN111104800B (zh) 一种实体识别方法、装置、设备、存储介质和程序产品
CN113657098B (zh) 文本纠错方法、装置、设备及存储介质
CN115455969A (zh) 一种医学文本命名实体识别方法、装置、设备及存储介质
CN111158692A (zh) 智能合约函数相似性的排序方法、系统和存储介质
CN113254814A (zh) 网络课程视频打标签方法、装置、电子设备及介质
CN116450829A (zh) 医疗文本分类方法、装置、设备及介质
CN115687576A (zh) 一种主题约束表示的关键词抽取方法及装置
CN110909546B (zh) 一种文本数据的处理方法、装置、设备及介质
CN111159978B (zh) 一种字符串的替换处理方法及装置
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN113342977A (zh) 发票图像分类方法、装置、设备及存储介质
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
CN113158656B (zh) 讽刺内容识别方法、装置、电子设备以及存储介质
CN112530534B (zh) 一种基于电子病历的主题癌症分期的判别方法及系统
CN108052508B (zh) 一种信息抽取方法及装置
Thareja et al. Auto-req: Automatic detection of pre-requisite dependencies between academic videos
CN115618019A (zh) 知识图谱构建方法、装置及终端设备
CN114372467A (zh) 命名实体抽取方法及装置、电子设备、存储介质
CN116702780A (zh) 中文命名实体识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination