CN114927177A - 一种融合中文医疗领域特征的医疗实体识别方法及系统 - Google Patents

一种融合中文医疗领域特征的医疗实体识别方法及系统 Download PDF

Info

Publication number
CN114927177A
CN114927177A CN202210592403.4A CN202210592403A CN114927177A CN 114927177 A CN114927177 A CN 114927177A CN 202210592403 A CN202210592403 A CN 202210592403A CN 114927177 A CN114927177 A CN 114927177A
Authority
CN
China
Prior art keywords
text
chinese
medical
dictionary
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210592403.4A
Other languages
English (en)
Inventor
俞山青
章诗涵
金士博
张建林
宣琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210592403.4A priority Critical patent/CN114927177A/zh
Publication of CN114927177A publication Critical patent/CN114927177A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Epidemiology (AREA)
  • Toxicology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medicinal Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Machine Translation (AREA)

Abstract

一种融合中文医疗领域特征的医疗实体识别方法,基于特定领域知识识别药品说明书中的实体,所述方法包括步骤:S1:收集中文药品说明书并进行文本预处理;S2:利用图卷积网络提取文本序列词级别的特征,其中节点的特征考虑了字音、字形以及字典的特征;S3:提取文本序列字级别的特征,并融合词级别的特征;S4:采用双向LSTM学习文本的序列特征,经过解码层得到汉字的序列标签,将标签进行组合,完成实体识别的任务。本发明充分全面地捕捉到汉字字音字形的特征,以词级别的粒度融入到实体识别的模型中,提高了医疗实体识别的精度。

Description

一种融合中文医疗领域特征的医疗实体识别方法及系统
技术领域
本发明涉及中文命名实体识别领域,更具体地说,涉及一种融合中文医疗领域特征的医疗实体识别方法及系统。
背景技术
随着信息时代的到来,信息数据以指数形式爆炸增长,且模态多样化。多数的信息属于非结构或半结构数据,无法被计算机系统直接利用构建知识图谱。人们在获取信息的过程中存在信息过载、资源迷向等问题,因此,如何快速简洁地提取有效的信息变得愈加重要。
在这种背景下,信息抽取技术应运而生,旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息,信息抽取的主要目的是从自然语言文本中抽取指定的实体、关系和事件。实体识别是关系抽取和事件抽取的基础,实体识别也可以称为实体抽取,是自然语言处理中的一项基础任务,应用非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。
实体识别在英文领域已经取得了不错的成果,英文数据集句子中的单词通过空格自然分开便于后续的研究工作,但在中文领域的实体识别还处在不成熟的阶段,汉语中比较特殊生僻的字符以及分词的问题给实体识别任务带来了一定的挑战,在正确识别实体边界的同时,也要确保实体的类型也标注正确。随着深度学习的发展,神经网络成为了有效处理这类问题的模型,将实体识别任务转化成序列标注的任务,用神经网络自动提取特征,并预测序列的标签。
将实体识别运用在医疗领域,包括识别中文药品说明书中的实体,一般包括药品、疾病、症状、药物成分、性状等,提取药品说明书中的关键信息,使得人们能够快速简洁地提取有效的信息,同时方便后续的工作,例如知识图谱的构建、知识推理、知识问答等。
发明内容
本发明的目的在于提供了一种融合中文医疗领域特征的医疗实体识别方法及系统。本发明结合了文本字级别的特征和词级别的特征,能够对中文药品说明书中的实体进行识别。
本发明是针对医疗领域的中文药品说明书,提供了一种识别医疗实体的新思路。不再局限于单个汉字的特征对汉字进行标注,提出了一种基于语义依存关系的医疗实体识别模型,不仅考虑了单个汉字的特征,同时融入了词汇的特征,在利用图卷积神经网络提取词汇特征的过程中,考虑了汉字字音、字形以及字典的特征。
本发明的一种融合中文医疗领域特征的医疗实体识别方法,包括如下步骤:
S1:对中文药品说明书进行文本预处理操作,包括对说明书文本进行预清洗和文本的切分处理;
S2:输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,采用图卷积神经网络提取文本词级别的特征,其中输入图卷积神经网络的特征融合中文医疗领域字音、字形、字典的特征;
S3:采用预训练模型提取医疗文本字级别的特征;
S4:采用基于双向LSTM和CRF的实体识别模型,输入特征融合步骤S2中的文本词级别特征和步骤S3中的文本字级别特征,实现药品说明书中的实体识别的任务。
优选地,所述步骤S1具体包括:
对文本的预处理操作包括文本的预清洗和文本的切分处理,对说明书文本中的无效字符进行过滤,针对说明书文本篇幅长的问题,采用两级文本切分的策略,根据文本之间特定的分隔符进行切分,切分后的句子过短则合并短句子,使得合并后的句子长度不超过设置的句子最大长度。
优选地,所述步骤S2具体包括:
S2.1:输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图
Figure BDA0003665957410000031
其中V表示的是句子中的词汇节点,E表示的是词汇之间的语义依存关系;
所述的语义依存关系网络图中的词汇之间的语义依存关系,包括当事关系、受事关系、客事关系等;
S2.2:基于步骤S2.1构造的语义依存关系网络图,构建邻接矩阵
Figure BDA0003665957410000032
采用以下公式对邻接矩阵
Figure BDA0003665957410000033
进行卷积操作,对于输入图卷积神经网络的节点特征,融合了中文医疗领域字音、字形、字典的特征,字音通过拼音的声母、韵母、声调进行编码,字形通过汉字的部首信息和其余部分进行编码,医疗实体部首大多包含“月”、“疒”等,相同的偏旁部首可能代表医疗实体中的一类实体,对部首进行单独的编码可以更好地识别实体,字典信息根据医疗领域词典,采用N-gram语言模型描述医疗实体这类由字构成的词;
1)字音向量
Figure BDA0003665957410000041
具体为:
获取汉字的拼音,将拼音划分为声母、韵母、声调三个部分,通过拼音的声母、韵母、声调来编码汉字的拼音;
2)字形向量
Figure BDA0003665957410000042
具体为:
统计汉字的部首信息和获取汉字的笔画顺序信息,构建字典Dr和Ds,根据汉字的结构拆分成两个部分,通过两个部分对汉字的形状进行编码,如果有部分在部首字典Dr中,取该部首的one-hot编码Xsr,其余的部分按照笔画进行编码,任何一个汉字都可以由横、竖、撇、捺、折、点的线性组合表示,根据Ds,获取汉字剩余笔画的编码Xss
Figure BDA0003665957410000043
其中,concat(·)表示将括号中的向量进行拼接;
3)字典向量
Figure BDA0003665957410000044
具体为:
根据N-gram特征模板和医疗领域词典,获取字典向量。
进一步地,输入图卷积神经网络的节点特征可表示为:
Figure BDA0003665957410000045
聚合不同词汇之间的特征:
Figure BDA0003665957410000046
Figure BDA0003665957410000047
Figure BDA0003665957410000048
其中,
Figure BDA0003665957410000049
表示第l层图卷积操作输出的词汇节点的特征表示,W(l),b(l)表示网络学习的参数,σ(·)表示激活函数,D表示
Figure BDA0003665957410000051
对应的度矩阵,IN表示单位矩阵。
优选地,所述步骤S3具体包括:
使用预训练模型BERT把输入的文本信息中的字嵌入成字向量
Figure BDA0003665957410000052
优选地,所述步骤S4具体包括:
将步骤S2、S3中获得的文本词级别特征和文本字级别特征进行融合,具体公式如下:
Figure BDA0003665957410000053
将融合后的特征向量
Figure BDA0003665957410000054
作为BiLSTM的输入,正向LSTM输出
Figure BDA0003665957410000055
与反向LSTM输出
Figure BDA0003665957410000056
依次拼接为
Figure BDA0003665957410000057
经过CRF模型得到标签序列的得分score,具体公式如下:
Figure BDA0003665957410000058
其中,P表示BiLSTM提取的语义特征矩阵,Pij表示把第i个汉字分类至第j个标签的分数,A表示转移概率矩阵,Aij表示标注序列从第i个标签转移到第j个标签的概率,y=(y1,y2,…,yn)为句子的标签序列;
所有可能的标签序列的概率可表示为:
Figure BDA0003665957410000059
用以下最大似然函数对模型进行训练直至模型收敛:
Figure BDA00036659574100000510
一种融合中文医疗领域特征的医疗实体识别系统,包括依次连接的数据收集处理模块、特征提取模块、序列标注识别模块;
所述数据收集处理模块,用于爬取药品相关数据,收集中文药品说明书,并对文本数据进行预处理操作,具体包括:文本的预清洗和文本的切分处理;
所述特征提取模块,用于提取并融合文本词级别的特征和字级别的特征,具体包括:数据收集处理模块输出的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,节点的特征加入了字音字形和字典的特征,再通过图卷积神经网络获得词级别的特征,融合通过预训练模型BERT获得的字级别的特征;
所述序列标注识别模块,采用基于BiLSTM和CRF的实体识别模型,对文本的特征进行学习,进行序列标注,并组合标签,进而实现实体识别的任务。
本发明的优点是,与现有技术相比,本申请的技术方案的有益效果是:融合了文本字级别的特征和词级别的特征,在提取词汇级别的特征时,考虑到了汉字字音、字形以及字典的特征,充分挖掘了汉字的特征,从而更形象地表征了汉字的信息,以词级别的粒度融入到实体识别的模型中,提高了医疗实体识别的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的框架图;
图2为本发明的总流程图;
图3为本发明的系统结构示意图。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。
在不背离本发明的范围或精神的情况下,可对本发明说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
本发明中所述的“份”如无特别说明,均按质量份计。
本发明提供一种融合中文医疗领域特征的医疗实体识别方法,如图1所示,包括以下步骤:
步骤S1:对中文药品说明书进行文本预处理操作,包括对说明书文本进行预清洗和文本的切分处理;
具体为:爬取药品相关数据,收集中文药品说明书,对说明书文本中的无效字符进行过滤,针对说明书文本篇幅长的问题,采用两级文本切分的策略,根据文本之间特定的分隔符进行切分,切分后的句子过短则合并短句子,使得合并后的句子长度不超过设置的句子最大长度;
文本之间特定的分隔符包括句号、换行符等。
步骤S2:输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,采用图卷积神经网络模型提取文本词级别的特征;
输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图
Figure BDA0003665957410000081
其中V表示的是句子中的词汇节点,E表示的是词汇之间的语义依存关系。
其中,对于输入图卷积神经网络的节点特征,融合了中文医疗领域字音、字形、字典的特征,能够更加完整地表示药品说明书中汉字的信息,具体包括:
1)字音向量
Figure BDA0003665957410000091
具体为:
利用python中的pypinyin模块获取汉字的拼音,将拼音划分为声母、韵母、声调三个部分,通过拼音的声母、韵母、声调来编码汉字的拼音;
字音向量
Figure BDA0003665957410000092
由长度为52位的向量组成,通过one-hot编码生成embedding;
字音向量
Figure BDA0003665957410000093
具体组成如下:
向量位置 对应的含义
1-23 汉字拼音的声母
24-47 汉字拼音的韵母
48-52 汉字拼音的声调
2)字形向量
Figure BDA0003665957410000094
具体为:
参考新华字典,统计汉字的部首信息和获取汉字的笔画顺序信息,构建字典Dr和Ds,根据汉字的结构拆分成两个部分,通过两个部分对汉字的形状进行编码。
如果有部分在部首字典Dr中,取该部首的one-hot编码Xsr
Figure BDA0003665957410000095
(d=53),其余的部分按照笔画进行编码,任何一个汉字都可以由横、竖、撇、捺、折、点的线性组合表示,根据Ds,获取汉字剩余笔画的编码Xss
Figure BDA0003665957410000096
其中,concat(·)表示将括号中的向量进行拼接;
3)字典向量
Figure BDA0003665957410000101
具体为:
根据N-gram特征模板,获取字典向量;
N-gram特征模板类型如下:
类型 模板
2-gram x<sub>i-1</sub>x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub>
3-gram x<sub>i-2</sub>x<sub>i-1</sub>x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub>x<sub>i+2</sub>
4-gram x<sub>i-3</sub>x<sub>i-2</sub>x<sub>i-1</sub>x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub>x<sub>i+2</sub>x<sub>i+3</sub>
5-gram x<sub>i-4</sub>x<sub>i-3</sub>x<sub>i-2</sub>x<sub>i-1</sub>x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub>x<sub>i+2</sub>x<sub>i+3</sub>x<sub>i+4</sub>
在一些实施例中,例如需要获得“为抗厌氧菌药,用于牙龈炎,有阻碍细菌代谢作用”中“牙”的字典向量,通过N-gram特征模板对“牙”进行特征提取,具体过程如下:
Figure BDA0003665957410000102
“牙龈炎”是字典中的词语,那么“牙”的字典向量可表示为Xd=[0,0,0,1,0,0,0,0]。
进一步地,从命名实体识别的角度,可以将实体的标签也加入到字典向量中。识别中文药品说明书中的实体,包括药品(M)、疾病(D)、症状(S)、药物成分(C)、性状(N)等实体。
“牙”的字典向量可表示为40维的向量Xd=[…,0,0,0,0,1,…],其中第18位为1,其余位为0。
Figure BDA0003665957410000111
输入图卷积神经网络的节点特征可表示为:
Figure BDA0003665957410000112
基于构造的语义依存关系网络图,构建邻接矩阵
Figure BDA0003665957410000113
采用以下公式对邻接矩阵
Figure BDA0003665957410000114
进行卷积操作,聚合不同词汇之间的特征:
Figure BDA0003665957410000115
Figure BDA0003665957410000116
Figure BDA0003665957410000117
其中,
Figure BDA0003665957410000118
表示第l层图卷积操作输出的词汇节点的特征表示,W(l),b(l)表示网络学习的参数,σ(·)表示激活函数,D表示
Figure BDA0003665957410000119
对应的度矩阵,IN表示单位矩阵;
步骤S3:采用BERT预训练模型提取医疗文本字级别的特征;
使用预训练模型BERT把输入的文本信息中的字嵌入成字向量
Figure BDA00036659574100001110
步骤S4:采用基于双向LSTM和CRF的实体识别模型,输入特征融合步骤S2中的文本词级别特征和步骤S3中的文本字级别特征,实现药品说明书中的实体识别的任务;
具体包括:融合文本词级别特征和字级别特征,
Figure BDA00036659574100001111
将融合后的特征向量
Figure BDA00036659574100001112
作为BiLSTM的输入,正向LSTM输出
Figure BDA0003665957410000121
与反向LSTM输出
Figure BDA0003665957410000122
依次拼接为
Figure BDA0003665957410000123
经过CRF模型得到标签序列的得分score,具体公式如下:
Figure BDA0003665957410000124
其中,P表示BiLSTM提取的语义特征矩阵,Pij表示把第i个汉字分类至第j个标签的分数,A表示转移概率矩阵,Aij表示标注序列从第i个标签转移到第j个标签的概率,y=(y1,y2,…,yn)为句子的标签序列。
在一些实施例中,标签的种类包括药品实体的标签B-Med、I-Med,疾病实体的标签B-Dis、I-Dis,症状实体的标签B-Sym、I-Sym,药物成分实体的标签B-Com、I-Com,性状实体的标签B-Nat、I-Nat等。所有可能的标签序列的概率可表示为:
Figure BDA0003665957410000125
用以下最大似然函数对模型进行训练直至模型收敛:
Figure BDA0003665957410000126
所述数据收集处理模块,用于爬取药品相关数据,收集中文药品说明书,并对文本数据进行预处理操作,具体包括:对文本的预清洗,包括对说明书文本中的无效字符进行过滤,对文本进行切分处理,主要针对说明书文本篇幅长的问题,采用两级文本切分的策略,根据文本之间特定的分隔符进行切分,切分后的句子过短则合并短句子,使得合并后的句子长度不超过设置的句子最大长度;
所述特征提取模块,用于提取并融合文本词级别的特征和字级别的特征,具体包括:数据收集处理模块输出的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,节点的特征加入了字音字形和字典的特征,再通过图卷积神经网络获得词级别的特征,融合通过预训练模型BERT获得的字级别的特征;
所述序列标注识别模块,采用基于BiLSTM和CRF的实体识别模型,对文本的特征进行学习,进行序列标注,并组合标签,进而实现实体识别的任务。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (8)

1.一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,包括如下步骤:
S1:对中文药品说明书进行文本预处理操作,包括对说明书文本进行预清洗和文本的切分处理;
S2:输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,采用图卷积神经网络提取文本词级别的特征,其中输入图卷积神经网络的特征融合中文医疗领域字音、字形、字典的特征;
S3:采用预训练模型提取医疗文本字级别的特征。
S4:采用基于双向LSTM和CRF的实体识别模型,输入特征融合步骤S2中的文本词级别特征和步骤S3中的文本字级别特征,实现药品说明书中的实体识别的任务。
2.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,所述步骤S1中,对文本的预处理操作包括文本的预清洗和文本的切分处理,对说明书文本中的无效字符进行过滤,针对说明书文本篇幅长的问题,采用两级文本切分的策略,根据文本之间特定的分隔符进行切分,切分后的句子过短则合并短句子,使得合并后的句子长度不超过设置的句子最大长度。
3.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,所述步骤S2具体包括:
S2.1:输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图
Figure FDA0003665957400000011
其中V表示的是句子中的词汇节点,E表示的是词汇之间的语义依存关系;
S2.2:基于步骤S2.1构造的语义依存关系网络图,构建邻接矩阵
Figure FDA0003665957400000022
采用以下公式对邻接矩阵
Figure FDA0003665957400000023
进行卷积操作,对于输入图卷积神经网络的节点特征,融合了中文医疗领域字音、字形、字典的特征,字音通过拼音的声母、韵母、声调进行编码,字形通过汉字的部首信息和其余部分进行编码,医疗实体部首大多包含“月”、“疒”等,相同的偏旁部首可能代表医疗实体中的一类实体,对部首进行单独的编码可以更好地识别实体,字典信息根据医疗领域词典,采用N-gram语言模型描述医疗实体这类由字构成的词;
1)字音向量
Figure FDA0003665957400000024
具体为:
获取汉字的拼音,将拼音划分为声母、韵母、声调三个部分,通过拼音的声母、韵母、声调来编码汉字的拼音;
2)字形向量
Figure FDA0003665957400000025
具体为:
统计汉字的部首信息和获取汉字的笔画顺序信息,构建字典Dr和Ds,根据汉字的结构拆分成两个部分,通过两个部分对汉字的形状进行编码,如果有部分在部首字典Dr中,取该部首的one-hot编码Xsr,其余的部分按照笔画进行编码,任何一个汉字都可以由横、竖、撇、捺、折、点的线性组合表示,根据Ds,获取汉字剩余笔画的编码Xss
Figure FDA0003665957400000021
其中,concat(·)表示将括号中的向量进行拼接;
3)字典向量
Figure FDA0003665957400000026
具体为:
根据N-gram特征模板和医疗领域词典,获取字典向量。
4.如权利要求3所述的一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,步骤S2.2所述的输入图卷积神经网络的节点特征可表示为:
Figure FDA0003665957400000031
聚合不同词汇之间的特征:
Figure FDA0003665957400000032
Figure FDA0003665957400000033
Figure FDA0003665957400000034
其中,
Figure FDA0003665957400000035
表示第l层图卷积操作输出的词汇节点的特征表示,W(l),b(l)表示网络学习的参数,σ(·)表示激活函数,D表示
Figure FDA0003665957400000037
对应的度矩阵,IN表示单位矩阵。
5.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,所述步骤S2中,所述的语义依存关系网络图中的词汇之间的语义依存关系,包括当事关系、受事关系、客事关系等。
6.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,所述步骤S3中,使用预训练模型BERT把输入的文本信息中的字嵌入成字向量
Figure FDA0003665957400000038
7.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,所述步骤S4中,将步骤S2、S3中获得的文本词级别特征和文本字级别特征进行融合,具体公式如下:
Figure FDA0003665957400000036
将融合后的特征向量
Figure FDA0003665957400000044
作为BiLSTM的输入,正向LSTM输出
Figure FDA0003665957400000045
与反向LSTM输出
Figure FDA0003665957400000046
依次拼接为
Figure FDA0003665957400000047
经过CRF模型得到标签序列的得分score,具体公式如下:
Figure FDA0003665957400000041
其中,P表示BiLSTM提取的语义特征矩阵,Pij表示把第i个汉字分类至第j个标签的分数,A表示转移概率矩阵,Aij表示标注序列从第i个标签转移到第j个标签的概率,y=(y1,y2,···,yn)为句子的标签序列;
所有可能的标签序列的概率可表示为:
Figure FDA0003665957400000042
用以下最大似然函数对模型进行训练直至模型收敛:
Figure FDA0003665957400000043
8.一种融合中文医疗领域特征的医疗实体识别系统,其特征在于:包括依次连接的数据收集处理模块、特征提取模块、序列标注识别模块;
所述数据收集处理模块,用于爬取药品相关数据,收集中文药品说明书,并对文本数据进行预处理操作,具体包括:文本的预清洗和文本的切分处理;
所述特征提取模块,用于提取并融合文本词级别的特征和字级别的特征,具体包括:数据收集处理模块输出的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,节点的特征加入了字音字形和字典的特征,再通过图卷积神经网络图卷积神经网络获得词级别的特征,融合通过预训练模型BERT获得的字级别的特征;
所述序列标注识别模块,采用基于BiLSTM和CRF的实体识别模型,对文本的特征进行学习,进行序列标注,并组合标签,进而实现实体识别的任务。
CN202210592403.4A 2022-05-27 2022-05-27 一种融合中文医疗领域特征的医疗实体识别方法及系统 Pending CN114927177A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210592403.4A CN114927177A (zh) 2022-05-27 2022-05-27 一种融合中文医疗领域特征的医疗实体识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210592403.4A CN114927177A (zh) 2022-05-27 2022-05-27 一种融合中文医疗领域特征的医疗实体识别方法及系统

Publications (1)

Publication Number Publication Date
CN114927177A true CN114927177A (zh) 2022-08-19

Family

ID=82811206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210592403.4A Pending CN114927177A (zh) 2022-05-27 2022-05-27 一种融合中文医疗领域特征的医疗实体识别方法及系统

Country Status (1)

Country Link
CN (1) CN114927177A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146644A (zh) * 2022-09-01 2022-10-04 北京航空航天大学 一种面向警情文本的多特征融合命名实体识别方法
CN115270803A (zh) * 2022-09-30 2022-11-01 北京道达天际科技股份有限公司 基于BERT并融合N-gram特征的实体抽取方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN111476036A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于中文单词特征子串的词嵌入学习方法
CN113239186A (zh) * 2021-02-26 2021-08-10 中国科学院电子学研究所苏州研究院 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN113990421A (zh) * 2021-10-19 2022-01-28 徐州医科大学 一种基于数据增强的电子病历命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN111476036A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于中文单词特征子串的词嵌入学习方法
CN113239186A (zh) * 2021-02-26 2021-08-10 中国科学院电子学研究所苏州研究院 一种基于多依存关系表示机制的图卷积网络关系抽取方法
CN113990421A (zh) * 2021-10-19 2022-01-28 徐州医科大学 一种基于数据增强的电子病历命名实体识别方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115146644A (zh) * 2022-09-01 2022-10-04 北京航空航天大学 一种面向警情文本的多特征融合命名实体识别方法
CN115270803A (zh) * 2022-09-30 2022-11-01 北京道达天际科技股份有限公司 基于BERT并融合N-gram特征的实体抽取方法

Similar Documents

Publication Publication Date Title
CN110135457B (zh) 基于自编码器融合文档信息的事件触发词抽取方法及系统
CN111274806B (zh) 分词和词性识别方法、装置及电子病历的分析方法、装置
CN108363743B (zh) 一种智能问题生成方法、装置和计算机可读存储介质
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
Palmer et al. Adaptive multilingual sentence boundary disambiguation
US8131539B2 (en) Search-based word segmentation method and device for language without word boundary tag
US20070219777A1 (en) Identifying language origin of words
JPH05189481A (ja) 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
CN114927177A (zh) 一种融合中文医疗领域特征的医疗实体识别方法及系统
JP2008504605A (ja) 非ローマ文字および単語のスペル修正のためのシステムおよび方法
CN111832293B (zh) 基于头实体预测的实体和关系联合抽取方法
Baldridge et al. Probabilistic head-driven parsing for discourse structure
Sen et al. Bangla natural language processing: A comprehensive analysis of classical, machine learning, and deep learning-based methods
KR101255957B1 (ko) 개체명 태깅 방법 및 장치
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN111460175A (zh) 一种基于snomed-ct的医学名词词典构造与拓展方法
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
Warjri et al. Identification of pos tag for khasi language based on hidden markov model pos tagger
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN109815497B (zh) 基于句法依存的人物属性抽取方法
Johnson et al. Synergies in learning words and their referents
CN113486657B (zh) 一种基于知识辅助的情感-原因对抽取系统
Sen et al. Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods
CN116483314A (zh) 一种自动化智能活动图生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination