CN114927177A - 一种融合中文医疗领域特征的医疗实体识别方法及系统 - Google Patents
一种融合中文医疗领域特征的医疗实体识别方法及系统 Download PDFInfo
- Publication number
- CN114927177A CN114927177A CN202210592403.4A CN202210592403A CN114927177A CN 114927177 A CN114927177 A CN 114927177A CN 202210592403 A CN202210592403 A CN 202210592403A CN 114927177 A CN114927177 A CN 114927177A
- Authority
- CN
- China
- Prior art keywords
- text
- chinese
- medical
- dictionary
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 239000003814 drug Substances 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 239000013598 vector Substances 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000000605 extraction Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013480 data collection Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 230000009193 crawling Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims description 2
- 238000005406 washing Methods 0.000 claims 1
- 229940079593 drug Drugs 0.000 abstract description 4
- 230000002457 bidirectional effect Effects 0.000 abstract description 2
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 239000000463 material Substances 0.000 description 3
- 208000024891 symptom Diseases 0.000 description 3
- 208000007565 gingivitis Diseases 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000037358 bacterial metabolism Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Toxicology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Machine Translation (AREA)
Abstract
一种融合中文医疗领域特征的医疗实体识别方法,基于特定领域知识识别药品说明书中的实体,所述方法包括步骤:S1:收集中文药品说明书并进行文本预处理;S2:利用图卷积网络提取文本序列词级别的特征,其中节点的特征考虑了字音、字形以及字典的特征;S3:提取文本序列字级别的特征,并融合词级别的特征;S4:采用双向LSTM学习文本的序列特征,经过解码层得到汉字的序列标签,将标签进行组合,完成实体识别的任务。本发明充分全面地捕捉到汉字字音字形的特征,以词级别的粒度融入到实体识别的模型中,提高了医疗实体识别的精度。
Description
技术领域
本发明涉及中文命名实体识别领域,更具体地说,涉及一种融合中文医疗领域特征的医疗实体识别方法及系统。
背景技术
随着信息时代的到来,信息数据以指数形式爆炸增长,且模态多样化。多数的信息属于非结构或半结构数据,无法被计算机系统直接利用构建知识图谱。人们在获取信息的过程中存在信息过载、资源迷向等问题,因此,如何快速简洁地提取有效的信息变得愈加重要。
在这种背景下,信息抽取技术应运而生,旨在从大规模非结构或半结构的自然语言文本中抽取结构化信息,信息抽取的主要目的是从自然语言文本中抽取指定的实体、关系和事件。实体识别是关系抽取和事件抽取的基础,实体识别也可以称为实体抽取,是自然语言处理中的一项基础任务,应用非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。
实体识别在英文领域已经取得了不错的成果,英文数据集句子中的单词通过空格自然分开便于后续的研究工作,但在中文领域的实体识别还处在不成熟的阶段,汉语中比较特殊生僻的字符以及分词的问题给实体识别任务带来了一定的挑战,在正确识别实体边界的同时,也要确保实体的类型也标注正确。随着深度学习的发展,神经网络成为了有效处理这类问题的模型,将实体识别任务转化成序列标注的任务,用神经网络自动提取特征,并预测序列的标签。
将实体识别运用在医疗领域,包括识别中文药品说明书中的实体,一般包括药品、疾病、症状、药物成分、性状等,提取药品说明书中的关键信息,使得人们能够快速简洁地提取有效的信息,同时方便后续的工作,例如知识图谱的构建、知识推理、知识问答等。
发明内容
本发明的目的在于提供了一种融合中文医疗领域特征的医疗实体识别方法及系统。本发明结合了文本字级别的特征和词级别的特征,能够对中文药品说明书中的实体进行识别。
本发明是针对医疗领域的中文药品说明书,提供了一种识别医疗实体的新思路。不再局限于单个汉字的特征对汉字进行标注,提出了一种基于语义依存关系的医疗实体识别模型,不仅考虑了单个汉字的特征,同时融入了词汇的特征,在利用图卷积神经网络提取词汇特征的过程中,考虑了汉字字音、字形以及字典的特征。
本发明的一种融合中文医疗领域特征的医疗实体识别方法,包括如下步骤:
S1:对中文药品说明书进行文本预处理操作,包括对说明书文本进行预清洗和文本的切分处理;
S2:输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,采用图卷积神经网络提取文本词级别的特征,其中输入图卷积神经网络的特征融合中文医疗领域字音、字形、字典的特征;
S3:采用预训练模型提取医疗文本字级别的特征;
S4:采用基于双向LSTM和CRF的实体识别模型,输入特征融合步骤S2中的文本词级别特征和步骤S3中的文本字级别特征,实现药品说明书中的实体识别的任务。
优选地,所述步骤S1具体包括:
对文本的预处理操作包括文本的预清洗和文本的切分处理,对说明书文本中的无效字符进行过滤,针对说明书文本篇幅长的问题,采用两级文本切分的策略,根据文本之间特定的分隔符进行切分,切分后的句子过短则合并短句子,使得合并后的句子长度不超过设置的句子最大长度。
优选地,所述步骤S2具体包括:
所述的语义依存关系网络图中的词汇之间的语义依存关系,包括当事关系、受事关系、客事关系等;
S2.2:基于步骤S2.1构造的语义依存关系网络图,构建邻接矩阵采用以下公式对邻接矩阵进行卷积操作,对于输入图卷积神经网络的节点特征,融合了中文医疗领域字音、字形、字典的特征,字音通过拼音的声母、韵母、声调进行编码,字形通过汉字的部首信息和其余部分进行编码,医疗实体部首大多包含“月”、“疒”等,相同的偏旁部首可能代表医疗实体中的一类实体,对部首进行单独的编码可以更好地识别实体,字典信息根据医疗领域词典,采用N-gram语言模型描述医疗实体这类由字构成的词;
获取汉字的拼音,将拼音划分为声母、韵母、声调三个部分,通过拼音的声母、韵母、声调来编码汉字的拼音;
统计汉字的部首信息和获取汉字的笔画顺序信息,构建字典Dr和Ds,根据汉字的结构拆分成两个部分,通过两个部分对汉字的形状进行编码,如果有部分在部首字典Dr中,取该部首的one-hot编码Xsr,其余的部分按照笔画进行编码,任何一个汉字都可以由横、竖、撇、捺、折、点的线性组合表示,根据Ds,获取汉字剩余笔画的编码Xss;
其中,concat(·)表示将括号中的向量进行拼接;
根据N-gram特征模板和医疗领域词典,获取字典向量。
进一步地,输入图卷积神经网络的节点特征可表示为:
聚合不同词汇之间的特征:
优选地,所述步骤S3具体包括:
优选地,所述步骤S4具体包括:
将步骤S2、S3中获得的文本词级别特征和文本字级别特征进行融合,具体公式如下:
其中,P表示BiLSTM提取的语义特征矩阵,Pij表示把第i个汉字分类至第j个标签的分数,A表示转移概率矩阵,Aij表示标注序列从第i个标签转移到第j个标签的概率,y=(y1,y2,…,yn)为句子的标签序列;
所有可能的标签序列的概率可表示为:
用以下最大似然函数对模型进行训练直至模型收敛:
一种融合中文医疗领域特征的医疗实体识别系统,包括依次连接的数据收集处理模块、特征提取模块、序列标注识别模块;
所述数据收集处理模块,用于爬取药品相关数据,收集中文药品说明书,并对文本数据进行预处理操作,具体包括:文本的预清洗和文本的切分处理;
所述特征提取模块,用于提取并融合文本词级别的特征和字级别的特征,具体包括:数据收集处理模块输出的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,节点的特征加入了字音字形和字典的特征,再通过图卷积神经网络获得词级别的特征,融合通过预训练模型BERT获得的字级别的特征;
所述序列标注识别模块,采用基于BiLSTM和CRF的实体识别模型,对文本的特征进行学习,进行序列标注,并组合标签,进而实现实体识别的任务。
本发明的优点是,与现有技术相比,本申请的技术方案的有益效果是:融合了文本字级别的特征和词级别的特征,在提取词汇级别的特征时,考虑到了汉字字音、字形以及字典的特征,充分挖掘了汉字的特征,从而更形象地表征了汉字的信息,以词级别的粒度融入到实体识别的模型中,提高了医疗实体识别的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的框架图;
图2为本发明的总流程图;
图3为本发明的系统结构示意图。
具体实施方式
现详细说明本发明的多种示例性实施方式,该详细说明不应认为是对本发明的限制,而应理解为是对本发明的某些方面、特性和实施方案的更详细的描述。
应理解本发明中所述的术语仅仅是为描述特别的实施方式,并非用于限制本发明。另外,对于本发明中的数值范围,应理解为还具体公开了该范围的上限和下限之间的每个中间值。在任何陈述值或陈述范围内的中间值以及任何其他陈述值或在所述范围内的中间值之间的每个较小的范围也包括在本发明内。这些较小范围的上限和下限可独立地包括或排除在范围内。
除非另有说明,否则本文使用的所有技术和科学术语具有本发明所述领域的常规技术人员通常理解的相同含义。虽然本发明仅描述了优选的方法和材料,但是在本发明的实施或测试中也可以使用与本文所述相似或等同的任何方法和材料。本说明书中提到的所有文献通过引用并入,用以公开和描述与所述文献相关的方法和/或材料。在与任何并入的文献冲突时,以本说明书的内容为准。
在不背离本发明的范围或精神的情况下,可对本发明说明书的具体实施方式做多种改进和变化,这对本领域技术人员而言是显而易见的。由本发明的说明书得到的其他实施方式对技术人员而言是显而易见得的。本申请说明书和实施例仅是示例性的。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
本发明中所述的“份”如无特别说明,均按质量份计。
本发明提供一种融合中文医疗领域特征的医疗实体识别方法,如图1所示,包括以下步骤:
步骤S1:对中文药品说明书进行文本预处理操作,包括对说明书文本进行预清洗和文本的切分处理;
具体为:爬取药品相关数据,收集中文药品说明书,对说明书文本中的无效字符进行过滤,针对说明书文本篇幅长的问题,采用两级文本切分的策略,根据文本之间特定的分隔符进行切分,切分后的句子过短则合并短句子,使得合并后的句子长度不超过设置的句子最大长度;
文本之间特定的分隔符包括句号、换行符等。
步骤S2:输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,采用图卷积神经网络模型提取文本词级别的特征;
其中,对于输入图卷积神经网络的节点特征,融合了中文医疗领域字音、字形、字典的特征,能够更加完整地表示药品说明书中汉字的信息,具体包括:
利用python中的pypinyin模块获取汉字的拼音,将拼音划分为声母、韵母、声调三个部分,通过拼音的声母、韵母、声调来编码汉字的拼音;
向量位置 | 对应的含义 |
1-23 | 汉字拼音的声母 |
24-47 | 汉字拼音的韵母 |
48-52 | 汉字拼音的声调 |
参考新华字典,统计汉字的部首信息和获取汉字的笔画顺序信息,构建字典Dr和Ds,根据汉字的结构拆分成两个部分,通过两个部分对汉字的形状进行编码。
如果有部分在部首字典Dr中,取该部首的one-hot编码Xsr,(d=53),其余的部分按照笔画进行编码,任何一个汉字都可以由横、竖、撇、捺、折、点的线性组合表示,根据Ds,获取汉字剩余笔画的编码Xss;
其中,concat(·)表示将括号中的向量进行拼接;
根据N-gram特征模板,获取字典向量;
N-gram特征模板类型如下:
类型 | 模板 |
2-gram | x<sub>i-1</sub>x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub> |
3-gram | x<sub>i-2</sub>x<sub>i-1</sub>x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub>x<sub>i+2</sub> |
4-gram | x<sub>i-3</sub>x<sub>i-2</sub>x<sub>i-1</sub>x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub>x<sub>i+2</sub>x<sub>i+3</sub> |
5-gram | x<sub>i-4</sub>x<sub>i-3</sub>x<sub>i-2</sub>x<sub>i-1</sub>x<sub>i</sub>,x<sub>i</sub>x<sub>i+1</sub>x<sub>i+2</sub>x<sub>i+3</sub>x<sub>i+4</sub> |
在一些实施例中,例如需要获得“为抗厌氧菌药,用于牙龈炎,有阻碍细菌代谢作用”中“牙”的字典向量,通过N-gram特征模板对“牙”进行特征提取,具体过程如下:
“牙龈炎”是字典中的词语,那么“牙”的字典向量可表示为Xd=[0,0,0,1,0,0,0,0]。
进一步地,从命名实体识别的角度,可以将实体的标签也加入到字典向量中。识别中文药品说明书中的实体,包括药品(M)、疾病(D)、症状(S)、药物成分(C)、性状(N)等实体。
“牙”的字典向量可表示为40维的向量Xd=[…,0,0,0,0,1,…],其中第18位为1,其余位为0。
输入图卷积神经网络的节点特征可表示为:
步骤S3:采用BERT预训练模型提取医疗文本字级别的特征;
步骤S4:采用基于双向LSTM和CRF的实体识别模型,输入特征融合步骤S2中的文本词级别特征和步骤S3中的文本字级别特征,实现药品说明书中的实体识别的任务;
具体包括:融合文本词级别特征和字级别特征,
其中,P表示BiLSTM提取的语义特征矩阵,Pij表示把第i个汉字分类至第j个标签的分数,A表示转移概率矩阵,Aij表示标注序列从第i个标签转移到第j个标签的概率,y=(y1,y2,…,yn)为句子的标签序列。
在一些实施例中,标签的种类包括药品实体的标签B-Med、I-Med,疾病实体的标签B-Dis、I-Dis,症状实体的标签B-Sym、I-Sym,药物成分实体的标签B-Com、I-Com,性状实体的标签B-Nat、I-Nat等。所有可能的标签序列的概率可表示为:
用以下最大似然函数对模型进行训练直至模型收敛:
所述数据收集处理模块,用于爬取药品相关数据,收集中文药品说明书,并对文本数据进行预处理操作,具体包括:对文本的预清洗,包括对说明书文本中的无效字符进行过滤,对文本进行切分处理,主要针对说明书文本篇幅长的问题,采用两级文本切分的策略,根据文本之间特定的分隔符进行切分,切分后的句子过短则合并短句子,使得合并后的句子长度不超过设置的句子最大长度;
所述特征提取模块,用于提取并融合文本词级别的特征和字级别的特征,具体包括:数据收集处理模块输出的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,节点的特征加入了字音字形和字典的特征,再通过图卷积神经网络获得词级别的特征,融合通过预训练模型BERT获得的字级别的特征;
所述序列标注识别模块,采用基于BiLSTM和CRF的实体识别模型,对文本的特征进行学习,进行序列标注,并组合标签,进而实现实体识别的任务。
以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。
Claims (8)
1.一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,包括如下步骤:
S1:对中文药品说明书进行文本预处理操作,包括对说明书文本进行预清洗和文本的切分处理;
S2:输入的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,采用图卷积神经网络提取文本词级别的特征,其中输入图卷积神经网络的特征融合中文医疗领域字音、字形、字典的特征;
S3:采用预训练模型提取医疗文本字级别的特征。
S4:采用基于双向LSTM和CRF的实体识别模型,输入特征融合步骤S2中的文本词级别特征和步骤S3中的文本字级别特征,实现药品说明书中的实体识别的任务。
2.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,所述步骤S1中,对文本的预处理操作包括文本的预清洗和文本的切分处理,对说明书文本中的无效字符进行过滤,针对说明书文本篇幅长的问题,采用两级文本切分的策略,根据文本之间特定的分隔符进行切分,切分后的句子过短则合并短句子,使得合并后的句子长度不超过设置的句子最大长度。
3.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,所述步骤S2具体包括:
S2.2:基于步骤S2.1构造的语义依存关系网络图,构建邻接矩阵采用以下公式对邻接矩阵进行卷积操作,对于输入图卷积神经网络的节点特征,融合了中文医疗领域字音、字形、字典的特征,字音通过拼音的声母、韵母、声调进行编码,字形通过汉字的部首信息和其余部分进行编码,医疗实体部首大多包含“月”、“疒”等,相同的偏旁部首可能代表医疗实体中的一类实体,对部首进行单独的编码可以更好地识别实体,字典信息根据医疗领域词典,采用N-gram语言模型描述医疗实体这类由字构成的词;
获取汉字的拼音,将拼音划分为声母、韵母、声调三个部分,通过拼音的声母、韵母、声调来编码汉字的拼音;
统计汉字的部首信息和获取汉字的笔画顺序信息,构建字典Dr和Ds,根据汉字的结构拆分成两个部分,通过两个部分对汉字的形状进行编码,如果有部分在部首字典Dr中,取该部首的one-hot编码Xsr,其余的部分按照笔画进行编码,任何一个汉字都可以由横、竖、撇、捺、折、点的线性组合表示,根据Ds,获取汉字剩余笔画的编码Xss;
其中,concat(·)表示将括号中的向量进行拼接;
根据N-gram特征模板和医疗领域词典,获取字典向量。
5.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,所述步骤S2中,所述的语义依存关系网络图中的词汇之间的语义依存关系,包括当事关系、受事关系、客事关系等。
7.如权利要求1所述的一种融合中文医疗领域特征的医疗实体识别方法,其特征在于,所述步骤S4中,将步骤S2、S3中获得的文本词级别特征和文本字级别特征进行融合,具体公式如下:
其中,P表示BiLSTM提取的语义特征矩阵,Pij表示把第i个汉字分类至第j个标签的分数,A表示转移概率矩阵,Aij表示标注序列从第i个标签转移到第j个标签的概率,y=(y1,y2,···,yn)为句子的标签序列;
所有可能的标签序列的概率可表示为:
用以下最大似然函数对模型进行训练直至模型收敛:
8.一种融合中文医疗领域特征的医疗实体识别系统,其特征在于:包括依次连接的数据收集处理模块、特征提取模块、序列标注识别模块;
所述数据收集处理模块,用于爬取药品相关数据,收集中文药品说明书,并对文本数据进行预处理操作,具体包括:文本的预清洗和文本的切分处理;
所述特征提取模块,用于提取并融合文本词级别的特征和字级别的特征,具体包括:数据收集处理模块输出的句子通过中文语义分析工具得到语义依存关系,构造语义依存关系网络图,节点的特征加入了字音字形和字典的特征,再通过图卷积神经网络图卷积神经网络获得词级别的特征,融合通过预训练模型BERT获得的字级别的特征;
所述序列标注识别模块,采用基于BiLSTM和CRF的实体识别模型,对文本的特征进行学习,进行序列标注,并组合标签,进而实现实体识别的任务。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210592403.4A CN114927177B (zh) | 2022-05-27 | 2022-05-27 | 一种融合中文医疗领域特征的医疗实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210592403.4A CN114927177B (zh) | 2022-05-27 | 2022-05-27 | 一种融合中文医疗领域特征的医疗实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114927177A true CN114927177A (zh) | 2022-08-19 |
CN114927177B CN114927177B (zh) | 2024-06-11 |
Family
ID=82811206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210592403.4A Active CN114927177B (zh) | 2022-05-27 | 2022-05-27 | 一种融合中文医疗领域特征的医疗实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114927177B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146644A (zh) * | 2022-09-01 | 2022-10-04 | 北京航空航天大学 | 一种面向警情文本的多特征融合命名实体识别方法 |
CN115270803A (zh) * | 2022-09-30 | 2022-11-01 | 北京道达天际科技股份有限公司 | 基于BERT并融合N-gram特征的实体抽取方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN111476036A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于中文单词特征子串的词嵌入学习方法 |
CN113239186A (zh) * | 2021-02-26 | 2021-08-10 | 中国科学院电子学研究所苏州研究院 | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 |
CN113990421A (zh) * | 2021-10-19 | 2022-01-28 | 徐州医科大学 | 一种基于数据增强的电子病历命名实体识别方法 |
-
2022
- 2022-05-27 CN CN202210592403.4A patent/CN114927177B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977361A (zh) * | 2017-12-06 | 2018-05-01 | 哈尔滨工业大学深圳研究生院 | 基于深度语义信息表示的中文临床医疗实体识别方法 |
CN111476036A (zh) * | 2020-04-10 | 2020-07-31 | 电子科技大学 | 一种基于中文单词特征子串的词嵌入学习方法 |
CN113239186A (zh) * | 2021-02-26 | 2021-08-10 | 中国科学院电子学研究所苏州研究院 | 一种基于多依存关系表示机制的图卷积网络关系抽取方法 |
CN113990421A (zh) * | 2021-10-19 | 2022-01-28 | 徐州医科大学 | 一种基于数据增强的电子病历命名实体识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115146644A (zh) * | 2022-09-01 | 2022-10-04 | 北京航空航天大学 | 一种面向警情文本的多特征融合命名实体识别方法 |
CN115270803A (zh) * | 2022-09-30 | 2022-11-01 | 北京道达天际科技股份有限公司 | 基于BERT并融合N-gram特征的实体抽取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114927177B (zh) | 2024-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135457B (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
CN111274806B (zh) | 分词和词性识别方法、装置及电子病历的分析方法、装置 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
WO2018028077A1 (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
Palmer et al. | Adaptive multilingual sentence boundary disambiguation | |
US8131539B2 (en) | Search-based word segmentation method and device for language without word boundary tag | |
CN112002411A (zh) | 一种基于电子病历的心脑血管病知识图谱问答方法 | |
US20070219777A1 (en) | Identifying language origin of words | |
CN112541356B (zh) | 一种生物医学命名实体识别的方法和系统 | |
JPH05189481A (ja) | 翻訳用コンピュータ操作方法、字句モデル生成方法、モデル生成方法、翻訳用コンピュータシステム、字句モデル生成コンピュータシステム及びモデル生成コンピュータシステム | |
CN114927177A (zh) | 一种融合中文医疗领域特征的医疗实体识别方法及系统 | |
JP2008504605A (ja) | 非ローマ文字および単語のスペル修正のためのシステムおよび方法 | |
CN111832293B (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
Baldridge et al. | Probabilistic head-driven parsing for discourse structure | |
CN114153971B (zh) | 一种含错中文文本纠错识别分类设备 | |
CN111460175A (zh) | 一种基于snomed-ct的医学名词词典构造与拓展方法 | |
CN114528919A (zh) | 自然语言处理方法、装置及计算机设备 | |
Warjri et al. | Identification of pos tag for khasi language based on hidden markov model pos tagger | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN109815497B (zh) | 基于句法依存的人物属性抽取方法 | |
Johnson et al. | Synergies in learning words and their referents | |
CN113486657B (zh) | 一种基于知识辅助的情感-原因对抽取系统 | |
Sen et al. | Bangla natural language processing: A comprehensive review of classical machine learning and deep learning based methods | |
CN116483314A (zh) | 一种自动化智能活动图生成方法 | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |