CN117933259A - 基于局部文本信息的命名实体识别方法 - Google Patents

基于局部文本信息的命名实体识别方法 Download PDF

Info

Publication number
CN117933259A
CN117933259A CN202410338745.2A CN202410338745A CN117933259A CN 117933259 A CN117933259 A CN 117933259A CN 202410338745 A CN202410338745 A CN 202410338745A CN 117933259 A CN117933259 A CN 117933259A
Authority
CN
China
Prior art keywords
entity
text
vector
feature
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410338745.2A
Other languages
English (en)
Other versions
CN117933259B (zh
Inventor
蒋涛
罗基
许林
张宇浩
张林帅
张鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu University of Traditional Chinese Medicine
Original Assignee
Chengdu University of Traditional Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu University of Traditional Chinese Medicine filed Critical Chengdu University of Traditional Chinese Medicine
Priority to CN202410338745.2A priority Critical patent/CN117933259B/zh
Publication of CN117933259A publication Critical patent/CN117933259A/zh
Application granted granted Critical
Publication of CN117933259B publication Critical patent/CN117933259B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于局部文本信息的命名实体识别方法,涉及命名实体识别领域,包括:S1、通过对待识别的文本进行数据预处理,得到待识别数据集;S2、将待识别的数据集输入经过训练的命名实体识别模型,完成对实体及其实体分类的识别;所述命名实体识别模型是从数据集中提取的字符编码向量,时间特征向量和多头自注意力特征向量,通过自适应依存模块生成候选实体片段,对候选实体片段进行局部语义信息提取转换为空间序列特征向量,再通过信息通道化处理对空间序列特征向量进行实体分类。本发明提供一种基于局部文本信息的命名实体识别方法,能克服现有技术在命名实体识别方面的局限性,提高在复杂语境和长实体文本情况下的处理效率和准确性。

Description

基于局部文本信息的命名实体识别方法
技术领域
本发明涉及命名实体识别领域。更具体地说,本发明涉及一种基于局部文本信息的命名实体识别方法。
背景技术
知识图谱作为一种以图形方式表示实体及其关系的结构化数据库,在信息整合检索、语义理解推理、智能问答等领域发挥了关键作用。命名实体识别(NER)和重叠实体关系抽取(OER)技术作为知识图谱的基础技术,直接影响了知识图谱的可用性和质量。
目前的技术主要采用深度学习和统计学习算法的结合,多使用BERT+BiLSTM+CRF模型进行实体识别,而在实体间的关系抽取上,则常使用机器学习算法。然而,这些方法在复杂语境和重叠实体关系的情况下存在一些问题。现有方法主要侧重于上下文内容,通过逐字节改变深度学习网络中的变量,从根本上是基于前一个字节文本信息对当前文本信息的预测,对实体字节较长的情况效果较差。
发明内容
本发明的一个目的是解决至少上述问题和/或缺陷,并提供至少后面将说明的优点。
为了实现本发明的这些目的和其它优点,提供了一种基于局部文本信息的命名实体识别方法,包括:
S1、通过对待识别的文本进行数据预处理,得到待识别数据集;
S2、将待识别的数据集输入经过训练的命名实体识别模型,完成对实体及其实体分类的识别;
其中,所述命名实体识别模型是通过内置模块将从数据集中提取的字符编码向量,时间特征向量和多头自注意力特征向量,通过自适应依存模块生成候选实体片段,对候选实体片段进行局部语义信息提取转换为空间序列特征向量,再通过信息通道化处理对空间序列特征向量进行实体分类,完成模型训练。
优选的是,基于对待识别数据集进行全文及局部相适应的处理流程,命名实体识别模型分为:文本数据表示模块、时间序列特征提取模块、多头自注意力特征提取模块,自适应依存模块,局部语义信息提取模块、信息通道化处理模块。
优选的是,在S1中,所述数据预处理是指对收集到的文本信息进行数据清洗以及数据标注;
其中,所述数据清洗包括:对文本信息的去重、低质量文本的过滤、缺失文本的删除操作;
所述数据标注包括:
S10、基于自然语义确定各文件信息的类别,并基于类别对各文件信息进行实体本体划分,得到对应的多个数据集;
S11、基于文本标注工具对各数据集中的各实体本体进行标注,并采用span标注方式对数据集进行标注,得到训练语料;
S12、对训练语料按8∶1∶1的比例划分为训练集、交叉验证集和测试集。
优选的是,文本数据表示模块对数据集的处理方式包括:
对文本数据进行字符填充,然后基于BERT模型将文本数据转化为字符特征向量,以捕捉文字之间的语义关系。
优选的是,所述时间序列特征提取模块通过BiLSTM神经网络对上层模块输出的字符特征向量进行时间特征提取,获得时间序列特征向量和记忆细胞隐藏向量,使得时间序列特征层输出的文本向量带有时间序列特征。
优选的是,所述多头自注意力特征提取模块的处理流程包括:为字符特征向量加入位置嵌入,将位置嵌入字向量输入到多头自注意力中,使得多头自注意力特征提取模块输出的文本向量带有全局文本信息特征。
优选的是,所述的自适应依存模块将时间序列特征向量,记忆细胞隐藏向量和多头自注意力向量输入到自适应依存中,通过门控机制关注时间序列和注意力序列的程度,输出时间注意特征序列,所述时间注意特征序列计算公式为:
上式中,σ表示线性权重,x t 表示第t个位置的字符特征向量,h t|BiLSTM 表示第t个位置的时间特征向量,m t 表示t位置的记忆细胞隐藏向量a t 表示t位置的全局文本特征向量,c′表示t位置的时间注意特征向量,g t 表示记忆选择机制,S t 表示记忆选择单元的隐藏节点状态,δ代表门控机制,δ t 表示t字符位置选择单元节点状态,tanh()表示双曲正切函数,W h 表示BiLSTM占比权重,W x 表示原始文本向量,W a 表示注意力向量的占比权重,w T h 表示隐藏节点的权重。
优选的是,所述局部语义信息提取模块使用维特比算法对时间注意特征序列进行动态规划,分为多个实体候选片段,在每个实体候选片段中进行正交随机注意力变换,得到局部语义特征序列,所述正交随机注意力变换计算公式:
上式中,X是候选实体片段的序列向量,W X 是候选实体片段X的学习矩阵,Noise是随机噪声矩阵,Gate()为sigmoid函数,是一种门控机制,Y是局部语义特征序列,和/>是两个正交随机投影矩阵,计算公式为:
上式中,R P R r 为随机矩阵,和/>为左奇异向量,V p T V r T 表示右奇异向量。
优选的是,所述信息通道化处理模块的处理流程包括:
对局部语义特征序列通过Max_pooling层得到候选文本片段的向量表示,并将输出的文本向量按照候选文本片段的字符数分别输入到不同的分类器中进行独立通道处理,在每个分类器后接softmax函数,得到每种分类的概率分布,选取最大概率作为实体的预测分类,并计算与真实分类的损失loss。
优选的是,softmax()的函数式为:
上式中,S tag_len 表示候选片段的实体分类概率分布,σ()表示sigmoid函数,w表示候选片段向量对应的权重,V表示候选片段向量矩阵,softmax()表示softmax函数;
计算损失loss的函数式为:
上式中,j表示类别的索引,m表示类别的数量,y j 表示候选片段属于第j个类别的实际概率,a j 表示模型对候选片段属于第j个类别的预测概率,双重求合是对每个句子中的每个实体,按分成不同类别的可能性损失进行计算,以得到对应句子的总体损失。
本发明至少包括以下有益效果:本发明通过全局和局部语义信息的综合考虑以及自适应依存的处理使得模型更能捕捉复杂语境下实体的特征,从而提高了实体识别任务的精确度,为进一步构建知识图谱提供可行性技术基础。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1是本发明的一种命名实体识别系统的结构示意图;
图2是本发明对自适应依存模块的工作流程示意图;
图3是本发明的多头自注意力特征提取模块的工作流程示意图;
图4是本发明的信息通道化处理模块的工作流程示意图;
图5是本发明的一种命名实体识别系统的流程示意图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
本发明旨在提出一种基于局部文本信息的命名实体识别和重叠实体关系抽取算法。通过结合深度学习、自然语言处理技术和语义分析方法,实现对各类实体的准确识别和分类,并进一步抽取这些实体之间的重叠关系。通过本发明,用户可以更加准确地抽取出文本中隐藏的信息,为知识图谱构建、智能搜索等应用领域提供有力支持。
具体来说,如图1所示,本发明基于局部文本信息的命名实体识别方法,包括:
S1、对识别的文本进行数据预处理,得到待识别数据集。
S2、将需要识别的数据集输入经过训练的命名实体识别模型,得到实体及其实体分类;
其中,命名实体模型的获取方式包括:对经过数据预处理的数据集部分文本数据进行标注,得到标记有实体类型的数据集,将该数据集输入到模型中进行参数训练;
上述命名实体识别模型设计为包括:
第一层文本数据表示模块:对文本数据进行字符填充,然后利用BERT模型将文本数据转化为字向量,充分捕捉文字之间的语义关系。
第二层时间序列特征提取模块和多头自注意力特征提取模块:将第一层输出的字嵌入向量分别输入到BiLSTM(双向长短期记忆网络)神经网络和多头自注意力机制模块中,获得时间序列特征向量,记忆细胞隐藏向量和全局文本信息特征向量。
第三层自适应依存模块:将时间序列特征向量,记忆细胞隐藏向量和多头自注意力向量输入到自适应依存中,通过门控机制关注时间序列和注意力序列的程度,输出时间注意特征序列。
第四层局部语义信息提取模块:使用维特比算法对时间注意特征序列进行动态规划,分为多个实体候选片段,在每个实体候选片段中进行正交随机注意力变换,得到局部语义特征序列。
第五层信息通道化处理模块: 将NER视为多通道信号处理过程。对第四层向量进行独立通道处理,对每个候选实体片段进行Max_pooling处理,再经过MLP(多层感知机)和softmax进行实体分类预测。
本方案采用这种方法设计的命名实体识别模型,通过自适应选择时间序列或注意力向量,实现全局和局部序列信息在文本向量中的保留。此外该模型学习参数量更少,内存使用量呈次方减少,同时模型将关注到预测文本字符之间的联系,获得更准确的实体预测。这一技术方案在提高命名实体识别的效率和准确性方面具有显著的创新和优越性。
需要说明的是,本发明在具体应用时,通过结合深度学习、自然语言处理技术和语义分析方法,实现对各类实体的准确识别和分类。通过本发明,用户可以更加准确地抽取出文本中隐藏的信息,为知识图谱构建、智能搜索等应用领域提供有力支持,具体来说,深度学习是应用BiLSTM、维特比算法和多层感知机的模型参数学习中体现,自然处理技术是在BERT模型和自注意力机制对文本信息进行向量编码时进行应用,语义分析方法是在通过实体候选片段向量拼接全局和局部向量进行分析时应用。
另外,本发明基于自然语言技术能够更有效地识别实体和抽取实体之间的关系,在局部语义信息提取充分考虑了局部文本信息的重要性,避免了在处理长实体字节时的性能问题,使得本发明的识别方法通过全局和局部的信息结合方式来表示文本中隐藏的信息,以在复杂语义环境下更准确的识别实体,通过这一创新,本发明旨在实现更准确的结构化数据提取,确保知识图谱的质量和可用性得到显著提升。
实施例:
一种基于局部文本信息的命名实体识别算法,通过以下步骤实现:
(1) 数据预处理:收集文本数据,并将收集的数据进行数据清洗,具体包括:
(1.1)获取文本数据:通过爬虫或手动收集文本信息作为数据集;
(1.2)数据清洗:数据清洗包括去重、过滤低质量文本以及删除缺失的文本,以提升数据集的质量。
(2) 数据标注:构建实体本体类别,对数据进行文本标注,划分训练集,验证集和测试集,具体包括:
(2.1) 实体本体构建:根据对数据集的理解确定识别实体的类别,划分本体,在实体本体构建中,采用自然语言技术,该算法能够更有效地识别实体和抽取实体之间的关系,充分考虑了局部文本信息的重要性,避免了在处理长实体字节时的性能问题。通过这一创新,本发明旨在实现更准确的结构化数据提取,确保知识图谱的质量和可用性得到显著提升。
以通用信息为例,可以构建本体类别为“人物”,“地点”,“时间”等。
(2.2) 数据标注:用文本标注工具Doccano或Brat进行标注,根据本体对数据集进行实体标注,标注方式采用span标注数据集,得到训练的语料。根据8∶1∶1的比例划分为训练集、交叉验证集和测试集;
例如:句子“小何考上了五道口学院”对应的标注为{小何:人物,五道口学院:地点}。
如图5所示,命名实体模型处理流程包括:
(3) 文本数据表示:主要是将训练集中的初始文本数据填充字符数,以将每个文本数据填充到相同的维度seq_len。再将填充后的文本数据使用已经过预训练的BERT模型转化为将文本数据转化为字词向量或字向量,以输出对应的字符特征向量,具体包括:
(3.1) 文本数据维度填充:每条数据填充0字符到相同的字符数,并构造掩码,mask为(1,1,1,…,0,0,0),掩码中1表示真实字符位置,0表示填充的位置。
例如:句子“小何考上了五道口学院”填充到28个字符,填充为“小何考上了五道口学院000000000000000000”,mask为[1,1,1,1,1,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0]
(3.2) 根据获取的数据文本的领域在huggingface中找到经过微调的领域BERT,数据文本如果没有精确领域,可以使用通用BERT模型。
(3.3) 输入文本数据,文本中的每个字符包括填充字符通过BERT模型转化为字符特征向量。例如“小何考上了五道口学院000000000000000000”的字符特征向量维度为28*1024维。
(4) 时间序列特征提取:主要是将字符特征向量输入到BiLSTM模型中,提取时间序列特征,得到每个字符的时间特征向量,具体包括:
假设xt是字符特征向量,t表示字符的序号(0≤t<n),将xt和mask作为BiLSTM的输入,输出为时间特征向量和记忆细胞隐藏向量,其表示为每个字符经过上下文语义信息的重新编码,设输出的时间特征向量为,记忆细胞隐藏向量为g t f ,/>计算公式为:
其中 ,⊙ 表示逐元素相乘,mask_value 是一个较大的负数,以确保被掩盖的位置对计算结果的影响趋近于零。m t 表示t字符的掩码值,h t 表示t字符的时间特征向量,h t 的计算公式为:
上式中,表示向量的拼接,/>和/>分别来表示前向LSTM和后向LSTM,/>的计算方式为:
其中,代表输出门的状态,/>代表输入门的状态,/>代表遗忘门的状态,/>代表当前状态的记忆细胞隐藏向量,/>表示前向传播中t位置的字符向量,W o 表示输出门中字符对应的权重,W i 表示输入门中字符/>对应的权重,W f 表示遗忘门中字符/>对应的权重,W g 表示当前记忆细胞单元中字符/>对应的权重,/>表示前一个字符的状态,W ho 表示输出门中前一字符状态/>对应的权重,W hi 表示输入门中前一字符状态/>对应的权重,W hf 表示遗忘门中前一字符状态/>对应的权重,W hg 表示当前记忆细胞单元中前一字符状态/>对应的权重,/>表示输出门中的偏置向量,/>表示输入门中的偏置向量,/>表示遗忘门中的偏置向量,/>表示当前记忆细胞单元中的偏置向量,/>表示当前状态下的记忆细胞状态,/>表示前一字符的记忆细胞状态,σ为激活函数,·为点积,/>的计算方式与/>相似,tanh为正切函数,权重矩阵和偏置向量通过训练学得,时间特征向量维度为1024维。
(5) 多头自注意力:主要为字符特征向量引入位置嵌入,并输入多头自注意力中,得到空间序列特征向量,具体包括:
(5.1) 位置嵌入:为字符特征向量加入位置嵌入,则i位置的位置嵌入公式/>为:
其中,t是输入序列向量的位置,定义是产生/>的函数,/>是其对应的编码,d是维度,i是向量的index,k的引入是为了区分奇偶,/>,输出向量为位置嵌入字向量。
(5.2) 将位置嵌入字向量输入到多头自注意力中,计算每个字符的空间特征,输出为空间特征向量,多头自注意力的结构如图3,多层注意力机制的公式
其中,i=1,2,…,8,Q、K、V分别表示查询、键、值,,/>,/>分别代表每个注意头对应的权重矩阵,i代表第i个注意头,head表示注意力输出,Concat表示向量连接。
(6) 自适应依存向量选择:如图2,主要是通过将时间序列特征向量,记忆细胞隐藏向量和多头自注意力向量输入到自适应依存中,通过门控机制关注时间序列和注意力序列的程度,输出时间注意特征序列,具体计算公式为:
其中,σ表示线性权重,x t 表示第t个位置的字符特征向量,h t|BiLSTM 表示第t个位置的时间特征向量,m t 表示t位置的记忆细胞隐藏向量,a t 表示t位置的全局文本特征向量,c′表示t位置的时间注意特征向量。g t 表示记忆选择机制,决定了模型是关注原始文本序列还是时间序列,S t 表示记忆选择单元的隐藏节点状态,δ代表门控机制,δ t 表示t字符位置模型选择的是关注原始文本向量还是自注意力向量,tanh( )表示双曲正切函数,W h 表示BiLSTM占比权重,W x 表示原始文本向量,W a 表示注意力向量的占比权重,w T h 表示隐藏节点的权重;图2中ht+1表示后一个字符t+1位置的BiLSTM的后向传播状态,经过BiLSTM得到t位置的后向传播状态,并进入前一个BiLSTM中;ht-1表示前一个字符t-1位置的BiLSTM的前向传播状态,经过BiLSTM得到t位置的前向传播状态/>,并进入后一个BiLSTM中,同时/>和/>结合成为h t|BiLSTM 后进入门控机制δ中。
(7) 局部语义信息提取:主要是使用维特比算法对时间注意特征序列进行动态规划,分为多个实体候选片段,在每个实体候选片段中进行正交随机注意力变换,得到局部语义特征序列,具体包括:
(7.1) 动态规划:将时间注意特征向量使用维特比算法进行序列路径规划,具体计算公式为
其中,δ i+1 表示在确定i位置状态情况下i+1位置状态的概率,δ i 为i位置的状态概率,jk表示状态分类,设定j,k∈[0,1],表示字符的分类为实体或非实体,a ji 为状态转移矩阵,b i 为状态观测矩阵,o i+1 代表观测序列。例如“小何考上了五道口学院000000000000000000”序列的维特比算法输出的一种可能性为“1,1,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0”。
(7.2) 实体候选片段:将维特比算法输出的可能性按照0位置进行划分成若干实体片段,例如“1,1,0,0,0,1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0”划分为“1,1”,“1,1,1,1,1”,分别可以表示“小何”和“五道口学院”两个候选实体。
(7.3) 正交随机注意力变换:对每一个候选实体内部进行局部语义提取,计算公式为:
其中,X是候选实体片段的序列向量,W X 是候选实体片段X的学习权重矩阵,Noise是随机噪声矩阵,Gate 是门控机制,为sigmoid函数,Y是局部语义特征序列,和/>是两个正交随机投影矩阵,计算公式为
上式中,R P R r 为随机矩阵,和/>为左奇异向量,V p T V r T 表示右奇异向量。
(8) 信息通道化处理:如图4,主要是将局部语义序列特征向量按照字符数分别输入不同的分类器中,对应的实体分类结果为输出,进行模型训练,得到最终的实体识别模型,具体包括:
局部语义序列特征向量经过 Max_pooling层,获得每个候补实体的向量表示,再经过MLP层,相同字符数的候补实体进入相同的线性层中,每个线形层后接softmax,获得每种分类的概率分布,softmax( )公式为:
上式中,σ为激活函数,w为候补实体向量的线性权重,V表示候选实体向量,选取最大概率作为实体的预测分类,计算与真实分类的损失。
其中,计算损失函数的公式为:
上式中,j表示类别的索引,m表示类别的数量,y j 表示候选片段属于第j个类别的实际概率,a j 表示模型对候选片段属于第j个类别的预测概率,双重求合是对每个句子中的每个实体,按分成不同类别的可能性进行损失计算,以得到对应句子的总体损失。
经过上述步骤,通过计算一个句子的所有损失之和,然后进行一次模型参数的优化,每个命名实体span经过模型会给出一个预测分类,与真实分类之间的差异定义为损失loss,设填充后的字符数为seq_len,最大实体长度为ent_len,那么总损失进行迭代后知道total_loss的大小变化不大,模型达到拟合的程度。保存最终得到最佳的实体识别模型作为模型,并计算最佳实体模型的准确率、召回率以及F值,通过评价指标,验证模型的性能。
表1
如表1所示,在本实施例中,表格中数字表示概率,以表格第二行第二列中数据为例,表示小何是人物实体的概率为0.263,表格第三行第二列中数据表示的是事件实体的概率为0.072,表格第四行第二列中数据表示的是地点实体的概率为0.241,表格第四行第二列中数据表示不是实体的概率为0.052,由上述概率可知“小何”是人物实体的概率最大,所以表格第五行第二列中的预测值为人物实体。本实例中数据集大小为15623,采用梯度下降法算法Adam进行优化训练,学习率lr为5e-4,本方法的准确性为78.36%,传统的BERT+BiLSTM+CRF的准确率为70.15%,由此可以看出,本发明构建的新型模型基于全文+局部的处理模式,使得其处理的字符特征向量上带有时间和空间两种特征,可以有效去除现有技术中在对全文进行识别过程中,填充字符或原始字符中有效部分的权重被均分而导致识别精准度达不到要求的问题,能有效提高在复杂语境和长实体文本情况下的处理效率和准确性,同时为知识图谱的构建,以及电子病历的结构化形成知识库研发奠定基础。
从本实施例可以看出,本方案采用这种方法设计的命名实体识别模型,通过自适应选择时间序列或注意力向量,实现全局和局部序列信息在文本向量中的保留。此外该模型学习参数量更少,内存使用量呈次方减少,同时模型将关注到预测文本字符之间的联系,获得更准确的实体预测。这一技术方案在提高命名实体识别的效率和准确性方面具有显著的创新和优越性。
以上方案只是一种较佳实例的说明,但并不局限于此。在实施本发明时,可以根据使用者需求进行适当的替换和/或修改。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用。它完全可以被适用于各种适合本发明的领域。对于熟悉本领域的人员而言,可容易地实现另外的修改。因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (10)

1.一种基于局部文本信息的命名实体识别方法,其特征在于,包括:
S1、通过对待识别的文本进行数据预处理,得到待识别数据集;
S2、将待识别的数据集输入经过训练的命名实体识别模型,完成对实体及其实体分类的识别;
其中,所述命名实体识别模型是通过内置模块将从数据集中提取的字符编码向量,时间特征向量和多头自注意力特征向量,通过自适应依存模块生成候选实体片段,对候选实体片段进行局部语义信息提取转换为空间序列特征向量,再通过信息通道化处理对空间序列特征向量进行实体分类,完成模型训练。
2.如权利要求1所述的基于局部文本信息的命名实体识别方法,其特征在于,基于对待识别数据集进行全文及局部相适应的处理流程,命名实体识别模型分为:文本数据表示模块、时间序列特征提取模块、多头自注意力特征提取模块,自适应依存模块,局部语义信息提取模块、信息通道化处理模块。
3.如权利要求1所述的基于局部文本信息的命名实体识别方法,其特征在于,在S1中,所述数据预处理是指对收集到的文本信息进行数据清洗以及数据标注;
其中,所述数据清洗包括:对文本信息的去重、低质量文本的过滤、缺失文本的删除操作;
所述数据标注包括:
S10、基于自然语义确定各文件信息的类别,并基于类别对各文件信息进行实体本体划分,得到对应的多个数据集;
S11、基于文本标注工具对各数据集中的各实体进行标注,并采用span标注方式对数据集进行标注,得到训练语料;
S12、对训练语料按8∶1∶1的比例划分为训练集、交叉验证集和测试集。
4.如权利要求2所述的基于局部文本信息的命名实体识别方法,其特征在于,文本数据表示模块对数据集的处理方式包括:
对文本数据进行字符填充,然后基于BERT模型将文本数据转化为字符特征向量,以捕捉文字之间的语义关系。
5.如权利要求2所述的基于局部文本信息的命名实体识别方法,其特征在于,所述时间序列特征提取模块通过BiLSTM神经网络对上层模块输出的字符特征向量进行时间特征提取,获得时间序列特征向量和记忆细胞隐藏向量,使得时间序列特征层输出的文本向量带有时间序列特征。
6.如权利要求5所述的基于局部文本信息的命名实体识别方法,其特征在于,所述多头自注意力特征提取模块的处理流程包括:为字符特征向量加入位置嵌入,将位置嵌入字向量输入到多头自注意力中,使得多头自注意力特征提取模块输出的文本向量带有全局文本信息特征。
7.如权利要求6所述的基于局部文本信息的命名实体识别方法,其特征在于,所述的自适应依存模块将时间序列特征向量,记忆细胞隐藏向量和多头自注意力向量输入到自适应依存中,通过门控机制关注时间序列和注意力序列的程度,输出时间注意特征序列,所述时间注意特征序列计算公式为:
上式中,σ表示线性权重,x t 表示第t个位置的字符特征向量,h t|BiLSTM 表示第t个位置的时间特征向量,m t 表示t位置的记忆细胞隐藏向量,a t 表示t位置的全局文本特征向量,c′表示t位置的时间注意特征向量,g t 表示记忆选择机制,S t 表示记忆选择单元的隐藏节点状态,δ代表门控机制,δ t 表示t字符位置选择单元节点状态,tanh()表示双曲正切函数,W h 表示BiLSTM占比权重,W x 表示原始文本向量,W a 表示注意力向量的占比权重,w T h 表示隐藏节点的权重。
8.如权利要求2所述的基于局部文本信息的命名实体识别方法,其特征在于,所述局部语义信息提取模块的处理流程包括:
使用维特比算法对时间注意特征序列进行动态规划,分为多个实体候选片段,在每个实体候选片段中进行正交随机注意力变换,得到局部语义特征序列,正交随机注意力机制的计算公式:
上式中,X是候选实体片段的序列向量,W是权重矩阵,Noise是随机噪声矩阵,Gate()为sigmoid函数,是一种门控机制,Y是局部语义特征序列,和/>是两个正交随机投影矩阵,计算公式为:
上式中,R P R r 为随机矩阵,和/>为左奇异向量,V p T V r T 表示右奇异向量。
9.如权利要求2所述的基于局部文本信息的命名实体识别方法,其特征在于,所述信息通道化处理模块的处理流程包括:
对局部语义特征序列通过Max_pooling层得到候选文本片段的向量表示,并将输出的文本向量按照候选文本片段的字符数分别输入到不同的分类器中进行独立通道处理,在每个分类器后接softmax()函数,得到每种分类的概率分布,选取最大概率作为实体的预测分类,并计算与真实分类的损失loss。
10.如权利要求8所述的基于局部文本信息的命名实体识别方法,其特征在于,softmax()的函数式为:
S tag_len 表示候选片段的实体分类概率分布,σ()表示sigmoid函数,w表示权重,V表示候选片段向量矩阵,softmax()表示softmax函数;
计算损失loss的函数式为:
上式中,j表示类别的索引,m表示类别的数量,y j 表示候选片段属于第j个类别的实际概率,a j 表示模型对候选片段属于第 j个类别的预测概率,双重求合是对每个句子中的每个实体,按分成不同类别的可能性损失进行计算,以得到对应句子的总体损失。
CN202410338745.2A 2024-03-25 2024-03-25 基于局部文本信息的命名实体识别方法 Active CN117933259B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410338745.2A CN117933259B (zh) 2024-03-25 2024-03-25 基于局部文本信息的命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410338745.2A CN117933259B (zh) 2024-03-25 2024-03-25 基于局部文本信息的命名实体识别方法

Publications (2)

Publication Number Publication Date
CN117933259A true CN117933259A (zh) 2024-04-26
CN117933259B CN117933259B (zh) 2024-06-14

Family

ID=90765063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410338745.2A Active CN117933259B (zh) 2024-03-25 2024-03-25 基于局部文本信息的命名实体识别方法

Country Status (1)

Country Link
CN (1) CN117933259B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210034701A1 (en) * 2019-07-30 2021-02-04 Baidu Usa Llc Coreference-aware representation learning for neural named entity recognition
CN112711948A (zh) * 2020-12-22 2021-04-27 北京邮电大学 一种中文句子的命名实体识别方法及装置
CN112733541A (zh) * 2021-01-06 2021-04-30 重庆邮电大学 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN113836930A (zh) * 2021-09-28 2021-12-24 浙大城市学院 一种中文危险化学品命名实体识别方法
CN115169349A (zh) * 2022-06-30 2022-10-11 中国人民解放军战略支援部队信息工程大学 基于albert的中文电子简历命名实体识别方法
CN115238693A (zh) * 2022-07-11 2022-10-25 中国医学科学院北京协和医院 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN115906816A (zh) * 2022-11-03 2023-04-04 北京工业大学 一种基于Bert的双通道Attention模型的文本情感分析方法
CN115935998A (zh) * 2022-12-26 2023-04-07 郑州大学 多特征金融领域命名实体识别方法
CN116561592A (zh) * 2023-07-11 2023-08-08 航天宏康智能科技(北京)有限公司 文本情感识别模型的训练方法和文本情感识别方法及装置
CN116842955A (zh) * 2023-07-11 2023-10-03 北京工业大学 一种基于多特征提取的医学实体关系方法
CN117010387A (zh) * 2023-01-05 2023-11-07 国家电网有限公司客户服务中心南方分中心 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统
CN117150436A (zh) * 2023-10-31 2023-12-01 上海大智慧财汇数据科技有限公司 多模态自适应融合的主题识别方法及系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210034701A1 (en) * 2019-07-30 2021-02-04 Baidu Usa Llc Coreference-aware representation learning for neural named entity recognition
CN112711948A (zh) * 2020-12-22 2021-04-27 北京邮电大学 一种中文句子的命名实体识别方法及装置
CN112733541A (zh) * 2021-01-06 2021-04-30 重庆邮电大学 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法
CN113836930A (zh) * 2021-09-28 2021-12-24 浙大城市学院 一种中文危险化学品命名实体识别方法
CN115169349A (zh) * 2022-06-30 2022-10-11 中国人民解放军战略支援部队信息工程大学 基于albert的中文电子简历命名实体识别方法
CN115238693A (zh) * 2022-07-11 2022-10-25 中国医学科学院北京协和医院 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN115906816A (zh) * 2022-11-03 2023-04-04 北京工业大学 一种基于Bert的双通道Attention模型的文本情感分析方法
CN115935998A (zh) * 2022-12-26 2023-04-07 郑州大学 多特征金融领域命名实体识别方法
CN117010387A (zh) * 2023-01-05 2023-11-07 国家电网有限公司客户服务中心南方分中心 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统
CN116561592A (zh) * 2023-07-11 2023-08-08 航天宏康智能科技(北京)有限公司 文本情感识别模型的训练方法和文本情感识别方法及装置
CN116842955A (zh) * 2023-07-11 2023-10-03 北京工业大学 一种基于多特征提取的医学实体关系方法
CN117150436A (zh) * 2023-10-31 2023-12-01 上海大智慧财汇数据科技有限公司 多模态自适应融合的主题识别方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
KRZYSZTOF CHOROMANSKI 等: "RETHINKING ATTENTION WITH PERFORMERS", 《HTTPS://ARXIV.ORG/SEARCH/CS?SEARCHTYPE=AUTHOR&QUERY=SARLOS, +T》, 30 September 2020 (2020-09-30), pages 1 - 38 *
吴晓鸰,陈祥旺,占文韬,凌 捷: "基于门控注意力单元的中文医学命名实体识别", 《广东工业大学学报》, vol. 40, no. 06, 9 November 2023 (2023-11-09), pages 176 - 185 *
宁尚明;滕飞;李天瑞;: "基于多通道自注意力机制的电子病历实体关系抽取", 计算机学报, no. 05, 15 May 2020 (2020-05-15), pages 916 - 929 *
数据猿: "谷歌Transformer再升级——新模型实现性能、速度双提升,发展潜力巨大", Retrieved from the Internet <URL:《https://cloud.tencent.com/developer/article/1744942》> *

Also Published As

Publication number Publication date
CN117933259B (zh) 2024-06-14

Similar Documents

Publication Publication Date Title
CN110364251B (zh) 一种基于机器阅读理解的智能交互导诊咨询系统
CN111382565B (zh) 基于多标签的情绪-原因对抽取方法及系统
CN111159407B (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN111191002B (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN112733866B (zh) 一种提高可控图像文本描述正确性的网络构建方法
CN111914556B (zh) 基于情感语义转移图谱的情感引导方法及系统
CN111985612B (zh) 一种提高视频文本描述准确性的编码器网络模型设计方法
CN112306494A (zh) 一种基于卷积和循环神经网络的代码分类及聚类方法
WO2022048194A1 (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN113836896A (zh) 一种基于深度学习的专利文本摘要生成方法和装置
CN114528835A (zh) 基于区间判别的半监督专业术语抽取方法、介质及设备
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN116842194A (zh) 一种电力语义知识图谱系统及方法
CN117435716B (zh) 电网人机交互终端的数据处理方法及系统
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
US20220156489A1 (en) Machine learning techniques for identifying logical sections in unstructured data
CN116450848B (zh) 一种基于事理图谱的计算思维水平评估方法、装置及介质
CN117933259B (zh) 基于局部文本信息的命名实体识别方法
CN116822513A (zh) 一种融合实体类型与关键词特征的命名实体识别方法
CN116167379A (zh) 一种基于bert和实体位置信息的实体关系抽取方法
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质
CN115391523A (zh) 风电场多源异构数据处理方法及装置
CN114822734A (zh) 基于循环卷积神经网络的中医病案分析方法
CN114692615A (zh) 一种针对小语种的小样本意图识别方法
CN114595324A (zh) 电网业务数据分域的方法、装置、终端和非暂时性存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Jiang Tao

Inventor after: Luo Ji

Inventor after: Xu Lin

Inventor after: Zhang Yujie

Inventor after: Zhang Linshuai

Inventor after: Zhang Pengfei

Inventor before: Jiang Tao

Inventor before: Luo Ji

Inventor before: Xu Lin

Inventor before: Zhang Yuhao

Inventor before: Zhang Linshuai

Inventor before: Zhang Pengfei

GR01 Patent grant
GR01 Patent grant