CN116484848B - 一种基于nlp的文本实体识别方法 - Google Patents
一种基于nlp的文本实体识别方法 Download PDFInfo
- Publication number
- CN116484848B CN116484848B CN202310265137.9A CN202310265137A CN116484848B CN 116484848 B CN116484848 B CN 116484848B CN 202310265137 A CN202310265137 A CN 202310265137A CN 116484848 B CN116484848 B CN 116484848B
- Authority
- CN
- China
- Prior art keywords
- text
- module
- feature
- sequence
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000000605 extraction Methods 0.000 claims abstract description 61
- 230000007246 mechanism Effects 0.000 claims abstract description 48
- 238000013528 artificial neural network Methods 0.000 claims abstract description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 6
- 238000005516 engineering process Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 108
- 230000003993 interaction Effects 0.000 claims description 48
- 241000251468 Actinopterygii Species 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000009826 distribution Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 239000000203 mixture Substances 0.000 claims description 13
- 230000000007 visual effect Effects 0.000 claims description 13
- 230000002441 reversible effect Effects 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 238000013144 data compression Methods 0.000 claims description 5
- 238000000586 desensitisation Methods 0.000 claims description 5
- 230000003044 adaptive effect Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 230000009467 reduction Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 9
- 238000003058 natural language processing Methods 0.000 description 15
- 238000012512 characterization method Methods 0.000 description 11
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000012466 permeate Substances 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明属于NLP技术领域,公开了一种基于NLP的文本实体识别方法,包括如下步骤:采集文本大数据,对文本大数据进行预处理,得到文本标准数据集;根据文本标准数据集,并基于NLP技术的预训练语言子模型、循环神经网络、图神经网络以及注意力机制,建立文本实体识别模型;获取待识别文本数据,将待识别文本数据输入文本实体识别模型进行文本实体识别,得到文本实体识别结果。本发明解决了现有技术存在的现有技术的特征提取不够全面、模型精度受限,实用性不强以及文本实体识别效果差的问题。
Description
技术领域
本发明属于NLP技术领域,具体涉及一种基于NLP的文本实体识别方法。
背景技术
自然语言处理(NLP,Natural Language Processing)是一门把语言学、计算机科学、数学等相关领域融为一体的交叉学科,自然语言处理技术逐渐渗透到各行各业用于文本数据挖掘和信息存储。文本实体是指自然语言文本中出现的特定对象的名称,文本实体识别对于分析语句结构、信息提取和语义理解等均有重要作用。对于英文而言,每个单词通常独立地代表一个意思,并且词和词之间是有空格进行分隔,因此对英语来说,本身就自带分词属性。而对于中文来说,每个词是由每个字拼接而成的,并且中文并不像英文,每个单字之间自带分割符。因此对于中文来说,选用的分词方式不同,得到的语义意思会有很大的区别。
现有的文本实体识别方法,大多数是基于预训练模型来进行,主要依赖于预训练模型在大规模语料中学到的通用语义信息。但是这种通用语义信息,很容易掩盖了下游任务语料中特有的语义信息、文本特征和数据分布,并且在特征提取程中,由于没有深层次挖掘语句的隐藏特征,关注的特征层面过窄,导致提取的特征不够全面;而且在进行实体识别时由于对语句各部分的关注度是相同的,往往没有利用到对识别实体产生关键作用的信息,导致模型精度受限,实用性不强,最终的文本实体识别效果差。
发明内容
为了解决现有技术存在的现有技术的特征提取不够全面、模型精度受限,实用性不强以及文本实体识别效果差的问题,本发明目的在于提供一种基于NLP的文本实体识别方法。
本发明所采用的技术方案为:
一种基于NLP的文本实体识别方法,包括如下步骤:
采集文本大数据,对文本大数据进行预处理,得到文本标准数据集;
根据文本标准数据集,并基于NLP技术的预训练语言子模型、循环神经网络、图神经网络以及注意力机制,建立文本实体识别模型;
获取待识别文本数据,将待识别文本数据输入文本实体识别模型进行文本实体识别,得到文本实体识别结果。
进一步地,对文本大数据进行的预处理包括格式转换处理、数据压缩处理、数据脱敏处理、数据降噪处理、数据清洗处理以及语料分词处理,且在预处理后,得到独立词语标签的文本标准数据集。
进一步地,文本实体识别模型包括输入层、语义特征提取模块、图特征提取模块、特征交互协作模块、CRF模块以及输出层,输入层分别与语义特征提取模块和图特征提取模块连接,语义特征提取模块和图特征提取模块均与特征交互协作模块连接,且语义特征提取模块基于BERT预训练语言子模型和BILSTM网络建立,图特征提取模块与语义特征提取模块连接,且图特征提取模块基于BERT预训练语言子模型和GAT网络建立,特征交互协作模块与CRF模块连接,且特征交互协作模块基于交互注意力机制建立,CRF模块与输出层连接。
进一步地,语义特征提取模块包括设置有BERT预训练语言子模型的字向量表征层和BILSTM层,字向量表征层分别与输入层、BILSTM层以及图特征提取模块连接,BILSTM层与特征交互协作模块连接;
图特征提取模块包括设置有BERT预训练语言子模型的词向量表征层、字词关系文本构图层以及GAT层,词向量表征层、字词关系文本构图层以及GAT层依次连接,且词向量表征层与输入层连接,字词关系文本构图层与语义特征提取模块的字向量表征层连接,GAT层与特征交互协作模块连接;
特征交互协作模块包括Positional embedding子模块、Multi-head AttentionMechanism子模块、两个Add&Norm子模块以及两个FeedForward子模块,Multi-headAttention Mechanism子模块分别与语义特征提取模块、图特征提取模块、Positionalembedding子模块以及第一个Add&Norm子模块连接,第一个Add&Norm子模块分别与语义特征提取模块、图特征提取模块、第二个Add&Norm子模块以及并联设置的两个FeedForward子模块连接,第二个Add&Norm子模块分别与并联设置的两个FeedForward子模块和CRF模块连接。
进一步地,获取待识别文本数据,将待识别文本数据输入文本实体识别模型进行文本实体识别,包括如下步骤:
将待识别文本数据输入文本实体识别模型,提取待识别文本数据中文本序列的词向量序列和字向量序列;
根据字向量序列提取待识别文本数据的语义特征,并根据词向量序列和字向量序列提取待识别文本数据的图特征;
将待识别文本数据的语义特征和图特征进行特征交互协作,得到交互协作特征序列;
根据交互协作特征序列进行依赖性处理,得到文本实体标记序列,即文本实体识别结果。
进一步地,提取待识别文本数据的语义特征的公式为:
式中,hi、hi-1、hi+1分别为待识别文本数据第i、i-1、i+1个字向量的语义特征,按照字向量序列顺序构成语义特征序列矩阵H=[h1,...,hi,...,hI];i为字向量指示量;I为字向量序列总数;分别为文本正序、文本逆序的语义特征;/>分别为BILSTM网络中正序、逆序的特征提取函数;xi为第i个字向量;oi为第i个字的one-hot向量;e(*)为BERT预训练语言子模型输出的字向量矩阵。
进一步地,提取待识别文本数据的图特征的公式为:
式中,h'i'为待识别文本数据的图特征,按照GAT层输出顺序构成图特征序列矩阵H'=[h'1,...,h'i',...,h'N];i'、j、k均为字词关系文本构图的结点指示量;N为结点总数;αi'j为第i'源结点与第j邻接结点的权重系数;ei'j、ei'k分别为通过注意力机制得到的第i'源结点与第j邻接结点和第k邻接结点的信息权重;a(*)为权重获取函数;Whi、Whj均为结点特征;||为拼接函数;σ为拼接系数。
进一步地,在特征交互协作过程中加入多头注意力机制,构成交互注意力机制,交互注意力机制的公式为:
式中,Attention(*)为交互注意力机制函数;Q为根据图特征序列矩阵H'在注意力机制中获取的query向量序列,其中,Q=[q1,...,qi",...,qY];kj'、vi"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量序列和value向量序列,其中,K=[k1,...,kj',...,kU],V=[v1,...,vj',...,vU];softmax(*)为归一化函数;WQ、WK、WV均为相关计算系数;dk为缩放系数;H'为图特征序列矩阵;H为语义特征序列矩阵。
进一步地,将待识别文本数据的语义特征和图特征进行特征交互协作的公式为:
式中,ci"为交互协作特征值,按照取待识别文本数据的文本序列顺序构成交互协作特征序列C=[c1,...,ci",...,cY];i"为图特征向量指示量;Y为图特征向量总数;j'、k'均为语义特征向量指示量;U为语义特征向量总数;βi"j'为注意力机制的权重;si"j'、si"k'均为图特征向量与语义特征向量之间的相似度;qi"为根据图特征序列矩阵H'在注意力机制中获取的query向量;kj'、vi"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量和value向量。
进一步地,文本实体识别模型使用IAFSA算法进行各个模块的相关参数进行优化,IAFSA算法引入了动态反向学习策略和基于柯西分布的自适应人工鱼视野对传统的人工鱼群算法进行改进;
动态反向学习策略的公式为:
x'i*j*(t)=k*(aj*(t)+bj*(t))-xi*j*(t)
式中,x'i*j*(t)、xi*j*(t)分别为第i*条人工鱼第j*维的反向位置和正向位置;aj*(t)、bj*(t)分别为当前人工鱼群第j*维的上界和下界;k*为递减惯性因子,k*=0.9-0.5D/Dmax;D、Dmax分别为当前迭代次数和最大迭代次数;t为时刻指示量;
基于柯西分布的自适应人工鱼视野范围更新的公式为:
式中,v(xi*)为人工鱼的视野范围更新函数;v为人工鱼的原始视野范围;vC(xi*)为迭代后半程人工鱼经柯西分布变换后的视野范围;xi*(t)为第i*条人工鱼的位置;D、Dmax分别为当前迭代次数和最大迭代次数;
柯西分布变换后的视野范围的公式为:
式中,vC(xi*)为迭代后半程人工鱼经柯西分布变换后的视野范围;f(xi*)为第i*条人工鱼的适应度值;fworst为人工鱼的最劣的适应度值;γ为尺度参数,其值越小,柯西分布概率密度曲线越陡峭,γ=1/(π·vorigin);vorigin为初始视野值。
本发明的有益效果为:
本发明提供的基于NLP的文本实体识别方法,基于文本大数据获取语料数据,增强了对各个技术领域的专业术语学习,提高了方法的适应性,利用深度学习中的循环神经网络和图神经网络,提取文本数据里所隐含的语义特征和图结构特征,避免了使用预训练模型进行语义信息学习的同时进行深层次的特征挖掘,提高了模型精度和方法的实用性,并且以注意力机制为原型,设计出一种不同类型特征间的交互协作方法,加强对文本数据的关键信息的关注,从而可以更好地进行像字粒度特征与词粒度特征、语义特征与图结构特征间的特征交互协作,达到数据增强的作用,进一步地提高文本实体识别效果。
本发明的其他有益效果将在具体实施方式中进一步进行说明。
附图说明
图1是本发明中基于NLP的文本实体识别方法的流程框图。
图2是本发明中文本实体识别模型的结构框图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步阐释。
实施例1:
如图1所示,本实施例提供一种基于NLP的文本实体识别方法,包括如下步骤:
根据用户需求,采集对应领域的文本大数据,对文本大数据进行预处理,包括格式转换处理、数据压缩处理、数据脱敏处理、数据降噪处理、数据清洗处理以及语料分词处理,且在预处理后,得到独立词语标签的文本标准数据集;
格式转换处理将采集的文本大数据转换为当前模型能够识别的数据格式,数据压缩处理在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,数据脱敏处理将文本大数据中涉及的隐私信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护,同时减少了无关实体对文本数据的干扰,数据降噪处理去除文本大数据中包含的噪音数据,数据清洗处理将数据集中不被机器理解的字符去除并整理成模型能够处理的字符,在模型训练过程中,需要用到词粒度信息,语料分词处理时使用Jieba分词工具将连续的文本序列划分为独立的词语表达,有利于下一步的特征表达和识别分类;
根据文本标准数据集,并基于NLP技术的预训练语言子模型、循环神经网络、图神经网络以及注意力机制,建立文本实体识别模型;
如图2所示,文本实体识别模型包括输入层、语义特征提取模块、图特征提取模块、特征交互协作模块、CRF模块以及输出层,输入层分别与语义特征提取模块和图特征提取模块连接,语义特征提取模块和图特征提取模块均与特征交互协作模块连接,且语义特征提取模块基于来自Transformers的双向编码表示(BERT,Bidirectional EncoderRepresentation from Transformers)预训练语言子模型和双向长短期记忆网络(BILSTM,Bi-directional Long Short-Term Memory)建立,图特征提取模块与语义特征提取模块连接,且图特征提取模块基于BERT预训练语言子模型和图注意力机制网络(GAT,GraphAttention Network)建立,特征交互协作模块与线性链条件随机场(CRF,ConditionalRandom Field)模块连接,且特征交互协作模块基于交互注意力机制建立,CRF模块与输出层连接。
本实施例中,避免了总体模型使用预训练机制,仅仅采用BERT预训练语言子模型进行向量表征,根据独立词语标签的文本标准数据集对BERT子模型进行预训练,包括将所有的单位字符做拆分处理,按照拆分的分组分类单词,将字符的位置信息映射到特征空间形成特征向量,也叫位置编码,位置信息对文本语义理解非常关键,最后标记文本,BERT在设置输入时,加入了两个特殊符号[CLS]和[SEP],用于标记应用的对象和字符标记,其中[CLS]放在输入的起始位置标记任务类型,对非分类模型,该符号可以省去,[SEP]表示文本中的无重要意义的符号,如“,”、“;”等,用于隔开数据;
输入层接收待识别文本数据,语义特征提取模块提取待识别文本数据的语义特征,图特征提取模块提取待识别文本数据的图特征,将语义特征和图特征输入特征交互协作模块在细粒度层面上进行特征交互协作,得到交互协作特征序列,将交互协作特征序列输入到CRF模块中,完成文本实体词的标注;
语义特征提取模块包括设置有BERT预训练语言子模型的字向量表征层和BILSTM层,字向量表征层分别与输入层、BILSTM层以及图特征提取模块连接,BILSTM层与特征交互协作模块连接;
字向量表征层的BERT预训练语言子模型将待识别文本数据转换为字向量序列,BILSTM层的BILSTM网络对输入的字向量序列进行前后双向遍历,获得数据双向的隐藏层表示,最后根据双向隐藏层向量构建文本数据全面特征表示,即语义特征;通过基于序列模型的语义特征提取模块后,可以将待识别文本数据从字符序列转换成稠密向量化表示,该向量维度低,且可以很好地表征文本的语义信息以及序列信息;
图特征提取模块包括设置有BERT预训练语言子模型的词向量表征层、字词关系文本构图层以及GAT层,词向量表征层、字词关系文本构图层以及GAT层依次连接,且词向量表征层与输入层连接,字词关系文本构图层与语义特征提取模块的字向量表征层连接,GAT层与特征交互协作模块连接;
词向量表征层的BERT预训练语言子模型将待识别文本数据转换为词向量序列,并根据字向量表征层传输的字向量序列,使用字词关系文本构图层构建自适应文本图,针对字向量结点,基于文本的序列构建字结点的邻接关系,针对词向量结点,首先使用词向量来计算词与词之间、词与字之间的相似度,通过计算词与词、词与字之间的两两相似度,便可得到一个相似度共现矩阵,根据相似度共现矩阵的每个值,得到邻接矩阵,图中词向量结点的邻接关系,是基于语义相似度计算得到的,可以与该词结点相连的结点,必定是在语义上有很大的相似性,通过这种方式构图,邻接点间的相似性得以保证,同时直接对距离较远但密切相关的上下文信息进行连接,基于自适应文本图,使用GAT层的图注意力机制模型来提取图的半结构化特征,由于构图时所用结点均为文本中的字与词,通过该模块提取得到的图特征,更多的是表征文本中,字词之间的语义联系信息;
特征交互协作模块包括Positional embedding位置嵌入子模块、Multi-headAttention Mechanism多头注意机制子模块、两个Add&Norm残差与标准化子模块以及两个FeedForward正反馈子模块,Multi-head Attention Mechanism子模块分别与语义特征提取模块、图特征提取模块、Positional embedding子模块以及第一个Add&Norm子模块连接,第一个Add&Norm子模块分别与语义特征提取模块、图特征提取模块、第二个Add&Norm子模块以及并联设置的两个FeedForward子模块连接,第二个Add&Norm子模块分别与并联设置的两个FeedForward子模块和CRF模块连接;
获取待识别文本数据,将待识别文本数据输入文本实体识别模型进行文本实体识别,得到文本实体识别结果,包括如下步骤:
将待识别文本数据输入文本实体识别模型,提取待识别文本数据中文本序列的词向量序列和字向量序列;
根据字向量序列提取待识别文本数据的语义特征,并根据词向量序列和字向量序列提取待识别文本数据的图特征;
提取待识别文本数据的语义特征的公式为:
式中,hi、hi-1、hi+1分别为待识别文本数据第i、i-1、i+1个字向量的语义特征,按照字向量序列顺序构成语义特征序列矩阵H=[h1,...,hi,...,hI];i为字向量指示量;I为字向量序列总数;分别为文本正序、文本逆序的语义特征;/>分别为BILSTM网络中正序、逆序的特征提取函数;xi为第i个字向量;oi为第i个字的one-hot向量;e(*)为BERT预训练语言子模型输出的字向量矩阵;
提取待识别文本数据的图特征的公式为:
式中,h'i'为待识别文本数据的图特征,按照GAT层输出顺序构成图特征序列矩阵H'=[h'1,...,h'i',...,h'N];i'、j、k均为字词关系文本构图的结点指示量;N为结点总数;αi'j为第i'源结点与第j邻接结点的权重系数;ei'j、ei'k分别为通过注意力机制得到的第i'源结点与第j邻接结点和第k邻接结点的信息权重;a(*)为权重获取函数;Whi、Whj均为结点特征;||为拼接函数;σ为拼接系数;
将待识别文本数据的语义特征和图特征进行特征交互协作,得到交互协作特征序列;
在特征交互协作过程中加入多头注意力机制,构成交互注意力机制,交互注意力机制的公式为:
式中,Attention(*)为交互注意力机制函数;Q为根据图特征序列矩阵H'在注意力机制中获取的query向量序列,其中,Q=[q1,...,qi",...,qY];kj'、vi"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量序列和value向量序列,其中,K=[k1,...,kj',...,kU],V=[v1,...,vj',...,vU];softmax(*)为归一化函数;WQ、WK、WV均为相关计算系数;dk为缩放系数;H'为图特征序列矩阵;H为语义特征序列矩阵;
进行特征交互协作的公式为:
式中,ci"为交互协作特征值,按照取待识别文本数据的文本序列顺序构成交互协作特征序列C=[c1,...,ci",...,cY];i"为图特征向量指示量;Y为图特征向量总数;j'、k'均为语义特征向量指示量;U为语义特征向量总数;βi"j'为注意力机制的权重;si"j'、si"k'均为图特征向量与语义特征向量之间的相似度;qi"为根据图特征序列矩阵H'在注意力机制中获取的query向量;kj'、vi"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量和value向量;
根据交互协作特征序列进行依赖性处理,得到文本实体标记序列,即文本实体识别结果。
作为优选,文本实体识别模型使用改进人工鱼群(AFSA,Improve ArtificialFish Swarm Algorithm)算法进行各个模块的相关参数进行优化,IAFSA算法引入了动态反向学习策略和基于柯西分布的自适应人工鱼视野对传统的人工鱼群算法进行改进,IAFSA算法相较于传统的Adam优化器,其收敛性能和局部跳脱能力得到了很大的提升,加快了上述模型中相关参数的优化过程,提高了模型的精度;
动态反向学习策略的公式为:
x'i*j*(t)=k*(aj*(t)+bj*(t))-xi*j*(t)
式中,x'i*j*(t)、xi*j*(t)分别为第i*条人工鱼第j*维的反向位置和正向位置;aj*(t)、bj*(t)分别为当前人工鱼群第j*维的上界和下界;k*为递减惯性因子,k*=0.9-0.5D/Dmax;D、Dmax分别为当前迭代次数和最大迭代次数;t为时刻指示量;
基于柯西分布的自适应人工鱼视野范围更新的公式为:
式中,v(xi*)为人工鱼的视野范围更新函数;v为人工鱼的原始视野范围;vC(xi*)为迭代后半程人工鱼经柯西分布变换后的视野范围;xi*(t)为第i*条人工鱼的位置;D、Dmax分别为当前迭代次数和最大迭代次数;
柯西分布变换后的视野范围的公式为:
式中,vC(xi*)为迭代后半程人工鱼经柯西分布变换后的视野范围;f(xi*)为第i*条人工鱼的适应度值;fworst为人工鱼的最劣的适应度值;γ为尺度参数,其值越小,柯西分布概率密度曲线越陡峭,γ=1/(π·vorigin);vorigin为初始视野值。
本发明提供的基于NLP的文本实体识别方法,基于文本大数据获取语料数据,增强了对各个技术领域的专业术语学习,提高了方法的适应性,利用深度学习中的循环神经网络和图神经网络,提取文本数据里所隐含的语义特征和图结构特征,避免了使用预训练模型进行语义信息学习的同时进行深层次的特征挖掘,提高了模型精度和方法的实用性,并且以注意力机制为原型,设计出一种不同类型特征间的交互协作方法,加强对文本数据的关键信息的关注,从而可以更好地进行像字粒度特征与词粒度特征、语义特征与图结构特征间的特征交互协作,达到数据增强的作用,进一步地提高文本实体识别效果。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。
Claims (9)
1.一种基于NLP的文本实体识别方法,其特征在于:包括如下步骤:
采集文本大数据,对文本大数据进行预处理,得到文本标准数据集;
根据文本标准数据集,并基于NLP技术的预训练语言子模型、循环神经网络、图神经网络以及注意力机制,建立文本实体识别模型;
所述的文本实体识别模型包括输入层、语义特征提取模块、图特征提取模块、特征交互协作模块、CRF模块以及输出层,所述的输入层分别与语义特征提取模块和图特征提取模块连接,所述的语义特征提取模块和图特征提取模块均与特征交互协作模块连接,且语义特征提取模块基于BERT预训练语言子模型和BILSTM网络建立,所述的图特征提取模块与语义特征提取模块连接,且图特征提取模块基于BERT预训练语言子模型和GAT网络建立,所述的特征交互协作模块与CRF模块连接,且特征交互协作模块基于交互注意力机制建立,所述的CRF模块与输出层连接;
获取待识别文本数据,将待识别文本数据输入文本实体识别模型进行文本实体识别,得到文本实体识别结果。
2.根据权利要求1所述的基于NLP的文本实体识别方法,其特征在于:对文本大数据进行的预处理包括格式转换处理、数据压缩处理、数据脱敏处理、数据降噪处理、数据清洗处理以及语料分词处理,且在预处理后,得到独立词语标签的文本标准数据集。
3.根据权利要求1所述的基于NLP的文本实体识别方法,其特征在于:所述的语义特征提取模块包括设置有BERT预训练语言子模型的字向量表征层和BILSTM层,所述的字向量表征层分别与输入层、BILSTM层以及图特征提取模块连接,所述的BILSTM层与特征交互协作模块连接;
所述的图特征提取模块包括设置有BERT预训练语言子模型的词向量表征层、字词关系文本构图层以及GAT层,所述的词向量表征层、字词关系文本构图层以及GAT层依次连接,且词向量表征层与输入层连接,所述的字词关系文本构图层与语义特征提取模块的字向量表征层连接,所述的GAT层与特征交互协作模块连接;
所述的特征交互协作模块包括Positional embedding子模块、Multi-head AttentionMechanism子模块、两个Add&Norm子模块以及两个FeedForward子模块,所述的Multi-headAttention Mechanism子模块分别与语义特征提取模块、图特征提取模块、Positionalembedding子模块以及第一个Add&Norm子模块连接,第一个所述的Add&Norm子模块分别与语义特征提取模块、图特征提取模块、第二个Add&Norm子模块以及并联设置的两个FeedForward子模块连接,第二个Add&Norm子模块分别与并联设置的两个FeedForward子模块和CRF模块连接。
4.根据权利要求3所述的基于NLP的文本实体识别方法,其特征在于:获取待识别文本数据,将待识别文本数据输入文本实体识别模型进行文本实体识别,包括如下步骤:
将待识别文本数据输入文本实体识别模型,提取待识别文本数据中文本序列的词向量序列和字向量序列;
根据字向量序列提取待识别文本数据的语义特征,并根据词向量序列和字向量序列提取待识别文本数据的图特征;
将待识别文本数据的语义特征和图特征进行特征交互协作,得到交互协作特征序列;
根据交互协作特征序列进行依赖性处理,得到文本实体标记序列,即文本实体识别结果。
5.根据权利要求4所述的基于NLP的文本实体识别方法,其特征在于:提取待识别文本数据的语义特征的公式为:
式中,hi、hi-1、hi+1分别为待识别文本数据第i、i-1、i+1个字向量的语义特征,按照字向量序列顺序构成语义特征序列矩阵H=[h1,...,hi,...,hI];i为字向量指示量;I为字向量序列总数;分别为文本正序、文本逆序的语义特征;/>分别为BILSTM网络中正序、逆序的特征提取函数;xi为第i个字向量;oi为第i个字的one-hot向量;e(*)为BERT预训练语言子模型输出的字向量矩阵。
6.根据权利要求5所述的基于NLP的文本实体识别方法,其特征在于:提取待识别文本数据的图特征的公式为:
式中,h'i'为待识别文本数据的图特征,按照GAT层输出顺序构成图特征序列矩阵H'=[h'1,...,h'i',...,h'N];i'、j、k均为字词关系文本构图的结点指示量;N为结点总数;αi'j为第i'源结点与第j邻接结点的权重系数;ei'j、ei'k分别为通过注意力机制得到的第i'源结点与第j邻接结点和第k邻接结点的信息权重;a(*)为权重获取函数;Whi、Whj均为结点特征;||为拼接函数;σ为拼接系数。
7.根据权利要求6所述的基于NLP的文本实体识别方法,其特征在于:在特征交互协作过程中加入多头注意力机制,构成交互注意力机制,交互注意力机制的公式为:
式中,Attention(*)为交互注意力机制函数;Q为根据图特征序列矩阵H'在注意力机制中获取的query向量序列,其中,Q=[q1,...,qi",...,qY];kj'、vi"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量序列和value向量序列,其中,softmax(*)为归一化函数;WQ、WK、WV均为相关计算系数;dk为缩放系数;H'为图特征序列矩阵;H为语义特征序列矩阵。
8.根据权利要求7所述的基于NLP的文本实体识别方法,其特征在于:将待识别文本数据的语义特征和图特征进行特征交互协作的公式为:
式中,ci"为交互协作特征值,按照取待识别文本数据的文本序列顺序构成交互协作特征序列C=[c1,...,ci",...,cY];i"为图特征向量指示量;Y为图特征向量总数;j'、k'均为语义特征向量指示量;U为语义特征向量总数;βi"j'为注意力机制的权重;si"j'、si"k'均为图特征向量与语义特征向量之间的相似度;qi"为根据图特征序列矩阵H'在注意力机制中获取的query向量;kj'、vi"j'分别为根据语义特征序列矩阵H在注意力机制中获取的key向量和value向量。
9.根据权利要求8所述的基于NLP的文本实体识别方法,其特征在于:所述的文本实体识别模型使用IAFSA算法进行各个模块的相关参数进行优化,所述的IAFSA算法引入了动态反向学习策略和基于柯西分布的自适应人工鱼视野对传统的人工鱼群算法进行改进;
动态反向学习策略的公式为:
式中,分别为第i*条人工鱼第j*维的反向位置和正向位置;分别为当前人工鱼群第j*维的上界和下界;k*为递减惯性因子,k*=0.9-0.5D/Dmax;D、Dmax分别为当前迭代次数和最大迭代次数;t为时刻指示量;
基于柯西分布的自适应人工鱼视野范围更新的公式为:
式中,为人工鱼的视野范围更新函数;v为人工鱼的原始视野范围;/>为迭代后半程人工鱼经柯西分布变换后的视野范围;/>为第i*条人工鱼的位置;D、Dmax分别为当前迭代次数和最大迭代次数;
柯西分布变换后的视野范围的公式为:
式中,为迭代后半程人工鱼经柯西分布变换后的视野范围;/>为第i*条人工鱼的适应度值;fworst为人工鱼的最劣的适应度值;γ为尺度参数,其值越小,柯西分布概率密度曲线越陡峭,γ=1/(π·vorigin);vorigin为初始视野值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310265137.9A CN116484848B (zh) | 2023-03-17 | 2023-03-17 | 一种基于nlp的文本实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310265137.9A CN116484848B (zh) | 2023-03-17 | 2023-03-17 | 一种基于nlp的文本实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116484848A CN116484848A (zh) | 2023-07-25 |
CN116484848B true CN116484848B (zh) | 2024-03-29 |
Family
ID=87214625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310265137.9A Active CN116484848B (zh) | 2023-03-17 | 2023-03-17 | 一种基于nlp的文本实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116484848B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932487B (zh) * | 2023-09-15 | 2023-11-28 | 北京安联通科技有限公司 | 一种基于数据段落划分的量化式数据分析方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN113836930A (zh) * | 2021-09-28 | 2021-12-24 | 浙大城市学院 | 一种中文危险化学品命名实体识别方法 |
CN113947332A (zh) * | 2021-11-08 | 2022-01-18 | 中国人民解放军火箭军工程大学 | 一种地下工程综合保障能力的评估方法及系统 |
CN114398881A (zh) * | 2022-01-04 | 2022-04-26 | 北京快确信息科技有限公司 | 基于图神经网络的交易信息识别方法、系统及介质 |
CN114841167A (zh) * | 2022-05-17 | 2022-08-02 | 重庆邮电大学 | 一种基于图神经网络多嵌入联合的临床命名实体识别方法 |
CN115310448A (zh) * | 2022-08-10 | 2022-11-08 | 南京邮电大学 | 一种基于bert和字词向量结合的中文命名实体识别方法 |
CN115688784A (zh) * | 2022-10-28 | 2023-02-03 | 广东工业大学 | 一种融合字与词语特征的中文命名实体识别方法 |
-
2023
- 2023-03-17 CN CN202310265137.9A patent/CN116484848B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112733541A (zh) * | 2021-01-06 | 2021-04-30 | 重庆邮电大学 | 基于注意力机制的BERT-BiGRU-IDCNN-CRF的命名实体识别方法 |
CN113642330A (zh) * | 2021-07-19 | 2021-11-12 | 西安理工大学 | 基于目录主题分类的轨道交通规范实体识别方法 |
CN113836930A (zh) * | 2021-09-28 | 2021-12-24 | 浙大城市学院 | 一种中文危险化学品命名实体识别方法 |
CN113947332A (zh) * | 2021-11-08 | 2022-01-18 | 中国人民解放军火箭军工程大学 | 一种地下工程综合保障能力的评估方法及系统 |
CN114398881A (zh) * | 2022-01-04 | 2022-04-26 | 北京快确信息科技有限公司 | 基于图神经网络的交易信息识别方法、系统及介质 |
CN114841167A (zh) * | 2022-05-17 | 2022-08-02 | 重庆邮电大学 | 一种基于图神经网络多嵌入联合的临床命名实体识别方法 |
CN115310448A (zh) * | 2022-08-10 | 2022-11-08 | 南京邮电大学 | 一种基于bert和字词向量结合的中文命名实体识别方法 |
CN115688784A (zh) * | 2022-10-28 | 2023-02-03 | 广东工业大学 | 一种融合字与词语特征的中文命名实体识别方法 |
Non-Patent Citations (1)
Title |
---|
基于多元数据嵌入和多特征融合的中文命名实体识别方法研究;吴双;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116484848A (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918666B (zh) | 一种基于神经网络的中文标点符号添加方法 | |
CN109359293B (zh) | 基于神经网络的蒙古文命名实体识别方法及其识别系统 | |
CN111382565B (zh) | 基于多标签的情绪-原因对抽取方法及系统 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN109063159B (zh) | 一种基于神经网络的实体关系抽取方法 | |
CN112101028B (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN113486667B (zh) | 一种基于实体类型信息的医疗实体关系联合抽取方法 | |
CN113642330A (zh) | 基于目录主题分类的轨道交通规范实体识别方法 | |
CN109684642B (zh) | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 | |
CN113946677B (zh) | 基于双向循环神经网络和注意力机制的事件识别分类方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN110765755A (zh) | 一种基于双重选择门的语义相似度特征提取方法 | |
CN111444704B (zh) | 基于深度神经网络的网络安全关键词抽取方法 | |
CN111598041A (zh) | 一种用于物品查找的图像生成文本方法 | |
CN114169312A (zh) | 一种针对司法裁判文书的两阶段混合式自动摘要方法 | |
CN116484848B (zh) | 一种基于nlp的文本实体识别方法 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN115238029A (zh) | 一种电力故障知识图谱的构建方法和装置 | |
CN114897167A (zh) | 生物领域知识图谱构建方法及装置 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN114757184A (zh) | 实现航空领域知识问答的方法和系统 | |
CN113065352B (zh) | 一种电网调度工作文本的操作内容识别方法 | |
CN111507103B (zh) | 一种利用部分标注集的自训练神经网络分词模型 | |
CN112818124A (zh) | 一种基于注意力神经网络的实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |