CN112699684A - 命名实体识别方法和装置、计算机可读存储介质及处理器 - Google Patents
命名实体识别方法和装置、计算机可读存储介质及处理器 Download PDFInfo
- Publication number
- CN112699684A CN112699684A CN202011630033.6A CN202011630033A CN112699684A CN 112699684 A CN112699684 A CN 112699684A CN 202011630033 A CN202011630033 A CN 202011630033A CN 112699684 A CN112699684 A CN 112699684A
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- recognition
- feature
- inputting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 239000013598 vector Substances 0.000 claims abstract description 248
- 238000013507 mapping Methods 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 20
- 230000007246 mechanism Effects 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 12
- 238000005516 engineering process Methods 0.000 abstract description 7
- 230000003068 static effect Effects 0.000 description 21
- 239000011159 matrix material Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000007787 long-term memory Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种命名实体识别方法和装置、计算机可读存储介质及处理器。其中,该方法包括:获取文本数据;对文本数据进行特征映射,得到第一文本向量和第二文本向量;将第一文本向量和第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到文本数据的识别结果。本发明解决了相关技术中命名实体识别过程中容易出现词嵌入偏差问题,导致识别性能较低的技术问题。
Description
技术领域
本发明涉及信息抽取领域,具体而言,涉及一种命名实体识别方法和装置、计算机可读存储介质及处理器。
背景技术
随着互联网的日益普及和计算机技术的不断发展,信息抽取受到了广泛关注。信息抽取(Information Extraction,IE)主要是对文本中的非结构化信息进行结构化处理,从文本中抽取出特定的实体或事件,帮助用户将海量文本的内容自动分类、提取和重构。命名实体识别(Named Entity Recognition,NER)是信息抽取的重要子任务,其中,中文命名实体识别是指计算机从一段中文文本数据中将其中存在的命名实体按照类别全部识别出来。
近年来,深度学习被广泛应用到自然语言处理的任务中,采用深度学习的方法可以将将语料标注与词向量特征结合,通过减少人工特征在模型中的比重,可减少命名实体识别系统对于大型语料库的依赖;并通过概率统计降低规则方法的复杂度,有效提高了模型的性能。相关技术提供了一种结合卷积神经网络(Convolutional Neural Networks,CNN)和长短时记忆网络(Long Short Term Memory,LSTM)的命名实体识别方法,首先将文本表示成词向量,通过后面的卷积层和池化层分别捕捉局域特征信息和保留重要的特征,再进入到LSTM层提取全局依赖关系,最后经过全连接层和CRF层得到最终的标签输出。但是,采用上述方案容易出现词嵌入偏差问题,导致命名实体识别性能较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种命名实体识别方法和装置、计算机可读存储介质及处理器,以至少解决相关技术中命名实体识别过程中容易出现词嵌入偏差问题,导致识别性能较低的技术问题。
根据本发明实施例的一个方面,提供了一种命名实体识别方法,包括:获取文本数据;对文本数据进行特征映射,得到第一文本向量和第二文本向量;将第一文本向量和第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到文本数据的识别结果。
可选地,将第一文本向量和第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到文本数据的识别结果,包括:将第一文本向量输入至卷积神经网络网络进行特征提取,得到文本数据的局部特征向量;将第二文本向量输入至基于注意力机制的双向长短时记忆网络进行特征提取,得到文本数据的时序特征向量;将局部特征向量和时序特征向量进行融合,得到目标特征向量;将目标特征向量输入至条件随机场进行识别,得到识别结果。
可选地,将第二文本向量输入至基于注意力机制的双向长短时记忆网络进行特征提取,得到文本数据的时序特征向量,包括:将第二文本向量输入至双向长短时记忆网络进行特征提取,得到文本数据的初始特征向量;将初始特征向量输入至注意力机制层进行权重分配,得到时序特征向量。
可选地,将局部特征向量和时序特征向量进行融合,得到目标特征向量,包括:将局部特征向量和时序特征向量输入至拼接层进行融合,得到融合后的特征向量;将融合后的特征向量输入至全连接层进行维度转换,得到目标特征向量。
可选地,将目标特征向量输入至条件随机场进行识别,得到识别结果,包括:通过维特比算法对目标特征向量进行处理,得到目标标注序列;基于目标标注序列,得到识别结果。
可选地,第一文本向量是将向量作为一个参数在识别模型训练时发生改变的向量,第二文本向量是通过识别模型生成后不再改变的向量。
可选地,对文本数据进行特征映射,得到第一文本向量和第二文本向量,包括:对文本数据进行特征映射,得到文本数据中每个词语的向量;对每个词语的向量进行设定,得到第一文本向量和第二文本向量。
可选地,该方法还包括:获取已标注的训练语料;对已标注的训练语料进行特征映射,得到第一向量和第二向量;利用第一向量和第二向量对识别模型进行训练。
可选地,获取已标注的训练语料,包括:获取训练语料;对训练语料进行标注,得到已标注的训练语料,其中,训练语料的标注信息包括:训练语料中词语的位置标注和类型标注。
根据本发明实施例的另一方面,还提供了一种命名实体识别装置,包括:获取模块,用于获取文本数据;映射模块,用于对文本数据进行特征映射,得到第一文本向量和第二文本向量;识别模块,用于将第一文本向量和第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到文本数据的识别结果。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述的命名实体识别方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述的命名实体识别方法。
在本发明实施例中,在获取到文本数据之后,可以对文本数据进行特征映射,得到第一文本向量和第二文本向量,进一步将第一文本向量和第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到文本数据的识别结果,从而实现命名实体识别的目的。容易注意到的是,由于文本数据可以分为第一文本向量和第二文本向量,且两个文本向量输入多通道的识别模型进行识别,从而避免词嵌入的偏差,获取更准确的文本向量表示,进而达到提升命名实体识别性能的效果,进而解决了相关技术中命名实体识别过程中容易出现词嵌入偏差问题,导致识别性能较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种命名实体识别方法的流程图;
图2是根据本发明实施例的一种命名实体识别流程的流程图;
图3是根据本发明实施例的一种识别模型训练流程的流程图;
图4是根据本发明实施例的一种命名实体识别装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对本发明实施例中出现的技术名称或技术术语进行如下解释说明:
NLP:Natural Language Processing,即自然语言处理,可以是计算机科学与语言学转换的领域,研究能实现人与计算机之间用自然语言进行有效通信的理论和方法。
NER:主要目的可以是从非结构化的文本中抽取出实体,这些实体通常包括人名、地名、机构、时间等。
RNN:Recurrent Neural Network,循环神经网络,主要可以用于处理序列数据,的预测问题,如自然语言等。
LSTM:Long Short-term Memory长短期记忆,属于循环神经网络的一类,可以用于解决RNN的长期依赖问题。
IDCNN:Iterated Dilated Convolutional Neural Networks,迭代膨胀卷积神经网络。
CRF:Conditional Random Fields,条件随机场,可以用于在给定一组输入随机变量条件下另外一组输出随机变量的条件概率分布模型,它是一种判别式的概率无向图模型。
实施例1
根据本发明实施例,提供了一种命名实体识别方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种命名实体识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,获取文本数据。
上述步骤中的文本数据可以是需要进行命名实体识别的文本数据,可以是中文文本,也可以是英文文本,在本发明实施例中,以中文文本为例进行说明。
在一种可选的实施例中,当用户需要进行命名实体识别时,用户可以输入需要进行命名实体识别的文本数据。
步骤S104,对文本数据进行特征映射,得到第一文本向量和第二文本向量。
在一种可选的实施例中,对于用户输入的文本数据,首先可以进行分词处理,将文本数据划分为多个词语,并针对每个词语进行特征映射,采用词向量表示每个词语,达到语言数学化,方便计算机进行处理。
可选的,上述的第一文本向量可以是将向量看作是一个参数并在网络训练时会改变的向量,也可以被称为非静态文本向量;第二文本向量可以是通过模型生成后不再改变的向量,也可以被称为静态文本向量。
在一种可选的实施例中,目前网络上已经存在效果较好的词向量词典,可以直接采用该词典进行特征映射得到文本向量,因此,可以将通过该词典进行特征映射得到的向量作为静态文本向量。另外,针对不同的命名实体识别需求,往往需要通过不同的训练语料进行训练,但是,网络上已经存在的词向量词典可能无法涵盖所有的训练语料,因此,静态文本向量存在一定的局限性,可能导致词嵌入偏差问题,为了避免上述问题,可以将未涵盖的文本向量作为非静态文本向量,在训练过程中不断完善。通过将两个通道的词向量进行融合,不仅可以缓解词嵌入问题,也能捕捉特定任务信息,获得更准确的文本向量表示。
步骤S106,将第一文本向量和第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到文本数据的识别结果。
上述步骤中的识别模型可以是由CNN、BiLSTM和注意力机制Attention构成,其中,CNN和BiLSTM并行执行,BiLSTM的输出结果输入至Attention中进行处理,此时,CNN和BiLSTM的输入构成了上述的两个通道。
上述步骤中的识别结果可以是文本数据对应的标注序列,该标注序列可以包括词语的分类结果,词语的类型等,但不仅限于此。
在一种可选的实施例中,如果仅使用静态文本向量对识别模型进行训练,则在训练过程中会放大静态文本向量表示文本的局限性,导致词嵌入偏差问题;如果仅使用非静态文本向量,非静态文本向量表示文本的初始化会影响识别结果和收敛速度。因此,可以通过双通道的识别模型分别输入静态文本向量和非静态文本向量,并通过对两个文本向量进行处理,可以识别得到最终的识别结果。
在本发明上述实施例中,在获取到文本数据之后,可以对文本数据进行特征映射,得到第一文本向量和第二文本向量,进一步将第一文本向量和第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到文本数据的识别结果,从而实现命名实体识别的目的。容易注意到的是,由于文本数据可以分为第一文本向量和第二文本向量,且两个文本向量输入多通道的识别模型进行识别,从而避免词嵌入的偏差,获取更准确的文本向量表示,进而达到提升命名实体识别性能的效果,进而解决了相关技术中命名实体识别过程中容易出现词嵌入偏差问题,导致识别性能较低的技术问题。
可选地,在本发明上述实施例中,将第一文本向量和第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到文本数据的识别结果,包括:将第一文本向量输入至卷积神经网络网络进行特征提取,得到文本数据的局部特征向量;将第二文本向量输入至基于注意力机制的双向长短时记忆网络进行特征提取,得到文本数据的时序特征向量;将局部特征向量和时序特征向量进行融合,得到目标特征向量;将目标特征向量输入至条件随机场进行识别,得到识别结果。
在本发明实施例中,对于卷积神经网络,可以设置长度为3的滤波器,滤波器数量是128个,滤波器可以滑过输入的特征矩阵,滑动窗口的长度为滤波器的长度,每种长度的滤波器都可以得到128个特征矩阵,称为特征映射,运用relu激活函数使得128个特征映射标识为单列的向量,从而得到上述的局部特征向量c=[c1,c2,…,cn]。
需要说明的是,由于标准的长短时记忆神经网路其隐藏层状态的传递是从前往后单向传递的,因此该时刻的记忆网络只能够看到历史信息,而没有办法看到未来的信息。然而,在某些问题中,可能当前时刻的输出不仅与之前的状态有关,也可能与之后的状态有关。因此,在本发明实施例中采用双向长短时记忆模型,该模型能同时捕获正向的语义信息和逆向的语义信息。
进一步地,通过引入Attention机制,可以使模型更加关注某个词。相比于之前的encoder-decoder模型,Attention模型最大的区别就在于它不在要求编码器将所有输入信息都编码进一个固定长度的向量之中。相反,此时编码器需要将输入编码成一个向量的序列,而在解码的时候,每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。这样,在产生每一个输出的时候,都能够做到充分利用输入序列携带的信息。
在一种可选的实施例中,如图2所示,可以将非静态文本向量输入CNN网络中,得到局部特征向量,同时将静态文本向量输入至BiLSTM网络中,提取输入文本的时序特征信息,然后利用Attention机制进行对时序特征信息进行权重分配,使得重要的词汇的特征权重放大,得到时序特征向量,进一步将CNN提取的特征向量与BiLSTM-Attention提取的特征向量在拼接层进行融合,使得融合后的目标特征向量具有时序性特征和局部特征;将融合后的目标特征向量输入到CRF中,通过维特比算法解出最优序列,为整个句子打出标签,进行实体识别。
可选地,在本发明上述实施例中,将第二文本向量输入至基于注意力机制的双向长短时记忆网络进行特征提取,得到文本数据的时序特征向量,包括:将第二文本向量输入至双向长短时记忆网络进行特征提取,得到文本数据的初始特征向量;将初始特征向量输入至注意力机制层进行权重分配,得到时序特征向量。
需要说明的是,对于LSTM模型,在t时刻长短时记忆模型如下:
it=σ(Wi[ht-1,xt]+bi),
ft=σ(Wf[ht-1,xt]+bf),
ot=σ(Wo[ht-1,xt]+bfo),
ht=ot*tanh(ct),
其中,σ为sigmoid函数,tanh是双曲正切激活函数,W为权重矩阵,b为偏置向量,W、b作为网络的参数参与训练,ct标识记忆单元的状态,表示t时刻的状态,是由当前输入取得的中间状态,主要作用是更新当前时刻的状态,ht为t时刻的输出。
在本发明实施例中,采用BiLSTM的隐藏层的输出(即上述的初始特征向量)定义如下:其中,和分别表示前向LSTM和后向LSTM在t时刻的输出表示,因此,BiLSTM最终的输出是由过去的隐藏信息和将来的隐藏信息两部分共同构成。
进一步地,通过注意力机制进行文本内各词语注意力值的计算,根据隐藏层当前的隐状态ht可以得到隐藏层表示:
ut=tanh(Wwht+bw),
其中,Ww是隐藏层的权重矩阵,bw是偏置值。
为上一层的每个输出分配不同的权重矩阵:
其中,μw是词级别的上下文向量。
对隐藏层当前的隐状态ht和权重矩阵αt加权求和,得到包含文本各词语重要性信息的时序特征向量s:
s=∑tαtht。
可选地,在本发明上述实施例中,将局部特征向量和时序特征向量进行融合,得到目标特征向量,包括:将局部特征向量和时序特征向量输入至拼接层进行融合,得到融合后的特征向量;将融合后的特征向量输入至全连接层进行维度转换,得到目标特征向量。
在一种可选的实施例中,如图2所示,可以通过拼接层将CNN层输出的局部特征向量c和BiLSTM-Attention层输出的时序特征向量s进行融合,得到融合后的特征向量a:
进一步将融合后的特征向量输入至全连接层,将拼接层得到的d维向量转换成维度与定义好的标签数量相等的k维向量,即目标特征向量,转换公式如下:
l=w·a+b。
可选地,在本发明上述实施例中,将目标特征向量输入至条件随机场进行识别,得到识别结果,包括:通过维特比算法对目标特征向量进行处理,得到目标标注序列;基于目标标注序列,得到识别结果。
需要说明的是,CRF作为最可靠的序列标注之一,在命名实体中任务中取得了良好的性能。在序列的标注中,CRF模型作用于整个句子的结构,而不是独立的单个位置。CRF层中使用状态特征作为当前节点的状态分数表示,转移矩阵用上一个节点到当前节点的转移分数表示。CRF层可以对标签之间自动设置一些合法的约束性条件,句中的第一个单词的标签只能是“B-”或者“O”,不能是“I-”;语句中的标签“B-label I-label I-label”中,“label”应该是相同的命名实体标签,这些约束条件是CRF模型自动从训练数据中学习到的。因此,CRF的优点是能对隐含状态建模,学习状态序列的特点,通过在标签之间增加约束性的条件,可以更好的符合语言逻辑的正确性,最终生成符合人类的语言模型。
对于给定的句子x=[x1,x2,…,xn],该句子的标注序列为y=[y1,y2,…,yn]的分数:
其中,分数s(x,y)由标记分数P和标记之间的转移分数A两部分组成,其中A是转移分数矩阵,Ai,j表示标签i与标签j之间的转移分数(y0、yn+1分别表示句子的开始和结束符),P是BiLSTM层输出的分数矩阵(n×k维,k是标签种类数),Pi,j表示将x=[x1,x2,…,xn]中第i个词标注成第j个标签的分数。那么将x=[x1,x2,…,xn]标注成y=[y1,y2,…,yn]的概率为:
其中,Yx表示句子x=[x1,x2,…,xn]对应的所有的标注方案。
在训练时,通过最大化对数概率函数log(p(y|x))来训练命名实体识别模型;预测时,通过维特比算法(viterbi)得到分数最高的标注序列:
可选地,在本发明上述实施例中,对文本数据进行特征映射,得到第一文本向量和第二文本向量,包括:对文本数据进行特征映射,得到文本数据中每个词语的向量;对每个词语的向量进行设定,得到第一文本向量和第二文本向量。
在一种可选的实施例中,可以将文本数据进行分词处理,得到每个词语,进一步地可以将词语转化为向量,得到每个词语的向量,并通过人为设定的方式进行设定,确定静态文本向量和非静态文本向量,其中,非静态文本向量用v1表示,静态文本向量用v2表示。
可选地,在本发明上述实施例中,该方法还包括:获取已标注的训练语料;对已标注的训练语料进行特征映射,得到第一向量和第二向量;利用第一向量和第二向量对识别模型进行训练。
在一种可选的实施例中,如图3所示,识别模型训练流程如下:获取已标注的训练语料,将语料中的词转化为非静态文本向量和静态文本向量,将非静态文本向量和静态文本向量输入基于CNN-BiLSTM-Attention的识别模型中,输出BIO标签,并使用反向传播法更新识别模型中的参数。
可选地,在本发明上述实施例中,获取已标注的训练语料,包括:获取训练语料;对训练语料进行标注,得到已标注的训练语料,其中,训练语料的标注信息包括:训练语料中词语的位置标注和类型标注。
在一种可选的实施例中,标注语料是人工标注的过程,语料按照BIO(Begin、Inside、Other)的方式对训练语料进行位置标注,其中,Begin表示属于实体词的第一个字符标记;Inside表示属于实体词,但不是第一个字符;Other表示不属于实体词的字符。如果字符是实体词,则加上对应的类型标注(即上述的label)表示实体词的类型,其中,类型标注包括但不限于:人名的类型标注为PER,组织机构名的类型标注为ORG,地名的类型标注为LOC。如果一个实体识别单元是一个实体开始,则标记为(B-lable);如果一个实体识别单元是一个实体中间词汇,则标记为(I-lable)。
实施例2
根据本发明实施例,还提供了一种命名实体识别装置,该装置可以执行上述实施例中的命名实体识别方法,具体实现方案和应用场景与上述实施例相同,在此不作赘述。
图4是根据本发明实施例的一种命名实体识别装置的示意图,如图4所示,该装置包括:
获取模块42,用于获取文本数据;
映射模块44,用于对文本数据进行特征映射,得到第一文本向量和第二文本向量;
识别模块46,用于将第一文本向量和第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到文本数据的识别结果。
可选地,在本发明上述实施例中,识别模块包括:第一提取单元,用于将第一文本向量输入至卷积神经网络网络进行特征提取,得到文本数据的局部特征向量;第二提取单元,用于将第二文本向量输入至基于注意力机制的双向长短时记忆网络进行特征提取,得到文本数据的时序特征向量;融合单元,用于将局部特征向量和时序特征向量进行融合,得到目标特征向量;识别单元,用于将目标特征向量输入至条件随机场进行识别,得到识别结果。
可选地,在本发明上述实施例中,第二提取单元包括:提取子单元,用于将第二文本向量输入至双向长短时记忆网络进行特征提取,得到文本数据的初始特征向量;分配单元,用于将初始特征向量输入至注意力机制层进行权重分配,得到时序特征向量。
可选地,在本发明上述实施例中,融合单元包括:融合子单元,用于将局部特征向量和时序特征向量输入至拼接层进行融合,得到融合后的特征向量;转换子单元,用于将融合后的特征向量输入至全连接层进行维度转换,得到目标特征向量。
可选地,在本发明上述实施例中,识别模块包括:处理单元,用于通过维特比算法对目标特征向量进行处理,得到目标标注序列;识别单元,用于基于目标标注序列,得到识别结果。
可选地,在本发明上述实施例中,映射模块包括:映射单元,用于对文本数据进行特征映射,得到文本数据中每个词语的向量;设定单元,用于对每个词语的向量进行设定,得到第一文本向量和第二文本向量。
可选地,在本发明上述实施例中,获取模块还用于获取已标注的训练语料;映射模块还用于对已标注的训练语料进行特征映射,得到第一向量和第二向量;该装置还包括:训练模块,用于利用第一向量和第二向量对识别模型进行训练。
可选地,在本发明上述实施例中,获取模块包括:获取单元,用于获取训练语料;标注单元,用于对训练语料进行标注,得到已标注的训练语料,其中,训练语料的标注信息包括:训练语料中词语的位置标注和类型标注。
实施例3
根据本发明实施例,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,在程序运行时控制计算机可读存储介质所在设备执行上述实施例1中的命名实体识别方法。
实施例4
根据本发明实施例,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述实施例1中的命名实体识别方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (12)
1.一种命名实体识别方法,其特征在于,包括:
获取文本数据;
对所述文本数据进行特征映射,得到第一文本向量和第二文本向量;
将所述第一文本向量和所述第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到所述文本数据的识别结果。
2.根据权利要求1所述的方法,其特征在于,将所述第一文本向量和所述第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到所述文本数据的识别结果,包括:
将所述第一文本向量输入至卷积神经网络网络进行特征提取,得到所述文本数据的局部特征向量;
将所述第二文本向量输入至基于注意力机制的双向长短时记忆网络进行特征提取,得到所述文本数据的时序特征向量;
将所述局部特征向量和所述时序特征向量进行融合,得到目标特征向量;
将所述目标特征向量输入至条件随机场进行识别,得到所述识别结果。
3.根据权利要求2所述的方法,其特征在于,将所述第二文本向量输入至基于注意力机制的双向长短时记忆网络进行特征提取,得到所述文本数据的时序特征向量,包括:
将所述第二文本向量输入至双向长短时记忆网络进行特征提取,得到所述文本数据的初始特征向量;
将所述初始特征向量输入至注意力机制层进行权重分配,得到所述时序特征向量。
4.根据权利要求2所述的方法,其特征在于,将所述局部特征向量和所述时序特征向量进行融合,得到目标特征向量,包括:
将所述局部特征向量和所述时序特征向量输入至拼接层进行融合,得到融合后的特征向量;
将所述融合后的特征向量输入至全连接层进行维度转换,得到所述目标特征向量。
5.根据权利要求2所述的方法,其特征在于,将所述目标特征向量输入至条件随机场进行识别,得到所述识别结果,包括:
通过维特比算法对所述目标特征向量进行处理,得到目标标注序列;
基于所述目标标注序列,得到所述识别结果。
6.根据权利要求1所述的方法,其特征在于,所述第一文本向量是将向量作为一个参数在所述识别模型训练时发生改变的向量,所述第二文本向量是通过所述识别模型生成后不再改变的向量。
7.根据权利要求6所述的方法,其特征在于,对所述文本数据进行特征映射,得到第一文本向量和第二文本向量,包括:
对所述文本数据进行特征映射,得到所述文本数据中每个词语的向量;
对所述每个词语的向量进行设定,得到所述第一文本向量和所述第二文本向量。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取已标注的训练语料;
对所述已标注的训练语料进行特征映射,得到第一向量和第二向量;
利用所述第一向量和所述第二向量对所述识别模型进行训练。
9.根据权利要求8所述的方法,其特征在于,获取已标注的训练语料,包括:
获取训练语料;
对所述训练语料进行标注,得到所述已标注的训练语料,其中,所述训练语料的标注信息包括:所述训练语料中词语的位置标注和类型标注。
10.一种命名实体识别装置,其特征在于,包括:
获取模块,用于获取文本数据;
映射模块,用于对所述文本数据进行特征映射,得到第一文本向量和第二文本向量;
识别模块,用于将所述第一文本向量和所述第二文本向量分别输入至识别模型的两个通道进行命名实体识别,得到所述文本数据的识别结果。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的命名实体识别方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至9中任意一项所述的命名实体识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011630033.6A CN112699684A (zh) | 2020-12-30 | 2020-12-30 | 命名实体识别方法和装置、计算机可读存储介质及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011630033.6A CN112699684A (zh) | 2020-12-30 | 2020-12-30 | 命名实体识别方法和装置、计算机可读存储介质及处理器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112699684A true CN112699684A (zh) | 2021-04-23 |
Family
ID=75513503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011630033.6A Pending CN112699684A (zh) | 2020-12-30 | 2020-12-30 | 命名实体识别方法和装置、计算机可读存储介质及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699684A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547330A (zh) * | 2022-01-28 | 2022-05-27 | 山东师范大学 | 音乐知识图谱半自动构建方法及系统 |
CN114638229A (zh) * | 2022-03-25 | 2022-06-17 | 高新兴科技集团股份有限公司 | 笔录数据的实体识别方法、装置、介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109885825A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于注意力机制的命名实体识别方法、装置和计算机设备 |
CN110321566A (zh) * | 2019-07-10 | 2019-10-11 | 北京邮电大学 | 中文命名实体识别方法、装置、计算机设备和存储介质 |
CN111008526A (zh) * | 2019-12-06 | 2020-04-14 | 安徽理工大学 | 一种基于双通道神经网络的命名实体识别方法 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
-
2020
- 2020-12-30 CN CN202011630033.6A patent/CN112699684A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108536679A (zh) * | 2018-04-13 | 2018-09-14 | 腾讯科技(成都)有限公司 | 命名实体识别方法、装置、设备及计算机可读存储介质 |
CN109885825A (zh) * | 2019-01-07 | 2019-06-14 | 平安科技(深圳)有限公司 | 基于注意力机制的命名实体识别方法、装置和计算机设备 |
WO2020232861A1 (zh) * | 2019-05-20 | 2020-11-26 | 平安科技(深圳)有限公司 | 命名实体识别方法、电子装置及存储介质 |
CN110321566A (zh) * | 2019-07-10 | 2019-10-11 | 北京邮电大学 | 中文命名实体识别方法、装置、计算机设备和存储介质 |
CN111008526A (zh) * | 2019-12-06 | 2020-04-14 | 安徽理工大学 | 一种基于双通道神经网络的命名实体识别方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114547330A (zh) * | 2022-01-28 | 2022-05-27 | 山东师范大学 | 音乐知识图谱半自动构建方法及系统 |
CN114638229A (zh) * | 2022-03-25 | 2022-06-17 | 高新兴科技集团股份有限公司 | 笔录数据的实体识别方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107729309B (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN109657239B (zh) | 基于注意力机制和语言模型学习的中文命名实体识别方法 | |
CN110765775B (zh) | 一种融合语义和标签差异的命名实体识别领域自适应的方法 | |
CN112487143A (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN111666758B (zh) | 中文分词方法、训练设备以及计算机可读存储介质 | |
CN110263325B (zh) | 中文分词系统 | |
CN111274829B (zh) | 一种利用跨语言信息的序列标注方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN111950287B (zh) | 一种基于文本的实体识别方法及相关装置 | |
CN109325112A (zh) | 一种基于emoji的跨语言情感分析方法和装置 | |
CN111078833A (zh) | 一种基于神经网络的文本分类方法 | |
CN112699685B (zh) | 基于标签引导的字词融合的命名实体识别方法 | |
CN114386417A (zh) | 一种融入词边界信息的中文嵌套命名实体识别方法 | |
CN111368542A (zh) | 一种基于递归神经网络的文本语言关联抽取方法和系统 | |
CN111340006B (zh) | 一种手语识别方法及系统 | |
CN112699684A (zh) | 命名实体识别方法和装置、计算机可读存储介质及处理器 | |
CN113065349A (zh) | 基于条件随机场的命名实体识别方法 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
CN115169349A (zh) | 基于albert的中文电子简历命名实体识别方法 | |
CN115062123A (zh) | 一种对话生成系统的知识库问答对生成方法 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN114417874A (zh) | 一种基于图注意力网络的中文命名实体识别方法和系统 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN110929013A (zh) | 一种基于bottom-up attention和定位信息融合的图片问答实现方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |