CN110334357A - 一种命名实体识别的方法、装置、存储介质及电子设备 - Google Patents
一种命名实体识别的方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN110334357A CN110334357A CN201910651111.1A CN201910651111A CN110334357A CN 110334357 A CN110334357 A CN 110334357A CN 201910651111 A CN201910651111 A CN 201910651111A CN 110334357 A CN110334357 A CN 110334357A
- Authority
- CN
- China
- Prior art keywords
- target
- word
- vector
- font
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000013598 vector Substances 0.000 claims abstract description 215
- 238000012545 processing Methods 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 22
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 7
- 230000007547 defect Effects 0.000 abstract description 5
- 230000007812 deficiency Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 229910000906 Bronze Inorganic materials 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 239000010974 bronze Substances 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- KUNSUQLRTQLHQQ-UHFFFAOYSA-N copper tin Chemical compound [Cu].[Sn] KUNSUQLRTQLHQQ-UHFFFAOYSA-N 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- -1 i.e. Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种命名实体识别的方法、装置、存储介质及电子设备,其中,该方法包括:获取待识别的目标文本,确定目标文本的目标分词;确定目标分词中所包含的目标字的字图像,并确定字图像的字形向量;根据目标字的字形向量和语义向量生成字向量,并根据目标分词中所有的字向量生成词向量;基于目标分词的词向量对目标文本进行命名实体识别处理,确定目标文本中的命名实体。通过本发明实施例提供的命名实体识别的方法、装置、存储介质及电子设备,在生成词向量过程中引入了字形特征,结合字形特征和语义特征可以更加准确地进行命名实体识别,可以提高识别准确率,可以弥补因罕见词的建模信息不足导致识别不准确的缺陷。
Description
技术领域
本发明涉及命名实体识别的技术领域,具体而言,涉及一种命名实体识别的方法、装置、存储介质及电子设备。
背景技术
命名实体识别是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。
为了在命名体识别任务上得到更准确的结果,即对一句话中可能的命名实体(如人名、地名、机构名等)进行识别,传统方法将词表中的每一个词根据编号映射为一个词向量,并通过一些编码器将整句话中的词向量进行编码,最终预测每一个词所属的标签。
由于很多命名实体并不是常用的词组(罕见词),人工在输入命名实体时容易导致错别字,例如真实的人名为“邓紫棋”,但由于失误输入的人名为“邓紫琪”,二者实际上均表示人名;传统方法中的词向量只能体现出语义信息,并不能很好地识别上述的字形相似的词组。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种命名实体识别的方法、装置、存储介质及电子设备。
第一方面,本发明实施例提供了一种命名实体识别的方法,包括:
获取待识别的目标文本,确定所述目标文本的目标分词;
确定所述目标分词中所包含的目标字的字图像,并确定所述字图像的字形向量;
确定所述目标字的语义向量,根据所述目标字的字形向量和语义向量生成所述目标字的字向量,并根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;
基于所述目标分词的词向量对所述目标文本进行命名实体识别处理,确定所述目标文本中的命名实体。
在一种可能的实现方式中,所述确定所述目标分词中所包含的目标字的字图像包括:
确定所述目标字在不同字体下与所述目标字相对应的字体图像,对所述目标字所有的所述字体图像进行拼接处理,生成深度为D的字图像,D为所述目标字的字体图像的个数。
在一种可能的实现方式中,所述确定所述字图像的字形向量包括:
基于卷积神经网络的中间卷积层生成所述字图像的c×c×H的中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述中间字形特征的深度;
根据所述中间字形特征生成所述字图像的字形向量。
在一种可能的实现方式中,所述基于卷积神经网络的中间卷积层生成所述字图像的c×c×H的中间字形特征包括:
基于H个1×1的卷积核,将所述中间卷积层的c×c的输入向量转换为c×c×H的中间字形特征。
在一种可能的实现方式中,所述根据所述中间字形特征生成所述字图像的字形向量包括:
在深度方向上将所述中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的所述子字形特征进行卷积处理,并根据所有组的所述子字形特征的卷积处理结果生成所述字图像的字形向量,所述字形向量为1×1×K的向量,K为所述字形向量的深度。
在一种可能的实现方式中,所述根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量包括:
对所有的所述目标字的字向量进行拼接处理,生成所述目标分词的N×M的分词张量,N为所述目标字的个数,M为所述字向量的深度;
基于预设的P个卷积核,在拼接的维度上对所述分词张量进行卷积处理,生成N×P的分词矩阵;之后在拼接的维度上对所述分词矩阵进行池化处理,生成所述目标分词的P维的词向量。
在一种可能的实现方式中,所述基于所述目标分词的词向量对所述目标文本进行命名实体识别处理包括:
根据所述目标文本的所有目标分词的词向量生成所述目标文本的分词序列[x1,x2,…,xi,…xn];n为所述目标文本包含的目标分词总数,xi表示第i个目标分词的词向量;
将所述分词序列作为预设的循环神经网络的输入,基于所述循环神经网络的输出确定n×m的概率矩阵,所述概率矩阵中第i行第j列的元素aij表示第i个目标分词被标注为第j个标签的概率;
将所述概率矩阵作为条件随机场的输入,基于所述条件随机场的输出确定所述目标文本中每个目标分词的命名实体识别结果。
第二方面,本发明实施例还提供了一种命名实体识别的装置,包括:
获取模块,用于获取待识别的目标文本,确定所述目标文本的目标分词;
字形向量确定模块,用于确定所述目标分词中所包含的目标字的字图像,并确定所述字图像的字形向量;
词向量确定模块,用于确定所述目标字的语义向量,根据所述目标字的字形向量和语义向量生成所述目标字的字向量,并根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;
识别模块,用于基于所述目标分词的词向量对所述目标文本进行命名实体识别处理,确定所述目标文本中的命名实体。
第三方面,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于上述任意一项所述的命名实体识别的方法。
第四方面,本发明实施例还提供了一种电子设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述的命名实体识别的方法。
本发明实施例上述第一方面提供的方案中,基于分词中字的字图像提取每个字的字形特征,之后基于包含字形特征的字形向量和包含语义特征的语义向量生成每个分词的词向量,之后基于该词向量即可进行命名实体识别的处理过程。本实施例在生成词向量过程中引入了字形特征,结合字形特征和语义特征可以更加准确地进行命名实体识别,可以提高识别准确率,尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致识别不准确的缺陷。此外,结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例所提供的一种命名实体识别的方法的流程图;
图2示出了本发明实施例所提供的命名实体识别的方法的处理流程示意图;
图3示出了本发明实施例所提供的命名实体识别的方法中,卷积神经网络的一种结构示意图;
图4示出了本发明实施例所提供的一种命名实体识别的装置的结构示意图;
图5示出了本发明实施例所提供的用于执行命名实体识别的方法的电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种命名实体识别的方法,基于分词的字形特征和语义特征进行命名实体识别,参见图1所示,该方法包括:
步骤101:获取待识别的目标文本,确定目标文本的目标分词。
本发明实施例中,目标文本是需要识别其中命名实体的文本,目标分词为目标文本中的分词,具体可通过分词处理来确定目标文本的目标分词,该分词处理的过程具体可通过分词模型实现。其中,目标分词的数量可以是一个,也可以是多个,具体根据分词结果而定。例如,目标文本是“邓紫棋唱功怎么样”,分词处理后为“邓紫棋唱功怎么样”,则“邓紫棋”、“唱功”、“怎么样”均为目标分词。此外,本领域技术人员可以理解,目标文本也可以为分词处理后的文本,此时不需要分词处理过程即可以得到相应的目标分词。
步骤102:确定目标分词中所包含的目标字的字图像,并确定字图像的字形向量。
本发明实施例中,每个目标分词均是由一个或多个字组成的,本实施例中将该字称为目标字,并确定目标字的字图像,之后即可确定包含字形特征的字形向量;其中,可以基于卷积神经网络确定字图像的字形向量。
可选的,可以基于目标字在多种字体的写法生成该目标字的字图像。具体的,上述步骤“确定目标分词中所包含的目标字的字图像”包括:确定目标字在不同字体下与目标字相对应的字体图像,对目标字所有的字体图像进行拼接处理,生成深度为D的字图像,D为目标字的字体图像的个数。
本发明实施例中,利用多种字体的字体图像来生成包含字形特征的字形向量,使得目标字的字形向量包含多种字体的字形特征,后续进行命名实体识别时结果更加准确。例如,目标分词“邓紫棋”中的目标字“棋”在宋体、楷体、隶书等字体下对应不同的字形,从而可以将不同字体下的目标字“棋”的写法转换为图像,即字体图像,该字体图像可以为灰度图片,也可以为二值化的黑白图片。以字体图像是灰度图片为例,每个字体图像可以是长为L、宽为W的数字张量,每个数字的取值范围为0~255。之后对D个字体图像进行拼接处理,从而可以生成深度为D的字图像,即L×W×D的字图像。
需要说明的是,本实施例中的“字体”还可以包含不同历史时期的字体,比如金文、草书、魏碑等,只要是该字体可以包含字形特征即可。此外,在本实施例中,对目标文本进行分词处理后可以确定一个或多个分词,可以将其中的部分分词作为本实施例中的目标分词,也可以将所有的分词均作为目标分词;同样的,目标分词可以分为多个字,本实施例中可以将其中的部分字作为目标字,也可以将目标分词包含的所有字作为目标字。
步骤103:确定目标字的语义向量,根据目标字的字形向量和语义向量生成目标字的字向量,并根据目标分词中所有的目标字的字向量生成目标分词的词向量。
本发明实施例中,目标字的语义向量为包含该目标字的语义特征的向量,该语义向量具体可通过循环神经网络来确定,也可通过其他编码器来确定目标字的语义向量,或者直接利用现有的词向量模型确定目标字的向量,例如Word2vec词向量模型等。确定包含语义特征的向量是现有的成熟技术,此处不做赘述。
在确定目标字的语义向量和字形向量之后,即可根据字形向量和语义向量生成该目标字的字向量,该字向量包含该目标字的字形特征和语义特征。利用包含字形特征和语义特征的字向量,可以更加准确地进行命名实体识别。具体的,可以将语义向量和字形向量拼接生成字向量。例如,字形向量是1×1×a的向量,语义向量是1×1×b的向量,则该拼接后的字向量为1×1×(a+b)的向量。
此外,目标分词中可以包含一个或多个目标字,基于所包含的所有目标字的字向量即可生成该目标分词的词向量。具体的,上述步骤103“根据目标分词中所有的目标字的字向量生成目标分词的词向量”包括:
步骤A1:对所有的目标字的字向量进行拼接处理,生成目标分词的N×M的分词张量,N为目标字的个数,M为字向量的深度。
本发明实施例中,字向量具体可以为a×a×M的向量,通过N个字向量即可生成N×M的分词张量;当a=1时,即字向量为1×1×M的向量时,N×M的分词张量本质上是N×M的矩阵。
步骤A2:基于预设的P个卷积核,在拼接的维度上对分词张量进行卷积处理,生成N×P的分词矩阵;之后在拼接的维度上对分词矩阵进行池化处理,生成目标分词的P维的词向量。
本发明实施例中,“拼接的纬度”指的是将N个目标字的字向量进行拼接时的维度。例如,字向量为1×1×M的向量,拼接后的分词张量为N×M的张量,该张量本质上是N行M列的矩阵,相应的拼接的纬度是沿着列方向的维度。之后利用预先设置的P个卷积核对N×M的分词张量进行卷积运算,即可生成N×P的分词矩阵。类似的,在池化时将该N×P的分词矩阵的每一列(共P列)作为一组进行池化处理,最终生成P维的向量,该向量即可作为目标分词的词向量。其中,该池化处理具体可以是最大池化处理。
步骤104:基于目标分词的词向量对目标文本进行命名实体识别处理,确定目标文本中的命名实体。
本发明实施例中,将上述步骤103中确定词向量替换传统的词向量,基于该目标分词的词向量即可进行命名实体识别处理,进而可以确定目标分词是否为命名实体。
可选的,步骤104中“基于目标分词的词向量对目标文本进行命名实体识别处理”包括:
步骤B1:根据目标文本的所有目标分词的词向量生成目标文本的分词序列[x1,x2,…,xi,…xn];n为目标文本包含的目标分词总数,xi表示第i个目标分词的词向量。
本发明实施例中,设目标文本包含n个目标分词,基于上述的步骤102-103即可确定每个目标分词的词向量xi,进而可以确定目标文本的分词序列。其中,需要按照目标分词在目标文本中的位置依次排列,进而生成分词序列[x1,x2,…,xi,…xn]。
步骤B2:将分词序列作为预设的循环神经网络的输入,基于循环神经网络的输出确定n×m的概率矩阵,概率矩阵中第i行第j列的元素aij表示第i个目标分词被标注为第j个标签的概率。
本发明实施例中,预先设置训练好的循环神经网络,该循环神经网络用于对每个目标分词标注标签,即确定第i个目标分词被标注为第j个标签的概率。具体的,该循环神经网络可以为双向门控循环单元神经网络。
步骤B3:将概率矩阵作为条件随机场的输入,基于条件随机场的输出确定目标文本中每个目标分词的命名实体识别结果。
本发明实施例中,在确定用于表示目标分词被标注相应标签概率的概率矩阵后,即可利用条件随机场确定最终的标注结果。例如,目标文本包含五个目标分词:“中国近年经济态势良好”,即n=5,此时基于循环神经网络可以生成n×m的概率矩阵A,之后将该概率矩阵A作为条件随机场的输入,条件随机场根据转移矩阵与神经网络的输出矩阵A使用维特比算法解码出得分最高的标签作为最终的标注结果。例如,最终的标注结果为“S-ORG 0 00 0”,其代表目标分词“中国”被识别为了一个机构名,而“近年”、“经济”、“态势”、“良好”均被识别为非命名体。对目标文本进行命名实体识别的整个过程参见图2所示,图2中具体以目标分词“我们”为例示出。
本发明实施例提供的一种命名实体识别的方法,基于分词中字的字图像提取每个字的字形特征,之后基于包含字形特征的字形向量和包含语义特征的语义向量生成每个分词的词向量,之后基于该词向量即可进行命名实体识别的处理过程。本实施例在生成词向量过程中引入了字形特征,结合字形特征和语义特征可以更加准确地进行命名实体识别,可以提高识别准确率,尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致识别不准确的缺陷。此外,结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征。
在上述实施例的基础上,为了更好地提取目标字的字形特征,上述步骤102“确定字图像的字形向量”包括:
步骤C1:基于卷积神经网络的中间卷积层生成字图像的c×c×H的中间字形特征;卷积神经网络至少包含一个中间卷积层,中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为中间字形特征的深度。
步骤C2:根据中间字形特征生成字图像的字形向量。
本发明实施例中,基于卷积神经网络来提取目标字的字形特征。为了更好地提取出字形特征,本实施例中将字分为至少四部分来提取字形特征。具体的,该卷积神经网络中至少存在一个能够输出c×c×H向量的卷积层,即步骤C1中的中间卷积层,该中间卷积层可以提取出c×c个部分的特征。若c=2,则可以将字图像分割为四部分,从而可以捕捉该目标字在每个部分的字形特征。特别的,若该字为汉字,利用c×c×H的中间字形特征还可以捕捉汉字的偏旁部首信息。
可选的,上述步骤C1“基于卷积神经网络的中间卷积层生成字图像的c×c×H的中间字形特征”包括:基于H个1×1的卷积核,将中间卷积层的c×c的输入向量转换为c×c×H的中间字形特征。
本发明实施例中,卷积神经网络的中间卷积层的输入为c×c的向量,其中,该输入的深度可以为1,也可以为其他值,本实施例对此不做限定。该中间卷积层通过H个1×1的卷积核对输入向量进行卷积处理,从而可以输出c×c×H的向量,即中间字形特征。本实施例中通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题。
需要说明的是,卷积神经网络每一层的输出本质上是向量或张量,即本实施例中的“中间字形特征”可以用向量或张量的形式表示。
可选的,可以基于分组卷积的方式生成字形向量。具体的,上述步骤C2“根据中间字形特征生成字图像的字形向量”包括:
在深度方向上将中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的子字形特征进行卷积处理,并根据所有组的子字形特征的卷积处理结果生成字图像的字形向量,字形向量为1×1×K的向量,K为字形向量的深度。
本发明实施例中,在深度方向上将c×c×H的中间字形特征分为多组,分别对每组进行卷积处理,最后再基于所有的卷积处理结果组合生成字形向量。例如,在深度方向上将c×c×H的中间字形特征分为两组子字形特征,两组的子字形特征分别为c×c×h1和c×c×h2,且h1+h2=H;之后即可基于相应的卷积核进行卷积处理。其中,为了生成1×1×K的字形向量,此时的卷积核可以为c×c的卷积核。采用分组卷积的方式生成字形向量,可以降低卷积神经网络模型的参数量,提高训练效率。
下面通过一个实施例详细介绍通过卷积神经网络确定字形向量的过程。
参见图3所示,图3示出了卷积神经网络的一种结构示意图。首先将D个长度为L、宽度为W的字形图像生成L×W×D的字图像,并将该字图像输入至卷积神经网络中,之后经过卷积处理和池化处理可以在中间某个层输出c×c的向量,图3中以3×3卷积和最大池化为例说明。再之后,利用1×1的卷积核在中间卷积层进行卷积处理,从而生成c×c×H的第一中间字形特征,图3中以c=2为例说明,即中间字形特征为2×2×H的向量。最后通过分组卷积生成最终的字形向量,图3中以字形向量的深度K为4H为例说明,即字形向量为1×1×4H的向量。
本发明实施例提供的一种命名实体识别的方法,基于分词中字的字图像提取每个字的字形特征,之后基于包含字形特征的字形向量和包含语义特征的语义向量生成每个分词的词向量,之后基于该词向量即可进行命名实体识别的处理过程。本实施例在生成词向量过程中引入了字形特征,结合字形特征和语义特征可以更加准确地进行命名实体识别,可以提高识别准确率,尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致识别不准确的缺陷。此外,结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征。通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题;利用c×c×H的向量可以有效提取字形特征;采用分组卷积的方式生成字形向量,可以降低卷积神经网络模型的参数量,提高训练效率。
以上详细介绍了命名实体识别的方法的流程,该方法也可以通过相应的装置实现,下面详细介绍该装置的结构和功能。
本发明实施例提供的一种命名实体识别的装置,参见图4所示,包括:
获取模块41,用于获取待识别的目标文本,确定所述目标文本的目标分词;
字形向量确定模块42,用于确定所述目标分词中所包含的目标字的字图像,并确定所述字图像的字形向量;
词向量确定模块43,用于确定所述目标字的语义向量,根据所述目标字的字形向量和语义向量生成所述目标字的字向量,并根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;
识别模块44,用于基于所述目标分词的词向量对所述目标文本进行命名实体识别处理,确定所述目标文本中的命名实体。
在上述实施例的基础上,所述字形向量确定模块42确定所述目标分词中所包含的目标字的字图像包括:
确定所述目标字在不同字体下与所述目标字相对应的字体图像,对所述目标字所有的所述字体图像进行拼接处理,生成深度为D的字图像,D为所述目标字的字体图像的个数。
在上述实施例的基础上,所述字形向量确定模块42确定所述字图像的字形向量包括:
基于卷积神经网络的中间卷积层生成所述字图像的c×c×H的中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述中间字形特征的深度;
根据所述中间字形特征生成所述字图像的字形向量。
在上述实施例的基础上,所述字形向量确定模块42基于卷积神经网络的中间卷积层生成所述字图像的c×c×H的中间字形特征包括:
基于H个1×1的卷积核,将所述中间卷积层的c×c的输入向量转换为c×c×H的中间字形特征。
在上述实施例的基础上,所述字形向量确定模块42根据所述中间字形特征生成所述字图像的字形向量包括:
在深度方向上将所述中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的所述子字形特征进行卷积处理,并根据所有组的所述子字形特征的卷积处理结果生成所述字图像的字形向量,所述字形向量为1×1×K的向量,K为所述字形向量的深度。
在上述实施例的基础上,所述词向量确定模块43根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量包括:
对所有的所述目标字的字向量进行拼接处理,生成所述目标分词的N×M的分词张量,N为所述目标字的个数,M为所述字向量的深度;
基于预设的P个卷积核,在拼接的维度上对所述分词张量进行卷积处理,生成N×P的分词矩阵;之后在拼接的维度上对所述分词矩阵进行池化处理,生成所述目标分词的P维的词向量。
在上述实施例的基础上,所述识别模块44基于所述目标分词的词向量对所述目标文本进行命名实体识别处理包括:
根据所述目标文本的所有目标分词的词向量生成所述目标文本的分词序列[x1,x2,…,xi,…xn];n为所述目标文本包含的目标分词总数,xi表示第i个目标分词的词向量;
将所述分词序列作为预设的循环神经网络的输入,基于所述循环神经网络的输出确定n×m的概率矩阵,所述概率矩阵中第i行第j列的元素aij表示第i个目标分词被标注为第j个标签的概率;
将所述概率矩阵作为条件随机场的输入,基于所述条件随机场的输出确定所述目标文本中每个目标分词的命名实体识别结果。
本发明实施例提供的一种命名实体识别的装置,基于分词中字的字图像提取每个字的字形特征,之后基于包含字形特征的字形向量和包含语义特征的语义向量生成每个分词的词向量,之后基于该词向量即可进行命名实体识别的处理过程。本实施例在生成词向量过程中引入了字形特征,结合字形特征和语义特征可以更加准确地进行命名实体识别,可以提高识别准确率,尤其是对于罕见词,可以弥补因罕见词的建模信息不足导致识别不准确的缺陷。此外,结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征。通过引入1×1的卷积核,使得在提取字形特征时可以有效避免学习到无用的特征,可以有效避免过拟合的问题;利用c×c×H的向量可以有效提取字形特征;采用分组卷积的方式生成字形向量,可以降低卷积神经网络模型的参数量,提高训练效率。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机可执行指令,其包含用于执行上述的命名实体识别的方法的程序,该计算机可执行指令可执行上述任意方法实施例中的方法。
其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。
图5示出了本发明的另一个实施例的一种电子设备的结构框图。所述电子设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对电子设备的具体实现做限定。
该电子设备1100包括至少一个处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory array)1130和总线1140。其中,处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。
通信接口1120用于与网元通信,其中网元包括例如虚拟机管理中心、共享存储等。
处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器1130用于可执行的指令。存储器1130可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块,并且所述块可按一定的规则组合成虚拟卷。存储器1130存储的指令可被处理器1110执行,以使处理器1110能够执行上述任意方法实施例中的命名实体识别的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种命名实体识别的方法,其特征在于,包括:
获取待识别的目标文本,确定所述目标文本的目标分词;
确定所述目标分词中所包含的目标字的字图像,并确定所述字图像的字形向量;
确定所述目标字的语义向量,根据所述目标字的字形向量和语义向量生成所述目标字的字向量,并根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;
基于所述目标分词的词向量对所述目标文本进行命名实体识别处理,确定所述目标文本中的命名实体。
2.根据权利要求1所述的方法,其特征在于,所述确定所述目标分词中所包含的目标字的字图像包括:
确定所述目标字在不同字体下与所述目标字相对应的字体图像,对所述目标字所有的所述字体图像进行拼接处理,生成深度为D的字图像,D为所述目标字的字体图像的个数。
3.根据权利要求1所述的方法,其特征在于,所述确定所述字图像的字形向量包括:
基于卷积神经网络的中间卷积层生成所述字图像的c×c×H的中间字形特征;所述卷积神经网络至少包含一个所述中间卷积层,所述中间卷积层能够输出c×c×H的向量,c为预设的整数,且c≥2,H为所述中间字形特征的深度;
根据所述中间字形特征生成所述字图像的字形向量。
4.根据权利要求3所述的方法,其特征在于,所述基于卷积神经网络的中间卷积层生成所述字图像的c×c×H的中间字形特征包括:
基于H个1×1的卷积核,将所述中间卷积层的c×c的输入向量转换为c×c×H的中间字形特征。
5.根据权利要求3所述的方法,其特征在于,所述根据所述中间字形特征生成所述字图像的字形向量包括:
在深度方向上将所述中间字形特征分为多组子字形特征,基于预设的卷积核分别对每组的所述子字形特征进行卷积处理,并根据所有组的所述子字形特征的卷积处理结果生成所述字图像的字形向量,所述字形向量为1×1×K的向量,K为所述字形向量的深度。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量包括:
对所有的所述目标字的字向量进行拼接处理,生成所述目标分词的N×M的分词张量,N为所述目标字的个数,M为所述字向量的深度;
基于预设的P个卷积核,在拼接的维度上对所述分词张量进行卷积处理,生成N×P的分词矩阵;之后在拼接的维度上对所述分词矩阵进行池化处理,生成所述目标分词的P维的词向量。
7.根据权利要求1-6任一所述的方法,其特征在于,所述基于所述目标分词的词向量对所述目标文本进行命名实体识别处理包括:
根据所述目标文本的所有目标分词的词向量生成所述目标文本的分词序列[x1,x2,…,xi,…xn];n为所述目标文本包含的目标分词总数,xi表示第i个目标分词的词向量;
将所述分词序列作为预设的循环神经网络的输入,基于所述循环神经网络的输出确定n×m的概率矩阵,所述概率矩阵中第i行第j列的元素aij表示第i个目标分词被标注为第j个标签的概率;
将所述概率矩阵作为条件随机场的输入,基于所述条件随机场的输出确定所述目标文本中每个目标分词的命名实体识别结果。
8.一种命名实体识别的装置,其特征在于,包括:
获取模块,用于获取待识别的目标文本,确定所述目标文本的目标分词;
字形向量确定模块,用于确定所述目标分词中所包含的目标字的字图像,并确定所述字图像的字形向量;
词向量确定模块,用于确定所述目标字的语义向量,根据所述目标字的字形向量和语义向量生成所述目标字的字向量,并根据所述目标分词中所有的目标字的字向量生成所述目标分词的词向量;
识别模块,用于基于所述目标分词的词向量对所述目标文本进行命名实体识别处理,确定所述目标文本中的命名实体。
9.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机可执行指令,所述计算机可执行指令用于执行权利要求1-7任意一项所述的命名实体识别的方法。
10.一种电子设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7任意一项所述的命名实体识别的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910651111.1A CN110334357A (zh) | 2019-07-18 | 2019-07-18 | 一种命名实体识别的方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910651111.1A CN110334357A (zh) | 2019-07-18 | 2019-07-18 | 一种命名实体识别的方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110334357A true CN110334357A (zh) | 2019-10-15 |
Family
ID=68145837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910651111.1A Pending CN110334357A (zh) | 2019-07-18 | 2019-07-18 | 一种命名实体识别的方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110334357A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827831A (zh) * | 2019-11-15 | 2020-02-21 | 广州洪荒智能科技有限公司 | 基于人机交互的语音信息处理方法、装置、设备及介质 |
CN110837736A (zh) * | 2019-11-01 | 2020-02-25 | 浙江大学 | 一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法 |
CN110851484A (zh) * | 2019-11-13 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种获取多指标问题答案的方法及装置 |
CN110888984A (zh) * | 2019-11-27 | 2020-03-17 | 上海眼控科技股份有限公司 | 词向量的生成方法、装置、计算机设备和存储介质 |
CN111126069A (zh) * | 2019-12-30 | 2020-05-08 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
CN111222334A (zh) * | 2019-11-15 | 2020-06-02 | 广州洪荒智能科技有限公司 | 命名实体识别方法、装置、设备及介质 |
CN111275046A (zh) * | 2020-01-10 | 2020-06-12 | 中科鼎富(北京)科技发展有限公司 | 一种字符图像识别方法、装置、电子设备及存储介质 |
CN111291549A (zh) * | 2020-05-08 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和电子设备 |
CN111737999A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种序列标注方法、装置、设备及可读存储介质 |
CN111738226A (zh) * | 2020-07-31 | 2020-10-02 | 中国人民解放军国防科技大学 | 一种基于cnn和rcnn模型的文本识别方法及装置 |
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN112364650A (zh) * | 2020-09-30 | 2021-02-12 | 深圳市罗湖区人民医院 | 一种实体关系联合抽取方法、终端以及存储介质 |
CN112417876A (zh) * | 2020-11-23 | 2021-02-26 | 北京乐学帮网络技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
CN112487813A (zh) * | 2020-11-24 | 2021-03-12 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及系统、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN109388807A (zh) * | 2018-10-30 | 2019-02-26 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
CN109902307A (zh) * | 2019-03-15 | 2019-06-18 | 北京金山数字娱乐科技有限公司 | 命名实体识别方法、命名实体识别模型的训练方法及装置 |
-
2019
- 2019-07-18 CN CN201910651111.1A patent/CN110334357A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908614A (zh) * | 2017-10-12 | 2018-04-13 | 北京知道未来信息技术有限公司 | 一种基于Bi‑LSTM的命名实体识别方法 |
CN109388807A (zh) * | 2018-10-30 | 2019-02-26 | 中山大学 | 电子病历命名实体识别的方法、装置及存储介质 |
CN109522553A (zh) * | 2018-11-09 | 2019-03-26 | 龙马智芯(珠海横琴)科技有限公司 | 命名实体的识别方法及装置 |
CN109902307A (zh) * | 2019-03-15 | 2019-06-18 | 北京金山数字娱乐科技有限公司 | 命名实体识别方法、命名实体识别模型的训练方法及装置 |
CN109871545A (zh) * | 2019-04-22 | 2019-06-11 | 京东方科技集团股份有限公司 | 命名实体识别方法及装置 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110837736A (zh) * | 2019-11-01 | 2020-02-25 | 浙江大学 | 一种基于字结构的迭代膨胀卷积神经网络-条件随机场的中文医疗记录的命名实体识别方法 |
CN110837736B (zh) * | 2019-11-01 | 2021-08-10 | 浙江大学 | 一种基于字结构的中文医疗记录的命名实体识别方法 |
CN110851484A (zh) * | 2019-11-13 | 2020-02-28 | 北京香侬慧语科技有限责任公司 | 一种获取多指标问题答案的方法及装置 |
CN110827831A (zh) * | 2019-11-15 | 2020-02-21 | 广州洪荒智能科技有限公司 | 基于人机交互的语音信息处理方法、装置、设备及介质 |
CN111222334A (zh) * | 2019-11-15 | 2020-06-02 | 广州洪荒智能科技有限公司 | 命名实体识别方法、装置、设备及介质 |
CN110888984A (zh) * | 2019-11-27 | 2020-03-17 | 上海眼控科技股份有限公司 | 词向量的生成方法、装置、计算机设备和存储介质 |
CN111126069A (zh) * | 2019-12-30 | 2020-05-08 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
WO2021135193A1 (zh) * | 2019-12-30 | 2021-07-08 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
CN111126069B (zh) * | 2019-12-30 | 2022-03-29 | 华南理工大学 | 一种基于视觉对象引导的社交媒体短文本命名实体识别方法 |
CN111275046A (zh) * | 2020-01-10 | 2020-06-12 | 中科鼎富(北京)科技发展有限公司 | 一种字符图像识别方法、装置、电子设备及存储介质 |
CN111275046B (zh) * | 2020-01-10 | 2024-04-16 | 鼎富智能科技有限公司 | 一种字符图像识别方法、装置、电子设备及存储介质 |
CN111291549B (zh) * | 2020-05-08 | 2020-09-15 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和电子设备 |
CN111291549A (zh) * | 2020-05-08 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、存储介质和电子设备 |
CN111737999A (zh) * | 2020-06-24 | 2020-10-02 | 深圳前海微众银行股份有限公司 | 一种序列标注方法、装置、设备及可读存储介质 |
CN111738226A (zh) * | 2020-07-31 | 2020-10-02 | 中国人民解放军国防科技大学 | 一种基于cnn和rcnn模型的文本识别方法及装置 |
CN111738226B (zh) * | 2020-07-31 | 2020-11-20 | 中国人民解放军国防科技大学 | 一种基于cnn和rcnn模型的文本识别方法及装置 |
CN112364650A (zh) * | 2020-09-30 | 2021-02-12 | 深圳市罗湖区人民医院 | 一种实体关系联合抽取方法、终端以及存储介质 |
CN112329467A (zh) * | 2020-11-03 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 地址识别方法、装置、电子设备以及存储介质 |
CN112417876A (zh) * | 2020-11-23 | 2021-02-26 | 北京乐学帮网络技术有限公司 | 一种文本处理方法、装置、计算机设备及存储介质 |
CN112487813A (zh) * | 2020-11-24 | 2021-03-12 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及系统、电子设备及存储介质 |
CN112487813B (zh) * | 2020-11-24 | 2024-05-10 | 中移(杭州)信息技术有限公司 | 命名实体识别方法及系统、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110334357A (zh) | 一种命名实体识别的方法、装置、存储介质及电子设备 | |
CN108399386A (zh) | 饼图中的信息提取方法及装置 | |
CN108363790A (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN108133270A (zh) | 卷积神经网络加速方法及装置 | |
CN109977234A (zh) | 一种基于主题关键词过滤的知识图谱补全方法 | |
CN109299269A (zh) | 一种文本分类方法和装置 | |
CN112883714B (zh) | 基于依赖图卷积和迁移学习的absc任务句法约束方法 | |
CN109902271A (zh) | 基于迁移学习的文本数据标注方法、装置、终端及介质 | |
CN104750833A (zh) | 一种文本分类方法及装置 | |
CN108959474B (zh) | 实体关系提取方法 | |
US20180365594A1 (en) | Systems and methods for generative learning | |
CN110968725B (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN110489424A (zh) | 一种表格化信息提取的方法、装置、存储介质及电子设备 | |
CN110232123A (zh) | 文本的情感分析方法及其装置、计算设备与可读介质 | |
CN109492223A (zh) | 一种基于神经网络推理的中文缺失代词补全方法 | |
CN110472049A (zh) | 疾病筛查文本分类方法、计算机设备和可读存储介质 | |
CN112633423B (zh) | 文本识别模型的训练方法、文本识别方法、装置及设备 | |
CN110399488A (zh) | 文本分类方法及装置 | |
CN115861995B (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN114417794B (zh) | 量表问题生成模型的训练方法、装置和计算机设备 | |
Puscasiu et al. | Automated image captioning | |
CN104537280B (zh) | 基于文本关系相似性的蛋白质交互关系识别方法 | |
CN110348025A (zh) | 一种基于字形的翻译方法、装置、存储介质及电子设备 | |
Kaddoura | A Primer on Generative Adversarial Networks | |
CN110348022A (zh) | 一种相似度分析的方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191015 |
|
RJ01 | Rejection of invention patent application after publication |