CN112711948A - 一种中文句子的命名实体识别方法及装置 - Google Patents
一种中文句子的命名实体识别方法及装置 Download PDFInfo
- Publication number
- CN112711948A CN112711948A CN202011530521.XA CN202011530521A CN112711948A CN 112711948 A CN112711948 A CN 112711948A CN 202011530521 A CN202011530521 A CN 202011530521A CN 112711948 A CN112711948 A CN 112711948A
- Authority
- CN
- China
- Prior art keywords
- character
- vector
- word
- layer
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 239000013598 vector Substances 0.000 claims abstract description 195
- 238000012512 characterization method Methods 0.000 claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims description 19
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 10
- 230000005540 biological transmission Effects 0.000 abstract description 4
- 230000004927 fusion Effects 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Character Discrimination (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种中文句子的命名实体识别方法,包括:将中文字符序列输入识别模型,由识别模型通过字符嵌入层将中文字符序列转换为字向量并输出到识别模型中的卷积网络,卷积网络对每个字向量进行卷积运算得到局部语义向量并输出到识别模型中的自适应结合层,自适应结合层对字符的局部语义向量进行注意力计算后与对应字向量拼接得到表征向量并输出到识别模型中的序列建模网络,序列建模网络对字符的表征向量进行隐层建模并将建模得到的隐层向量输出到识别模型中的标签推理层计算字符的隐层向量对应的标签。通过卷积网络提取字符的局部语义信息后与潜在词基于字词间注意力实现字词信息融合,从而实现潜在词信息的利用,避免词边界错误传递的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,具体涉及一种中文句子的命名实体识别方法及装置。
背景技术
命名实体识别的主要任务是识别出非结构化文本中具有特定意义的实体,主要包括人名、地名、机构名以及专有名词等。其和分词、依存句法分析等任务一起作为自然语言处理任务中最重要的基础任务,在诸多下游任务中承担着基石的作用,其识别的效果往往很大程度决定了下游任务能达到的高度。尤其在信息抽取任务中,其更是作为一个决定性的基础任务而存在。
中文句子的命名实体识别是中文自然语言处理领域中的一个重要子课题。然而由于中文表述的多样性,实体的语义通常是与上下文语义高度相关的,并且由于中文文本中缺少中文词的分隔符,导致词边界模糊难以判断使得中文实体识别的任务难度很大。除此之外,由于主流的实体识别均是基于序列标注的方式来做,这就使得训练集标注成本很高,从而使得许多实体识别任务均因为缺乏足量的训练集而限制了其模型的识别效果。
发明内容
本发明的目的是针对上述现有技术的不足提出的一种中文句子的命名实体识别方法及装置,该目的是通过以下技术方案实现的。
本发明的第一方面提出了一种中文句子的命名实体识别方法,所述方法包括:
将中文字符序列输入已训练的实体识别模型,以由本实体识别模型通过字符嵌入层将所述中文字符序列中的每个字符转换为字向量,并输出到本实体识别模型中的卷积网络,以由所述卷积网络对每个字向量进行卷积运算得到局部语义向量,并输出到本实体识别模型中的自适应结合层,以由所述自适应结合层对每个字符的局部语义向量进行注意力计算后与对应的字向量拼接得到表征向量,并输出到本实体识别模型中的序列建模网络,以由所述序列建模网络对每个字符的表征向量进行隐层建模,并将建模得到的隐层向量输出到本实体识别模型中的标签推理层计算每个字符的隐层向量对应的标签;
获取所述实体识别模型输出的标签序列并作为命名实体识别结果。
本发明的第二方面提出了一种中文句子的命名实体识别装置,所述装置包括:
实体识别模块,用于将中文字符序列输入已训练的实体识别模型,以由本实体识别模型通过字符嵌入层将所述中文字符序列中的每个字符转换为字向量,并输出到本实体识别模型中的卷积网络,以由所述卷积网络对每个字向量进行卷积运算得到局部语义向量,并输出到本实体识别模型中的自适应结合层,以由所述自适应结合层对每个字符的局部语义向量进行注意力计算后与对应的字向量拼接得到表征向量,并输出到本实体识别模型中的序列建模网络,以由所述序列建模网络对每个字符的表征向量进行隐层建模,并将建模得到的隐层向量输出到本实体识别模型中的标签推理层计算每个字符的隐层向量对应的标签;
获取模块,用于获取所述实体识别模型输出的标签序列并作为命名实体识别结果。
本发明的第三方面提出了一种电子设备,包括可读存储介质和处理器;
其中,所述可读存储介质,用于存储机器可执行指令;
所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现上述第一方面所述方法的步骤。
本发明的第四方面提出了一种芯片,包括可读存储介质和处理器;
其中,所述可读存储介质,用于存储机器可执行指令;
所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现上述第一方面所述方法的步骤。
基于上述第一方面和第二方面所述的中文句子的命名实体识别方法及装置,本发明具有如下有益效果:
通过将中文字符序列输入实体识别模型中,通过卷积网络提取每个字符的局部语义信息后,与对应的潜在词基于字词间注意力自适应计算实现字词信息融合,从而充分且合理的实现潜在词信息的利用,避免了词边界错误传递的问题,进而达到了对中文实体识别任务的优化目的。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明根据一示例性实施例示出的一种中文句子的命名实体识别方法的实施例流程图;
图2为本发明根据一示例性实施例示出的一种实体识别模型结构示意图;
图3为本发明根据一示例性实施例示出的一种词典匹配示例图;
图4为本发明根据一示例性实施例示出的一种电子设备的硬件结构图;
图5为本发明根据一示例性实施例示出的一种中文句子的命名实体识别装置的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在现有技术中,词边界模糊问题对中文实体识别效果影响很明显,比如,“北京市长春桥”这句话在中文分词中可被分为“北京/市长/春桥”,这样就会导致“北京市(ns)/长春桥(ns)”可能被错误识别为“北京(ns)/市长/春桥(nr)”,导致词信息损失。
为解决上述技术问题,本发明提出一种改进的中文命名实体识别方法,下面以具体实施例对中文句子的命名实体识别方法进行详细阐述。
图1为本发明根据一示例性实施例示出的一种中文句子的命名实体识别方法的实施例流程图,该中文句子的命名实体识别方法可以应用在电子设备上,结合图2所示的实体识别模型结构,本实体识别模型结构是预先训练得到的,包括字符嵌入层、卷积网络、自适应结合层、序列建模网络、标签推理层、潜在词嵌入层。如图1所示,该中文句子的命名实体识别方法包括如下步骤:
步骤101:将中文字符序列输入已训练的实体识别模型,以由本实体识别模型通过字符嵌入层将所述中文字符序列中的每个字符转换为字向量,并输出到本实体识别模型中的卷积网络,以由所述卷积网络对每个字向量进行卷积运算得到局部语义向量,并输出到本实体识别模型中的自适应结合层,以由所述自适应结合层对每个字符的局部语义向量进行注意力计算后与对应的字向量拼接得到表征向量,并输出到本实体识别模型中的序列建模网络,以由所述序列建模网络对每个字符的表征向量进行隐层建模,并将建模得到的隐层向量输出到本实体识别模型中的标签推理层计算每个字符的隐层向量对应的标签。
在一实施例中,针对字符嵌入层将中文字符序列中的每个字符转换为字向量过程,针对中文字符序列中的每个字符,通过在已训练的字向量表中查找该字符对应的字向量。
具体地,参见图2所示的字符嵌入层的输出,对于输入的中文句子可以看作是一个中文字符序列s={c1,c2,…,cn}∈Vc,其中n为输入中文句子的长度,Vc为字符词典。每一个字符ci都会基于预先训练好的字向量表作字符嵌入得到其对应的字向量,其中dc为字向量的维度,mc为字符词表的大小:
xi c=ec(ci)
从而,得到字符嵌入层输出的字向量序列为{x1 c,x2 c,...,xn c}。
在本实施例中,由于句子的局部语义信息对于实体识别效果有着重要作用,如“张自忠路”与“先烈张自忠”都有张自忠一词,但其在前一个中为地名,而在后一个中为人名,同时该局部语义信息对于后续的字词间注意力计算也可提供局部语义支撑。
基于此,针对卷积网络对每个字向量进行卷积运算得到局部语义向量的过程,针对每个字向量,可以通过本卷积网络中的第一卷积层对该字向量进行卷积运算,并输出给本卷积网络的第二卷积层,第二卷积层对第一卷积层得到的向量再进行卷积运算得到该字向量的局部语义向量。
其中,在卷积网络中,第一卷积层包括多个同样大小的卷积核,第二卷积层包括多个同样大小的卷积核,但两个卷积层中的卷积核大小不同。
具体地,参见图2所示,输入的中文字符序列s经过了字符嵌入层后输出的是字向量序列{x1 c,x2 c,...,xn c},用表示卷积网络中的一个卷积核,其中k代表卷积核的大小,dc表示字向量的维度,则由该卷积核卷积得到第i个字符包含的局部语义的向量计算公式如下:
在卷积网络中的第二卷积层使用了多个卷积核来学习局部语义信息,假设卷积核个数为dcnn。第i个字符的局部语义向量为第二卷积层中所有卷积核输出的串联,由此可得卷积网络的输出为a={a1,a2,…,an},其中
需要说明的是,由于中文词信息通常是理解中文的最小语义单元,为了提高中文实体识别的效果,本发明通过引入中文词信息,以避免词边界错误传递的问题。
基于此,参见图2所示的潜在词嵌入层和自适应结合层,下面分两步介绍中文词信息(即潜在词信息)的利用过程:
首先,针对潜在词嵌入层获取每个字符对应的所有潜在词的词向量矩阵的过程,通过将中文字符序列与预先构建的字典树进行匹配,以获得子字符串,并将每个子字符串与已训练的词典进行匹配,以获取匹配成功的子字符串,然后将匹配成功的子字符串与其包含的字符进行关联,以得到每个字符的潜在词集合,并针对每个字符,在词向量表中查询该字符的潜在词集合中每个潜在词的词向量以组成该字符的词向量矩阵。
其中,字典树由预先训练好的词典中的词构建得到。
具体地,基于大规模语料预训练得到一个大的词典及词向量表mw为词向量表的大小,dw为词向量的维度,利用词典D与中文字符序列的所有子字符串进行匹配,得到所有的潜在词,并将匹配成功的子字符串与其包含的字符做关联得到各个字符的潜在词集合,公式如下:
需要说明的是,如果某个字符的潜在词集合为空时,用“NONE”填充。
对于非空的潜在词集合,通过查询词向量表ew得到词向量矩阵,公式如下:
结合图2和图3所示,以“张三家在江东北路”为例,经过词典匹配后,可以得到每个字符的潜在词集合,如其中的“东”对应的潜在词集合为:
A(c6)={w5,6(“江东”),w6,6(“东”),w6,7(“东北”),w5,8(“江东北路”)}
其次,针对自适应结合层对每个字符的局部语义向量进行注意力计算后与对应的字向量拼接得到表征向量的过程,通过接收本实体识别模型中潜在词嵌入层输出的每个字符对应的所有潜在词的词向量矩阵,并针对每个字符,将该字符的局部语义向量与词向量矩阵进行注意力计算,并将注意力计算结果与该字符的字向量进行拼接得到该字符的表征向量。
具体地,由于各个字符对应的潜在词之间是互斥的,因此只有一种潜在词符合真实语义,因此本发明通过计算字词间注意力的方式将具体的潜在词选择交由模型完成,本发明将字符的局部语义向量与词向量进行注意力计算的公式如下:
其中,均为自适应结合层的参数矩阵,dmodel1=hcw×dhead1,且dmodel1与卷积网络输出的局部语义向量的维度相等,hcw为注意力头数,dhead1为一个注意力头的向量维度,softmax为归一化函数。
然后,将注意力计算结果与字符的局部语义向量进行残差连接,并与字符的字向量拼接,得到字符的表征向量yi,公式如下:
在一实施例中,参见图2所示,将自适应结合层输出的每个字符的表征向量输入序列建模网络中,以更好的建模字符间的序列依赖。具体实现过程包括:通过本序列建模网络中的前向长短时记忆网络对每个字符的表征向量进行隐层建模得到每个字符的前向隐层向量,通过本序列建模网络中的后向长短时记忆网络对每个字符的表征向量进行隐层建模得到每个字符的后向隐层向量,最后通过本序列建模网络中的拼接层对每个字符的前向隐层向量和后向隐层向量分别进行拼接得到每个字符的隐层向量,隐层向量序列表示为H={h1,h2,...,hn}。
其中,前向长短时记忆网络和后向长短时记忆网络均为LSTM(Long Short TermMemory networks,长短期记忆网络)网络。
本领域技术人员可以理解的是,实体识别模型中的标签推理层可以采用条件随机场算法在所有可能的标签序列中,找到条件概率最大的序列即为最终的标签序列。
步骤102:获取实体识别模型输出的标签序列并作为命名实体识别结果。
基于上述图2中所示,输入的中文字符序列“张三家在江东北路”,经过图2所示的实体识别模型后输出的命名实体识别结果为B-NR、E-NR、O、O、B-NS、M-NS、M-NS、E-NS。其中,“B”表示实体的开始位,“E”表示实体的结束位,“M”表示实体的中间位,“NR”表示人名实体,“NS”表示地名实体,“O”表示其他。
针对上述步骤101至步骤102的过程,通过采用相同的数据集将本方案与现有的实体识别模块进行对比,评判则是按照精确率P值、召回率R值与F1分数值来衡量,如下述表1所示,无论是精确率P值、还是召回率R值和F1分数值,本方案模型均优于现有模型。
模型 | P | R | F1 |
现有模型1 | 93.66 | 93.31 | 93.48 |
现有模型2 | 94.81 | 94.11 | 94.46 |
本方案模型 | 95.60 | 95.95 | 95.77 |
表1
另外,本发明通过采用控制变量的方式,将模型中的主要改进点分别取消进行对比实验,以论证各个改进点对模型整体改进的贡献。如下述表2所示,第一行为本方案完整模型的F1数值;第二行为去除完整模型中的卷积网络,直接将字符嵌入层的输出作为自适应结合层的输入,实验结果表明去掉卷积网络后导致0.3的F1值损失。这意味着卷积网络对于字符局部信息的学习有着重要作用,且融合了局部信息的字符特征可以为与潜在词计算注意力提供依据;第三行为去除完整模型中的自适应结合层,直接将卷积网络的输出作为序列建模网络的输入,实验结果表明去掉自适应结合层后导致6.6的F1值损失,由此可知,基于字词间注意力的自适应结合层对于本模型的识别效果改进起着主要作用。
模型 | F1 |
本方案模型 | 61.01 |
-CNN | 60.70 |
-CAW | 54.41 |
表2
至此,完成上述图1所示流程,通过将中文字符序列输入实体识别模型中,通过卷积网络提取每个字符的局部语义信息后,与对应的潜在词基于字词间注意力自适应计算实现字词信息融合,从而充分且合理的实现潜在词信息的利用,避免了词边界错误传递的问题,进而达到了对中文实体识别任务的优化目的。
图4为本发明根据一示例性实施例示出的一种电子设备的硬件结构图,该电子设备包括:通信接口401、处理器402、机器可读存储介质403和总线404;其中,通信接口401、处理器402和机器可读存储介质403通过总线404完成相互间的通信。处理器402通过读取并执行机器可读存储介质403中与中文句子的命名实体识别方法的控制逻辑对应的机器可执行指令,可执行上文描述的中文句子的命名实体识别方法,该方法的具体内容参见上述实施例,此处不再累述。
本发明中提到的机器可读存储介质403可以是任何电子、磁性、光学或其它物理存储装置,可以包含或存储信息,如可执行指令、数据,等等。例如,机器可读存储介质可以是:易失存储器、非易失性存储器或者类似的存储介质。具体地,机器可读存储介质403可以是RAM(Random Access Memory,随机存取存储器)、闪存、存储驱动器(如硬盘驱动器)、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。
与前述中文句子的命名实体识别方法的实施例相对应,本发明还提供了中文句子的命名实体识别装置的实施例。
图5为本发明根据一示例性实施例示出的一种中文句子的命名实体识别装置的实施例流程图,如图5所示,该中文句子的命名实体识别装置包括:
实体识别模块510,用于将中文字符序列输入已训练的实体识别模型,以由本实体识别模型通过字符嵌入层将所述中文字符序列中的每个字符转换为字向量,并输出到本实体识别模型中的卷积网络,以由所述卷积网络对每个字向量进行卷积运算得到局部语义向量,并输出到本实体识别模型中的自适应结合层,以由所述自适应结合层对每个字符的局部语义向量进行注意力计算后与对应的字向量拼接得到表征向量,并输出到本实体识别模型中的序列建模网络,以由所述序列建模网络对每个字符的表征向量进行隐层建模,并将建模得到的隐层向量输出到本实体识别模型中的标签推理层计算每个字符的隐层向量对应的标签;
获取模块520,用于获取所述实体识别模型输出的标签序列并作为命名实体识别结果。
在一可选实现方式中,所述获取模块510,具体用于在字符嵌入层将所述中文字符序列中的每个字符转换为字向量过程中,针对所述中文字符序列中的每个字符,在已训练的字向量表中查找该字符对应的字向量。
在一可选实现方式中,所述获取模块510,具体用于在所述卷积网络对每个字向量进行卷积运算得到局部语义向量过程中,针对每个字向量,通过本卷积网络中的第一卷积层对该字向量进行卷积运算,并输出给本卷积网络的第二卷积层;所述第二卷积层对第一卷积层得到的向量进行卷积运算得到该字向量的局部语义向量。
在一可选实现方式中,所述获取模块510,具体用于在所述自适应结合层对每个字符的局部语义向量进行注意力计算后与对应的字向量拼接得到表征向量过程中,接收本实体识别模型中潜在词嵌入层输出的每个字符对应的所有潜在词的词向量矩阵;针对每个字符,将该字符的局部语义向量与词向量矩阵进行注意力计算,并将注意力计算结果与该字符的字向量进行拼接得到该字符的表征向量。
在一可选实现方式中,所述获取模块510,具体用于在所述潜在词嵌入层获取每个字符对应的所有潜在词的词向量矩阵过程中,将所述中文字符序列与预先构建的字典树进行匹配,以获得子字符串;将每个子字符串与已训练的词典进行匹配,以获取匹配成功的子字符串;将匹配成功的子字符串与其包含的字符进行关联,以得到每个字符的潜在词集合;针对每个字符,在词向量表中查询该字符的潜在词集合中每个潜在词的词向量以组成该字符的词向量矩阵。
在一可选实现方式中,所述获取模块510,具体用于在所述序列建模网络对每个字符的表征向量进行隐层建模过程中,通过本序列建模网络中的前向长短时记忆网络对每个字符的表征向量进行隐层建模得到每个字符的前向隐层向量;通过本序列建模网络中的后向长短时记忆网络对每个字符的表征向量进行隐层建模得到每个字符的后向隐层向量;通过本序列建模网络中的拼接层对每个字符的前向隐层向量和后向隐层向量分别进行拼接得到每个字符的隐层向量。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种中文句子的命名实体识别方法,其特征在于,所述方法包括:
将中文字符序列输入已训练的实体识别模型,以由本实体识别模型通过字符嵌入层将所述中文字符序列中的每个字符转换为字向量,并输出到本实体识别模型中的卷积网络,以由所述卷积网络对每个字向量进行卷积运算得到局部语义向量,并输出到本实体识别模型中的自适应结合层,以由所述自适应结合层对每个字符的局部语义向量进行注意力计算后与对应的字向量拼接得到表征向量,并输出到本实体识别模型中的序列建模网络,以由所述序列建模网络对每个字符的表征向量进行隐层建模,并将建模得到的隐层向量输出到本实体识别模型中的标签推理层计算每个字符的隐层向量对应的标签;
获取所述实体识别模型输出的标签序列并作为命名实体识别结果。
2.根据权利要求1所述的方法,其特征在于,字符嵌入层将所述中文字符序列中的每个字符转换为字向量,包括:
针对所述中文字符序列中的每个字符,在已训练的字向量表中查找该字符对应的字向量。
3.根据权利要求1所述的方法,其特征在于,所述卷积网络对每个字向量进行卷积运算得到局部语义向量,包括:
针对每个字向量,通过本卷积网络中的第一卷积层对该字向量进行卷积运算,并输出给本卷积网络的第二卷积层;
所述第二卷积层对第一卷积层得到的向量再进行卷积运算得到该字向量的局部语义向量。
4.根据权利要求1所述的方法,其特征在于,所述自适应结合层对每个字符的局部语义向量进行注意力计算后与对应的字向量拼接得到表征向量,包括:
接收本实体识别模型中潜在词嵌入层输出的每个字符对应的所有潜在词的词向量矩阵;
针对每个字符,将该字符的局部语义向量与词向量矩阵进行注意力计算,并将注意力计算结果与该字符的字向量进行拼接得到该字符的表征向量。
5.根据权利要求4所述的方法,其特征在于,所述潜在词嵌入层获取每个字符对应的所有潜在词的词向量矩阵,包括:
将所述中文字符序列与预先构建的字典树进行匹配,以获得子字符串;
将每个子字符串与已训练的词典进行匹配,以获取匹配成功的子字符串;
将匹配成功的子字符串与其包含的字符进行关联,以得到每个字符的潜在词集合;
针对每个字符,在词向量表中查询该字符的潜在词集合中每个潜在词的词向量以组成该字符的词向量矩阵。
6.根据权利要求1所述的方法,其特征在于,所述序列建模网络对每个字符的表征向量进行隐层建模,包括:
通过本序列建模网络中的前向长短时记忆网络对每个字符的表征向量进行隐层建模得到每个字符的前向隐层向量;
通过本序列建模网络中的后向长短时记忆网络对每个字符的表征向量进行隐层建模得到每个字符的后向隐层向量;
通过本序列建模网络中的拼接层对每个字符的前向隐层向量和后向隐层向量分别进行拼接得到每个字符的隐层向量。
7.一种中文句子的命名实体识别装置,其特征在于,所述装置包括:
实体识别模块,用于将中文字符序列输入已训练的实体识别模型,以由本实体识别模型通过字符嵌入层将所述中文字符序列中的每个字符转换为字向量,并输出到本实体识别模型中的卷积网络,以由所述卷积网络对每个字向量进行卷积运算得到局部语义向量,并输出到本实体识别模型中的自适应结合层,以由所述自适应结合层对每个字符的局部语义向量进行注意力计算后与对应的字向量拼接得到表征向量,并输出到本实体识别模型中的序列建模网络,以由所述序列建模网络对每个字符的表征向量进行隐层建模,并将建模得到的隐层向量输出到本实体识别模型中的标签推理层计算每个字符的隐层向量对应的标签;
获取模块,用于获取所述实体识别模型输出的标签序列并作为命名实体识别结果。
8.根据权利要求7所述的装置,其特征在于,所述获取模块,具体用于在字符嵌入层将所述中文字符序列中的每个字符转换为字向量过程中,针对所述中文字符序列中的每个字符,在已训练的字向量表中查找该字符对应的字向量。
9.一种电子设备,其特征在于,包括可读存储介质和处理器;
其中,所述可读存储介质,用于存储机器可执行指令;
所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现权利要求1-6任一项所述方法的步骤。
10.一种芯片,其特征在于,包括可读存储介质和处理器;
其中,所述可读存储介质,用于存储机器可执行指令;
所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011530521.XA CN112711948B (zh) | 2020-12-22 | 2020-12-22 | 一种中文句子的命名实体识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011530521.XA CN112711948B (zh) | 2020-12-22 | 2020-12-22 | 一种中文句子的命名实体识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112711948A true CN112711948A (zh) | 2021-04-27 |
CN112711948B CN112711948B (zh) | 2022-11-11 |
Family
ID=75545338
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011530521.XA Active CN112711948B (zh) | 2020-12-22 | 2020-12-22 | 一种中文句子的命名实体识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112711948B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553844A (zh) * | 2021-08-11 | 2021-10-26 | 四川长虹电器股份有限公司 | 一种基于前缀树特征与卷积神经网络的领域识别方法 |
CN113779202A (zh) * | 2021-11-15 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN113889281A (zh) * | 2021-11-17 | 2022-01-04 | 重庆邮电大学 | 一种中文医疗智能实体识别方法、装置及计算机设备 |
CN113971404A (zh) * | 2021-10-29 | 2022-01-25 | 中南民族大学 | 一种基于解耦注意力的文物安全命名实体识别方法 |
CN114003007A (zh) * | 2021-10-28 | 2022-02-01 | 国家石油天然气管网集团有限公司华南分公司 | 一种基于控制系统运行数据的分析方法及相关装置 |
CN114048748A (zh) * | 2021-11-17 | 2022-02-15 | 上海勃池信息技术有限公司 | 命名实体识别系统、方法、电子设备及介质 |
CN114048730A (zh) * | 2021-11-05 | 2022-02-15 | 光大科技有限公司 | 一种分词和实体联合识别模型训练方法及装置 |
CN114154493A (zh) * | 2022-01-28 | 2022-03-08 | 北京芯盾时代科技有限公司 | 一种短信类别的识别方法及装置 |
CN114417874A (zh) * | 2022-01-25 | 2022-04-29 | 湖南大学 | 一种基于图注意力网络的中文命名实体识别方法和系统 |
CN114510946A (zh) * | 2022-04-21 | 2022-05-17 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及系统 |
CN114611521A (zh) * | 2022-04-13 | 2022-06-10 | 国家电网有限公司大数据中心 | 一种实体识别方法、装置、设备及存储介质 |
CN116151241A (zh) * | 2023-04-19 | 2023-05-23 | 湖南马栏山视频先进技术研究院有限公司 | 一种实体识别方法及装置 |
CN117933259A (zh) * | 2024-03-25 | 2024-04-26 | 成都中医药大学 | 基于局部文本信息的命名实体识别方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060835A1 (en) * | 2015-08-27 | 2017-03-02 | Xerox Corporation | Document-specific gazetteers for named entity recognition |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN110032739A (zh) * | 2019-04-18 | 2019-07-19 | 清华大学 | 中文电子病历命名实体抽取方法及系统 |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
CN110633470A (zh) * | 2019-09-17 | 2019-12-31 | 北京小米智能科技有限公司 | 命名实体识别方法、装置及存储介质 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
US20200334566A1 (en) * | 2019-04-16 | 2020-10-22 | Spreemo Health Inc. | Computer-implemented detection and statistical analysis of errors by healthcare providers |
-
2020
- 2020-12-22 CN CN202011530521.XA patent/CN112711948B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170060835A1 (en) * | 2015-08-27 | 2017-03-02 | Xerox Corporation | Document-specific gazetteers for named entity recognition |
CN108628823A (zh) * | 2018-03-14 | 2018-10-09 | 中山大学 | 结合注意力机制和多任务协同训练的命名实体识别方法 |
CN110502738A (zh) * | 2018-05-18 | 2019-11-26 | 阿里巴巴集团控股有限公司 | 中文命名实体识别方法、装置、设备和查询系统 |
US20200334566A1 (en) * | 2019-04-16 | 2020-10-22 | Spreemo Health Inc. | Computer-implemented detection and statistical analysis of errors by healthcare providers |
CN110032739A (zh) * | 2019-04-18 | 2019-07-19 | 清华大学 | 中文电子病历命名实体抽取方法及系统 |
CN110633470A (zh) * | 2019-09-17 | 2019-12-31 | 北京小米智能科技有限公司 | 命名实体识别方法、装置及存储介质 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
Non-Patent Citations (3)
Title |
---|
CHETAN CHAVAN; RANJEETSINGH SURYAWANSHI: "Summarization of tweets and Named Entity Recognition from tweet segmentation", 《IEEE》 * |
尹潇潇: "基于记忆网络的命名实体识别研究", 《CNKI优秀硕士学位论文全文库》 * |
徐文峰;杨艳;张春凤: "融合实体上下文特征的深度文本语义匹配模型", 《武汉大学学报(理学版)》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113553844A (zh) * | 2021-08-11 | 2021-10-26 | 四川长虹电器股份有限公司 | 一种基于前缀树特征与卷积神经网络的领域识别方法 |
CN114003007A (zh) * | 2021-10-28 | 2022-02-01 | 国家石油天然气管网集团有限公司华南分公司 | 一种基于控制系统运行数据的分析方法及相关装置 |
CN113971404A (zh) * | 2021-10-29 | 2022-01-25 | 中南民族大学 | 一种基于解耦注意力的文物安全命名实体识别方法 |
CN114048730A (zh) * | 2021-11-05 | 2022-02-15 | 光大科技有限公司 | 一种分词和实体联合识别模型训练方法及装置 |
CN113779202A (zh) * | 2021-11-15 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN113779202B (zh) * | 2021-11-15 | 2022-02-08 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN114048748B (zh) * | 2021-11-17 | 2024-04-05 | 上海勃池信息技术有限公司 | 命名实体识别系统、方法、电子设备及介质 |
CN113889281A (zh) * | 2021-11-17 | 2022-01-04 | 重庆邮电大学 | 一种中文医疗智能实体识别方法、装置及计算机设备 |
CN114048748A (zh) * | 2021-11-17 | 2022-02-15 | 上海勃池信息技术有限公司 | 命名实体识别系统、方法、电子设备及介质 |
CN113889281B (zh) * | 2021-11-17 | 2024-05-03 | 华美浩联医疗科技(北京)有限公司 | 一种中文医疗智能实体识别方法、装置及计算机设备 |
CN114417874A (zh) * | 2022-01-25 | 2022-04-29 | 湖南大学 | 一种基于图注意力网络的中文命名实体识别方法和系统 |
CN114417874B (zh) * | 2022-01-25 | 2024-10-15 | 湖南大学 | 一种基于图注意力网络的中文命名实体识别方法和系统 |
CN114154493A (zh) * | 2022-01-28 | 2022-03-08 | 北京芯盾时代科技有限公司 | 一种短信类别的识别方法及装置 |
CN114611521B (zh) * | 2022-04-13 | 2024-04-09 | 国家电网有限公司大数据中心 | 一种实体识别方法、装置、设备及存储介质 |
CN114611521A (zh) * | 2022-04-13 | 2022-06-10 | 国家电网有限公司大数据中心 | 一种实体识别方法、装置、设备及存储介质 |
CN114510946B (zh) * | 2022-04-21 | 2022-08-23 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及系统 |
CN114510946A (zh) * | 2022-04-21 | 2022-05-17 | 山东师范大学 | 基于深度神经网络的中文命名实体识别方法及系统 |
CN116151241A (zh) * | 2023-04-19 | 2023-05-23 | 湖南马栏山视频先进技术研究院有限公司 | 一种实体识别方法及装置 |
CN117933259A (zh) * | 2024-03-25 | 2024-04-26 | 成都中医药大学 | 基于局部文本信息的命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112711948B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112711948B (zh) | 一种中文句子的命名实体识别方法及装置 | |
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
US10437929B2 (en) | Method and system for processing an input query using a forward and a backward neural network specific to unigrams | |
CN108763510B (zh) | 意图识别方法、装置、设备及存储介质 | |
CN108628828B (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN111160031A (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN111709243A (zh) | 一种基于深度学习的知识抽取方法与装置 | |
CN108304373B (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN110096572B (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN110263325A (zh) | 中文分词系统 | |
CN114818891B (zh) | 小样本多标签文本分类模型训练方法及文本分类方法 | |
CN109948140B (zh) | 一种词向量嵌入方法及装置 | |
CN112256845A (zh) | 意图识别方法、装置、电子设备和计算机可读存储介质 | |
CN110678882A (zh) | 使用机器学习从电子文档选择回答跨距 | |
Wang et al. | DM_NLP at semeval-2018 task 12: A pipeline system for toponym resolution | |
CN111859940A (zh) | 一种关键词提取方法、装置、电子设备及存储介质 | |
CN115600597A (zh) | 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质 | |
WO2022085533A1 (ja) | 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム | |
Xu et al. | Convolutional neural network using a threshold predictor for multi-label speech act classification | |
Wang et al. | An integrated deep generative model for text classification and generation | |
CN112686059B (zh) | 文本翻译方法、装置、电子设备和存储介质 | |
Wan et al. | Multi-grained knowledge retrieval for end-to-end task-oriented dialog | |
JP4054046B2 (ja) | 意見性判定データベース作成方法及び装置及びプログラム及び意見性判定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
CN116955579A (zh) | 一种基于关键词知识检索的聊天回复生成方法和装置 | |
CN112182159A (zh) | 一种基于语义表示的个性化检索式对话方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |