CN114611521B

CN114611521B - 一种实体识别方法、装置、设备及存储介质

Info

Publication number: CN114611521B
Application number: CN202210386674.4A
Authority: CN
Inventors: 纪鑫; 王宏刚; 杨成月; 武同心; 杨智伟; 江孔辰; 何禹德; 米娜; 褚娟; 李建芳
Original assignee: Big Data Center Of State Grid Corp Of China
Current assignee: Big Data Center Of State Grid Corp Of China
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2024-04-09
Anticipated expiration: 2042-04-13
Also published as: CN114611521A

Abstract

本发明公开了一种实体识别方法、装置、设备及存储介质，利用获取的词典对待测句子进行匹配获得字符序列的潜在词，并根据潜在词与待测句子的字符形成待测句子的格结构；将待测句子的格结构输入平面晶格Flat‑lattice模型进行编码，获得待测句子中包含的字词向量，字词向量包括：字符向量和潜在词向量；根据待测句子中的字词向量构建字词图，将字词图输入至少两个不同结构的图网络模型，融合各图网络模型输出的图节点向量得到多个语义表征向量；将多个语义表征向量进行分类，获得待测句子的实体识别结果，能够通过图神经网络构建不同粒度语义特征图表示，通过融入不同粒度的语义，充分提高实体表征信息的丰富度，进而提高实体识别效果。

Description

一种实体识别方法、装置、设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种实体识别方法、装置、设备及存储介质。

背景技术

电网的大量业务关键知识都是以文本类非结构化存储为主，在电网知识库和知识体系建设过程中，对大量业务数据的关键信息分类和抽取等主要有以下几种方法：

一种是采用人工标注、人工分词、人工梳理的方式进行关键信息分类和抽取，工作量大且不易大规模推广，也无法形成全面的电网业务领域知识积累，对知识应用层面无法提供全面有效的支撑。

另外几种方法分别是基于规则和词典的电力领域实体抽取方法，需要依靠大量专家的经验和领域数据积累，可移植性比较差；基于统计的方法所依赖的特征工程又要耗费大量的时间；深度学习方法是目前常用的实体识别方，该方法流程为先分词，再基于分词结果词级别的序列标注，这种方法会带来分词的错误传递问题，并对数据质量要求高。并且，其直接基于字符级的序列标注忽略了词级别的信息。

以上方法在实体识别过程中的字表示信息不够丰富，不能充分利用不同粒度表征信息提高实体识别效果。

发明内容

本发明提供了一种实体识别方法、装置、设备及存储介质，通过图神经网络构建不同粒度语义特征图表示，通过融入不同粒度的语义，充分提高实体表征信息的丰富度，进而提高实体识别效果。

根据本发明的一方面，提供了一种实体识别方法，包括：

利用获取的词典对待测句子进行匹配获得字符序列的潜在词，并根据所述潜在词与所述待测句子的字符形成待测句子的格结构；

将所述待测句子的格结构输入平面晶格Flat-lattice模型进行编码，获得所述待测句子中包含的字词向量，所述字词向量包括：字符向量和潜在词向量；

根据所述待测句子中的所述字词向量构建字词图，将所述字词图输入至少两个不同结构的图网络模型，融合各所述图网络模型输出的图节点向量得到多个语义表征向量；

将所述多个语义表征向量进行分类，获得所述待测句子的实体识别结果。

进一步的，所述平面晶格Flat-lattice模型通过训练样本集迭代训练预训练的Flat-lattice模型得到；

其中，通过训练样本集迭代训练预训练的Flat-lattice模型包括：

获取预训练的Flat-lattice模型、训练集中各实体样本的格结构和所述格结构对应的预设字词向量；

将各所述实体样本的格结构输入预训练的Flat-lattice模型中，得到实体样本句子中包含的初始字词向量；

基于所述初始字词向量和所述预设字词向量，采用正向传播和反向传播修改所述预训练的Flat-lattice模型中各层神经元的参数值以及连接权重，直到所述预训练的Flat-lattice模型实现收敛时，获得训练好的Flat-lattice模型。

进一步的，所述字词图包括：包含图邻接矩阵、转移图邻接矩阵、格图邻接矩阵。

进一步的，将所述字词图输入至少两个不同结构的图网络模型，融合各所述图网络模型输出的图节点向量得到多个语义表征向量包括：

获取至少两个不同的图网络模型；

将所述字词图中的节点信息分别输入各所述图网络模型，得到各所述图网络模型输出的图节点向量；所述图节点信息用于表示字符向量与潜在词向量之间的关系；

将各所述图节点向量分别匹配不同的权重后进行加和运算获得融合后的语义表征向量。

进一步的，将所述字词图中的节点信息分别输入各所述图网络模型之前，还包括：

在所述字词图中设置全局节点，所述全局节点与所述字词图中的各节点相连。

进一步的，所述图网络模型包括：包含图注意力模型、转移图注意力模型和格图注意力模型；

相应的，所述包含图注意力模型输出的图节点向量为包含图节点向量，所述转移图注意力模型输出的图节点向量为转移图节点向量，所述格图注意力模型输出的图节点向量为格图节点向量。

进一步的，将所述多个语义表征向量进行分类，获得所述待测句子的实体识别结果包括：

采用条件随机场算法获取多个语义表征向量对应的多个预测标签序列；

根据所述多个预测标签序列，采用维特比解码算法获得最优标签序列作为所述待测句子的实体识别结果。

根据本发明的另一方面，提供了一种实体识别装置，包括：

格结构获取模块，用于利用获取的词典对待测句子进行匹配获得字符序列的潜在词，并根据所述潜在词与所述待测句子的字符形成待测句子的格结构；

编码模块，用于将所述待测句子的格结构输入平面晶格Flat-lattice模型进行编码，获得所述待测句子中包含的字词向量，所述字词向量包括：字符向量和潜在词向量；

图结构模块，用于根据所述待测句子中的所述字词向量构建字词图，将所述字词图输入至少两个不同结构的图网络模型，融合各所述图网络模型输出的图节点向量得到多个语义表征向量；

实体识别模块，用于将所述多个语义表征向量进行分类，获得所述待测句子的实体识别结果。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的实体识别方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的实体识别方法。

本发明实施例的技术方案，利用获取的词典对待测句子进行匹配获得字符序列的潜在词，并根据潜在词与待测句子的字符形成待测句子的格结构；将待测句子的格结构输入平面晶格Flat-lattice模型进行编码，获得待测句子中包含的字词向量，字词向量包括：字符向量和潜在词向量；根据待测句子中的字词向量构建字词图，将字词图输入至少两个不同结构的图网络模型，融合各图网络模型输出的图节点向量得到多个语义表征向量；将多个语义表征向量进行分类，获得待测句子的实体识别结果，能够通过图神经网络构建不同粒度语义特征图表示，通过融入不同粒度的语义，充分提高实体表征信息的丰富度，进而提高实体识别效果。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种实体识别方法的流程图；

图2是本发明实施例提供的实体识别方法中利用Soft-Lexicon进行编码时的示意图；

图3是采用包含图注意力模型融合字词图的示意图；

图4是采用转移图注意力模型融合字词图的示意图；

图5是采用格图注意力模型融合字词图的示意图；

图6是本发明实施例提供的实体识别方法的模块示意图；

图7是根据本发明实施例二提供的一种实体识别装置的结构示意图；

图8是实现本发明实施例的实体识别方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实施例一提供了一种实体识别方法，本实施例可适用于对电力领域的实体识别情况例如对设备缺陷分析报告、缺陷标准等非结构化信息进行知识抽取，抽取文本中缺陷描述、缺陷原因、缺陷维修维护方案等细粒度信息，并将这些信息应用到设备缺陷自动校验、缺陷设备谱系分析、缺陷影响关联分析等场景当中，辅助电力设备运维检修人员实现更高效、准确的设备维修维护。该方法可以由实体识别装置来执行，该实体识别装置可以采用硬件和/或软件的形式实现，该实体识别装置可配置于电子设备中。

在研究过程中发现，目前实体识别方法可归纳为三类：基于规则和词典的方法、基于统计的方法、基于深度学习的方法。实体识别最早是基于语言学家手工构建的规则模板或特殊字典，依据的是数据集的特征，包括地理位置、名词分块和统计信息等。词典除了选自特征外，还可以从外部常识中获取，制定好规则和词典后，就可以通过模式和字符串匹配从文本中识别实体。

基于统计的方法是根据输入的特征预测实体的标签，实体识别过程就是对序列标注的过程，序列标签之间相互依赖，综合考虑当前输入特征和前面的预测结果。另外，它需要标注好的数据来训练语言模型，得到最优的参数，再抽取对结果有影响的特征，自动识别出命名实体。基于统计的实体识别方法主要有最大熵(Maximum Entropy,ME)模型、最大熵马尔可夫模型(Maximum Entropy Markov Model,MEMM)、隐马尔可夫模型(Hidden MarkovModel,HMM)、支持向量机(Support Vector Machine,SVM)、条件随机场模型(Conditionalrandom field,CRF)。

最大熵模型的基本思想就是，以了解的部分知识作为前置条件，对未知分布最合理的推理是已知知识的最不确定或最随机的推理，任何其他选择都意味着在现有信息的基础上添加其他约束和假设。该模型结构紧凑，具有较好的通用性，缺点是训练时间复杂性非常高，训练代价难以承受，另外由于需要明确的归一化计算，导致开销比较大。

最大熵马尔可夫模型是判别式模型，认为各观测序列之间存在依赖关系，且考虑到了整个观测序列，不仅根据转移概率和表现概率建立联合概率，统计条件概率，但由于只在局部做归一化容易陷入局部最优。

隐马尔可夫模型使用比较频繁，用来描述一个含有隐含未知变量的马尔可夫过程，是典型的生成式模型，它假设当前状态下的输出值只与当前状态有关，不依赖于以往的任何状态。同时，维比特算法效率高，可以较好的捕捉所需的状态转移信息。

支持向量机算法的目的是在N维空间中找到超平面，其明确地对数据点进行分类。为了分离两类数据点，可以选择许多可能的超平面。我们的目标是找到一个具有最大边距的平面，即两个类的数据点之间的最大距离。进行实体识别时，也是将识别当作分类问题，从文本中获取每个词及其上下文的特征和该词语的标签，作为训练样本，训练SVM分类器，之后就可以对未标注的预料进行识别，但是SVM在预测实体标签时并没有考虑相邻词语。

条件随机场模型统计全局概率，在归一化时考虑数据在全局的分布，而不是仅仅在局部进行归一化。CRF是实体识别模型的基础，可以借助文本内部及上下文相关特征信息对一个位置进行标注。

电力领域文本内容的表达粒度不同，有细粒度的词、短语和句子,有粗粒度的段落文本，由于文本数据的来源多样、规模大、表达不规范等特点，实体识别和链接仍然面临以下几方面的挑战：实体识别过程中的字表示信息不够丰富；实体链接时同一文档中指称上下文容易冲突；如何融合多粒度信息表示指称和候选实体；如何充分利用不同粒度表征信息提高实体识别效果。

目前电力领域的实体识别现状如下，基于规则和词典的方法依靠专家的经验和领域数据，可移植性比较差。基于统计的方法所依赖的特征工程又要耗费大量的时间，深度学习方法对数据要求高。与本发明近似的融合字词信息的模型实现方案，其性能优于基于字符级别和先分词后实体识别的模型。这类模型或单独将字词信息构造成图，或将词信息编码作为模型输入，均单独作用于模型，不能完全解决信息传递错误，且实体表征信息有限。

如图1所示，图1是本发明实施例提供的一种基于图神经网络的电力领域实体识别的方法的流程图，该方法包括如下步骤：

S110、利用获取的词典对待测句子进行匹配获得字符序列的潜在词，并根据潜在词与待测句子的字符形成待测句子的格结构。

其中，待测句子中的每个字符依次进行排列得到序列为字符序列，利用词典对字符进行词汇匹配得到的可能词汇为潜在词。

具体的，可以将一个带有词典的待测句子匹配以获得其中的潜在单词，其中潜在词可以通过匹配已有的或自动构建的词典得到，然后得到格结构lattice。Lattice可以看作是一个字词图，其中相邻的字之间有边相连，潜在词的首字和尾字之间同样通过边相连接，是有向无环图，其中每个节点token是一个字符或一个潜在词。lattice包括句子中的一系列字符和可能的单词。潜在词的第一个字符和最后一个字符决定其位置。

S120、将待测句子的格结构输入平面晶格Flat-lattice模型进行编码，获得待测句子中包含的字词向量，字词向量包括：字符向量和潜在词向量。

具体的，将格结构转换为图并使用图神经网络(GNN)对字符和潜在词进行编码，采用全连接的自注意力模型来对序列中的长距离依赖进行建模。为了保留位置信息，Transformer模型作为一个利用注意力机制来提高模型训练速度的模型引入了序列中每个字词向量的位置表示。受位置表示概念的启发，为格结构设计了一种巧妙的位置编码。

示例性的，为一个字词向量分配两个位置索引：头部位置和尾部位置，通过它们我们可以从一组字词向量中重建一个格结构。因此，可以直接使用Transformer编码器建模格结构输入。Transformer模型的自注意力机制使字符可以与任何潜在词直接交互，包括自匹配词。对于一个字符，其自匹配潜在词表示包括它的潜在词。

如图2所示，是本发明实施例提供的实体识别方法中的平面晶格Flat-lattice模型的Transformer编码器利用Soft-Lexicon词汇增强方式进行编码时的示意图。可以将flat-lattice定义为一组跨度，并且跨度对应于节点token，head(头部)和tail(尾部)。采用一种基于Soft-Lexicon编码字词信息的汉语NER方法，其主要思想是在模型的输人层把字和词的信息编码成联合表示。对于句子中的字符，其对应的Soft-Lexicon表示为B-W、M-W、E-W和S-W四个集合，其中B-W表示以当前字符开头的潜在词的集合，M-W表示中间包含当前字符的潜在词的集合，E-W表示以当前字符结尾的潜在词的集合，S-W集合中包含的潜在词是当前字符本身，不存在相应的潜在词则为空。为了进一步利用预训练的词向量，在模型的编码层，直接使用原始的Transformer模型来融合字和词的信息。针对NER任务，Transformer模型由自注意力机制和前馈网络(FFN)层组成。每个子层后面都有残差连接和层归一化。前馈网络是具有非线性变换的位置维度的多层感知器。Transformer模型按预设数量个注意力节点分别对序列执行自注意力，然后将预设数量个注意力节点的结果连接起来。

S130、根据待测句子中的字词向量构建字词图，将字词图输入至少两个不同结构的图网络模型，融合各图网络模型输出的图节点向量得到多个语义表征向量。

具体的，根据待测句子中的字词向量(字符向量和潜在词向量)构建字词图根据待测句子中的字词向量构建字词图，该字词图可以采用邻接矩阵的形式表示。将字词图输入到至少两个不同结构的图网络模型得到各网络模型输出的图节点向量，融合各图节点向量可以得到多个语义表征向量。与早期基于多任务学习的方法相比，基于字词图的方法需要的外部资源较少，通常仅需一个已有的或自动构建的词典，而且可以同时利用词的边界信息和语义信息。利用一种基于协同图神经网络的汉语NER模型，其在编码层使用三个不同结构的图网络建模句子中字与潜在词之间不同类型的信息交互。

示例性的，字词图可以包括：包含图邻接矩阵、转移图邻接矩阵、格图邻接矩阵。图网络模型可以包括包含图注意力模型、转移图注意力模型和格图注意力模型。相应的图节点向量包括：包含图节点向量、转移图节点向量，和格图节点向量。

图注意力模型用于融合字及其自匹配的词信息，转移图注意力模型用于融合字与其最邻近的词信息,格图注意力模型用于匹配Lattice-LSTM模型中所建模的潜在词信息。模型通过叠加一个聚合层(Fusion Layer)整合三个图网络建模的信息，达到信息互补的目的。模型能够很好地建模字、词和整个句子之间的交互信息。

S140、将多个语义表征向量进行分类，获得待测句子的实体识别结果。

具体的，利用条件随机场算法完成结构化预测。将图网络模型的输出，即融合了多种词典知识的语义表征向量，作为条件随机场的输入。由于条件随机场能够预测标签之间的依赖关系，并且利用维特比解码方式从所有预测的标签中选择最优的标签序列，即实体识别的标签。

本发明实施例提供的技术方案，利用获取的词典对待测句子进行匹配获得字符序列的潜在词，并根据潜在词与待测句子的字符形成待测句子的格结构；将待测句子的格结构输入平面晶格Flat-lattice模型进行编码，获得待测句子中包含的字词向量，字词向量包括：字符向量和潜在词向量；根据待测句子中的字词向量构建字词图，将字词图输入至少两个不同结构的图网络模型，融合各图网络模型输出的图节点向量得到多个语义表征向量；将多个语义表征向量进行分类，获得待测句子的实体识别结果，能够通过图神经网络构建不同粒度语义特征图表示，通过融入不同粒度的语义，充分提高实体表征信息的丰富度，进而提高实体识别效果。

可选的，平面晶格Flat-lattice模型通过训练样本集迭代训练预训练的Flat-lattice模型得到；

获取预训练的Flat-lattice模型、训练集中各实体样本的格结构和格结构对应的预设字词向量；

将各实体样本的格结构输入预训练的Flat-lattice模型中，得到实体样本句子中包含的初始字词向量；

基于初始字词向量和预设字词向量，采用正向传播和反向传播修改预训练的Flat-lattice模型中各层神经元的参数值以及连接权重，直到预训练的Flat-lattice模型实现收敛时，获得训练好的Flat-lattice模型。

具体的，利用训练样本集中的实体样本，实体样本中句子的初始字符向量可以通过在word2vec模型在大规模的语料上学习得到。获得初始字符向量后，根据初始字符向量，利用双向长短期记忆网络来获取待测句子的句子向量。再遍历获取的词典，得到匹配的潜在词，查询匹配上的词典中对应潜在词的潜在词向量，获得原始潜在词向量。之后采用正向传播和反向传播修改预训练的Flat-lattice模型中各层神经元的参数值以及连接权重，直到预训练的Flat-lattice模型实现收敛时，获得训练好的Flat-lattice模型。最后将待测句子的格结构输入训练好的Flat-lattice模型中，获得待测句子中包含的字符向量和/或潜在词向量。

可选的，将字词图输入至少两个不同结构的图网络模型，融合各图网络模型输出的图节点向量得到多个语义表征向量包括：

获取至少两个不同的图网络模型；

将字词图中的节点信息分别输入各图网络模型，得到各图网络模型输出的图节点向量；图节点信息用于表示字符向量与潜在词向量之间的关系；

将各图节点向量分别匹配不同的权重后进行加和运算获得融合后的语义表征向量。

示例性的，图3为采用包含图注意力模型融合字及其自匹配的词信息示意图，从图3中可以看出，可以获得字符C1-2的边界字符C1、C2，字符C3-5的边界字符C3、C5，字符C8-10的边界字符C8、C10等。

图4为采用转移图注意力模型捕捉字符最近的上下文潜在词的语义信息的示意图，从图4中可以看出，可以获得字符C3-5的上下文信息C2、C6，字符C8-9的上下文信息C7、C10等。

图5为采用格图注意力模型获得整合潜在词汇知识的示意图，从图5可以看出，可以获得字符C1、C2的最佳整合词汇C1-2，字符C5、C6的最佳整合词汇C5-6。

可选的，将字词图中的节点信息分别输入各图网络模型之前，还包括：

在字词图中设置全局节点，全局节点与字词图中的各节点相连。

具体的，为了获取全局信息，添加了一个全局节点来连接每个字符节点和潜在词边。句子对应一个全局节点，全局节点与图中其他节点都有边相连。对于有k个字符节点，m个词边，构造k+m个全局连接，将每个节点和边连接到全局节点。

利用全局连接，每两个不相邻的节点是两跳邻居，并且通过两步更新来接收非本地信息。

由此，通过把输入待测句子转换成一个基于字和词的有向图。待测句子中的个字符对应一引入全局节点建模句子的语义，有利于缓解潜在词冲突，充分表征字符的全局语义和局部语义信息，同时通过一种层次结构来融合基于字词编码和基于字词图的方法，综合了上下文信息以及Soft-Lexicon词汇和最近上下文词汇的词汇知识，令字词编码和基于字词图达到互补效果。

可选的，将多个语义表征向量进行分类，获得待测句子的实体识别结果包括：

根据多个预测标签序列，采用维特比解码算法获得最优标签序列作为待测句子的实体识别结果。

图6是本发明实施例提供的实体识别方法的结构示意图。如图6所示，本发明首先获取待识别句子的字符和潜在词，接着对字符和潜在词进行编码处理，获得待识别句子中的字符向量和潜在词向量，接着将潜在词向量和待识别句子进行拼接，通过图网络获得语义表征向量，最后采用条件随机场算法完成结构化预测。本发明实施例提供的基于图神经网络的电力领域实体识别所用到的方法的模块包括编码层(Encoding layer)、图层(Graphlayer)、融合层(Fusion layer)和解码层(Decoding layer)，其中，编码层用于获得待识别句子的字符向量和潜在词向量，图层用于获取字符自匹配词汇的边界信息和语义信息、捕获字符最近的上下文词汇和语义信息、以及整合词汇知识，融合层用于融合图层捕获的不同词汇知识，解码层用于使用条件随机场算法识别标签。

本发明提供的技术方案，通过将待测句子的格结构中包含的字符和潜在词的信息作为编码层的输入，不仅利用了潜在词的边界信息，还利用了词的语义信息，之后将编码后的字符向量和潜在词向量拼接为字词图，将字词图输入预设数目个不同结构的图网络模型，待测句子中的每个字符对应引入全局节点建模待测句子的语义，有利于缓解潜在词冲突，充分表征字符的全局语义和局部语义信息，提高实体表征信息的丰富度，进而提高实体识别效果。

实施例二

图7为本发明实施例三提供的一种实体识别装置的结构示意图。如图7所示，该装置包括：格结构获取模块210、编码模块220、图结构模块230和实体识别模块240；

其中，格结构获取模块210，用于利用获取的词典对待测句子进行匹配获得字符序列的潜在词，并根据所述潜在词与所述待测句子的字符形成待测句子的格结构；

编码模块220，用于将所述待测句子的格结构输入平面晶格Flat-lattice模型进行编码，获得所述待测句子中包含的字词向量，所述字词向量包括：字符向量和潜在词向量；

图结构模块230，用于根据所述待测句子中的所述字词向量构建字词图，将所述字词图输入至少两个不同结构的图网络模型，融合各所述图网络模型输出的图节点向量得到多个语义表征向量；

实体识别模块240，用于将所述多个语义表征向量进行分类，获得所述待测句子的实体识别结果。

可选的，所述平面晶格Flat-lattice模型通过训练样本集迭代训练预训练的Flat-lattice模型得到；

可选的，所述字词图包括：包含图邻接矩阵、转移图邻接矩阵、格图邻接矩阵。

可选的，所述融合模块包括具体用于：

获取至少两个不同的图网络模型；

可选的，还包括设置模块用于：

可选的，所述图网络模型包括：包含图注意力模型、转移图注意力模型和格图注意力模型；

可选的，所述分类模块具体用于：

本发明实施例所提供的实体识别装置可执行本发明任意实施例所提供的实体识别方法，具备执行方法相应的功能模块和有益效果。

实施例三

图8示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图8所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如实体识别方法。

在一些实施例中，实体识别方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的实体识别方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行实体识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种实体识别方法，其特征在于，包括：

根据所述待测句子中的所述字词向量构建字词图；所述字词图包括：包含图邻接矩阵、转移图邻接矩阵和格图邻接矩阵；

将各所述字词图分别输入对应的图网络模型，融合各所述图网络模型输出的图节点向量得到多个语义表征向量；所述图网络模型包括：包含图注意力模型、转移图注意力模型和格图注意力模型；图注意力模型用于融合字及其自匹配的词信息，转移图注意力模型用于融合字与其最邻近的词信息，格图注意力模型用于匹配Lattice-LSTM模型中所建模的潜在词信息；

2.根据权利要求1所述的方法，其特征在于，所述平面晶格Flat-lattice模型通过训练样本集迭代训练预训练的Flat-lattice模型得到；

3.根据权利要求1所述的方法，其特征在于，将各所述字词图分别输入对应的图网络模型，融合各所述图网络模型输出的图节点向量得到多个语义表征向量包括：

获取各图网络模型；

将各所述字词图中的节点信息分别输入对应的所述图网络模型，得到各所述图网络模型输出的图节点向量；所述图节点信息用于表示字符向量与潜在词向量之间的关系；

4.根据权利要求3所述的方法，其特征在于，将所述字词图中的节点信息分别输入各所述图网络模型之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述包含图注意力模型输出的图节点向量为包含图节点向量，所述转移图注意力模型输出的图节点向量为转移图节点向量，所述格图注意力模型输出的图节点向量为格图节点向量。

6.根据权利要求1所述的方法，其特征在于，将所述多个语义表征向量进行分类，获得所述待测句子的实体识别结果包括：

7.一种实体识别装置，其特征在于，包括：

图结构模块，用于根据所述待测句子中的所述字词向量构建字词图，将各所述字词图分别输入对应的图网络模型，融合各所述图网络模型输出的图节点向量得到多个语义表征向量；所述字词图包括：包含图邻接矩阵、转移图邻接矩阵和格图邻接矩阵；所述图网络模型包括：包含图注意力模型、转移图注意力模型和格图注意力模型；图注意力模型用于融合字及其自匹配的词信息，转移图注意力模型用于融合字与其最邻近的词信息，格图注意力模型用于匹配Lattice-LSTM模型中所建模的潜在词信息；

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的实体识别方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-6中任一项所述的实体识别方法。