CN113158679B

CN113158679B - 基于多特征叠加胶囊网络的海洋产业实体识别方法及装置

Info

Publication number: CN113158679B
Application number: CN202110560988.7A
Authority: CN
Inventors: 曾碧; 文松; 林镇涛
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2023-07-04
Anticipated expiration: 2041-05-20
Also published as: CN113158679A

Abstract

本申请公开了一种基于多特征叠加胶囊网络的海洋产业实体识别方法及装置。本申请基于海洋产业数据生成的词向量、以及由词向量通过LSTM运算得到的输出向量、由词向量通过中文依存句法分析算得到的父级词向量共同生成三维词向量层，再根据三维词向量层生成初级胶囊层和数字胶囊层，利用双层胶囊层的运算从初级特征中进一步抽取对命名实体识别更有效的高级特征，解决了现有的海洋产业命名实体识别效率低的技术问题。

Description

基于多特征叠加胶囊网络的海洋产业实体识别方法及装置

技术领域

本申请涉及信息处理技术领域，尤其涉及一种基于多特征叠加胶囊网络的海洋产业实体识别方法及装置。

背景技术

随着经济全球化的进一步发展，海洋经济产业也已经成为国家的重点发展的首要战略目标之一，以广东省为例，目前广东省已经形成了海洋电子信息、海工装备、海洋生物、海上风电、天然气水合物、海洋公共服务业六大海洋新兴产业。然而，从现阶段省内整个海洋经济产业发展情况来看，各产业和产品数字信息未能实现全产业贯通与联动利用，对产业数据严重缺乏综合分析利用，影响企业科学决策与产业高水平、高质量发展，因此，对这些繁杂的海洋产业信息数据使用知识抽取等方法进行结构化的处理是至关重要，而其中最基本的，也最重要的是通过构建大规模海洋产业知识图谱，将海洋产业信息数据中的实体识别出来。

随着深度学习的发展，越来越多的基于神经网络的命名实体识别算法被提出。基于深度学习的方法直接以文本中词的向量为输入，通过神经网络实现端到端的命名实体识别，但现有的命名实体识别算法几乎会依赖词特征、句法依赖特征等初级特征，这些初级特征往往对于实体的最终识别的不能完全发挥出应有的效果，导致了现有的海洋产业命名实体识别效率低的技术问题。

发明内容

本申请提供了一种基于多特征叠加胶囊网络的海洋产业实体识别方法及装置，用于解决现有的海洋产业命名实体识别效率低的技术问题。

有鉴于此，本申请第一方面提供了一种基于多特征叠加胶囊网络的海洋产业实体识别方法，包括：

基于获取到的海洋产业数据文本，通过分词处理运算层对所述海洋产业数据文本进行分词处理，得到所述海洋产业数据文本的词向量；

将所述词向量输入预设的LSTM运算层，以通过所述LSTM运算层的运算，得到第一输出向量和第二输出向量，所述第一输出向量为通过所述LSTM运算层中前向LSTM算法运算得到的输出向量，所述第二输出向量为通过所述LSTM运算层中BiLSTM算法运算得到的输出向量；

根据所述海洋产业数据文本以及所述词向量，通过中文依存句法分析工具生成得到词向量依赖树，以根据所述词向量依赖树确定所述词向量的父级词向量；

将所述词向量、所述第一输出向量、所述第二输出向量以及所述父级词向量组合到预设的三维空间中，得到三维词向量层；

通过卷积核运算方式，对所述三维词向量层卷积运算，生成初级胶囊层；

对初级胶囊层的包含的向量进行平面化处理，再根据平面化的向量，利用动态路由算法对所述平面化处理的向量进行运算，得到数字胶囊层，并根据所述数字胶囊层的输出，得到海洋产业实体的识别结果。

优选地，所述分词处理运算层具体为BERT分词处理运算层。

优选地，通过分词处理运算层对所述海洋产业数据文本进行分词处理之前还包括：

对所述海洋产业数据文本进行数据清洗。

优选地，所述中文依存句法分析工具具体为LTP分析工具。

优选地，所述海洋产业数据文本具体包括：海洋经济数据文本、海洋军事数据文本、海洋历史数据文本、海洋资讯数据文本和海洋文化数据文本。

本申请第二方面提供了一种基于多特征叠加胶囊网络的海洋产业实体识别装置，包括：

词向量获取单元，用于基于获取到的海洋产业数据文本，通过分词处理运算层对所述海洋产业数据文本进行分词处理，得到所述海洋产业数据文本的词向量；

LSTM运算单元，用于将所述词向量输入预设的LSTM运算层，以通过所述LSTM运算层的运算，得到第一输出向量和第二输出向量，所述第一输出向量为通过所述LSTM运算层中前向LSTM算法运算得到的输出向量，所述第二输出向量为通过所述LSTM运算层中BiLSTM算法运算得到的输出向量；

父级词向量确定单元，用于根据所述海洋产业数据文本以及所述词向量，通过中文依存句法分析工具生成得到词向量依赖树，以根据所述词向量依赖树确定所述词向量的父级词向量；

三维词向量层构建单元，用于将所述词向量、所述第一输出向量、所述第二输出向量以及所述父级词向量组合到预设的三维空间中，得到三维词向量层；

初级胶囊层生成单元，用于通过卷积核运算方式，对所述三维词向量层卷积运算，生成初级胶囊层；

海洋产业实体识别单元，用于对初级胶囊层的包含的向量进行平面化处理，再根据平面化的向量，利用动态路由算法对所述平面化处理的向量进行运算，得到数字胶囊层，并根据所述数字胶囊层的输出，得到海洋产业实体的识别结果。

优选地，所述分词处理运算层具体为BERT分词处理运算层。

优选地，还包括：

数据清洗单元，用于对所述海洋产业数据文本进行数据清洗。

优选地，所述中文依存句法分析工具具体为LTP分析工具。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请基于海洋产业数据生成的词向量、以及由词向量通过LSTM运算得到的输出向量、由词向量通过中文依存句法分析算得到的父级词向量共同生成三维词向量层，再根据三维词向量层生成初级胶囊层和数字胶囊层，利用双层胶囊层的运算从初级特征中进一步抽取对命名实体识别更有效的高级特征，解决了现有的海洋产业命名实体识别效率低的技术问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本申请提供的一种多特征叠加胶囊网络的海洋产业实体识别方法的一个实施例的流程示意图；

图2为本申请提供的一种多特征叠加胶囊网络的海洋产业实体识别方法模型网络架构示意图；

图3为本申请提供的一种多特征叠加胶囊网络的海洋产业实体识别装置的一个实施例的结构示意图。

具体实施方式

本申请实施例提供了一种基于多特征叠加胶囊网络的海洋产业实体识别方法及装置，用于解决现有的海洋产业命名实体识别效率低的技术问题。

为使得本申请的发明目的、特征、优点能够更加的明显和易懂，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本申请一部分实施例，而非全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

请参阅图1和图2，本申请第一个实施例提供了一种基于多特征叠加胶囊网络的海洋产业实体识别方法，包括：

步骤101、基于获取到的海洋产业数据文本，通过分词处理运算层对海洋产业数据文本进行分词处理，得到海洋产业数据文本的词向量。

需要说明的是，本实施例提及的分词处理运算层优选为BERT分词处理运算层，首先，基于通过爬虫技术获取到的海洋产业数据文本，使用BERT对其进行分词处理，以获得词语对应的固定维数的词向量。

步骤102、将词向量输入预设的LSTM运算层，以通过LSTM运算层的运算，得到第一输出向量和第二输出向量，第一输出向量为通过LSTM运算层中前向LSTM算法运算得到的输出向量，第二输出向量为通过LSTM运算层中BiLSTM算法运算得到的输出向量。

需要说明的是，将步骤101中得到的词向量输入到预设的LSTM运算层进行运算，从而得到第一输出向量和第二输出向量，本实施例所提及的LSTM运算层包括：前向LSTM算法和BiLSTM算法，本实施例提及的第一输出向量即为通过LSTM运算层中前向LSTM算法运算得到的输出向量，第二输出向量为通过LSTM运算层中BiLSTM算法运算得到的输出向量。

步骤103、根据海洋产业数据文本以及词向量，通过中文依存句法分析工具生成得到词向量依赖树，以根据词向量依赖树确定词向量的父级词向量。

需要说明的是，本实施例提及的中文依存句法分析工具优选为LTP分析工具，通过该LTP分析工具的API接口得到当前输入句子中各个词向量之间的依存关系，得到词向量依赖树，并根据该词向量依赖树找出每个词向量之间的父级依存关系，即确定词向量的父级词向量。当输入的词语查找到无父级依存关系时，可将自身词语作为父级依存关系。

步骤104、将词向量、第一输出向量、第二输出向量以及父级词向量组合到预设的三维空间中，得到三维词向量层。

将对应词语的BERT输出词向量、前向LSTM算法对应的第一输出向量、BiLSTM对应的第二输出向量和对应词语的父级依存的父级词向量进行组合得到M x N x L的三维词向量层。

步骤105、通过卷积核运算方式，对三维词向量层卷积运算，生成初级胶囊层。

步骤106、对初级胶囊层的包含的向量进行平面化处理，再根据平面化的向量，利用动态路由算法对平面化处理的向量进行运算，得到数字胶囊层，并根据数字胶囊层的输出，得到海洋产业实体的识别结果。

需要说明的是，根据步骤104得到的三维词向量层，先对其使用卷积核P进行卷积得到了初级胶囊层，其中提及的卷积核优选采用3*3卷积核。之后制作数字胶囊层，将初级胶囊层的三维词向量拉平，即将三维向量转换为二维向量，然后对应位置组合，得到i个胶囊，每个胶囊都是S x 1的向量，使用动态路由算法得到数字胶囊层。本实施例提及的动态路由算法如下表1所示，数字胶囊向量个数根据所识别的类别个数得到，最后对向量进行求模，得到模值最大的第j个向量就是代表实体对应的分类。

表1中第一行指明了动态路由算法算法的输入：低层l中的所有胶囊及其输出û，以及路由迭代计数r。

是一个临时变量，它的值会在迭代过程中更新，当整个算法运行完毕后，它的值将被保存到/>

。在训练开始时，/>

的值被初始化为零。

最后一行指明了动态路由算法的输出，即一个高层胶囊

。

最后，经过前序步骤中已有的分词处理运算层、LSTM运算层、初级胶囊层以及数字胶囊层对海洋产业数据文本的处理，根据数字胶囊层输出的结果，得到海洋产业实体的识别结果。

更具体地，以数据集句子：“广州市的渔业园盛产罗非鱼”为例。

按照步骤描述的方法，首先对句子进行分词，得到：广州市/的/渔业园/盛产/罗非鱼；然后对这些词语使用BERT得到相对应的300维词语向量输入到Bi LSTM中；之后通过LTP的接口得到句子中各个词语之间的依存关系，如下图所示。将前向LSTM的300维向量、BiLSTM输出的300维向量、BERT的300维词向量和对应词语的父级依存300维词向量组合成一个三维向量层，再进行复制全部词向量得到双层。对前面的双层三维词向量层300 x 4 x 2使用卷积核3进行卷积得到了初级胶囊层。之后制作数字胶囊层，将初级胶囊层的三维向量拉平，然后对应位置组合，得到150个胶囊，每个胶囊都是8 x 2的向量，使用动态路由算法得到数字胶囊层。数字胶囊层一共得到17个，对应17个分类标签的得分。

最后得到广州市---地名、渔业园---机构名和罗非鱼---海洋种类。

以上为本申请提供的一种基于多特征叠加胶囊网络的海洋产业实体识别方法的一个实施例的详细说明，下面为本申请提供的一种基于多特征叠加胶囊网络的海洋产业实体识别装置的一个实施例的详细说明。

请参阅图3，本申请第二个实施例提供了一种基于多特征叠加胶囊网络的海洋产业实体识别装置，包括：

词向量获取单元201，用于基于获取到的海洋产业数据文本，通过分词处理运算层对海洋产业数据文本进行分词处理，得到海洋产业数据文本的词向量；

LSTM运算单元202，用于将词向量输入预设的LSTM运算层，以通过LSTM运算层的运算，得到第一输出向量和第二输出向量，第一输出向量为通过LSTM运算层中前向LSTM算法运算得到的输出向量，第二输出向量为通过LSTM运算层中BiLSTM算法运算得到的输出向量；

父级词向量确定单元203，用于根据海洋产业数据文本以及词向量，通过中文依存句法分析工具生成得到词向量依赖树，以根据词向量依赖树确定词向量的父级词向量；

三维词向量层构建单元204，用于将词向量、第一输出向量、第二输出向量以及父级词向量组合到预设的三维空间中，得到三维词向量层；

初级胶囊层生成单元205，用于通过卷积核运算方式，对三维词向量层卷积运算，生成初级胶囊层；

海洋产业实体识别单元206，用于对初级胶囊层的包含的向量进行平面化处理，再根据平面化的向量，利用动态路由算法对平面化处理的向量进行运算，得到数字胶囊层，并根据数字胶囊层的输出，得到海洋产业实体的识别结果。

优选地，分词处理运算层具体为BERT分词处理运算层。

进一步地，还包括：

数据清洗单元，用于对海洋产业数据文本进行数据清洗。

进一步地，中文依存句法分析工具具体为LTP分析工具。

进一步地，海洋产业数据文本具体包括：海洋经济数据文本、海洋军事数据文本、海洋历史数据文本、海洋资讯数据文本和海洋文化数据文本。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于多特征叠加胶囊网络的海洋产业实体识别方法，其特征在于，包括：

对初级胶囊层的包含的向量进行平面化处理，再根据平面化的向量，利用动态路由算法对所述平面化处理的向量进行运算，得到数字胶囊层，并根据所述数字胶囊层的输出，得到海洋产业实体的识别结果；

其中，所述对初级胶囊层的包含的向量进行平面化处理具体包括：

对初级胶囊层的包含的三维向量转换为二维向量，然后对应位置组合，得到平面化的向量。

2.根据权利要求1所述的一种基于多特征叠加胶囊网络的海洋产业实体识别方法，其特征在于，所述分词处理运算层具体为BERT分词处理运算层。

3.根据权利要求1所述的一种基于多特征叠加胶囊网络的海洋产业实体识别方法，其特征在于，通过分词处理运算层对所述海洋产业数据文本进行分词处理之前还包括：

对所述海洋产业数据文本进行数据清洗。

4.根据权利要求1所述的一种基于多特征叠加胶囊网络的海洋产业实体识别方法，其特征在于，所述中文依存句法分析工具具体为LTP分析工具。

5.根据权利要求1所述的一种基于多特征叠加胶囊网络的海洋产业实体识别方法，其特征在于，所述海洋产业数据文本具体包括：海洋经济数据文本、海洋军事数据文本、海洋历史数据文本、海洋资讯数据文本和海洋文化数据文本。

6.一种基于多特征叠加胶囊网络的海洋产业实体识别装置，其特征在于，包括：

海洋产业实体识别单元，用于对初级胶囊层的包含的向量进行平面化处理，再根据平面化的向量，利用动态路由算法对所述平面化处理的向量进行运算，得到数字胶囊层，并根据所述数字胶囊层的输出，得到海洋产业实体的识别结果；

7.根据权利要求6所述的一种基于多特征叠加胶囊网络的海洋产业实体识别装置，其特征在于，所述分词处理运算层具体为BERT分词处理运算层。

8.根据权利要求6所述的一种基于多特征叠加胶囊网络的海洋产业实体识别装置，其特征在于，还包括：

9.根据权利要求6所述的一种基于多特征叠加胶囊网络的海洋产业实体识别装置，其特征在于，所述中文依存句法分析工具具体为LTP分析工具。

10.根据权利要求6所述的一种基于多特征叠加胶囊网络的海洋产业实体识别装置，其特征在于，所述海洋产业数据文本具体包括：海洋经济数据文本、海洋军事数据文本、海洋历史数据文本、海洋资讯数据文本和海洋文化数据文本。