CN106777336A

CN106777336A - 一种基于深度学习的公司名成分抽取系统和方法

Info

Publication number: CN106777336A
Application number: CN201710024098.8A
Authority: CN
Inventors: 张自强; 潘嵘; 赵泛舟; 李训耕; 李锐章; 周赖靖竞
Original assignee: Shenzhen Ipin Information Technology Co Ltd
Current assignee: Shenzhen Ipin Information Technology Co Ltd
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2017-05-31

Abstract

本发明涉及一种基于深度学习的公司名成分抽取方法及系统，其方法包括：采集公司名并人工标注其各个成分；将所述公司名的文本信息以及标注信息转化为向量的形式作为长短期记忆（LSTM）模型的输入；根据所述标注的向量训练所述LSTM模型，将公司名向量输入训练后的LSTM模型，输出标注结果；将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。本发明的实施不需要人工构建规则以及依赖外部数据，能大大的提高公司名成分提取的准确率和效率。

Description

一种基于深度学习的公司名成分抽取系统和方法

技术领域

本发明涉及一种数据处理方法，更具体的，涉及一种基于深度学习的公司名成分抽取系统和方法。

背景技术

根据《企业名称登记管理规定》第七条第一款和第二款的规定，公司名（企业名称）主要由以下四个部分构成：商号或者字号、行业、组织形式以及所在地的行政区划名称。现有的公司名成分抽取系统都是采用的基于规则的形式，利用规则抽取公司名中的各个成分。这种传统的方法存在下列问题：

1）规则难以正确覆盖全部的公司名形式，个人简历中的公司名书写方式因人而异，从而同一公司名会有很多不同的形式。

2）规则之间容易发生冲突，比如某些公司名中商号是一种行政区划名称，此时提取商号的规则可能会与提取行政区划的规则冲突。

3）人工提取规则的成本很高，需要拥有足够的专业知识以及观察大量的不同形式的公司名。

4）由于基于规则的方法会依赖大量的外部数据（如全国的行政区划、公司组织形式），规则抽取的速度较慢。

由于个人在书写公司名时并不一定会书写企业的注册名称，所以同一公司名在表现形式上会存在多种形式。如果根据规则去抽取公司名的组成成分，会花费大量的成本去构建规则，并且会出现规则覆盖率低和规则冲突的情况，使得抽取成分的准确率不高；基于规则的抽取还会依靠大量的外部数据，使得抽取过程耗时较长，在大规模的应用场景下其效率显得不足。

发明内容

本发明为了克服单一依赖规则抽取公司名成分时效率和准确率不足的问题，提出一种基于深度学习的公司名成分抽取方法。该方法通过训练长短时记忆(LSTM)循环神经网络模型，直接对输入公司名的各个成分进行标注，无需依赖外部数据，无需对公司名各个成分进行规则的制定。

为实现上述目的，本发明提供了一种基于深度学习的公司名成分抽取方法，该方法包括如下步骤：

步骤1，采集公司名并人工标注其各个成分；

步骤2，将所述公司名的文本信息以及标注信息转化为向量的形式作为长短期记忆（LSTM）模型的输入；

步骤3，根据所述步骤2中标注的向量训练所述LSTM模型，将公司名向量输入训练后的LSTM模型，输出标注结果；

步骤4，将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。

更具体的，所述步骤1具体包括：

采集公司名，将采集到的公司名分词，然后按公司名的成分对分词后的结果进行各个部分的人工标注。

更具体的，所述步骤2具体包括：将所述公司名的文本信息以及标注信息按词典映射转化成LSTM可以处理的向量数据，并作为LSTM模型的输入。

更具体的，所述步骤3具体包括：根据标注的向量训练LSTM模型，以公司名向量作为训练后的LSTM模型的输入，通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类，提取出公司名的各个成分，并进行各成分的标注，输出标注结果。

根据本发明的另一方面，还提供了一种基于深度学习的公司名成分抽取系统，该系统包括：

数据采集和标注模块，采集公司名并人工标注其各个成分；

数据预处理模块，将所述公司名的文本信息以及标注信息转化为向量的形式作为LSTM模型的输入；

模型训练模块，根据标注的向量训练LSTM模型，将公司名向量输入训练后的LSTM模型，输出标注结果；

标注结果处理模块，将所述LSTM模型输出的所述标注结果转化为公司名的各个成分并输出。

更具体的，所述数据采集和标注模块具体用于：

更具体的，其特征在于，所述数据预处理模块具体用于：将所述公司名的文本信息以及标注信息按词典映射转化成LSTM可以处理的向量数据，并作为LSTM模型的输入。

更具体的，所述模型训练模块具体用于：根据标注的向量训练LSTM模型，以公司名向量作为训练后的LSTM模型的输入，通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类，提取出公司名的各个成分，并进行各成分的标注，输出标注结果。

本发明基于神经网络模型LSTM，训练深度学习中常用的长短时记忆(LSTM)循环神经网络模型，以公司名作为输入，输出公司名的各个组成成分。相对于传统的基于规则的方式，由于不需要人工构建规则以及依赖外部数据，该方法能大大的提高公司名成分提取的准确率和效率。

本发明的附加方面和优点将在下面的描述部分中给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1示出了根据本发明一种基于深度学习的公司名成分抽取方法流程图；

图2示出了根据本发明一种基于深度学习的公司名成分抽取系统框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

为了更好的说明本发明的方案，下面将结合说明书附图进行说明。

图1示出了根据本发明一种基于深度学习的公司名成分抽取方法流程图。

如图1所示，根据本发明的一种基于深度学习的公司名成分抽取方法，该方法包括如下步骤：

步骤1，采集公司名并人工标注其各个成分。

具体来说，首先，采集公司名，将采集到的公司名进行分词处理，然后按公司名的成分对分词后的结果人工标注为商号或者字号、行业、组织形式以及所在地的行政区划名称四个部分，将与这四个部分以外的部分标注为无关部分。

步骤2，将所述公司名的文本信息以及标注信息转化为向量的形式作为长短期记忆（LSTM）模型的输入。

举例来说，将所述公司名的文本信息以及标注信息按词典映射转化成长短期记忆LSTM（Long Short-Term Memory）模型可以处理的向量数据，并作为LSTM模型的输入。

所述词典映射表为一个二维矩阵，其中矩阵中的每一个行向量代表一个字或者词，而字或者词与行向量的对应关系是在构建词典映射表时所设定的，通过词典映射表将待处理的字、词或者标点符号转化成LSTM可以处理的向量数据。本发明不限于此，也可以利用其它自然语言处理方法将公司名的文本信息以及标注信息转化为向量的形式。

步骤3，根据所述步骤2中标注的向量训练所述LSTM模型，将公司名向量输入训练后的LSTM模型，输出标注结果。

根据本发明的一个实施例，对按照上述方法训练好的LSTM模型进行应用。

首先将需要提取的公司名转化为公司名向量；将公司名向量通过训练好的LSTM模型，得到标注向量；最后将标注向量转化为公司名的各个成分。

如图2所示，本发明基于深度学习的公司名成分抽取系统，包括：

数据采集和标注模块，采集公司名并人工标注其各个成分。

具体来说，首先，采集公司名，将采集到的公司名进行分词分词处理，然后按公司名的成分对分词后的结果人工标注为商号或者字号、行业、组织形式以及所在地的行政区划名称四个部分，将与这四个部分以外的部分标注为无关部分。

数据预处理模块，将所述公司名的文本信息以及标注信息转化为向量的形式作为LSTM模型的输入。

举例来说，该模块将所述公司名的文本信息以及标注信息按词典映射转化成LSTM可以处理的向量数据，并作为LSTM模型的输入。

模型训练模块，根据标注的向量训练LSTM模型，将公司名向量输入训练后的LSTM模型，输出标注结果。

更具体的，该模型训练模块根据标注的向量训练LSTM模型，以公司名向量作为训练后的LSTM模型的输入，通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类，提取出公司名的各个成分，并进行各成分的标注，输出标注结果。

本发明不再使用现有技术中通用的利用规则提取公司名成分的方式，而利用深度学习的方法训练提取公司名成分的长短期记忆(LSTM)循环神经网络模型，对输入的公司名直接得到标注的结果。相对于传统的基于规则的方式，由于不需要人工构建规则以及依赖外部数据，该方法能大大的提高公司名成分提取的准确率和效率。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的公司名成分抽取方法，其特征在于，包括如下步骤：

步骤1，采集公司名并人工标注其各个成分；

2.根据权利要求1所述的一种基于深度学习的公司名成分抽取方法，其特征在于，所述步骤1具体包括：

3.根据权利要求1所述的一种基于深度学习的公司名成分抽取方法，其特征在于，所述步骤2具体包括：将所述公司名的文本信息以及标注信息按词典映射转化成LSTM可以处理的向量数据，并作为LSTM模型的输入。

4.根据权利要求1所述的一种基于LSTM的多标签行业分类方法，其特征在于，所述步骤3具体包括：根据标注的向量训练LSTM模型，以公司名向量作为训练后的LSTM模型的输入，通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类，提取出公司名的各个成分，并进行各成分的标注，输出标注结果。

5.一种基于深度学习的公司名成分抽取系统，其特征在于，该系统包括：

数据采集和标注模块，采集公司名并人工标注其各个成分；

6.根据权利要求5所述的一种基于深度学习的公司名成分抽取系统，其特征在于，所述数据采集和标注模块具体用于：

7.根据权利要求5所述的一种基于深度学习的公司名成分抽取系统，其特征在于，所述数据预处理模块具体用于：将所述公司名的文本信息以及标注信息按词典映射转化成LSTM可以处理的向量数据，并作为LSTM模型的输入。

8.根据权利要求5所述的一种基于LSTM的多标签行业分类系统，其特征在于，所述模型训练模块具体用于：根据标注的向量训练LSTM模型，以公司名向量作为训练后的LSTM模型的输入，通过所述训练后的LSTM模型判断出公司名向量中的各个字、词或标点的分类，提取出公司名的各个成分，并进行各成分的标注，输出标注结果。