CN111860981B

CN111860981B - 一种基于lstm深度学习的企业国民行业类别预测方法及系统

Info

Publication number: CN111860981B
Application number: CN202010636488.2A
Authority: CN
Inventors: 孙中利; 韩春明; 孙世敏; 赵建明; 谷永胜; 郑淑贤
Original assignee: Aerospace Information Shandong Technology Co ltd
Current assignee: Aerospace Information Shandong Technology Co ltd
Priority date: 2020-07-03
Filing date: 2020-07-03
Publication date: 2024-01-19
Anticipated expiration: 2040-07-03
Also published as: CN111860981A

Abstract

本发明提供了一种基于LSTM深度学习的企业国民行业类别预测方法及系统，本发明将企业经营范围作为基础数据，从中获取有效数据，建立与获取有效数据相匹配的行业分类模型，根据行业分类模型预测新增企业的所属国民行业类别，本预测方法融合神经网络算法LSTM，可以更加灵活、准确得到企业在行业链中的位置信息，使众多蓬勃发展的小微创新型企业得到科学的行业划分，最大限度的方便税局人员，且并不仅限于这些人员的需要。

Description

一种基于LSTM深度学习的企业国民行业类别预测方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种基于LSTM深度学习的企业国民行业类别预测方法及系统。

背景技术

国民经济行业分类是划分全社会经济活动的基础性分类，是统计工作中使用范围最广、使用频率最高的分类标准，是处理和交换经济普查信息的基础。

国民经济行业分类是自然语言处理领域的一个重要应用。首先，在文本特征表示上，有词向量和词袋模型两种。由于行业范围描述大部分是专有名词，词向量不适用于此场景。并且，如何提取企业描述中的业务关键词，成为了主要问题之一。

常见的分类方法有支持向量机、决策树、神经网络、逻辑回归、k邻近值、自适应增强方法等。支持向量机可用于小数据分类，而对于大数据分类难以实施，训练模型速度极慢，难以拟合。决策树可对样本快速分类，但是对于特征决策较为绝对，容易出现过拟合。传统神经网络需要拟合的参数量较大，训练过程极慢，不适用于大数据处理。逻辑回归与传统神经网络类似，而k邻近值计算复杂，需要大存储量。自适应增强方法将多个弱分类器组成强分类器，在分类效果上，略差于梯度提升决策树，除此之外，单个分类器模型过分依赖于样本描述的覆盖率，当对一个从未出现过的描述的新样本分类时，准确率低。

综上，现有技术中常见分类方法不能满足国民经济行业分类的需求，急需一种更加灵活、准确的分类方法。

发明内容

本发明的目的是提供一种基于LSTM深度学习的企业国民行业类别预测方法及系统，旨在解决现有技术中国民经济行业分类准确率低的问题，实现提高行业分类灵活性和准确度。

为达到上述技术目的，本发明提供了一种基于LSTM深度学习的企业国民行业类别预测方法，所述方法包括以下操作：

获取企业经营范围以及行业类别基础数据，进行预处理获得有效数据；

通过分词工具对有效数据进行分词，获得数据集；

加载数据集，提取数据集特征，将企业经营范围处理成单词索引序列，单词与序号一一对应，将处理后的企业经营范围数据划分训练集和测试集；

搭建深度学习模型，模型中embedding层用word2vec模型中的词向量替换，形成二维向量，将词向量按顺序输入LSTM层中，输出一维向量，通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数；

设置模型参数，对训练集进行模型训练；

输入测试集的数据和标签，进行测试模型的预测，输出预测结果。

优选地，所述基础数据的获取包括：

通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别；

通过使用特定的接口获取某省部分企业的经营范围以及行业类别。

优选地，所述数据预处理包括：

数据清洗，包括处理缺失值、平滑噪声值、识别和处理异常值；

对于清洗后的数据进行数据集成。

优选地，所述embedding层替换后矩阵形状为：单词数*行长度。

优选地，所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。

本发明还提供了一种基于LSTM深度学习的企业国民行业类别预测系统，所述系统包括：

数据获取模块，用于获取企业经营范围以及行业类别基础数据，进行预处理获得有效数据；

分词模块，用于通过分词工具对有效数据进行分词，获得数据集；

数据集获取模块，用于加载数据集，提取数据集特征，将企业经营范围处理成单词索引序列，单词与序号一一对应，将处理后的企业经营范围数据划分训练集和测试集；

模型搭建模块，用于搭建深度学习模型，模型中embedding层用word2vec模型中的词向量替换，形成二维向量，将词向量按顺序输入LSTM层中，输出一维向量，通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数；

模型训练模块，用于设置模型参数，对训练集进行模型训练；

预测模块，用于输入测试集的数据和标签，进行测试模型的预测，输出预测结果。

优选地，所述基础数据的获取包括：

优选地，所述数据预处理包括：

对于清洗后的数据进行数据集成。

优选地，所述embedding层替换后矩阵形状为：单词数*行长度。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

与现有技术相比，本发明将企业经营范围作为基础数据，从中获取有效数据，建立与获取有效数据相匹配的行业分类模型，根据行业分类模型预测新增企业的所属国民行业类别，本预测方法融合神经网络算法LSTM，可以更加灵活、准确得到企业在行业链中的位置信息，使众多蓬勃发展的小微创新型企业得到科学的行业划分，最大限度的方便税局人员，且并不仅限于这些人员的需要。

附图说明

图1为本发明实施例中所提供的一种基于LSTM深度学习的企业国民行业类别预测方法流程图；

图2为本发明实施例中所提供的深度学习模型结构示意图；

图3为本发明实施例中所提供的一种基于LSTM深度学习的企业国民行业类别预测系统框图。

具体实施方式

为了能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

下面结合附图对本发明实施例所提供的一种基于LSTM深度学习的企业国民行业类别预测方法及系统进行详细说明。

如图1所示，本发明实施例公开了一种基于LSTM深度学习的企业国民行业类别预测方法，所述方法包括以下操作：

通过分词工具对有效数据进行分词，获得数据集；

设置模型参数，对训练集进行模型训练；

进行数据采集，获取企业的基础数据。本发明实施例主要通过网络爬虫实现的网络数据采集方法以及通过特定接口实现的其他数据采集方法进行数据采集，具体为：通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别；通过和当地税局合作，使用特定的接口获取某省部分企业的经营范围以及行业类别。将采集到的基础数据存储到服务器中。

对采集到的基础数据进行预处理，从而获取有效数据，包括数据清洗和数据集成。

数据清洗包括处理缺失值、平滑噪声值、识别和处理异常值，根据一定的业务规则，预先定义好数据清洗算法，由计算机自动执行，对数据集进行清洗，然后生成清洗报告。

删除空值数据，利用各种变换函数、格式化函数以及汇总分解函数实现处理不一致数据；

处理噪声数据，噪声数据的基本处理方法通过计算机检查和人工检查相结合，将被判定数据与已知的正常值比较，将差异程度大于某个阈值的模式输出到一个表中，人工审核后识别出噪声数据；

处理缺失值，通过人工补充和推测最有可能数据来进行，数据属性分为数值属性和非数值属性进行处理，通过利用已存数据的多数信息来推测缺失值，对于一些极端缺失的数据采用人工处理方式。

对于清洗后的数据进行数据集成，由于采集的数据源比较独立，因此通过爬虫爬取的数据和通过当地税局获取的数据，存在一定的重复性，应当在元组级检测重复。

数据预处理后对有效数据进行分词，在本发明实施例中采用Jieba分词，分词后利用词性标注结果，把词性为字符串的去掉，完成去标点符号。

Jieba分词属于概率语言模型分词，概率语言模型分词的任务是在全切分所得的所有结果中求某个切分方案s，使得切分概率最大。Jieba分词基于前缀词典实现词图扫描，生成句子中汉字所有可能成词情况所构成的有向无环图，采用动态规划查找最大概率路径，找出基于词频的最大切分组合，对于未登录词，采用基于汉字成词能力的HMM模型，采用Viterbi算法进行计算。

利用分词结果对企业进行国民行业类别预测。

加载数据集，重新划分训练集和测试集。97个大类中被预处理并标注的的类别是97类，总的记录数是382427条，但是每个类别的数据分配并不均衡，在此选择其中超过3000条记录的75类进行训练和测试。

将训练与测试数据放在一起提取特征，使用keras(高层神经网络库)的Tokenizer函数来实现，将每条记录中的企业经营范围处理成单词索引序列，单词与序号之间的对应关系靠单词的索引表来记录。在此从所有企业经营范围中提取到35502个单词，比如[种植，销售，加工]就变成了[1124,466,533]，然后将长度不足150的企业经营范围用0在前端填充，用keras的pad_sequences实现。将标签处理成one-hot向量，比如6变成[0,0,0,0,0,0,1,0,0,0,0,0,0]，用keras的to_categorical实现。

将处理后的企业经营范围按8：2分为训练集、测试集。

搭建模型，如图2所示，使用预训练的word2vec来代替embedding层，将embedding层的1065万(35502*300)个参数用word2vec模型中的词向量替换。替换后的embedding矩阵形状为35502*300，35502行代表35502个单词，每一行的长度300的行向量对应这个词在word2vec空间中的300维向量。设定embedding层的参数固定，不参加训练，从而将预训练的word2vec嵌入到深度学习模型中。

接下来的LSTM层在功能上可理解为将一个序列的词向量压缩成一个句向量。LSTM(Long Short-Term Memory，长短期记忆网络)是一种时间循环神经网络，为解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计的。

每个国民经济行业分类经过embedding层后得到一个150*300的二维向量，通过将这150个词向量按前后顺序逐个输入LSTM层中，LSTM层使用默认的tanh激活函数，最后输出一个一维的长度300的向量，最后通过Dense(全连接神经网络层)将向量长度收缩到75上，对应国民经济行业分类的75个类。

训练模型，在本发明实施例中由于当前数据量不是很大，选择keras中的fit函数，传入的x_train和y_train是被完整的加载进内存的,将所有的训练数据和测试数据加载到内存中，而当数据量很大时，可选择fit_generator函数来进行训练。

设置训练模型迭代轮次以及每次梯度更新的样本数，根据参数优化结果，将训练模型迭代轮次设置为3，每次梯度更新的样本数设置为48，并设置交叉验证集的大小，例如0.2即为在训练集上占比20％。

测试模型，输入数据和标签，然后将预测结果与标签相比较，得到两者误差并输出，当在误差允许范围内视预测结果准确，从而完成国民行业类别的预测。

本发明实施例将企业经营范围作为基础数据，从中获取有效数据，建立与获取有效数据相匹配的行业分类模型，根据行业分类模型预测新增企业的所属国民行业类别，本预测方法融合神经网络算法LSTM，可以更加灵活、准确得到企业在行业链中的位置信息，使众多蓬勃发展的小微创新型企业得到科学的行业划分，最大限度的方便税局人员，且并不仅限于这些人员的需要。

如图3所示，本发明实施例还公开了一种基于LSTM深度学习的企业国民行业类别预测系统，所述系统包括：

利用分词结果对企业进行国民行业类别预测。

将处理后的企业经营范围按8：2分为训练集、测试集。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于LSTM深度学习的企业国民行业类别预测方法，其特征在于，所述方法包括以下操作：

通过分词工具对有效数据进行分词，获得数据集；

搭建深度学习模型，模型中embedding层中的参数用word2vec模型中的词向量替换，形成二维向量，将词向量按顺序输入LSTM层中，输出一维向量，通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数；所述embedding层替换后矩阵形状为：单词数*行长度；

设置模型参数，对训练集进行模型训练；

2.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法，其特征在于，所述基础数据的获取包括：

3.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法，其特征在于，所述数据预处理包括：

对于清洗后的数据进行数据集成。

4.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法，其特征在于，所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。

5.一种基于LSTM深度学习的企业国民行业类别预测系统，其特征在于，所述系统包括：

模型搭建模块，用于搭建深度学习模型，模型中embedding层中的参数用word2vec模型中的词向量替换，形成二维向量，将词向量按顺序输入LSTM层中，输出一维向量，通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数；所述embedding层替换后矩阵形状为：单词数*行长度；

6.根据权利要求5所述的一种基于LSTM深度学习的企业国民行业类别预测系统，其特征在于，所述基础数据的获取包括：

7.根据权利要求5所述的一种基于LSTM深度学习的企业国民行业类别预测系统，其特征在于，所述数据预处理包括：

对于清洗后的数据进行数据集成。

8.根据权利要求5所述的一种基于LSTM深度学习的企业国民行业类别预测系统，其特征在于，所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。