CN113569048A

CN113569048A - 一种基于企业经营范围自动划分所属行业的方法及系统

Info

Publication number: CN113569048A
Application number: CN202110877003.3A
Authority: CN
Inventors: 周琼; 席宏军; 赵新峰; 杨玉东; 王庆涛; 李爽
Original assignee: CHANGCHUN WHY-E SCIENCE AND TECHNOLOGY CO LTD
Current assignee: CHANGCHUN WHY-E SCIENCE AND TECHNOLOGY CO LTD
Priority date: 2021-07-31
Filing date: 2021-07-31
Publication date: 2021-10-29

Abstract

本发明提供一种基于企业经营范围自动划分所属行业的方法及系统。方法包括：获取企业经营范围初始文本数据，并将所述初始文本数据中的噪声干扰数据去除，获得由单词组成的文本数据集；将由单词组成的文本数据集中的单词转化为词向量矩阵，形成新的词向量数据集作为行业划分模型的训练集，并随机抽取所述训练集中数据作为行业划分模型的验证集；利用机器学习技术，采用所述训练集和所述验证集分别对所述行业划分模型进行训练及验证；利用训练后的行业划分模型根据企业经营范围自动划分所属行业。系统包括数据获取模块、数据预处理模块、数据转换模块、模型训练模块和通讯模块。本发明对建立一个快速、高准确度的企业经营范围自动分类系统具有极其重要的意义。

Description

一种基于企业经营范围自动划分所属行业的方法及系统

技术领域

本发明涉及企业行业划分技术领域，具体涉及一种基于企业经营范围自动划分所属行业的方法及系统。

背景技术

企业经营范围指的是在国家允许的范围之内，企业在相关的生产活动中依法可以进行的生产和经营的商品类别、品种及服务项目，企业的经营范围很大程度上反映了企业核心业务内容和生产经营方向，同时对企业的业务活动范围设定了一个法律界限，具有一定的保护与制约性。企业的经营范围包含或者体现了该企业所属的行业或经营特性。企业可以一业为主的同时兼营其他行业，它可以横跨多个不同的领域，但是对于跨领域企业来说，我们通常将该企业的第一经营行业作为它的代表行业。研究企业经营范围自动分类的意义在于给出某个企业的经营范围，通过判断其在经营范围内的经济活动，就能够正确地自动划分该企业所属的经济行业，这对于快速准确处理、查询、了解企业具有重大意义。

在我国，企业在注册时必须要登记其经营范围，它对外具有公示效力，在企业经营过程中可以简化交易流程、节约企业成本，同时也具有一定的约束力，这使得企业必须在其经营范围之内保证自己的产品质量，为客户提供专业的服务。“营业”这个词本身的含义就很明显，经营范围是交易者决定是否继续进行交易的第一步。在实际交易往来中，企业的每个客户都不是特定的，如果第三方在交易之前要调查企业是否具有与之交易的能力，这本身就是资源的一种浪费，企业在交易过程中对每个交易人都需要不断地阐述经营范围，这样不仅效率低下，而且也会增加企业的成本，不符合企业经营过程中的效率原则。在实际交易过程中要实现这个目标也是比较难的。规定企业在登记工商信息的时候就写明企业的经营范围，不但能够提高交易效率，同时也能成为第三方的保护伞，使其免受交易企业超范围经营所带来的经济损失，减少欺诈事件的发生，对于社会稳定和经济发展具有积极促进的作用。

发明内容

针对现有技术存在的问题，本发明提供一种基于企业经营范围自动划分所属行业的方法及系统，是基于卷积神经网络(CNN)和双向长短时记忆网络 (BiLSTM)的神经网络融合模型进行文本分类。本发明的技术方案为：

第一个方面，本发明提供一种基于企业经营范围自动划分所属行业的方法，包括以下步骤：

步骤1：获取企业经营范围初始文本数据，并将所述初始文本数据中的噪声干扰数据去除，获得由单词组成的文本数据集；

步骤2：将由单词组成的文本数据集中的单词转化为词向量矩阵，形成新的词向量数据集作为行业划分模型的训练集，并随机抽取所述训练集中数据作为行业划分模型的验证集；

步骤3：利用机器学习技术，采用所述训练集和所述验证集分别对所述行业划分模型进行训练及验证；

步骤4：利用训练后的行业划分模型根据企业经营范围自动划分所属行业。

进一步地，所述步骤1中企业经营范围初始文本数据是通过python网络爬虫技术抓取互联网上公开可爬取的信息，爬取网站包括国家企业信用信息系统等。

进一步地，所述步骤1中噪声干扰信息去除包括：分词、去除停用词、清除文本格式、词性标注以及其他与分类信息无用描述中的至少一种。

优选地，所述步骤1中噪声干扰信息去除的工具采用jieba分词工具。

优选地，所述步骤2中将由单词组成的文本数据集中的单词转化为词向量矩阵是通过词嵌入向量方法。

优选地，所述步骤2中随机抽取所述训练集中10％的数据作为行业划分模型的验证集。

进一步地，所述行业划分模型包括依次相连的卷积神经网络(CNN)- 双向长短记忆网络的融合结构、第一全连接层、第二全连接层和softmax层；所述融合结构中卷积神经网络结构包括依次连接的嵌入层、卷积层和若干个最大池化层，所述卷积层包括若干个卷积单元，每个所述卷积单元对应连接 1个所述最大池化层；所述双向长短记忆网络结构的输入端连接所述嵌入层的输出端，所述双向长短记忆网络结构包括两个长短记忆网络。

进一步地，所述第一全连接层和所述第二全连接层之间还设有dropout 层。

进一步地，所述softmax层中将x分类为类别j的概率计算公式为:

式I中，x表示输入词向量(即文本数据的向量化表示)，y表示真实标签概率分布，θ表示模型参数矩阵，j表示模型预测标签概率分布，K表示真实标签y的类别个数，T表示矩阵的转置符号。

进一步地，所述步骤3是采用交叉验证的方式，将所述验证集中的词向量矩阵作为输入送至所述行业划分模型迭代最多10次，迭代过程中如果模型超过1000轮未有提升，那么提前结束训练。

优选地，在每次迭代过程中，利用批处理技术，每批次训练1000个样本，每10批数据进行一次准确率和损失率计算以评估模型，并保存最近5次的模型参数。

第二个方面，本发明提供一种基于企业经营范围自动划分所属行业的系统，包括：

数据获取模块，用于获取企业经营范围初始文本数据；

数据预处理模块，用于对初始文本数据中的噪声干扰信息进行预处理；

数据转换模块，用于将预处理后的文本数据转化为词向量矩阵；

模型训练模块，基于所述词向量矩阵，对行业划分模型进行训练及验证；

通讯模块，用于将所述数据获取模块、所述数据预处理模块、所述数据转换模块和所述模型训练模块连接。

本发明的有益效果为：

本发明综合利用卷积神经网络和双向长短时记忆网络的优势，使用卷积神经网络对文本的局部特征进行有效提取，再通过双向长短时记忆网络兼顾文本的全局特征，对词的上下文语义信息进行了充分的比较，显著提高了对文本数据特征的提取能力，兼顾了文本的全局特征，使得分类效果优于单独的卷积神经网络和双向长短时神经网络以及传统的机器学习模型。在实际工程项目中它对建立一个快速、高准确度的企业经营范围自动分类系统具有极其重要的意义。它替代了重复繁重的人工分类的工作，释放了劳动力，节约了相关人员的工作时间，大大缩减了人力成本，提高整体工作效率。

附图说明

图1为本发明实施例1中行业划分模型的结构示意图。

图2为本发明实施例2中对不同经验范围的自动划分所述行业的结果示意图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本实施例提供一种基于企业经营范围自动划分所属行业的方法及系统，所述方法包括数据预处理、文本表示、模型构建、模型训练与验证4个步骤，具体如下：

1、数据预处理

企业经营范围初始文本数据是通过python网络爬虫技术抓取互联网上公开可爬取的信息，爬取网站包括国家企业信用信息系统等。由于文本数据中存在着大量的噪声干扰信息，因此在做文本分类前需要对数据做预处理操作。通过预处理工程可以去除干扰因素影响，提升模型准确率，还能够加快模型训练速度减少训练耗时。通常中文文本预处理方法包括但不仅限于分词、去除停用词、清除文本格式和词性标注。在企业经营范围文本描述中不仅存在着停用词还存在其他与分类信息无用的描述。

2、文本表示

经过分词和去除无效的干扰信息等预处理操作后，原来的数据样本已经被转换成了由单词组成的数据样式。但是这种高维度高稀疏性的数据做深度模型训练，最后的效果都不太理想。所以，在进行模型训练之前，还需要再对数据做词向量表示，从而将文本转换成低维、稠密的词向量格式。

词向量表示方法的基本思路是将文本中的每个词映射成固定长度的向量。所有的向量构成一个词向量空间，空间中的每个点都是一个词向量，那么就可以用向量之间的距离来表示词之间的文本相似性。

词向量表示输出的是向量矩阵，即把文本这种高维度高稀疏的数据格式，转换成了连续稠密数据，避免了维度灾难。同时词向量还可以表征语义，在特征提取时能最大程度上保留文本的信息。所以，将词向量表示作为特征提取的手段，应用在文本分类系统中，能较好解决传统文本分类系统中词频加权方法造成的高维度高稀疏数据、忽略语义信息，从而解决特征表达能力弱的问题。

3、模型构建

本实施例中模型架构由卷积神经网络(CNN)和双向长短记忆网络(BiLSTM) 融合组成。具体包括依次相连的卷积神经网络(CNN)-双向长短记忆网络的融合结构、第一全连接层、第二全连接层和softmax层。

卷积神经网络部分一共有三层，第一层是词向量嵌入层，将词向量矩阵作为第一层的输入，矩阵的行是词向量序列长度，矩阵的列是词向量的维度；第二层是卷积层，由若干个卷积单元组成，每个卷积单元对应连接1个最大池化层。卷积运算的目的是提取输入的不同特征，网络越多从样本中提取到的特征就越多。第三层为若干个最大池化层(max-pool layer)，特征提取的误差主要是来自两个方面：(1)邻域大小受限造成的估计值方差增大；(2)卷积层参数误差造成估计均值的偏移。最大池化层能够减小第二种误差，更多的保留纹理信息。最后将池化层的输出进行拼接，作为第一全连接层(Fully Connectedlayers)的部分输入。

双向长短记忆网络结构包括两个长短记忆网络，其第一层也是词向量嵌入层，将嵌入层的句子矩阵作为输入；第二层、第三层均为隐藏层，当前输入与前后序列都相关，将输入序列分别从两个方向输入模型，经过隐含层保存两个方向的历史信息和未来信息，最后将两个隐层输出部分拼接，得到最后BiLSTM 的输出。

利用BiLSTM模型提取词的上下文语义信息，提取文本中词的全局特征。在第一个全连接层运算前，将CNN和BiLSTM的输出特征进行拼接作为第一个全连接层的输入特征。在第一个全连接层与第二个全连接层之间引入dropout机制，每次迭代按照提前设置好的舍弃概率放弃部分训练好的参数，使参数更新不再依赖部分固有特征，能够预防模型过拟合风险，最后的结果输入到softmax分类器输出最终文本分类结果，本方法softmax回归中将x分类为类别j的概率为:

4、模型训练与验证

训练模型时同样采用交叉验证的方式，取训练集的10％作为验证集，迭代10 次，最后再利用所有训练集数据训练模型。在每个训练周期中，利用批处理技术，每批次训练1000个样本，每10批数据便进行一次模型评估，并保存最近5 次的模型参数。

CNN+BiLSTM融合模型的训练过程如下所示。

Iter:10，Train Loss:0.10，Train Acc:94.04％，Time:0:00:27

Iter:20，Train Loss:0.08，Train Acc:94.79％，Time:0:00:59

Iter:30，Train Loss:0.09，Train Acc:94.96％，Time:0:01:34

Iter:40，Train Loss:0.07，Train Acc:95.19％，Time:0:02:06

Iter:50，Train Loss:0.06，Train Acc:95.78％，Time:0:02:48

Iter:60，Train Loss:0.06，Train Acc:94.85％，Time:0:03:26

Iter:70，Train Loss:0.05，Train Acc:95.92％，Time:0:03:58

Iter:80，Train Loss:0.05，Train Acc:96.15％，Time:0:04:29

Iter:90，Train Loss:0.05，Train Acc:97.98％，Time:0:05:03

Iter:100，Train Loss:0.04，Train Acc:97.56％，Time:0:05:46

融合模型的验证结果如下所示：

Test Loss:0.09，Test Acc:94.83％

本实施例的融合模型在训练集和验证集上都有比较好的表现，在训练集上评估时准确率达到了97.56％，在验证集上分类准确率94.83％。

上述的基于企业经营范围自动划分所属行业的方法通过以下系统实现，该系统包括：数据获取模块、数据预处理模块、数据转换模块、模型训练模块和通讯模块。具体如下：

数据获取模块，用于获取企业经营范围初始文本数据。本发明具体实施例中采用的数据获取模块为python爬虫软件，抓取互联网上公开可爬取的信息，爬取网站包括国家企业信用信息系统等。

数据预处理模块，用于对初始文本数据中的噪声干扰信息进行预处理。这些预处理包括但不仅限于分词、去除停用词、清除文本格式和词性标注。在中文分词和词性标注等领域中，有很多优秀的开源工具可供使用。通过比对各个工具的性能和实际使用效果，本发明具体实施例中采用jieba分词工具进行分本分词和去除停用词。其他无效描述信息比如“法律、法规、国务院决定规定禁止的不得经营；法律、法规、国务院决定规定应当许可(审批)的，经审批机关批准后凭许可(审批)文件经营”等干扰信息使用正则表达式匹配去除。

数据转换模块，用于将预处理后的文本数据转化为词向量矩阵。本发明具体实施例中使用word Embedding将文本转化为低维、稠密的词向量矩阵，以完成文本样本的高质量特征提取和格式转换。

模型训练模块，基于所述词向量矩阵，对行业划分模型进行训练及验证。本发明具体实施例中模型架构由卷积神经网络(CNN)和双向长短记忆网络 (BiLSTM)融合组成。卷积神经网络部分一共有三层，第一层是词向量嵌入层，将向量矩阵作为第一层的输入，矩阵的行是词向量序列长度，矩阵的列是词向量的维度；第二层是卷积层，由若干个卷积单元组成。卷积运算的目的是提取输入的不同特征，网络越多从样本中提取到的特征就越多；第三层为最大池化层。

双向长短记忆网络部分第一层是词嵌入层，将嵌入层的句子矩阵作为输入；第二层、第三层均为隐藏层，当前输入与前后序列都相关，将输入序列分别从两个方向输入模型，经过隐含层保存两个方向的历史信息和未来信息，最后将两个隐层输出部分拼接，得到最后BiLSTM的输出。

利用BiLSTM模型提取词的上下文语义信息，提取文本中词的全局特征。在第一个全连接层运算前，将CNN和BiLSTM的输出特征进行拼接作为第一个全连接层的输入特征。在第一个全连接层与第二个全连接层之间引入dropout机制，每次迭代按照提前设置好的舍弃概率放弃部分训练好的参数，使参数更新不再依赖部分固有特征，能够预防模型过拟合风险，最后的结果输入到softmax 分类器输出最终文本分类结果。

通讯模块，用于将所述数据获取模块、所述数据预处理模块、所述数据转换模块和所述模型训练模块连接。如无线或有线网络连接模块。

以上模块可以部署在同一台电脑上运行。

实施例2

具体应用案例

采用实施例1所述的方法及系统进行企业经营范围自动划分，图2给出了具体的测试结果，即给定一个经营范围，模型会打印出前三个预测分类的概率和具体分类结果，最终的结果取概率最大的那个分类类型。比如：输入“信息系统集成和物联网技术服务软件开发互联网信息服务”到行业划分模型中，即出现[0.8179146647453308，0.15430724620819092，0.013082608580589294]3 个概率，以及具体的行业分类结果。根据概率分数，自动取概率为 0.8179146647453308对应的“信息系统集成和物联网技术服务”这个划分类型。

实施例3

在实际生产过程中，国民经济行业分类便于国家更好的地管理各个行业，尤其是在对行业产品质量标准、生产工艺、产品检验(主要是食品业)等方面的管理。

将本发明方法与其他主流的文本分类进行比较，可以发现本发明方法要好于其他几种方法，具体的实验结果如下表所示：

综上所述，本发明结合不同神经网络模型的优势，使用卷积神经网络和双向长短时神经网络的融合模型对文本信息分类。该模型既能利用CNN有效提取文本的局部特征，又可以利用BiLSTM考虑词的上下文语义信息，兼顾了文本的全局特征。与上文实验所用的SVM模型和朴素贝叶斯算法相比，该文本特征融合模型显著增强了文本特征提取能力，使得分类效果优于单独的卷积神经网络和双向长短时神经网络以及传统的机器学习模型。在实际工程项目中它对建立一个快速、高准确度的企业经营范围自动分类系统具有极其重要的意义。它替代了重复繁重的人工分类的工作，释放了劳动力，节约了相关人员的工作时间，大大缩减了人力成本，提高整体工作效率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于企业经营范围自动划分所属行业的方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于企业经营范围自动划分所属行业的方法，其特征在于：所述步骤1中噪声干扰信息去除包括：分词、去除停用词、清除文本格式、词性标注以及其他与分类信息无用描述中的至少一种。

3.根据权利要求1或2所述的一种基于企业经营范围自动划分所属行业的方法，其特征在于：所述步骤1中噪声干扰信息去除的工具采用jieba分词工具。

4.根据权利要求1所述的一种基于企业经营范围自动划分所属行业的方法，其特征在于：所述步骤2中将由单词组成的文本数据集中的单词转化为词向量矩阵是通过词嵌入向量方法。

5.根据权利要求1所述的一种基于企业经营范围自动划分所属行业的方法，其特征在于：所述步骤2中随机抽取所述训练集中10％的数据作为行业划分模型的验证集。

6.根据权利要求1所述的一种基于企业经营范围自动划分所属行业的方法，其特征在于：所述行业划分模型包括依次相连的卷积神经网络(CNN)-双向长短记忆网络的融合结构、第一全连接层、第二全连接层和softmax层；所述融合结构中卷积神经网络结构包括依次连接的嵌入层、卷积层和若干个最大池化层，所述卷积层包括若干个卷积单元，每个所述卷积单元对应连接1个所述最大池化层；所述双向长短记忆网络结构的输入端连接所述嵌入层的输出端，所述双向长短记忆网络结构包括两个长短记忆网络。

7.根据权利要求6所述的一种基于企业经营范围自动划分所属行业的方法，其特征在于：所述第一全连接层和所述第二全连接层之间还设有dropout层。

8.根据权利要求6所述的一种基于企业经营范围自动划分所属行业的方法，其特征在于：所述softmax层中将x分类为类别j的概率计算公式为:

9.根据权利要求1所述的一种基于企业经营范围自动划分所属行业的方法，其特征在于：所述步骤3是采用交叉验证的方式，将所述验证集中的词向量矩阵作为输入送至所述行业划分模型迭代最多10次。

10.一种基于企业经营范围自动划分所属行业的系统，其特征在于：包括：

数据获取模块，用于获取企业经营范围初始文本数据；