CN111860981B - 一种基于lstm深度学习的企业国民行业类别预测方法及系统 - Google Patents
一种基于lstm深度学习的企业国民行业类别预测方法及系统 Download PDFInfo
- Publication number
- CN111860981B CN111860981B CN202010636488.2A CN202010636488A CN111860981B CN 111860981 B CN111860981 B CN 111860981B CN 202010636488 A CN202010636488 A CN 202010636488A CN 111860981 B CN111860981 B CN 111860981B
- Authority
- CN
- China
- Prior art keywords
- data
- model
- industry
- enterprise
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000013135 deep learning Methods 0.000 title claims abstract description 20
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 239000013598 vector Substances 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 47
- 230000011218 segmentation Effects 0.000 claims description 31
- 238000012360 testing method Methods 0.000 claims description 30
- 238000012545 processing Methods 0.000 claims description 27
- 238000004140 cleaning Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 14
- 238000013136 deep learning model Methods 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 8
- 230000009193 crawling Effects 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 6
- 238000009499 grossing Methods 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000013145 classification model Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 14
- 238000007689 inspection Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Tourism & Hospitality (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Development Economics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于LSTM深度学习的企业国民行业类别预测方法及系统,本发明将企业经营范围作为基础数据,从中获取有效数据,建立与获取有效数据相匹配的行业分类模型,根据行业分类模型预测新增企业的所属国民行业类别,本预测方法融合神经网络算法LSTM,可以更加灵活、准确得到企业在行业链中的位置信息,使众多蓬勃发展的小微创新型企业得到科学的行业划分,最大限度的方便税局人员,且并不仅限于这些人员的需要。
Description
技术领域
本发明涉及自然语言处理技术领域,特别是涉及一种基于LSTM深度学习的企业国民行业类别预测方法及系统。
背景技术
国民经济行业分类是划分全社会经济活动的基础性分类,是统计工作中使用范围最广、使用频率最高的分类标准,是处理和交换经济普查信息的基础。
国民经济行业分类是自然语言处理领域的一个重要应用。首先,在文本特征表示上,有词向量和词袋模型两种。由于行业范围描述大部分是专有名词,词向量不适用于此场景。并且,如何提取企业描述中的业务关键词,成为了主要问题之一。
常见的分类方法有支持向量机、决策树、神经网络、逻辑回归、k邻近值、自适应增强方法等。支持向量机可用于小数据分类,而对于大数据分类难以实施,训练模型速度极慢,难以拟合。决策树可对样本快速分类,但是对于特征决策较为绝对,容易出现过拟合。传统神经网络需要拟合的参数量较大,训练过程极慢,不适用于大数据处理。逻辑回归与传统神经网络类似,而k邻近值计算复杂,需要大存储量。自适应增强方法将多个弱分类器组成强分类器,在分类效果上,略差于梯度提升决策树,除此之外,单个分类器模型过分依赖于样本描述的覆盖率,当对一个从未出现过的描述的新样本分类时,准确率低。
综上,现有技术中常见分类方法不能满足国民经济行业分类的需求,急需一种更加灵活、准确的分类方法。
发明内容
本发明的目的是提供一种基于LSTM深度学习的企业国民行业类别预测方法及系统,旨在解决现有技术中国民经济行业分类准确率低的问题,实现提高行业分类灵活性和准确度。
为达到上述技术目的,本发明提供了一种基于LSTM深度学习的企业国民行业类别预测方法,所述方法包括以下操作:
获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;
通过分词工具对有效数据进行分词,获得数据集;
加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;
搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;
设置模型参数,对训练集进行模型训练;
输入测试集的数据和标签,进行测试模型的预测,输出预测结果。
优选地,所述基础数据的获取包括:
通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;
通过使用特定的接口获取某省部分企业的经营范围以及行业类别。
优选地,所述数据预处理包括:
数据清洗,包括处理缺失值、平滑噪声值、识别和处理异常值;
对于清洗后的数据进行数据集成。
优选地,所述embedding层替换后矩阵形状为:单词数*行长度。
优选地,所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。
本发明还提供了一种基于LSTM深度学习的企业国民行业类别预测系统,所述系统包括:
数据获取模块,用于获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;
分词模块,用于通过分词工具对有效数据进行分词,获得数据集;
数据集获取模块,用于加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;
模型搭建模块,用于搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;
模型训练模块,用于设置模型参数,对训练集进行模型训练;
预测模块,用于输入测试集的数据和标签,进行测试模型的预测,输出预测结果。
优选地,所述基础数据的获取包括:
通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;
通过使用特定的接口获取某省部分企业的经营范围以及行业类别。
优选地,所述数据预处理包括:
数据清洗,包括处理缺失值、平滑噪声值、识别和处理异常值;
对于清洗后的数据进行数据集成。
优选地,所述embedding层替换后矩阵形状为:单词数*行长度。
优选地,所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
与现有技术相比,本发明将企业经营范围作为基础数据,从中获取有效数据,建立与获取有效数据相匹配的行业分类模型,根据行业分类模型预测新增企业的所属国民行业类别,本预测方法融合神经网络算法LSTM,可以更加灵活、准确得到企业在行业链中的位置信息,使众多蓬勃发展的小微创新型企业得到科学的行业划分,最大限度的方便税局人员,且并不仅限于这些人员的需要。
附图说明
图1为本发明实施例中所提供的一种基于LSTM深度学习的企业国民行业类别预测方法流程图;
图2为本发明实施例中所提供的深度学习模型结构示意图;
图3为本发明实施例中所提供的一种基于LSTM深度学习的企业国民行业类别预测系统框图。
具体实施方式
为了能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
下面结合附图对本发明实施例所提供的一种基于LSTM深度学习的企业国民行业类别预测方法及系统进行详细说明。
如图1所示,本发明实施例公开了一种基于LSTM深度学习的企业国民行业类别预测方法,所述方法包括以下操作:
获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;
通过分词工具对有效数据进行分词,获得数据集;
加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;
搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;
设置模型参数,对训练集进行模型训练;
输入测试集的数据和标签,进行测试模型的预测,输出预测结果。
进行数据采集,获取企业的基础数据。本发明实施例主要通过网络爬虫实现的网络数据采集方法以及通过特定接口实现的其他数据采集方法进行数据采集,具体为:通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;通过和当地税局合作,使用特定的接口获取某省部分企业的经营范围以及行业类别。将采集到的基础数据存储到服务器中。
对采集到的基础数据进行预处理,从而获取有效数据,包括数据清洗和数据集成。
数据清洗包括处理缺失值、平滑噪声值、识别和处理异常值,根据一定的业务规则,预先定义好数据清洗算法,由计算机自动执行,对数据集进行清洗,然后生成清洗报告。
删除空值数据,利用各种变换函数、格式化函数以及汇总分解函数实现处理不一致数据;
处理噪声数据,噪声数据的基本处理方法通过计算机检查和人工检查相结合,将被判定数据与已知的正常值比较,将差异程度大于某个阈值的模式输出到一个表中,人工审核后识别出噪声数据;
处理缺失值,通过人工补充和推测最有可能数据来进行,数据属性分为数值属性和非数值属性进行处理,通过利用已存数据的多数信息来推测缺失值,对于一些极端缺失的数据采用人工处理方式。
对于清洗后的数据进行数据集成,由于采集的数据源比较独立,因此通过爬虫爬取的数据和通过当地税局获取的数据,存在一定的重复性,应当在元组级检测重复。
数据预处理后对有效数据进行分词,在本发明实施例中采用Jieba分词,分词后利用词性标注结果,把词性为字符串的去掉,完成去标点符号。
Jieba分词属于概率语言模型分词,概率语言模型分词的任务是在全切分所得的所有结果中求某个切分方案s,使得切分概率最大。Jieba分词基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用基于汉字成词能力的HMM模型,采用Viterbi算法进行计算。
利用分词结果对企业进行国民行业类别预测。
加载数据集,重新划分训练集和测试集。97个大类中被预处理并标注的的类别是97类,总的记录数是382427条,但是每个类别的数据分配并不均衡,在此选择其中超过3000条记录的75类进行训练和测试。
将训练与测试数据放在一起提取特征,使用keras(高层神经网络库)的Tokenizer函数来实现,将每条记录中的企业经营范围处理成单词索引序列,单词与序号之间的对应关系靠单词的索引表来记录。在此从所有企业经营范围中提取到35502个单词,比如[种植,销售,加工]就变成了[1124,466,533],然后将长度不足150的企业经营范围用0在前端填充,用keras的pad_sequences实现。将标签处理成one-hot向量,比如6变成[0,0,0,0,0,0,1,0,0,0,0,0,0],用keras的to_categorical实现。
将处理后的企业经营范围按8:2分为训练集、测试集。
搭建模型,如图2所示,使用预训练的word2vec来代替embedding层,将embedding层的1065万(35502*300)个参数用word2vec模型中的词向量替换。替换后的embedding矩阵形状为35502*300,35502行代表35502个单词,每一行的长度300的行向量对应这个词在word2vec空间中的300维向量。设定embedding层的参数固定,不参加训练,从而将预训练的word2vec嵌入到深度学习模型中。
接下来的LSTM层在功能上可理解为将一个序列的词向量压缩成一个句向量。LSTM(Long Short-Term Memory,长短期记忆网络)是一种时间循环神经网络,为解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计的。
每个国民经济行业分类经过embedding层后得到一个150*300的二维向量,通过将这150个词向量按前后顺序逐个输入LSTM层中,LSTM层使用默认的tanh激活函数,最后输出一个一维的长度300的向量,最后通过Dense(全连接神经网络层)将向量长度收缩到75上,对应国民经济行业分类的75个类。
训练模型,在本发明实施例中由于当前数据量不是很大,选择keras中的fit函数,传入的x_train和y_train是被完整的加载进内存的,将所有的训练数据和测试数据加载到内存中,而当数据量很大时,可选择fit_generator函数来进行训练。
设置训练模型迭代轮次以及每次梯度更新的样本数,根据参数优化结果,将训练模型迭代轮次设置为3,每次梯度更新的样本数设置为48,并设置交叉验证集的大小,例如0.2即为在训练集上占比20%。
测试模型,输入数据和标签,然后将预测结果与标签相比较,得到两者误差并输出,当在误差允许范围内视预测结果准确,从而完成国民行业类别的预测。
本发明实施例将企业经营范围作为基础数据,从中获取有效数据,建立与获取有效数据相匹配的行业分类模型,根据行业分类模型预测新增企业的所属国民行业类别,本预测方法融合神经网络算法LSTM,可以更加灵活、准确得到企业在行业链中的位置信息,使众多蓬勃发展的小微创新型企业得到科学的行业划分,最大限度的方便税局人员,且并不仅限于这些人员的需要。
如图3所示,本发明实施例还公开了一种基于LSTM深度学习的企业国民行业类别预测系统,所述系统包括:
数据获取模块,用于获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;
分词模块,用于通过分词工具对有效数据进行分词,获得数据集;
数据集获取模块,用于加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;
模型搭建模块,用于搭建深度学习模型,模型中embedding层用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;
模型训练模块,用于设置模型参数,对训练集进行模型训练;
预测模块,用于输入测试集的数据和标签,进行测试模型的预测,输出预测结果。
进行数据采集,获取企业的基础数据。本发明实施例主要通过网络爬虫实现的网络数据采集方法以及通过特定接口实现的其他数据采集方法进行数据采集,具体为:通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;通过和当地税局合作,使用特定的接口获取某省部分企业的经营范围以及行业类别。将采集到的基础数据存储到服务器中。
对采集到的基础数据进行预处理,从而获取有效数据,包括数据清洗和数据集成。
数据清洗包括处理缺失值、平滑噪声值、识别和处理异常值,根据一定的业务规则,预先定义好数据清洗算法,由计算机自动执行,对数据集进行清洗,然后生成清洗报告。
删除空值数据,利用各种变换函数、格式化函数以及汇总分解函数实现处理不一致数据;
处理噪声数据,噪声数据的基本处理方法通过计算机检查和人工检查相结合,将被判定数据与已知的正常值比较,将差异程度大于某个阈值的模式输出到一个表中,人工审核后识别出噪声数据;
处理缺失值,通过人工补充和推测最有可能数据来进行,数据属性分为数值属性和非数值属性进行处理,通过利用已存数据的多数信息来推测缺失值,对于一些极端缺失的数据采用人工处理方式。
对于清洗后的数据进行数据集成,由于采集的数据源比较独立,因此通过爬虫爬取的数据和通过当地税局获取的数据,存在一定的重复性,应当在元组级检测重复。
数据预处理后对有效数据进行分词,在本发明实施例中采用Jieba分词,分词后利用词性标注结果,把词性为字符串的去掉,完成去标点符号。
Jieba分词属于概率语言模型分词,概率语言模型分词的任务是在全切分所得的所有结果中求某个切分方案s,使得切分概率最大。Jieba分词基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图,采用动态规划查找最大概率路径,找出基于词频的最大切分组合,对于未登录词,采用基于汉字成词能力的HMM模型,采用Viterbi算法进行计算。
利用分词结果对企业进行国民行业类别预测。
加载数据集,重新划分训练集和测试集。97个大类中被预处理并标注的的类别是97类,总的记录数是382427条,但是每个类别的数据分配并不均衡,在此选择其中超过3000条记录的75类进行训练和测试。
将训练与测试数据放在一起提取特征,使用keras(高层神经网络库)的Tokenizer函数来实现,将每条记录中的企业经营范围处理成单词索引序列,单词与序号之间的对应关系靠单词的索引表来记录。在此从所有企业经营范围中提取到35502个单词,比如[种植,销售,加工]就变成了[1124,466,533],然后将长度不足150的企业经营范围用0在前端填充,用keras的pad_sequences实现。将标签处理成one-hot向量,比如6变成[0,0,0,0,0,0,1,0,0,0,0,0,0],用keras的to_categorical实现。
将处理后的企业经营范围按8:2分为训练集、测试集。
搭建模型,如图2所示,使用预训练的word2vec来代替embedding层,将embedding层的1065万(35502*300)个参数用word2vec模型中的词向量替换。替换后的embedding矩阵形状为35502*300,35502行代表35502个单词,每一行的长度300的行向量对应这个词在word2vec空间中的300维向量。设定embedding层的参数固定,不参加训练,从而将预训练的word2vec嵌入到深度学习模型中。
接下来的LSTM层在功能上可理解为将一个序列的词向量压缩成一个句向量。LSTM(Long Short-Term Memory,长短期记忆网络)是一种时间循环神经网络,为解决一般的RNN(循环神经网络)存在的长期依赖问题而专门设计的。
每个国民经济行业分类经过embedding层后得到一个150*300的二维向量,通过将这150个词向量按前后顺序逐个输入LSTM层中,LSTM层使用默认的tanh激活函数,最后输出一个一维的长度300的向量,最后通过Dense(全连接神经网络层)将向量长度收缩到75上,对应国民经济行业分类的75个类。
训练模型,在本发明实施例中由于当前数据量不是很大,选择keras中的fit函数,传入的x_train和y_train是被完整的加载进内存的,将所有的训练数据和测试数据加载到内存中,而当数据量很大时,可选择fit_generator函数来进行训练。
设置训练模型迭代轮次以及每次梯度更新的样本数,根据参数优化结果,将训练模型迭代轮次设置为3,每次梯度更新的样本数设置为48,并设置交叉验证集的大小,例如0.2即为在训练集上占比20%。
测试模型,输入数据和标签,然后将预测结果与标签相比较,得到两者误差并输出,当在误差允许范围内视预测结果准确,从而完成国民行业类别的预测。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述方法包括以下操作:
获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;
通过分词工具对有效数据进行分词,获得数据集;
加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;
搭建深度学习模型,模型中embedding层中的参数用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;所述embedding层替换后矩阵形状为:单词数*行长度;
设置模型参数,对训练集进行模型训练;
输入测试集的数据和标签,进行测试模型的预测,输出预测结果。
2.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述基础数据的获取包括:
通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;
通过使用特定的接口获取某省部分企业的经营范围以及行业类别。
3.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述数据预处理包括:
数据清洗,包括处理缺失值、平滑噪声值、识别和处理异常值;
对于清洗后的数据进行数据集成。
4.根据权利要求1所述的一种基于LSTM深度学习的企业国民行业类别预测方法,其特征在于,所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。
5.一种基于LSTM深度学习的企业国民行业类别预测系统,其特征在于,所述系统包括:
数据获取模块,用于获取企业经营范围以及行业类别基础数据,进行预处理获得有效数据;
分词模块,用于通过分词工具对有效数据进行分词,获得数据集;
数据集获取模块,用于加载数据集,提取数据集特征,将企业经营范围处理成单词索引序列,单词与序号一一对应,将处理后的企业经营范围数据划分训练集和测试集;
模型搭建模块,用于搭建深度学习模型,模型中embedding层中的参数用word2vec模型中的词向量替换,形成二维向量,将词向量按顺序输入LSTM层中,输出一维向量,通过全连接神经网络层将向量长度收缩为国民经济行业分类的类别数;所述embedding层替换后矩阵形状为:单词数*行长度;
模型训练模块,用于设置模型参数,对训练集进行模型训练;
预测模块,用于输入测试集的数据和标签,进行测试模型的预测,输出预测结果。
6.根据权利要求5所述的一种基于LSTM深度学习的企业国民行业类别预测系统,其特征在于,所述基础数据的获取包括:
通过网络爬虫从国家工商总局网站爬取部分企业的经营范围以及行业类别;
通过使用特定的接口获取某省部分企业的经营范围以及行业类别。
7.根据权利要求5所述的一种基于LSTM深度学习的企业国民行业类别预测系统,其特征在于,所述数据预处理包括:
数据清洗,包括处理缺失值、平滑噪声值、识别和处理异常值;
对于清洗后的数据进行数据集成。
8.根据权利要求5所述的一种基于LSTM深度学习的企业国民行业类别预测系统,其特征在于,所述设置模型参数包括训练模型迭代轮次、每次梯度更新的样本数以及交叉验证集的大小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010636488.2A CN111860981B (zh) | 2020-07-03 | 2020-07-03 | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010636488.2A CN111860981B (zh) | 2020-07-03 | 2020-07-03 | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860981A CN111860981A (zh) | 2020-10-30 |
CN111860981B true CN111860981B (zh) | 2024-01-19 |
Family
ID=73151902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010636488.2A Active CN111860981B (zh) | 2020-07-03 | 2020-07-03 | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111860981B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112784116A (zh) * | 2020-12-10 | 2021-05-11 | 复旦大学 | 一种在区块链中识别用户行业身份的方法 |
CN113298352A (zh) * | 2021-04-28 | 2021-08-24 | 北京网核精策科技管理中心(有限合伙) | 企业行业信息处理方法、装置、电子设备及可读存储介质 |
CN114595211A (zh) * | 2022-01-25 | 2022-06-07 | 杭州新中大科技股份有限公司 | 一种基于深度学习的产品数据清洗方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682217A (zh) * | 2016-12-31 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种基于自动信息筛选学习的企业二级行业分类方法 |
CN108764268A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的图文多模态情感识别方法 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109710765A (zh) * | 2018-12-28 | 2019-05-03 | 厦门笨鸟电子商务有限公司 | 一种基于自然语言处理的公司行业分类计算方法 |
CN110059692A (zh) * | 2019-04-16 | 2019-07-26 | 厦门商集网络科技有限责任公司 | 一种识别企业所属行业的方法及终端 |
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN110264311A (zh) * | 2019-05-30 | 2019-09-20 | 佛山科学技术学院 | 一种基于深度学习的商业推广信息精准推荐方法及系统 |
CN110618610A (zh) * | 2019-08-29 | 2019-12-27 | 杭州华电江东热电有限公司 | 基于LSTM深度学习的燃机NOx超标预警方法与装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10896385B2 (en) * | 2017-07-27 | 2021-01-19 | Logmein, Inc. | Real time learning of text classification models for fast and efficient labeling of training data and customization |
-
2020
- 2020-07-03 CN CN202010636488.2A patent/CN111860981B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106682217A (zh) * | 2016-12-31 | 2017-05-17 | 成都数联铭品科技有限公司 | 一种基于自动信息筛选学习的企业二级行业分类方法 |
WO2019174422A1 (zh) * | 2018-03-16 | 2019-09-19 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN108764268A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的图文多模态情感识别方法 |
CN109299253A (zh) * | 2018-09-03 | 2019-02-01 | 华南理工大学 | 一种基于深度融合神经网络的中文社交文本情绪识别模型构造方法 |
CN109710765A (zh) * | 2018-12-28 | 2019-05-03 | 厦门笨鸟电子商务有限公司 | 一种基于自然语言处理的公司行业分类计算方法 |
CN110059692A (zh) * | 2019-04-16 | 2019-07-26 | 厦门商集网络科技有限责任公司 | 一种识别企业所属行业的方法及终端 |
CN110264311A (zh) * | 2019-05-30 | 2019-09-20 | 佛山科学技术学院 | 一种基于深度学习的商业推广信息精准推荐方法及系统 |
CN110618610A (zh) * | 2019-08-29 | 2019-12-27 | 杭州华电江东热电有限公司 | 基于LSTM深度学习的燃机NOx超标预警方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111860981A (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109697162B (zh) | 一种基于开源代码库的软件缺陷自动检测方法 | |
CN111860981B (zh) | 一种基于lstm深度学习的企业国民行业类别预测方法及系统 | |
US8280719B2 (en) | Methods and systems relating to information extraction | |
Gürcan | Multi-class classification of turkish texts with machine learning algorithms | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN108984775B (zh) | 一种基于商品评论的舆情监控方法及系统 | |
Maharjan et al. | A multi-task approach to predict likability of books | |
CN101799802B (zh) | 利用结构信息进行实体关系提取的方法和系统 | |
CN108519971B (zh) | 一种基于平行语料库的跨语种新闻主题相似性对比方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
US20220067575A1 (en) | Automatically generating a pipeline of a new machine learning project from pipelines of existing machine learning projects stored in a corpus | |
CN108959395A (zh) | 一种面向多源异构大数据的层次约减联合清洗方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
US11403304B2 (en) | Automatically curating existing machine learning projects into a corpus adaptable for use in new machine learning projects | |
Leonandya et al. | A semi-supervised algorithm for Indonesian named entity recognition | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN112395881A (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN112711944A (zh) | 一种分词方法、系统、分词器生成方法及系统 | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
CN110941703A (zh) | 一种基于机器学习和模糊规则的集成简历信息抽取方法 | |
CN103955526A (zh) | 数据存储方法和装置 | |
CN109977227B (zh) | 基于特征编码的文本特征提取方法、系统、装置 | |
CN112988962A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN111538898A (zh) | 基于组合特征提取的Web服务包推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |