CN105975457A

CN105975457A - 基于全自动学习的信息分类预测系统

Info

Publication number: CN105975457A
Application number: CN201610286695.3A
Authority: CN
Inventors: 刘世林; 何宏靖
Original assignee: Chengdu Business Big Data Technology Co Ltd
Current assignee: Chengdu Business Big Data Technology Co Ltd
Priority date: 2016-05-03
Filing date: 2016-05-03
Publication date: 2016-09-28

Abstract

本发明涉及自然语言处理领域，特别涉及基于全自动学习的信息分类预测系统，所述系统包含数据存储模块、分词模块、词典映射表模块和递归神经网络模块，其中所述数据存储模块用于存储基础数据；所述词典映射表将待分类信息文本中的词映射成向量数据后输入对应时刻递归神经网络中；所述递归神经网络在递归结束后预测出待分类信息的分类概率。本发明系统打破了自然语言与神经网络技术的领域壁垒，实现基于自然语言分析的企业行业自动分类；不需要进行手动的特征选取，避免了传统方法中手动选取特征偏离具体样本的缺陷，使用了递归神经网络，更长的序列特征可以被模型所捕获，提升行业分类的准确性，为相关数据分析提供快速可靠的行业分类工具。

Description

基于全自动学习的信息分类预测系统

技术领域

本发明涉及自然语言处理领域，特别涉及基于全自动学习的信息分类预测系统。

背景技术

随着社会的进步和市场的繁荣和发展，中国经济一直处于高速的发展轨道上，企业作为社会经济中最重要的活动主体，在经济中扮演着重要的角色，对于企业信息的整理和分析有助于帮助相关决策者了解该企业的经营状况，发现潜在经营风险。而对企业主体的分析离不开对对行业归属的界定，不同行业的企业有着某些共同的行业特点和行业属性；经济、金融学家在计算国家经济指标的时候通常也希望了解各个行业分别的情况。如今我们国家已经有了数千万家的工商注册的企业，一般来讲，工商管理部门在企业注册的时候都会强制要求其注明经营范围，但是从分散的经营范围中并不能直观的得出该企业的行业归属，除了上市公司会在网上公开自己的行业类别以外，其他大部分企业的行业类别都是未公开告知的。面对千万级数量的企业进行手动的分类标注，将耗费大量的人力和物力，为了解决这个问题，可以使用自然语言处理和机器学习的方式对经营范围进行数据挖掘。

传统的自然语言处理和机器学习的方法常常采用的是手动提取特征，比如词频(TF)，逆向文件频率(IDF)，互信息(Mutual Information)，多阶语言模型(N-gram)等，然后将多个特征串联起来组成一个高维度的特征向量，之后便可以使用传统的机器学习的各种分类器，比如支持向量机(SVM)，贝叶斯网络(BN)，智能神经网络(ANN)等。但是这些传统的基于自然语言分类方法的实现都是通过手动设计的特征，特征的选取和分析方式复杂，需要耗费较多的成本，并且这些特征都是针对常规文本分类问题提出的，而不存在对具体问题的依赖，这就会造成前端特征与后端任务的脱节，导致前端花费大量精力去构思出来的特征可能根本与指定的任务不相关。

从另外一个角度来看，自然语言存在强烈的序列依赖关系，比如“计算机硬件研发”，这里的三个关键词就不能拆开来看，否则将无法准确表达这个是与计算机相关的硬件研发，而不是计算机研发(一般都包括了软、硬件)或者其他比如机械的硬件研发。传统的特征提取的方法很难捕获这样的序列依赖特征，这是因为当N比较大的时候，N-gram的语言模型规模过于庞大(即词典大小的N次方)，直接导致提取出来的特征维度无法进行后续的分类任务。

基于上述原因和现状急需一种高效率、适应性强的企业行业自动分类工具。

发明内容

本发明的目的在于克服现有技术中所存在的上述不足，提供基于全自动学习的信息分类预测系统。本发明系统使用递归神经网络对待分类的企业经营范围进行全自动特征学习，通过对自然语言的基本单元，比如字、词、标点符号等进行特征的全自动学习，从而打破了自然语言与神经网络技术的领域壁垒，以实现基于自然语言分析的企业行业分类的目的。

为了实现上述发明目的，本发明提供了以下技术方案：

基于全自动学习的信息分类预测系统，包含数据存储模块、分词模块、词典映射表模块和递归神经网络模块，其中所述数据存储模块用于存储需要进行分类的基础数据；

所述词典映射表将待分类信息文本中的词映射成向量数据后依次输入到对应时刻的所述递归神经网络中；

所述递归神经网络的输入信号即包括当前时刻向量化的字词信号，还包括上一时刻递归神经网络的输出信号，所述递归神经网络在递归结束后预测出待分类信息的分类概率。所述系统根据待分类企业的工商登记信息自动预测出该企业的行业分类。

具体的，所述递归神经网络模块中递归神经网络采用如下向前算法公式：

a_{h}^{t} = Σ_{i}^{I} w_{i h} x_{i}^{t} + Σ_{h^{'}}^{H} w_{h^{'} h} b_{h^{'}}^{t - 1}

b_{h}^{t} = θ (a_{h}^{t})

a_{k}^{T} = Σ_{h}^{H} w_{h k} b_{h}^{T}

y_{k}^{T} = \frac{\exp (a_{k}^{T})}{Σ_{k^{'}}^{k} \exp (a_{k^{'}}^{T})}

其中I是输入向量的维度，H是隐层的神经元个数，K是输出层的神经元个数，x为自然语言向量化后的特征数据，为当前时刻递归神经网络中隐含层神经元的输入，为当前时刻递归神经网络隐含层神经元的输出；为序列最后时刻递归神经网络输出层神经元的输入；为最后时刻递归神经网络隐含层神经元的输出；为序列最后时刻递归神经网络输出层神经元的输出。

进一步的，所述系统实现的企业行业自动分类包含以下步骤：

(1)在待分类企业中随机选择数量为X的企业进行行业分类的人工标注，并在标注样本集中随机选取70％的样本作为训练样本，选取30％的样本为开发样本；

(2)将训练样本输入到所述递归神经网络中，训练所述递归神经网络；

(3)当所述递归神经网络训练完毕，将待分类的企业工商注册信息中的自然语言序列经过词典映射表模块转换成向量数据后输入到所述递归神经网络中，由所述递归神经网络自动预测出待分类企业的行业归属。

进一步的，还包括分词模块，所述分词模块将待处理文本转换成字、词序列后输入词典映射表中进行向量转换。

进一步的，所述步骤(3)包含以下实现步骤：

(3-1)构造词典映射表，将自然语言转化成向量数据；

(3-2)将训练样本中的企业经营范围自然语言序列经过所述词典映射表转化成对应的向量数据后，依次输入到每个时刻的递归神经网络中；

(3-3)所述递归神经网络隐含层神经元的输出信号包括本时刻的向量化的输入信号以及上一时刻的递归神经网络隐含层神经元的输出信号；

依次递归，直到该样本中的企业经营范围输入完毕后，停止递归，由最后时所述递归神经网络输出层神经元的最大输出值对应的分类为目标企业的行业分类。

进一步的，所述递归神经网络模块为加载有上述递归神经网络程序功能的计算机、服务器或者移动智能终端。

进一步的，所述系统为加载有上述程序功能的计算机、服务器或者移动智能终端。

与现有技术相比，本发明的有益效果：本发明提供基于全自动学习的信息分类预测系统，系统使用递归神经网络根据企业工商注册信息中的经营范围所包含的自然语言来进行行业归属的自动预测。本发明使用词典映射表将自然语言信息转换成为向量信息，向量化的自然语言就可以应用于神经网络的训练和学习中，从而打破了自然语言与神经网络技术之间的壁垒，为自然语言的自动处理开辟了全新道路。此外，本发明中使用递归神经网络来进行企业行业的自动分类，在使用中每个时刻递归神经网络的输入信息除了包含向量化的自然语言的输入信号以外，还包括上一时刻的递归神经网络输出信息，这样每个后一时刻的递归神经网络的输入信息都包含先前时刻的输出信号，相应的行业预测结果的依据包含该时刻之前的所有的经营范围信息，巧妙的应用了自然语言的序列依赖性的特点，依据更加全面，预测结果更加合理准确；同时还解决了长序列的自然语言的自动处理问题，无需手动设置特征，处理过程简单方便，处理效率较传统的方式显著提高。

总之本发明系统，系统克服了手动设计的数据特征与具体任务目标相互独立的缺点，使得开发者更加关注于任务本身和数据储备，提升了工作效率，又由于使用了递归神经网络，更长的序列特征可以被模型所捕获，从而可以大幅度提升行业分类的准确性，为企业、金融分析提供简单可靠的行业分类工具。

附图说明：

图1为本基于全自动学习的信息分类预测系统的模块连接关系示意图。

图2为本基于全自动学习的信息分类预测系统步骤(3)的具体实现过程示意图。

图3为本基于全自动学习的信息分类预测系统实现企业行业分类的信号流向示意图。

具体实施方式

下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例，凡基于本发明内容所实现的技术均属于本发明的范围。

本发明提供基于全自动学习的信息分类预测系统，本发明系统使用递归神经网络对待分类的企业经营范围进行全自动特征学习，通过对自然语言的基本单元，比如字、词、标点符号等，进行特征的全自动学习，从而打破了自然语言与神经网络技术的领域壁垒，以实现基于自然语言分析的企业行业分类的目的。

本发明系统如图1所示，包含数据存储模块、分词模块、词典映射表模块和递归神经网络模块，其中所述数据存储模块用于存储需要进行分类的基础数据；

所述递归神经网络的输入信号既包括当前时刻向量化的字词信号，也包括上一时刻递归神经网络的输出信号，所述递归神经网络在递归结束后预测出待分类信息的分类概率，所述系统根据待分类企业的工商登记信息自动预测出该企业的行业分类。

a_{h}^{t} = Σ_{i}^{I} w_{i h} x_{i}^{t} + Σ_{h^{'}}^{H} w_{h^{'} h} b_{h^{'}}^{t - 1}

b_{h}^{t} = θ (a_{h}^{t})

a_{k}^{T} = Σ_{h}^{H} w_{h k} b_{h}^{T}

y_{k}^{T} = \frac{\exp (a_{k}^{T})}{Σ_{k^{'}}^{k} \exp (a_{k^{'}}^{T})}

其中I是输入向量的维度，H是隐层的神经元个数，K是输出层的神经元个数，x为自然语言向量化后的特征数据，为当前时刻自然语言向量化后的特征数据在该维度的值，为当前时刻递归神经网络中隐含层神经元的输入，为当前时刻递归神经网络隐含层神经元的输出(特别的b⁰＝0)，θ()为到的函数；w_ih、w_h′h为对应的权重参数，在一次向前算法传递过程中，参数w_ih、w_h′h均是跨时序共享的，所谓跨时序共享是指递归神经网络在一次信号正向传递过程中，各个时刻w_ih、w_h′h的值保持不变(并非w_ih＝w_h′h)，不同时刻RNN的w_ih、w_h′h值相同，降低了模型参数的复杂程度，也避免了模型复杂度的线性增长而可能导致的过拟合。为序列最后时刻递归神经网络输出层神经元的输入；为最后时刻递归神经网络隐含层神经元的输出；w_hk为输出层各神经元对应的权重；为序列最后时刻递归神经网络输出层神经元的输出，为一个概率值，表示当前时刻对应神经元输出值相对于输出层所有神经元输出值的加和的比例，一般情况下，将选择值最大的输出神经元对应的行业类别为该时刻递归神经网络的预测结果。

(1)在待分类企业中随机选择数量为X的企业进行行业分类的人工标注，比如在千万家的企业中选取X＝2000家的企业来进行行业分类的人工标注，在进行人工标注时，根据该企业的工商登记信息中的经营范围所记载的自然语言来界定，比如在企业经营范围中包含“计算机”“网络服务”“通信服务”等则可以将其企业行业标注为“信息传输、软件和信息技术服务业”。

具体的，本发明系统在进行模型训练标注训练样本时，根据企业登记营业范围将企业行业范围划分为设定的行业，比如说：“采矿业”、“制造业”、“租赁和商业服务业”、“科学研究和技术服务业”、“水利、环境和公共实施管理业”、“居民服务、修理和其他服务业”、“住宿和餐饮业”、“信息传输、软件和信息技术服务业”、“金融业”、“房地产业”、“国际组织”、“卫生”、“教育”、“公共管理、社会保障和社会组织”、“文化、体育和娱乐业”、“财务企业”和“其他”。

值得注意的是为了使得递归神经网络的训练方向更加合理，根据行业种类的划分情况，在递归神经网络训练过程中，通过开发样本来检测递归神经网络的训练程度，当在开发样本上的分类准确率达到设定的阈值时，就可以认为递归神经网络的训练完成，在训练过程中仅保留在开发集上分类准确率最高的递归神经网络模型。

具体的，在标注样本集中随机选取70％的样本作为训练样本，选取30％的样本为开发样本；这样能够保证开发集与训练集的一致性，排出无关干扰因素，使得验证的效果更加准确、直观。

(2)将训练样本输入到所述递归神经网络中，训练所述递归神经网络；将人工标注的训练样本输入到所述递归神经网络中，训练所述递归神经网络；本发明采用上述向前算法在递归神经网络中来逐级传输运算数据，在输出层获取到识别(预测)数据，当预测结果与训练样本的标注结果具有偏差时，通过神经网络中经典的误差反向传播算法来调整神经网络中的各个权重，误差反向传播方法将误差逐级反向传播分摊到各层的所有神经元，获得各层神经元的误差信号，进而修正各神经元的权重。通过向前算法逐层传输运算数据，并通过向后算法来逐渐修改各个神经元的权重的过程就是神经网络的训练过程；重复上述过程，直到预测结果的正确率达到设定的阈值，停止训练，此时可认为所述递归神经网络模型已经训练完成。

(3)当所述递归神经网络训练完毕，将数据存储模块中存储的待分类企业注册信息的自然语言序列转换成向量数据后输入到所述递归神经网络中，由所述递归神经网络自动预测出待分类企业的行业归属。

进一步的，所述步骤(3)包含如图2所示的以下实现步骤：

(3-1)构造词典映射表，所述词典映射表为一个二维矩阵，行数为词典的大小，列数(行向量的维度)根据词典的大小和数据的规模来设定，词典映射表的目的为将企业经营范围中包含的字(或词)特征化，向量化，简单说来，词典映射表就是一个二维矩阵，其中每一个行向量对应一个字或者一个词，而这种行向量与字词的对应关系是在构建这个词典映射表时设置的；比如说将“计算机”映射为“00000010000000”，将“硬件”映射为“00000000000010”，将“研发”映射为“01000000000000”……特别的，为了使训练和识别的过程简洁在构建词典映射表时，对高频词比如说“的”、“了”进行过滤处理。

(3-2)将训练样本中的企业经营范围中包含的自然语言序列经过所述词典映射表转化成对应的向量数据后，依次输入到每个时刻的递归神经网络中；

(3-3)所述递归神经网络根据本时刻的输入信号以及上一时刻的递归神经网络的输出信号计算出本时刻的该企业的行业分类预测；

依次递归，直到该样本中的企业经营范围中包含的自然语言序列输入完毕后，停止递归，并将该时刻递归神经网络预测的行业分类，作为该企业样本的行业分类结果，本系统实现企业行业分类自动预测的信号流程如图3所示，其中“V1”、“V2”、“V3”、“V4”、“V5”、“V6”、“V7”、“V8”、“V9”、“V10”、“V11”、“V12”、“V13”、“V14”、“V15”为词典映射表中对应的行向量。

进一步的，本发明系统还包括分词模块，所述分词模块将待处理文本转换成字、词序列后输入词典映射表中进行向量转换。比如说将“生产通信设备”分词成“生产/通信/设备”，或者将“光通信交换设备的技术开发”分词成“光通信/交换设备/的/技术开发”等等，本分词方式根据用户的需要来设置，适当的分词有利于将超长的自然语言分解为具有独立语言含义的单元，有利于自然语言的语义提取和相应处理，在本发明中，适当的分词也有利于根据分词结果构建对应的词典映射表。

具体的，本分词方法应该与词典映射表的映射关系相对应，具体的，当“生产通信设备”分词成“生产/通信/设备”，而“光通信交换设备的技术开发”分词成“光通信/交换设备/的/技术开发”。那么在构建词典映射表中就应该包含词语：“生产”、“通信”、“设备”、“光通信”、“交换设备”、“的”、“技术开发”等词语的对应的向量映射关系。

进一步的，所述系统为加载有上述程序功能的计算机、服务器或者移动智能终端；所述计算机、服务器或者移动智能终端为本发明系统功能的实现提供硬件支持。

Claims

1.基于全自动学习的信息分类预测系统，其特征在于，包含数据存储模块、分词模块、词典映射表模块和递归神经网络模块，其中所述数据存储模块用于存储需要进行分类的基础数据；

所述词典映射表将待分类信息文本中的词映射成向量数据后，依次输入到对应时刻的所述递归神经网络模块中；

所述递归神经网络模块的输入信号即包括当前时刻向量化的字词信号，还包括上一时刻递归神经网络的输出信号，所述递归神经网络在递归结束后预测出待分类信息的分类概率。

2.如权利要求1所述的系统，其特征在于：所述系统根据待分类企业的工商登记信息自动预测出该企业的行业分类。

3.如权利要求2所示的系统，其特征在于：所述递归神经网络模块中递归神经网络采用如下向前算法公式：

a_{h}^{t} = Σ_{i}^{I} w_{i h} x_{i}^{t} + Σ_{h^{'}}^{H} w_{h^{'} h} b_{h^{'}}^{t - 1}

b_{h}^{t} = θ (a_{h}^{t})

a_{k}^{T} = Σ_{h}^{H} w_{h k} b_{h}^{T}

y_{k}^{T} = \frac{\exp (a_{k}^{T})}{Σ_{k^{'}}^{k} \exp (a_{k^{'}}^{T})}

4.如权利要求1至3之一所述的系统，其特征在于：所述系统实现的企业行业自动分类包含以下步骤：

(3)当所述递归神经网络训练完毕，将待分类的企业注册信息中的自然语言序列经过词典映射表模块转换成向量数据后输入到所述递归神经网络中，由所述递归神经网络自动预测出待分类企业的行业归属。

5.如权利要求4所述的系统，其特征在于：还包括分词模块，所述分词模块将待处理文本转换成字、词序列后输入词典映射表中进行向量转换。

6.如权利要求5所述的系统，其特征在于，所述步骤(3)包含以下实现步骤：

(3-1)构造词典映射表，将自然语言转化成向量数据；

7.如权利要求6所述的系统，其特征在于，所述递归神经网络模块为加载有如权利要求1至4之一所述递归神经网络程序功能的计算机、服务器或者移动智能终端。

8.如权利要求7所述的系统，其特征在于，所述系统为加载有权利要求1至6之一所述程序功能的计算机、服务器或者移动智能终端。