CN115221387A

CN115221387A - 一种基于深度神经网络的企业信息整合方法

Info

Publication number: CN115221387A
Application number: CN202210818269.5A
Authority: CN
Inventors: 崔永庆
Original assignee: Quantuo Technology Hangzhou Co ltd
Current assignee: Quantuo Technology Hangzhou Co ltd
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-10-21

Abstract

本发明涉及企业招商推荐系统的技术领域，特别是涉及一种基于深度神经网络的企业信息整合方法，其能够应对多层次多来源项目及招商工作的差异化管理，有效解决目前招商场景中企业信息整合效率较低的问题；包括以下步骤：创建指标预测模块：利用深度学习模型给出每个企业招商关键指标的预测，包括，对于每个关键指标，例如年净利润，在数据已知的企业中划分训练集和测试集；对每个指标k，随机初始化预测模型参数θ_k，利用随机梯度下降算法，用超参数φ_k在训练集上优化预测模型的AUC指标，在所有已知数据上用最优超参数训练预测模型，并在未知数据和新企业上给出每个指标的预测结果。

Description

一种基于深度神经网络的企业信息整合方法

技术领域

本发明涉及企业招商推荐系统的技术领域，特别是涉及一种基于深度神经网络的企业信息整合方法。

背景技术

近年来基于大数据的AI、推荐系统技术的快速发展和广泛使用，企业的工商信息数据库也在不断的完善，信息管理流程也日趋成熟。

伴随着深度学习技术的不断发展，基于深度学习的人工智能系统在人脸识别，语音识别，机器翻译，推荐系统等领域被广泛应用，并取得了超越人类的效果，尤其在推荐系统领域，基于电商平台、电影打分平台等互联网平台上大量的用户喜好打分数据，机器学习、深度学习方法可以较为准确的判断用户喜好，为平台上的商品等进行个性化的打分推荐；另一方面，随着国内工商管理信息化程度不断提高，企业工商信息数据库的数据量和维度丰富程度也不断提高，现有数据库可以支持千万量级企业的数据查询，并同时支持除基本工商信息之外的上下游产业链、品牌关联性、产业关联性、企业所在区域、行业门类、企业年龄、注册资本、投资概率等多来源多维度数据查询。其数据规模及丰富程度足以支持大规模深度学习推荐系统的训练和部署。

目前的企业招商过程中，由于企业信息来源层次较多，结构复杂，企业各维度信息的整理过程较为繁琐，且部分指标难以量化，导致信息整合效率过低。

发明内容

为解决上述技术问题，本发明提供一种能够应对多层次多来源项目及招商工作的差异化管理的深度学习企业推荐系统。该系统可以将企业信息进行深度整合并清晰地呈现，便于工作人员对信息进行检索查看，以应对多层次多来源项目及招商工作的差异化管理，可以极大地提高企业信息的整合效率。

本发明的一种基于深度神经网络的企业信息整合方法，包括以下步骤：

S1、创建数据处理模块：数据处理和聚合，把每个企业原始的多来源、多类型、非结构化数据聚合处理为适合深度学习模型处理的浮点数向量表示；

S2、创建指标预测模块：利用深度学习模型给出每个企业招商关键指标的预测，包括，对于每个关键指标，例如年净利润，在数据已知的企业中划分训练集和测试集；对每个指标k，随机初始化预测模型参数θ_k，利用随机梯度下降算法，用超参数φ_k在训练集上优化预测模型的AUC指标，根据在测试集上的结果搜索最优训练超参数

在所有已知数据上用最优超参数训练预测模型，并在未知数据和新企业上给出每个指标的预测结果；

S3、最终的打分模型将所有关键指标的得分进行整合排序，使后续的工作人员便于对企业进行筛选查看以及进行进一步的评估。

本发明的一种基于深度神经网络的企业信息整合方法，数据处理模块包括以下子模块：

①、对于数值型数据进行标准化；

②、对于离散型数据，进行数值化后转化为独热编码形式；

③、对于非结构化数据，例如自然语言表示的数值数据，通过规则转化成数值型数据进行处理；

④、将所有数据来源处理后的数据进行合并，得到最终的企业特征向量。

本发明的一种基于深度神经网络的企业信息整合方法，所述指标预测模块：包括每个对于每个关键指标建立的子模型，其中包括深度神经网络模型、梯度提升决策树模型，以及数据集切分和模型训练模块，该模块基于数据处理模块得到的企业特征向量预测每个企业的关键指标，把企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型并把企业打分任务用与用户点击率预估任务相似的模型进行建模。

本发明的一种基于深度神经网络的企业信息整合方法，将企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型，并把企业打分任务用与用户点击率预估任务相似的模型进行建模。

与现有技术相比本发明的有益效果为：通过信息化方法结合企业工商信息及舆情数据，基于深度学习推荐系统方法，探索针对产业招商、区域招商的定点分析模型，将企业与预制模型相互对应，行程企业资源池，来最终自动化地获得可以量化的企业打分，进行招商企业的准确推荐与整合展示。使用深度学习方法和推荐系统技术，充分利用了现有的海量企业工商数据，利用多种现代推荐系统中的先进建模算法，构建了信息化，标准化，可量化的政府招商推荐系统。该系统可以将企业信息进行深度整合并清晰地呈现，便于工作人员对信息进行检索查看，以应对多层次多来源项目及招商工作的差异化管理，从根本上提高企业信息的整合效率。

附图说明

图1是本发明的程序运行流程图；

图2是本发明中数据处理模块的程序运行流程图；

图3是本发明中指标预测模块的程序运行流程图；

图4是本发明中企业综合打分模块的程序运行流程图；

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1至图4所示，本发明的一种基于深度神经网络的企业信息整合方法，包括以下步骤：

S3、最终的打分模型根据所有关键指标的得分，对所有企业进行筛选后，利用打分公式给出最终的企业招商优先级排序；通过信息化方法结合企业工商信息及舆情数据，基于深度学习推荐系统方法，探索针对产业招商、区域招商的定点分析模型，将企业与预制模型相互对应，行程企业资源池，来最终自动化地获得可以量化的企业打分，进行招商企业的准确推荐。使用深度学习方法和推荐系统技术，充分利用了现有的海量企业工商数据，利用多种现代推荐系统中的先进建模算法，构建了信息化，标准化，可量化的政府招商推荐系统。最终该系统可以将企业信息进行深度整合并清晰地呈现，便于工作人员对信息进行检索查看，以应对多层次多来源项目及招商工作的差异化管理，从根本上提高企业信息的整合效率。

本发明的一种基于深度神经网络的企业信息整合方法，所述数据处理模块包括以下子模块：

①、对于数值型数据进行标准化；

②、对于离散型数据，进行数值化后转化为独热编码形式；

本发明的一种基于深度神经网络的企业信息整合方法，所述指标预测模块：包括每个对于每个关键指标建立的子模型，其中包括深度神经网络模型、梯度提升决策树模型，以及数据集切分和模型训练模块，该模块基于数据处理模块得到的企业特征向量预测每个企业的关键指标，把企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型，并把企业打分任务用与用户点击率预估任务相似的模型进行建模。

本发明的一种基于深度神经网络的企业信息整合方法，将企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型并把企业打分任务用与用户点击率预估任务相似的模型进行建模，具体描述包括以下内容：

①、线性模型：最典型的线性模型就是逻辑斯蒂回归模型，该模型直接线性地处理海量的高维离散特征。基于给定的公司特征：

x＝[x₁,x₂,…,x_m]

我们把可以把公司某一维度的评分建模为上述特征的线性组合

其中

是S函数

Score即是企业在该维度上的评分

②、我们利用梯度提升迭代决策树模型结合上文中的逻辑斯蒂回归模型来自动学习对企业最终打分影响最大的企业特征，并提高最终效果。

具体来说，我们首先基于现有数据构造一个只有根节点的决策树

f₀(x)＝argmin_γ∑L(y,γ)

其中γ是分割节点的值，L是损失函数。

之后迭代地执行以下操作：

1.对于每一个样本，计算当前模型的负梯度

2.用梯度回归树f'_m(x)拟合负梯度的值

3.组合该回归树和上一次迭代的模型得到新的模型

f_m+1(x)＝f_′m(x)+f'_m(x)

如此，梯度提升迭代决策树通过很多棵决策树来学习高阶非线性的特征组合，从而帮助逻辑斯蒂模型取得更好的效果。

③、由于企业特征是高维离散的，我们使用因子分解机FM模型将企业的每个特征映射到一个稠密向量上，然后通过向量的内积建模特征间的关联；

其中v是每一个特征对应的稠密向量，⊙是向量点乘，score是因子分解机模型对企业的最终打分

同时，对于更加复杂的企业特征和特征交互，通过使用域因子分解机模型，可以考虑交互强度的区别，此时不仅将企业特征x_i输入模型，也将特征对应的不同的域f_i的特征输入模型，通过不同域的特征得到不同的交互，最终产生企业打分；

其中

是特征i在特征j为x_j时对应的隐向量

④、除了上述传统非深度模型，也使用了深度学习模型，特别的，使用了乘积神经网络模型来自动化的组合企业的复杂特征。对每一对特征x_i,x_j，首先将其映射为稠密向量表示v_i,v_j，然后通过乘积层来实现二阶交互。乘积层的交互方式有内积和外积两种，分别对应着两种不一样的乘积神经网络：内积神经网络和外积神经网络。

其中内积乘积网络的输出可以表示为矩阵V^inner,其中

外积网络可以表示为

其中

表示向量外积

然后将一阶特征的隐向量和通过乘积层得到的交叉向量拼接在一起，再通过一个神经网络，就可以得到最后的输出。

score＝f(V||v)

其中f为一个简单的神经网络模型，||是向量拼接操作。

⑤、我们又提出了深度交叉网络来预测公司是否该被招商引资，基于给定的公司特征数据(包括年税收，公司专利数目等等)和一些地方招商引资的需求数据(比如公司产业类别等等)：

x＝[x₁,x₂,…,x_m]

首先我们公司的特征映射到一个隐向量空间

e_i＝V_ix_i

然后公司所有特征的隐向量拼在一起作为我们模型的输入

f₀＝[e₁,e₂,…,e_m]

然后对得到的特征嵌入表示，我们首先提出了一个交叉网络。交叉网络包括多个交叉层，每个交叉层地计算方式如下

其中f_l,f_l+1代表第l层和第l+1层的输出的向量表征，w_l,b_l是第l层的参数，f₀代表前面的模型输入。

可以发现，交叉特征交叉的阶数随着层深度增加而增加，每一层都会和一开始的输入特征做一次交叉。若是交叉网络的深度为L，它可以实现阶数最大为L+1的特征交叉项。它的第i层包含第i+1阶的交叉项，从而它可以建模从低阶到高阶的特征交互。交叉网络可以高效地学习低阶和高阶组合特征。

为了学习非线性的高阶特征交互，我们又引入了一个深度神经网络层，即全连接层神经网络，包括多个拥有激活函数的全连接层。它可以用来学习非线性的高阶特征交互：

f′_l+1＝relu(w′_lf′_l+b′_l)

最后，我们将交叉网络和全连接神经网络的结果拼在一起，再通过一个简单的求和就可以得到这次招商引资中对指定公司的评分：

⑥、对于招商引资这种特定分类任务，我们又提出了另外一种深度模型极深因子分解机模型，它有更好的可解释性，可以为后续的企业信息整合展示提供更多的信息，它是在交互完整向量的外面再乘以一个参数。

具体来说，我们提出了一种压缩交互网络，该网络的核心是通过显式学习向量级别的高阶特征交互，这个网络中每一层的输出都根据上一层的输入和原始特征向量推算而来。

和之前的模型一样，我们先将所有特征表示成隐向量并拼接在一起：

e_i＝V_ix_i

f₀＝[e₁,e₂,…,e_m]

然后每一层神经元的具体计算公式如下：

其中

代表第k层第h个向量的权重矩阵而°代表向量元素逐位乘。

压缩交互网络不仅仅只需求它的最后一层，它的每一个隐层都通过一个池化操作连接到输出层，而它的每一层都代表不同阶数的特征交互，这样输出单元就包括每一个阶数的特征交互模式，输出直接包含从1阶到L+1阶的全部组合特征，这样压缩交互网络可以得到显式的特征交互：

除此之外，此模型还并行地实现了一个线性层来提取一阶信息，一个深度神经网络层用来学习非线性的高阶特征交，然后我们将压缩交互网络层的结果和这两个的结果拼在一起再过一个sigmoid激活函数得到最后的分数：

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种基于深度神经网络的企业信息整合方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于深度神经网络的企业信息整合方法，其特征在于，所述数据处理模块包括以下子模块：

①、对于数值型数据进行标准化；

②、对于离散型数据，进行数值化后转化为独热编码形式；

3.如权利要求2所述的一种基于深度神经网络的企业信息整合方法，其特征在于，所述指标预测模块：包括每个对于每个关键指标建立的子模型，其中包括深度神经网络模型、梯度提升决策树模型，以及数据集切分和模型训练模块，该模块基于数据处理模块得到的企业特征向量预测每个企业的关键指标，把企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型并把企业打分任务用与用户点击率预估任务相似的模型进行建模。

4.如权利要求3所述的一种基于深度神经网络的企业信息整合方法，其特征在于，将企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型，并把企业打分任务用与用户点击率预估任务相似的模型进行建模。