CN115221387A - 一种基于深度神经网络的企业信息整合方法 - Google Patents

一种基于深度神经网络的企业信息整合方法 Download PDF

Info

Publication number
CN115221387A
CN115221387A CN202210818269.5A CN202210818269A CN115221387A CN 115221387 A CN115221387 A CN 115221387A CN 202210818269 A CN202210818269 A CN 202210818269A CN 115221387 A CN115221387 A CN 115221387A
Authority
CN
China
Prior art keywords
enterprise
model
data
index
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210818269.5A
Other languages
English (en)
Inventor
崔永庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quantuo Technology Hangzhou Co ltd
Original Assignee
Quantuo Technology Hangzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quantuo Technology Hangzhou Co ltd filed Critical Quantuo Technology Hangzhou Co ltd
Priority to CN202210818269.5A priority Critical patent/CN115221387A/zh
Publication of CN115221387A publication Critical patent/CN115221387A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及企业招商推荐系统的技术领域,特别是涉及一种基于深度神经网络的企业信息整合方法,其能够应对多层次多来源项目及招商工作的差异化管理,有效解决目前招商场景中企业信息整合效率较低的问题;包括以下步骤:创建指标预测模块:利用深度学习模型给出每个企业招商关键指标的预测,包括,对于每个关键指标,例如年净利润,在数据已知的企业中划分训练集和测试集;对每个指标k,随机初始化预测模型参数θk,利用随机梯度下降算法,用超参数φk在训练集上优化预测模型的AUC指标,在所有已知数据上用最优超参数训练预测模型,并在未知数据和新企业上给出每个指标的预测结果。

Description

一种基于深度神经网络的企业信息整合方法
技术领域
本发明涉及企业招商推荐系统的技术领域,特别是涉及一种基于深度神经网络的企业信息整合方法。
背景技术
近年来基于大数据的AI、推荐系统技术的快速发展和广泛使用,企业的工商信息数据库也在不断的完善,信息管理流程也日趋成熟。
伴随着深度学习技术的不断发展,基于深度学习的人工智能系统在人脸识别,语音识别,机器翻译,推荐系统等领域被广泛应用,并取得了超越人类的效果,尤其在推荐系统领域,基于电商平台、电影打分平台等互联网平台上大量的用户喜好打分数据,机器学习、深度学习方法可以较为准确的判断用户喜好,为平台上的商品等进行个性化的打分推荐;另一方面,随着国内工商管理信息化程度不断提高,企业工商信息数据库的数据量和维度丰富程度也不断提高,现有数据库可以支持千万量级企业的数据查询,并同时支持除基本工商信息之外的上下游产业链、品牌关联性、产业关联性、企业所在区域、行业门类、企业年龄、注册资本、投资概率等多来源多维度数据查询。其数据规模及丰富程度足以支持大规模深度学习推荐系统的训练和部署。
目前的企业招商过程中,由于企业信息来源层次较多,结构复杂,企业各维度信息的整理过程较为繁琐,且部分指标难以量化,导致信息整合效率过低。
发明内容
为解决上述技术问题,本发明提供一种能够应对多层次多来源项目及招商工作的差异化管理的深度学习企业推荐系统。该系统可以将企业信息进行深度整合并清晰地呈现,便于工作人员对信息进行检索查看,以应对多层次多来源项目及招商工作的差异化管理,可以极大地提高企业信息的整合效率。
本发明的一种基于深度神经网络的企业信息整合方法,包括以下步骤:
S1、创建数据处理模块:数据处理和聚合,把每个企业原始的多来源、多类型、非结构化数据聚合处理为适合深度学习模型处理的浮点数向量表示;
S2、创建指标预测模块:利用深度学习模型给出每个企业招商关键指标的预测,包括,对于每个关键指标,例如年净利润,在数据已知的企业中划分训练集和测试集;对每个指标k,随机初始化预测模型参数θk,利用随机梯度下降算法,用超参数φk在训练集上优化预测模型的AUC指标,根据在测试集上的结果搜索最优训练超参数
Figure BDA0003743162990000031
在所有已知数据上用最优超参数训练预测模型,并在未知数据和新企业上给出每个指标的预测结果;
S3、最终的打分模型将所有关键指标的得分进行整合排序,使后续的工作人员便于对企业进行筛选查看以及进行进一步的评估。
本发明的一种基于深度神经网络的企业信息整合方法,数据处理模块包括以下子模块:
①、对于数值型数据进行标准化;
②、对于离散型数据,进行数值化后转化为独热编码形式;
③、对于非结构化数据,例如自然语言表示的数值数据,通过规则转化成数值型数据进行处理;
④、将所有数据来源处理后的数据进行合并,得到最终的企业特征向量。
本发明的一种基于深度神经网络的企业信息整合方法,所述指标预测模块:包括每个对于每个关键指标建立的子模型,其中包括深度神经网络模型、梯度提升决策树模型,以及数据集切分和模型训练模块,该模块基于数据处理模块得到的企业特征向量预测每个企业的关键指标,把企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型并把企业打分任务用与用户点击率预估任务相似的模型进行建模。
本发明的一种基于深度神经网络的企业信息整合方法,将企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型,并把企业打分任务用与用户点击率预估任务相似的模型进行建模。
与现有技术相比本发明的有益效果为:通过信息化方法结合企业工商信息及舆情数据,基于深度学习推荐系统方法,探索针对产业招商、区域招商的定点分析模型,将企业与预制模型相互对应,行程企业资源池,来最终自动化地获得可以量化的企业打分,进行招商企业的准确推荐与整合展示。使用深度学习方法和推荐系统技术,充分利用了现有的海量企业工商数据,利用多种现代推荐系统中的先进建模算法,构建了信息化,标准化,可量化的政府招商推荐系统。该系统可以将企业信息进行深度整合并清晰地呈现,便于工作人员对信息进行检索查看,以应对多层次多来源项目及招商工作的差异化管理,从根本上提高企业信息的整合效率。
附图说明
图1是本发明的程序运行流程图;
图2是本发明中数据处理模块的程序运行流程图;
图3是本发明中指标预测模块的程序运行流程图;
图4是本发明中企业综合打分模块的程序运行流程图;
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1至图4所示,本发明的一种基于深度神经网络的企业信息整合方法,包括以下步骤:
S1、创建数据处理模块:数据处理和聚合,把每个企业原始的多来源、多类型、非结构化数据聚合处理为适合深度学习模型处理的浮点数向量表示;
S2、创建指标预测模块:利用深度学习模型给出每个企业招商关键指标的预测,包括,对于每个关键指标,例如年净利润,在数据已知的企业中划分训练集和测试集;对每个指标k,随机初始化预测模型参数θk,利用随机梯度下降算法,用超参数φk在训练集上优化预测模型的AUC指标,根据在测试集上的结果搜索最优训练超参数
Figure BDA0003743162990000051
在所有已知数据上用最优超参数训练预测模型,并在未知数据和新企业上给出每个指标的预测结果;
S3、最终的打分模型根据所有关键指标的得分,对所有企业进行筛选后,利用打分公式给出最终的企业招商优先级排序;通过信息化方法结合企业工商信息及舆情数据,基于深度学习推荐系统方法,探索针对产业招商、区域招商的定点分析模型,将企业与预制模型相互对应,行程企业资源池,来最终自动化地获得可以量化的企业打分,进行招商企业的准确推荐。使用深度学习方法和推荐系统技术,充分利用了现有的海量企业工商数据,利用多种现代推荐系统中的先进建模算法,构建了信息化,标准化,可量化的政府招商推荐系统。最终该系统可以将企业信息进行深度整合并清晰地呈现,便于工作人员对信息进行检索查看,以应对多层次多来源项目及招商工作的差异化管理,从根本上提高企业信息的整合效率。
本发明的一种基于深度神经网络的企业信息整合方法,所述数据处理模块包括以下子模块:
①、对于数值型数据进行标准化;
②、对于离散型数据,进行数值化后转化为独热编码形式;
③、对于非结构化数据,例如自然语言表示的数值数据,通过规则转化成数值型数据进行处理;
④、将所有数据来源处理后的数据进行合并,得到最终的企业特征向量。
本发明的一种基于深度神经网络的企业信息整合方法,所述指标预测模块:包括每个对于每个关键指标建立的子模型,其中包括深度神经网络模型、梯度提升决策树模型,以及数据集切分和模型训练模块,该模块基于数据处理模块得到的企业特征向量预测每个企业的关键指标,把企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型,并把企业打分任务用与用户点击率预估任务相似的模型进行建模。
本发明的一种基于深度神经网络的企业信息整合方法,将企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型并把企业打分任务用与用户点击率预估任务相似的模型进行建模,具体描述包括以下内容:
①、线性模型:最典型的线性模型就是逻辑斯蒂回归模型,该模型直接线性地处理海量的高维离散特征。基于给定的公司特征:
x=[x1,x2,…,xm]
我们把可以把公司某一维度的评分建模为上述特征的线性组合
Figure BDA0003743162990000071
其中
Figure BDA0003743162990000072
是S函数
Figure BDA0003743162990000073
Score即是企业在该维度上的评分
②、我们利用梯度提升迭代决策树模型结合上文中的逻辑斯蒂回归模型来自动学习对企业最终打分影响最大的企业特征,并提高最终效果。
具体来说,我们首先基于现有数据构造一个只有根节点的决策树
f0(x)=argminγ∑L(y,γ)
其中γ是分割节点的值,L是损失函数。
之后迭代地执行以下操作:
1.对于每一个样本,计算当前模型的负梯度
Figure BDA0003743162990000074
2.用梯度回归树f'm(x)拟合负梯度的值
3.组合该回归树和上一次迭代的模型得到新的模型
fm+1(x)=f′m(x)+f'm(x)
如此,梯度提升迭代决策树通过很多棵决策树来学习高阶非线性的特征组合,从而帮助逻辑斯蒂模型取得更好的效果。
③、由于企业特征是高维离散的,我们使用因子分解机FM模型将企业的每个特征映射到一个稠密向量上,然后通过向量的内积建模特征间的关联;
Figure BDA0003743162990000081
其中v是每一个特征对应的稠密向量,⊙是向量点乘,score是因子分解机模型对企业的最终打分
同时,对于更加复杂的企业特征和特征交互,通过使用域因子分解机模型,可以考虑交互强度的区别,此时不仅将企业特征xi输入模型,也将特征对应的不同的域fi的特征输入模型,通过不同域的特征得到不同的交互,最终产生企业打分;
Figure BDA0003743162990000082
其中
Figure BDA0003743162990000083
是特征i在特征j为xj时对应的隐向量
④、除了上述传统非深度模型,也使用了深度学习模型,特别的,使用了乘积神经网络模型来自动化的组合企业的复杂特征。对每一对特征xi,xj,首先将其映射为稠密向量表示vi,vj,然后通过乘积层来实现二阶交互。乘积层的交互方式有内积和外积两种,分别对应着两种不一样的乘积神经网络:内积神经网络和外积神经网络。
其中内积乘积网络的输出可以表示为矩阵Vinner,其中
Figure BDA0003743162990000084
外积网络可以表示为
Figure BDA0003743162990000085
其中
Figure BDA0003743162990000091
表示向量外积
然后将一阶特征的隐向量和通过乘积层得到的交叉向量拼接在一起,再通过一个神经网络,就可以得到最后的输出。
score=f(V||v)
其中f为一个简单的神经网络模型,||是向量拼接操作。
⑤、我们又提出了深度交叉网络来预测公司是否该被招商引资,基于给定的公司特征数据(包括年税收,公司专利数目等等)和一些地方招商引资的需求数据(比如公司产业类别等等):
x=[x1,x2,…,xm]
首先我们公司的特征映射到一个隐向量空间
ei=Vixi
然后公司所有特征的隐向量拼在一起作为我们模型的输入
f0=[e1,e2,…,em]
然后对得到的特征嵌入表示,我们首先提出了一个交叉网络。交叉网络包括多个交叉层,每个交叉层地计算方式如下
Figure BDA0003743162990000092
其中fl,fl+1代表第l层和第l+1层的输出的向量表征,wl,bl是第l层的参数,f0代表前面的模型输入。
可以发现,交叉特征交叉的阶数随着层深度增加而增加,每一层都会和一开始的输入特征做一次交叉。若是交叉网络的深度为L,它可以实现阶数最大为L+1的特征交叉项。它的第i层包含第i+1阶的交叉项,从而它可以建模从低阶到高阶的特征交互。交叉网络可以高效地学习低阶和高阶组合特征。
为了学习非线性的高阶特征交互,我们又引入了一个深度神经网络层,即全连接层神经网络,包括多个拥有激活函数的全连接层。它可以用来学习非线性的高阶特征交互:
f′l+1=relu(w′lf′l+b′l)
最后,我们将交叉网络和全连接神经网络的结果拼在一起,再通过一个简单的求和就可以得到这次招商引资中对指定公司的评分:
Figure BDA0003743162990000101
⑥、对于招商引资这种特定分类任务,我们又提出了另外一种深度模型极深因子分解机模型,它有更好的可解释性,可以为后续的企业信息整合展示提供更多的信息,它是在交互完整向量的外面再乘以一个参数。
具体来说,我们提出了一种压缩交互网络,该网络的核心是通过显式学习向量级别的高阶特征交互,这个网络中每一层的输出都根据上一层的输入和原始特征向量推算而来。
和之前的模型一样,我们先将所有特征表示成隐向量并拼接在一起:
ei=Vixi
f0=[e1,e2,…,em]
然后每一层神经元的具体计算公式如下:
Figure BDA0003743162990000111
其中
Figure BDA0003743162990000112
代表第k层第h个向量的权重矩阵而°代表向量元素逐位乘。
压缩交互网络不仅仅只需求它的最后一层,它的每一个隐层都通过一个池化操作连接到输出层,而它的每一层都代表不同阶数的特征交互,这样输出单元就包括每一个阶数的特征交互模式,输出直接包含从1阶到L+1阶的全部组合特征,这样压缩交互网络可以得到显式的特征交互:
Figure BDA0003743162990000113
除此之外,此模型还并行地实现了一个线性层来提取一阶信息,一个深度神经网络层用来学习非线性的高阶特征交,然后我们将压缩交互网络层的结果和这两个的结果拼在一起再过一个sigmoid激活函数得到最后的分数:
Figure BDA0003743162990000114
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (4)

1.一种基于深度神经网络的企业信息整合方法,其特征在于,包括以下步骤:
S1、创建数据处理模块:数据处理和聚合,把每个企业原始的多来源、多类型、非结构化数据聚合处理为适合深度学习模型处理的浮点数向量表示;
S2、创建指标预测模块:利用深度学习模型给出每个企业招商关键指标的预测,包括,对于每个关键指标,例如年净利润,在数据已知的企业中划分训练集和测试集;对每个指标k,随机初始化预测模型参数θk,利用随机梯度下降算法,用超参数φk在训练集上优化预测模型的AUC指标,根据在测试集上的结果搜索最优训练超参数
Figure FDA0003743162980000011
在所有已知数据上用最优超参数训练预测模型,并在未知数据和新企业上给出每个指标的预测结果;
S3、最终的打分模型将所有关键指标的得分进行整合排序,使后续的工作人员便于对企业进行筛选查看以及进行进一步的评估。
2.如权利要求1所述的一种基于深度神经网络的企业信息整合方法,其特征在于,所述数据处理模块包括以下子模块:
①、对于数值型数据进行标准化;
②、对于离散型数据,进行数值化后转化为独热编码形式;
③、对于非结构化数据,例如自然语言表示的数值数据,通过规则转化成数值型数据进行处理;
④、将所有数据来源处理后的数据进行合并,得到最终的企业特征向量。
3.如权利要求2所述的一种基于深度神经网络的企业信息整合方法,其特征在于,所述指标预测模块:包括每个对于每个关键指标建立的子模型,其中包括深度神经网络模型、梯度提升决策树模型,以及数据集切分和模型训练模块,该模块基于数据处理模块得到的企业特征向量预测每个企业的关键指标,把企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型并把企业打分任务用与用户点击率预估任务相似的模型进行建模。
4.如权利要求3所述的一种基于深度神经网络的企业信息整合方法,其特征在于,将企业推荐模型类比为互联网业务中常见的用户个性化推荐系统模型,并把企业打分任务用与用户点击率预估任务相似的模型进行建模。
CN202210818269.5A 2022-07-13 2022-07-13 一种基于深度神经网络的企业信息整合方法 Pending CN115221387A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210818269.5A CN115221387A (zh) 2022-07-13 2022-07-13 一种基于深度神经网络的企业信息整合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210818269.5A CN115221387A (zh) 2022-07-13 2022-07-13 一种基于深度神经网络的企业信息整合方法

Publications (1)

Publication Number Publication Date
CN115221387A true CN115221387A (zh) 2022-10-21

Family

ID=83612701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210818269.5A Pending CN115221387A (zh) 2022-07-13 2022-07-13 一种基于深度神经网络的企业信息整合方法

Country Status (1)

Country Link
CN (1) CN115221387A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953215A (zh) * 2022-12-01 2023-04-11 上海交通大学 一种基于时间和图结构的搜索式推荐方法
CN117539948A (zh) * 2024-01-10 2024-02-09 西安羚控电子科技有限公司 基于深度神经网络的业务数据检索方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953215A (zh) * 2022-12-01 2023-04-11 上海交通大学 一种基于时间和图结构的搜索式推荐方法
CN115953215B (zh) * 2022-12-01 2023-09-05 上海交通大学 一种基于时间和图结构的搜索式推荐方法
CN117539948A (zh) * 2024-01-10 2024-02-09 西安羚控电子科技有限公司 基于深度神经网络的业务数据检索方法及装置
CN117539948B (zh) * 2024-01-10 2024-04-05 西安羚控电子科技有限公司 基于深度神经网络的业务数据检索方法及装置

Similar Documents

Publication Publication Date Title
CN110910243B (zh) 一种基于可重构大数据知识图谱技术的产权交易方法
CN111079985A (zh) 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法
CN115221387A (zh) 一种基于深度神经网络的企业信息整合方法
CN113255321B (zh) 基于文章实体词依赖关系的金融领域篇章级事件抽取方法
CN112989761B (zh) 文本分类方法及装置
CN116662577B (zh) 基于知识图谱的大型语言模型训练方法及装置
CN112417063B (zh) 一种基于异构关系网络的相容功能项推荐方法
CN113312480A (zh) 基于图卷积网络的科技论文层级多标签分类方法及设备
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN111581379B (zh) 一种基于作文扣题度的自动作文评分计算方法
CN117333037A (zh) 一种面向出版大数据的产业大脑构建方法及装置
CN114662652A (zh) 一种基于多模态信息学习的专家推荐方法
CN112950414B (zh) 一种基于解耦法律要素的法律文本表示方法
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
Shankar et al. Analyzing attrition and performance of an employee using machine learning techniques
Mary et al. ASFuL: Aspect based sentiment summarization using fuzzy logic
CN116842195A (zh) 一种基于知识图谱和大模型自动化生成研报方法
Xu et al. Enhancement economic system based-graph neural network in stock classification
CN114969511A (zh) 基于分片的内容推荐方法、设备及介质
CN115034847A (zh) 基于深度学习的产品推荐方法、系统、存储介质及设备
CN114820074A (zh) 基于机器学习的目标用户群体预测模型构建方法
Gregorić et al. Artificial neural networks in modelling seasonal tourism demand–case study of Croatia
CN113837847A (zh) 基于异质多元关系融合的知识密集型服务推荐方法
Dattachaudhuri et al. Transparent neural based expert system for credit risk (TNESCR): an automated credit risk evaluation system
PCD et al. Advanced lightweight feature interaction in deep neural networks for improving the prediction in click through rate

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20221021