CN108280511A - 一种基于卷积网络进行网络访问数据进行处理的方法 - Google Patents

一种基于卷积网络进行网络访问数据进行处理的方法 Download PDF

Info

Publication number
CN108280511A
CN108280511A CN201810022744.1A CN201810022744A CN108280511A CN 108280511 A CN108280511 A CN 108280511A CN 201810022744 A CN201810022744 A CN 201810022744A CN 108280511 A CN108280511 A CN 108280511A
Authority
CN
China
Prior art keywords
network
data
convolutional
vector
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810022744.1A
Other languages
English (en)
Inventor
郭威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhang Kuo Mobile Media Science And Technology Ltd
Original Assignee
Beijing Zhang Kuo Mobile Media Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhang Kuo Mobile Media Science And Technology Ltd filed Critical Beijing Zhang Kuo Mobile Media Science And Technology Ltd
Priority to CN201810022744.1A priority Critical patent/CN108280511A/zh
Publication of CN108280511A publication Critical patent/CN108280511A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于卷积网络进行网络访问数据进行处理的方法,包括:步骤1)训练卷积神经网络模型;步骤2)获取广告在用户客户端的展示、点击和转换数据;步骤3)对展示、点击和转换数据进行编码,并针对每一条用户数据,生成对应的矩阵张量;步骤4)将以上矩阵张量送入步骤1)中训练好的卷积神经网络中,得到其输出向量。该方法使用cnn网络处理,将其直接作为高维度向量处理,直接将一次输入的向量经过cnn处理后在传入到后续分类器做后续处理。这样解决了后续分类器使用dummy变量过多的问题。而是通过cnn网络将高维度的数据降为低维度的数据,同时不减少信息量。

Description

一种基于卷积网络进行网络访问数据进行处理的方法
技术领域
本发明属于一种基于卷积网络进行网络访问数据进行处理的方法。
背景技术
在进行数据分类之前的数据处理中,分类变量和连续变量不同,无法作为一个变量进行数据的分析处理,需要将一个分类变量变成多个dummy变量例如性别变量则变为(0,1)这样表示,同时在使用该变量时候,需要产生2个dummy变量,则最终的分类器表示也是基于dummy变量的。当分类变量的值比较多的时候,则计算量会暴增。因此出现了许多的处理方式。例如使用hash方式。
该种方法的原理是将一个变量表示为(0,1,0,0,0,。。。。)后使用hash函数,将所有的数据维度都hash处理,生成一个固定维度的向量,这种方法具有以下的缺点:
1,对字段值的处理(分段,聚合),对字段间的关系,都需要人工干预太多,然后在进行分析,主观性太强,且由于字段比较多,取值比较复杂,导致很多其他的字段无法发挥本来的作用,且干预字段过度发挥效果。
2,如果使用hash方法,则会损失掉一些有效的信息,虽然使用方便,但是最终分类效果会有影响。
发明内容
本发明所要解决的技术问题是提供一种基于卷积网络进行网络访问数据进行处理的方法。
本发明解决上述技术问题所采取的技术方案如下:
一种基于卷积网络进行网络访问数据进行处理的方法,包括:步骤1)训练卷积神经网络模型,包括:
获取样本数据,该样本数据中包括:用户的性别、客户端ID、广告ID
以及访问时间;
按照以下的卷积公式进行数据处理:
·
x(t)和h(t)函数是卷积的变量,p是积分变量,t是使函数h(-p)位移的量,星号*表示卷积;针对本文,卷积矩阵使用的是一个9*9的一个矩阵,对输入数据进行滑动求卷积。
这里Mj表示选择的输入maps的集合,每一个输出map会给一个额外的偏置b,但是对于一个特定的输出map,卷积每个输入maps的卷积核是不一样的。也就是说,如果输出特征map j和输出特征map k都是从输入map i中卷积求和得到,那么对应的卷积核是不一样的。
选择一个y(t)包含的数据编码信息量最大的卷积公式,以此作为训练好的卷积神经网络模型;
步骤2)获取广告在用户客户端的展示、点击和转换数据;
步骤3)对展示、点击和转换数据进行编码,并针对每一条用户数据,生成对应的矩阵张量;
步骤4)将以上矩阵张量送入步骤1)中训练好的卷积神经网络中,得到其输出向量。
其中,步骤3)中,所述矩阵张量中,包括:用户的性别、客户端ID、广告、ID以及访问时间,其格式选择:{(a广告,偏好大小),(b广告,偏好大小)....}。
其中,步骤4)之后,还包括:将该向量作为输入,送入分类器中,最终得到用户画像。
其中,步骤1)中,设定卷积公式中不同的网络的结构、每个节点的阈值、f的形式;
对每一种不同的网络的结构、每个节点的阈值、f的形式所得到的输出结构进行对比,最终得到y(t)包含的数据编码信息量最大的卷积公式。
其中,步骤4)中,基于以上卷积神经网络模型,对编码完毕后的数据送入卷积网络中,自动过滤噪声和低信息量的东西,保留了信息量最大的东西,得到一个固定维度的向量。
其中,步骤1)中,所述卷积神经网络的训练,具体包括:
子步骤11)先训练出卷积核儿,然后再确定输出向量;
子步骤12)使用包括{广告,时间,点击率,媒介,地域,。。。。}的向量输入,其中例如广告被处理为一个输入向量(广告1,广告2。。。。)。
其中,该用户画像的数据结构为:用户画像(标签,标签权重值)。
本发明具有以下的技术效果:
1.去除主观人工干预;
2.准确率大幅度提升;
3.通用性特别好,在加入新的字段,新的业务,往往改动非常少(几乎就是零改动)。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
下面结合附图对本发明进行详细的描述,以使得本发明的上述优点更加明确。其中,
图1是卷积神经网络的结构示意图;
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本发明中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本发明的保护范围之内。
卷积神经网络用于模式识别的主流是有指导学习网络,无指导学习网络更多的是用于聚类分析。
对于有指导的模式识别,由于任一样本的类别是已知的,样本在空间的分布不再是依据其自然分布倾向来划分,而是要根据同类样本在空间的分布及不同类样本之间的分离程度找一种适当的空间划分方法,或者找到一个分类边界,使得不同类样本分别位于不同的区域内。这就需要一个长时间且复杂的学习过程,不断调整用以划分样本空间的分类边界的位置,使尽可能少的样本被划分到非同类区域中。
卷积神经网络在本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积神经网络加以训练,网络就具有输入输出对之间的映射能力(我觉得神经网络都这样)。
卷积神经网络执行的是有导师训练,所以其样本集(训练集)是由形如:(输入向量,理想输出向量)的向量对构成的。所有这些向量对,都应该是来源于网络即将模拟的系统的实际“运行”结果。它们可以是从实际运行系统中采集来的。在开始训练前,所有的权都应该用一些不同的小随机数进行初始化。“小随机数”用来保证网络不会因权值过大而进入饱和状态,从而导致训练失败;“不同”用来保证网络可以正常地学习。实际上,如果用相同的数去初始化权矩阵,则网络无能力学习。
训练算法与传统的BP算法差不多。主要包括4步,这4步被分为两个阶段:
第一阶段,向前传播阶段:
a)从样本集中取一个样本(X,Yp),将X输入网络;
b)计算相应的实际输出Op
在此阶段,信息从输入层经过逐级的变换,传送到输出层。
这个过程也是网络在完成训练后正常运行时执行的过程。在此过程中,网络执行的是计算(实际上就是输入与每层的权值矩阵相点乘,得到最后的输出结果):
Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n))
第二阶段,向后传播阶段
a)算实际输出Op与相应的理想输出Yp的差;
b)按极小化误差的方法反向传播调整权矩阵。
CNN的优点:
卷积神经网络CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显式的特征抽取,而隐式地从训练数据中进行学习;再者由于同一特征映射面上的神经元权值相同,所以网络可以并行学习,这也是卷积神经网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性,其布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。
流的分类方式几乎都是基于统计特征的,这就意味着在进行分辨前必须提取某些特征。然而,显式的特征提取并不容易,在一些应用问题中也并非总是可靠的。卷积神经网络,它避免了显式的特征取样,隐式地从训练数据中进行学习。这使得卷积神经网络明显有别于其他基于神经网络的分类器,通过结构重组和减少权值将特征提取功能融合进多层感知器。它可以直接处理灰度图片,能够直接用于处理基于图像的分类。
卷积神经网络较一般神经网络在图像处理方面有如下优点:
a)输入图像和网络的拓扑结构能很好的吻合;
b)特征提取和模式分类同时进行,并同时在训练中产生;
c)权重共享可以减少网络的训练参数,使神经网络结构变得更简单,适应性更强。
具体来说,一种基于卷积网络进行网络访问数据进行处理的方法,包括:步骤1)训练卷积神经网络模型,包括:
获取样本数据,该样本数据中包括:用户的性别、客户端ID、广告ID以及访问时间;
按照以下的卷积公式进行数据处理:
·
·
x(t)和h(t)函数是卷积的变量,p是积分变量,t是使函数h(-p)位移的量,星号*表示卷积;
选择一个y(t)包含的数据编码信息量最大的卷积公式,以此作为训练好的卷积神经网络模型;
步骤2)获取广告在用户客户端的展示、点击和转换数据;
步骤3)对展示、点击和转换数据进行编码,并针对每一条用户数据,生成对应的矩阵张量;
步骤4)将以上矩阵张量送入步骤1)中训练好的卷积神经网络中,得到其输出向量。
其中,步骤3)中,所述矩阵张量中,包括:用户的性别、客户端ID、广告、ID以及访问时间,其格式选择:{(a广告,偏好大小),(b广告,偏好大小)....}。
其中,步骤4)之后,还包括:将该向量作为输入,送入分类器中,最终得到用户画像。
其中,步骤1)中,设定卷积公式中不同的网络的结构、每个节点的阈值、f的形式;
对每一种不同的网络的结构、每个节点的阈值、f的形式所得到的输出结构进行对比,最终得到y(t)包含的数据编码信息量最大的卷积公式。
其中,步骤4)中,基于以上卷积神经网络模型,对编码完毕后的数据送入卷积网络中,自动过滤噪声和低信息量的东西,保留了信息量最大的东西,得到一个固定维度的向量。
其中,步骤1)中,所述卷积神经网络的训练,具体包括:
子步骤11)先训练出卷积核儿,然后再确定输出向量;
子步骤12)使用包括{广告,时间,点击率,媒介,地域,。。。。}的向量输入,其中例如广告被处理为一个输入向量(广告1,广告2。。。。)
其中,该用户画像的数据结构为:用户画像(标签,标签权重值)。
本发明具有以下的技术效果:
1.去除主观人工干预;
2.准确率大幅度提升;
3.通用性特别好,在加入新的字段,新的业务,往往改动非常少(几乎就是零改动)。
更具体地说,本发明要解决的技术问题:深度学习可以很好的解决人工干预的问题,即无需人工干预就可以直接训练分析,让数据本身尽可能的发挥自己的效果。主要是使用cnn来处理分类数据。
具体来说,该方法具体包括:
通过广告在用户客户端的展示,点击,转换数据,可以通过深度学习,学习出用户、用户和广告、广告的画像(例如:用户的点击习惯,点击频率,对广告的关注度,广告本身和广告位关联关系和点击率的关系等等)。通过更好的用户画像,在CTR预估的时候,可以更好的提升准确率,提高转化率。
该方法具体包括:
将输入先映射为dummy变量然后再输入到卷积神经网络;
例如,每个样本都是一个张量,这个张量可以用矩阵表示{(男,女)(appid1,appid2)(广告id)(时间)}
其中,每个括号里的内容只有一个,不用再设dummy变量。然后根据网络的输出再确定输入到下面的分类器的变量。
张量→卷积神经网络→向量→分类器
通过深度学习在CTR预估中训练得到用户画像(标签,标签权重值)
需要说明的是,对于上述方法实施例而言,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。
而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于卷积网络进行网络访问数据进行处理的方法,其特征在于,包括:步骤1)训练卷积神经网络模型,包括:
获取样本数据,该样本数据中包括:用户的性别、客户端ID、广告ID以及访问时间;
按照以下的卷积公式进行数据处理:
x(t)和h(t)函数是卷积的变量,p是积分变量,t是使函数h(-p)位移的量,星号*表示卷积;
选择一个y(t)包含的数据编码信息量最大的卷积公式,以此作为训练好的卷积神经网络模型;
步骤2)获取广告在用户客户端的展示、点击和转换数据;
步骤3)对展示、点击和转换数据进行编码,并针对每一条用户数据,生成对应的矩阵张量;
步骤4)将以上矩阵张量送入步骤1)中训练好的卷积神经网络中,得到其输出向量。
2.根据权利要求1所述的基于卷积网络进行网络访问数据进行处理的方法,其特征在于,步骤3)中,所述矩阵张量中,包括:用户的性别、客户端ID、广告、ID以及访问时间,其格式选择:{(a广告,偏好大小),(b广告,偏好大小)....}。
3.根据权利要求1或2所述的基于卷积网络进行网络访问数据进行处理的方法,其特征在于,步骤4)之后,还包括:将该向量作为输入,送入分类器中,最终得到用户画像。
4.根据权利要求1或2所述的基于卷积网络进行网络访问数据进行处理的方法,其特征在于,步骤1)中,设定卷积公式中不同的网络的结构、每个节点的阈值、f的形式;
对每一种不同的网络的结构、每个节点的阈值、f的形式所得到的输出结构进行对比,最终得到y(t)包含的数据编码信息量最大的卷积公式。
5.根据权利要求1或2所述的基于卷积网络进行网络访问数据进行处理的方法,其特征在于,步骤4)中,基于以上卷积神经网络模型,对编码完毕后的数据送入卷积网络中,自动过滤噪声和低信息量的东西,保留了信息量最大的东西,得到一个固定维度的向量。
6.根据权利要求1所述的基于卷积网络进行网络访问数据进行处理的方法,其特征在于,步骤1)中,所述卷积神经网络的训练,具体包括:
子步骤11)先训练出卷积核儿,然后再确定输出向量;
子步骤12)使用包括{广告,时间,点击率,媒介,地域,。。。。}的向量输入,其中,广告被处理为一个输入向量(广告1,广告2。。。。)。
CN201810022744.1A 2018-01-10 2018-01-10 一种基于卷积网络进行网络访问数据进行处理的方法 Pending CN108280511A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810022744.1A CN108280511A (zh) 2018-01-10 2018-01-10 一种基于卷积网络进行网络访问数据进行处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810022744.1A CN108280511A (zh) 2018-01-10 2018-01-10 一种基于卷积网络进行网络访问数据进行处理的方法

Publications (1)

Publication Number Publication Date
CN108280511A true CN108280511A (zh) 2018-07-13

Family

ID=62803475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810022744.1A Pending CN108280511A (zh) 2018-01-10 2018-01-10 一种基于卷积网络进行网络访问数据进行处理的方法

Country Status (1)

Country Link
CN (1) CN108280511A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502898A (zh) * 2019-07-31 2019-11-26 深圳前海达闼云端智能科技有限公司 审计智能合约的方法、系统、装置、存储介质和电子设备
CN113570478A (zh) * 2021-06-29 2021-10-29 中北大学 基于边缘计算的桥梁健康状态智能评估方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046515A (zh) * 2015-06-26 2015-11-11 深圳市腾讯计算机系统有限公司 广告排序方法及装置
US20150363688A1 (en) * 2014-06-13 2015-12-17 Microsoft Corporation Modeling interestingness with deep neural networks
CN105869016A (zh) * 2016-03-28 2016-08-17 天津中科智能识别产业技术研究院有限公司 一种基于卷积神经网络的点击通过率预估方法
CN107153887A (zh) * 2017-04-14 2017-09-12 华南理工大学 一种基于卷积神经网络的移动用户行为预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150363688A1 (en) * 2014-06-13 2015-12-17 Microsoft Corporation Modeling interestingness with deep neural networks
CN105046515A (zh) * 2015-06-26 2015-11-11 深圳市腾讯计算机系统有限公司 广告排序方法及装置
CN105869016A (zh) * 2016-03-28 2016-08-17 天津中科智能识别产业技术研究院有限公司 一种基于卷积神经网络的点击通过率预估方法
CN107153887A (zh) * 2017-04-14 2017-09-12 华南理工大学 一种基于卷积神经网络的移动用户行为预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李思琴: "基于卷积神经网络的搜索广告点击率预测", 智能计算机与应用, vol. 5, no. 5, pages 22 - 25 *
王重仁;韩冬梅;: "基于卷积神经网络的互联网金融信用风险预测研究", 微型机与应用, no. 24 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502898A (zh) * 2019-07-31 2019-11-26 深圳前海达闼云端智能科技有限公司 审计智能合约的方法、系统、装置、存储介质和电子设备
CN113570478A (zh) * 2021-06-29 2021-10-29 中北大学 基于边缘计算的桥梁健康状态智能评估方法
CN113570478B (zh) * 2021-06-29 2023-10-31 中北大学 基于边缘计算的桥梁健康状态智能评估方法

Similar Documents

Publication Publication Date Title
CN108510012B (zh) 一种基于多尺度特征图的目标快速检测方法
Cordeiro et al. A survey on deep learning with noisy labels: How to train your model when you cannot trust on the annotations?
CN111723220B (zh) 基于注意力机制和哈希的图像检索方法、装置及存储介质
CN109949255A (zh) 图像重建方法及设备
Klibisz et al. Fast, simple calcium imaging segmentation with fully convolutional networks
WO2017206936A1 (zh) 基于机器学习的网络模型构造方法及装置
WO2023065859A1 (zh) 物品推荐方法、装置及存储介质
CN109063719B (zh) 一种联合结构相似性和类信息的图像分类方法
CN103942571B (zh) 一种基于遗传规划算法的图形图像分类方法
WO2022042043A1 (zh) 机器学习模型的训练方法、装置和电子设备
CN112115967B (zh) 一种基于数据保护的图像增量学习方法
US8402027B1 (en) System and method for hybrid hierarchical segmentation
JP7502972B2 (ja) プルーニング管理装置、プルーニング管理システム及びプルーニング管理方法
Lopez-Rubio et al. Bregman divergences for growing hierarchical self-organizing networks
Niu et al. Machine learning-based framework for saliency detection in distorted images
CN114299362A (zh) 一种基于k-means聚类的小样本图像分类方法
Chen et al. SCPA‐Net: Self‐calibrated pyramid aggregation for image dehazing
CN108280511A (zh) 一种基于卷积网络进行网络访问数据进行处理的方法
US20180114109A1 (en) Deep convolutional neural networks with squashed filters
CN112381225A (zh) 优化未来性能的推荐系统重训练方法
Guo et al. Sign language recognition via dimensional global–local shift and cross-scale aggregation
Fan et al. [Retracted] Accurate Recognition and Simulation of 3D Visual Image of Aerobics Movement
CN114841887B (zh) 一种基于多层次差异学习的图像恢复质量评价方法
Aoshima et al. Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation for Pretrained Deep Generative Model
Chung et al. Filter pruning by image channel reduction in pre-trained convolutional neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180713