CN108764961B - 广告主的分类方法及系统 - Google Patents

广告主的分类方法及系统 Download PDF

Info

Publication number
CN108764961B
CN108764961B CN201810332173.1A CN201810332173A CN108764961B CN 108764961 B CN108764961 B CN 108764961B CN 201810332173 A CN201810332173 A CN 201810332173A CN 108764961 B CN108764961 B CN 108764961B
Authority
CN
China
Prior art keywords
advertiser
webpage data
piece
current
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810332173.1A
Other languages
English (en)
Other versions
CN108764961A (zh
Inventor
乔方杰
吴文伟
何爱龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weimeng Chuangke Network Technology China Co Ltd
Original Assignee
Weimeng Chuangke Network Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weimeng Chuangke Network Technology China Co Ltd filed Critical Weimeng Chuangke Network Technology China Co Ltd
Priority to CN201810332173.1A priority Critical patent/CN108764961B/zh
Publication of CN108764961A publication Critical patent/CN108764961A/zh
Application granted granted Critical
Publication of CN108764961B publication Critical patent/CN108764961B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0243Comparative campaigns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement

Abstract

本发明涉及数据分类领域,具体涉及广告主的分类方法及系统,所述方法包括:将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。本发明提升了分类的效率和准确率。解决了社交网络中广告主分类的问题。

Description

广告主的分类方法及系统
技术领域
本发明涉及数据分类领域,具体涉及广告主的分类方法及系统。
背景技术
随着社交网络的应用广泛,更多广告主会选择将广告投放在社交网络中。对于广告主进行类分,能够更好的帮助网站对各广告主进行分析,从而对网站的经营分析提供帮助。通过大量数据分析发现,广告主在社交网络上发布的内容(实质上属于广告)比较单一,只有极少数会发布三种以上的内容,并且大量发布的内容都属于一个类别,因此,通过广告主发布的内容作为参考对广告主进行分类的方案是非常合理的。广告主一般在社交网络上发布的属于本文内容。
短文本分类是一种常见的自然语言处理方法的应用。它是指在一定的分类体系下,根据文本的内容自动地将其归入某个类别。系统的输入是需要进行分类处理的大量文本,系统的输出是与文本关联的类别。从数学角度来看,文本分类本质是一个映射过程,它将未标明类别的文本映射到分类体系下已有的类别中。
文本分类工作的研究在国外起始较早,早在20世纪60代,美国IBM公司提出把统计用于自动分类的思想。国内对于自动文本分类的工作则始于20实际80代初期。如今,中文分类技术已经趋于成熟。但是现有的分类方法在建模的过程中使用的函数简单,这也导致在有限的样本和计算单元的条件下导致其对复杂函数的表达能力受到限制。同时,算法需要利用监督学习或半监督学习来进行抽取特征,这需要大量的人力。特征提取结果的好坏也直接影响文本分类结果的好坏。因此,现有技术中的文本分类方法并不适用于社交网络中广告主的分类。
发明内容
本发明要解决的技术问题在于,克服现有的技术的不足,提供广告主的分类方法及系统,准确的对广告主进行分类,解决社交网络中广告主的分类问题。
为达到上述技术目的,一方面,本发明提供的广告主的分类方法,包括:
将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;
构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:
对当前广告主发布的当前每条网页数据的数值矩阵进行特征提取,得到当前每条网页数据的各特征矩阵;
将当前每条网页数据的各特征矩阵进行分类,得到当前每条网页数据的预测类别;
对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。
另一方面,本发明提供的广告主的分类系统,包括:
转换单元,用于将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;
卷积单元,用于构建不同类别的卷积核;
提取单元,用于对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;
预测单元,用于将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;
投票单元,用于对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。
在本发明中,通过将广告主发布的内容,即网页数据转换为矩阵的形式进行分析,然后在配合卷积计算,可以精确的对网页数据进行分类;从而推出广告主的类别。本发明提升了分类的效率和准确率。解决了社交网络中广告主分类的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的另一种方法流程示意图;
图3为本发明实施例的系统一种结构示意图;
图4为本发明实施例的系统另一种结构示意图;
图5为本发明实施例中转换单元的结构示意图;
图6为本发明实施例中提取单元的结构示意图;
图7为本发明实施例中随机矩阵的示意图;
图8为本发明实施例中特征提取的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,作为一种实施例,本发明所述的广告主的分类方法,包括:
101、将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;
102、构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:
103、对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;
104、将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;
105、对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。
如图2所示,作为另一种实施例,本发明所述的广告主的分类方法,包括:
201、获取待分类的各广告主发布的每条原始网页数据;
202、对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据;
203、将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;
204、构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:
205、对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;
206、将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;
207、对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。
进一步地,所述将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵,具体包括:
构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;
针对每一个待分类的广告主发布的每条网页数据,执行如下操作:
对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;
基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;
将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵。
更进一步地,所述对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵,具体包括:
针对每条网页数据,执行如下操作:
对当前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;
针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;
对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;
将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,得到对应当前网页数据的各特征矩阵。
再进一步地,所述将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别,具体包括:
通过softmax回归模型对每条网页数据的各特征矩阵进行分类,得到当前广告主发布的每条网页数据的预测类别。
如图3所示,作为一种可能结构,广告主的分类系统,包括:
转换单元11,用于将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;
卷积单元12,用于构建不同类别的卷积核;
提取单元13,用于对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;
预测单元14,用于将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;
投票单元15,用于对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。
在本发明所述的广告主的分类系统中,提取单元13、预测单元14和投票单元15都是针对每一个待分类的广告主执行的。
如图4所示,作为另一种可能结构,广告主的分类系统,包括:
获取单元16,用于获取待分类的各广告主发布的每条原始网页数据;
预处理单元17,用于对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据;
转换单元11,用于将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;
卷积单元12,用于构建不同类别的卷积核;
提取单元13,用于对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;
预测单元14,用于将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;
投票单元15,用于对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。
如图5所示,作为一种可能结构,所述转换单元11,包括:
第一构建模块111,用于构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;
分词模块112,用于对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;
查找模块113,用于基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;
组合模块114,用于将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵。
在本发明所述的转换单元11中,分词模块112、查找模块113和组合模块114都是针对每个待分类的广告主发布的每条网页数据执行的。
如图6所示,作为一种可能结构,所述提取单元13,包括:
计算模块131,用于对当前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;
偏置模块132,用于针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;
激活模块133,用于对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;
池化模块134,用于将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,分别得到对应当前网页数据的各特征矩阵。
在上述技术方案中,所述预测单元14,具体用于:
通过softmax回归模型对当前网页数据的各特征矩阵进行分类,得到当前广告主发布的当前网页数据的预测类别。
以下结合应用实例对本发明实施例上述技术方案进行详细说明:
以社交网络为微博举例;
步骤1、获取待分类的各广告主发布的每条原始网页数据;
使用网络爬虫方法,自动定向爬取广告主的微博数据,即可以实现针对广告主的信息获取。标记类别,将微博中文本里的数据表示成一个句子。
获取原始微博数据后,可以将数据分为训练集和测试集。训练集用来训练微博博文分类模型,测试集用来测试模型分类的效果。
步骤2、对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据;
以去除获取到的原始微博数据中的无关噪声和重复数据;包括:删除网页链接、位置信息和重复的字句。然后将网络流行语及网络缩写记性人工标注;将表情符号用对应的文字代替。
步骤3、将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;具体地:
步骤3.1、构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;
如图7所示,构建的随机矩阵中,index为索引,在本随机矩阵中,索引代表了每个单词的行号。vocab代表了语料库中所有的单词。当然,图7中为方便展示省略了大部分单词。在本随机矩阵中,代表各单词的子块是随机矩阵的每个行向量,也就是说,每一各行向量都唯一对应一个单词。
本随机矩阵的高度为语料库中单词个数M,宽度embeddingSize为每一词向量的位数。宽度embeddingSize为超参数,本随机矩阵选用默认参数128。本随机矩阵的作用就是将每个单词都映射至向量。
步骤3.2、针对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;
在本实施例中,可以使用开源分词库jieba分词,进行分词。例如,第n个广告主的第i条微博内容为:I love you。
则分词得到content[i]=[I,love,you];
步骤3.3、基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;
对应的,将得到的分词分别转化为在随机向量中的索引符号,即行号;
vector=[i]=[1,2,3];
相应地,第n个广告主的第i条微博内容对应的各子块(行向量)为:
[-0.35301754 -074718404 …, 0.8568539 -0.97576588]
[-0.67536247 0.76219553 …, -0.5886898 0.56818742]
[0.41945928 -0.25878668 …, 0.26236984 0.52249086]
步骤3.4、将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵;
将步骤3.3中的3个行向量有上之下排列得到第n个广告主的第i条微博的数值矩阵。
在本实施例中,按照单词在句子中的顺序,从上到下的排列单词对应的列向量。
步骤4、构建不同类别的卷积核,针对当前广告主发布的当前网页数据的数值矩阵进行特征提取,得到当前网页数据的各特征矩阵;具体地:
步骤4.1、构建不同类别的卷积核;
在本实施例中,构建了三类不同尺寸的卷积核,分别为:3x128、4x128、5x128;而每个尺寸下又包括128个不同的卷积核。所以,本实施例中,共有3x128=384个不同干的卷积核。
步骤4.2、针对前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;
如图8中①卷积所示,从卷积核的尺寸上可以看出,每个卷积核的宽度和随机矩阵的宽度相同。因此,本实施例采用卷积核由上至下的卷积方式对第n个广告主的第i条微博的数值矩阵进行卷积计算。
浅色三行矩阵的Patch为某个3x128的卷积核,该卷积核对第n个广告主的第i条微博的数值矩阵由上往下滑卷积,得到该3x128的卷积核对应的完整的卷积conv。
步骤4.3、针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;
如图8中②偏置所示,针对图8中的完成的卷积conv作偏置计算,得到该3x128的卷积核对应的偏置con_b。
步骤4.4、对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;
步骤4.5、将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,分别得到对应当前网页数据的各特征矩阵;
如图8中③偏置所示,对该3x128的卷积核对应的偏置con_b进行池化,得到该3x128的卷积核对应的特征矩阵con_b_pool。
图8中,对激活函数部分进行了省略。上述过程,可用下列公式表达:
conv=W*x+b,b∈R (1)
h_conv=ReLU(conv) (2)
h_pool=max_pool(h_conv) (3)
上述公式中,x为输入到卷积层的单条微博的矩阵表示,b是偏置项,卷积核W∈R^hk,R表示向量空间,h表示窗口大小,k表示维度,ReLU表示非线性函数,max_pool表示最大池化。
步骤5、将当前网页数据的各特征矩阵进行分类,得到当前网页数据的预测类别;
使用Softmax回归模型对特征矩阵进行分类;对于一个样本而言,经过神经网络模型后,我们将获得到的384个特征,送入softmax回归模型进行分类,从而预测出相应的类别;具体的:
softmax(X1,384·W384,numberClasses+b1,numberClasses) (4)
步骤6、对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别。
通过大量的数据分析发现:大部分广告主所发微博的类别比较单一,只有极少数会发3种以上类型的微博,并且大量的微博都是同一个类别。因此将微博类别代替广告主类别的方案是非常合理的。例如:某个广告主发布了三类微博,基于改进后的卷积神经网络模型类别预测为:
category1
category1
category2
我们采取投票决策的方式,取类别最多的类——category1作为广告主的类别标签。保证广告主和博文类别的一致性。
在本发明中,使用的卷积神经网络属于深层网络,而深层网络有着强大的特征学习能力,即其可以从少量的样本集中抓取到数据的本质特征。而且卷积神经网络有稀疏连接和权重共享这两个特点,可以减少全连接神经网络的训练参数,使神经网络结构变得更简单,适应性更强。
在预测微博博文分类的过程中,改进了传统卷积神经网络的训练结构:1、二维矩阵的宽度为切词后单词的数字表示,高度为句子长度。2、卷积核的宽度与单词宽度一致,卷积方向朝下,不朝右,这样保证了单词意义的完整。3、池化pooling阶段将1*n的向量转换为一个像素,进一步的精简了网络结构,更加匹配微博博文分类的预测场景。
在基于改进后的卷积神经网络预测微博博文类别的基础上,采取投票策略,对广告主进行分类。并且随着博文的变动,也可保证广告主和博文一致性,提升了广告主分类的效率和准确率。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种广告主的分类方法,其特征在于,所述方法包括:
将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;
构建不同类别的卷积核,针对每一个待分类的广告主,执行如下操作:
对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;
将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;
对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别;
其中,所述对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵,具体包括:
针对每条网页数据,执行如下操作:
对当前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;
针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;
对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;
将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,得到对应当前网页数据的各特征矩阵;
其中,数值矩阵的宽度为切词后单词的数字表示,高度为句子长度,数值矩阵的每个行向量都唯一对应一个单词,并且按照单词在句子中的顺序,从上到下的排列单词对应的行向量;卷积核的宽度与单词宽度相同,卷积方向朝下。
2.根据权利要求1所述的广告主的分类方法,其特征在于,所述将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵,之前还包括:
获取待分类的各广告主发布的每条原始网页数据;
对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据。
3.根据权利要求1所述的广告主的分类方法,其特征在于,所述将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵,具体包括:
构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;
针对每一个待分类的广告主发布的每条网页数据,执行如下操作:
对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;
基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;
将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵。
4.根据权利要求1所述的广告主的分类方法,其特征在于,所述将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别,具体包括:
通过softmax回归模型对每条网页数据的各特征矩阵进行分类,得到当前广告主发布的每条网页数据的预测类别。
5.一种广告主的分类系统,其特征在于,所述系统包括:
转换单元,用于将待分类的各广告主发布的每条网页数据表征为对应的数值矩阵;
卷积单元,用于构建不同类别的卷积核;
提取单元,用于对当前广告主发布的每条网页数据的数值矩阵进行特征提取,得到每条网页数据的各特征矩阵;
预测单元,用于将每条网页数据的各特征矩阵进行分类,得到每条网页数据的预测类别;
投票单元,用于对当前广告主的各网页数据的预测类别进行投票,得到当前广告主的类别;
其中,所述提取单元,包括:
计算模块,用于对当前广告主发布的当前网页数据的数值矩阵,分别将每个卷积核与该数值矩阵进行卷积计算,得到各卷积核下的该数值矩阵的各卷积;
偏置模块,用于针对同一卷积核下的该数值矩阵的各卷积,分别进行偏置计算,得到同一卷积核下的该数值矩阵的各偏置;
激活模块,用于对同一卷积核下的该数值矩阵的各偏置分别运用激活函数,得到同一卷积核下的该数值矩阵的各原始特征向量;
池化模块,用于将同一卷积核下的该数值矩阵的各原始特征向量堆积后进行最大池化,分别得到对应当前网页数据的各特征矩阵;
其中,数值矩阵的宽度为切词后单词的数字表示,高度为句子长度,数值矩阵的每个行向量都唯一对应一个单词,并且按照单词在句子中的顺序,从上到下的排列单词对应的行向量;卷积核的宽度与单词宽度相同,卷积方向朝下。
6.根据权利要求5所述的广告主的分类系统,其特征在于,所述系统还包括:
获取单元,用于获取待分类的各广告主发布的每条原始网页数据;
预处理单元,用于对各广告主发布的每条原始网页数据进行预处理,得到各广告主发布的每条网页数据。
7.根据权利要求5所述的广告主的分类系统,其特征在于,所述转换单元,包括:
第一构建模块,用于构建一个随机矩阵;在语料库中的任一单词都可被随机矩阵的某个子块唯一表示;
分词模块,用于对当前广告主发布的当前网页数据进行分词,得到当前网页数据对应的至少一个单词;
查找模块,用于基于随机矩阵,分别查找到当前网页数据对应的每个单词对应的子块;
组合模块,用于将当前网页数据对应的每个单词对应的子块组合成一个二维矩阵;所述二维矩阵为当前广告主发布的当前网页数据的数值矩阵。
8.根据权利要求5所述的广告主的分类系统,其特征在于,所述预测单元,具体用于:
通过softmax回归模型对每条网页数据的各特征矩阵进行分类,得到当前广告主发布的每条网页数据的预测类别。
CN201810332173.1A 2018-04-13 2018-04-13 广告主的分类方法及系统 Active CN108764961B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810332173.1A CN108764961B (zh) 2018-04-13 2018-04-13 广告主的分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810332173.1A CN108764961B (zh) 2018-04-13 2018-04-13 广告主的分类方法及系统

Publications (2)

Publication Number Publication Date
CN108764961A CN108764961A (zh) 2018-11-06
CN108764961B true CN108764961B (zh) 2022-12-23

Family

ID=64010793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810332173.1A Active CN108764961B (zh) 2018-04-13 2018-04-13 广告主的分类方法及系统

Country Status (1)

Country Link
CN (1) CN108764961B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301225A (zh) * 2017-06-20 2017-10-27 挖财网络技术有限公司 短文本分类方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8447767B2 (en) * 2010-12-15 2013-05-21 Xerox Corporation System and method for multimedia information retrieval
CN104331498B (zh) * 2014-11-19 2017-08-01 亚信科技(南京)有限公司 一种对互联网用户访问的网页内容自动分类的方法
CN107145483B (zh) * 2017-04-24 2018-09-04 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301225A (zh) * 2017-06-20 2017-10-27 挖财网络技术有限公司 短文本分类方法及装置

Also Published As

Publication number Publication date
CN108764961A (zh) 2018-11-06

Similar Documents

Publication Publication Date Title
CN109543084B (zh) 一种建立面向网络社交媒体的隐蔽敏感文本的检测模型的方法
US11238310B2 (en) Training data acquisition method and device, server and storage medium
CN111126386B (zh) 场景文本识别中基于对抗学习的序列领域适应方法
CN109271493B (zh) 一种语言文本处理方法、装置和存储介质
CN109189767B (zh) 数据处理方法、装置、电子设备及存储介质
CN106547871A (zh) 基于神经网络的搜索结果的召回方法和装置
CN108446312B (zh) 基于深度卷积语义网的光学遥感图像检索方法
CN110415071B (zh) 一种基于观点挖掘分析的汽车竞品对比方法
Fujikawa et al. Recognition of oracle bone inscriptions by using two deep learning models
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
Zhu et al. Grape leaf black rot detection based on super-resolution image enhancement and deep learning
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN104537028A (zh) 一种网页信息处理方法及装置
CN112766334A (zh) 一种基于伪标签域适应的跨域图像分类方法
CN114638633A (zh) 异常流量检测的方法和装置、电子设备和存储介质
CN111291807B (zh) 一种细粒度图像分类方法、装置及存储介质
CN102521402B (zh) 文本过滤系统及方法
CN108876643A (zh) 一种社交策展网络上采集(Pin)的多模态表示方法
CN114329455A (zh) 基于异构图嵌入的用户异常行为检测方法及装置
CN111553442B (zh) 一种分类器链标签序列的优化方法及系统
CN114372532A (zh) 标签标注质量的确定方法、装置、设备、介质及产品
CN111984790B (zh) 一种实体关系抽取方法
CN108764961B (zh) 广告主的分类方法及系统
CN112131506A (zh) 一种网页分类方法、终端设备及存储介质
CN111177015B (zh) 应用程序质量识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant