CN111353803B - 广告主分类方法及装置、计算设备 - Google Patents

广告主分类方法及装置、计算设备 Download PDF

Info

Publication number
CN111353803B
CN111353803B CN201811580047.4A CN201811580047A CN111353803B CN 111353803 B CN111353803 B CN 111353803B CN 201811580047 A CN201811580047 A CN 201811580047A CN 111353803 B CN111353803 B CN 111353803B
Authority
CN
China
Prior art keywords
advertiser
advertisers
classification
words
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811580047.4A
Other languages
English (en)
Other versions
CN111353803A (zh
Inventor
耿小亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
3600 Technology Group Co ltd
Original Assignee
3600 Technology Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 3600 Technology Group Co ltd filed Critical 3600 Technology Group Co ltd
Priority to CN201811580047.4A priority Critical patent/CN111353803B/zh
Publication of CN111353803A publication Critical patent/CN111353803A/zh
Application granted granted Critical
Publication of CN111353803B publication Critical patent/CN111353803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0254Targeted advertisements based on statistics

Abstract

本发明公开了一种广告主分类方法及装置、计算设备。其中方法包括:根据广告主的属性信息,对广告主进行一级分类,得到每个广告主的一级类别;收集每个广告主的广告主购买词和/或广告主网页信息,从所述广告主购买词和/或广告主网页信息中提取得到广告主特征词;根据广告主特征词对属于同一一级类别的广告主进行二级分类,得到每个广告主的二级类别;根据每个广告主的一级类别和二级类别,确定广告主的类别。与现有技术相比,本方案在粗分类结果中进一步进行细分,使得最终的分类结果更加精细;而且,本方案所参照的分类依据携带有较强的广告主特征信息,利用这些分类依据进行分类得到的细化分类结果更为精准。

Description

广告主分类方法及装置、计算设备
技术领域
本发明涉及互联网技术领域,具体涉及一种广告主分类方法及装置、计算设备。
背景技术
广告主是广告活动的发布者,任何推广、销售产品或服务的商家都可以作为广告主。对广告主进行分类,能够更好的帮助网站对各广告主进行分析,从而对网站的经营分析提供帮助。
目前,现有技术中对广告主进行分类主要是按照行业进行分类,而且大多是人工处理,或者依赖于广告主自己预先填写的行业类别。人工处理主要依据广告主提供的公司名称、主营业务等信息进行分类,或者依据广告主曾经发布的广告类型等信息进行分类。现有技术的这种分类方法得到的分类结果粒度很大,仅仅是行业划分,分类结果不够精细;而且人工操作全凭经验,得到的分类结果准确性较差。另外,针对大数据量的分类处理,人工处理方式耗时、成本高。因此,现有技术缺乏一种精准有效地广告主分类方法。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的广告主分类方法及装置、计算设备。
根据本发明的一个方面,提供了一种广告主分类方法,包括:
根据广告主的属性信息,对广告主进行一级分类,得到每个广告主的一级类别;
收集每个广告主的广告主购买词和/或广告主网页信息,从所述广告主购买词和/或广告主网页信息中提取得到广告主特征词;
根据广告主特征词对属于同一一级类别的广告主进行二级分类,得到每个广告主的二级类别;
根据每个广告主的一级类别和二级类别,确定广告主的类别。
根据本发明的另一方面,提供了一种广告主分类装置,包括:
第一分类模块,适于根据广告主的属性信息,对广告主进行一级分类,得到每个广告主的一级类别;
特征获取模块,适于收集每个广告主的广告主购买词和/或广告主网页信息,从所述广告主购买词和/或广告主网页信息中提取得到广告主特征词;
第二分类模块,适于根据广告主特征词对属于同一一级类别的广告主进行二级分类,得到每个广告主的二级类别;
类别确定模块,适于根据每个广告主的一级类别和二级类别,确定广告主的类别。
根据本发明的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述广告主分类方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述广告主分类方法对应的操作。
根据本发明提供的广告主分类方法及装置,首先利用广告主的属性信息为广告主进行一级分类,后续在一级分类的基础上,根据广告主购买词和/或广告主网页信息提取得到的广告主特征词对广告主二级分类,对一级分类结果和二级分类结果进行整合得到广告主的最终类别。与现有技术相比,本方案在粗分类结果中进一步进行细分,使得最终的分类结果更加精细;而且,本方案所参照的分类依据(如购买词、网页信息)携带有较强的广告主特征信息,利用这些分类依据进行分类得到的细化分类结果更为精准;另外,本方案无需人工参与,大大提升了执行效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的广告主分类方法的流程图;
图2示出了根据本发明另一个实施例的广告主分类方法的流程图;
图3示出了根据本发明一个实施例的广告主分类装置的功能框图;
图4示出了根据本发明实施例的一种计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的广告主分类方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,根据广告主的属性信息,对广告主进行一级分类,得到每个广告主的一级类别。
本方法首先获取广告主的属性信息,该属性信息具体为能够反映广告主的行业归属的关键信息,依据该关键信息对广告主进行一级分类得到的一级类别具体为行业类别。
可选地,广告主的属性信息包含:广告主的主体名称。广告主的主体名称可以为广告主所属公司的公司名称,公司名称中通常包含行业信息,从公司名称中提取该行业信息可用于确定广告主的行业类别,即一级类别。例如,某个广告主的公司名称为“××××医疗健康有限公司”,从中提取“医疗健康”关键词,根据该关键词即可确定该广告主的一级类别为医疗健康。
广告主的属性信息还可包含:广告主的主页网址信息。通常正规公司的主页网址会包含体现公司行业信息的特殊字符,从主页网址信息中提取该特殊字符可用于确定广告主的行业类别,即一级类别。例如,某个广告主的主页网址为“http://××××.edu.cn”,从中提取特殊字符“edu”,根据该特殊字符可确定该广告主的一级类别为教育。
本步骤得到的一级类别的分类结果是一种依据强规则完成的粗分类结果,这里的强规则就是按照广告主的属性信息进行行业划分的规则。除了广告主的主体名称和主页网址信息以外,其它可以反映广告主的行业归属的关键信息都可以当作广告主的属性信息,本发明对此不作限制。
在根据步骤S101得到广告主的粗分类结果之后,继续执行步骤S102和步骤S103对各个一级类别下的广告主进行进一步细分类。
步骤S102,收集每个广告主的广告主购买词和/或广告主网页信息,从广告主购买词和/或广告主网页信息中提取得到广告主特征词。
针对每一个一级类别下的广告主,进一步收集每个广告主的广告主购买词和/或广告主网页信息,从中提取广告主特征词。
广告主购买词是指广告主购买的用于搜索广告的搜索词。广告主购买词可以是广告主主动提供,也可以是通过采集用户搜索行为数据分析得到。举例来说,假设采集到用户搜索行为数据是,用户A输入搜索词query1,得到的搜索结果中包含广告主B的广告链接URL1,用户A点击了该URL1,那么query1就是广告主B的购买词。广告主购买词可以直接当作广告主特征词,也可以是经过过滤处理后作为广告主特征词。
广告主网页信息是指广告主相关的网页的源码信息,例如,广告主的主页源码信息。从网页的源码信息中提取指定标签对应的内容,进而从所提取的内容中解析得到关键词作为广告主特征词。这些关键词可以直接作为广告主特征词,也可以是经过过滤后作为广告主特征词。
经过以上提取过程,可以为每个广告主提取得到一个或多个广告主特征词。
步骤S103,根据广告主特征词对属于同一一级类别的广告主进行二级分类,得到每个广告主的二级类别。
针对属于同一一级类别的广告主,利用每个广告主的一个或多个广告主特征词生成每个广告主的特征向量,根据属于同一一级类别的各个广告主的特征向量对各个广告主进行聚类处理,聚为一类的广告主属于同一二级类别。二级类别为细分类结果,是在一级类别下继续对广告主进行细分,例如在医疗健康的一级类别下,利用本步骤可以细分得到二级类别,如内科、外科、妇科等。
步骤S104,根据每个广告主的一级类别和二级类别,确定广告主的类别。
将每个广告主的一级类别和二级类别进行整合,即得到广告主的类别。
根据本实施例提供的广告主分类方法,首先利用广告主的属性信息为广告主进行一级分类,后续在一级分类的基础上,根据广告主购买词和/或广告主网页信息提取得到的广告主特征词对广告主二级分类,对一级分类结果和二级分类结果进行整合得到广告主的最终类别。与现有技术相比,本方法在粗分类结果中进一步进行细分,使得最终的分类结果更加精细;而且,本方法所参照的分类依据(如购买词、网页信息)携带有较强的广告主特征信息,利用这些分类依据进行分类得到的细化分类结果更为精准;另外,本方法无需人工参与,大大提升了执行效率。
图2示出了根据本发明另一个实施例的广告主分类方法的流程图,如图2所示,该方法包括如下步骤:
步骤S201,根据广告主的属性信息,对广告主进行一级分类,得到每个广告主的一级类别。
本步骤的具体执行过程可参见上述实施例的步骤S101,不再赘述。
步骤S202,收集每个广告主的广告主购买词作为广告主特征词。
广告主购买词是指广告主购买的用于搜索广告的搜索词。广告主购买词可以是广告主主动提供,也可以是通过采集用户搜索行为数据分析得到。举例来说,假设采集到用户搜索行为数据是,用户A输入搜索词query1,得到的搜索结果中包含广告主B的广告链接URL1,用户A点击了该URL1,那么query1就是广告主B的购买词。
如果某个广告主的购买词数量很多,可以根据用户搜索行为数据对购买词进行筛选。具体地,针对广告主的所有广告链接,解析用户输入搜索词后对搜索结果中广告链接的点击次数,根据点击次数对搜索词进行排序,排序靠前的预设个数的搜索词可以作为该广告主的广告主特征词。
步骤S203,获取每个广告主的广告主相关网页的源码信息,从广告主相关网页的源码信息中提取指定标签对应的内容,对指定标签对应的内容进行分词处理,得到广告主特征词。
广告主相关网页包含但不仅限于广告主主页。获取广告主主页的源码信息,对源码信息进行解析,提取指定标签对应的内容。具体地,提取广告主主页HTML中<head>标签对应的内容,进一步的提取<title>和<meta>标签对应的内容,所提取的这些内容包含广告主的主营业务的描述信息。对所提取的主营业务的描述信息进行分词处理,保留其中特征性较强的分词作为广告主特征词。
步骤S204,针对每个广告主的每个广告主特征词,统计该广告主特征词在对应的广告主的广告主相关信息中出现的第一词频,以及统计该广告主特征词在其它广告主的广告主相关信息中出现的第二词频;根据广告主特征词的第一词频和第二词频,对各个广告主的各个广告主特征词进行过滤处理。
在通过步骤S202和步骤S203得到广告主特征词后,为了进一步筛选出较高特征性的特征词,本步骤根据词频信息对广告主特征词进行过滤。过滤的原则是,如果某个广告主特征词在某个广告主相关信息中出现的词频很高,但在其它广告主相关信息中出现的词频较低,那么这个广告主特征词就属于特征性很强的关键词,其充分描述了广告主的主营业务。其中,广告主相关信息包含但不仅限于广告主的属性信息、广告主购买词以及广告主网页信息。
举例来说,对于某一广告主A的广告主特征词query1,首先统计query1在广告主A的相关信息中出现的第一词频,如query1在广告主A的主体名称、主页网址、购买词、网页源码的多个指定标签中均出现,计算出现次数作为第一词频;然后,统计query1在其它广告主的相关信息中出现的第二词频;根据经验值分别确定第一词频和第二词频的比较值(两个词频的比较值不同),将第一词频与其比较值进行比较,将第二词频与其比较值进行比较,根据比较结果评估query1的特征性高低,进而根据特征性高低评估结果确定是否对query1进行过滤。
步骤S205,根据广告主特征词对属于同一一级类别的广告主进行聚类,根据聚为一类的广告主的广告主特征词的出现频率,确定二级类别的类别名称。
针对属于同一一级类别的广告主,利用每个广告主的一个或多个广告主特征词生成每个广告主的特征向量,根据属于同一一级类别的各个广告主的特征向量对各个广告主进行聚类处理,聚为一类的广告主属于同一二级类别。
具体地,聚类处理可采用K-means聚类算法来实现。根据广告主的特征向量将其映射为空间中的某一点,计算空间中每一点与各个中心点(每个分类对应一中心点,通过选取得到)之间的距离,根据距离确定哪些点归属同一类。其中距离是根据两个广告主之间包含的相同的广告主特征词的个数而决定,聚为一类的广告主属于同一二级类别。
可选地,在聚类过程中,若计算得出某个广告主与其分类中心点之间的距离大于预设阈值,则将该广告主剔除出该分类,从而提升了分类的准确率。
在聚类完成后,根据聚为一类的广告主的广告主特征词的出现频率,确定二级类别的类别名称。具体地,针对聚类得到的任一类别,查询属于该类别的广告主的各个广告主特征词的出现频率,该出现频率是指广告主特征词在该类别中出现的频率,选取出现频率最高的广告主特征词作为该类别的类别名称。
步骤S206,根据每个广告主的一级类别和二级类别,确定广告主的类别。
将每个广告主的一级类别和二级类别进行整合,即得到广告主的类别。
进一步的,在通过以上步骤S201至步骤S206得到大量广告主的分类结果之后,可以将上述已分类的广告主作为样本数据,选取相应的机器学习模型,依据样本数据对机器学习模型进行训练,得到广告主分类器。具体地,在步骤S206之后,本方法还包括:
步骤S207,以所有已确定类别的广告主为广告主样本,将广告主样本的广告主特征词作为样本输入数据,将广告主样本的类别为样本标注数据;选取机器学习模型,根据广告主样本的样本输入数据和样本标注数据对机器学习模型进行训练,得到广告主分类器。
适用本方法的机器学习模型包含但不仅限于:CNN卷积神经网络模型、GBDT决策树模型、随机森林以及向量空间算法等等,本实施例对此不作限制。
本方法将广告主样本的广告主特征词作为样本输入数据,具体地,将依据广告主特征词所生成的特征向量作为样本输入数据;将广告主样本的类别为样本标注数据。训练时,将样本输入数据输入至机器学习模型中,得到模型的样本输出结果,将样本输出结果与样本标注数据的差值作为反馈回归到机器学习模型中。经过若干次的迭代训练满足迭代结束条件后,训练过程结束。最终训练得到的模型即为广告主分类器。
步骤S208,将待预测分类的广告主的广告主特征词输入至广告主分类器中,预测得到广告主的类别。
在得到广告主分类器后,针对任一待预测分类的广告主,依据上述步骤S202至步骤S204得到待预测分类的广告主的广告主特征词,根据广告主特征词生成特征向量,将特征向量输入至广告主分类器中,预测得到广告主的类别。
根据本实施例提供的广告主分类方法,首先利用广告主的属性信息为广告主进行一级分类,后续在一级分类的基础上,根据广告主购买词和/或广告主网页信息提取得到的广告主特征词对广告主二级分类,对一级分类结果和二级分类结果进行整合得到广告主的最终类别。与现有技术相比,本方法在粗分类结果中进一步进行细分,使得最终的分类结果更加精细;而且,本方法所参照的分类依据(如购买词、网页信息)携带有较强的广告主特征信息,利用这些分类依据进行分类得到的细化分类结果更为精准;另外,本方法无需人工参与,大大提升了执行效率。进一步的,在获取广告主特征词的过程中,依据过滤原则对广告主特征词进行过滤,筛选出特征性较强的特征词,有助于提升二级分类结果的准确率。在得到大量的分类结果后,本方法还以所有已确定类别的广告主为广告主样本,对机器学习模型进行训练得到广告主分类器,后续直接根据该广告主分类器即可预测广告主的类别,大大提升了分类方法的执行效率。
利用上述实施例的方法得到的广告主分类可用于获取广告主竞品列表。具体地,根据用户因子、地域因子、主营业务因子、文本相关性因子和/或声量因子对属于同一类别的广告主进行分析,能够得到广告主竞品列表。
针对属于同一类别的广告主A和B,考虑用户因子、地域因子、主营业务因子、文本相关性因子和/或声量因子来评估A和B之间的竞争度分值。其中各个因子具体指相应维度的竞争度分值。
用户维度:A和B之间是否具有相同的用户,如具有,获取相同用户的数量,根据相同用户的数量评估用户维度的竞争度分值,即用户因子;
地域维度:A和B是否属于相同的地域,根据地域判断结果评估地域维度的竞争度分值,即地域因子;
主营业务维度:A和B之间是否具有相同的主营业务,进而评估主营业务维度的竞争度分值,即主营业务因子;
文本相关性维度:A和B之间的广告主特征词之间的文本相关性,如男科与泌尿的文本相关性较高,进而评估文本相关性维度的竞争度分值,即文本相关性因子;
声量维度:A和B之间的访问量、公司规模等声望因素,如A和B网址月访问量相差是否在20%以内,进而评估声量维度的竞争度分值,即声量因子。
以上各个因子具有预设的权重,依据权重进行加权就和,得到A和B之间的竞争度分值,把一个广告主对应的其他广告主按照竞争度分值进行排序,就得到了广告主竞品列表。
利用本实施例上述方法得到的广告主的细分行业类别,缩小了获取广告主竞品的范围,大大提升工作效率;在细分行业基础上,综合考虑用户因子、地域因子、主营业务因子、文本相关性因子以及声量因子,准确获取广告主竞品,免去大量人工,并且准确率很高。通过获取竞品列表,可以作为分析报告的依据,同时在广告投放上,广告主也可以参考竞品投放策略和效果,来优化自身投放方式。
图3示出了根据本发明一个实施例的广告主分类装置的功能框图,如图3所示,该装置包括:
第一分类模块31,适于根据广告主的属性信息,对广告主进行一级分类,得到每个广告主的一级类别;
特征获取模块32,适于收集每个广告主的广告主购买词和/或广告主网页信息,从所述广告主购买词和/或广告主网页信息中提取得到广告主特征词;
第二分类模块33,适于根据广告主特征词对属于同一一级类别的广告主进行二级分类,得到每个广告主的二级类别;
类别确定模块34,适于根据每个广告主的一级类别和二级类别,确定广告主的类别。
可选地,第一分类模块31进一步适于:根据广告主的主体名称和/或主页网址信息,对广告主进行一级分类,得到每个广告主的一级类别。
可选地,特征获取模块32进一步适于:获取广告主相关网页的源码信息;从所述广告主相关网页的源码信息中提取指定标签对应的内容;对所述指定标签对应的内容进行分词处理,得到广告主特征词。
可选地,该装置还包括:过滤模块35,适于针对每个广告主的每个广告主特征词,统计该广告主特征词在对应的广告主的广告主相关信息中出现的第一词频,以及统计该广告主特征词在其它广告主的广告主相关信息中出现的第二词频;根据广告主特征词的第一词频和第二词频,对各个广告主的各个广告主特征词进行过滤处理。
可选地,第二分类模块33进一步适于:根据广告主特征词对属于同一一级类别的广告主进行聚类;根据聚为一类的广告主的广告主特征词的出现频率,确定二级类别的类别名称。
可选地,该装置还包括:训练模块36,适于以所有已确定类别的广告主为广告主样本,将广告主样本的广告主特征词作为样本输入数据,将广告主样本的类别为样本标注数据;选取机器学习模型,根据广告主样本的样本输入数据和样本标注数据对机器学习模型进行训练,得到广告主分类器。
可选地,该装置还包括:预测模块37,适于将待预测分类的广告主的广告主特征词输入至所述广告主分类器中,预测得到广告主的类别。
可选地,该装置还包括:竞品解析模块38,适于根据用户因子、地域因子、主营业务因子、文本相关性因子和/或声量因子对属于同一类别的广告主进行分析,得到广告主竞品列表。
根据本实施例提供的广告主分类装置,第一分类模块利用广告主的属性信息为广告主进行一级分类,在一级分类的基础上,第二分类模块根据广告主购买词和/或广告主网页信息提取得到的广告主特征词对广告主二级分类,类别确定模块对一级分类结果和二级分类结果进行整合得到广告主的最终类别。与现有技术相比,本装置在粗分类结果中进一步进行细分,使得最终的分类结果更加精细;而且,本装置所参照的分类依据(如购买词、网页信息)携带有较强的广告主特征信息,利用这些分类依据进行分类得到的细化分类结果更为精准;另外,本装置无需人工参与,大大提升了执行效率。进一步的,在获取广告主特征词的过程中,过滤模块依据过滤原则对广告主特征词进行过滤,筛选出特征性较强的特征词,有助于提升二级分类结果的准确率。在得到大量的分类结果后,本装置还以所有已确定类别的广告主为广告主样本,对机器学习模型进行训练得到广告主分类器,后续直接根据该广告主分类器即可预测广告主的类别,大大提升了分类的执行效率。
本发明实施例还提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的广告主分类方法。
图4示出了根据本发明实施例的一种计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图4所示,该计算设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器402,用于执行程序410,具体可以执行上述广告主分类方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行以下操作:
根据广告主的属性信息,对广告主进行一级分类,得到每个广告主的一级类别;
收集每个广告主的广告主购买词和/或广告主网页信息,从所述广告主购买词和/或广告主网页信息中提取得到广告主特征词;
根据广告主特征词对属于同一一级类别的广告主进行二级分类,得到每个广告主的二级类别;
根据每个广告主的一级类别和二级类别,确定广告主的类别。
程序410具体还可以用于使得处理器402执行以下操作:
根据广告主的主体名称和/或主页网址信息,对广告主进行一级分类,得到每个广告主的一级类别。
程序410具体还可以用于使得处理器402执行以下操作:
获取广告主相关网页的源码信息;
从所述广告主相关网页的源码信息中提取指定标签对应的内容;
对所述指定标签对应的内容进行分词处理,得到广告主特征词。
程序410具体还可以用于使得处理器402执行以下操作:
针对每个广告主的每个广告主特征词,统计该广告主特征词在对应的广告主的广告主相关信息中出现的第一词频,以及统计该广告主特征词在其它广告主的广告主相关信息中出现的第二词频;
根据广告主特征词的第一词频和第二词频,对各个广告主的各个广告主特征词进行过滤处理。
程序410具体还可以用于使得处理器402执行以下操作:
根据广告主特征词对属于同一一级类别的广告主进行聚类;
根据聚为一类的广告主的广告主特征词的出现频率,确定二级类别的类别名称。
程序410具体还可以用于使得处理器402执行以下操作:
以所有已确定类别的广告主为广告主样本,将广告主样本的广告主特征词作为样本输入数据,将广告主样本的类别为样本标注数据;
选取机器学习模型,根据广告主样本的样本输入数据和样本标注数据对机器学习模型进行训练,得到广告主分类器。
程序410具体还可以用于使得处理器402执行以下操作:
将待预测分类的广告主的广告主特征词输入至所述广告主分类器中,预测得到广告主的类别。
程序410具体还可以用于使得处理器402执行以下操作:
根据用户因子、地域因子、主营业务因子、文本相关性因子和/或声量因子对属于同一类别的广告主进行分析,得到广告主竞品列表。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的广告主分类装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (18)

1.一种广告主分类方法,包括:
根据广告主的属性信息,对广告主进行一级分类,得到每个广告主的一级类别;
收集每个广告主的广告主购买词和/或广告主网页信息,从所述广告主购买词和/或广告主网页信息中提取得到广告主特征词;
根据广告主特征词对属于同一一级类别的广告主进行二级分类,得到每个广告主的二级类别,所述二级分类基于所述广告特征词生成的特征向量对每个广告主进行聚类处理实现;
根据每个广告主的一级类别和二级类别,确定广告主的类别。
2.根据权利要求1所述的方法,其中,所述根据广告主的属性信息,对广告主进行一级分类,得到每个广告主的一级类别进一步包括:
根据广告主的主体名称和/或主页网址信息,对广告主进行一级分类,得到每个广告主的一级类别。
3.根据权利要求1或2所述的方法,其中,所述从广告主网页信息中提取得到广告主特征词进一步包括:
获取广告主相关网页的源码信息;
从所述广告主相关网页的源码信息中提取指定标签对应的内容;
对所述指定标签对应的内容进行分词处理,得到广告主特征词。
4.根据权利要求3所述的方法,其中,在所述根据广告主特征词对属于同一一级类别的广告主进行二级分类之前,所述方法还包括:
针对每个广告主的每个广告主特征词,统计该广告主特征词在对应的广告主的广告主相关信息中出现的第一词频,以及统计该广告主特征词在其它广告主的广告主相关信息中出现的第二词频;
根据广告主特征词的第一词频和第二词频,对各个广告主的各个广告主特征词进行过滤处理。
5.根据权利要求4所述的方法,其中,所述根据广告主特征词对属于同一一级类别的广告主进行二级分类,得到每个广告主的二级类别进一步包括:
根据广告主特征词对属于同一一级类别的广告主进行聚类;
根据聚为一类的广告主的广告主特征词的出现频率,确定二级类别的类别名称。
6.根据权利要求5所述的方法,其中,在所述确定广告主的类别之后,所述方法还包括:
以所有已确定类别的广告主为广告主样本,将广告主样本的广告主特征词作为样本输入数据,将广告主样本的类别为样本标注数据;
选取机器学习模型,根据广告主样本的样本输入数据和样本标注数据对机器学习模型进行训练,得到广告主分类器。
7.根据权利要求6所述的方法,其中,在所述得到广告主分类器之后,所述方法还包括:
将待预测分类的广告主的广告主特征词输入至所述广告主分类器中,预测得到广告主的类别。
8.根据权利要求7所述的方法,其中,在所述确定广告主的类别之后,所述方法还包括:
根据用户因子、地域因子、主营业务因子、文本相关性因子和/或声量因子对属于同一类别的广告主进行分析,得到广告主竞品列表。
9.一种广告主分类装置,包括:
第一分类模块,适于根据广告主的属性信息,对广告主进行一级分类,得到每个广告主的一级类别;
特征获取模块,适于收集每个广告主的广告主购买词和/或广告主网页信息,从所述广告主购买词和/或广告主网页信息中提取得到广告主特征词;
第二分类模块,适于根据广告主特征词对属于同一一级类别的广告主进行二级分类,得到每个广告主的二级类别,所述二级分类基于所述广告特征词生成的特征向量对每个广告主进行聚类处理实现;
类别确定模块,适于根据每个广告主的一级类别和二级类别,确定广告主的类别。
10.根据权利要求9所述的装置,所述第一分类模块进一步适于:根据广告主的主体名称和/或主页网址信息,对广告主进行一级分类,得到每个广告主的一级类别。
11.根据权利要求9或10所述的装置,所述特征获取模块进一步适于:
获取广告主相关网页的源码信息;
从所述广告主相关网页的源码信息中提取指定标签对应的内容;
对所述指定标签对应的内容进行分词处理,得到广告主特征词。
12.根据权利要求11所述的装置,还包括:过滤模块,适于针对每个广告主的每个广告主特征词,统计该广告主特征词在对应的广告主的广告主相关信息中出现的第一词频,以及统计该广告主特征词在其它广告主的广告主相关信息中出现的第二词频;根据广告主特征词的第一词频和第二词频,对各个广告主的各个广告主特征词进行过滤处理。
13.根据权利要求12所述的装置,所述第二分类模块进一步适于:根据广告主特征词对属于同一一级类别的广告主进行聚类;根据聚为一类的广告主的广告主特征词的出现频率,确定二级类别的类别名称。
14.根据权利要求13所述的装置,所述装置还包括:训练模块,适于以所有已确定类别的广告主为广告主样本,将广告主样本的广告主特征词作为样本输入数据,将广告主样本的类别为样本标注数据;选取机器学习模型,根据广告主样本的样本输入数据和样本标注数据对机器学习模型进行训练,得到广告主分类器。
15.根据权利要求14所述的装置,所述装置还包括:预测模块,适于将待预测分类的广告主的广告主特征词输入至所述广告主分类器中,预测得到广告主的类别。
16.根据权利要求15所述的装置,所述装置还包括:竞品解析模块,适于根据用户因子、地域因子、主营业务因子、文本相关性因子和/或声量因子对属于同一类别的广告主进行分析,得到广告主竞品列表。
17.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的广告主分类方法对应的操作。
18.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-8中任一项所述的广告主分类方法对应的操作。
CN201811580047.4A 2018-12-24 2018-12-24 广告主分类方法及装置、计算设备 Active CN111353803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811580047.4A CN111353803B (zh) 2018-12-24 2018-12-24 广告主分类方法及装置、计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811580047.4A CN111353803B (zh) 2018-12-24 2018-12-24 广告主分类方法及装置、计算设备

Publications (2)

Publication Number Publication Date
CN111353803A CN111353803A (zh) 2020-06-30
CN111353803B true CN111353803B (zh) 2024-04-05

Family

ID=71197877

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811580047.4A Active CN111353803B (zh) 2018-12-24 2018-12-24 广告主分类方法及装置、计算设备

Country Status (1)

Country Link
CN (1) CN111353803B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507186A (zh) * 2020-11-27 2021-03-16 北京数立得科技有限公司 网页元素分类方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071443A (zh) * 2007-06-26 2007-11-14 腾讯科技(深圳)有限公司 内容相关广告识别方法和内容相关广告服务器
CN101114295A (zh) * 2007-08-11 2008-01-30 腾讯科技(深圳)有限公司 检索在线广告资源的方法和装置
CN101198978A (zh) * 2005-04-22 2008-06-11 谷歌公司 建议广告的目标信息,如网站和/或网站类别
KR20100059069A (ko) * 2008-11-25 2010-06-04 엔에이치엔비즈니스플랫폼 주식회사 광고주 데이터를 이용하여 클러스터를 생성하고, 이를 바탕으로 정보를 제공하기 위한 방법과 시스템 및 컴퓨터 판독 가능한 기록 매체
KR20120135125A (ko) * 2011-06-03 2012-12-12 이해성 광고 처리 장치 및 그를 위한 전자책 서비스 시스템 및 방법
CN102880969A (zh) * 2011-07-13 2013-01-16 阿里巴巴集团控股有限公司 广告投放方法、广告投放服务器及广告投放系统
KR20130048018A (ko) * 2011-11-01 2013-05-09 주식회사 다음커뮤니케이션 광고 시스템 및 광고 관리 방법
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN108230025A (zh) * 2017-12-29 2018-06-29 暴风集团股份有限公司 广告推荐方法和装置、电子设备、存储介质、程序
CN108830416A (zh) * 2018-06-13 2018-11-16 四川大学 基于用户行为的广告点击率预测框架及算法
CN108920492A (zh) * 2018-05-16 2018-11-30 广州舜飞信息科技有限公司 一种网页分类方法、系统、终端及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090024470A1 (en) * 2007-07-20 2009-01-22 Google Inc. Vertical clustering and anti-clustering of categories in ad link units

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101198978A (zh) * 2005-04-22 2008-06-11 谷歌公司 建议广告的目标信息,如网站和/或网站类别
CN101071443A (zh) * 2007-06-26 2007-11-14 腾讯科技(深圳)有限公司 内容相关广告识别方法和内容相关广告服务器
CN101114295A (zh) * 2007-08-11 2008-01-30 腾讯科技(深圳)有限公司 检索在线广告资源的方法和装置
KR20100059069A (ko) * 2008-11-25 2010-06-04 엔에이치엔비즈니스플랫폼 주식회사 광고주 데이터를 이용하여 클러스터를 생성하고, 이를 바탕으로 정보를 제공하기 위한 방법과 시스템 및 컴퓨터 판독 가능한 기록 매체
KR20120135125A (ko) * 2011-06-03 2012-12-12 이해성 광고 처리 장치 및 그를 위한 전자책 서비스 시스템 및 방법
CN102880969A (zh) * 2011-07-13 2013-01-16 阿里巴巴集团控股有限公司 广告投放方法、广告投放服务器及广告投放系统
KR20130048018A (ko) * 2011-11-01 2013-05-09 주식회사 다음커뮤니케이션 광고 시스템 및 광고 관리 방법
CN103853824A (zh) * 2014-03-03 2014-06-11 沈之锐 一种基于深度语义挖掘的内文广告发布方法与系统
CN104978328A (zh) * 2014-04-03 2015-10-14 北京奇虎科技有限公司 一种获取层级分类器以及文本分类的方法及装置
CN108230025A (zh) * 2017-12-29 2018-06-29 暴风集团股份有限公司 广告推荐方法和装置、电子设备、存储介质、程序
CN108920492A (zh) * 2018-05-16 2018-11-30 广州舜飞信息科技有限公司 一种网页分类方法、系统、终端及存储介质
CN108830416A (zh) * 2018-06-13 2018-11-16 四川大学 基于用户行为的广告点击率预测框架及算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"The Application of Mixed Recommendation Algorithm with User Clustering in the Microblog Advertisements Promotion";Gong, Lina 等;《ADVANCES IN MATERIALS, MACHINERY, ELECTRONICS I》;第1820卷(第1期);080025(1-7) *

Also Published As

Publication number Publication date
CN111353803A (zh) 2020-06-30

Similar Documents

Publication Publication Date Title
CN105989004B (zh) 一种信息投放的预处理方法和装置
CN110704572B (zh) 疑似非法集资风险的预警方法、装置、设备和存储介质
US9576251B2 (en) Method and system for processing web activity data
CN108363821A (zh) 一种信息推送方法、装置、终端设备及存储介质
CN104199833B (zh) 一种网络搜索词的聚类方法和聚类装置
CN105095187A (zh) 一种搜索意图识别方法及装置
CN108921398B (zh) 店铺质量评价方法及装置
JP5615857B2 (ja) 分析装置、分析方法及び分析プログラム
CN108021651B (zh) 一种网络舆情风险评估方法及装置
WO2018068603A1 (zh) 基于大数据技术的供应链管理决策支持系统
JP5012078B2 (ja) カテゴリ作成方法、カテゴリ作成装置、およびプログラム
CN111242318B (zh) 基于异构特征库的业务模型训练方法及装置
CN115391669B (zh) 一种智能推荐方法、装置、电子设备
CN108229999B (zh) 竞品评估方法及装置
CN108241867B (zh) 一种分类方法及装置
CN109241455B (zh) 一种推荐对象的展示方法及装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN112989824A (zh) 信息推送方法及装置、电子设备及存储介质
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
CN111125561A (zh) 一种网络热度的展示方法及装置
CN108595580B (zh) 新闻推荐方法、装置、服务器及存储介质
CN111353803B (zh) 广告主分类方法及装置、计算设备
CN109815391A (zh) 基于大数据的新闻数据分析方法及装置、电子终端
CN103605670B (zh) 一种用于确定网络资源点的抓取频率的方法和装置
Dann et al. Reconstructing the giant: Automating the categorization of scientific articles with deep learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240314

Address after: Room 03, 2nd Floor, Building A, No. 20 Haitai Avenue, Huayuan Industrial Zone (Huanwai), Binhai New Area, Tianjin, 300450

Applicant after: 3600 Technology Group Co.,Ltd.

Country or region after: Zhong Guo

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Applicant before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Country or region before: Zhong Guo

GR01 Patent grant
GR01 Patent grant