CN109598528B - 广告信息处理方法和装置 - Google Patents

广告信息处理方法和装置 Download PDF

Info

Publication number
CN109598528B
CN109598528B CN201710919470.1A CN201710919470A CN109598528B CN 109598528 B CN109598528 B CN 109598528B CN 201710919470 A CN201710919470 A CN 201710919470A CN 109598528 B CN109598528 B CN 109598528B
Authority
CN
China
Prior art keywords
advertisement information
advertisement
network address
word segmentation
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710919470.1A
Other languages
English (en)
Other versions
CN109598528A (zh
Inventor
葛婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710919470.1A priority Critical patent/CN109598528B/zh
Publication of CN109598528A publication Critical patent/CN109598528A/zh
Application granted granted Critical
Publication of CN109598528B publication Critical patent/CN109598528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0276Advertisement creation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种广告信息处理方法和装置。该方法包括:通过爬虫从网络中爬取得到预定的广告类别的广告信息;对广告信息进行分词,得到分词结果;根据广告信息对应的行业词典对分词结果中的每个词打上标签,其中,行业词典为预先配置的,行业词典中保存有广告类别的广告信息所对应的行业中的常用词和常用词对应的类别;对标签之后的词进行统计,得到统计结果,根据统计结果生成统计报告,其中,统计报告中至少包括广告信息中的广告标题和广告内容中常用词的出现频率。通过本发明,达到了提高对广告信息处理效率的效果。

Description

广告信息处理方法和装置
技术领域
本发明涉及广告领域,具体而言,涉及一种广告信息处理方法和装置。
背景技术
在线广告展示的时候,需要通过广告创意来推荐自己的产品或品牌,所以创意的优劣会对是否吸引用户点击有巨大的影响。如何能够洞悉同行业间(竞品)有什么样的创意点,在线上侧重什么产品或者品牌特征的营销。这些问题都是在广告投放,以及线上广告投放优化中,关心的问题,而相关技术中的方法多数只有人工搜索统计去总结验证这些问题,无法科学、自动的进行统计。
相关技术中给出了一种动机词汇的自动分类过滤生成创意点计算方法,提出基于贝叶斯网络计算的动机词汇自动分类过滤方法,并应用到创意点生成的过程中;通过爬虫算法对动机词汇语料信息进行获取,通过建立向量空间模型对采集的信息进行聚类,并以此为依据,采用贝叶斯网络计算动机词汇之间的相关性,并在本体理论基础上按短语或者句子结构,对动机词汇进行分类过滤生成。该方法进行动机词汇分类过滤,相比传统的分类过滤方法,其分类过滤精度高、效率好,具有一定的优势。
但是在该方法中,通过自动聚类的方法,获取动机词汇作为创意点,虽然起到了自动聚类创意点的作用,但是无法获得行业通用的兴趣标签,无法抽象出不同品牌不同厂商对产品的侧重,没办法了解客户和竞品之间的关注区别对比。
针对相关技术中对广告信息处理时需要人工搜索统计导致的效率低的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种广告信息处理方法和装置,以解决对广告信息处理时需要人工搜索统计导致的效率低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种广告信息处理方法,该方法包括:通过爬虫从网络中爬取得到预定的广告类别的广告信息;对所述广告信息进行分词,得到分词结果;根据所述广告信息对应的行业词典对所述分词结果中的每个词打上标签,其中,所述行业词典为预先配置的,所述行业词典中保存有所述广告类别的广告信息所对应的行业中的常用词和所述常用词对应的类别;对标签之后的词进行统计,得到统计结果,根据所述统计结果生成统计报告,其中,所述统计报告中至少包括广告信息中的广告标题和广告内容中所述常用词的出现频率。
进一步地,对所述广告信息进行分词得到所述分词结果包括:对所述广告信息进行分类,得到分类结果,其中,所述分类结果包括第一网络地址的广告信息和第二网络地址的广告信息,所述第二网络地址的广告信息为多个第二网络地址组成的集合中的广告信息,所述第一网路地址的广告信息与所述第一网络地址的广告信息具有关联关系;根据所述分类结果对所述广告信息进行分词处理得到所述分词结果。
进一步地,对所述广告信息进行分类,得到分类结果包括:根据所述广告信息的IP地址对所述广告信息进行分类,其中,所述IP地址用于标识所述广告信息的来源。
进一步地,在对标签之后的词进行统计,得到统计结果之后,所述方法还包括:所述统计报告中至少包括所述第一网络地址和所述第二网络地址的广告信息中的广告标题和广告内容中各个常用词的出现频率。
进一步地,通过爬虫从网络中爬取得到预定的广告类别的广告信息包括:通过所述爬虫利用预先配置的关键词列表中的关键词在搜索引擎中进行搜索,得到搜索结果;在所述搜索结果中进行爬取得到所述广告信息。
为了实现上述目的,根据本发明的另一方面,还提供了一种广告信息处理装置,该装置包括:爬取单元,用于通过爬虫从网络中爬取得到预定的广告类别的广告信息;分词单元,用于对所述广告信息进行分词,得到分词结果;标签单元,用于根据所述广告信息对应的行业词典对所述分词结果中的每个词打上标签,其中,所述行业词典为预先配置的,所述行业词典中保存有所述广告类别的广告信息所对应的行业中的常用词和所述常用词对应的类别;统计单元,用于对标签之后的词进行统计,得到统计结果,根据所述统计结果生成统计报告,其中,所述统计报告中至少包括广告信息中的广告标题和广告内容中所述常用词的出现频率。
进一步地,所述分词单元包括:分类模块,用于对所述广告信息进行分类,得到分类结果,其中,所述分类结果包括第一网络地址的广告信息和第二网络地址的广告信息,所述第二网络地址的广告信息为多个第二网络地址组成的集合中的广告信息,所述第一网路地址的广告信息与所述第一网络地址的广告信息具有关联关系;分词模块,用于根据所述分类结果对所述广告信息进行分词处理得到所述分词结果。
进一步地,所述分类模块用于:根据所述广告信息的IP地址对所述广告信息进行分类,其中,所述IP地址用于标识所述广告信息的来源。
为了实现上述目的,根据本发明的另一方面,还提供了一种存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行本发明所述的广告信息处理方法。
为了实现上述目的,根据本发明的另一方面,还提供了一种处理器,用于运行程序,其中,所述程序运行时执行本发明所述的广告信息处理方法。
本发明通过爬虫从网络中爬取得到预定的广告类别的广告信息;对广告信息进行分词,得到分词结果;根据广告信息对应的行业词典对分词结果中的每个词打上标签,其中,行业词典为预先配置的,行业词典中保存有广告类别的广告信息所对应的行业中的常用词和常用词对应的类别;对标签之后的词进行统计,得到统计结果,根据统计结果生成统计报告,其中,统计报告中至少包括广告信息中的广告标题和广告内容中常用词的出现频率,解决了对广告信息处理时需要人工搜索统计导致的效率低的问题,进而达到了提高对广告信息处理效率的效果。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的广告信息处理方法的流程图;
图2是根据本发明实施例的创意标题和创意内容的示意图;
图3是根据本发明实施例的广告信息处理流程的示意图;以及
图4是根据本发明实施例的广告信息处理装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的几个术语进行说明:
行业字典:利用行业信息和行业常用词汇整理的数据字典。包括行业中常出现的一下词汇,以及词汇所属的类别标签。例如:汽车行业字典中,有“舒享型、优享版、创领版、致炫版”等词汇,在字典中会统一归属为“版型”标签。
创意关注点:创意标题、创意内容中所涉及的典型内容和类别。例如:颜色、版型、配饰、外观、贷款等等。
本发明实施例提供了一种广告信息处理方法。
图1是根据本发明实施例的广告信息处理方法的流程图,如图1所示,该方法包括以下步骤:
步骤S102:通过爬虫从网络中爬取得到预定的广告类别的广告信息;
步骤S104:对广告信息进行分词,得到分词结果;
步骤S106:根据广告信息对应的行业词典对分词结果中的每个词打上标签,其中,行业词典为预先配置的,行业词典中保存有广告类别的广告信息所对应的行业中的常用词和常用词对应的类别;
步骤S108:对标签之后的词进行统计,得到统计结果。
步骤S110:根据统计结果生成统计报告,其中,统计报告中至少包括广告信息中的广告标题和广告内容中常用词的出现频率。
该实施例采用爬虫从网络中爬取得到预定的广告类别的广告信息;对广告信息进行分词,得到分词结果;根据广告信息对应的行业词典对分词结果中的每个词打上标签,其中,行业词典为预先配置的,行业词典中保存有广告类别的广告信息所对应的行业中的常用词和常用词对应的类别;对标签之后的词进行统计,得到统计结果,根据统计结果生成统计报告,其中,统计报告中至少包括广告信息中的广告标题和广告内容中常用词的出现频率,解决了对广告信息处理时需要人工搜索统计导致的效率低的问题,进而达到了提高对广告信息处理效率的效果。
在本发明实施例中,预定的广告类别可以是根据客户需求确定的广告类别,例如,家电类别,预定的广告类别的广告信息包括客户自身网站的广告信息和客户的竞争网站的广告信息,以家电类别为例,如果A销售网站是客户方,则其他销售家电的网站则是竞品销售网站,竞品销售网站可以由客户提供,广告信息包括广告的创意标题和创意内容,在获取到广告信息之后,可以将所有的广告信息进行分词,得到创意标题的关键词和创意内容的关键词,然后根据行业词典对分词结果中的每个词标签,例如,在汽车行业的行业词典中,有“舒享型、优享版、创领版、致炫版”等词汇,在字典中会统一归属为“版型”标签,根据行业词典对分词结果中的每个词都打上标签,得到标好标签后的分词,然后对标签之后的词进行统计,得到统计结果,然后生成统计报告,统计报告中至少包括广告标题和内容中各个常用词的出现频率,然后根据客户方和竞争对手方常用词的出现频率以及广告的点击量可以对客户方的广告标题和内容进行调整,以吸引用户点击,及时获取竞争对手中优秀的广告创意和内容,统计结果可以包括A销售网站的创意标题和创意内容与其竞品网站的创意标题和创意内容的相似度、重复率、标签的整体分布等数据,通过分析竞品网站的广告内容和点击量情况,可以根据统计结果可以对A销售网站的创意标题和创意内容进行优化和改进,以提高A销售网站的创意,吸引更多用户点击,由于是在行业字典数据的基础上,可以自动爬取预定广告类别的广告信息,然后统计,因而本申请的技术方案相比于现有技术中的人工搜索统计导致的效率低的问题,进而达到了提高对广告信息处理效率的效果。
在本发明实施例中,通过自动化的爬取解析创意,在行业字典数据积累的基础上,通过自然语言处理,获得创意中所涉及的行业关注点,包括客户自己或竞品的创意内容关注点统计数据,并给出客户创意关注点报告,客户、竞品创意关注点报告,以辅助进行创意内容的分析和撰写。
可选地,对广告信息进行分词得到分词结果包括:对广告信息进行分类,得到分类结果,其中,分类结果包括第一网络地址的广告信息和第二网络地址的广告信息,第二网络地址的广告信息为多个第二网络地址组成的集合中的广告信息,第一网路地址的广告信息与第一网络地址的广告信息具有关联关系;根据分类结果对广告信息进行分词处理得到分词结果。第一网络地址是客户A的网络地址,第二网络地址是客户A的多个竞争对手的网络地址,通过对第一网络地址和多个第二网络地址进行分类,可以得到每个网络地址中的广告信息的创意标题和创意内容等,以便于方便分词和后续的统计。
可选地,对广告信息进行分类,得到分类结果包括:根据广告信息的IP地址对广告信息进行分类,其中,IP地址用于标识广告信息的来源。
对广告信息分类时可以根据广告信息的IP地址分类,例如,同一个IP地址中的广告信息可以作为一类,除了通过IP地址标识广告信息的来源,也可以通过URL的服务器名称等标识广告信息的来源。
可选地,在对标签之后的词进行统计,得到统计结果之后,根据统计结果生成统计报告,其中,统计报告中至少包括第一网络地址和第二网络地址的广告信息中的广告标题和广告内容中各个常用词的出现频率。为了进一步得到更精确的统计结果,可以根据统计结果生成统计报告,统计报告中可以包括多种统计数据,例如,至少可以包括客户A的广告信息中的各个常用词的出现频率和其竞品网站的广告信息中各个常用词的出现频率,这样可以根据两者的区别对客户A的广告信息中的创意标题和创意内容进行调整,以获得更多点击量。
可选地,通过爬虫从网络中爬取得到预定的广告类别的广告信息包括:通过爬虫利用预先配置的关键词列表中的关键词在搜索引擎中进行搜索,得到搜索结果;在搜索结果中进行爬取得到广告信息。
通过爬虫从网络中爬取广告信息时,可以仅爬取一些关键词,这些关键词为预先配置好的,存储在关键词列表中的关键词,通过这些关键词在搜索引擎中搜索,得到预订类别的广告信息。
本发明实施例的技术方案通过自动化的爬取客户和竞品的创意数据,并对创意数据进行基于行业字典的切词处理,并进行模糊匹配,获取创意中所包含的关注点,并生产客户创意内容分析报告,以及客户和竞品的创意关注点对比报告。
图2是根据本发明实施例的创意标题和创意内容的示意图,如图2所示,在爬取到的广告信息中,标题位置为创意标题,内容简介位置为创意内容。
图3是根据本发明实施例的广告信息处理流程的示意图,如图3所示,该流程包括以下步骤:
1.利用爬虫,根据关键词列表中限定的关键词,在搜索引擎中搜索。对搜索结果中存在的广告保存其链接URL和创意标题、创意内容。
2.根据指定的客户URL的服务器名称(IP地址)和竞品URL的服务器名称(IP地址)将爬取的创意数据和相应的链接URL分为客户创意内容(包括创意标题)、竞品创意内容(包括创意标题)。
3.将创意进行分词处理,去掉停用词。根据行业字典,把创意的切词结果对应相应的标签。
4.统计各中标签在客户创意和竞品创意中出现的次数、分别。
5.根据统计数据,生成客户创意内容分析报告(包括创意中所含的标签种类(关注点)、各种标签的出现频次、标签的整体分布等数据)。生成客户与竞品创意内容对比报告(报告包括各种标签出现的频次占比,关注点异同等数据对比情况),供用户查看。
本发明实施例的技术方案能够自动化的爬取客户和竞品的创意数据,并对创意数据进行基于行业字典的切词处理,并进行匹配,获取创意中所包含的关注点,并生产客户创意内容分析报告,以及客户和竞品的创意关注点对比报告,取代了人工搜索统计创意关注点的繁琐步骤,利用科学的方法进行统计和分析,提高了工作效率,更提高了统计准确度。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本发明实施例提供了一种广告信息处理装置,该装置可以用于执行本发明实施例的广告信息处理方法。
图4是根据本发明实施例的广告信息处理装置的示意图,如图4所示,该装置包括:
爬取单元10,用于通过爬虫从网络中爬取得到预定的广告类别的广告信息;
分词单元20,用于对广告信息进行分词,得到分词结果;
标签单元30,用于根据广告信息对应的行业词典对分词结果中的每个词打上标签,其中,行业词典为预先配置的,行业词典中保存有广告类别的广告信息所对应的行业中的常用词和常用词对应的类别;
统计单元40,用于对标签之后的词进行统计,得到统计结果;
报告单元50,用于根据统计结果生成统计报告,其中,统计报告中至少包括广告信息中的广告标题和广告内容中常用词的出现频率。
可选地,分词单元20包括:分类模块,用于对广告信息进行分类,得到分类结果,其中,分类结果包括第一网络地址的广告信息和第二网络地址的广告信息,第二网络地址的广告信息为多个第二网络地址组成的集合中的广告信息,第一网路地址的广告信息与第一网络地址的广告信息具有关联关系;分词模块,用于根据分类结果对广告信息进行分词处理得到分词结果。
可选地,分类模块用于:根据广告信息的IP地址对广告信息进行分类,其中,IP地址用于标识广告信息的来源。
所述广告信息处理装置包括处理器和存储器,上述爬取单元、分词单元、标签单元和统计单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高对广告信息处理效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述广告信息处理方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述广告信息处理方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:通过爬虫从网络中爬取得到预定的广告类别的广告信息;对广告信息进行分词,得到分词结果;根据广告信息对应的行业词典对分词结果中的每个词打上标签,其中,行业词典为预先配置的,行业词典中保存有广告类别的广告信息所对应的行业中的常用词和常用词对应的类别;对标签之后的词进行统计,得到统计结果,根据统计结果生成统计报告,其中,统计报告中至少包括广告信息中的广告标题和广告内容中常用词的出现频率。
对广告信息进行分类,得到分类结果,其中,分类结果包括第一网络地址的广告信息和第二网络地址的广告信息,第二网络地址的广告信息为多个第二网络地址组成的集合中的广告信息,第一网路地址的广告信息与第一网络地址的广告信息具有关联关系;根据分类结果对广告信息进行分词处理得到分词结果。
根据广告信息的IP地址对广告信息进行分类,其中,IP地址用于标识广告信息的来源。
根据统计结果生成统计报告,其中,统计报告中至少包括第一网络地址的广告信息中的广告标题和广告内容中各个常用词的出现频率。
通过爬虫利用预先配置的关键词列表中的关键词在搜索引擎中进行搜索,得到搜索结果;在搜索结果中进行爬取得到广告信息。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:通过爬虫从网络中爬取得到预定的广告类别的广告信息;对广告信息进行分词,得到分词结果;根据广告信息对应的行业词典对分词结果中的每个词打上标签,其中,行业词典为预先配置的,行业词典中保存有广告类别的广告信息所对应的行业中的常用词和常用词对应的类别;对标签之后的词进行统计,得到统计结果,根据统计结果生成统计报告,其中,统计报告中至少包括广告信息中的广告标题和广告内容中常用词的出现频率。
对广告信息进行分类,得到分类结果,其中,分类结果包括第一网络地址的广告信息和第二网络地址的广告信息,第二网络地址的广告信息为多个第二网络地址组成的集合中的广告信息,第一网路地址的广告信息与第一网络地址的广告信息具有关联关系;根据分类结果对广告信息进行分词处理得到分词结果。
根据广告信息的IP地址对广告信息进行分类,其中,IP地址用于标识广告信息的来源。
根据统计结果生成统计报告,其中,统计报告中至少包括第一网络地址的广告信息中的广告标题和广告内容中各个常用词的出现频率。
通过爬虫利用预先配置的关键词列表中的关键词在搜索引擎中进行搜索,得到搜索结果;在搜索结果中进行爬取得到广告信息。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种广告信息处理方法,其特征在于,包括:
通过爬虫从网络中爬取得到预定的广告类别的广告信息;
对所述广告信息进行分词,得到分词结果;
根据所述广告信息对应的行业词典对所述分词结果中的每个词打上标签,其中,所述行业词典为预先配置的,所述行业词典中保存有所述广告类别的广告信息所对应的行业中的常用词和所述常用词对应的类别;
对标签之后的词进行统计,得到统计结果;
根据所述统计结果生成统计报告,其中,所述统计报告中至少包括广告信息中的广告标题和广告内容中所述常用词的出现频率;
其中,所述统计报告中至少包括第一网络地址和第二网络地址的广告信息中的广告标题和广告内容中各个常用词的出现频率,所述第一网络地址为客户自身网站的网络地址,所述第二网络地址为所述客户的竞争对手的网站的网络地址;
其中,对所述广告信息进行分词得到所述分词结果包括:
对所述广告信息进行分类,得到分类结果,其中,所述分类结果包括第一网络地址的广告信息和第二网络地址的广告信息,所述第二网络地址的广告信息为多个第二网络地址组成的集合中的广告信息,所述第一网络地址的广告信息与所述第一网络地址的广告信息具有关联关系;
根据所述分类结果对所述广告信息进行分词处理得到所述分词结果。
2.根据权利要求1所述的方法,其特征在于,对所述广告信息进行分类,得到分类结果包括:
根据所述广告信息的IP地址对所述广告信息进行分类,其中,所述IP地址用于标识所述广告信息的来源。
3.根据权利要求1所述的方法,其特征在于,通过爬虫从网络中爬取得到预定的广告类别的广告信息包括:
通过所述爬虫利用预先配置的关键词列表中的关键词在搜索引擎中进行搜索,得到搜索结果;
在所述搜索结果中进行爬取得到所述广告信息。
4.一种广告信息处理装置,其特征在于,包括:
爬取单元,用于通过爬虫从网络中爬取得到预定的广告类别的广告信息;
分词单元,用于对所述广告信息进行分词,得到分词结果;
标签单元,用于根据所述广告信息对应的行业词典对所述分词结果中的每个词打上标签,其中,所述行业词典为预先配置的,所述行业词典中保存有所述广告类别的广告信息所对应的行业中的常用词和所述常用词对应的类别;
统计单元,用于对标签之后的词进行统计,得到统计结果;
报告单元,用于根据所述统计结果生成统计报告,其中,所述统计报告中至少包括广告信息中的广告标题和广告内容中所述常用词的出现频率;
其中,所述统计报告中至少包括第一网络地址和第二网络地址的广告信息中的广告标题和广告内容中各个常用词的出现频率,所述第一网络地址为客户自身网站的网络地址,所述第二网络地址为所述客户的竞争对手的网站的网络地址;
其中,所述分词单元包括:分类模块,用于对所述广告信息进行分类,得到分类结果,其中,所述分类结果包括第一网络地址的广告信息和第二网络地址的广告信息,所述第二网络地址的广告信息为多个第二网络地址组成的集合中的广告信息,所述第一网络地址的广告信息与所述第一网络地址的广告信息具有关联关系;
分词模块,用于根据所述分类结果对所述广告信息进行分词处理得到所述分词结果。
5.根据权利要求4所述的装置,其特征在于,所述分类模块用于:
根据所述广告信息的IP地址对所述广告信息进行分类,其中,所述IP地址用于标识所述广告信息的来源。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至4中任意一项所述的广告信息处理方法。
7.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至3中任意一项所述的广告信息处理方法。
CN201710919470.1A 2017-09-30 2017-09-30 广告信息处理方法和装置 Active CN109598528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710919470.1A CN109598528B (zh) 2017-09-30 2017-09-30 广告信息处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710919470.1A CN109598528B (zh) 2017-09-30 2017-09-30 广告信息处理方法和装置

Publications (2)

Publication Number Publication Date
CN109598528A CN109598528A (zh) 2019-04-09
CN109598528B true CN109598528B (zh) 2023-05-23

Family

ID=65955567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710919470.1A Active CN109598528B (zh) 2017-09-30 2017-09-30 广告信息处理方法和装置

Country Status (1)

Country Link
CN (1) CN109598528B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766737B (zh) * 2021-01-21 2024-04-26 北京搜狗科技发展有限公司 一种确定广告投放物料风险的方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632811A (zh) * 2004-11-10 2005-06-29 北京银河视讯传媒广告有限公司 广告信息收集及实时分析系统及其方法
CN101097570A (zh) * 2006-06-29 2008-01-02 上海唯客网广告传播有限公司 一种自动识别分类广告类型的广告分类方法
CN101097580A (zh) * 2007-06-20 2008-01-02 精实万维软件(北京)有限公司 一种对网络广告进行排序的方法
CN101101599A (zh) * 2007-06-20 2008-01-09 精实万维软件(北京)有限公司 一种从网页中提取广告主信息的方法
CN104636487A (zh) * 2015-02-26 2015-05-20 湖北光谷天下传媒股份有限公司 一种广告信息管理方法
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法
CN107016005A (zh) * 2016-01-28 2017-08-04 北京国双科技有限公司 爬虫数据源的处理方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1632811A (zh) * 2004-11-10 2005-06-29 北京银河视讯传媒广告有限公司 广告信息收集及实时分析系统及其方法
CN101097570A (zh) * 2006-06-29 2008-01-02 上海唯客网广告传播有限公司 一种自动识别分类广告类型的广告分类方法
CN101097580A (zh) * 2007-06-20 2008-01-02 精实万维软件(北京)有限公司 一种对网络广告进行排序的方法
CN101101599A (zh) * 2007-06-20 2008-01-09 精实万维软件(北京)有限公司 一种从网页中提取广告主信息的方法
CN104636487A (zh) * 2015-02-26 2015-05-20 湖北光谷天下传媒股份有限公司 一种广告信息管理方法
CN107016005A (zh) * 2016-01-28 2017-08-04 北京国双科技有限公司 爬虫数据源的处理方法及装置
CN106649519A (zh) * 2016-10-17 2017-05-10 北京邮电大学 一种产品特征的挖掘与评价方法

Also Published As

Publication number Publication date
CN109598528A (zh) 2019-04-09

Similar Documents

Publication Publication Date Title
CN105989004B (zh) 一种信息投放的预处理方法和装置
KR101419504B1 (ko) 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법
US9665622B2 (en) Publishing product information
CN105765573B (zh) 网站通信量优化方面的改进
Aggrawal et al. Brand analysis framework for online marketing: ranking web pages and analyzing popularity of brands on social media
CN103886074A (zh) 基于社交媒体的商品推荐系统
WO2015034850A2 (en) Feature selection for recommender systems
CN111159341B (zh) 基于用户投资理财偏好的资讯推荐方法及装置
CN107633416B (zh) 一种业务对象的推荐方法、装置和系统
US20170228378A1 (en) Extracting topics from customer review search queries
CN112184290A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN106708871B (zh) 一种社交业务特征用户的识别方法和装置
CN106033455B (zh) 一种处理用户操作信息的方法与设备
Asad et al. An In-ad contents-based viewability prediction framework using Artificial Intelligence for Web Ads
CN111782946A (zh) 书友推荐方法、计算设备及计算机存储介质
CN110717788A (zh) 一种目标用户的筛选方法及装置
US10417687B1 (en) Generating modified query to identify similar items in a data store
CN109598528B (zh) 广告信息处理方法和装置
US20190197168A1 (en) Contextual engine for data visualization
CN117033744A (zh) 数据查询方法、装置、存储介质以及电子设备
CN108460131B (zh) 一种分类标签处理方法及装置
CN110020118B (zh) 一种计算用户之间相似度的方法及装置
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
KR102429104B1 (ko) 인공지능에 기반한 상품 카탈로그 자동 분류 시스템
CN114549125A (zh) 物品推荐方法及装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant