CN108121752A - 一种关键词物料的处理方法及装置 - Google Patents

一种关键词物料的处理方法及装置 Download PDF

Info

Publication number
CN108121752A
CN108121752A CN201611089876.3A CN201611089876A CN108121752A CN 108121752 A CN108121752 A CN 108121752A CN 201611089876 A CN201611089876 A CN 201611089876A CN 108121752 A CN108121752 A CN 108121752A
Authority
CN
China
Prior art keywords
keyword
word
label
default
noise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611089876.3A
Other languages
English (en)
Inventor
陈飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201611089876.3A priority Critical patent/CN108121752A/zh
Publication of CN108121752A publication Critical patent/CN108121752A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种关键词物料的处理方法及装置,该方法包括:获取关键词物料;检测关键词物料中是否包含预设噪声库中的噪声词;当检测到关键词物料中包含预设噪声库中的噪声词时,去除关键词物料中的包含在预设噪声库的噪声词,得到去噪后的目标关键词;从预设标签库中查找与去噪后的目标关键词匹配的至少一个匹配关键词,其中,预设标签库中包括至少一个关键词以及与每个关键词对应的标签词,匹配关键词为目标关键词或目标关键词的近似词;从预设标签库中获取至少一个匹配关键词对应的标签词,利用获取的标签词为目标关键词标注标签;将带有标签词的目标关键词上传至搜索推广账户。通过本发明,能够提高关键词物料的处理效率。

Description

一种关键词物料的处理方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种关键词物料的处理方法及装置。
背景技术
目前,每天都有大量网络用户访问搜索引擎网站获取资源,比如,用户在百度搜索框内输入“电视机”,会显示一些与“电视机”相关的搜索结果,这些搜索结果中包括京东、苏宁易购、天猫等企业推出的与“电视机”相关的搜索引擎营销(Search Engine Marketing,简称SEM)网站,用户可以点击对应的链接访问这些SEM网站。具体地,如果一个企业想要在百度上进行SEM推广,该企业的SEM业务人员需要预先在百度上创建一个搜索推广账户,并向百度购买多个关键词,使类别、含义等相同或相近的关键词分配在所述搜索推广账户中的相同推广单元内,这样既能使不同类别、含义的关键词在投放时发挥最大作用,又方便账户结构的管理。在购买了这些关键词后,SEM业务人员需要使每个关键词对应一个SEM网站,这样,当网络用户通过百度搜索引擎搜索相关关键词时,百度搜索引擎会将购买价格更高的关键词对应的SEM网站排名靠前。
在上传这些关键词到所述搜索推广账户之前,需要通过各种渠道获取一些关键词物料,这些关键词物料中可能含有噪声词,比如一些竞品词、敏感词等,需要剔除关键词物料中的噪声词,剔除操作剩下的即为需要上传至所述搜索推广账户的关键词,在上传之前,需要考虑关键词的实际属性,为其标注一个标签词,然后将标注了标签的关键词进行上传。
现有方法是采用人工方式对关键词物料中的噪声词进行过滤,并为过滤后得到的关键词标注标签,但是,当关键词物料较多时,这种人工处理方式的工作效率较低,需要耗费大量的人力,尤其在如双11之类活动下,由于关键词物料的数量巨大,且对物料处理的时效要求较高,这种人工处理方式很可能无法在规定时间内将物料处理完。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种关键词物料的处理方法及装置,能够提高关键词物料的处理效率。
本发明提供了一种关键词物料的处理方法,包括:
获取关键词物料;
检测所述关键词物料中是否包含预设噪声库中的噪声词,所述预设噪声库中包括至少一个噪声词;
当检测到所述关键词物料中包含所述预设噪声库中的噪声词时,去除所述关键词物料中的包含在所述预设噪声库的噪声词,得到去噪后的目标关键词;
从预设标签库中查找与所述去噪后的目标关键词匹配的至少一个匹配关键词;所述预设标签库中包括至少一个关键词以及与每个关键词对应的标签词;所述匹配关键词为所述目标关键词或所述目标关键词的近似词;
从所述预设标签库中获取所述至少一个匹配关键词对应的标签词,利用获取的标签词为所述目标关键词标注标签;
将带有所述标签词的所述目标关键词上传至搜索推广账户。
可选的,所述获取关键词物料,包括:
获取与搜索推广内容相关的热搜词,将所述热搜词作为关键词物料;
和/或,从已有网页中提取与搜索推广内容相关的关键词物料。
可选的,从所述预设标签库中获取所述至少一个匹配关键词对应的标签词,包括:
判断所述预设标签库的关键词中是否包含所述目标关键词;
如果是,则从所述预设标签库中获取与所述目标关键词对应的标签词;
如果否,则遍历所述预设标签库中的关键词,当遍历到一所述目标关键词的近似词时,从所述预设标签库中获取与所述目标关键词的近似词对应的标签词。
可选的,所述将带有所述标签词的所述目标关键词上传至搜索推广账户,包括:
查询已上传至所述搜索推广账户中的各个关键词的标签词;
如果查询结果中存在一匹配标签词,则将所述目标关键词上传至所述匹配标签词对应的关键词所在的推广单元;所述匹配标签词为所述目标关键词的标签词。
可选的,所述方法还包括:
如果所述查询结果中不存在所述匹配标签词,则当所述查询结果中存在一所述匹配标签词的近似词时,将所述目标关键词上传至所述近似词对应的关键词所在的推广单元。
本发明还提供了一种关键词物料的处理装置,包括:
物料获取单元,用于获取关键词物料;
噪声词检测单元,用于检测所述关键词物料中是否包含预设噪声库中的噪声词,所述预设噪声库中包括至少一个噪声词;
关键词去噪单元,用于当检测到所述关键词物料中包含所述预设噪声库中的噪声词时,去除所述关键词物料中的包含在所述预设噪声库的噪声词,得到去噪后的目标关键词;
关键词查找单元,用于从预设标签库中查找与所述去噪后的目标关键词匹配的至少一个匹配关键词;所述预设标签库中包括至少一个关键词以及与每个关键词对应的标签词;所述匹配关键词为所述目标关键词或所述目标关键词的近似词;
标签词获取单元,用于从所述预设标签库中获取所述至少一个匹配关键词对应的标签词;
关键词标注单元,用于利用获取的标签词为所述目标关键词标注标签;
关键词上传单元,用于将带有所述标签词的所述目标关键词上传至搜索推广账户。
可选的,所述物料获取单元包括:
第一获取子单元,用于获取与搜索推广内容相关的热搜词,将所述热搜词作为关键词物料;
和/或,第二获取子单元,用于从已有网页中提取与搜索推广内容相关的关键词物料。
可选的,所述标签词获取单元包括:
判断子单元,用于判断所述预设标签库的关键词中是否包含所述目标关键词;
第一标注子单元,用于当所述判断子单元的判断结果为是时,从所述预设标签库中获取与所述目标关键词对应的标签词;
第二标注子单元,用于当所述判断子单元的判断结果为否时,遍历所述预设标签库中的关键词,当遍历到一所述目标关键词的近似词时,从所述预设标签库中获取与所述目标关键词的近似词对应的标签词。
可选的,所述关键词上传单元包括:
账户查询子单元,用于查询已上传至所述搜索推广账户中的各个关键词的标签词;
关键词上传子单元,用于如果查询结果中存在一匹配标签词,则将所述目标关键词上传至所述匹配标签词对应的关键词所在的推广单元;所述匹配标签词为所述目标关键词的标签词。
可选的,所述关键词上传子单元,还用于如果所述查询结果中不存在所述匹配标签词,则当所述查询结果中存在一所述匹配标签词的近似词时,将所述目标关键词上传至所述近似词对应的关键词所在的推广单元。
借由上述技术方案,本发明提供的关键词物料的处理方法及装置,维护一个预设噪声库和一个预设标签库,在对关键词物料进行去噪和标注处理时,首先,利用所述预设噪声库匹配出关键词物料中的噪声词,并通过去噪得到目标关键词,然后,利用所述预设标签库匹配出目标关键词的标签词,将该标签词作为所述目标关键词的标签,最后将被标注了标签的目标关键词上传至搜索推广账户。可见,将关键词物料投入处理装置后,利用预设噪声库和预设标签库,能够对大批量物料进行自动化的去燥和标注工作,从而能够加速关键词物料的处理效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了关键词物料的处理方法的流程示意图之一;
图2示出了关键词物料的处理方法的流程示意图之二;
图3示出了关键词物料的处理方法的流程示意图之三;
图4示出了关键词物料的处理装置的组成示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
参见图1,为本发明实施例一提供的关键词物料的处理方法的流程示意图,下面结合图2介绍本实施例,该方法包括以下步骤:
步骤101:获取关键词物料。
所述关键词物料可以是一个单词(比如手机)、或一个合成词(比如黑色手机)、或一句话(比如华为手机的价格是多少)。在一些实施方式中,步骤101可以采用以下两种或其中一种物料获取方式:
方式一:获取与搜索推广内容相关的热搜词,将所述热搜词作为关键词物料。
例如,如果SEM业务人员在百度上建立了一个搜索推广账户,可以要求百度提供一些输入到百度搜索引擎的搜索词,并从这些搜索词中筛选出与搜索推广内容相关的热搜词。具体地,假设京东在双11的搜索推广内容包括电器,可以从这些搜索词中找到与电器相关的热搜词,譬如这些热搜词可以是手机、洗衣机等相关词,比如华为手机、滚筒洗衣机,将这些词作为关键词物料。
方式二:从已有网页中提取与搜索推广内容相关的关键词物料。
例如,还假设京东在双11的搜索推广内容包括电器,可以从其它购物网站(比如一些电器品牌产品的官方网站)中截取手机等电器类商品的品牌型号、不同品牌型号对应的配置参数等信息,并将这些信息作为关键词物料。
步骤102:检测所述关键词物料中是否包含预设噪声库中的噪声词,所述预设噪声库中包括至少一个噪声词。
在本实施例中,所述预设噪声库中维护着一些噪声词,所述噪声词可以是竞品词、敏感词等,其中,竞品词就是竞争对手的企业品牌关键词,假设搜索推广方是小米公司,则“小米手机”的竞品词有“华为手机”、“苹果手机”等知名品牌的手机名称,敏感词可以是名人名字、禁销产品名称等敏感词汇。为了便于维护,所述预设噪声库中的噪声词可以按照词性等划分类别,还可以对所述预设噪声库的噪声词进行增加、删除等操作。
步骤103:当检测到所述关键词物料中包含所述预设噪声库中的噪声词时,去除所述关键词物料中的包含在所述预设噪声库的噪声词,得到去噪后的目标关键词。
在本实施例中,需要检测所述关键词物料中是否包含预设噪声库中的噪声词,如果所述关键词物料中包含预设噪声库中的噪声词,则将这些噪声词从所述关键词物料中剔除,经过去噪后得到的关键词,便是需要上传至搜索推广账户的目标关键词。
步骤104:从预设标签库中查找与所述去噪后的目标关键词匹配的至少一个匹配关键词;所述预设标签库中包括至少一个关键词以及与每个关键词对应的标签词;所述匹配关键词为所述目标关键词或所述目标关键词的近似词。
在本实施例中,所述预设标签库中维护着一些关键词以及为每个关键词标注的标签词,比如,假设预设标签库中存在关键词“手机膜”,与“手机膜”对应的标签词可以是“手机配件”。
步骤105:从所述预设标签库中获取所述至少一个匹配关键词对应的标签词,利用获取的标签词为所述目标关键词标注标签。
在一些实施方式中,步骤105可以包括步骤A1-A3:
步骤A1:判断所述预设标签库的关键词中是否包含所述目标关键词,如果是,则执行步骤A2,如果否,则执行步骤A3。
步骤A2:从所述预设标签库中获取与所述目标关键词对应的标签词,利用获取的标签词为所述目标关键词标注标签。
在本步骤中,如果预设标签库中包括整个目标关键词,则从预设标签库中获取该目标关键词的标签词。例如,假设所述目标关键词是“手机膜”,通过查询预设标签库,确定所述预设标签库中的标签词“手机配件”下包含关键词“手机膜”,则为目标关键词“手机膜”标注“手机配件”这个标签。
步骤A3:遍历所述预设标签库中的关键词,当遍历到一所述目标关键词的近似词时,从所述预设标签库中获取与所述目标关键词的近似词对应的标签词。
在本步骤中,如果预设标签库存储的关键词中不存在所述目标关键词,但存在与所述目标关键词相似的关键词(可以采用词向量相关技术查询该近似词),则从预设标签库中获取该近似词的标签词。
例如,假设所述目标关键词是“华为手机膜”、且“手机膜”是预设标签库中的关键词,该关键词是与所述目标关键词相似的词。可以通过遍历预设标签库中的关键词,当遍历到关键词“手机膜”时,利用“手机膜”的标签词“手机配件”,为目标关键词“华为手机膜”标注标签;或者,通过遍历预设标签库中的标签词,确定预设标签库中的标签词“手机配件”下包含关键词“手机膜”,则为目标关键词“华为手机膜”标注“手机配件”这个标签。
又例如,假设所述目标关键词是“华为手机膜”、且“华为”和“手机膜”是预设标签库中的关键词,这两个关键词均是与所述目标关键词相似的词。则按照上述方式遍历预设标签库,将第一个遍历到的关键词(“华为”或“手机膜”)的标签词为所述目标关键词“华为手机膜”标注标签。
步骤106:将带有所述标签词的所述目标关键词上传至搜索推广账户。
需要说明的是,每个企业可以只向百度等搜索引擎申请一个搜索推广账户,也可以申请多个搜索推广账户,每个账户下的预设噪声库和预设标签库可以对应不同的产品类别。
为所述目标关键词标注标签后,还要将带有标签词的目标关键词上传至搜索推广账户的一个推广单元中,通常情况下,需要使类别、含义等相同或相近的关键词分配在相同的推广单元内。在现有技术中,是由SEM业务人员将关键词人工上传至对应的推广单元,但这对SEM业务人员的要求较高,这需要SEM业务人员十分熟悉关键词的账户结构组成,才能正确的将标注好的关键词划入正确的推广单元中,此外,这种人工上传方式的上传效率也较低。为了解决该问题,本实施例可以自动的将被标注的目标关键词上传至正确的推广单元中,可以有效提高上传效率。
在一些实施方式,步骤106可以包括步骤B1-B2:
步骤B1:查询已上传至所述搜索推广账户中的各个关键词的标签词。
对于已经上传至所述搜索推广账户中的各个关键词,可以查询这些关键词的标签词,确定这些标签词中是否存在一个或多个标签词与所述目标关键词的标签词相同。
步骤B2:如果查询结果中存在一匹配标签词,则将所述目标关键词上传至所述匹配标签词对应的关键词所在的推广单元;其中,所述匹配标签词为所述目标关键词的标签词。
对于步骤B1的查询结果,如果从所述搜索推广账户中查询到了一标签词A(即所述匹配关键词)与所述目标关键词的标签词相同,此时,可以进一步查询标签词A所在的推广单元A,然后,将所述目标关键词上传至该推广单元A中。
进一步地,对于步骤B1的查询结果,如果从所述搜索推广账户中没有查询到一标签词A与所述目标关键词的标签词相同,则可以执行以下步骤:
步骤B3:如果所述查询结果中不存在所述匹配标签词,则当所述查询结果中存在一所述匹配标签词的近似词时,将所述目标关键词上传至所述近似词对应的关键词所在的推广单元。
如果不存在标签词A,则对于已经上传至所述搜索推广账户中的各个关键词,可以查询这些关键词的标签词,确定这些标签词中是否存在一个或多个标签词与所述目标关键词的标签词相似,如果从所述搜索推广账户中查询到了一标签词B与所述目标关键词的标签词相似,此时,可以进一步查询标签词B所在的推广单元B,然后,将所述目标关键词上传至该推广单元B中。
可见,通过步骤B1-B3,便可以自动的把含义相同或相近的目标关键词分配到相同的推广单元内了,这种自动处理方式可以有效提高上传效率。
参见图3,为本发明实施例二提供的关键词物料的处理方法的流程示意图,该方法包括以下步骤:
步骤301:获取关键词物料。
步骤302:检测所述关键词物料中是否包含预设噪声库中的噪声词,如果是,则执行步骤303,如果否,则执行步骤304。
本步骤中的“检测所述关键词物料中是否包含预设噪声库中的噪声词”可以包括:依次遍历预设噪声库中的每个噪声词,将当前遍历到的噪声词与所述关键词物料进行比对,确定所述关键词物料中是否存在当前遍历到的噪声词。
步骤303:去除所述关键词物料中的包含在所述预设噪声库的噪声词,得到去噪后的目标关键词,执行步骤305。
步骤304:获取人工去除噪声词后的目标关键词、且将所述人工去除的噪声词添加到所述预设噪声库,执行步骤305。
如果所述关键词物料中不包含所述预设噪声库中的噪声词,可以采用以下其中一种处理方式:
方式一:直接将所述关键词物料作为目标关键词,继续执行步骤305。
方式二:可以由SEM业务人员对所述关键词物料进行人工处理,如果SEM业务人员确定其中并不包含噪声词,则可以通过手动触发,使所述关键词物料作为目标关键词,继续执行步骤305;如果SEM业务人员确定其中包含噪声词,则可以手动去除其中的噪声词,以得到去噪后的目标关键词,再继续执行步骤305。此外,如果手动去除的这个噪声词不在所述预设噪声库中,则将其更新到所述预设噪声库中。
步骤305:从预设标签库中查找与所述去噪后的目标关键词匹配的至少一个匹配关键词;所述预设标签库中包括至少一个关键词以及与每个关键词对应的标签词;所述匹配关键词为所述目标关键词或所述目标关键词的近似词。
步骤306:判断是否能查找到匹配关键词,如果是,则执行步骤307,如果否,则执行步骤308。
本步骤中的“判断是否能查找到匹配关键词”可以包括:依次遍历所述预设标签库中的每个关键词,将当前遍历到的关键词与所述目标关键词进行比对,以确定所述预设标签库中是否存所述目标关键词或所述目标关键词的近似词。
步骤307:从预设标签库中获取所述至少一个匹配关键词对应的标签词,利用获取的标签词为所述目标关键词标注标签,执行步骤309。
步骤308:获取人工标注了标签词的目标关键词,并将所述目标关键词以及为所述目标关键词人工标注的标签词添加到所述预设标签库,执行步骤309。
如果所述目标关键词或所述目标关键词的近似词不包含所述预设标签库中,可以由SEM业务人员对所述目标关键词进行人工标注,即由SEM业务人员为其标注一个标签,并将所述目标关键词以及为其标注的标签词对应性的存入预设标签库中。
步骤309:将带有标签词的所述目标关键词上传至搜索推广账户。
本发明提供的关键词物料的处理方法,维护一个预设噪声库和一个预设标签库,在对关键词物料进行去噪和标注处理时,首先,利用所述预设噪声库匹配出关键词物料中的噪声词,并通过去噪得到目标关键词,然后,利用所述预设标签库匹配出目标关键词的标签词,将该标签词作为所述目标关键词的标签,最后将被标注了标签的目标关键词上传至搜索推广账户。可见,将关键词物料投入处理装置后,利用预设噪声库和预设标签库,能够对大批量物料进行自动化的去燥和标注工作,从而能够加速关键词物料的处理效率。
参见图4,为本发明实施例提供的关键词物料的处理装置的组成示意图,所述装置还包括:
物料获取单元401,用于获取关键词物料;
噪声词检测单元402,用于检测所述关键词物料中是否包含预设噪声库中的噪声词,所述预设噪声库中包括至少一个噪声词;
关键词去噪单元403,用于当检测到所述关键词物料中包含所述预设噪声库中的噪声词时,去除所述关键词物料中的包含在所述预设噪声库的噪声词,得到去噪后的目标关键词;
关键词查找单元404,用于从预设标签库中查找与所述去噪后的目标关键词匹配的至少一个匹配关键词;所述预设标签库中包括至少一个关键词以及与每个关键词对应的标签词;所述匹配关键词为所述目标关键词或所述目标关键词的近似词;
标签词获取单元405,用于从所述预设标签库中获取所述至少一个匹配关键词对应的标签词;
关键词标注单元406,用于利用获取的标签词为所述目标关键词标注标签;
关键词上传单元407,用于将带有所述标签词的所述目标关键词上传至搜索推广账户。
在一些实施方式中,所述物料获取单元401可以包括第一获取子单元和/或,第二获取子单元,其中:
第一获取子单元,用于获取与搜索推广内容相关的热搜词,将所述热搜词作为关键词物料;
第二获取子单元,用于从已有网页中提取与搜索推广内容相关的关键词物料。
在一些实施方式中,所述标签词获取单元405可以包括判断子单元、第一标注子单元和第二标注子单元,其中:
判断子单元,用于判断所述预设标签库的关键词中是否包含所述目标关键词;
第一标注子单元,用于当所述判断子单元的判断结果为是时,从所述预设标签库中获取与所述目标关键词对应的标签词;
第二标注子单元,用于当所述判断子单元的判断结果为否时,遍历所述预设标签库中的关键词,当遍历到一所述目标关键词的近似词时,从所述预设标签库中获取与所述目标关键词的近似词对应的标签词。
在一些实施方式中,所述关键词上传单元407可以包括账户查询子单元和第一上传子单元,其中:
账户查询子单元,用于查询已上传至所述搜索推广账户中的各个关键词的标签词;
关键词上传子单元,用于如果查询结果中存在一匹配标签词,则将所述目标关键词上传至所述匹配标签词对应的关键词所在的推广单元;所述匹配标签词为所述目标关键词的标签词。
进一步地,所述关键词上传子单元,还用于如果所述查询结果中不存在所述匹配标签词,则当所述查询结果中存在一所述匹配标签词的近似词时,将所述目标关键词上传至所述近似词对应的关键词所在的推广单元。
进一步地,所述装置还可以包括:
预设噪声库更新单元,用于当检测到所述关键词物料中不包含所述预设噪声库中的噪声词时,获取人工去除噪声词后的目标关键词、且将所述人工去除的噪声词添加到所述预设噪声库,继续利用所述关键词查找单元404实现关键词查找功能。
进一步地,所述装置还可以包括:
预设标签库更新单元,用于当所述预设标签库中不包含所述匹配关键词时,获取人工标注了标签词的目标关键词,并将所述目标关键词以及为所述目标关键词人工标注的标签词添加到所述预设标签库,继续利用所述关键词上传单元407将带有所述标签词的所述目标关键词上传至搜索推广账户。
所述关键词物料的处理装置包括处理器和存储器,上述物料获取单元401、噪声词检测单元402、关键词去噪单元403、关键词查找单元404、标签词获取单元405、关键词标注单元406和关键词上传单元407等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高关键词物料的处理效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明提供的关键词物料的处理装置,维护一个具有多个噪声词的预设噪声库和具有多个标签词的预设标签库,在对关键词物料进行去噪和标注处理时,首先,利用所述预设噪声库匹配出关键词物料中的噪声词,并通过去噪得到目标关键词,然后,利用所述预设标签库匹配出目标关键词中的标签词,将该标签词作为所述目标关键词的标签,最后将被标注了标签的目标关键词上传至搜索推广账户。可见,将关键词物料投入处理装置后,利用预设噪声库和预设标签库,能够对大批量物料进行自动化的去燥和标注工作,从而能够加速关键词物料的处理效率。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
获取关键词物料;
检测所述关键词物料中是否包含预设噪声库中的噪声词,所述预设噪声库中包括至少一个噪声词;
当检测到所述关键词物料中包含所述预设噪声库中的噪声词时,去除所述关键词物料中的包含在所述预设噪声库的噪声词,得到去噪后的目标关键词;
从预设标签库中查找与所述去噪后的目标关键词匹配的至少一个匹配关键词;所述预设标签库中包括至少一个关键词以及与每个关键词对应的标签词;所述匹配关键词为所述目标关键词或所述目标关键词的近似词;
从所述预设标签库中获取所述至少一个匹配关键词对应的标签词,利用获取的标签词为所述目标关键词标注标签;
将带有所述标签词的所述目标关键词上传至搜索推广账户。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种关键词物料的处理方法,其特征在于,包括:
获取关键词物料;
检测所述关键词物料中是否包含预设噪声库中的噪声词,所述预设噪声库中包括至少一个噪声词;
当检测到所述关键词物料中包含所述预设噪声库中的噪声词时,去除所述关键词物料中的包含在所述预设噪声库的噪声词,得到去噪后的目标关键词;
从预设标签库中查找与所述去噪后的目标关键词匹配的至少一个匹配关键词;所述预设标签库中包括至少一个关键词以及与每个关键词对应的标签词;所述匹配关键词为所述目标关键词或所述目标关键词的近似词;
从所述预设标签库中获取所述至少一个匹配关键词对应的标签词,利用获取的标签词为所述目标关键词标注标签;
将带有所述标签词的所述目标关键词上传至搜索推广账户。
2.根据权利要求1所述的方法,其特征在于,所述获取关键词物料,包括:
获取与搜索推广内容相关的热搜词,将所述热搜词作为关键词物料;
和/或,从已有网页中提取与搜索推广内容相关的关键词物料。
3.根据权利要求1所述的方法,其特征在于,从所述预设标签库中获取所述至少一个匹配关键词对应的标签词,包括:
判断所述预设标签库的关键词中是否包含所述目标关键词;
如果是,则从所述预设标签库中获取与所述目标关键词对应的标签词;
如果否,则遍历所述预设标签库中的关键词,当遍历到一所述目标关键词的近似词时,从所述预设标签库中获取与所述目标关键词的近似词对应的标签词。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述将带有所述标签词的所述目标关键词上传至搜索推广账户,包括:
查询已上传至所述搜索推广账户中的各个关键词的标签词;
如果查询结果中存在一匹配标签词,则将所述目标关键词上传至所述匹配标签词对应的关键词所在的推广单元;所述匹配标签词为所述目标关键词的标签词。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
如果所述查询结果中不存在所述匹配标签词,则当所述查询结果中存在一所述匹配标签词的近似词时,将所述目标关键词上传至所述近似词对应的关键词所在的推广单元。
6.一种关键词物料的处理装置,其特征在于,包括:
物料获取单元,用于获取关键词物料;
噪声词检测单元,用于检测所述关键词物料中是否包含预设噪声库中的噪声词,所述预设噪声库中包括至少一个噪声词;
关键词去噪单元,用于当检测到所述关键词物料中包含所述预设噪声库中的噪声词时,去除所述关键词物料中的包含在所述预设噪声库的噪声词,得到去噪后的目标关键词;
关键词查找单元,用于从预设标签库中查找与所述去噪后的目标关键词匹配的至少一个匹配关键词;所述预设标签库中包括至少一个关键词以及与每个关键词对应的标签词;所述匹配关键词为所述目标关键词或所述目标关键词的近似词;
标签词获取单元,用于从所述预设标签库中获取所述至少一个匹配关键词对应的标签词;
关键词标注单元,用于利用获取的标签词为所述目标关键词标注标签;
关键词上传单元,用于将带有所述标签词的所述目标关键词上传至搜索推广账户。
7.根据权利要求6所述的装置,其特征在于,所述物料获取单元包括:
第一获取子单元,用于获取与搜索推广内容相关的热搜词,将所述热搜词作为关键词物料;
和/或,第二获取子单元,用于从已有网页中提取与搜索推广内容相关的关键词物料。
8.根据权利要求6所述的装置,其特征在于,所述标签词获取单元包括:
判断子单元,用于判断所述预设标签库的关键词中是否包含所述目标关键词;
第一标注子单元,用于当所述判断子单元的判断结果为是时,从所述预设标签库中获取与所述目标关键词对应的标签词;
第二标注子单元,用于当所述判断子单元的判断结果为否时,遍历所述预设标签库中的关键词,当遍历到一所述目标关键词的近似词时,从所述预设标签库中获取与所述目标关键词的近似词对应的标签词。
9.根据权利要求6至8任一项所述的装置,其特征在于,所述关键词上传单元包括:
账户查询子单元,用于查询已上传至所述搜索推广账户中的各个关键词的标签词;
关键词上传子单元,用于如果查询结果中存在一匹配标签词,则将所述目标关键词上传至所述匹配标签词对应的关键词所在的推广单元;所述匹配标签词为所述目标关键词的标签词。
10.根据权利要求9所述的装置,其特征在于,
所述关键词上传子单元,还用于如果所述查询结果中不存在所述匹配标签词,则当所述查询结果中存在一所述匹配标签词的近似词时,将所述目标关键词上传至所述近似词对应的关键词所在的推广单元。
CN201611089876.3A 2016-11-30 2016-11-30 一种关键词物料的处理方法及装置 Pending CN108121752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611089876.3A CN108121752A (zh) 2016-11-30 2016-11-30 一种关键词物料的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611089876.3A CN108121752A (zh) 2016-11-30 2016-11-30 一种关键词物料的处理方法及装置

Publications (1)

Publication Number Publication Date
CN108121752A true CN108121752A (zh) 2018-06-05

Family

ID=62227419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611089876.3A Pending CN108121752A (zh) 2016-11-30 2016-11-30 一种关键词物料的处理方法及装置

Country Status (1)

Country Link
CN (1) CN108121752A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144561A (zh) * 2018-07-18 2019-01-04 Oppo广东移动通信有限公司 资源管理方法及相关产品
CN111259058A (zh) * 2020-01-16 2020-06-09 北京百度网讯科技有限公司 数据挖掘方法、数据挖掘装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106199A (zh) * 2011-11-09 2013-05-15 中国移动通信集团四川有限公司 文本检索方法和装置
CN104133830A (zh) * 2013-05-02 2014-11-05 乐视网信息技术(北京)股份有限公司 一种数据获取方法
US9495412B1 (en) * 2009-08-13 2016-11-15 Cox Communications, Inc. Technical electronic discovery action model

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9495412B1 (en) * 2009-08-13 2016-11-15 Cox Communications, Inc. Technical electronic discovery action model
CN103106199A (zh) * 2011-11-09 2013-05-15 中国移动通信集团四川有限公司 文本检索方法和装置
CN104133830A (zh) * 2013-05-02 2014-11-05 乐视网信息技术(北京)股份有限公司 一种数据获取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黎李: "技术力驱动SEM超级账户管理研究", 《HTTPS://WWW.DOCIN.COM/P-1681773080.HTML》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109144561A (zh) * 2018-07-18 2019-01-04 Oppo广东移动通信有限公司 资源管理方法及相关产品
CN111259058A (zh) * 2020-01-16 2020-06-09 北京百度网讯科技有限公司 数据挖掘方法、数据挖掘装置和电子设备
CN111259058B (zh) * 2020-01-16 2023-09-15 北京百度网讯科技有限公司 数据挖掘方法、数据挖掘装置和电子设备

Similar Documents

Publication Publication Date Title
CN106126630B (zh) 一种业务对象的收藏、搜索方法和装置
US9977790B2 (en) Automatically obtaining real-time, geographically-relevant product information from heterogeneus sources
JP7387432B2 (ja) ネットワーク化環境における不正コンテンツに関連するデータを収集するためのシステムおよび方法
CN107766481B (zh) 一种发现互联网金融平台的方法和系统
CN104462873A (zh) 一种图片处理方法和装置
CN104933134A (zh) 一种用户特征的分析方法及装置
CN109189990A (zh) 一种搜索词的生成方法、装置及电子设备
US20170316100A1 (en) Retrieval of Content Using Link-Based Search
CN104462396A (zh) 字符串处理方法和装置
CN104123285B (zh) 搜索结果的导航方法及装置
CN111611484A (zh) 一种基于物品属性识别的股票推荐方法及系统
US10936675B2 (en) Developing an item data model for an item
CN108121752A (zh) 一种关键词物料的处理方法及装置
Mehta et al. A comparative study of various approaches to adaptive web scraping
KR20190081671A (ko) 온라인 쇼핑몰 통합 관리 시스템에서의 유사상품을 검색하는 방법 및 그 서버
Yeung et al. Data analytics architectures for e-commerce platforms in cloud
CN103984752B (zh) 一种动漫资源检索管理系统
CN111062736A (zh) 模型训练、线索排序方法、装置及设备
CN110019672A (zh) 一种类似案件的推送方法、系统、存储介质和处理器
CN110377790B (zh) 一种基于多模态私有特征的视频自动标注方法
CN109471639A (zh) 一种应用下载来源的监测方法及装置
CN108153777A (zh) 数据访问信息的获取方法及装置
CN112925939A (zh) 图片搜索方法、描述信息生成方法、设备及存储介质
Joshi et al. Software clone detection using clustering approach
CN108021548A (zh) 一种情感特征的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180605