CN104063370B - 一种基于关键词的智能分组方法及装置 - Google Patents

一种基于关键词的智能分组方法及装置 Download PDF

Info

Publication number
CN104063370B
CN104063370B CN201410309022.6A CN201410309022A CN104063370B CN 104063370 B CN104063370 B CN 104063370B CN 201410309022 A CN201410309022 A CN 201410309022A CN 104063370 B CN104063370 B CN 104063370B
Authority
CN
China
Prior art keywords
keyword
root
packet
individual character
high frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410309022.6A
Other languages
English (en)
Other versions
CN104063370A (zh
Inventor
裴向宇
田传钊
张涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Learned Cube Of Beijing Science And Technology Ltd
Original Assignee
Learned Cube Of Beijing Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Learned Cube Of Beijing Science And Technology Ltd filed Critical Learned Cube Of Beijing Science And Technology Ltd
Priority to CN201410309022.6A priority Critical patent/CN104063370B/zh
Publication of CN104063370A publication Critical patent/CN104063370A/zh
Application granted granted Critical
Publication of CN104063370B publication Critical patent/CN104063370B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种基于关键词的智能分组方法及装置,方法包括:将关键词拆分成单字,按照频数从高到低筛选出第一数目的单字作为高频单字;从所述关键词内提取出由至少两个高频单字组成的词根,按照频数从高到低筛选出第二数目的词根作为核心词根;根据所筛选的核心词根对所述关键词进行分组。本发明实施例的技术方案能提高推广效率,提高账户结构的合理性。

Description

一种基于关键词的智能分组方法及装置
技术领域
本发明涉及计算机应用技术领域,具体涉及一种基于关键词的智能分组方法及装置。
背景技术
网络推广技术是随搜索引擎的发展而发展起来的一种技术,例如百度推广、Google关键字广告和广告联盟等。在网络推广中,推广单元是管理关键词和创意的小单位。关键词可以是产品词、通俗词、地域词、品牌词等,在建立推广单元时,一般将意义相近、结构相同的关键词纳入同一个推广单元中,以便有针对性地撰写创意。创意是指用于在网民利用搜索词搜索得到推广结果后触发时,展现在网民面前的推广内容,创意的内容是针对关键词撰写,一般包括标题、描述,以及访问统一资源定位符(URL)和显示URL。关键词用来定位潜在客户,创意则用来吸引潜在客户访问网站,并在浏览网站的基础上进一步了解所提供的产品或服务,进而采取转化行为,如注册,在线提交订单,电话咨询,上门访问等。创意质量将在很大程度上影响关键词的点击率,并通过质量度进一步影响推广费用和推广效果。由此可见,关键词与推广创意的对应关系是影响搜索推广账户质量的重要因素,建立准确的关键词与创意的对应关系可以有效的提高广告质量,从而进一步提高广告的点击率以及转化效率,增强广告商的推广效果。
关键词自动分组是指关键词工具将已选择的关键词自动进行分组并建议保存到已有推广单元或为广告商新建的推广单元,同时支持用户手动调整分组的结果。通过自动分组可以帮助用户提高推广效率,提升账户结构的合理性。关键词分组其实也就是众多的关键词如何在整个网站中的布局问题,它是整个关键词拓展中难度最大的环节,合理的关键词分组可以让整个网站条理清楚,并更能满足顾客的需求。
现有的网站推广技术,在新添关键词时,同一批添加的词只能放入某一个计划单元。由于账户内的计划单元数较多,将大量新词放到相应的计划单元下就会变得很复杂,一方面浪费大量的人力,另一方面单纯依靠人的主观判断不仅会使推广效率低下,账户的结构也不尽合理。
发明内容
有鉴于此,本发明实施例提供一种基于关键词的智能分组方法及装置,以解决现有技术中推广效率低下,账户结构不合理的问题。
本发明实施例采用以下技术方案:
第一方面,本发明实施例提供了一种基于关键词的智能分组方法,包括:
将关键词拆分成单字,按照频数从高到低筛选出第一数目的单字作为高频单字;
从所述关键词内提取出由至少两个高频单字组成的词根,按照频数从高到低筛选出第二数目的词根作为核心词根;
根据所筛选的核心词根对所述关键词进行分组。
第二方面,本发明实施例还提供了一种基于关键词的智能分组装置,包括:
高频单字筛选单元,用于将关键词拆分成单字,按照频数从高到低筛选出第一数目的单字作为高频单字;
核心词根筛选单元,用于从所述关键词内提取出由至少两个高频单字组成的词根,按照频数从高到低筛选出第二数目的词根作为核心词根;
分组单元,用于根据所筛选的核心词根对所述关键词进行分组。
本发明实施例提出的技术方案的有益技术效果是:
本发明实施例提出的技术方案通过将关键词拆分成单字,筛选出高频单字;继而筛选出由至少两个高频单字组成的高频词根,根据所筛选的核心词根对所述关键词进行分组,以提高推广效率,提高账户结构的合理性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
图1是本发明具体实施例一所述的基于关键词的智能分组方法流程图;
图2是本发明具体实施例二所述的基于关键词的智能分组方法流程图;
图3是本发明具体实施例三所述的基于关键词的智能分组装置的结构框图。
具体实施方式
为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
实施例一
图1是本实施例所述的基于关键词的智能分组方法流程图,本实施例可适用于在向搜索引擎进行网络推广,为了提高推广效率,提高账户结构的合理性,在构建用于管理关键词和创意的推广单元之前,对需推广的关键词进行自动分组的情况,该方法可以由安装在分词服务器上的基于关键词的智能分组装置来执行,如图1所示,本实施例所述的基于关键词的智能分组方法包括:
S101、将关键词拆分成单字,按照频数从高到低筛选出第一数目的单字作为高频单字。
预先从搜索日志的搜索词中提取关键词之后,将关键词拆分成单字,分别对各单字的出现频率获取各单字的频数,按照频数从高到低进行排列,并筛选出第一数目的单字作为高频单字。
其中,所述第一数目可为预设值,也可根据预设算法获取,第一数目通常大于等于2。
S102、从所述关键词内提取出由至少两个高频单字组成的词根,按照频数从高到低筛选出第二数目的词根作为核心词根。
各关键词中,若相邻两个或两个以上的单字均属于步骤S101所获取的高频单字,则对该相邻单字组成的单词的出现次数进行计数以获取单词的频次,按照频数从高到低筛选出第二数目的词根作为核心词根。
其中,所述第二数目可为预设值,也可根据预设算法获取,第一数据大于等于1。
S103、根据所筛选的核心词根对所述关键词进行分组。
将关键词按照是否包含所筛选的核心词根进行分组,可以将包含相同或相近似词根的关键字分入同一组。
本发明实施例提出的技术方案通过将关键词拆分成单字,筛选出高频单字;继而筛选出由至少两个高频单字组成的高频词根,根据所筛选的核心词根对所述关键词进行分组,以提高推广效率,提高账户结构的合理性。
实施例二
图2是本实施例所述的基于关键词的智能分组方法流程图,如图2所示,本实施例所述的基于关键词的智能分组方法包括:
S201、筛选高频单字。
将关键词拆成单字并计算单字出现的频数,根据频数筛选出第一数目的单字作为高频单字。其中,所述第一数目为预设值或根据第一预设算法获取。
本步骤主要用来筛选高频单字,具体方法不限,不同的方法均属于本实施例保护的范围。
本本实施例具体提供了一种具体筛选高频单字的方法,即频数大于或等于筛选参数的单字为高频单字。所述筛选参数为:当关键词个数超过第一阈值时筛选参数为第二阈值与关键词个数乘以预设系数后较大的值;当关键词个数不足第一阈值时筛选参数为第三阈值。
作为优选,所述第一阈值为100,所述第二阈值为5,所述第三阈值为3,所述预设系数为0.01。S202、提取频数最高的词根作为核心词根。
将关键词内完全由高频单字组成的词跟提取出来,保留其中字符个数多余一个且频数大于1的词根,取出频数最高的词根作为核心词根。
S203、判断是否满足继续提取词根的条件,若是则返回步骤S201,否则执行步骤S204
例如,若未包含任一核心词根的关键词过多,满足预设条件或数目,则返回步骤S201继续提取核心词根。为了避免同族核心词根对分组效果的影响,返回步骤S201后,可屏蔽掉已筛选出的核心词根。例如,第一次提取核心词根为“手机”,则返回进行下一次筛选核心词根时,不考滤“手机”这个字根。
S204、将词根按照字符个数升序排列。
S205、将关键词按照是否包含核心词根进行分组,将包含相同词根的关键词分入同一组。
将所筛选的核心词根按字符个数的升序排列,然后将关键词按照是否包含核心词根进行分组,包含相同词根的关键词分入同一组,组名为该核心词根
S206、判断是否满足继续分组条件,若是则返回步骤S201,否则执行步骤S207。
若满足继续分组条件,则需要对每一个分组再进行一次分组,用于将第一次分组后的各个组分的关键词通过新的核心词分成更小的组。
根据所筛选的核心词根对所述关键词进行分组的操作之后,在分组后的组内,重复执行筛选高频单字、筛选核心词根、以及根据所筛选的核心词对组内关键词进行分组,直到满足预设停止条件。
所述预设停止条件包括:当关键词的分组数达到预设阈值,则停止继续分组。
或者,所述预设停止条件包括:计算上次分组后所有关键词的比例因子之和与本次分组后所有关键词的比例因子的差值,当所述差值小于预设阈值,则停止分组,以上次分组结果为最终分组结果;其中,所述关键词的比例因子等于关键词的各次词根的字数与关键词总字数的比值。
例如,方式一:当关键词的分组数达到预设阈值,则停止继续分组;方式二:计算上次分组后所有关键词的比例因子之和与本次分组后所有关键词的比例因子的差值,当所述差值小于预设阈值,则停止分组,以上次分组结果为最终分组结果;其中,所述关键词的比例因子等于关键词的各次词根的字数与关键词总字数的比值。
例如,设定阈值初始值:本次比例因子为1,上次比例因子为0,初始值设为1;当本次比例因子>0.4且本次比例因子与上次比例因子差值大于0.05,且分组次数小于或等于3时,再次返回步骤S201对各分组进行分组。更新阈值上次比例因子为本次比例因子,将分组次数加1。
S207、结束继续分组。
本发明实施例提出的技术方案在实施例一的基础之上,通过设置是否满足继续分组条件对各分组继续进行分组,以进一步提高账户结构的合理性。
实施例三
图3是本实施例所述的基于关键词的智能分组装置的结构框图,如图3所示,本实施例所述的基于关键词的智能分组装置包括:
高频单字筛选单元301,用于将关键词拆分成单字,按照频数从高到低筛选出第一数目的单字作为高频单字;
核心词根筛选单元302,用于从所述关键词内提取出由至少两个高频单字组成的词根,按照频数从高到低筛选出第二数目的词根作为核心词根;
分组单元303,用于根据所筛选的核心词根对所述关键词进行分组。
进一步地,在分组单元303根据所筛选的核心词根对所述关键词进行分组之后,在分组后的组内,再重复进行使用高频单字筛选单元301筛选高频单字、核心词根筛选单元302筛选核心词根、以及分组单元303根据所筛选的核心词对组内关键词进行分组,直到满足预设停止条件。
进一步地:所述第一数目为预设值或根据第一预设算法获取;所述第二数目为预设值或根据第二预设算法获取。
进一步地,所述预设停止条件包括:当关键词的分组数达到预设阈值,则停止继续分组。
或者,所述预设停止条件包括:计算上次分组后所有关键词的比例因子之和与本次分组后所有关键词的比例因子的差值,当所述差值小于预设阈值,则停止分组,以上次分组结果为最终分组结果;其中,所述关键词的比例因子等于关键词的各次词根的字数与关键词总字数的比值。
本发明实施例提出的技术方案通过将关键词拆分成单字,筛选出高频单字;继而筛选出由至少两个高频单字组成的高频词根,根据所筛选的核心词根对所述关键词进行分组,以提高推广效率,提高账户结构的合理性。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (6)

1.一种基于关键词的智能分组方法,其特征在于,包括:
将关键词拆分成单字,按照频数从高到低筛选出第一数目的单字作为高频单字;
所述高频单字为频数大于或等于筛选参数的单字,所述筛选参数为:当关键词个数超过第一阈值时筛选参数为第二阈值与关键词个数乘以预设系数后较大的值;当关键词个数不足第一阈值时筛选参数为第三阈值;
从所述关键词内提取出由至少两个高频单字组成的词根,按照频数从高到低筛选出第二数目的词根作为核心词根;
根据所筛选的核心词根对所述关键词进行分组;
在所述分组后的组内,重复执行筛选高频单字、筛选核心词根、以及根据所筛选的核心词对组内关键词进行分组,直到满足预设停止条件;
所述预设停止条件包括:计算上次分组后所有关键词的比例因子之和与本次分组后所有关键词的比例因子的差值,当所述差值小于预设阈值,则停止分组,以上次分组结果为最终分组结果;其中,所述关键词的比例因子等于关键词的各次词根的字数与关键词总字数的比值。
2.如权利要求1所述的基于关键词的智能分组方法,其特征在于:
所述第一数目为预设值或根据第一预设算法获取;
所述第二数目为预设值或根据第二预设算法获取。
3.如权利要求1所述的基于关键词的智能分组方法,其特征在于,所述预设停止条件包括:当关键词的分组数达到预设阈值,则停止继续分组。
4.一种基于关键词的智能分组装置,其特征在于,包括:
高频单字筛选单元,用于将关键词拆分成单字,按照频数从高到低筛选出第一数目的单字作为高频单字;
所述高频单字为频数大于或等于筛选参数的单字,所述筛选参数为:当关键词个数超过第一阈值时筛选参数为第二阈值与关键词个数乘以预设系数后较大的值;当关键词个数不足第一阈值时筛选参数为第三阈值;
核心词根筛选单元,用于从所述关键词内提取出由至少两个高频单字组成的词根,按照频数从高到低筛选出第二数目的词根作为核心词根;
分组单元,用于根据所筛选的核心词根对所述关键词进行分组;
重复分组单元,用于在所述分组后的组内,重复执行筛选高频单字、筛选核心词根、以及根据所筛选的核心词对组内关键词进行分组,直到满足预设停止条件;
所述预设停止条件包括:计算上次分组后所有关键词的比例因子之和与本次分组后所有关键词的比例因子的差值,当所述差值小于预设阈值,则停止分组,以上次分组结果为最终分组结果;其中,所述关键词的比例因子等于关键词的各次词根的字数与关键词总字数的比值。
5.如权利要求4所述的基于关键词的智能分组装置,其特征在于:
所述第一数目为预设值或根据第一预设算法获取;
所述第二数目为预设值或根据第二预设算法获取。
6.如权利要求4所述的基于关键词的智能分组装置,其特征在于,所述预设停止条件包括:当关键词的分组数达到预设阈值,则停止继续分组。
CN201410309022.6A 2014-07-01 2014-07-01 一种基于关键词的智能分组方法及装置 Active CN104063370B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410309022.6A CN104063370B (zh) 2014-07-01 2014-07-01 一种基于关键词的智能分组方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410309022.6A CN104063370B (zh) 2014-07-01 2014-07-01 一种基于关键词的智能分组方法及装置

Publications (2)

Publication Number Publication Date
CN104063370A CN104063370A (zh) 2014-09-24
CN104063370B true CN104063370B (zh) 2017-09-22

Family

ID=51551086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410309022.6A Active CN104063370B (zh) 2014-07-01 2014-07-01 一种基于关键词的智能分组方法及装置

Country Status (1)

Country Link
CN (1) CN104063370B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004006133A1 (en) * 2002-07-03 2004-01-15 Iotapi., Com, Inc. Text-machine code, system and method
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101540737A (zh) * 2008-03-17 2009-09-23 北京亿企通信息技术有限公司 一种处理即时消息的方法
CN102737029A (zh) * 2011-04-02 2012-10-17 腾讯科技(深圳)有限公司 搜索方法及系统
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103631963A (zh) * 2013-12-18 2014-03-12 北京博雅立方科技有限公司 一种基于大数据的关键词优化处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004006133A1 (en) * 2002-07-03 2004-01-15 Iotapi., Com, Inc. Text-machine code, system and method
CN101266603A (zh) * 2007-03-12 2008-09-17 北京搜狗科技发展有限公司 一种网页信息分类方法、系统及应用该分类的服务系统
CN101540737A (zh) * 2008-03-17 2009-09-23 北京亿企通信息技术有限公司 一种处理即时消息的方法
CN102737029A (zh) * 2011-04-02 2012-10-17 腾讯科技(深圳)有限公司 搜索方法及系统
CN103164454A (zh) * 2011-12-15 2013-06-19 百度在线网络技术(北京)有限公司 关键词分组方法及系统
CN103631963A (zh) * 2013-12-18 2014-03-12 北京博雅立方科技有限公司 一种基于大数据的关键词优化处理方法及装置

Also Published As

Publication number Publication date
CN104063370A (zh) 2014-09-24

Similar Documents

Publication Publication Date Title
CN103295147B (zh) 投放广告的方法、装置和系统
JP6878450B2 (ja) 広告に関する不正行為を防止するための方法及びデバイス並びに記憶媒体
CN109118296A (zh) 活动推送方法、装置及电子设备
CN106228410A (zh) 一种直播平台中虚拟礼物任务防刷系统及方法
CN106651416A (zh) 应用程序推广信息的分析方法及装置
CN107463440A (zh) 一种弹窗展示方法及装置
CN103605714B (zh) 网站异常数据的识别方法及装置
CN105741134A (zh) 跨数据源的营销人群在市场营销中应用的方法及装置
JP2003152771A (ja) 加入者の使用量のモデル化方法
CN107886366A (zh) 性别分类模型的生成方法、性别填充方法、终端及存储介质
CN106651368A (zh) 防刷单的支付方式的控制方法及控制系统
CN107563621A (zh) 一种网站用户流失情况分析方法及装置
CN102819580A (zh) 互联网第三方媒体网站广告监控方法及系统
CN106447386A (zh) 一种网络广告审核方法及系统
CN107465739A (zh) 实体渠道用户引流的方法及装置
CN104348871A (zh) 一种同类账号扩展方法及装置
CN106202513A (zh) 浏览器的浏览主站推荐方法和装置
CN105653550B (zh) 网页过滤方法和装置
CN102075896B (zh) 一种资费预演方法和系统
CN104063370B (zh) 一种基于关键词的智能分组方法及装置
CN107908676A (zh) 一种数据展示更新方法、终端及计算机可读介质
CN106504014A (zh) 一种移动广告云管理平台
CN102263777A (zh) 一种关联下载提示方法及装置
CN107423315A (zh) 一种户外媒体资源数据的挖掘处理方法及系统
CN106874286A (zh) 一种筛选用户特征的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant