CN108241643B - 关键词的指标数据分析方法及装置 - Google Patents
关键词的指标数据分析方法及装置 Download PDFInfo
- Publication number
- CN108241643B CN108241643B CN201611208435.0A CN201611208435A CN108241643B CN 108241643 B CN108241643 B CN 108241643B CN 201611208435 A CN201611208435 A CN 201611208435A CN 108241643 B CN108241643 B CN 108241643B
- Authority
- CN
- China
- Prior art keywords
- index data
- keyword
- target
- value
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种关键词的指标数据分析方法及装置,首先获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合;为各关键词集合分别分配一目标指标数据标识;依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。目标指标数据可以为广告主的目标,因此在以目标指标数据为目标时,可以依据各参考指标数据相对于目标指标数据的权重,来确定哪一参考指标数据对目标的影响较大,即可以依据对目标的影响较大的参考指标数据,来选择关键词。
Description
技术领域
本发明涉及搜索引擎营销技术领域,更具体的涉及一种关键词的指标数据分析方法及装置。
背景技术
搜索引擎营销(Search Engine Marketing,SEM)是指基于搜索者行为的全程营销,它能实现品牌认知、网站转化和客户服务等目标。搜索引擎营销的第一步是关键词的选择,不管是通过搜索引擎优化和付费搜索引擎广告,都需要选择能够实现目标的关键词,例如,广告主在选择关键词时,优先考虑使得广告链接的点击量最大的关键词,此时点击量这一指标数据是广告主的目标,或,优先考虑使得转化量最大的关键词,此时转化量这一指标数据是广告主的目标,但是在选择关键词,需要考虑哪些指标数据,哪些指标数据是影响目标的重要因素是本领域难点。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的关键词的指标数据分析方法及装置。
一种关键词的指标数据分析方法,包括:
获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,其中,每一指标数据集合包括目标指标数据的值以及多个参考指标数据的值;
依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合,每一集合包括一个或多个关键词,所述N个预设阈值不相同,N为大于等于1的正整数;
为各关键词集合分别分配一目标指标数据标识;
依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。
其中,所述依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重包括:
依据各关键词相应的各参考指标数据的值、各关键词相应的目标指标数据标识以及预设算法,获得权重分析模型,所述预设算法为随机森林算法或逻辑回归算法或迭代的决策树算法;
依据所述权重分析模型,获得各参考指标数据相对于目标指标数据的权重。
其中,所述依据各关键词相应的参考指标数据的值、各关键词相应的目标指标数据标识以及预设算法,获得权重分析模型包括:
依据各关键词相应的各参考指标数据的值以及各关键词相应的目标指标数据的值,获得多个关键词决策树,各关键词决策树的叶节点包括一个或多个各关键词集合相应的目标指标数据标识;
将由各关键词决策树组成的随机森林确定为所述权重分析模型。
其中,所述依据所述权重分析模型,获得各参考指标数据相对于目标指标数据的权重包括:
确定所述随机森林中各关键词决策树相应的袋外数据;
获取各关键词决策树相应的袋外数据的第一袋外数据误差;
对各关键词决策树相应的袋外数据中各关键词相应的一待分析的参考指标数据的值加入预设噪声,获得各关键词决策树相应的噪声袋外数据,计算各关键词决策树相应的噪声袋外数据的第二袋外数据误差;
依据各关键词决策树相应的所述第二袋外数据误差与所述第一袋外数据误差的差值,以及所述各关键词决策树的个数,计算出所述待分析的参考指标数据的权重。
其中,每一指标数据集包括的目标指标数据的值为转换量的值;每一指标数据集包括的多个参考指标数据的值包括展现量的值、点击量的值、平均点击价格的值、点击率的值中的一个或多个。
优选地,还包括:
依据所述权重分析模型以及待确定目标指标数据标识的关键词的各参考指标数据的值,获得所述目标关键词的目标指标数据标识。
一种关键词的指标数据分析装置,包括:
第一获取模块,用于获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,其中,每一指标数据集合包括目标指标数据的值以及多个参考指标数据的值;
划分模块,用于依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合,每一集合包括一个或多个关键词,所述N个预设阈值不相同,N为大于等于1的正整数;
配置模块,用于为各关键词集合分别分配一目标指标数据标识;
确定模块,用于依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。
其中,所述确定模块包括:
获取权重分析模型单元,用于依据各关键词相应的各参考指标数据的值、各关键词相应的目标指标数据标识以及预设算法,获得权重分析模型,所述预设算法为随机森林算法或逻辑回归算法或迭代的决策树算法;
获取权重单元,用于依据所述权重分析模型,获得各参考指标数据相对于目标指标数据的权重。
其中,所述确定模块包括:
获取关键词决策树单元,用于依据各关键词相应的各参考指标数据的值以及各关键词相应的目标指标数据的值,获得多个关键词决策树,各关键词决策树的叶节点包括一个或多个各关键词集合相应的目标指标数据标识;
确定权重分析模型单元,用于将由各关键词决策树组成的随机森林确定为所述权重分析模型。
其中,所述获取权重单元包括:
确定袋外数据子单元,用于确定所述随机森林中各关键词决策树相应的袋外数据;
第一获取误差子单元,用于获取各关键词决策树相应的袋外数据的第一袋外数据误差;
第二获取误差子单元,用于对各关键词决策树相应的袋外数据中各关键词相应的一待分析的参考指标数据的值加入预设噪声,获得各关键词决策树相应的噪声袋外数据,计算各关键词决策树相应的噪声袋外数据的第二袋外数据误差;
计算权重子单元,用于依据各关键词决策树相应的所述第二袋外数据误差与所述第一袋外数据误差的差值,以及所述各关键词决策树的个数,计算出所述待分析的参考指标数据的权重。
借由上述技术方案,本发明提供的一种关键词的指标数据分析方法中,首先获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,每一指标数据集合包括目标指标数据的值以及多个参考指标数据的值,依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合;为各关键词集合分别分配一目标指标数据标识;依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。目标指标数据可以为广告主的目标,因此在以目标指标数据为目标时,可以依据各参考指标数据相对于目标指标数据的权重,来确定哪一参考指标数据是影响目标的重要因素,即可以依据权重较大的参考指标数据,来选择关键词。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种关键词的指标数据分析方法的流程示意图;
图2示出了本申请实施例提供的一种关键词的指标数据分析方法中依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重的一种实现方式的方法流程示意图;
图3示出了本申请实施例提供的一种关键词的指标数据分析方法中利用随机森林算法获得各参考指标数据相对于目标指标数据标识的权重的实现方式的方法流程示意图;
图4示出了本申请实施例提供的一种关键词决策树的结构示意图;
图5示出了本申请实施例提供的一种关键词的指标数据分析装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参阅图1,为本申请实施例提供的一种关键词的指标数据分析方法的流程示意图,该方法包括:
步骤S101:获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,其中,每一指标数据集合包括目标指标数据的值以及多个参考指标数据的值。
各多个关键词以及各关键词相应的指标数据集合,可以从众多网络用户的浏览历史数据中获得。
浏览历史数据可以包括:各网站的链接在相应时间段的展现量、各网站的链接在相应时间段的点击量以及各网站在相应时间段的留资量,所述留资量为相应时间段在所述网站进行预设操作的用户数量。
预设操作可以为注册、购买产品等操作。
时间段可以是以小时、天、周、月、年计算,假设以周计算,且时间从2016年10月3日开始,则各时间段分别为:2016年10月3日至2016年10月9日、2016年10月10日至2016年10月16日,…等等。
参考指标数据可以包括展现量、点击量、点击率、平均点击价格中的一个或多个。
下面对展现量、点击量、点击率、平均点击价格进行解释。
展现量:在网络用户搜索查询时,会触发符合网络用户搜索需求的关键词,该关键词所对应的广告链接将出现在搜索结果页,称之为关键词和广告链接的一次展现,在一段时间内广告链接的展现次数之和称为展现量。
点击量:一段时间内某个或者某些关键词广告相应的链接被点击的次数。
点击价格:网络用户点击某个或者某些关键词广告相应的链接后,该广告的广告投放商需要给搜索引擎支付的费用。
点击率=点击量/展现量。
目标指标数据可以为点击量、点击率、转化量、平均点击价格中的任一个。
转化量是指:网络用户搜索查询时,会触发符合网络用户搜索需求的关键词,该关键词所对应的广告链接将出现在搜索结果页,若网络用户点击了该广告链接,则就会进入广告链接相应的网站,网络用户在网站中产生广告主定义的预设操作,例如提交订单、访问某一网页、注册等等,则就实现了关键词的转化,转化量是指关键词转化的次数。关键词的转化量越大广告主盈利越多。
步骤S102:依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合,每一集合包括一个或多个关键词,所述N个预设阈值不相同,N为大于等于1的正整数。
每一关键词集合包括一个或多个关键词,所述N个预设转化量阈值不相同,N为大于等于1的正整数。
N的取值可以依据实际情况而定,假设N=2,且关键词的个数为10,各关键词分别为:关键词1、关键词2、关键词3、关键词4、关键词5、关键词6、关键词7、关键词8、关键词9以及关键词10,各关键词对应的目标指标数据的值分别为:1000、2000、3000、2000、4000、5300、6000、5400、2800、3000;预设阈值分别为第一预设阈值3000和第二预设阈值4000,则10个关键词被分为3组,第一关键词集合包括:关键词1、关键词4、关键词2以及关键词9;第二关键词集合包括:关键词3、以及关键词10;第三关键词集合包括:关键词5、关键词6、关键词7、关键词8;即小于第一预设阈值的目标指标数据相应的关键词被分为第一关键词集合;大于等于第一预设阈值且小于第二预设阈值的目标指标数据相应的关键词被分为第二关键词集合;大于等于第二预设阈值的目标指标数据相应的关键词被分为第三关键词集合。
步骤S103:为各关键词集合分别分配一目标指标数据标识。
例如可以为第一关键词集合分配低标识,第二关键词集合分配中标识,第三关键词集合分配高标识。低标识、中标识、高标识可以分别用数字:0、1、2表示,也可以用字符低、中、高表示。
步骤S104:依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。
可以将各关键词相应的各参考指标数据的值以及目标指标数据标识,作为训练数据,输入到机器学习算法,例如随机森林算法、逻辑回归算法、GBDT(Gradient BoostingDecision Tree,迭代决策树)算法等等,然后获得各参考指标数据相对于目标指标数据的权重。
可以理解的是参考指标数据的权重越大,对目标指标数据的评估越重要;在考虑目标指标数据,即以目标指标数据为目标时,可以优先将权重较大的参考指标数据作为选择关键词的依据。
本申请实施例提供的一种关键词的指标数据分析方法中,首先获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,每一指标数据集合包括目标指标数据的值以及多个参考指标数据的值,依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合;为各关键词集合分别分配一目标指标数据标识;依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。目标指标数据可以为广告主的目标,因此在以目标指标数据为目标时,可以依据各参考指标数据相对于目标指标数据的权重,来确定哪一参考指标数据对目标的影响较大,即可以依据对目标的影响较大的参考指标数据,来选择关键词。
请参阅图2,为本申请实施例提供的一种关键词的指标数据分析方法中依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重的一种实现方式的方法流程示意图,该方法包括:
步骤S201:依据各关键词相应的各参考指标数据的值、各关键词相应的目标指标数据标识以及预设算法,获得权重分析模型。
所述预设算法为随机森林算法或逻辑回归算法或迭代的决策树算法。下面以随机森林算法为例,对权重分析模型的获取过程进行说明。
依据各关键词相应的各参考指标数据的值、各关键词相应的目标指标数据标识,获得多个关键词决策树,各关键词决策树的叶节点包括一个或多个各关键词集合相应的目标指标数据标识;将由各关键词决策树组成的随机森林确定为所述权重分析模型。
步骤S202:依据所述权重分析模型,获得各参考指标数据相对于目标指标数据的权重。
参阅图3,为本申请实施例提供的一种关键词的指标数据分析方法中利用随机森林算法获得各参考指标数据相对于目标指标数据标识的权重的实现方式的方法流程示意图,该方法包括:
步骤S301:依据各关键词相应的各参考指标数据的值以及各关键词相应的目标指标数据的值,获得多个关键词决策树,各关键词决策树的叶节点包括一个或多个各关键词集合相应的目标指标数据标识。
仍以上述关键词1至关键词10为例进行说明,关键词1、关键词2、关键词3、关键词4、关键词5、关键词6、关键词7、关键词8、关键词9以及关键词10,对应的目标指标数据的值分别为:1000、2000、3000、2000、4000、5300、6000、5400、2800、3000,其中,第一关键词集合包括:关键词1、关键词4、关键词2以及关键词9;第二关键词集合包括:关键词3、以及关键词10;第三关键词集合包括:关键词5、关键词6、关键词7、关键词8;为第一关键词集合分配低标识,第二关键词集合分配中标识,第三关键词集合分配高标识。低标识、中标识、高标识可以分别用数字:0、1、2表示。
各关键词决策树的形成可以采用随机的方法,各关键词决策树之间是没有关联的。生成关键词决策树的方法如下:
从10个关键词对应的参考指标数据(假设参考指标数据一共有M个,M为大于等于1的正整数)中,有放回的随机选择M个参考指标数据,每次随机选择一个参考指标数据,然后返回继续选择。这样选择好了的M个参考指标数据用来训练一个决策树,作为决策树根节点处的样本。
在获得每一节点的子节点,即在关键词决策树的每个节点需要分裂时,随机从10个关键词相应的M个参考指标数据中选择一个或多个参考指标数据来做为该节点的分裂属性。
如图4所示,为本申请实施例提供的一种关键词决策树的结构示意图。
图4中展现量作为该关键词决策树的根节点,即第一阶度;在第一阶度进行分裂时,分裂属性为点击量,点击量小于2000的作为一个子节点,点击量大于等于2000的作为另一个子节点,即第二阶度为点击量大于等于2000,以及点击量小于2000;第二阶度再次分裂时,分裂属性为平均点击价格,将点击量小于2000的节点划分为平均点击价格小于0.5元以及平均点击价格大于等于0.5元的子节点;将点击量大于等于2000的节点划分为平均点击价格小于1元以及平均点击价格大于等于1元的子节点,后续一直进行分裂,直至能够确定出关键词的目标指标数据标识。本申请实施例所示的图4中,示出了3个目标指标数据标识,分别为:0(低标识)、1(中标识)以及2(高标识),但是在实际应用中,由于不同的关键词决策树选取的样本不同,所以最终的叶子节点可能只有0和/或1和/或2,也可能有更多分类。
步骤S302:将由各关键词决策树组成的随机森林确定为所述权重分析模型。
随机森林可以包括多个如图4所示类型的关键词决策树。
步骤S303:确定所述随机森林中各关键词决策树相应的袋外数据。
步骤S304:获取各关键词决策树相应的袋外数据的第一袋外数据误差。
对于已经生成的随机森林,可以用袋外数据测试其性能,假设袋外数据总数为O,用这O个袋外数据作为输入,带进之前已经生成的随机森林中,随机森林会给出O个数据相应的分类,因为这O条数据是已知的,则可以获得这O个数据相应的正确的分类,在本申请实施例中可以是正确的目标指标数据的标识,将这O个数据的正确分类与随机森林的输出的这O个数据的分类进行比较,统计随机森林分类错误的数目设为X,则袋外数据误差大小=X/O;这已经经过证明是无偏估计的,所以在随机森林算法中不需要再进行交叉验证或者单独的测试集来获取测试集误差的无偏估计。
以图4中所示的关键词决策树作为随机森林中的一关键词决策树,假设一共有10个关键词,在生成多个图4所示的关键词决策树时,只是用了4个关键词相应的各参考指标数据的值,则剩余的6个关键词,就称为各关键词决策树的袋外数据。
由于剩余的6个关键词的各参考指标数据的值以及目标指标数据标识是已知的,将剩余的6个关键词各参考指标数据的值按照各关键词决策树进行分类,例如输入至图4所示的关键词决策树,最终会为该关键词输出一目标指标数据标识,由于这6个关键词的目标指标数据标识是已知的,所以可以判断出关键词决策树输出的哪几个关键的目标指标数据标识是正确的,哪几个是错误的,该关键词决策树相应的袋外数据误差为错误的个数/袋外数据总个数,该例子中袋外数据总个数为6。第一袋外数据误差=所有的关键词决策树误差之和/关键词决策树的个数。
步骤S305:对各关键词决策树相应的袋外数据中各关键词相应的一待分析的参考指标数据的值加入预设噪声,获得各关键词决策树相应的噪声袋外数据,计算各关键词决策树相应的噪声袋外数据的第二袋外数据误差。
预设噪声可以依据实际情况而定。假设待分析的参考指标数据为点击量,则给点击量的值加入预设噪声,其他参考指标数据的值不变,重新计算袋外数据误差,此时将获得的袋外数据误差称为第二袋外数据误差。
步骤S306:依据各关键词决策树相应的所述第二袋外数据误差与所述第一袋外数据误差的差值,以及所述各关键词决策树的个数,计算出所述待分析的参考指标数据的权重。
假设第一袋外数据误差为errOOB1,第二袋外数据误差为errOOB2,则目标指标数据的权重为errOOB2-errOOB1,之所以可以用这个表达式来作为权重是因为:若给某个待分析的参考指标数据随机加入噪声之后,袋外数据的准确率大幅度降低,则说明这个待分析的参考指标数据对于样本的分类结果影响很大,也就是说它的重要程度比较高。
可以将各参考指标数据中选择出权重大于等于预设值的参考指标数据,作为衡量关键词的重要指标数据。
本申请实施例还提供了与关键词的指标数据分析方法相应的关键词的指标数据分析装置,下面将对关键词的指标数据分析装置进行说明,关键词的指标数据分析装置中各模块和各单元的详细描述可参见关键词的指标数据分析方法中相应步骤的描述,在此不再进行赘述。
请参阅图5,为本申请实施例提供的一种关键词的指标数据分析装置的结构示意图,该装置包括:第一获取模块51、划分模块52、配置模块53以及确定模块54,其中:
第一获取模块51,用于获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,其中,每一指标数据集合包括目标指标数据的值以及多个参考指标数据的值。
划分模块52,用于依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合,每一集合包括一个或多个关键词,所述N个预设阈值不相同,N为大于等于1的正整数。
配置模块53,用于为各关键词集合分别分配一目标指标数据标识。
确定模块54,用于依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。
可选的,上述关键词的指标数据分析装置实施例中的确定模块包括:
获取权重分析模型单元,用于依据各关键词相应的各参考指标数据的值、各关键词相应的目标指标数据标识以及预设算法,获得权重分析模型,所述预设算法为随机森林算法或逻辑回归算法或迭代的决策树算法;
获取权重单元,用于依据所述权重分析模型,获得各参考指标数据相对于目标指标数据的权重。
可选的,上述任一关键词的指标数据分析装置实施例中的所述确定模块包括:
获取关键词决策树单元,用于依据各关键词相应的各参考指标数据的值以及各关键词相应的目标指标数据的值,获得多个关键词决策树,各关键词决策树的叶节点包括一个或多个各关键词集合相应的目标指标数据标识;
确定权重分析模型单元,用于将由各关键词决策树组成的随机森林确定为所述权重分析模型。
可选的,上述任一关键词的指标数据分析装置实施例还可以包括:第二获取模块,用于依据所述权重分析模型以及待确定目标指标数据标识的关键词的各参考指标数据的值,获得所述目标关键词的目标指标数据标识。
可选的,上述任一关键词的指标数据分析装置实施例中的获取权重单元包括:
所述获取权重单元包括:
确定袋外数据子单元,用于确定所述随机森林中各关键词决策树相应的袋外数据;
第一获取误差子单元,用于获取各关键词决策树相应的袋外数据的第一袋外数据误差;
第二获取误差子单元,用于对各关键词决策树相应的袋外数据中各关键词相应的一待分析的参考指标数据的值加入预设噪声,获得各关键词决策树相应的噪声袋外数据,计算各关键词决策树相应的噪声袋外数据的第二袋外数据误差;
计算权重子单元,用于依据各关键词决策树相应的所述第二袋外数据误差与所述第一袋外数据误差的差值,以及所述各关键词决策树的个数,计算出所述待分析的参考指标数据的权重。
所述关键词的指标数据分析装置包括处理器和存储器,上述第一获取模块、划分模块、配置模块和确定模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来XXXX(本发明的目的)。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请实施例提供的一种关键词的指标数据分析装置中,首先第一获取模块51获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,其中,每一指标数据集合包括目标指标数据的值以及多个参考指标数据的值,划分模块52依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合;配置模块53为各关键词集合分别分配一目标指标数据标识;确定模块54依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。目标指标数据可以为广告主的目标,因此在以目标指标数据为目标时,可以依据各参考指标数据相对于目标指标数据的权重,来确定哪一参考指标数据对目标的影响较大,即可以依据对目标的影响较大的参考指标数据,来选择关键词。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,其中,每一指标数据集合包括目标指标数据的值以及多个参考指标数据的值;
依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合,每一集合包括一个或多个关键词,所述N个预设阈值不相同,N为大于等于1的正整数;
为各关键词集合分别分配一目标指标数据标识;
依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种关键词的指标数据分析方法,其特征在于,包括:
获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,其中,每一指标数据集合包括目标指标数据的值以及多个参考指标数据的值;
依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合,每一集合包括一个或多个关键词,所述N个预设阈值不相同,N为大于等于1的正整数;
为各关键词集合分别分配一目标指标数据标识;
依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。
2.根据权利要求1所述关键词的指标数据分析方法,其特征在于,所述依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重包括:
依据各关键词相应的各参考指标数据的值、各关键词相应的目标指标数据标识以及预设算法,获得权重分析模型,所述预设算法为随机森林算法或逻辑回归算法或迭代的决策树算法;
依据所述权重分析模型,获得各参考指标数据相对于目标指标数据的权重。
3.根据权利要求2所述关键词的指标数据分析方法,其特征在于,所述依据各关键词相应的参考指标数据的值、各关键词相应的目标指标数据标识以及预设算法,获得权重分析模型包括:
依据各关键词相应的各参考指标数据的值以及各关键词相应的目标指标数据的值,获得多个关键词决策树,各关键词决策树的叶节点包括一个或多个各关键词集合相应的目标指标数据标识;
将由各关键词决策树组成的随机森林确定为所述权重分析模型。
4.根据权利要求3所述关键词的指标数据分析方法,其特征在于,所述依据所述权重分析模型,获得各参考指标数据相对于目标指标数据的权重包括:
确定所述随机森林中各关键词决策树相应的袋外数据;
获取各关键词决策树相应的袋外数据的第一袋外数据误差;
对各关键词决策树相应的袋外数据中各关键词相应的一待分析的参考指标数据的值加入预设噪声,获得各关键词决策树相应的噪声袋外数据,计算各关键词决策树相应的噪声袋外数据的第二袋外数据误差;
依据各关键词决策树相应的所述第二袋外数据误差与所述第一袋外数据误差的差值,以及所述各关键词决策树的个数,计算出所述待分析的参考指标数据的权重。
5.根据权利要求1至4任一所述关键词的指标数据分析方法,其特征在于,
每一指标数据集包括的目标指标数据的值为转换量的值;每一指标数据集包括的多个参考指标数据的值包括展现量的值、点击量的值、平均点击价格的值、点击率的值中的一个或多个。
6.根据权利要求2所述关键词的指标数据分析方法,其特征在于,还包括:
依据所述权重分析模型以及待确定目标指标数据标识的目标关键词的各参考指标数据的值,获得所述目标关键词的目标指标数据标识。
7.一种关键词的指标数据分析装置,其特征在于,包括:
第一获取模块,用于获得多个关键词以及各关键词相应的衡量自身效果的指标数据集合,其中,每一指标数据集合包括目标指标数据的值以及多个参考指标数据的值;
划分模块,用于依据各关键词相应的目标指标数据的值与N个预设阈值的大小关系,将各关键词划分为N+1个关键词集合,每一集合包括一个或多个关键词,所述N个预设阈值不相同,N为大于等于1的正整数;
配置模块,用于为各关键词集合分别分配一目标指标数据标识;
确定模块,用于依据各关键词相应的各参考指标数据的值以及目标指标数据标识,确定出各参考指标数据相对于目标指标数据的权重。
8.根据权利要求7所述关键词的指标数据分析装置,其特征在于,所述确定模块包括:
获取权重分析模型单元,用于依据各关键词相应的各参考指标数据的值、各关键词相应的目标指标数据标识以及预设算法,获得权重分析模型,所述预设算法为随机森林算法或逻辑回归算法或迭代的决策树算法;
获取权重单元,用于依据所述权重分析模型,获得各参考指标数据相对于目标指标数据的权重。
9.根据权利要求7所述关键词的指标数据分析装置,其特征在于,所述确定模块包括:
获取关键词决策树单元,用于依据各关键词相应的各参考指标数据的值以及各关键词相应的目标指标数据的值,获得多个关键词决策树,各关键词决策树的叶节点包括一个或多个各关键词集合相应的目标指标数据标识;
确定权重分析模型单元,用于将由各关键词决策树组成的随机森林确定为所述权重分析模型。
10.根据权利要求8所述关键词的指标数据分析装置,其特征在于,所述获取权重单元包括:
确定袋外数据子单元,用于确定所述随机森林中各关键词决策树相应的袋外数据;
第一获取误差子单元,用于获取各关键词决策树相应的袋外数据的第一袋外数据误差;
第二获取误差子单元,用于对各关键词决策树相应的袋外数据中各关键词相应的一待分析的参考指标数据的值加入预设噪声,获得各关键词决策树相应的噪声袋外数据,计算各关键词决策树相应的噪声袋外数据的第二袋外数据误差;
计算权重子单元,用于依据各关键词决策树相应的所述第二袋外数据误差与所述第一袋外数据误差的差值,以及所述各关键词决策树的个数,计算出所述待分析的参考指标数据的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611208435.0A CN108241643B (zh) | 2016-12-23 | 2016-12-23 | 关键词的指标数据分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611208435.0A CN108241643B (zh) | 2016-12-23 | 2016-12-23 | 关键词的指标数据分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108241643A CN108241643A (zh) | 2018-07-03 |
CN108241643B true CN108241643B (zh) | 2021-12-24 |
Family
ID=62704159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611208435.0A Active CN108241643B (zh) | 2016-12-23 | 2016-12-23 | 关键词的指标数据分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108241643B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112350972A (zh) * | 2019-08-06 | 2021-02-09 | 安徽财经大学 | 一种智能内容分析的会议管理系统 |
CN112258027B (zh) * | 2020-10-21 | 2021-05-18 | 平安科技(深圳)有限公司 | Kpi优化方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710304A (zh) * | 2009-11-27 | 2010-05-19 | 中国科学院软件研究所 | 一种软件过程实施质量评测方法 |
CN104462412A (zh) * | 2014-12-11 | 2015-03-25 | 北京国双科技有限公司 | 用于网络关键词投放的关键词检测方法和装置 |
CN104915429A (zh) * | 2015-06-15 | 2015-09-16 | 小米科技有限责任公司 | 关键词搜索方法及装置 |
CN105634787A (zh) * | 2014-11-26 | 2016-06-01 | 华为技术有限公司 | 网络关键指标的评估方法、预测方法及装置和系统 |
CN105808728A (zh) * | 2016-03-08 | 2016-07-27 | 百度在线网络技术(北京)有限公司 | 数据处理方法及装置 |
CN106203823A (zh) * | 2016-07-07 | 2016-12-07 | 中国环境科学研究院 | 城市水环境发展质量综合评价方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8667007B2 (en) * | 2011-05-26 | 2014-03-04 | International Business Machines Corporation | Hybrid and iterative keyword and category search technique |
-
2016
- 2016-12-23 CN CN201611208435.0A patent/CN108241643B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101710304A (zh) * | 2009-11-27 | 2010-05-19 | 中国科学院软件研究所 | 一种软件过程实施质量评测方法 |
CN105634787A (zh) * | 2014-11-26 | 2016-06-01 | 华为技术有限公司 | 网络关键指标的评估方法、预测方法及装置和系统 |
CN104462412A (zh) * | 2014-12-11 | 2015-03-25 | 北京国双科技有限公司 | 用于网络关键词投放的关键词检测方法和装置 |
CN104915429A (zh) * | 2015-06-15 | 2015-09-16 | 小米科技有限责任公司 | 关键词搜索方法及装置 |
CN105808728A (zh) * | 2016-03-08 | 2016-07-27 | 百度在线网络技术(北京)有限公司 | 数据处理方法及装置 |
CN106203823A (zh) * | 2016-07-07 | 2016-12-07 | 中国环境科学研究院 | 城市水环境发展质量综合评价方法 |
Non-Patent Citations (2)
Title |
---|
"社会化媒体中品牌传播效果评价研究";谢新洲 等;《图书情报工作》;20140731;第58卷(第14期);第6-11页 * |
"网站定量评价指标体系的构建与权值分配";李长玲 等;《图书情报工作》;20080731;第52卷(第7期);第52-55页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108241643A (zh) | 2018-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105989004B (zh) | 一种信息投放的预处理方法和装置 | |
US8290945B2 (en) | Web searching | |
US20180081978A1 (en) | Method and Apparatus for Processing Information | |
CN106251174A (zh) | 信息推荐方法及装置 | |
CN106940705A (zh) | 一种用于构建用户画像的方法与设备 | |
US20140025533A1 (en) | Method and Apparatus of Recommending Clothing Products | |
BRPI0620830A2 (pt) | sistema e método de uso de qualidades de anúncio estimadas para filtração, classificação e promoção de anúncios e meio legìvel em computador | |
CN109002443B (zh) | 一种文本信息的分类方法及装置 | |
WO2018149337A1 (zh) | 一种信息投放方法、装置及服务器 | |
CN108416616A (zh) | 投诉举报类别的排序方法和装置 | |
CN111126495B (zh) | 模型训练方法、信息预测方法、装置、存储介质及设备 | |
CN106033455B (zh) | 一种处理用户操作信息的方法与设备 | |
CN109697454B (zh) | 一种基于隐私保护的跨设备个体识别方法及装置 | |
CN107633257B (zh) | 数据质量评估方法及装置、计算机可读存储介质、终端 | |
WO2018137420A1 (zh) | 一种信息推荐列表的生成方法及装置 | |
CN110942338A (zh) | 一种营销赋能策略的推荐方法、装置和电子设备 | |
EP3776434B1 (en) | Methods and apparatus to determine informed holdouts for an advertisement campaign | |
CN104574126A (zh) | 一种用户特征识别方法及装置 | |
CN111861605A (zh) | 业务对象推荐方法 | |
US11494686B1 (en) | Artificial intelligence system for relevance analysis of data stream items using similarity groups and attributes | |
CN107798410B (zh) | 一种品类规划方法、装置及电子设备 | |
CN108241643B (zh) | 关键词的指标数据分析方法及装置 | |
CN110134860B (zh) | 用户画像生成方法、装置和设备 | |
US10304081B1 (en) | Yielding content recommendations based on serving by probabilistic grade proportions | |
WO2014020299A1 (en) | Location evaluation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |