CN106909626A - 改进的决策树分类算法实现搜索引擎优化技术 - Google Patents

改进的决策树分类算法实现搜索引擎优化技术 Download PDF

Info

Publication number
CN106909626A
CN106909626A CN201710046554.9A CN201710046554A CN106909626A CN 106909626 A CN106909626 A CN 106909626A CN 201710046554 A CN201710046554 A CN 201710046554A CN 106909626 A CN106909626 A CN 106909626A
Authority
CN
China
Prior art keywords
attribute
keyword
node
decision tree
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710046554.9A
Other languages
English (en)
Inventor
金平艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Yonglian Information Technology Co Ltd
Original Assignee
Sichuan Yonglian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Yonglian Information Technology Co Ltd filed Critical Sichuan Yonglian Information Technology Co Ltd
Priority to CN201710046554.9A priority Critical patent/CN106909626A/zh
Publication of CN106909626A publication Critical patent/CN106909626A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

改进的决策树分类算法实现搜索引擎优化技术,根据企业业务确定核心关键词,搜索关键词对应的数据项,如本国每月搜索量、竞争程度和估算每次点击费用等,对上述关键词集合进行再降维处理,每个关键词用一五维向量表示,即增加首页网页数和总搜索页面数,进而由五维再降为四维,利用改进的决策树分类算法,根据属性的信息量从大到小选择属性中选择,输入关键词属性值,分类器模型输出类别结果,本发明综合考虑了误分类代价影响因子,分类结果更准确、运行时间复杂度低、可以短时间内提升关键词的排名、简化了后续搜索引擎优化工作、避免了偏置问题、数据结果得到了较好优化,从而达到理想的网站优化目标。

Description

改进的决策树分类算法实现搜索引擎优化技术
技术领域
本发明涉及语义网络技术领域,具体涉及改进的决策树分类算法实现搜索引擎优化技术。
背景技术
随着互联网技术不断发展,网络信息量迅速增长,面对数量如此巨大的网站和网页,搜索引擎就成了人们查找网络信息的必要工具。搜索引擎优化,简称通俗的讲是通过对网站整体架构,网页内容、关键词以及网页内的链接进行相关的优化工作,提高其在特定搜索引擎上搜索结果中的排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。目前对于搜索引擎优化的概念尚没有统一的说法,归纳来说,搜索引擎优化的概念主要是从优化的原则、优化的方法及优化的目的三部分来定义的,同时关于搜索引擎优化方法的理论研究已较为丰富,如黑帽技术和白帽技术。搜索引擎优化策略,分别是域名策略、网页设计规划策略、关键词策略以及链接策略。SEO归根结底是关键词的优化策略,现今国内外对关键词优化的理论研究和技术应用比较多,但暂未提出一个有效的方法来简化关键词分析流程,也没有一个完善的机制来管理关键词优化策略和进度。基于上述需求,本发明提供了一种改进的决策树分类算法实现搜索引擎优化技术。
发明内容
针对于关键词优化实现搜索引擎优化的技术问题,本发明提供了改进的决策树分类算法实现搜索引擎优化技术。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:根据企业业务确定核心关键词,利用搜索引擎搜集相关关键字,这些关键字在搜索引擎中有相应数据项,如本国每月搜索量、竞争程度和估算每次点击费用(CPC)等
步骤2:结合企业产品和市场分析,筛选降维上述搜索到的相关关键字集合;
步骤3:针对筛选降维后的关键词集合,通过搜索引擎搜索关键词对应的页面,这里记录首页网页数和总搜索页面数,即每个关键词由五维向量再降维为四维的。
步骤4:改进的决策树分类算法,对上述关键词进行分类处理,其具体子步骤如下:
步骤4.1:根据训练数据集构造决策树分类器模型,其具体子步骤如下:
步骤4.1.1:设训练集样本X,属性个数为4,即(S1,S2,S3,S4),同时分裂属性Si对应了k个类,其中Lr∈(L1,L2…,Lk),i∈(1,2,3,4),r∈(1,2…,k)。相关领域用户设定好属性Si误分类代价矩阵
步骤4.1.2:创建根节点G。
步骤4.1.3:如果训练数据集为空,则返回结点G并标记失败。
步骤4.1.4:如果训练数据集中所有记录都属于同一类别,则该类型标记结点G。
步骤4.1.5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类。
步骤4.1.6:根据属性Si的信息量D(Si)从选择属性中选择splitS。
步骤4.1.7:取D(Si)最大的标记节点G为属性splitSi
步骤4.1.8:由节点延伸出满足条件为splitS=splitSi分支以及splitSi=splitSij子分支,如果满足以下两条件之一,就停止建树。
4.1.8.1这里假设Yi为训练数据集中splitS=splitSi的样本集合,如果Yi为空,加上一个叶子结点,标记为训练数据集中最普通的类。
4.1.8.2此节点中所有例子属于同一类。
步骤4.1.9:非4.1.8.1与4.1.8.2中情况,则递归调用步骤4.1.6至步骤4.1.8。
步骤4.1.10:保存已生成的决策树分类器。
步骤4.2:应用上述的分类器模型,对步骤3中得到的关键词进行分类,即可得到最佳k类;
步骤5:根据企业具体情况,综合关键词效能优化和价值率优化,选择合适的关键词优化策略达到网站优化目标。
本发明有益效果是:
1,此算法可以精简关键词分析流程,进而减少整个网站优化工作量。
2,此算法的运行时间复杂度低,处理速度更快。
3、此算法具有更大的利用价值。
4、能帮助网站在短时间内快速提升其关键词排名。
5、为企业网站带来一定的流量和询盘,从而达到理想的网站优化目标。
6、此算法分类结果的准确度更符合经验值;
7、构建了领域内系统化分类器,简化了后续搜索引擎优化工作。
8、在分类过程中,避免了属性中存在偏置问题。
9、选择属性呈现的数据结果得到更好的优化。
附图说明
图1改进的决策树分类算法实现搜索引擎优化技术结构流程图
图2改进的决策树分类算法应用流程图
图3训练集样本X
图4属性Si类别概率表
具体实施方式
为了解决关键词优化实现搜索引擎优化的技术问题,结合图1-图2对本发明进行了详细说明,其具体实施步骤如下:
步骤1:根据企业业务确定核心关键词,利用搜索引擎搜集相关关键字,这些关键字在搜索引擎中有相应数据项,如本国每月搜索量、竞争程度和估算每次点击费用(CPC)等
步骤2:结合企业产品和市场分析,筛选降维上述搜索到的相关关键字集合;
步骤3:针对筛选降维后的关键词集合,通过搜索引擎搜索关键词对应的页面,这里记录首页网页数和总搜索页面数,即每个关键词由五维向量再降维为四维的,其具体计算过程如下:
这里相关关键词个数为m,既有下列m×5矩阵:
Ni、Ldi、CPCi、Nis、NiY依次为第i个关键词对应的本国每月搜索量、竞争程度、估算每次点击费用(CPC)、首页网页数、总搜索页面数。
再降维为四维,即
Xi∈(1,2,…,m)为搜索效能,Zi∈(1,2,…,m)为价值率,即为下式:
步骤4:改进的决策树分类算法,对上述关键词进行分类处理,其具体子步骤如下:
步骤4.1:根据训练数据集构造决策树分类器模型,其具体子步骤如下:
步骤4.1.1:设训练集样本X,属性个数为4,即(S1,S2,S3,S4),同时分裂属性Si对应了k个类,其中Lr∈(L1,L2…,Lk),i∈(1,2,3,4),r∈(1,2…,k)。相关领域用户设定好属性Si误分类代价矩阵其具体计算过程如下:
训练集样本X如图3:
属性Si误分类代价矩阵
(ci1,…,cik)为属性Si对应的n个子属性分为各个类所造成的代价;
步骤4.1.2:创建根节点G。
步骤4.1.3:如果训练数据集为空,则返回结点G并标记失败。
步骤4.1.4:如果训练数据集中所有记录都属于同一类别,则该类型标记结点G。
步骤4.1.5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类。
步骤4.1.6:根据属性Si的信息量D(Si)从选择属性中选择splitS,其具体计算过程如下:
建立属性类别概率表,如图4:
(Si1、…Sin)为属性Si的子属性,i=1,2,3,4,(Ni1、…Nin)为子属性所属类别的频数;
属性Si的期望值E(Si):
其中
这里h为属性Si子属性的个数,h=n;
属性Si的信息量D(Si):
为属性Si造成的均值代价,AVERC为属性Si对应子属性h误分为k类所造成的均值代价,Chj为属性Si对应子属性h误分为j、j∈(1,2,…,k)类所产生的代价。
根据D(Si)的取值从大到小排列上述属性;
步骤4.1.7:取D(Si)最大的标记节点G为属性splitSi
步骤4.1.8:由节点延伸出满足条件为splitS=splitSi分支以及splitSi=splitSij子分支,如果满足以下两条件之一,就停止建树。
4.1.8.1这里假设Yi为训练数据集中splitS=splitSi的样本集合,如果Yi为空,加上一个叶子结点,标记为训练数据集中最普通的类。
4.1.8.2此节点中所有例子属于同一类。
步骤4.1.9:非4.1.8.1与4.1.8.2中情况,则递归调用步骤4.1.6至步骤4.1.8。
步骤4.1.7:保存已生成的决策树分类器。
步骤4.2:应用上述的分类器模型,对步骤3中得到的关键词进行分类,即可得到最佳k类;
步骤5:根据企业具体情况,综合关键词效能优化和价值率优化,选择合适的关键词优化策略达到网站优化目标。

Claims (2)

1.改进的决策树分类算法实现搜索引擎优化技术,本发明涉及语义网络技术领域,具体涉及改进的决策树分类算法实现搜索引擎优化技术,其特征是,包括如下步骤:
步骤1:根据企业业务确定核心关键词,利用搜索引擎搜集相关关键字,这些关键字在搜索引擎中有相应数据项,如本国每月搜索量、竞争程度和估算每次点击费用
步骤2:结合企业产品和市场分析,筛选降维上述搜索到的相关关键字集合;
步骤3:针对筛选降维后的关键词集合,通过搜索引擎搜索关键词对应的页面,这里记录首页网页数和总搜索页面数,即每个关键词由五维向量再降维为四维的,其具体计算过程如下:
这里相关关键词个数为m,既有下列矩阵:
依次为第i个关键词对应的本国每月搜索量、竞争程度、估算每次点击费用(CPC)、首页网页数、总搜索页面数再降维
为四维,即
为搜索效能,为价值率,即为下式:
步骤4:改进的决策树分类算法,对上述关键词进行分类处理,其具体子步骤如下:
步骤4.1:根据训练数据集构造决策树分类器模型,其具体子步骤如下:
步骤4.1.1:设训练集样本X,属性个数为4,即,同时分裂属性对应了k个类,其中, ,相关领域用户设定好属性误分类代价矩阵
步骤4.1.2:创建根节点G
步骤4.1.3:如果训练数据集为空,则返回结点并标记失败
步骤4.1.4:如果训练数据集中所有记录都属于同一类别,则该类型标记结点
步骤4.1.5:如果候选属性为空,则返回为叶子结点,标记为训练数据集中最普通的类
步骤4.1.6:根据属性的信息量从选择属性中选择
步骤4.1.7:取最大的标记节点G为属性
步骤4.1.8:由节点延伸出满足条件为分支以及子分支,如果满足以下两条件之一,就停止建树
4.1.8.1这里假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类
4.1.8.2此节点中所有例子属于同一类
步骤4.1.9:非4.1.8.1与4.1.8.2中情况,则递归调用步骤4.1.6至步骤4.1.8
步骤4.1.10:保存已生成的决策树分类器
步骤4.2:应用上述的分类器模型,对步骤3中得到的关键词进行分类,即可得到最佳k类;
步骤5:根据企业具体情况,综合关键词效能优化和价值率优化,选择合适的关键词优化策略达到网站优化目标。
2.根据权利要求1中所述的改进的决策树分类算法实现搜索引擎优化技术,其特征是,以上所述步骤4中的具体计算过程如下:
步骤4:改进的决策树分类算法,对上述关键词进行分类处理,其具体子步骤如下:
步骤4.1:根据训练数据集构造决策树分类器模型,其具体子步骤如下:
步骤4.1.1:设训练集样本X,属性个数为4,即,同时分裂属性对应了k个类,其中, ,相关领域用户设定好属性误分类代价矩阵,其具体计算过程如下:
训练集样本X如表1:
属性误分类代价矩阵
为属性对应的n个子属性分为各个类所造成的代价;
步骤4.1.2:创建根节点G
步骤4.1.3:如果训练数据集为空,则返回结点并标记失败
步骤4.1.4:如果训练数据集中所有记录都属于同一类别,则该类型标记结点
步骤4.1.5:如果候选属性为空,则返回为叶子结点,标记为训练数据集中最普通的类
步骤4.1.6:根据属性的信息量从选择属性中选择,其具体计算过程如下:
建立属性类别概率表,如表2:
为属性的子属性,i=1,2,3,4,为子属性所属类别的频数;
属性的期望值:
其中
这里h为属性子属性的个数,h=n;
属性的信息量:
为属性造成的均值代价,为属性对应子属性h误分为k类所造成的均值代价,为属性对应子属性h误分为j、类所产生的代价
根据的取值从大到小排列上述属性;
步骤4.1.7:取最大的标记节点G为属性
步骤4.1.8:由节点延伸出满足条件为分支以及子分支,如果满足以下两条件之一,就停止建树
4.1.8.1这里假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类
4.1.8.2此节点中所有例子属于同一类
步骤4.1.9:非4.1.8.1与4.1.8.2中情况,则递归调用步骤4.1.6至步骤4.1.8
步骤4.1.7:保存已生成的决策树分类器
步骤4.2:应用上述的分类器模型,对步骤3中得到的关键词进行分类,即可得到最佳k类。
CN201710046554.9A 2017-01-22 2017-01-22 改进的决策树分类算法实现搜索引擎优化技术 Pending CN106909626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710046554.9A CN106909626A (zh) 2017-01-22 2017-01-22 改进的决策树分类算法实现搜索引擎优化技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710046554.9A CN106909626A (zh) 2017-01-22 2017-01-22 改进的决策树分类算法实现搜索引擎优化技术

Publications (1)

Publication Number Publication Date
CN106909626A true CN106909626A (zh) 2017-06-30

Family

ID=59206526

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710046554.9A Pending CN106909626A (zh) 2017-01-22 2017-01-22 改进的决策树分类算法实现搜索引擎优化技术

Country Status (1)

Country Link
CN (1) CN106909626A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391912A (zh) * 2017-07-04 2017-11-24 大连大学 云数据中心系统中应用的大小流分类的医院临床操作数据选择方法
CN109918489A (zh) * 2019-02-28 2019-06-21 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和系统
CN110955830A (zh) * 2019-11-22 2020-04-03 拉扎斯网络科技(上海)有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN116431815A (zh) * 2023-06-12 2023-07-14 临沂大学 一种村务公开数据智慧管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218435A (zh) * 2013-04-15 2013-07-24 上海嘉之道企业管理咨询有限公司 一种中文文本数据聚类方法及系统
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258000A (zh) * 2013-03-29 2013-08-21 北界创想(北京)软件有限公司 对网页中高频关键词进行聚类的方法及装置
CN103218435A (zh) * 2013-04-15 2013-07-24 上海嘉之道企业管理咨询有限公司 一种中文文本数据聚类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林元国 等: "K-means算法在关键词优化中的应用", 《计算机系统应用》 *
邓健爽 等: "基于搜索引擎的关键词自动聚类法", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391912A (zh) * 2017-07-04 2017-11-24 大连大学 云数据中心系统中应用的大小流分类的医院临床操作数据选择方法
CN109918489A (zh) * 2019-02-28 2019-06-21 上海乐言信息科技有限公司 一种多策略融合的知识问答方法和系统
CN110955830A (zh) * 2019-11-22 2020-04-03 拉扎斯网络科技(上海)有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN116431815A (zh) * 2023-06-12 2023-07-14 临沂大学 一种村务公开数据智慧管理系统
CN116431815B (zh) * 2023-06-12 2023-08-22 临沂大学 一种村务公开数据智慧管理系统

Similar Documents

Publication Publication Date Title
CN107066599A (zh) 一种基于知识库推理的相似上市公司企业检索分类方法及系统
CN108920556B (zh) 基于学科知识图谱的推荐专家方法
CN111708740A (zh) 基于云平台的海量搜索查询日志计算分析系统
CN105045875B (zh) 个性化信息检索方法及装置
CN106021457B (zh) 基于关键词的rdf分布式语义搜索方法
CN108364028A (zh) 一种基于深度学习的互联网网站自动分类方法
CN109635118A (zh) 一种基于大数据的用户搜索匹配方法
CN106933954A (zh) 基于决策树分类算法实现搜索引擎优化技术
CN104834693A (zh) 基于深度搜索的视觉图像检索方法及系统
CN106909626A (zh) 改进的决策树分类算法实现搜索引擎优化技术
CN107291895B (zh) 一种快速的层次化文档查询方法
CN103823906A (zh) 一种基于微博数据的多维度检索排序优化算法和工具
CN106934071A (zh) 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN110543595A (zh) 一种站内搜索系统及方法
CN112508743B (zh) 技术转移办公室通用信息交互方法、终端及介质
Liu et al. Learning to rank complex network node based on the self-supervised graph convolution model
CN103761286B (zh) 一种基于用户兴趣的服务资源检索方法
CN106649616A (zh) 一种聚类算法实现搜索引擎关键词优化
Suthar et al. A survey of web usage mining techniques
Cousseau et al. Linking place records using multi-view encoders
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
CN113127650A (zh) 一种基于图数据库的技术图谱构建方法和系统
Tejasree et al. An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining
CN106649537A (zh) 基于改进的群智能算法实现搜索引擎关键词优化技术

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170630

WD01 Invention patent application deemed withdrawn after publication