CN106909626A - 改进的决策树分类算法实现搜索引擎优化技术 - Google Patents
改进的决策树分类算法实现搜索引擎优化技术 Download PDFInfo
- Publication number
- CN106909626A CN106909626A CN201710046554.9A CN201710046554A CN106909626A CN 106909626 A CN106909626 A CN 106909626A CN 201710046554 A CN201710046554 A CN 201710046554A CN 106909626 A CN106909626 A CN 106909626A
- Authority
- CN
- China
- Prior art keywords
- attribute
- keyword
- node
- decision tree
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
改进的决策树分类算法实现搜索引擎优化技术,根据企业业务确定核心关键词,搜索关键词对应的数据项,如本国每月搜索量、竞争程度和估算每次点击费用等,对上述关键词集合进行再降维处理,每个关键词用一五维向量表示,即增加首页网页数和总搜索页面数,进而由五维再降为四维,利用改进的决策树分类算法,根据属性的信息量从大到小选择属性中选择,输入关键词属性值,分类器模型输出类别结果,本发明综合考虑了误分类代价影响因子,分类结果更准确、运行时间复杂度低、可以短时间内提升关键词的排名、简化了后续搜索引擎优化工作、避免了偏置问题、数据结果得到了较好优化,从而达到理想的网站优化目标。
Description
技术领域
本发明涉及语义网络技术领域,具体涉及改进的决策树分类算法实现搜索引擎优化技术。
背景技术
随着互联网技术不断发展,网络信息量迅速增长,面对数量如此巨大的网站和网页,搜索引擎就成了人们查找网络信息的必要工具。搜索引擎优化,简称通俗的讲是通过对网站整体架构,网页内容、关键词以及网页内的链接进行相关的优化工作,提高其在特定搜索引擎上搜索结果中的排名,从而提高网站访问量,最终提升网站的销售能力或宣传能力的技术。目前对于搜索引擎优化的概念尚没有统一的说法,归纳来说,搜索引擎优化的概念主要是从优化的原则、优化的方法及优化的目的三部分来定义的,同时关于搜索引擎优化方法的理论研究已较为丰富,如黑帽技术和白帽技术。搜索引擎优化策略,分别是域名策略、网页设计规划策略、关键词策略以及链接策略。SEO归根结底是关键词的优化策略,现今国内外对关键词优化的理论研究和技术应用比较多,但暂未提出一个有效的方法来简化关键词分析流程,也没有一个完善的机制来管理关键词优化策略和进度。基于上述需求,本发明提供了一种改进的决策树分类算法实现搜索引擎优化技术。
发明内容
针对于关键词优化实现搜索引擎优化的技术问题,本发明提供了改进的决策树分类算法实现搜索引擎优化技术。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:根据企业业务确定核心关键词,利用搜索引擎搜集相关关键字,这些关键字在搜索引擎中有相应数据项,如本国每月搜索量、竞争程度和估算每次点击费用(CPC)等
步骤2:结合企业产品和市场分析,筛选降维上述搜索到的相关关键字集合;
步骤3:针对筛选降维后的关键词集合,通过搜索引擎搜索关键词对应的页面,这里记录首页网页数和总搜索页面数,即每个关键词由五维向量再降维为四维的。
步骤4:改进的决策树分类算法,对上述关键词进行分类处理,其具体子步骤如下:
步骤4.1:根据训练数据集构造决策树分类器模型,其具体子步骤如下:
步骤4.1.1:设训练集样本X,属性个数为4,即(S1,S2,S3,S4),同时分裂属性Si对应了k个类,其中Lr∈(L1,L2…,Lk),i∈(1,2,3,4),r∈(1,2…,k)。相关领域用户设定好属性Si误分类代价矩阵
步骤4.1.2:创建根节点G。
步骤4.1.3:如果训练数据集为空,则返回结点G并标记失败。
步骤4.1.4:如果训练数据集中所有记录都属于同一类别,则该类型标记结点G。
步骤4.1.5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类。
步骤4.1.6:根据属性Si的信息量D(Si)从选择属性中选择splitS。
步骤4.1.7:取D(Si)最大的标记节点G为属性splitSi。
步骤4.1.8:由节点延伸出满足条件为splitS=splitSi分支以及splitSi=splitSij子分支,如果满足以下两条件之一,就停止建树。
4.1.8.1这里假设Yi为训练数据集中splitS=splitSi的样本集合,如果Yi为空,加上一个叶子结点,标记为训练数据集中最普通的类。
4.1.8.2此节点中所有例子属于同一类。
步骤4.1.9:非4.1.8.1与4.1.8.2中情况,则递归调用步骤4.1.6至步骤4.1.8。
步骤4.1.10:保存已生成的决策树分类器。
步骤4.2:应用上述的分类器模型,对步骤3中得到的关键词进行分类,即可得到最佳k类;
步骤5:根据企业具体情况,综合关键词效能优化和价值率优化,选择合适的关键词优化策略达到网站优化目标。
本发明有益效果是:
1,此算法可以精简关键词分析流程,进而减少整个网站优化工作量。
2,此算法的运行时间复杂度低,处理速度更快。
3、此算法具有更大的利用价值。
4、能帮助网站在短时间内快速提升其关键词排名。
5、为企业网站带来一定的流量和询盘,从而达到理想的网站优化目标。
6、此算法分类结果的准确度更符合经验值;
7、构建了领域内系统化分类器,简化了后续搜索引擎优化工作。
8、在分类过程中,避免了属性中存在偏置问题。
9、选择属性呈现的数据结果得到更好的优化。
附图说明
图1改进的决策树分类算法实现搜索引擎优化技术结构流程图
图2改进的决策树分类算法应用流程图
图3训练集样本X
图4属性Si类别概率表
具体实施方式
为了解决关键词优化实现搜索引擎优化的技术问题,结合图1-图2对本发明进行了详细说明,其具体实施步骤如下:
步骤1:根据企业业务确定核心关键词,利用搜索引擎搜集相关关键字,这些关键字在搜索引擎中有相应数据项,如本国每月搜索量、竞争程度和估算每次点击费用(CPC)等
步骤2:结合企业产品和市场分析,筛选降维上述搜索到的相关关键字集合;
步骤3:针对筛选降维后的关键词集合,通过搜索引擎搜索关键词对应的页面,这里记录首页网页数和总搜索页面数,即每个关键词由五维向量再降维为四维的,其具体计算过程如下:
这里相关关键词个数为m,既有下列m×5矩阵:
Ni、Ldi、CPCi、Nis、NiY依次为第i个关键词对应的本国每月搜索量、竞争程度、估算每次点击费用(CPC)、首页网页数、总搜索页面数。
再降维为四维,即
Xi∈(1,2,…,m)为搜索效能,Zi∈(1,2,…,m)为价值率,即为下式:
步骤4:改进的决策树分类算法,对上述关键词进行分类处理,其具体子步骤如下:
步骤4.1:根据训练数据集构造决策树分类器模型,其具体子步骤如下:
步骤4.1.1:设训练集样本X,属性个数为4,即(S1,S2,S3,S4),同时分裂属性Si对应了k个类,其中Lr∈(L1,L2…,Lk),i∈(1,2,3,4),r∈(1,2…,k)。相关领域用户设定好属性Si误分类代价矩阵其具体计算过程如下:
训练集样本X如图3:
属性Si误分类代价矩阵
(ci1,…,cik)为属性Si对应的n个子属性分为各个类所造成的代价;
步骤4.1.2:创建根节点G。
步骤4.1.3:如果训练数据集为空,则返回结点G并标记失败。
步骤4.1.4:如果训练数据集中所有记录都属于同一类别,则该类型标记结点G。
步骤4.1.5:如果候选属性为空,则返回G为叶子结点,标记为训练数据集中最普通的类。
步骤4.1.6:根据属性Si的信息量D(Si)从选择属性中选择splitS,其具体计算过程如下:
建立属性类别概率表,如图4:
(Si1、…Sin)为属性Si的子属性,i=1,2,3,4,(Ni1、…Nin)为子属性所属类别的频数;
属性Si的期望值E(Si):
其中
这里h为属性Si子属性的个数,h=n;
属性Si的信息量D(Si):
为属性Si造成的均值代价,AVERCh·为属性Si对应子属性h误分为k类所造成的均值代价,Chj为属性Si对应子属性h误分为j、j∈(1,2,…,k)类所产生的代价。
根据D(Si)的取值从大到小排列上述属性;
步骤4.1.7:取D(Si)最大的标记节点G为属性splitSi。
步骤4.1.8:由节点延伸出满足条件为splitS=splitSi分支以及splitSi=splitSij子分支,如果满足以下两条件之一,就停止建树。
4.1.8.1这里假设Yi为训练数据集中splitS=splitSi的样本集合,如果Yi为空,加上一个叶子结点,标记为训练数据集中最普通的类。
4.1.8.2此节点中所有例子属于同一类。
步骤4.1.9:非4.1.8.1与4.1.8.2中情况,则递归调用步骤4.1.6至步骤4.1.8。
步骤4.1.7:保存已生成的决策树分类器。
步骤4.2:应用上述的分类器模型,对步骤3中得到的关键词进行分类,即可得到最佳k类;
步骤5:根据企业具体情况,综合关键词效能优化和价值率优化,选择合适的关键词优化策略达到网站优化目标。
Claims (2)
1.改进的决策树分类算法实现搜索引擎优化技术,本发明涉及语义网络技术领域,具体涉及改进的决策树分类算法实现搜索引擎优化技术,其特征是,包括如下步骤:
步骤1:根据企业业务确定核心关键词,利用搜索引擎搜集相关关键字,这些关键字在搜索引擎中有相应数据项,如本国每月搜索量、竞争程度和估算每次点击费用等
步骤2:结合企业产品和市场分析,筛选降维上述搜索到的相关关键字集合;
步骤3:针对筛选降维后的关键词集合,通过搜索引擎搜索关键词对应的页面,这里记录首页网页数和总搜索页面数,即每个关键词由五维向量再降维为四维的,其具体计算过程如下:
这里相关关键词个数为m,既有下列矩阵:
、、、、依次为第i个关键词对应的本国每月搜索量、竞争程度、估算每次点击费用(CPC)、首页网页数、总搜索页面数再降维
为四维,即
为搜索效能,为价值率,即为下式:
步骤4:改进的决策树分类算法,对上述关键词进行分类处理,其具体子步骤如下:
步骤4.1:根据训练数据集构造决策树分类器模型,其具体子步骤如下:
步骤4.1.1:设训练集样本X,属性个数为4,即,同时分裂属性对应了k个类,其中, ,,相关领域用户设定好属性误分类代价矩阵
步骤4.1.2:创建根节点G
步骤4.1.3:如果训练数据集为空,则返回结点并标记失败
步骤4.1.4:如果训练数据集中所有记录都属于同一类别,则该类型标记结点
步骤4.1.5:如果候选属性为空,则返回为叶子结点,标记为训练数据集中最普通的类
步骤4.1.6:根据属性的信息量从选择属性中选择
步骤4.1.7:取最大的标记节点G为属性
步骤4.1.8:由节点延伸出满足条件为分支以及子分支,如果满足以下两条件之一,就停止建树
4.1.8.1这里假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类
4.1.8.2此节点中所有例子属于同一类
步骤4.1.9:非4.1.8.1与4.1.8.2中情况,则递归调用步骤4.1.6至步骤4.1.8
步骤4.1.10:保存已生成的决策树分类器
步骤4.2:应用上述的分类器模型,对步骤3中得到的关键词进行分类,即可得到最佳k类;
步骤5:根据企业具体情况,综合关键词效能优化和价值率优化,选择合适的关键词优化策略达到网站优化目标。
2.根据权利要求1中所述的改进的决策树分类算法实现搜索引擎优化技术,其特征是,以上所述步骤4中的具体计算过程如下:
步骤4:改进的决策树分类算法,对上述关键词进行分类处理,其具体子步骤如下:
步骤4.1:根据训练数据集构造决策树分类器模型,其具体子步骤如下:
步骤4.1.1:设训练集样本X,属性个数为4,即,同时分裂属性对应了k个类,其中, ,,相关领域用户设定好属性误分类代价矩阵,其具体计算过程如下:
训练集样本X如表1:
属性误分类代价矩阵:
为属性对应的n个子属性分为各个类所造成的代价;
步骤4.1.2:创建根节点G
步骤4.1.3:如果训练数据集为空,则返回结点并标记失败
步骤4.1.4:如果训练数据集中所有记录都属于同一类别,则该类型标记结点
步骤4.1.5:如果候选属性为空,则返回为叶子结点,标记为训练数据集中最普通的类
步骤4.1.6:根据属性的信息量从选择属性中选择,其具体计算过程如下:
建立属性类别概率表,如表2:
为属性的子属性,i=1,2,3,4,为子属性所属类别的频数;
属性的期望值:
其中
这里h为属性子属性的个数,h=n;
属性的信息量:
为属性造成的均值代价,为属性对应子属性h误分为k类所造成的均值代价,为属性对应子属性h误分为j、类所产生的代价
根据的取值从大到小排列上述属性;
步骤4.1.7:取最大的标记节点G为属性
步骤4.1.8:由节点延伸出满足条件为分支以及子分支,如果满足以下两条件之一,就停止建树
4.1.8.1这里假设为训练数据集中的样本集合,如果为空,加上一个叶子结点,标记为训练数据集中最普通的类
4.1.8.2此节点中所有例子属于同一类
步骤4.1.9:非4.1.8.1与4.1.8.2中情况,则递归调用步骤4.1.6至步骤4.1.8
步骤4.1.7:保存已生成的决策树分类器
步骤4.2:应用上述的分类器模型,对步骤3中得到的关键词进行分类,即可得到最佳k类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710046554.9A CN106909626A (zh) | 2017-01-22 | 2017-01-22 | 改进的决策树分类算法实现搜索引擎优化技术 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710046554.9A CN106909626A (zh) | 2017-01-22 | 2017-01-22 | 改进的决策树分类算法实现搜索引擎优化技术 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106909626A true CN106909626A (zh) | 2017-06-30 |
Family
ID=59206526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710046554.9A Pending CN106909626A (zh) | 2017-01-22 | 2017-01-22 | 改进的决策树分类算法实现搜索引擎优化技术 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106909626A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391912A (zh) * | 2017-07-04 | 2017-11-24 | 大连大学 | 云数据中心系统中应用的大小流分类的医院临床操作数据选择方法 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110955830A (zh) * | 2019-11-22 | 2020-04-03 | 拉扎斯网络科技(上海)有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN116431815A (zh) * | 2023-06-12 | 2023-07-14 | 临沂大学 | 一种村务公开数据智慧管理系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103218435A (zh) * | 2013-04-15 | 2013-07-24 | 上海嘉之道企业管理咨询有限公司 | 一种中文文本数据聚类方法及系统 |
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
-
2017
- 2017-01-22 CN CN201710046554.9A patent/CN106909626A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
CN103218435A (zh) * | 2013-04-15 | 2013-07-24 | 上海嘉之道企业管理咨询有限公司 | 一种中文文本数据聚类方法及系统 |
Non-Patent Citations (2)
Title |
---|
林元国 等: "K-means算法在关键词优化中的应用", 《计算机系统应用》 * |
邓健爽 等: "基于搜索引擎的关键词自动聚类法", 《计算机科学》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391912A (zh) * | 2017-07-04 | 2017-11-24 | 大连大学 | 云数据中心系统中应用的大小流分类的医院临床操作数据选择方法 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110955830A (zh) * | 2019-11-22 | 2020-04-03 | 拉扎斯网络科技(上海)有限公司 | 信息处理方法、装置、电子设备及计算机可读存储介质 |
CN116431815A (zh) * | 2023-06-12 | 2023-07-14 | 临沂大学 | 一种村务公开数据智慧管理系统 |
CN116431815B (zh) * | 2023-06-12 | 2023-08-22 | 临沂大学 | 一种村务公开数据智慧管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066599A (zh) | 一种基于知识库推理的相似上市公司企业检索分类方法及系统 | |
CN108920556B (zh) | 基于学科知识图谱的推荐专家方法 | |
CN111708740A (zh) | 基于云平台的海量搜索查询日志计算分析系统 | |
CN105045875B (zh) | 个性化信息检索方法及装置 | |
CN106021457B (zh) | 基于关键词的rdf分布式语义搜索方法 | |
CN108364028A (zh) | 一种基于深度学习的互联网网站自动分类方法 | |
CN109635118A (zh) | 一种基于大数据的用户搜索匹配方法 | |
CN106933954A (zh) | 基于决策树分类算法实现搜索引擎优化技术 | |
CN104834693A (zh) | 基于深度搜索的视觉图像检索方法及系统 | |
CN106909626A (zh) | 改进的决策树分类算法实现搜索引擎优化技术 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
CN103823906A (zh) | 一种基于微博数据的多维度检索排序优化算法和工具 | |
CN106934071A (zh) | 基于异构信息网络和贝叶斯个性化排序的推荐方法及装置 | |
CN105426529A (zh) | 基于用户搜索意图定位的图像检索方法及系统 | |
CN110543595A (zh) | 一种站内搜索系统及方法 | |
CN112508743B (zh) | 技术转移办公室通用信息交互方法、终端及介质 | |
Liu et al. | Learning to rank complex network node based on the self-supervised graph convolution model | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN106649616A (zh) | 一种聚类算法实现搜索引擎关键词优化 | |
Suthar et al. | A survey of web usage mining techniques | |
Cousseau et al. | Linking place records using multi-view encoders | |
CN111753151B (zh) | 一种基于互联网用户行为的服务推荐方法 | |
CN113127650A (zh) | 一种基于图数据库的技术图谱构建方法和系统 | |
Tejasree et al. | An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining | |
CN106649537A (zh) | 基于改进的群智能算法实现搜索引擎关键词优化技术 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170630 |
|
WD01 | Invention patent application deemed withdrawn after publication |