CN106528862A - 基于改进的均值中心算法实现搜索引擎关键词优化 - Google Patents
基于改进的均值中心算法实现搜索引擎关键词优化 Download PDFInfo
- Publication number
- CN106528862A CN106528862A CN201611085849.9A CN201611085849A CN106528862A CN 106528862 A CN106528862 A CN 106528862A CN 201611085849 A CN201611085849 A CN 201611085849A CN 106528862 A CN106528862 A CN 106528862A
- Authority
- CN
- China
- Prior art keywords
- keyword
- key word
- cluster
- search engine
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于改进的均值中心算法实现搜索引擎关键词优化,根据企业业务确定核心关键词,搜索关键词对应的数据项,如本国每月搜索量、竞争程度和估算每次点击费用等,对上述关键词集合进行再降维处理,每个关键词用一五维向量表示,即增加首页网页数和总搜索页面数,进而由五维再降为四维,最后利用改进的均值中心算法对关键词聚类,目标函数为,本发明算法精简关键词分析流程,运行时间复杂度低,处理速度更快,分类结果更符合经验值,能帮助网站在短时间内快速提升其关键词的排名,为企业网站带来一定的流量和询盘,从而达到理想的网站优化目标。
Description
技术领域
本发明涉及语义网络技术领域,具体涉及一种基于改进的均值中心算法实现搜索引擎关键词优化。
背景技术
搜索引擎已成为广大网民获取信息的一个重要工具。搜索引擎优化(SearchEngine Optimization,简称SEO)是指采用相关技术对网站进行一系列优化,从而提高相应关键词在搜索引擎上的排名,最终达到网站营销的目的。SEO归根结底是关键词的优化。在市场多元化以及各行业消费主体个性化需求的影响下,涌现出大量新的关键词(特别是长尾关键词),一方面,这些数量庞大的关键词给网站运营者带来潜在的商机;另一方面,针对这些关键词的分析和优化,也让大部分SEO工作人员承担巨大的工作量。关键词优化策略一般包括关键词的选择、关键词的分布及密度控制等等,关键词的使用是否得当,直接关系到网站在搜索引擎的搜索结果中的位置。在研究网络搜索关键词搜索量数据与相关问题的关系时,选择哪些关键词是首先要解决的关键问题,阅读文献,笔者发现,对于关键词的选取大多凭借经验和主观因素,也没有一个完善的机制来管理关键词优化策略和进度。为使关键词的选取更具科学性和客观性,基于上述需求,本发明提供了基于改进的均值中心算法实现搜索引擎关键词优化。
发明内容
针对于关键词优化实现搜索引擎优化的技术问题,本发明提供了一种基于改进的均值中心算法实现搜索引擎关键词优化。
为了解决上述问题,本发明是通过以下技术方案实现的:
步骤1:根据企业业务确定核心关键词,利用搜索引擎搜集相关关键字,这些关键字在搜索引擎中有相应数据项,如本国每月搜索量、竞争程度和估算每次点击费用(CPC)等
步骤2:结合企业产品和市场分析,筛选降维上述搜索到的相关关键字集合;
步骤3:针对筛选降维后的关键词集合,通过搜索引擎搜索关键词对应的页面,这里记录首页网页数和总搜索页面数,即每个关键词由五维向量再降维为四维的。
步骤4:利用改进的均值中心算法,对上述关键词进行聚类处理,其具体子步骤如下:
步骤4.1:初始化簇的数目k,从数据对象集合D中随机选择k个初始簇中心,初始化目标函数f(U);
步骤4.2:对每类关键词i(i∈(1,2,…,m))进行重新分配,按函数p(i)选择聚类中心j;
步骤4.3:根据判定函数f(U)的结果,重新计算各簇中心;
步骤4.4:如果簇中心发生变化,则转到步骤(2),否则迭代结束,输出聚类结果。
步骤5:根据企业具体情况,综合关键词效能优化和价值率优化,选择合适的关键词优化策略达到网站优化目标。
本发明有益效果是:
1,此算法可以精简关键词分析流程,进而减少整个网站优化工作量。
2,此算法的运行时间复杂度低,处理速度更快。
3、此算法具有更大的利用价值。
4、能帮助网站在短时间内快速提升其关键词的排名。
5、为企业网站带来一定的流量和询盘,从而达到理想的网站优化目标。
6、此算法分类结果的准确度更符合经验值;
附图说明
图1基于改进的均值中心算法实现搜索引擎关键词优化结构流程图
图2改进的均值中心算法在聚类分析中的应用流程图
具体实施方式
为了解决关键词优化实现搜索引擎优化的技术问题,结合图1-图2对本发明进行了详细说明,其具体实施步骤如下:
步骤1:根据企业业务确定核心关键词,利用搜索引擎搜集相关关键字,这些关键字在搜索引擎中有相应数据项,如本国每月搜索量、竞争程度和估算每次点击费用(CPC)等。
步骤2:结合企业产品和市场分析,筛选降维上述搜索到的相关关键字集合;
步骤3:针对筛选降维后的关键词集合,通过搜索引擎搜索关键词对应的页面,这里记录首页网页数和总搜索页面数,即每个关键词由五维向量再降维为四维的,其具体计算过程如下:
这里相关关键词个数为m,既有下列m×5矩阵:
Ni、Ldi、CPCi、NiS、NiY依次为第i个关键词对应的本国每月搜索量、竞争程度、估算每次点击费用(CPC)、首页网页数、总搜索页面数。
再降维为四维,即
Xi∈(1,2,…,m)为搜索效能,Zi∈(1,2,…,m)为价值率,即为下式:
步骤4:利用改进的均值中心算法,对上述关键词进行聚类处理,其具体子步骤如下:
步骤4.1:初始化簇的数目k,从数据对象集合D中随机选择k个初始簇中心,初始化目标函数f(U),其具体计算过程如下:
上式i∈wj为关键词i属于类中心wj,d(i,wj)为关键词i到类中心wj的距离。
步骤4.2:对每类关键词i(i∈(1,2,…,m))进行重新分配,按函数p(i)选择聚类中心j,其具体计算过程如下:
使函数p(i)最大的对应聚类中心j,d(i,wq)为关键词i到全局最佳位置wq的距离,d(i,wj∈(1,2,…,k))为关键词i到聚类中心j的距离。
上式xir与分别为关键词i、聚类中心对象j的4维向量,即
xir∈(Xi,Zi,NiS,NiY)、
这里选择使p(i)值最大,即选择d(i,wj∈(1,2,…,k))最小的聚类中心j,有下式:
d(i,wj∈(1,2,…,k))min=min(d(i,w1),d(i,w2),…,d(i,wk))
步骤4.3:根据判定函数dis(U)的结果,重新计算各簇中心,其具体计算过程如下:
dis(U)=f(U)new-f(U)old<0
f(U)new为新分类后目标函数的值,f(U)old为初始化目标函数或上一次迭代出的目标函数。
步骤4.4:如果簇中心发生变化,则转到步骤(2),否则迭代结束,输出聚类结果。
改进的均值中心算法具体结构流程如图2。
步骤5:根据企业具体情况,综合关键词效能优化和价值率优化,选择合适的关键词优化策略达到网站优化目标。
基于改进的均值中心算法实现搜索引擎关键词优化,其伪代码过程
输入:网站提取的核心关键词,初始化簇的数目k,初始化目标函数f(U)
输出:一系列优化后的高质量关键词。
Claims (2)
1.基于改进的均值中心算法实现搜索引擎关键词优化,本发明涉及语义网络技术领域,具体涉及一种基于改进的均值中心算法实现搜索引擎关键词优化,其特征是,包括如下步骤:
步骤1:根据企业业务确定核心关键词,利用搜索引擎搜集相关关键字,这些关键字在搜索引擎中有相应数据项,如本国每月搜索量、竞争程度和估算每次点击费用(CPC)等
步骤2:结合企业产品和市场分析,筛选降维上述搜索到的相关关键字集合;
步骤3:针对筛选降维后的关键词集合,通过搜索引擎搜索关键词对应的页面,这里记录首页网页数和总搜索页面数,即每个关键词由五维向量再降维为四维的,其具体计算过程如下:
这里相关关键词个数为m,既有下列矩阵:
、、、、依次为第i个关键词对应的本国每月搜索量、竞争程度、估算每次点击费用(CPC)、首页网页数、总搜索页面数再降维
为四维,即
为搜索效能,为价值率,即为下式:
步骤4:利用改进的均值中心算法,对上述关键词进行聚类处理,其具体子步骤如下:
步骤4.1:初始化簇的数目k,从数据对象集合D中随机选择k个初始簇中心,初始化目标函数;
步骤4.2:对每类关键词进行重新分配,按函数p(i)选择聚类中心j;
步骤4.3:根据判定函数的结果,重新计算各簇中心;
步骤4.4:如果簇中心发生变化,则转到步骤(2),否则迭代结束,输出聚类结果
步骤5:根据企业具体情况,综合关键词效能优化和价值率优化,选择合适的关键词优化策略达到网站优化目标。
2.根据权利要求1中所述的基于改进的均值中心算法实现搜索引擎关键词优化,其特征是,以上所述步骤4中的具体计算过程如下:
步骤4:利用改进的均值中心算法,对上述关键词进行聚类处理,其具体子步骤如下:
步骤4.1:初始化簇的数目k,从数据对象集合D中随机选择k个初始簇中心,初始化目标函数,其具体计算过程如下:
上式为关键词i属于类中心,为关键词i到类中心的距离
步骤4.2:对每类关键词进行重新分配,按函数p(i)选择聚类中心j,其具体计算过程如下:
使函数p(i)最大的对应聚类中心j,为关键词i到全局最佳位置的距离,为关键词i到聚类中心j的距离
上式与分别为关键词i、聚类中心对象j的4维向量,即、
这里选择使p(i)值最大,即选择最小的聚类中心j,有下式:
步骤4.3:根据判定函数的结果,重新计算各簇中心,其具体计算过程如下:
为新分类后目标函数的值,为初始化目标函数或上一次迭代出的目标函数
步骤4.4:如果簇中心发生变化,则转到步骤(2),否则迭代结束,输出聚类结果
改进的均值中心算法的具体结构流程如图2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611085849.9A CN106528862A (zh) | 2016-11-30 | 2016-11-30 | 基于改进的均值中心算法实现搜索引擎关键词优化 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611085849.9A CN106528862A (zh) | 2016-11-30 | 2016-11-30 | 基于改进的均值中心算法实现搜索引擎关键词优化 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106528862A true CN106528862A (zh) | 2017-03-22 |
Family
ID=58355317
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611085849.9A Pending CN106528862A (zh) | 2016-11-30 | 2016-11-30 | 基于改进的均值中心算法实现搜索引擎关键词优化 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106528862A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344220A (zh) * | 2021-06-18 | 2021-09-03 | 山东大学 | 一种联邦学习中基于局部模型梯度的用户筛选方法、系统、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1996316A (zh) * | 2007-01-09 | 2007-07-11 | 天津大学 | 基于网页相关性的搜索引擎搜索方法 |
CN103218435A (zh) * | 2013-04-15 | 2013-07-24 | 上海嘉之道企业管理咨询有限公司 | 一种中文文本数据聚类方法及系统 |
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
CN105913077A (zh) * | 2016-04-07 | 2016-08-31 | 华北电力大学(保定) | 一种基于降维和抽样的数据聚类方法 |
-
2016
- 2016-11-30 CN CN201611085849.9A patent/CN106528862A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1996316A (zh) * | 2007-01-09 | 2007-07-11 | 天津大学 | 基于网页相关性的搜索引擎搜索方法 |
CN103258000A (zh) * | 2013-03-29 | 2013-08-21 | 北界创想(北京)软件有限公司 | 对网页中高频关键词进行聚类的方法及装置 |
CN103218435A (zh) * | 2013-04-15 | 2013-07-24 | 上海嘉之道企业管理咨询有限公司 | 一种中文文本数据聚类方法及系统 |
CN105913077A (zh) * | 2016-04-07 | 2016-08-31 | 华北电力大学(保定) | 一种基于降维和抽样的数据聚类方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344220A (zh) * | 2021-06-18 | 2021-09-03 | 山东大学 | 一种联邦学习中基于局部模型梯度的用户筛选方法、系统、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708740A (zh) | 基于云平台的海量搜索查询日志计算分析系统 | |
Rahangdale et al. | Deep neural network regularization for feature selection in learning-to-rank | |
CN103679462A (zh) | 一种评论数据处理方法和装置、一种搜索方法和系统 | |
US20100131496A1 (en) | Predictive indexing for fast search | |
CN106649616A (zh) | 一种聚类算法实现搜索引擎关键词优化 | |
CN103761286B (zh) | 一种基于用户兴趣的服务资源检索方法 | |
CN106933954A (zh) | 基于决策树分类算法实现搜索引擎优化技术 | |
CN103778206A (zh) | 一种网络服务资源的提供方法 | |
Liu et al. | Learning to rank complex network node based on the self-supervised graph convolution model | |
Jiang et al. | Candidate region aware nested named entity recognition | |
CN106909626A (zh) | 改进的决策树分类算法实现搜索引擎优化技术 | |
CN106933953A (zh) | 一种模糊k均值聚类算法实现搜索引擎优化技术 | |
CN107330557A (zh) | 一种基于社区划分和熵的舆情热点跟踪及预测方法与装置 | |
CN111753151B (zh) | 一种基于互联网用户行为的服务推荐方法 | |
CN106874376A (zh) | 一种验证搜索引擎关键词优化技术的方法 | |
CN106528862A (zh) | 基于改进的均值中心算法实现搜索引擎关键词优化 | |
CN106897356A (zh) | 改进的模糊c‑均值算法实现搜索引擎关键词优化 | |
CN106897376A (zh) | 基于蚁群的模糊c均值算法实现关键词优化 | |
CN105653686A (zh) | 一种域名网址活跃度统计方法及系统 | |
Ye et al. | Learning relevance from click data via neural network based similarity models | |
CN106933950A (zh) | 新的模型聚类算法实现搜索引擎优化技术 | |
CN106649537A (zh) | 基于改进的群智能算法实现搜索引擎关键词优化技术 | |
CN106649536A (zh) | 基于改进的k‑means算法实现搜索引擎关键词优化 | |
CN106802945A (zh) | 基于VSM的模糊c均值聚类算法实现搜索引擎关键词优化 | |
CN106599118A (zh) | 一种改进的密度聚类算法实现搜索引擎关键词优化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170322 |