CN109508744A - 一种旅游景点的分类方法 - Google Patents

一种旅游景点的分类方法 Download PDF

Info

Publication number
CN109508744A
CN109508744A CN201811350794.9A CN201811350794A CN109508744A CN 109508744 A CN109508744 A CN 109508744A CN 201811350794 A CN201811350794 A CN 201811350794A CN 109508744 A CN109508744 A CN 109508744A
Authority
CN
China
Prior art keywords
sample
characteristic value
sorted
dimension
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811350794.9A
Other languages
English (en)
Inventor
李凤英
杨恩乙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN201811350794.9A priority Critical patent/CN109508744A/zh
Publication of CN109508744A publication Critical patent/CN109508744A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/14Travel agencies

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种旅游景点的分类方法,与传统的旅游景点分类机制相比,该方法综合的考虑旅游景点的各个特征值,能准确客观的反映出旅游景点的实际档次,能够给游客的出行提供保障,作出合适的游览安排,能有效的降低人为因素带来的影响,客观的反映景区的实际环境,能为游客的决策提供一定的参考。不管对于旅游景区而言,还是游客,都有非常重要的意义,在预测分类的速度上,与传统的KNN算法相比,速度明显提升,由于充分的考虑旅游景点的各个特征,算法不会造成一定的特征损失,分类准确率高,然后对这些特征值进行标准化处理,改善了原有的K近邻算法的性能和效率。

Description

一种旅游景点的分类方法
技术领域
本发明涉及旅游景点的分类与推荐领域,尤其涉及一种旅游景点的分类方法。
背景技术
如何有效准确的对旅游资源进行分类,便于游客在有限的时间和经济成本下做出合适的游览安排,已经成为一个亟待解决的问题。目前,国内传统的分类方法主要基于游客评价信息的统计和专家系统的评分。这两种划分策略都存在缺点,即没有充分的考虑景点的各个特征,如旅游交通,旅游安全,游客满意度,卫生指数等特征,造成评价结果主观,片面,不能反映出景点实际状况。
在数据分类领域中,K近邻算法由于其模型简单,不需要过多的调节参数,在低维特征数据集中预测速度快,准确性高,广泛的应用在图像,文本分类和数字识别系统中。传统的K近邻算法思想是首先给定一定数量已分类的低维特征样本集,样本集中每一项包含样本的特征和类别。其次将待分类的样本与已分类样本集进行距离度量,将求得的距离按照从小到大排序。最后取出前k个已分类样本所对应的类别,将出现次数最多的作为待分类样本的类别。但传统的K近邻算法存在缺点,传统的K近邻算法将待分类样本中的每维特征看成同一层次,并不区分每个特征在总特征中所占的比重,这会带来一定的特征损失。在计算距离时,需要将待分类的样本与已分类样本集中的每一项进行距离度量,当已分类样本集过于庞大时,时间复杂度明显增加。
发明内容
本发明的目的在于提供一种旅游景点的分类方法,以有效准确的对旅游资源进行分类。
为了达到上述目的,本发明提供了一种旅游景点的分类方法,包括:
提供待分类样本及若干已分类样本,所述已分类样本及所述待分类样本中均包括若干特征值;
对所述待分类样本中的特征值进行数据标准化,使每个所述特征值均落入一特定区间内;
以所述待分类样本为中心,建立高维超球面,在高维空间内不断扩大所述高维超球面的半径,直至若干所述已分类样本中有K个特征值落入所述高维超球面内;
将所述K个特征值中出现次数最多的已分类样本的类别作为所述待分类样本的类别。
可选的,采用如下公式对所述待分类样本中的特征值进行数据标准化:
其中,vi、vmax、vmin、v′max及v′min分别为所述待分类样本中第i个特征值、第i个特征值的最大值、第i个特征值的最小值、所述特定区间的最大值及所述特定区间的最小值,v′i为特征值进行数据标准化后的特征值。
可选的,所述特定区间为1-10。
可选的,以所述待分类样本为中心,建立所述高维超球面的步骤包括:
设所述待分类样本的特征向量为a=(a1,a2,a3,...an),其中a1,a2,a3,...an分别为所述待分类样本的第1维,第2维,.....第n维的特征值;
根据公式(x-a1)2+(y-a2)2+(z-a3)2+....(w-an)2=r2得到所述高维超球面,其中,r为所述高维超球面的预定义半径,x,y,z,....w为所述高维超球面的n个维度。
可选的,获取落入所述高维超球面内K个特征值的步骤包括:
获取所有所述已分类样本中每个所述特征值与所述待分类样本的欧式距离;
将所有所述特征值与所述待分类样本的欧式距离按照从小到大的顺序进行排序;
选取最小的K个欧式距离对应的特征值为K个特征值。
可选的,获取所述特征值与所述待分类样本的欧式距离的步骤包括:
设所述已分类的样本点特征向量为b=(b1,b2,b3,...bn),其中,b1,b2,b3,...bn分别为所述已分类样本的第1维,第2维,.....第n维的特征值;
所述特征值与所述待分类样本的欧式距离其中,j为所述特征值的维度。
在本发明提供的旅游景点的分类方法中,与传统的旅游景点分类机制相比,该方法综合的考虑旅游景点的各个特征值,能准确客观的反映出旅游景点的实际档次,能够给游客的出行提供保障,作出合适的游览安排,能有效的降低人为因素带来的影响,客观的反映景区的实际环境,能为游客的决策提供一定的参考。不管对于旅游景区而言,还是游客,都有非常重要的意义,在预测分类的速度上,与传统的KNN算法相比,速度明显提升,由于充分的考虑旅游景点的各个特征,算法不会造成一定的特征损失,分类准确率高,然后对这些特征值进行标准化处理,改善了原有的K近邻算法的性能和效率。
附图说明
图1为本发明实施例提供的旅游景点的分类方法的流程图。
具体实施方式
下面将结合示意图对本发明的具体实施方式进行更详细的描述。根据下列描述和权利要求书,本发明的优点和特征将更清楚。需说明的是,附图均采用非常简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。
如图1所示,本实施例提供了一种旅游景点的分类方法,包括:
S1:提供待分类样本及若干已分类样本,所述已分类样本及所述待分类样本中均包括若干特征值;
S2:对所述待分类样本中的特征值进行数据标准化,使每个所述特征值均落入一特定区间内;
S3:以所述待分类样本为中心,建立高维超球面,在高维空间内不断扩大所述高维超球面的半径,直至若干所述已分类样本中有K个特征值落入所述高维超球面内;
S4:将所述K个特征值中出现次数最多的已分类样本的类别作为所述待分类样本的类别。
具体的,首先,采用国家旅游局官方网站发布的旅游景区评判指标,将指标依次分为旅游交通、游览、旅游安全、卫生指数、邮电服务、旅游购物、经营管理、资源和环境的保护、旅游资源影响力、市场吸引力及游客满意度等作为特征。选取一定数量的具有代表性的旅游景区作为样本,对于每一个样本,根据评分标准,分别对样本的每一个特征进行打分,根据旅游景区评判指标,构建一批具有代表性的旅游景区样本集,并分别将它们分为若干类(优,良及合格等),给每一个已分类样本中的每个特征值分配对应的标签。
由于不同的特征值的值域不同,如旅游交通为130分,旅游安全为80分等,若不对上述特征值进行数据规范化,将带来一定的特征损失。
选取一个待分类样本,读取该待分类样本的特征值,采用最小-最大值规范化来进行特征缩放,使其落入到一个较小的特定区间。可选的,采用如下公式对所述待分类样本中的特征值进行数据标准化:
其中,vi、vmax、vmin、v′max及v′min分别为所述待分类样本中第i个特征值、第i个特征值的最大值、第i个特征值的最小值、所述特定区间的最大值及所述特定区间的最小值,v′i为特征值进行数据标准化后的特征值。
可以理解的是,所述已分类样本中的每个特征值也进行了数据标准化处理,使得已分类样本中的每个特征值也处于特定区间内。本实施例中,所述特定区间为1-10。
接着,以所述待分类样本为中心,建立一个高维超球面,设所述待分类样本的特征向量为a=(a1,a2,a3,...an),其中a1,a2,a3,...an分别为所述待分类样本的第1维,第2维,.....第n维的特征值;根据公式(x-a1)2+(y-a2)2+(z-a3)2+....(w-an)2=r2得到所述高维超球面,其中,r为所述高维超球面的预定义半径,x,y,z,....w为所述高维超球面的n个维度。根据用户预设置的K近邻算法的K值,在高维空间中不断扩大所述高维超球面的半径,直到有K个特征值落入所述高维超球面内,循环终止。
为了获取最接近的K个特征值,需要计算所述特征值与所述待分类样本之间的距离,大多实验表明,采用欧式距离度量方法能有效的反映已测样本点和待测样本点之间的相似程度,所以本实施例中采用欧式距离计算。具体的,获取所有所述已分类样本中每个所述特征值与所述待分类样本的欧式距离;将所有所述特征值与所述待分类样本的欧式距离按照从小到大的顺序进行排序;选取最小的K个欧式距离对应的特征值为K个特征值。
进一步,获取所述特征值与所述待分类样本的欧式距离的步骤包括:设所述已分类的样本的特征向量为b=(b1,b2,b3,...bn),其中,b1,b2,b3,...bn分别为所述已分类样本的第1维,第2维,.....第n维的特征值;所述特征值与所述待分类样本的欧式距离其中,j为所述特征值的维度。
找到最接近的K个特征值后,取K个特征值中出现次数最多的类别,将其分配给所述待分类样本的类别,例如,K个特征值中,优秀的已分类样本出现的次数最多,则所述待分类样本的类别也为优秀。
综上,在本发明实施例提供的旅游景点的分类方法中,与传统的旅游景点分类机制相比,该方法综合的考虑旅游景点的各个特征值,能准确客观的反映出旅游景点的实际档次,能够给游客的出行提供保障,作出合适的游览安排,能有效的降低人为因素带来的影响,客观的反映景区的实际环境,能为游客的决策提供一定的参考。不管对于旅游景区而言,还是游客,都有非常重要的意义,在预测分类的速度上,与传统的KNN算法相比,速度明显提升,由于充分的考虑旅游景点的各个特征,算法不会造成一定的特征损失,分类准确率高,然后对这些特征值进行标准化处理,改善了原有的K近邻算法的性能和效率。
上述仅为本发明的优选实施例而已,并不对本发明起到任何限制作用。任何所属技术领域的技术人员,在不脱离本发明的技术方案的范围内,对本发明揭露的技术方案和技术内容做任何形式的等同替换或修改等变动,均属未脱离本发明的技术方案的内容,仍属于本发明的保护范围之内。

Claims (6)

1.一种旅游景点的分类方法,其特征在于,包括:
提供待分类样本及若干已分类样本,所述已分类样本及所述待分类样本中均包括若干特征值;
对所述待分类样本中的特征值进行数据标准化,使每个所述特征值均落入一特定区间内;
以所述待分类样本为中心,建立高维超球面,在高维空间内不断扩大所述高维超球面的半径,直至若干所述已分类样本中有K个特征值落入所述高维超球面内;
将所述K个特征值中出现次数最多的已分类样本的类别作为所述待分类样本的类别。
2.如权利要求1所述的旅游景点的分类方法,其特征在于,采用如下公式对所述待分类样本中的特征值进行数据标准化:
其中,vi、vmax、vmin、v′max及v′min分别为所述待分类样本中第i个特征值、第i个特征值的最大值、第i个特征值的最小值、所述特定区间的最大值及所述特定区间的最小值,v′i为特征值进行数据标准化后的特征值。
3.如权利要求2所述的旅游景点的分类方法,其特征在于,所述特定区间为1-10。
4.如权利要求2所述的旅游景点的分类方法,其特征在于,以所述待分类样本为中心,建立所述高维超球面的步骤包括:
设所述待分类样本的特征向量为a=(a1,a2,a3,...an),其中a1,a2,a3,...an分别为所述待分类样本的第1维,第2维,.....第n维的特征值;
根据公式(x-a1)2+(y-a2)2+(z-a3)2+....(w-an)2=r2得到所述高维超球面,其中,r为所述高维超球面的预定义半径,x,y,z,....w为所述高维超球面的n个维度。
5.如权利要求4所述的旅游景点的分类方法,其特征在于,获取落入所述高维超球面内K个特征值的步骤包括:
获取所有所述已分类样本中每个所述特征值与所述待分类样本的欧式距离;
将所有所述特征值与所述待分类样本的欧式距离按照从小到大的顺序进行排序;
选取最小的K个欧式距离对应的特征值为K个特征值。
6.如权利要求5所述的旅游景点的分类方法,其特征在于,获取所述特征值与所述待分类样本的欧式距离的步骤包括:
设所述已分类的样本的特征向量为b=(b1,b2,b3,...bn),其中,b1,b2,b3,...bn分别为所述已分类样本的第1维,第2维,.....第n维的特征值;
所述特征值与所述待分类样本的欧式距离其中,j为所述特征值的维度。
CN201811350794.9A 2018-11-14 2018-11-14 一种旅游景点的分类方法 Pending CN109508744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811350794.9A CN109508744A (zh) 2018-11-14 2018-11-14 一种旅游景点的分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811350794.9A CN109508744A (zh) 2018-11-14 2018-11-14 一种旅游景点的分类方法

Publications (1)

Publication Number Publication Date
CN109508744A true CN109508744A (zh) 2019-03-22

Family

ID=65748376

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811350794.9A Pending CN109508744A (zh) 2018-11-14 2018-11-14 一种旅游景点的分类方法

Country Status (1)

Country Link
CN (1) CN109508744A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834278B2 (en) * 2001-04-05 2004-12-21 Thothe Technologies Private Limited Transformation-based method for indexing high-dimensional data for nearest neighbour queries
CN104112143A (zh) * 2014-07-23 2014-10-22 大连民族学院 基于加权超球支持向量机算法的图像分类方法
US9165051B2 (en) * 2010-08-24 2015-10-20 Board Of Trustees Of The University Of Illinois Systems and methods for detecting a novel data class
CN106548212A (zh) * 2016-11-25 2017-03-29 中国传媒大学 一种二次加权的knn音乐流派分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6834278B2 (en) * 2001-04-05 2004-12-21 Thothe Technologies Private Limited Transformation-based method for indexing high-dimensional data for nearest neighbour queries
US9165051B2 (en) * 2010-08-24 2015-10-20 Board Of Trustees Of The University Of Illinois Systems and methods for detecting a novel data class
CN104112143A (zh) * 2014-07-23 2014-10-22 大连民族学院 基于加权超球支持向量机算法的图像分类方法
CN106548212A (zh) * 2016-11-25 2017-03-29 中国传媒大学 一种二次加权的knn音乐流派分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
上海市旅游事业管理委员会: "《导游法律知识与道德修养》", 31 March 2007 *
吴国清: "《旅游资源开发与管理》", 30 April 2018 *
桑应宾: "基于K近邻的分类算法研究", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
王壮等: "一种基于近邻搜索的快速k-近邻分类算法", 《系统工程与电子技术》 *

Similar Documents

Publication Publication Date Title
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN107844559A (zh) 一种文件分类方法、装置及电子设备
CN106682233A (zh) 一种基于深度学习与局部特征融合的哈希图像检索方法
CN110263774A (zh) 一种人脸检测方法
CN112613552B (zh) 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法
CN102141978A (zh) 一种文本分类的方法及系统
CN110457577B (zh) 数据处理方法、装置、设备和计算机存储介质
CN105589938A (zh) 基于fpga的图像检索系统及检索方法
CN103186538A (zh) 一种图像分类方法和装置、图像检索方法和装置
CN106228554B (zh) 基于多属性约简的模糊粗糙集煤粉尘图像分割方法
CN102385592B (zh) 图像概念的检测方法和装置
CN105354595A (zh) 一种鲁棒视觉图像分类方法及系统
CN110399884A (zh) 一种特征融合自适应锚框模型车辆检测方法
CN110134792A (zh) 文本识别方法、装置、电子设备以及存储介质
CN110489449A (zh) 一种图表推荐方法、装置和电子设备
CN110533116A (zh) 基于欧式距离的自适应集成的不平衡数据分类方法
CN107291825A (zh) 一种视频中同款商品的检索方法和系统
CN108304851A (zh) 一种高维数据流异常点识别方法
CN113032613B (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
CN109347719B (zh) 一种基于机器学习的图像垃圾邮件过滤方法
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN110019779A (zh) 一种文本分类方法、模型训练方法及装置
CN103064985A (zh) 基于先验知识的图像检索方法
CN109948052A (zh) 一种互联网信息过滤审核系统、方法及装置
CN109492110A (zh) 文档分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190322

RJ01 Rejection of invention patent application after publication