CN107391728B - 数据挖掘方法以及数据挖掘装置 - Google Patents

数据挖掘方法以及数据挖掘装置 Download PDF

Info

Publication number
CN107391728B
CN107391728B CN201710649156.6A CN201710649156A CN107391728B CN 107391728 B CN107391728 B CN 107391728B CN 201710649156 A CN201710649156 A CN 201710649156A CN 107391728 B CN107391728 B CN 107391728B
Authority
CN
China
Prior art keywords
cost
vectors
clustering
vector
optimal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710649156.6A
Other languages
English (en)
Other versions
CN107391728A (zh
Inventor
李俊涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710649156.6A priority Critical patent/CN107391728B/zh
Publication of CN107391728A publication Critical patent/CN107391728A/zh
Application granted granted Critical
Publication of CN107391728B publication Critical patent/CN107391728B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/02Reservations, e.g. for tickets, services or events
    • G06Q10/025Coordination of plural reservations, e.g. plural trip segments, transportation combined with accommodation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本发明公开了一种数据挖掘方法以及数据挖掘装置,涉及大数据领域。本发明中首先基于成本属性对成本向量进行聚类,针对某种或某些成本属性的成本相近的成本向量被划分为一类,再根据聚类的结果和以及各个成本向量与零向量的距离选取部分成本向量进行重复聚类,采用迭代的聚类方式逐渐舍弃部分成本向量,保留距离代表成本最低的零向量的更接近的成本向量,并且使得保留的成本向量对于各种成本属性的成本均衡,从而最终筛选出最优方案。本发明的方法可以为用户选取各方面成本较为均衡并且总成本最低的出行方案,提升用户体验。

Description

数据挖掘方法以及数据挖掘装置
技术领域
本发明涉及大数据领域,特别涉及一种数据挖掘方法以及数据挖掘装置。
背景技术
随着科技的不断进步,交通越来越便利,出行已经成为很多人的一种生活常态。无论是工作或是旅行,出行方案的选择是人们关注的焦点。
目前,很多网站提供购票服务,一般仅针对一种类型的车票,例如火车票或飞机票,为用户显示出符合用户出行日期、出发地、目的地等需求的所有时刻的票价供用户选择。
发明内容
发明人发现,现有网站中提供的购票服务功能单一,仅能提供一种类型的票务查询,并且对用户呈现所有的选择方案后,用户还需要进行反复的筛选才能找到比较合适的出行方案,用户体验不好。
本发明所要解决的一个技术问题是:如何为用户提供较为合适的出行方案,提升用户体验。
根据本发明的一个实施例,提供的一种数据挖掘方法,包括:i)确定各个方案的成本向量,成本向量的各个维度分别代表对应的方案对于各种成本属性的成本信息;ii)基于成本属性对所有成本向量进行初始聚类;iii)根据聚类结果以及各个成本向量与零向量的距离选取部分成本向量作为进行聚类的成本向量;iv)基于成本属性对选取的成本向量进行聚类;v)重复步骤iii)至iv),直至聚类结果为一类,从聚类结果中确定最优成本向量,将与最优成本向量对应的方案作为最优方案。
在一个实施例中,基于成本属性对所有成本向量进行聚类包括:针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量;将各种成本属性的最优成本向量作为初始聚类中心,对所有成本向量进行初始聚类。
在一个实施例中,根据聚类结果以及各个成本向量与零向量的距离选取部分成本向量作为进行聚类的成本向量包括:从聚类结果的每一个聚类中选取距离零向量最近的成本向量作为进行聚类的成本向量。
在一个实施例中,基于成本属性对选取的成本向量进行聚类包括:从选取的成本向量中针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量;按照预设规则从确定的各种成本属性的最优成本向量中不重复的选取数量等于上一次聚类中心数量的1/2的成本向量作为聚类中心,对选取的成本向量进行聚类。
在一个实施例中,利用2-3查找树确定一种成本属性的最优成本向量。
在一个实施例中,对成本向量进行聚类时,只计算具有相同索引的成本向量之间的距离,其中,成本向量的索引是根据之前的聚类结果确定的。
在一个实施例中,对成本向量进行聚类时,对成本向量利用主成分分析法进行降维,根据降维后的成本向量之间的距离对成本向量进行聚类。
在一个实施例中,该方法还包括:将最优方案以及各种成本属性的最优成本向量对应的方案呈现给用户。
在一个实施例中,方案为根据用户的出行需求信息获取的符合用户出行需求的各种交通工具的出行方案,出行需求信息包括出行时间、出发地、目的地。
根据本发明的另一个实施例,提供的一种数据挖掘装置,包括:成本向量确定模块,用于确定各个方案的成本向量,成本向量的各个维度分别代表对应的方案对于各种成本属性的成本信息;初始聚类模块,用于基于成本属性对所有成本向量进行初始聚类;最优方案确定模块,用于:i)根据聚类结果以及各个成本向量与零向量的距离选取部分成本向量作为进行聚类的成本向量;ii)基于成本属性对选取的成本向量进行聚类;iii)重复步骤i)至ii),直至聚类结果为一类,从聚类结果中确定最优成本向量,将与最优成本向量对应的方案作为最优方案。
在一个实施例中,初始聚类模块,用于针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量,将各种成本属性的最优成本向量作为初始聚类中心,对所有成本向量进行初始聚类。
在一个实施例中,最优方案确定模块,用于从聚类结果的每一个聚类中选取距离零向量最近的成本向量作为进行聚类的成本向量。
在一个实施例中,最优方案确定模块,用于从选取的成本向量中针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量,按照预设规则从确定的各种成本属性的最优成本向量中不重复的选取数量等于上一次聚类中心数量的1/2的成本向量作为聚类中心,对选取的成本向量进行聚类。
在一个实施例中,初始聚类模块或最优方案确定模块对成本向量进行聚类时,只计算具有相同索引的成本向量之间的距离,其中,成本向量的索引是根据之前的聚类结果确定的。
在一个实施例中,初始聚类模块或最优方案确定模块对成本向量进行聚类时,对成本向量利用主成分分析法进行降维,根据降维后的成本向量之间的距离对成本向量进行聚类。
在一个实施例中,初始聚类模块,用于利用2-3查找树确定一种成本属性的最优成本向量。
在一个实施例中,该装置还包括:显示模块,用于将最优方案以及各种成本属性的最优成本向量对应的方案呈现给用户。
在一个实施例中,方案为根据用户的出行需求信息获取的符合用户出行需求的各种交通工具的出行方案,出行需求信息包括出行时间、出发地、目的地。
根据本发明的又一个实施例,提供的一种数据挖掘装置,包括:存储器;以及耦接至存储器的处理器,处理器被配置为基于存储在存储器设备中的指令,执行如前述任一个实施例的数据挖掘方法。
根据本发明的再一个实施例,提供的一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一个实施例的数据挖掘方法的步骤。
本发明中首先基于成本属性对成本向量进行聚类,针对某种或某些成本属性的成本相近的成本向量被划分为一类,再根据聚类的结果和以及各个成本向量与零向量的距离选取部分成本向量进行重复聚类,采用迭代的聚类方式逐渐舍弃部分成本向量,保留距离代表成本最低的零向量的更接近的成本向量,并且使得保留的成本向量对于各种成本属性的成本均衡,从而最终筛选出最优方案。本发明的方法可以为用户选取各方面成本较为均衡并且总成本最低的出行方案,提升用户体验。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本发明的一个实施例的数据挖掘装置的结构示意图。
图2示出本发明的另一个实施例的数据挖掘装置的结构示意图。
图3示出本发明的一个实施例的数据挖掘方法的流程示意图。
图4示出本发明的另一个实施例的数据挖掘方法的流程示意图。
图5示出本发明的又一个实施例的数据挖掘装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对现有技术中购票平台为用户呈现所有的选择方案后,用户还需要进行反复的筛选才能找到比较合适的出行方案,用户体验不好的问题,提出本方案。
本发明的实施例中的数据挖掘装置可各由各种计算设备或计算机系统来实现,下面结合图1以及图2进行描述。
图1为本发明数据挖掘装置的一个实施例的结构图。如图1所示,该实施例的装置10包括:存储器110以及耦接至该存储器110的处理器120,处理器120被配置为基于存储在存储器110中的指令,执行本发明中任意一个实施例中的数据挖掘方法。
其中,存储器110例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)、数据库以及其他程序等。
图2为本发明数据挖掘装置的另一个实施例的结构图。如图2所示,该实施例的装置20包括:存储器210以及处理器220,分别与存储器110以及处理器120类似。还可以包括输入输出接口230、网络接口240、存储接口250等。这些接口230,240,250以及存储器210和处理器220之间例如可以通过总线260连接。其中,输入输出接口230为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口240为各种联网设备提供连接接口,例如可以连接到数据库服务器或者云端存储服务器等。存储接口250为SD卡、U盘等外置存储设备提供连接接口。
下面结合图3描述本发明的数据挖掘方法,该方法适用于为用户选取最优出行方案。
图3为本发明数据挖掘方法的一个实施例的流程图。如图3所示,该实施例的方法包括:
步骤S302,确定各个方案的成本向量。
成本向量的各个维度分别代表对应的方案对于各种成本属性的成本信息。成本属性可以根据实际需求进行设置,例如为时间、价格等。如果方案为出行方案,成本属性中时间可以包括单程时间、往返时间,价格可以包括单程价格、往返价格,成本属性例如还可以是换乘时间、换乘次数等等。
各个方案可以是根据用户的出行需求信息获取的符合该用户出行需求的各种交通工具的出行方案。出行需求信息可以包括基本需求信息和个性需求信息,基本需求信息包括出行时间、出发地、目的地,出发地可以采集用户当前所在位置或由用户输入,基本需求信息例如为2017年5月1日,从北京出发到三亚。
首先,根据基本需求信息获取符合基本需求的各种交通工具的出行方案。可以通过调用各个购票平台的符合出行时间的各种交通工具(例如飞机、火车、汽车、轮船等)的票价、时间信息。从出发地到目的地的出行方案可以直接从购票平台获取直达方案,还可以自动选取中转站,组合成为从出发地经中转到目的地的中转方案。
然后,根据个性需求信息对符合基本需求的各种交通工具的出行方案进行筛选,获得符合用户出行需求的出行方案。个性需求信息例如包括换乘次数、交通工具类型、出行时间段、到达时间段等。
步骤S304,基于成本属性对所有成本向量进行初始聚类。
优选的,针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量,例如选取时间最短的成本向量作为时间最优成本向量,价格最低的成本向量作为价格最优成本向量,即选取某一维数值最小的成本向量。将各种成本属性的最优成本向量作为初始聚类中心,对所有成本向量进行初始聚类。
选取一种成本属性的最优成本向量可以利用排序算法,例如利用2-3查找树。
步骤S306,根据聚类结果以及各个成本向量与零向量的距离选取部分成本向量作为进行聚类的成本向量。
从聚类结果的每一个聚类中选取距离零向量最近的成本向量作为进行聚类的成本向量。在从每一个聚类中选取距离零向量最近的成本向量时,可以采用排序算法加快计算的速度。
步骤S308,基于成本属性对选取的成本向量进行聚类。
优选的,从选取的成本向量中针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量;按照预设规则从确定的各种成本属性的最优成本向量中不重复的选取数量等于上一次聚类中心数量的1/2的成本向量作为聚类中心,对选取的成本向量进行聚类。预设规则例如是随机选取,或者按照成本由小到大的顺序对各种成本属性的最优成本向量进行排序,选取排名靠前的符合数量要求的成本向量。
假设上一次聚类结果为N类,则从每一类中选取距离零向量(即多维坐标空间中的原点)最近的成本向量,即选取N个成本向量。假设上一次聚类的聚类中心为M个,则再从N个成本向量中选取M/2个成本向量作为聚类中心,并且该M/2个成本向量为某种成本属性的最优成本向量。
步骤S310,重复步骤S306至S308,直至聚类结果为一类,从聚类结果中确定最优成本向量,将与最优成本向量对应的方案作为最优方案。
上述实施例的方法中,聚类算法例如为K均值(Kmeans)算法,Fast StreamingKmeans算法等。本发明中,对聚类算法进行以下改进:
1)对成本向量进行稀疏存储以节省存储空间。
2)只计算具有相同索引的成本向量之间的距离,成本向量的索引是根据之前的聚类结果确定的。
每一个聚类中的成本向量设置相同的索引,该索引可以包括该聚类的成本属性标识。由于本发明中采用循环聚类的方法,一个成本向量在多次聚类后拥有多个索引。一个成本向量在一次聚类过程中可能属于多个聚类从而拥有多个索引。对于具有相同索引的成本向量才计算距离,可以减少计算量,提高计算效率。
3)对成本向量利用主成分分析法进行降维,根据降维后的成本向量之间的距离对成本向量进行聚类。
对成本向量进行降维可以减少计算距离时的计算量,提高聚类效率。
上述实施例,首先基于成本属性对成本向量进行聚类,针对某种或某些成本属性的成本相近的成本向量被划分为一类,再根据聚类的结果和以及各个成本向量与零向量的距离选取部分成本向量进行重复聚类,采用迭代的聚类方式逐渐舍弃部分成本向量,保留距离代表成本最低的零向量的更接近的成本向量,并且使得保留的成本向量对于各种成本属性的成本均衡,从而最终筛选出最优方案。本发明的方法可以为用户选取各方面成本较为均衡并且总成本最低的出行方案,提升用户体验。
在另一个实施例中,本发明的数据挖掘方法包括以下步骤:
i)确定各个方案的成本向量,成本向量的各个维度分别代表对应的方案对于各种成本属性的成本信息。
ii)基于成本属性对所有成本向量进行初始聚类。
iii)根据聚类结果、成本属性以及各个成本向量与零向量的距离选取聚类中心。
iv)根据选取的聚类中心对成本向量进行聚类,并舍弃没有划分至任何一个聚类中的成本向量。
v)重复步骤iii)至iv),直至聚类结果为一类,从聚类结果中确定最优成本向量,将与最优成本向量对应的方案作为最优方案。
步骤i)、ii)、iv)参考前述实施例的方式。
步骤iii),优选的,从每一个聚类中选取距离零向量最近的成本向量,从选取的成本向量中针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量;按照预设规则从确定的各种成本属性的最优成本向量中不重复的选取数量等于上一次聚类中心数量的1/2的成本向量作为聚类中心。与前述实施例不同的是,步骤iii)中没有直接将选取的成本向量作为进行聚类的成本向量,进行聚类的成本向量是通过聚类算法本身选取的,由于聚类算法中对距离的阈值的设置,会使得一些成本向量无法划分到任意一类中,这些成本向量会被舍弃。相对于前述实施例中方法,本实施例的方法收敛速度慢,但是更加准确。
本发明的数据挖掘方法除了适用于出行方案的选择还适用于物流、项目方案的确定等各种领域,对于参考因素较多,从较多方案中选取最优方案的问题均适用。
下面结合图4描述本发明数据挖掘方法的另一个实施例。
图4为本发明数据挖掘方法的一个实施例的流程图。如图4所示,该实施例的方法包括:
步骤S402,获取用户的出行需求。
可以对用户提供交互界面,由用户输入出行需求信息。
步骤S404,根据用户的出行需求获取出行方案。
步骤S406,确定各个出行方案的成本向量。
步骤S408,从各个成本向量中确定各种成本属性的最优成本向量,并将对应的出行方案呈现给用户。
参考图3对应的实施例中的方法。某些用户对于某种成本属性会特别关注,例如学生可能对于价格最关注,工作出差的人可能对于时间最关注,可以向用户提供对于某一种成本属性成本最低的出行方案。
步骤S410,以各种成本属性的最优成本向量为聚类中心对所有成本向量进行初始聚类。
步骤S412,从每一个聚类中选取与零向量的距离最近的成本向量。
步骤S414,从选取的成本向量中确定各种成本属性的最优成本向量,并按照预设规则从确定的各种成本属性的最优成本向量中不重复的选取数量等于上一次聚类中心数量的1/2的成本向量作为聚类中心。
步骤S416,根据选取的聚类中心对部分成本向量进行聚类。
部分成本向量可以是从每一个聚类中选取与零向量的距离最近的成本向量,也可以是通过聚类算法本身舍弃一部分无法被聚类到任一个类中的成本向量之后剩余的成本向量。
步骤S418,重复步骤S412至S416,直至聚类结果为一类,从聚类结果中确定最优成本向量,将与最优成本向量对应的方案作为最优方案呈现给用户。
上述实施例的方法根据用户的需求为用户提供对于某种成本属性的最优方案,同时为用户提供综合各种成本属性最优的方案,满足不同用户的需求,提升用户体验。
本发明还提供一种数据挖掘装置,下面结合图5进行描述。
图5为本发明数据挖掘装置的一个实施例的结构图。如图5所示,该装置50包括:
成本向量确定模块502,用于确定各个方案的成本向量,成本向量的各个维度分别代表对应的方案对于各种成本属性的成本信息。
方案可以是根据用户的出行需求信息获取的符合用户出行需求的各种交通工具的出行方案,出行需求信息包括出行时间、出发地、目的地。
初始聚类模块504,用于基于成本属性对所有成本向量进行初始聚类。
优选的,初始聚类模块504,用于针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量,将各种成本属性的最优成本向量作为初始聚类中心,对所有成本向量进行初始聚类。
优选的,初始聚类模块504对成本向量进行聚类时,只计算具有相同索引的成本向量之间的距离,其中,成本向量的索引是根据之前的聚类结果确定的。
优选的,初始聚类模块504对成本向量进行聚类时,对成本向量利用主成分分析法进行降维,根据降维后的成本向量之间的距离对成本向量进行聚类。
优选的,初始聚类模块504,用于利用2-3查找树确定一种成本属性的最优成本向量。
最优方案确定模块506,用于:
i)根据聚类结果以及各个成本向量与零向量的距离选取部分成本向量作为进行聚类的成本向量;
ii)基于成本属性对选取的成本向量进行聚类;
iii)重复步骤i)至ii),直至聚类结果为一类,从聚类结果中确定最优成本向量,将与最优成本向量对应的方案作为最优方案。
优选的,最优方案确定模块506,用于从聚类结果的每一个聚类中选取距离零向量最近的成本向量作为进行聚类的成本向量。
优选的,最优方案确定模块506,用于从选取的成本向量中针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量,按照预设规则从确定的各种成本属性的最优成本向量中不重复的选取数量等于上一次聚类中心数量的1/2的成本向量作为聚类中心,对选取的成本向量进行聚类。
优选的,最优方案确定模块506对成本向量进行聚类时,只计算具有相同索引的成本向量之间的距离,其中,成本向量的索引是根据之前的聚类结果确定的。
优选的,最优方案确定模块506对成本向量进行聚类时,对成本向量利用主成分分析法进行降维,根据降维后的成本向量之间的距离对成本向量进行聚类。
在一个实施例中,数据挖掘装置50还可以包括:
显示模块508,用于将最优方案以及各种成本属性的最优成本向量对应的方案呈现给用户。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述任一个实施例的数据挖掘方法的步骤。
本领域内的技术人员应当明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种出行方案确定方法,其特征在于,包括:
i)确定各个方案的成本向量,所述成本向量的各个维度分别代表对应的方案对于各种成本属性的成本信息;
ii)基于成本属性对所有成本向量进行初始聚类;
iii)根据聚类结果以及各个成本向量与零向量的距离选取部分成本向量作为进行聚类的成本向量;
iv)基于成本属性对选取的成本向量进行聚类;
v)重复步骤iii)至iv),直至聚类结果为一类,从聚类结果中确定最优成本向量,将与所述最优成本向量对应的方案作为最优出行方案;
其中,所述成本属性包括:单程时间、往返时间、换乘时间和换乘次数中至少一项;所述方案为根据用户的出行需求信息获取的符合所述用户出行需求的各种交通工具的出行方案,所述出行需求信息包括出行时间、出发地、目的地。
2.根据权利要求1所述的方法,其特征在于,
所述基于成本属性对所有成本向量进行聚类包括:
针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量;
将各种成本属性的最优成本向量作为初始聚类中心,对所有成本向量进行初始聚类。
3.根据权利要求1所述的方法,其特征在于,
所述根据聚类结果以及各个成本向量与零向量的距离选取部分成本向量作为进行聚类的成本向量包括:
从聚类结果的每一个聚类中选取距离零向量最近的成本向量作为进行聚类的成本向量。
4.根据权利要求1所述的方法,其特征在于,
所述基于成本属性对选取的成本向量进行聚类包括:
从选取的成本向量中针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量;
按照预设规则从确定的各种成本属性的最优成本向量中不重复的选取数量等于上一次聚类中心数量的1/2的成本向量作为聚类中心,对选取的成本向量进行聚类。
5.根据权利要求1所述的方法,其特征在于,
对所述成本向量进行聚类时,只计算具有相同索引的成本向量之间的距离,其中,所述成本向量的索引是根据之前的聚类结果确定的。
6.根据权利要求1所述的方法,其特征在于,
对所述成本向量进行聚类时,对所述成本向量利用主成分分析法进行降维,根据降维后的成本向量之间的距离对成本向量进行聚类。
7.根据权利要求2所述的方法,其特征在于,
利用2-3查找树确定一种成本属性的最优成本向量。
8.根据权利要求2所述的方法,其特征在于,还包括:
将所述最优出行方案以及各种成本属性的最优成本向量对应的方案呈现给用户。
9.一种出行方案的确定装置,其特征在于,包括:
成本向量确定模块,用于确定各个方案的成本向量,所述成本向量的各个维度分别代表对应的方案对于各种成本属性的成本信息;
初始聚类模块,用于基于成本属性对所有成本向量进行初始聚类;
最优方案确定模块,用于:
i)根据聚类结果以及各个成本向量与零向量的距离选取部分成本向量作为进行聚类的成本向量;
ii)基于成本属性对选取的成本向量进行聚类;
iii)重复步骤i)至ii),直至聚类结果为一类,从聚类结果中确定最优成本向量,将与所述最优成本向量对应的方案作为最优出行方案;
其中,所述成本属性包括:单程时间、往返时间、换乘时间和换乘次数中至少一项;所述方案为根据用户的出行需求信息获取的符合所述用户出行需求的各种交通工具的出行方案,所述出行需求信息包括出行时间、出发地、目的地。
10.根据权利要求9所述的装置,其特征在于,
所述初始聚类模块,用于针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量,将各种成本属性的最优成本向量作为初始聚类中心,对所有成本向量进行初始聚类。
11.根据权利要求9所述的装置,其特征在于,
所述最优方案确定模块,用于从聚类结果的每一个聚类中选取距离零向量最近的成本向量作为进行聚类的成本向量。
12.根据权利要求9所述的装置,其特征在于,
所述最优方案确定模块,用于从选取的成本向量中针对一种成本属性选取对于该成本属性成本最低的成本向量作为该成本属性的最优成本向量,按照预设规则从确定的各种成本属性的最优成本向量中不重复的选取数量等于上一次聚类中心数量的1/2的成本向量作为聚类中心,对选取的成本向量进行聚类。
13.根据权利要求9所述的装置,其特征在于,
所述初始聚类模块或所述最优方案确定模块对所述成本向量进行聚类时,只计算具有相同索引的成本向量之间的距离,其中,所述成本向量的索引是根据之前的聚类结果确定的。
14.根据权利要求9所述的装置,其特征在于,
所述初始聚类模块或所述最优方案确定模块对所述成本向量进行聚类时,对所述成本向量利用主成分分析法进行降维,根据降维后的成本向量之间的距离对成本向量进行聚类。
15.根据权利要求10所述的装置,其特征在于,
所述初始聚类模块,用于利用2-3查找树确定一种成本属性的最优成本向量。
16.根据权利要求10所述的装置,其特征在于,还包括:
显示模块,用于将所述最优出行方案以及各种成本属性的最优成本向量对应的方案呈现给用户。
17.一种出行方案装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器设备中的指令,执行如权利要求1-8任一项所述的出行方案确定方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8任一项所述方法的步骤。
CN201710649156.6A 2017-08-02 2017-08-02 数据挖掘方法以及数据挖掘装置 Active CN107391728B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710649156.6A CN107391728B (zh) 2017-08-02 2017-08-02 数据挖掘方法以及数据挖掘装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710649156.6A CN107391728B (zh) 2017-08-02 2017-08-02 数据挖掘方法以及数据挖掘装置

Publications (2)

Publication Number Publication Date
CN107391728A CN107391728A (zh) 2017-11-24
CN107391728B true CN107391728B (zh) 2020-07-31

Family

ID=60344275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710649156.6A Active CN107391728B (zh) 2017-08-02 2017-08-02 数据挖掘方法以及数据挖掘装置

Country Status (1)

Country Link
CN (1) CN107391728B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108328248B (zh) * 2018-02-08 2020-05-15 江西千平机械有限公司 一种履带式运输机械的智能保护装置及智能保护方法
CN111915404A (zh) * 2020-08-04 2020-11-10 携程旅游网络技术(上海)有限公司 多组交通方案的展示方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110362A (zh) * 2011-02-01 2011-06-29 世纪战斧节能环保技术(北京)有限公司 一种规划出行路线的处理方法及系统
CN102982489A (zh) * 2012-11-23 2013-03-20 广东电网公司电力科学研究院 一种基于海量计量数据的电力客户在线分群方法
CN106504577A (zh) * 2016-11-23 2017-03-15 青岛海信网络科技股份有限公司 一种停车换乘出行路线规划方法及装置
CN106779809A (zh) * 2016-11-25 2017-05-31 增立智造信息科技有限公司 一种大数据平台的价格信息优化组合方法与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9818136B1 (en) * 2003-02-05 2017-11-14 Steven M. Hoffberg System and method for determining contingent relevance

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102110362A (zh) * 2011-02-01 2011-06-29 世纪战斧节能环保技术(北京)有限公司 一种规划出行路线的处理方法及系统
CN102982489A (zh) * 2012-11-23 2013-03-20 广东电网公司电力科学研究院 一种基于海量计量数据的电力客户在线分群方法
CN106504577A (zh) * 2016-11-23 2017-03-15 青岛海信网络科技股份有限公司 一种停车换乘出行路线规划方法及装置
CN106779809A (zh) * 2016-11-25 2017-05-31 增立智造信息科技有限公司 一种大数据平台的价格信息优化组合方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"公交调度方案评价的灰色聚类分析方法";禹伟 等;《交通运输工程与信息学报》;20160320;第49-52页 *
"基于聚类分析下的公交路线优化";张雅静 等;《软件》;20160515(第5期);第98-100页 *

Also Published As

Publication number Publication date
CN107391728A (zh) 2017-11-24

Similar Documents

Publication Publication Date Title
TWI746814B (zh) 電腦可讀介質、車險風險預測裝置及伺服器
CN108090073B (zh) 一种可配置物料清单的转换方法及装置
CN110222893B (zh) 共享交通资源的投放地点推荐方法、装置与电子设备
CN106919957B (zh) 处理数据的方法及装置
CN114418035A (zh) 决策树模型生成方法、基于决策树模型的数据推荐方法
CN111831894A (zh) 一种信息匹配方法及装置
CN111858922A (zh) 服务方信息查询方法、装置、电子设备以及存储介质
CN107391728B (zh) 数据挖掘方法以及数据挖掘装置
CN107633257B (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
CN109062947A (zh) 用户画像标签查询方法、设备及计算机可读存储介质
CN115544088A (zh) 地址信息查询方法、装置、电子设备及存储介质
CN104765875A (zh) 一种旅客行为数据分布式处理方法及系统
US8667008B2 (en) Search request control apparatus and search request control method
CN113722600A (zh) 应用于大数据的数据查询方法、装置、设备及产品
CN113327132A (zh) 多媒体推荐方法、装置、设备及存储介质
CN113268665A (zh) 基于随机森林的信息推荐方法、装置、设备及存储介质
CN112269875A (zh) 文本分类方法、装置、电子设备及存储介质
CN115374944B (zh) 模型推理方法、装置、电子设备和存储介质
CN113094444A (zh) 数据处理方法、数据处理装置、计算机设备和介质
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113435308B (zh) 文本多标签分类方法、装置、设备及存储介质
CN111833119A (zh) 一种订单分配的方法、装置、电子设备及存储介质
CN115525841A (zh) 兴趣点信息的获取方法、电子设备及存储介质
CN112258126B (zh) 位置数据的校验方法、装置及计算设备
CN112256983B (zh) 导航信息处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant