CN107092617B - 一种信息处理方法及装置 - Google Patents

一种信息处理方法及装置 Download PDF

Info

Publication number
CN107092617B
CN107092617B CN201610955982.9A CN201610955982A CN107092617B CN 107092617 B CN107092617 B CN 107092617B CN 201610955982 A CN201610955982 A CN 201610955982A CN 107092617 B CN107092617 B CN 107092617B
Authority
CN
China
Prior art keywords
information
points
intersection
intersection point
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610955982.9A
Other languages
English (en)
Other versions
CN107092617A (zh
Inventor
龚廖安
梁福坤
马超
杜洪先
崔代锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xingxuan Technology Co Ltd
Original Assignee
Beijing Xingxuan Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xingxuan Technology Co Ltd filed Critical Beijing Xingxuan Technology Co Ltd
Priority to CN201610955982.9A priority Critical patent/CN107092617B/zh
Publication of CN107092617A publication Critical patent/CN107092617A/zh
Application granted granted Critical
Publication of CN107092617B publication Critical patent/CN107092617B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种信息处理方法及装置,其中方法包括:获取每个对象的第一信息;根据所述第一信息获取多个数值,以及,根据所述多个数值生成所述对象的第一向量,其中每个所述数值用于从不同维度对所述第一信息进行描述;获取所述第一向量两两之间的距离,以及,根据所述距离对所述第一向量进行聚类以完成信息处理。数据挖掘的重要步骤是数据的聚类,为此本发明实施例先获取每个对象(例如商家)的第一信息(例如活动描述信息),根据每个对象的第一信息中所包含的各种维度下的数值为每个对象生成第一向量,然后在此基础上对第一向量进行聚类,从而实现了对象的聚类,这样便可大大提高网络信息平台上的数据挖掘效率,节省了信息处理时间。

Description

一种信息处理方法及装置
技术领域
本发明涉及网络数据挖掘技术领域,尤其涉及一种信息处理方法及装置。
背景技术
随着信息技术的不断发展,互联网已深入到各个领域,涌现出大量的购物平台、外卖平台、打车平台等网络信息平台。这些网络信息平台上活动(例如各种促销活动)众多,所产生的数据(即活动描述信息)往往种类繁多,信息量很大,若要从中挖掘出有价值的内容并非易事。
在现有技术中,为了从众多数据中挖掘出有价值的内容,往往需要动用人工进行调研和分析,经过数据筛选最后提炼出有价值的信息。发明人在实现本发明的过程中发现,由于分析的工作量很大,使得现有技术中的这类方案成本较高,且周期较长,时效性差,无法应对当前网络信息的快速变化。
发明内容
本发明提供一种信息处理方法及装置,以提高网络信息平台上的数据挖掘效率。
根据本发明实施例的第一方面,提供一种信息处理方法,所述方法包括:
获取每个对象的第一信息;
根据所述第一信息获取多个数值,以及,根据所述多个数值生成所述对象的第一向量,其中每个所述数值用于从不同维度对所述第一信息进行描述;
获取所述第一向量两两之间的距离,以及,根据所述距离对所述第一向量进行聚类以完成信息处理。
可选的,所述第一信息为用于描述所述对象所涉及的活动的活动描述信息。
可选的,所述获取所述第一向量两两之间的距离,包括:
计算所述第一向量两两之间的皮尔逊相关系数以作为所述第一向量两两之间的距离。
可选的,所述多个数值中包括当前对象的配送面积;
根据所述第一信息获取当前对象的配送面积,包括:
对当前对象所处的区域进行网格划分;
获取网格中每个交点所涉及的对象;
根据每个交点所涉及的对象,获取当前对象所涉及的交点,并将当前对象所涉及的交点的集合确定为配送范围;
根据所述配送范围获取当前对象的配送面积。
可选的,所述根据每个交点所涉及的对象,获取当前对象所涉及的交点,包括:
对每个交点所涉及的对象进行倒排计算后生成key-value列表,以得到每个对象所涉及的交点,其中key代表对象,value代表对象所涉及的交点;
从每个对象所涉及的交点中确定当前对象所涉及的交点。
可选的,在所述根据所述配送范围获取当前对象的配送面积之后,所述方法还包括:
接收对所述配送范围的显示指令;
根据所述显示指令绘制并显示所述配送范围。
可选的,所述根据所述显示指令绘制并显示所述配送范围,包括:
在当前对象所涉及的交点的集合中,将指定交点确定为边界点,其中所述指定交点为至少在一个方向上与配送范围内的其他交点不相邻的交点;
从一个边界点开始,以选择和当前边界点距离最近的边界点为当前边界点的相邻边界点为规则,为各边界点排序;
将冗余边界点剔除,其中所述冗余边界点是未作为所述配送范围所围成的多边形的边线转折点的边界点;
根据剔除后剩余的边界点绘制并显示所述配送范围。
根据本发明实施例的第二方面,提供一种信息处理装置,所述装置包括:
信息获取模块,用于获取每个对象的第一信息;
向量生成模块,用于根据所述第一信息获取多个数值,以及,根据所述多个数值生成所述对象的第一向量,其中每个所述数值用于从不同维度对所述第一信息进行描述;
聚类模块,用于获取所述第一向量两两之间的距离,以及,根据所述距离对所述第一向量进行聚类以完成信息处理。
可选的,所述第一信息为用于描述所述对象所涉及的活动的活动描述信息。
可选的,所述聚类模块在获取所述第一向量两两之间的距离时,用于:
计算所述第一向量两两之间的皮尔逊相关系数以作为所述第一向量两两之间的距离。
可选的,所述多个数值中包括当前对象的配送面积;
所述向量生成模块包括:
网格划分子模块,用于对当前对象所处的区域进行网格划分;
召回子模块,用于获取网格中每个交点所涉及的对象;
倒排计算子模块,用于根据每个交点所涉及的对象,获取当前对象所涉及的交点,并将当前对象所涉及的交点的集合确定为配送范围;
面积获取子模块,用于根据所述配送范围获取当前对象的配送面积。
可选的,所述倒排计算子模块用于:
对每个交点所涉及的对象进行倒排计算后生成key-value列表,以得到每个对象所涉及的交点,其中key代表对象,value代表对象所涉及的交点;
从每个对象所涉及的交点中确定当前对象所涉及的交点。
可选的,所述装置还包括:
显示模块,用于接收对所述配送范围的显示指令,根据所述显示指令绘制并显示所述配送范围。
可选的,所述显示模块在根据所述显示指令绘制并显示所述配送范围时,用于:
在当前对象所涉及的交点的集合中,将指定交点确定为边界点,其中所述指定交点为至少在一个方向上与配送范围内的其他交点不相邻的交点;
从一个边界点开始,以选择和当前边界点距离最近的边界点为当前边界点的相邻边界点为规则,为各边界点排序;
将冗余边界点剔除,其中所述冗余边界点是未作为所述配送范围所围成的多边形的边线转折点的边界点;
根据剔除后剩余的边界点绘制并显示所述配送范围。
本发明的实施例提供的技术方案可以包括以下有益效果:
发明人在实现本发明的过程中发现,数据挖掘的重要步骤是数据的聚类,当实现了聚类后再进行分析就方便很多了,为此本发明实施例先获取每个对象(例如商家)的第一信息(例如活动描述信息),根据每个对象的第一信息中所包含的各种维度下的数值为每个对象生成第一向量,然后在此基础上对第一向量进行聚类,从而实现了对象的聚类,这样便可大大提高网络信息平台上的数据挖掘效率,节省了信息处理时间。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一示例性实施例示出的一种信息处理方法的流程图;
图2是根据本发明一示例性实施例示出的一种信息处理方法的流程图;
图3是根据本发明一示例性实施例示出的召回点示意图;
图4是根据本发明一示例性实施例示出的一种信息处理方法的流程图;
图5是根据本发明一示例性实施例示出的配送范围示意图;
图6是根据本发明一示例性实施例示出的一种信息处理装置的示意图;
图7是根据本发明一示例性实施例示出的一种信息处理装置的示意图;
图8是根据本发明一示例性实施例示出的一种信息处理装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种信息处理方法的流程图。该方法例如可以用于个人电脑或服务器等设备。
参见图1所示,该方法可以包括如下步骤:
步骤S101,获取每个对象的第一信息。
作为示例,对象可以是网络信息平台上的商品\服务的提供方,如商家等。所述第一信息可以为用于描述所述对象所涉及的活动的活动描述信息。
对于各种网络信息平台,例如购物平台、外卖平台、打车平台等,这些网络信息平台上会经常产生活动,如各种促销活动,或者说是营销活动。营销活动,通常是指商家为提高单量、流水、知名度而提供的满减、立减、新用户立减、打折、专送、免配送费等刺激用户消费而推出的优惠活动。
对于这些活动,虽然表面上看是营销,但是实际上从技术上看则是信息或信息集合,换句话说,一个活动其实就是使用一种信息或一组信息来描述的事物,本实施例中将用于对活动进行描述的一种信息或一组信息称为活动描述信息,对活动的处理反映到技术上其实就是对活动描述信息的处理。活动描述信息例如可以以“文字”结合“数值”等形式存在,如“立减20”、“打85折”等。可以通过人工收集网络信息平台上的各对象的各种活动描述信息,也可以通过网络爬虫自动收集,等等。
对于收集到的活动描述信息,可以使用自然语言处理等技术,将其进行规整、归类等处理,得到统一的格式,如“文字+数值”等格式,对此本实施例不再赘述。
步骤S102,根据所述第一信息获取多个数值,以及,根据所述多个数值生成所述对象的第一向量,其中每个所述数值用于从不同维度对所述第一信息进行描述。
以第一信息为活动描述信息为例,在对一个活动进行描述时一般可以使用多种维度进行描述,例如该活动的满减情况、打折情况、配送费情况、对买家等级的要求、配送面积的限制,等等,这些都可以看作是不同的维度。可以统一使用多个维度对各活动进行描述,对于具体将哪些维度统一纳入到第一向量中,本实施例并不进行限制。同时,每个维度通常都会涉及到数值,如满减的值、立减的值、打折的值、配送面积的大小等,这些数值便可作为第一向量中的一个元素。
作为示例,某第一向量可以为[10 2 50 6 0 8 72 42],其中各元素的含义可参考表1所示:
表1
最小满 最小减 最大满 最大减 立减 打折 代金券 配送面积
10 2 50 6 0 8 72 42(km*km)
步骤S103,获取所述第一向量两两之间的距离,以及,根据所述距离对所述第一向量进行聚类以完成信息处理。
对于如何计算第一向量两两之间的距离,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计,可以在此处使用的这些设计都没有背离本发明的精神和保护范围。
作为示例,所述获取所述第一向量两两之间的距离,可以包括:
计算所述第一向量两两之间的皮尔逊相关系数以作为所述第一向量两两之间的距离。
对于聚类时所采用的具体聚类算法,本实施例也并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计,可以在此处使用的这些设计都没有背离本发明的精神和保护范围。
聚类完毕后,便可以采取进一步的分析处理。举例来讲,可以进行销售线索挖掘。销售线索挖掘是在营销活动聚类的基础上挖掘出有价值的销售线索。例如可以进行:
1)营销活动比对。在不同城市、商圈、营业时间、商户类型、竞争对手平台等层面进行营销活动类型和力度的比对,将比对的结果按营销活动差异的程度进行排序和存储。
2)销售线索发现。配置销售线索发现的规则,用这些规则去检索营销活动比对生成的结果,自动产出销售线索。例如可以配置当竞争对手活动力度大于本产品商户时,即可以产生营销活动力度优化的销售线索。
3)营销活动可视化。在城市、商圈、竞争对手平台等层面可视化展示商户的营销活动的情况,方便城市经理了解商户的营销活动,人工提取出销售线索。等等。
实现聚类是数据挖掘中非常重要的步骤,为此本实施例先获取每个对象(例如商家)的第一信息(例如活动描述信息),根据每个对象的第一信息中所包含的各种维度下的数值为每个对象生成第一向量,然后在此基础上对第一向量进行聚类,从而实现了对象的聚类,这样便可大大提高网络信息平台上的数据挖掘效率,节省了信息处理时间。
进一步的,随着餐饮外卖O2O等的发展,新的模式提供了新的销售线索挖掘方式,基于销售活动聚类的销售线索挖掘能够在下面几个方面带来收益:
营销活动及时跟踪。能够迅速跟踪本平台商户和竞争对手平台商户营销活动的变化和差异,及时调整营销活动策略。
活动力度精细化运营。可以根据竞争对手商户和商圈内同类型商户的营销活动力度推出适当的活动力度,避免资源浪费。
销售线索自动挖掘。由于对营销活动进行了整合和聚类,产出的数据可以根据销售线索规则进行检索,自动挖掘销售线索。
参见图2所示,在本实施例或本发明其他某些实施例中,所述多个数值中可以包括当前对象的配送面积;
根据所述第一信息获取当前对象的配送面积,可以包括以下步骤:
步骤S201,对当前对象所处的区域进行网格划分。
以当前对象为某商家为例,假设该商家所处的区域为XX市YY区,则可以在该区域的地图上绘出横纵相交的网格线,从而实现区域的网格化。当然对于网格划分的具体形式本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计。
步骤S202,获取网格中每个交点所涉及的对象。
网格线相交形成众多交点,这样不同交点就可代表该区域中的不同位置。
作为示例可参见图3所示,在图3中,每个圆圈代表一个交点,也即代表一个位置。如果一个对象的配送范围覆盖了某个交点,则便可以说该交点涉及了该对象。因为通常各对象的配送范围经常相互重叠,所以对于一个交点来讲,可能会涉及到多个对象,或者说是,从该交点可以召回多个对象。故在本发明实施例中,交点又可称为召回点。
步骤S203,根据每个交点所涉及的对象,获取当前对象所涉及的交点,并将当前对象所涉及的交点的集合确定为配送范围。
因为可以获知每个交点所涉及的对象,那么反过来便可推导出每个对象所涉及的交点,进而可以得到当前对象所涉及的交点。
作为示例,所述根据每个交点所涉及的对象,获取当前对象所涉及的交点,可以包括:
1)对每个交点所涉及的对象进行倒排计算后生成key-value列表,以得到每个对象所涉及的交点,其中key代表对象,value代表对象所涉及的交点;
2)从每个对象所涉及的交点中确定当前对象所涉及的交点。
步骤S204,根据所述配送范围获取当前对象的配送面积。
作为示例,可以根据配送范围内所含交点的个数计算当前对象的配送面积。例如图3显示的是当前对象所涉及的交点(也即召回点),这些交点组成了该对象的配送范围。例如配送范围内含有n个交点,每个交点代表100*100平方米的面积,则当前对象的配送面积=n*100*100平方米。
此外,在聚类之后,分析人员可能有对某个对象的配送范围进行查看的需求,因此,根据所述配送范围获取当前对象的配送面积之后,所述方法还可以包括:
i)接收对所述配送范围的显示指令;
ii)根据所述显示指令绘制并显示所述配送范围。
对于具体的绘制方式本实施例并不进行限制,作为示例,可参见图4所示,根据所述显示指令绘制并显示所述配送范围,可以包括以下步骤:
步骤S401,在当前对象所涉及的交点的集合中,将指定交点确定为边界点,其中所述指定交点为至少在一个方向上与配送范围内的其他交点不相邻的交点。
例如可参见图3所示,在图3中交点304在各方向上均与该配送范围内的其他交点相邻,故交点304不是一个边界点;而交点301和303在一个方向(左向)上与该配送范围内的其他交点不相邻,交点302则在两个方向(左向和上向)上均与该配送范围内的其他交点不相邻,故可知301、302、303均为边界点。
步骤S402,从一个边界点开始,以选择和当前边界点距离最近的边界点为当前边界点的相邻边界点为规则,为各边界点排序。
排序的目的是为了剔除冗余边界点。
步骤S403,将冗余边界点剔除,其中所述冗余边界点是未作为所述配送范围所围成的多边形的边线转折点的边界点。
两点即可确定一条直线,所以可以将直线内部的点去掉而只保留直线两端的点以实现简化。在配送范围所围成的多边形上进行简化时,可以去掉边线上的非转折点。作为示例可参见图5所示,在图5中,剩下的7个边界点便是非冗余边界点,即配送范围所围成的多边形的边线转折点。
步骤S404,根据剔除后剩余的边界点绘制并显示所述配送范围。
将剩余的边界点连接起来,即可显示出配送范围,作为示例可参见图5中虚线所圈出的范围。
在本实施例中,不但可实现各对象的聚类,还可以进一步的绘制并显示出各对象的配送范围,从而方便分析人员查看,有助于提高信息处理的效率。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图6是根据本发明一示例性实施例示出的一种信息处理装置的示意图。该方法例如可以用于个人电脑或服务器等设备。
参见图6所示,该装置可以包括:
信息获取模块601,用于获取每个对象的第一信息。
作为示例,对象可以是网络信息平台上的商品\服务的提供方,如商家等。所述第一信息可以为用于描述所述对象所涉及的活动的活动描述信息。
对于各种网络信息平台,例如购物平台、外卖平台、打车平台等,这些网络信息平台上会经常产生活动,如各种促销活动,或者说是营销活动。营销活动,通常是指商家为提高单量、流水、知名度而提供的满减、立减、新用户立减、打折、专送、免配送费等刺激用户消费而推出的优惠活动。
向量生成模块602,用于根据所述第一信息获取多个数值,以及,根据所述多个数值生成所述对象的第一向量,其中每个所述数值用于从不同维度对所述第一信息进行描述。
以第一信息为活动描述信息为例,在对一个活动进行描述时一般可以使用多种维度进行描述,例如该活动的满减情况、打折情况、配送费情况、对买家等级的要求、配送面积的限制,等等,这些都可以看作是不同的维度。可以统一使用多个维度对各活动进行描述,对于具体将哪些维度统一纳入到第一向量中,本实施例并不进行限制。同时,每个维度通常都会涉及到数值,如满减的值、立减的值、打折的值、配送面积的大小等,这些数值便可作为第一向量中的一个元素。
聚类模块603,用于获取所述第一向量两两之间的距离,以及,根据所述距离对所述第一向量进行聚类以完成信息处理。
对于如何计算第一向量两两之间的距离,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计,可以在此处使用的这些设计都没有背离本发明的精神和保护范围。
在本实施例或本发明其他某些实施例中,所述聚类模块在获取所述第一向量两两之间的距离时,具体可以用于:
计算所述第一向量两两之间的皮尔逊相关系数以作为所述第一向量两两之间的距离。
在本实施例或本发明其他某些实施例中,所述多个数值中包括当前对象的配送面积,此时参见图7所示,所述向量生成模块具体可以包括:
网格划分子模块701,用于对当前对象所处的区域进行网格划分。
以当前对象为某商家为例,假设该商家所处的区域为XX市YY区,则可以在该区域的地图上绘出横纵相交的网格线,从而实现区域的网格化。当然对于网格划分的具体形式本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计。
召回子模块702,用于获取网格中每个交点所涉及的对象。
网格线相交形成众多交点,这样不同交点就可代表该区域中的不同位置。
倒排计算子模块703,用于根据每个交点所涉及的对象,获取当前对象所涉及的交点,并将当前对象所涉及的交点的集合确定为配送范围。
因为可以获知每个交点所涉及的对象,那么反过来便可推导出每个对象所涉及的交点,进而可以得到当前对象所涉及的交点。
面积获取子模块704,用于根据所述配送范围获取当前对象的配送面积。
作为示例,可以根据配送范围内所含交点的个数计算当前对象的配送面积。例如配送范围内含有n个交点,每个交点代表100*100平方米的面积,则当前对象的配送面积=n*100*100平方米。
在本实施例或本发明其他某些实施例中,所述倒排计算子模块703可以用于:
对每个交点所涉及的对象进行倒排计算后生成key-value列表,以得到每个对象所涉及的交点,其中key代表对象,value代表对象所涉及的交点;
从每个对象所涉及的交点中确定当前对象所涉及的交点。
此外,在聚类之后,分析人员可能有对某个对象的配送范围进行查看的需求,因此可参见图8所示,在本实施例或本发明其他某些实施例中,所述装置还可以包括:
显示模块604,用于接收对所述配送范围的显示指令,根据所述显示指令绘制并显示所述配送范围。
在本实施例或本发明其他某些实施例中,所述显示模块在根据所述显示指令绘制并显示所述配送范围时,可以用于:
在当前对象所涉及的交点的集合中,将指定交点确定为边界点,其中所述指定交点为至少在一个方向上与配送范围内的其他交点不相邻的交点;
从一个边界点开始,以选择和当前边界点距离最近的边界点为当前边界点的相邻边界点为规则,为各边界点排序;
将冗余边界点剔除,其中所述冗余边界点是未作为所述配送范围所围成的多边形的边线转折点的边界点;
根据剔除后剩余的边界点绘制并显示所述配送范围。
实现聚类是数据挖掘中非常重要的步骤,为此本实施例先获取每个对象(例如商家)的第一信息(例如活动描述信息),根据每个对象的第一信息中所包含的各种维度下的数值为每个对象生成第一向量,然后在此基础上对第一向量进行聚类,从而实现了对象的聚类,这样便可大大提高网络信息平台上的数据挖掘效率,节省了信息处理时间。
此外,在本实施例中,不但可实现各对象的聚类,还可以进一步的绘制并显示出各对象的配送范围,从而方便分析人员查看,有助于提高信息处理的效率。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (12)

1.一种信息处理方法,其特征在于,所述方法包括:
获取每个对象的第一信息;
根据所述第一信息获取多个数值,以及,根据所述多个数值生成所述对象的第一向量,其中每个所述数值用于从不同维度对所述第一信息进行描述;
获取所述第一向量两两之间的距离,以及,根据所述距离对所述第一向量进行聚类以完成信息处理;
其中,所述多个数值中包括当前对象的配送面积;
根据所述第一信息获取当前对象的配送面积,包括:
对当前对象所处的区域进行网格划分;
获取网格中每个交点所涉及的对象;
根据每个交点所涉及的对象,获取当前对象所涉及的交点,并将当前对象所涉及的交点的集合确定为配送范围;
根据所述配送范围获取当前对象的配送面积。
2.根据权利要求1所述的方法,其特征在于,所述第一信息为用于描述所述对象所涉及的活动的活动描述信息。
3.根据权利要求1所述的方法,其特征在于,所述获取所述第一向量两两之间的距离,包括:
计算所述第一向量两两之间的皮尔逊相关系数以作为所述第一向量两两之间的距离。
4.根据权利要求1所述的方法,其特征在于,所述根据每个交点所涉及的对象,获取当前对象所涉及的交点,包括:
对每个交点所涉及的对象进行倒排计算后生成key-value列表,以得到每个对象所涉及的交点,其中key代表对象,value代表对象所涉及的交点;
从每个对象所涉及的交点中确定当前对象所涉及的交点。
5.根据权利要求1所述的方法,其特征在于,在所述根据所述配送范围获取当前对象的配送面积之后,所述方法还包括:
接收对所述配送范围的显示指令;
根据所述显示指令绘制并显示所述配送范围。
6.根据权利要求5所述的方法,其特征在于,所述根据所述显示指令绘制并显示所述配送范围,包括:
在当前对象所涉及的交点的集合中,将指定交点确定为边界点,其中所述指定交点为至少在一个方向上与配送范围内的其他交点不相邻的交点;
从一个边界点开始,以选择和当前边界点距离最近的边界点为当前边界点的相邻边界点为规则,为各边界点排序;
将冗余边界点剔除,其中所述冗余边界点是未作为所述配送范围所围成的多边形的边线转折点的边界点;
根据剔除后剩余的边界点绘制并显示所述配送范围。
7.一种信息处理装置,其特征在于,所述装置包括:
信息获取模块,用于获取每个对象的第一信息;
向量生成模块,用于根据所述第一信息获取多个数值,以及,根据所述多个数值生成所述对象的第一向量,其中每个所述数值用于从不同维度对所述第一信息进行描述;
聚类模块,用于获取所述第一向量两两之间的距离,以及,根据所述距离对所述第一向量进行聚类以完成信息处理;
其中,所述多个数值中包括当前对象的配送面积;
所述向量生成模块包括:
网格划分子模块,用于对当前对象所处的区域进行网格划分;
召回子模块,用于获取网格中每个交点所涉及的对象;
倒排计算子模块,用于根据每个交点所涉及的对象,获取当前对象所涉及的交点,并将当前对象所涉及的交点的集合确定为配送范围;
面积获取子模块,用于根据所述配送范围获取当前对象的配送面积。
8.根据权利要求7所述的装置,其特征在于,所述第一信息为用于描述所述对象所涉及的活动的活动描述信息。
9.根据权利要求7所述的装置,其特征在于,所述聚类模块在获取所述第一向量两两之间的距离时,用于:
计算所述第一向量两两之间的皮尔逊相关系数以作为所述第一向量两两之间的距离。
10.根据权利要求7所述的装置,其特征在于,所述倒排计算子模块用于:
对每个交点所涉及的对象进行倒排计算后生成key-value列表,以得到每个对象所涉及的交点,其中key代表对象,value代表对象所涉及的交点;
从每个对象所涉及的交点中确定当前对象所涉及的交点。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:
显示模块,用于接收对所述配送范围的显示指令,根据所述显示指令绘制并显示所述配送范围。
12.根据权利要求11所述的装置,其特征在于,所述显示模块在根据所述显示指令绘制并显示所述配送范围时,用于:
在当前对象所涉及的交点的集合中,将指定交点确定为边界点,其中所述指定交点为至少在一个方向上与配送范围内的其他交点不相邻的交点;
从一个边界点开始,以选择和当前边界点距离最近的边界点为当前边界点的相邻边界点为规则,为各边界点排序;
将冗余边界点剔除,其中所述冗余边界点是未作为所述配送范围所围成的多边形的边线转折点的边界点;
根据剔除后剩余的边界点绘制并显示所述配送范围。
CN201610955982.9A 2016-10-27 2016-10-27 一种信息处理方法及装置 Active CN107092617B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610955982.9A CN107092617B (zh) 2016-10-27 2016-10-27 一种信息处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610955982.9A CN107092617B (zh) 2016-10-27 2016-10-27 一种信息处理方法及装置

Publications (2)

Publication Number Publication Date
CN107092617A CN107092617A (zh) 2017-08-25
CN107092617B true CN107092617B (zh) 2020-03-27

Family

ID=59646440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610955982.9A Active CN107092617B (zh) 2016-10-27 2016-10-27 一种信息处理方法及装置

Country Status (1)

Country Link
CN (1) CN107092617B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109697637B (zh) * 2018-12-27 2022-08-26 拉扎斯网络科技(上海)有限公司 对象类别确定方法、装置、电子设备及计算机存储介质
CN110223123A (zh) * 2019-06-17 2019-09-10 拉扎斯网络科技(上海)有限公司 一种数据处理方法、装置、可读存储介质和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103944932A (zh) * 2013-01-18 2014-07-23 阿里巴巴集团控股有限公司 搜索、确定活跃区域的方法与服务器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7933856B2 (en) * 2007-10-12 2011-04-26 Los Alamos National Security Llc System and method for knowledge based matching of users in a network
CN103593747B (zh) * 2013-11-07 2016-11-23 银江股份有限公司 一种基于meanshift分类的大规模客户点分类配送方法
CN103699982A (zh) * 2013-12-26 2014-04-02 浙江工业大学 一种带软时间窗口的物流配送控制方法
CN104636496A (zh) * 2015-03-04 2015-05-20 重庆理工大学 基于高斯分布和距离相似度的混合聚类的推荐方法
CN104766476B (zh) * 2015-04-16 2017-01-11 上海理工大学 一种路段以及路网区域交通状态指数的计算方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103944932A (zh) * 2013-01-18 2014-07-23 阿里巴巴集团控股有限公司 搜索、确定活跃区域的方法与服务器

Also Published As

Publication number Publication date
CN107092617A (zh) 2017-08-25

Similar Documents

Publication Publication Date Title
Oukil et al. Performance evaluation of the hotel industry in an emerging tourism destination: The case of Oman
Pournarakis et al. A computational model for mining consumer perceptions in social media
CN106506705B (zh) 基于位置服务的人群分类方法及装置
Zhai et al. Mapping the popularity of urban restaurants using social media data
CN107944481B (zh) 用于生成信息的方法和装置
CN108805598B (zh) 相似度信息确定方法、服务器及计算机可读存储介质
CN106022869A (zh) 一种消费对象的推荐方法及装置
CN103970850B (zh) 网站信息推荐方法和系统
CN103870604B (zh) 旅游推荐方法和装置
CN109933699A (zh) 一种学术画像模型的构建方法及装置
CN103295145A (zh) 一种基于用户消费特征向量的手机广告投放方法
CN106484777A (zh) 一种多媒体数据处理方法以及装置
CN107679103B (zh) 用于实体的属性分析方法及系统
CN109559230B (zh) 基于重叠社区发现算法的银行交易群体发现方法和系统
CN108269107B (zh) 用户信息处理方法及装置
CN110163661A (zh) 营销信息推广方法、装置、电子设备及计算机可读介质
CN107092617B (zh) 一种信息处理方法及装置
CN113434755A (zh) 页面的生成方法、装置、电子设备及存储介质
Dey et al. A framework for estimating bikeshare origin destination flows using a multiple discrete continuous system
CN109272351B (zh) 客流动线以及客流热区确定方法及装置
CN110751403A (zh) 信用评分方法及装置
CN106886934A (zh) 用于确定商家品类的方法、系统和装置
CN106600360A (zh) 推荐对象的排序方法及装置
CN111967970B (zh) 基于spark平台的银行产品推荐方法及装置
CN109344347A (zh) 显示控制方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant