一种用于物流监控的数据分析方法和装置
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种用于物流监控的数据分析方法和装置。
【背景技术】
电子商务的不断普及催生了物流行业的迅猛发展,当前物流平台对于仓储和运转已有基本的功能模块,其中在进行运单检测时,主要是根据各节点传回的信息来监控运单流转情况。而对于在途运单的监控则是一个薄弱环节,要么通过与司机进行通话了解情况,要么只能通过GPS信息得到各物流车辆所在的位置。对于物流平台而言,在数万条道路、数十万辆物流车辆的数据中,运单延误是频繁发生的事件,对于这些事件的原因如果通过实时电话沟通,需要一一拨打电话,实现麻烦且在司机开车过程中也不建议接打电话。通过GPS信息也只能获取位置信息,无法获得延迟原因。
【发明内容】
有鉴于此,本发明提供了一种用于物流监控的数据分析方法和装置,以便于自动诊断物流延迟的原因。
具体技术方案如下:
本发明提供了一种用于物流监控的数据分析方法,该方法包括:
模型建立阶段:
从各时间段的商品销售记录和各地区在各时间段的外部因素中,提取各物流线路在各时间段的影响因素;
依据各物流线路在各时间段的配送时长信息,确定发生延迟的各物流线路在各时间段的影响因素以及延迟原因;
依据发生延迟的各物流线路在各时间段的影响因素以及延迟原因,建立延迟原因识别模型;
原因识别阶段:
获取待分析物流线路以及出发时间,从所述出发时间所对应时间段t的商品销售记录和所述物流线路所涉及地区在所述时间段t的外部因素中,确定所述待分析物流线路在所述时间段t的影响因素;
将所述待分析物流线路在所述时间段t的影响因素输入所述延迟原因识别模型,得到所述待分析物流线路的延迟原因。
根据本发明一可选实施方式,从各时间段的商品销售记录中,提取各物流线路在各时间段的影响因素包括:
从所述商品销售记录中确定各物流线路在各时间段的商品销售量;
提取出某物流线路对应的销售量幅度变化超过预设幅度阈值的时间段,将销量骤升或骤减作为所述某物流线路在所提取时间段的影响因素。
根据本发明一可选实施方式,从各地区在各时间段的外部因素中,提取各物流线路在各时间段的影响因素包括:
以预设时间粒度将影响因素库和/或媒体数据库中的数据进行整合,得到各地区在各时间段的外部因素;
针对各地区和各时间段分别执行:将地区r作为起点,终点为任意地区形成物流线路,以及将所述地区r作为终点,起点为任意地区形成物流线路,将地区r在时间段t1的外部因素作为地区r所形成物流线路在时间段t1的外部因素,其中地区r为任一个地区,时间段t1为任一个时间段。
根据本发明一可选实施方式,以预设时间粒度将媒体数据库中的数据进行整合包括:
以预设的时间粒度确定媒体数据库中各时间段热点事件的表现;
针对各时间段分别执行:将时间段t2中热点事件的表现作为该热点事件所发生地区在时间段t2的外部因素,所述时间段t2为任一个时间段。
根据本发明一可选实施方式,依据各物流线路在各时间段的配送时长信息,确定发生延迟的各物流线路在各时间段的影响因素以及延迟原因包括:
依据各物流线路在各时间段的配送时长信息,确定各物流线路在各时间段的延迟时长信息;
筛选出延迟时长大于设定阈值的各物流线路在各时间段的影响因素;
确定筛选出的各物流线路在各时间段的影响因素对应的延迟原因。
根据本发明一可选实施方式,确定影响因素f对应的延迟原因包括:
判断所述影响因素f是否包含延迟原因词典中的关键词或关键词的同义词,如果是,则将该延迟原因词典中关键词所映射的延迟原因作为所述影响因素f对应的延迟原因。
根据本发明一可选实施方式,根据用户输入的信息对所述延迟原因进行筛选、归并或修正。
根据本发明一可选实施方式,所述建立延迟原因识别模型包括:
利用关联规则分别确定每个物流线路上各影响因素和延迟原因的共现概率。
根据本发明一可选实施方式,所述出发时间所对应时间段包括:从所述出发时间开始至所述原因识别阶段所覆盖的时间段。
根据本发明一可选实施方式,将所述待分析物流线路在所述时间段t的影响因素输入所述延迟原因识别模型后,所述延迟原因识别模型确定所述待分析物流线路的影响因素产生的延迟原因,以及各延迟原因的产生概率;
所述延迟原因识别模型输出产生概率超过预设阈值,或者产生概率排在前若干个的延迟原因。
本发明还提供了一种用于物流监控的数据分析装置,该装置包括模型建立单元和原因识别单元;
所述模型建立单元包括:
第一因素提取单元,用于从各时间段的商品销售记录和各地区在各时间段的外部因素中,提取各物流线路在各时间段的影响因素;
因素过滤单元,用于依据各物流线路在各时间段的配送时长信息,确定发生延迟的各物流线路在各时间段的影响因素以及延迟原因;
原因分类单元,用于依据发生延迟的各物流线路在各时间段的影响因素以及延迟原因,建立延迟原因识别模型;
所述原因识别单元包括:
监控输入单元,用于获取待分析物流线路以及出发时间;
第二因素提取单元,用于从所述出发时间所对应时间段t的商品销售记录和所述物流线路所涉及地区在所述时间段t的外部因素中,确定所述待分析物流线路在所述时间段t的影响因素;
原因分析单元,用于将所述待分析物流线路在所述时间段t的影响因素输入所述延迟原因识别模型,得到所述待分析物流线路的延迟原因。
根据本发明一可选实施方式,所述第一因素提取单元包括:
销售因素提取子单元,用于从所述商品销售记录中确定各物流线路在各时间段的商品销售量;提取出某物流线路对应的销售量幅度变化超过预设幅度阈值的时间段,将销量骤升或骤减作为所述某物流线路在所提取时间段的影响因素。
根据本发明一可选实施方式,所述第一因素提取单元包括:
外部因素提取子单元,用于以预设时间粒度将影响因素库和/或媒体数据库中的数据进行整合,得到各地区在各时间段的外部因素;针对各地区和各时间段分别执行:将地区r作为起点,终点为任意地区形成物流线路,以及将所述地区r作为终点,起点为任意地区形成物流线路,将地区r在时间段t1的外部因素作为地区r所形成物流线路在时间段t1的外部因素,其中地区r为任一个地区,时间段t1为任一个时间段。
根据本发明一可选实施方式,所述外部因素提取子单元在以预设时间粒度将媒体数据库中的数据进行整合时,具体执行:
以预设的时间粒度确定媒体数据库中各时间段热点事件的表现;
针对各时间段分别执行:将时间段t2中热点事件的表现作为该热点事件所发生地区在时间段t2的外部因素,所述时间段t2为任一个时间段。
根据本发明一可选实施方式,所述因素过滤单元,具体用于:
依据各物流线路在各时间段的配送时长信息,确定各物流线路在各时间段的延迟时长信息;
筛选出延迟时长大于设定阈值的各物流线路在各时间段的影响因素;
确定筛选出的各物流线路在各时间段的影响因素对应的延迟原因。
根据本发明一可选实施方式,所述因素过滤单元在确定影响因素f对应的延迟原因时,具体执行:
判断所述影响因素f是否包含延迟原因词典中的关键词或关键词的同义词,如果是,则将该延迟原因词典中关键词所映射的延迟原因作为所述影响因素f对应的延迟原因。
根据本发明一可选实施方式,该装置还包括:交互式输入单元,用于根据用户输入的信息对所述延迟原因进行筛选、归并或修正。
根据本发明一可选实施方式,所述原因分类单元在建立延迟原因识别模型时,利用关联规则分别确定每个物流线路上各影响因素和延迟原因的共现概率。
根据本发明一可选实施方式,所述出发时间所对应时间段包括:从所述出发时间开始至所述原因识别阶段所覆盖的时间段。
根据本发明一可选实施方式,所述原因分析单元将所述待分析物流线路在所述时间段t的影响因素输入所述延迟原因识别模型后,所述延迟原因识别模型确定所述待分析物流线路的影响因素产生的延迟原因,以及各延迟原因的产生概率;
所述原因分析单元获取所述延迟原因识别模型输出的产生概率超过预设阈值的延迟原因,或者产生概率排在前若干个的延迟原因。
由以上技术方案可以看出,本发明利用各时间段的商品销售记录、各地区在各时间段的外部因素以及各物流线路在各时间段的配送时长信息,建立延迟原因识别模型,将待分析物流线路在出发时间所对应时间段的影响因素输入该延迟原因识别模型就能够自动得到待分析物流线路的延迟原因。
【附图说明】
图1为本发明实施例提供的方法流程图;
图2为电商销售数据库的数据结构实例图;
图3为本发明实施例提供的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明实施例提供的方法流程图,如图1中所示,该方法可以包括以下步骤:
在101中,以预设时间粒度将电商销售数据库中的销售记录进行整合,得到各类别商品在各时间段中的销售记录,其中销售记录可以包括物流线路和销售量。
电商销售数据库中记录了各商品的销售记录,由于电商销售数据库中的各商品具有属性的类别层次,因此电商销售数据库中的数据结构可以体现为如图2中所示的层次结构。
以预设时间粒度将各销售记录进行整合后,可以得到各类别商品在各时间段中的销售记录,假设时间粒度为天,那么可以得到各类别商品每天的销售记录可以按照“商品类别+物流线路+销售时间+销售量”,其中销售量可以采用单数表示,也可以采用销售额表示。例如下所示:
大家电合肥~上海2015年1月1日10000单
大家电合肥~上海2015年1月2日5000单
服装福建~北京2015年1月1日120000单
服装福建~北京2015年1月2日100000单
……
将某物流线路在某时间段上的各类别商品的销售量进行整合,就能够得到该物流线路在该时间段上的商品销售量,分别针对各物流线路在各时间段上执行该整合的操作,就能够得到各物流线路在各时间段的商品销售量。
在102中,以预设时间粒度将影响因素库与媒体数据库中的数据进行整合,得到各地区在各时间段中的外部因素。
影响因素库通常为对物流影响较大、且影响比较稳定的因素,例如气象因素。影响因素库中的数据可以从第三方获取,例如从气象服务部门获取气象数据,存储格式可以诸如:“时间+区域+气象信息”,气象信息中可以包括天气类别、温度等信息。例如:
2015年1月1日杭州晴,10~15度
2015年1月1日乌鲁木齐暴雪,--15~-4度
…
媒体数据库可以包含诸如新闻、数字期刊等传统媒体的数据,也可以包含诸如微博、人人等社交媒体的数据。媒体数据库中记录了从传统媒体或社交媒体获取的影响物流的事件信息,将各时间段内的事件信息作为外部因素。在提取事件信息时,可以采用热点事件的提取方式,例如依据点击量、讨论量、搜索量等的时序特征,对于点击量、讨论量、搜索量等骤升的事件,可以作为热点事件,也可以将特殊通知、特殊新闻等作为热点事件。由于不同类别的媒体都有各自热点事件的提取方式,本发明实施例对于热点事件的提取方式并不加以限制。本发明实施例中可以将热点事件的表现作为影响物流的事件信息,即外部因素。以时间段t2为例,将时间段t2中热点事件的表现作为该热点事件所发生地区在时间段t2的外部因素。
媒体数据库中包含的数据格式可以为“时间+地点+事件信息”,例如:
2015年1月1日北京五环堵车微博讨论量骤升
2015年1月1日贵州省福泉市山体滑坡新闻点击量骤升
2015年1月1日北京二环交通管制
…
需要说明的而是,上述步骤101和步骤102的执行顺序并不加以限制,可以任意的顺序先后执行,也可以同时执行。
在103中,从各类别商品在各时间段中的销售记录和各地区在各时间段的外部因素中,提取各物流线路在各时间段的影响因素。
从各类别商品在各时间段中的销售记录中,可以提取出某物流线路对应销量幅度变化(该幅度变化可以与前一时间段的销量相比,也可以与之前设定时长时间段的销量平均值相比,这里的幅度变化可以包括增幅和降幅)超过预设幅度阈值的时间段,将销量骤升或骤减作为某物流线路在所提取时间段的影响因素。例如在双十一、新年促销等时,某类别商品的销量可能骤升,那么就可以提取出作为影响因素。格式可以为:
大家电合肥~上海2015年1月1日销量骤升
从各时间段的外部因素中,将其中的区域或地点信息作为物流线路的起点或终点,形成如下格式的影响因素:
**~杭州2015年1月1日温度骤升
杭州~**2015年1月1日温度骤升
**~乌鲁木齐2015年1月1日气候暴雪
乌鲁木齐~**2015年1月1日气候暴雪
**~北京2015年1月1日五环堵车微博讨论量骤升
北京~**2015年1月1日五环堵车微博讨论量骤升
**~贵州省福泉市2015年1月1日山体滑坡新闻点击量骤升
贵州省福泉市~**2015年1月1日山体滑坡新闻点击量骤升
…
其中,**为通配符,可以指代任意地点。
在104中,依据各物流线路在各时间段的配送时长信息,确定各物流线路在各时间段的延迟时长信息。
可以预先设定各物流线路的正常配送时长,取实际配送时长与正常配送时长的差值作为延迟时长,这里物流线路在某时间段的实际配送时长可以取该物流线路在该时间段对应的各订单的实际配送时长的平均值。
例如:合肥~上海2015年1月1日延迟18小时
福建~北京2015年1月1日延迟8小时
北京~乌鲁木齐2015年1月1日延迟34小时
……
步骤103与步骤104的执行顺序也不加以限制,可以以任意的顺序先后执行,也可以同时执行。
在105中,确定延迟的各物流线路在各时间段的影响因素以及延迟原因。
在本步骤中,可以依据步骤104中确定的各物流线路在各时间段的延迟时长信息,对各物流线路在各时间段的影响因素进行筛选,筛选出延迟的各物流线路在各时间段的影响因素。在筛选时,可以将延迟时长设定一个阈值,将延迟时长大于该设定的阈值的各物流线路在各时间段的影响因素筛选出来,作为延迟的各物流线路在各时间段的影响因素。
假设设定的阈值为12小时,那么筛选出如下物流线路在时间段的影响因素:
合肥~上海2015年1月1日销量骤升
北京~**2015年1月1日五环堵车微博讨论量骤升
**~乌鲁木齐2015年1月1日气候暴雪
…
然后确定上述造成延迟的各物流线路在各时间段的影响因素对应的延迟原因。在提取延迟原因时,可以预先设置延迟原因词典,该延迟原因词典中包含延迟原因的关键词。如果影响因素中包含这些关键词或者关键词的同义词,则该影响因素就能够映射到具体的延迟原因上。例如,影响因素“五环堵车微博讨论量骤升”包含关键词“堵车”,延迟原因词典中“堵车”对应的延迟原因为“交通堵塞”,则该影响因素对应的延迟原因为“交通堵塞”。影响因素“气候暴雪”包含关键词“大雪”的同义词“暴雪”,延迟原因词典中“大雪”对应的延迟原因为“大雪”,则该影响因素对应的延迟原因为“大雪”。除了该方式之外,也可以采用其他方式确定影响因素对应的延迟原因,例如进行语义分析的方式等。
在本步骤执行完毕后,可以进行人工干预,对上述确定的延迟原因进行筛选、归并或修正。
在106中,基于延迟的各物流线路在各时间段的影响因素以及延迟原因,训练分类模型,从而建立延迟原因识别模型。
在建立延迟原因识别模型时,可以采用关联规则分别确定每个物流线路上各影响因素和延迟原因的共现概率。即针对每个延迟的物流线路进行统计,统计步骤105确定出的该物流线路的条目中影响因素a和延迟原因b同时出现的次数N1,步骤105确定出的该物流线路的总条目数N2,N1和N2的比值就是该物流线路上影响因素a和延迟原因b同时出现的概率。
例如,按照“物流线路+影响因素+延迟原因+概率”的格式,可以得到如下条目:
合肥~上海2015年1月1日销量骤升销量骤升80%
北京~**2015年1月1日五环堵车微博讨论量骤升交通堵塞70%
**~乌鲁木齐2015年1月1日气候暴雪大雪50%
…
以上是延迟原因识别模型的建立过程,上述过程可以是预先建立的,并周期性地或者实时地进行更新。如果需要对某物流线路的延迟原因进行分析,则开始执行以下分析过程:
在107中,获取待分析物流线路以及待分析物流线路的出发时间。
在本发明实施例中,可以从已有的物流车辆监控系统获取已发生延迟的物流车辆信息,该物流车辆信息可以包括该物流车辆对应的物流线路和出发时间,可以将已发生延迟的物流车辆对应的物流线路作为待分析物流线路。
本步骤获取的数据格式可以为“车辆+物流线路+出发时间”,例如下所示:
车辆A北京乌鲁木齐2015年1月15日
在108中,从各类别商品在上述出发时间的销售记录和外部因素中,提取待分析物流线路在该出发时间所对应时间段的影响因素。
由于从出发时间到原因识别阶段之间都可能发生造成延迟的原因事件,因此可以将从出发时间到原因识别阶段所覆盖的时间段作为该出发时间所对应时间段的影响因素。
为了描述方便,将出发时间所对应时间段称为时间段t。本步骤中,影响因素的提取方式与上述103中所述的方式相同,即从各时间段中的销售记录中确定待分析物流线路在时间段t对应的销售记录,将影响因素库与媒体数据库中与待分析物流线路相关的时间段t的数据进行整合,得到待分析物流线路在时间段t的外部因素,然后从确定的销售记录和外部因素中提取影响因素。
例如,北京乌鲁木齐2015年1月15日的外部因素包括:
北京2015年1月15日三环堵车微博讨论量骤升
北京2015年1月15日气候暴雨
北京2015年1月15日暴雨新闻点击量骤升
乌鲁木齐2015年1月15日发生爆炸搜索量骤升
乌鲁木齐2015年1月15日高速车祸微博讨论量骤升
在109中,将待分析物流线路及时间段t、该时间段t对应的影响因素输入延迟原因识别模型,得到该待分析物流线路的延迟原因。
将上述信息输入延迟原因识别模型后,得到的是上述物流线路的影响因素产生的延迟原因,以及各延迟原因的产生概率。可以最终输出产生概率超过预设阈值,或者产生概率排在前M个的延迟原因,M为预设的正整数。例如最终输出:
暴雨 80%
高速事故 60%
以上是对本发明所提供的方法进行的详细描述,下面对本发明提供的装置进行详细描述。
图3为本发明实施例提供的装置结构图,如图3所示,该装置主要包括模型建立单元00和原因识别单元10,还可以包括交互式输入单元20。其中,模型建立单元00用以完成模型建立阶段的功能,原因识别单元10用以完成原因识别阶段的功能。具体地,模型建立单元00可以包括第一因素提取单元01、因素过滤单元02和原因分类单元03。原因识别单元10可以包括监控输入单元11、第二因素提取单元12和原因分析单元13。各组成单元的主要功能如下:
第一因素提取单元01负责从各时间段的商品销售记录和各地区在各时间段的外部因素中,提取各物流线路在各时间段的影响因素。
第一因素提取单元01可以包括:销售因素提取子单元011和外部因素提取子单元012。其中销售因素提取子单元011负责从商品销售记录中确定各物流线路在各时间段的商品销售量;提取出某物流线路对应的销售量幅度变化超过预设幅度阈值的时间段,将销量骤升或骤减作为某物流线路在所提取时间段的影响因素。
其中,将某物流线路在某时间段上的各类别商品的销售量进行整合,就能够得到该物流线路在该时间段上的商品销售量,分别针对各物流线路在各时间段上执行该整合的操作,就能够得到各物流线路在各时间段的商品销售量。
外部因素提取子单元012以预设时间粒度将影响因素库和/或媒体数据库中的数据进行整合,得到各地区在各时间段的外部因素;针对各地区和各时间段分别执行:将地区r作为起点,终点为任意地区形成物流线路,以及将地区r作为终点,起点为任意地区形成物流线路,将地区r在时间段t1的外部因素作为地区r所形成物流线路在时间段t1的外部因素,其中地区r为任一个地区,时间段t1为任一个时间段。
上述的影响因素库通常为对物流影响较大、且影响比较稳定的因素,例如气象因素。影响因素库中的数据可以从第三方获取,例如从气象服务部门获取气象数据。媒体数据库可以包含诸如新闻、数字期刊等传统媒体的数据,也可以包含诸如微博、人人等社交媒体的数据。媒体数据库中记录了从传统媒体或社交媒体获取的影响物流的事件信息。
其中,外部因素提取子单元012在以预设时间粒度将媒体数据库中的数据进行整合时,可以以预设的时间粒度确定媒体数据库中各时间段热点事件的表现;针对各时间段分别执行:将时间段t2中热点事件的表现作为该热点事件所发生地区在时间段t2的外部因素,时间段t2为任一个时间段。热点事件的表现可以是某热点事件的点击量、讨论量、搜索量等的时序特征反映,例如某热点事件的微博讨论量骤升。
因素过滤单元02依据各物流线路在各时间段的配送时长信息,确定发生延迟的各物流线路在各时间段的影响因素以及延迟原因。具体地,可以依据各物流线路在各时间段的配送时长信息,确定各物流线路在各时间段的延迟时长信息;筛选出延迟时长大于设定阈值的各物流线路在各时间段的影响因素;确定筛选出的各物流线路在各时间段的影响因素对应的延迟原因。
其中,因素过滤单元02在确定某影响因素对应的延迟原因时,可以判断该影响因素是否包含延迟原因词典中的关键词或关键词的同义词,如果是,则将该延迟原因词典中关键词所映射的延迟原因作为该影响因素对应的延迟原因。
用户可以通过交互式输入单元20与该装置进行交互,相应地,交互式输入单元20可以根据用户输入的信息对延迟原因进行筛选、归并或修正。
原因分类单元03负责依据发生延迟的各物流线路在各时间段的影响因素以及延迟原因,建立延迟原因识别模型。实际上就是利用各物流线路在各时间段的影响因素以及延迟原因训练分类模型,原因分类单元03在训练分类模型时,可以利用关联规则分别确定每个物流线路上各影响因素和延迟原因的共现概率。
监控输入单元11负责获取待分析物流线路以及出发时间。在本发明实施例中,可以从已有的物流车辆监控系统获取已发生延迟的物流车辆信息,该物流车辆信息可以包括该物流车辆对应的物流线路和出发时间,可以将已发生延迟的物流车辆对应的物流线路作为待分析物流线路。
第二因素提取单元12负责从出发时间所对应时间段t的商品销售记录和物流线路所涉及地区在时间段t的外部因素中,确定待分析物流线路在时间段t的影响因素。第二因素提取单元12的处理原理与第一因素提取单元01相同,也第二因素提取单元12也可以复用第一因素提取单元01来实现。
原因分析单元13负责将待分析物流线路在时间段t的影响因素输入延迟原因识别模型,得到待分析物流线路的延迟原因。
上述的出发时间所对应时间段t可以包括:从出发时间开始至原因识别阶段所覆盖的时间段。
原因分析单元13在将待分析物流线路在时间段t的影响因素输入延迟原因识别模型后,延迟原因识别模型确定待分析物流线路的影响因素产生的延迟原因,以及各延迟原因的产生概率。然后,原因分析单元13获取延迟原因识别模型输出的产生概率超过预设阈值的延迟原因,或者产生概率排在前若干个的延迟原因。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。