CN112463854A - 基于数据分析的关联实体挖掘方法、系统、设备及介质 - Google Patents

基于数据分析的关联实体挖掘方法、系统、设备及介质 Download PDF

Info

Publication number
CN112463854A
CN112463854A CN202011373560.3A CN202011373560A CN112463854A CN 112463854 A CN112463854 A CN 112463854A CN 202011373560 A CN202011373560 A CN 202011373560A CN 112463854 A CN112463854 A CN 112463854A
Authority
CN
China
Prior art keywords
entity
candidate
data
entities
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011373560.3A
Other languages
English (en)
Inventor
刘聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xunmeng Information Technology Co Ltd
Original Assignee
Shanghai Xunmeng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xunmeng Information Technology Co Ltd filed Critical Shanghai Xunmeng Information Technology Co Ltd
Priority to CN202011373560.3A priority Critical patent/CN112463854A/zh
Publication of CN112463854A publication Critical patent/CN112463854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于数据分析的关联实体挖掘方法、系统、设备及介质,该方法包括:获取第一实体的服务资源的列表;查询多个第二实体的历史服务数据,确定与所述第一实体具有重复资源的第二实体,作为候选实体;根据所述重复资源,计算所述候选实体与所述第一实体的关联度;根据所述关联度从所述候选实体中确定所述第一实体的关联实体。本发明基于各个实体的历史服务数据进行联合数据分析,对于第一实体,首先从第二实体中筛选具有重复资源的候选实体,然后根据重复资源的相关数据计算实体之间的关联度,根据关联度挖掘第一实体的关联实体,实现了基于数据分析快速挖掘实体之间的关联关系,关联关系挖掘更为快速和准确。

Description

基于数据分析的关联实体挖掘方法、系统、设备及介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于数据分析的关联实体挖掘方法、系统、设备及介质。
背景技术
随着物流行业的快速发展,物流的配送方式也逐步由低效的上门配送向高效的快递驿站、自提柜等物流服务实体转移。现有的物流服务实体的分布情况并不能实现完全的平衡,常常会出现一个区域内存在多个物流服务实体的情况。对物流服务实体之间的竞争对抗关系进行分析,分析结果可以指导现有实体的下一步经营策略和新的物流服务实体的建立位置。
现有的实体之间的关联关系挖掘的方式一般是基于两个实体之间的位置关系,在确定两个实体的位置之后,认为距离较近的两个实体之间的关联性较强,也就可能会形成竞争对抗关系。但这种方式的挖掘方式准确率比较低,一些相对距离较近的物流服务实体可能由于区位分布特性而并不形成竞争对抗关系。例如,两个物流服务实体距离很近,但是其分布于不同的两个小区,其关联关系实际上并不强。此外,现有的实体关联关系的挖掘方式一般是人工进行分析,一方面分析的效率很低,另一方面可以利用的信息十分有限,无法准确地挖掘实体之间的关联关系。
发明内容
针对现有技术中的问题,本发明的目的在于提供一种基于数据分析的关联实体挖掘方法、系统、设备及介质,基于各个实体的历史服务数据进行联合数据分析,实现快速和准确挖掘实体之间的关联关系。
本发明实施例提供一种基于数据分析的关联实体挖掘方法,包括如下步骤:
获取第一实体的服务资源的列表;
查询多个第二实体的历史服务数据,确定与所述第一实体具有重复资源的第二实体,作为候选实体;
根据所述重复资源,计算所述候选实体与所述第一实体的关联度;
根据所述关联度从所述候选实体中确定所述第一实体的关联实体。
在一些实施例中,所述获取第一实体的服务资源的列表,包括采集预设时间范围内第一实体的历史服务数据,并提取所述第一实体的服务资源的列表。
在一些实施例中,计算所述候选实体与所述第一实体的关联度,包括如下步骤:
根据所述候选实体的历史服务数据,统计所述候选实体的预设统计指标的总数据量,作为第一数据量;
根据所述候选实体对应于所述重复资源的服务数据,统计所述候选实体对应于所述重复资源的预设统计指标的第二数据量;
根据所述第一数据量和所述第二数据量计算所述候选实体与所述第一实体的关联度。
在一些实施例中,所述预设统计指标包括业务单的数量,所述第一数据量包括所述候选实体的总业务单数量,所述第二数据量包括所述候选实体对应于所述重复资源的业务单数量。
在一些实施例中,所述预设统计指标包括服务资源数量,所述第一数据量包括所述候选实体的服务资源总量,所述第二数据量包括所述候选实体的重复资源数量。
在一些实施例中,根据所述第一数据量和与所述第二数据量计算所述候选实体与所述第一实体的关联度,包括如下步骤:
计算所述第二数据量和所述第一数据量的比值,作为所述候选实体与所述第一实体的关联度。
在一些实施例中,所述预设统计指标有多个时,根据所述第一数据量和与所述第二数据量计算所述候选实体与所述第一实体的关联度,包括如下步骤:
分别计算各个所述预设统计指标的第二数据量和第一数据量的比值;
将各个所述预设统计指标所对应的比值加权求和,得到所述候选实体与所述第一实体的关联度。
在一些实施例中,根据所述关联度从所述候选实体中确定所述第一实体的关联实体,包括如下步骤:
确定关联度最高的至少一个候选实体作为所述第一实体的关联实体;或
确定关联度大于预设关联度阈值的候选实体作为所述第一实体的关联实体。
在一些实施例中,计算所述候选实体与所述第一实体的关联度,包括如下步骤:
计算所述候选实体与所述第一实体的重复资源的数量与所述第一实体的服务资源的总量的比值,作为所述候选实体与所述第一实体的关联度;或
计算所述第一实体中与所述候选实体的重复资源的业务单数量与所述第一实体的业务单总数的比值,作为所述候选实体与所述第一实体的关联度。
在一些实施例中,所述第一实体为物流服务实体,所述服务资源包括以收件地址为标识的客户资源;
确定与所述第一实体具有重复资源的第二实体,包括确定与所述第一实体具有相同收件地址的第二实体。
在一些实施例中,所述第二实体为与所述第一实体属于同一地域分区的物流服务实体。
本发明实施例还提供一种基于数据分析的关联实体挖掘系统,应用于所述的基于数据分析的关联实体挖掘方法,所述系统包括:
资源确定模块,用于获取所述第一实体的服务资源的列表;
实体筛选模块,用于查询多个第二实体的历史服务数据,确定与所述第一实体具有重复资源的第二实体,作为候选实体;
关联度计算模块,用于根据所述重复资源,计算所述候选实体与所述第一实体的关联度;
实体关联模块,用于根据所述关联度从所述候选实体中确定所述第一实体的关联实体。
本发明实施例还提供一种基于数据分析的关联实体挖掘设备,包括:
处理器;
存储器,其中存储有所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行所述的基于数据分析的关联实体挖掘方法的步骤。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现所述的基于数据分析的关联实体挖掘方法的步骤。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
本发明的基于数据分析的关联实体挖掘方法、系统、设备及介质具有如下有益效果:
本发明基于各个实体的历史服务数据进行联合数据分析,对于第一实体,首先从第二实体中筛选具有重复资源的候选实体,然后根据重复资源的相关数据计算候选实体和第一实体之间的关联度,根据关联度挖掘与第一实体相关联的关联实体,实现了基于数据分析快速挖掘实体之间的关联关系,并且由于挖掘中充分结合了服务资源和相关服务数据,关联关系挖掘更为准确。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显。
图1是本发明一实施例的基于数据分析的关联实体挖掘方法的流程图;
图2是本发明一实施例的将关联实体挖掘方法应用于物流行业的流程图;
图3是本发明一实施例的计算所述候选实体与所述第一实体的关联度的流程图;
图4是本发明一实施例的基于数据分析的关联实体挖掘系统的结构示意图;
图5是本发明一实施例的关联实体挖掘系统与其他系统之间交互的示意图;
图6是本发明一实施例的关联实体挖掘系统与物流行业其他系统之间交互的示意图;
图7是本发明一实施例的基于数据分析的关联实体挖掘设备的结构示意图;
图8是本发明一实施例的计算机可读存储介质的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
如图1所示,本发明实施例提供一种基于数据分析的关联实体挖掘方法,包括如下步骤:
S100:获取第一实体的服务资源的列表;
S200:查询多个第二实体的历史服务数据,确定与所述第一实体具有重复资源的第二实体,作为候选实体,即选择的候选实体的服务资源与第一实体的服务资源是至少部分重叠的;
S300:根据所述重复资源,计算所述候选实体与所述第一实体的关联度,由于第一实体和候选实体均具有重复的服务资源,在计算关联度时会更具有针对性;
S400:根据所述关联度从所述候选实体中确定所述第一实体的关联实体,即实现了第一实体与其他实体之间关联关系的挖掘。
本发明的关联实体挖掘方法基于各个实体的历史服务数据进行联合数据分析,对于第一实体,首先通过步骤S100和S200从第二实体中筛选具有重复资源的候选实体,然后通过步骤S300根据重复资源的相关数据计算候选实体和第一实体之间的关联度,通过步骤S400根据关联度挖掘与第一实体相关联的关联实体,实现了基于数据分析快速挖掘实体之间的关联关系,并且由于挖掘中充分结合了服务资源和相关服务数据,关联关系挖掘更为准确。
本发明的基于数据分析的关联实体挖掘方法可以应用于各个服务行业的应用场景中。所述第一实体和所述第二实体为具体应用场景下的服务实体。在各个应用场景下,提供一个服务数据管理系统,部署该服务数据管理系统的服务器中存储有各个服务实体的历史服务数据。所述关联实体挖掘方法可以部署于服务数据管理系统的服务器中,也可以部署于一个单独的服务器,而此服务器可以与服务数据管理系统的服务器进行通信。“第一”和“第二”仅为区分不同的实体,而不作为其他含义表示。第一实体为挖掘关联关系的目标实体,第二实体为除了第一实体之外可选的实体。
因此,在该实施例中,所述步骤S100中,获取第一实体的服务资源的列表,包括:从服务数据管理系统中采集预设时间范围内第一实体的历史服务数据。
具体地,该预设时间范围的时间长度可以根据需要设定,例如采集三个月内的历史服务数据,采集一个月内的历史服务数据等,也可以在第一次进行关联实体挖掘时,采用较长的预设时间范围,例如采集一个月内的历史服务数据,从而挖掘到关联实体,后续缩短该统计的预设时间范围的长度,例如采集一天的历史服务数据进行挖掘分析,可以对关联实体与第一实体之间的竞争关系的发展趋势进行分析。
在该实施例中,所述步骤S200中,查询多个第二实体的历史服务数据,包括从服务数据管理系统中采集预设时间范围内第二实体的历史服务数据,以用于后续的关联关系挖掘和分析。
在步骤S400中,根据所述关联度从所述候选实体中确定所述第一实体的关联实体之后,可以进一步将所述第一实体的关联实体的相关信息(例如实体ID、实体名称、实体位置等标识信息)推送给指定的用户端,供用户端查看挖掘得到的关联关系,并且进一步可以将关联实体的关联度一并推送给用户端,以提供直观的关联关系展示。此处,用户端可以是服务实体管理人员使用的终端设备,包括但不限于服务器、台式机、移动终端、平板电脑等。
下面的实施例中以将该基于数据分析的关联实体挖掘方法应用于物流行业为例进行说明,其中,所述第一实体和所述第二实体均为物流服务实体,例如快递驿站、自提柜等。其中所涉及的实体的服务资源包括作为服务对象的客户资源,对应于物流行业,服务资源即为收件方。可理解的是,本发明不限于此,所述基于数据分析的关联实体挖掘方法也可以应用于其他行业的场景中,对应的服务资源即为对应行业中的服务资源。
在应用于物流行业时,所述服务数据管理系统为物流管理中心的收件数据管理系统。所述关联实体挖掘方法可以应用于收件数据管理系统的服务器中,也可以应用于一个单独的服务器中,该服务器可以与收件数据管理系统的服务器进行通信。所述收件数据管理系统中存储有各个实体的收件服务数据,所述收件服务数据中至少包括收件人信息、收件地址、收件时间、进入的物流服务实体的编号等。
具体地,所述第一实体为要分析的目标物流服务实体,例如目标驿站或目标自提柜等。如图2所示,所述步骤S100中,获取第一实体的服务资源的列表即为从所述收件数据管理系统中采集预设时间范围内进入到第一实体的历史收件数据,所述历史收件数据包括收件地址、收件时间、收件人信息等数据,然后从采集的第一实体的历史收件记录中提取所述第一实体的服务资源的列表,此处以收件地址来标识各个收件方,因此,所述第一实体的服务资源的列表即为所述第一实体对应的收件地址的列表。
如图2所示,所述步骤S200中,查询多个第二实体的历史服务数据,包括从所述收件数据管理系统中查询预设时间范围内进入到第二实体的历史收件数据,根据采集的第二实体的历史收件记录中查找与第一实体的收件地址有重合的第二实体,将这些有重合收件地址的第二实体作为候选实体。
通过根据历史收件记录中的收件地址(即服务资源)的比较,选择有重复资源即重复收件地址的第二实体作为后续实体,可以减少在步骤S300中计算关联度的第二实体的数量,避免进行过多无效的数据挖掘,而影响关联关系挖掘的速度,从而提高了关联关系挖掘的效率,并且减小了在关联关系挖掘过程中的数据处理负担。
例如,对于第一实体甲,其收件地址的列表有a、b、c、d,有多个可选的第二实体乙、丙、丁。第二实体乙与第一实体甲具有共同的收件地址a、b,第二实体丙与第一实体甲具有共同的收件地址a、c,第二实体丁与第一实体甲没有交叉的收件地址。因此,第二实体乙和第二实体丙即为第一实体甲的候选实体,下面称为候选实体丙和候选实体丁。
在该实施例中,在步骤S200之前,为了减少历史服务数据的数据分析量,可以首先对于可选的实体进行一个筛选。即将所述第二实体限定为与所述第一实体属于同一地域分区的物流服务实体。例如,以市级区域进行划分。对于目标分析的第一实体来说,其第二实体即为与第一实体在同一个市的物流服务实体。以区级区域进行划分时,对于目标分析的第一实体来说,其第二实体即为与第一实体在同一个区的物流服务实体。通过采用地域分区的方式首先进行第二实体的选择,可以避免在过大范围内进行数据分析和关联关系的挖掘,提高了关联关系挖掘的针对性,也减少了数据采集和数据处理的负担。
如图2所示,所述步骤S300中,计算候选实体与第一实体的关联度,即根据重复收件地址的相关数据,计算候选实体与第一实体的关联度。下面,结合具体的几种实施方式来具体介绍此处如何根据重复收件地址的相关数据计算候选实体与第一实体的关联度。
如图3所示,在该实施例中,所述步骤S300中,计算所述候选实体与所述第一实体的关联度,可以基于历史服务数据进行预设统计指标的关联性计算,来确定关联度。具体地,所述步骤S300包括如下步骤:
S310:根据所述候选实体的历史服务数据,统计所述候选实体的预设统计指标的总数据量,作为第一数据量x;
S320:根据所述候选实体对应于所述重复资源的服务数据,统计所述候选实体对应于所述重复资源的预设统计指标的第二数据量y;
S330:根据所述第一数据量x和所述第二数据量y计算所述候选实体与所述第一实体的关联度。
在该实施例中,所述步骤S330中,根据所述第一数据量和与所述第二数据量计算所述候选实体与所述第一实体的关联度,包括计算所述第二数据量x和所述第一数据量y的比值,作为所述候选实体与所述第一实体的关联度。
在一种实施方式中,所述预设统计指标可以包括业务单的数量,所述第一数据量x包括所述候选实体的总业务单数量x1,所述第二数据量y包括所述候选实体对应于所述重复资源的业务单数量y1。计算关联度时,即为计算业务单数量y1和总业务单数量x1的比值,作为所述候选实体与所述第一实体的关联度。
以物流行业为例,所述业务单的数量可以为预设时间范围内进入到候选实体的收件量。所述总业务单数量x1为所述候选实体在预设时间范围内的总收件量x1,所述业务单数量y1为所述候选实体在预设时间范围内对应于所述重复资源的收件量y1。计算关联度时,即为计算收件量y1和总收件量x1的比值,作为所述候选实体与所述第一实体的关联度。
以上述的第一实体甲和候选实体乙、丙为例进行说明。对于第一实体甲,其收件地址的列表有a、b、c、d,候选实体乙与第一实体甲具有共同的收件地址a、b,候选实体丙与第一实体甲具有共同的收件地址a、c。计算候选实体乙与第一实体甲的关联度时,候选实体乙在预设时间范围内的总收件量x1为100件,其中属于收件地址a、b的收件量y1为80。收件量y1和总收件量x1的比值为0.8,即候选实体乙与第一实体甲的关联度为80/100=0.8。计算候选实体丙与第一实体甲的关联度时,候选实体丙在预设时间范围内的总收件量x1为200件,其中属于收件地址a、c的收件量y1为120。收件量y1和总收件量x1的比值为120/200=0.6,即候选实体丙与第一实体甲的关联度为0.6。
在另一种可替代的实施方式中,所述预设统计指标也可以包括服务资源数量,所述第一数据量x包括所述候选实体的服务资源总量x2,所述第二数据量y包括所述候选实体的重复资源数量y2。
以应用于物流行业为例进行说明,所述预设统计指标即包括收件方数量,在以收件地址作为收件方标识时,即包括收件地址数量。所述第一数据量x包括所述候选实体的收件地址总数x2,所述第二数据量y包括所述候选实体与第一实体重复的收件地址的数量y2。
以上述的第一实体甲和候选实体乙、丙为例进行说明。对于第一实体甲,其收件地址的列表有a、b、c、d,候选实体乙与第一实体甲具有共同的收件地址a、b,候选实体丙与第一实体甲具有共同的收件地址a、c。计算候选实体乙与第一实体甲的关联度时,候选实体乙的收件地址总数x2为10个,其与第一实体甲的重复的收件地址的数量为2个,则候选实体乙与第一实体甲之间的关联度为2/10=0.2。计算候选实体丙与第一实体甲的关联度时,候选实体丙的收件地址总数x2为5个,其与第一实体甲的重复的收件地址的数量为2个,则候选实体丙与第一实体甲之间的关联度为2/5=0.4。
在再一种可替代的实施方式中,所述预设统计指标也可以有多个。所述预设统计指标有多个时,根据所述第一数据量和与所述第二数据量计算所述候选实体与所述第一实体的关联度,包括如下步骤:
分别计算各个所述预设统计指标的第二数据量和第一数据量的比值;
将各个所述预设统计指标所对应的比值加权求和,得到所述候选实体与所述第一实体的关联度。
例如,所述预设统计指标包括业务单的数量和服务资源数量。首先计算各个所述预设统计指标的第二数据量和第一数据量的比值时,包括计算候选实体对应于重复资源的收件量y1和总收件量x1的比值y1/x1,计算候选实体与第一实体重复的收件地址的数量y2和收件地址的总数x2的比值y2/x2。然后将y1/x1和y2/x2加权求和k1(y1/x1)+k2(y2/x2),得到求和的结果,作为候选实体与第一实体的关联度。k1和k2分别表示业务单量的权值和服务资源数量的权值。
在再一种可替代的实施方式中,所述步骤S300中计算所述候选实体与所述第一实体的关联度,也可以结合候选实体的历史服务数据和第一实体的历史服务数据来进行计算。具体地,在该种实施方式中,所述步骤S300包括计算所述候选实体与所述第一实体的重复资源的数量y3与所述第一实体的服务资源的总量x3的比值y3/x3,作为所述候选实体与所述第一实体的关联度。
以上述的第一实体甲和候选实体乙、丙为例进行说明。对于第一实体甲,其收件地址的列表有a、b、c、d,候选实体乙与第一实体甲具有共同的收件地址a、b,候选实体丙与第一实体甲具有共同的收件地址a、c。计算候选实体乙与第一实体甲的关联度时,第一实体甲的服务资源的总量x3为4,候选实体乙与第一实体的重复资源的数量y3为2,则候选实体乙与第一实体甲的关联度为2/4=0.5。对于候选实体丙来说,由于其与第一实体的重复资源的数量y3也为2,则候选实体丙与第一实体甲的关联度也为2/4=0.5。
在再一种可替代的实施方式中,所述步骤S300还可以包括计算所述第一实体中与所述候选实体的重复资源的业务单数量y4与所述第一实体的业务单总数x4的比值y4/x4,作为所述候选实体与所述第一实体的关联度。
以上述的第一实体甲和候选实体乙、丙为例进行说明。对于第一实体甲,其收件地址的列表有a、b、c、d,候选实体乙与第一实体甲具有共同的收件地址a、b,候选实体丙与第一实体甲具有共同的收件地址a、c。计算候选实体乙与第一实体甲的关联度时,第一实体甲的业务单总量x4为150,候选实体乙与第一实体的重复资源的业务单数量y4为80,则候选实体乙与第一实体甲的关联度为80/150。对于候选实体丙来说,其与第一实体的重复资源的业务单数量y4为120,则候选实体丙与第一实体甲的关联度为120/150。
进一步地,也可以将上述比值y3/x3和比值y4/x4进行结合,k3(y3/x3)+k4(y4/x4),得到求和的结果,作为候选实体与第一实体的关联度。k3和k4分别表示y3/x3的权值和y4/x4的权值。进一步地,也可以将上述比值y3/x3、比值y4/x4、比值y2/x2、比值y1/x1中的任意一种进行组合,将其进行加权求和,得到的和为候选实体与第一实体之间的关联度,均属于本发明的保护范围之内。其中,本发明的各个比值的权值均可以根据实际需要设定和修改。
在采用上述任一种方式计算得到候选实体与第一实体的关联度后,可以从第一实体中进一步挖掘得到关联实体。在一种实施方式中,所述步骤S400中,根据所述关联度从所述候选实体中确定所述第一实体的关联实体,包括确定关联度最高的至少一个候选实体作为所述第一实体的关联实体。例如对于第一实体甲来说,有50个候选实体,其中选择关联度值最高的5个候选实体作为第一实体的关联实体。选择的关联实体的数量可以根据需要设定和调整。
在另一种实施方式中,所述步骤S400中,根据所述关联度从所述候选实体中确定所述第一实体的关联实体,也可以采用确定关联度大于预设关联度阈值的候选实体作为所述第一实体的关联实体的方式。此处关联度阈值的数值可以根据需要设定和调整。其中,关联度阈值设定得较高时,挖掘得到的第一实体的关联实体的数量相对来说会较少。
如图2所示,所述步骤S400中,根据关联度从候选实体中确定了第一关联实体之后,可以进一步将第一实体和关联实体的关联关系发送至用户端,供用户端查看和分析。此处用户端例如可以是物流公司管理人员使用的终端。
如图4所示,本发明实施例还提供一种基于数据分析的关联实体挖掘系统M100,应用于所述的基于数据分析的关联实体挖掘方法,所述系统包括:
资源确定模块M110,用于获取所述第一实体的服务资源的列表;
实体筛选模块M120,用于查询多个第二实体的历史服务数据,确定与所述第一实体具有重复资源的第二实体,作为候选实体;
关联度计算模块M130,用于根据所述重复资源,计算所述候选实体与所述第一实体的关联度;
实体关联模块M140,用于根据所述关联度从所述候选实体中确定所述第一实体的关联实体。
本发明的关联实体挖掘系统M100基于各个实体的历史服务数据进行联合数据分析,对于第一实体,首先通过资源确定模块M110和实体筛选模块M120从第二实体中筛选具有重复资源的候选实体,然后通过关联度计算模块M130根据重复资源的相关数据计算候选实体和第一实体之间的关联度,通过实体关联模块M140根据关联度挖掘与第一实体相关联的关联实体,实现了基于数据分析快速挖掘实体之间的关联关系,并且由于挖掘中充分结合了服务资源和相关服务数据,关联关系挖掘更为准确。
本发明的基于数据分析的关联实体挖掘系统可以部署于各个服务行业的应用场景中。所述第一实体和所述第二实体为具体应用场景下的服务实体。在各个应用场景下,提供一个服务数据管理系统,部署该服务数据管理系统的服务器中存储有各个服务实体的历史服务数据。图5为将该关联实体挖掘系统M100部署于一个单独的服务器中,与服务数据管理系统M200进行通信的示意图。所述关联实体挖掘系统M100可以从服务数据管理系统M200中获取data1和data2,此处data1指的是需要分析的第一实体在预设时间范围的历史服务数据,data2指的是除第一实体之外的第二实体在预设时间范围的历史服务数据。所述关联实体挖掘系统M100基于数据分析得到第一实体的关联实体之后,可以进一步将第一实体和关联实体的关联关系发送给用户端M300,所述用户端M300配置为接收到所述关联实体挖掘系统M100的关联关系挖掘数据之后,显示与第一实体具有竞争关系的关联实体,并且可以进一步显示第一实体和关联实体之间的关联度,以显示关联关系即竞争关系的强弱。
可以通过配置预设时间范围的长度来实现关联关系即竞争关系分析的时间范围。例如,在第一次挖掘时,可以先将预设时间范围设置得较长,例如月级别,从而发现现有的服务实体之间的关联关系。然后在后续挖掘时,可以将预设时间范围设置得较短,例如天级别,并且通过多次关联关系挖掘结果中两个实体之间关联度的比较,可以进一步分析服务实体之间关联关系的发展趋势。
所述关联实体挖掘系统可以应用于物流行业或其他服务行业中。在应用于物流行业时,第一实体和第二实体可以是物流服务实体,例如快递驿站、快递柜等,所述服务资源包括以收件地址为标识的客户资源,所述候选实体为与所述第一实体具有重复收件地址的客户资源的第二实体。本发明的方法可以实现不同的物流服务实体之间的关联关系挖掘。所述关联实体挖掘系统可以部署于物流管理中心的收件数据管理系统的服务器中,也可以部署于一个单独的服务器中,该服务器可以与物流管理中心的收件数据管理系统的服务器进行通信。图6为将该关联实体挖掘系统M100部署于一个单独的服务器中,与收件数据管理系统M200进行通信的示意图。所述收件数据管理系统M200可以从各个物流公司和/或物流网点的数据管理系统M400获取到物流数据,将其中的收件数据进行保存。收件数据至少包括收件人信息、收件地址、收件时间、进入的物流服务实体的编号等。所述关联实体挖掘系统M100可以从收件数据管理系统M200中获取data1和data2,此处data1指的是需要分析的第一实体在预设时间范围的历史收件数据,data2指的是除第一实体之外的第二实体在预设时间范围的历史收件数据。所述关联实体挖掘系统M100基于数据分析得到第一实体的关联实体之后,可以进一步将第一实体和关联实体的关联关系发送给用户端M300,所述用户端M300配置为接收到所述关联实体挖掘系统M100的关联关系挖掘数据之后,显示与第一实体具有竞争关系的关联实体,并且可以进一步显示第一实体和关联实体之间的关联度,以显示关联关系即竞争关系的强弱。所述用户端M300可以是物流公司管理人员的用户终端。
所述关联度计算模块M130可以采用上述步骤S300的具体实施方式来计算两个实体之间的关联度。例如,所述关联度计算模块M130计算关联度包括:根据所述候选实体的历史服务数据,统计所述候选实体的预设统计指标的总数据量,作为第一数据量;根据所述候选实体对应于所述重复资源的服务数据,统计所述候选实体对应于所述重复资源的预设统计指标的第二数据量;根据所述第一数据量和所述第二数据量计算所述候选实体与所述第一实体的关联度。其中,预设统计指标可以包括一个指标或多个指标,在所述预设统计指标有一个指标时,可以通过计算第二数据量和第一数据量的比值来计算第一实体和候选实体之间的关联度,在所述预设统计指标有多个指标时,可以分别计算每个指标的第二数据量和第一数据量的比值,然后将每个指标对应的比值进行加权求和,得到第一实体和候选实体之间的关联度。
在另一种可替代的实施方式中,所述关联度计算模块M130计算关联度包括:计算所述候选实体与所述第一实体的重复资源的数量与所述第一实体的服务资源的总量的比值,作为所述候选实体与所述第一实体的关联度。在再一种可替代的实施方式中,所述关联度计算模块M130计算关联度包括:计算所述第一实体中与所述候选实体的重复资源的业务单数量与所述第一实体的业务单总数的比值,作为所述候选实体与所述第一实体的关联度。在其他可替代的实施方式中,所述关联度计算模块M130也可以将上述各种方式结合起来计算实体之间的关联度,或者采用其他方式,基于历史服务数据的分析挖掘计算实体之间的关联度,均属于本发明的保护范围之内。
所述实体关联模块M140可以采用上述步骤S400的具体实施方式来确定关联实体。例如,所述实体关联模块M140确定所述第一实体的关联实体,包括:确定关联度最高的至少一个候选实体作为所述第一实体的关联实体。或者,所述实体关联模块M140确定所述第一实体的关联实体,包括:确定关联度大于预设关联度阈值的候选实体作为所述第一实体的关联实体。
本发明实施例还提供一种基于数据分析的关联实体挖掘设备,包括处理器;存储器,其中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行所述的基于数据分析的关联实体挖掘方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
下面参照图7来描述根据本发明的这种实施方式的电子设备600。图7显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述基于数据分析的关联实体挖掘方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
所述基于数据分析的关联实体挖掘设备中,所述存储器中的程序被处理器执行时实现所述的基于数据分析的关联实体挖掘方法的步骤,因此,所述计算机存储介质也可以获得上述基于数据分析的关联实体挖掘方法的技术效果。
本发明实施例还提供一种计算机可读存储介质,用于存储程序,所述程序被处理器执行时实现所述的基于数据分析的关联实体挖掘方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上执行时,所述程序代码用于使所述终端设备执行本说明书上述基于数据分析的关联实体挖掘方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上执行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
所述计算机存储介质中的程序被处理器执行时实现所述的基于数据分析的关联实体挖掘方法的步骤,因此,所述计算机存储介质也可以获得上述基于数据分析的关联实体挖掘方法的技术效果。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (14)

1.一种基于数据分析的关联实体挖掘方法,其特征在于,所述方法包括:
获取第一实体的服务资源的列表;
查询多个第二实体的历史服务数据,确定与所述第一实体具有重复资源的第二实体,作为候选实体;
根据所述重复资源,计算所述候选实体与所述第一实体的关联度;
根据所述关联度从所述候选实体中确定所述第一实体的关联实体。
2.根据权利要求1所述的基于数据分析的关联实体挖掘方法,其特征在于,所述获取第一实体的服务资源的列表,包括采集预设时间范围内第一实体的历史服务数据,并提取所述第一实体的服务资源的列表。
3.根据权利要求1所述的基于数据分析的关联实体挖掘方法,其特征在于,计算所述候选实体与所述第一实体的关联度,包括如下步骤:
根据所述候选实体的历史服务数据,统计所述候选实体的预设统计指标的总数据量,作为第一数据量;
根据所述候选实体对应于所述重复资源的服务数据,统计所述候选实体对应于所述重复资源的预设统计指标的第二数据量;
根据所述第一数据量和所述第二数据量计算所述候选实体与所述第一实体的关联度。
4.根据权利要求3所述的基于数据分析的关联实体挖掘方法,其特征在于,所述预设统计指标包括业务单的数量,所述第一数据量包括所述候选实体的总业务单数量,所述第二数据量包括所述候选实体对应于所述重复资源的业务单数量。
5.根据权利要求3所述的基于数据分析的关联实体挖掘方法,其特征在于,所述预设统计指标包括服务资源数量,所述第一数据量包括所述候选实体的服务资源总量,所述第二数据量包括所述候选实体的重复资源数量。
6.根据权利要求1所述的基于数据分析的关联实体挖掘方法,其特征在于,根据所述第一数据量和与所述第二数据量计算所述候选实体与所述第一实体的关联度,包括如下步骤:
计算所述第二数据量和所述第一数据量的比值,作为所述候选实体与所述第一实体的关联度。
7.根据权利要求1所述的基于数据分析的关联实体挖掘方法,其特征在于,所述预设统计指标有多个时,根据所述第一数据量和与所述第二数据量计算所述候选实体与所述第一实体的关联度,包括如下步骤:
分别计算各个所述预设统计指标的第二数据量和第一数据量的比值;
将各个所述预设统计指标所对应的比值加权求和,得到所述候选实体与所述第一实体的关联度。
8.根据权利要求1所述的基于数据分析的关联实体挖掘方法,其特征在于,根据所述关联度从所述候选实体中确定所述第一实体的关联实体,包括如下步骤:
确定关联度最高的至少一个候选实体作为所述第一实体的关联实体;或
确定关联度大于预设关联度阈值的候选实体作为所述第一实体的关联实体。
9.根据权利要求1所述的基于数据分析的关联实体挖掘方法,其特征在于,计算所述候选实体与所述第一实体的关联度,包括如下步骤:
计算所述候选实体与所述第一实体的重复资源的数量与所述第一实体的服务资源的总量的比值,作为所述候选实体与所述第一实体的关联度;或
计算所述第一实体中与所述候选实体的重复资源的业务单数量与所述第一实体的业务单总数的比值,作为所述候选实体与所述第一实体的关联度。
10.根据权利要求1所述的基于数据分析的关联实体挖掘方法,其特征在于,所述第一实体为物流服务实体,所述服务资源包括以收件地址为标识的客户资源;
确定与所述第一实体具有重复资源的第二实体,包括确定与所述第一实体具有相同收件地址的第二实体。
11.根据权利要求9所述的基于数据分析的关联实体挖掘方法,其特征在于,所述第二实体为与所述第一实体属于同一地域分区的物流服务实体。
12.一种基于数据分析的关联实体挖掘系统,其特征在于,应用于权利要求1至11中任一项所述的基于数据分析的关联实体挖掘方法,所述系统包括:
资源确定模块,用于获取所述第一实体的服务资源的列表;
实体筛选模块,用于查询多个第二实体的历史服务数据,确定与所述第一实体具有重复资源的第二实体,作为候选实体;
关联度计算模块,用于根据所述重复资源,计算所述候选实体与所述第一实体的关联度;
实体关联模块,用于根据所述关联度从所述候选实体中确定所述第一实体的关联实体。
13.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行根据权利要求1至11任一项所述的基于数据分析的关联实体挖掘方法。
14.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器运行时执行根据权利要求1至11任一项所述的基于数据分析的关联实体挖掘方法。
CN202011373560.3A 2020-11-30 2020-11-30 基于数据分析的关联实体挖掘方法、系统、设备及介质 Pending CN112463854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011373560.3A CN112463854A (zh) 2020-11-30 2020-11-30 基于数据分析的关联实体挖掘方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011373560.3A CN112463854A (zh) 2020-11-30 2020-11-30 基于数据分析的关联实体挖掘方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN112463854A true CN112463854A (zh) 2021-03-09

Family

ID=74806591

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011373560.3A Pending CN112463854A (zh) 2020-11-30 2020-11-30 基于数据分析的关联实体挖掘方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN112463854A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136289A (zh) * 2011-12-05 2013-06-05 腾讯科技(深圳)有限公司 资源推荐方法及系统
CN108519998A (zh) * 2018-03-07 2018-09-11 北京云知声信息技术有限公司 基于知识图谱的问题引导方法及装置
CN109241068A (zh) * 2018-08-22 2019-01-18 中国平安人寿保险股份有限公司 前后台数据比对的方法、装置及终端设备
CN109271426A (zh) * 2018-10-10 2019-01-25 中科鼎富(北京)科技发展有限公司 企业关联关系分析方法、装置及计算机可读存储介质
CN110647522A (zh) * 2019-09-06 2020-01-03 中国建设银行股份有限公司 一种数据挖掘方法、装置及其系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103136289A (zh) * 2011-12-05 2013-06-05 腾讯科技(深圳)有限公司 资源推荐方法及系统
CN108519998A (zh) * 2018-03-07 2018-09-11 北京云知声信息技术有限公司 基于知识图谱的问题引导方法及装置
CN109241068A (zh) * 2018-08-22 2019-01-18 中国平安人寿保险股份有限公司 前后台数据比对的方法、装置及终端设备
CN109271426A (zh) * 2018-10-10 2019-01-25 中科鼎富(北京)科技发展有限公司 企业关联关系分析方法、装置及计算机可读存储介质
CN110647522A (zh) * 2019-09-06 2020-01-03 中国建设银行股份有限公司 一种数据挖掘方法、装置及其系统

Similar Documents

Publication Publication Date Title
CN108122012B (zh) 常驻点中心点的确定方法、装置、设备及存储介质
CN109241068B (zh) 前后台数据比对的方法、装置及终端设备
CN110135590B (zh) 信息处理方法、装置、介质及电子设备
CN111245642A (zh) 一种获取多系统之间的依赖关系的方法、装置和电子设备
CN110688536A (zh) 一种标签预测方法、装置、设备和存储介质
CN109388657A (zh) 数据处理方法、装置、计算机设备及存储介质
CN112016855B (zh) 基于关系网匹配的用户行业识别方法、装置和电子设备
CN111294730A (zh) 一种网络问题投诉信息处理的方法及装置
CN112328688A (zh) 数据存储方法、装置、计算机设备及存储介质
CN109684198B (zh) 待测试数据获取方法、装置、介质、电子设备
CN113656315B (zh) 数据测试方法、装置、电子设备和存储介质
CN107644366B (zh) 订单欺诈识别方法、系统、存储介质和电子设备
CN112463854A (zh) 基于数据分析的关联实体挖掘方法、系统、设备及介质
CN116228429A (zh) 一种检测交易数据的方法和装置
CN109857816B (zh) 测试样本的选取方法及装置、存储介质、电子设备
CN108961071B (zh) 自动预测组合业务收益的方法及终端设备
CN114880600A (zh) 展示酒店信息的方法、装置、电子设备、存储介质
CN114022045A (zh) 一种区域经济发展水平确定方法、装置及终端设备
CN113434770A (zh) 电子商务与大数据结合的业务画像分析方法及系统
CN111563178A (zh) 规则逻辑图对比方法、装置、介质及电子设备
CN113609451B (zh) 一种基于关系网特征衍生的风险设备识别方法及装置
CN109800981B (zh) 阈值设定方法及装置、存储介质、电子设备
CN113626070B (zh) 代码质量指标的配置方法、装置、设备及存储介质
CN117196651B (zh) 基于数据异步处理的企业异常监控方法、装置及存储介质
CN112866628B (zh) 图像采集器名称确定方法、装置、服务器及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination